国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<th id="eeock"></th>

<blockquote id="eeock"></blockquote>

<th id="eeock"><kbd id="eeock"></kbd></th>

<samp id="eeock"><tbody id="eeock"></tbody></samp>

<th id="eeock"></th>

<samp id="eeock"></samp>

?

基于聯(lián)合特征的釣魚(yú)網(wǎng)頁(yè)分類(lèi)方法

2018-03-21 09:07:44賈雪鵬容曉峰

電子技術(shù)與軟件工程 2018年2期

關(guān)鍵詞：機(jī)器學(xué)習(xí)

賈雪鵬容曉峰

摘要本文系統(tǒng)地描述了一種基于聯(lián)合特征的釣魚(yú)網(wǎng)頁(yè)檢測(cè)方法。提取了41項(xiàng)特征作為基礎(chǔ)特征，結(jié)合信息增益和遞歸特征刪除兩種方法的排序結(jié)果計(jì)算特征重要度。引入聯(lián)合特征率R（0

【關(guān)鍵詞】機(jī)器學(xué)習(xí) 釣魚(yú)網(wǎng)頁(yè)檢測(cè) 聯(lián)合特征最優(yōu)分類(lèi)模型

1 簡(jiǎn)介

釣魚(yú)網(wǎng)頁(yè)攻擊指騙者制作的一個(gè)模仿合法組織網(wǎng)站的網(wǎng)頁(yè)，將引誘用戶訪問(wèn)這個(gè)網(wǎng)頁(yè)，并在網(wǎng)頁(yè)上呈現(xiàn)出請(qǐng)求用戶私密信息的輸入字段，如登錄個(gè)人網(wǎng)上銀行賬戶的詳細(xì)信息。網(wǎng)絡(luò)釣魚(yú)攻擊危害嚴(yán)重，在全球范圍內(nèi)，存在至少255，065次獨(dú)立的網(wǎng)絡(luò)釣魚(yú)攻擊。同比2015年發(fā)現(xiàn)的230，280次攻擊增加了超過(guò)10%。因此網(wǎng)絡(luò)釣魚(yú)防護(hù)和預(yù)測(cè)愈發(fā)成為網(wǎng)絡(luò)安全領(lǐng)域乃至整個(gè)互聯(lián)網(wǎng)發(fā)展的研究重點(diǎn)。綜上所述，論文主要針對(duì)釣魚(yú)網(wǎng)頁(yè)檢測(cè)研究一種基于聯(lián)合特征的機(jī)器學(xué)習(xí)分類(lèi)方法，探究特征種類(lèi)和數(shù)量對(duì)機(jī)器學(xué)習(xí)分類(lèi)模型的影響。

為了提取最具網(wǎng)頁(yè)表示性的特征，從三種來(lái)源進(jìn)行提?。?/p>

（1）URL鏈接特征。研究最多的是提取URL詞匯和主機(jī)特征；

（2）網(wǎng)頁(yè)內(nèi)容特征。網(wǎng)頁(yè)內(nèi)容決定了網(wǎng)頁(yè)的性質(zhì)，對(duì)于網(wǎng)頁(yè)內(nèi)容的特征分為兩個(gè)部分：頁(yè)面結(jié)構(gòu)特征和頁(yè)面文本特征。

（3）第三方服務(wù)信息特征。例如WHOIS信息和網(wǎng)頁(yè)排名。大多數(shù)啟發(fā)式方法基于機(jī)器學(xué)習(xí)分類(lèi)算法對(duì)釣魚(yú)網(wǎng)頁(yè)進(jìn)行檢測(cè)。其中包括邏輯回歸、SVM、樸素貝葉斯、決策樹(shù)、隨機(jī)森林、提升算法等。第2章將介紹數(shù)據(jù)集和特征的構(gòu)建、分類(lèi)算法的選擇。第3章將通過(guò)實(shí)驗(yàn)確定最優(yōu)分類(lèi)算法，同時(shí)對(duì)比使用基礎(chǔ)特征和聯(lián)合特征對(duì)模型分類(lèi)能力的影響作用。第4章總結(jié)論文的實(shí)驗(yàn)成果。

2 特征工程

2.1 特征選擇

本章將對(duì)特征選擇和特征評(píng)估、數(shù)據(jù)集構(gòu)建和分類(lèi)模型進(jìn)行詳細(xì)的介紹。論文選擇的URL鏈接特征主要包括：URL結(jié)構(gòu)特征和文本特征。論文提出的URL結(jié)構(gòu)特征包括：

（1）URL、domain、path、query的總長(zhǎng)度、最長(zhǎng)token長(zhǎng)度和token平均長(zhǎng)度。

（2）URL中“.”，“/”，“@”，“-”和非字母的個(gè)數(shù)。

（3）URL中是否包含IP地址、敏感詞匯和目標(biāo)組織。

（4）http 或https。

（5）URL各部分的n-gram。

（6）數(shù)字/字母比例。網(wǎng)頁(yè)內(nèi)容特征包括：表單中的標(biāo)簽的個(gè)數(shù)和是否包括圖標(biāo)。第三方信息特征包括域名的注冊(cè)時(shí)間和基于Alexa排名的聯(lián)合得分。

2.2 聯(lián)合特征

引入聯(lián)合特征率R（0

3 實(shí)驗(yàn)與結(jié)果

3.1 數(shù)據(jù)集

論文從PhishTank中提取釣魚(yú)網(wǎng)頁(yè)樣本，從DMOZ中提取合法網(wǎng)頁(yè)樣本。將收集到的釣魚(yú)網(wǎng)頁(yè)和合法網(wǎng)頁(yè)數(shù)據(jù)拆分成訓(xùn)練集（釣魚(yú)網(wǎng)頁(yè)15000；合法網(wǎng)頁(yè)20000）和測(cè)試集（釣魚(yú)網(wǎng)頁(yè)2000；合法網(wǎng)頁(yè)2000）兩部分。

3.2 最優(yōu)分類(lèi)模型

3.2.1 基于基礎(chǔ)特征的模型對(duì)比

邏輯回歸、隨機(jī)森林、Adaboost、神經(jīng)網(wǎng)絡(luò)四種最優(yōu)參數(shù)模型的ROC_AUC值，曲線覆蓋面積越大表明模型分類(lèi)能力越強(qiáng)。各種模型對(duì)釣魚(yú)網(wǎng)頁(yè)的分類(lèi)能力（F1值）：隨機(jī)森林0.978> 神經(jīng)網(wǎng)絡(luò)MLP 0.968> Adaboost 0.960> 邏輯回歸0.887。隨機(jī)森林和神經(jīng)網(wǎng)絡(luò)MLP兩種非線性模型的表現(xiàn)明顯更加優(yōu)秀；而屬于線性模型的邏輯回歸表現(xiàn)不佳。

3.2.2基于聯(lián)合特征的模型對(duì)比

測(cè)試上節(jié)中四種最優(yōu)參數(shù)模型在不同聯(lián)合特征率R下的模型分類(lèi)質(zhì)量。表1為在選擇不同聯(lián)合特征率的情況下四種分類(lèi)模型的F1值，其中橫坐標(biāo)表示聯(lián)合特征率（0代表沒(méi)有做特征擴(kuò)充），縱坐標(biāo)表示模型的F1值。

由表1得四種分類(lèi)模型能力（最大F1值）：

（1）邏輯回歸模型0.903，基本不變。

（2）隨機(jī)森林模型0.983，是四種分類(lèi)模型中的最優(yōu)模型，隨機(jī)森林分類(lèi)能力隨著聯(lián)合特征率的增加有小規(guī)模提升。

（3）Adaboost模型0.961，基本不變。

（4）神經(jīng)網(wǎng)絡(luò)MLP 0.980，隨特征數(shù)的增加其分類(lèi)能力逐步提升，說(shuō)明特征數(shù)量和特征質(zhì)量對(duì)神經(jīng)網(wǎng)絡(luò)分類(lèi)模型影響較大。

4 結(jié)論

論文主要通過(guò)三個(gè)主要階段：特征選擇、特征聯(lián)合、確定最優(yōu)分類(lèi)模型，研究了基于聯(lián)合特征的釣魚(yú)網(wǎng)頁(yè)分類(lèi)問(wèn)題。主要成果：

（1）根據(jù)已有研究成果選擇了41個(gè)具有代表性的基礎(chǔ)特征。

（2）使用特征交叉方法對(duì)基礎(chǔ)特征進(jìn)行特征擴(kuò)充，引入聯(lián)合特征率R，R越大，重組的特征越多。

（3）分別根據(jù)基礎(chǔ)特征和不同聯(lián)合特征對(duì)比四種最優(yōu)參數(shù)模型，得出隨機(jī)森林分類(lèi)能力最強(qiáng)，而神經(jīng)網(wǎng)絡(luò)模型的分類(lèi)能力隨特征數(shù)的增多而增強(qiáng)，模型潛力巨大。

作者單位

西安工業(yè)大學(xué) 陜西省西安市 710021

猜你喜歡

機(jī)器學(xué)習(xí)

基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析

電子技術(shù)與軟件工程(2016年22期)2016-12-26 21:36:42

基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用

科技創(chuàng)新與應(yīng)用(2016年31期)2016-12-03 03:33:48

基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析

時(shí)代金融(2016年27期)2016-11-25 17:51:36

前綴字母為特征在維吾爾語(yǔ)文本情感分類(lèi)中的研究

科教導(dǎo)刊(2016年26期)2016-11-15 20:19:33

下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用

活力(2016年8期)2016-11-12 17:30:08

基于支持向量機(jī)的金融數(shù)據(jù)分析研究

科學(xué)與財(cái)富(2016年28期)2016-10-14 21:19:17

基于Spark的大數(shù)據(jù)計(jì)算模型

電腦知識(shí)與技術(shù)(2016年20期)2016-08-19 18:49:49

基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)

電腦知識(shí)與技術(shù)(2016年12期)2016-06-14 00:45:31

基于圖的半監(jiān)督學(xué)習(xí)方法綜述

科教導(dǎo)刊·電子版(2016年10期)2016-06-02 19:17:03

機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用

科教導(dǎo)刊·電子版(2016年10期)2016-06-02 18:04:11

電子技術(shù)與軟件工程2018年2期

電子技術(shù)與軟件工程的其它文章: 電子信息科學(xué)技術(shù)的特點(diǎn)及未來(lái)發(fā)展動(dòng)向; 電子科學(xué)技術(shù)在現(xiàn)代科技館展品設(shè)計(jì)中的應(yīng)用; 電子信息技術(shù)的應(yīng)用與創(chuàng)新; 數(shù)學(xué)技術(shù)和信息技術(shù)的融合; 電子信息技術(shù)的應(yīng)用特點(diǎn)與發(fā)展; 我國(guó)電子信息技術(shù)國(guó)際競(jìng)爭(zhēng)力的提升方法

芜湖市| 汉寿县| 抚州市| 通河县| 开化县| 酉阳| 潜江市| 夏邑县| 天镇县| 怀集县| 东源县| 改则县| 贵阳市| 金堂县| 大同县| 苏尼特左旗| 石台县| 九江市| 山东省| 武平县| 徐水县| 曲麻莱县| 五寨县| 鸡泽县| 西城区| 天水市| 永川市| 平顶山市| 沈丘县| 藁城市| 奉节县| 诸暨市| 麻江县| 鹤岗市| 宜阳县| 甘泉县| 敦化市| 韶关市| 沾化县| 浮梁县| 望奎县|

<samp id="meqoc"><tbody id="meqoc"></tbody></samp>

<strike id="meqoc"><menu id="meqoc"></menu></strike>

<ul id="meqoc"><tbody id="meqoc"></tbody></ul>