国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

釣魚(yú)網(wǎng)站檢測(cè)技術(shù)研究綜述

2021-11-12 09:06:22云雷李丹王歡歡
關(guān)鍵詞:黑名單釣魚(yú)特征提取

云雷,李丹,王歡歡

(工業(yè)和信息化部電子第五研究所,廣東 廣州 511370)

0 引言

互聯(lián)網(wǎng)的發(fā)展對(duì)在線(xiàn)銀行、電子商務(wù)和社交網(wǎng)絡(luò)等許多應(yīng)用程序的業(yè)務(wù)增長(zhǎng)和促進(jìn)產(chǎn)生了積極的影響,為人類(lèi)的工作與生活提供了眾多便利;與此同時(shí),由于互聯(lián)網(wǎng)具有開(kāi)放性與匿名性的特點(diǎn),互聯(lián)網(wǎng)中不可避免地存在著網(wǎng)絡(luò)信息安全隱患。其中,釣魚(yú)網(wǎng)站是網(wǎng)絡(luò)中眾所周知的安全威脅之一,大量的網(wǎng)絡(luò)攻擊都與釣魚(yú)網(wǎng)站有關(guān)。

釣魚(yú)網(wǎng)站是用于網(wǎng)絡(luò)攻擊的網(wǎng)絡(luò)鏈接。網(wǎng)絡(luò)鏈接一般由資源類(lèi)型、存放資源的主機(jī)域名和資源名稱(chēng)組成,也可稱(chēng)為由協(xié)議、主機(jī)、端口和路徑4個(gè)部分組成的網(wǎng)絡(luò)鏈接,如圖1所示,且?guī)Х嚼ㄌ?hào)“[]”的為可選項(xiàng)。網(wǎng)絡(luò)鏈接中有相當(dāng)多的一部分是釣魚(yú)網(wǎng)站[1],釣魚(yú)網(wǎng)站的攻擊方式多樣,與良性網(wǎng)站鏈接極其相似,用戶(hù)不易區(qū)分,用戶(hù)訪(fǎng)問(wèn)釣魚(yú)網(wǎng)站即成為各種騙局的受害者,將會(huì)造成金錢(qián)損失、私人信息泄露和重要資料丟失等。

圖1 網(wǎng)絡(luò)鏈接標(biāo)準(zhǔn)格式

使用釣魚(yú)網(wǎng)站的主要攻擊類(lèi)型包括:網(wǎng)絡(luò)釣魚(yú)、偷渡式下載和垃圾郵件。網(wǎng)絡(luò)釣魚(yú)[2]通過(guò)假冒原始網(wǎng)頁(yè)誘騙用戶(hù)泄露私人或敏感信息。偷渡式下載[3]是指用戶(hù)訪(fǎng)問(wèn)網(wǎng)絡(luò)鏈接時(shí)對(duì)惡意軟件的無(wú)意下載,通過(guò)利用插件中的漏洞或通過(guò)JavaScript插入惡意代碼來(lái)進(jìn)行此類(lèi)攻擊。垃圾郵件[4]是出于廣告或網(wǎng)絡(luò)釣魚(yú)目的而未經(jīng)請(qǐng)求的郵件的使用,NIST基于垃圾郵件開(kāi)發(fā)了一個(gè)評(píng)估釣魚(yú)網(wǎng)站風(fēng)險(xiǎn)的工具,基于垃圾郵件里面的釣魚(yú)網(wǎng)站,該工具考慮了網(wǎng)絡(luò)釣魚(yú)線(xiàn)索和用戶(hù)背景,評(píng)估其組織網(wǎng)絡(luò)釣魚(yú)活動(dòng)的難度并解釋相關(guān)的點(diǎn)擊率[5]。釣魚(yú)網(wǎng)站的滋生已經(jīng)對(duì)網(wǎng)絡(luò)信息安全構(gòu)成了極大的威脅,對(duì)用戶(hù)的網(wǎng)絡(luò)安全造成了極大的破壞,能夠及時(shí)準(zhǔn)確地檢測(cè)到釣魚(yú)網(wǎng)站的研究是迫切的。釣魚(yú)網(wǎng)站的相關(guān)研究者從頁(yè)面采集、特征提取和檢測(cè)技術(shù)方面進(jìn)行不斷的突破,并提出有效的解決方案。

1 釣魚(yú)網(wǎng)站的檢測(cè)技術(shù)

現(xiàn)有的釣魚(yú)網(wǎng)站檢測(cè)技術(shù)研究大部分是基于黑名單[5]、 信譽(yù)系統(tǒng)[6]、 主機(jī)[7-8]、 詞匯[9-10]、 蜜罐技術(shù)[11-12]、入侵檢測(cè)技術(shù)[13-14]和機(jī)器學(xué)習(xí)方法[15-16]等方式。一直以來(lái)應(yīng)用最為廣泛的為基于黑名單和機(jī)器學(xué)習(xí)方法,下面將從這兩個(gè)方面介紹釣魚(yú)網(wǎng)站的檢測(cè)技術(shù)。

1.1 黑名單方法

黑名單方法是釣魚(yú)網(wǎng)站檢測(cè)中常見(jiàn)的一種技術(shù),是一種極為簡(jiǎn)單的檢測(cè)技術(shù), 基于黑名單的過(guò)濾是針對(duì)釣魚(yú)網(wǎng)站的主要對(duì)策。此方法是將已被確定為釣魚(yú)網(wǎng)站的數(shù)據(jù)放入數(shù)據(jù)庫(kù)中,組成釣魚(yú)網(wǎng)站黑名單數(shù)據(jù)庫(kù)。每當(dāng)訪(fǎng)問(wèn)新的網(wǎng)絡(luò)鏈接時(shí),首先在黑名單數(shù)據(jù)庫(kù)中查找,如果該網(wǎng)絡(luò)鏈接存在于黑名單中,即被認(rèn)為是惡意的,并生成警告;否則為良性。傳統(tǒng)上,這種檢測(cè)主要通過(guò)使用黑名單來(lái)完成。但是,黑名單不能詳盡無(wú)遺,并且缺乏檢測(cè)新生成的釣魚(yú)網(wǎng)站的能力[17]。黑名單必須實(shí)時(shí)地更新,因?yàn)獒烎~(yú)網(wǎng)站往往壽命很短,并且其子字符串可能會(huì)采取部分突變的方法以避免被列入黑名單中。基于此,Akiyama等人[18]提出了一種有效的黑名單網(wǎng)絡(luò)鏈接生成方法。嘗試使用搜索引擎來(lái)發(fā)現(xiàn)釣魚(yú)網(wǎng)站附近的網(wǎng)絡(luò)鏈接,并通過(guò)使用已列入黑名單的網(wǎng)絡(luò)鏈接以按照驅(qū)動(dòng)下載和點(diǎn)擊下載感染實(shí)驗(yàn)性地評(píng)估了此文建議的生成方法,證實(shí)了此方式的有效性。Prakash等人[19]使用近似匹配算法,該算法將網(wǎng)絡(luò)鏈接分解為多個(gè)組件,這些組件分別與黑名單中的條目匹配,以此方式完成釣魚(yú)網(wǎng)站的檢測(cè)研究。

Hong等人[20]經(jīng)過(guò)文獻(xiàn)調(diào)查后收集了許多詞匯特征,并將它們與列入黑名單的域結(jié)合起來(lái)以提高檢測(cè)性能。Yagi等人[21]假定未知釣魚(yú)網(wǎng)站存在于由同一對(duì)手創(chuàng)建的已知釣魚(yú)網(wǎng)站的附近。提出了一種有效的黑名單網(wǎng)絡(luò)鏈接生成方法,該方法通過(guò)使用搜索引擎來(lái)發(fā)現(xiàn)釣魚(yú)網(wǎng)站附近的網(wǎng)絡(luò)鏈接。但是,由于大多數(shù)開(kāi)放式數(shù)據(jù)集已過(guò)時(shí),因此收集了許多最新的釣魚(yú)網(wǎng)站。由于釣魚(yú)網(wǎng)站往往壽命很短,并且可以對(duì)其進(jìn)行部分變異以避免黑名單,因此必須更新黑名單。

盡管諸如釣魚(yú)網(wǎng)站黑名單之類(lèi)的解決方案在某種程度上具有有效性與簡(jiǎn)單易行的優(yōu)勢(shì),但是它們依賴(lài)與黑名單條目的精確匹配,使攻擊者易以逃避、無(wú)法維護(hù)所有可能的釣魚(yú)網(wǎng)站的詳盡列表,因?yàn)槊刻於伎梢暂p松地生成新的網(wǎng)絡(luò)鏈接,從而使他們無(wú)法檢測(cè)到新的威脅[22]。并且,由于難以保持詳盡的最新名單,因此遭受了虛假的高誤報(bào)[23]。當(dāng)攻擊者通過(guò)算法生成新的網(wǎng)絡(luò)鏈接,從而可以繞過(guò)所有的黑名單時(shí),這一點(diǎn)尤其重要。盡管黑名單面臨一些問(wèn)題,但由于其有效性與簡(jiǎn)單易行的特點(diǎn),它們?nèi)匀皇钱?dāng)今許多防病毒系統(tǒng)最常用的技術(shù)之一。

1.2 機(jī)器學(xué)習(xí)方法

由于黑名單不能窮舉,也無(wú)法檢測(cè)到新生成的釣魚(yú)網(wǎng)站,為了解決這個(gè)問(wèn)題,近年來(lái)使用機(jī)器學(xué)習(xí)方法進(jìn)行釣魚(yú)網(wǎng)站檢測(cè)的研究工作[24]很盛行。即將釣魚(yú)網(wǎng)站檢測(cè)的問(wèn)題形式化為機(jī)器學(xué)習(xí)任務(wù)。在將網(wǎng)絡(luò)鏈接轉(zhuǎn)換為特征向量之后,通??梢詫W(xué)習(xí)算法中的許多算法以相當(dāng)直接的方式應(yīng)用于訓(xùn)練預(yù)測(cè)模型。在設(shè)計(jì)特定的學(xué)習(xí)算法方面,要么利用釣魚(yú)網(wǎng)站的訓(xùn)練數(shù)據(jù)顯示的屬性,要么解決應(yīng)用程序面臨的一些特定的挑戰(zhàn)。Cui等人[25]提出了一種基于梯度學(xué)習(xí)的統(tǒng)計(jì)分析和使用S形閾值水平的特征提取相結(jié)合,基于機(jī)器學(xué)習(xí)技術(shù)的新檢測(cè)方法。

在現(xiàn)實(shí)世界中的釣魚(yú)網(wǎng)站檢測(cè)任務(wù)中,釣魚(yú)網(wǎng)站與良性網(wǎng)絡(luò)鏈接的數(shù)量之間的比例非常不平衡,這使其非常不適合簡(jiǎn)單地優(yōu)化預(yù)測(cè)準(zhǔn)確性。此外,現(xiàn)有工作的另一個(gè)主要局限性是假設(shè)有大量的培訓(xùn)數(shù)據(jù)可用,這是不切實(shí)際的,因?yàn)槿斯?biāo)簽的成本是非常昂貴的。為了解決這些問(wèn)題,Zhao等人[26]提出了一種成本敏感的在線(xiàn)主動(dòng)學(xué)習(xí)(CSOAL)的新穎框架,該框架僅查詢(xún)小部分訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)記,并直接優(yōu)化了兩種成本敏感的措施來(lái)解決班級(jí)不平衡問(wèn)題。Kumar等人[27]基于機(jī)器學(xué)習(xí)分類(lèi)算法,提出了一種用于檢測(cè)釣魚(yú)網(wǎng)站的多層模型。過(guò)濾器可以通過(guò)訓(xùn)練每個(gè)層過(guò)濾器的閾值來(lái)在到達(dá)閾值時(shí)直接確定網(wǎng)絡(luò)鏈接;否則,過(guò)濾器會(huì)將網(wǎng)絡(luò)鏈接留給下一層。

研究中有各種各樣的機(jī)器學(xué)習(xí)算法,可以直接在釣魚(yú)網(wǎng)站檢測(cè)的上下文中使用。由于潛在的培訓(xùn)數(shù)據(jù)量巨大,因此需要可擴(kuò)展的算法,這就是為什么在線(xiàn)學(xué)習(xí)方法在該領(lǐng)域獲得了巨大成功的原因。在線(xiàn)主動(dòng)學(xué)習(xí)旨在開(kāi)發(fā)一種在線(xiàn)學(xué)習(xí)算法,用于訓(xùn)練僅在需要時(shí)查詢(xún)傳入的未標(biāo)記網(wǎng)絡(luò)鏈接實(shí)例的標(biāo)簽的模型[28-29]。Lin等人[30]通過(guò)結(jié)合CW和PA算法,采用了一種混合在線(xiàn)學(xué)習(xí)技術(shù)。具體而言,CW用于從純?cè)~匯特征中學(xué)習(xí),而PA用于從描述性特征中學(xué)習(xí)。他們認(rèn)為詞法功能可以更有效地檢測(cè)釣魚(yú)網(wǎng)站,而它們卻可以經(jīng)常更改,而描述性屬性則更穩(wěn)定、更靜態(tài)。在框架中引入了一種在線(xiàn)學(xué)習(xí)技術(shù),如果后端內(nèi)容分析引擎有任何反饋,則可以動(dòng)態(tài)修改過(guò)濾模型。減輕了進(jìn)行基于內(nèi)容的分析,以及將帶寬用于內(nèi)容檢索的負(fù)擔(dān);并且可以與其他Web安全服務(wù)順利地組合在一起。

然而,機(jī)器學(xué)習(xí)方法存在以下弊端:1)機(jī)器學(xué)習(xí)算法需要大量的數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,然而數(shù)據(jù)量越大,計(jì)算量越大,需要消耗的時(shí)間越長(zhǎng),無(wú)法滿(mǎn)足日益激增的釣魚(yú)網(wǎng)站的實(shí)際情況;2)機(jī)器學(xué)習(xí)檢測(cè)技術(shù)需要帶有良性和惡意釣魚(yú)網(wǎng)站標(biāo)簽的訓(xùn)練數(shù)據(jù),難以獲得;3)特征提取對(duì)機(jī)器學(xué)習(xí)方法具有至關(guān)重要的影響,而特征提取具有極大的難度。

圖2 基于機(jī)器學(xué)習(xí)方法檢測(cè)技術(shù)

2 網(wǎng)站的特征提取

訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響著機(jī)器學(xué)習(xí)算法的檢測(cè)效果,而訓(xùn)練數(shù)據(jù)的質(zhì)量取決于特征提取的質(zhì)量。特征提取一般分為特征收集與特征預(yù)處理,特征收集階段是面向工程進(jìn)行收集有關(guān)網(wǎng)絡(luò)鏈接的相關(guān)信息,從網(wǎng)絡(luò)鏈接字符串中獲得的功能,其中包括Google PageRank值[31]及搜索結(jié)果數(shù)[32]、Alexa流量信息[33]、域名信息[34]和WOT聲譽(yù)值[35]等信息。特征預(yù)處理階段是將有關(guān)網(wǎng)絡(luò)鏈接的非結(jié)構(gòu)化信息適當(dāng)?shù)馗袷交?,并轉(zhuǎn)換為數(shù)值向量,以便可以被輸入到機(jī)器學(xué)習(xí)算法中。例如:數(shù)字信息可以原樣使用,而詞袋模型通常用于表示文本或詞匯內(nèi)容。如今可以將釣魚(yú)網(wǎng)站研究中的特征分為靜態(tài)特征和動(dòng)態(tài)特征兩類(lèi),下面將從這兩個(gè)方面介紹釣魚(yú)網(wǎng)站研究中的特征要素。

2.1 靜態(tài)特征

靜態(tài)特征主要來(lái)自于網(wǎng)頁(yè)的靜態(tài)信息,主要為主機(jī)信息特征[36-37]、URL信息特征[38-39]和網(wǎng)頁(yè)內(nèi)容特征[40-41]3類(lèi)。主機(jī)信息特征是從主機(jī)名的屬性中獲得的,因此,可以獲得多種主機(jī)的相關(guān)信息,深入網(wǎng)絡(luò)鏈接的主機(jī)內(nèi)部獲得信息,能夠提高特征的有效性,有利于釣魚(yú)網(wǎng)站檢測(cè)的相關(guān)研究,通過(guò)學(xué)習(xí)主機(jī)信息特征能夠獲得主機(jī)時(shí)間、身份和位置等相關(guān)信息。由于原始的URL數(shù)據(jù)是字符串,通過(guò)對(duì)機(jī)器學(xué)習(xí)的學(xué)習(xí)可以理解其是不可行的,因此必須將數(shù)據(jù)進(jìn)行處理以得到有效的信息,此特征是從網(wǎng)絡(luò)鏈接數(shù)據(jù)本身得到的,此類(lèi)信息即為數(shù)據(jù)的URL信息特征。網(wǎng)頁(yè)內(nèi)容特征即為從網(wǎng)頁(yè)中的圖片、文字、特殊字符和顏色等網(wǎng)頁(yè)信息中得到所有的信息、JavaScript代碼、網(wǎng)頁(yè)漏洞信息和鏈接關(guān)系等。靜態(tài)特征具有種類(lèi)多樣、提取方式簡(jiǎn)單和內(nèi)容豐富等優(yōu)點(diǎn),由于不需要執(zhí)行,因此這些方法比動(dòng)態(tài)方法更安全。

2.2 動(dòng)態(tài)特征

動(dòng)態(tài)特征主要來(lái)自于網(wǎng)頁(yè)的動(dòng)態(tài)信息,常見(jiàn)的動(dòng)態(tài)特征主要包括跳轉(zhuǎn)關(guān)系[42-43]、注冊(cè)表變化[44-45]、瀏覽器行為[46-47]和文件變化[48-49]等。動(dòng)態(tài)分析技術(shù)包括監(jiān)視潛在受害者的系統(tǒng)行為,以查找任何異常情況,其中包括監(jiān)視系統(tǒng)調(diào)用序列中的異常行為[50],以及挖掘Internet訪(fǎng)問(wèn)日志數(shù)據(jù)中的可疑活動(dòng)[51]。動(dòng)態(tài)特征的提取需要花費(fèi)較長(zhǎng)的時(shí)間,動(dòng)態(tài)分析技術(shù)有固有的風(fēng)險(xiǎn),并且難以實(shí)現(xiàn)和推廣。

3 挑戰(zhàn)與展望

目前釣魚(yú)網(wǎng)站檢測(cè)研究在檢測(cè)技術(shù)和特征提取方面都面臨著較大的挑戰(zhàn)。以往的研究已經(jīng)達(dá)到了瓶頸期,檢測(cè)技術(shù)方面沒(méi)有較新、效果更好的技術(shù)提出。特征提取固定于靜態(tài)特征與動(dòng)態(tài)特征的特征提取方式,沒(méi)有新維度的特征提取方式提出,并且靜態(tài)特征與動(dòng)態(tài)特征的提取角度也日趨固化,難有新的特征提取角度提出。

基于釣魚(yú)網(wǎng)站檢測(cè)研究現(xiàn)狀,我們從檢測(cè)技術(shù)和網(wǎng)站的特征提取這兩個(gè)方面對(duì)未來(lái)發(fā)展方向提出展望。

a)開(kāi)展能夠自動(dòng)地獲得釣魚(yú)網(wǎng)站數(shù)據(jù)的檢測(cè)研究

針對(duì)現(xiàn)存技術(shù)受限于硬件條件、實(shí)驗(yàn)條件的問(wèn)題,相關(guān)研究使用計(jì)算機(jī)能夠在一定時(shí)間內(nèi)運(yùn)算的個(gè)人構(gòu)建的數(shù)據(jù)集居多。未來(lái)隨著硬件條件、實(shí)驗(yàn)條件的改善,開(kāi)展能夠自動(dòng)地獲得釣魚(yú)網(wǎng)站數(shù)據(jù)的檢測(cè)研究。將要構(gòu)建能夠隨著惡性或良性網(wǎng)絡(luò)鏈接的產(chǎn)生自動(dòng)地更新數(shù)據(jù)的方式,并得到新的特征信息,自動(dòng)地學(xué)習(xí)填充,以達(dá)到釣魚(yú)網(wǎng)站檢測(cè)研究更好的效果。

b)針對(duì)釣魚(yú)網(wǎng)站動(dòng)態(tài)特征研究來(lái)降低時(shí)間復(fù)雜度的提取方式

由于動(dòng)態(tài)特征的提取需要花費(fèi)較長(zhǎng)的時(shí)間,動(dòng)態(tài)分析技術(shù)具有固有的風(fēng)險(xiǎn)。雖然現(xiàn)在的研究補(bǔ)充了特征提取的方法,但都是基于靜態(tài)特征的研究,未來(lái)的研究將要基于釣魚(yú)網(wǎng)站動(dòng)態(tài)特征的自動(dòng)獲取。并且期望能夠補(bǔ)充現(xiàn)有的已經(jīng)固化的動(dòng)態(tài)特征的提取方法,針對(duì)釣魚(yú)網(wǎng)站動(dòng)態(tài)特征研究來(lái)降低時(shí)間復(fù)雜度的提取方式,釣魚(yú)網(wǎng)站檢測(cè)研究將能夠達(dá)到更好的效果。

4 結(jié)束語(yǔ)

隨著越來(lái)越多的研究者對(duì)釣魚(yú)網(wǎng)站檢測(cè)領(lǐng)域日益漸增的關(guān)注,近幾年釣魚(yú)網(wǎng)站檢測(cè)的相關(guān)技術(shù)發(fā)展迅速。釣魚(yú)網(wǎng)站檢測(cè)研究大致能夠概括為檢測(cè)技術(shù)和特征提取兩個(gè)部分。本文從檢測(cè)技術(shù)和特征提取兩個(gè)方面總結(jié)了現(xiàn)存釣魚(yú)網(wǎng)站檢測(cè)領(lǐng)域的進(jìn)展。從黑名單方法和機(jī)器學(xué)習(xí)方法方面對(duì)檢測(cè)技術(shù)進(jìn)行了總結(jié),從靜態(tài)特征與動(dòng)態(tài)特征方面對(duì)特征提取技術(shù)進(jìn)行了總結(jié)。同時(shí),本文也介紹了現(xiàn)存檢測(cè)技術(shù)面臨的困難,并對(duì)未來(lái)研究方向進(jìn)行了展望。

猜你喜歡
黑名單釣魚(yú)特征提取
防曬黑名單?第2款就翻車(chē)了!
好日子(2022年6期)2022-08-17 07:16:00
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
受懲黑名單
受懲黑名單
Bagging RCSP腦電特征提取算法
黑名單
釣魚(yú)
第七章 去泥盆紀(jì)釣魚(yú)
第七章 去泥盆紀(jì)釣魚(yú)
第七章去泥盆紀(jì)釣魚(yú)
南川市| 衡水市| 沭阳县| 桦甸市| 泽普县| 汉寿县| 牙克石市| 陇川县| 丹东市| 犍为县| 延庆县| 江西省| 共和县| 格尔木市| 长兴县| 北川| 汉阴县| 礼泉县| 镇巴县| 拉孜县| 普定县| 德庆县| 克山县| 红河县| 绩溪县| 定兴县| 沙洋县| 杨浦区| 富民县| 杭锦后旗| 上林县| 黑龙江省| 张家口市| 通山县| 满城县| 姜堰市| 肇庆市| 台江县| 攀枝花市| 鄂托克旗| 河间市|