王惟
摘要摘要:網(wǎng)絡(luò)釣魚是一種偽裝成一個可信站點,通過社會工程學(xué)技術(shù),誘使用戶輸入敏感信息,從而騙取用戶私人信息的攻擊行為,是當(dāng)今互聯(lián)網(wǎng)交易中的重大安全威脅。針對這類安全問題,介紹了一種基于內(nèi)容分析的高性能反釣魚識別引擎。通過合理的架構(gòu)與算法設(shè)計,使系統(tǒng)達(dá)到高于93%的準(zhǔn)確度,同時保證92.4%的召回率及快速處理,有效地阻止了釣魚攻擊在網(wǎng)絡(luò)上的傳播。
關(guān)鍵詞關(guān)鍵詞:網(wǎng)絡(luò)釣魚;反釣魚識別引擎;網(wǎng)絡(luò)安全
DOIDOI:10.11907/rjdk.151303
中圖分類號:TP309.5
文獻標(biāo)識碼:A文章編號文章編號:16727800(2015)004013903
0引言
網(wǎng)絡(luò)釣魚攻擊是當(dāng)今互聯(lián)網(wǎng)交易中威脅最大的攻擊形式。釣魚者常常構(gòu)造一個釣魚站點,將該站點頁面?zhèn)卧斐蔀橐粋€可信站點,并通過社會工程學(xué)技術(shù),騙取用戶信任,誘惑用戶輸入個人信息,從而得到用戶的賬號、密碼等敏感數(shù)據(jù)進而盜取用戶的財產(chǎn)。隨著B2B、B2C等形式的電子商務(wù)日益普及,釣魚攻擊的危害也與日俱增。根據(jù)著名的反釣魚組織APWG統(tǒng)計[1], 2009年下半年,該組織接到了超過126 697次釣魚攻擊舉報,是上半年55 698次的兩倍多。此外,釣魚形式也呈現(xiàn)多樣化趨勢,新型釣魚方式逐漸成為主流,如短信、飛信或者聊天軟件彈出的中獎信息,甚至有的釣魚者利用求職信息進行詐騙。因此,如何避免用戶受騙,保護用戶的交易安全成為當(dāng)前互聯(lián)網(wǎng)安全的首要任務(wù)。
雖然許多信息安全廠商、研究機構(gòu)發(fā)布了多種技術(shù)來防止網(wǎng)絡(luò)釣魚的發(fā)生,但目前還沒有能夠完全解決這些問題的方案。文獻[2]表明,只有少數(shù)工具能夠保證在一個較低的誤判率下識別超過60%的釣魚攻擊。
筆者提出了一種基于內(nèi)容分析的新型反釣魚識別引擎。有別于大部分的解決方案,本系統(tǒng)不是一款針對用戶桌面瀏覽器的插件工具,也不是一款學(xué)術(shù)驗證模型,而是可以部署在防火墻或者網(wǎng)關(guān)的阻斷引擎系統(tǒng)。
該系統(tǒng)捕捉和分析每一個通過引擎的數(shù)據(jù)包并提取出網(wǎng)址,隨后對該URL進行分析,當(dāng)識別為釣魚攻擊時即進行阻斷。為了提高識別效率,在該原型系統(tǒng)中,加入了一個白名單和一個實時維護的黑名單組件,在降低誤判率的同時,大大縮短了引擎識別的處理時間。
系統(tǒng)功能如下:①實現(xiàn)了一種可以部署在防火墻或者網(wǎng)關(guān)的高速處理識別引擎,不僅僅針對用戶桌面的瀏覽器,能更好地應(yīng)對新型網(wǎng)絡(luò)釣魚的攻擊;②實現(xiàn)了多國語言識別,特別是針對中文進行分析。
1相關(guān)工作
在現(xiàn)有的反釣魚機制中,根據(jù)其實施策略大致可分為電子郵件級和用戶桌面級兩種。
1.1電子郵件級
一般意義上認(rèn)為,傳統(tǒng)的釣魚攻擊是通過偽造的電子郵件開始的。因此,一些方案試圖通過識別并阻止偽造電子郵件進行反釣魚攔截,這些方案往往采用反垃圾郵件的相關(guān)技術(shù),通過類似于過濾器的方式進行識別[3]。然而,隨著新型網(wǎng)絡(luò)釣魚的出現(xiàn),特別是傳播途徑的多樣化,越來越多的引誘信息通過聊天軟件、聊天室或者手機短信進行傳播,基于郵件的策略逐漸成為了被繞過的“馬其諾防線”。
1.2用戶桌面級
網(wǎng)絡(luò)瀏覽器作為網(wǎng)站呈現(xiàn)的終端工具,一直扮演者重要的角色,因此,人們研究的視角放在了用戶桌面。這些方案最終通過瀏覽器插件的形式實現(xiàn)各種識別算法,目前主要有兩種方法。
(1)基于黑名單的過濾機制[4,5]。通過查詢一個實時維護的黑名單并對名單上命中的記錄進行攔截,從而實現(xiàn)對惡意釣魚站點的阻斷。該方法具有準(zhǔn)確度高、處理速度快的優(yōu)點,但是隨著制作釣魚站點成本的降低,釣魚站點的平均壽命越來越短,同時新出現(xiàn)的速度也越來越快,而此時基于黑名單的過濾機制,因較差的擴展性以及黑名單更新的時效性,日益跟不上釣魚網(wǎng)站更新的步伐。新出現(xiàn)的Rock-phish和fast flux釣魚技術(shù)[1],使黑名單的編譯也變得非常復(fù)雜[4]。
(2)通過機器學(xué)習(xí)算法進行啟發(fā)式分類識別。有的方案是通過對URL的特點進行分析,例如,MA等人提出,網(wǎng)絡(luò)釣魚的URL存在較明顯的特點[6],而Garera等人則利用回歸模型對域名、網(wǎng)址、出現(xiàn)文字和網(wǎng)頁排名等信息進行分類來識別釣魚[7]。卡內(nèi)基梅隆大學(xué)的一系列研究將分析對象放在頁面,通過對頁面特征進行提取,并配合搜索引擎對頁面進行定位,從而識別目標(biāo)頁面是否為釣魚[8]。這些方法雖然準(zhǔn)確度較高,但流程上依賴于搜索引擎的結(jié)果,查詢極為耗時,因此也僅僅能夠應(yīng)用于對效率不敏感的桌面瀏覽器,而不適合大數(shù)據(jù)量的情況。
本文將識別引擎放在終端用戶以及網(wǎng)絡(luò)服務(wù)器之間的通路上,創(chuàng)立了防火墻側(cè)的解決方案。這樣,識別引擎可以獲取到終端用戶獲取不到的很多信息,能夠更有效地攔截釣魚攻擊,減輕對用戶的危害。
2系統(tǒng)結(jié)構(gòu)
作為一個能夠高速處理大數(shù)據(jù)量的防火墻側(cè)方案,系統(tǒng)部署在用戶瀏覽器與Web服務(wù)器的交互路徑中。為了保證其處理速度,系統(tǒng)可以不依賴任何搜索引擎的查詢結(jié)果。圖1是該原型系統(tǒng)架構(gòu)。
(1)預(yù)處理。系統(tǒng)通過包分析器對流量進行拆分,捕獲每個Get包中的網(wǎng)址信息,提取出去重后的URL。為了提高處理速度并節(jié)省資源,建立一個白名單庫用于排除掉已知的安全站點從而降低誤判;同時還建立一個黑名單庫,將已經(jīng)識別并確定了的URL直接過濾,避免重復(fù)識別,從而提高系統(tǒng)的處理性能。
(2)頁面分析。經(jīng)過預(yù)過濾之后的URL既不是有名的官方網(wǎng)站,也不是之前已經(jīng)判斷過的釣魚URL,因此需要對其進行下載并對頁面進行分析。考慮到釣魚網(wǎng)頁的大小平均約為1.5K,為了保證處理速度,對過大或者過小的頁面下載進行了限制。這樣,一方面保證了足夠的帶寬,另一方面保證了處理速度。同時,為了實現(xiàn)多國語言特別是對中文的支持,將下載后的頁面統(tǒng)一進行UTF-8格式的網(wǎng)頁編碼。編碼轉(zhuǎn)換之后,分析頁面并提取頁面的特征值,組成一個特征向量集合。雖然系統(tǒng)可以將頁面的所有文字作為特征向量提取出來,但是這將大大增加分類的復(fù)雜度,使系統(tǒng)負(fù)載過高。為了保證引擎的處理速度,使用了TF-IDF算法。TF-IDF算法在文本挖掘和數(shù)據(jù)檢索中應(yīng)用很廣,是一種常用的衡量權(quán)重的方法,具體來說,它描述了一個詞的詞頻與逆向文檔頻率的關(guān)系,即這個詞對于區(qū)分該文檔的重要程度。其詞頻定義如下:
TF(wi,P)=ni∑knk(1)
在該系統(tǒng)中,將頁面的停用詞、干擾詞之外的有效詞語進行出現(xiàn)次數(shù)的統(tǒng)計,詞的出現(xiàn)次數(shù)作為分子,而分母是所有出現(xiàn)在頁面的詞的總數(shù)。因此該頁面的詞頻描述了這個詞在這個頁面中出現(xiàn)的次數(shù),即這個詞在該頁面中的重要程度。而逆向文檔頻率則描述的是這個詞最一般的重要程度。使用本文維護的一個因特網(wǎng)詞頻庫進行計算,定義如下:
IDF(wi)=log|N|1+|d:wi∈d|(2)
|N|是所有文檔的數(shù)目,|d:wi∈d|是包含詞wi的文檔數(shù)目,這里為了避免分母為0而沒有意義,將|d:wi∈d|進行了加1處理。因此,每個單詞的權(quán)重即TF-IDF分?jǐn)?shù)為:
STF-IDF(wi,P)=TF(wi,P)·IDF(wi)(3)
在計算完每個詞的分?jǐn)?shù)后,按照TF-IDF的權(quán)值進行排序,提取最高的100個詞作為該頁面的特征,并與庫中的模板進行比對。
(3)相似度計算。首先通過對已知的釣魚站點,使用同樣的算法對頁面進行分析并提取特征后,對該特征建立起不同的模板文件,隨后將分析頁面與模板文件進行比對,計算相似度,找出最相似的模板。如果大于某個閾值,則說明該頁面的URL極為可能是釣魚站點。計算兩個特征向量相似度的算法很多,而余弦定理是比較成熟的一種,因此本文采用余弦定理。待分析頁面的特征向量p與模板文件的特征向量t的相似度sim(p,t)由下式給出:
sim(p,t)=cos(p,t)=p·tpt(4)
其中“·”表示兩個向量的點積。兩組特征向量之間的角度不會大于90度,相似度范圍在0~1之間,sim(p,t)=1的時候說明兩組特征向量完全重合。在本系統(tǒng)中,將閾值設(shè)為0.8,相似度大于0.8的URL,識別引擎判定為釣魚URL。
3實驗結(jié)果與分析
筆者收集了大量的釣魚站點樣本以及合法站點的樣本作為實驗的數(shù)據(jù)集。其中,英文釣魚站點樣本來自于著名的反釣魚知識庫phishtank.com以及APWG,中文樣本由APAC提供。同時,通過自己的爬蟲抓取了互聯(lián)網(wǎng)中涉及金融、教育、社交網(wǎng)絡(luò)、政府等多個領(lǐng)域的合法網(wǎng)站作為數(shù)據(jù)集中的反向樣本。其中,選取2011年1月1日~31日時間段內(nèi)的數(shù)據(jù)樣本進行測試。為了保證爬蟲采集的合法網(wǎng)站以及由第三方數(shù)據(jù)源收集到的釣魚站點記錄的準(zhǔn)確性,我們使用人工校驗,將不符合的URL以及已經(jīng)跳轉(zhuǎn)到正常站點的URL排除,確定最終樣本。其中,釣魚站點5 910條,合法站點1 000條。將總共6 910條測試用例隨機混合,使用引擎進行匹配,以檢測引擎的識別效率與準(zhǔn)確度。
下載之前需要先對URL進行DNS解析,將域名解析成IP才能下載,而該識別引擎在正式運行的時候獲取的是現(xiàn)網(wǎng)中的GET數(shù)據(jù)包,GET包中帶有IP,因此在性能測試過程中要忽略DNS的解析時間。在四核至強 E5430,4G內(nèi)存、Linux服務(wù)器運行該引擎,大約每秒處理200個URL,速度性能達(dá)到設(shè)計要求;正確性試驗中,6 910條測試記錄,命中6 450條,錯誤460條。其中,誤判12,漏判448,具體數(shù)據(jù)如表1。
4結(jié)語
本文提出并實現(xiàn)了一種高效的基于頁面特征的反釣魚識別引擎方案,通過原型系統(tǒng)實現(xiàn)并驗證了匹配算法。實驗表明,該系統(tǒng)具有較高的正確率以及較低的誤判率和漏判率,在追求高精度的同時保證了運行高效率??朔藛渭円揽亢诿麊螜C制的被動識別,也避免了之前反釣魚方案僅僅關(guān)注用戶桌面的問題,可以有效識別出大部分釣魚站點,正確率超過90%,基本達(dá)到了預(yù)期設(shè)計要求。
參考文獻參考文獻:
[1]APWG.Phishing activity trends report 4th quarter 2009[EB/OL].http://www.anti-phishing.com/reports/APWG_GlobalPhishingSurvey2H2009.pdf.
[2]L CRANOR,S EGELMAN,J HONG,et al.Phinding phish: evaluating antiphishing tools[J].Proceedings of The 14th Annual Network and Distributed System Security Symposium (NDSS '07),San Diego,CA,28 February2 March,2007.
[3]A BERGHOLZ,J H CHANG,G PAA,et al.Improved phishing detection using modelbased features[J].Proceedings of the Conference on Email and AntiSpam (CEAS),Mountain View,CA,USA,2008.
[4]GOOGLE INC.Google safe browsing for firefox[EB/OL].http://www.google.com/tools/firefox/safebrowsing/2010.
[5]N CHOU,R LEDESMA,Y TERAGUCHI,et al.Clientside defense against webbased identity theft[J].Proceedings of The 11th Annual Network and Distributed System Security Symposium (NDSS '04),San Diego,CA February,2004.
[6]J MA,L K SAUL,S SAVAGE,et al.Beyond blacklists: learning to detect malicious web sites from suspicious URLs[J].KDD'09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,JuneJuly 2009:12451254.
[7]S GARERA,N PROVOS,M CHEW,et al.A framework for detection and measurement of phishing attacks[J].Proceedings of the 2007 ACM Workshop on Recurring Malcode,2007:18.
[8]G XIANG,J I HONG.A Hybrid phish detection approach by identity discovery and keywords retrieval[J].Proceedings of the 18th international conference on World Wide Web(WWW '09),New York,NY,USA,2009:571580.
責(zé)任編輯(責(zé)任編輯:杜能鋼)