李 雪
(安徽工貿(mào)職業(yè)技術(shù)學(xué)院 計(jì)算機(jī)信息工程系,安徽 淮南 232001)
互聯(lián)網(wǎng)技術(shù)快速發(fā)展在給國民日常生活帶來便利的同時(shí)互聯(lián)網(wǎng)安全問題日益凸顯,網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)竊密等現(xiàn)象層出不窮。網(wǎng)民的個(gè)人信息和隱私被違法竊取,甚至進(jìn)行買賣交易,這在很大程度上對社會的和諧穩(wěn)定與經(jīng)濟(jì)的快速發(fā)展產(chǎn)生了威脅。有關(guān)統(tǒng)計(jì)數(shù)據(jù)表明,2019年的釣魚網(wǎng)站數(shù)量是2018年釣魚網(wǎng)站數(shù)量的4倍之多,同時(shí)網(wǎng)絡(luò)技術(shù)的快速發(fā)展使得釣魚網(wǎng)站和正規(guī)網(wǎng)站頁面之間具有極高的相似度,難以辨別[1]。目前的釣魚網(wǎng)站和傳統(tǒng)的釣魚網(wǎng)站有所不同,釣魚網(wǎng)站攻擊者的詐騙技巧呈現(xiàn)多樣化,利用網(wǎng)絡(luò)鏈接來盜取公民的個(gè)人隱私,消費(fèi)者的人身和財(cái)產(chǎn)安全受到一定程度的威脅。創(chuàng)造和諧穩(wěn)定的社會環(huán)境,確保經(jīng)濟(jì)的快速發(fā)展必須嚴(yán)厲打擊釣魚網(wǎng)站。因此,采用神經(jīng)網(wǎng)絡(luò)對釣魚網(wǎng)站檢測進(jìn)行研究,以提高對釣魚網(wǎng)站的識別率,保障網(wǎng)絡(luò)安全具有重要現(xiàn)實(shí)意義。
人工智能快速發(fā)展,機(jī)器學(xué)習(xí)是人工智能的核心,在工程中具有廣泛的應(yīng)用。神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,具有極強(qiáng)的自學(xué)習(xí)和高效尋優(yōu)能力,本文擬采用BP神經(jīng)網(wǎng)絡(luò)對釣魚網(wǎng)站進(jìn)行檢測。BP網(wǎng)絡(luò)是典型的多層前饋網(wǎng)絡(luò),是眾多神經(jīng)網(wǎng)絡(luò)模型中應(yīng)用最為廣泛的一種,具體結(jié)構(gòu)如圖1所示。
圖1 BP神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)
BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程包含兩個(gè)部分,即信號的正向傳播部分和信號的反向傳播部分。信號的正向傳播為輸入數(shù)據(jù)經(jīng)過輸入層到達(dá)隱含層,同時(shí)從隱含層到達(dá)輸出層,正向傳播的過程中網(wǎng)絡(luò)的權(quán)值保持不變。BP神經(jīng)網(wǎng)絡(luò)在輸入層到隱含層之間產(chǎn)生權(quán)值矩陣和偏差矩陣,分別記為w1和b1,在隱含層到輸出層之間產(chǎn)生權(quán)值矩陣和偏差矩陣,分別記為w2和b2。隱含層與輸出層之間的神經(jīng)元傳輸函數(shù)記為f1和f2,那么輸出數(shù)據(jù)Y和輸入數(shù)據(jù)X之間的關(guān)系為:
Y=f2(w2·f1(w1X-b1)-b2)
(1)
信號的反向傳播是根據(jù)每一層神經(jīng)元的值來計(jì)算誤差的,在誤差最小化原則下對網(wǎng)絡(luò)中的權(quán)值進(jìn)行不斷地修正,確保網(wǎng)絡(luò)的輸出值和期望值之間誤差最小。采用數(shù)學(xué)上的梯度下降法,通過對所建立網(wǎng)絡(luò)不斷地進(jìn)行訓(xùn)練來調(diào)整權(quán)值和閾值,使得BP網(wǎng)絡(luò)的輸出和期望的輸出之間的均方誤差達(dá)到最小,定義目標(biāo)函數(shù)為M,表達(dá)式為:
(2)
BP神經(jīng)網(wǎng)絡(luò)在實(shí)際中具有十分廣泛的應(yīng)用,但是由于網(wǎng)絡(luò)的輸入層和隱含層、隱含層和輸出層之間的神經(jīng)元連接初始權(quán)值對網(wǎng)絡(luò)輸出的結(jié)果具有比較大的影響,如果連接初始權(quán)值設(shè)置不合理將導(dǎo)致收斂速度較慢,同時(shí)可能導(dǎo)致網(wǎng)絡(luò)陷入局部最優(yōu)。遺傳算法(GA)具有良好的全局搜索能力,通過選擇、交叉、變異等過程而獲得全局最優(yōu)解。因此,采用GA對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值進(jìn)行優(yōu)化,從而獲得GA-BP神經(jīng)網(wǎng)絡(luò)[2]。圖2給出了GA-BP神經(jīng)網(wǎng)絡(luò)流程圖。
圖2 GA-BP神經(jīng)網(wǎng)絡(luò)流程圖
種群隨機(jī)初始化,同時(shí)采用實(shí)數(shù)編碼的方式對每一個(gè)物種進(jìn)行編碼處理。自然界的每一個(gè)物種個(gè)體由神經(jīng)網(wǎng)絡(luò)的輸入層與隱含層的連接權(quán)值、閾值,隱含層與輸出層的連接權(quán)值、閾值所構(gòu)成。計(jì)算適應(yīng)度函數(shù)F,
(3)
從種群中選擇個(gè)體作為雙親去繁衍后代,每一個(gè)個(gè)體被選擇的概率為Pi,
(4)
對于配對的兩個(gè)個(gè)體以交叉概率Pc來進(jìn)行基因的交換,從而產(chǎn)生兩個(gè)新的個(gè)體。k1個(gè)體和k2個(gè)體在第j位置基因交叉的辦法為:
(5)
對變異概率pv比較小的選擇第i個(gè)體的第j位置基因gij進(jìn)行變異操作,變異操作的方法為:
(6)
gk1,j為第k1個(gè)體在第j位置基因,gk2,j為第k2個(gè)體在第j位置基因,r為區(qū)間[0,1]上的隨機(jī)數(shù),gmin為基因gij的最小值,gmax為基因gij的最大值,r、r1、r2為區(qū)間[0,1]上的隨機(jī)數(shù),s為迭代次數(shù),smax為最大迭代次數(shù)。
通過計(jì)算適應(yīng)度函數(shù)的值來判斷是否達(dá)到全局最優(yōu),如果適應(yīng)度函數(shù)值達(dá)到最大,那么達(dá)到全局最優(yōu);如果適應(yīng)度函數(shù)值沒有達(dá)到最大,那么繼續(xù)進(jìn)行優(yōu)化,確保適應(yīng)度函數(shù)值達(dá)到最大。采用GA對BP神經(jīng)網(wǎng)絡(luò)的初始化權(quán)值和閾值進(jìn)行優(yōu)化,從而獲得GA-BP網(wǎng)絡(luò)預(yù)測模型。
GA-BP網(wǎng)絡(luò)識別模型的輸入是網(wǎng)站URL,通過對URL特征的提取來檢測釣魚網(wǎng)站。URL提取的特征包括兩類,一類為顯性的特征向量,另一類為隱性的特征向量。顯性特征向量所反映的是釣魚網(wǎng)站的可能性大小,而隱性特征向量是無法直接判斷的特征向量[3]。通過GA-BP神經(jīng)網(wǎng)絡(luò)對隱性特征向量進(jìn)行預(yù)測,同時(shí)預(yù)測的結(jié)果和顯性特征向量綜合起來進(jìn)行判斷網(wǎng)站是否為釣魚網(wǎng)站。釣魚網(wǎng)站檢測模型如圖3所示。
圖3 釣魚網(wǎng)站檢測模型
1.顯性特征。URL的顯性特征主要包括三個(gè)方面,分別為是否為IP形式、地址長度、域名年齡和有效時(shí)間。對于釣魚網(wǎng)站的攻擊者來講,將IP地址表示為釣魚網(wǎng)站的URL域名是比較常見的,這樣就可以使得使用者的注意力被分散,使用者會點(diǎn)擊URL。為了使得釣魚網(wǎng)站的真實(shí)域名被隱藏,釣魚網(wǎng)站的攻擊者往往是采用增加地址長度的形式,這樣使得使用者難以辨別是否為釣魚網(wǎng)站。對于釣魚網(wǎng)站的攻擊者而言,其網(wǎng)站域名更新比較頻繁,同時(shí)為了應(yīng)對安全檢查,必須不斷地更換域名服務(wù)器,因此釣魚網(wǎng)站的域名年齡比較短。將釣魚網(wǎng)站的顯性特征分為三組,分別記為D1、D2和D3,那么顯性特征向量為D=(D1,D2,D3)。
2.隱性特征。URL的隱性特征主要包括三個(gè)方面,分別為主域名、子域名和路徑名。記待檢測的URL主域名和其在谷歌搜索引擎拼寫建議結(jié)果之間的距離為V1。如果V1=0,那么主域名的值R1=1,為合法的網(wǎng)址;如果V1≠0,那么R1=1-1/V1。記待檢測的URL子域名和其在谷歌搜索引擎拼寫建議結(jié)果之間的距離為V2。如果V2=0,那么子域名的值R2=1,為合法的網(wǎng)址;如果V2≠0,那么R2=1-1/V2。記待檢測的URL路徑名和其在谷歌搜索引擎拼寫建議結(jié)果之間的距離為V3。如果V3=0,那么路徑名的值R3=1,為合法的網(wǎng)址;如果V3≠0,那么R3=1-1/V3。將釣魚網(wǎng)站的隱性特征分為三組,分別記為R1、R2和R3,那么隱性特征向量為R=(R1,R2,R3)。
將釣魚網(wǎng)站的顯性特征和隱性特征結(jié)合起來進(jìn)行評價(jià),即分別賦予顯性特征和隱性特征一定的權(quán)重,這樣對釣魚網(wǎng)站的評價(jià)預(yù)測準(zhǔn)確率更高[4]。采用百分制將顯性特征的權(quán)重記為60,隱性特征的權(quán)重記為40。由于顯性特征值共有3個(gè),因此每一個(gè)特征值的權(quán)重為20;由于隱性特征值共有3個(gè),因此每一個(gè)特征值的權(quán)重為13.3。綜合評價(jià)公式為:
(7)
如果計(jì)算所得Z值大于等于60,那么該網(wǎng)站為釣魚網(wǎng)站;如果計(jì)算所得Z值小于60,那么該網(wǎng)站為正規(guī)網(wǎng)站。
實(shí)驗(yàn)數(shù)據(jù)來自國際反釣魚組織[5],其中包含有正向樣本(釣魚網(wǎng)站)5000個(gè)和反向樣本(合法網(wǎng)站)3000個(gè)。將樣本分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù),具體如表1所示。
一般來講,正規(guī)合法網(wǎng)站的數(shù)量要遠(yuǎn)大于釣魚網(wǎng)站的數(shù)量,國民所訪問的網(wǎng)站中釣魚網(wǎng)站所占比的比例也不是太高的。本文選擇3500個(gè)正向樣本和1500個(gè)反向樣本采用GA-BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束之后需要對GA-BP網(wǎng)絡(luò)進(jìn)行測試,選擇正向樣本1500個(gè)和反向樣本1500個(gè)進(jìn)行測試。采用總體識別率(Accuracy)、正向樣本識別率(PA)和總體漏報(bào)率(MR)來判斷識別的效果。
(8)
(9)
(10)
W=TP+FP+TN+FN
(11)
其中,TP為正向樣本識別為釣魚網(wǎng)站的個(gè)數(shù);TN為反向樣本識別為正規(guī)網(wǎng)站的個(gè)數(shù);W為樣本總數(shù);FP為正向樣本識別為正規(guī)網(wǎng)站的個(gè)數(shù);FN為反向樣本識別為釣魚網(wǎng)站的個(gè)數(shù)。
采用GA-BP網(wǎng)絡(luò)對正向樣本1500個(gè)和反向樣本1500個(gè)進(jìn)行測試,測試的結(jié)果如表2所示。
由表2可見,采用GA-BP網(wǎng)絡(luò)總體的漏報(bào)率為0.19%,維持在比較低的水平,同時(shí)正向樣本的識別率為98.87%,識別率比較高,因此提出的GA-BP神經(jīng)網(wǎng)絡(luò)對整體樣本的識別效果良好,具有較好的應(yīng)用前景。
為了更好地對釣魚網(wǎng)站進(jìn)行檢測,采用將釣魚網(wǎng)站的顯性特征和隱性特征結(jié)合起來進(jìn)行評價(jià)的辦法,評價(jià)的結(jié)果如表3所示。
表3 釣魚網(wǎng)站檢測結(jié)果
對比表2和表3,采用將釣魚網(wǎng)站的顯性特征和隱性特征結(jié)合起來進(jìn)行評價(jià)的辦法使得對釣魚網(wǎng)站的總體識別率、正向樣本識別率和總體漏報(bào)率都有了明顯的提高。
針對BP網(wǎng)絡(luò)神經(jīng)元連接初始權(quán)值對網(wǎng)絡(luò)輸出結(jié)果影響比較大的問題,采用GA算法對BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值進(jìn)行優(yōu)化,得到優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)。將優(yōu)化后的GA-BP神經(jīng)網(wǎng)絡(luò)應(yīng)用于釣魚網(wǎng)站監(jiān)測中,實(shí)例仿真結(jié)果表明GA-BP網(wǎng)絡(luò)對整體樣本的識別效果良好,總體識別率高達(dá)98.21%,正向樣本識別率為98.87%,總體漏報(bào)率為0.19%,同時(shí)綜合評價(jià)方法使得釣魚網(wǎng)站的總體識別率為98.36%、正向樣本識別率為99.21%和總體漏報(bào)率為0.11%。