張 旭,李 鵬
(1. 荊楚理工學(xué)院信息技術(shù)中心,湖北 荊門 448000;2. 桂林電子科技大學(xué)海洋工程學(xué)院,廣西 北海 536000)
日益壯大的網(wǎng)絡(luò)規(guī)模與飛速發(fā)展的通信技術(shù),均對勒索、竊密等網(wǎng)絡(luò)攻擊活動的頻發(fā)起著一定的助推作用,由于此類攻擊多承載于惡意軟件上,所以,高效、精準(zhǔn)地檢測出惡意軟件是架構(gòu)高安全等級網(wǎng)絡(luò)的一個關(guān)鍵點。惡意軟件數(shù)量隨著互聯(lián)網(wǎng)時代的革新不斷突破新高,攻擊技術(shù)也產(chǎn)生了翻天覆地的變化,為全球的網(wǎng)絡(luò)安全問題埋下了巨大的隱患,與此同時,也加大了對以往惡意軟件檢測方法性能的考驗力度。移動智能終端設(shè)備現(xiàn)已成為社會生活的必需品,應(yīng)用軟件種類與日俱增,加劇了惡意軟件的肆意傳播程度,使惡意軟件演變成互聯(lián)網(wǎng)的主要威脅因素。
針對上述問題,文獻[3]引入累計狀態(tài)變化理念,構(gòu)建值導(dǎo)數(shù)門控循環(huán)單元算法,呈現(xiàn)移動惡意流量不同階的動態(tài)變化,利用增加的池化層,采集惡意流量重要信息,檢測出惡意軟件流量;文獻[4]設(shè)定檢測分析目標(biāo)為域名系統(tǒng)的域名,以域名系統(tǒng)請求流量的時間特征為依據(jù),獲取惡意域名的有關(guān)域名,經(jīng)比較文本分類樣本庫與關(guān)聯(lián)域名,明確惡意移動軟件。
移動終端技術(shù)日新月異,惡意軟件種類越來越多,增加了文獻方法的運算復(fù)雜度。因此,為滿足當(dāng)前網(wǎng)絡(luò)安全需求,本文以累積和算法為基礎(chǔ),設(shè)計一種移動惡意軟件流量檢測算法。添加可偏移量有助于解決基本累積和算法弊端,全面考慮到各類漂移點,使檢測算法更具效用;將可偏移量的降幅改進呈分段下降模式,降低初始階段時可偏移量的下降速度,防止發(fā)生檢測誤判;在改進累積和算法中融入多模式匹配算法,有效抑制軟件流量不同時間段分布變化特點對算法精準(zhǔn)度的干擾。
累積和統(tǒng)計圖分為圖解累積和與非圖解累積和兩類。由于本文的研究目的是檢測移動惡意軟件流量,即檢測偏離標(biāo)準(zhǔn)情況,故將非圖解累積和算法作為檢測方法的基礎(chǔ)算法。
假設(shè)隨機變量{X
,X
,…,X
}與{X
,…,X
}的分布均符合正態(tài)分布形式N
,前者正態(tài)分布的期望與標(biāo)準(zhǔn)差分別是μ
、σ
,而后者則分別是μ
、σ
,且兩期望間的差值大于0。為明確變化起始點v
+1,建立下列變點連續(xù)檢驗問題函數(shù)方程組(1)
(2)
針對向上漂移情況,推導(dǎo)出下列等價對數(shù)似然比統(tǒng)計量
(3)
若截止時間n
-1時累積和算法中尚未產(chǎn)生變點,結(jié)合大于0的閾值h
,架構(gòu)出下列時間n
的過程均值漂移發(fā)生判定方程組,若滿足該方程組,則認(rèn)為均值漂移發(fā)生(4)
(5)
由此推導(dǎo)出不失一般性的累積和算法統(tǒng)計量Z
表達式,如下所示(6)
當(dāng)統(tǒng)計量Z
比閾值h
大時,判定有均值漂移發(fā)生;否則,判定過程的當(dāng)前狀態(tài)為受控。根據(jù)該統(tǒng)計量公式可知,除Z
=0的情況外,下列等式始終成立(7)
(8)
針對變點連續(xù)檢驗問題的標(biāo)準(zhǔn)正態(tài)化處理表達式(2),當(dāng)過程初始是受控狀態(tài)時,理想情況下,觀測均值與目標(biāo)值的擬合程度隨著觀測樣本的增加而不斷升高。結(jié)合上列兩項統(tǒng)計量表達式可以看出,只要發(fā)生了一個比k
大的漂移,就能夠迅速檢測出漂移點。反向而言,對于較小的漂移,累積和算法將存在檢測失效的概率,不利于實際應(yīng)用,因此,需對其展開改進。k
作為可偏移量,使正常過程內(nèi)允許存在波動范圍里的變化,若有發(fā)生均值漂移的跡象,則通過不斷減小可偏移量來滿足漂移點檢測條件。通過改寫式(6)得到改進累積和算法的統(tǒng)計量
(9)
針對滿足正態(tài)分布N
(μ
,σ
)的待檢測序列{X
,X
,…,X
},結(jié)合3σ
準(zhǔn)則能夠推導(dǎo)出下列邏輯關(guān)系式(10)
同理得到
(11)
令可偏移量k
為3σ
,根據(jù)累積和算法的判定函數(shù)式(4),建立新的判定準(zhǔn)則,即:若截至n
-1時仍未檢測到漂移點,且n
時滿足下列判定方程組,則認(rèn)為存在漂移現(xiàn)象(12)
假定檢測階段的起始觀測點為m
+1,且m
=max{j
:j
<n
,Z
=0},則由式(6)得到下列表達式(13)
(14)
N
(0,1)與N
(2k
,1)同分布分別為{x
,x
,…,x
}、{x
+1,x
+2,x
+3},且檢測時序{x
,x
,…,x
}的時間n
大于t
+1,則利用式(9)解得未知變點t
=∞(即均值無漂移)似然比統(tǒng)計量對數(shù)。已知預(yù)設(shè)閾值h
>0,當(dāng)時間n
-1對應(yīng)的統(tǒng)計量Z
-1不大于閾值h
時,表示前n
-1個檢測平均結(jié)果尚未出現(xiàn)偏移,所檢測目標(biāo)是正常的;當(dāng)統(tǒng)計量Z
比閾值h
大時,認(rèn)為所檢測目標(biāo)存在異常情況。為加快累積和算法的運行速度,將統(tǒng)計量對數(shù)函數(shù)式(9)改寫為下列表達式
Z
=(Z
-1+x
-k
)(15)
其中,上角標(biāo)+的含義是:若因子x
大于0,則x
=x
;反之,則x
=0。統(tǒng)計量Z
作為x
-k
的累積和正值,與檢測目標(biāo)的異常概率呈正比。令警報閾值即預(yù)設(shè)閾值h
,那么位置n
的目標(biāo)異常情況判定函數(shù)如下所示(16)
當(dāng)判定函數(shù)取值是0時,檢測目標(biāo)正常;反之,則為異常,發(fā)出警報。
根據(jù)改進累積和算法檢測到的給定時間序列分布變化,為有效抑制軟件流量不同時間段分布變化特點對算法的精準(zhǔn)度干擾,在改進累積和算法中融入多模式匹配算法,構(gòu)建出惡意軟件流量檢測算法。運行流程描述如下:
1)在獲取網(wǎng)絡(luò)流量數(shù)據(jù)特征向量之前,利用二維小波變換方法,濾除掉網(wǎng)絡(luò)季節(jié)性、時段性等數(shù)據(jù)特征,為流量檢測提供高質(zhì)量網(wǎng)絡(luò)數(shù)據(jù)。已知惡意軟件的小波系數(shù)是f
(n
),背景流量s
[n
]生成的小波變換系數(shù)為bs
,異常流量a
[n
]生成的小波變換系數(shù)為ba
,故組成結(jié)構(gòu)如下所示(17)
其中,小波的尺度因子為ψ
[n
];M
表示所含數(shù)據(jù)量。2)對于流量數(shù)據(jù)特征向量采集階段,采用結(jié)構(gòu)化特征提取方法,獲取惡意軟件流量的數(shù)據(jù)特征。用key與value分別表示標(biāo)簽列及其特征取值,利用Murmur哈希函數(shù)將其轉(zhuǎn)變?yōu)閿?shù)值型后,取得每一對特征與標(biāo)簽的key-value,即所需數(shù)據(jù)特征;
3)在多模式匹配算法未發(fā)現(xiàn)惡意軟件時,其輸出歸并至改進累積和算法結(jié)果中;反之,若多模式匹配算法定位到網(wǎng)絡(luò)攻擊,且輸出峰值比參考峰值高,則惡意軟件被檢測出,如果輸出峰值比參考峰值低,則比對其結(jié)果與改進累積和算法輸出,當(dāng)兩算法的輸出峰值較為擬合時,完成惡意軟件流量檢測。
假設(shè)各樣本數(shù)據(jù)塊的樣本數(shù)據(jù)量為N
,以具有相同規(guī)模的數(shù)組對(G
,S
)間相似性為標(biāo)準(zhǔn),采用下列表達式劃分樣本數(shù)據(jù)塊類別,取得一個二維數(shù)組,該數(shù)組的行數(shù)是N
(18)
經(jīng)過不斷迭代循環(huán),待符合所需數(shù)據(jù)塊個數(shù)時停止。其中,Ed
表示第j
行的歐幾里得距離。數(shù)組對之間的相似度越高,sim
(G
,S
)值越?。蝗粝嗨贫葦?shù)值大于閾值,則判定該數(shù)組塊含有異常網(wǎng)絡(luò)流量。為滿足軟件流量檢測時對設(shè)備運算、主機性能、存儲空間等條件需求,按照表1所示的參數(shù)配置,搭建用于運行本文算法的軟硬件環(huán)境。
表1 仿真軟硬件參數(shù)
加拿大網(wǎng)絡(luò)安全研究院And Mal 2020公開數(shù)據(jù)集由加拿大紐布倫斯威克大學(xué)網(wǎng)絡(luò)安全實驗室研究人員建立,是一種時效性與權(quán)威性相對平均的數(shù)據(jù)集,比較適宜作為惡意軟件流量檢測對象。該數(shù)據(jù)集對各采集軟件生成網(wǎng)絡(luò)流量數(shù)據(jù)集,以Pcap文件形式進行歸類存儲。其含有Benign類別良性軟件以及Adware、Scare ware、Ransom ware以及SMS Malware等四類惡意軟件,對應(yīng)數(shù)量分別是94、99、102、98、100,前者由Google Play市場下載取得,后者由多源取得。通過數(shù)據(jù)流切分,令惡意軟件流量與良性軟件流量近似相同,具體分布狀況如表2所示。按照4:1的比例劃分?jǐn)?shù)據(jù)集為訓(xùn)練與測試兩個部分,以保證訓(xùn)練過程可靠且公正。
表2 經(jīng)過切分的軟件流量分布
為驗證算法精準(zhǔn)性與有效性,分別采用文獻[3,4]方法與本文算法檢測實驗數(shù)據(jù)集流量,軟件流量在100組實驗測試中的不同檢測情況如表3所示。其中,真陽性表示正確檢測出惡意軟件流量的次數(shù),假陽性表示把良性軟件流量誤測成惡意軟件流量的次數(shù),假陰性表示把惡意軟件流量誤測成良性軟件流量的次數(shù)。
表3 測試數(shù)據(jù)集的惡意軟件流量檢測結(jié)果
根據(jù)表3中的檢測數(shù)據(jù)結(jié)果,采用由英國Lab center公司推出的嵌入式系統(tǒng)仿真開發(fā)軟件protues,繪制出文獻方法與本文算法的F1指標(biāo)結(jié)果,如圖1所示。
圖1 F1加權(quán)調(diào)和平均指標(biāo)示意圖
結(jié)合上列圖表情況可以看出,對比文獻方法,本文算法針對累積和算法對于較小漂移點的檢測失效問題展開優(yōu)化,把不定參數(shù)作為可偏移量,使正常過程內(nèi)允許存在波動范圍內(nèi)的變化,通過不斷減小可偏移量來滿足漂移點檢測條件,將可偏移量的降幅改進呈分段下降模式,使初始階段時的可偏移量降速得到減緩,在改進累積和算法中融入多模式匹配算法,抑制了軟件流量不同時間段分布變化特點對算法的精準(zhǔn)度干擾,因此,能夠有效且準(zhǔn)確地檢測出測試數(shù)據(jù)集中含有的惡意軟件流量,具備投入實踐應(yīng)用的關(guān)鍵前提。
及時檢測出惡意軟件流量對后續(xù)網(wǎng)絡(luò)維護有著重要意義,故針對本文算法的檢測延遲方面展開探究。圖2為不同方法的檢測時延對比結(jié)果。
圖2 不同方法的檢測時延對比圖
通過圖2所示的100組檢測時延仿真效果圖可以看出,本文算法通過分段討論可偏移量降速問題與不斷改寫、簡化統(tǒng)計量對數(shù)函數(shù),都在一定程度上加快了算法的運行速度,故算法的時延較低,相較于文獻方法的檢測時延更具優(yōu)勢,能夠滿足實際應(yīng)用中的實時性需求。
日益升級的網(wǎng)絡(luò)空間攻防戰(zhàn)不斷加強惡意軟件攻擊手段的隱蔽程度。隨著移動客戶端的增多與普及,惡意軟件規(guī)模在計算機技術(shù)的更新?lián)Q代中逐漸壯大,對當(dāng)前惡意軟件鑒別方法提出巨大挑戰(zhàn),因此,本文針對移動惡意軟件,對累積和算法加以改進,提出一種軟件流量檢測算法。應(yīng)結(jié)合反向生成算法與分類算法,將多種動態(tài)特征添加至數(shù)據(jù)集里,防止良性空間被惡意特征覆蓋;由于無法直接取得蠕蟲流量數(shù)據(jù),故需就蠕蟲攻擊過程的流量檢測問題展開深入研究;應(yīng)將移動惡意軟件的加殼情況作為下一階段的探索重點,拓展本文方法適用性;應(yīng)繼續(xù)學(xué)習(xí)深度學(xué)習(xí)理念的相關(guān)知識,完善參數(shù)調(diào)優(yōu)與算法建模等方面,進一步提升算法檢測精準(zhǔn)度,減小算法資源消耗與分類的波動性。