付吉菊
(滁州城市職業(yè)學院 管理與信息學院,安徽 滁州 239000)
計算機產(chǎn)業(yè)的發(fā)展促進了移動終端在各個領(lǐng)域中的廣泛應(yīng)用.如今,如果沒有計算機,人們的日常工作是不可能完成的[1].人們可以通過網(wǎng)絡(luò)交流、娛樂、購物而不必外出.計算機的使用大大方便了人們的工作和生活.但是,在享受電腦帶來便利的同時,很多用戶的賬號和密碼卻經(jīng)常遭到惡意竊取、木馬攻擊、釣魚網(wǎng)站和欺詐誘騙等行為,這些問題給用戶造成了巨大的經(jīng)濟損失[2].網(wǎng)絡(luò)入侵數(shù)據(jù)特征挖掘技術(shù)是一種新型的主動安全保護技術(shù),它是對傳統(tǒng)安全技術(shù)的一種有效的補充.目前,網(wǎng)絡(luò)入侵數(shù)據(jù)特征挖掘技術(shù)正逐漸成為一個熱門的領(lǐng)域.
中國每年遭受網(wǎng)絡(luò)攻擊的直接經(jīng)濟損失高達1000億元[3].在當前,開展針對網(wǎng)絡(luò)攻擊的防御技術(shù)研究顯得十分必要.為此,相關(guān)學者進行了大量研究,例如夏景明[4]對隨機森林分類系統(tǒng)中的入侵檢測進行了研究.采用高斯混合模型聚類方法對數(shù)據(jù)進行分類,并根據(jù)分類結(jié)果對其進行檢測.通過對隨機樹進行分類,可以有效地發(fā)現(xiàn)網(wǎng)絡(luò)入侵.利用nsl-kdd網(wǎng)絡(luò)入侵數(shù)據(jù),進行了訓練和試驗,先采用屬性比例的特征抽取法對數(shù)據(jù)進行分類,再利用隨機森林分類器進行聚類,在入侵檢測中的正確率要高得多,但是誤差較大;李俊[5]等為考慮到網(wǎng)絡(luò)入侵數(shù)據(jù)集在采用過程中存在的問題,分析了網(wǎng)絡(luò)惡意入侵中跳頻數(shù)據(jù)的特點,在記憶和時序的基礎(chǔ)上,提出了一種網(wǎng)絡(luò)入侵檢測模型,通過分析網(wǎng)絡(luò)攻擊行為的時序,挖掘出入侵數(shù)據(jù)的特征,在辨識和收斂方面都有較大的提高,但是在網(wǎng)絡(luò)入侵數(shù)據(jù)特征的挖掘方面還有待研究.
基于以上研究背景,總結(jié)以往研究經(jīng)驗,本文針對交互式網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)設(shè)計一種特征自動挖掘方法,從而保證交互式網(wǎng)絡(luò)的安全穩(wěn)定運行.
針對交互式網(wǎng)絡(luò)中的惡意入侵跳頻數(shù)據(jù),在挖掘其特征之前,需要先根據(jù)交互式網(wǎng)絡(luò)的結(jié)構(gòu)特點,識別出跳頻數(shù)據(jù),通過將跳頻數(shù)據(jù)劃分為不同類型[6],采集到具有差異特征的跳頻數(shù)據(jù)樣本,具體表示為
(1)
其中,λ表示跳頻數(shù)據(jù)狀態(tài)空間的測量值組數(shù),dj為跳頻數(shù)據(jù)的狀態(tài)空間,δ(xk·|Zk|)為網(wǎng)絡(luò)入侵跳頻數(shù)據(jù)的先驗概率分布函數(shù),Zr為跳頻數(shù)據(jù)狀態(tài)空間的測量值,lh為跳頻數(shù)據(jù)識別的概率密度函數(shù),fl為跳頻數(shù)據(jù)的差異性特點.
根據(jù)采集到的跳頻數(shù)據(jù)樣本,利用K-聚類算法對不同類型的跳頻數(shù)據(jù)進行聚類[7],公式為
(2)
其中,lk為跳頻數(shù)據(jù)的聚類中心,dk為存在差異特征的跳頻數(shù)據(jù)在識別中的先驗概率分布,sr為跳頻數(shù)據(jù)特征的分類閾值,λu為不同類型的跳頻數(shù)據(jù)特征,hp為后驗概率分布向量,dp為dk的權(quán)重.
根據(jù)跳頻數(shù)據(jù)的聚類結(jié)果,得到不同類型的網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù),以跳頻數(shù)據(jù)的類型為依據(jù)[8],對網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的分布區(qū)域進行劃分,即
(3)
上述公式中,si是跳頻數(shù)據(jù)在不同尺度上的時間序列,dh是跳頻數(shù)據(jù)中的原始信息,fk是跳頻數(shù)據(jù)的取樣數(shù)目,fu是跳頻數(shù)據(jù)的訓練取樣特性,?i是跳頻數(shù)據(jù)的類別數(shù)目,rk是特征向量,kl是具有差別特征的標記資訊.
利用劃分得到的跳頻數(shù)據(jù)分布區(qū)域,將不同類型的跳頻數(shù)據(jù)依次聚類到各自的分布區(qū)域中[9],給出跳頻數(shù)據(jù)識別的閾值Tf,即
(4)
其中,Er為跳頻數(shù)據(jù)所屬的屬性類型,ki為跳頻數(shù)據(jù)分類識別的后驗概率不確定性,vy為跳頻數(shù)據(jù)的信息熵集合,μt為不同類型跳頻數(shù)據(jù)的相似度,ko為跳頻數(shù)據(jù)采集的時間序列權(quán)重.
根據(jù)給定的跳頻數(shù)據(jù)識別閾值,即可識別到網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)
(5)
式中,sk表示跳頻數(shù)據(jù)識別值偏離真值的程度.
通過在交互式網(wǎng)絡(luò)中采集跳頻數(shù)據(jù)樣本,聚類處理了跳頻數(shù)據(jù),并根據(jù)跳頻數(shù)據(jù)樣本所處的差異性特征分布區(qū)域,設(shè)置了不同類型跳頻數(shù)據(jù)之間的識別閾值,從而實現(xiàn)對跳頻數(shù)據(jù)的識別.
利用識別到的網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù),對網(wǎng)絡(luò)惡意入侵數(shù)據(jù)的統(tǒng)計特征進行監(jiān)測[10],監(jiān)測結(jié)構(gòu)如圖1所示.
圖1 網(wǎng)絡(luò)惡意入侵數(shù)據(jù)的統(tǒng)計特征監(jiān)測結(jié)構(gòu)
針對交互式網(wǎng)絡(luò)中的惡意攻擊數(shù)據(jù),結(jié)合統(tǒng)計特性監(jiān)控,提出一種跳頻數(shù)據(jù)的分配算法[11].首先對網(wǎng)絡(luò)惡意攻擊數(shù)據(jù)庫中的頻繁項進行提取,并利用頻繁項集合構(gòu)造最小信任度,那么在檢索過程中,定義了跳頻數(shù)據(jù)的轉(zhuǎn)發(fā)控制協(xié)議,即
(6)
上式中,ζth表示跳頻數(shù)據(jù)轉(zhuǎn)發(fā)控制的優(yōu)先級別,G表示轉(zhuǎn)發(fā)控制協(xié)議的擁塞程度,?r表示可靠性概率,hi表示跳頻數(shù)據(jù)轉(zhuǎn)發(fā)控制的速率比.
對于交互式網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)分布的Sink節(jié)點EHs(j)和EHs(k),采用Apriori 算法設(shè)計網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)分布算法[12],表示為
(7)
上式中,Vt(k)表示網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的統(tǒng)計概率分布,計算公式為
(8)
式中,βi的取值范圍在0~1之間.
根據(jù)跳頻數(shù)據(jù)在交互式網(wǎng)絡(luò)中得到信息源分布情況,計算出跳頻數(shù)據(jù)在頻繁項集中的權(quán)重,即
(9)
其中,Yi1表示標準化前網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)樣本的維度.
利用數(shù)據(jù)在交互式網(wǎng)絡(luò)中傳輸?shù)南嗷リP(guān)聯(lián)數(shù),對基于交互式網(wǎng)絡(luò)的網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)特征分配進行了自適應(yīng)的排序,在引入相關(guān)檢測技術(shù)的基礎(chǔ)上,在分布式網(wǎng)絡(luò)中搜索出跳頻數(shù)據(jù)庫中的所有頻繁項集合,公式表示為
(10)
上式中,VT表示跳頻數(shù)據(jù)在頻繁項集上生成數(shù)據(jù)序列的速率,J表示頻繁項集合,W(p)表示頻繁項集合J的二次函數(shù),β表示跳頻數(shù)據(jù)到達頻繁項集中的速率.
通過監(jiān)測網(wǎng)絡(luò)惡意入侵數(shù)據(jù)的統(tǒng)計特征,定義了跳頻數(shù)據(jù)的轉(zhuǎn)發(fā)控制協(xié)議,采用Apriori 算法設(shè)計網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)分布算法,在交互式網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的信源分布域中,檢索出網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的頻繁項集.
通過對跳頻數(shù)據(jù)頻繁項的檢索,建立了基于跳頻數(shù)據(jù)的特征挖掘模型,利用雙線性 Hough變換分析了網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的雙曲線跳頻特征[13],結(jié)合跳頻分解,定義了跳頻數(shù)據(jù)在基函數(shù)集U中的子空間,表示為
(11)
其中,m(T)表示原始跳頻數(shù)據(jù)在基函數(shù)集U中的波束域,T0表示跳頻數(shù)據(jù)樣本的初始采樣時間,Wn(T,V)表示跳頻數(shù)據(jù)特征在頻譜區(qū)間的伸縮尺度,V0表示初始采樣速度,V表示影響跳頻數(shù)據(jù)特征挖掘的干擾強度.
為了計算出跳頻數(shù)據(jù)之間的最佳匹配尺度,在引入跳頻分解技術(shù)的基礎(chǔ)上[14],在頻譜函數(shù)f和基底函數(shù)φγ0之間,構(gòu)建了跳頻數(shù)據(jù)的概率密度函數(shù),表示為
(12)
(13)
其中,φ0表示跳頻數(shù)據(jù)的初始采樣幅值,sn-i表示標準采樣點的時間序列,εj表示時頻分析中頻譜的振蕩幅值.
(14)
式中,g()表示數(shù)據(jù)挖掘函數(shù),通過分析交互式網(wǎng)絡(luò)中惡意入侵跳頻數(shù)據(jù)的頻譜特征,構(gòu)建了跳頻數(shù)據(jù)特征挖掘模型,實現(xiàn)網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)特征的挖掘,實現(xiàn)流程如圖2所示.
圖2 網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)特征的挖掘流程
圖2中,采集到具有差異特征的跳頻數(shù)據(jù)樣本后,檢索網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)的頻繁項集,結(jié)合跳頻數(shù)據(jù)之間的最佳匹配尺度,判斷是否滿足設(shè)定的轉(zhuǎn)發(fā)控制協(xié)議,聯(lián)合得出了跳頻數(shù)據(jù)的時間-頻率分析模型,求解并輸出入侵跳頻數(shù)據(jù)特征.
為了驗證文中方法對交互式網(wǎng)絡(luò)惡意入侵數(shù)據(jù)特征的挖掘效果,本文選擇MKK UK08數(shù)據(jù)集作為實驗數(shù)據(jù)集.MKK UK08數(shù)據(jù)集是從某局域網(wǎng)上采集的網(wǎng)絡(luò)連接數(shù)據(jù),主要包括遠程未授權(quán)用戶非法進入攻擊、拒絕服務(wù)攻擊、本地用戶非法獲取特權(quán)用戶權(quán)限攻擊以及漏洞掃描探測攻擊等四個攻擊類型.
MKK UK08數(shù)據(jù)集中每一條跳頻數(shù)據(jù)都由36個屬性特征組成,本文選取其中10個特征進行驗證,表1給出了跳頻數(shù)據(jù)的屬性特征.
表1 跳頻數(shù)據(jù)的屬性特征描述
屬性名稱特征描述類型Root_shell是否獲得了root管理員權(quán)限離散型Dst_host_srv_serror_rate同目標同服務(wù)不同源主機的連接所占比例連續(xù)型Dst_hostcount具有相同目標主機的連接數(shù)量連續(xù)型Count兩秒內(nèi)對相同一個主機發(fā)出的連接數(shù)目連續(xù)型
實驗過程中,為了突出文中跳頻數(shù)據(jù)特征挖掘方法的優(yōu)越性,引入基于隨機森林分類器的挖掘方法和基于GRU-RNN的挖掘方法做對比,先利用抗干擾系數(shù)指標衡量跳頻數(shù)據(jù)特征的挖掘性能,計算公式為
(15)
其中,Zk表示跳頻數(shù)據(jù)的屬性特征,p表示數(shù)據(jù)采集正確率,T表示數(shù)據(jù)采集周期,gd表示跳頻數(shù)據(jù)特征之間的關(guān)聯(lián)度.根據(jù)公式(15)可以看出,抗干擾系數(shù)越小,跳頻數(shù)據(jù)特征挖掘的精度越高,反之則低.
接著采用冗余度指標衡量跳頻數(shù)據(jù)特征挖掘的質(zhì)量,計算公式為
(16)
其中,εr表示跳頻數(shù)據(jù)特征的觀測向量,j表示數(shù)據(jù)特征的均衡度.通過公式(16)的計算,冗余度越小,說明跳頻數(shù)據(jù)特征挖掘的質(zhì)量越好,反之則差.
三種方法在挖掘網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)特征時的抗干擾系數(shù)測試結(jié)果如圖3所示.
圖3 抗干擾系數(shù)測試結(jié)果
根據(jù)圖3的結(jié)果可知,基于隨機森林分類器的挖掘方法和基于GRU-RNN的挖掘方法在挖掘跳頻數(shù)據(jù)不同特征時的抗干擾系數(shù)比較接近,雖然基于GRU-RNN的挖掘方法較低,但是抗干擾系數(shù)仍然在0.2以上,而采用文中方法挖掘跳頻數(shù)據(jù)不同特征時,抗干擾系數(shù)一直處于0.1以下,說明文中方法在挖掘跳頻數(shù)據(jù)特征時的性能更好.
跳頻數(shù)據(jù)特征挖掘的冗余度測試結(jié)果如圖4所示.
圖4 冗余度測試結(jié)果
圖4的結(jié)果顯示,在冗余度測試中,基于隨機森林分類器的挖掘方法和基于GRU-RNN的挖掘方法超過了35%,而采用文中方法挖掘跳頻數(shù)據(jù)特征時,可以降低跳頻數(shù)據(jù)特征的冗余度,將冗余度控制在20%以內(nèi),因此文中方法可以提高跳頻數(shù)據(jù)特征挖掘的質(zhì)量.
本文提出了交互式網(wǎng)絡(luò)惡意入侵跳頻數(shù)據(jù)特征自動挖掘方法研究,經(jīng)過實驗測試發(fā)現(xiàn),該方法在挖掘交互式網(wǎng)絡(luò)中的惡意入侵跳頻數(shù)據(jù)特征時,可以提高跳頻數(shù)據(jù)特征挖掘的性能,同時保證跳頻數(shù)據(jù)的質(zhì)量.但是本文的研究還存在很多不足,在今后的研究中,希望可以利用人工神經(jīng)網(wǎng)絡(luò)對跳頻數(shù)據(jù)訓練,去掉數(shù)據(jù)中的冗余特征,進一步提高挖掘的質(zhì)量.