卓群忠
(福建廣播電視大學(xué) 莆田分校, 福建 莆田 351106)
現(xiàn)代電子技術(shù)高速發(fā)展過程中網(wǎng)絡(luò)服務(wù)成為其重要支撐.建立安全可靠的網(wǎng)絡(luò)安全環(huán)境,有效地識別網(wǎng)絡(luò)異常流量是實(shí)現(xiàn)網(wǎng)絡(luò)安全發(fā)展的必然要求[1].網(wǎng)絡(luò)流量異常識別是發(fā)現(xiàn)網(wǎng)絡(luò)攻擊,保證網(wǎng)絡(luò)安全運(yùn)行的有效措施.網(wǎng)絡(luò)流量的異常常常反映當(dāng)下網(wǎng)絡(luò)環(huán)境中存在一定威脅,若不及時處理,易影響網(wǎng)絡(luò)環(huán)境的安全[2].因此,關(guān)于網(wǎng)絡(luò)流量異常的檢測方法受到了相關(guān)研究者們的關(guān)注[3].
董書琴等人[4]針對傳統(tǒng)網(wǎng)絡(luò)流量異常識別方法識別準(zhǔn)確度低的問題,提出了一種基于機(jī)器學(xué)習(xí)特征的網(wǎng)絡(luò)異常識別檢測方法.通過機(jī)器學(xué)習(xí)特征采集網(wǎng)絡(luò)流量信號,利用最優(yōu)降噪編碼器識別異常流量信息,根據(jù)流量檢測的準(zhǔn)確率確定每個節(jié)點(diǎn)的異常流量信息,再通過降噪編碼器進(jìn)行異常特征提取,結(jié)合小波函數(shù)求出網(wǎng)絡(luò)流量異常特征向量,通過最小含噪數(shù)據(jù)對網(wǎng)絡(luò)流量異常特征進(jìn)行向量重構(gòu),最后利用流量特征結(jié)合機(jī)器學(xué)習(xí)特征構(gòu)建網(wǎng)絡(luò)流量異常識別分類提取器,完成網(wǎng)絡(luò)流量異常識別.該識別檢測方法可有效地提高網(wǎng)絡(luò)流量異常識別的準(zhǔn)確率.但操作過程中抗干擾能力有待提高.蒲曉川等人[5]結(jié)合數(shù)據(jù)庫設(shè)計(jì)了一種網(wǎng)絡(luò)流量異常識別方法,用來解決傳統(tǒng)網(wǎng)絡(luò)流量異常識別檢測時間長的問題.首先,對傳統(tǒng)的網(wǎng)絡(luò)流量異常識別方法進(jìn)行分析,找出影響檢測時長的關(guān)鍵因素,然后結(jié)合數(shù)據(jù)庫,采用小批量梯度計(jì)算方法,構(gòu)建出網(wǎng)絡(luò)流量異常識別數(shù)據(jù)庫模型,最后利用該模型對網(wǎng)絡(luò)流量進(jìn)行仿真模擬測試.該方法針對異常流量的識別耗時較短,但識別的精度有待進(jìn)一步提高.
本文設(shè)計(jì)了一種基于多元高斯分布的網(wǎng)絡(luò)流量異常識別數(shù)學(xué)模型.實(shí)驗(yàn)結(jié)果表明所提模型對異常流量識別的精度較高,且識別的耗時較短,具有一定的可行性.
在計(jì)算機(jī)網(wǎng)絡(luò)體系中,隨著時間的變化,網(wǎng)絡(luò)流量特征也會在一定程度上發(fā)生變化.因此,單一的網(wǎng)絡(luò)流量特征無法對網(wǎng)絡(luò)流量的異常情況進(jìn)行反映.在識別之前,需要在網(wǎng)絡(luò)流量中提取其多種特征.在識別過程中,引入多元高斯分布理論[6],解析網(wǎng)絡(luò)流量數(shù)據(jù)包,并將多元高斯分布理論應(yīng)用到數(shù)據(jù)包的解析中,從而提高網(wǎng)絡(luò)流量的識別速率. 網(wǎng)絡(luò)流量特征提取的具體步驟如下:
步驟1: 獲取網(wǎng)絡(luò)端口
將網(wǎng)絡(luò)端口特征數(shù)據(jù)表中流量數(shù)據(jù)與網(wǎng)絡(luò)端口特征進(jìn)行匹配處理[7],獲取到網(wǎng)絡(luò)端口的匹配性能.
步驟2: 提取網(wǎng)絡(luò)流量中TCP網(wǎng)絡(luò)流量特征
在TCP網(wǎng)絡(luò)的應(yīng)用過程中,需要對TCP網(wǎng)絡(luò)流量數(shù)據(jù)包進(jìn)行交換處理,然后依據(jù)以下3個條件提取網(wǎng)絡(luò)流量中的TCP網(wǎng)絡(luò)流量特征,即:
1) 在指定的時間段ΔU(ΔU=2s)內(nèi),網(wǎng)絡(luò)流量中TCP網(wǎng)絡(luò)流量數(shù)據(jù)包的個數(shù)需要大于或等于P個;
2) 在指定的主機(jī)端口,設(shè)置端口的網(wǎng)絡(luò)流量率,并且用Gj對其進(jìn)行描述,且Gj>n%;
3) 在指定時間段ΔU(ΔU=2 s)內(nèi),設(shè)置TCP網(wǎng)絡(luò)流量數(shù)據(jù)包的數(shù)量[8],并且可以用T進(jìn)行描述,T≥P.
步驟3: 提取網(wǎng)絡(luò)流量中的GPRS網(wǎng)絡(luò)流量特征
在GPRS網(wǎng)絡(luò)中,GPRS網(wǎng)絡(luò)流量數(shù)據(jù)包的數(shù)量要比TCP網(wǎng)絡(luò)流量數(shù)據(jù)包少很多,TCP網(wǎng)絡(luò)流量數(shù)據(jù)包的長度也比GPRS網(wǎng)絡(luò)流量數(shù)據(jù)包長,根據(jù)以下條件,可以對網(wǎng)絡(luò)流量中的GPRS網(wǎng)絡(luò)流量特征進(jìn)行提取,即:
1) 對于指定的主機(jī)端口,設(shè)置GPRS網(wǎng)絡(luò)端口的流量率,并且可以用Hj描述,Hj>n%;
2) 在指定的時間段ΔU(ΔU=2 s)內(nèi),連續(xù)的GPRS網(wǎng)絡(luò)流量數(shù)據(jù)包的數(shù)量需要滿足T≥P關(guān)系.
根據(jù)以上方法,可以正確提取出網(wǎng)絡(luò)流量特征,從而為網(wǎng)絡(luò)流量的識別提供依據(jù).
在上述網(wǎng)絡(luò)流量提取基礎(chǔ)上,為了實(shí)現(xiàn)網(wǎng)絡(luò)流量異常識別,需要對網(wǎng)絡(luò)流量進(jìn)行分類.
{T(K,X,D)}表示網(wǎng)絡(luò)流量的多元高斯分布序列,其中,T為最終的網(wǎng)絡(luò)流量分類模型,D為采集流量集量,X為流量樣本集,K為流量分類器的數(shù)量,則每個流量分類器的輸入樣本為:
X={x1,x2,…,xM}
(1)
通過式(1)進(jìn)行網(wǎng)絡(luò)流量分類,根據(jù)傳輸層類別確定網(wǎng)絡(luò)流量的具體類別,步驟如下:
步驟1: 假設(shè)初始的網(wǎng)絡(luò)流量數(shù)據(jù)集為D,流量樣本數(shù)量為N,網(wǎng)絡(luò)特征數(shù)量為M.在多元高斯分布序列模型中,利用流量分類器[9]對全部流量樣本進(jìn)行集中訓(xùn)練;
步驟2: 利用小批量梯度下降算法生成流量分類器[10].為了達(dá)到預(yù)期的分類效果,在不同傳輸層M個特征中選取m個流量子特征.在傳輸層的各節(jié)點(diǎn)選取流量最大樣本進(jìn)行分裂[11],將分裂完成后的網(wǎng)絡(luò)流量子集重復(fù)步驟,生成新的梯度序列;
步驟3: 利用步驟1和步驟2進(jìn)行k次重復(fù)驗(yàn)證操作,形成k個梯度序列,獲取隨機(jī)梯度序列;
步驟4: 將生成的隨機(jī)梯度序列結(jié)合多元高斯分布序列生成新的網(wǎng)絡(luò)流量分類,對流量分類器進(jìn)行統(tǒng)計(jì)分析,確定最終的網(wǎng)絡(luò)流量分類類別[12].
在網(wǎng)絡(luò)流量分類過程中,根據(jù)其中一部分流量分類器構(gòu)建樣本網(wǎng)絡(luò)流量梯度序列分類;剩余一部分流量分類器,通過重新采樣[13],構(gòu)建網(wǎng)絡(luò)流量梯度序列分類,通過對網(wǎng)絡(luò)流量檢測過程進(jìn)行優(yōu)化,獲取網(wǎng)絡(luò)流量分類的算法.具體操作如下:
Step1: 網(wǎng)絡(luò)流量特征預(yù)先處理,將全部網(wǎng)絡(luò)流量特征用0代替,并統(tǒng)一流量數(shù)據(jù)的格式.
Step2: 設(shè)A為網(wǎng)絡(luò)傳輸層的網(wǎng)絡(luò)流量特征向量,計(jì)算出網(wǎng)絡(luò)流量特征向量的信息增加率,則:
(2)
式中,gainRation(D,A)為網(wǎng)絡(luò)流量數(shù)據(jù)特征A的信息增加率,gain(D,A)為該網(wǎng)絡(luò)流量的信息量,splitinfo(D,A)為網(wǎng)絡(luò)流量的分量.
在此基礎(chǔ)上,利用下式獲取:
(3)
式中,pa為特征A不同網(wǎng)絡(luò)流量分類頻率,entropy(D)為現(xiàn)有網(wǎng)絡(luò)流量的種類數(shù)量,其中:
(4)
式中,C為網(wǎng)絡(luò)流量數(shù)據(jù)分類的類型,pc為總網(wǎng)絡(luò)數(shù)據(jù)流量樣本中C所占的比例.
利用下式計(jì)算出特征A的分裂信息量為:
(5)
Step3: 網(wǎng)絡(luò)流量特征排序.對不同網(wǎng)絡(luò)環(huán)境下的流量信息進(jìn)行增加概率排序,選擇傳輸層內(nèi)較為突出的信息特征量,刪除特征不明顯的最小特征向量[14].計(jì)算傳輸層的網(wǎng)絡(luò)流量分類閾值.
Step4: 網(wǎng)絡(luò)流量訓(xùn)練分類器.設(shè)定傳輸層樣本各個節(jié)點(diǎn)的流量傳輸規(guī)則,確定網(wǎng)絡(luò)流量分類的類別,得到各個網(wǎng)絡(luò)節(jié)點(diǎn)的流量傳輸候選集[15],如下:
A←{a1,a2,…,am}
(6)
產(chǎn)生的流量傳輸候選子集為:
Dm={D1,D2,…,Dm}
(7)
Step5: 網(wǎng)絡(luò)流量分類屬性.此步驟與多元高斯分布的分裂規(guī)則一樣,分別對各節(jié)點(diǎn)網(wǎng)絡(luò)流量信息進(jìn)行分類,選取節(jié)點(diǎn)分類的最高屬性值,產(chǎn)生不同流量數(shù)據(jù)子集,對流量數(shù)據(jù)子集進(jìn)行多元高斯分布排列[16],得到信息增加率公式為:
(8)
Step6: 分別對所有梯度序列進(jìn)行上述步驟操作,生成相應(yīng)的網(wǎng)絡(luò)流量分類規(guī)則,直到滿足條件為止.
Step7: 重復(fù)上述步驟K次.
在改進(jìn)的網(wǎng)絡(luò)流量分類器模型中,對采集的重復(fù)信息流量數(shù)據(jù)進(jìn)行重新檢測[17].原始網(wǎng)絡(luò)流量數(shù)據(jù)樣本中,流量信息未被檢測的概率為:
(9)
式中,p代表網(wǎng)絡(luò)流量未檢測發(fā)生的概率,ALL代表所有網(wǎng)絡(luò)流量數(shù)據(jù).
得到當(dāng)前梯度序列的網(wǎng)絡(luò)流量分類精度:
(10)
式中,Ot為當(dāng)前網(wǎng)絡(luò)流量梯度序列內(nèi)的全部數(shù)據(jù),Ou代表已檢測完畢的網(wǎng)絡(luò)流量信息.
對網(wǎng)絡(luò)流量梯度序列pt進(jìn)行權(quán)重分析,對分析結(jié)果進(jìn)行加權(quán)統(tǒng)計(jì)[18],得到最終的網(wǎng)絡(luò)流量分類結(jié)果為:
(11)
式中,Tt,x代表網(wǎng)絡(luò)流量樣本的數(shù)量.
利用投票方式確定了網(wǎng)絡(luò)流量分類的類別,根據(jù)重采樣的樣本構(gòu)建網(wǎng)絡(luò)流量分類決策樹,計(jì)算網(wǎng)絡(luò)流量信息的增益,完成網(wǎng)絡(luò)流量分類.
通過多元高斯分布結(jié)合序列分析方法,構(gòu)建網(wǎng)絡(luò)流量異常識別的數(shù)學(xué)模型.具體研究過程如下:
首先,構(gòu)建網(wǎng)絡(luò)信息流量的統(tǒng)計(jì)信號模型,利用多元高斯分布序列檢測方法,對x′(k)進(jìn)行流量變換,然后分析網(wǎng)絡(luò)流量信號的時間排列特征,得到網(wǎng)絡(luò)流量異常識別的時間不可逆量.通過上述公式,選取網(wǎng)絡(luò)流量樣本x,代表網(wǎng)絡(luò)流量隨機(jī)檢測的概率,受噪音干預(yù)的情況下,得到網(wǎng)絡(luò)流量異常信號統(tǒng)計(jì)的特征函數(shù)為:
(12)
式中,異常網(wǎng)絡(luò)流量信號x的序列概率函數(shù)為f(x).
在構(gòu)建網(wǎng)絡(luò)流量異常識別的數(shù)學(xué)模型過程中,對傳輸層的各個節(jié)點(diǎn)進(jìn)行異常信號識別.異常信號通過在異常網(wǎng)絡(luò)中高階積累,得到網(wǎng)絡(luò)流量異常信號到特征向量,將異常信號進(jìn)行切片分解[19],最終得到一組隨機(jī)的網(wǎng)絡(luò)流量異常變量信息.結(jié)合隨機(jī)變量x與網(wǎng)絡(luò)流量異常量,得到ck和Φ(w)的v階多元高斯分布過程為:
(13)
式中,dw代表多元高斯分布環(huán)境因子.
設(shè)網(wǎng)絡(luò)流量異常識別序列為x(n),當(dāng)均值z等于零時,網(wǎng)絡(luò)流量數(shù)據(jù)的異常多元高斯分布函數(shù)為z-1.利用線性分析[20],對異常信號進(jìn)行替換,得到下式:
(14)
利用梯度方程式描述網(wǎng)絡(luò)流量異常識別的過程,設(shè)網(wǎng)絡(luò)流量異常數(shù)據(jù)的隨機(jī)變量為X,按照多元高斯分布為N(0,σ2),得到網(wǎng)絡(luò)流量異常識別的時長:
Tx(w)=e-wtσtN(0,σ2)
(15)
結(jié)合網(wǎng)絡(luò)流量異常識別的時長與特征向量之間的關(guān)系為:
(16)
通過上述計(jì)算,得到網(wǎng)絡(luò)流量異常識別的數(shù)學(xué)排列矩陣為:
(17)
在網(wǎng)絡(luò)流量異常識別統(tǒng)計(jì)模型基礎(chǔ)上,結(jié)合數(shù)量排列矩陣對網(wǎng)絡(luò)流量異常信息進(jìn)行改進(jìn).通過最優(yōu)降噪編碼器識別異常流量信息,設(shè)異常網(wǎng)絡(luò)流量信息識別變量為x階,得到網(wǎng)絡(luò)流量異常識別的數(shù)學(xué)排列原點(diǎn)矩陣為:
(18)
在大規(guī)模的噪音以及大量的網(wǎng)絡(luò)流量信息干擾下,網(wǎng)絡(luò)流量異常數(shù)據(jù)為零的多元高斯分布過程.利用小批量梯度計(jì)算方法提升異常識別檢測速度.利用過濾波有效控制噪音干擾變量,得到過濾波與網(wǎng)絡(luò)流量數(shù)學(xué)排列矩陣關(guān)系,即:
(19)
式中,Y(z)代表過濾波與網(wǎng)絡(luò)流量數(shù)學(xué)排列矩陣關(guān)系,A(z)代表網(wǎng)絡(luò)流量異常類別.
基于以上公式推導(dǎo),可建立網(wǎng)絡(luò)流量異常識別的數(shù)學(xué)模型:
(20)
式中,cx(τ)代表網(wǎng)絡(luò)流量異常識別結(jié)果,wi代表網(wǎng)絡(luò)流量異常占比.
通過上述操作步驟,完成基于多元高斯分布的網(wǎng)絡(luò)流量異常識別數(shù)學(xué)建模.
仿真測試計(jì)算機(jī)的配置為AMD顯卡,Intel 4核2.90 GHz的中央處理器,500 GB 的硬盤,32 GB的內(nèi)存,操作系統(tǒng)選擇Windows 10. 引入文[4]和文[5]的識別方法,在相同環(huán)境下進(jìn)行測試對比.
為了驗(yàn)證本文方法的有效性,采用文[4]、文[5]方法和本文方法,對相同樣本網(wǎng)絡(luò)流量進(jìn)行識別,得到的識別效率如圖1所示.
圖1 網(wǎng)絡(luò)流量異常識別效率測試結(jié)果
從圖1中的實(shí)驗(yàn)結(jié)果可以看出,隨著實(shí)驗(yàn)次數(shù)的增加,3種方法的識別效率均呈現(xiàn)上升趨勢.其中:本文所提方法在識別網(wǎng)絡(luò)流量時效率呈直線上升趨勢,當(dāng)網(wǎng)絡(luò)流量識別效率達(dá)到98%以后,開始逐漸趨于穩(wěn)定;文[4]方法在識別網(wǎng)絡(luò)流量時效率也呈現(xiàn)出上升趨勢,但是在第3次實(shí)驗(yàn)時,該方法開始逐漸趨于穩(wěn)定,但在網(wǎng)絡(luò)流量識別效率方面低于本文方法; 文[5]方法在識別網(wǎng)絡(luò)流量時的效率在整個實(shí)驗(yàn)過程中處于不穩(wěn)定狀態(tài).對比發(fā)現(xiàn)在3種網(wǎng)絡(luò)流量異常識別數(shù)學(xué)模型中,本文所提的基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法在識別網(wǎng)絡(luò)流量時的效率較高,且可以有效保證網(wǎng)絡(luò)流量識別的實(shí)時性.
實(shí)驗(yàn)還進(jìn)一步測試了本文方法、文[4]和文[5]方法識別的誤識率,得到的結(jié)果如表1所示.從表1中的實(shí)驗(yàn)結(jié)果可以看出,隨著訓(xùn)練樣本數(shù)量的增加,與文[4]和文[5]方法相比,基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法在識別網(wǎng)絡(luò)流量時,網(wǎng)絡(luò)流量識別準(zhǔn)確率較高,可以有效地判斷網(wǎng)絡(luò)的運(yùn)行狀況,原因是基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法在建模之前,利用多元高斯分布理論,提取出網(wǎng)絡(luò)流量特征,并對網(wǎng)絡(luò)流量進(jìn)行了分類,從而有效地提高了網(wǎng)絡(luò)流量的識別準(zhǔn)確率.
表1 網(wǎng)絡(luò)流量誤識率測試結(jié)果
針對傳統(tǒng)網(wǎng)絡(luò)流量異常識別數(shù)學(xué)模型中存在的問題,采用多元高斯分布理論提取出網(wǎng)絡(luò)流量特征,并對網(wǎng)絡(luò)流量進(jìn)行了分類,構(gòu)建了基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法.實(shí)驗(yàn)結(jié)果顯示,本文提出的基于多元高斯分布的網(wǎng)絡(luò)流量異常識別方法在識別效率和準(zhǔn)確率方面具有較好的性能.