黃波, 楊正, 王超
(1.廣州市第八人民醫(yī)院,廣東,廣州 510060;2.福建師范大學(xué),光電與信息科技學(xué)院,福建,福州 350007)
隨著現(xiàn)代信息技術(shù)和移動(dòng)互聯(lián)網(wǎng)技術(shù)的飛躍式發(fā)展,各行各業(yè)的信息化和網(wǎng)絡(luò)化進(jìn)程不斷加快。為了有效提升工作效率,緩解人力不足的壓力,政府、企業(yè)、醫(yī)院等紛紛開(kāi)始利用互聯(lián)網(wǎng)技術(shù)進(jìn)行管理改革。醫(yī)院管理系統(tǒng)中管理著海量患者隱私信息和技術(shù)資料,如果遭受網(wǎng)絡(luò)攻擊,將會(huì)對(duì)醫(yī)院帶來(lái)巨大經(jīng)濟(jì)損失,對(duì)社會(huì)造成不良影響。所以開(kāi)展醫(yī)院網(wǎng)絡(luò)異常流量的識(shí)別研究是非常重要的[1]?,F(xiàn)有網(wǎng)絡(luò)異常流量識(shí)別主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、深度學(xué)習(xí)等[2-4]。為更好地提升醫(yī)院的網(wǎng)絡(luò)異常流量識(shí)別的準(zhǔn)確度和識(shí)別效率,本文嘗試將灰狼優(yōu)化算法(Grey Wolf Optimization,GWO)和深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)結(jié)合起來(lái),提出一種基于GWO-DBN的醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別方法。
在標(biāo)準(zhǔn)GWO算法[5]中,用α、β、δ和ω表示灰狼個(gè)體,其中α代表決策和管理狼群的個(gè)體,β和δ適應(yīng)度低于α,ω為普通個(gè)體。GWO算法的具體行為有包圍、捕獵和攻擊。
灰狼包圍獵物[6]的數(shù)據(jù)模型可以表示為式(1)和式(2)。
D=|C·Xp(t)-X(t)|
(1)
X(t+1)=Xp(t)-A·D
(2)
式中,D表示狼群與獵物的距離,A=2a·r1-a,C=2·r2,t表示迭代的次數(shù),Xp和X分別表示獵物和狼群的位置,r1、r2為隨機(jī)量,其取值范圍為[0,1],a的取值范圍為[0,2]。
假設(shè)α、β、δ代表灰狼個(gè)體的全局最優(yōu)解、第二解和第三解,對(duì)其進(jìn)行優(yōu)化定位[7],則距離分別表示為式(3)—式(5)。
Dα=|C1·Xα-X|
(3)
Dβ=|C2·Xβ-X|
(4)
Dδ=|C3·Xδ-X|
(5)
式中,Dα、Dβ、Dδ表示個(gè)體α、β、δ與當(dāng)前的位置X的近似距離,Xα、Xβ、Xδ依次表示全局最優(yōu)解、第二解和第三解的位置;C1、C2、C3表示隨機(jī)向量,其取值范圍為[0,1]。X和X(t+1)表示分別為式(6)—式(8)和式(9)。
X1=Xα-A1·(Dα)
(6)
X2=Xβ-A2·(Dβ)
(7)
X3=Xδ-A3·(Dδ)
(8)
(9)
式中,X(t+1)表示更新解,A1、A2、A3表示隨機(jī)量。
攻擊是狼群捕食行為的最后階段,通過(guò)調(diào)節(jié)參數(shù)a即可實(shí)現(xiàn)攻擊。如果|A|≤1,狼群接近獵物,集中攻擊獵物(X*,Y*);反之,狼群逐漸遠(yuǎn)離獵物。
DBN是由一系列受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)堆疊而成的一種概率型深度學(xué)習(xí)網(wǎng)絡(luò)[8]。RBM由一層顯層v和一層隱層h組成,其中顯層v和隱層h二者的作用分別是用于輸入數(shù)據(jù)和作為特征收集器。RBM結(jié)構(gòu)如圖1所示。
圖1 RBM結(jié)構(gòu)圖
假若給定RBM的(v,h)的狀態(tài),那么其能量函數(shù)如式(10)。
(10)
式中,θ={w,a,b}為待求參數(shù),其中a和b分別為為顯層和隱層偏置,w為顯層和隱層間的連接權(quán)值。當(dāng)θ確定后,根據(jù)能量函數(shù)可計(jì)算出(v,h)的聯(lián)合概率分布[9],如式(11),
(11)
當(dāng)顯層v狀態(tài)確定后,隱層單元激活概率為式(12),
(12)
當(dāng)隱層h狀態(tài)確定后,顯層單元激活概率為式(13),
(13)
當(dāng)訓(xùn)練樣本數(shù)為K時(shí),通過(guò)求解對(duì)數(shù)似然函數(shù)最大化問(wèn)題,可以確定參數(shù)θ,對(duì)數(shù)似然函數(shù)最大化問(wèn)題的目標(biāo)函數(shù)[10]如式(14)給出,
(14)
式中,maxL(θ)由隨機(jī)梯度法求取。
通過(guò)Gibbs采樣重復(fù),可以得到RBM參數(shù)的更新規(guī)則如式(15)。
Δwij=ε(〈vihj〉data-〈vihj〉recon)
Δai=ε(〈vi〉data-〈vi〉recon)
(15)
Δbj=ε(〈hj〉data-〈hj〉recon)
式中,ε為RBM學(xué)習(xí)速率,〈·〉data和〈·〉recon分別為輸入數(shù)據(jù)和重構(gòu)后數(shù)據(jù)的數(shù)學(xué)期望。
網(wǎng)絡(luò)流量異常識(shí)別本質(zhì)上是一種多模式識(shí)別問(wèn)題。針對(duì)DBN模型性能受到參數(shù)θ={W,a,b}選擇的影響[11],本文運(yùn)用GWO算法優(yōu)化選擇DBN模型的參數(shù)θ={W,a,b},目標(biāo)函數(shù)選擇均方根誤差,如式(16)。
s.t.W∈[Wmin,Wmax]
(16)
a∈[amin,amax]
b∈[bmin,bmax]
式中,k為訓(xùn)練樣本數(shù)量,x(k)和p(k)分別為DBN模型的實(shí)際值和預(yù)測(cè)值,Wmin、Wmax,amin、amax和bmin、bmax分別為W、a和b的下限和上限。
基于GWO-DBN的醫(yī)院網(wǎng)絡(luò)流量異常識(shí)別算法流程描述如下。
1)讀取醫(yī)院網(wǎng)絡(luò)流量異常數(shù)據(jù),劃分訓(xùn)練集和測(cè)試集,對(duì)數(shù)據(jù)進(jìn)行歸一化處理如式(17)。
(17)
式中,x′表示歸一化后的數(shù)據(jù),La、Lb分別表示歸一化之后的最小值和最大值,此處均取值為1,x、xmax和xmin表示原始數(shù)據(jù)、原始最大值、原始最小值。
2)GWO算法參數(shù)初始化處理:最大迭代次數(shù)Max gen、種群規(guī)模N、搜索維數(shù)D。隨機(jī)產(chǎn)生灰狼初始種群個(gè)體,每個(gè)灰狼種群個(gè)體位置為ELM模型參數(shù)組合(W、a、b)。
3)計(jì)算不同的灰狼個(gè)體的適應(yīng)度f(wàn)i,并對(duì)其進(jìn)行排序,選出排名前三的個(gè)體,分別標(biāo)記為Xα、Xβ和Xδ。
4)根據(jù)式(3)—式(5)計(jì)算α、β、δ與ω之間的距離,按照式(6)—式(8)和式(9)對(duì)獵物和狼的位置進(jìn)行更新。
5)更新參數(shù)a、參數(shù)A、參數(shù)C。
6)判斷算法執(zhí)行是否符合終止條件;如果已經(jīng)達(dá)到最大的迭代次數(shù),輸出DBN模型的最優(yōu)參數(shù)解,否則返回繼續(xù)執(zhí)行步驟3。
7)將最優(yōu)參數(shù)(W、a、b)代入DBN模型進(jìn)行醫(yī)院網(wǎng)絡(luò)流量異常識(shí)別?;贕WO-DBN的醫(yī)院網(wǎng)絡(luò)流量異常識(shí)別流程如圖2所示。
圖2 基于GWO-DBN的醫(yī)院網(wǎng)絡(luò)流量異常識(shí)別流程圖
為了驗(yàn)證GWO-DBN進(jìn)行醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別的效果,在操作系統(tǒng)為Windows10、中央處理器為Intel core I5 2.4 GHz、內(nèi)存8 GB的個(gè)人計(jì)算機(jī)上選擇MATLAB2015(a)進(jìn)行仿真實(shí)驗(yàn)。選擇KDD CUP99標(biāo)準(zhǔn)數(shù)據(jù)集為研究對(duì)象[12],其中網(wǎng)絡(luò)異常流量類型分為正常樣本、DoS、Probe、U2R和R2L,每個(gè)樣本包括34個(gè)數(shù)值型字段和7個(gè)符號(hào)型字段,共41個(gè)特征。不同樣本含義與分布如表1所示。
表1 樣本含義與分布
為了說(shuō)明醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別的效果,選擇準(zhǔn)確率(accuracy,ACC)、檢測(cè)率(Detection Rate,DR)和誤報(bào)率(False Alarm Rate,F(xiàn)AR)作為評(píng)價(jià)指標(biāo),如式(18)—式(20)。
(18)
(19)
(20)
式中,TP、TN分別為異常流量和正常流量被正確識(shí)別的樣本數(shù)量,FP、FN分別為正常流量和異常流量被錯(cuò)誤識(shí)別為異常流量、正常流量的樣本數(shù)量。
為了驗(yàn)證GWO-DBN進(jìn)行醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別的效果,對(duì)比GWO-DBN、粒子群算法優(yōu)化DBN(PSO-DBN)和DBN算法的識(shí)別效果,表2所示為不同算法的參數(shù)。PSO-DBN、GWO-DBN的收斂曲線分別如圖3(a)、圖3(b)所示,通過(guò)對(duì)比分析可以看出GWO-DBN算法的收斂效果更好,迭代5次后即開(kāi)始收斂。
表2 參數(shù)設(shè)置
(a)PSO-DBN
GWO-DBN、PSO-DBN和DBN識(shí)別結(jié)果如表3所示,識(shí)別結(jié)果對(duì)比分析如圖4所示。
表3 識(shí)別結(jié)果
圖4 ACC、DR和FAR對(duì)比圖
由表3和圖4可知,GWO-DBN的準(zhǔn)確率(ACC)為97.62%,優(yōu)于PSO-DBN的92.85%和DBN的90.76%。GWO-DBN的檢測(cè)率(DR)為95.38%,優(yōu)于PSO-DBN的93.10%和DBN的92.33%。GWO-DBN的誤報(bào)率(FAR)為4.15%,優(yōu)于PSO-DBN的6.34%和DBN的7.46%。由ACC、DR以及FAR 3個(gè)評(píng)價(jià)指標(biāo)的對(duì)比結(jié)果可知,GWO-DBN進(jìn)行醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別具有更高的準(zhǔn)確率、檢測(cè)率和更低的誤報(bào)率。
為了提高醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別的精度,針對(duì)DBN模型性能受權(quán)值和偏置參數(shù)的影響,運(yùn)用灰狼算法對(duì)DBN模型的權(quán)值和偏置進(jìn)行優(yōu)化選擇,提出一種灰狼算法優(yōu)化DBN的醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別方法。研究結(jié)果表明,GWO-DBN進(jìn)行醫(yī)院網(wǎng)絡(luò)異常流量識(shí)別具有更高的準(zhǔn)確率、檢測(cè)率和更低的誤報(bào)率。