摘 要:將醫(yī)院網(wǎng)絡(luò)入侵行為作為研究對(duì)象,提出基于SSA和 ELM 的網(wǎng)絡(luò)入侵特征選擇模型,有效實(shí)施網(wǎng)絡(luò)入侵行為檢測(cè)。該方法應(yīng)用 SSA 算法優(yōu)選網(wǎng)絡(luò)入侵特征屬性,用于改進(jìn) EI.M 網(wǎng)絡(luò)分類性能,通過減少模型輸入特征數(shù),來降低計(jì)算復(fù)雜度。將模型用于醫(yī)院網(wǎng)絡(luò) Dos,Probe,R2L.等攻擊行為樣本檢測(cè),結(jié)果表明檢測(cè)準(zhǔn)確率能夠達(dá) 90%以上,檢測(cè)時(shí)長(zhǎng)在 0.5 s 以內(nèi),誤報(bào)率不超 0.3%,能滿足醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)高效、準(zhǔn)確、可靠的檢測(cè)要求
關(guān)鍵詞:SSA;ELM;醫(yī)院網(wǎng)絡(luò):入侵檢測(cè)
中圖法分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A
1 引言
隨著網(wǎng)絡(luò)技術(shù)的普及與應(yīng)用,各種網(wǎng)絡(luò)攻擊、非法入侵層出不窮,給網(wǎng)絡(luò)信息安全帶來了較大威脅。醫(yī)院內(nèi)部網(wǎng)絡(luò)一旦遭受非法入侵,容易造成患者隱私數(shù)據(jù)泄露、丟失,從而影響醫(yī)院正常運(yùn)營(yíng),甚至引發(fā)嚴(yán)重的經(jīng)濟(jì)損失和社會(huì)影響。在網(wǎng)絡(luò)入侵檢測(cè)方面,對(duì)各種機(jī)器學(xué)習(xí)方法進(jìn)行了研究,如采用布谷鳥算法和支持向量機(jī)實(shí)現(xiàn)入侵檢測(cè),但僅在處理小樣本時(shí)可以達(dá)到較高準(zhǔn)確率,而處理海量數(shù)據(jù)時(shí)容易出現(xiàn)滯后情況[1] ;采用網(wǎng)絡(luò)搜索法依靠特征參數(shù)尋優(yōu),盡管能夠通過分類器分類,但遍歷搜索列表中每組參數(shù)將造成搜索時(shí)間過長(zhǎng),模型訓(xùn)練效率較低;采用麻雀搜索算法(SSA)直接在相鄰特征參數(shù)間搜索,更新判斷參數(shù)選取方向,舍棄無法優(yōu)化分類器性能的參數(shù),可以迅速查找到優(yōu)秀特征參數(shù)組[2] 。在此基礎(chǔ)上,應(yīng)考慮入侵檢測(cè)數(shù)據(jù)不均衡的問題,為避免直接采用機(jī)器學(xué)習(xí)方法造成少數(shù)類分類精度較低的問題,需從算法層面著手,結(jié)合入侵行為相對(duì)正常行為數(shù)量少的特點(diǎn),采用極限學(xué)習(xí)機(jī)(ELM)建立單隱層前饋神經(jīng)網(wǎng)絡(luò),設(shè)定隱含層神經(jīng)元快速學(xué)習(xí),以獲得良好的泛化性能。綜上所述,提出采用基于SSA 算法和ELM 算法的醫(yī)院網(wǎng)絡(luò)入侵特征選擇和檢測(cè)模型,通過優(yōu)化特征參數(shù)、模型分類性能,從而獲得較高整體檢測(cè)效率,提升入侵行為檢測(cè)準(zhǔn)確率。
2 網(wǎng)絡(luò)入侵特征選擇模型
2.1 SSA 算法
作為群體智能優(yōu)化方法,SSA 算法模仿麻雀覓食和逃避捕食者的過程,按照比例將整個(gè)麻雀群劃分為發(fā)現(xiàn)者和追隨者,并隨機(jī)選擇個(gè)體兼任警戒者[3] 。其中,發(fā)現(xiàn)者能量?jī)?chǔ)備較高,負(fù)責(zé)食物搜索,為追隨者指明食物方向;隨著追隨者能量下降,將跟隨發(fā)現(xiàn)者去往覓食位置獲取能量;警戒者在發(fā)現(xiàn)捕食者入侵后,將向群體發(fā)出警報(bào),以確保群體安全。采用該算法,假設(shè)麻雀群體在N×D 維空間內(nèi)尋找食物,N 為群體規(guī)模, D 為搜索優(yōu)化維度。空間內(nèi)食物F = [ F1,F2,…,FD ]T ,麻雀中個(gè)體位置為X = [Xn1,Xn2,…,XnD ]T ,n = 1,2,…,N,搜索空間上限為ub = [ub1,ub2,…,ubD ]T ,下限為lb =[lb1,lb2,…,lbD ]T ,則能夠完成群體初始化,得到:
式中,E(S,β)為網(wǎng)絡(luò)輸出誤差值,H 為深入矩陣,β 為輸出權(quán)重矩陣,T 為樣本目標(biāo)輸出矩陣。采用ELM 實(shí)現(xiàn)非線性問題優(yōu)化,應(yīng)用極限定理、差值定理等使網(wǎng)絡(luò)隱含層激活函數(shù)達(dá)到無窮小,確認(rèn)輸入層權(quán)值和隱含層閾值不會(huì)給輸出層結(jié)果輸出帶來明顯影響。因此,采用ELM 可以將訓(xùn)練過程轉(zhuǎn)換為求解最小二乘數(shù)β 的過程,得到:
β =H+T (8)
式中,H+為H 的廣義逆矩陣,通過正交法獲取,能夠求解得到唯一的最小值。
2.3 基于SSA 的ELM 模型
建立基于SSA 算法的ELM 模型實(shí)現(xiàn)網(wǎng)絡(luò)入侵特征選擇,能夠通過參數(shù)優(yōu)化解決訓(xùn)練樣本偏差較大的問題,以避免產(chǎn)生病態(tài)矩陣,從而給網(wǎng)絡(luò)信號(hào)分類器性能帶來不良影響[4] 。為將兩種算法結(jié)合,需先設(shè)計(jì)適應(yīng)度函數(shù):
fitness=arg min(TrainErrorRate+TestErrorRate)(9)
式中,fitness 為最終選擇網(wǎng)絡(luò)入侵特征,TrainErrorRate為訓(xùn)練集錯(cuò)誤率,TestErrorRate 為測(cè)試集錯(cuò)誤率,使這兩個(gè)數(shù)值達(dá)到最小,能夠獲得最高的網(wǎng)絡(luò)入侵檢測(cè)準(zhǔn)確率,在可選擇的網(wǎng)絡(luò)入侵特征最少的情況下選擇最佳的特征組合。將麻雀群體中發(fā)現(xiàn)者的位置向量當(dāng)成是特征集,xi 為一個(gè)特征,采用二進(jìn)制編碼方式,在第j 個(gè)入侵行為特征被選中時(shí),xi 取值為1,反之則取值為0,確保從N 個(gè)特征中識(shí)別i 個(gè)尋優(yōu)特征集合。采用SSA 算法實(shí)現(xiàn)ELM 優(yōu)化,流程如圖1 所示,特征子集與訓(xùn)練數(shù)據(jù)集相對(duì)應(yīng),并根據(jù)個(gè)體適應(yīng)度判斷是否達(dá)到終止條件,以獲得最優(yōu)特征子集,從而將其應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè)。
3 基于SSA 和ELM 的醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)
3.1 樣本分析
采用SSA?ELM 模型實(shí)現(xiàn)醫(yī)院網(wǎng)絡(luò)入侵檢測(cè),并結(jié)合醫(yī)院網(wǎng)絡(luò)建設(shè)情況,將KDD CUP99 網(wǎng)絡(luò)作為測(cè)試對(duì)象,常見入侵包含Probe,Dos,U2R,R2L 幾種網(wǎng)絡(luò)攻擊。在網(wǎng)絡(luò)訓(xùn)練階段,使用2 856 個(gè)樣本展開訓(xùn)練,其中正常樣本1 983 個(gè),攻擊樣本不到900 個(gè),每個(gè)樣本包含40 多種屬性。在網(wǎng)絡(luò)測(cè)試階段,測(cè)試樣本數(shù)為2 234 個(gè),正常樣本數(shù)為1 453 個(gè)。在樣本中,Dos 占比最大,約占35%,其次為Probe,約占30%,R2L 樣本數(shù)約占25%,U2R 樣本數(shù)在10%左右。
3.2 檢測(cè)流程
采用SSA?LEM 模型進(jìn)行入侵檢測(cè),輸入層神經(jīng)元數(shù)量設(shè)定為41,隱含層神經(jīng)元數(shù)量為83,激勵(lì)函數(shù)為高斯核函數(shù)。使用的測(cè)試設(shè)備配備2.4 GHz 的CPU,以及4 GB 內(nèi)存,芯片為Intel Corei5,操作系統(tǒng)為Windows 9。在開展實(shí)驗(yàn)室仿真測(cè)試時(shí),使用Matlab軟件。
按照入侵檢測(cè)流程,先完成醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)讀取,將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,最后統(tǒng)一進(jìn)行歸一化處理。在利用計(jì)算機(jī)軟件生成ELM 模型后,需確定層數(shù)、各層節(jié)點(diǎn)數(shù)等,然后采用二進(jìn)制編碼方式完成特征編碼。對(duì)SSA 種群進(jìn)行初始化后,設(shè)定種群規(guī)模N,并確定最大迭代次數(shù)T,實(shí)際取值為50次,系統(tǒng)將自動(dòng)生成麻雀群體。首先,將不同特征屬性帶入模型訓(xùn)練中,在獲得個(gè)體初始適應(yīng)度后,再對(duì)發(fā)現(xiàn)者、追隨者位置進(jìn)行初始化,最后完成全部成員初始適應(yīng)度排序,并從中選擇最優(yōu)位置,即食物位置[5] 。在標(biāo)記該位置后,將其定義為發(fā)現(xiàn)者,將其他麻雀位置按照適應(yīng)度進(jìn)行排序,并定義為追隨者。在完成發(fā)現(xiàn)者、追隨者位置更新后,對(duì)群體適應(yīng)度進(jìn)行重新計(jì)算,找尋具有最佳適應(yīng)度的麻雀位置,將其作為最新食物位置。基于此,采用隨機(jī)選擇警戒者的方法來確定麻雀移動(dòng)方向,并對(duì)其進(jìn)行不斷尋優(yōu),直至獲得全局最優(yōu)位置信息。在經(jīng)過反復(fù)迭代后,達(dá)到最大迭代次數(shù),并輸出最優(yōu)位置信息,從而生成醫(yī)院網(wǎng)絡(luò)入侵最優(yōu)特征子集,最后將特征子集輸入ELM 模型中,完成網(wǎng)絡(luò)入侵檢測(cè),輸出最終檢測(cè)結(jié)果。
3.3 檢測(cè)效果
為驗(yàn)證算法的有效性,利用訓(xùn)練好的模型進(jìn)行網(wǎng)絡(luò)入侵測(cè)試,并根據(jù)檢測(cè)準(zhǔn)確率和時(shí)長(zhǎng)等對(duì)結(jié)果展開評(píng)價(jià)。根據(jù)正常樣本正確分類個(gè)數(shù)與總樣本數(shù)比值,能夠分析得到模型檢測(cè)準(zhǔn)確率。為驗(yàn)證模型可靠性,需要對(duì)入侵行為檢測(cè)的誤報(bào)率展開分析,即攻擊樣本錯(cuò)報(bào)數(shù)量和總數(shù)量的比值。
將SSA?ELM 模型和ELM 模型進(jìn)行比較,能夠得到如表1 的測(cè)試結(jié)果。從Dos 攻擊檢測(cè)情況來看,使用傳統(tǒng)ELM 模型和使用SSA 算法改進(jìn)后的ELM 模型均能達(dá)到99%以上的檢測(cè)準(zhǔn)確率,但改進(jìn)后的模型準(zhǔn)確率更高,且檢測(cè)時(shí)間明顯縮短。由此可見,兩種模型用于常見Dos 攻擊檢測(cè)均能達(dá)到較高準(zhǔn)確率,但由于傳統(tǒng)模型反應(yīng)時(shí)間較長(zhǎng),因此無法實(shí)現(xiàn)實(shí)時(shí)檢測(cè)醫(yī)院網(wǎng)絡(luò)入侵行為的目標(biāo)。從誤報(bào)率情況來看,采用SSA?ELM 模型可以將Dos 攻擊誤報(bào)率從0.09%降低至0,從而有效地增強(qiáng)網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)運(yùn)行的可靠性。而針對(duì)Probe 等平時(shí)并不常見的入侵行為實(shí)施檢測(cè),采用ELM 模型的準(zhǔn)確率較低,在50% ~80%之間波動(dòng),檢測(cè)時(shí)大多不超1 s,盡管響應(yīng)速度較快,但卻無法有效識(shí)別各種網(wǎng)絡(luò)攻擊行為,且對(duì)USR 攻擊的誤報(bào)率較高,達(dá)到了1.61%,容易給醫(yī)院網(wǎng)絡(luò)正常工作帶來干擾。采用SSA?ELM 模型進(jìn)行入侵檢測(cè),僅對(duì)Probe 攻擊檢測(cè)準(zhǔn)確率較低,但也達(dá)到了90%以上,而對(duì)USR 攻擊檢測(cè)準(zhǔn)確率達(dá)到了100%,檢測(cè)時(shí)長(zhǎng)則統(tǒng)一控制在0.5 s 以內(nèi),可以達(dá)到較高檢測(cè)效率。此外,SSA?ELM 模型的誤報(bào)率較低,最大不超過0.3%,能夠保證醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的可靠工作。由此可見,采用SSA 算法能夠有效優(yōu)化ELM 模型分類性能。
為進(jìn)一步確認(rèn)增加迭代次數(shù)能否增強(qiáng)模型入侵檢測(cè)效果,將迭代次數(shù)增加至100 次。從測(cè)試結(jié)果來看,Dos,Probe,R2L,U2R 的檢測(cè)準(zhǔn)確率分別為99.9%,93.2%,98.9%和100%,檢測(cè)時(shí)長(zhǎng)則分別達(dá)到1.21 s,0.10 s,0.34 s 和0.05 s,誤報(bào)率分別達(dá)到0.00%,0.05%,0.00%和0.23%。由此可見,增加迭代次數(shù)對(duì)模型入侵檢測(cè)準(zhǔn)確率和誤報(bào)率的改善效果并不明顯,但卻造成檢測(cè)時(shí)長(zhǎng)增加1 倍左右。經(jīng)過綜合考量,應(yīng)將迭代次數(shù)設(shè)定為50 次,在降低模型復(fù)雜度和冗余度的同時(shí),保證模型用于醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)的高效性和可靠性。
4 結(jié)束語(yǔ)
基于醫(yī)院網(wǎng)絡(luò)面臨復(fù)雜入侵行為的情況,在當(dāng)前網(wǎng)絡(luò)入侵檢測(cè)算法存在響應(yīng)速度慢、特征識(shí)別率不高等問題的基礎(chǔ)上,提出采用SSA 算法優(yōu)化ELM 分類性能,通過最小二乘法快速完成入侵行為特征選擇,從而提高網(wǎng)絡(luò)入侵檢測(cè)效率和質(zhì)量。對(duì)SSA?ELM 模型建立過程展開分析,然后通過實(shí)驗(yàn)驗(yàn)證方式檢驗(yàn)?zāi)P头诸愋阅?,最終確定采用改進(jìn)后的ELM 模型能夠明顯提高對(duì)Probe,R2L,U2R3 種攻擊行為的檢測(cè)準(zhǔn)確率,同時(shí)能夠有效降低對(duì)Dos 和U2R 入侵行為檢測(cè)誤報(bào)率,并縮短各種入侵行為檢測(cè)時(shí)長(zhǎng)。在較少迭代次數(shù)下,SSA?ELM 模型即可體現(xiàn)較好的網(wǎng)絡(luò)分類器性能,以及保持較高檢測(cè)效率和結(jié)果可靠性,因此在醫(yī)院網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域擁有較好的應(yīng)用前景。
參考文獻(xiàn):
[1] 魏明軍,張?chǎng)伍瑒喼?,等.一種基于SSA?BRF 的網(wǎng)絡(luò)入侵檢測(cè)方法[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,42(5):552?560.
[2] 張志飛,王露漫.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)入侵檢測(cè)算法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(10):336?343.
[3] 高兵,鄭雅,秦靜,等.基于麻雀搜索算法和改進(jìn)粒子群優(yōu)化算法的網(wǎng)絡(luò)入侵檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2022,42(4):1201?1206.
[4] 陳愛萍.基于PSO?ELM 算法的網(wǎng)絡(luò)入侵檢測(cè)研究[J].安陽(yáng)師范學(xué)院學(xué)報(bào),2022(2):35?39.
[5] 楊彥榮,宋榮杰,周兆永.基于GAN?PSO?ELM 的網(wǎng)絡(luò)入侵檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(12):66?72.
作者簡(jiǎn)介:
楊威( 1976—), 網(wǎng)絡(luò)工程師, 研究方向: 計(jì)算機(jī)科學(xué)與技術(shù)。
計(jì)算機(jī)應(yīng)用文摘·觸控2023年15期