王紅梅
(新疆工程學(xué)院 計(jì)算機(jī)工程系,烏魯木齊 830011)
隨著互聯(lián)網(wǎng)的發(fā)展,聯(lián)網(wǎng)計(jì)算機(jī)越來越多,網(wǎng)絡(luò)應(yīng)用也相應(yīng)增多。與此同時(shí),網(wǎng)絡(luò)面臨的攻擊[1]也日益增多,且網(wǎng)絡(luò)線性服務(wù)也更容易向入侵者和攻擊者暴露信息[2],因此入侵檢測系統(tǒng)(Intrusion Detection Systems,IDS)近些年越來越受到研究者們的重視[3]。
一般的網(wǎng)絡(luò)保護(hù)不回應(yīng)攻擊者或入侵者,采用被動(dòng)的手段減少信息暴露[4]。但是,由于新攻擊的復(fù)雜性增加,需要更精細(xì)的方法來應(yīng)對,有文獻(xiàn)提出通過模式分類區(qū)分正常與異常業(yè)務(wù)[5],實(shí)現(xiàn)對潛在的或?qū)崟r(shí)的攻擊進(jìn)行主動(dòng)防御,如IDS就是主動(dòng)防御系統(tǒng),能夠連續(xù)監(jiān)測網(wǎng)絡(luò)以對業(yè)務(wù)分類、檢測異常行為,并按預(yù)定義規(guī)則進(jìn)行響應(yīng)[6]。這便帶出基于特定方法的分類問題,基于特征選擇的IDS分析所有輸入數(shù)據(jù)包來檢索匹配與入侵相關(guān)的模式,即將數(shù)據(jù)庫中的模式與網(wǎng)絡(luò)業(yè)務(wù)中提取的模式進(jìn)行比較以檢測出攻擊,然而該方法無法檢測出數(shù)據(jù)庫中未包含特征值的攻擊,而且過期數(shù)據(jù)庫或特征值不足可能會(huì)導(dǎo)致漏報(bào)或誤報(bào)[7]。基于異常的IDS通過檢索網(wǎng)絡(luò)是否背離正常模式以確定鏈接是否異常。同樣,基于異常的IDS須要足夠精確的模型才能夠區(qū)分正常與異常模式,否則會(huì)產(chǎn)生很多漏報(bào)或誤報(bào)。由于攻擊的多樣性,有必要計(jì)算更復(fù)雜的特征以提高檢測[8]。
因此,提出利用主成分分析(Principal Component Analysis,PCA)和自組織映射(Self-organizing mapping,SOM)的IDS方法。通過PCA生成非相關(guān)性特征用于去除噪聲,避免使用低方差變量,并根據(jù)判別能力更新特征。而特征空間建模通過概率SOM均值來分類,允許測量每個(gè)網(wǎng)絡(luò)單元的激活概率以檢測所有高頻率攻擊的精確值,運(yùn)用簡化粒子群優(yōu)化(SPSO)算法從分類搜索當(dāng)前解的鄰域內(nèi)找到更優(yōu)的解。實(shí)驗(yàn)結(jié)果表明,提出的方法具有更高的入侵檢測準(zhǔn)確率。
特征選擇是分類問題的關(guān)鍵步驟,因?yàn)樗兄谙哂嗪筒幌嚓P(guān)輸入特征,這不僅能夠減少學(xué)習(xí)時(shí)間,還提高了分類精度?;赑CA的特征選擇方法,能夠提取相關(guān)數(shù)據(jù)集信息,選擇主成分投影判別力,并根據(jù)最大類分離能力對成分進(jìn)行排序。
*uk
另外,可以根據(jù)主成分重構(gòu)原始數(shù)據(jù):
*X
ψ=ψ1,…,ψn中ψi對應(yīng)于X在特征向量ui的上的投影。由于PCA根據(jù)方差遞減順序?qū)μ卣飨蛄窟M(jìn)行排序,則特征向量可根據(jù)FDR值排序:
其中σi、μi分別是方差和分類i的均值。
當(dāng)只使用最大類分離能力的特征向量去除數(shù)據(jù)集噪聲,通過選擇具有較低FDR值的投影來實(shí)現(xiàn),即減去基于原始數(shù)據(jù)集特征向量的重構(gòu)樣本,方程表述為:
SOM是最流行的無監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,SOM組中相似數(shù)據(jù)實(shí)例化為點(diǎn)陣,即輸出映射,不同數(shù)據(jù)實(shí)例將分開輸出映射。從而可從輸出映射推斷出重要的輸入空間屬性。SOM方法簡述如下:
假設(shè)X?Rn是n維數(shù)據(jù)流,SOM映射由d個(gè)單元構(gòu)成,每個(gè)都由n維模型矢量ωi表示。對于每個(gè)輸入數(shù)據(jù)實(shí)例v,最佳匹配單元BMU定義為與v最接近的單元ωi:
?v∈X,i≠j
而線性SOM原型初始化旨在適應(yīng)訓(xùn)練數(shù)據(jù)的特征值和特征向量。初始化方法說明原型的第一維度按比例排列為第一主成分,第二維度按比例排列為第二主成分。一旦映射經(jīng)過訓(xùn)練,每個(gè)原型代表輸入向量集。當(dāng)新數(shù)據(jù)實(shí)例展現(xiàn)給SOM時(shí),學(xué)習(xí)模型激活對應(yīng)的BMU。
另一方面,通過高斯混合模型(Gaussian Mixture Model,GAMM)[10]建模獲得SOM概率表示,從而得到模糊SOM單元響應(yīng)。再通過SOM單元先驗(yàn)激活概率進(jìn)一步調(diào)整映射響應(yīng),允許激活層用于案例中正常連接與網(wǎng)絡(luò)異常的對應(yīng)模式。以此判別激活模式是否正常,以檢測網(wǎng)絡(luò)是否異常。基于下列公式構(gòu)建GMM,其中高斯分量的權(quán)重pi對應(yīng)于先驗(yàn)概率。
Pi(x)是n維高斯分布,作為原型向量,計(jì)算得:
每個(gè)高斯分量μi的平均值,對應(yīng)單元本身的原型向量,i組分的協(xié)方差矩陣∑i由數(shù)據(jù)樣本圍繞模型向量ωi的離散化給定,即每個(gè)高斯分量模擬對應(yīng)單元的接收域分布。一旦構(gòu)建完成GMM模型,給定輸入x的單元k響應(yīng),可以用貝葉斯定理計(jì)算后驗(yàn)概率[11],完成對正常連接映射單元和網(wǎng)絡(luò)異常映射單元的分類。
為了進(jìn)一步提高提出的方法的性能,提出簡化粒子群優(yōu)化(Simplified particle swarm optimization,SPSO)[12]并入局部搜索策略,以執(zhí)行每一代獲得的全局最優(yōu)解。通過SPSO進(jìn)行粗略搜索,但有時(shí)會(huì)產(chǎn)生不成熟結(jié)果,因此需要嵌入局部搜索策略到SPSO中,以便使SPSO產(chǎn)生更優(yōu)化的解。局部搜索先從當(dāng)前解開始,再從其鄰域中搜索更優(yōu)解,一直重復(fù)執(zhí)行鄰域搜索直到滿足局部最優(yōu)解。局部搜索的目的是找出粒子的局部最優(yōu)解PB或當(dāng)前粒子本身的全局最優(yōu)解GB。提出的方法中合并了新加權(quán)局部搜索方法,加權(quán)局部搜索應(yīng)用于SPSO規(guī)則挖掘的加權(quán)預(yù)定常數(shù)是Cw、Cp和Cg,并根據(jù)下式使用加權(quán)預(yù)定變量更新粒子。
為了獲得新PB和GB,重新評估粒子的適應(yīng)值,加權(quán)局部搜索算法的步驟如下:
步驟1:預(yù)先確定局部搜索時(shí)間T和局部搜索權(quán)重ω。
步驟2:選擇目標(biāo)粒子Pt。GB將是待運(yùn)行T次局部搜索的第一目標(biāo)粒子,依次選擇其他PB作為目標(biāo)粒子,運(yùn)行T次局部搜索。
步驟3:獲取新的3個(gè)加權(quán)值:(ω*Cw)、(ω*Cp)和(ω*Cg)。
步驟4:根據(jù)上式通過新加權(quán)值(ω*Cw)、(ω*Cp)和(ω*Cg)更新粒子位置。
步驟5:重新評估目標(biāo)粒子的適應(yīng)值。
步驟6:檢查適應(yīng)值是否比目標(biāo)粒子當(dāng)前PB或GB更好。若粒子已經(jīng)得到了新PB,目標(biāo)粒子局部搜索的迭代將重置為零,重新運(yùn)行局部搜索,直到局部搜索T次后仍沒有找到更多PB,局部搜索過程將停止。
實(shí)驗(yàn)基于KDDCUP99修訂版本數(shù)據(jù)集[13],由KDDCup99數(shù)據(jù)集基于不同概率分布生成訓(xùn)練和測試集。該集包括模擬主機(jī)、網(wǎng)絡(luò)正常流量和人工生成的網(wǎng)絡(luò)攻擊,并移除了冗余記錄,根據(jù)攻擊檢測難度對攻擊進(jìn)行標(biāo)記和排序。KDDCUP99數(shù)據(jù)集提供了45種網(wǎng)絡(luò)任務(wù)特征以描述各種連接,這些特征總結(jié)如下:1.基本特征??偨Y(jié)了所有TCP/IP連接的屬性。2.流量特征。包括基于時(shí)間窗口計(jì)算的特征,以及相應(yīng)的時(shí)間窗口之后,目標(biāo)端口或服務(wù)保持相同的連接信息,KDDCUP99時(shí)間窗口設(shè)置為2 s。3.基s于內(nèi)容特征。由于U2R或R2L攻擊由在數(shù)據(jù)包有效載荷上重復(fù)發(fā)送類似模式構(gòu)成,因此有必要檢查數(shù)據(jù)包內(nèi)容以找出攻擊。
實(shí)驗(yàn)通過KDDCUP99測試集的標(biāo)簽信息對提出的方法與基于特征選擇的IDS和基于異常的IDS進(jìn)行性能評價(jià)。并計(jì)算入侵檢測準(zhǔn)確度ACC統(tǒng)計(jì)測度來評價(jià)各方法的性能,其定義如下:
式中TP、TN、FP和FN分別表示真陽性、真陰性、假陽性和假陰性。
仿真3種常見的網(wǎng)絡(luò)攻擊U2R,DOS和PROB,驗(yàn)證提出的方法的入侵檢測準(zhǔn)確率,訓(xùn)練階段和測試階段分別涉及26 000和28 000條數(shù)據(jù)。如U2R攻擊在訓(xùn)練階段體現(xiàn)真陽性TP有13 500條、假陽性FP有1 575條、真陰性TN有10 924條、假陽性FN有1條,總計(jì)26 000條,因此可計(jì)算入侵檢測準(zhǔn)確度ACC為93.9%。同理,U2R攻擊在測試階段體現(xiàn)真陽性TP有13 200條、假陽性FP有1 862條、真陰性TN有12 934條、假陽性FN有4條,總計(jì)28 000條,因此可計(jì)算入侵檢測準(zhǔn)確度ACC為93.3%。以此類推,可分別計(jì)算出其他類型攻擊檢測準(zhǔn)確度,如表1所示。
表1 提出的方法訓(xùn)練集與測試集的ACC實(shí)驗(yàn)結(jié)果
從表1可以看出,提出的方法對于U2R,DOS和PROB三種類型的入侵檢測都表現(xiàn)出較好的性能。在U2R的入侵檢測中,準(zhǔn)確率達(dá)93.9%;而在DOS和PROB類型中準(zhǔn)確率也分別達(dá)到了94.3%和94.2%,由此可見,提出的方法對3種常見的網(wǎng)絡(luò)攻擊U2R,DOS和PROB的入侵檢測均表現(xiàn)出了良好的性能,如表2所示。
表2 各方法的ACC性能比較
從表2可以看出,相比于另外兩種方法,提出的方法具有更高的入侵檢測準(zhǔn)確率,這得益于基于PCA的特征選擇的噪聲去除、SOM的先驗(yàn)激活概率的映射響應(yīng)調(diào)整以及SPSO分類搜索的綜合運(yùn)用。
提出一種利用PCA和SOM的IDS方法,采用PCA生成非相關(guān)性特征,并根據(jù)判別能力更新特征。特征空間建模通過概率SOM均值來分類,并運(yùn)用簡化粒子群優(yōu)化(SPSO)算法從分類搜索當(dāng)前解的鄰域內(nèi)找到更優(yōu)的解?;贙DDCUP99標(biāo)準(zhǔn)數(shù)據(jù)集和公共數(shù)據(jù)集搭建仿真測試平臺,將提出的方法與基于特征選擇的IDS和基于異常的IDS進(jìn)行性能評價(jià),實(shí)驗(yàn)結(jié)果表明,提出的方法對三種常見的網(wǎng)絡(luò)攻擊U2R,DOS和PROB的入侵檢測均表現(xiàn)出了良好的性能,在
U2R、DOS和PROB的入侵檢測中,準(zhǔn)確率分別達(dá)到了93.9%、94.3%和94.2%,具有更高的入侵檢測準(zhǔn)確率。
提出的方法可進(jìn)一步通過不同的SOM單元先驗(yàn)激活概率來修改分類能力,以避免新數(shù)據(jù)導(dǎo)致的SOM重新訓(xùn)練問題。因此,今后研究可以通過多目標(biāo)優(yōu)化來提升先驗(yàn)激活概率的計(jì)算能力,通過關(guān)聯(lián)構(gòu)建層次化模型,以區(qū)分正常與異常連接,從而應(yīng)對數(shù)據(jù)集中描述的四類攻擊。
參考文獻(xiàn)
[1] 馬磊娟, 王林生. 改進(jìn)最小二乘支持向量機(jī)的網(wǎng)絡(luò)入侵檢測[J]. 微型電腦應(yīng)用, 2017, 33(7): 76-79.
[2] 蔡思思, 熊國明. 基于MFOALSSVM的IPV6網(wǎng)絡(luò)入侵檢測算法研究[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào), 2017, 39(1): 78-81.
[3] Zhou C, Huang S, Xiong N, et al. Design and Analysis of Multimodel-Based Anomaly Intrusion Detection Systems in Industrial Process Automation[J]. Transactions on Systems Man & Cybernetics Systems IEEE, 2015, 45(10): 1-8.
[4] 韓紅光, 周改云. 基于Makov鏈狀態(tài)轉(zhuǎn)移概率矩陣的網(wǎng)絡(luò)入侵檢測[J]. 控制工程, 2017, 24(3): 698-704.
[5] Derhab A, Bouras A. Multivariate correlation analysis and geometric linear similarity for real-time intrusion detection systems [J]. Security & Communication Networks, 2015, 8(7): 1193-1212.
[6] Aldwairi M, Khamayseh Y, Al-Masri M. Application of artificial bee colony for intrusion detection systems [J]. Security & Communication Networks, 2015, 8(16): 2730-2740.
[7] 王習(xí)特, 申德榮, 白梅,等. BOD:一種高效的分布式離群點(diǎn)檢測算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2016, 39(1): 36-51.
[8] 李永忠, 陳興亮, 于化龍. 基于改進(jìn)DS證據(jù)融合與ELM的入侵檢測算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(10): 3049-3051.
[9] Zhou J, Xi-Bing L I, Shi X Z, et al. Predicting pillar stability for underground mine using Fisher discriminant analysis and SVM methods [J]. Transactions of Nonferrous Metals Society of China, 2011, 21(12): 2734-2743.
[10] Layer T, Blaickner M, Kn?usl B, et al. PET image segmentation using a Gaussian mixture model and Markov random fields [J]. EJNMMI Physics, 2015, 2(1): 9-13.
[11] 任曉奎, 繳文斌, 周丹. 基于粒子群的加權(quán)樸素貝葉斯入侵檢測模型[J]. 計(jì)算機(jī)工程與應(yīng)用, 2016, 52(7): 122-126.
[12] Kong X, Gao L, Ouyang H, et al. Solving the redundancy allocation problem with multiple strategy choices using a new simplified particle swarm optimization [J]. Reliability Engineering & System Safety, 2015, 144(3): 147-158.
[13] 張新有, 曾華燊, 賈磊. 入侵檢測數(shù)據(jù)集KDD CUP99研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2010, 31(22): 4809-4812.