楊云峰
(河池學(xué)院 計(jì)算機(jī)與信息工程學(xué)院,廣西 宜州 546300)
主成分分析在入侵檢測中的應(yīng)用研究
楊云峰
(河池學(xué)院計(jì)算機(jī)與信息工程學(xué)院,廣西宜州546300)
大數(shù)據(jù)時(shí)代的網(wǎng)絡(luò)安全問題日趨嚴(yán)重,為了提高入侵檢測分類的精確性以及節(jié)約分類時(shí)間資源,構(gòu)建了基于主成分分析(Principal Component Analysis,PCA)的入侵檢測模型。該模型中首先通過主成分分析對(duì)入侵信息進(jìn)行維歸約的預(yù)處理,降低了入侵信息的維度、壓縮了稀疏矩陣,再利用BP算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行分析測試。仿真實(shí)驗(yàn)表明,與粗糙集方法相比,PCA方法對(duì)入侵信息的維歸約效果更佳,它可以在不降低檢測率的同時(shí)降低入侵信息維度,減少入侵檢測的數(shù)據(jù)量,達(dá)到提高入侵檢測時(shí)間效率的目的,同時(shí)節(jié)約了網(wǎng)絡(luò)節(jié)點(diǎn)資源。
大數(shù)據(jù);入侵檢測;主成分分析;降維
隨著網(wǎng)絡(luò)廣泛應(yīng)用,如何提高互聯(lián)網(wǎng)的安全性能越顯重要。早期入侵檢測技術(shù)主要通過直接分析網(wǎng)絡(luò)數(shù)據(jù)判斷是否存在入侵行為并進(jìn)行阻止,但是在大數(shù)據(jù)時(shí)代,高維度的安全信息常導(dǎo)致基于距離向量的入侵檢測分類器的“維數(shù)災(zāi)難”問題,“維數(shù)災(zāi)難”帶來的分類計(jì)算量呈現(xiàn)指數(shù)倍增長,嚴(yán)重降低了入侵檢測的效率,并造成分類器占用過多系統(tǒng)資源,導(dǎo)致網(wǎng)絡(luò)節(jié)點(diǎn)資源的不足,甚至造成網(wǎng)絡(luò)擁塞的問題,阻礙了網(wǎng)絡(luò)的正常傳輸。
為了解決信息中的高維問題,有研究提出通過粗糙集進(jìn)行維歸約解決“維數(shù)災(zāi)難”問題[1-5]。粗糙集為1982年波蘭數(shù)學(xué)家Z.Pawlak首次提出[6]。粗糙集具備只需要數(shù)據(jù)集不需要其他推導(dǎo)知識(shí)的優(yōu)點(diǎn),其對(duì)于不明確的描述與分析比較客觀,但是粗糙集缺乏分析不明確初始信息的方法,其對(duì)含糊概念刻畫也過于簡單,無法解決所有模糊和不確定性問題。為了解決粗糙集對(duì)于入侵信息降維效果不佳的不足,本文采用主成分分析(Principal Component Analysis,PCA)對(duì)入侵信息進(jìn)行維數(shù)的歸約及壓縮,把屬性歸約后的信息數(shù)據(jù)再利用后向(Back-Propagation Algorithm,BP)BP算法進(jìn)行測試分類。通過多次仿真實(shí)驗(yàn)結(jié)果表明,PCA相較粗糙集對(duì)于入侵信息具有更佳的維歸約效果,更能節(jié)約入侵檢測的時(shí)間及存儲(chǔ)資源。
1.1 PCA基本概念
PCA主成分分析是1901年由皮爾遜首先使用,其是一項(xiàng)統(tǒng)計(jì)分析技術(shù)[7]。PCA主成分分析在對(duì)數(shù)據(jù)進(jìn)行分析處理時(shí)具有運(yùn)行速度快和分析計(jì)算準(zhǔn)確性高的優(yōu)點(diǎn)。利用PCA降維的原理是將初始維度整合為少數(shù)若干維度即為主成分,主成分從本質(zhì)上就是充當(dāng)數(shù)據(jù)的新坐標(biāo)系,其可以提供關(guān)于方差的重要內(nèi)容,所有主成分都是最初數(shù)據(jù)的線性組合,主成分之間并沒有聯(lián)系,因此所有主成分都可以較好地代表原數(shù)據(jù)的幾乎所有信息,且所含的信息互不重疊。當(dāng)主成分較多時(shí)可以通過根據(jù)其重要性即累積貢獻(xiàn)率來進(jìn)行排列,可以在保留絕大部分信息的前提下,通過去除貢獻(xiàn)率較弱的主成分來歸約數(shù)據(jù),通過選擇最強(qiáng)的主成分可以近似的還原初始數(shù)據(jù)。
因?yàn)椴荒茌^好地解決評(píng)價(jià)指標(biāo)之間的互相關(guān)聯(lián),所以一些分析策略在確定指標(biāo)過程中要消耗較多資源,但是PCA可以較好地解決各維度之間互相影響的問題,因?yàn)镻CA是對(duì)初始維度信息進(jìn)行綜合最終產(chǎn)生了相互不關(guān)聯(lián)的主成分,因此PCA能夠較好地解決各維度之間的互相影響,減少明確指標(biāo)的工作量,而且通過實(shí)驗(yàn)可以得出各維度間相關(guān)性越大,PCA處理得到的結(jié)果越佳。PCA在總體評(píng)價(jià)過程中,每個(gè)主成分的權(quán)數(shù)值大小即為其貢獻(xiàn)率,貢獻(xiàn)率體現(xiàn)了每個(gè)主成分所代表最初的信息在所有的信息中的比例,PCA中明確權(quán)數(shù)的過程對(duì)比其它方法更為有效,它解決了部分技術(shù)在判斷權(quán)數(shù)上的不足。
1.2 主成分分析的數(shù)學(xué)模型
主成分分析的維度歸約的原理是把初始變量進(jìn)行整合最終形成新的相互沒有關(guān)聯(lián)的若干個(gè)變量,而且根據(jù)具體的需要可以只取出若干個(gè)較少變量即可較好地代表原來的信息。在網(wǎng)絡(luò)入侵檢測過程中從初始信息中綜合出的少量主成分網(wǎng)絡(luò)入侵信息能夠得到較好地保存,并且這些信息相互沒有關(guān)聯(lián)。主成分分析應(yīng)用十分廣泛,是大數(shù)據(jù)分析中常見的維歸約的分析手段。主成分分析降維的數(shù)學(xué)模型推導(dǎo)如下:
1.2.1 協(xié)方差矩陣
在樣本Y數(shù)量為n的信息中(p為特征值個(gè)數(shù)),利用標(biāo)準(zhǔn)化數(shù)據(jù)矩陣構(gòu)建協(xié)方差矩陣Q,協(xié)方差矩陣作為標(biāo)準(zhǔn)化后的各數(shù)據(jù)關(guān)聯(lián)密切程度高低的標(biāo)準(zhǔn),如果協(xié)方差的結(jié)果越大就越應(yīng)該對(duì)這些數(shù)據(jù)進(jìn)行主成分分析。協(xié)方差矩陣計(jì)算如公式(1):
(1)
1.2.2 特征值及貢獻(xiàn)率
在PCA中的貢獻(xiàn)率說明所代表的主成分在初始樣本的分析中占有多大的比例,若利用前m(mlt;p)個(gè)主成分來代表初始樣本時(shí),全部貢獻(xiàn)率的大小說明了這種代表的可靠性高低,如果主成分的累計(jì)貢獻(xiàn)率值越大,則證明主成分的可靠性也越大;反之,則該主成分可靠性越小。本文選擇主成分時(shí)要求的累計(jì)貢獻(xiàn)率具有95%以上。通過解特征方程|XiE-Q|=0最終得出特征值Xi(i=1,2,…,p)并推導(dǎo)出特征向量β。(Q為協(xié)方差矩陣即相關(guān)系數(shù)矩陣,E為特征)通過計(jì)算特征值的貢獻(xiàn)率(如公式2)和累計(jì)貢獻(xiàn)率(如公式3)來判斷主成分的可靠性。
(2)
(3)
1.2.3 歸約分析
本文選擇累計(jì)貢獻(xiàn)率大于95%的特征值所對(duì)應(yīng)的主成分共m個(gè)(m≤p)和對(duì)應(yīng)的單位特征向量,根據(jù)公式(4)計(jì)算出歸約后的成分結(jié)果即形成歸約后的信息。
Zi=β1iY1+β2iY2+…+βpiYi(i=1,2,…,p)
(4)
BP神經(jīng)網(wǎng)絡(luò)作為一種基于后向?qū)W習(xí)的算法,其原理是利用最優(yōu)化理論的梯度下降法,BP神經(jīng)網(wǎng)絡(luò)采用多次尋找的方法,最終算法可以在某一范圍內(nèi)發(fā)現(xiàn)最小誤差函數(shù)的值。BP網(wǎng)絡(luò)算法利用在訓(xùn)練過程中的輸出與正確值之間產(chǎn)生的誤差進(jìn)行后向傳播不斷調(diào)整得到最優(yōu)權(quán)值、閾值,最終得出最佳的推導(dǎo)結(jié)果。BP神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)簡單,其在使用過程中適應(yīng)多種算法而且具有容易實(shí)現(xiàn)的優(yōu)點(diǎn),長期以來BP算法不僅在分類算法上而且還在圖像識(shí)別方面得到廣泛應(yīng)用。圖1為具有一個(gè)隱含層的BP網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)中存在輸入層、隱層及輸出層,在本文中輸入層分別為KDD99數(shù)據(jù)集、粗糙集和PCA歸約后的數(shù)據(jù),輸出為4種攻擊方式,在輸入層與神經(jīng)元之間及神經(jīng)元與輸出層之間的值分別為調(diào)整輸出誤差的權(quán)值和閾值。
圖1 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本文實(shí)驗(yàn)采用KDD99數(shù)據(jù)集模擬網(wǎng)絡(luò)攻擊數(shù)據(jù),KDD99中的任一連接都有41個(gè)參數(shù)特征及1個(gè)連接標(biāo)記,KDD99按照攻擊的種類可分為4大類共39小類攻擊方式,4大類的網(wǎng)絡(luò)攻擊方式分別為DOS,R2L,U2R和PROBING。在測試中從10%的數(shù)據(jù)集中任意采集訓(xùn)練信息6 206條,測試信息1 843條。在訓(xùn)練子集中共有22種攻擊類型;為了評(píng)估改進(jìn)算法的網(wǎng)絡(luò)安全系統(tǒng)的泛化能力,測試集中的入侵方式比訓(xùn)練集多17種。
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)歸一化
由于網(wǎng)絡(luò)攻擊的分析數(shù)據(jù)都具有數(shù)據(jù)量大、屬性維度高和屬性特征值變化范圍較大的特點(diǎn),KDD99檢測數(shù)據(jù)中有41維度之多,而在同一屬性內(nèi)參數(shù)的數(shù)值差距較大甚至有107之多,在進(jìn)行數(shù)據(jù)分析時(shí)如果直接訓(xùn)練這些數(shù)據(jù)常會(huì)造成分析數(shù)據(jù)的屬性特點(diǎn)不準(zhǔn)確、收斂不正常的問題,甚至?xí)貌坏秸_的訓(xùn)練結(jié)果。而把數(shù)據(jù)進(jìn)行歸一化操作后就可以把這些數(shù)據(jù)各屬性特征值控制在一個(gè)固定的區(qū)域內(nèi),區(qū)域的固定利于對(duì)入侵?jǐn)?shù)據(jù)的進(jìn)行精確的分析處理,而且通過歸一化也可以加快程序分析的收斂速度。數(shù)據(jù)歸一化后的數(shù)值范圍可以有[-1,+1][8]和[0,1][9]兩種選擇。本文采用Lee等[9]的方法對(duì)本實(shí)驗(yàn)數(shù)據(jù)歸一化到區(qū)間[0,1],歸一化方法如公式(5)。
(5)
maxa和mina分別為屬性a中的最大及最小數(shù)值,vi′為屬性vi歸一的特征值。數(shù)據(jù)歸一后再利用matlab中的round函數(shù)把歸一后的數(shù)據(jù)取最接近的整數(shù)。
3.2.2 數(shù)據(jù)的歸約
利用公式(5)對(duì)數(shù)據(jù)進(jìn)行歸一處理及取整后的數(shù)據(jù)呈顯現(xiàn)較大的稀疏性,在訓(xùn)練集和測試集中皆存在大量的元素為0,0元素所占的比例在訓(xùn)練集和測試集中均超過80%,此時(shí)兩數(shù)據(jù)集已經(jīng)形成稀疏矩陣。稀疏矩陣在數(shù)據(jù)分析的過程中存在很多不足,其一稀疏矩陣在處理過程中消耗大量的內(nèi)存,造成數(shù)據(jù)分析速度嚴(yán)重降低甚至無法正常運(yùn)行的問題,其二由于數(shù)據(jù)量大,在處理過程中必須遍歷一個(gè)點(diǎn)的所有邊會(huì)消耗大量的時(shí)間,特別是在維度大時(shí)更是嚴(yán)重的浪費(fèi)空間資料。為了解決數(shù)據(jù)集中高維(歸一后數(shù)據(jù)集仍為41維)和稀疏矩陣的問題,本實(shí)驗(yàn)中分別采用粗糙集和PCA主成分分析對(duì)數(shù)據(jù)進(jìn)行維歸約和數(shù)據(jù)的壓縮處理。
1)利用粗糙集對(duì)數(shù)據(jù)進(jìn)行歸約預(yù)處理后,發(fā)現(xiàn)第20維特征信息num_outbound_cmds(一個(gè)FTP會(huì)話中出站連接的次數(shù))被歸約,分析原因?yàn)閿?shù)據(jù)集中這一特征出現(xiàn)次數(shù)為0,此時(shí)數(shù)據(jù)維度降至40維,但是0元素所占的比例在訓(xùn)練集和測試集中仍均超過80%,存儲(chǔ)空間雖然已經(jīng)從246 KB降至241 KB,但是數(shù)據(jù)集仍呈現(xiàn)的高維和稀疏問題沒有得到根本的解決。
2)利用主成分分析進(jìn)行歸約處理,處理得到的成分結(jié)果中維度已經(jīng)大大降低到13維,而且在處理后的數(shù)據(jù)矩陣中已經(jīng)沒有0元素的存在,而且存儲(chǔ)空間已經(jīng)從246 KB降至170 KB,由此可見利用PCA對(duì)入侵?jǐn)?shù)據(jù)信息進(jìn)行維度歸約和稀疏矩陣的壓縮效果相比粗糙集較好。具體實(shí)驗(yàn)數(shù)據(jù)結(jié)果如表1。
3.3 檢測模型
本文利用PCA主成分分析,依次對(duì)訓(xùn)練集及測試集歸一和取整后的數(shù)據(jù)進(jìn)行維度歸約和壓縮,得到的數(shù)據(jù)交由BP網(wǎng)絡(luò)分析處理,BP網(wǎng)絡(luò)通過訓(xùn)練數(shù)據(jù)集建立神經(jīng)網(wǎng)絡(luò)模型,再使用通過訓(xùn)練建立的神經(jīng)網(wǎng)絡(luò)模型對(duì)測試數(shù)據(jù)集進(jìn)行分類操作最終實(shí)現(xiàn)入侵檢測。檢測模型如圖2:
圖2 檢測模型
3.4 實(shí)驗(yàn)結(jié)果
3.4.1 算法的訓(xùn)練
由于參數(shù)原因遺傳算法與BP算法需要多次進(jìn)行測試,經(jīng)過多次測試后得出最優(yōu)參數(shù)為:遺傳算法交叉概率為0.7,變異概率為0.01;BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練目標(biāo)為0.01,學(xué)習(xí)速率為0.1。根據(jù)經(jīng)過粗糙集和PCA主成分分析歸約后的訓(xùn)練及測試數(shù)據(jù)集中分別具有的40個(gè)和13個(gè)連接特征維的特點(diǎn)。通過多次測試,通過遺傳迭代數(shù)與誤差關(guān)系得知,對(duì)于主成分分析,當(dāng)隱含層為8個(gè)節(jié)點(diǎn)和對(duì)于粗糙集當(dāng)隱含層為14個(gè)節(jié)點(diǎn)時(shí)經(jīng)過37次迭代得到的誤差值最小。
3.4.2 實(shí)驗(yàn)現(xiàn)象
在本次實(shí)驗(yàn)中使用的硬件為Inter I5 2.5 GHz,4 GB內(nèi)存和1 TB硬盤的計(jì)算機(jī),實(shí)驗(yàn)在Win7平臺(tái)上使用Matlab2014a編程實(shí)現(xiàn)。為了檢測改進(jìn)后的檢測系統(tǒng)功能,本文采用維度、存儲(chǔ)空間、檢測時(shí)間及準(zhǔn)確率作為檢測的參數(shù)判斷檢測系統(tǒng)性能的高低。本文對(duì)比了PCA、粗糙集和未歸約KDD99的測試數(shù)據(jù)集進(jìn)行測試對(duì)比,經(jīng)過多次模擬測試,由圖3可知經(jīng)過PCA歸約的數(shù)據(jù)集的BP檢測時(shí)間均小于其他兩種數(shù)據(jù)集。
圖3 3種數(shù)據(jù)集的檢測時(shí)間
經(jīng)過多次測試,利用初始KDD數(shù)據(jù)集、利用粗糙集和PCA歸約后的數(shù)據(jù)集經(jīng)過BP神網(wǎng)絡(luò)的模型訓(xùn)練并進(jìn)行分類測試,其測試結(jié)果如下表1:
表1 3種數(shù)據(jù)集測試結(jié)果
項(xiàng)目PCA粗糙集原數(shù)據(jù)集維度134041存儲(chǔ)空間/KB170241246檢測時(shí)間/S001540019300217準(zhǔn)確率/%877787878790
由表1中可以知道,經(jīng)過PCA主成分分析的主成分維度遠(yuǎn)遠(yuǎn)少于初始變量的維度,PCA歸約后的數(shù)據(jù)量對(duì)比初始數(shù)據(jù)量減少了26%,而BP神經(jīng)網(wǎng)絡(luò)對(duì)PCA歸納后的數(shù)據(jù)進(jìn)行分類測試的時(shí)間,相比原數(shù)據(jù)分類測試的時(shí)間節(jié)約了25.3%,由此可見PCA主成分分析對(duì)初始數(shù)據(jù)歸約形成的因子數(shù)量遠(yuǎn)少于初始的維度數(shù)量,由于主成分因子完全可以替換初始的變量并能夠進(jìn)行數(shù)據(jù)的模型構(gòu)建,這將大大減少分析過程中的計(jì)算工作量,所以PCA歸約不僅可以節(jié)約了存儲(chǔ)空間,而且可以極大地節(jié)約大數(shù)據(jù)分析測試時(shí)間。雖然PCA歸約后的數(shù)據(jù)量相比原數(shù)據(jù)量有較大的縮小,但是經(jīng)過BP神經(jīng)網(wǎng)絡(luò)檢測的準(zhǔn)確率并沒有太大的變化,那是因?yàn)橥ㄟ^PCA歸約后的數(shù)據(jù)主成分可以代表初始數(shù)據(jù)的幾乎所有信息,而且歸約并不是對(duì)初始數(shù)據(jù)變量簡單的隨機(jī)取舍,而是對(duì)初始信息的重新組合后的一個(gè)結(jié)果,所以不會(huì)出現(xiàn)數(shù)據(jù)的歸約而導(dǎo)致初始數(shù)據(jù)信息出現(xiàn)較大減少的情況,歸約后的主成分仍幾乎能夠代表所有的初始信息。
通過實(shí)驗(yàn)可以證明,針對(duì)入侵檢測信息形成高維度的稀疏矩陣,通過PCA主成分分析可以有效的進(jìn)行維度的歸約和稀疏矩陣壓縮,歸約和壓縮后的維度和數(shù)據(jù)量在保留了絕大部分信息后將會(huì)有較大比例的縮小,這使得分類器在大數(shù)據(jù)時(shí)代能夠保證分類準(zhǔn)確性沒有太大變化的情況下可以極大地節(jié)約存儲(chǔ)資源和進(jìn)行分析處理的時(shí)間,這為網(wǎng)絡(luò)安全節(jié)點(diǎn)能夠?qū)崿F(xiàn)高速的網(wǎng)絡(luò)服務(wù)提供了穩(wěn)定的保障,增強(qiáng)了網(wǎng)絡(luò)用戶安全使用網(wǎng)絡(luò)的信心。
[1]錢進(jìn).決策粗糙集屬性約簡算法與屬性核研究[J].計(jì)算機(jī)科學(xué)與探索,2014,8(3):345-351.
[2]李佳澤.基于屬性約簡的應(yīng)用服務(wù)器優(yōu)化算法改進(jìn)[J].計(jì)算機(jī)測量與控制,2017,25(5):255-257.
[3]廖啟明.基于屬性重要性的粗糙集屬性約簡方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(15):130-132.
[4]李小敏.基于粗糙集的網(wǎng)絡(luò)入侵檢測模型[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015(1):195-196.
[5]龐幫艷.基于粗糙集的公共網(wǎng)絡(luò)入侵檢測方法研究[J].現(xiàn)代電子技術(shù),2017,40(4):28-31.
[6]陳行.基于粗糙集模型的入侵檢測算法研究[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,31(2):82-87.
[7]冶曉隆.基于PCA和禁忌搜索的網(wǎng)絡(luò)流量特征選擇算法[J].計(jì)算機(jī)科學(xué),2014,41(1):187-191.
[8]姚明海.改進(jìn)的遺傳算法在優(yōu)化BP網(wǎng)絡(luò)權(quán)值中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(24):49-54.
[9]LEE W K, STOLFO S J, MOK K W.A data mining framework for building intrusion detection models[J].Proceedings of the IEEE Symposium on security and Privacy,1999:1-13.
2017-09-03
[責(zé)任編輯姚勝勛]
AppliedResearchofPrincipalComponentAnalysisinIntrusionDetection
YANGYunfeng
(SchoolofComputerandInformationEngineering,HechiUniversity,Yizhou,Guangxi546300,China)
The network security in the era of large data is becoming more and more serious. In order to improve the accuracy of intrusion detection classification and save the classification time resources,an intrusion detection model based on Principal Component Analysis (PCA) is constructed. In this model,intrusion information dimension reduction preprocessing is carried out by using principal component analysis,the dimension of intrusion information is reduced,and the sparse matrix is compressed;then BP algorithm is used to analyze and test the data after pretreatment. The simulation results show that the PCA method is more effective than the rough set on the intrusion information. PCA method can reduce the intrusion information dimension and the amount of intrusion detection data without reducing the detection rate,improve the efficiency of the intrusion detection time,and save network node resources at the same time.
big data;intrusion detection;PCA;dimensionality reduction
TP37
A
1672-9021(2017)05-00076-06
楊云峰(1975-),男,云南大理人,河池學(xué)院計(jì)算機(jī)信息與工程學(xué)院高級(jí)實(shí)驗(yàn)師,主要研究方向:計(jì)算機(jī)網(wǎng)絡(luò)及網(wǎng)絡(luò)安全。
廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目(KY2016YB380);河池學(xué)院智能計(jì)算與模式識(shí)別重點(diǎn)實(shí)驗(yàn)室(校政發(fā)〔2016〕91號(hào));河池學(xué)院重點(diǎn)項(xiàng)目(XJ2017ZD08)。