談帥昕
摘 要:為了克服N-RBF核函數(shù)在處理取值完全相同特征時出現(xiàn)準(zhǔn)確率、檢測率和誤報率異常的現(xiàn)象,提出一種分段核函數(shù)(P-RBF)。該核函數(shù)根據(jù)特征樣本方差是否為0對特征分別進(jìn)行變換,但仍然以RBF核函數(shù)為基礎(chǔ)。實驗結(jié)果表明,在基于SVM的入侵檢測方法中,選用該分段核函數(shù)不僅避免了因選用N-RBF核函數(shù)而出現(xiàn)檢測率和誤報率異常的情況,而且較RBF核在準(zhǔn)確率、檢測率和誤報率方面有一定改善,同時縮短了檢測時間。
關(guān)鍵詞:SVM;入侵檢測;分段核函數(shù)
DOI:10. 11907/rjdk. 182783
中圖分類號:TP306文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)003-0043-04
0 引言
長期以來,計算機(jī)網(wǎng)絡(luò)安全問題一直困擾著人們,其不僅源于計算機(jī)系統(tǒng)存在的各種漏洞,還源于各種復(fù)雜多變的網(wǎng)絡(luò)流量存在的潛在隱患,而后者往往導(dǎo)致計算機(jī)系統(tǒng)受到入侵。因此,入侵檢測顯得格外重要,從而促進(jìn)了入侵檢測系統(tǒng)的研究和開發(fā)。在研發(fā)過程中,人們相繼提出了許多入侵檢測方法。
從現(xiàn)有各種入侵檢測方法來看,基于機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘的入侵檢測方法受到了人們重點關(guān)注,相關(guān)方法包括K-means[1]、極限學(xué)習(xí)機(jī)(ELM)[2]、決策樹(decision tree)[3]、支持向量機(jī)(SVM)[4-14]等。由于支持向量機(jī)是通過間隔實現(xiàn)分類的,能夠避免過擬合,因而應(yīng)用更加廣泛。通常情況下,支持向量機(jī)非常適合數(shù)據(jù)規(guī)模較小的情形。
值得一提的是,核函數(shù)選取將直接影響支持向量機(jī)的分類效果。文獻(xiàn)[15]指出在特定領(lǐng)域選擇特定核函數(shù)是個公開的難題,因此在不知道任何先驗知識的情況下,優(yōu)先選用徑向基(RBF)核函數(shù)[4-7,9-15],在許多基于支持向量機(jī)的入侵檢測方法研究中也不例外。為了使核函數(shù)的選用更加靈活,趙夫群[13]構(gòu)造了由多項式核函數(shù)和RBF核組成的混合核函數(shù),使用PSO算法優(yōu)化該混合核函數(shù)參數(shù),并采用LSSVM進(jìn)行分類。實驗結(jié)果顯示,對從KDD CUP 99測試集中抽取的測試子集異常數(shù)據(jù)所屬的大類DOS、Probe、U2R和R2L而言,在SVM中選用混合核函數(shù)分類相比于選用RBF核分類消耗時間更少,檢測率更高,且誤報率低;肖豐佳[14]構(gòu)造了一種由多項式核函數(shù)、RBF核函數(shù)和sigmoid核組成的混合核函數(shù),并采用PSO算法優(yōu)化該混合核函數(shù)參數(shù)。實驗結(jié)果表明,對特征采用灰色關(guān)聯(lián)分析方法處理后,在基于SVM的入侵檢測方法中選用混合核函數(shù)雖然較選用RBF核函數(shù)能獲得更低的誤報率和更高的檢測率,但其檢測性能仍需進(jìn)一步提升。當(dāng)然,也有在RBF核基礎(chǔ)上改進(jìn)核函數(shù)的相關(guān)研究,如Kuang等[9-10]提出的N-RBF核,其以RBF核為基礎(chǔ),雖然能克服入侵檢測數(shù)據(jù)集中一些特征取值范圍相差過大導(dǎo)致檢測時間消耗過多的問題,但當(dāng)入侵檢測樣本中存在取值完全相同的特征時,會導(dǎo)致準(zhǔn)確率、檢測率和誤報率異常。在國外,已有學(xué)者將分段核函數(shù)用于SVM多分類[16]、圖像重構(gòu)[17]等方面,均取得了良好效果;在國內(nèi),李渝等[12]提出一種基于RBF核函數(shù)和線性核函數(shù)的分段核函數(shù),用于在支持向量機(jī)中對heart數(shù)據(jù)集進(jìn)行分類,實驗結(jié)果表明,在支持向量機(jī)中選用該分段核函數(shù),分類效果不僅優(yōu)于僅選用RBF核和線性核函數(shù),也優(yōu)于由線性核函數(shù)和RBF核函數(shù)組成的組合核函數(shù)。受此啟發(fā),為了克服N-RBF核函數(shù)存在的問題,本文提出一種分段核函數(shù)P-RBF,即對于每一個特征,根據(jù)其對應(yīng)樣本方差是否為0分別進(jìn)行變換,然后將變換后的特征向量應(yīng)用于RBF核函數(shù)。
1 分段核函數(shù)P-RBF構(gòu)造
1.1 核函數(shù)性質(zhì)
1.2 N-RBF核
1.4 基于分段核函數(shù)P-RBF的SVM入侵檢測算法
為方便說明,規(guī)定選用的支持向量機(jī)算法為C-SVC[6],核函數(shù)選用分段核函數(shù)P-RBF,且經(jīng)過預(yù)處理的訓(xùn)練集與測試集數(shù)據(jù)已經(jīng)生成。
Step1:對預(yù)處理訓(xùn)練集中的每一條數(shù)據(jù),利用分段核函數(shù)P-RBF的分段歸一化功能,再次對輸入數(shù)據(jù)的各個特征根據(jù)其在訓(xùn)練集中的樣本方差是否為0進(jìn)行分段變換。如果該特征在訓(xùn)練集中的樣本方差不為0,則根據(jù)該特征在訓(xùn)練集中的均值和樣本方差進(jìn)行歸一化變換,否則直接將該特征變換為0。之后將經(jīng)過變換的訓(xùn)練集數(shù)據(jù)劃分為正常和異常兩類,并保證兩類的間隔盡可能大,從而產(chǎn)生支持向量,形成分類模型。
Step3:輸出分類結(jié)果。
1.5 基于分段核函數(shù)P-RBF的SVM入侵檢測總體流程
Step1:抽取數(shù)據(jù)。從網(wǎng)絡(luò)中抽取一定量的連接數(shù)據(jù)。
Step2:特征提取。從抽取的連接數(shù)據(jù)中提取一些特征形成數(shù)據(jù)集,并分為測試集和訓(xùn)練集。
Step3:數(shù)據(jù)預(yù)處理。將形成的訓(xùn)練集和測試集字符特征向數(shù)字特征轉(zhuǎn)化,考慮到各特征取值范圍不同,需要對每個特征作線性歸一化變換。
Step4:訓(xùn)練基于分段核函數(shù)的SVM。將訓(xùn)練樣本用于訓(xùn)練基于分段核函數(shù)的SVM,并形成分類模型。
Step5:利用訓(xùn)練后的SVM對測試樣本進(jìn)行檢測,并輸出分類結(jié)果。
Step6:根據(jù)分類結(jié)果,系統(tǒng)對檢測到的異常情況及時作出響應(yīng)并采取相應(yīng)措施。
2 模擬實驗及分析
2.1 數(shù)據(jù)集及評估標(biāo)準(zhǔn)
模擬實驗中選用的入侵檢測數(shù)據(jù)集為KDD CUP 99[20],因而自然省去了基于分段核函數(shù)SVM入侵檢測流程中的前兩步。由于在KDD CUP 99數(shù)據(jù)集中包含Normal、DOS、Probe、U2R和R2L共5大類數(shù)據(jù),而Probe、U2R和R2L的數(shù)據(jù)量相對較少,因而從KDD CUP 99 10%訓(xùn)練集和KDDTest中隨機(jī)抽取數(shù)據(jù)進(jìn)行實驗。抽取的數(shù)據(jù)分布如表1所示。
實驗中涉及的評價指標(biāo)為準(zhǔn)確率(AC)、檢測率(DR)和誤報率(FAR),分別用式(12)-(14)表示。
其中,TP表示被正確檢測成正常的數(shù)據(jù)記錄數(shù)目,F(xiàn)P表示被錯誤檢測成正常的數(shù)據(jù)記錄數(shù)目,TN表示被正確檢測成異常的數(shù)據(jù)記錄數(shù)目,F(xiàn)N表示被錯誤檢測成異常的數(shù)據(jù)記錄數(shù)目。
2.2 實驗數(shù)據(jù)預(yù)處理
由于抽取的訓(xùn)練子集和測試子集包括41個特征,其中特征protocol_type、service和flag都是字符型,需要分別將其轉(zhuǎn)化為數(shù)字型。將以上3種特征向數(shù)字型轉(zhuǎn)化的方法有兩種,一種是直接將上述特征從字符型轉(zhuǎn)換為數(shù)字型,另一種則是采用獨(dú)熱碼(one hot code)方式[21],即離散特征有n個取值,則可用n維向量表示該離散特征。對于離散特征中出現(xiàn)的每一個值,在n維向量中各自占用獨(dú)立的一位并用1表示,而該n維向量只有一位用1表示,其它位用0表示。顯然特征protocol_type、service和flag即可按該方式轉(zhuǎn)化為數(shù)字型,而這些特征取值分別有3種、70種和11種,從而實現(xiàn)了將特征從41維擴(kuò)展到122維的變換。為了探究上述兩種特征處理方式分別對選用分段核函數(shù)的支持向量機(jī)性能帶來的影響,實驗會涉及到兩種特征處理方式。鑒于一些特征的內(nèi)部取值相差非常大,因此在字符型特征向數(shù)字型特征變換之后會按照式(15)歸一化至[0,1]。
2.3 實驗分析
2.3.1 分段核函數(shù)P-RBF性能實驗
實驗環(huán)境為一臺配備了AMD 2.40GHz CPU與4GB內(nèi)存,并安裝了64位Windows 10系統(tǒng)的電腦,實驗在MATLAB R2010B上進(jìn)行,SVM分類器采用林志仁教授[9]開發(fā)的工具箱LIBSVM。實驗選用RBF核、N-RBF核和分段核函數(shù)P-RBF在SVM上作分類,分類采用二分類方式。實驗數(shù)據(jù)特征為122時的實驗結(jié)果如表2所示,實驗數(shù)據(jù)特征為41時的實驗結(jié)果如表3所示。
由表2、表3可見,不論數(shù)據(jù)特征數(shù)為41維還是122維,對于檢測時間而言,N-RBF核最短,其次是分段核函數(shù)P-RBF,RBF核最長。說明N-RBF核通過將特征均值和樣本方差嵌入到核函數(shù)中,實現(xiàn)了對特征的歸一化,避免了選用RBF核時因特征內(nèi)部取值范圍差異過大帶來的分類時間過長問題,而分段核函數(shù)P-RBF需要根據(jù)特征樣本方差是否為0對特征進(jìn)行變換,因而消耗的檢測時間略多于N-RBF核,但不會多于選用RBF核的情況。但對于準(zhǔn)確率、檢測率和誤報率而言,在選用N-RBF核時,檢測率為NaN,誤報率為0,說明正常樣本都被錯誤分類,從而導(dǎo)致準(zhǔn)確率非常低,究其原因在于訓(xùn)練子集和測試子集中一定有取值完全相同的特征,使得該特征的樣本方差為0。但選用分段核函數(shù)P-RBF不僅不會出現(xiàn)檢測率為NaN和誤報率為0的現(xiàn)象,而且比選用RBF核的準(zhǔn)確率和檢測率更高,誤報率更低。因此,將提出的分段核函數(shù)P-RBF用于支持向量機(jī)中,會得到較好的檢測效果,且檢測時間較短。
2.3.2 訓(xùn)練樣本正常數(shù)據(jù)比例對入侵檢測實驗結(jié)果的影響
為了探究訓(xùn)練樣本正常數(shù)據(jù)和異常數(shù)據(jù)比例對入侵檢測實驗結(jié)果的影響,從已抽取的訓(xùn)練子集和測試子集中各抽取1 000條數(shù)據(jù),分別作為訓(xùn)練樣本和測試樣本。定義α為訓(xùn)練樣本中正常數(shù)據(jù)占整個訓(xùn)練樣本的百分比,為了方便研究α對測試樣本分類的影響,將測試樣本中正常數(shù)據(jù)和異常數(shù)據(jù)的比例設(shè)置為1∶1。但對離散特征protocol_type、service和flag而言,相對于直接轉(zhuǎn)化為離散數(shù)字的方法,用獨(dú)熱方式變換可以提高分類魯棒性。因此,在對訓(xùn)練樣本和測試樣本特征進(jìn)行預(yù)處理時,將特征從41維變換為122維。實驗仍然采用SVM進(jìn)行分類,并將分段核函數(shù)P-RBF和RBF核函數(shù)作對照。實驗結(jié)果如表4所示。
由表4可見,無論α取0.2、0.5還是0.8,分段核函數(shù)P-RBF在測試樣本上的分類準(zhǔn)確率不僅都超過90%,而且高于RBF核函數(shù)。當(dāng)α=0.5時,雖然兩個核函數(shù)在測試樣本上的分類準(zhǔn)確率都為最高,但分段核函數(shù)P-RBF的準(zhǔn)確率仍高于RBF核。說明對基于支持向量機(jī)的入侵檢測方法而言,采用分段核函數(shù)P-RBF能取得比RBF核函數(shù)更穩(wěn)定的分類效果。就檢測時間而言,無論α取0.2、0.5還是0.8,選用分段核函數(shù)P-RBF所需的時間依然比選用RBF核要短。說明分段核函數(shù)P-RBF對于取值不完全相同的特征,能夠根據(jù)其在樣本中的均值和樣本方差進(jìn)行歸一化,并將取值完全相同的特征歸為0,從而達(dá)到使特征收斂的目的,不僅提高了分類準(zhǔn)確率,而且減少了檢測時間。由此可見,基于分段核函數(shù)P-RBF的SVM入侵檢測方法是一種準(zhǔn)確率高、檢測時間短且檢測性能穩(wěn)定的方法。
3 結(jié)語
本文提出分段核函數(shù)P-RBF,將其應(yīng)用于基于SVM的入侵檢測方法中,并比較了RBF核、N-RBF核在該入侵檢測方法中的準(zhǔn)確率、檢測率與誤報率。實驗結(jié)果表明,不論數(shù)據(jù)特征是41維還是122維,在基于SVM的入侵檢測方法中選用分段核函數(shù)P-RBF不僅能有效處理取值完全相同的特征,避免出現(xiàn)異常的準(zhǔn)確率、檢測率和誤報率,而且在一定程度上能夠改善相關(guān)性能,并縮短檢測時間。此外,為了探究訓(xùn)練樣本中正常樣本占比對基于SVM的入侵檢測方法的影響,在測試樣本中正常樣本和異常樣本比為1∶1的情況下,對采用不同正常樣本和異常樣本比例的訓(xùn)練樣本分別進(jìn)行實驗。實驗結(jié)果表明,雖然需要將特征從41維變換至122維,但訓(xùn)練樣本中正常樣本占總體的比例α無論取0.2、0.5還是0.8,在SVM中選用分段核函數(shù)P-RBF的準(zhǔn)確率不僅高于選用RBF核函數(shù)時的情形,而且相對穩(wěn)定,檢測時間也更短。因此,基于分段核函數(shù)P-RBF的SVM入侵檢測方法是行之有效的。
參考文獻(xiàn):
[1] WANG X G, WANG L L. Research on intrusion detection based on feature extraction of autoencoder and the improved K-means algorithm[C]. 2017 10th International Symposium on Computational Intelligence and Design (ISCID), 2017: 352-356.
[2] CHENG C, TAY W P, HUANG G B. Extreme learning machines for intrusion detection[C]. The 2012 International Joint Conference on Neural Networks (IJCNN), 2012: 1-8.
[3] TENG L, Y TENG S H, TANG F Y, et al. A collaborative and adaptive intrusion detection based on SVMs and decision trees[C]. 2014 IEEE International Conference on Data Mining Workshop,2014: 898-905.
[4] CALIX R A,SANKARAN R. Feature ranking and support vector machines classification analysis of the NSL-KDD intrusion detection corpus[J]. Community Dentistry & Oral Epidemiology,2013,41(1): 41-52.
[5] 范宇辰. 一種基于極限學(xué)習(xí)機(jī)的分類器及其應(yīng)用研究[D]. 沈陽:東北大學(xué), 2014.
[6] CHANG C C, LIN C J. LIBSVM: a library for support vector machines[J]. ACM transactions on intelligent systems and technology (TIST), 2011, 2(3): 1-27.
[7] AMBUSAIDI M A, HE X J, NANDA P, et al. Building an intrusion detection system using a filter-based feature selection algorithm[J]. IEEE transactions on computers, 2016, 65(10): 2986-2998.
[8] 高妮, 高嶺, 賀毅岳, 等. 基于自編碼網(wǎng)絡(luò)特征降維的輕量級入侵檢測模型[J]. 電子學(xué)報, 2017, 45(3): 730-739.
[9] KUANG F J, XU W H, ZHANG S Y. A novel hybrid KPCA and SVM with GA model for intrusion detection[J]. Applied Soft Computing Journal, 2014, 18(4): 178-184.
[10] KUANG F J, ZHANG S Y, JIN Z, et al. A novel SVM by combining kernel principal component analysis and improved chaotic particle swarm optimization for intrusion detection[J]. Soft Computing, 2015, 19(5): 1187-1199.
[11] 譚琨, 杜培軍. 基于再生核Hilbert空間小波核函數(shù)支持向量機(jī)的高光譜遙感影像分類[J]. 測繪學(xué)報, 2011, 40(2): 142-147.
[12] 李渝, 吳增印. 基于分段核函數(shù)的支持向量機(jī)及其應(yīng)用[J]. 現(xiàn)代電子技術(shù), 2013, 36(16): 5-8.
[13] 趙夫群.基于混合核函數(shù)的LSSVM網(wǎng)絡(luò)入侵檢測方法[J].現(xiàn)代電子技術(shù),2015,38(21):96-99.
[14] 肖豐佳. 基于粒子群優(yōu)化支持向量機(jī)的入侵檢測模型研究[D]. 重慶:西南大學(xué), 2012.
[15] 汪廷華, 陳峻婷. 核函數(shù)的選擇研究綜述[J]. 計算機(jī)工程與設(shè)計, 2012, 33(3): 1181-1186.
[16] BREDENSTEINER E J, BENNETT K P. Multicategory classification by support vector machines[J]. Computational Optimization & Applications, 1999, 12(1-3): 53-79.
[17] MEIJERING E H W, ZUIDERVELD K J, VIERGEVER M A. Image reconstruction by convolution with symmetrical piecewise nth-order polynomial kernels[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society, 1999, 8(2): 192-201.
[18] CRISTIANINI N, TAYLOR J S. 支持向量機(jī)導(dǎo)論[M]. 李國正, 王猛, 曾華軍, 譯. 北京: 電子工業(yè)出版社, 2004.
[19] 鄧乃揚(yáng), 田英杰. 支持向量機(jī):理論、算法與拓展[M]. 北京:科學(xué)出版社, 2009.
[20] STOLFO S J, FAN W, LEE W K, et al. KDD cup 1999 data[EB/OL]. http://kdd.ics.uci.edu/databases/ kddcup99/kddcup99.html.
[21] KELLEY D R, SNOEK J, RINN J. Basset: learning the regulatory code of the accessible genome with deep convolutional neural networks[J]. Genome Research, 2016, 26(7): 990-999.
(責(zé)任編輯:黃 ?。?/p>