基于分段核函數(shù)的SVM入侵檢測方法

2019-06-06 04:21談帥昕

軟件導(dǎo)刊 2019年3期

關(guān)鍵詞：入侵檢測

談帥昕

摘要：為了克服N-RBF核函數(shù)在處理取值完全相同特征時出現(xiàn)準(zhǔn)確率、檢測率和誤報率異常的現(xiàn)象，提出一種分段核函數(shù)（P-RBF）。該核函數(shù)根據(jù)特征樣本方差是否為0對特征分別進(jìn)行變換，但仍然以RBF核函數(shù)為基礎(chǔ)。實驗結(jié)果表明，在基于SVM的入侵檢測方法中，選用該分段核函數(shù)不僅避免了因選用N-RBF核函數(shù)而出現(xiàn)檢測率和誤報率異常的情況，而且較RBF核在準(zhǔn)確率、檢測率和誤報率方面有一定改善，同時縮短了檢測時間。

關(guān)鍵詞：SVM;入侵檢測;分段核函數(shù)

DOI：10. 11907/rjdk. 182783

中圖分類號：TP306文獻(xiàn)標(biāo)識碼：A文章編號：1672-7800（2019）003-0043-04

0 引言

長期以來，計算機(jī)網(wǎng)絡(luò)安全問題一直困擾著人們，其不僅源于計算機(jī)系統(tǒng)存在的各種漏洞，還源于各種復(fù)雜多變的網(wǎng)絡(luò)流量存在的潛在隱患，而后者往往導(dǎo)致計算機(jī)系統(tǒng)受到入侵。因此，入侵檢測顯得格外重要，從而促進(jìn)了入侵檢測系統(tǒng)的研究和開發(fā)。在研發(fā)過程中，人們相繼提出了許多入侵檢測方法。

從現(xiàn)有各種入侵檢測方法來看，基于機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘的入侵檢測方法受到了人們重點關(guān)注，相關(guān)方法包括K-means[1]、極限學(xué)習(xí)機(jī)（ELM）[2]、決策樹（decision tree）[3]、支持向量機(jī)（SVM）[4-14]等。由于支持向量機(jī)是通過間隔實現(xiàn)分類的，能夠避免過擬合，因而應(yīng)用更加廣泛。通常情況下，支持向量機(jī)非常適合數(shù)據(jù)規(guī)模較小的情形。

值得一提的是，核函數(shù)選取將直接影響支持向量機(jī)的分類效果。文獻(xiàn)[15]指出在特定領(lǐng)域選擇特定核函數(shù)是個公開的難題，因此在不知道任何先驗知識的情況下，優(yōu)先選用徑向基（RBF）核函數(shù)[4-7，9-15]，在許多基于支持向量機(jī)的入侵檢測方法研究中也不例外。為了使核函數(shù)的選用更加靈活，趙夫群[13]構(gòu)造了由多項式核函數(shù)和RBF核組成的混合核函數(shù)，使用PSO算法優(yōu)化該混合核函數(shù)參數(shù)，并采用LSSVM進(jìn)行分類。實驗結(jié)果顯示，對從KDD CUP 99測試集中抽取的測試子集異常數(shù)據(jù)所屬的大類DOS、Probe、U2R和R2L而言，在SVM中選用混合核函數(shù)分類相比于選用RBF核分類消耗時間更少，檢測率更高，且誤報率低;肖豐佳[14]構(gòu)造了一種由多項式核函數(shù)、RBF核函數(shù)和sigmoid核組成的混合核函數(shù)，并采用PSO算法優(yōu)化該混合核函數(shù)參數(shù)。實驗結(jié)果表明，對特征采用灰色關(guān)聯(lián)分析方法處理后，在基于SVM的入侵檢測方法中選用混合核函數(shù)雖然較選用RBF核函數(shù)能獲得更低的誤報率和更高的檢測率，但其檢測性能仍需進(jìn)一步提升。當(dāng)然，也有在RBF核基礎(chǔ)上改進(jìn)核函數(shù)的相關(guān)研究，如Kuang等[9-10]提出的N-RBF核，其以RBF核為基礎(chǔ)，雖然能克服入侵檢測數(shù)據(jù)集中一些特征取值范圍相差過大導(dǎo)致檢測時間消耗過多的問題，但當(dāng)入侵檢測樣本中存在取值完全相同的特征時，會導(dǎo)致準(zhǔn)確率、檢測率和誤報率異常。在國外，已有學(xué)者將分段核函數(shù)用于SVM多分類[16]、圖像重構(gòu)[17]等方面，均取得了良好效果;在國內(nèi)，李渝等[12]提出一種基于RBF核函數(shù)和線性核函數(shù)的分段核函數(shù)，用于在支持向量機(jī)中對heart數(shù)據(jù)集進(jìn)行分類，實驗結(jié)果表明，在支持向量機(jī)中選用該分段核函數(shù)，分類效果不僅優(yōu)于僅選用RBF核和線性核函數(shù)，也優(yōu)于由線性核函數(shù)和RBF核函數(shù)組成的組合核函數(shù)。受此啟發(fā)，為了克服N-RBF核函數(shù)存在的問題，本文提出一種分段核函數(shù)P-RBF，即對于每一個特征，根據(jù)其對應(yīng)樣本方差是否為0分別進(jìn)行變換，然后將變換后的特征向量應(yīng)用于RBF核函數(shù)。

1 分段核函數(shù)P-RBF構(gòu)造

1.1 核函數(shù)性質(zhì)

1.2 N-RBF核

1.4 基于分段核函數(shù)P-RBF的SVM入侵檢測算法

為方便說明，規(guī)定選用的支持向量機(jī)算法為C-SVC[6]，核函數(shù)選用分段核函數(shù)P-RBF，且經(jīng)過預(yù)處理的訓(xùn)練集與測試集數(shù)據(jù)已經(jīng)生成。

Step1：對預(yù)處理訓(xùn)練集中的每一條數(shù)據(jù)，利用分段核函數(shù)P-RBF的分段歸一化功能，再次對輸入數(shù)據(jù)的各個特征根據(jù)其在訓(xùn)練集中的樣本方差是否為0進(jìn)行分段變換。如果該特征在訓(xùn)練集中的樣本方差不為0，則根據(jù)該特征在訓(xùn)練集中的均值和樣本方差進(jìn)行歸一化變換，否則直接將該特征變換為0。之后將經(jīng)過變換的訓(xùn)練集數(shù)據(jù)劃分為正常和異常兩類，并保證兩類的間隔盡可能大，從而產(chǎn)生支持向量，形成分類模型。

Step3：輸出分類結(jié)果。

1.5 基于分段核函數(shù)P-RBF的SVM入侵檢測總體流程

Step1：抽取數(shù)據(jù)。從網(wǎng)絡(luò)中抽取一定量的連接數(shù)據(jù)。

Step2：特征提取。從抽取的連接數(shù)據(jù)中提取一些特征形成數(shù)據(jù)集，并分為測試集和訓(xùn)練集。

Step3：數(shù)據(jù)預(yù)處理。將形成的訓(xùn)練集和測試集字符特征向數(shù)字特征轉(zhuǎn)化，考慮到各特征取值范圍不同，需要對每個特征作線性歸一化變換。

Step4：訓(xùn)練基于分段核函數(shù)的SVM。將訓(xùn)練樣本用于訓(xùn)練基于分段核函數(shù)的SVM，并形成分類模型。

Step5：利用訓(xùn)練后的SVM對測試樣本進(jìn)行檢測，并輸出分類結(jié)果。

Step6：根據(jù)分類結(jié)果，系統(tǒng)對檢測到的異常情況及時作出響應(yīng)并采取相應(yīng)措施。

2 模擬實驗及分析

2.1 數(shù)據(jù)集及評估標(biāo)準(zhǔn)

模擬實驗中選用的入侵檢測數(shù)據(jù)集為KDD CUP 99[20]，因而自然省去了基于分段核函數(shù)SVM入侵檢測流程中的前兩步。由于在KDD CUP 99數(shù)據(jù)集中包含Normal、DOS、Probe、U2R和R2L共5大類數(shù)據(jù)，而Probe、U2R和R2L的數(shù)據(jù)量相對較少，因而從KDD CUP 99 10%訓(xùn)練集和KDDTest中隨機(jī)抽取數(shù)據(jù)進(jìn)行實驗。抽取的數(shù)據(jù)分布如表1所示。

實驗中涉及的評價指標(biāo)為準(zhǔn)確率（AC）、檢測率（DR）和誤報率（FAR），分別用式（12）-（14）表示。

其中，TP表示被正確檢測成正常的數(shù)據(jù)記錄數(shù)目，F(xiàn)P表示被錯誤檢測成正常的數(shù)據(jù)記錄數(shù)目，TN表示被正確檢測成異常的數(shù)據(jù)記錄數(shù)目，F(xiàn)N表示被錯誤檢測成異常的數(shù)據(jù)記錄數(shù)目。

2.2 實驗數(shù)據(jù)預(yù)處理

由于抽取的訓(xùn)練子集和測試子集包括41個特征，其中特征protocol_type、service和flag都是字符型，需要分別將其轉(zhuǎn)化為數(shù)字型。將以上3種特征向數(shù)字型轉(zhuǎn)化的方法有兩種，一種是直接將上述特征從字符型轉(zhuǎn)換為數(shù)字型，另一種則是采用獨(dú)熱碼（one hot code）方式[21]，即離散特征有n個取值，則可用n維向量表示該離散特征。對于離散特征中出現(xiàn)的每一個值，在n維向量中各自占用獨(dú)立的一位并用1表示，而該n維向量只有一位用1表示，其它位用0表示。顯然特征protocol_type、service和flag即可按該方式轉(zhuǎn)化為數(shù)字型，而這些特征取值分別有3種、70種和11種，從而實現(xiàn)了將特征從41維擴(kuò)展到122維的變換。為了探究上述兩種特征處理方式分別對選用分段核函數(shù)的支持向量機(jī)性能帶來的影響，實驗會涉及到兩種特征處理方式。鑒于一些特征的內(nèi)部取值相差非常大，因此在字符型特征向數(shù)字型特征變換之后會按照式（15）歸一化至[0，1]。

2.3 實驗分析

2.3.1 分段核函數(shù)P-RBF性能實驗

實驗環(huán)境為一臺配備了AMD 2.40GHz CPU與4GB內(nèi)存，并安裝了64位Windows 10系統(tǒng)的電腦，實驗在MATLAB R2010B上進(jìn)行，SVM分類器采用林志仁教授[9]開發(fā)的工具箱LIBSVM。實驗選用RBF核、N-RBF核和分段核函數(shù)P-RBF在SVM上作分類，分類采用二分類方式。實驗數(shù)據(jù)特征為122時的實驗結(jié)果如表2所示，實驗數(shù)據(jù)特征為41時的實驗結(jié)果如表3所示。

由表2、表3可見，不論數(shù)據(jù)特征數(shù)為41維還是122維，對于檢測時間而言，N-RBF核最短，其次是分段核函數(shù)P-RBF，RBF核最長。說明N-RBF核通過將特征均值和樣本方差嵌入到核函數(shù)中，實現(xiàn)了對特征的歸一化，避免了選用RBF核時因特征內(nèi)部取值范圍差異過大帶來的分類時間過長問題，而分段核函數(shù)P-RBF需要根據(jù)特征樣本方差是否為0對特征進(jìn)行變換，因而消耗的檢測時間略多于N-RBF核，但不會多于選用RBF核的情況。但對于準(zhǔn)確率、檢測率和誤報率而言，在選用N-RBF核時，檢測率為NaN，誤報率為0，說明正常樣本都被錯誤分類，從而導(dǎo)致準(zhǔn)確率非常低，究其原因在于訓(xùn)練子集和測試子集中一定有取值完全相同的特征，使得該特征的樣本方差為0。但選用分段核函數(shù)P-RBF不僅不會出現(xiàn)檢測率為NaN和誤報率為0的現(xiàn)象，而且比選用RBF核的準(zhǔn)確率和檢測率更高，誤報率更低。因此，將提出的分段核函數(shù)P-RBF用于支持向量機(jī)中，會得到較好的檢測效果，且檢測時間較短。

2.3.2 訓(xùn)練樣本正常數(shù)據(jù)比例對入侵檢測實驗結(jié)果的影響

為了探究訓(xùn)練樣本正常數(shù)據(jù)和異常數(shù)據(jù)比例對入侵檢測實驗結(jié)果的影響，從已抽取的訓(xùn)練子集和測試子集中各抽取1 000條數(shù)據(jù)，分別作為訓(xùn)練樣本和測試樣本。定義α為訓(xùn)練樣本中正常數(shù)據(jù)占整個訓(xùn)練樣本的百分比，為了方便研究α對測試樣本分類的影響，將測試樣本中正常數(shù)據(jù)和異常數(shù)據(jù)的比例設(shè)置為1∶1。但對離散特征protocol_type、service和flag而言，相對于直接轉(zhuǎn)化為離散數(shù)字的方法，用獨(dú)熱方式變換可以提高分類魯棒性。因此，在對訓(xùn)練樣本和測試樣本特征進(jìn)行預(yù)處理時，將特征從41維變換為122維。實驗仍然采用SVM進(jìn)行分類，并將分段核函數(shù)P-RBF和RBF核函數(shù)作對照。實驗結(jié)果如表4所示。

由表4可見，無論α取0.2、0.5還是0.8，分段核函數(shù)P-RBF在測試樣本上的分類準(zhǔn)確率不僅都超過90%，而且高于RBF核函數(shù)。當(dāng)α=0.5時，雖然兩個核函數(shù)在測試樣本上的分類準(zhǔn)確率都為最高，但分段核函數(shù)P-RBF的準(zhǔn)確率仍高于RBF核。說明對基于支持向量機(jī)的入侵檢測方法而言，采用分段核函數(shù)P-RBF能取得比RBF核函數(shù)更穩(wěn)定的分類效果。就檢測時間而言，無論α取0.2、0.5還是0.8，選用分段核函數(shù)P-RBF所需的時間依然比選用RBF核要短。說明分段核函數(shù)P-RBF對于取值不完全相同的特征，能夠根據(jù)其在樣本中的均值和樣本方差進(jìn)行歸一化，并將取值完全相同的特征歸為0，從而達(dá)到使特征收斂的目的，不僅提高了分類準(zhǔn)確率，而且減少了檢測時間。由此可見，基于分段核函數(shù)P-RBF的SVM入侵檢測方法是一種準(zhǔn)確率高、檢測時間短且檢測性能穩(wěn)定的方法。

3 結(jié)語

本文提出分段核函數(shù)P-RBF，將其應(yīng)用于基于SVM的入侵檢測方法中，并比較了RBF核、N-RBF核在該入侵檢測方法中的準(zhǔn)確率、檢測率與誤報率。實驗結(jié)果表明，不論數(shù)據(jù)特征是41維還是122維，在基于SVM的入侵檢測方法中選用分段核函數(shù)P-RBF不僅能有效處理取值完全相同的特征，避免出現(xiàn)異常的準(zhǔn)確率、檢測率和誤報率，而且在一定程度上能夠改善相關(guān)性能，并縮短檢測時間。此外，為了探究訓(xùn)練樣本中正常樣本占比對基于SVM的入侵檢測方法的影響，在測試樣本中正常樣本和異常樣本比為1∶1的情況下，對采用不同正常樣本和異常樣本比例的訓(xùn)練樣本分別進(jìn)行實驗。實驗結(jié)果表明，雖然需要將特征從41維變換至122維，但訓(xùn)練樣本中正常樣本占總體的比例α無論取0.2、0.5還是0.8，在SVM中選用分段核函數(shù)P-RBF的準(zhǔn)確率不僅高于選用RBF核函數(shù)時的情形，而且相對穩(wěn)定，檢測時間也更短。因此，基于分段核函數(shù)P-RBF的SVM入侵檢測方法是行之有效的。

參考文獻(xiàn)：

[1] WANG X G， WANG L L. Research on intrusion detection based on feature extraction of autoencoder and the improved K-means algorithm[C]. 2017 10th International Symposium on Computational Intelligence and Design （ISCID）， 2017： 352-356.

[2] CHENG C， TAY W P， HUANG G B. Extreme learning machines for intrusion detection[C]. The 2012 International Joint Conference on Neural Networks （IJCNN）， 2012： 1-8.

[3] TENG L， Y TENG S H， TANG F Y， et al. A collaborative and adaptive intrusion detection based on SVMs and decision trees[C]. 2014 IEEE International Conference on Data Mining Workshop，2014： 898-905.

[4] CALIX R A，SANKARAN R. Feature ranking and support vector machines classification analysis of the NSL-KDD intrusion detection corpus[J]. Community Dentistry & Oral Epidemiology，2013，41（1）： 41-52.

[5] 范宇辰. 一種基于極限學(xué)習(xí)機(jī)的分類器及其應(yīng)用研究[D]. 沈陽：東北大學(xué)， 2014.

[6] CHANG C C， LIN C J. LIBSVM： a library for support vector machines[J]. ACM transactions on intelligent systems and technology （TIST）， 2011， 2（3）： 1-27.

[7] AMBUSAIDI M A， HE X J， NANDA P， et al. Building an intrusion detection system using a filter-based feature selection algorithm[J]. IEEE transactions on computers， 2016， 65（10）： 2986-2998.

[8] 高妮，高嶺，賀毅岳，等. 基于自編碼網(wǎng)絡(luò)特征降維的輕量級入侵檢測模型[J]. 電子學(xué)報， 2017， 45（3）： 730-739.

[9] KUANG F J， XU W H， ZHANG S Y. A novel hybrid KPCA and SVM with GA model for intrusion detection[J]. Applied Soft Computing Journal， 2014， 18（4）： 178-184.

[10] KUANG F J， ZHANG S Y， JIN Z， et al. A novel SVM by combining kernel principal component analysis and improved chaotic particle swarm optimization for intrusion detection[J]. Soft Computing， 2015， 19（5）： 1187-1199.

[11] 譚琨，杜培軍. 基于再生核Hilbert空間小波核函數(shù)支持向量機(jī)的高光譜遙感影像分類[J]. 測繪學(xué)報， 2011， 40（2）： 142-147.

[12] 李渝，吳增印. 基于分段核函數(shù)的支持向量機(jī)及其應(yīng)用[J]. 現(xiàn)代電子技術(shù)， 2013， 36（16）： 5-8.

[13] 趙夫群.基于混合核函數(shù)的LSSVM網(wǎng)絡(luò)入侵檢測方法[J].現(xiàn)代電子技術(shù)，2015，38（21）：96-99.

[14] 肖豐佳. 基于粒子群優(yōu)化支持向量機(jī)的入侵檢測模型研究[D]. 重慶：西南大學(xué)， 2012.

[15] 汪廷華，陳峻婷. 核函數(shù)的選擇研究綜述[J]. 計算機(jī)工程與設(shè)計， 2012， 33（3）： 1181-1186.

[16] BREDENSTEINER E J， BENNETT K P. Multicategory classification by support vector machines[J]. Computational Optimization & Applications， 1999， 12（1-3）： 53-79.

[17] MEIJERING E H W， ZUIDERVELD K J， VIERGEVER M A. Image reconstruction by convolution with symmetrical piecewise nth-order polynomial kernels[J]. IEEE Transactions on Image Processing a Publication of the IEEE Signal Processing Society， 1999， 8（2）： 192-201.

[18] CRISTIANINI N， TAYLOR J S. 支持向量機(jī)導(dǎo)論[M]. 李國正，王猛，曾華軍，譯. 北京：電子工業(yè)出版社， 2004.

[19] 鄧乃揚(yáng)，田英杰. 支持向量機(jī)：理論、算法與拓展[M]. 北京：科學(xué)出版社， 2009.

[20] STOLFO S J， FAN W， LEE W K， et al. KDD cup 1999 data[EB/OL]. http：//kdd.ics.uci.edu/databases/ kddcup99/kddcup99.html.

[21] KELLEY D R， SNOEK J， RINN J. Basset： learning the regulatory code of the accessible genome with deep convolutional neural networks[J]. Genome Research， 2016， 26（7）： 990-999.

（責(zé)任編輯：黃 ?。?/p>

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于分段核函數(shù)的SVM入侵檢測方法