朱韶平
(湖南財(cái)政經(jīng)濟(jì)學(xué)院信息管理系,湖南 長沙 410205)
基于Boosting半監(jiān)督的網(wǎng)絡(luò)安全入侵檢測算法*
朱韶平
(湖南財(cái)政經(jīng)濟(jì)學(xué)院信息管理系,湖南 長沙 410205)
針對網(wǎng)絡(luò)安全入侵行為升級快、隱蔽性強(qiáng)和隨機(jī)性高等嚴(yán)重的安全問題,提出了一種基于半監(jiān)督的網(wǎng)絡(luò)安全入侵檢測算法.該算法利用Boosting建立入侵檢測模糊分類器,采用遺傳算法進(jìn)行迭代訓(xùn)練,生成最終的網(wǎng)絡(luò)安全入侵檢測模型.仿真結(jié)果表明,該算法有效提高了網(wǎng)絡(luò)安全入侵檢測的性能和效率.與SVM等先進(jìn)的入侵檢測方法相比,該算法能更加準(zhǔn)確有效地檢測各種類型的入侵,具有良好的檢測效果和應(yīng)用價(jià)值.
網(wǎng)絡(luò)安全;入侵檢測;半監(jiān)督學(xué)習(xí);模糊分類器
隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,計(jì)算機(jī)及網(wǎng)絡(luò)的應(yīng)用滲入到了社會(huì)各領(lǐng)域,然而人們面臨的網(wǎng)絡(luò)安全問題也日益嚴(yán)峻.入侵檢測技術(shù)是一種網(wǎng)絡(luò)安全主動(dòng)保護(hù)策略,是近年來網(wǎng)絡(luò)信息安全領(lǐng)域的一個(gè)研究熱點(diǎn),倍受國內(nèi)外專家的關(guān)注.該技術(shù)通過收集和分析計(jì)算機(jī)系統(tǒng)或網(wǎng)絡(luò)中的審計(jì)記錄、安全日志、用戶行為及網(wǎng)絡(luò)數(shù)據(jù)包等信息,檢測網(wǎng)絡(luò)或系統(tǒng)中可能存在的違反安全策略的入侵行為與被攻擊的跡象[1].文獻(xiàn)[2]提出了第1個(gè)入侵檢測模型;文獻(xiàn)[3]等提出了通用入侵檢測框架CIDF;文獻(xiàn)[4]提出了基于決策樹算法的協(xié)議分析方法,提高了入侵檢測系統(tǒng)的性能;文獻(xiàn)[5]提出了基于神經(jīng)網(wǎng)絡(luò)的誤用檢測方法,系統(tǒng)通過在網(wǎng)絡(luò)流中搜索攻擊的關(guān)鍵碼來檢測入侵;文獻(xiàn)[6]以系統(tǒng)調(diào)用執(zhí)行跡來建立檢測模型,提出了基于支持向量機(jī)的入侵檢測模型.近年來,盡管研究者提出了各種入侵檢測模型和相關(guān)算法,并取得了一些研究成果,但是檢測效果并非十分理想.
隨著網(wǎng)絡(luò)安全入侵技術(shù)更新速度的加快及隱蔽性的加強(qiáng),網(wǎng)絡(luò)安全入侵技術(shù)變得日趨復(fù)雜.筆者將半監(jiān)督學(xué)習(xí)算法引入網(wǎng)絡(luò)安全入侵檢測中,提出了一種基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)安全入侵檢測算法,該算法可在先驗(yàn)知識(shí)不足的情況下仍保證有較好的分類正確率,從而提高入侵檢測的精度.
1.1系統(tǒng)調(diào)用頻率特征的提取
系統(tǒng)調(diào)用頻率特性是判斷系統(tǒng)進(jìn)程是否異常的重要特征,當(dāng)進(jìn)程異常執(zhí)行時(shí),系統(tǒng)調(diào)用頻率會(huì)發(fā)生變化甚至產(chǎn)生一些未知的系統(tǒng)調(diào)用.每一個(gè)進(jìn)程的系統(tǒng)調(diào)用序列分別用一個(gè)向量表示,其中每個(gè)元素分別表示相應(yīng)系統(tǒng)調(diào)用的發(fā)生頻率.例如,系統(tǒng)調(diào)用的集合s={access,audit,chdir,close,creat,exit,fork,ioctl},若進(jìn)程x由2個(gè)access、1個(gè)close、1個(gè)exit、1個(gè)ioctl 組成,則其頻率向量表示為x=(2,0,0,1,0,1,0,1).
1.2系統(tǒng)調(diào)用短序列時(shí)序特征的提取
系統(tǒng)調(diào)用頻率向量不包含系統(tǒng)調(diào)用間的時(shí)序特征,系統(tǒng)調(diào)用短序列包含了時(shí)序特征(在程序正常執(zhí)行時(shí)所產(chǎn)生的短序列局部連貫,在程序存在安全漏洞運(yùn)行程序時(shí)會(huì)產(chǎn)生一些異常的系統(tǒng)調(diào)用短序列).因此,進(jìn)程產(chǎn)生的系統(tǒng)調(diào)用短序列是判斷系統(tǒng)進(jìn)程是否異常的另一項(xiàng)重要依據(jù).文中采用 STIDE滑動(dòng)窗口方法提取系統(tǒng)調(diào)用短序列,窗口從頭到尾每次移動(dòng)1個(gè)系統(tǒng)調(diào)用,每次生成窗口內(nèi)的系統(tǒng)調(diào)用短序列[7].實(shí)驗(yàn)中窗口長度取4時(shí)性能較好.例如,進(jìn)程x=close,execve,open,mmap,open,mmap,close,exit,窗口的長度L=4時(shí),提取的系統(tǒng)調(diào)用短序列為(close,execve,open,mmap),(execve,open,mmap,open),(open,mmap,open,mmap),…,(open,mmap,close,exit).
半監(jiān)督學(xué)習(xí)是一種重要的機(jī)器學(xué)習(xí)方法,利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類,減少了標(biāo)注代價(jià),提高了學(xué)習(xí)機(jī)器的性能,即在訓(xùn)練集樣本有限的條件下,也能保證測試集相對獨(dú)立,誤差較小[8].在網(wǎng)絡(luò)安全入侵檢測中引入半監(jiān)督學(xué)習(xí)方法,可大大提高入侵檢測的精度和速度.
2.1Boosting半監(jiān)督學(xué)習(xí)算法
Boosting模糊分類算法是對模糊先驗(yàn)知識(shí)進(jìn)行建模,是一種典型的半監(jiān)督學(xué)習(xí)算法.算法具體流程如下:
設(shè)樣本集x={x1,x2,…,xn},其中xi表示第i個(gè)輸入分量;Anj表示xj的模糊集合,其規(guī)則數(shù)j=1,2,…,N;類別cj∈{c1,c2,…,cm};模糊分類器輸入變量x.則產(chǎn)生的模糊規(guī)則為
Rj:ifx1isA1jandx2isA2j…xnisAnjthenC=cj.
對x={x1,x2,…,xn}的模糊集合的隸屬函數(shù)μAij(x)為高斯函數(shù),其表達(dá)式為
2.2基于Boosting半監(jiān)督的網(wǎng)絡(luò)安全入侵檢測
(ⅰ)假設(shè)有N個(gè)初始學(xué)習(xí)的網(wǎng)絡(luò)數(shù)據(jù)特征樣本集{(x1,c1),(x2,c2),…,(xi,ci),…,(xN,cN)}.其中ci∈{c1,c2,…,cN},向量xN為網(wǎng)絡(luò)數(shù)據(jù)特征訓(xùn)練樣本,cN是入侵檢測問題的分類結(jié)果,各個(gè)樣本的初始權(quán)值wi=1/N.
(ⅱ)設(shè)置Boosting算法最大迭代次數(shù)為T,初始化當(dāng)前迭代次數(shù)t=1,針對N個(gè)網(wǎng)絡(luò)數(shù)據(jù)特征樣本集樣本進(jìn)行T輪訓(xùn)練.
(1)根據(jù)遺傳算法尋找適應(yīng)度F最大所對應(yīng)的模糊規(guī)則Rt,即尋找使分類效果最好的模糊規(guī)則.適應(yīng)度函數(shù)定義為
(2)在當(dāng)前樣本分布下,計(jì)算使適應(yīng)度F最大的模糊規(guī)則Rt所對應(yīng)的分類錯(cuò)誤率E(Rt)和Rt對應(yīng)的權(quán)值Ht:
(3)根據(jù)分類錯(cuò)誤率E(Rt)計(jì)算wi(t+1),并更新樣本的權(quán)值wi(t),得到最優(yōu)的權(quán)重值,從而優(yōu)化Boosting模糊分類算法.設(shè)zt是歸一化因子,則其權(quán)值
基于Boosting半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)安全入侵檢測,采用遺傳算法,以迭代方式,通過對樣本權(quán)值的調(diào)節(jié),獲取使分類效果最好的模糊規(guī)則,從而有效地提升了正確樣本對網(wǎng)絡(luò)安全入侵檢測模型的貢獻(xiàn),降低了錯(cuò)誤樣本或隨機(jī)樣本對網(wǎng)絡(luò)安全入侵檢測模型的影響.
為了驗(yàn)證文中算法的有效性,在Windows XP的操作系統(tǒng)、Pentium 3.0 GHz的處理器、4.0 GB內(nèi)存的實(shí)驗(yàn)平臺(tái)上和Matlab7的語言編程環(huán)境對該算法進(jìn)行仿真實(shí)驗(yàn).為保證仿真實(shí)驗(yàn)的權(quán)威性,實(shí)驗(yàn)數(shù)據(jù)采用DARPA’98數(shù)據(jù)[9].取400萬個(gè)連接數(shù)據(jù)作為訓(xùn)練樣本集,取298 500個(gè)連接數(shù)據(jù)作為測試樣本集,且使測試樣本集中包含有訓(xùn)練樣本集中沒有出現(xiàn)過的攻擊.
實(shí)驗(yàn)1 基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)安全入侵檢測.
從訓(xùn)練樣本集中抽取包含6 000個(gè)Normal、3 500個(gè)Neptune、500個(gè)Portsweep、200個(gè)Satan、10個(gè)Buffer_overflow和2 000個(gè)Guess-password的41維12 210個(gè)網(wǎng)絡(luò)數(shù)據(jù)作為本次實(shí)驗(yàn)的訓(xùn)練樣本集,從測試機(jī)中抽取41維115 200個(gè)網(wǎng)絡(luò)數(shù)據(jù)作為本次實(shí)驗(yàn)的測試樣本集,并劃分為5個(gè)測試集.利用文中算法進(jìn)行網(wǎng)絡(luò)安全入侵檢測,檢測結(jié)果如表1所示.
表1 基于半監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)安全入侵檢測仿真結(jié)果 %
從表1的數(shù)據(jù)可以看出,采用基于Boosting半監(jiān)督學(xué)習(xí)算法進(jìn)行網(wǎng)絡(luò)安全入侵檢測,整體檢測效果較好,檢測精度較高.對樣本數(shù)較大的Normal和Neptune類型的入侵平均檢測精度分別高達(dá)97.7%和95.8%;對樣本數(shù)較少的Satan和Buffer_overflow類型的入侵平均檢測精度有所降低,但仍能保證有較高的檢測精度.仿真實(shí)驗(yàn)表明,由于Boosting半監(jiān)督學(xué)習(xí)算法采用了遺傳算法對模型進(jìn)行了迭代修正,降低了隨機(jī)樣本對模型的影響,減少了小樣本及隨機(jī)樣本導(dǎo)致模型精度大幅下降的問題,因此大大提升了整體的檢測精度.
圖1 2種不同檢測算法對網(wǎng)絡(luò)安全入侵檢測精度比較
實(shí)驗(yàn)2 2種不同檢測算法對網(wǎng)絡(luò)安全入侵檢測精度比較.
為了進(jìn)一步驗(yàn)證文中算法的有效性,對同一測試集,分別采用SVM算法和Boosting半監(jiān)督學(xué)習(xí)算法對6種類型的入侵進(jìn)行了檢測比較實(shí)驗(yàn),實(shí)驗(yàn)比較結(jié)果如圖1所示,A,B,C,D,E,F(xiàn)分別表示Normal,Neptune,Portsweep,Satan,Buffer_overflow,Guess-password這6種類型的入侵.
由圖1實(shí)驗(yàn)結(jié)果可知,文中算法對6種類型的入侵檢測精度均高于SVM算法的檢測精度,同時(shí)也驗(yàn)證了文中的算法優(yōu)于基于SVM算法的檢測效果.
分析了基于Boosting半監(jiān)督模糊分類問題,提出了一種基于Boosting半監(jiān)督學(xué)習(xí)方法用于網(wǎng)絡(luò)安全入侵檢測.該方法采用遺傳算法對模型進(jìn)行了迭代修正,降低了隨機(jī)樣本對模型的影響,解決了小樣本及隨機(jī)樣本導(dǎo)致模型精度大幅下降的問題,大大提升了整體的檢測精度.實(shí)驗(yàn)結(jié)果表明,該方法能夠較好地提高半監(jiān)督入侵檢測的準(zhǔn)確率,性能明顯優(yōu)于基于SVM等的先進(jìn)算法,具有檢測速度快、精度高、效果好等特性.
[1] 楊宏宇,朱 丹,謝 豐,等.入侵異常檢測研究綜述[J].電子科技大學(xué)學(xué)報(bào):自然科學(xué)版,2009,38(5):587-596.
[2] DENNING D E.An Intrusion Detection Model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[3] CHEN S,TUNG B,SCHNACKENBERG D.The Common Intrusion Detection Framework Data Formats[R].Internet Draft Draft-Ietf-Cidf-Data-Formats-OO.txt,1998.
[4] 李 亮,李漢菊,黎 明.用決策樹改進(jìn)基于協(xié)議分析的入侵檢測技術(shù)[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2004,32(12):37-39.
[5] CUNNINGHAM R,LIPPMANN R.Improving Intrusion Detection Performance Using Keyword Selection and Neural Networks[J].Computer Network,2000,34(4):597-603.
[6] 繞 鮮,董春曦,楊紹全.基于支持向量機(jī)的入侵檢測系統(tǒng)[J].軟件學(xué)報(bào),2003,14(4):798-803.
[7] HOFMEYR S A,FORREST S,SOMAYAJI A.Intrusion Detect Using Sequences of System Calls[J].JournaI of Computer Security,1998,6(3):151-180.
[8] 高 偉,王中卿,李壽山.基于集成學(xué)習(xí)的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報(bào),2013,27(3):120-126.
[9] 1998 Darpa Intrusion Dectection Evaluation Data Set.[DB/OL].(1998-02-02)[2014-03-20].http://www.ll.mit.edu/mission/communications/ ist/corporayideval/data/index.html.
(責(zé)任編輯 陳炳權(quán))
IntrusionDetectionofNetworkSecurityBasedonSemi-Supervision
ZHU Shaoping
(Department of Information Management,Hunan University of Finance and Economics,Changsha 410205,China)
For the features of fast upgrading,strong concealment,and great randomness possessed by net intrusion,a method for intrusion detection of network security based on semi-supervised learning is proposed.The Boosting is used to build the fuzzy classifier of intrusion detection.Genetic algorithm is used to improve the iterative training,and the final the intrusion detection model of network security is thus generated.The results show that this algorithm can effectively improve the performance and efficiency of intrusion detection of network security.Compared with SVM and other advanced methods for intrusion detection,this method can detect the various types of invasion with greater accuracy,better effect and higher application value.
network security;intrusion detection;semi-supervised learning;fuzzy classifier
1007-2985(2014)05-0033-04
2014-04-16
湖南省科技廳科技計(jì)劃資助項(xiàng)目(2014FJ3057);湖南省教育廳教育科學(xué)“十二五”規(guī)劃課題(XJK012CGD022);湖南省普通高等學(xué)校教學(xué)改革研究資助課題(湘教通[2012]401號文件);湖南省重點(diǎn)建設(shè)學(xué)科“計(jì)算機(jī)應(yīng)用技術(shù)” 建設(shè)資助項(xiàng)目
朱韶平(1972—),女,湖南雙峰人,湖南財(cái)政經(jīng)濟(jì)學(xué)院信息管理系副教授,碩士,主要從事計(jì)算機(jī)應(yīng)用技術(shù)、網(wǎng)絡(luò)安全和模式識(shí)別等研究.
TP309
A
10.3969/j.issn.1007-2985.2014.05.009