龐幫艷+張艷敏
摘 要: 傳統(tǒng)方法在對公共網(wǎng)絡入侵數(shù)據(jù)檢測時存在冗余度高、維數(shù)大、精確度差等問題。為了提高公共網(wǎng)絡安全防護的實時性和有效性,提出一種基于優(yōu)化粗糙集理論的公共網(wǎng)絡檢測方法。針對有入侵風險的數(shù)據(jù)進行檢測和篩選,在粗糙集(RS)概念基礎上對其精度進行優(yōu)化,減少信息的丟失,運用MDLP運算準則完成對數(shù)據(jù)的離散化處理,使用遺傳算法進行數(shù)據(jù)約簡,導出數(shù)據(jù)分類規(guī)則并識別出入侵數(shù)據(jù)。仿真試驗結(jié)果表明,所提出的入侵數(shù)據(jù)檢測方法,在入侵檢測率和誤差率方面?zhèn)鹘y(tǒng)算法更為有效。
關鍵詞: 網(wǎng)絡入侵數(shù)據(jù)檢測; 離散化處理; 遺傳算法; 數(shù)據(jù)約簡
中圖分類號: TN711?34; TP393 文獻標識碼: A 文章編號: 1004?373X(2017)04?0028?04
Research of public network intrusion detection method based on rough set theory
PANG Bangyan, ZHANG Yanmin
(Basic Teaching Department, Shangqiu Institute of Tecnology, Shangqiu 476000, China)
Abstract: Traditional method exists high redundancy, large dimension, poor accuracy and so on in the process of public network intrusion data detection. In order to improve the real?time performance and effectiveness of public network security protection, a public network detection method based on the improved rough set theory is put forward to detect and screen the data which has invasion risk, optimize the detecting accuracy based on rough set concept, and reduce the information loss. The MDLP operational criterion is adopted to complete the discretization processing of the data. The genetic algorithm is used to carry on the data reduction, derive data classification rules and identify the intrusion data. The simulation results show that the proposed intrusion data detection method is more effective in the aspects of intrusion detection rate and error rate in comparison with the traditional algorithm.
Keywords: network intrusion data detection; neural network; genetic algorithm; data reduction
0 引 言
近年來信息技術迅猛發(fā)展,公共網(wǎng)絡已逐漸成為全世界范圍內(nèi)最重要的基礎設施之一,對社會各個方面及人類的生產(chǎn)生活方式產(chǎn)生了巨大的影響。網(wǎng)絡代表的開放式信息平臺是現(xiàn)代信息社會的發(fā)展趨勢,但網(wǎng)絡的開放性同樣會帶來風險,尤其是和大眾聯(lián)系緊密的公共網(wǎng)絡。公共網(wǎng)絡攻擊行為時有發(fā)生, 客觀上迫切要求建立有效的入侵檢測系統(tǒng)。入侵檢測技術經(jīng)過幾十年的發(fā)展, 有一定的進步,但傳統(tǒng)方法存在時效性和精簡性不足的問題。文獻[1]提出入侵檢測系統(tǒng)的基礎是抽象模型模式匹配,盡管在某些領域內(nèi)也取得了一些進步,但是隨著公共網(wǎng)絡的發(fā)展和壯大及惡意入侵方式的多樣化,這種方法已經(jīng)不適應目前公共網(wǎng)絡的發(fā)展趨勢要求。本文提出的方法基于優(yōu)化粗糙集理論對網(wǎng)絡入侵原始數(shù)據(jù)進行處理和分析[2?4]。運用MDLP運算準則完成對入侵數(shù)據(jù)的離散化處理[5?6],使用遺傳算法對數(shù)據(jù)進行屬性約簡,降低維數(shù)、去除冗余[7?8], 將導出數(shù)據(jù)分類規(guī)則并對入侵數(shù)據(jù)進行報警處理,試驗證明了本文提出方法能夠提高數(shù)據(jù)的檢測率,降低誤報警次數(shù),運算簡捷同時易于理解[1]。
1 基于優(yōu)化RS入侵檢測方法研究
1.1 優(yōu)化粗糙集理論
本文將基于優(yōu)化粗糙集理論用于實現(xiàn)對公共網(wǎng)絡入侵數(shù)據(jù)的檢測。粗糙集理論是一種數(shù)學工具,主要描述不完整性和不確定性。可以有效地對各種不完整、不一致、不精確數(shù)據(jù)信息進行處理,還能夠通過分析和推理數(shù)據(jù)信息,揭示出潛在規(guī)律和隱含其中的知識。粗糙集理論最顯著的特點是不需要其他任何的先驗知識,僅利用數(shù)據(jù)本身提供的信息可以完成檢測。粗糙集理論開辟了一條全新的路徑來處理攻擊檢測樣本數(shù)據(jù)中不易分辨的數(shù)據(jù)。通常粗糙集方法和模型包括條件屬性和決策屬性,在不丟失信息前提下對數(shù)據(jù)進行預處理,應用同樣知識進行最小條件屬性集約簡,保持決策系統(tǒng)相同分類能力的最簡形式本文。優(yōu)化粗糙集相關原理如下:
(1) 給定公共網(wǎng)絡數(shù)據(jù)集合X和數(shù)據(jù)集合Y,其中集合Y是集合X的是等價關系,在X基礎對Y進行劃分,命名為知識,記為。設定四元組表達系統(tǒng),U為對象的非空有限集合為論域;R是屬性的非空有限集合;V:Va,Va,Va是屬性a的值域;f 是一個信息函數(shù),aR,xU,f(x,a)Va。
(2) 給定基于公共網(wǎng)絡數(shù)據(jù)的關系系統(tǒng)L=(X,Y) 是知識庫,Y是X上等價關系的一個族集,X 為論域;令ZX,Y為X上的一個等價關系。Z的X下近似值:
YZ={H}
Z的Y上近似值:
YZ={HQ≠}
(3) 集合EF,如果E獨立,ind(E)=ind(F), E為F的一個約簡。F中所有必要關系集合記作CORE(F)。核與約簡有如下關系:
CORE(F)=RED(N)
(4) 設定W=(K,R,V,f)為知識系統(tǒng),O=PQ,
PQ= ,Q是條件屬性集,O是決策屬性集,P和Q構(gòu)成決策表。若Q和T是公式,則QT,QT。令公式 P→Q為決策規(guī)則,Q和T表達一種因果關系成為規(guī)則前、后件。
(5) 對粗糙集優(yōu)化的實現(xiàn)流程是通過修正和調(diào)整閾值各項參數(shù),對傳統(tǒng)粗糙集理論的近似邊界的嚴格定義進行寬泛化處理。量度不確定是優(yōu)化粗糙集最大特點,評價一個決策規(guī)則是否有效,可以使用兩個指標來評價其優(yōu)劣: 覆蓋度和準確度。其定義式分別為式(1)和式(2):
對粗糙集的優(yōu)化處理能夠使其覆蓋度和準確度提高。
在上述優(yōu)化粗糙集原理中,屬性知識和數(shù)據(jù)集合被認為是分類能力。粗糙集理論的主要思想是在保持分類能力不變的前提下利用等價關系來對對象集合進行劃分,通過對數(shù)據(jù)的預處理、離散化、知識約簡,得出問題的分類規(guī)則和決策。由于粗糙集邊界經(jīng)過優(yōu)化即寬泛化處理,覆蓋度和準確度都有所提高,能夠更好地實現(xiàn)對入侵數(shù)據(jù)檢測和識別。
1.2 公共網(wǎng)絡入侵檢測方法研究
基于優(yōu)化粗糙集的公共網(wǎng)絡入侵檢測實現(xiàn)流程,如圖1所示,主要是根據(jù)獲取的網(wǎng)絡數(shù)據(jù)連接通過對公共網(wǎng)絡數(shù)據(jù)進行篩選和分析,將進入數(shù)據(jù)庫的原始數(shù)據(jù)進行離散化處理和遺傳數(shù)據(jù)約簡,產(chǎn)生規(guī)則集來檢測實時的網(wǎng)絡數(shù)據(jù)是攻擊數(shù)據(jù)還是正常連接。
公共網(wǎng)絡數(shù)據(jù)入侵檢測流程中對原始數(shù)據(jù)進行離散化處理和屬性約簡是最為重要的步驟。包含入侵風險原始數(shù)據(jù)從公共網(wǎng)絡進入數(shù)據(jù)接收器是不完備和缺失的,由于原始數(shù)據(jù)的不完備和缺失導致數(shù)據(jù)信息系統(tǒng)不完備,進入數(shù)據(jù)庫的各種不同的待處理的數(shù)據(jù)以離散的表現(xiàn)形式存在。運用基于優(yōu)化的粗糙集方法首先需要對這些原始數(shù)據(jù)進行預處理然后對數(shù)據(jù)進行屬性約簡。對數(shù)據(jù)的預處理即根據(jù)原始數(shù)據(jù)的數(shù)值缺失和不全是離散值的情況特點對數(shù)據(jù)進行離散化處理。
在對公共網(wǎng)絡數(shù)據(jù)進行入侵檢測過程中,MDLD是一種有效的數(shù)據(jù)信息離散化處理方法,該方法相對獨立地按照每個屬性的作用,將其持續(xù)地獲取數(shù)據(jù)值范圍分成合適數(shù)量和寬度的子區(qū)間,分類嫡設定包含m個類別的數(shù)據(jù)集U,分布概率分別為數(shù)據(jù)集U的m個類別分類嫡如下:
(3)
分類嫡是描述上述數(shù)據(jù)集類別的精度,屬性A對S劃分后的嫡設屬性W將U分為n個子集分類嫡為每個子集U′的嫡加權(quán)和比較如式(4)~式(7)所示:
(4)
其中:
(5)
(6)
(7)
從以上數(shù)學公式可以推理得出擁有最高信息增益的數(shù)據(jù)屬性是給定集合中具有最高區(qū)分度的屬性,具有最高增益的離散域值也具有最高的區(qū)分度。通過以上的數(shù)學方法就完成對粗糙集的數(shù)據(jù)缺失和非全部離散值的問題進行了離散化處理。
預處理完畢后對數(shù)據(jù)屬性約簡是實現(xiàn)入侵數(shù)據(jù)檢測的下一個重要步驟,數(shù)據(jù)約簡可以減少信息的處理量和存儲量。基于優(yōu)化粗糙集的數(shù)據(jù)約簡是通過對屬性排序并計算其重要性而實現(xiàn)的。在復雜的數(shù)據(jù)關系中找出與原始數(shù)據(jù)具有相同或相似辨別能力的相關屬性的最小集合,實現(xiàn)信息約簡找出數(shù)據(jù)庫中最簡潔、最適用的知識規(guī)則。運用遺傳算法作全局最優(yōu)點搜索,識別最優(yōu)算法參數(shù)和初始狀態(tài),可以以更短的時間得到更優(yōu)的屬性集約簡。
本文采用遺傳算法對數(shù)據(jù)集進行約簡,其基本流程把控制序列編碼為一個染色體,通過遺傳算法來產(chǎn)生控制序列。由于遺傳搜索是從決策表的屬性核出發(fā),并在整個進化過程中保持不變。選取適應度函數(shù):需要滿足條件屬性對決策屬性依賴度最大和條件屬性個數(shù)最少這兩個條件,才能在屬性集是最小約簡。對應的函數(shù)關系如下:
(8)
式中:A為二進制串長度;CARD(x)表示個體數(shù)量;B(x)表示條件屬性對決策屬性的依賴度。通過對算子的選擇、交叉和變異,最終實現(xiàn)穩(wěn)態(tài)繁殖,將屬性核加入初始種群,減小了搜索范圍,同時交叉和變異不會破壞基因位并可以加快收斂速度,保證入侵數(shù)據(jù)屬性集是最小約簡。
通過優(yōu)化粗糙集對數(shù)據(jù)進行分辨和規(guī)則提取后,數(shù)據(jù)的準確度和覆蓋度都有所提高,證明粗糙集經(jīng)過優(yōu)化的有效性,對生成的規(guī)則進行過濾和提取,去除置信度低的、冗余的規(guī)則。提取規(guī)則的流程是從經(jīng)過處理的決策表中抽取出以規(guī)則形式表述的知識,將某些去掉后不影響決策結(jié)果生成的規(guī)則過濾掉。按照以上的流程和最終提取的規(guī)則就完成了對公共網(wǎng)絡數(shù)據(jù)入侵數(shù)據(jù)的入侵檢測,按照形成的規(guī)則檢測出可疑數(shù)據(jù)并對入侵報警。
2 試驗結(jié)果與分析
本文通過仿真試驗分別對基于優(yōu)化粗糙集公共網(wǎng)絡入侵檢測方法和主成分分析(PCA)入侵檢測算法進行了效果對比。
通過試驗證明本文提出的設計方法有較高的檢測率、更加低的誤報率,同時訓練時間上要比其他算法要低,本文提出的算法具有精確性和有效性。試驗數(shù)據(jù)來自網(wǎng)絡入侵檢測評判數(shù)據(jù)庫,包含了30余種數(shù)據(jù)攻擊類型如PROBING類型,U2R類型,DDoS等類型。將實驗數(shù)據(jù)分成3組,數(shù)據(jù)的選擇如表1所示。
表1 試驗數(shù)據(jù)
為了驗證本文算法對網(wǎng)絡入侵檢測性能具有更明顯的有效性,試驗對PCA算法和基于優(yōu)化粗糙集公共網(wǎng)絡入侵檢測方法的有效性進行了充分的數(shù)據(jù)對比。實驗結(jié)果如表2~表4 所示。
在U2R型數(shù)據(jù)入侵檢測中PCA方法的檢測率、誤差率和訓練時間分別為86.93%,44.81%,0.51 s;而基于優(yōu)化粗糙集的公共網(wǎng)絡檢測系統(tǒng)在這三個指標的對比中都具有優(yōu)勢,檢測率提高到95.28%,誤差率大幅度降低到28.23%,時間縮短到0.29 s。通過數(shù)據(jù)對比,本文提出的方法在應對U2R型數(shù)據(jù)攻擊時具有優(yōu)勢。
應對PROBING型數(shù)據(jù)入侵檢測中PCA方法的檢測率、誤差率和訓練時間分別為82.26%,40.23%,0.56 s。而基于優(yōu)化粗糙集的公共網(wǎng)絡檢測系統(tǒng)在這三個指標的對比中都具有優(yōu)勢,檢測率也同樣具有優(yōu)勢,三個指標分別可以達到93.12%,27.96%和0.21 s。
DDoS是一種新型的更具破壞性的攻擊方式,是利用更多的傀儡機來發(fā)起進攻,以比以前更大的規(guī)模來進攻公共網(wǎng)絡。從表4的數(shù)據(jù)來看,在應對新型的數(shù)據(jù)入侵傳統(tǒng)的PCA算法在檢測率、誤差率和訓練時間上顯示出的時效性更差。而相反基于優(yōu)化粗糙集的神經(jīng)網(wǎng)絡算法在以上指標表現(xiàn)時更為有效。
從以上 3個表中可以很明顯看出,不論是3種數(shù)據(jù)類型中的哪一種,本文所提出的基于優(yōu)化粗糙集神經(jīng)網(wǎng)絡入侵檢測算法模型的檢測率比PCA算法模型在效率和精確度方面有明顯的提高,而且模型的誤報率以及平均檢測時間也要比PCA模型要低,仿真試驗表明本文提出基于優(yōu)化RS入侵檢測方法能夠在很大程度上提高公共網(wǎng)絡的安全入侵檢測可靠性,將提出的基于優(yōu)化RS的公共網(wǎng)絡入侵方法用于公共網(wǎng)絡入侵行為是一個行之有效的方案。
入侵檢測率指標是衡量入侵檢測方法是否行之有效的最重要指標,通過仿真試驗對本文提出的方法和PCA方法應對常見的攻擊方式得出的數(shù)據(jù)進行統(tǒng)計繪制成檢測率綜合比較圖,如圖2所示,本文提出的方法綜合檢測率在90%以上,在應對常見網(wǎng)絡數(shù)據(jù)攻擊行為時具有良好的有效性。
基于粗糙集的公共網(wǎng)絡入侵檢測系統(tǒng)利用網(wǎng)絡工具箱進行測試和訓練,實驗得到的均方根誤差如圖3所示。
從實驗的仿真結(jié)果可以看出,將基于優(yōu)化粗糙集公共網(wǎng)絡入侵方法用于數(shù)據(jù)入侵檢測,較為明顯地降低了系統(tǒng)的誤報率,提高了各種攻擊類型的檢測率和目標精度,而且速度較快、收斂容易,有效地改進了公共網(wǎng)絡入侵檢測系統(tǒng)的性能。
本文的試驗分別對基于優(yōu)化粗糙集公共網(wǎng)絡入侵檢測方法和主成分分析( PCA)入侵檢測算法進行了數(shù)據(jù)對比可以看出本文提出的設計方法有高檢測率、低的誤報率,和更短的訓練時間。試驗證明本文提出的方法更加實用和有效。
3 結(jié) 語
伴隨公共網(wǎng)絡數(shù)據(jù)入侵問題的凸顯,有效入侵檢測成為公共網(wǎng)絡安全中一個極為重要的課題。針對傳統(tǒng)公共網(wǎng)絡入侵檢測原始數(shù)據(jù)精確度低、數(shù)據(jù)量大、維數(shù)多、入侵檢測系統(tǒng)誤報率、漏報率偏高的現(xiàn)狀,在深入研究入粗糙集理論的基礎上,本文提出將優(yōu)化粗糙集理論應用于公共網(wǎng)絡入侵檢測系統(tǒng)設計。經(jīng)過大量仿真實驗結(jié)果證明本文提出的方法是一種高效率、高檢測率的網(wǎng)絡入侵檢測方法,這種優(yōu)化設計入侵檢測系統(tǒng)將會有廣泛的應用前景。
參考文獻
[1] ZHANG Lianhua, ZHANG Guanhua, YU Lang, et al. Intrusion detection using rough set classification [J]. Journal of Zhejiang University Science, 2004, 5(9): 1076?1086.
[2] LEE W, STOLFO S J, MOK K. Data mining in workflow environments: Experiences in intrusion detection [C]//Proceedings of the 1999 Conference on Knowledge Discovery and Data Mining(KDD99). AC: CAM Press,1999: 111?120.
[3] 王永全.入侵檢測系統(tǒng)(IDS)的研究現(xiàn)狀和展望[J].通信技術,2008,41(11):139?143.
[4] WELCH C D J, LATHROP M S D. A Survey of 802: Wireless security threats and security mechanisms [R]. West Point, NewYork: United states Military Academy, 2003.
[5] 馬海峰,宋進峰,岳新.遺傳算法優(yōu)化的混合神經(jīng)網(wǎng)絡入侵檢測系統(tǒng)[J].通信技術,2009,42(9):106?108.
[6] 王文莉,侯麗敏.基于領域粗糙集的入侵檢測[J].傳感器與微系統(tǒng),2010,29(6):36?38.
[7] 薛瀟,劉以安,魏敏.一種入侵檢測的分類方法研究[J].計算機工程與應用,2010,46(30):98?100.
[8] 劉道群,孫慶和.基于遺傳神經(jīng)網(wǎng)絡的入侵檢測模型[J].激光雜志,2005,26(6):73?74.