常鎰恒 馬照瑞 李霞 鞏道福
摘? ?要:網(wǎng)絡(luò)安全態(tài)勢要素提取精度的高低直接影響著態(tài)勢感知系統(tǒng)的性能,針對在復(fù)雜異構(gòu)的網(wǎng)絡(luò)環(huán)境中網(wǎng)絡(luò)安全態(tài)勢要素提取困難的問題,文章提出了一種基于概率神經(jīng)網(wǎng)絡(luò)的安全態(tài)勢要素提取方法。在該方法中,通過粗糙集對原始數(shù)據(jù)進行屬性約簡,刪除冗余屬性,然后,使用概率神經(jīng)網(wǎng)絡(luò)對約簡后的數(shù)據(jù)集進行分類訓(xùn)練。為驗證該方法的有效性,使用NSL-KDD數(shù)據(jù)集對該要素提取方法進行仿真測試。實驗分析結(jié)果表明,該方法是一種有效、可行的態(tài)勢要素提取方法,與其傳統(tǒng)方法相比,該方法明顯地提高了網(wǎng)絡(luò)態(tài)勢要素提取的準確性,為網(wǎng)絡(luò)安全態(tài)勢的評估和預(yù)測提供了有力的數(shù)據(jù)保障。
關(guān)鍵詞:態(tài)勢感知;態(tài)勢要素提取;粗糙集;概率神經(jīng)網(wǎng)絡(luò)
中圖分類號: TP393.08? ? ? ? ? 文獻標識碼:A
1 引言
隨著網(wǎng)絡(luò)規(guī)模的擴大,網(wǎng)絡(luò)新應(yīng)用的出現(xiàn),網(wǎng)絡(luò)空間安全形勢不容樂觀,網(wǎng)絡(luò)安全態(tài)勢感知技術(shù)是當下信息安全領(lǐng)域研究的熱點。網(wǎng)絡(luò)安全態(tài)勢感知能夠從大量且存在噪聲的數(shù)據(jù)中辨識出網(wǎng)絡(luò)中的攻擊行為,從而融合這些信息對網(wǎng)絡(luò)的安全態(tài)勢進行實時的評估和監(jiān)控,以達到對網(wǎng)絡(luò)狀態(tài)的整體把控。態(tài)勢感知系統(tǒng)由三部分組成,分別是態(tài)勢要素提取、態(tài)勢評估和態(tài)勢預(yù)測。
在網(wǎng)絡(luò)安全態(tài)勢感知中,態(tài)勢要素提取是指在大規(guī)模網(wǎng)絡(luò)環(huán)境中采用基于大數(shù)據(jù)的關(guān)聯(lián)歸并和深度挖掘等技術(shù)手段,結(jié)合協(xié)議還原識別、靜態(tài)特征匹配、動態(tài)行為分析、異常行為挖掘等檢測方法,從離散的、孤立的數(shù)據(jù)中探測發(fā)現(xiàn)潛在的安全威脅。態(tài)勢要素提取一般分為三步,分別是數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分類。數(shù)據(jù)獲取主要是通過傳感器、嗅探器采集網(wǎng)絡(luò)中的流量信息、日志信息等安全相關(guān)的數(shù)據(jù),數(shù)據(jù)預(yù)處理是通過屬性約簡算法對數(shù)據(jù)進行約簡,刪除冗余。常見的屬性約簡算法有主成分分析法[1]、奇異值分解法[2]和粗糙集[3]。數(shù)據(jù)分類是指使用分類器把約簡后的數(shù)據(jù)集進行分類訓(xùn)練,從而實現(xiàn)態(tài)勢要素的分類提取。常見的分類算法有決策樹[4]、貝葉斯[5]、人工神經(jīng)網(wǎng)絡(luò)[6]、支持向量機[7]和基于關(guān)聯(lián)規(guī)則[8]的分類等。
隨著對網(wǎng)絡(luò)安全態(tài)勢要素提取技術(shù)的不斷深入研究,科研人員開始把一些新興技術(shù)引入到態(tài)勢感知中。TimBass[9]把數(shù)據(jù)挖掘技術(shù)引入到基于多傳感器數(shù)據(jù)融合的網(wǎng)絡(luò)安全態(tài)勢感知框架中,運用數(shù)據(jù)挖掘中的聚類、關(guān)聯(lián)、統(tǒng)計分析等技術(shù)對網(wǎng)絡(luò)安全態(tài)勢要素進行提取。L等人[10]主要是對網(wǎng)絡(luò)的脆弱性信息進行采集,將可信漏報、可信誤報、漏報率、誤報率等指標作為漏洞掃描的度量指標。除此之外,國外大量機構(gòu)也投入到網(wǎng)絡(luò)態(tài)勢要素提取的研究中,如美國勞倫斯伯克利國家實驗室開發(fā)的“Spinning Cube of Potential Doom”系統(tǒng)[11],卡內(nèi)基梅隆大學(xué)開發(fā)的SILK[12]系統(tǒng)等。
國內(nèi)學(xué)者則是從全方面,多角度,多層次對網(wǎng)絡(luò)安全態(tài)勢進行提取。戚犇等人[13]提出了基于信息增益的改進樸素貝葉斯分類約簡方法,通過信息增益設(shè)置權(quán)值,獲取關(guān)聯(lián)性強的態(tài)勢因子,并且在傳統(tǒng)的樸素貝葉斯模型上加入調(diào)控因子θ,通過選取適當?shù)摩戎祦硖岣叻诸惖木_度。賴積保、王慧強[14]等人提出了基于相異度計算和指數(shù)加權(quán)DS證據(jù)理論的網(wǎng)絡(luò)安全態(tài)勢要素提取方法,該方法不僅考慮到各安全設(shè)備之間的互補性, 而且能夠有效地提取網(wǎng)絡(luò)中的態(tài)勢要素。
上述方法在推進態(tài)勢要素提取的研究中具有重要的作用,不足之處就是具有較強的主觀性,需要大量的先驗知識,而在復(fù)雜的網(wǎng)絡(luò)環(huán)境中獲取先驗知識是比較困難的,因此,本文提出了基于粗糙集的概率神經(jīng)網(wǎng)絡(luò)安全態(tài)勢要素提取方法。通過粗糙集對獲取到的原始數(shù)據(jù)集進行約簡,刪除冗余的屬性,降低冗余度,然后,使用概率神經(jīng)網(wǎng)絡(luò)分類器對約簡后的數(shù)據(jù)集進行分類訓(xùn)練,從而實現(xiàn)了對網(wǎng)絡(luò)安全態(tài)勢要素的高效提取。
2 粗糙集基本理論
粗糙集(Rough Set,RS)理論是一種數(shù)據(jù)分析處理理論,它能夠在不影響最終決策分類結(jié)果的情況下,對數(shù)據(jù)集的屬性進行約簡。RS的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知的知識庫中的知識來(近似)刻畫。
2.1 知識的表示
給定信息系統(tǒng)(U、Q、V、f),U是對象集合,也就是態(tài)勢要素集合,Q是屬性集合,V是所有屬性的值域,f表示一種映射,反應(yīng)對象集合之間的值,將對象屬性映射到它的值域。當信息系統(tǒng)中的屬性集Q能分為條件屬性集C和決策屬性集D,即有C∪D=Q且C∩D=,則該信息系統(tǒng)稱為決策表。
2.2 不可分辨關(guān)系
在給定的論域U上,任意選擇一個等價關(guān)系集R和R的子集,且,則P中所有等價關(guān)系的交集依然是論域U中的等價關(guān)系,稱該等價關(guān)系為P的不可分辨關(guān)系,記作IND(P)。
2.3 集合的上下近似
上近似包含了所有那些可能是屬于X的元素,下近似包含了所有使用知識R可確切分類到X的元素。在給定的知識庫K=中,任意選擇集合,可以定于X關(guān)于知識R的上下近似:
2.4系統(tǒng)參數(shù)的重要度
在給定的知識庫K=上,存在著R∈IND(K),可以用于說明系統(tǒng)的特征,稱之為系統(tǒng)參數(shù)。對于任意集合,我們可以得到X相對于這個系統(tǒng)參數(shù)R所提供的信息的數(shù)量的多少,稱這個數(shù)量為X的重要度:
隨著X相對于R的重要度的增加,使用集合X表示系統(tǒng)參數(shù)R的程度也會增加。
2.5 知識的依賴度
在給定的知識庫K=中,,定義γp(Q)為知識Q對于知識P的依賴程度。POSp(Q)即Q的P的正域,其中包含了論域U的信息中能夠按照P進行分類后能夠被唯一的劃分到Q的等價類中的那一部分:
顯然,0≤k≤1,k的數(shù)值大小反映了知識R對知識Q的依賴程度。
3 概率神經(jīng)網(wǎng)絡(luò)
概率神經(jīng)網(wǎng)絡(luò)(PNN)是一種前饋型并行算法的神經(jīng)網(wǎng)絡(luò),它采用指數(shù)函數(shù)來代替S形激活函數(shù),可以計算出接近于貝葉斯最佳判定面的非線性判別邊界。PNN的優(yōu)勢在于可以把非線性學(xué)習(xí)算法轉(zhuǎn)換成線性學(xué)習(xí)算法來處理問題,同時保證非線性算法的高精度等特性。
概率神經(jīng)網(wǎng)絡(luò)包括輸入層、隱含層、求和層以及輸出層,其結(jié)構(gòu)如圖1所示。
第一層為輸入層,輸入測試樣本值,并將接收的數(shù)據(jù)傳遞給隱含層,其神經(jīng)元個數(shù)等于樣本的特征維度。第二層隱含層是徑向基層,每一個隱含層的神經(jīng)元節(jié)點擁有一個中心,該層接收輸入層的樣本輸入,計算輸入向量與中心的距離,最后返回一個標量值,神經(jīng)元個數(shù)等于輸入訓(xùn)練樣本個數(shù)。向量x輸入到隱含層,隱含層中第i類模式的第j神經(jīng)元所確定的輸入/輸出關(guān)系由下式定義:
i=1,2,…M,M為訓(xùn)練樣本的總數(shù)類。D為樣本空間數(shù)據(jù)的維數(shù),xij為第i類樣本的第j個中心。求和層把隱含層中屬于同一類的隱含神經(jīng)元的輸出做加權(quán)平均:
vi表示第i類類別的輸出,L表示第i類的神經(jīng)元個數(shù)。求和層的神經(jīng)元個數(shù)等于類別數(shù)M。
輸出層取求和層中最大的一個作為輸出的類別:
在實際計算中,輸入層的向量先與加權(quán)系數(shù)相乘,再輸入到徑向基函數(shù)中進行計算:
x和ω均為單位長度,對結(jié)果進行徑向基運算,為平滑因子,值與分類精度相關(guān)。求和層中的神經(jīng)元只與隱含層中對應(yīng)類別的神經(jīng)元有連接,所以求和層的輸出與各類基于內(nèi)核的概率密度的估計成比例,通過輸出層的歸一化處理,就能得到各類的概率估計。網(wǎng)絡(luò)的輸出層由競爭神經(jīng)元構(gòu)成,神經(jīng)元個數(shù)與求和層相同,它接收求和層的輸出,做簡單的閾值辨別,在所有的輸出層神經(jīng)元中后驗概率密度最大的神經(jīng)元輸出為1,其余神經(jīng)元輸出為0。
4 基于概率神經(jīng)網(wǎng)絡(luò)的安全態(tài)勢要素提取
網(wǎng)絡(luò)中的態(tài)勢要素主要分為兩大類:靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)主要包括主機信息、網(wǎng)絡(luò)信息和IDS信息等,動態(tài)數(shù)據(jù)主要包括活動信息、行為信息、脆弱性信息、攻擊信息和感知結(jié)果信息等,其中攻擊要素對網(wǎng)絡(luò)安全態(tài)勢研究來說較為重要。這些數(shù)據(jù)信息主要是通過各種傳感器在不同設(shè)備層進行數(shù)據(jù)采集,如漏洞掃描記錄、SNMP數(shù)據(jù)、日志類數(shù)據(jù)、NetFlow數(shù)據(jù)分析記錄等。將這些異構(gòu)傳感器采集的數(shù)據(jù)信息通過RS對其進行預(yù)處理,主要是對原始數(shù)據(jù)進行屬性約簡,刪除冗余數(shù)據(jù)以及重要屬性低的數(shù)據(jù),過程如圖2所示。
屬性的重要程度對分類結(jié)果也會有影響,使用分類器對原始態(tài)勢要素數(shù)據(jù)進行提取,不僅分類精度低而且分類效率也不高。因此,要先使用屬性約簡算法對原始態(tài)勢要素數(shù)據(jù)進行預(yù)處理,刪除冗余以及重要屬性低的數(shù)據(jù),這將大大提高分類精度和分類效率。本文提出的基于粗糙集的概率神經(jīng)網(wǎng)絡(luò)態(tài)勢要素提取方法如圖3所示。
本文提出的基于粗糙集的概率神經(jīng)網(wǎng)絡(luò)態(tài)勢要素提取方法的具體流程分為四步驟:
步驟一:對原始態(tài)勢數(shù)據(jù)進行預(yù)處理,獲得態(tài)勢要素決策表;
步驟二:通過粗糙集對數(shù)據(jù)進行約簡,獲得優(yōu)化后的態(tài)勢要素子集;
步驟三:使用概率神經(jīng)網(wǎng)絡(luò)分類器對優(yōu)化后的態(tài)勢要素子集進行分類訓(xùn)練,得到PNN強分類器;
步驟四:測試結(jié)果。
5 實驗與分析
5.1 實驗數(shù)據(jù)
本文實驗選自的數(shù)據(jù)集是NSL-KDD測試數(shù)據(jù)集,它是目前眾多公開數(shù)據(jù)集中公認的較為權(quán)威的入侵檢測數(shù)據(jù)集,NSL-KDD數(shù)據(jù)集是KDD 99數(shù)據(jù)集的子集,對KDD 99數(shù)據(jù)集做了精簡處理,它刪除了KDD 99數(shù)據(jù)集中的冗余數(shù)據(jù)記錄。NSL-KDD數(shù)據(jù)集包含了41個特征屬性和1個標簽屬性,標簽屬性分為Probe、DoS、U2R、R2L和Normal五種類型,其中前四種為異常數(shù)據(jù)類型,最后一種為正常數(shù)據(jù)類型。表1展示了本文實驗中不同攻擊在訓(xùn)練集和測試集上的分布情況。
5.2 實驗分析
NSL-KDD數(shù)據(jù)集中的數(shù)據(jù)是網(wǎng)絡(luò)中的真實數(shù)據(jù),數(shù)據(jù)類型比較繁雜且大部分都是連續(xù)的,因此在實驗前需要對NSL-KDD數(shù)據(jù)集進行預(yù)處理,把連續(xù)的數(shù)據(jù)離散化。將預(yù)處理后的數(shù)據(jù)分別導(dǎo)入傳統(tǒng)的PNN模型和本實驗改進的基于RS的PNN分類模型,表2展示了對NSL-KDD數(shù)據(jù)集進行檢測的分類效果對比結(jié)果。
從實驗中可以看出,本文改進的概率神經(jīng)網(wǎng)絡(luò)模型分類的準確性均高于傳統(tǒng)的概率神經(jīng)網(wǎng)絡(luò)模型,在一定程度上提高了數(shù)據(jù)分類的精確度。根據(jù)本文實驗的結(jié)果表明,本文提出的基于RS的PNN分類模型與傳統(tǒng)的PNN模型相比,有效提高了網(wǎng)絡(luò)安全態(tài)勢要素提取的準確性,實現(xiàn)了網(wǎng)絡(luò)安全態(tài)勢要素的高效提取。
6 結(jié)束語
本文將粗糙集(RS)理論與概率神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一種基于RS的概率神經(jīng)網(wǎng)絡(luò)態(tài)勢要素提取的分類模型,先是通過RS對態(tài)勢要素集合進行預(yù)處理,刪除冗余的態(tài)勢要素,降低數(shù)據(jù)集的冗余度,然后對約簡后的態(tài)勢要素數(shù)據(jù)集使用概率神經(jīng)網(wǎng)絡(luò)進行分類訓(xùn)練,從而實現(xiàn)了對態(tài)勢要素的高效精確提取,為后面網(wǎng)絡(luò)態(tài)勢的評估和預(yù)測提供了有效的數(shù)據(jù)支撐。實驗研究的結(jié)果表明,本文提出的基于RS的概率神經(jīng)網(wǎng)絡(luò)分類模型與傳統(tǒng)的概率神經(jīng)網(wǎng)絡(luò)模型相比,有效地提高了網(wǎng)絡(luò)安全態(tài)勢要素提取的速度和準確性,實現(xiàn)了網(wǎng)絡(luò)安全態(tài)勢要素的高效提取。但是,這種提取算法還有進一步完善和優(yōu)化的發(fā)展空間,就是著重于提高算法的運行效率。因此,算法的運行效率將是下一步學(xué)術(shù)研究工作的重點。
基金項目:
1.國家自然科學(xué)基金項目(項目編號:61302159);
2.國家自然科學(xué)基金項目(項目編號:61379151);
3.國家自然科學(xué)基金項目(項目編號:61272489);
4.國家自然科學(xué)基金項目(項目編號:61602508);
5.國家自然科學(xué)基金項目(項目編號:61772549);
6.國家自然科學(xué)基金聯(lián)合重點項目(項目編號:U1804263)。
參考文獻
[1] Jolliffe I T, Cadima J. Principal component analysis: a review and recent developments[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2016, 374(2065): 20150202.
[2] Li H, Kluger Y, Tygert M. Randomized algorithms for distributed computation of principal component analysis and singular value decomposition[J]. Advances in Computational Mathematics, 2018, 44(5): 1651-1672.
[3] Mac Parthalain N, Jensen R, Diao R. Fuzzy-rough set bireducts for data reduction[J]. IEEE Transactions on Fuzzy Systems, 2019.
[4] Kotsiantis S B. Decision trees: a recent overview[J]. Artificial Intelligence Review, 2013, 39(4): 261-283.
[5] Mihaljevi? B, Bielza C, Larra?aga P. bnclassify: Learning Bayesian Network Classifiers[J]. 2019.
[6] Walczak S. Artificial neural networks[M]//Advanced Methodologies and Technologies in Artificial Intelligence, Computer Simulation, and Human-Computer Interaction. IGI Global, 2019: 40-53.
[7] Cortes C, Vapnik V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[8] Kotsiantis S, Kanellopoulos D. Association rules mining: A recent overview[J]. GESTS International Transactions on Computer Science and Engineering, 2006, 32(1): 71-82.
[9] Bass T. Intrusion detection systems and multisensor data fusion[J]. Communications of the ACM, 2000, 43(4): 99-105.
[10] Loh P K K, Subramanian D. Fuzzy classification metrics for scanner assessment and vulnerability reporting[J]. IEEE Transactions on Information Forensics and security, 2010, 5(4): 613-624.
[11] Lau S. The spinning cube of potential doom[J]. Communications of the ACM, 2004, 47(6): 25-26.
[12] Householder A D, Seacord R C. A Structured Approach to Classifying Security Vulnerabilities[J]. paper, CMU/SEI-2005-TN-003, 2005.
[13] 戚犇,王夢迪.基于信息增益的貝葉斯態(tài)勢要素提取[J].信息網(wǎng)絡(luò)安全,2017(09):54-57.
[14] 賴積保,王慧強,鄭逢斌,馮光升.基于DSimC和EWDS的網(wǎng)絡(luò)安全態(tài)勢要素提取方法[J].計算機科學(xué),2010,37(11):64-69+77.
作者簡介:
常鎰恒(1995-),男,漢族,河南洛陽人,鄭州輕工業(yè)大學(xué),碩士;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全態(tài)勢感知。
馬照瑞(1978-),男,漢族,河南輝縣人,解放軍信息工程大學(xué),博士,鄭州輕工業(yè)大學(xué),高級工程師;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)安全、人工智能。
李霞(1962-),女,漢族,河南濟源人,華中科技大學(xué),碩士,鄭州輕工業(yè)大學(xué),教授;主要研究方向和關(guān)注領(lǐng)域:計算機網(wǎng)絡(luò)、教育大數(shù)據(jù)。
鞏道福(1984-),男,漢族,山東淄博人,解放軍信息工程大學(xué),博士,中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué),講師;主要研究方向和關(guān)注領(lǐng)域:網(wǎng)絡(luò)態(tài)勢感知。