摘要:傳統(tǒng)的網(wǎng)絡(luò)安全檢測技術(shù)難以解決新網(wǎng)絡(luò)流量無標(biāo)簽、未知攻擊以及標(biāo)簽稀缺等問題。為此,將人工智能技術(shù)應(yīng)用到上述場景的網(wǎng)絡(luò)安全入侵檢測中,使用無標(biāo)簽網(wǎng)絡(luò)安全檢測方案解決目標(biāo)網(wǎng)絡(luò)域和源網(wǎng)絡(luò)域間特征分布不同的問題。針對未知網(wǎng)絡(luò)攻擊的問題構(gòu)建一個未知攻擊網(wǎng)絡(luò)安全檢測模型,針對標(biāo)簽稀缺問題將半監(jiān)督學(xué)習(xí)和主動學(xué)技術(shù)結(jié)合起來,構(gòu)建一種標(biāo)簽稀缺網(wǎng)絡(luò)安全檢測算法。
關(guān)鍵詞:網(wǎng)絡(luò)安全人工智能入侵檢測數(shù)據(jù)集
中圖分類號:TP18
ResearchontheApplicationofArtificialIntelligenceTechnologyinNetworkSecurityDetection
GUOLijuan
YiyangOpenUniversity,Yiyang,HunanProvince,413000China
Abstract:Traditionalnetworksecuritydetectiontechnologiesaredifficulttosolvetheproblemsofunlabelednewnetworktraffic,unknownattacksandlabelscarcity.Therefore,artificialintelligencetechnologyisappliedtothenetworksecurityintrusiondetectionofabovescenarios,andunlabelednetworksecuritydetectionsolutionsareusedtosolvetheproblemofthedifferentfeaturedistributionsbetweenthetarget&nb1c2e779a5d5ead574d1f02f54af16e774f364a2f3268528a28fc568c6aefa6efsp;networkdomainandthesourcenetworkdomain.Fortheproblemofunknownnetworkattacks,anetworksecuritydetectionmodelforunknownattacksisconstructed,andfortheproblemoflabelscarcity,semi-supervisedlearningandactivelearningtechniquesarecombinedtoconstructanetworksecuritydetectionalgorithmforlabelscarcity.
KeyWords:Networksecurity;Artificialintelligence;Intrusiondetection;Dataset
隨著云計算、容器等新興技術(shù)的發(fā)展,計算機(jī)網(wǎng)絡(luò)攻擊也向著智能化、平臺化發(fā)展,傳統(tǒng)的網(wǎng)絡(luò)安全技術(shù)在檢測新型網(wǎng)絡(luò)攻擊行為時通常會存在檢測準(zhǔn)確率低、行為特征提取精度差等問題[1]。
入侵檢測是一種網(wǎng)絡(luò)安全檢測技術(shù),其目的是通過對網(wǎng)絡(luò)流量的分析來檢測到對計算機(jī)網(wǎng)絡(luò)的非法訪問。入侵檢測系統(tǒng)主要用于檢測計算機(jī)網(wǎng)絡(luò)中的惡意行為,并盡可能地阻止端口掃描等可能威脅計算機(jī)網(wǎng)絡(luò)安全的行為。入侵檢測系統(tǒng)通??梢詤^(qū)別來自系統(tǒng)內(nèi)、外的攻擊,為了達(dá)到這一目的,需要對網(wǎng)絡(luò)包進(jìn)行特殊的拆分及組裝操作。
傳統(tǒng)的入侵檢測技術(shù)在訓(xùn)練及測試數(shù)據(jù)集時都是遵循相同分布的條件建立的,但由于計算機(jī)網(wǎng)絡(luò)環(huán)境復(fù)雜多變,即使網(wǎng)絡(luò)環(huán)境出現(xiàn)細(xì)微的改變都會導(dǎo)致已有的入侵檢測模型無法適應(yīng)[2]。隨著新型網(wǎng)絡(luò)攻擊的不斷出現(xiàn),傳統(tǒng)入侵檢測技術(shù)對其也力不從心,對已有惡意樣本提取的特征難以適用于未知或新出現(xiàn)的惡意樣本。因此,無標(biāo)簽問題或者標(biāo)簽稀缺問題都是網(wǎng)絡(luò)入侵檢測中的難點(diǎn)。
人工智能和網(wǎng)絡(luò)技術(shù)的結(jié)合已經(jīng)滲透到計算機(jī)的各個子領(lǐng)域,將人工智能和網(wǎng)絡(luò)入侵檢測技術(shù)結(jié)合起來勢必能夠解決一些網(wǎng)絡(luò)安全領(lǐng)域中存在的安全問題。
1無標(biāo)簽網(wǎng)絡(luò)安全檢測
傳統(tǒng)的網(wǎng)絡(luò)安全檢測技術(shù)需要一個前提,即訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集需要有相同的特征分布,然而如果網(wǎng)絡(luò)環(huán)境發(fā)生變化傳統(tǒng)的檢測技術(shù)將不再適用[3]。為解決這一問題,本文提出一種無標(biāo)簽網(wǎng)絡(luò)安全檢測方案。
1.1數(shù)據(jù)集及數(shù)據(jù)處理
無標(biāo)簽網(wǎng)絡(luò)安全檢測方案的目標(biāo)是解決目標(biāo)域(新網(wǎng)絡(luò)數(shù)據(jù))和源域(訓(xùn)練網(wǎng)絡(luò)數(shù)據(jù))之間特征分布不同的問題,所以兩個域要使用不同的數(shù)據(jù)集。本文選擇CICIDS2017數(shù)據(jù)集和KDD99數(shù)據(jù)集。
CICIDS2017數(shù)據(jù)集不僅包含正常的網(wǎng)絡(luò)流量,還包括目前常見的攻擊流量,而且附有真實網(wǎng)絡(luò)環(huán)境中的pcap文件數(shù)據(jù),pcap文件數(shù)據(jù)根據(jù)捕獲的數(shù)據(jù)流打了標(biāo)簽。本文在檢測過程中發(fā)現(xiàn)如果CICIDS2017數(shù)據(jù)集包含所有攻擊種類可能會發(fā)生負(fù)遷移現(xiàn)象,因此本文將其分成3個子數(shù)據(jù)集,每個子數(shù)據(jù)集包含不同的攻擊類型。KDD99數(shù)據(jù)集包含大量的攻擊流量,其中的數(shù)據(jù)都來自真實網(wǎng)絡(luò)流量,基本能夠反映真實網(wǎng)絡(luò)情況。
CICIDS2017數(shù)據(jù)集是以pcap文件形式存在的,所以不能直接使用模型進(jìn)行訓(xùn)練,需要先對其進(jìn)行預(yù)處理。本文使用基于flow的流量原始特征分類方法[4],將pcap文件中具有相同五元組的網(wǎng)絡(luò)包劃分成為一條flow。網(wǎng)絡(luò)包中Ethernet層的幾個字段是基于硬件本身特征而不是網(wǎng)絡(luò)流量特征,因此本文的數(shù)據(jù)不使用此層信息;網(wǎng)絡(luò)包中網(wǎng)絡(luò)層的tcpversion及differentiatedservices字段一般都是固定的,對網(wǎng)絡(luò)包分類并無幫助,所以本文僅使用網(wǎng)絡(luò)層的其余字段。這樣一來每條flow就能夠提取到具有41個特征維度進(jìn)行后續(xù)檢測。
網(wǎng)絡(luò)流量的原始數(shù)據(jù)中含有影響安全檢測精度的噪聲,因此需要經(jīng)過均值移除、范圍縮放以及歸一化預(yù)處理。其中均值移除會把每個樣本數(shù)據(jù)的特征值減去樣本所有特征的均值,其作用是消除不同數(shù)據(jù)樣本特征間的偏差;范圍縮放把不同單位的樣本特征按照比例進(jìn)行放大或縮小,以削弱不同樣本特征間大幅度變化產(chǎn)生的檢測精度影響;歸一化作用是統(tǒng)一所有樣本特征的統(tǒng)計分布,從而消除奇異樣本產(chǎn)生的誤差。
1.2檢測模型
假設(shè)已經(jīng)標(biāo)記標(biāo)簽的源域網(wǎng)絡(luò)流量數(shù)據(jù)集DS的特征輸入為XS,對應(yīng)的標(biāo)簽集合YS,目標(biāo)域網(wǎng)絡(luò)流量數(shù)據(jù)集DT的特征輸入為XT,對應(yīng)樣本標(biāo)簽未知。由于源域網(wǎng)絡(luò)和目標(biāo)域網(wǎng)絡(luò)的特征分布不同,因此無法通過訓(xùn)練源域模型來進(jìn)行目標(biāo)域的網(wǎng)絡(luò)安全檢測。本文的解決思路是找到一個數(shù)學(xué)變換,使得源域流量數(shù)據(jù)可以近似轉(zhuǎn)換為目標(biāo)域流量數(shù)據(jù),這樣就可以借助源域網(wǎng)絡(luò)流量數(shù)據(jù)及對應(yīng)的標(biāo)簽得到的分類器對目標(biāo)域網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行分類,從而檢測其中的異常網(wǎng)絡(luò)流量,這種網(wǎng)絡(luò)安全入侵檢測模型流程如圖1所示。
源域到目標(biāo)域數(shù)學(xué)變換的本質(zhì)就是找到二者特征分布之間的最小距離,根據(jù)劉莉[5]的研究,本文使用如下變換公式:
其中n1和n2分別是源域和目標(biāo)域網(wǎng)絡(luò)的樣本數(shù)。
如此一來,計算出源域和目標(biāo)域特征分布之間的最小距離,就可以借助源域訓(xùn)練好的分類器對目標(biāo)域無標(biāo)簽數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)異常流量檢測。
2未知攻擊網(wǎng)絡(luò)安全檢測
目前還沒有專門針對未知網(wǎng)絡(luò)攻擊的有效數(shù)據(jù)集,為有效檢測未知網(wǎng)絡(luò)攻擊,本文使用CICIDS2017數(shù)據(jù)集與CTU數(shù)據(jù)集構(gòu)造專門用于未知網(wǎng)絡(luò)攻擊的數(shù)據(jù)集,來構(gòu)建一個未知攻擊網(wǎng)絡(luò)安全檢測模型——NewCNN。
2.1數(shù)據(jù)集及數(shù)據(jù)處理
CTU網(wǎng)絡(luò)流量數(shù)據(jù)集中包含了大量的攻擊流量,其目標(biāo)是對混雜了正常流量的異常流量網(wǎng)絡(luò)進(jìn)行大規(guī)模捕獲。此數(shù)據(jù)集中包含了若干不同的異常流量樣本場景,如果某網(wǎng)絡(luò)訪問行為符合特定場景就可以認(rèn)為是存在惡意入侵行為。
本文隨機(jī)選擇CPU數(shù)據(jù)集中的正常流量以及8種類型的攻擊,作為訓(xùn)練NewCNN模型的已知類,CPU數(shù)據(jù)集中其他未被選擇的攻擊被視為未知攻擊。另外,為增加攻擊來源還選擇了CICIDS2017數(shù)據(jù)集中的4種攻擊類型作為未知攻擊。為保證NewCNN模型評估結(jié)果的客觀性,在進(jìn)行實驗前對未知攻擊進(jìn)行了下采樣處理。
數(shù)據(jù)預(yù)處理時也采用基于flow的流量原始特征分類方法,先將具有相同五元組的網(wǎng)絡(luò)包劃分到一個flow,再借助splitcap切分flow,然后從中提取原始流量特征。實驗中發(fā)現(xiàn)流量特征轉(zhuǎn)換為40×40的灰度圖時,能夠最大程度地區(qū)分不同流量,因此本文選擇將流量特征轉(zhuǎn)換為40×40的灰度圖進(jìn)行可視化處理。
2.2檢測模型
NewCNN模型的基本思想是借助已知的正常網(wǎng)絡(luò)流量和攻擊流量數(shù)據(jù)來訓(xùn)練模型,并將訓(xùn)練數(shù)據(jù)集中從未出現(xiàn)的未知攻擊樣本劃分成未知類。由于未知流量的標(biāo)簽向量無法包含所有的未知類別,因此就需要設(shè)置一個閾值并將超過此閾值的流量標(biāo)記為入侵流量。威布爾(Weibull)分布滿足數(shù)據(jù)未知類型多樣性的情形,這完全滿足入侵檢測的場景。
NewCNN模型實際上是一個M+1的類分類模型,也就是通過M個已知訓(xùn)練類來得到1個未知類。模型中使用了兩個卷積層對原始數(shù)據(jù)進(jìn)行特征提取,第一層采用5×5的卷積核,第二層采用3×3的卷積核,然后連接了兩個全連接層。為了防止在檢測過程中出現(xiàn)過擬合,模型中還使用dropout操作使全連接層的部分神經(jīng)元失活。最后,將威布爾分布應(yīng)用到最后一層全連接層的激活向量,并使用OpenMax函數(shù)輸出包含未知類別攻擊流量的概率。NewCNN模型用于未知攻擊網(wǎng)絡(luò)流量檢測的過程如圖2所示。
在對NewCNN模型和傳統(tǒng)的CNN模型對未知攻擊的檢測進(jìn)行比對后,得到如表1所示的檢測準(zhǔn)確度結(jié)果。
從表1可以明顯看出,和傳統(tǒng)CNN模型相比,NewCNN模型的檢測準(zhǔn)確度有了明顯提高。
3標(biāo)簽稀缺網(wǎng)絡(luò)安全檢測
目前對于網(wǎng)絡(luò)流量中樣本稀缺問題通常的解決方案是借助半監(jiān)督學(xué)習(xí)或者主動學(xué)習(xí)技術(shù),其中半監(jiān)督學(xué)習(xí)無須人工標(biāo)注,直接使用學(xué)習(xí)器自動對未標(biāo)注樣本進(jìn)行標(biāo)注即可;主動學(xué)習(xí)會根據(jù)一定標(biāo)準(zhǔn)挑選出信息量最豐富的樣本進(jìn)行人工標(biāo)注。本文將半監(jiān)督學(xué)習(xí)和主動學(xué)技術(shù)結(jié)合起來,構(gòu)建一種標(biāo)簽稀缺網(wǎng)絡(luò)安全檢測算法。
主動學(xué)習(xí)的目標(biāo)是僅從目標(biāo)域的所有未標(biāo)記樣本中選擇信息量高的樣本進(jìn)行人工標(biāo)注,從而以更低的人工標(biāo)記成本實現(xiàn)較高的檢測性能;半監(jiān)督學(xué)習(xí)的思想是借助訓(xùn)練集中有標(biāo)簽數(shù)據(jù)訓(xùn)練出的模型對無標(biāo)簽數(shù)據(jù)打標(biāo)簽(偽標(biāo)簽),然后將這樣的偽標(biāo)簽作為訓(xùn)練集的一部分繼續(xù)訓(xùn)練,直到?jīng)]有無標(biāo)簽數(shù)據(jù)。基于主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的思路,本文構(gòu)建的標(biāo)簽稀缺網(wǎng)絡(luò)安全檢測算法主要步驟是:(1)使用主動學(xué)習(xí)技術(shù)進(jìn)行標(biāo)注時,首先為主動學(xué)習(xí)設(shè)置一個樣本挑選閾值下限,然后僅對分類預(yù)測概率最大和第二大的差值小于閾值下限的樣本進(jìn)行打標(biāo)簽操作,不滿足閾值的樣本直接丟棄;(2)半監(jiān)督學(xué)習(xí)設(shè)置閾值上限,將上一步人工標(biāo)記的樣本作為新的有標(biāo)記數(shù)據(jù),所有的有標(biāo)簽數(shù)據(jù)重新進(jìn)行訓(xùn)練;(3)有標(biāo)簽數(shù)據(jù)從未標(biāo)記樣本集中刪除;(4)迭代上述過程,直到不存在無標(biāo)簽數(shù)據(jù)。
實際檢測時本文選擇CICIDS2017數(shù)據(jù)集和CTU數(shù)據(jù)集,共進(jìn)行了3種類型的實驗:(1)使用主動學(xué)習(xí)算法,選擇滿足最小閾值的信息量豐富的樣本,然后對測試集檢測;(2)使用半監(jiān)督學(xué)習(xí)算法,選擇預(yù)測概率滿足閾值的樣本和對應(yīng)的偽標(biāo)簽進(jìn)行檢測;(3)使用本文提出的集合了主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的檢測算法,共同從未標(biāo)記樣本中選擇樣本進(jìn)行檢測。通過對比這3種類型實驗的結(jié)果發(fā)現(xiàn),結(jié)合了主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的標(biāo)簽稀缺網(wǎng)絡(luò)安全檢測算法在準(zhǔn)確率、精確度以及召回率上都比傳統(tǒng)的檢測算法具有更好的效果。
4結(jié)語
本文將人工智能技術(shù)應(yīng)用到網(wǎng)絡(luò)安全入侵檢測中,針對新的網(wǎng)絡(luò)流量數(shù)據(jù)沒有標(biāo)簽、標(biāo)簽數(shù)據(jù)稀缺以及未知網(wǎng)絡(luò)攻擊的問題,分別提出對應(yīng)的檢測方案,使用基于人工智能的網(wǎng)絡(luò)安全檢測技術(shù),解決了異構(gòu)網(wǎng)絡(luò)間的異常檢測;在標(biāo)簽數(shù)據(jù)稀缺時融合了主動學(xué)習(xí)和半監(jiān)督學(xué)習(xí)技術(shù),能夠顯著提高入侵檢測的效果。
參考文獻(xiàn)
[1]王皓陽.基于區(qū)塊鏈技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)安全治理探究[J].網(wǎng)絡(luò)空間安全,2024(2):113-117.
[2]孫瑜.基于大數(shù)據(jù)及人工智能技術(shù)的計算機(jī)網(wǎng)絡(luò)安全防御系統(tǒng)設(shè)計分析[J].網(wǎng)絡(luò)安全和信息化,2024(2):143-145.
[3]耿倩.人工智能技術(shù)在大數(shù)據(jù)網(wǎng)絡(luò)安全防御中的運(yùn)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023(12):164-166.
[4]樊華.人工智能技術(shù)在大數(shù)據(jù)網(wǎng)絡(luò)安全防御中的應(yīng)用[J].中國高新科技,2023(11):50-52.
[5]劉莉.基于人工智能技術(shù)的計算機(jī)網(wǎng)絡(luò)安全防御系統(tǒng)設(shè)計[J].辦公自動化,2023(6):19-21.