蒲天銀等
摘 要: 網(wǎng)絡(luò)攻擊特征提取技術(shù)層出不窮,是當前網(wǎng)絡(luò)信息安全問題研究的熱點。分析了當前各種網(wǎng)絡(luò)攻擊特征提取技術(shù),重點闡述了特征提取技術(shù)的理想步驟、當前發(fā)展狀態(tài)以及存在的問題;在總結(jié)相關(guān)算法的基礎(chǔ)上,提出了一種噪聲過濾算法以優(yōu)化特征的提??;通過深入分析和綜合驗證,證明此算法有一定的可行性及應(yīng)用價值。
關(guān)鍵詞: 網(wǎng)絡(luò)攻擊; 特征提??; 過濾; 算法
中圖分類號:TP311.134.3 文獻標志碼:A 文章編號:1006-8228(2014)04-43-02
Abstract: The network attack feature extraction techniques are various and develop quickly, It becomes a hot research topic. The current variety of feature extraction techniques is analyzed. The ideal step of feature extraction technology, the current development status and the exiting problems are mainly discussed. Based on having summarized relative algorithms, a new noise filtering algorithm to optimize feature extraction is introduced. The analysis result after comprehensive validation shows that the algorithm has certain feasibility and application value.
Key words: network attacks; feature extraction; filtration; algorithm
0 引言
目前,網(wǎng)絡(luò)攻擊防御技術(shù)的研究有很多,攻擊特征提取技術(shù)就是研究入侵檢測技術(shù)的一大熱門方向,早在2003年Kreibich等提出了第一個攻擊特征自動提取系統(tǒng)Honeycombt[1]。
攻擊特征自動提取技術(shù)其涵義很清楚,主要體現(xiàn)的問題是特征分析與自動提取,其中自動提取又分為兩步完成:攻擊發(fā)現(xiàn)和特征提取。
因為攻擊的不確定性,所以攻擊發(fā)現(xiàn)是目前網(wǎng)絡(luò)攻擊中處理較為困難的問題,這對后面的特征提取造成了困難,只有解決攻擊發(fā)現(xiàn),特征提取才有價值,否則提取的特征沒有任何意義和價值。
在很多的攻擊防護系統(tǒng)中,將攻擊特征作為主核心問題研究,通常情況下,攻擊特征提取系統(tǒng)發(fā)現(xiàn)新攻擊的能力強,可以縮短樣本捕獲時間,但是這些系統(tǒng)中對樣本捕獲時間也受攻擊本身屬性的影響,例如傳播越快的蠕蟲越容易被捕獲到樣本。而高效的特征提取方法可以有效減少特征提取時間,因此,目前研究的重心是如何設(shè)計有效而計算開銷小的特征提取方法,減少特征提取時間[2]。
序列比對技術(shù)是參照生物序列引用特征提取技術(shù),在生物界的研究中較為廣泛,這種技術(shù)是將幾條序列通過比較和適當?shù)目瘴徊迦耄瑯?gòu)建一個使得相似性度量函數(shù)S(A)達到最大的比對序列A,從而達到發(fā)現(xiàn)序列之間的相似性和能辨別序列的差異兩個目的。
1 攻擊特征提取基本步驟
目前,按照信息處理流程,一個比較完善的攻擊特征提取技術(shù)應(yīng)該由如下步驟完成,即:攻擊樣本獲取、去除噪聲、攻擊聚類、特征提取、特征負選擇、特征正選擇、特征歸并和特征應(yīng)用八個組成[3]。而傳統(tǒng)的攻擊特征提取技術(shù)基本上都不考慮噪聲過濾問題。因此,對特征提取精確度的問題一直是研究的瓶頸。
攻擊樣本獲取:完成從大量的網(wǎng)絡(luò)數(shù)據(jù)中分辨出可疑(即可能是攻擊)的數(shù)據(jù)流,同時完成報文碎片重組、TCP流重組等。
去除噪聲:盡可能去除可疑數(shù)據(jù)流庫中那些不是攻擊樣本的數(shù)據(jù)流(稱之為噪聲),從而提高可疑數(shù)據(jù)流庫中攻擊樣本的純度。
攻擊聚類:由于可疑數(shù)據(jù)流庫中的樣本可能來自于多個攻擊,攻擊聚類部件的作用是將來自同一攻擊的數(shù)據(jù)流聚為一類,從而利于下一步的特征提取。
特征提?。菏菑目梢蓴?shù)據(jù)流中提取出攻擊特征。
特征負選擇:從候選特征庫中刪除那些可能會導(dǎo)致嚴重誤報的規(guī)則。
特征正選擇:從候選規(guī)則庫中選擇可信度高、檢測率高的特征,將之提交給IDS特征歸并部件.該部件的作用是去除冗余的特征。
特征應(yīng)用:是將攻擊特征轉(zhuǎn)化為IDS的檢測規(guī)則,并應(yīng)用到IDS中用于檢測。
網(wǎng)絡(luò)攻擊特征提取技術(shù)獲取的樣本不外乎有三種情況:一是獲取的某個新攻擊數(shù)據(jù)流,這個數(shù)據(jù)流本身就不含噪聲;二是獲取的新攻擊中含有噪聲;三是獲取的樣本呈混合狀,可能還含有噪聲,甚至可能含有攻擊者惡意產(chǎn)生的樣本。以上情況中第一種是最理想的,這種情況在現(xiàn)代網(wǎng)絡(luò)攻擊防范技術(shù)中基本上不存在,第二、三種是較為麻煩的,這種情況下除噪環(huán)節(jié)就顯得尤為重要。
2 算法描述
現(xiàn)在噪聲消除應(yīng)用比較多,但應(yīng)用最廣泛的是圖像噪聲去除,以及圖像的獲取、傳輸與脈沖噪聲處理等[4]。在網(wǎng)絡(luò)攻擊取樣中進行噪聲去除的研究已取得了一定的成果,如文獻[3,5],作者就在特征提取技術(shù)中引入了噪聲去除的算法研究。我們基于作者提出的思想,對其進行了一定的改進。
2.1 算法基本思想
該噪聲消除算法的基本思想是:把攻擊樣本獲取樣本作為[m*n]的一矩陣,然后逐步對矩陣進行掃描。
首先判斷哪一部分字符(矩陣中列)可能是目標攻擊中的不變字節(jié)。具體的做法是,將那些在獲取結(jié)果的同一列中出現(xiàn)頻率超過一定值的字符當成不變字節(jié),這個值假設(shè)為x;然后,在這個不變字節(jié)集合范圍內(nèi),找到不變字節(jié)數(shù)最少的x個序列作為噪聲。
這項工作相對麻煩一些,要求在對多序列進行配對時,總體目標是得到全局一致性最高的解,也就是使盡可能多的相同字符都能夠匹配(對齊)在同一列中。在實際應(yīng)用中,少量的噪聲并不會影響全局結(jié)果,也就不會影響目標攻擊樣本中大多數(shù)特征片段的對齊。但如果能對噪聲進行過濾處理,那么會使特征發(fā)現(xiàn)的精確度上一個很高的臺階。
2.2 算法實現(xiàn)
給定x(x>=3)個序列,我們定義噪聲容忍度小于1,并且在這x個序列中選擇[x,θ](這里假設(shè)θ為容忍度)個序列作為噪聲而過濾掉。剩下的x-[x,θ]個序列將被當作樣本,然后再利用這些樣本輸出最終的攻擊特征。
算法描述:
標準輸入:將x個序列逐步輸入A,虛擬作(x×N)的矩陣進行操作,以此作為S=(s1,s2,…,sk)中x個序列的聯(lián)配結(jié)果。
理想輸出:通過分析將噪聲作為保留值集合N,使得序列更純靜;
這里需要一個假設(shè)參數(shù)值,即噪聲容忍度θ,0≤θ≤l;
具體算法主要分三步進行,具體描述如下:
step1:確定變形攻擊中的不變字節(jié)
for each i∈{1,2…,N} do
for each c∈∑do
ni,c←第i列中值為c的字符數(shù)目;
fi,c←ni,c/k
end;
end
for each i∈{1,2…,N} do
Fi←;
if Fi>=1-θ then
Ii←c其中c是使得Fi=fi,c的字符;
else Ii←φ *Ii不是一個不變字節(jié)
end
step2:確定噪聲
for each si∈S do *統(tǒng)計這個序列中包含了多少個不變字節(jié)
invbyt(s)←滿足Ai,j=Ii的Ai,j[1,N]的數(shù)目;
end
step3:噪聲入列
選擇包含不變字節(jié)數(shù)最少的[x,θ]個序列作為噪聲
for i=1 to [x,θ] do
si是滿足下列條件的一個序列:si∈S/N,并且對于任何其他的s/∈S/N
invbyt(si)<=invByt(s/);
N←N∪{si};
end
step4. return N;
2.3 算法分析
通過上述算法描述可知,此算法的關(guān)鍵是噪聲容忍度θ的選取,而為θ指定一個固定值可能是不恰當?shù)?。如果這個值太小,一些噪聲可能不會被過濾掉,從而影響最后提取的噪聲的質(zhì)量;相反,如果這個值本身不太大,但是相對于序列(樣本加噪聲)的總數(shù)來說太大,便會發(fā)生一些樣本被當作噪聲被過濾掉而剩下的樣本數(shù)量太少的情況,使得利用剩下的樣本產(chǎn)生的特征不夠準確。
該算法主要具有如下優(yōu)點:①特征提取的準確性優(yōu)于或接近于其他方法;②具有良好的抗噪能力;③該方法產(chǎn)生的正則表達式特征可以直接應(yīng)用于現(xiàn)有主流的IDS時間復(fù)雜度分析。從上述算法可以看出此算法的2*O(N2L2)總體來講有點偏高,但算法有良好的可并行性,能提高該方法的性能,減少空間開銷,值得推薦應(yīng)用。
3 結(jié)束語
對于網(wǎng)絡(luò)攻擊特征提取方法而言,近幾年的研究得到了很多突出的成果,這些成果僅僅圍繞攻擊發(fā)現(xiàn)和特征提取兩個核心問題,通常認為只要攻擊樣本質(zhì)量高并能夠正確聚類,便可以提取出高質(zhì)量的特征。因此,研究的關(guān)鍵在于如何獲得高質(zhì)量的攻擊樣本,如何得出準確的特征信息而不產(chǎn)生誤報信息。對于特征信息去噪問題的研究,目前已能開發(fā)出在線部署實時工作,提取特征準確,且特征能夠自動應(yīng)用的實用攻擊特征提取系統(tǒng),但是在很多細節(jié)問題上仍然遇到許多困難,需要進一步深入研究。
參考文獻:
[1] KREIBICH C.CROWCROFT J Honeycomb-creating intrusion detection signatures using honeypots,2003.
[2] 秦拯,尹顏,陳飛揚等.基于序列比對的攻擊特征自動提取方法[J].湖南大學(xué)學(xué)報(自然科學(xué)版),2008.6:77-81
[3] 唐勇,盧錫城,王勇軍.攻擊特征自動提取技術(shù)綜述[J].通信學(xué)報,2009:296-105
[4] 耿強.基于細節(jié)保存的圖像深度脈沖噪聲去除算法[J].科技通報,2012.12:217-222
[5] 唐勇.基于網(wǎng)絡(luò)的攻擊特征自動提取技術(shù)研究[D].國防科技大學(xué),2008.