周 亮
(中移鐵通湖南分公司云數(shù)據(jù)支撐中心 長沙 412006)
隨著國際互聯(lián)網(wǎng)絡(luò)的發(fā)展,計(jì)算機(jī)聯(lián)網(wǎng)數(shù)量在飛速增加,黑客、病毒和木馬已經(jīng)呈現(xiàn)出爆發(fā)式增長模式[1],安全攻擊呈現(xiàn)出新特點(diǎn),網(wǎng)絡(luò)的安全性越來越受到重視[2~4]。由于計(jì)算機(jī)系統(tǒng)和信息網(wǎng)絡(luò)系統(tǒng)本身固有的脆弱性[5],越來越多的網(wǎng)絡(luò)安全問題開始困擾著我們,黑客入侵和病毒蔓延的趨勢有增無減,社會、企業(yè)和個人也因此蒙受了越來越大的損失。傳統(tǒng)的安全保護(hù)類技術(shù)已經(jīng)無法滿足當(dāng)前的需求。網(wǎng)絡(luò)安全主動防御系統(tǒng)[6]是一種更深層次上進(jìn)行的主動網(wǎng)絡(luò)安全防御措施,它不僅可以通過監(jiān)測網(wǎng)絡(luò)實(shí)現(xiàn)對內(nèi)部攻擊、外部入侵和誤操作的實(shí)時保護(hù),有效彌補(bǔ)防火墻的不足,而且能夠結(jié)合其他網(wǎng)絡(luò)安全產(chǎn)品,對網(wǎng)絡(luò)安全進(jìn)行主動、實(shí)時的全方位保護(hù)。主動防御[7]是一種前攝性防御,由于一些防御措施的實(shí)施,使攻擊者無法完成對目標(biāo)的攻擊,或者使系統(tǒng)能夠在無需人為被動響應(yīng)的情況下預(yù)防安全事件。主動防御將使網(wǎng)絡(luò)安全防護(hù)進(jìn)入一個全新的階段,也被認(rèn)為是未來網(wǎng)絡(luò)安全防護(hù)技術(shù)的發(fā)展方向。而主動防御的核心模塊就是文件監(jiān)控[8],通過文件監(jiān)控實(shí)時的監(jiān)控系統(tǒng)可疑文件的操作,能夠做到對病毒的防御。
針對上述問題,本文將介紹一種基于改進(jìn)貝葉斯算法的文件監(jiān)控系統(tǒng)。該系統(tǒng)實(shí)時監(jiān)控所有的文件操作,并將可疑的文件行為進(jìn)行分析評判。通過對傳統(tǒng)的貝葉斯算法進(jìn)行改進(jìn),提出一種基于加權(quán)的貝葉斯算法,在一定程度上彌補(bǔ)了傳統(tǒng)貝葉斯算法在假設(shè)各特征向量無關(guān)聯(lián)的偏差,提高了評判的準(zhǔn)確性。
本文提出的文件監(jiān)控系統(tǒng)通過在驅(qū)動級捕捉文件的IO操作,并根據(jù)這個IO操作來判斷這些文件的危險性。文件監(jiān)控整體邏輯如圖1所示,文件監(jiān)控主要由驅(qū)動檢測模塊、行為分析模塊以及查殺模塊組成。驅(qū)動檢測模塊工作在驅(qū)動層,實(shí)時監(jiān)控整個驅(qū)動層,并且捕捉文件的IO操作,經(jīng)過過濾后把進(jìn)入系統(tǒng)的可疑文件的行為信息以特征向量的形式上傳到行為分析模塊。行為分析模塊工作在應(yīng)用層,行為分析模塊接收到驅(qū)動傳遞上來的行為特征向量之后,首先會與行為特征庫進(jìn)行比對,比對成功,把病毒信息返回給驅(qū)動;比對不成功則調(diào)用行為分析算法進(jìn)行進(jìn)一步分析,若判定為病毒,則把結(jié)果返回給驅(qū)動模塊。驅(qū)動模塊拿到分析的結(jié)果后,調(diào)用查殺模塊對病毒文件進(jìn)行隔離處理,本文側(cè)重于介紹文件監(jiān)控,對查殺模塊不做介紹。
圖1 文件監(jiān)控整體流程
病毒作為一種程序,想要在操作系統(tǒng)中獲取用戶信息,都必須調(diào)用操作系統(tǒng)提供的各種功能函數(shù)才能達(dá)到傳播自身和破壞系統(tǒng)的目的[9]。而系統(tǒng)API對系統(tǒng)文件進(jìn)行的讀寫操作,都會有IO操作傳遞到驅(qū)動模塊[10]。因此驅(qū)動檢測模塊就利用病毒調(diào)用系統(tǒng)API的一系列行為提取出特征。同時,驅(qū)動會把正常的文件操作過濾掉,把可疑的或者無法確定的文件行為以特征向量的形式上傳給行為分析模塊,由該模塊作進(jìn)一步確定。
Windows所有驅(qū)動程序都是IRP包驅(qū)動的[11]。IRP的全名是I/O Request Package,即輸入輸出請求包,它是Windows內(nèi)核中的一種非常重要的數(shù)據(jù)結(jié)構(gòu)。上層應(yīng)用程序與底層驅(qū)動程序通信時,應(yīng)用程序會發(fā)出I/O請求,操作系統(tǒng)將相應(yīng)的I/O請求轉(zhuǎn)換成相應(yīng)的IRP,不同的IRP會根據(jù)類型被分派到不同的派遣例程中進(jìn)行處理。病毒進(jìn)行攻擊時,調(diào)用系統(tǒng)API進(jìn)行的文件操作都會是對系統(tǒng)文件的讀寫,而這些讀寫都會存放在IRP中,并下發(fā)到底層驅(qū)動。驅(qū)動檢測模塊可以對下發(fā)IRP包進(jìn)行監(jiān)聽和攔截,然后對這些信息按照定好的規(guī)則進(jìn)行分析,把不符合規(guī)則的文件信息上傳到分析模塊。
行為分析模塊的主要作用是接受驅(qū)動模塊傳遞上來的行為特征向量,并對這些行為特征向量進(jìn)行分析,以便進(jìn)一步確定文件是否是病毒文件。而分析的核心算法就是改進(jìn)的基于加權(quán)的貝葉斯算法。
樸素貝葉斯算法[12]是一種分類算法(結(jié)構(gòu)模型如圖2所示),分類效果好、性能穩(wěn)定、結(jié)構(gòu)簡單易于實(shí)現(xiàn)、計(jì)算效率高,而且算法的時間復(fù)雜度和空間復(fù)雜度都比較小,因此適合于檢測未知的惡意程序,包括病毒。樸素貝葉斯分類用于木馬行為分析時,分類集包括:木馬程序、正常程序、不確定程序。待檢測程序的一組異常行為特征組成的特征向量,且每個分量都是行為特征庫中的行為特征。
圖2 樸素貝葉斯分類模型結(jié)構(gòu)
樸素貝葉斯算法的基礎(chǔ),貝葉斯定理:
由貝葉斯定理可以看出,樸素貝葉斯[13]的思想是對給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,其中最大的概率所屬類別即認(rèn)為是待求分類項(xiàng)的類別。
樸素貝葉斯分類器的工作原理如下:
1)設(shè)X={a1,a2,...,am}為一個待分類項(xiàng),而每個a為X的一個特征屬性。
2)有類別集合C={y1,y2,...,yn}。
3)統(tǒng)計(jì)得到在各類別下各個特征屬性的條件概率估計(jì)。即:
假設(shè)各個特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理有如下推導(dǎo):
由于P(X)對所有類別都是相同的,可看作常數(shù),因此只需計(jì)算分子即可:
因此,P(yk|X)最大值中的yk即我們所求的分類。根據(jù)上述分析,樸素貝葉斯分類的流程可以由圖3表示。
圖3 樸素貝葉斯分類流程
由以上流程可知,整個樸素貝葉斯分類分為三個階段:
第一階段:準(zhǔn)備工作階段,這個階段的任務(wù)是為樸素貝葉斯分類做必要的準(zhǔn)備,主要工作是根據(jù)具體情況確定特征屬性,并對每個特征屬性進(jìn)行適當(dāng)劃分,然后由人工對一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。這一階段的輸入是所有待分類數(shù)據(jù),輸出是特征屬性和訓(xùn)練樣本。這一階段是整個樸素貝葉斯分類中唯一需要人工完成的階段,其質(zhì)量對整個過程將有重要影響,分類器的質(zhì)量很大程度上由特征屬性、特征屬性劃分及訓(xùn)練樣本質(zhì)量決定。
第二階段:分類器訓(xùn)練階段,這個階段的任務(wù)就是生成分類器,主要工作是計(jì)算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率及每個特征屬性劃分對每個類別的條件概率估計(jì),并記錄結(jié)果。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。這一階段是機(jī)械性階段,根據(jù)前面討論的公式可以由程序自動計(jì)算完成。
第三階段:應(yīng)用階段。這個階段的任務(wù)是使用分類器對待分類項(xiàng)進(jìn)行分類,其輸入是分類器和待分類項(xiàng),輸出是待分類項(xiàng)與類別的映射關(guān)系。這一階段也是機(jī)械性階段,由程序完成。
樸素貝葉斯模型發(fā)源于古典數(shù)學(xué)理論,因此有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率,其算法簡單,對于小規(guī)模的數(shù)據(jù)表現(xiàn)很好,能夠處理多分類任務(wù),適合增量式訓(xùn)練。樸素貝葉斯算法是通過計(jì)算一些先驗(yàn)概率和特征的條件概率得出待驗(yàn)證的特征概率,這些先驗(yàn)概率是需要已有的樣本集計(jì)算的,而有一個可靠的樣本集至關(guān)重要。同時樸素貝葉斯算法在計(jì)算過程中是假設(shè)各特征屬性之間是沒有關(guān)聯(lián)的,但是一個病毒的各種行為往往是相互影響的,因此該算法在某種程度上是有誤差的,因此本文提出對該算法的一種改進(jìn)。
綜上所述,目前樸素貝葉斯算法存在兩個問題:先驗(yàn)概率和特征的條件概率的計(jì)算以及特征屬性之間的關(guān)聯(lián)。先驗(yàn)概率和特征的條件概率的計(jì)算主要依賴于提供的樣本集,而目前還沒有公認(rèn)的比較權(quán)威的木馬樣本集,因此主要依賴于研究者自己提供,為確保結(jié)果的可靠性,選擇樣本時盡量做到平均,把樣本分為三類(木馬程序、正常程序和不確定程序)。借鑒特征加權(quán)這一思想,提出基于特征加權(quán)的貝葉斯行為分析算法。
該算法的意思就是為程序的每個特征定義一個權(quán)值系數(shù),該權(quán)值系數(shù)的含義是某一個特征行為對一個文件是否是病毒的影響程度。例如:正常程序和病毒修改注冊表這一行為的目的顯然是不一樣的,病毒的行為更具危害,因此它的這一特征權(quán)值系數(shù)就比正常程序大。在實(shí)際應(yīng)用中,不論是正常程序還是病毒程序,它們運(yùn)行時的一系列行為是相互關(guān)聯(lián)的,而樸素貝葉斯的思想是假設(shè)這些行為特征沒有關(guān)聯(lián),為修正這個假設(shè)帶來的偏差,提出加權(quán)的思想。根據(jù)權(quán)值系數(shù)[14]的概念,為每一個程序的每一個類別增加一個加權(quán)系數(shù),分別為:{w1,w2,…,wn},用以調(diào)整后驗(yàn)概率的計(jì)算偏差。這些權(quán)值的大小由該特征對某一類別是不是病毒的影響程序來決定。在本文中,這些權(quán)值的具體數(shù)值由綜合實(shí)驗(yàn)得出,并在之后的樣本實(shí)驗(yàn)中根據(jù)錯誤分類進(jìn)行調(diào)整。
根據(jù)以上分析,在樸素貝葉斯基礎(chǔ)之上,為每個類別增加一個權(quán)值系數(shù),最后計(jì)算公式為
因此,yk即我們所求的分類。其結(jié)構(gòu)模型如圖4所示。
圖4 基于特征加權(quán)的貝葉斯分類模型結(jié)構(gòu)
搜集大量的程序構(gòu)成樣本空間,根據(jù)上述將樣本空間分成三類,即C={病毒程序,正常程序,不確定程序}。假設(shè)訓(xùn)練樣本中收集的程序中有a個木馬程序,b個正常程序和c個不確定程序。則三個類別的先驗(yàn)概率分別為
然后從三種分類的程序中提取出行為特征X={a1,a2,...,am},例如:修改注冊表SHSetValueA、創(chuàng)建文件CreateFileA、程序執(zhí)行CreateProcess等調(diào)用系統(tǒng)API的行為。而對于某個行為特征,如ak,經(jīng)過統(tǒng)計(jì)a個木馬中表現(xiàn)此特征的個數(shù)是d,b個正常程序表現(xiàn)此特征的個數(shù)是e,c個正常程序表現(xiàn)此特征的個數(shù)是f,則該特征在三個類別下的條件概率分別為
根據(jù)以上計(jì)算可以得到樣本行為庫。而對于一個待驗(yàn)證程S,它的行為特征表示為X={a1,a2,...,am} ,對應(yīng)三個類別的加權(quán)系數(shù)為W={w1,w2,w3}。則對應(yīng)的每個類別的概率為
則該待驗(yàn)證程序的類別為上述三個最大值中的Ci。
通過搜集大量的程序構(gòu)成樣本空間。分為木馬程序、正常程序以及不確定程序。樣本數(shù)據(jù)如表1所示。每個類別選取200個構(gòu)成最初的行為庫,然后每個類別選擇50個測試樣本,計(jì)算錯誤率。
表1 實(shí)驗(yàn)的樣本數(shù)據(jù)
計(jì)算錯誤率中主要計(jì)算兩類:1)將木馬程序判斷為正常程序,稱為FN;2)將正常程序判斷為木馬程序,稱為FP。從150條測試集中隨機(jī)選擇一些數(shù)據(jù)測試,測試結(jié)果如圖5所示。
圖5 測試樣本錯誤率
從實(shí)驗(yàn)結(jié)果來看,排除一些人為造成的誤差,在樣本數(shù)量較少的情況下樣本的錯誤率偏低,表明本文提出的文件監(jiān)控在樣本較少的情況下監(jiān)控效果良好。在如今大數(shù)據(jù)時代,還需要更多的樣本對該文件監(jiān)控系統(tǒng)進(jìn)行測試以確保其實(shí)際應(yīng)用價值。
本文為了實(shí)現(xiàn)文件監(jiān)控的整體性,從驅(qū)動層攔截文件操作到上層的行為進(jìn)行分析,到最終確定文件類別。本文重點(diǎn)介紹了行為改進(jìn)的貝葉斯算法,在樸素貝葉斯算法模型的基礎(chǔ)之上,提出基于特征加權(quán)的貝葉斯行為分析算法,該算法在一定程度上解決了樸素貝葉斯算法的一些缺點(diǎn),如忽略特征屬性之間的關(guān)聯(lián)等。但該算法還是依賴于樣本的訓(xùn)練,因此,如何確定樣本的數(shù)量和質(zhì)量也是研究的重點(diǎn)。經(jīng)過實(shí)驗(yàn)分析,本文提出的文件監(jiān)控效率良好,能夠在信息安全等方面有良好的應(yīng)用。
[1]姜學(xué)東,王昊欣.互聯(lián)網(wǎng)網(wǎng)站網(wǎng)絡(luò)安全威脅及策略分析[J].電子測試,2017(09):79-80.
[2]龔儉,臧小東,蘇琪,等.網(wǎng)絡(luò)安全態(tài)勢感知綜述[J].軟件學(xué)報(bào),2017,28(04):1010-1026.
[3]黃同慶,莊毅.一種實(shí)時網(wǎng)絡(luò)安全態(tài)勢預(yù)測方法[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(02):303-306.
[4]趙穎,樊曉平,周芳芳,等.網(wǎng)絡(luò)安全數(shù)據(jù)可視化綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2014,26(05):687-697.
[5]熊芳芳.淺談計(jì)算機(jī)網(wǎng)絡(luò)安全問題及其對策[J].電子世界,2012(22):139-140.
[6]董希泉,林利,張小軍,等.主動防御技術(shù)在通信網(wǎng)絡(luò)安全保障工程中的應(yīng)用研究[J].信息安全與技術(shù),2016,7(01):80-84.
[7]張大偉,沈昌祥,劉吉強(qiáng),等.基于主動防御的網(wǎng)絡(luò)安全基礎(chǔ)設(shè)施可信技術(shù)保障體系[J].中國工程科學(xué),2016,18(06):58-61.
[8]郝增帥,郭榮華,文偉平,等.基于特征分析和行為監(jiān)控的未知木馬檢測系統(tǒng)研究與實(shí)現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(02):57-65.
[9]曹玉林,馬建萍.基于微分方程的MANETs病毒傳播模型研究[J].計(jì)算機(jī)工程.2017(02):1-6.
[10]呂晨,姜偉,虎嵩林.一種基于新型圖模型的API推薦系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2015,38(11):2172-2187.
[11]楊立敏,李耀華,王平,等.IRP理論和IEEE Std 1459-2010在變流器驅(qū)動電機(jī)能效測試中的應(yīng)用比較[J].電工電能新技術(shù),2016,35(01):1-6,12.
[12]皮靖,邵雄凱,肖雅夫.基于樸素貝葉斯算法的主題爬蟲的研究[J].計(jì)算機(jī)與數(shù)字工程,2012,40(06):76-78,123.
[13]王輝,陳泓予,劉淑芬.基于改進(jìn)樸素貝葉斯算法的入侵檢測系統(tǒng)[J].計(jì)算機(jī)科學(xué),2014,41(04):111-115,119.
[14]毛明,楊譜,李旭飛.遞歸擴(kuò)散層的權(quán)值系數(shù)計(jì)算方法[J].計(jì)算機(jī)工程,2014,40(11):126-129,134.