李雪虎,王發(fā)明,戰(zhàn) 凱
(北京江民新科技術(shù)有限公司,北京 100097)
隨著互聯(lián)網(wǎng)的快速發(fā)展,計算機安全問題已經(jīng)提高到國家安全的戰(zhàn)略角度,但是在互聯(lián)網(wǎng)上傳播的惡意代碼的數(shù)量、種類等都在增加。根據(jù)江民病毒疫情監(jiān)測預警中心提供的數(shù)據(jù)顯示[1]:2018年5月,新增病毒1 140種,感染計算機13 569臺。北京、上海、廣州是主要的被感染和受攻擊地區(qū)。雖然惡意代碼一直在持續(xù)的增長,但是大部分惡意代碼在編寫過程中都是關(guān)鍵模塊重利用,其特征行為具有高度的相似性[2]。
首先,惡意代碼為了偽裝自身,會對自身代碼結(jié)構(gòu)進行修改,而修改自身代碼結(jié)構(gòu)的方法則具有規(guī)律性;其次,惡意代碼為了實現(xiàn)獲取計算機相關(guān)權(quán)限、修改計算機重要文件等敏感操作,就需要調(diào)用系統(tǒng)相關(guān)的API函數(shù)來達到目的。所以本文根據(jù)以上惡意代碼的特點通過機器學習的方法實現(xiàn)對惡意代碼的辨別與分類。
應用程序編程接口(Application Programming Interface, API)是可以作為惡意代碼分類特征使用的,惡意程序通過調(diào)用一些API(主要是系統(tǒng)底層API),達到竊取用戶敏感信息或者獲取本計相操作權(quán)限等,而這些API在大部分的惡意代碼中均被大量使用,本文將這些API稱為敏感API。在文獻[3]中已經(jīng)證實在同一種分類算法中,使用敏感API得到的分類結(jié)果準確度要優(yōu)于不使用敏感API得到的分類結(jié)果準確度,故本文將敏感API作為惡意代碼分類的特征向量。
一般提取惡意代碼特征主要有兩種方法:靜態(tài)分析方法和動態(tài)分析方法。靜態(tài)分析主要使用IDA[4]、JEB等反匯編工具,主要特征有PE文件結(jié)構(gòu)信息和敏感API調(diào)用等。動態(tài)分析方法主要是使用沙箱[5](例如布谷鳥)等程序模擬操作系統(tǒng)環(huán)境,監(jiān)測其中未知程序的行為并與已知的惡意代碼行為進行匹配,如果匹配成功,則可判定未知程序為惡意程序。但是在具體的應用過程中發(fā)現(xiàn),由于系統(tǒng)API層次較低,沙箱進行行為監(jiān)控時,難以獲得行為的準確含義,并且沙箱分析出結(jié)果的速度緩慢,耗時較長。由于這些缺點的存在,故本文采用靜態(tài)特征分析的方法。
得到特征數(shù)據(jù)以后,就可以使用機器學習的相關(guān)模型進行惡意代碼的分類識別。分類算法有很多,常見的算法有K近鄰(K-Nearest Neighbor, KNN)[6]、支持向量機(Support Vector Machine, SVM)[7]、邏輯回歸(Logistic Regression)[8]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[9]等。本文主要是使用隨機森林進行惡意代碼分類。
隨機森林可以解釋為若干自變量(X1,X2,…,Xi,…,Xn) 對因變量Y的作用。如果因變量Y有m個觀測值,有n個自變量與之相關(guān)(并且大多數(shù)情況下,m是遠遠小于n的);在構(gòu)建決策分類樹的時候,隨機森林會隨機地在原數(shù)據(jù)中重新選擇m個觀測值,其中有的觀測值可能被多次選擇,有的可能一次都沒有被選到。根據(jù)選擇的樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終的預測結(jié)果。
本文的隨機森林算法是在Spark下實現(xiàn)的,采用的是Python第三方庫Pyspark。實驗分為兩個,第一個實驗的輸入為樣本文件的文件特征,包括文件類型、文件大小、文件導入表、文件基地址、文件版本等50個特征作為輸入;第二個實驗的輸入為敏感API特征,其中調(diào)節(jié)的參數(shù)為:numTrees=150,maxDepth=30,labelCol=“indexed”,featuresCol='features',seed=42,其余參數(shù)保持不變。本文將總數(shù)據(jù)集的80 %用于訓練,20%用于測試。
惡意代碼數(shù)據(jù)集是進行惡意代碼分析的基礎(chǔ),機器學習算法只有結(jié)合相關(guān)的數(shù)據(jù)集對樣本進行訓練,才能更好地實現(xiàn)檢測功能。
本文采用的數(shù)據(jù)集是江民新科技術(shù)有限公司病毒庫中的數(shù)據(jù)集。本次采用的數(shù)據(jù)集總量為90萬,其中45萬白樣本,45萬病毒樣本。并且在45萬病毒樣本中,Downloader、Trojan、Backdoor三類樣本樣本量分別是15萬、15萬、15萬。
實驗環(huán)境:CPU:Intel(R) Xeon(R) CPU E5645 @ 2.40 GHz,操作系統(tǒng)CentOS Linux release 7.3.1611,內(nèi)存32 GB。
Hadoop和Spark的版本為:Hadoop版本2.7.1,Spark版本2.2.1。
用查準率(Precision)、查全率(Recall)和F1度量評估本文算法,通常以關(guān)注的類為正類,其他類為負類,指標的取值為0~1。這些度量的計算公式如下:
(1)
(2)
(3)
其中,TP(True Positive)是指將正類預測為正類數(shù),F(xiàn)P(False Positive)是指將負類預測為正類數(shù),F(xiàn)N(False Negative)是指正類預測為負類數(shù)。
在所選擇的數(shù)據(jù)集(江民新科技術(shù)有限公司病毒庫中的數(shù)據(jù)集)上將本文的隨機森林算法與支持向量機算法、邏輯回歸算法做比較。
首先進行黑白樣本分類的實驗,查看實驗的查準率、查全率和F1值,從實驗結(jié)果可以看出當樣本總量在10萬左右的時候,隨機森林在辨識黑白樣本的效果上與支持向量機算法、邏輯回歸算法相比較,結(jié)果并不理想。但是隨著樣本數(shù)量增大到90萬,隨機森林模型在辨識黑白樣本的查準率、查全率、F1值從原來的0.732、0.711、0.721提升到0.973、0.973、0.973,都達到了三種分類中的最好,其中在500 000到700 000樣本的時候,查準率、查全率和F1值出現(xiàn)了下降,是因為隨著病毒樣本的增加,其中部分白樣本經(jīng)過編譯器編譯得到的PE結(jié)構(gòu)信息與部分病毒樣本的結(jié)構(gòu)信息相似,使得隨機森林算法出現(xiàn)了一定的誤差。但是隨著樣本量的繼續(xù)增大,這一小部分的樣本對于整體的分類影響逐漸變小。實驗結(jié)果如圖1、圖2、圖3所示。
圖1 三種分類算法黑白分類查準率
圖2 三種分類算法黑白分類查全率
圖3 三種分類算法黑白分類F1值
其次,再進行基于Downloader、Trojan、Backdoor這三種病毒分類的實驗,本次實驗的惡意代碼數(shù)據(jù)是總數(shù)據(jù)集中的45萬病毒樣本。從實驗結(jié)果可以看出隨機森林在對Downloader、Trojan、Backdoor三種病毒分類時,與支持向量機分類算法和邏輯回歸分類算法相比較,實驗效果是比較好的。隨著惡意代碼的樣本量從9萬增長到45萬時,查準率、查全率、F1值從原來的0.924、0.918、0.921提升到0.935、0.932、0.934,評判標準都有提升。其實驗結(jié)果如圖4、圖5、圖6所示。
圖4 三種分類算法在病毒分類的查準率
從以上結(jié)果可知,隨機森林在分類的泛化能力上要優(yōu)于SVM和邏輯回歸。
圖5 三種分類算法在病毒分類的查全率
圖6 所示為三種分類算法在病毒分類的F1值
本文聚焦在大樣本下利用機器學習算法對惡意代碼進行識別和分類檢測,選擇PE文件結(jié)構(gòu)和敏感API作為輸入,實驗數(shù)據(jù)表明隨機森林的評價效果比支持向量機、邏輯回歸模型的效果優(yōu)秀。在進行三種病毒分類上,雖然隨機森林的效果最好,但是隨機森林對于某些白樣本使用和病毒樣本相同的編譯器時,容易將其劃分為病毒樣本。其次,準確率仍然不是很高,只有0.935左右,在基于大樣本的前提下,模型的分類效果仍然需要提升,以上兩個問題是本文今后工作的重點。