楊宏宇 應(yīng)樂意 張良
摘要:目前的源代碼漏洞檢測方法大多僅依靠單一特征進行檢測,表征的維度單一導(dǎo)致方法效率低,針對上述問題提出一種基于結(jié)構(gòu)化文本及代碼度量的漏洞檢測方法,在函數(shù)級粒度進行漏洞檢測.利用源代碼結(jié)構(gòu)化文本信息及代碼度量結(jié)果作為特征,通過構(gòu)造基于自注意力機制的神經(jīng)網(wǎng)絡(luò)捕獲結(jié)構(gòu)化文本信息中的長期依賴關(guān)系,以擬合結(jié)構(gòu)化文本和漏洞存在之間的聯(lián)系并轉(zhuǎn)化為漏洞存在的概率.采用深度神經(jīng)網(wǎng)絡(luò)對代碼度量的結(jié)果進行特征學(xué)習(xí)以擬合代碼度量值與漏洞存在的關(guān)系,并將其擬合的結(jié)果轉(zhuǎn)化為漏洞存在的概率.采用支持向量機對由上述兩種表征方式獲得的漏洞存在概率做進一步的決策分類并獲得漏洞檢測的最終結(jié)果,為驗證該方法的漏洞檢測性能,針對存在不同類型漏洞的11種源代碼樣本進行漏洞檢測實驗,該方法對每種漏洞的平均檢測準確率為97.96%,與現(xiàn)有基于單一表征的漏洞檢測方法相比,該方法的檢測準確率提高了4.89%~12.21%,同時,該方法的漏報率和誤報率均保持在10%以內(nèi).
關(guān)鍵詞:漏洞檢測;結(jié)構(gòu)化表征;抽象語法樹;代碼度量;深度神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP393文獻標志碼:A
Vulnerability Detection Method Based on Structured Text and Code Metrics
YANG Hongyu? YING Leyi ZHANG Liang3
(1. College of Safety Science and Engineering,Civil Aviation University of China,Tianjin 300300,China;
2. College of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China;
3. College of Information,University of Arizona,AZ 8572 USA)
Abstract:Most of the current source code vulnerability detection methods only rely on a single feature,and the single dimension of characterization results in inefficient methods. To address the above issues,a vulnerability detection method based on structured text and code metrics is proposed to detect vulnerabilities at the function-level granularity. Using source code structured text information and code metrics as features,long-term dependencies in structured text information are captured by constructing a self-attention based neural network to fit the relationship between structured text and the existence of vulnerabilities and translate them into the probability of vulnerabilities. The deep neural network is used to learn the characteristics of the results of code metrics to fit the relationship between code metrics and the existence of vulnerabilities,and the fitted results are transformed into the probability of vulnerabilities. Support Vector Machine (SVM)is used to further classify the probabilities of vulnerabilities obtained by the above two representations and obtain the final results of vulnerability detection. To verify the vulnerability detection performance of this method,11 source code samples with different types of vulnerabilities are tested. The average detection accuracy of this method for each vulnerability is 97.96%. Compared with the existing vulnerability detection methods based on a single representation,this method improves the detection accuracy by 4.89%~12.21%,and at the same time. the false positive and false negative rates of this method are kept within 10%.
Key words:vulnerability detection;structured representation;abstract syntax tree;code metrics;deep neural network
計算機軟件在各個領(lǐng)域的廣泛應(yīng)用,使得軟件漏洞問題也日益嚴重.面對多樣化的軟件漏洞類型,如何高效地進行漏洞檢測成為當(dāng)前研究的熱點問題.對源代碼進行漏洞檢測是保障軟件安全的有效手段之一.目前,基于代碼度量和基于深度學(xué)習(xí)的方法是較為常見的源代碼漏洞檢測方法[1].
代碼度量[2]被用于描述軟件代碼特性,以相關(guān)定義的數(shù)值來描述代碼的基本狀況.代碼度量雖然是一種粗粒度的源代碼表征方式,但是在一定程度上可以表征代碼的基本狀況.基于代碼度量的漏洞檢測方法通過源代碼度量工具對目標代碼進行代碼度量獲取對應(yīng)指標的數(shù)值,利用機器學(xué)習(xí)算法,經(jīng)過訓(xùn)練生成漏洞檢測器.Ferenc等[3]基于代碼度量應(yīng)用機器學(xué)習(xí)算法和網(wǎng)格搜索算法構(gòu)建漏洞檢測模型并采用重采樣策略解決訓(xùn)練數(shù)據(jù)不平衡問題.Sultana[4]利用機器學(xué)習(xí)和統(tǒng)計學(xué)方法追蹤代碼度量、代碼模式和漏洞之間的聯(lián)系,提出一種漏洞檢測方法,并利用該方法對開源軟件進行漏洞檢測.基于代碼度量的漏洞檢測方法的主要不足是:①檢測粒度粗且可解釋性差;②精確率低且誤報率高.
隨著深度學(xué)習(xí)在自然語言處理領(lǐng)域的應(yīng)用,研究人員嘗試將深度學(xué)習(xí)技術(shù)應(yīng)用于編程語言.當(dāng)前深度學(xué)習(xí)技術(shù)已經(jīng)普遍應(yīng)用于信息安全領(lǐng)域[5],基于深度學(xué)習(xí)的漏洞檢測方法能夠自主學(xué)習(xí)代碼文本信息與漏洞之間的關(guān)聯(lián)性以此建立漏洞檢測模型.Li 等⑹首次將深度學(xué)習(xí)技術(shù)引入漏洞檢測領(lǐng)域,提出一種VulDeePecker自動化漏洞檢測系統(tǒng),能夠?qū)/C++語言編寫的源代碼進行漏洞檢測.Saccente等[7]提出Achilles漏洞檢測方法,在Java源代碼上進行測試并取得不錯的效果,表明基于深度學(xué)習(xí)的源代碼漏洞檢測方法能夠應(yīng)用于多種編程語言.上述兩種方法將源代碼完全視為線性文本,無法充分表征源代碼特征.為更加充分表征編程語言的語法和語義,結(jié)構(gòu)化表征方式被應(yīng)用于源代碼的表征.陳肇炫等[8]提出一種基于結(jié)構(gòu)化表征的智能化漏洞檢測系統(tǒng)Astor,在復(fù)雜且語法豐富的數(shù)據(jù)集中,檢測效果優(yōu)于線性表征方法.基于深度學(xué)習(xí)的漏洞檢測方法能夠完全脫離人工干預(yù)進行漏洞檢測,但仍存在不足.基于深度學(xué)習(xí)的漏洞檢測方法的主要不足有:①需要依賴大量數(shù)據(jù)進行訓(xùn)練;②對不同類型漏洞的檢測結(jié)果波動性較大;③精確率和召回率有待提升.
針對計算機軟件二進制代碼的漏洞檢測技術(shù)是一種底層的漏洞檢測技術(shù).當(dāng)無法獲取軟件高級語言源代碼時,文獻[9]將反編譯軟件二進制代碼作為特征,應(yīng)用深度學(xué)習(xí)技術(shù)進行特征學(xué)習(xí)并構(gòu)造漏洞檢測模型,得到了較好的檢測性能.文獻[10]通過計算二進制函數(shù)和漏洞二進制函數(shù)特征庫的相似度進行漏洞檢測,該方法通過大量的訓(xùn)練后的模型準確率得到提升.文獻[11]在經(jīng)典代碼切片技術(shù)的基礎(chǔ)上改善二進制代碼過程間切片方式及切片粒度,使得檢測精度和效率有所提升.在無法獲取源代碼的情況下,利用二進制代碼依舊可以進行漏洞檢測并且有較好的檢測能力.但是基于二進制代碼的檢測方法并不直觀且表征方式單一.
上述工作在源代碼表征方式上,均采用了單一的表征方式,無法全面表征源代碼,因此導(dǎo)致檢測效果不佳.針對上述檢測方法表征方式單一導(dǎo)致檢測效果不佳的問題,為進一步提升漏洞檢測效果,本文提出一種基于結(jié)構(gòu)化文本及代碼度量的漏洞檢測方法,在現(xiàn)有研究的基礎(chǔ)上從表征方法和特征擬合兩個方面做出改進,在函數(shù)級粒度上對源代碼進行漏洞檢測.首先,深度優(yōu)先遍歷源代碼抽象語法樹得到結(jié)構(gòu)化文本信息,使用源代碼靜態(tài)解析工具獲取代碼度量值;其次,通過構(gòu)造基于自注意力機制的神經(jīng)網(wǎng)絡(luò)捕獲結(jié)構(gòu)化文本信息中的長期依賴關(guān)系,以擬合結(jié)構(gòu)化文本和漏洞存在之間的聯(lián)系并轉(zhuǎn)化為漏洞存在的概率,采用深度神經(jīng)網(wǎng)絡(luò)對代碼度量的結(jié)果進行特征學(xué)習(xí)以擬合代碼度量值與漏洞存在的關(guān)系,并將其擬合的結(jié)果轉(zhuǎn)化為漏洞存在的概率;最后,采用支持向量機對由上述兩種表征方式獲得的漏洞存在概率做進一步的決策分類,并獲得漏洞檢測的最終結(jié)果.在對比實驗中,針對存在不同類型漏洞的11種源代碼樣本進行漏洞檢測實驗,本文方法對每種漏洞的平均檢測準確率為97.96%.與現(xiàn)有基于單一表征的漏洞檢測方法相比,本文方法的檢測準確率提高了4.89%~12.21%,同時,本文方法的漏報率和誤報率均保持在10%以內(nèi).
1源代碼漏洞檢測方法設(shè)計
1.1方法設(shè)計思路
本文方法從結(jié)構(gòu)化文本信息和代碼度量兩個維度對源代碼進行表征,利用表征結(jié)果和預(yù)設(shè)的標簽對構(gòu)造的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練.訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)模型即為漏洞檢測模型,應(yīng)用漏洞檢測模型對待檢測源代碼進行漏洞檢測得到檢測結(jié)果.本文方法中4個部分的設(shè)計思路如下.
1)數(shù)據(jù)預(yù)處理.為生成符合本文漏洞檢測粒度的訓(xùn)練集和測試集,在本階段對原始數(shù)據(jù)集以函數(shù)級粒度進行切片并設(shè)置監(jiān)督學(xué)習(xí)標簽.預(yù)處理階段的輸出為代碼的函數(shù)切片以及對應(yīng)的監(jiān)督學(xué)習(xí)標簽.
2)數(shù)據(jù)表征.為充分表現(xiàn)源代碼特征,從結(jié)構(gòu)化文本信息和代碼度量兩個維度對預(yù)處理后的數(shù)據(jù)進行表征.為從源代碼結(jié)構(gòu)化文本信息角度表征源代碼,利用AST作為中間載體,采用深度優(yōu)先遍歷機制收集源代碼文本特征并轉(zhuǎn)化為向量形式;為從代碼度量角度表征源代碼,需要定義代碼度量指標,通過源代碼靜態(tài)解析工具獲取對應(yīng)的度量值.本階段的輸出為向量形式的結(jié)構(gòu)化文本信息以及代碼度量值序列.
3)模型構(gòu)建及訓(xùn)練.為擬合數(shù)據(jù)表征的結(jié)果和漏洞存在之間的關(guān)系,構(gòu)建合適的神經(jīng)網(wǎng)絡(luò)模型對表征結(jié)果進行特征學(xué)習(xí).構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型能對結(jié)構(gòu)化文本信息和代碼度量值進行特征學(xué)習(xí),綜合兩種特征給出漏洞檢測結(jié)果.最后,采用表征結(jié)果和預(yù)設(shè)的標簽對模型進行訓(xùn)練,本階段的輸出為訓(xùn)練完成的漏洞檢測模型.
4)源代碼漏洞檢測.為在本階段應(yīng)用訓(xùn)練完成的模型進行漏洞檢測,對待檢測源代碼進行特征提取,提取特征的方式與表征方式相同.將提取到的特征輸入訓(xùn)練完成的模型中,輸出漏洞檢測的結(jié)果.
1.2方法架構(gòu)設(shè)計
本文提出的源代碼漏洞檢測模型由數(shù)據(jù)預(yù)處理、數(shù)據(jù)表征、模型搭建及訓(xùn)練、源代碼漏洞檢測4個部分組成,該方法的核心框架如圖1所示.該漏洞檢測模型的4個部分的主要處理過程為
1)數(shù)據(jù)預(yù)處理.數(shù)據(jù)預(yù)處理階段包括代碼切片和設(shè)置監(jiān)督學(xué)習(xí)標簽兩個部分.本文方法在函數(shù)級粒度進行漏洞檢測,因此需將源代碼數(shù)據(jù)切分為函數(shù)片段并根據(jù)函數(shù)片段是否存在漏洞設(shè)置標簽.
2)數(shù)據(jù)表征.為充分表征函數(shù)片段的信息,分別從結(jié)構(gòu)化文本信息和代碼度量兩種維度對預(yù)處理后的數(shù)據(jù)進行表征.利用抽象語法樹(Abstract Syntax Tree,AST)表征函數(shù)片段的文本信息.定義代碼度量指標對函數(shù)片段進行代碼度量.
3)模型構(gòu)建及訓(xùn)練.構(gòu)建一種神經(jīng)網(wǎng)絡(luò),由該神經(jīng)網(wǎng)絡(luò)針對兩種維度表征結(jié)果的數(shù)據(jù)類型進行特征學(xué)習(xí),利用兩種表征結(jié)果以及預(yù)設(shè)的標簽對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練以構(gòu)造漏洞檢測模型.
4)源代碼漏洞檢測.利用訓(xùn)練完成的漏洞檢測模型對待檢測源代碼進行漏洞檢測.待檢測源代碼的預(yù)處理和表征方式與訓(xùn)練數(shù)據(jù)相同,將表征結(jié)果輸入訓(xùn)練完成的漏洞檢測模型得到檢測結(jié)果.
2數(shù)據(jù)處理及表征
2.1數(shù)據(jù)預(yù)處理
本文采用的數(shù)據(jù)集為美國國家標準與技術(shù)研究院的Juliet Test Suite數(shù)據(jù)集[12],該數(shù)據(jù)集包含118種CWE[13]類型的28 881個Java文件.由于基于深度學(xué)習(xí)的方法對于數(shù)據(jù)量的需求較大,所以在研究中選取測試用例超過1 000例的漏洞類型.雖然在本文研究中以Java語言源代碼作為研究對象,但本文方法并不受編程語言類型限制,只要被檢測程序的源代碼能夠進行結(jié)構(gòu)化表征和代碼度量,本文方法依然適用.
為生成符合本文檢測粒度的訓(xùn)練集和測試集,需要對收集的數(shù)據(jù)進行預(yù)處理.數(shù)據(jù)預(yù)處理階段包括代碼切片和監(jiān)督學(xué)習(xí)標簽設(shè)置兩部分.
2.1.1代碼切片
本文方法的檢測粒度是函數(shù)級別,所以對需要表征的源代碼按函數(shù)進行切片.漏洞源代碼用例如表1所示.
代碼切片可以從Java文件中分離出不含空行和注釋的函數(shù)代碼,代碼切片的具體過程如下.
1)源代碼清洗.為提升源代碼的信息密度,防止無用信息被表征,以字符串匹配的方式消除代碼中的空行和注釋.
2)函數(shù)切片.利用Java靜態(tài)解析工具Javalang[14]解析Java源文件獲得類中包含的所有函數(shù)并存儲在列表中.
2.1.2監(jiān)督學(xué)習(xí)標簽設(shè)置
判斷源代碼函數(shù)是否存在漏洞是一個典型的二分類問題.本文針對漏洞檢測設(shè)計的神經(jīng)網(wǎng)絡(luò)是一個二分類監(jiān)督學(xué)習(xí)模型,因此需要對訓(xùn)練數(shù)據(jù)設(shè)置標簽.
Juliet Test Suite數(shù)據(jù)集中,已經(jīng)在函數(shù)名稱上標注了標記“good”(無漏洞)或“bad”(有漏洞).采用字符匹配的方法匹配函數(shù)名稱中的標記,標記為“good”的函數(shù)片段設(shè)置標簽為“0”,標記為“bad”的函數(shù)片段設(shè)置標簽為“1”.由于函數(shù)名稱也會作為文本信息被表征,為了不使上述標記影響模型的訓(xùn)練效果,依據(jù)標記添加標簽后,將其用隨機字符替代.
2.2數(shù)據(jù)表征
為充分表現(xiàn)源代碼特征,從代碼結(jié)構(gòu)化表征和代碼度量兩個不同維度對源代碼進行表征.代碼結(jié)構(gòu)化表征可以獲得代碼結(jié)構(gòu)化的文本信息,代碼度量能夠表征代碼的基本狀況.
2.2.1代碼結(jié)構(gòu)化表征
編程語言是一種結(jié)構(gòu)化的語言,源代碼中的信息有明確的結(jié)構(gòu)關(guān)系.因此表征自然語言的方法并不能充分表征源代碼中的語法和語義.為了得到更貼合實際的源代碼特征,采用結(jié)構(gòu)化表征方法對源代碼進行表征.結(jié)構(gòu)化表征方法包括以下三個步驟.
步驟1:利用Java源代碼解析工具javalang解析代碼,得到抽象語法樹節(jié)點和邊的信息,根據(jù)節(jié)點和邊的信息生成抽象語法樹.
步驟2:深度優(yōu)先遍歷抽象語法樹,依次收集節(jié)點信息.深度優(yōu)先遍歷抽象語法樹的結(jié)果使得樹形數(shù)據(jù)轉(zhuǎn)化為一維文本數(shù)據(jù).
步驟3:將一維文本數(shù)據(jù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的輸入.由于神經(jīng)網(wǎng)絡(luò)的輸入是向量形式的數(shù)據(jù),因此需要進一步處理一維的文本數(shù)據(jù).首先對文本數(shù)據(jù)作分詞處理,然后通過統(tǒng)計方法生成詞典,根據(jù)詞典將文本表示為向量.
2.2.2代碼度量
本文方法旨在對函數(shù)級別的源代碼進行漏洞檢測,因此需要在代碼函數(shù)級別上進行度量.為使完全依賴數(shù)據(jù)的深度學(xué)習(xí)方法能與安全專家的先驗知識進行有效交互,并使檢測模型的自適應(yīng)性更強,在代碼度量中需要人工參與定義代碼度量指標.本文方法中的代碼度量處理過程包括2個步驟.
步驟1:度量指標定義.對代碼度量的指標進行定義,在代碼度量階段使用的主要度量指標是Chidamber&Kemerer指標[15],與傳統(tǒng)的McCabe指標和Halstead metrics 指標相比,Chidamber&Kemerer指標是專門針對面向?qū)ο蟪绦蛘Z言提出的,故對Java語言的適應(yīng)性更強.具體的度量指標如表2所示,其中包含函數(shù)和函數(shù)所在類的相關(guān)信息.
步驟2:代碼度量.使用代碼度量工具[16]進行代碼度量可得到表2所示指標的具體量化數(shù)值.
3深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練
3.1神經(jīng)網(wǎng)絡(luò)總體框架
對源代碼的表征結(jié)果分別為結(jié)構(gòu)化的文本信息和代碼度量產(chǎn)生的數(shù)字序列.因此需要設(shè)計神經(jīng)網(wǎng)絡(luò)對結(jié)構(gòu)化文本信息和數(shù)字序列進行特征學(xué)習(xí),并綜合二者判斷結(jié)果給出最終的漏洞檢測結(jié)果.
在本文方法中構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型有三個部分:①基于自注意力(Self-Attention,SA)機制[17]的神經(jīng)網(wǎng)絡(luò);②深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN);③支持向量機(Support Vector Machine,SVM).該神經(jīng)網(wǎng)絡(luò)的主要結(jié)構(gòu)如圖2所示.
其中,基于SA的神經(jīng)網(wǎng)絡(luò)模型用于文本序列的特征學(xué)習(xí),DNN模型用于代碼度量結(jié)果的特征學(xué)習(xí),SVM模型用于對上述兩個模型的輸出結(jié)果進行處理和分類并得到最終的漏洞檢測結(jié)果.
3.2基于SA機制的神經(jīng)網(wǎng)絡(luò)模型構(gòu)建
分析文本數(shù)據(jù)最重要的目的是捕獲其中的長期依賴關(guān)系,這種依賴關(guān)系在編程語言中尤為關(guān)鍵.受自然語言語法和人類文字編輯習(xí)慣的影響,自然語言中的依賴關(guān)系在時間跨度上是有限的.但是這種依賴關(guān)系在編程語言中的時間跨度是不受控制的,例如定義的變量或函數(shù),在代碼中的任意位置都可能被調(diào)用.因此在對源代碼結(jié)構(gòu)化文本漏洞檢測時,通過SA機制解決依賴問題.
SA結(jié)構(gòu)如圖3所示,對于每一個輸入的詞向量xi,SA將其表示為向量qi、ki、vi.為獲取這3個向量,分別定義3個不同的權(quán)值矩陣WQ、WK、WV,這3個矩陣在訓(xùn)練階段通過反向傳播算法不斷更新優(yōu)化.將權(quán)值矩陣與輸入矩陣X=[x x x …,xn]相乘來獲得對應(yīng)的向量集和,計算方式如公式(1)~公式(3)所示.
式中:X為輸入詞向量X組成的矩陣,WQ為對應(yīng)的權(quán)值矩陣,Q是由向量qi組成的矩陣.
式中:X為輸入詞向量xi組成的矩陣,WK為對應(yīng)的權(quán)值矩陣,K是由向量ki組成的矩陣.
式中:X為輸入詞向量xi組成的矩陣,WV為對應(yīng)的權(quán)值矩陣,V是由向量vi組成的矩陣.
SA的計算結(jié)果為:
式中:dk為尺度標度,與向量qi的維度相等;Q、K、V分別為公式(1)~公式(3)的計算結(jié)果,是輸入矩陣X的三種不同的表示形式.
在公式(4)中,Q和K相乘的結(jié)果用于反映每個詞與其他詞的相關(guān)程度,但是這個結(jié)果會隨著詞向量維度的增加而不斷增大.如果Q和K相乘的結(jié)果非常大,會造成softmax結(jié)果無限接近 會使得梯度較小,從而影響參數(shù)的更新.因此需要利用dk約束計算結(jié)果的大小.softmax能夠計算詞與詞的關(guān)聯(lián)程度在句子中的比重,softmax的結(jié)果再與V相乘,相當(dāng)于一個加權(quán)求和的結(jié)果,這個結(jié)果可以反映每個詞對于句子的貢獻程度.在本文研究中,這個貢獻程度表示這個詞與漏洞存在的關(guān)聯(lián)程度.
本文構(gòu)建的基于SA的神經(jīng)網(wǎng)絡(luò)由輸入層、SA層、全連接層、輸出層構(gòu)成,其中全連接層由128個神經(jīng)元組成.由于SA中的計算都是線性計算,加入全連接層以擬合非線性特征.為通過文本特征得到漏洞存在的概率,輸出層以Sigmoid作為激活函數(shù). Sigmoid函數(shù)如公式(5)所示.
Sigmoid函數(shù)能將神經(jīng)網(wǎng)絡(luò)的輸出映射到[0,1] 之間,能將學(xué)習(xí)到的文本特征轉(zhuǎn)化為漏洞存在的概率.通過源代碼結(jié)構(gòu)化表征結(jié)果和預(yù)設(shè)的標簽對基于SA的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,在訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)中輸入源代碼結(jié)構(gòu)化文本信息,即可輸出對應(yīng)源代碼存在漏洞的概率.
3.3DNN模型構(gòu)建
代碼度量的結(jié)果是一段數(shù)字序列,序列中的每個元素表示對應(yīng)度量指標的具體數(shù)值,并且度量結(jié)果各個元素之間不存在相互依賴關(guān)系.基于上述應(yīng)用場景,DNN相較于傳統(tǒng)機器學(xué)習(xí)算法能夠在較短的時間內(nèi)學(xué)習(xí)到序列特征.因此應(yīng)用DNN進行代碼度量的特征學(xué)習(xí),其結(jié)構(gòu)如圖4所示,隱藏層的神經(jīng)元個數(shù)均為64.
對輸入的代碼度量結(jié)果,在經(jīng)過兩層隱藏層擬合代碼度量特征后,利用Sigmoid函數(shù)作為激活函數(shù)將輸出結(jié)果映射到[0,1]之間.利用代碼度量結(jié)果和預(yù)設(shè)的標簽對DNN進行訓(xùn)練,在訓(xùn)練完成的DNN模型中輸入代碼度量結(jié)果即可輸出對應(yīng)源代碼存在漏洞的概率.
3.4SVM模型構(gòu)建
本文漏洞檢測模型以學(xué)習(xí)文本序列特征的基于SA的神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)代碼度量特征的DNN為基礎(chǔ)構(gòu)建.在完成上述模型的訓(xùn)練后,能夠應(yīng)用這兩種模型分別從文本信息和代碼度量兩個維度判斷代碼是否存在漏洞.為得到更加精確的漏洞檢測結(jié)果,需要綜合上述兩種模型的輸出結(jié)果.因此本文以上述兩種模型的輸出作為特征,應(yīng)用SVM作進一步分類,判斷代碼是否存在漏洞.
在獲取兩種模型輸出的漏洞存在概率后,需要應(yīng)用分類算法對輸出進行分類以盡可能消除兩種表征方式判斷出現(xiàn)分歧的部分.因此,在應(yīng)用分類算法后,檢測效果會得到明顯提升.
選擇SVM作為這一階段的分類器主要有以下兩個原因:①SVM在分類任務(wù)中效果好,并且分類思想簡單直觀,能夠準確繪制其決策邊界,以直觀表現(xiàn)本文方法的可行性;②分類方式靈活,可以通過調(diào)整其核函數(shù)進行線性分類和非線性分類.由于無法提前判斷兩種模型的輸出是否是線性可分的,SVM的分類方式相較于其他分類算法更加適合作為本階段的分類器.
常規(guī)的SVM通過繪制最大間隔的超平面進行分類,但這種方法無法進行非線性分類.由于基于SA 的神經(jīng)網(wǎng)絡(luò)和DNN的輸出結(jié)果可能出現(xiàn)線性不可分的情況,設(shè)置SVM的核函數(shù)以進行非線性分類.本方法構(gòu)建的SVM模型利用線性核(linear)、多項式核(poly)和高斯核(rbf)對基于SA的神經(jīng)網(wǎng)絡(luò)和DNN 的輸出結(jié)果進行分類.在訓(xùn)練完成的SVM模型中,輸入基于SA的神經(jīng)網(wǎng)絡(luò)和DNN輸出的漏洞存在概率,輸出漏洞檢測的最終結(jié)果.
4實驗設(shè)計及結(jié)果分析
4.1評價指標
本文采用準確率、精確率、召回率、F1-Score、誤報率、漏報率6個指標對提出的漏洞檢測模型進行評價.為計算上述6個評價指標,需要在實驗中收集以下4種數(shù)據(jù):①真正類(True Positive,TP)即被正確分類的有漏洞樣本數(shù)量;②假正類(False Positive,F(xiàn)P)即不含漏洞樣本被誤報的數(shù)量;③假負類(False Negative,F(xiàn)N)即未被成功檢測的漏洞樣本數(shù)量;④真負類(True Negative,TN)即不存在漏洞的樣本被準確判斷的數(shù)量.6個評價指標的定義如下.
1)準確率A :準確分類的樣本占總樣本的比例.
2)精確率P在所有被判斷為存在漏洞的樣本中,判斷正確的樣本比例.
3)召回率R:被成功檢測出的漏洞樣本占所有漏洞樣本的比例.
4)F 1-Score:精確率和召回率的調(diào)和平均值,反映模型整體表現(xiàn)情況.
5)誤報率FPR:無漏洞樣本被誤報的比例.
6)漏報率FNR:漏洞樣本中未被檢測出的樣本所占比例,F(xiàn)NR=1-R.
4.2實驗與結(jié)果分析
為驗證本文方法的性能,將本文方法與基于源代碼文本結(jié)構(gòu)化表征的漏洞檢測方法[8]、基于文本線性表征的漏洞檢測方法[7]和基于代碼度量的漏洞檢測方法[3]進行對比實驗.具體實驗環(huán)境配置如表3所示.
4.2.1檢測模型構(gòu)建及性能評估
本文提出的基于結(jié)構(gòu)化文本及代碼度量的漏洞檢測方法,綜合了源代碼文本的結(jié)構(gòu)化表征和代碼度量兩種表征方式.因此模型的構(gòu)造需要分三步進行:①基于SA的神經(jīng)網(wǎng)絡(luò)訓(xùn)練及測試;②DNN模型訓(xùn)練及測試;③SVM模型訓(xùn)練及測試,其中SVM模型的輸出結(jié)果是本文檢測方法的最終結(jié)果.訓(xùn)練及測試所需數(shù)據(jù)集如表1所示,將表1中收集的測試用例進行分割,得到訓(xùn)練集和測試集.
1)基于SA的神經(jīng)網(wǎng)絡(luò)訓(xùn)練及測試.本文利用基于SA的神經(jīng)網(wǎng)絡(luò)進行代碼結(jié)構(gòu)化文本特征的學(xué)習(xí).為驗證SA機制在捕獲代碼結(jié)構(gòu)化文本長期依賴能力優(yōu)于其他神經(jīng)網(wǎng)絡(luò),與其他4種神經(jīng)網(wǎng)絡(luò)進行對比實驗,分別為:CNN、LSTM、BLSTM、GRU.對上述模型進行訓(xùn)練,經(jīng)過測試分別得到5種模型的性能指標,實驗結(jié)果如圖5~圖10所示.
由圖5~圖10可見,基于SA的神經(jīng)網(wǎng)絡(luò)在測試集上的準確率和精確率較高且誤報率較低,這說明與采用其他4種神經(jīng)網(wǎng)絡(luò)模型相比,基于SA的神經(jīng)網(wǎng)絡(luò)模型對源代碼的結(jié)構(gòu)化文本特征擬合效果更好.并且基于SA的神經(jīng)網(wǎng)絡(luò)F 1-Score保持在較高的水平,這說明該神經(jīng)網(wǎng)絡(luò)在利用結(jié)構(gòu)化文本特征進行漏洞檢測時的整體表現(xiàn)優(yōu)于其他模型.由圖6~ 圖11的曲線趨勢可見,基于SA的神經(jīng)網(wǎng)絡(luò)在面對不同漏洞類型的表現(xiàn)也較為穩(wěn)定.綜上可知,基于SA 的神經(jīng)網(wǎng)絡(luò)能夠充分擬合源代碼結(jié)構(gòu)化文本和漏洞存在之間的聯(lián)系,比其他神經(jīng)網(wǎng)絡(luò)更加適合基于文本結(jié)構(gòu)化表征的漏洞檢測任務(wù).
2)DNN測試及訓(xùn)練.針對代碼度量特征,采用DNN構(gòu)建一個漏洞檢測模型,其在測試數(shù)據(jù)上的實驗結(jié)果如表4所示.
實驗結(jié)果表明,基于代碼度量的方式雖然準確率較高,但漏報率極高.例如,在對CWE129的檢測準確率達到81.93%的前提下,漏報率達到69.09%.表明代碼度量表征方法對存在漏洞的代碼表征效果不好,導(dǎo)致檢測結(jié)果出現(xiàn)偏差.可見,采用這種粗粒度的表征方式只適用于粗略判斷源代碼是否存在漏洞,不能準確檢測源代碼的漏洞.因此代碼度量在一定程度上能夠判斷代碼的健康狀況,但僅依靠代碼度量不能充分表示漏洞代碼的特性.
3)SVM模型訓(xùn)練及測試.在前序?qū)嶒炛?,通過對結(jié)構(gòu)化文本特征和代碼度量特征訓(xùn)練,得到2種不同維度的檢測模型.在本實驗中,將測試數(shù)據(jù)輸入2 種檢測模型分別得出源代碼存在漏洞的概率,以2個神經(jīng)網(wǎng)絡(luò)檢測模型的輸出作為新的特征,采用SVM進行決策分類,得到最終檢測結(jié)果,即判斷漏洞是否存在.通過調(diào)整核函數(shù)利用SVM進行線性分類和非線性分類.本文分別使用線性核(linear)、多項式核(poly)和高斯核(rbf)對上述兩種檢測模型的輸出作進一步分類.以CWE113漏洞為例說明分類過程,不同核函數(shù)的SVM決策邊界如圖11所示.
圖11(a)是基于SA的檢測模型和DNN檢測模型的輸出散點圖,圖1(a)~圖11(d)中的每一個點表示測試數(shù)據(jù)集中的一個函數(shù)片段,圓點表示該函數(shù)真實存在漏洞,“x”點表示該函數(shù)不存在漏洞.圖中橫坐標表示基于結(jié)構(gòu)化文本特征的檢測模型輸出的漏洞存在概率,縱坐標表示基于代碼度量的檢測模型輸出的漏洞存在概率.例如靠近右上角的點表示基于SA的檢測模型和DNN檢測模型都判斷該函數(shù)有很大概率存在漏洞.圖11(1))~圖11(d)分別表示SVM中3種不同核函數(shù)的決策邊界.SVM模型的具體評估結(jié)果如表5~表7所示.
由表5~表7可見,經(jīng)過SVM的進一步分類決策,漏洞檢測的各項指標均有大幅提升,但是對于不同核函數(shù)的SVM分類結(jié)果相差不大.出現(xiàn)這種現(xiàn)象的原因是,在CWE113測試數(shù)據(jù)中,基于SA的神經(jīng)網(wǎng)絡(luò)和DNN的輸出是線性可分的.但是本文方法在應(yīng)用過程中,由于漏洞類型的多樣性和源代碼的復(fù)雜性,無法保證基于SA的神經(jīng)網(wǎng)絡(luò)和DNN的輸出都是線性可分的,因此本文方法采用三種不同核函數(shù)進行分類.對比表4-表7以及圖5~圖10中的數(shù)據(jù)可見,本文方法在結(jié)構(gòu)化表征方法和代碼度量方法的基礎(chǔ)上,提高了準確率、精確率和召回率.
4.2.2對比檢測實驗
為驗證本文提出方法的優(yōu)越性,將本文方法和基于文本結(jié)構(gòu)化表征的漏洞檢測方法[8]、基于代碼度量的漏洞檢測方法[3]、基于線性文本表征的漏洞檢測方法Achilles[7]進行對比實驗.其中基于結(jié)構(gòu)化文本的方法采用的是基于SA機制的神經(jīng)網(wǎng)絡(luò)模型、基于代碼度量的方法采用DNN模型、基于線性文本的方法采用LSTM模型.分別搭建上述4種檢測模型,在相同數(shù)據(jù)集下進行訓(xùn)練和測試,4種模型的漏洞檢測準確率對比結(jié)果如圖12所示.
從圖12可見,基于代碼度量的方法、基于結(jié)構(gòu)化表征的方法和Achilles對不同漏洞的檢測平均準確率分別為85.75%、93.07%和92.18%,本文方法對不同漏洞的檢測平均準確率為97.96%,均高于其他3種方法.本文方法能夠取得較好的漏洞檢測效果,有以下兩個原因:①本文方法從源代碼結(jié)構(gòu)文本信息以及代碼度量兩個維度對源代碼進行表征,相比于單一表征方法,本文的表征方法更加全面;②文本信息特征是漏洞檢測過程中較為重要的特征,本文所構(gòu)建的基于SA的神經(jīng)網(wǎng)絡(luò),能夠較好地捕捉文本信息中的長期依賴關(guān)系.
5結(jié)束語
為進一步提高源代碼漏洞檢測準確率,降低誤報率,本文提出一種基于結(jié)構(gòu)化文本及代碼度量的漏洞檢測方法.通過代碼度量和結(jié)構(gòu)化文本兩種表征方法對源代碼進行表征,利用神經(jīng)網(wǎng)絡(luò)模型進行特征學(xué)習(xí)以構(gòu)造漏洞檢測模型,進行漏洞檢測.實驗結(jié)果表明本文提出的方法有較好的檢測效果.
本文方法僅從兩個維度對源代碼進行表征,考慮的表征維度仍不夠全面.未來的工作重點是發(fā)掘更多適合漏洞檢測的源代碼表征方式,改進表征方式以獲得更優(yōu)的檢測性能.
參考文獻
[1] LI Z J,SHAO Y. A survey of feature selection for vulnerability prediction using feature-based machine learning [C]//Proceedings of the 2019 11th International Conference on Machine Learning and Computing-ICMLC,19. New York:ACM Press,2019:36-42.
[2] HORCH J W. Metrics and models in software quality engineering [J]. Control Engineering Practice,1996,4(9):1333-1334.
[3] FERENC R,HEGEDUS P,GYIMESI P,et al. Challenging machine learning algorithms in predicting vulnerable JavaScript functions [C]//2019 IEEE/ACM 7th International Workshop on Realizing Artificial Intelligence Synergies in Software Engineering (RAISE). Montreal,QC,Canada:IEEE,2019:8-14.
[4] SULTANA K Z. Towards a software vulnerability prediction model using traceable code patterns and software metrics[ C]//2017 32ndIEEE/ACM International Conference on Automated Software Engineering (ASE). Urbana,IL,USA:IEEE,2017:1022-1025.
[5] YANG H Y,ZENG R Y,XU G Q,et al. A network security situation assessment method based on adversarial deep learning[J].Applied Soft Computing,202 102:107096.
[6]LI Z,ZOU D Q,XU S H,et al.VulPecker:an automated vulnerability detection system based on code similarity analysis[C]//Proceedings of the 32nd Annual Conference on Computer Security Applications. New York:ACM,2016:201-213.
[7] SACCENTE N,DEHLINGER J,DENG L,et al. Project Achilles:a prototype tool for static method-level vulnerability detection of Java source code using a recurrent neural network[ C]//2019 34th IEEE/ACM International Conference on Automated Software Engineering Workshop(ASEW)San Diego,CA,USA:IEEE,2019:114-121
[8]陳肇炫,鄒德清,李珍,等.基于抽象語法樹的智能化漏洞檢測系統(tǒng)[J].信息安全學(xué)報,2020,5(4):1-13.
CHEN Z X,ZOU D Q,LI Z,et al Intelligent vulnerability detection system based on abstract syntax tree[J]. Journal of Cyber Security,2020,5(4):1-13 (In Chinese)
[9]ZHENG J Y,PANG J M,ZHANG X C,et al. Recurrent neural network based binary code vulnerability detection[C]//Proceedings of the 2019 2nd International Conference on Algorithms,Computing and Artificial Intelligence New York:ACM,2019:160-165
[10]楊鑫.基于語義學(xué)習(xí)的二進制漏洞代碼克隆檢測[D].北京:清華大學(xué),2019.
YANG X Semantic learning based binary vulnerability code clone detection[D]. Beijing:Tsinghua University,2019.(In Chinese)
[11]梅瑞,嚴寒冰,沈元,等.二進制代碼切片技術(shù)在惡意代碼檢測中的應(yīng)用研究[J].信息安全學(xué)報,202 6(3):125-140.
MEI R,YAN H B,SHEN Y,et al Application research of slicing technology of binary executables in malware detection[J] Journal of Cyber Security,202 6(3):125-140 (In Chinese)
[12] BOLAND JR F E,BLACK P E. Juliet 1.1 C/C++ and Java test suite[OL].[Accessed:May 2021]. https://www.nist.gov/publications/juliet-11-cc-and-java-test-suite.
[13] MITRE. MITRE Common Weakness Enumeration (CWE)[OL]. [Accessed:May 2019] . https://cwe.mitre.org/.
[14] THUNES C.Javalang 0.13.0 [OL]. [Accessed:May-2020] https://github.com/c2nes/javalang.
[15]劉煒.基于機器學(xué)習(xí)的代碼漏洞檢測機制研究與應(yīng)用[D].成都:電子科技大學(xué),2018.
LIU W Research and application of machine learning based code vulnerability detection mechanism[D] Chengdu:University of Electronic Science and Technology of China,2018 (In Chinese)
[16] MAURICIO A. CK[OL]. [Accessed:May 2021] . https://github. com/mauricioaniche/ck.
[17] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//Advances in Neural Information Processing Systems. 2017:5998-6008.
湖南大學(xué)學(xué)報·自然科學(xué)版2022年4期