国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測

2021-04-20 14:07蔣考林潘志松郭世澤
計(jì)算機(jī)應(yīng)用 2021年4期
關(guān)鍵詞:準(zhǔn)確率代碼神經(jīng)網(wǎng)絡(luò)

蔣考林,白 瑋,張 磊,陳 軍,潘志松,郭世澤

(陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007)

0 引言

惡意代碼已經(jīng)成為網(wǎng)絡(luò)空間的主要威脅來源之一。近年來,全球信息安全事故頻發(fā),能源、電力、通信、交通等基礎(chǔ)設(shè)施不斷遭受攻擊,特別是高級持續(xù)攻擊(Advanced Persistent Threat,APT)的不斷涌現(xiàn),嚴(yán)重威脅國家安全與社會穩(wěn)定。2019 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告[1]顯示,全年捕獲計(jì)算機(jī)惡意程序樣本數(shù)量超過6 200 萬個(gè),日均傳播次數(shù)達(dá)824 萬余次,涉及66萬余個(gè)惡意程序類,包含73.1萬余個(gè)勒索病毒,而僅僅由其中GandCrab 病毒造成的經(jīng)濟(jì)損失就達(dá)20 億美元。當(dāng)前惡意代碼日益泛濫,亟須一種高效準(zhǔn)確的惡意代碼檢測分析技術(shù)。

惡意代碼檢測方法按照是否執(zhí)行代碼可以分為靜態(tài)檢測和動(dòng)態(tài)檢測。靜態(tài)檢測在不執(zhí)行任何代碼的情況下,對代碼文件的內(nèi)容和結(jié)構(gòu)進(jìn)行分析[2];動(dòng)態(tài)檢測將程序加載到實(shí)驗(yàn)環(huán)境中運(yùn)行,監(jiān)測程序的運(yùn)行時(shí)狀態(tài),提取其行為特征,確定代碼的惡意性[3-4]。靜態(tài)檢測通過代碼低層語義來判斷其所有的執(zhí)行特性,存在復(fù)雜度高、狀態(tài)爆炸等問題,難以應(yīng)對復(fù)雜軟件,以及加密與混淆等反檢測手段。動(dòng)態(tài)檢測根據(jù)代碼執(zhí)行時(shí)所反映出的行為特性,判斷其是否存在惡意行為,但無法保證檢測的完全性。同時(shí),無論是靜態(tài)檢測還是動(dòng)態(tài)檢測,均大量依賴富有經(jīng)驗(yàn)的分析人員和專業(yè)復(fù)雜的實(shí)驗(yàn)環(huán)境與工具,人工成本、經(jīng)濟(jì)成本均較高,難以滿足互聯(lián)網(wǎng)時(shí)代大規(guī)模的惡意代碼檢測需求。

近年來,隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)方法已代替?zhèn)鹘y(tǒng)方法成為惡意代碼識別的研究熱點(diǎn)。深度學(xué)習(xí)被廣泛用于惡意代碼檢測[5],它從大量的惡意代碼樣本中提取惡意代碼的特征,并利用這些特征進(jìn)行分類,得到惡意代碼識別模型,具有自動(dòng)化程度高、資源消耗低等顯著優(yōu)點(diǎn);但是現(xiàn)有基于深度學(xué)習(xí)的檢測模型,還存在深層次特征提取能力偏弱、模型相對復(fù)雜、模型泛化能力不足等問題,需要進(jìn)一步探索和研究。針對以上問題,本文提出了一種基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測模型,該模型將惡意代碼轉(zhuǎn)化為彩色圖像,利用基于AlexNet[6]的神經(jīng)網(wǎng)絡(luò)模型,綜合多通道圖像特征提取、局部響應(yīng)歸一化(Local Response Normalization,LRN)等技術(shù),在有效降低模型復(fù)雜度的基礎(chǔ)上,提升了惡意代碼的檢測性能。

1 相關(guān)工作

惡意代碼檢測問題一直廣受研究人員的關(guān)注,這些工作可以分為傳統(tǒng)檢測方法和基于深度學(xué)習(xí)的檢測方法。

1.1 傳統(tǒng)惡意代碼檢測方法

傳統(tǒng)檢測方法在早期的惡意代碼檢測中發(fā)揮了重要作用。靜態(tài)檢測方法[7]所提取的特征主要來源于可執(zhí)行文件及其反匯編文件的字節(jié)碼、匯編指令、導(dǎo)入函數(shù)和分節(jié)信息等,但是該方法對使用了混淆技術(shù)的惡意代碼作用有限[8]。動(dòng)態(tài)檢測能克服代碼混淆技術(shù)的影響,如:Nikolopoulos等[9]利用動(dòng)態(tài)污點(diǎn)追蹤技術(shù),分析代碼的系統(tǒng)調(diào)用依賴圖來檢測未知軟件的惡意性,依賴圖中的頂點(diǎn)代表系統(tǒng)調(diào)用,邊代表系統(tǒng)調(diào)用之間依賴關(guān)系,這樣就將代碼的行為映射成了一張圖,再利用圖的相似性度量關(guān)系進(jìn)行惡意代碼檢測。Han 等[10]提出利用應(yīng)用程序接口(Application Programming Interface,API)調(diào)用產(chǎn)生的臨時(shí)信息來進(jìn)行惡意代碼檢測,該方法數(shù)據(jù)空間大,分析過程復(fù)雜,效果穩(wěn)定性較差,并且基于API調(diào)用的檢測方法對運(yùn)行在內(nèi)核態(tài)的惡意代碼無能為力[11]。秦中元等[12]提出了一種基于多級簽名匹配的檢測方法,需要實(shí)時(shí)地更新惡意樣本庫,然而惡意代碼的種類和數(shù)量較多,這使得該方法較為復(fù)雜,有效性難以保證。CWSandbox[13]工具將程序加載到Windows 沙箱中運(yùn)行,通過提取程序運(yùn)行時(shí)特征來識別惡意代碼,但是搭建這樣的仿真環(huán)境較為復(fù)雜,資源消耗較大;另外,可以識別當(dāng)前環(huán)境是否為沙箱環(huán)境的惡意代碼,能夠在沙箱環(huán)境中不執(zhí)行惡意片段,從而躲避CWSandbox 工具的分析[14]。

由于傳統(tǒng)的惡意代碼檢測方法依賴逆向工程且檢測成本高,嚴(yán)重影響了惡意代碼的識別準(zhǔn)確率和速度,所以深度學(xué)習(xí)方法因其能夠快速提取惡意代碼特征而逐漸成為主流方法,人們對其進(jìn)行了廣泛的研究,有效促進(jìn)了惡意代碼檢測技術(shù)的發(fā)展。

1.2 基于深度學(xué)習(xí)的惡意代碼檢測方法

基于深度學(xué)習(xí)的檢測方法一般流程如圖1所示。

圖1 基于深度學(xué)習(xí)的檢測方法的一般流程Fig.1 General flowchart of deep learning-based detection method

其中特征提取和模型搭建是深度學(xué)習(xí)檢測方法中的關(guān)鍵步驟。人們對惡意代碼的不同特征進(jìn)行了廣泛研究,Ki 等[15]利用代碼執(zhí)行時(shí)的系統(tǒng)調(diào)用關(guān)系圖作為程序的特征,用機(jī)器學(xué)習(xí)代替人工分析,雖然仍有執(zhí)行路徑不完全的問題,但大大提升了圖分析的效率。Park等[16]研究了基于檢測行為圖中最大公共子圖的惡意軟件分類方法,并在含有6 類惡意軟件的300 個(gè)樣例中驗(yàn)證了他的結(jié)果。Kim 等[17]利用多模態(tài)神經(jīng)網(wǎng)絡(luò)檢測安卓惡意代碼,該模型從代碼的靜態(tài)特征中提取程序的屬性,實(shí)驗(yàn)結(jié)果表明,此方法對安卓惡意代碼有較好的檢測效果。榮俸萍等[18]使用模式挖掘算法得到API調(diào)用序列并結(jié)合隨機(jī)森林模型來識別惡意代碼,該方法在改進(jìn)的沙箱環(huán)境中能有效檢測逃避性樣本。Nataraj等[19]提出將惡意軟件轉(zhuǎn)換成灰度圖,提取圖像的全局信息特征,使用K近鄰(K-Nearest Neighbor,KNN)算法進(jìn)行惡意代碼檢測,實(shí)驗(yàn)結(jié)果表明該方法能有效地識別惡意代碼,且能抵御一般的代碼混淆技術(shù);但灰度圖每個(gè)像素點(diǎn)包含的信息較少,圖像特征不明顯,不能很好地反映惡意代碼的特性。王博等[7]提出將惡意代碼轉(zhuǎn)化為彩色圖片,利用VGGNet 生成惡意樣本分類模型,對識別準(zhǔn)確率有一定提升;但是該模型過于復(fù)雜、參數(shù)量大,存在訓(xùn)練效率不高的問題。為此,本文提出一種基于多通道圖像和AlexNet的深度學(xué)習(xí)檢測方法,主要解決了惡意代碼深層次特征提取和神經(jīng)網(wǎng)絡(luò)模型高效預(yù)測的問題,并通過測試與分析,驗(yàn)證了該模型具有特征提取能力強(qiáng)、結(jié)構(gòu)簡單、訓(xùn)練效率高、識別準(zhǔn)確率高、速度快等優(yōu)勢。

2 基于多通道圖像深度學(xué)習(xí)的惡意代碼識別方法

2.1 基本結(jié)構(gòu)

基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測方法總體流程包括:惡意代碼樣本可視化處理,神經(jīng)網(wǎng)絡(luò)模型構(gòu)建,以及神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試。整體流程如圖2。

圖2 惡意代碼識別的整體流程Fig.2 Overall flowchart of malicious code detection

整個(gè)框架包含五個(gè)部分:1)代碼可視化,是指將待檢測代碼文件轉(zhuǎn)化為多通道圖像,獲得圖片格式的數(shù)據(jù)集。2)數(shù)據(jù)預(yù)處理,由于深度學(xué)習(xí)模型對數(shù)據(jù)集的要求較高,對數(shù)據(jù)集進(jìn)行預(yù)處理以適應(yīng)深度學(xué)習(xí)模型,例如,對圖片大小標(biāo)準(zhǔn)化,對數(shù)據(jù)集進(jìn)行均衡處理等。3)構(gòu)建神經(jīng)網(wǎng)絡(luò),即針對惡意代碼檢測任務(wù),構(gòu)建能提取惡意代碼特征的神經(jīng)網(wǎng)絡(luò)。4)模型訓(xùn)練與參數(shù)調(diào)優(yōu),即利用訓(xùn)練數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,逐步調(diào)優(yōu)參數(shù)。5)模型測試,即利用測試數(shù)據(jù)對訓(xùn)練好的模型進(jìn)行測試,并根據(jù)結(jié)果評價(jià)模型。

2.2 代碼可視化

現(xiàn)在大量的惡意代碼都使用代碼復(fù)用技術(shù),一些關(guān)鍵的代碼塊被重復(fù)使用,因此同類代碼常常含有相同的模塊,代碼存在相似性,而不同類代碼存在相異性。圖像紋理特征能有效反映這種相似性和差異性。每個(gè)可執(zhí)行文件都以二進(jìn)制形式存儲在磁盤中,將二進(jìn)制碼按照字節(jié)重新編碼,選取連續(xù)的3個(gè)字節(jié),分別對應(yīng)于多通道彩色圖中的R、G、B 三色通道,重復(fù)這一過程直到所有的數(shù)據(jù)都被選取完畢,最末端數(shù)據(jù)量不足3 字節(jié)的,用0 補(bǔ)足。例如,52D586=(R:82,G:213,B:134),AA3033=(R:170,G:48,B:51)。將代碼文件轉(zhuǎn)化為一維的像素序列后,將像素序列進(jìn)行正方化,得到一張彩色圖片。圖3 是可執(zhí)行文件被轉(zhuǎn)化為RGB 圖像的流程:圖3(a)為某一惡意代碼的可執(zhí)行文件數(shù)據(jù);圖3(b)為將可執(zhí)行文件按照字節(jié)重新編碼后的像素序列;圖3(c)為將像素序列正方化后得到的彩色圖片。

圖3 可執(zhí)行文件生成RGB圖像的流程Fig.3 Flowchart of generating RGB image from executable file

2.3 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建

基于AlexNet模型構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)總共僅有8 層是可訓(xùn)練的:5 個(gè)卷積層和3 個(gè)全連接層;另外5 個(gè)是不可訓(xùn)練層:2 個(gè)局部響應(yīng)歸一化層LRN 和3 個(gè)池化層。圖4 展示了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),其中網(wǎng)絡(luò)的輸入為RGB 圖像,輸出結(jié)果為代碼的類別,C1、C2、C3、C4、C5為卷積層,P1、P2、P3為池化層,LRN1、LRN2為局部響應(yīng)歸一化層,F(xiàn)1、F2為全連接層。

圖4 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.4 Structure of neural network

LRN 層是AlexNet 模型特有的結(jié)構(gòu),該層引入了橫向抑制,將激活函數(shù)得到的結(jié)果進(jìn)行歸一化,能提高神經(jīng)網(wǎng)絡(luò)的泛化性能,其歸一化方法為:

表1 神經(jīng)網(wǎng)絡(luò)各層的詳細(xì)參數(shù)Tab.1 Detailed parameters of each layer of neural network

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

在惡意代碼數(shù)據(jù)集Malimg[20]上進(jìn)行了實(shí)驗(yàn),此數(shù)據(jù)集包含來自25 個(gè)不同惡意軟件類型的9 339 個(gè)惡意代碼樣本,類別信息及各類樣本數(shù)如表2所示。Malimg 數(shù)據(jù)集數(shù)據(jù)有嚴(yán)重的分布不均衡現(xiàn)象,最多的Allaple.A 類有2 949 個(gè)樣本,最少的Skintrim.N 類只有80 個(gè)樣本,在訓(xùn)練過程中會引起過擬合現(xiàn)象,導(dǎo)致模型的健壯性和準(zhǔn)確性降低。因此必須對數(shù)據(jù)進(jìn)行均衡處理,數(shù)據(jù)均衡技術(shù)主要有數(shù)據(jù)增強(qiáng)和降采樣等技術(shù),實(shí)驗(yàn)中所用的是經(jīng)過均衡處理后的數(shù)據(jù),其中每一類的樣本數(shù)都為400。

表2 Malimg數(shù)據(jù)集惡意軟件類型及樣本數(shù)Tab.2 Malware types and sample numbers of malimg dataset

3.2 實(shí)驗(yàn)過程

實(shí)驗(yàn)任務(wù)分為三個(gè):第一個(gè)是比較多個(gè)惡意樣本類的可視化效果;第二個(gè)是對模型進(jìn)行訓(xùn)練并測試其對惡意代碼的檢測能力;第三個(gè)是將本文方法與其他方法進(jìn)行比較分析。

3.2.1 可視化效果比較(實(shí)驗(yàn)1)

為驗(yàn)證特征的有效性,將Malimg 中各樣本轉(zhuǎn)化成多通道圖像,觀察各惡意代碼生成的多通道圖像的紋理特征。

3.2.2 模型的訓(xùn)練與測試(實(shí)驗(yàn)2)

模型訓(xùn)練最大迭代次數(shù)為3 600,批處理樣本數(shù)為32,初始權(quán)值隨機(jī),優(yōu)化器為Adam,學(xué)習(xí)率取經(jīng)驗(yàn)值0.001,損失函數(shù)為交叉熵?fù)p失。將Malimg 數(shù)據(jù)集分成10 份,進(jìn)行10 次實(shí)驗(yàn),每次實(shí)驗(yàn)取其中1 份輪流作為測試集,其余9 份作為訓(xùn)練集,最終實(shí)驗(yàn)結(jié)果為這10 次實(shí)驗(yàn)結(jié)果的平均值。測試集樣本數(shù)為1 000,每類40個(gè),占總樣本數(shù)的10%。

3.2.3 模型的比較分析(實(shí)驗(yàn)3)

為驗(yàn)證本文方法對惡意代碼檢測效果的提升情況,將其與基線方法進(jìn)行比較。

1)基線方法。

Fu 等[21]將惡意代碼轉(zhuǎn)化為灰度圖,利用KNN-3 算法進(jìn)行分類識別;Cui 等[22]將惡意代碼轉(zhuǎn)化為灰度圖,利用自建卷積神經(jīng)網(wǎng)絡(luò)識別惡意代碼;而王博等[7]將惡意代碼轉(zhuǎn)化為彩色圖,利用基于VGG16 的卷積神經(jīng)網(wǎng)絡(luò)模型提取特征,實(shí)現(xiàn)惡意代碼的檢測。

另外,為了驗(yàn)證數(shù)據(jù)均衡對模型檢測效果的影響,使用未做數(shù)據(jù)均衡的樣本進(jìn)行實(shí)驗(yàn);為了驗(yàn)證LRN 對神經(jīng)網(wǎng)絡(luò)性能的影響,使用沒有LRN的神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。

2)評價(jià)指標(biāo)。

在評價(jià)多分類問題的模型時(shí),通常將其拆分成多個(gè)二分類問題。如果原多分類問題將樣本分為c類,則在第i個(gè)二分類問題中,第i類作為正樣本,其余類作為負(fù)樣本,這樣就將原多分類問題分解為c個(gè)二分類問題,原多分類問題的準(zhǔn)確率Acc(Accuracy)、精確率Pre(Precision)、召回率Rec(Recall)和F1值(F1-score)由這c個(gè)二分類問題的各預(yù)測結(jié)果確定。

假定TPi、FPi、FNi和TNi分別是第i個(gè)二分類問題中正確分類為正樣本的數(shù)量、錯(cuò)誤分類為正樣本的數(shù)量、錯(cuò)誤分類為負(fù)樣本的數(shù)量和正確分類為負(fù)樣本的數(shù)量。原多分類模型的評價(jià)指標(biāo),計(jì)算公式如下:

3.3 實(shí)驗(yàn)結(jié)果

3.3.1 實(shí)驗(yàn)1結(jié)果

觀察圖5~6 可以發(fā)現(xiàn),多通道圖像能反映惡意代碼之間的相似性和相異性。

圖5 Fakerean類惡意代碼生成圖Fig.5 Generation diagrams of fakerean malicious codes

圖5 展示了Fakerean 惡意代碼類內(nèi)的4 個(gè)不同樣本實(shí)例的生成圖,可以看出它們之間有高度的相似性。

圖6 四類惡意代碼生成圖Fig.6 Generation diagrams of four types of malicious codes

同時(shí),圖6 展示了不同惡意代碼類的樣本實(shí)例,可以看出在不同類之間,惡意代碼的生成圖具有明顯的差異。

3.3.2 實(shí)驗(yàn)2結(jié)果

在訓(xùn)練過程中損失值逐漸減小,準(zhǔn)確率逐漸增大。圖7展示了損失值隨訓(xùn)練輪次的增加而減小的變化曲線,前500輪期間,模型快速收斂,到3 000 輪后損失值接近于0,且趨于穩(wěn)定;圖8 展示了準(zhǔn)確率隨訓(xùn)練輪次的增加而增大的變化曲線,前1 000 輪期間準(zhǔn)確率增大較快,3 000 輪后接近于1,且趨于穩(wěn)定。

圖7 訓(xùn)練過程中損失值的變化曲線Fig.7 Change curve of loss value during training

圖8 訓(xùn)練過程中準(zhǔn)確率的變化曲線Fig.8 Change curve of accuracy during training

圖9展示了本文方法的測試結(jié)果,為10次實(shí)驗(yàn)的平均值,四舍五入取整數(shù)。

3.3.3 實(shí)驗(yàn)3結(jié)果

表3 展示了本文方法與對比方法的比較結(jié)果。對照組1是未使用LRN 層的模型在均衡處理后的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),對照組2 是使用了LRN 層的模型在原始Malimg 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),實(shí)驗(yàn)組是使用了LRN 層的模型在均衡處理后的數(shù)據(jù)集的實(shí)驗(yàn)。

圖9 模型測試結(jié)果Fig.9 Model test results

表3 不同方法的實(shí)驗(yàn)結(jié)果對比Tab.3 Experimental results comparison of different methods

4 結(jié)果分析

4.1 代碼可視化效果比較

相同類惡意樣本的彩色圖像紋理特征具有相似性,不同類惡意代碼樣本的彩色紋理特征存在相異性,這驗(yàn)證了多通道圖像能夠反映惡意代碼的代碼復(fù)用特性。

4.2 訓(xùn)練模型與測試模型

圖7 顯示在訓(xùn)練中模型收斂速度較快,這是由于模型采用了結(jié)構(gòu)較簡單的神經(jīng)網(wǎng)絡(luò)。圖8 顯示預(yù)測準(zhǔn)確率最終穩(wěn)定在一個(gè)較高水平,說明該方法能很好地提取多通道圖像的紋理特征。圖9 測試結(jié)果顯示,大多數(shù)的樣本能夠被很好地預(yù)測,只有少量的樣本預(yù)測錯(cuò)誤,其中錯(cuò)誤較多的兩類為:1)Swizzor.gen!I 類有8 個(gè)樣本被錯(cuò)誤地預(yù)測為Swizzor.gen!E 類;2)C2Lop.gen!g 類有3 個(gè)樣本被錯(cuò)誤地預(yù)測為C2Lop.P 類??梢园l(fā)現(xiàn)預(yù)測錯(cuò)誤主要發(fā)生在屬于同一大類的兩子類之間,這是由于同一大類的兩個(gè)子類具有同源性,它們之間的差異比其他的類間差異要小很多。這也說明了惡意代碼的類別特征已經(jīng)被模型很好地捕捉到了,并且模型能夠利用這些特征進(jìn)行惡意代碼類別預(yù)測。最后由圖9 中的測試結(jié)果計(jì)算出此模型的準(zhǔn)確率、精確率、召回率和F1 值分別為97.8%、97.8%、98.0%和97.8%。

4.3 比較分析實(shí)驗(yàn)

表3 顯示本文方法比其他對比方法的識別性能都要好。對比文獻(xiàn)[21-22]方法和文獻(xiàn)[7]以及實(shí)驗(yàn)組方法可以發(fā)現(xiàn),多通道圖像優(yōu)于灰度圖特征,這是因?yàn)槎嗤ǖ缊D像單個(gè)像素所包含的信息比灰度圖多,能更好地反映惡意代碼的類別特征;分析實(shí)驗(yàn)組和對照組1可以發(fā)現(xiàn),使用了LRN 層的模型具有更高的準(zhǔn)確率,提升了1.2 個(gè)百分點(diǎn),但是識別效率有所下降,這說明LRN 層能增加了模型泛化能力,使其能更有效地提取圖像紋理特征,提高預(yù)測準(zhǔn)確率;LRN層的計(jì)算也需要消耗一定的時(shí)間,但是對于惡意代碼檢測任務(wù)來說,準(zhǔn)確率是更重要的指標(biāo),且使用LRN 層的時(shí)間消耗也是可以接受的,所以使用LRN層是值得的。

對比文獻(xiàn)[7]方法和實(shí)驗(yàn)組可以發(fā)現(xiàn),相對于VGGNet 網(wǎng)絡(luò),本文方法使用基于AlexNet 的神經(jīng)網(wǎng)絡(luò)具有更好的效果,識別準(zhǔn)確率提升了1.8%;而且該模型結(jié)構(gòu)簡單,使檢測時(shí)間明顯縮短,檢測效率有很大提升,檢測效率提升了60.2%;分析對照組2 和實(shí)驗(yàn)組可以發(fā)現(xiàn),對數(shù)據(jù)集作均衡處理能防止模型過擬合,充分發(fā)揮模型的學(xué)習(xí)能力,提高預(yù)測精確率和召回率,并且在不均衡的數(shù)據(jù)集上準(zhǔn)確率無法很好地衡量模型的性能;因此,在實(shí)際應(yīng)用中訓(xùn)練此模型時(shí),應(yīng)控制訓(xùn)練集中各類樣本的數(shù)量大致相等。

5 結(jié)語

本文提出了一種基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測方法。首先,該方法將惡意代碼轉(zhuǎn)化為圖像特征更加明顯的多通道圖像;然后,利用帶有LRN 層的神經(jīng)網(wǎng)絡(luò)模型提取多通道圖像的彩色紋理特征;最后,利用均衡處理后的Malimg數(shù)據(jù)集訓(xùn)練得到惡意代碼檢測模型。實(shí)驗(yàn)結(jié)果表明,該方法在識別準(zhǔn)確率和識別速度上都優(yōu)于對比方法。本文工作的不足在于,當(dāng)數(shù)據(jù)集中不同分類粒度的類同時(shí)存在時(shí),此模型對粒度較細(xì)的樣本類預(yù)測準(zhǔn)確率會略有下降,因此下一步將引入多層級分類機(jī)制,使模型能夠應(yīng)對不同分類粒度惡意代碼混雜情況下的檢測問題。

猜你喜歡
準(zhǔn)確率代碼神經(jīng)網(wǎng)絡(luò)
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
神秘的代碼
一周機(jī)構(gòu)凈增(減)倉股前20名