基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測

2021-04-20 14:07蔣考林潘志松郭世澤

計(jì)算機(jī)應(yīng)用 2021年4期

關(guān)鍵詞：準(zhǔn)確率代碼神經(jīng)網(wǎng)絡(luò)

蔣考林，白瑋，張磊，陳軍，潘志松，郭世澤

（陸軍工程大學(xué)指揮控制工程學(xué)院，南京 210007）

0 引言

惡意代碼已經(jīng)成為網(wǎng)絡(luò)空間的主要威脅來源之一。近年來，全球信息安全事故頻發(fā)，能源、電力、通信、交通等基礎(chǔ)設(shè)施不斷遭受攻擊，特別是高級持續(xù)攻擊（Advanced Persistent Threat，APT）的不斷涌現(xiàn)，嚴(yán)重威脅國家安全與社會穩(wěn)定。2019 年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告［1］顯示，全年捕獲計(jì)算機(jī)惡意程序樣本數(shù)量超過6 200 萬個(gè)，日均傳播次數(shù)達(dá)824 萬余次，涉及66萬余個(gè)惡意程序類，包含73.1萬余個(gè)勒索病毒，而僅僅由其中GandCrab 病毒造成的經(jīng)濟(jì)損失就達(dá)20 億美元。當(dāng)前惡意代碼日益泛濫，亟須一種高效準(zhǔn)確的惡意代碼檢測分析技術(shù)。

惡意代碼檢測方法按照是否執(zhí)行代碼可以分為靜態(tài)檢測和動(dòng)態(tài)檢測。靜態(tài)檢測在不執(zhí)行任何代碼的情況下，對代碼文件的內(nèi)容和結(jié)構(gòu)進(jìn)行分析［2］；動(dòng)態(tài)檢測將程序加載到實(shí)驗(yàn)環(huán)境中運(yùn)行，監(jiān)測程序的運(yùn)行時(shí)狀態(tài)，提取其行為特征，確定代碼的惡意性［3-4］。靜態(tài)檢測通過代碼低層語義來判斷其所有的執(zhí)行特性，存在復(fù)雜度高、狀態(tài)爆炸等問題，難以應(yīng)對復(fù)雜軟件，以及加密與混淆等反檢測手段。動(dòng)態(tài)檢測根據(jù)代碼執(zhí)行時(shí)所反映出的行為特性，判斷其是否存在惡意行為，但無法保證檢測的完全性。同時(shí)，無論是靜態(tài)檢測還是動(dòng)態(tài)檢測，均大量依賴富有經(jīng)驗(yàn)的分析人員和專業(yè)復(fù)雜的實(shí)驗(yàn)環(huán)境與工具，人工成本、經(jīng)濟(jì)成本均較高，難以滿足互聯(lián)網(wǎng)時(shí)代大規(guī)模的惡意代碼檢測需求。

近年來，隨著深度學(xué)習(xí)的發(fā)展，深度學(xué)習(xí)方法已代替?zhèn)鹘y(tǒng)方法成為惡意代碼識別的研究熱點(diǎn)。深度學(xué)習(xí)被廣泛用于惡意代碼檢測［5］，它從大量的惡意代碼樣本中提取惡意代碼的特征，并利用這些特征進(jìn)行分類，得到惡意代碼識別模型，具有自動(dòng)化程度高、資源消耗低等顯著優(yōu)點(diǎn)；但是現(xiàn)有基于深度學(xué)習(xí)的檢測模型，還存在深層次特征提取能力偏弱、模型相對復(fù)雜、模型泛化能力不足等問題，需要進(jìn)一步探索和研究。針對以上問題，本文提出了一種基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測模型，該模型將惡意代碼轉(zhuǎn)化為彩色圖像，利用基于AlexNet［6］的神經(jīng)網(wǎng)絡(luò)模型，綜合多通道圖像特征提取、局部響應(yīng)歸一化（Local Response Normalization，LRN）等技術(shù)，在有效降低模型復(fù)雜度的基礎(chǔ)上，提升了惡意代碼的檢測性能。

1 相關(guān)工作

惡意代碼檢測問題一直廣受研究人員的關(guān)注，這些工作可以分為傳統(tǒng)檢測方法和基于深度學(xué)習(xí)的檢測方法。

1.1 傳統(tǒng)惡意代碼檢測方法

傳統(tǒng)檢測方法在早期的惡意代碼檢測中發(fā)揮了重要作用。靜態(tài)檢測方法［7］所提取的特征主要來源于可執(zhí)行文件及其反匯編文件的字節(jié)碼、匯編指令、導(dǎo)入函數(shù)和分節(jié)信息等，但是該方法對使用了混淆技術(shù)的惡意代碼作用有限［8］。動(dòng)態(tài)檢測能克服代碼混淆技術(shù)的影響，如：Nikolopoulos等［9］利用動(dòng)態(tài)污點(diǎn)追蹤技術(shù)，分析代碼的系統(tǒng)調(diào)用依賴圖來檢測未知軟件的惡意性，依賴圖中的頂點(diǎn)代表系統(tǒng)調(diào)用，邊代表系統(tǒng)調(diào)用之間依賴關(guān)系，這樣就將代碼的行為映射成了一張圖，再利用圖的相似性度量關(guān)系進(jìn)行惡意代碼檢測。Han 等［10］提出利用應(yīng)用程序接口（Application Programming Interface，API）調(diào)用產(chǎn)生的臨時(shí)信息來進(jìn)行惡意代碼檢測，該方法數(shù)據(jù)空間大，分析過程復(fù)雜，效果穩(wěn)定性較差，并且基于API調(diào)用的檢測方法對運(yùn)行在內(nèi)核態(tài)的惡意代碼無能為力［11］。秦中元等［12］提出了一種基于多級簽名匹配的檢測方法，需要實(shí)時(shí)地更新惡意樣本庫，然而惡意代碼的種類和數(shù)量較多，這使得該方法較為復(fù)雜，有效性難以保證。CWSandbox［13］工具將程序加載到Windows 沙箱中運(yùn)行，通過提取程序運(yùn)行時(shí)特征來識別惡意代碼，但是搭建這樣的仿真環(huán)境較為復(fù)雜，資源消耗較大；另外，可以識別當(dāng)前環(huán)境是否為沙箱環(huán)境的惡意代碼，能夠在沙箱環(huán)境中不執(zhí)行惡意片段，從而躲避CWSandbox 工具的分析［14］。

由于傳統(tǒng)的惡意代碼檢測方法依賴逆向工程且檢測成本高，嚴(yán)重影響了惡意代碼的識別準(zhǔn)確率和速度，所以深度學(xué)習(xí)方法因其能夠快速提取惡意代碼特征而逐漸成為主流方法，人們對其進(jìn)行了廣泛的研究，有效促進(jìn)了惡意代碼檢測技術(shù)的發(fā)展。

1.2 基于深度學(xué)習(xí)的惡意代碼檢測方法

基于深度學(xué)習(xí)的檢測方法一般流程如圖1所示。

圖1 基于深度學(xué)習(xí)的檢測方法的一般流程Fig.1 General flowchart of deep learning-based detection method

其中特征提取和模型搭建是深度學(xué)習(xí)檢測方法中的關(guān)鍵步驟。人們對惡意代碼的不同特征進(jìn)行了廣泛研究，Ki 等［15］利用代碼執(zhí)行時(shí)的系統(tǒng)調(diào)用關(guān)系圖作為程序的特征，用機(jī)器學(xué)習(xí)代替人工分析，雖然仍有執(zhí)行路徑不完全的問題，但大大提升了圖分析的效率。Park等［16］研究了基于檢測行為圖中最大公共子圖的惡意軟件分類方法，并在含有6 類惡意軟件的300 個(gè)樣例中驗(yàn)證了他的結(jié)果。Kim 等［17］利用多模態(tài)神經(jīng)網(wǎng)絡(luò)檢測安卓惡意代碼，該模型從代碼的靜態(tài)特征中提取程序的屬性，實(shí)驗(yàn)結(jié)果表明，此方法對安卓惡意代碼有較好的檢測效果。榮俸萍等［18］使用模式挖掘算法得到API調(diào)用序列并結(jié)合隨機(jī)森林模型來識別惡意代碼，該方法在改進(jìn)的沙箱環(huán)境中能有效檢測逃避性樣本。Nataraj等［19］提出將惡意軟件轉(zhuǎn)換成灰度圖，提取圖像的全局信息特征，使用K近鄰（K-Nearest Neighbor，KNN）算法進(jìn)行惡意代碼檢測，實(shí)驗(yàn)結(jié)果表明該方法能有效地識別惡意代碼，且能抵御一般的代碼混淆技術(shù)；但灰度圖每個(gè)像素點(diǎn)包含的信息較少，圖像特征不明顯，不能很好地反映惡意代碼的特性。王博等［7］提出將惡意代碼轉(zhuǎn)化為彩色圖片，利用VGGNet 生成惡意樣本分類模型，對識別準(zhǔn)確率有一定提升；但是該模型過于復(fù)雜、參數(shù)量大，存在訓(xùn)練效率不高的問題。為此，本文提出一種基于多通道圖像和AlexNet的深度學(xué)習(xí)檢測方法，主要解決了惡意代碼深層次特征提取和神經(jīng)網(wǎng)絡(luò)模型高效預(yù)測的問題，并通過測試與分析，驗(yàn)證了該模型具有特征提取能力強(qiáng)、結(jié)構(gòu)簡單、訓(xùn)練效率高、識別準(zhǔn)確率高、速度快等優(yōu)勢。

2 基于多通道圖像深度學(xué)習(xí)的惡意代碼識別方法

2.1 基本結(jié)構(gòu)

基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測方法總體流程包括：惡意代碼樣本可視化處理，神經(jīng)網(wǎng)絡(luò)模型構(gòu)建，以及神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試。整體流程如圖2。

圖2 惡意代碼識別的整體流程Fig.2 Overall flowchart of malicious code detection

整個(gè)框架包含五個(gè)部分：1）代碼可視化，是指將待檢測代碼文件轉(zhuǎn)化為多通道圖像，獲得圖片格式的數(shù)據(jù)集。2）數(shù)據(jù)預(yù)處理，由于深度學(xué)習(xí)模型對數(shù)據(jù)集的要求較高，對數(shù)據(jù)集進(jìn)行預(yù)處理以適應(yīng)深度學(xué)習(xí)模型，例如，對圖片大小標(biāo)準(zhǔn)化，對數(shù)據(jù)集進(jìn)行均衡處理等。3）構(gòu)建神經(jīng)網(wǎng)絡(luò)，即針對惡意代碼檢測任務(wù)，構(gòu)建能提取惡意代碼特征的神經(jīng)網(wǎng)絡(luò)。4）模型訓(xùn)練與參數(shù)調(diào)優(yōu)，即利用訓(xùn)練數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，逐步調(diào)優(yōu)參數(shù)。5）模型測試，即利用測試數(shù)據(jù)對訓(xùn)練好的模型進(jìn)行測試，并根據(jù)結(jié)果評價(jià)模型。

2.2 代碼可視化

現(xiàn)在大量的惡意代碼都使用代碼復(fù)用技術(shù)，一些關(guān)鍵的代碼塊被重復(fù)使用，因此同類代碼常常含有相同的模塊，代碼存在相似性，而不同類代碼存在相異性。圖像紋理特征能有效反映這種相似性和差異性。每個(gè)可執(zhí)行文件都以二進(jìn)制形式存儲在磁盤中，將二進(jìn)制碼按照字節(jié)重新編碼，選取連續(xù)的3個(gè)字節(jié)，分別對應(yīng)于多通道彩色圖中的R、G、B 三色通道，重復(fù)這一過程直到所有的數(shù)據(jù)都被選取完畢，最末端數(shù)據(jù)量不足3 字節(jié)的，用0 補(bǔ)足。例如，52D586=（R：82，G：213，B：134），AA3033=（R：170，G：48，B：51）。將代碼文件轉(zhuǎn)化為一維的像素序列后，將像素序列進(jìn)行正方化，得到一張彩色圖片。圖3 是可執(zhí)行文件被轉(zhuǎn)化為RGB 圖像的流程：圖3（a）為某一惡意代碼的可執(zhí)行文件數(shù)據(jù)；圖3（b）為將可執(zhí)行文件按照字節(jié)重新編碼后的像素序列；圖3（c）為將像素序列正方化后得到的彩色圖片。

圖3 可執(zhí)行文件生成RGB圖像的流程Fig.3 Flowchart of generating RGB image from executable file

2.3 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建

基于AlexNet模型構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)，神經(jīng)網(wǎng)絡(luò)總共僅有8 層是可訓(xùn)練的：5 個(gè)卷積層和3 個(gè)全連接層；另外5 個(gè)是不可訓(xùn)練層：2 個(gè)局部響應(yīng)歸一化層LRN 和3 個(gè)池化層。圖4 展示了神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，其中網(wǎng)絡(luò)的輸入為RGB 圖像，輸出結(jié)果為代碼的類別，C1、C2、C3、C4、C5為卷積層，P1、P2、P3為池化層，LRN1、LRN2為局部響應(yīng)歸一化層，F(xiàn)1、F2為全連接層。

圖4 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)Fig.4 Structure of neural network

LRN 層是AlexNet 模型特有的結(jié)構(gòu)，該層引入了橫向抑制，將激活函數(shù)得到的結(jié)果進(jìn)行歸一化，能提高神經(jīng)網(wǎng)絡(luò)的泛化性能，其歸一化方法為：

表1 神經(jīng)網(wǎng)絡(luò)各層的詳細(xì)參數(shù)Tab.1 Detailed parameters of each layer of neural network

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

在惡意代碼數(shù)據(jù)集Malimg［20］上進(jìn)行了實(shí)驗(yàn)，此數(shù)據(jù)集包含來自25 個(gè)不同惡意軟件類型的9 339 個(gè)惡意代碼樣本，類別信息及各類樣本數(shù)如表2所示。Malimg 數(shù)據(jù)集數(shù)據(jù)有嚴(yán)重的分布不均衡現(xiàn)象，最多的Allaple.A 類有2 949 個(gè)樣本，最少的Skintrim.N 類只有80 個(gè)樣本，在訓(xùn)練過程中會引起過擬合現(xiàn)象，導(dǎo)致模型的健壯性和準(zhǔn)確性降低。因此必須對數(shù)據(jù)進(jìn)行均衡處理，數(shù)據(jù)均衡技術(shù)主要有數(shù)據(jù)增強(qiáng)和降采樣等技術(shù)，實(shí)驗(yàn)中所用的是經(jīng)過均衡處理后的數(shù)據(jù)，其中每一類的樣本數(shù)都為400。

表2 Malimg數(shù)據(jù)集惡意軟件類型及樣本數(shù)Tab.2 Malware types and sample numbers of malimg dataset

3.2 實(shí)驗(yàn)過程

實(shí)驗(yàn)任務(wù)分為三個(gè)：第一個(gè)是比較多個(gè)惡意樣本類的可視化效果；第二個(gè)是對模型進(jìn)行訓(xùn)練并測試其對惡意代碼的檢測能力；第三個(gè)是將本文方法與其他方法進(jìn)行比較分析。

3.2.1 可視化效果比較（實(shí)驗(yàn)1）

為驗(yàn)證特征的有效性，將Malimg 中各樣本轉(zhuǎn)化成多通道圖像，觀察各惡意代碼生成的多通道圖像的紋理特征。

3.2.2 模型的訓(xùn)練與測試（實(shí)驗(yàn)2）

模型訓(xùn)練最大迭代次數(shù)為3 600，批處理樣本數(shù)為32，初始權(quán)值隨機(jī)，優(yōu)化器為Adam，學(xué)習(xí)率取經(jīng)驗(yàn)值0.001，損失函數(shù)為交叉熵?fù)p失。將Malimg 數(shù)據(jù)集分成10 份，進(jìn)行10 次實(shí)驗(yàn)，每次實(shí)驗(yàn)取其中1 份輪流作為測試集，其余9 份作為訓(xùn)練集，最終實(shí)驗(yàn)結(jié)果為這10 次實(shí)驗(yàn)結(jié)果的平均值。測試集樣本數(shù)為1 000，每類40個(gè)，占總樣本數(shù)的10%。

3.2.3 模型的比較分析（實(shí)驗(yàn)3）

為驗(yàn)證本文方法對惡意代碼檢測效果的提升情況，將其與基線方法進(jìn)行比較。

1）基線方法。

Fu 等［21］將惡意代碼轉(zhuǎn)化為灰度圖，利用KNN-3 算法進(jìn)行分類識別；Cui 等［22］將惡意代碼轉(zhuǎn)化為灰度圖，利用自建卷積神經(jīng)網(wǎng)絡(luò)識別惡意代碼；而王博等［7］將惡意代碼轉(zhuǎn)化為彩色圖，利用基于VGG16 的卷積神經(jīng)網(wǎng)絡(luò)模型提取特征，實(shí)現(xiàn)惡意代碼的檢測。

另外，為了驗(yàn)證數(shù)據(jù)均衡對模型檢測效果的影響，使用未做數(shù)據(jù)均衡的樣本進(jìn)行實(shí)驗(yàn)；為了驗(yàn)證LRN 對神經(jīng)網(wǎng)絡(luò)性能的影響，使用沒有LRN的神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。

2）評價(jià)指標(biāo)。

在評價(jià)多分類問題的模型時(shí)，通常將其拆分成多個(gè)二分類問題。如果原多分類問題將樣本分為c類，則在第i個(gè)二分類問題中，第i類作為正樣本，其余類作為負(fù)樣本，這樣就將原多分類問題分解為c個(gè)二分類問題，原多分類問題的準(zhǔn)確率Acc（Accuracy）、精確率Pre（Precision）、召回率Rec（Recall）和F1值（F1-score）由這c個(gè)二分類問題的各預(yù)測結(jié)果確定。

假定TPi、FPi、FNi和TNi分別是第i個(gè)二分類問題中正確分類為正樣本的數(shù)量、錯(cuò)誤分類為正樣本的數(shù)量、錯(cuò)誤分類為負(fù)樣本的數(shù)量和正確分類為負(fù)樣本的數(shù)量。原多分類模型的評價(jià)指標(biāo)，計(jì)算公式如下：

3.3 實(shí)驗(yàn)結(jié)果

3.3.1 實(shí)驗(yàn)1結(jié)果

觀察圖5～6 可以發(fā)現(xiàn)，多通道圖像能反映惡意代碼之間的相似性和相異性。

圖5 Fakerean類惡意代碼生成圖Fig.5 Generation diagrams of fakerean malicious codes

圖5 展示了Fakerean 惡意代碼類內(nèi)的4 個(gè)不同樣本實(shí)例的生成圖，可以看出它們之間有高度的相似性。

圖6 四類惡意代碼生成圖Fig.6 Generation diagrams of four types of malicious codes

同時(shí)，圖6 展示了不同惡意代碼類的樣本實(shí)例，可以看出在不同類之間，惡意代碼的生成圖具有明顯的差異。

3.3.2 實(shí)驗(yàn)2結(jié)果

在訓(xùn)練過程中損失值逐漸減小，準(zhǔn)確率逐漸增大。圖7展示了損失值隨訓(xùn)練輪次的增加而減小的變化曲線，前500輪期間，模型快速收斂，到3 000 輪后損失值接近于0，且趨于穩(wěn)定；圖8 展示了準(zhǔn)確率隨訓(xùn)練輪次的增加而增大的變化曲線，前1 000 輪期間準(zhǔn)確率增大較快，3 000 輪后接近于1，且趨于穩(wěn)定。

圖7 訓(xùn)練過程中損失值的變化曲線Fig.7 Change curve of loss value during training

圖8 訓(xùn)練過程中準(zhǔn)確率的變化曲線Fig.8 Change curve of accuracy during training

圖9展示了本文方法的測試結(jié)果，為10次實(shí)驗(yàn)的平均值，四舍五入取整數(shù)。

3.3.3 實(shí)驗(yàn)3結(jié)果

表3 展示了本文方法與對比方法的比較結(jié)果。對照組1是未使用LRN 層的模型在均衡處理后的數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)，對照組2 是使用了LRN 層的模型在原始Malimg 數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)，實(shí)驗(yàn)組是使用了LRN 層的模型在均衡處理后的數(shù)據(jù)集的實(shí)驗(yàn)。

圖9 模型測試結(jié)果Fig.9 Model test results

表3 不同方法的實(shí)驗(yàn)結(jié)果對比Tab.3 Experimental results comparison of different methods

4 結(jié)果分析

4.1 代碼可視化效果比較

相同類惡意樣本的彩色圖像紋理特征具有相似性，不同類惡意代碼樣本的彩色紋理特征存在相異性，這驗(yàn)證了多通道圖像能夠反映惡意代碼的代碼復(fù)用特性。

4.2 訓(xùn)練模型與測試模型

圖7 顯示在訓(xùn)練中模型收斂速度較快，這是由于模型采用了結(jié)構(gòu)較簡單的神經(jīng)網(wǎng)絡(luò)。圖8 顯示預(yù)測準(zhǔn)確率最終穩(wěn)定在一個(gè)較高水平，說明該方法能很好地提取多通道圖像的紋理特征。圖9 測試結(jié)果顯示，大多數(shù)的樣本能夠被很好地預(yù)測，只有少量的樣本預(yù)測錯(cuò)誤，其中錯(cuò)誤較多的兩類為：1）Swizzor.gen！I 類有8 個(gè)樣本被錯(cuò)誤地預(yù)測為Swizzor.gen！E 類；2）C2Lop.gen！g 類有3 個(gè)樣本被錯(cuò)誤地預(yù)測為C2Lop.P 類?？梢园l(fā)現(xiàn)預(yù)測錯(cuò)誤主要發(fā)生在屬于同一大類的兩子類之間，這是由于同一大類的兩個(gè)子類具有同源性，它們之間的差異比其他的類間差異要小很多。這也說明了惡意代碼的類別特征已經(jīng)被模型很好地捕捉到了，并且模型能夠利用這些特征進(jìn)行惡意代碼類別預(yù)測。最后由圖9 中的測試結(jié)果計(jì)算出此模型的準(zhǔn)確率、精確率、召回率和F1 值分別為97.8%、97.8%、98.0%和97.8%。

4.3 比較分析實(shí)驗(yàn)

表3 顯示本文方法比其他對比方法的識別性能都要好。對比文獻(xiàn)［21-22］方法和文獻(xiàn)［7］以及實(shí)驗(yàn)組方法可以發(fā)現(xiàn)，多通道圖像優(yōu)于灰度圖特征，這是因?yàn)槎嗤ǖ缊D像單個(gè)像素所包含的信息比灰度圖多，能更好地反映惡意代碼的類別特征；分析實(shí)驗(yàn)組和對照組1可以發(fā)現(xiàn)，使用了LRN 層的模型具有更高的準(zhǔn)確率，提升了1.2 個(gè)百分點(diǎn)，但是識別效率有所下降，這說明LRN 層能增加了模型泛化能力，使其能更有效地提取圖像紋理特征，提高預(yù)測準(zhǔn)確率；LRN層的計(jì)算也需要消耗一定的時(shí)間，但是對于惡意代碼檢測任務(wù)來說，準(zhǔn)確率是更重要的指標(biāo)，且使用LRN 層的時(shí)間消耗也是可以接受的，所以使用LRN層是值得的。

對比文獻(xiàn)［7］方法和實(shí)驗(yàn)組可以發(fā)現(xiàn)，相對于VGGNet 網(wǎng)絡(luò)，本文方法使用基于AlexNet 的神經(jīng)網(wǎng)絡(luò)具有更好的效果，識別準(zhǔn)確率提升了1.8%；而且該模型結(jié)構(gòu)簡單，使檢測時(shí)間明顯縮短，檢測效率有很大提升，檢測效率提升了60.2%；分析對照組2 和實(shí)驗(yàn)組可以發(fā)現(xiàn)，對數(shù)據(jù)集作均衡處理能防止模型過擬合，充分發(fā)揮模型的學(xué)習(xí)能力，提高預(yù)測精確率和召回率，并且在不均衡的數(shù)據(jù)集上準(zhǔn)確率無法很好地衡量模型的性能；因此，在實(shí)際應(yīng)用中訓(xùn)練此模型時(shí)，應(yīng)控制訓(xùn)練集中各類樣本的數(shù)量大致相等。

5 結(jié)語

本文提出了一種基于多通道圖像深度學(xué)習(xí)的惡意代碼檢測方法。首先，該方法將惡意代碼轉(zhuǎn)化為圖像特征更加明顯的多通道圖像；然后，利用帶有LRN 層的神經(jīng)網(wǎng)絡(luò)模型提取多通道圖像的彩色紋理特征；最后，利用均衡處理后的Malimg數(shù)據(jù)集訓(xùn)練得到惡意代碼檢測模型。實(shí)驗(yàn)結(jié)果表明，該方法在識別準(zhǔn)確率和識別速度上都優(yōu)于對比方法。本文工作的不足在于，當(dāng)數(shù)據(jù)集中不同分類粒度的類同時(shí)存在時(shí)，此模型對粒度較細(xì)的樣本類預(yù)測準(zhǔn)確率會略有下降，因此下一步將引入多層級分類機(jī)制，使模型能夠應(yīng)對不同分類粒度惡意代碼混雜情況下的檢測問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡