摘要: 惡意代碼數(shù)量越來越龐大,惡意代碼分類檢測技術(shù)也面臨著越來越大的挑戰(zhàn)。針對這個問題,一種新的惡意代碼分類檢測框架MGFG(malware gray image Fourier transform gist)模型被提出,其將惡意代碼可執(zhí)行(portable executable,PE)文件轉(zhuǎn)換為灰度圖像,應(yīng)用二維離散傅里葉變換對惡意代碼的灰度圖像進(jìn)行處理,得到其頻譜圖。通過對頻譜圖頻率的處理,達(dá)到惡意代碼圖像去噪的效果。最后,提取全局特征(gist)并實(shí)現(xiàn)惡意代碼的檢測與分類。實(shí)驗(yàn)結(jié)果表明,在多個數(shù)據(jù)集上,MGFG模型對于加殼的、采用了混淆技術(shù)的惡意代碼分類問題都具有更好的魯棒性和更高的分類準(zhǔn)確率。
關(guān)鍵詞: 惡意代碼; 灰度圖像; 傅里葉變換; gist
中圖分類號: TP309
文獻(xiàn)標(biāo)志碼: A
文章編號: 1671-6841(2025)02-0008-08
DOI: 10.13705/j.issn.1671-6841.2023161
Malware Detection Based on Two-dimensional Discrete Fourier Transform
LIU Yashu1, QIU Xiaohua1, SUN Shimiao1, ZHAO Xiaoyi1, YAN Hanbing2
(1.School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture,
Beijing 100044, China; 2.National Computer Network Emergency Response Technical Team/Coordination
Center of China, Beijing 100029, China)
Abstract: The number of malware increased rapidly, and malware classification and detection techniques were facing serious challenges. To address this issue, a new malware classification and detection framework, MGFG (malware gray image Fourier transform gist) model was proposed. The malware PE files were converted into gray images, and then the two-dimensional discrete Fourier transform was applied to the gray images of malware to obtain their spectrograms. By processing the spectrogram frequencies, the effect of malware image denoising was achieved. Finally, the global features (gist) were extracted to detect and classify malware. The experimental results showed that the MGFG model had better robustness and higher classification accuracy on multiple datasets for the classification problem of shelled, obfuscated malware.
Key words: malware; gray image; Fourier transform; gist
0 引言
近年來,隨著網(wǎng)絡(luò)技術(shù)的普及,惡意代碼數(shù)量越來越龐大,給信息安全帶來了嚴(yán)重的威脅。目前比較流行的惡意代碼種類有惡意腳本、木馬、勒索軟件、間諜軟件、計算機(jī)病毒、漏洞利用、內(nèi)核套件和蠕蟲以及它們的組合或變體等[1]。根據(jù)AV-Test反病毒測試有限責(zé)任公司統(tǒng)計,2022年增加了近9 699萬個Window惡意代碼,同時檢測到Window潛在有害程序(potential unwanted application,PUA)增加約335萬個。在各個計算機(jī)操作系統(tǒng)中,Window系統(tǒng)的惡意代碼和PUA分布最多,其次是安卓系統(tǒng)(https:∥portal.av-atlas.org/malware)。近年來惡意代碼的數(shù)量急劇增長,因此,如何由已知的惡意代碼樣本對未知的惡意代碼樣本準(zhǔn)確分類是當(dāng)前研究的重要問題。
目前較為廣泛的惡意代碼檢測方法主要有靜態(tài)檢測方法和動態(tài)檢測方法:靜態(tài)檢測方法是利用惡意代碼樣本的靜態(tài)特征,即樣本內(nèi)容和結(jié)構(gòu)相關(guān)的特征實(shí)現(xiàn)惡意代碼檢測;動態(tài)檢測方法則是通過提取樣本在運(yùn)行過程中的動態(tài)行為特征來實(shí)現(xiàn)惡意代碼檢測[2]。
本文提出了一種基于靜態(tài)檢測方法的MGFG模型,通過MGFG模型實(shí)現(xiàn)對惡意代碼的分類檢測。MGFG模型首先將惡意代碼樣本轉(zhuǎn)換成灰度圖像,接下來采用二維離散傅里葉變換(two-dimensional discrete Fourier transform,2D-DFT)將灰度圖像轉(zhuǎn)換為頻譜圖。通過對頻譜圖的高頻信息和低頻信息處理達(dá)到惡意代碼灰度圖像去噪效果,并通過gist方法獲取圖像紋理的全局特征,最后完成惡意代碼家族的分類。本文所提出的方法能夠有效提高“加殼”“混淆”后的惡意代碼分類問題的準(zhǔn)確性。
1 相關(guān)工作
目前已有大量關(guān)于將惡意代碼與圖像結(jié)合實(shí)現(xiàn)樣本分類的研究,Nataraj等[3]借助同一家族的惡意代碼具有相似的代碼結(jié)構(gòu)等特點(diǎn)將惡意代碼PE文件轉(zhuǎn)化為灰度圖像,開創(chuàng)了惡意代碼與圖像分析結(jié)合的先河。Xiao等[4]借助彩色標(biāo)簽框來標(biāo)記惡意代碼PE文件的頭部和節(jié)信息,使用VGG16提取特征后在支持向量機(jī)中分類。利用彩色標(biāo)簽框的方法提高了分類的準(zhǔn)確率,但是由于惡意代碼存在打包后會重寫,從而混淆PE文件的頭字段的問題,因此這種方法不能很好地描述打包后的惡意代碼。受Xiao等啟發(fā),Shaukat等[5]提出將惡意代碼二進(jìn)制序列直接轉(zhuǎn)化成彩色圖像,然后使用深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)惡意代碼特征提取和分類,這種方法不涉及逆向工程方法,不僅提高了分類準(zhǔn)確率,還縮短了分類時間。但是這種將惡意代碼轉(zhuǎn)化為彩色圖像的方法對于打包的惡意代碼適應(yīng)性差,而灰色圖像可以很好地處理打包的惡意代碼。Azab等[6]利用短時傅里葉變換將惡意代碼生成頻譜圖,再利用神經(jīng)網(wǎng)絡(luò)將惡意代碼生成的頻譜圖進(jìn)行分類,找到對應(yīng)的家族,該方法使用圖像處理技術(shù)克服了靜態(tài)分析中多態(tài)性和打包的規(guī)避性技術(shù),提高了分類準(zhǔn)確率。Qiao等[7]提出了一種建立在字節(jié)詞向量和多層感知機(jī)的惡意代碼可視化分類方法,先將惡意代碼文本化,再使用Word2Vec為每個字節(jié)計算詞向量,再按照升序生成一個矩陣,將此矩陣歸一化生成灰度圖像,最后進(jìn)行分類。Word2Vec計算的詞向量具有很好的表示語料庫語言特征的能力,提高了惡意代碼分類準(zhǔn)確率。陳小寒等[8]提出一種先利用循環(huán)神經(jīng)網(wǎng)絡(luò)對惡意代碼提取操作碼處理,再借助局部敏感哈希方法把原始編碼和預(yù)測編碼結(jié)合得到特征圖,最后用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。由于借助循環(huán)神經(jīng)網(wǎng)絡(luò)得到的預(yù)測序列可以使信息間的關(guān)聯(lián)性提升,從而增強(qiáng)了抗干擾能力。
雖然研究人員將惡意代碼分類問題轉(zhuǎn)化為圖像處理的問題在多數(shù)惡意代碼分類任務(wù)中獲得了成功,但是對于增加了干擾信息的惡意代碼家族并不能獲得較好的分類結(jié)果。因此,基于上述情況,本文提出了MGFG模型,能夠更好地解決此類問題。
2 MGFG模型
MGFG模型對惡意代碼的檢測過程如圖1所示。MGFG模型主要由樣本預(yù)處理、特征提取和樣本分類三部分構(gòu)成。將惡意代碼分為測試數(shù)據(jù)和訓(xùn)練數(shù)據(jù),然后將數(shù)據(jù)進(jìn)行樣本預(yù)處理,以便提取惡意代碼PE文件的二進(jìn)制串,再使用可視化算法將二進(jìn)制文件可視化得到惡意代碼灰度圖像。在MGFG模型的特征提取階段,首先將惡意代碼灰度圖像進(jìn)行二維離散傅里葉變換,將圖像時域轉(zhuǎn)化為頻域并對圖像進(jìn)行處理,接著再利用二維離散傅里葉逆變換,最終實(shí)現(xiàn)灰度圖像去噪的效果。然后使用gist特征提取的方法得到惡意代碼的特征,最后將獲得的圖像特征進(jìn)行樣本分類。
2.1 惡意代碼轉(zhuǎn)化為灰度圖像
首先讀取惡意代碼PE文件的二進(jìn)制串,將每8位二進(jìn)制數(shù)轉(zhuǎn)換成1位十進(jìn)制的整數(shù),整數(shù)在0到255范圍中恰巧對應(yīng)一個灰度值,并按照文件的大小設(shè)定圖像寬度,從而生成一幅灰度圖像[9-10]。如圖2所示為惡意代碼PE文件被轉(zhuǎn)換成灰度圖像過程。
如圖3所示,圖3(a)到3(f)是分別從惡意代碼家族backdoor_agent_new、allaple、adLoad、agent、ageneric、WBNA中選取的樣本灰度圖像示例,從灰度圖像來看,屬于同一個家族的惡意代碼樣本在紋理結(jié)構(gòu)上相似,而不同家族的樣本具有差異性,但是隨著惡意代碼壓縮或加密等技術(shù)的增強(qiáng),使得相同惡意代碼家族的樣本之間存在較大的差異,如圖3(d)、(e)、(f)家族存在較大的差異,給惡意代碼圖像分類造成困難。
2.2 離散傅里葉變換基本原理
離散傅里葉變換(discrete Fourier transform,DFT)是一種信號處理技術(shù),經(jīng)常被用于圖像處理、音頻處理、通信系統(tǒng)等相關(guān)領(lǐng)域,它可以把信號由時域轉(zhuǎn)換成頻域,進(jìn)而研究信號的頻譜變化規(guī)律。假設(shè)f(x)是離散變量x的函數(shù),一維離散函數(shù)f(x)的傅里葉變換和逆傅里葉變換公式為[11]
F(u)=∑N-1x=0f(x)e-j2πux/N,(1)
f(x)=1N∑N-1u=0F(u)ej2πux/N,(2)
其中:x,u∈{0,1,…,N-1},N表示頻率采樣的樣本數(shù),u為離散頻率變量。
本文提出的MGFG模型是基于2D-DFT特征提取的方法。2D-DFT通常被應(yīng)用在圖像處理領(lǐng)域,可將圖像從時域轉(zhuǎn)換到頻域,從而得到圖像的頻譜圖。頻譜圖中的高頻或者低頻代表圖像灰度的清晰度。假設(shè)一幅惡意代碼灰度圖像f(x,y)的大小為M×N,f(x,y)的2D-DFT是F(u,v),定義為公式(3),對應(yīng)地,二維離散傅里葉逆變換定義為公式(4),
F(u,v)=∑M-1x=0∑N-1y=0f(x,y)e-j2π(ux/M+vy/N),(3)
f(x,y)=1MN∑M-1u=0
∑N-1v=0F(u,v)ej2π(ux/M+vy/N),(4)
其中:u,x∈{0,1,…,M-1};v,y∈{0,1,…,N-1}。
惡意代碼文件是由二進(jìn)制序列組成的,將惡意代碼轉(zhuǎn)化成灰度圖像的方法可以直觀感受到惡意代碼的特征信息。對于一幅惡意代碼灰度圖像,能量主要集中在灰度變化比較緩慢的低頻區(qū)域,只有小部分能量集中在圖像邊緣的高頻區(qū)域,灰度變化緩慢的區(qū)域往往用低頻的正弦信號近似,而灰度變換較大的邊緣區(qū)域則需要用高頻正弦信號近似。因此,根據(jù)這個特點(diǎn),本文提出了將傅里葉變換應(yīng)用到惡意代碼檢測領(lǐng)域的思想,通過2D-DFT把灰度變換比較大的邊緣地帶的高頻正弦波的頻率去除,然后進(jìn)行逆變換,就會達(dá)到惡意代碼圖像去噪的目的。如圖4所示為惡意代碼家族WBNA的一個樣本,將其轉(zhuǎn)化成為灰度圖像后可以發(fā)現(xiàn)圖像中含有豐富的圖形特征,這些增加了“混淆”技術(shù)的圖形特征會對惡意代碼分類造成干擾,因此通過2D-DFT可以對圖形特征去噪,有利于惡意代碼家族分類。
2D-DFT對惡意代碼灰度圖像處理過程如圖5所示。其中圖5(a)中惡意代碼灰度圖像f(x,y)的左上角是零頻率成分f(0,0),低頻位于圖像的四個角上,高頻位于圖像的中央。根據(jù)傅里葉變換的周期性和平移性[12],對圖像進(jìn)行中心移位變換,即對輸入的惡意代碼灰度圖像乘以(-1)x+y,使得傅里葉變換F(u,v)的原點(diǎn)從頻率坐標(biāo)(0,0)的位置移動到中心位置(M/2,N/2)處,將圖像能量集中在頻譜圖中央的位置,實(shí)現(xiàn)將惡意代碼灰度圖像從時域到頻域的轉(zhuǎn)化,得到圖5(b),所得到新的惡意代碼灰度圖像低頻成分位于中間,高頻成分位于四個角落,并且中央部分的變化幅度大,由內(nèi)向外的幅度逐漸衰減。接著根據(jù)傅里葉變換的周期性和平移性,利用 2D-DFT逆變換抵消中心移位的作用,主要工作是對傅里葉逆變換的結(jié)果乘以(-1)x+y,或者直接對2D-DFT逆變換的結(jié)果取絕對值,使全部灰度值為正值。通過逆中心移位變換將圖像零頻率成分由頻譜中心位置移動到圖像左上角位置,最終得到2D-DFT變化之后的圖像5(c)。通過2D-DFT實(shí)現(xiàn)惡意代碼圖像去噪的效果,對后面惡意代碼分析具有重要的影響。
圖6展示了惡意代碼agent家族和ageneric家族經(jīng)過2D-DFT之后的圖像。圖6(a),(b)中左邊為原圖,右邊為2D-DFT圖。在兩個惡意代碼樣本的灰度圖像中均含有明顯的圖形信息,其對惡意代碼的分類造成干擾,通過2D-DFT使得圖形中邊緣和細(xì)節(jié)等高頻成分弱化,得到去噪之后的圖像并提取有利的特征進(jìn)行惡意代碼家族分類。
2.3 惡意代碼灰度圖像特征提取
離散傅里葉變換的目的是對頻率進(jìn)行過濾,本文提出的MGFG模型的2D-DFT可以修改頻率以達(dá)到對惡意代碼灰度圖像去噪的效果。MGFG模型對圖像特征提取算法如下。
輸入:惡意代碼灰度圖像數(shù)據(jù)集G。
輸出:2D-DFT圖像數(shù)據(jù)集F。
Step 1 讀取灰度圖像的每個樣本Gl={G1,G2,…,Gn};
Step 2 計算樣本Gi經(jīng)2D-DFT生成的頻譜圖Fi,F(xiàn)i是一個浮點(diǎn)型的復(fù)數(shù)數(shù)組;
Step 3 將頻譜Fi的低頻從左上角原點(diǎn)位置移動到頻譜中心位置,得到Ci;
Step 4 將復(fù)數(shù)數(shù)組轉(zhuǎn)換到[0,256]灰度區(qū)間內(nèi),取絕對值得到振幅Ri;
Step 5 將零頻率分量還原為Zi;
Step 6 計算二維傅里葉逆變換,變換后的結(jié)果還是一個復(fù)數(shù)數(shù)組Pi;
Step 7 將復(fù)數(shù)數(shù)組轉(zhuǎn)換到[0,256]灰度區(qū)間內(nèi),取絕對值得到振幅Ki;
Step 8 2D-DFT圖像Fl={F1,F(xiàn)2,…,F(xiàn)n}。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集
為了驗(yàn)證MGFG模型的可靠性和準(zhǔn)確性,本文在三個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。第一個數(shù)據(jù)集是文獻(xiàn)[3]中使用的數(shù)據(jù)集,命名為NVDA數(shù)據(jù)集,包含32個惡意代碼家族,樣本數(shù)量為11 011個;第二個數(shù)據(jù)集是CNCert提供的數(shù)據(jù)集,命名為CVDB數(shù)據(jù)集,共有10個惡意代碼家族,樣本數(shù)為14 211個;第三個數(shù)據(jù)集是不含惡意信息的良性數(shù)據(jù)集,命名為BenignDC數(shù)據(jù)集,總共選取了13 496個良性樣本。
3.2 實(shí)驗(yàn)設(shè)計
實(shí)驗(yàn)中,將本文提出的MGFG模型與文獻(xiàn)[3]使用的模型進(jìn)行對比。其中MGFG模型按照本文算法提取惡意代碼灰度圖像特征,文獻(xiàn)[3]是將惡意代碼轉(zhuǎn)化成灰度圖像后直接使用gist算法[13]來提取紋理特征,兩種算法最終都得到512維的特征向量,最后使用支持向量機(jī)(support vector machine,SVM)、K最近鄰(K-nearest neighbor,KNN)和隨機(jī)森林(random forest,RF)等機(jī)器學(xué)習(xí)分類算法進(jìn)行分類。在實(shí)驗(yàn)中,SVM算法的核函數(shù)選擇多項(xiàng)式核函數(shù),KNN算法中K值為5,RF算法中決策樹的數(shù)量為50。同時,實(shí)驗(yàn)還將MGFG模型與兩種深度學(xué)習(xí)的分類算法進(jìn)行比較,分別是文獻(xiàn)[14]和文獻(xiàn)[15]。在文獻(xiàn)[14]中,首先將惡意代碼轉(zhuǎn)化成灰度圖像,然后使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行比較,其中CNN主要由兩部分組成,先將灰度圖像設(shè)置成128*128*1的相同大小,輸入到CNN模型中,然后在CNN模型中實(shí)現(xiàn)分類。在文獻(xiàn)[15]中,將惡意代碼轉(zhuǎn)換成馬爾可夫圖像,使用深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural networks,DCNN)實(shí)現(xiàn)惡意代碼的檢測,先將馬爾科夫圖像設(shè)置像素為256*256相同的大小,再將其放入DCNN中提取相關(guān)特征并分類,其中DCNN包括13個卷積層、5個池化層和1個全連接層,其輸出維度為1 024。
在實(shí)驗(yàn)評估方面,本文采用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1值對分類效果評估檢測。
3.3 實(shí)驗(yàn)結(jié)果分析
通過三個實(shí)驗(yàn)對MGFG模型的有效性進(jìn)行驗(yàn)證,分別在NVDA數(shù)據(jù)集和CVDB數(shù)據(jù)集進(jìn)行驗(yàn)證,并對MGFG模型穩(wěn)定性進(jìn)行驗(yàn)證。
3.3.1 在NVDA數(shù)據(jù)集上的實(shí)驗(yàn)對比
為驗(yàn)證MGFG模型的有效性,在NVDA數(shù)據(jù)集上將MGFG模型、文獻(xiàn)[3]、文獻(xiàn)[14]以及文獻(xiàn)[15]四種算法進(jìn)行比較。為了保證實(shí)驗(yàn)結(jié)果的可靠性,使用十折交叉驗(yàn)證并重復(fù)分類算法100次,最后計算平均準(zhǔn)確率、精確率、召回率和F1值得出實(shí)驗(yàn)結(jié)果。
表1展示了在NVDA數(shù)據(jù)集上MGFG模型與文獻(xiàn)[3]中基于機(jī)器學(xué)習(xí)的惡意代碼分類方法進(jìn)行比較。從表1中可以看出,MGFG模型在惡意代碼分類方面表現(xiàn)出更好的分類性能,其中使用RF分類算法的準(zhǔn)確率最高,可達(dá)到97.7%。實(shí)驗(yàn)結(jié)果證明,對于三種分類器而言,MGFG模型性能相比文獻(xiàn)[3]方法均有所提高,其中提高最多的是SVM算法,準(zhǔn)確率提高了6.3%,其次是KNN算法,準(zhǔn)確率提高了4.2%,RF算法準(zhǔn)確率提高了2.6%。
另外,為了進(jìn)一步驗(yàn)證MGFG模型的有效性,在NVDA數(shù)據(jù)集上將MGFG模型與文獻(xiàn)[14]、文獻(xiàn)[15]等基于深度學(xué)習(xí)的分類方法和RF、KNN、SVM等基于機(jī)器學(xué)習(xí)的惡意代碼分類方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果證明,MGFG模型相比深度學(xué)習(xí)的惡意代碼分類方法也表現(xiàn)出比較好的性能。其中在MGFG模型的分類算法中,使用RF算法分類準(zhǔn)確率最高,為97.7%,其次是文獻(xiàn)[15]使用DCNN的分類方法,準(zhǔn)確率為96.1%,最后是文獻(xiàn)[14]使用DCNN的分類方法,準(zhǔn)確率為95.6%。
圖7顯示了采用KNN分類器時,文獻(xiàn)[3]和MGFG的混淆矩陣,NVDA數(shù)據(jù)集中有32個家族(如表2所示,對每一個家族進(jìn)行編號)。從圖中得知文獻(xiàn)[3]方法中有16個家族沒有被正確分類,而使用MGFG模型僅有14個家族沒有被正確分類,其他家族分類均無錯誤。
其次從混淆矩陣中可以看出標(biāo)簽9家族benign_new和標(biāo)簽28家族virut_a_new的分類準(zhǔn)確率極低,使用文獻(xiàn)[3]的方法準(zhǔn)確率僅僅達(dá)到19%和26%,而使用MGFG模型之后這兩個家族被正確分類的樣本達(dá)到33%和58%,分別提高了14%和32%。實(shí)驗(yàn)結(jié)果證明在NVDA數(shù)據(jù)集中,本文提出的MGFG模型通過對惡意代碼進(jìn)行2D-DFT處理來達(dá)到其過濾和去噪的效果,更有助于提高分類準(zhǔn)確率。
3.3.2 在CVDB數(shù)據(jù)集上的對比實(shí)驗(yàn)
表3結(jié)果表明,在CVDB數(shù)據(jù)集中采用了RF算法的MGFG算法分類效果最好,準(zhǔn)確率達(dá)到93.5%,其次是KNN分類和SVM分類,準(zhǔn)確率分別是90.4%和90.1%。
圖8展示了文獻(xiàn)[3]方法和MGFG模型采用KNN分類器的混淆矩陣,結(jié)果表明,采用了MGFG模型后惡意代碼分類準(zhǔn)確率有所提升。從圖中可以看出ageneric家族的分類精度最低,可能的原因是這個家族的樣本數(shù)量比較少,導(dǎo)致分類精度最低。
3.3.3 不同分類方法對MGFG模型驗(yàn)證
為驗(yàn)證模型的有效性,本文將MGFG模型分別使用KNN、RF、SVM、Resnet-50以及VGG16這五種分類方法進(jìn)行比較,得到圖9在數(shù)據(jù)集NVDA和數(shù)據(jù)集CVDB的整體運(yùn)行結(jié)果。由圖9可知,MGFG模型在兩個數(shù)據(jù)集上的準(zhǔn)確率相差不大,但是在NVDAc33076141c8456968e00a346557b8e28數(shù)據(jù)集上的整體運(yùn)行準(zhǔn)確率略高于CVDB數(shù)據(jù)集。同時,對于分類算法而言,MGFG模型與RF算法能得到更高的準(zhǔn)確率,在數(shù)據(jù)集NVDA和數(shù)據(jù)集CVDB上的準(zhǔn)確率分別達(dá)到97.7%和93.5%。同時,使用Resnet-50分類算法準(zhǔn)確率最低,準(zhǔn)確率分別為87.4%和85.6%。
3.3.4 MGFG模型穩(wěn)定性檢驗(yàn)
本文采用了二分類實(shí)驗(yàn)來進(jìn)一步驗(yàn)證MGFG模型的有效性和適用性。將NVDA數(shù)據(jù)集和CVDB數(shù)據(jù)集作為惡意數(shù)據(jù)集,共27 067個樣本,BenignDC數(shù)據(jù)集作為良性數(shù)據(jù)集,樣本數(shù)為13 496個,實(shí)驗(yàn)結(jié)果見表4。實(shí)驗(yàn)結(jié)果表明MGFG模型與文獻(xiàn)[3]方法的性能基本持平,可獲得非常好的分類結(jié)果。
4 結(jié)論
本文提出了一種基于2D-DFT的惡意代碼特征提取的框架MGFG。在惡意代碼分類檢測中,雖然MGFG模型在準(zhǔn)確率方面優(yōu)于其他文獻(xiàn)的方法,但是對于被壓縮或者加密了的樣本無法獲得令人滿意的結(jié)果,這將是未來工作中需要進(jìn)一步研究的問題。
參考文獻(xiàn):
[1] 楊銘, 張健. 基于圖像識別的惡意軟件靜態(tài)檢測模型[J]. 信息網(wǎng)絡(luò)安全, 2021, 21(10): 25-32.
YANG M, ZHANG J. Static detection model of malware based on image recognition[J]. Netinfo security, 2021, 21(10): 25-32.
[2] 呂楊琦, 王張宜, 楊秀璋, 等. 基于特征功能函數(shù)的APT樣本分類方法[J]. 鄭州大學(xué)學(xué)報(理學(xué)版), 2023, 55(2): 10-17, 24.
LYU Y Q, WANG Z Y, YANG X Z, et al. A novel APT malware classification method based on feature function code[J]. Journal of Zhengzhou university (natural science edition), 2023, 55(2): 10-17, 24.
[3] NATARAJ L,KARTHIKEYAN S,JACOB G, et al. Malware images:visualization and automatic classification [C]∥The 8th International Symposium on Visualization for Cyber Security. New York: ACM Press,2011: 21-29.
[4] XIAO M, GUO C, SHEN G W, et al. Image-based malware classification using section distribution information[J]. Computers & security, 2021, 110: 102420.
[5] SHAUKAT K, LUO S H, VARADHARAJAN V. A novel deep learning-based approach for malware detection[J]. Engineering applications of artificial intelligence, 2023, 122: 106030.
[6] AZAB A, KHASAWNEH M. MSIC: malware spectrogram image classification[J]. IEEE access, 2007, 8: 102007-102021.
[7] QIAO Y C, ZHANG B, ZHANG W Z. Malware classification method based on word vector of bytes and multilayer perception[C]∥ICC 2020-2020 IEEE International Conference on Communications (ICC). Piscataway:IEEE Press, 2020: 1-6.
[8] 陳小寒, 魏書寧, 覃正澤. 基于深度學(xué)習(xí)可視化的惡意軟件家族分類[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(22): 131-138.
CHEN X H, WEI S N, QIN Z Z. Malware family classification based on deep learning visualization[J]. Computer engineering and applications, 2021, 57(22): 131-138.
[9] DENG H X, GUO C, SHEN G W, et al. MCTVD: a malware classification method based on three-channel visualization and deep learning[J]. Computers & security, 2023, 126: 103084.
[10]CONTI G,BRATUS S,SHUBINAINA A. A visual study of primitive binary fragment[R]. Las Vegas:Black Hat,2011.
[11]朱秀昌,劉峰,胡棟. 數(shù)字圖像處理與圖像通信[M]. 北京:北京郵電大學(xué)出版社,2002:58-59.
ZHU X C,LIU F,HU D. Digital Image Processing and Image Communication[M]. Beijing:Beijing University of Posts and Telecommunications Press,2002:58-59.
[12]禹晶,孫衛(wèi)東,肖創(chuàng)柏. 數(shù)字圖像處理[M]. 北京:機(jī)械工業(yè)出版社,2015:78-101.
YU J,SUN W D,XIAO C B. Digital Image Processing[M]. Beijing:China Machine Press,2015:78-101.
[13]TORRALBA,MURPHY,F(xiàn)REEMAN,et al. Context-based vision system for place and object recognition[C]∥Proceedings Ninth IEEE International Conference on Computer Vision. Piscataway: IEEE Press,2008.
[14]KABANGA E K, KIM C H. Malware images classification using convolutional neural network[J]. Journal of computer and communications, 2018, 6(1): 153-158.
[15]YUAN B G, WANG J F, LIU D, et al. Byte-level malware classification based on Markov images and deep learning[J]. Computers & security, 2020, 92: 101740.