摘 要: 針對(duì)現(xiàn)有基于CNN 的惡意代碼分類(lèi)方法存在訓(xùn)練成本高以及少數(shù)類(lèi)分類(lèi)準(zhǔn)確率低的問(wèn)題,結(jié)合CNN 和Transformer 的特點(diǎn)提出了基于改進(jìn)MobileVit 的惡意代碼分類(lèi)方法. 首先,采用惡意代碼可視化的樣本預(yù)處理方法,加快模型收斂;然后,結(jié)合CNN 和自注意力機(jī)制,提出了基于代價(jià)敏感性的MobileVit 模型,通過(guò)改進(jìn)Transformer encoder 結(jié)構(gòu)和加入FocalLoss 方法,降低模型的訓(xùn)練成本,在提高模型對(duì)惡意代碼樣本表征能力的同時(shí),保證模型對(duì)少數(shù)類(lèi)的關(guān)注. 實(shí)驗(yàn)表明,在網(wǎng)絡(luò)層數(shù)、參數(shù)數(shù)量明顯減少的情況下,改進(jìn)后的MobileVit 模型在準(zhǔn)確率上依然能保持優(yōu)勢(shì),在微軟惡意代碼分類(lèi)數(shù)據(jù)集上準(zhǔn)確率最高達(dá)到98. 88%,相比于未修改的模型,在精確率、召回率和F1 分?jǐn)?shù)上分別提高了1. 7%、2. 0% 和2. 1%. 模型對(duì)大型惡意家族預(yù)測(cè)準(zhǔn)確率保持在99% 以上的同時(shí),對(duì)小型惡意家族的準(zhǔn)確率最高提高了17%.
關(guān)鍵詞: 惡意代碼分類(lèi); 注意力機(jī)制; 數(shù)據(jù)不平衡; MobileVit
中圖分類(lèi)號(hào): TP309 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 042004
1 引言
惡意軟件攻擊持續(xù)增長(zhǎng),SonicWall CaptureLabs 威脅研究人員在2022 年記錄了55 億次惡意軟件攻擊,同比增加2%[1]. 而這些攻擊樣本通常呈現(xiàn)家族特征:同類(lèi)惡意家族會(huì)共享某些特定的行為、功能和漏洞利用方式等. 因此亟需發(fā)展高效準(zhǔn)確的惡意代碼分類(lèi)技術(shù)以應(yīng)對(duì)這樣的趨勢(shì). 同時(shí),確定惡意代碼的類(lèi)別,對(duì)于識(shí)別APT 攻擊階段,進(jìn)而到對(duì)APT 攻擊的防御和檢測(cè)都具有重大意義.
傳統(tǒng)的惡意代碼分類(lèi)方法主要通過(guò)與已知惡意代碼簽名進(jìn)行比對(duì). 但是,基于簽名的方式只保留了惡意代碼的少量信息,在遇到惡意代碼變體時(shí)會(huì)失效. 將惡意代碼可視化為圖像能保留惡意樣本的大部分信息,其變體也不會(huì)從本質(zhì)上改變圖像紋理及結(jié)構(gòu)特征,因此,惡意代碼可視化能有效對(duì)抗惡意代碼產(chǎn)生的變體.
最先把可視化用于惡意代碼分類(lèi)的是Nataraj等[2],他們把惡意代碼轉(zhuǎn)化為灰度圖,用GIST 算法提取圖像特征,并使用傳統(tǒng)的機(jī)器學(xué)習(xí)KNN 算法進(jìn)行分類(lèi). Han 等[3]和Yuan 等[4]把惡意代碼根據(jù)不同的算法轉(zhuǎn)化為熵圖和馬爾可夫圖像,這些圖片形式相比于灰度圖,增加了更多的惡意代碼信息.
在惡意代碼可視化技術(shù)發(fā)展的同時(shí),分類(lèi)模型也從傳統(tǒng)的機(jī)器學(xué)習(xí)算法逐漸過(guò)渡到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5-7],利用深度神經(jīng)網(wǎng)絡(luò)從進(jìn)程信息或網(wǎng)絡(luò)流量數(shù)據(jù)中提取關(guān)鍵特征. 該類(lèi)方法提高了惡意代碼分類(lèi)的準(zhǔn)確率.
現(xiàn)有的惡意代碼分類(lèi)方式利用同類(lèi)惡意家族代碼具有相似性與傳承性來(lái)對(duì)惡意樣本進(jìn)行歸類(lèi). 近幾年,由Transformer 改進(jìn)的Vit 模型在各大數(shù)據(jù)集的表現(xiàn)都遠(yuǎn)超傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò). 因此,基于目前惡意代碼的研究現(xiàn)狀,結(jié)合Transformer和CNN,本文提出了基于不平衡惡意代碼樣本的分類(lèi)模型,主要貢獻(xiàn)如下.(1) 提出了新的惡意代碼可視化方式. 用這種可視化方式進(jìn)行預(yù)處理能使數(shù)據(jù)包含更多的惡意代碼信息,與傳統(tǒng)的灰度圖片進(jìn)行對(duì)比,新的可視化方式能提高模型精度.(2) 提出了改進(jìn)的MobileVit 分類(lèi)模型,結(jié)合CNN和視覺(jué)Transformer 的優(yōu)點(diǎn),在參數(shù)量和網(wǎng)絡(luò)層數(shù)減少的情況下,更好地從惡意代碼中提取局部和全局特征,同時(shí)加入Focal loss 方法,有效緩解惡意代碼分類(lèi)實(shí)踐中類(lèi)別不平衡問(wèn)題.(3) 本文針對(duì)不同可視化方法、不同模型和損失函數(shù)設(shè)置了多個(gè)對(duì)比實(shí)驗(yàn),證明了本文方法能應(yīng)用于惡意代碼分類(lèi)領(lǐng)域,且效果良好.
2 基本理論
2. 1 MobileVit 模型
MobileVit 是基于Vit[8]模型的輕量化版本,采用了輕量級(jí)卷積和注意力機(jī)制[9]等技術(shù)來(lái)減少模型的參數(shù)量和計(jì)算量,從而在保持較高分類(lèi)精度的同時(shí),具有更小的模型尺寸和更快的推理速度.MobileVit 針對(duì)輸入的惡意代碼圖像具有全局視野,可以實(shí)現(xiàn)對(duì)惡意代碼圖片的全局特征聚合和信息傳遞. 同時(shí),MobileVit 保留了CNN 特點(diǎn),為模型提供了空間歸納偏置,可以使分類(lèi)模型擺脫位置偏置,加速網(wǎng)絡(luò)的收斂,使網(wǎng)絡(luò)訓(xùn)練過(guò)程更穩(wěn)定. 實(shí)驗(yàn)證明,MobileVit 在處理大規(guī)模圖像分類(lèi)任務(wù)方面表現(xiàn)出色[10].
MobileVit 的網(wǎng)絡(luò)結(jié)構(gòu)主要包括卷積層、補(bǔ)丁嵌入、位置嵌入、Transformer encoder 和分類(lèi)頭.其中Transformer encoder 在MobileVit 中起著重要作用,由多個(gè)編碼器層組成的部分,幫助模型學(xué)習(xí)圖像中的全局和局部特征依賴關(guān)系,為圖像分類(lèi)任務(wù)提供了更準(zhǔn)確的特征表達(dá)能力.
2. 2 代價(jià)敏感性函數(shù)
惡意代碼分類(lèi)在數(shù)據(jù)不平衡方面存在著顯著的問(wèn)題. 以公開(kāi)數(shù)據(jù)集Microsoft Malware ClassificationDataset[11]為例,在9 類(lèi)惡意代碼的中,最小的家族Simda 僅包含42 個(gè)樣本[12],最大的家族Kelihos_ver3 Simda 的其大約70 倍,如果在分類(lèi)模型中不增加任何有關(guān)避免數(shù)據(jù)不平衡的措施,模型對(duì)小樣本類(lèi)別的識(shí)別將缺少精準(zhǔn)性.
基于代價(jià)敏感思想的方法在多數(shù)領(lǐng)域都能很好地解決數(shù)據(jù)不平衡問(wèn)題[13]. 代價(jià)敏感分類(lèi)的目標(biāo)是學(xué)習(xí)分類(lèi)器f:X → Y,來(lái)對(duì)樣本數(shù)據(jù)集進(jìn)行分類(lèi),使得期望代價(jià)值最小.
arg min E( x,y ) ~ D [costyf ( x ) ] (1)
其中E 表示期望代價(jià);D 表示樣本的分布;f ( x ) 表示x 的經(jīng)驗(yàn)風(fēng)險(xiǎn)值;costyf ( x ) 表示某個(gè)具體類(lèi)別的分類(lèi)代價(jià).
在圖像分類(lèi)問(wèn)題中,通常使用交叉熵?fù)p失函數(shù)[14]計(jì)算cost 值. 然而,當(dāng)數(shù)據(jù)集中存在類(lèi)別不平衡現(xiàn)象時(shí),交叉熵?fù)p失函數(shù)會(huì)導(dǎo)致模型偏向多數(shù)類(lèi).
Focal Loss[15]是基于代價(jià)敏感性的損失函數(shù),它通過(guò)引入平衡因子來(lái)調(diào)整類(lèi)別之間的關(guān)注度,使得模型更加關(guān)注少數(shù)類(lèi)別. Focal Loss 平衡因子的計(jì)算方式如下.
α = (1 - pt )γ(2)
其中pt 是模型預(yù)測(cè)樣本t 屬于正確類(lèi)別的概率;γ是調(diào)節(jié)因子,用于控制平衡因子的大小. γ 的取值越大,則說(shuō)明對(duì)于容易分類(lèi)的樣本的關(guān)注度降低得更多,對(duì)于難以分類(lèi)的樣本的關(guān)注度增加得更多.
Focal Loss 的定義如下.
LFL =-αt ? (1 - pt )γ ? log ( pt ) (3)
通過(guò)在分類(lèi)模型中引入代價(jià)敏感思想,分類(lèi)模型不會(huì)過(guò)于偏重某個(gè)類(lèi)別,因此不會(huì)出現(xiàn)類(lèi)別梯度覆蓋現(xiàn)象.
3 基于代價(jià)敏感的惡意代碼分類(lèi)方法
本文提出了基于代價(jià)敏感性的惡意代碼分類(lèi)模型,能在高效提取惡意代碼圖像局部和全局信息的同時(shí),保持對(duì)少數(shù)類(lèi)的關(guān)注.
本文提出的惡意代碼分類(lèi)方法流程如圖1 所示. 以惡意代碼家族生成的RGB 圖像為網(wǎng)絡(luò)輸入,結(jié)合Transformer 和CNN 技術(shù),將改進(jìn)的MobileVit模型作為原始分類(lèi)框架,加入代價(jià)敏感性方法,最后對(duì)惡意樣本家族進(jìn)行預(yù)測(cè).
本節(jié)將通過(guò)數(shù)據(jù)預(yù)處理、改進(jìn)的MobileVit 模型來(lái)解釋這一過(guò)程.
3. 1 數(shù)據(jù)預(yù)處理
針對(duì)傳統(tǒng)方法繼承惡意代碼信息較少的情況,本文結(jié)合PE(Portable Executable)格式文件的特點(diǎn)提出了新的可視化方式.
針對(duì)惡意PE 文件通常包含加密代碼、多個(gè)節(jié)、特定的導(dǎo)出函數(shù)、字符串、API 函數(shù)調(diào)用以及具有異常代碼執(zhí)行路徑等特征[16,17],選取惡意代碼text 中的操作碼序列作為R 通道,導(dǎo)入和導(dǎo)出函數(shù)在G 通道,數(shù)據(jù)為B 通道,如圖2 所示. 相比于將惡意代碼轉(zhuǎn)化為灰度圖,把不同PE 區(qū)段映射到RGB不同通道,既保留了惡意代碼的特征,又強(qiáng)調(diào)了相同的惡意代碼家族在顏色、紋理和結(jié)構(gòu)上的相似特征.
將惡意代碼轉(zhuǎn)化為圖片后,再對(duì)圖像數(shù)據(jù)做進(jìn)一步的特征增強(qiáng),轉(zhuǎn)化為固定的尺寸,對(duì)不同類(lèi)別分別進(jìn)行標(biāo)準(zhǔn)化和歸一化.
圖3 展示了3 類(lèi)惡意家族部分可視化結(jié)果,可以看出不同惡意代碼家族在顏色分布、紋理特征上都有著明顯區(qū)別.
3. 2 改進(jìn)的MobileVit 模型
3. 2. 1 改進(jìn)的MobileVit 模型
基于Transformer和CNN,分類(lèi)模型以MobileVit 為主要框架,網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示. 為了更好地提取惡意圖像中的低級(jí)特征保留惡意代碼中的局部信息,在Mobile?Vit 的卷積結(jié)構(gòu)中,加入了多個(gè)MobileNet V2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).
在Transformer encoder 結(jié)構(gòu)中,由于惡意代碼圖像與傳統(tǒng)有結(jié)構(gòu)的圖片有明顯的差別[18],真實(shí)的圖形數(shù)據(jù)在像素附近點(diǎn)內(nèi)通常包含許多類(lèi)似的冗余像素點(diǎn),它們對(duì)于圖像特征不能同時(shí)起作用.因此,原始的MobileVit 作為圖像分類(lèi)模型,在對(duì)圖片特征進(jìn)行全局表征時(shí),僅對(duì)不同patch 的相同位置的像素序列做self-attention. 這樣雖然減少了計(jì)算量,但造成了樣本中的信息損失,降低了模型對(duì)惡意代碼的深度特征挖掘能力. 因此,本文在原始的MobileVit 的基礎(chǔ)上,對(duì)MobileVit block 中的Transformer encoder 模塊進(jìn)行修改.
Transformer encoder 流程如圖4a 所示,對(duì)輸入的Embedded Patches 進(jìn)行自注意力計(jì)算,再把其結(jié)果與原始輸入進(jìn)行殘差連接. 其中EmbeddedPatches 是由原始圖像不同patch 相同位置像素點(diǎn)構(gòu)成的特征序列矩陣. 在原有模型中,特征序列只與不同patch 相同位置的特征序列做self-attention.改進(jìn)后的MobileVit 模型,不僅與同一patch 的其他特征序列做self-attention,還與不同位置的序列做self-attention. 其區(qū)別如圖4b 所示,展示了1 個(gè)2×2 的patches,其中上圖Ⅰ為未修改的計(jì)算機(jī)制,僅在不同patch 的相同位置間做計(jì)算,下圖II 為修改后的計(jì)算機(jī)制.
從計(jì)算量來(lái)說(shuō),修改后的模型需要做W×H×C 次計(jì)算. 在該階段計(jì)算量將提高patches 倍,同時(shí)也將極大地提高模型對(duì)惡意代碼的全局表征能力.
3. 2. 2 加入Focal Loss 的MobileVit
針對(duì)惡意家族樣本數(shù)據(jù)嚴(yán)重不平衡的現(xiàn)象,基于代價(jià)敏感性思想,定義MobileVit 的輸出為z1,z2… ,zc,其中C 為類(lèi)別的數(shù)目,zi 表示模型預(yù)測(cè)為第i 個(gè)類(lèi)別的概率,SoftMax 函數(shù)的輸出為
其中,N 表示本次訓(xùn)練的樣本數(shù);yi,c 表示樣本i 的真實(shí)標(biāo)簽是否為k 類(lèi)別. 將SoftMax 函數(shù)的輸出作為Focal Loss 輸入,根據(jù)每個(gè)樣本的真實(shí)標(biāo)簽和預(yù)測(cè)概率計(jì)算損失. 其過(guò)程如圖5 所示.
4 實(shí)驗(yàn)分析
本節(jié)設(shè)置多組對(duì)比實(shí)驗(yàn),以證明本文方法相比于傳統(tǒng)方法的優(yōu)勢(shì).
4. 1 數(shù)據(jù)集
本文在A、B 2 個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),并針對(duì)多篇文獻(xiàn)做了對(duì)比實(shí)驗(yàn). 實(shí)驗(yàn)數(shù)據(jù)集A 選用MicrosoftMalware Classification Dataset[11],包含21 741個(gè)PE 格式的二進(jìn)制文件,其中包括10 873 個(gè)測(cè)試集,10 868 個(gè)訓(xùn)練集. 每個(gè)文件代表1 個(gè)不同的惡意軟件樣本. 這些樣本涵蓋9 個(gè)不同的惡意軟件家族,包括銀行木馬、僵尸網(wǎng)絡(luò)和廣告軟件等. 數(shù)據(jù)集B 為Malimg 數(shù)據(jù)集,包括了9339 個(gè)惡意軟件樣本,涵蓋了25 個(gè)惡意樣本家族. 2 個(gè)數(shù)據(jù)集的惡意家族分布都接近真實(shí)網(wǎng)絡(luò)惡意代碼環(huán)境,各個(gè)家族類(lèi)數(shù)量呈現(xiàn)嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象.
4. 2 實(shí)驗(yàn)環(huán)境配置和評(píng)價(jià)標(biāo)準(zhǔn)
模型的參數(shù)使用AdamW[19]優(yōu)化器進(jìn)行訓(xùn)練優(yōu)化,同時(shí)加入學(xué)習(xí)率衰減,其中Focal Loss 中的平衡因子α 為0. 25,調(diào)節(jié)因子γ 為2. 實(shí)驗(yàn)于Ubuntu 20. 04. 5 LTS 系統(tǒng)下進(jìn)行,在python3. 6 環(huán)境下使用pytorch 1. 10. 1 搭建,并由2 張NVIDIAGeForce 3080 進(jìn)行訓(xùn)練.
為了更好地評(píng)估模型在類(lèi)別不平衡情形下的性能,本文設(shè)置了4 個(gè)評(píng)估指標(biāo):Macro-accuracy,Macro-precision, Macro-recall 以及Macro F1-socre.對(duì)應(yīng)的公式如下.
4. 3 對(duì)比實(shí)驗(yàn)及其分析
為了證明本文提出的惡意代碼分類(lèi)模型在分類(lèi)問(wèn)題上的效果以及針對(duì)數(shù)據(jù)不平衡的優(yōu)化,我們?cè)O(shè)置了3 個(gè)不同的對(duì)比實(shí)驗(yàn).
實(shí)驗(yàn)1: 不同圖像處理方法對(duì)比.
實(shí)驗(yàn)2: 基于Focal Loss 的模型與現(xiàn)有模型對(duì)比.
實(shí)驗(yàn)3: 當(dāng)前分類(lèi)方法與現(xiàn)有方法的對(duì)比.
已有論文證明[20,21],針對(duì)相同的圖片預(yù)處理方式,不同的惡意代碼圖像輸入尺寸會(huì)在一定程度上影響模型的性能. 隨著惡意代碼圖像尺寸的增加,所包含的惡意代碼特征越多,分類(lèi)效果也呈現(xiàn)好的趨勢(shì). 但隨著尺寸的增大,模型的計(jì)算量也急劇提升,因此綜合計(jì)算量和模型效果來(lái)看,選擇448×448 作為固定輸入尺寸.
4. 3. 1 不同圖像處理方法對(duì)比
針對(duì)不同圖像處理方式對(duì)惡意代碼分類(lèi)效果的影響,本節(jié)選用Resnet34 和Resnet50 作為分類(lèi)模型,使用數(shù)據(jù)集A分別生成RGB 圖像、灰度圖像以及直方圖進(jìn)行對(duì)比實(shí)驗(yàn),以微軟公開(kāi)數(shù)據(jù)集的Private Score 作為評(píng)價(jià)標(biāo)準(zhǔn)(Private Score 是對(duì)測(cè)試集中的70% 的樣本進(jìn)行損失計(jì)算的結(jié)果).
結(jié)果如表1 所示,使用2 種不同Resnet 模型訓(xùn)練3 種不同預(yù)處理方式處理的數(shù)據(jù),本文所提預(yù)處理方式均為損失最低(分別為0. 663 03,0. 596 65).其中,以Resnet34 為分類(lèi)模型,本文提出的可視化方法為圖像處理方法,得到的Private Score 分?jǐn)?shù)為0. 663 03,與使用直方圖的更復(fù)雜網(wǎng)絡(luò)Resnet50 得到的Private Score 0. 673 46 相差不大. 因此,可以證明,本文提出的可視化方式比其他方式含有更多的惡意特征可供模型學(xué)習(xí).
4. 3. 2 基于Focal Loss 方法與現(xiàn)有方法的對(duì)比實(shí)驗(yàn)
針對(duì)當(dāng)前數(shù)據(jù)不平衡提出的Focal Loss 方法在惡意代碼分類(lèi)領(lǐng)域的實(shí)驗(yàn),本文以改進(jìn)后的MobileVit模型為基模型. 基于代價(jià)敏感性思想的Fo?cal Loss 和以常見(jiàn)的交叉熵作為損失函數(shù)的實(shí)驗(yàn)對(duì)比結(jié)果如表2 所示. 顯然,在訓(xùn)練時(shí)間幾乎相同的情況下,MobileVit 中使用Focal Loss 方法之后,MobileVit 模型增加了對(duì)少數(shù)類(lèi)的敏感度,其宏精確率、宏召回率以及宏F 1 分?jǐn)?shù)分別提高了1. 7%、2. 0% 和2. 1%.
家族如Gatax 和Lollipop 的分類(lèi)準(zhǔn)確率依然保持. 圖6 展示了本次對(duì)比實(shí)驗(yàn)的混淆矩陣,其中圖6a 為未修改模型的混淆矩陣,圖6b 為基于FocalLoss 的混淆矩陣. 加入Focal Loss 方法后,模型對(duì)大樣本家族的準(zhǔn)確率在99% 以上,而小樣本家族如Simda(該類(lèi)數(shù)據(jù)占比不到總數(shù)據(jù)的1%),其準(zhǔn)確率上升了17%. 顯然,本文方法極大增強(qiáng)了模型對(duì)小樣本家族的識(shí)別準(zhǔn)確率.
4. 3. 3 當(dāng)前分類(lèi)方法與現(xiàn)有方法的對(duì)比
為證明模型能適應(yīng)不同的數(shù)據(jù)集,實(shí)驗(yàn)在A、B 2 個(gè)不同數(shù)據(jù)集上進(jìn)行,將本文方法與現(xiàn)有基于CNN 的方法[20]以及基于自注意力的方法[24]進(jìn)行對(duì)比,結(jié)果如表3 所示. 其中,括號(hào)外的數(shù)據(jù)為當(dāng)前方法在數(shù)據(jù)集A 上的準(zhǔn)確度,括號(hào)內(nèi)的數(shù)據(jù)為當(dāng)前方法在數(shù)據(jù)集B 上的準(zhǔn)確度. 在參數(shù)量和網(wǎng)絡(luò)層數(shù)顯著減少且模型包含代價(jià)敏感的情況下,本文提出的MobileVit 準(zhǔn)確率在2 個(gè)數(shù)據(jù)集上皆為最高,分別為98. 88% 和97. 93%.
5 結(jié)論
本文提出了惡意代碼分類(lèi)方法,包含對(duì)惡意樣本的預(yù)處理、特征提取以及最終的評(píng)價(jià)標(biāo)準(zhǔn). 使用本文方法對(duì)惡意代碼分類(lèi)的準(zhǔn)確率可以達(dá)到98. 88%,其中對(duì)小型惡意代碼家族的分類(lèi)準(zhǔn)確率提高了17%,對(duì)大樣本惡意家族的分類(lèi)準(zhǔn)確率保持在99% 以上. 事實(shí)證明,相比于傳統(tǒng)CNN 模型動(dòng)輒幾千萬(wàn)的參數(shù)量,改進(jìn)后的富有代價(jià)敏感性的MobileVit,不管是在參數(shù)數(shù)量、模型效果還是類(lèi)別不平衡等多個(gè)維度上顯示出了優(yōu)越性.
本實(shí)驗(yàn)也有幾點(diǎn)不足:(1) 實(shí)驗(yàn)并沒(méi)有探究模型是否對(duì)加殼后的惡意代碼文件具有同等的分類(lèi)力度;(2) 由于特征需要輸入到全連接的限制,導(dǎo)致模型只能接受固定大小的圖片輸入,在對(duì)惡意代碼的預(yù)處理過(guò)程中,通常需要對(duì)惡意代碼進(jìn)行填充和裁剪,這也導(dǎo)致計(jì)算量的增加,因此未來(lái)將以可變尺寸的惡意代碼圖像作為切入點(diǎn),繼續(xù)進(jìn)行對(duì)惡意代碼分類(lèi)的研究.
參考文獻(xiàn):
[1] SonicWall. 2022 SonicWall cyber threat report[R/OL].[2023-03-01]. https://www. sonicwall. com/resources/white-papers/2022-sonicwall-cyber-threatreport.
[2] Nataraj L, Karthikeyan S, Jacob G, et al. Malwareimages: Visualization and automatic classification[ C]//Proceedings of the 8th International Symposium onVisualization for Cyber Security-VizSec ’11. Pittsburgh,Pennsylvania: ACM Press, 2011: 1.
[3] Han K S, Lim J H, Kang B, et al. Malware analysisusing visualized images and entropy graphs [J]. Int JInf Secur, 2015, 14: 21.
[4] Yuan B, Wang J, Liu D, et al. Byte-level malwareclassification based on markov images and deep learning[ J]. Comput Secur, 2020, 92: 101.
[5] Tobiyama S, Yamaguchi Y, Shimada H, et al. Malwaredetection with deep neural network using processbehavior [C]//Proceedings of the IEEE 40thAnnual Computer Software and Applications Conference(COMPSAC). Atlanta, GA, USA: IEEE,2016.
[6] Wang W, Zhu M, Zeng X, et al. Malware trafficclassification using convolutional neural network forrepresentation learning [C]//Proceedings of the2017 International Conference on Information Networking(ICOIN). Da Nang, Vietnam: IEEE, 2017.
[7] Zhu X, Huang J, Wang B, et al. Malware homologydetermination using visualized images and feature fusion[J]. Peerj Comput Sci, 2021, 7: e494.
[8] Dosovitskiy A, Beyer L, Kolesnikov A, et al. Animage is worth 16×16 words: transformers for imagerecognition at scale[EB/OL].[2022-10-31]. http://arxiv. org/abs/2010. 11929.
[9] Vaswani A, Shazeer N, Parmar N, et al. Attentionis all You need[EB/OL]. [2022-11-29]. http://arxiv. org/abs/1706. 03762.
[10] Mehta S, Rastegari M. MobileViT: Light-weight,general-purpose, and mobile-friendly vision transformer[EB/OL].[2022-11-29]. http://arxiv. org/abs/2110. 02178.
[11] Ronen R, Radu M, Feuerstein C, et al. Microsoftmalware classification challenge [EB/OL]. [2023-03-13]. http://arxiv. org/abs/1802. 10135.
[12] Anderson H S, Roth P. Ember: An open dataset fortraining static pe malware machine learning models[EB/OL].(2018-05-12)[2023-06-14]. https://arxiv. org/abs/1804. 04637.
[13] Zangeneh V, Shajari M. A cost-sensitive move selectionstrategy for moving target defense[J]. ComputSecur, 2018, 75: 72.
[14] Shannon C E. A mathematical theory of communication[EB/OL].(1948-07-03)[2023-06-14]. https://doi. org/10. 1002/j. 1538-7305. 1948. tb01338. x.
[15] Lin T Y, Goyal P, Girshick R, et al. Focal loss fordense object detection [C]//Proceedings of theIEEE International Conference on Computer Vision.Venice, Italy: IEEE, 2017.
[16] Shabtai A, Moskovitch R, Feher C, et al. Detectingunknown malicious code by applying classificationtechniques on opcode patterns[J]. Secur Inform,2012, 1: 22.
[17] Kolosnjaji B, Zarras A, Webster G, et al. Deeplearning for classification of malware system call sequences[C]. Cham: Springer International Publishing,2016, 137: 149.
[18] Lowe G. Sift-the scale invariant feature transform[J].Int J, 2004, 91: 110.
[19] Loshchilov I, Hutter F. Sgdr: Stochastic gradient descentwith warm restarts[EB/OL].(2016-08-13)[2023-06-14]. https://arxiv. org/abs/1608. 03983.
[20] Xuan B N, Li J, Song Y F, et al. Malicious codeclassification method based on improved Mobile?NetV2 [J]. J Comput Appl, 2022, 1: 11.[軒勃娜,李進(jìn), 宋亞飛, 等. 基于改進(jìn) MobileNetV2 的惡意代碼分類(lèi)方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 1: 11.]
[21] Pinhero A, Anupama M L, Vinod P, et al. Malwaredetection employed by visualization and deep neuralnetwork[J]. Comput Secur, 2021, 105: 102247.
[22] Gibert D, Mateu C, Planes J,et al. Using convolutionalneural networks for classification of malwarerepresented as images[J]. J Comput Virol HackTech, 2019, 15: 28.
[23] Verma V, Muttoo S K, Singh V. Multiclass malwareclassification via first- and second- order texturestatistics[ J]. Comput Secur, 2020, 97: 109.
[24] Ravi V, Alazab M, Selvaganapathy S, et al. AMulti-View attention-based deep learning frameworkfor malware detection in smart healthcare systems[J].Comput Commun, 2022, 73: 81.
(責(zé)任編輯: 伍少梅)
基金項(xiàng)目: 四川省科技計(jì)劃項(xiàng)目(2021YFG0159);四川省科技計(jì)劃項(xiàng)目(2022YFG0171)