孫超遠(yuǎn),蔣秋華,徐東平,李 琪
(1.中國鐵道科學(xué)研究院 研究生部,北京 100081;2.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081)
2022年2月,中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布了第49次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報告》[1]。數(shù)據(jù)表明,截至2021年12月,國內(nèi)網(wǎng)民規(guī)模和互聯(lián)網(wǎng)普及率均創(chuàng)新高?;ヂ?lián)網(wǎng)的快速普及與快速發(fā)展產(chǎn)生若干漏洞,這些漏洞被黑客所利用并進(jìn)行攻擊,給互聯(lián)網(wǎng)安全造成了巨大的威脅。惡意軟件便是持續(xù)攻擊互聯(lián)網(wǎng)網(wǎng)絡(luò)空間安全其中一個嚴(yán)重威脅。惡意軟件被黑客通過各種形式安裝在用戶主機(jī)中,竊取用戶敏感信息,對計(jì)算機(jī)操作系統(tǒng)造成破壞。勒索軟件作為惡意軟件的一種特殊形式,自1989年第一個勒索軟件“AIDS”誕生以來,便給網(wǎng)絡(luò)空間安全帶來了嚴(yán)峻的挑戰(zhàn)。
勒索病毒主要分為四大類型:第一種是文件加密類勒索病毒,此類病毒進(jìn)入用戶系統(tǒng)以后,通常會搜索系統(tǒng)中的數(shù)據(jù)文件,使用多種加密算法對文件進(jìn)行加密,以此索要贖金,破解存在很大的難度;第二類是數(shù)據(jù)竊取類勒索病毒,此類與文件加密類病毒類似,通常采用混合加密算法對用戶數(shù)據(jù)進(jìn)行加密,但攻擊者通過甄別和竊取用戶重要數(shù)據(jù),通過公開重要數(shù)據(jù),脅迫用戶支付勒索贖金,如Conti勒索病毒已經(jīng)攻擊并感染政府、重點(diǎn)企業(yè)等300多家,竊取并公開大量數(shù)據(jù);第三類是系統(tǒng)加密類勒索病毒,此類病毒同樣通過各類加密算法對系統(tǒng)磁盤主引導(dǎo)記錄、卷引導(dǎo)記錄等進(jìn)行加密,阻止用戶進(jìn)行磁盤訪問,影響用戶設(shè)備的正常啟動和使用;第四類是掩蓋真相類勒索病毒,此類勒索病毒對用戶設(shè)備屏幕進(jìn)行鎖定,通常偽裝成系統(tǒng)藍(lán)屏錯誤或以全屏形式呈現(xiàn)勒索信息的圖像,導(dǎo)致用戶無法正常登錄和使用設(shè)備,進(jìn)而進(jìn)行贖金勒索。
據(jù)CNCERT《2020年中國互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報告》[2],僅2020年就捕獲78.1萬余個勒索病毒,數(shù)量較2019年上升6.8%。同時,勒索病毒的攻擊方式和技術(shù)手段也在不斷升級,近年來,勒索病毒逐漸從“廣撒網(wǎng)”轉(zhuǎn)向定向攻擊,主要目標(biāo)是一些大型高價值機(jī)構(gòu),更具有針對性,技術(shù)手段從利用漏洞入侵過程以及隨后的內(nèi)網(wǎng)橫向移動過程的自動化、集成化、模塊化、組織化特點(diǎn)愈發(fā)明顯。勒索團(tuán)伙將加密文件竊密回傳,在網(wǎng)站或暗網(wǎng)數(shù)據(jù)泄露站點(diǎn)上公布部分或全部文件,以威脅受害者繳納贖金。RaaS(Ransomware-as-a-Service,勒索即服務(wù))商業(yè)模式的出現(xiàn),也使得攻擊者進(jìn)行勒索病毒攻擊成本大大降低,勒索病毒變種數(shù)量急劇增加。
在檢測勒索病毒的基礎(chǔ)上,對勒索病毒進(jìn)行分類,不僅能夠加快應(yīng)急響應(yīng)速度,也使得安全工程師能夠更快速有效地進(jìn)行針對性緩解,同時能夠快速檢測勒索病毒的新變種。目前國內(nèi)對勒索病毒的研究大多數(shù)是對勒索病毒進(jìn)行二分類,即檢測是否是勒索病毒,而對勒索病毒更進(jìn)一步的分類工作較少,同時其分類方法各有不足,目前大多勒索病毒自帶環(huán)境檢測,因此動態(tài)分析無法完全獲得勒索病毒動態(tài)特征,且成本較高。靜態(tài)分析往往需要人工通過工具提取靜態(tài)特征如簽名、操作碼等,遇到大規(guī)模的分類時,具有極大的局限性。
自可視化方法提出以來,人們得以通過視覺圖片來感受二進(jìn)制文件的整體結(jié)構(gòu)及特征,得到了廣泛使用。同時,二進(jìn)制文件的圖像可視化使得安全分析人員可以通過卷積神經(jīng)網(wǎng)絡(luò)的圖像識別及分類來達(dá)到二進(jìn)制文件的識別及分類,實(shí)現(xiàn)自動化,大大減少工作量。在可視化勒索軟件分類方法的基礎(chǔ)上,該文利用Hilbert[3]曲線對勒索病毒進(jìn)行可視化,得到對應(yīng)的圖像,利用基于ResNet[4]改進(jìn)的三種殘差神經(jīng)網(wǎng)絡(luò)模型提取特征進(jìn)行圖像分類,使用集成學(xué)習(xí)投票生成最終結(jié)果,從而達(dá)到勒索軟件的分類。
自勒索病毒首次出現(xiàn)于1989年以來[5],隨著勒索病毒的技術(shù)升級,不斷迭代,RaaS商業(yè)模式的出現(xiàn),使得勒索病毒及其變種數(shù)量屢創(chuàng)新高。在實(shí)踐中,攻擊者往往對現(xiàn)有勒索病毒利用工具進(jìn)行改造或轉(zhuǎn)換,生成新的變種,因此這些病毒往往在行為或代碼上存在一定的相似性,也即同一家族的勒索病毒,這種特征使得對根據(jù)勒索病毒產(chǎn)生的變種來源進(jìn)行分類,也即勒索病毒家族分類,在理論上變得可行。
目前對勒索病毒分析的方法主要分為兩種:動態(tài)和靜態(tài)。動態(tài)分析通過在虛擬機(jī)或沙箱中運(yùn)行,獲取勒索病毒的進(jìn)程行為、API調(diào)用序列、注冊表訪問、通信行為等,提取勒索病毒的行為特征,進(jìn)行進(jìn)一步的分析。Hampton[6]通過API調(diào)用檢測特定活動來識別勒索軟件,Takeuchi等人[7]通過提取API調(diào)用行為,以2-grams表示,結(jié)合SVM檢測勒索病毒。Scaife[8]設(shè)計(jì)了勒索軟件預(yù)警系統(tǒng)。Usharani[9]通過分析網(wǎng)絡(luò)流量,對勒索病毒通信行為溯源從而識別勒索病毒。Cabaj[10]設(shè)計(jì)開發(fā)了SDN檢測系統(tǒng)。Zavarsky[11]通過監(jiān)視文件系統(tǒng)、注冊表行為檢測勒索病毒。Cohen[12]對勒索病毒運(yùn)行時轉(zhuǎn)儲內(nèi)存鏡像分析,使用Volatility框架提取特征,進(jìn)行訓(xùn)練。Moussaileb[13]采用誘餌文件,遍歷文件系統(tǒng),對勒索病毒進(jìn)行檢測。郭春生[14]通過API調(diào)用對勒索軟件實(shí)現(xiàn)了家族分類。龔琪[15]對API序列進(jìn)行對比,進(jìn)行了勒索病毒同源性分析。此類方法需要專家提供專門的運(yùn)行環(huán)境進(jìn)行分析,手動篩選特征,缺乏自動化,此外,越來越多的勒索病毒代碼中自帶指紋識別以逃避檢測,在檢測到疑似沙箱虛擬環(huán)境時,勒索病毒只會運(yùn)行一些正常的功能,并不會觸發(fā)惡意代碼的執(zhí)行。這給安全分析師帶來了困難。靜態(tài)分析往往通過PEiD、IDA Pro、OllyDbg等工具從代碼上進(jìn)行分析,一般不會受到加殼、混淆等技術(shù)的影響。Zhang H等人[16]將N-gram、操作碼、TD-IDF結(jié)合,對勒索軟件進(jìn)行家族分類,Xiao[17]在操作碼中引入了自注意力,使用DBN進(jìn)行訓(xùn)練。但此類方法同樣需要人工工具分析處理,逆向思路難度大,效率低下,不適合大規(guī)模樣本分類。
自Conti等人[18]在2008年首次提出惡意軟件可視化的想法后,很多人在此領(lǐng)域做出了大量的貢獻(xiàn)。2010年Kinable等[19]提取API調(diào)用,通過圖形表示,使用聚類算法進(jìn)行圖匹配,實(shí)現(xiàn)惡意代碼分類。2011年Nataraj[20]進(jìn)行了惡意軟件分類的實(shí)驗(yàn),取得了98%的準(zhǔn)確率。2020年郭春[21]進(jìn)一步將可視化用于勒索軟件分類,取得了96.7%的分類準(zhǔn)確率,展示了勒索軟件可視化分類的前景。與之前可視化方法不同的是,該文采用了保留數(shù)據(jù)特征更好的Hilbert曲線化圖像,使用更深層次的不同遷移模型進(jìn)行驗(yàn)證,最終結(jié)果使用集成學(xué)習(xí)進(jìn)行投票,從而增加分類結(jié)果的魯棒性。結(jié)果表明,該方法在實(shí)驗(yàn)中取得了更高的準(zhǔn)確率。
勒索病毒分類方法的流程主要包括三部分:Hilbert可視化、深度模型訓(xùn)練、集成學(xué)習(xí)投票,如圖1所示。
圖1 分類流程
第一部分,利用binvis[22]工具使用Hilbert[22]曲線將勒索軟件可視化成Magnitude圖;第二部分,使用基于ResNet-50的遷移學(xué)習(xí)模型ResNeSt-50[23]、ResNeXt-50[24]和DenseNet-161[25]對Magnitude圖進(jìn)行特征提取并訓(xùn)練,得出各自模型的分類結(jié)果;第三部分,使用集成學(xué)習(xí)模塊對三種模型結(jié)果進(jìn)行投票,得到最終測試結(jié)果。
在日常分析工作中,分析人員遇到未知的二進(jìn)制文件時,使用常規(guī)的查看文件方法難以掌握文件的整體結(jié)構(gòu)。因此,通過將代碼轉(zhuǎn)換為圖像定義一系列的規(guī)則實(shí)現(xiàn)二進(jìn)制文件的可視化,可以使得分析人員快速了解文件代碼結(jié)構(gòu)以輔助分析。此方法同樣適用于勒索病毒文件,而對于同一家族的勒索病毒,因其具有相似結(jié)構(gòu)塊的代碼,所以其可視化圖像應(yīng)保持局部結(jié)構(gòu)相似性或者紋理特征一致性。同一家族圖像相似,不同家族圖像結(jié)構(gòu)不同,從而通過可視化圖像實(shí)現(xiàn)勒索病毒家族分類。在前人所做的可視化工作中,往往都是將勒索病毒PE文件反編譯得到二進(jìn)制文件,然后將文件中的二進(jìn)制比特串分割為若干長度為8比特的字串,從左到右逐行遍歷,使用取值范圍為[0,255]的像素點(diǎn)表示文件中的元素,轉(zhuǎn)換為對應(yīng)的灰度圖。但這種“之”字形的遍歷即Zigzag曲線往往不是很令人滿意——小比例元素(即只占幾條線的元素)信息往往會丟失,在一維空間中一些彼此靠近的數(shù)據(jù)點(diǎn)映射到二維空間時會跨越不同的位置同樣導(dǎo)致局部信息可能丟失。
在計(jì)算機(jī)科學(xué)中,常常采用空間填充曲線進(jìn)行降維或升維,將n維空間數(shù)據(jù)與1維連續(xù)空間數(shù)據(jù)互相映射,Hilbert曲線便是一種常用的空間填充曲線方法。
Hilbert曲線的構(gòu)造方式可遞歸生成。在階數(shù)為1的情況下,將一個平面劃分成四個相等的小正方形,然后以順時針方向從左下象限小正方形的中心點(diǎn)開始到右下象限的小正方形結(jié)束,用線段將四個正方形的中心點(diǎn)連接起來。增加階數(shù)時,分別將每個小正方形進(jìn)一步分割成四個相等的更小的正方形,依據(jù)前述步驟將其中心連接起來,然后翻轉(zhuǎn)部分正方形以將相鄰圖形銜接起來,如此反復(fù),無限分割連接,如圖2,得到最終填滿整個平面的Hilbert曲線。結(jié)果表明,在將一維樣本序列映射到二維圖像上的同時保持一維上相鄰元素在二維上盡可能彼此接近,從而最大程度地保留了局部性信息,而卷積神經(jīng)網(wǎng)絡(luò)中提取特征的一個重要特性便是局部不變性,兩者相互吻合,意味著能夠提取到更多的特征,并且得到的圖像大小不會因文件大小不同而尺寸不同。由圖2(c)、(d)中黑點(diǎn)可看出,隨著階數(shù)的增加,一維樣本序列中的某個元素點(diǎn)在二維圖像中,趨于一個固定的位置,使得即使改變階數(shù),也不用重新訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),大大減少了訓(xùn)練成本。因此,該文采用的空間填充曲線按照Hilbert曲線[24]規(guī)則對一個勒索病毒的二進(jìn)制文件中的代碼進(jìn)行采樣,同時增加更多的顏色映射的粒度來獲得更多的細(xì)節(jié),并將相應(yīng)的像素寫入圖像,轉(zhuǎn)換為Magnitude圖,實(shí)現(xiàn)可視化。
圖2 Hilbert曲線的構(gòu)造
由圖3中可看到,勒索病毒文件十六進(jìn)制中資源節(jié)在Magnitude圖中一一對應(yīng),代碼中的內(nèi)部結(jié)構(gòu)信息在Magnitude圖中得到了很好的保留,連續(xù)的數(shù)據(jù)塊都保存在一個可視塊中。圖4為兩個不同家族勒索病毒Magnitude圖的比較??梢灾庇^地看出兩個勒索病毒家族Conti和Stop之間的差異。
圖3 PE文件的簡要結(jié)構(gòu)及對應(yīng)Magnitude圖的資源節(jié)表示
圖4 兩個不同家族勒索病毒Magnitude圖的比較
殘差神經(jīng)網(wǎng)絡(luò)在圖像分類領(lǐng)域具有很強(qiáng)的學(xué)習(xí)能力和遷移能力,可以選擇從上游預(yù)訓(xùn)練好的模型遷移到下游分類任務(wù)中,自動提取圖像的特征,進(jìn)行分類,大大減少了重新架構(gòu)網(wǎng)絡(luò)模型的復(fù)雜度,降低了對數(shù)據(jù)集的要求。因此,該文采用三種均基于ResNet-50的深度遷移模型:ResNeSt-50、ResNeXt-50和DenseNet-161。ResNet出現(xiàn)于2015年,在此之前的卷積神經(jīng)網(wǎng)絡(luò)模型加入更深的卷積層數(shù)后,模型準(zhǔn)確率存在瓶頸,精確度上升到一定上限后甚至?xí)霈F(xiàn)退化問題,ResNet網(wǎng)絡(luò)使用殘差連接,在神經(jīng)網(wǎng)絡(luò)的側(cè)面添加了恒等變換,同時取消各個卷積層之間的池化層,解決了深度CNN模型訓(xùn)練困難的問題,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖5所示。
圖5 ResNet核心卷積結(jié)構(gòu)
圖5是ResNet網(wǎng)絡(luò)中的核心卷積結(jié)構(gòu)—?dú)埐顗K,中間是一個堆積層結(jié)構(gòu)(由幾層堆積而成),當(dāng)輸入為x時,其學(xué)習(xí)到的特征記為H(x),在引入右邊的殘差連接進(jìn)行學(xué)習(xí)時,令其堆積層學(xué)習(xí)到殘差F(x)=H(x)-x,這樣原始的學(xué)習(xí)特征是F(x)+x,從而確保深層網(wǎng)絡(luò)模型的精確度。而ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)包含5個卷積模塊和1個全連接模塊,前5個模塊有50個卷積層,用于計(jì)算提取特征,全連接模塊包含1個平均池、1個全連接層和1個softmax,用于結(jié)果分類。
在CNN中,通過卷積模塊對輸入圖像提取特征,文中輸入圖像為Magnitude,在模型中輸入為RGB三維圖像,因此為三維卷積。
假設(shè)一個圖像的輸入格式x為[hin,win,c],其中hin、win、c分別代表圖像的長、寬、維度(通道數(shù)),卷積核kernel的格式為[fk,fk,c],步長為stride,輸入圖像與卷積核進(jìn)行卷積后的結(jié)果會損失圖像邊界處的信息,因此卷積操作前需要對原矩陣邊界進(jìn)行填充。ResNet對圖像像素采用same方式填充,這種填充方式能夠最大程度地保留圖像的原始特征,卷積時對圖像填充數(shù)為padding。每次卷積計(jì)算后得到的特征映射y為[hout,wout,c],其中特征映射尺寸大小的計(jì)算公式及填充圈數(shù)分別為:
經(jīng)過多輪卷積得到最終的圖像特征圖。
該文分別使用三種遷移模型進(jìn)行特征提取和訓(xùn)練,分別使用各自的Softmax層得出分類結(jié)果。
ResNeSt-50在ResNet-50的基礎(chǔ)上添加了分散注意力機(jī)制,可以跨越不同的特征圖組實(shí)現(xiàn)特征圖注意力,能夠更好地提取到全局特征。
ResNeXt-50對ResNet-50進(jìn)行了改進(jìn),將單個卷積結(jié)構(gòu)替換成了組卷積,采用了多分支的策略,添加了一個新的維度-基數(shù)以表示組卷積中卷積單元的數(shù)量,此結(jié)構(gòu)可以在模型參數(shù)量不變的情況下提升精度。
DenseNet-161將ResNet-50的殘差連接加到極致,計(jì)算公式由xl=Hl(xl-1)+xl-1變?yōu)閤l=Hl([x0,x1,…,xl-1]),將每一層的輸出都直連到后面所有的層的輸入,使得后面的層融合了前面多層特征的特性,同時這種向后跳躍的結(jié)構(gòu)能夠緩解一定程度的過擬合。
三種遷移模型在提取到特征之后,均使用average Pooling層替代全連接層傳遞給Softmax進(jìn)行分類,該文在原有三種遷移模型的基礎(chǔ)上修改最后Softmax層,使其適合本實(shí)驗(yàn)結(jié)果分類,每種模型輸出各自的預(yù)測結(jié)果標(biāo)簽。
在2.2節(jié)中,分別得到三種模型預(yù)測結(jié)果后,因三種遷移模型均基于ResNet-50模型,相互之間具有較小的同質(zhì)性,因此使用集成學(xué)習(xí)進(jìn)行投票,將三個模型預(yù)測結(jié)果中出現(xiàn)次數(shù)最多的類別作為最終類別標(biāo)簽,降低方差,從而提高模型的魯棒性。
目前勒索病毒沒有公開的數(shù)據(jù)集,因此實(shí)驗(yàn)的數(shù)據(jù)集主要來自VirusShare,另用VirutTotal進(jìn)行補(bǔ)充,一共收集了18個家族的勒索病毒。因采用轉(zhuǎn)換為Magnitude圖像進(jìn)行識別分類,需要對數(shù)據(jù)集樣本進(jìn)行加殼識別,同時為了確保樣本的勒索家族標(biāo)簽,對樣本通過VirutTotal報告分析進(jìn)行篩選。實(shí)驗(yàn)還在360平臺下載可信(Benign)樣本,以區(qū)分模型對正常樣本和勒索病毒樣本的二分類結(jié)果。在對數(shù)據(jù)集樣本進(jìn)行篩選后,確定最終的數(shù)據(jù)集包含17個家族的勒索病毒樣本2 409個以及可信樣本192個,其中QNACRYPT為Linux平臺的ELF勒索病毒,其余均為Windows平臺的PE文件。實(shí)驗(yàn)數(shù)據(jù)集構(gòu)成如表1所示。
表1 勒索病毒家族實(shí)驗(yàn)數(shù)據(jù)集
該文采用分類精度accuracy、準(zhǔn)確率precision、召回率recall和F1-score四個性能指標(biāo)[26]來評估模型的性能。四個指標(biāo)的計(jì)算公式分別如下:
在預(yù)訓(xùn)練階段,由于轉(zhuǎn)換的Magnitude圖尺寸大小為255×1 020,而模型輸入圖像大小為224×224,因此使用ReSize函數(shù)將圖像統(tǒng)一調(diào)整為224×224,對圖片處理節(jié)點(diǎn)采用了數(shù)據(jù)增強(qiáng),隨機(jī)裁剪圖像,縮放,隨機(jī)更改亮度、對比度和飽和度,添加隨機(jī)噪聲等手段增強(qiáng)圖像質(zhì)量,特別是在預(yù)測階段對Test樣本進(jìn)行了TTA(Test Time Augmentation)來提高預(yù)測精度。優(yōu)化器使用AdamW,其效果與Adam+L2正則化相同,但是計(jì)算效率更高。學(xué)習(xí)率采用cosine,計(jì)算公式為:
其中,ηmin表示最小學(xué)習(xí)率,ηmax表示初始學(xué)習(xí)率,也是最大學(xué)習(xí)率,Tcur表示當(dāng)前的epoch,Tmax表示cos周期的1/2。
由于實(shí)驗(yàn)數(shù)據(jù)集各家族樣本中個別家族樣本數(shù)量不均衡,因此采樣使用改良的K折交叉驗(yàn)證即StratifiedKFold,StratifiedKFold使用分層采樣,能夠保證訓(xùn)練集與測試集中各家族類別樣本比例與原始數(shù)據(jù)集相同。
使用3.1節(jié)的數(shù)據(jù)集對分類模型進(jìn)行測試驗(yàn)證,樣本按8∶2的比例劃分為訓(xùn)練集與測試集,得到訓(xùn)練集2 082個樣本,測試集519個樣本。訓(xùn)練集中使用StratifiedKFold進(jìn)行十折交叉驗(yàn)證,設(shè)置epoch為30,分別對三個模型進(jìn)行訓(xùn)練最后進(jìn)行集成投票。同時設(shè)置Hilbert曲線和Zigzag曲線的對比實(shí)驗(yàn),每種方法與模型分別運(yùn)行三次實(shí)驗(yàn),結(jié)果取平均值,結(jié)果如表2所示。
表2 不同曲線的實(shí)驗(yàn)結(jié)果對比 %
實(shí)驗(yàn)結(jié)果表明,Hilbert曲線在性能上優(yōu)于Zigzag曲線,并且具有更強(qiáng)的魯棒性,基于Hilbert曲線對勒索病毒文件可視化得到的Magnitude圖能很更好地提取到特征,模型能夠?qū)agnitude圖進(jìn)行識別和分類從而達(dá)到對勒索病毒的檢測和分類。且因該文采用了更深的神經(jīng)網(wǎng)絡(luò),在采用更大規(guī)模數(shù)據(jù)和進(jìn)行更深層次的訓(xùn)練時,模型的分類準(zhǔn)確度還能得到更進(jìn)一步的提高。因樣本涉及Windows、Linux兩大平臺,其中Windows樣本結(jié)果分類率達(dá)到98.62%,Linux樣本數(shù)量雖然較少,分類率也達(dá)到了90%,實(shí)驗(yàn)結(jié)果表明該模型同樣適用于Linux平臺,更具有普適性。
勒索病毒近年來呈爆發(fā)式增長,對用戶文件進(jìn)行加密勒索,令用戶難以防范,造成巨大損失。此時對勒索病毒進(jìn)行檢測和分類對于防范和應(yīng)急響應(yīng)都具有重要的意義。在基于空間填充曲線可視化的Magnitude圖,通過三種模型進(jìn)行集成學(xué)習(xí)投票,無需通過動態(tài)執(zhí)行和靜態(tài)逆向分析即可很好地進(jìn)行勒索病毒家族分類以及良性軟件的識別。
在實(shí)驗(yàn)中發(fā)現(xiàn),模型對于Magnitude圖沒有更好地提取到特征,從而導(dǎo)致個別家族分類率較低,因此下一步將研究更多的特征提取方式,同時將結(jié)合勒索病毒文件的asm文件和bytes文件轉(zhuǎn)換為香農(nóng)熵和字節(jié)類圖以探索更多的可視化方式,并且將勒索病毒家族更多地?cái)U(kuò)大到Linux平臺以適應(yīng)企業(yè)實(shí)際生產(chǎn)環(huán)境。