桑 振,李坤明,莊海燕
(鐵道警察學(xué)院,河南 鄭州 450000)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,智能手機(jī)和平板等終端設(shè)備廣泛普及,Android操作系統(tǒng)憑借其開放性和良好的體驗(yàn)感成為現(xiàn)在智能終端市場的主流系統(tǒng)。Strategy Analytics公布的2021年第一季度全球手機(jī)出貨量顯示,當(dāng)季全球智能手機(jī)出貨3.4億部,同比增加24%。操作系統(tǒng)為Android系統(tǒng)的三星、華為、小米、OPPO和VIVO占據(jù)市場上60%的份額,在移動(dòng)智能終端市場上有著重要地位。
惡意軟件是故意設(shè)計(jì)的對系統(tǒng)正常運(yùn)行造成嚴(yán)重破壞性的軟件的統(tǒng)稱,它是互聯(lián)網(wǎng)上最嚴(yán)重的威脅之一,各種移動(dòng)終端設(shè)備給人們的生活提供了便利,同時(shí)也存在著很大的風(fēng)險(xiǎn)。Android手機(jī)市場占有率的不斷上升,催生了Android應(yīng)用程序的迸發(fā)式增長,進(jìn)而也滋生很多惡意軟件,惡意軟件介于正規(guī)軟件和病毒軟件之間,既具備正常的下載、媒體播放功能,同時(shí)也有彈廣告、開后門等惡意行為,對于用戶的個(gè)人信息和財(cái)產(chǎn)造成很大威脅,這將導(dǎo)致用戶知情權(quán)和選擇權(quán)遭受侵犯。Android惡意軟件種類繁多,常見的有廣告軟件、后門程序、文件感染程序、勒索軟件、恐嚇軟件等。據(jù)統(tǒng)計(jì),2020年360安全大腦系統(tǒng)在移動(dòng)端共截獲惡意程序454.6萬個(gè),相較于2019年增長了151.3%,因此對于移動(dòng)終端惡意軟件的檢測至關(guān)重要。
近些年,將可視化技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的Android惡意軟件檢測方法層出不窮,NATARAJ等[1]首次將惡意軟件轉(zhuǎn)化為灰度圖像,開辟了卷積神經(jīng)網(wǎng)絡(luò)在惡意軟件分類中的新篇章。ZHANG等[2]直接提取惡意軟件的操作碼序列,使用直方圖歸一化方法,擴(kuò)張和侵蝕處理惡意軟件圖像,使用卷積神經(jīng)網(wǎng)絡(luò)來對操作碼圖像進(jìn)行分類。NI等[3]將反匯編的惡意軟件代碼轉(zhuǎn)換為基于SimHash的灰度圖像,然后通過卷積神經(jīng)網(wǎng)絡(luò)識(shí)別惡意軟件所屬家族。郗桐等[4]將可執(zhí)行文件的匯編操作碼序列映射為矩陣,然后使用卷積神經(jīng)網(wǎng)絡(luò)作為檢測模型。張晨斌等[5]將惡意軟件以字節(jié)為單位生成一個(gè)像素值,以固定像素寬度將惡意軟件轉(zhuǎn)換為灰度圖,然后使用包括CNN等多個(gè)分類器進(jìn)行檢測。張景蓮等[6]利用B2M算法將惡意代碼轉(zhuǎn)換為灰度圖,并采用單通道的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)灰度圖像的紋理特征,通過SoftMax實(shí)現(xiàn)惡意代碼家族分類。夏曉玲等[7]把Apk文件解壓后的二進(jìn)制文件以灰度圖的形式展現(xiàn),再結(jié)合融合模型的高階卷積神經(jīng)網(wǎng)絡(luò)來提高檢測的準(zhǔn)確率。李媛媛等[8]提取Android安裝包中的dex可執(zhí)行文件,將其轉(zhuǎn)化為灰度數(shù)值向量并進(jìn)行歸一化處理,采用深度神經(jīng)網(wǎng)絡(luò)搭建惡意軟件二分類系統(tǒng)。
深度神經(jīng)網(wǎng)絡(luò)隨著層數(shù)的增多,對訓(xùn)練硬件配置要求更加苛刻,訓(xùn)練過程往往更加耗時(shí)。已有研究多專注于提升惡意代碼檢測的準(zhǔn)確率,對于Android惡意代碼的檢測速度還有待提高,通過在深度神經(jīng)網(wǎng)絡(luò)中引入輕量化結(jié)構(gòu),可以在保持對目標(biāo)檢測精度的同時(shí)大幅提升檢測速度,并且其部署相對簡單、易于實(shí)現(xiàn),多用于移動(dòng)和嵌入式設(shè)備中。本文引入提取 Android 應(yīng)用程序特征圖像的思想,通過輕量化的卷積神經(jīng)網(wǎng)絡(luò)來完成惡意代碼的檢測工作。
惡意程序的檢測,可分為靜態(tài)分析與動(dòng)態(tài)分析。靜態(tài)分析不運(yùn)行待檢測代碼,而是通過直接對程序(如反匯編后的代碼)進(jìn)行統(tǒng)計(jì)分析得到數(shù)據(jù)特征,而動(dòng)態(tài)分析則在虛擬機(jī)或沙箱中執(zhí)行程序,獲取程序執(zhí)行過程中所產(chǎn)生的數(shù)據(jù)(如行為特征、網(wǎng)絡(luò)特征),進(jìn)行檢測和判斷。常用的靜態(tài)特征包括程序的二進(jìn)制文件、從使用IDA Pro等工具進(jìn)行反匯編得到的匯編代碼中提取的匯編指令、函數(shù)調(diào)用等信息,另外,基于字符串和基于API調(diào)用序列的特征也是比較常見的。
Android軟件在手機(jī)上的數(shù)據(jù)安裝格式為APK安裝包,Android應(yīng)用程序從編譯到打包為APK安裝包一般會(huì)經(jīng)過三個(gè)步驟,如圖1所示。首先,在編譯階段,編譯器將應(yīng)用模型的應(yīng)用模塊和相關(guān)依賴編譯為dex文件,該文件可以在Dalvik虛擬機(jī)上執(zhí)行;然后,將第一步生成的dex文件和一些已經(jīng)編譯過的資源打包為APK文件;最后,對APK進(jìn)行簽名,保證其在Android設(shè)備上正常安裝,如圖1所示。
圖1 APK的編譯與打包
本文分析了Android軟件的APK安裝包的編譯過程,提取其中具有代表性的可執(zhí)行文件classes.dex,它是整個(gè)APK文件的核心,可確保文件在Dalvik VM上的正常運(yùn)行??蓤?zhí)行文件在計(jì)算機(jī)中是以二進(jìn)制形式存儲(chǔ)的,通過讀取二進(jìn)制形式的dex文件,將其輸出為二進(jìn)制表示的矩陣形式,取8位的二進(jìn)制碼為一個(gè)單元,將其轉(zhuǎn)化為十進(jìn)制,每個(gè)十進(jìn)制數(shù)映射為灰度圖像中的每一個(gè)灰階值,進(jìn)而實(shí)現(xiàn)可執(zhí)行文件向灰度特征圖的轉(zhuǎn)換過程(圖2)。
圖2 特征可視化過程
隨著卷積神經(jīng)網(wǎng)絡(luò)在人工智能領(lǐng)域的廣泛應(yīng)用,對其性能的要求逐漸提高。網(wǎng)絡(luò)的不斷加深、數(shù)據(jù)量的增多以及網(wǎng)絡(luò)學(xué)習(xí)任務(wù)的加重使得網(wǎng)絡(luò)訓(xùn)練的效率問題日益突出,主要包含以下兩個(gè)問題:(1)網(wǎng)絡(luò)層數(shù)的不斷增加,會(huì)帶來大量的參數(shù),而大量的參數(shù)則需要高性能的儲(chǔ)存設(shè)備;(2)在真實(shí)的應(yīng)用場景中,檢測任務(wù)經(jīng)常需要是毫秒級(jí)別的,即具備很高的實(shí)時(shí)性,這樣就需要高性能的處理器或是通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)減少計(jì)算量。
輕量化模型通過設(shè)計(jì)高效的網(wǎng)絡(luò)計(jì)算方式,大幅減小網(wǎng)絡(luò)的計(jì)算復(fù)雜度,同時(shí)保持與原先網(wǎng)絡(luò)相當(dāng)?shù)男阅?。MobileNet-V1模型是為了適應(yīng)移動(dòng)端和嵌入式系統(tǒng)的視覺應(yīng)用而設(shè)計(jì)的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)模型[9],如圖3所示,采用深度可分離卷積結(jié)構(gòu),將標(biāo)準(zhǔn)的卷積結(jié)構(gòu)分解成一個(gè)深度卷積和一個(gè)點(diǎn)卷積,3×3深度卷積將每個(gè)卷積核應(yīng)用到每一個(gè)通道,而1×1點(diǎn)卷積用來組合每個(gè)通道的輸出[10],采用深度可分離卷積結(jié)構(gòu)很大程度上減少模型參數(shù)數(shù)量,提升模型的速度,同時(shí)具有較高的分類準(zhǔn)確率,可以在保持很高的檢測精度的同時(shí)具有很好的檢測速度。本文模型采用深度可分離卷積結(jié)構(gòu)對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行改造,將其設(shè)計(jì)為適用于移動(dòng)智能設(shè)備上的檢測任務(wù),可以保證移動(dòng)設(shè)備上檢測的準(zhǔn)確性和快速性。
圖3 標(biāo)準(zhǔn)卷積和深度可分離卷積
深度可分離卷積結(jié)構(gòu)將標(biāo)準(zhǔn)的卷積分成兩個(gè)部分:DWConv和PWConv。DWConv指對每個(gè)輸入通道單獨(dú)使用一個(gè)3×3的卷積核,PWConv是指1×1的點(diǎn)卷積,用于組合DWConv卷積的輸出,表1為MobileNet-V1網(wǎng)絡(luò)具體結(jié)構(gòu)。
表1 MobileNet-V1結(jié)構(gòu)
續(xù)表
(1)
因此,深度可分離卷積計(jì)算量是標(biāo)準(zhǔn)卷積計(jì)算量的1/N,可以很大程度上減少網(wǎng)絡(luò)的計(jì)算復(fù)雜度。
本模型選擇輕量化的卷積神經(jīng)網(wǎng)絡(luò)作為一個(gè)分類器,將Android軟件分為良性軟件和惡意軟件。主要有以下步驟:(1)數(shù)據(jù)采集與預(yù)處理;(2)模型設(shè)計(jì);(3)模型訓(xùn)練與評估。
一般深度學(xué)習(xí)都是直接將原數(shù)據(jù)作為輸入,但是由于有些Android應(yīng)用軟件比較大,對于其特點(diǎn)的學(xué)習(xí)效率過低,一般都是從源數(shù)據(jù)中提取一些可以描述應(yīng)用的特征。本文數(shù)據(jù)集包含良性軟件和惡意軟件兩種類型,其中良性軟件下載自Google play市場,惡意軟件來自加拿大安全研究所提供的公共數(shù)據(jù)集[11],選擇其中良性軟件和惡意軟件安裝包各1 481個(gè),提取其中的classes.dex可執(zhí)行文件,將其轉(zhuǎn)化為二進(jìn)制表達(dá)的矩陣形式。本文采用卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練,考慮將圖像作為輸入,即實(shí)現(xiàn)惡意軟件的可視化,將處理后的二進(jìn)制數(shù)據(jù)轉(zhuǎn)化生成對應(yīng)的灰度圖像,將構(gòu)造的數(shù)據(jù)特征轉(zhuǎn)換成適用于卷積神經(jīng)網(wǎng)絡(luò)輸入的數(shù)據(jù)類型,圖4為可執(zhí)行文件轉(zhuǎn)化后生成的灰度特征圖像。
(a)良性軟件 (b)惡意軟件圖4 良性軟件和惡意軟件灰度圖像
本文模型主要分為兩個(gè)部分,首先提取Android軟件APK壓縮包中的可執(zhí)行文件,采用可視化方法將二進(jìn)制文件轉(zhuǎn)換成灰度圖像。然后搭建輕量化的卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行檢測模型的訓(xùn)練與調(diào)參。在Windows環(huán)境下,基于Tensorflow框架搭建卷積神經(jīng)網(wǎng)絡(luò)檢測模型,并對模型進(jìn)行輕量化改造,將第一步預(yù)處理后的數(shù)據(jù)作為輸入,輸入搭建好的輕量化卷積神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)的迭代訓(xùn)練來學(xué)習(xí)惡意軟件樣本數(shù)據(jù)的全局泛化特征,實(shí)時(shí)監(jiān)控訓(xùn)練損失變化,并根據(jù)模型檢測的精度和速度不斷調(diào)節(jié)訓(xùn)練參數(shù),模型結(jié)構(gòu)設(shè)計(jì)如圖5所示。
圖5 本文模型結(jié)構(gòu)
本文基于Windows10系統(tǒng),顯卡為NVIDIA GTX1050Ti,在主流的Tensorflow學(xué)習(xí)框架上搭建本文模型,并引入傳統(tǒng)的VGG16網(wǎng)絡(luò)作為對比,將預(yù)處理后的灰度圖片按照訓(xùn)練集、測試集為7∶3的比例隨機(jī)抽取并轉(zhuǎn)換為tfrecord文件,設(shè)置Batch size為32,迭代學(xué)習(xí)10萬步,通過Tensorboard實(shí)時(shí)監(jiān)控訓(xùn)練過程中損失變化,圖6為迭代過程中的總損失值變化。
圖6 總損失值變化
為了便于訓(xùn)練模型的定量測試,使用準(zhǔn)確率、圖片檢測速度和參數(shù)量三個(gè)指標(biāo)來評估本文模型分類的效果,其中,準(zhǔn)確率定義為
(2)
其中,TP表示被正確分類為惡意樣本的數(shù)量,TN表示被正確分類為良性軟件的數(shù)量,P表示總體的惡意軟件樣本數(shù),N表示總體的良性軟件樣本數(shù)。
將傳統(tǒng)VGG16模型和本文模型準(zhǔn)確率、圖片檢測速度和參數(shù)量三個(gè)指標(biāo)進(jìn)行對比,如表2所示。
表2 模型評估參數(shù)對比
根據(jù)評估結(jié)果可以看出,本文搭建的輕量化的卷積神經(jīng)網(wǎng)絡(luò)較傳統(tǒng)方法,可以在保持較高準(zhǔn)確率的同時(shí),很大程度上減少網(wǎng)絡(luò)的參數(shù)量,提高圖片檢測速度,滿足對移動(dòng)端惡意軟件快速且準(zhǔn)確分類的要求。
本文將特征可視化與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,設(shè)計(jì)了一種輕量化卷積神經(jīng)網(wǎng)絡(luò)的惡意軟件分類模型,首先通過分析惡意軟件的靜態(tài)特征,對惡意軟件安裝包中可執(zhí)行文件進(jìn)行特征可視化,將其轉(zhuǎn)化為對應(yīng)的灰度圖像,然后引入卷積神經(jīng)網(wǎng)絡(luò)用于惡意軟件的識(shí)別。模型可以很好地學(xué)習(xí)惡意軟件的深層次特征,具有很高的魯棒性。同時(shí),對于標(biāo)準(zhǔn)卷積在特征學(xué)習(xí)過程中計(jì)算復(fù)雜度較大的問題,對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行輕量化改造,大幅減少卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù),能夠兼顧準(zhǔn)確性與實(shí)時(shí)性的要求,適用于移動(dòng)設(shè)備上端到端的實(shí)時(shí)分類任務(wù)。