劉奇旭 劉嘉熹 靳 澤 劉心宇 肖聚鑫 陳艷輝 朱洪文 譚耀康
1(中國科學(xué)院信息工程研究所 北京 100085)
2(中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京 100049)
近年來,物聯(lián)網(wǎng)(Internet of things,IoT)在智能家居、智能手表、智能健康、供應(yīng)鏈管理等領(lǐng)域中被大量使用,“萬物互聯(lián)”已經(jīng)成為當(dāng)今時(shí)代的主流.截至2022 年,全球物聯(lián)網(wǎng)設(shè)備的數(shù)量已達(dá)131 億,預(yù)計(jì)到2030 年物聯(lián)網(wǎng)設(shè)備數(shù)量將會(huì)逼近300 億,與此同時(shí),物聯(lián)網(wǎng)市場(chǎng)的收益也逐步攀升,年收入增長率高達(dá)13.60%[1].
隨著物聯(lián)網(wǎng)設(shè)備的大量使用,人們的生活質(zhì)量顯著提高,然而,物聯(lián)網(wǎng)的蓬勃發(fā)展也為攻擊者提供了溫床,生產(chǎn)廠商更多關(guān)注設(shè)備銷量和收益,對(duì)物聯(lián)網(wǎng)設(shè)備的安全問題很難投入足夠的研究.此外,物聯(lián)網(wǎng)設(shè)備還存在使用弱口令、不及時(shí)更新安全補(bǔ)丁等問題.因此,物聯(lián)網(wǎng)設(shè)備比傳統(tǒng)的臺(tái)式機(jī)、筆記本電腦等設(shè)備更容易被惡意代碼攻擊,成為惡意攻擊的目標(biāo).惡意代碼,又稱為惡意軟件,是指能夠在計(jì)算機(jī)系統(tǒng)中進(jìn)行非授權(quán)操作,并使系統(tǒng)執(zhí)行攻擊者希望其執(zhí)行的操作,以實(shí)施破壞或竊取信息的代碼.惡意代碼可能以蠕蟲、病毒、遠(yuǎn)控木馬、僵尸程序以及勒索軟件等形態(tài)出現(xiàn),以不同攻擊形態(tài)出現(xiàn)的惡意代碼破壞計(jì)算機(jī)、服務(wù)器、客戶端或計(jì)算機(jī)網(wǎng)絡(luò),或在不知情的情況下?lián)p害用戶的計(jì)算機(jī)安全和隱私,給企業(yè)和個(gè)人造成巨大的經(jīng)濟(jì)損失.例如,攻擊者通過精心設(shè)計(jì)惡意代碼,利用物聯(lián)網(wǎng)設(shè)備使用默認(rèn)憑證或弱憑證的漏洞控制設(shè)備,并執(zhí)行進(jìn)一步的攻擊.
Sonic Wall 的報(bào)告[2]指出,截止到2022 年,針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼攻擊同比增加了77%,無疑給物聯(lián)網(wǎng)安全造成巨大威脅.2016 年,物聯(lián)網(wǎng)惡意軟件Mirai 通過使用默認(rèn)用戶名和密碼感染設(shè)備,創(chuàng)下了最大的分布式拒絕服務(wù)(distributed denial of service,DDoS)攻擊記錄,引起了眾多安全研究人員[3-4]對(duì)物聯(lián)網(wǎng)惡意代碼的關(guān)注.Mirai 的源代碼不久后泄露,一定程度上導(dǎo)致了以物聯(lián)網(wǎng)設(shè)備為目標(biāo)的新型惡意軟件家族如Gafgyt,Reaper,satori[5]等的出現(xiàn),這些惡意代碼對(duì)物聯(lián)網(wǎng)設(shè)備的安全和用戶的隱私及財(cái)產(chǎn)安全都產(chǎn)生了嚴(yán)重威脅,物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)已經(jīng)成為物聯(lián)網(wǎng)安全領(lǐng)域研究的重要組成部分.
為了緩解惡意代碼帶來的巨大安全風(fēng)險(xiǎn),近年來,安全研究人員開始逐漸關(guān)注物聯(lián)網(wǎng)領(lǐng)域的惡意軟件檢測(cè)工作.傳統(tǒng)的物聯(lián)網(wǎng)惡意代碼檢測(cè)和設(shè)備保護(hù)方法主要依靠特征庫的積累和惡意軟件分析人員的人工分析,但是由于惡意軟件的爆發(fā)式增長[4,6-10],傳統(tǒng)方式缺乏效率且難以應(yīng)對(duì)未知的安全風(fēng)險(xiǎn).安全研究人員開始嘗試將在圖像分類、文本分析等領(lǐng)域取得了巨大成功的人工智能(artificial intelligence,AI)技術(shù)應(yīng)用于惡意代碼檢測(cè)領(lǐng)域并得到了很好的效果[11-14].目前,基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究逐漸成為主流.但是,相較于傳統(tǒng)的臺(tái)式機(jī)、服務(wù)器等設(shè)備,物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè)技術(shù)不僅面臨著基于人工智能的惡意代碼檢測(cè)技術(shù)普遍需求更高檢測(cè)準(zhǔn)確率等問題,而且要應(yīng)對(duì)物聯(lián)網(wǎng)設(shè)備自身特性引發(fā)的2 大挑戰(zhàn)[15]:1)物聯(lián)網(wǎng)惡意代碼能夠感染使用多種不同CPU 架構(gòu)的設(shè)備,而不同CPU架構(gòu)的指令集不同,導(dǎo)致無法將基本使用相同架構(gòu)的傳統(tǒng)設(shè)備中成熟的惡意代碼特征提取和檢測(cè)方法直接應(yīng)用到物聯(lián)網(wǎng)惡意代碼的檢測(cè)中.2)由于物聯(lián)網(wǎng)設(shè)備一般體積較小,需要部署在各種不同的環(huán)境中,物聯(lián)網(wǎng)設(shè)備受到內(nèi)存空間小、電量少等資源限制,需要部署相對(duì)于傳統(tǒng)設(shè)備更輕量級(jí)的檢測(cè)系統(tǒng).因此基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究在提高模型的檢測(cè)效果的同時(shí),需要解決當(dāng)前物聯(lián)網(wǎng)設(shè)備自身的特性帶來的獨(dú)特挑戰(zhàn).
隨著物聯(lián)網(wǎng)設(shè)備地逐步普及,許多物聯(lián)網(wǎng)安全相關(guān)研究也被提出[16],基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究也不斷涌現(xiàn),本文對(duì)2018 年以來網(wǎng)絡(luò)與信息安全領(lǐng)域四大頂級(jí)會(huì)議以及期刊等來源的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究進(jìn)行了大量的調(diào)研和分析,總結(jié)現(xiàn)有研究工作的特點(diǎn)和不足,為進(jìn)一步的研究提供了系統(tǒng)性的參考.圖1展示了歷年來基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)文章數(shù)量,文章數(shù)量的增長速度逐步加快,說明隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的檢測(cè)方案被提出.
Fig.1 AI-based IoT malware detection representative research statistics from 2018 to May 2023圖1 2018—2023 年5 月基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)代表性研究統(tǒng)計(jì)
為了更加直觀地展現(xiàn)目前研究工作的側(cè)重點(diǎn)以及存在的問題,本文總結(jié)了物聯(lián)網(wǎng)領(lǐng)域與傳統(tǒng)設(shè)備領(lǐng)域的檢測(cè)工作的差異性,從新的角度提出一種新的分類方法.
本文主要有3 個(gè)方面的貢獻(xiàn):
1)本文調(diào)研了自2018 年以來基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作,深入分析了這些研究工作提出的基于人工智能的檢測(cè)技術(shù)以及其技術(shù)特點(diǎn),對(duì)本領(lǐng)域的發(fā)展進(jìn)程進(jìn)行了全面的梳理.
2)本文從物聯(lián)網(wǎng)設(shè)備和系統(tǒng)自身的特性出發(fā),圍繞物聯(lián)網(wǎng)惡意代碼檢測(cè)的主要研究動(dòng)機(jī),從面向物聯(lián)網(wǎng)設(shè)備限制緩解的惡意代碼檢測(cè)和面向性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)2 個(gè)角度對(duì)當(dāng)前的研究工作進(jìn)行了分類研究.
3)基于對(duì)物聯(lián)網(wǎng)惡意代碼檢測(cè)工作的全面調(diào)研總結(jié),本文對(duì)當(dāng)前的工作進(jìn)行了深入的分析,總結(jié)了應(yīng)用人工智能技術(shù)的檢測(cè)當(dāng)前仍存在的不足和面臨的挑戰(zhàn),并展望了未來基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究的方向.
本節(jié)從物聯(lián)網(wǎng)的基本概念入手,介紹物聯(lián)網(wǎng)的基本架構(gòu)和物聯(lián)網(wǎng)設(shè)備的內(nèi)部架構(gòu),進(jìn)而梳理了影響運(yùn)行在物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè)技術(shù)設(shè)計(jì)的特性.
學(xué)術(shù)界通常將物聯(lián)網(wǎng)系統(tǒng)劃分為感知層、網(wǎng)絡(luò)層和應(yīng)用層[17-18],物聯(lián)網(wǎng)系統(tǒng)的結(jié)構(gòu)層次和安全風(fēng)險(xiǎn)及威脅如圖2 所示.
Fig.2 Structural layers of IoT system and the threats they face圖2 物聯(lián)網(wǎng)系統(tǒng)的結(jié)構(gòu)層次及其面臨的安全威脅
感知層關(guān)聯(lián)到各類物聯(lián)網(wǎng)設(shè)備,這些設(shè)備中通常內(nèi)置了許多用于收集外部信息的傳感器以及用于數(shù)據(jù)傳輸?shù)臒o線連接模塊[19],傳感器收集的數(shù)據(jù)被發(fā)送到應(yīng)用層.網(wǎng)絡(luò)層定義了各類通信協(xié)議與傳輸協(xié)議,負(fù)責(zé)感知層與應(yīng)用層之間的數(shù)據(jù)交換.應(yīng)用層包括云平臺(tái)和搭載于物聯(lián)網(wǎng)設(shè)備上的應(yīng)用程序(application,APP).其中各層的物聯(lián)網(wǎng)設(shè)備都面臨著不同的安全威脅,而各個(gè)層次中的物聯(lián)網(wǎng)設(shè)備都可能受到惡意代碼攻擊.
具體到設(shè)備而言,每個(gè)物聯(lián)網(wǎng)設(shè)備的內(nèi)部組成自下而上可以分為硬件層、系統(tǒng)層和用戶層,如圖3所示.
Fig.3 Internal architecture of IoT devices圖3 物聯(lián)網(wǎng)設(shè)備內(nèi)部架構(gòu)
硬件層常見的處理器架構(gòu)包括ARM、MIPS、PowerPC(PPC)、SPARC、SuperH 等[20],供應(yīng)商往往會(huì)根據(jù)物聯(lián)網(wǎng)設(shè)備不同的功能需求選擇基于不同架構(gòu)的處理器.這些架構(gòu)均為32 b 精簡指令集處理器計(jì)算機(jī)(reduced instruction set computer,RISC),其被廣泛應(yīng)用于微處理器的嵌入式系統(tǒng)設(shè)計(jì),低能耗的特性使得這些架構(gòu)適用于移動(dòng)通信、航空航天、智能傳感器等設(shè)備中.例如,基于MIPS 架構(gòu)開發(fā)的Sensor Hub 被廣泛應(yīng)用于可穿戴設(shè)備[21].臺(tái)式機(jī)和服務(wù)器等設(shè)備上常用的x86 和x86_64 等架構(gòu)為復(fù)雜指令集處理器計(jì)算機(jī)(complex instruction set computer,CISC),由于其復(fù)雜性與高能耗,較少出現(xiàn)在物聯(lián)網(wǎng)設(shè)備上.
物聯(lián)網(wǎng)設(shè)備的系統(tǒng)層包括操作系統(tǒng)和應(yīng)用程序,為物聯(lián)網(wǎng)設(shè)備功能的實(shí)現(xiàn)提供支撐.物聯(lián)網(wǎng)設(shè)備的操作系統(tǒng)具有低功耗、安全、通信協(xié)議支持和云端連接功能.常見的物聯(lián)網(wǎng)操作系統(tǒng)包括RIOT、Contiki、ARM mbed、eLinux 等[22].
物聯(lián)網(wǎng)設(shè)備的用戶層面向用戶提供交互界面并接受用戶控制.
通過分析物聯(lián)網(wǎng)設(shè)備的組成,可以梳理出物聯(lián)網(wǎng)設(shè)備區(qū)別于傳統(tǒng)臺(tái)式機(jī)等設(shè)備的2 個(gè)特性:
1)根據(jù)物聯(lián)網(wǎng)設(shè)備的獨(dú)特功能需求使用不同的CPU 架構(gòu),不同CPU 架構(gòu)所使用的指令集、寄存器等也存在差異.
2)物聯(lián)網(wǎng)設(shè)備結(jié)構(gòu)上的局限性導(dǎo)致大多數(shù)物聯(lián)網(wǎng)設(shè)備的內(nèi)存容量較小,可分配的計(jì)算資源也相對(duì)較少.
由于存在多種CPU 架構(gòu)以及資源限制等與傳統(tǒng)臺(tái)式機(jī)和服務(wù)器等設(shè)備不同的特性,攻擊者往往會(huì)專門開發(fā)針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼.1.2 節(jié)中,我們將詳細(xì)探討這些特性給物聯(lián)網(wǎng)惡意代碼檢測(cè)帶來的獨(dú)特挑戰(zhàn).
本節(jié)首先介紹了近年來活躍的物聯(lián)網(wǎng)惡意代碼,然后結(jié)合物聯(lián)網(wǎng)設(shè)備和運(yùn)行在其上的惡意代碼的特性指出了基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)面臨的獨(dú)特挑戰(zhàn).
著名的物聯(lián)網(wǎng)惡意代碼Mirai 在2016 年10 月的網(wǎng)絡(luò)攻擊[23]引起了全球關(guān)注,大量運(yùn)行嵌入式Linux 系統(tǒng)且使用弱密碼或默認(rèn)憑證的IoT 設(shè)備被Mirai 感染,并被組織成龐大的僵尸網(wǎng)絡(luò)用于發(fā)動(dòng)大規(guī)模的 DDoS 攻擊,攻擊導(dǎo)致大半個(gè)美國互聯(lián)網(wǎng)癱瘓.近年來,IoT 平臺(tái)的主要威脅依然是以Mirai、Gafgyt等為代表的主流僵尸網(wǎng)絡(luò)家族,也有陸續(xù)出現(xiàn)一些變體和新家族如Tsunami、Mozi、VPNfilter 等.僵尸網(wǎng)絡(luò)家族也不再滿足于挖礦和DDOS 攻擊,2022 年發(fā)表的研究工作[24]提出一種被稱為通過物聯(lián)網(wǎng)操縱需求(manipulation of demand via IoT,MadIoT)的新型潛在攻擊,此攻擊表明物聯(lián)網(wǎng)惡意代碼已對(duì)國家的基礎(chǔ)設(shè)施構(gòu)成了重大威脅.
Mirai、Tsunami、VPNfilter 等物聯(lián)網(wǎng)惡意代碼已被發(fā)現(xiàn)在多種CPU 架構(gòu)上運(yùn)行[25-27].鑒于第1.1 節(jié)中提到的不同物聯(lián)網(wǎng)設(shè)備通常會(huì)使用大量不同的CPU架構(gòu)的特性,攻擊者可以通過在不同架構(gòu)上編譯惡意代碼,然后向使用不同架構(gòu)的物聯(lián)網(wǎng)設(shè)備廣泛投放,以實(shí)現(xiàn)大規(guī)模的攻擊.這為物聯(lián)網(wǎng)惡意代碼檢測(cè)帶來了第1 個(gè)獨(dú)特的挑戰(zhàn).
在不同CPU 架構(gòu)上編譯的程序具有不同的指令集,在臺(tái)式機(jī)等設(shè)備上基于人工智能的惡意代碼檢測(cè)中,通常會(huì)選用一些特征來進(jìn)行檢測(cè),例如可執(zhí)行連接格式(executable linking format,ELF)文件頭的數(shù)據(jù)特征和操作碼等.但這些特征依賴于編譯程序的系統(tǒng)所使用的CPU 架構(gòu)[27].這些特征高度依賴于特定的體系結(jié)構(gòu),無法用于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè).因此,針對(duì)物聯(lián)網(wǎng)惡意代碼的檢測(cè)需要選擇跨架構(gòu)通用的特征,以解決大量來自不同CPU 架構(gòu)的惡意代碼帶來的挑戰(zhàn).
物聯(lián)網(wǎng)設(shè)備的資源限制特性帶來了基于物聯(lián)網(wǎng)的惡意代碼檢測(cè)的第2 個(gè)獨(dú)特挑戰(zhàn).當(dāng)前的大多數(shù)物聯(lián)網(wǎng)設(shè)備,如可穿戴設(shè)備、智能家居、智能電表、無人機(jī)集群等,由于設(shè)備體積小、能耗低,其可以使用的資源受到限制.例如,只擁有少量的內(nèi)存空間、有限的計(jì)算能力、低帶寬以及低電量[28-31].現(xiàn)有惡意代碼檢測(cè)方法大多忽略了物聯(lián)網(wǎng)設(shè)備資源受限的問題.檢測(cè)模型的復(fù)雜度往往較高,導(dǎo)致計(jì)算成本也高.因此,設(shè)計(jì)基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的輕量級(jí)惡意代碼檢測(cè)模型變得至關(guān)重要.這些模型需要通過降低算法復(fù)雜度等方式適應(yīng)物聯(lián)網(wǎng)設(shè)備資源的限制,從而實(shí)現(xiàn)可部署性.
上述2 個(gè)物聯(lián)網(wǎng)惡意代碼檢測(cè)所遭遇的獨(dú)特挑戰(zhàn),源自物聯(lián)網(wǎng)的CPU 架構(gòu)多樣性以及物聯(lián)網(wǎng)設(shè)備的資源限制.這2 種挑戰(zhàn)是物聯(lián)網(wǎng)設(shè)備限制挑戰(zhàn)的2個(gè)方面.
此外,物聯(lián)網(wǎng)惡意代碼層出不窮,及時(shí)檢測(cè)到惡意代碼攻擊,提高檢測(cè)模型的準(zhǔn)確率,降低誤報(bào)率,也是物聯(lián)網(wǎng)設(shè)備安全和惡意代碼檢測(cè)的一大挑戰(zhàn).
由于物聯(lián)網(wǎng)領(lǐng)域正處于蓬勃發(fā)展階段,針對(duì)物聯(lián)網(wǎng)設(shè)備的攻擊也層出不窮,基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究使用多種數(shù)據(jù)集訓(xùn)練其設(shè)計(jì)的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)檢測(cè)模型.我們通過大量的文獻(xiàn)調(diào)研工作總結(jié)了檢測(cè)工作中常用的物聯(lián)網(wǎng)惡意代碼和惡意流量數(shù)據(jù)集.
1.3.1 物聯(lián)網(wǎng)惡意可執(zhí)行文件數(shù)據(jù)集
為了給未來的檢測(cè)工作減少數(shù)據(jù)收集的負(fù)擔(dān),本節(jié)介紹的物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集符合3 點(diǎn)要求:1)數(shù)據(jù)集包含來自多種架構(gòu)的惡意和良性二進(jìn)制可執(zhí)行程序;2)數(shù)據(jù)集包含近年新構(gòu)建的樣本;3)數(shù)據(jù)集開源可用,易于獲得.
TWISC(Taiwan information security center)研究中心2021 年發(fā)布的開源數(shù)據(jù)集[32]包含36 328 個(gè)樣本,包括各種來源的ELF 惡意軟件和19 975 個(gè)良性軟件,其中樣本來源的CPU 架構(gòu)有MIPS、ARM、x86、Super-H4 和PPC 等.文獻(xiàn)[26]的工作包括收集并開源了一個(gè)名為Badthings 的惡意樣本的物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集,此數(shù)據(jù)集排除了主要存在于服務(wù)器、臺(tái)式機(jī)和筆記本電腦中的x86 和x86_64 惡意軟件以及安卓惡意軟件,包含來自多種CPU 架構(gòu)的1 66 772 個(gè)惡意ELF二進(jìn)制文件.文獻(xiàn)[33]收集了另外一個(gè)包含來自不同架構(gòu)的惡意和良性樣本的物聯(lián)網(wǎng)數(shù)據(jù)集firmware.IoTPoT[6]通過部署大量蜜罐截獲物聯(lián)網(wǎng)惡意代碼樣本,開源并定時(shí)更新其數(shù)據(jù)集.此外,VirusTotal[34]和VirusShare[35]也是很多論文收集物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)的重要來源.各種開源物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集展示在表1 中.
Table 1 Open Source IoT Malware Datasets表1 開源物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集
1.3.2 物聯(lián)網(wǎng)惡意流量數(shù)據(jù)集
物聯(lián)網(wǎng)惡意流量有較多開源數(shù)據(jù)集,IoT-23 數(shù)據(jù)集[36]收集了從飛利浦智能LED 燈、Somfy 智能門鎖和亞馬遜Echo 等多個(gè)設(shè)備上捕獲的運(yùn)行惡意軟件和良性程序時(shí)的pcap 文件.新南威爾士大學(xué)的研究人員[37-38]貢獻(xiàn)了2 個(gè)流量數(shù)據(jù)集,分別在實(shí)驗(yàn)室模擬現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境,部署惡意代碼收集攻擊數(shù)據(jù),惡意代碼部署在智能氣象站、智能冰箱、智能燈光控制、遠(yuǎn)程車庫門開關(guān)和智能恒溫器等真實(shí)物聯(lián)網(wǎng)應(yīng)用場(chǎng)景中,其中Bot-IoT 數(shù)據(jù)集[37]有超過7 300 萬條流量數(shù)據(jù).ToN_IoT 數(shù)據(jù)集[38]由來自物聯(lián)網(wǎng)傳感器和Ubuntu 系統(tǒng)等真實(shí)物聯(lián)網(wǎng)設(shè)備的網(wǎng)絡(luò)流量組成.MedBIoT 數(shù)據(jù)集[39]收集了Mirai 等僵尸網(wǎng)絡(luò)在擁有83 個(gè)包括智能鎖、智能開關(guān)等設(shè)備的中型網(wǎng)絡(luò)中的攻擊流量.Kitsune 數(shù)據(jù)集[40]收集自一個(gè)包括恒溫器、嬰兒監(jiān)視器、網(wǎng)絡(luò)攝像頭、低成本的安全攝像頭和門鈴等物聯(lián)網(wǎng)設(shè)備在內(nèi)的由3 臺(tái)電腦和9 臺(tái)物聯(lián)網(wǎng)設(shè)備組成的小型網(wǎng)絡(luò).
上述5 個(gè)物聯(lián)網(wǎng)惡意流量數(shù)據(jù)集也展示在表1中,由于流量數(shù)據(jù)集從多種不同設(shè)備中獲得,流量數(shù)據(jù)在不同CPU 架構(gòu)上也沒有區(qū)別,因此統(tǒng)一標(biāo)記的流量數(shù)據(jù)來自多種常見物聯(lián)網(wǎng)CPU 架構(gòu).
2008 年,針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼首次被發(fā)現(xiàn)[41],之后幾年內(nèi)才開始大規(guī)模出現(xiàn)并引起工業(yè)界與研究人員的共同關(guān)注[42-43].為了介紹當(dāng)前的物聯(lián)網(wǎng)惡意代碼檢測(cè)分類方法,本節(jié)對(duì)現(xiàn)有的綜述文章及其物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的分類方法進(jìn)行了介紹.
文獻(xiàn)[44]聚焦于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)和分析方法,對(duì)著眼于解決多架構(gòu)限制的機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù)的最新研究進(jìn)行總結(jié),從靜態(tài)檢測(cè)特征選取的角度進(jìn)行了分類分析,將目前的物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù)分為基于度量、基于圖或樹、基于序列和相互依賴4 種.基于度量的特征包括ELF 文件頭、字符串、系統(tǒng)調(diào)用、操作碼等,基于圖或樹的特征表示包括控制流圖(control flow graph,CFG)、函數(shù)調(diào)用圖(function call graph,FCG)等,基于序列的特征包括字節(jié)碼、轉(zhuǎn)換為圖片等,相互依賴的特征關(guān)注ELF 文件與外部環(huán)境之間的關(guān)系,包括二進(jìn)制文件的路徑信息等.然而,該綜述的分類方案只考慮了物聯(lián)網(wǎng)惡意代碼靜態(tài)檢測(cè)技術(shù),沒有考慮物聯(lián)網(wǎng)惡意軟件檢測(cè)領(lǐng)域中大量使用動(dòng)態(tài)檢測(cè)技術(shù)的相關(guān)研究,并且只局限于總結(jié)面向跨架構(gòu)限制的檢測(cè)技術(shù),沒有考慮針對(duì)物聯(lián)網(wǎng)系統(tǒng)自身的其他特性提出的更多惡意代碼檢測(cè)方案.
Ngo 等人[45]對(duì)截止到2020 年的物聯(lián)網(wǎng)惡意軟件靜態(tài)檢測(cè)的主要技術(shù)論文及其優(yōu)缺點(diǎn)進(jìn)行了綜述,他們將物聯(lián)網(wǎng)惡意軟件檢測(cè)方法分為2 類:未使用圖的方法和基于圖的方法.這個(gè)分類考慮了現(xiàn)階段圖神經(jīng)網(wǎng)絡(luò)的快速發(fā)展以及在惡意代碼檢測(cè)領(lǐng)域中的大量應(yīng)用,但是忽略了動(dòng)態(tài)特征.此外,隨著近幾年物聯(lián)網(wǎng)領(lǐng)域的飛速發(fā)展,物聯(lián)網(wǎng)惡意代碼領(lǐng)域也有大量新的研究,但其可能沒有涵蓋最新的物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù).
文獻(xiàn)[46]將物聯(lián)網(wǎng)惡意軟件檢測(cè)方法從使用的技術(shù)角度分為基于區(qū)塊鏈技術(shù)的檢測(cè)、基于圖像技術(shù)的檢測(cè)、基于機(jī)器學(xué)習(xí)的檢測(cè)和移動(dòng)惡意軟件檢測(cè).但是文獻(xiàn)[46]的分類方法不夠清晰,例如,基于圖像技術(shù)的檢測(cè)本質(zhì)上也是將二進(jìn)制程序的特征轉(zhuǎn)換為圖片形式表示,再使用機(jī)器學(xué)習(xí)技術(shù)檢測(cè),這也屬于基于機(jī)器學(xué)習(xí)檢測(cè)的一部分.
文獻(xiàn)[31,47-48]探討了近年來在保護(hù)用戶數(shù)據(jù)及系統(tǒng)安全方面廣受關(guān)注的聯(lián)邦學(xué)習(xí)(federated learning,FL)技術(shù)的研究現(xiàn)狀,并對(duì)應(yīng)用聯(lián)邦學(xué)習(xí)進(jìn)行物聯(lián)網(wǎng)惡意代碼檢測(cè)的工作進(jìn)行了全面分析.這些文獻(xiàn)主要關(guān)注在資源受限的物聯(lián)網(wǎng)設(shè)備上應(yīng)用聯(lián)邦學(xué)習(xí)進(jìn)行檢測(cè)工作,但對(duì)物聯(lián)網(wǎng)惡意軟件檢測(cè)領(lǐng)域的整體評(píng)估尚不完備.
文獻(xiàn)[43,49]對(duì)2008—2019 年活躍的物聯(lián)網(wǎng)惡意代碼及惡意代碼家族進(jìn)行了詳細(xì)調(diào)研和梳理,并分別提出了檢測(cè)分類方案.
雖然現(xiàn)有的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)綜述都很好地總結(jié)了特定方向的工作,但是由于物聯(lián)網(wǎng)領(lǐng)域發(fā)展時(shí)間短,近年來針對(duì)物聯(lián)網(wǎng)惡意軟件的綜述文章較少,并且目前的綜述文獻(xiàn)大多聚焦于具體的檢測(cè)技術(shù)和方法,在較小范圍內(nèi)細(xì)分檢測(cè)技術(shù)無法全面展現(xiàn)整個(gè)領(lǐng)域當(dāng)前的研究現(xiàn)狀.基于此,本文對(duì)2018 年以來發(fā)表的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)高質(zhì)量工作進(jìn)行調(diào)研,補(bǔ)充現(xiàn)有的綜述工作,從更高的角度提出涵蓋范圍更大的分類和總結(jié).
為了提供一個(gè)全新的視角,使研究人員能夠全面了解物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的進(jìn)展,本文對(duì)2018 年以來在網(wǎng)絡(luò)與信息安全領(lǐng)域頂級(jí)會(huì)議和期刊上發(fā)表的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究進(jìn)行了調(diào)研.對(duì)這些研究工作解決的問題、主要貢獻(xiàn)、使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法、物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集以及檢測(cè)效果等方面進(jìn)行了詳細(xì)分析.同時(shí),本文提出了一種新的分類方法,從物聯(lián)網(wǎng)檢測(cè)研究的主要?jiǎng)訖C(jī)的角度進(jìn)行分類,本文分類框架如圖4 所示.
具體而言,相較于現(xiàn)有的綜述文獻(xiàn)所采用的特定靜態(tài)或動(dòng)態(tài)分析技術(shù),或是以人工智能算法模型的角度進(jìn)行分類,本文所提出的分類方法主要著眼于基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究所致力解決的主要問題,即研究動(dòng)機(jī).如圖4 左側(cè)淺色陰影框所示,物聯(lián)網(wǎng)惡意代碼檢測(cè)的一類研究側(cè)重于緩解物聯(lián)網(wǎng)設(shè)備特有的架構(gòu)及資源限制帶來的惡意代碼檢測(cè)挑戰(zhàn),包括跨架構(gòu)的惡意代碼檢測(cè)和針對(duì)物聯(lián)網(wǎng)設(shè)備資源限制的惡意代碼檢測(cè)技術(shù).如圖4 右側(cè)無淺色陰影框所示,另一類面向檢測(cè)模型性能提升,這些研究從惡意代碼檢測(cè)的通用檢測(cè)和分類方法入手,通過使用不同的機(jī)器學(xué)習(xí)算法或特征,提高人工智能算法模型的檢測(cè)準(zhǔn)確率,包括基于流量的惡意行為檢測(cè)和基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù).
面向物聯(lián)網(wǎng)設(shè)備限制的惡意代碼檢測(cè)技術(shù)的主要研究動(dòng)機(jī)是解決物聯(lián)網(wǎng)設(shè)備自身特性導(dǎo)致的惡意代碼檢測(cè)限制.如1.1 節(jié)中所述,隨著物聯(lián)網(wǎng)在各行各業(yè)的不斷普及,由于物聯(lián)網(wǎng)領(lǐng)域的設(shè)備存在多樣性,而這些設(shè)備需要達(dá)到高性能、低能耗的標(biāo)準(zhǔn)和更高的安全性要求,無法通過單一處理器架構(gòu)滿足多種設(shè)備的不同需求,因而物聯(lián)網(wǎng)領(lǐng)域存在多種處理器架構(gòu).物聯(lián)網(wǎng)設(shè)備常用的處理器架構(gòu)包括MIPS、ARM、PPC 和SPARC 等,而物聯(lián)網(wǎng)惡意軟件可以在異構(gòu)設(shè)備[50]中傳播,這使得運(yùn)行在物聯(lián)網(wǎng)設(shè)備上的惡意代碼的特性與臺(tái)式機(jī)等設(shè)備中被限制在有限種類的CPU 架構(gòu)上運(yùn)行的傳統(tǒng)惡意軟件不同[26],CPU架構(gòu)的差異導(dǎo)致相同的惡意行為呈現(xiàn)出不同的特征[27],因此無法直接將其它設(shè)備上已經(jīng)較為成熟的機(jī)器學(xué)習(xí)惡意代碼檢測(cè)模型應(yīng)用到物聯(lián)網(wǎng)惡意代碼檢測(cè)中.這部分研究通過分析運(yùn)行在不同架構(gòu)上物聯(lián)網(wǎng)惡意代碼的特點(diǎn),選擇新的惡意代碼特征,提出在多種架構(gòu)中檢測(cè)物聯(lián)網(wǎng)惡意代碼的方法.另外,物聯(lián)網(wǎng)設(shè)備還具有資源有限、需要持續(xù)在線連接、缺乏安全保護(hù)等獨(dú)特的性質(zhì).現(xiàn)有基于人工智能的惡意代碼檢測(cè)方法大多沒有考慮計(jì)算成本等問題,難以直接部署到物聯(lián)網(wǎng)環(huán)境中.因此,設(shè)計(jì)可在資源受限物聯(lián)網(wǎng)設(shè)備上部署的輕量級(jí)且準(zhǔn)確的惡意代碼檢測(cè)框架也是當(dāng)前本領(lǐng)域的一個(gè)熱門研究方向.
除了面向物聯(lián)網(wǎng)設(shè)備和環(huán)境獨(dú)有的特性和限制而設(shè)計(jì)的檢測(cè)技術(shù),一部分研究面向物聯(lián)網(wǎng)惡意代碼檢測(cè)模型的性能提升,其主要研究動(dòng)機(jī)是通過更好地設(shè)計(jì)檢測(cè)算法提高現(xiàn)有的物聯(lián)網(wǎng)惡意代碼二進(jìn)制可執(zhí)行文件檢測(cè)方法的準(zhǔn)確率和檢測(cè)效率,減少檢測(cè)系統(tǒng)的漏報(bào)和誤報(bào),以及通過基于流量的檢測(cè)及時(shí)檢測(cè)攻擊行為以減少系統(tǒng)安全保障開銷.
本文提出的分類方法涵蓋了物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究工作重點(diǎn)關(guān)注的2 個(gè)方面,即物聯(lián)網(wǎng)設(shè)備特性導(dǎo)致的檢測(cè)技術(shù)需要解決的問題和通用惡意代碼檢測(cè)技術(shù)在提高檢測(cè)模型準(zhǔn)確率方面有待完善等一般性問題.首先,如2.1 節(jié)中所述,與其他方法相比,本文分類方法涵蓋了物聯(lián)網(wǎng)惡意代碼檢測(cè)的相關(guān)研究,體現(xiàn)了物聯(lián)網(wǎng)環(huán)境和設(shè)備獨(dú)有的特點(diǎn),而其他分類方法與普通的惡意代碼檢測(cè)分類思路基本類似.其次,現(xiàn)有的分類方法過分聚焦于具體的人工智能算法,如基于聯(lián)邦學(xué)習(xí)的檢測(cè)技術(shù)等,并在更小的范圍內(nèi)細(xì)分檢測(cè)算法,而沒有關(guān)注物聯(lián)網(wǎng)領(lǐng)域更高層次的特性.此外,本文提出的分類方法可以充分體現(xiàn)當(dāng)前物聯(lián)網(wǎng)惡意代碼研究面臨的問題,而現(xiàn)有的分類方法無法為未來的研究提供基于物聯(lián)網(wǎng)設(shè)備特性的發(fā)展趨勢(shì)分析,因此本文分類方法更適合物聯(lián)網(wǎng)安全領(lǐng)域.
物聯(lián)網(wǎng)設(shè)備廣泛存在于日常生活使用的物品中.與傳統(tǒng)的臺(tái)式機(jī)、筆記本電腦、智能手機(jī)等設(shè)備不同,物聯(lián)網(wǎng)設(shè)備由于應(yīng)用環(huán)境的多樣性,采用了多種流行的CPU 架構(gòu)和操作系統(tǒng).同時(shí),與傳統(tǒng)計(jì)算設(shè)備相比,物聯(lián)網(wǎng)設(shè)備的體積通常較小,這限制了其可用的計(jì)算資源和內(nèi)存空間等資源.這些特性導(dǎo)致一般基于人工智能的惡意代碼檢測(cè)技術(shù)難以直接應(yīng)用于物聯(lián)網(wǎng)設(shè)備上.為了解決物聯(lián)網(wǎng)設(shè)備的多種架構(gòu)和資源限制問題,惡意代碼檢測(cè)方法通過有針對(duì)性的特征選擇和算法設(shè)計(jì),提出了適用于物聯(lián)網(wǎng)環(huán)境的高性能惡意代碼檢測(cè)技術(shù).
物聯(lián)網(wǎng)設(shè)備使用多種CPU 架構(gòu),常用的架構(gòu)有十多種[51],這導(dǎo)致了在不同架構(gòu)上編譯的物聯(lián)網(wǎng)惡意軟件之間的差異,使得安全人員無法直接使用傳統(tǒng)的Windows 或移動(dòng)環(huán)境中的分析方法檢測(cè)物聯(lián)網(wǎng)惡意代碼[51-52],也無法將在某個(gè)設(shè)備上獲得的惡意樣本集直接應(yīng)用于面向物聯(lián)網(wǎng)惡意代碼檢測(cè)的人工智能算法.為了進(jìn)行跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè),可以使用包含大量來自不同CPU 架構(gòu)的惡意軟件樣本的數(shù)據(jù)集,選擇跨架構(gòu)惡意軟件特征,訓(xùn)練機(jī)器學(xué)習(xí)檢測(cè)模型區(qū)分良性和惡意樣本.實(shí)現(xiàn)跨架構(gòu)檢測(cè)技術(shù)的核心在于選擇可以跨架構(gòu)檢測(cè)出物聯(lián)網(wǎng)惡意代碼的特征,設(shè)計(jì)高性能的模型,以及使用包含大量不同CPU 上編譯的物聯(lián)網(wǎng)惡意代碼樣本數(shù)據(jù)訓(xùn)練模型.本節(jié)首先梳理了當(dāng)前研究中用到的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集,然后從研究工作使用的不同跨架構(gòu)特征角度對(duì)相關(guān)研究工作進(jìn)行了梳理.
3.1.1 結(jié)合操作碼的融合特征
操作碼是計(jì)算機(jī)程序的機(jī)器語言指令的一部分,用于指定下一步要執(zhí)行的操作[53].操作碼指令體現(xiàn)了程序運(yùn)行時(shí)要執(zhí)行的行為和函數(shù)調(diào)用等操作.使用操作碼特征進(jìn)行惡意代碼檢測(cè)的技術(shù)最初由Bilar[54]提出,近年來出現(xiàn)了很多基于操作碼的惡意代碼檢測(cè)工作,這些工作結(jié)合了操作碼的出現(xiàn)頻率[55]、操作碼序列[56]、基于圖像的操作碼[57]等特征,采用精心設(shè)計(jì)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法.在這些工作中,所選取的特征在很大程度上決定了檢測(cè)模型的效果.然而,目前許多研究工作主要依賴于單一特征的惡意代碼機(jī)器學(xué)習(xí)檢測(cè)技術(shù).這些研究工作[58]報(bào)告的惡意代碼檢測(cè)準(zhǔn)確率在94%~96%,但這些方法通常需要較長的處理時(shí)間和較大的計(jì)算量[59].因此,操作碼作為一種有效特征在惡意代碼檢測(cè)領(lǐng)域被廣泛應(yīng)用于基于機(jī)器學(xué)習(xí)的檢測(cè)模型[54-57,60-61],在物聯(lián)網(wǎng)惡意代碼檢測(cè)中也得到了應(yīng)用.
面對(duì)大量運(yùn)行在不同架構(gòu)中的物聯(lián)網(wǎng)惡意代碼,不同CPU 導(dǎo)致來自同一家族的惡意代碼的操作碼存在一定的區(qū)別.由于單一的操作碼特征無法高效準(zhǔn)確地實(shí)現(xiàn)檢測(cè),解決跨架構(gòu)問題的物聯(lián)網(wǎng)惡意代碼檢測(cè)方法在使用操作碼特征的同時(shí),結(jié)合了物聯(lián)網(wǎng)惡意代碼二進(jìn)制程序的其他特征,實(shí)現(xiàn)了融合特征選擇,并結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型來實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼的跨架構(gòu)檢測(cè).
日本國家信息和通信技術(shù)研究所的研究團(tuán)隊(duì)[25,52]在他們的檢測(cè)工作中選取了操作碼和程序運(yùn)行時(shí)的API 調(diào)用序列特征.他們依據(jù)先前研究的發(fā)現(xiàn)[62],即加殼后的二進(jìn)制程序熵值會(huì)明顯提高,首先計(jì)算數(shù)據(jù)集中每個(gè)二進(jìn)制程序的熵以判斷樣本是否加殼并從數(shù)據(jù)集中刪除加殼的樣本.然后使用IDA 得到程序的匯編代碼,從中提取操作碼序列,同時(shí)在沙箱中使用strace 命令記錄樣本運(yùn)行時(shí)的API 調(diào)用序列,并使用N-gram 算法處理操作碼和API 調(diào)用序列.文獻(xiàn)[6]在2 個(gè)工作中分別應(yīng)用支持向量機(jī)(support vector machine,SVM)和k-最近鄰(k-nearest neighbor,kNN)算法檢測(cè)從IoTPOT 收集的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼樣本,實(shí)驗(yàn)結(jié)果顯示,操作碼特征在ARM 架構(gòu)上的檢測(cè)效果優(yōu)于API 特征,而API 特征在MIPS 上的檢測(cè)效果略優(yōu)于操作碼特征.文獻(xiàn)[6]對(duì)檢測(cè)跨架構(gòu)物聯(lián)網(wǎng)惡意代碼的特征的方法的有效性進(jìn)行了分析和驗(yàn)證,但是沒有考慮加殼的惡意樣本,很難保證在真實(shí)物聯(lián)網(wǎng)環(huán)境中的檢測(cè)效果.Tien 等人[63]實(shí)現(xiàn)了跨指令集架構(gòu)(instruction set architectures,ISAs),即跨CPU 的物聯(lián)網(wǎng)惡意代碼檢測(cè).他們選取操作碼指令與ELF 文件的相關(guān)屬性這2 組特征,其中包括架構(gòu)名稱、文件大小、外部庫、是否加殼、函數(shù)數(shù)量、是否連接網(wǎng)絡(luò)等7 個(gè)ELF 文件特征,以及邏輯、控制、內(nèi)存、堆棧、輸出、算數(shù)等不同功能類型的12 個(gè)操作碼特征,并在包含30 000 多個(gè)跨架構(gòu)IoT 惡意軟件樣本的數(shù)據(jù)集中驗(yàn)證了所選特征的有效性,訓(xùn)練和測(cè)試了3 種機(jī)器學(xué)習(xí)模型,其中CNN 取得了最好的檢測(cè)效果,在物聯(lián)網(wǎng)惡意代碼家族分類中得到98.37%的檢測(cè)準(zhǔn)確率.此工作同樣受限于使用的脫殼技術(shù),無法檢測(cè)使用復(fù)雜反匯編技術(shù)的惡意軟件.
2020 年,Vasan 等人[58]提出了一個(gè)檢測(cè)跨架構(gòu)物聯(lián)網(wǎng)惡意代碼威脅的模型,采用基于操作碼和信息增益(information gain,IG)的異構(gòu)特征選擇方法以學(xué)習(xí)不同層次的語義特征表示,信息增益可以對(duì)抗惡意代碼常用的垃圾代碼混淆,從而準(zhǔn)確地檢測(cè)跨架構(gòu)的物聯(lián)網(wǎng)惡意軟件.Vasan 等人又提出了名為MTHAEL 的輕量級(jí)堆疊集成模型,使用可以在MIPS、ARM、PPC 和Intel X86-64 等架構(gòu)上傳播的15 482 個(gè)惡意代碼樣本和同樣來自多種CPU 架構(gòu)的5 655 個(gè)良性樣本組成的大數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試.MTHAEL 集成了RNN 和CNN 這 2 個(gè)子網(wǎng)絡(luò),把他們嵌入到多頭神經(jīng)網(wǎng)絡(luò)中,以更好地結(jié)合來自每個(gè)子網(wǎng)絡(luò)的預(yù)測(cè).文獻(xiàn)[58]所提的方法在跨架構(gòu)樣本檢測(cè)中得到97.02%的高檢測(cè)準(zhǔn)確率,并驗(yàn)證了MTHAEL 面向?qū)剐怨舻聂敯粜?
除了API 調(diào)用等特征,其他層面也存在不依賴于平臺(tái)架構(gòu)的特征,中間表示(intermediate representation,IR)就是其中之一.Vex 中間表示在Valgrind[64]和Angr[65]等著名的程序分析工具中被使用,文獻(xiàn)[59]基于Vex中間表示和基于控制流特征提取的動(dòng)態(tài)[33](control flow-based features extraction dynamic,CFD)規(guī)劃算法實(shí)現(xiàn)了一種跨架構(gòu)ELF 文件特征選擇方法,此方法從操作碼對(duì)應(yīng)的IR 語句中的Vex 中間表示,調(diào)用Ngram 算法提取基于控制流的特征,然后使用本文工作中收集的開源混合架構(gòu)數(shù)據(jù)集訓(xùn)練了一個(gè)基于支持向量機(jī)的物聯(lián)網(wǎng)惡意代碼檢測(cè)模型.基于中間表示的跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)方法目前還很少,未來值得被進(jìn)一步探索.
3.1.2 字節(jié)序列
字節(jié)序列是惡意代碼檢測(cè)中經(jīng)常被使用的特征之一[66-67],在物聯(lián)網(wǎng)惡意軟件檢測(cè)中也有應(yīng)用.Wan等人[68-69]在2020 年的2 項(xiàng)基于機(jī)器學(xué)習(xí)的檢測(cè)工作中,同樣使用了字節(jié)序列特征.他們從ELF 程序的入口點(diǎn)開始提取字節(jié)作為算法的輸入,使用N-gram 算法處理字節(jié)序列表示為數(shù)值向量,在由7 種不同CPU 架構(gòu)的超過2 萬多個(gè)樣本組成的數(shù)據(jù)集上訓(xùn)練支持向量機(jī)分類器.文獻(xiàn)[70]通過對(duì)不同CPU 上物聯(lián)網(wǎng)惡意代碼樣本的詳細(xì)分析,基于程序主要功能啟動(dòng)時(shí)源代碼在相同的惡意軟件家族不同變體中通常不會(huì)改變這一原理,選取惡意軟件入口點(diǎn)的字節(jié)序列特征,從跨架構(gòu)惡意代碼樣本中提取特征后,訓(xùn)練了一個(gè)精心設(shè)計(jì)的Bi-GRU-CNN 檢測(cè)模型,實(shí)驗(yàn)結(jié)果證明選取的字節(jié)序列特征能夠準(zhǔn)確地區(qū)分惡意軟件和良性軟件.但是基于字節(jié)序列特征的方法無法處理加殼的惡意代碼,當(dāng)前的工作大多基于物聯(lián)網(wǎng)惡意軟件還沒有大規(guī)模使用混淆技術(shù)這一發(fā)現(xiàn)[70]而開展研究.
3.1.3 可打印字符串
ELF 文件中的可打印字符串具有跨平臺(tái)泛化能力,同時(shí)具有高可訪問性和高可理解性[27],具體來說,可打印字符串包含與源代碼密切相關(guān)的基本識(shí)別信息,因此可以捕獲不同CPU 架構(gòu)上編譯的同一系列惡意軟件的共同特征.此外,研究人員可以直接從惡意軟件的二進(jìn)制文件中提取可打印字符串,特征提取效率較高且不需要耗費(fèi)大量內(nèi)存和計(jì)算資源.由3.1.1 節(jié)可知,二進(jìn)制文件的操作碼依賴體系結(jié)構(gòu),需要結(jié)合其他特征才能取得較好的檢測(cè)效果,而可打印字符串特征可以直接體現(xiàn)運(yùn)行在不同CPU 架構(gòu)上的惡意軟件樣本的共同特征,不需要結(jié)合二進(jìn)制程序的其它特征即可應(yīng)用于物聯(lián)網(wǎng)惡意代碼檢測(cè)模型.
Alhanahnah 等人[50]使用N-gram 算法從ELF 文件中提取可打印字符串序列特征,額外選取了二進(jìn)制程序匯編代碼的函數(shù)總數(shù)、指令總數(shù)、重定向指令數(shù)、算術(shù)指令數(shù)、邏輯指令數(shù)、傳輸指令數(shù)等6 個(gè)高級(jí)統(tǒng)計(jì)特征與可打印字符串序列一起應(yīng)用于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)模型.文獻(xiàn)[27]從ELF 文件的函數(shù)名稱、API 名稱、代碼和代碼注釋中提取了可打印字符串,以及可打印字符串的數(shù)量和長度等特征,在從VirusTotal[34]收集的12 萬個(gè)運(yùn)行在x86、MIPS、ARM、SPARC、x86-64、PPC 和未知類型的CPU 架構(gòu)上的惡意軟件ELF 文件上提取可打印字符串特征,訓(xùn)練和測(cè)試了包括支持向量機(jī)在內(nèi)的3 個(gè)機(jī)器學(xué)習(xí)分類模型.此項(xiàng)研究工作的實(shí)驗(yàn)充分驗(yàn)證了所提出的方法在跨架構(gòu)CPU 樣本上的性能,訓(xùn)練模型時(shí)使用來自x86、ARM 和MIPS 等3 種常見的CPU 架構(gòu)的樣本作為訓(xùn)練集,并使用未知架構(gòu)和應(yīng)用較少的架構(gòu)樣本作為測(cè)試集,模型得到了平均98%的檢測(cè)準(zhǔn)確率,同時(shí)也減少了訓(xùn)練時(shí)間.
3.1.4 其他特征
除了被應(yīng)用最多的操作碼和可打印字符串特征,解決跨架構(gòu)問題的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)工作中還選取了其他一些特征,包括函數(shù)調(diào)用圖[71]、系統(tǒng)調(diào)用函數(shù)[72]等.
Wu 等人[71]首先使用Radare2[73]對(duì)輸入二進(jìn)制文件執(zhí)行靜態(tài)分析并創(chuàng)建函數(shù)調(diào)用圖,使用Graph2vec[74]對(duì)從物聯(lián)網(wǎng)惡意軟件二進(jìn)制文件中提取的FCGs 進(jìn)行圖嵌入;然后將圖嵌入特征與圖結(jié)構(gòu)特征相結(jié)合,建立物聯(lián)網(wǎng)惡意軟件族分類的訓(xùn)練模型.為驗(yàn)證所提方案的有效性和效率,在一個(gè)包含超過10 萬個(gè)物聯(lián)網(wǎng)惡意軟件樣本的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).這些惡意軟件樣本分別針對(duì)7 種不同的CPU 架構(gòu)進(jìn)行了編譯.實(shí)驗(yàn)結(jié)果顯示,支持向量機(jī)算法的分類性能最好,在跨架構(gòu)數(shù)據(jù)集上5 折分層交叉驗(yàn)證的準(zhǔn)確率達(dá)到了98.88%,但是基于函數(shù)調(diào)用圖的方法需要較長的時(shí)間從ELF 文件中提取圖,在大數(shù)據(jù)集中會(huì)造成很大的時(shí)間消耗.Li 等人[75]也提取二進(jìn)制文件的函數(shù)調(diào)用圖,在涵蓋5 種不同處理器架構(gòu)的數(shù)據(jù)集上訓(xùn)練了一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)的跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)系統(tǒng).
文獻(xiàn)[76]首先構(gòu)建物聯(lián)網(wǎng)惡意軟件的系統(tǒng)進(jìn)化樹,接著應(yīng)用基于最小描述長度(minimum description length,MDL)準(zhǔn)則的新聚類算法處理待測(cè)樣本,此研究的一個(gè)優(yōu)點(diǎn)是考慮了惡意樣本每天都在快速大量增加的現(xiàn)狀,為了保證檢測(cè)模型對(duì)新惡意樣本的檢測(cè)能力,提出了一種直接添加樣本的在線處理算法,通過跳過系統(tǒng)進(jìn)化樹重建降低實(shí)際操作的計(jì)算量,同時(shí)保持了惡意代碼聚類精度.
物聯(lián)網(wǎng)惡意代碼檢測(cè)工作大多基于靜態(tài)分析,基于靜態(tài)分析可以直接對(duì)二進(jìn)制程序進(jìn)行反編譯及分析等操作,但是靜態(tài)分析無法直接分析加殼或混淆的惡意代碼,此類程序可以使用動(dòng)態(tài)分析.文獻(xiàn)[72]使用單一系統(tǒng)調(diào)用集特征實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼檢測(cè),此項(xiàng)研究檢測(cè)了在ARM 和Intel X86-32 上編譯的惡意代碼,通過創(chuàng)建2 個(gè)使用對(duì)應(yīng)CPU 的虛擬機(jī)以實(shí)現(xiàn)動(dòng)態(tài)檢測(cè),選取樣本在虛擬機(jī)中運(yùn)行時(shí)由strace 命令跟蹤和記錄下來的系統(tǒng)調(diào)用作為特征,訓(xùn)練了一個(gè)名為MDABP 的基于平臺(tái)即服務(wù)(platform as a service,PaaS)的物聯(lián)網(wǎng)惡意軟件檢測(cè)模型.但是該工作仍然面臨很多問題,如創(chuàng)建虛擬機(jī)的過程比較復(fù)雜耗時(shí),部分樣本無法在虛擬機(jī)上運(yùn)行等,這些問題都在都在一定程度上影響本文方法的實(shí)際部署.
3.1.5 小結(jié)
在3.1 節(jié)中我們討論了面向大量跨架構(gòu)樣本的物聯(lián)網(wǎng)惡意軟件檢測(cè)工作,并總結(jié)在表2 中.當(dāng)前解決物聯(lián)網(wǎng)惡意軟件跨架構(gòu)問題的方法通過對(duì)不同CPU 上編譯程序的分析研究,選取字節(jié)序列、可打印字符串、控制流圖等特征,并設(shè)計(jì)基于不同機(jī)器學(xué)習(xí)算法的檢測(cè)模型,在大規(guī)??缂軜?gòu)惡意樣本數(shù)據(jù)集上得到了高準(zhǔn)確率,但是仍存在當(dāng)前大多數(shù)基于靜態(tài)分析的跨架構(gòu)檢測(cè)方法無法應(yīng)對(duì)混淆或加殼的惡意代碼,基于動(dòng)態(tài)分析的跨架構(gòu)檢測(cè)方法存在著不可以統(tǒng)一部署的虛擬機(jī)環(huán)境等不足.
Table 2 Comparison of AI-based Cross-Architecture IoT Malware Detection Techniques表2 基于人工智能的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比
大部分物聯(lián)網(wǎng)設(shè)備計(jì)算資源非常有限并且內(nèi)存空間很小[28,30-31,77].這些物聯(lián)網(wǎng)設(shè)備上的資源限制導(dǎo)致目前許多適用于通用計(jì)算設(shè)備的安全防護(hù)功能難以在物聯(lián)網(wǎng)上實(shí)現(xiàn)[18,78],嚴(yán)重制約了物聯(lián)網(wǎng)安全的發(fā)展.因此,設(shè)計(jì)計(jì)算復(fù)雜度低、耗能少,占用內(nèi)存少的可以緩解資源限制的惡意代碼檢測(cè)系統(tǒng)對(duì)于物聯(lián)網(wǎng)安全是至關(guān)重要的.
3.2.1 面向計(jì)算資源限制的檢測(cè)技術(shù)
傳統(tǒng)的基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法主要依賴于特征工程,為了提高準(zhǔn)確率,這些方法會(huì)從惡意軟件文件中提取大量不同類型的特征,給分類帶來了很高的復(fù)雜性[79].此外,一般的基于深度學(xué)習(xí)的惡意代碼檢測(cè)方法,模型復(fù)雜且計(jì)算成本大,在智能城市、智能家居、智能醫(yī)院等物聯(lián)網(wǎng)環(huán)境中是不可持續(xù)的[80].面向計(jì)算資源限制的檢測(cè)方法從選取低維特征和降低算法的復(fù)雜度的角度進(jìn)行了研究.
文獻(xiàn)[79,81-82]均通過降低特征維度的方法減少它們的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)資源的消耗.Qiao 等人[79]的方法基于Word2Vec[83]算法,Word2Vec由谷歌公司開發(fā),是當(dāng)前比較流行的使用神經(jīng)網(wǎng)絡(luò)進(jìn)行詞嵌入的技術(shù).他們使用Word2Vec 算法提取二進(jìn)制程序的十六進(jìn)制字節(jié)和匯編指令的詞向量,將每個(gè)樣本中提取出的向量連接得到新的特征向量,然后訓(xùn)練基于多層感知器(multilayer perception,MLP)的檢測(cè)模型.該方法在特征提取階段既不需要專家經(jīng)驗(yàn),又不需要數(shù)據(jù)依賴,在降低特征維數(shù)的同時(shí)避免了過度擬合的問題.
文獻(xiàn)[81]通過精心設(shè)計(jì)的特征工程方法降低物聯(lián)網(wǎng)惡意代碼流量數(shù)據(jù)的特征維度,該文獻(xiàn)分別使用了基于相關(guān)性的4 個(gè)統(tǒng)計(jì)指標(biāo),即方差分析、皮爾遜相關(guān)系數(shù)、互信息和卡方檢驗(yàn),在特征工程之后設(shè)計(jì)了在各個(gè)特征之間進(jìn)行投票的階段,最終選擇了19 個(gè)特征.該文分別訓(xùn)練了3 種集成和6 種非集成機(jī)器學(xué)習(xí)模型,支持向量機(jī)模型和隨機(jī)森林(random forest,RF)模型得到了100%的檢測(cè)準(zhǔn)確率.但是該文獻(xiàn)只在1 個(gè)物聯(lián)網(wǎng)數(shù)據(jù)集上評(píng)估了檢測(cè)模型,模型的魯棒性和泛化能力未被驗(yàn)證.Lee 等人[82]將每個(gè)操作碼都轉(zhuǎn)換成一個(gè)根據(jù)其功能分類的操作碼類別,從操作碼序列中新提取了3 種類別特征:操作碼分類序列、操作碼分類熵直方圖和最大序列模式.與一般的操作碼序列特征相比,基于操作碼類別的3 種特征表示所需的數(shù)據(jù)量更少,因此對(duì)計(jì)算資源的需求較少,同時(shí)較低的維度具有訓(xùn)練時(shí)間更短的優(yōu)勢(shì).降低特征維度的方法還包括基于惡意樣本的視覺表示[80,84]、設(shè)計(jì)耗費(fèi)較低計(jì)算成本的圖像表示方法和特征提取方法,結(jié)合人工智能方法實(shí)現(xiàn)資源受限物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè).基于視覺表示的惡意代碼檢測(cè)方法均基于一個(gè)假設(shè),即物聯(lián)網(wǎng)惡意代碼的視覺表示與良性程序有明顯區(qū)別.Dhanya 等人[84]將可執(zhí)行文件的字節(jié)碼生成為256×256 的Markov 矩陣,將矩陣轉(zhuǎn)換為圖像,其中字節(jié)序列轉(zhuǎn)換為像素,得到256×256 的圖像.使用處理得到的圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),訓(xùn)練數(shù)據(jù)集包括了混淆的惡意代碼,實(shí)驗(yàn)的結(jié)果證明了以二進(jìn)制程序的Markov 圖像為輸入的CNN 模型對(duì)物聯(lián)網(wǎng)惡意代碼的混淆和概念漂移具有彈性.文獻(xiàn)[80]提出了基于蟻群優(yōu)化器(ant clony optimization,ACO)的特征選擇方法,該方法使用物聯(lián)網(wǎng)惡意代碼網(wǎng)絡(luò)流量的視覺表示作為模型的輸入,在使用低維度特征的同時(shí)提升了支持向量機(jī)分類器的檢測(cè)結(jié)果.
降低算法復(fù)雜度方面,Phu 等人[85]針對(duì)早前基于CFG 結(jié)構(gòu)圖提取特征的檢測(cè)方法存在NP-hard 難題并且算法復(fù)雜度高的問題,提出了基于動(dòng)態(tài)規(guī)劃的C500-CFG 算法,使用Angr[65]的CFGEmulated 方法提取ELF 文件的CFG,在包含7 000 個(gè)MIPS 架構(gòu)上運(yùn)行的ELF 程序的數(shù)據(jù)集中使用C500-CFG 算法構(gòu)建C500 樹,使用N-gram 算法提取C500 樹的控制流特征,提取特征的平均時(shí)間為10 s,最長特征提取時(shí)間為40 s.實(shí)驗(yàn)結(jié)果表明N-gram 算法速度更快,并且使用更少的內(nèi)存,適用于計(jì)算資源受限的物聯(lián)網(wǎng)環(huán)境.在C500-CFG 算法的基礎(chǔ)上,Phu 等人[33]提出了CFD 算法并將CFD 算法應(yīng)用于MIPS 架構(gòu)樣本的檢測(cè).進(jìn)一步地,將CFD 算法與ELF 二進(jìn)制文件的中間表示結(jié)合,實(shí)現(xiàn)了低算法復(fù)雜度的跨架構(gòu)惡意軟件檢測(cè)的特征選擇方法CFDVex.
3.2.2 面向內(nèi)存限制的檢測(cè)技術(shù)
物聯(lián)網(wǎng)設(shè)備為了便于使用、移動(dòng)和部署,一般體積較小,這導(dǎo)致物聯(lián)網(wǎng)設(shè)備的內(nèi)存和存儲(chǔ)空間通常會(huì)受到限制[47,86].有限的內(nèi)存容易溢出,使一般基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)系統(tǒng)難以被直接部署在物聯(lián)網(wǎng)設(shè)備中.面向內(nèi)存限制的檢測(cè)技術(shù)[27,87]精心設(shè)計(jì)了輕量級(jí)模型,實(shí)現(xiàn)內(nèi)存占用更小、速度更快的物聯(lián)網(wǎng)惡意代碼檢測(cè)系統(tǒng).
2021 年,Giaretta 等人[88]實(shí)現(xiàn)了一種名為LiMNet的新型輕量級(jí)記憶網(wǎng)絡(luò)(memory networks)檢測(cè)物聯(lián)網(wǎng)惡意軟件流量以進(jìn)行僵尸網(wǎng)絡(luò)早期檢測(cè),不同于一般以網(wǎng)絡(luò)數(shù)據(jù)包為中心的設(shè)計(jì)方法,LiMNet 以物聯(lián)網(wǎng)設(shè)備為中心,使用記憶網(wǎng)絡(luò)的組件理解每個(gè)物聯(lián)網(wǎng)設(shè)備的行為.檢測(cè)模型的輸入是構(gòu)建的特征圖,節(jié)點(diǎn)是物聯(lián)網(wǎng)設(shè)備,節(jié)點(diǎn)之間的交互根據(jù)網(wǎng)絡(luò)數(shù)據(jù)包的源地址和目的地址確定,LiMNet 從圖中節(jié)點(diǎn)之間的交互流中提取因果關(guān)系,將相關(guān)的節(jié)點(diǎn)級(jí)信息存儲(chǔ)在內(nèi)部結(jié)構(gòu)中,并使用這些信息來識(shí)別僵尸程序.文獻(xiàn)[87]同樣設(shè)計(jì)了一個(gè)輕量級(jí)網(wǎng)絡(luò),在將二進(jìn)制文件原始字節(jié)轉(zhuǎn)換成的Markov 圖像的基礎(chǔ)上,針對(duì)物聯(lián)網(wǎng)設(shè)備內(nèi)存受限的特點(diǎn)修改了經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),提出了輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(lightweight convolutional neural network,LCNN),該網(wǎng)絡(luò)在CNN中加入了深度卷積(depthwise convolution)和通道洗牌(channel shuffle),其卷積層的設(shè)計(jì)與著名的輕量級(jí)網(wǎng)絡(luò)ShuffleNetV2[89]基本相同,但是單元數(shù)量更少.與其他基于深度學(xué)習(xí)的方法相比,LCNN 模型的大小只有1 MB,而VGG16 的模型有552.57 MB,由此可見,LCNN 可以在保持準(zhǔn)確性的同時(shí)顯著減少訓(xùn)練模型所需的資源消耗.
3.2.3 面向電力限制的檢測(cè)技術(shù)
由于物聯(lián)網(wǎng)設(shè)備受到體積和硬件限制的原因[90],用于給物聯(lián)網(wǎng)設(shè)備供電的電池通常容量不高,并且許多物聯(lián)網(wǎng)設(shè)備在部署后,電池一般不需要短期更換,因此設(shè)備上程序的運(yùn)行受到電量的限制.輕量級(jí)和高速的檢測(cè)模型可以解決電力資源限制問題,然而,最近的研究[91-93]提出了更有效的方案,這些檢測(cè)方案可以獨(dú)立于設(shè)備可用資源進(jìn)行部署,從根源上規(guī)避了物聯(lián)網(wǎng)環(huán)境中部署檢測(cè)系統(tǒng)受到的電力資源限制問題.
文獻(xiàn)[91]以嵌入式設(shè)備的電磁輻射為分析對(duì)象,選擇樹莓派2B 作為目標(biāo)設(shè)備,在執(zhí)行惡意代碼時(shí)檢測(cè)設(shè)備外部的電磁輻射,處理數(shù)據(jù)中的噪聲,并使用軟件分析保護(hù)機(jī)制擴(kuò)展后的數(shù)據(jù)集來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型.此檢測(cè)模型不依賴設(shè)備和系統(tǒng)架構(gòu),也不會(huì)導(dǎo)致物聯(lián)網(wǎng)設(shè)備的計(jì)算開銷,并且實(shí)驗(yàn)結(jié)果也證明了此模型對(duì)于未知的混淆樣本具有較高的魯棒性.DeepPower[92]監(jiān)控被用于保護(hù)設(shè)備的功率信號(hào),通過分析側(cè)信道功率信號(hào)推斷物聯(lián)網(wǎng)惡意軟件活動(dòng),首先快速檢測(cè)出可疑功率信號(hào),然后使用基于注意力的Seq2Seq 模型實(shí)現(xiàn)對(duì)可疑信號(hào)的細(xì)粒度分析.訓(xùn)練的深度學(xué)習(xí)模型在檢測(cè)Mirai 惡意軟件時(shí)體現(xiàn)了很好的魯棒性,可以及時(shí)檢測(cè)物聯(lián)網(wǎng)惡意代碼入侵.Azmoodeh 等人[93]通過監(jiān)控物聯(lián)網(wǎng)設(shè)備的電量使用情況實(shí)現(xiàn)檢測(cè).通過記錄所有運(yùn)行的進(jìn)程的電量消耗情況,使用電量消耗數(shù)據(jù)訓(xùn)練支持向量機(jī)模型,實(shí)現(xiàn)了檢測(cè).
3.2.4 小結(jié)
在3.2 節(jié)中我們分類介紹了目前以解決物聯(lián)網(wǎng)設(shè)備受到計(jì)算資源、內(nèi)存空間以及電力資源等限制為研究動(dòng)機(jī)的物聯(lián)網(wǎng)惡意代碼檢測(cè)方法,并總結(jié)在表3 中.當(dāng)前針對(duì)物聯(lián)網(wǎng)資源限制的研究工作相比傳統(tǒng)的基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法,只需要少量的計(jì)算資源和內(nèi)存資源,檢測(cè)速度快.但是,當(dāng)前模型大多側(cè)重于解決資源限制問題,只在來自單一架構(gòu)的數(shù)據(jù)集上訓(xùn)練和測(cè)試模型,沒有在不同架構(gòu)上編譯的惡意程序中驗(yàn)證模型的檢測(cè)效果,模型的魯棒性和泛化能力有限.
Table 3 Comparison of Resource-constrained AI-based IoT Malware Detection Techniques表3 基于人工智能資源限制的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比
第3 節(jié)詳細(xì)介紹了物聯(lián)網(wǎng)設(shè)備和環(huán)境所面臨的挑戰(zhàn)和限制,并針對(duì)解決物聯(lián)網(wǎng)設(shè)備特性帶來的惡意代碼檢測(cè)問題進(jìn)行了研究,取得了一系列的研究成果.而本節(jié)主要介紹旨在提高所使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型性能和檢測(cè)效果的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作.這些工作針對(duì)惡意代碼檢測(cè)領(lǐng)域的一般性問題,主要關(guān)注于提升基于人工智能算法的檢測(cè)方法的準(zhǔn)確率,降低誤報(bào)率以及提高檢測(cè)速度等方面.
在本節(jié)中,我們根據(jù)所分析對(duì)象的不同,將基于通用技術(shù)的研究工作劃分為基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù)和基于流量的檢測(cè)技術(shù)2 類.這2 類檢測(cè)技術(shù)均將機(jī)器學(xué)習(xí)或深度學(xué)習(xí)用于物聯(lián)網(wǎng)惡意代碼檢測(cè),并通過選擇不同的特征或修改人工智能模型來提高檢測(cè)效果.
在物聯(lián)網(wǎng)環(huán)境中,絕大多數(shù)物聯(lián)網(wǎng)系統(tǒng)依賴于基于Linux 的操作系統(tǒng),其上運(yùn)行的程序?yàn)镋LF 文件[94],分析物聯(lián)網(wǎng)系統(tǒng)中的惡意ELF 文件并結(jié)合深度學(xué)習(xí)算法實(shí)現(xiàn)檢測(cè)系統(tǒng)已經(jīng)是物聯(lián)網(wǎng)安全領(lǐng)域的重要部分.除針對(duì)物聯(lián)網(wǎng)環(huán)境和設(shè)備的跨架構(gòu)和資源限制特性的檢測(cè)方法外,基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù)還解決惡意代碼檢測(cè)面臨的一些普遍問題,包括提高模型檢測(cè)效果和模型對(duì)攻擊的魯棒性[95-100]、檢測(cè)使用各種混淆技術(shù)的惡意代碼[101-103]等,另有一小部分工作通過對(duì)ELF 文件的詳細(xì)分析,對(duì)比了同為ELF 文件的物聯(lián)網(wǎng)惡意代碼與安卓惡意代碼[104-105].
Dib 等人[96]從可執(zhí)行二進(jìn)制文件中提取可打印字符串特征并結(jié)合二進(jìn)制文件轉(zhuǎn)換成的圖片,以及使用超過7 萬個(gè)最新的物聯(lián)網(wǎng)惡意代碼樣本訓(xùn)練了一個(gè)結(jié)合CNN 和長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)的檢測(cè)模型,模型的準(zhǔn)確率較現(xiàn)有方法有所提升,但是此方法沒有考慮混淆的惡意代碼樣本.類似地,文獻(xiàn)[99]同樣使用待測(cè)樣本轉(zhuǎn)換成的RGB 圖片作為其檢測(cè)模型的輸入,并利用深度遷移學(xué)習(xí),通過融合ResNet18[106]、MobileNetV2[107]和Dense-Net161[108]這3 個(gè)卷積神經(jīng)網(wǎng)絡(luò),提高了模型的檢測(cè)和分類性能.
另一方面,OGCNN-RWD[98]是一種基于最優(yōu)圖卷積神經(jīng)網(wǎng)絡(luò)的勒索軟件檢測(cè)技術(shù),OGCNN-RWD使用圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neaval network,GCNN)模型,通過和諧搜索算法(harmony search algorithm,HSA)進(jìn)行參數(shù)選擇.模糊模式樹(fuzzy pattern tree,FPT)[109]在物聯(lián)網(wǎng)惡意代碼檢測(cè)中也得到了應(yīng)用,該樹狀結(jié)構(gòu)具備處理模糊性和不可見條件的能力,提高了模糊方法對(duì)惡意代碼變化的魯棒性.此外,文獻(xiàn)[97]提取控制流圖相關(guān)特征并輸入模糊模式樹,實(shí)驗(yàn)結(jié)果表明使用模糊樹和快速模糊樹方法的檢測(cè)結(jié)果優(yōu)于使用支持向量機(jī)、決策樹、k最近鄰和隨機(jī)森林等其他機(jī)器學(xué)習(xí)算法.但是模糊模式樹算法計(jì)算復(fù)雜度高,運(yùn)行時(shí)間長,不便于在物聯(lián)網(wǎng)環(huán)境中實(shí)際部署.Yumlembam 等人[100]提出基于圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)的分類器用于檢測(cè)惡意軟件.他們的研究表明,基于GNN 的檢測(cè)模型魯棒性較差,針對(duì)此問題,他們引入了名為VGAEMalGAN 的對(duì)抗樣本生成模型,并通過實(shí)驗(yàn)證明使用VGAE-MalGAN 生成的對(duì)抗樣本進(jìn)行再訓(xùn)練可以提高檢測(cè)方法的魯棒性.
面向物聯(lián)網(wǎng)架構(gòu)及資源限制的惡意代碼檢測(cè)技術(shù)側(cè)重于解決物聯(lián)網(wǎng)環(huán)境和設(shè)備特性對(duì)惡意代碼檢測(cè)系統(tǒng)造成的限制,但未考慮使用混淆技術(shù)的惡意代碼對(duì)檢測(cè)方法造成的影響[25,27,50,70].因此,面向性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作[101-103]針對(duì)這一問題展開了探索,提升了在混淆惡意樣本上的檢測(cè)準(zhǔn)確率.
Darabian 等人[101]采用序列模式挖掘技術(shù),提取二進(jìn)制可執(zhí)行樣本操作碼序列的最大頻繁模式作為特征,并利用開源的多態(tài)惡意軟件創(chuàng)建工具構(gòu)建了6 個(gè)多態(tài)惡意代碼數(shù)據(jù)集,在這些數(shù)據(jù)集以及來自ARM 架構(gòu)的惡意樣本集上,他們訓(xùn)練了包括k-最近鄰、支持向量機(jī)在內(nèi)的多個(gè)機(jī)器學(xué)習(xí)模型.為了減輕使用多態(tài)和代碼混淆技術(shù)的惡意代碼對(duì)標(biāo)準(zhǔn)檢測(cè)方法的影響,文獻(xiàn)[102]提出了基于遷移學(xué)習(xí)的預(yù)訓(xùn)練Inception-v3 模型檢測(cè)框架,該框架能夠?qū)δP瓦M(jìn)行微調(diào),其輸入為惡意代碼二進(jìn)制文件轉(zhuǎn)換成的RGB圖片.實(shí)驗(yàn)證明,基于圖像的惡意軟件模型不需要特征工程,構(gòu)建速度快,能夠?qū)勾a混淆,并且在各項(xiàng)指標(biāo)上優(yōu)于使用類似技術(shù)的其他方法.
2-MaD[103]是一種2 階段的物聯(lián)網(wǎng)惡意代碼混合檢測(cè)方案,旨在部署于智能城市環(huán)境中以保護(hù)物聯(lián)網(wǎng)設(shè)備免受混淆惡意軟件的攻擊.2-MaD 首先在第1階段執(zhí)行靜態(tài)分析,提取樣本的操作碼特征,訓(xùn)練雙向長短期記憶(bidirectional long-short term memory,Bi-LSTM)模型進(jìn)行檢測(cè).隨后,在第2 階段中,對(duì)可能被靜態(tài)分析誤報(bào)為良性的惡意代碼進(jìn)一步地動(dòng)態(tài)分析,提取虛擬機(jī)的行為日志中的進(jìn)程內(nèi)存信息,訓(xùn)練EfficientNet-B3[110]模型再次檢測(cè)惡意代碼.相較于單一的靜態(tài)檢測(cè)或動(dòng)態(tài)檢測(cè),該方法具有更低的誤報(bào)率,但是由于在動(dòng)態(tài)分析階段執(zhí)行一個(gè)樣本需要2 min 時(shí)間,2-MaD 技術(shù)的時(shí)間消耗大.HyMalD[111]是另一個(gè)混合檢測(cè)工具,與2-MaD 不同,HyMalD 同時(shí)執(zhí)行基于靜態(tài)分析和基于動(dòng)態(tài)分析的物聯(lián)網(wǎng)惡意代碼檢測(cè).靜態(tài)檢測(cè)部分提取物聯(lián)網(wǎng)惡意代碼的操作碼特征訓(xùn)練了Bi-LSTM 模型;動(dòng)態(tài)檢測(cè)部分提取樣本在沙箱中運(yùn)行產(chǎn)生的進(jìn)程、文件和注冊(cè)表行為作為特征并轉(zhuǎn)換為RGB 圖像訓(xùn)練SPP-Net 模型[112].實(shí)驗(yàn)結(jié)果顯示,相較于單一的靜態(tài)檢測(cè)方法,HyMalD 具有較低的漏報(bào)率和更高的準(zhǔn)確率.
物聯(lián)網(wǎng)系統(tǒng)主要運(yùn)行基于Linux 系統(tǒng)的ELF 文件,而攻擊安卓系統(tǒng)的惡意軟件也基于Linux 系統(tǒng)[105].隨著物聯(lián)網(wǎng)設(shè)備的普及,分析物聯(lián)網(wǎng)惡意軟件與其他基于Linux 系統(tǒng)的惡意軟件之間的差異有助于構(gòu)建更有效的檢測(cè)系統(tǒng).
文獻(xiàn)[104]通過提取物聯(lián)網(wǎng)和安卓惡意代碼樣本的控制流圖,并從圖的大小、直徑、最短路徑分布、節(jié)點(diǎn)數(shù)量和中介中心性等圖論相關(guān)的圖屬性對(duì)2 種惡意代碼樣本進(jìn)行對(duì)比分析,發(fā)現(xiàn)安卓惡意軟件的節(jié)點(diǎn)數(shù)量更多,與物聯(lián)網(wǎng)惡意軟件相比安卓惡意軟件具有更高的復(fù)雜性.Alasmary 等人[105]的研究是在文獻(xiàn)[104]工作基礎(chǔ)上的擴(kuò)展,他們分別分析了近3 000個(gè)物聯(lián)網(wǎng)和安卓惡意軟件樣本以及良性樣本數(shù)據(jù)的控制流圖相關(guān)特征,并提取了平均最短路徑、度中心性和中介中心性等具有高區(qū)分度的特征.然后,他們利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法訓(xùn)練了基于這些特征的物聯(lián)網(wǎng)惡意代碼檢測(cè)模型,其中卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)模型得到了誤報(bào)率最低且準(zhǔn)確率最高的實(shí)驗(yàn)結(jié)果.然而,這一系列對(duì)比研究的不足是因?yàn)闆]有考慮其檢測(cè)模型對(duì)代碼混淆和對(duì)抗樣本攻擊的魯棒性.
很大一部分物聯(lián)網(wǎng)惡意軟件以僵尸程序的形態(tài)出現(xiàn)[113].一旦感染物聯(lián)網(wǎng)設(shè)備,僵尸程序會(huì)與攻擊者的命令與控制(command and control,C&C)服務(wù)器進(jìn)行通信,并根據(jù)黑客的指令執(zhí)行惡意攻擊,如DDoS攻擊等[114].僵尸網(wǎng)絡(luò)是由被僵尸程序感染的設(shè)備組成的網(wǎng)絡(luò)[115].隨著物聯(lián)網(wǎng)設(shè)備部署數(shù)量的迅速增加,針對(duì)物聯(lián)網(wǎng)的DDoS 攻擊流量也達(dá)到了前所未有的水平[116-118].及時(shí)檢測(cè)此類攻擊并斷開受感染設(shè)備與網(wǎng)絡(luò)的鏈接對(duì)物聯(lián)網(wǎng)安全至關(guān)重要.基于流量的檢測(cè)是對(duì)設(shè)備上運(yùn)行的二進(jìn)制可執(zhí)行程序檢測(cè)系統(tǒng)的補(bǔ)充,它使安全管理人員可以在攻擊發(fā)生的早期階段實(shí)時(shí)發(fā)現(xiàn)可能的惡意行為,并減少系統(tǒng)安全保障開銷.
基于流量的檢測(cè)通常被視為基于動(dòng)態(tài)特征的行為檢測(cè)技術(shù),在物聯(lián)網(wǎng)惡意代碼檢測(cè)領(lǐng)域中,由于僵尸程序的廣泛存在,也有一些基于流量的惡意行為檢測(cè)方法研究[15,114,119-124].例如,N-BaIoT[119]從受感染的物聯(lián)網(wǎng)設(shè)備中提取網(wǎng)絡(luò)行為快照,并使用深度自動(dòng)編碼器檢測(cè)異常網(wǎng)絡(luò)流量.Jamal 等人[15]利用ToN_IoT 數(shù)據(jù)集[38]提取網(wǎng)絡(luò)數(shù)據(jù)包的源端口、目的端口、時(shí)間戳、鏈接狀態(tài)等特征,并訓(xùn)練了基于深度學(xué)習(xí)的檢測(cè)模型.Alharbi 等人[122]使用主成分分析(principal component analysis,PCA)方法對(duì)特征進(jìn)行降維,并利用開源的IoT-23 數(shù)據(jù)集[36]提取特征后訓(xùn)練隨機(jī)森林分類器,以提高機(jī)器學(xué)習(xí)模型的檢測(cè)性能并降低過擬合的風(fēng)險(xiǎn).文獻(xiàn)[121]將關(guān)聯(lián)規(guī)則學(xué)習(xí)[125]應(yīng)用于物聯(lián)網(wǎng)流量分析,除了選取流量包的端口等特征,還使用其他報(bào)頭信息并行進(jìn)行所有報(bào)頭信息規(guī)則挖掘,以便檢測(cè)未知惡意流量.
文獻(xiàn)[114]將FastGRNN[126]用于物聯(lián)網(wǎng)惡意代碼產(chǎn)生流量的檢測(cè),F(xiàn)astGRNN 相比于傳統(tǒng)的RNN模型具有更低的復(fù)雜性,能夠提供快速的訓(xùn)練和攻擊檢測(cè)能力.分布式模塊化的檢測(cè)方案EDIMA[120]不僅包含基于機(jī)器學(xué)習(xí)算法的檢測(cè)模型,而且包括一個(gè)定期使用新捕獲的流量重新訓(xùn)練機(jī)器學(xué)習(xí)模型的模型構(gòu)造器模塊和一個(gè)數(shù)據(jù)包流量特征數(shù)據(jù)庫,EDIMA 用于存儲(chǔ)提取的已知惡意數(shù)據(jù)特征向量列表并及時(shí)更新,通過定期進(jìn)行模型重新訓(xùn)練以應(yīng)對(duì)大量新型物聯(lián)網(wǎng)惡意代碼引起的概念漂移等問題.物聯(lián)網(wǎng)惡意軟件分析系統(tǒng)BOTA[124]是基于機(jī)器學(xué)習(xí)和基于規(guī)則的異構(gòu)分類器的集合,可在高速計(jì)算機(jī)網(wǎng)絡(luò)上對(duì)受感染的物聯(lián)網(wǎng)設(shè)備及時(shí)實(shí)現(xiàn)可解釋的檢測(cè).
本節(jié)對(duì)第4 節(jié)中介紹的物聯(lián)網(wǎng)安全領(lǐng)域面向性能提升和基于通用人工智能技術(shù)進(jìn)行的惡意代碼檢測(cè)研究進(jìn)行總結(jié),并展示在表4 中.
Table 4 Comparison of Performance-enhancing IoT Malware Detection Techniques表4 性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比
基于可執(zhí)行文件分析的檢測(cè)性能提升方法通過利用深度學(xué)習(xí)方法自動(dòng)提取特征,減少對(duì)專家知識(shí)的依賴,提高檢測(cè)模型的性能,但是當(dāng)前的很多檢測(cè)研究沒有考慮對(duì)抗樣本等攻擊對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的安全威脅.基于流量分析的檢測(cè)性能提升方法為攻擊早期階段檢測(cè)物聯(lián)網(wǎng)惡意代碼提供了支持.然而,由于攻擊流量數(shù)量巨大,用于訓(xùn)練檢測(cè)系統(tǒng)的數(shù)據(jù)集無法實(shí)時(shí)更新,導(dǎo)致基于流量的檢測(cè)系統(tǒng)的準(zhǔn)確率可能隨時(shí)間降低.
本節(jié)對(duì)當(dāng)前研究工作中存在的問題和未解決的挑戰(zhàn)進(jìn)行了總結(jié),基于當(dāng)前已有的研究工作存在的不足提出了未來的研究方向.表5 展示了當(dāng)前的挑戰(zhàn)與機(jī)遇.
Table 5 Challenges and Opportunities表5 挑戰(zhàn)與機(jī)遇
1)缺少針對(duì)物聯(lián)網(wǎng)設(shè)備特性的評(píng)估指標(biāo).目前基于人工智能檢測(cè)的相關(guān)研究在評(píng)價(jià)檢測(cè)方案的效果時(shí),通常選擇用于評(píng)估機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法性能的評(píng)價(jià)指標(biāo),包括準(zhǔn)確率、精確度、召回率和F1 值以及漏報(bào)率和誤報(bào)率等.這些指標(biāo)在應(yīng)用于各種場(chǎng)景的人工智能模型中都被使用,雖然檢測(cè)準(zhǔn)確率等指標(biāo)可以反映模型的檢測(cè)能力,但是由于物聯(lián)網(wǎng)設(shè)備還存在獨(dú)有的特性和限制,這些通用的評(píng)估指標(biāo)無法全面評(píng)估物聯(lián)網(wǎng)設(shè)備上惡意代碼的檢測(cè)模型.例如,針對(duì)物聯(lián)網(wǎng)中存在多種不同架構(gòu),不同架構(gòu)上的惡意代碼可能存在較大區(qū)別的特性,應(yīng)在檢測(cè)準(zhǔn)確率等評(píng)價(jià)之外對(duì)檢測(cè)模型的跨架構(gòu)檢測(cè)能力進(jìn)行定量評(píng)估.此外,由于物聯(lián)網(wǎng)設(shè)備的資源限制,我們?cè)谡{(diào)研中也發(fā)現(xiàn)很多解決資源限制問題的研究設(shè)計(jì)了基于人工智能的輕量級(jí)檢測(cè)模型,但是這些輕量級(jí)模型的資源消耗量等數(shù)據(jù)同樣沒有定量評(píng)價(jià)標(biāo)準(zhǔn).
2)缺少統(tǒng)一可用的動(dòng)態(tài)分析環(huán)境.目前使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作中使用動(dòng)態(tài)分析方法的較少[72,103,111].雖然自從IoTPOT[6]被公開以來,其已經(jīng)成為物聯(lián)網(wǎng)惡意代碼分析數(shù)據(jù)集的穩(wěn)定來源,但是動(dòng)態(tài)分析過程中研究人員試圖通過樣本的執(zhí)行提取自定義的特征,如運(yùn)行的進(jìn)程等,這需要一個(gè)可以直接部署使用的開源沙箱.隨著物聯(lián)網(wǎng)惡意代碼技術(shù)的迭代,其檢測(cè)沙箱環(huán)境逃避動(dòng)態(tài)分析,因此當(dāng)前需要的動(dòng)態(tài)分析環(huán)境需要有模擬真實(shí)設(shè)備環(huán)境的反逃逸設(shè)置,同時(shí)便于快速部署多個(gè)虛擬環(huán)境,以適應(yīng)物聯(lián)網(wǎng)惡意代碼多種版本運(yùn)行在不同CPU 架構(gòu)上的特點(diǎn).
3)缺乏對(duì)攻擊的魯棒性.隨著近年來人工智能技術(shù)在各個(gè)領(lǐng)域的蓬勃發(fā)展,人工智能的安全性也逐漸成為被研究人員關(guān)注的領(lǐng)域.在對(duì)基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的大規(guī)模調(diào)研中,我們發(fā)現(xiàn)大多數(shù)檢測(cè)物理聯(lián)網(wǎng)惡意代碼的機(jī)器學(xué)習(xí)模型在設(shè)計(jì)時(shí)沒有考慮針對(duì)模型的攻擊,由于真實(shí)部署環(huán)境中存在大量攻擊者,檢測(cè)模型的安全實(shí)際上面臨著較大風(fēng)險(xiǎn).最近幾年也有許多針對(duì)人工智能惡意代碼檢測(cè)工具的對(duì)抗性攻擊研究[127-129],目前常見的攻擊包括對(duì)模型訓(xùn)練數(shù)據(jù)的數(shù)據(jù)投毒攻擊、針對(duì)人工智能模型的對(duì)抗樣本攻擊等.
為了實(shí)現(xiàn)更高效、更實(shí)用的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù),為物聯(lián)網(wǎng)安全領(lǐng)域的發(fā)展注入新的活力,本節(jié)在總結(jié)現(xiàn)有研究的基礎(chǔ)上,提出了3 個(gè)未來可能的研究方向,旨在為研究人員進(jìn)一步的工作提供參考.
1)結(jié)合大模型實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼檢測(cè).近年來隨著人工智能領(lǐng)域的突破性技術(shù)ChatGPT 的出現(xiàn),大模型也成為研究的熱點(diǎn).隨著計(jì)算能力的提高,通過億級(jí)數(shù)據(jù)訓(xùn)練的大模型擁有著遠(yuǎn)遠(yuǎn)超出一般機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的性能.AI 大模型與安全領(lǐng)域相結(jié)合,可以實(shí)現(xiàn)快速分析惡意代碼,引入大模型輔助物聯(lián)網(wǎng)惡意代碼檢測(cè),使用訓(xùn)練好的大模型直接檢測(cè)惡意代碼將會(huì)極大提高惡意代碼檢測(cè)技術(shù)的效率.同時(shí)可以通過大量數(shù)據(jù)的訓(xùn)練以產(chǎn)生針對(duì)物聯(lián)網(wǎng)特性的新的檢測(cè)評(píng)估指標(biāo),實(shí)現(xiàn)高效準(zhǔn)確的物聯(lián)網(wǎng)惡意代碼檢測(cè)和完善的模型檢測(cè)效果評(píng)估.
2)提高檢測(cè)模型安全性.我們對(duì)當(dāng)前研究工作的分析中指出了目前基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)缺乏模型魯棒性保障的問題.針對(duì)真實(shí)環(huán)境的部署中檢測(cè)模型可能遭到的對(duì)抗樣本攻擊,未來的研究工作應(yīng)該考慮提高檢測(cè)模型的安全性,這也是未來人工智能安全領(lǐng)域模型安全的研究方向之一.可以通過在設(shè)計(jì)物聯(lián)網(wǎng)惡意代碼檢測(cè)模型時(shí)引入對(duì)抗訓(xùn)練和隨機(jī)化數(shù)據(jù)等方法提高檢測(cè)模型的安全性.
3)結(jié)合零信任架構(gòu)實(shí)現(xiàn)檢測(cè).零信任安全模型是近年來提出的安全防御新架構(gòu).由于物聯(lián)網(wǎng)環(huán)境中設(shè)備數(shù)量巨大且正在快速擴(kuò)張,傳統(tǒng)的防御方案無法在物聯(lián)網(wǎng)設(shè)備中得到大規(guī)模應(yīng)用.結(jié)合基于不信任任何設(shè)備或用戶原則的零信任架構(gòu)要求對(duì)設(shè)備實(shí)時(shí)認(rèn)證和授權(quán)訪問,攻擊者無法通過感染一個(gè)設(shè)備快速感染聯(lián)網(wǎng)的其他設(shè)備,可以有效減輕基于人工智能的惡意代碼檢測(cè)系統(tǒng)的負(fù)擔(dān).
近年來,物聯(lián)網(wǎng)安全越來越受到重視,一方面由具于物聯(lián)網(wǎng)設(shè)備數(shù)量激增,另一方面也因?yàn)獒槍?duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼等威脅不斷涌現(xiàn).物聯(lián)網(wǎng)惡意代碼檢測(cè)在物聯(lián)網(wǎng)安全中扮演著舉足輕重的角色.本文對(duì)2018 年至今的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)進(jìn)行了大規(guī)模調(diào)研,從物聯(lián)網(wǎng)設(shè)備區(qū)別于一般臺(tái)式機(jī)等設(shè)備的特性導(dǎo)致的問題出發(fā),提出了面向主要研究動(dòng)機(jī)的分類方法,從物聯(lián)網(wǎng)設(shè)備限制緩解的惡意代碼檢測(cè)方面和方面性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)方面對(duì)當(dāng)前的檢測(cè)工作進(jìn)行了分析和梳理.基于對(duì)現(xiàn)有研究的全面總結(jié),分析了該領(lǐng)域當(dāng)前面臨的挑戰(zhàn),并提出了未來的研究方向.
作者貢獻(xiàn)聲明:劉奇旭負(fù)責(zé)論文的總體規(guī)劃、指導(dǎo)以及論文的撰寫;劉嘉熹負(fù)責(zé)論文主要內(nèi)容的調(diào)研和撰寫;靳澤負(fù)責(zé)論文結(jié)構(gòu)的梳理;劉心宇、肖聚鑫負(fù)責(zé)相關(guān)工作的調(diào)研和梳理;陳艷輝負(fù)責(zé)論文內(nèi)容的梳理和校對(duì);朱洪文、譚耀康負(fù)責(zé)相關(guān)文獻(xiàn)的整理和內(nèi)容校對(duì).