基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)綜述

2023-10-27 02:50:34劉奇旭劉嘉熹劉心宇肖聚鑫陳艷輝朱洪文譚耀康

計(jì)算機(jī)研究與發(fā)展 2023年10期

劉奇旭劉嘉熹靳澤劉心宇肖聚鑫陳艷輝朱洪文譚耀康

1（中國科學(xué)院信息工程研究所北京 100085）

2（中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院北京 100049）

近年來，物聯(lián)網(wǎng)（Internet of things,IoT）在智能家居、智能手表、智能健康、供應(yīng)鏈管理等領(lǐng)域中被大量使用，“萬物互聯(lián)”已經(jīng)成為當(dāng)今時(shí)代的主流.截至2022 年，全球物聯(lián)網(wǎng)設(shè)備的數(shù)量已達(dá)131 億，預(yù)計(jì)到2030 年物聯(lián)網(wǎng)設(shè)備數(shù)量將會(huì)逼近300 億，與此同時(shí)，物聯(lián)網(wǎng)市場(chǎng)的收益也逐步攀升，年收入增長率高達(dá)13.60%[1].

隨著物聯(lián)網(wǎng)設(shè)備的大量使用，人們的生活質(zhì)量顯著提高，然而，物聯(lián)網(wǎng)的蓬勃發(fā)展也為攻擊者提供了溫床，生產(chǎn)廠商更多關(guān)注設(shè)備銷量和收益，對(duì)物聯(lián)網(wǎng)設(shè)備的安全問題很難投入足夠的研究.此外，物聯(lián)網(wǎng)設(shè)備還存在使用弱口令、不及時(shí)更新安全補(bǔ)丁等問題.因此，物聯(lián)網(wǎng)設(shè)備比傳統(tǒng)的臺(tái)式機(jī)、筆記本電腦等設(shè)備更容易被惡意代碼攻擊，成為惡意攻擊的目標(biāo).惡意代碼，又稱為惡意軟件，是指能夠在計(jì)算機(jī)系統(tǒng)中進(jìn)行非授權(quán)操作，并使系統(tǒng)執(zhí)行攻擊者希望其執(zhí)行的操作，以實(shí)施破壞或竊取信息的代碼.惡意代碼可能以蠕蟲、病毒、遠(yuǎn)控木馬、僵尸程序以及勒索軟件等形態(tài)出現(xiàn)，以不同攻擊形態(tài)出現(xiàn)的惡意代碼破壞計(jì)算機(jī)、服務(wù)器、客戶端或計(jì)算機(jī)網(wǎng)絡(luò)，或在不知情的情況下?lián)p害用戶的計(jì)算機(jī)安全和隱私，給企業(yè)和個(gè)人造成巨大的經(jīng)濟(jì)損失.例如，攻擊者通過精心設(shè)計(jì)惡意代碼，利用物聯(lián)網(wǎng)設(shè)備使用默認(rèn)憑證或弱憑證的漏洞控制設(shè)備，并執(zhí)行進(jìn)一步的攻擊.

Sonic Wall 的報(bào)告[2]指出，截止到2022 年，針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼攻擊同比增加了77%，無疑給物聯(lián)網(wǎng)安全造成巨大威脅.2016 年，物聯(lián)網(wǎng)惡意軟件Mirai 通過使用默認(rèn)用戶名和密碼感染設(shè)備，創(chuàng)下了最大的分布式拒絕服務(wù)（distributed denial of service,DDoS）攻擊記錄，引起了眾多安全研究人員[3-4]對(duì)物聯(lián)網(wǎng)惡意代碼的關(guān)注.Mirai 的源代碼不久后泄露，一定程度上導(dǎo)致了以物聯(lián)網(wǎng)設(shè)備為目標(biāo)的新型惡意軟件家族如Gafgyt，Reaper，satori[5]等的出現(xiàn)，這些惡意代碼對(duì)物聯(lián)網(wǎng)設(shè)備的安全和用戶的隱私及財(cái)產(chǎn)安全都產(chǎn)生了嚴(yán)重威脅，物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)已經(jīng)成為物聯(lián)網(wǎng)安全領(lǐng)域研究的重要組成部分.

為了緩解惡意代碼帶來的巨大安全風(fēng)險(xiǎn)，近年來，安全研究人員開始逐漸關(guān)注物聯(lián)網(wǎng)領(lǐng)域的惡意軟件檢測(cè)工作.傳統(tǒng)的物聯(lián)網(wǎng)惡意代碼檢測(cè)和設(shè)備保護(hù)方法主要依靠特征庫的積累和惡意軟件分析人員的人工分析，但是由于惡意軟件的爆發(fā)式增長[4,6-10]，傳統(tǒng)方式缺乏效率且難以應(yīng)對(duì)未知的安全風(fēng)險(xiǎn).安全研究人員開始嘗試將在圖像分類、文本分析等領(lǐng)域取得了巨大成功的人工智能（artificial intelligence,AI）技術(shù)應(yīng)用于惡意代碼檢測(cè)領(lǐng)域并得到了很好的效果[11-14].目前，基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究逐漸成為主流.但是，相較于傳統(tǒng)的臺(tái)式機(jī)、服務(wù)器等設(shè)備，物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè)技術(shù)不僅面臨著基于人工智能的惡意代碼檢測(cè)技術(shù)普遍需求更高檢測(cè)準(zhǔn)確率等問題，而且要應(yīng)對(duì)物聯(lián)網(wǎng)設(shè)備自身特性引發(fā)的2 大挑戰(zhàn)[15]：1）物聯(lián)網(wǎng)惡意代碼能夠感染使用多種不同CPU 架構(gòu)的設(shè)備，而不同CPU架構(gòu)的指令集不同，導(dǎo)致無法將基本使用相同架構(gòu)的傳統(tǒng)設(shè)備中成熟的惡意代碼特征提取和檢測(cè)方法直接應(yīng)用到物聯(lián)網(wǎng)惡意代碼的檢測(cè)中.2）由于物聯(lián)網(wǎng)設(shè)備一般體積較小，需要部署在各種不同的環(huán)境中，物聯(lián)網(wǎng)設(shè)備受到內(nèi)存空間小、電量少等資源限制，需要部署相對(duì)于傳統(tǒng)設(shè)備更輕量級(jí)的檢測(cè)系統(tǒng).因此基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究在提高模型的檢測(cè)效果的同時(shí)，需要解決當(dāng)前物聯(lián)網(wǎng)設(shè)備自身的特性帶來的獨(dú)特挑戰(zhàn).

隨著物聯(lián)網(wǎng)設(shè)備地逐步普及，許多物聯(lián)網(wǎng)安全相關(guān)研究也被提出[16]，基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究也不斷涌現(xiàn)，本文對(duì)2018 年以來網(wǎng)絡(luò)與信息安全領(lǐng)域四大頂級(jí)會(huì)議以及期刊等來源的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究進(jìn)行了大量的調(diào)研和分析，總結(jié)現(xiàn)有研究工作的特點(diǎn)和不足，為進(jìn)一步的研究提供了系統(tǒng)性的參考.圖1展示了歷年來基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)文章數(shù)量，文章數(shù)量的增長速度逐步加快，說明隨著人工智能和物聯(lián)網(wǎng)技術(shù)的快速發(fā)展，越來越多的檢測(cè)方案被提出.

Fig.1 AI-based IoT malware detection representative research statistics from 2018 to May 2023圖1 2018—2023 年5 月基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)代表性研究統(tǒng)計(jì)

為了更加直觀地展現(xiàn)目前研究工作的側(cè)重點(diǎn)以及存在的問題，本文總結(jié)了物聯(lián)網(wǎng)領(lǐng)域與傳統(tǒng)設(shè)備領(lǐng)域的檢測(cè)工作的差異性，從新的角度提出一種新的分類方法.

本文主要有3 個(gè)方面的貢獻(xiàn)：

1）本文調(diào)研了自2018 年以來基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作，深入分析了這些研究工作提出的基于人工智能的檢測(cè)技術(shù)以及其技術(shù)特點(diǎn)，對(duì)本領(lǐng)域的發(fā)展進(jìn)程進(jìn)行了全面的梳理.

2）本文從物聯(lián)網(wǎng)設(shè)備和系統(tǒng)自身的特性出發(fā)，圍繞物聯(lián)網(wǎng)惡意代碼檢測(cè)的主要研究動(dòng)機(jī)，從面向物聯(lián)網(wǎng)設(shè)備限制緩解的惡意代碼檢測(cè)和面向性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)2 個(gè)角度對(duì)當(dāng)前的研究工作進(jìn)行了分類研究.

3）基于對(duì)物聯(lián)網(wǎng)惡意代碼檢測(cè)工作的全面調(diào)研總結(jié)，本文對(duì)當(dāng)前的工作進(jìn)行了深入的分析，總結(jié)了應(yīng)用人工智能技術(shù)的檢測(cè)當(dāng)前仍存在的不足和面臨的挑戰(zhàn)，并展望了未來基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究的方向.

1 研究背景

1.1 物聯(lián)網(wǎng)相關(guān)概念及特性

本節(jié)從物聯(lián)網(wǎng)的基本概念入手，介紹物聯(lián)網(wǎng)的基本架構(gòu)和物聯(lián)網(wǎng)設(shè)備的內(nèi)部架構(gòu)，進(jìn)而梳理了影響運(yùn)行在物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè)技術(shù)設(shè)計(jì)的特性.

學(xué)術(shù)界通常將物聯(lián)網(wǎng)系統(tǒng)劃分為感知層、網(wǎng)絡(luò)層和應(yīng)用層[17-18]，物聯(lián)網(wǎng)系統(tǒng)的結(jié)構(gòu)層次和安全風(fēng)險(xiǎn)及威脅如圖2 所示.

Fig.2 Structural layers of IoT system and the threats they face圖2 物聯(lián)網(wǎng)系統(tǒng)的結(jié)構(gòu)層次及其面臨的安全威脅

感知層關(guān)聯(lián)到各類物聯(lián)網(wǎng)設(shè)備，這些設(shè)備中通常內(nèi)置了許多用于收集外部信息的傳感器以及用于數(shù)據(jù)傳輸?shù)臒o線連接模塊[19]，傳感器收集的數(shù)據(jù)被發(fā)送到應(yīng)用層.網(wǎng)絡(luò)層定義了各類通信協(xié)議與傳輸協(xié)議，負(fù)責(zé)感知層與應(yīng)用層之間的數(shù)據(jù)交換.應(yīng)用層包括云平臺(tái)和搭載于物聯(lián)網(wǎng)設(shè)備上的應(yīng)用程序（application,APP）.其中各層的物聯(lián)網(wǎng)設(shè)備都面臨著不同的安全威脅，而各個(gè)層次中的物聯(lián)網(wǎng)設(shè)備都可能受到惡意代碼攻擊.

具體到設(shè)備而言，每個(gè)物聯(lián)網(wǎng)設(shè)備的內(nèi)部組成自下而上可以分為硬件層、系統(tǒng)層和用戶層，如圖3所示.

Fig.3 Internal architecture of IoT devices圖3 物聯(lián)網(wǎng)設(shè)備內(nèi)部架構(gòu)

硬件層常見的處理器架構(gòu)包括ARM、MIPS、PowerPC（PPC）、SPARC、SuperH 等[20]，供應(yīng)商往往會(huì)根據(jù)物聯(lián)網(wǎng)設(shè)備不同的功能需求選擇基于不同架構(gòu)的處理器.這些架構(gòu)均為32 b 精簡指令集處理器計(jì)算機(jī)（reduced instruction set computer,RISC），其被廣泛應(yīng)用于微處理器的嵌入式系統(tǒng)設(shè)計(jì)，低能耗的特性使得這些架構(gòu)適用于移動(dòng)通信、航空航天、智能傳感器等設(shè)備中.例如，基于MIPS 架構(gòu)開發(fā)的Sensor Hub 被廣泛應(yīng)用于可穿戴設(shè)備[21].臺(tái)式機(jī)和服務(wù)器等設(shè)備上常用的x86 和x86_64 等架構(gòu)為復(fù)雜指令集處理器計(jì)算機(jī)（complex instruction set computer,CISC），由于其復(fù)雜性與高能耗，較少出現(xiàn)在物聯(lián)網(wǎng)設(shè)備上.

物聯(lián)網(wǎng)設(shè)備的系統(tǒng)層包括操作系統(tǒng)和應(yīng)用程序，為物聯(lián)網(wǎng)設(shè)備功能的實(shí)現(xiàn)提供支撐.物聯(lián)網(wǎng)設(shè)備的操作系統(tǒng)具有低功耗、安全、通信協(xié)議支持和云端連接功能.常見的物聯(lián)網(wǎng)操作系統(tǒng)包括RIOT、Contiki、ARM mbed、eLinux 等[22].

物聯(lián)網(wǎng)設(shè)備的用戶層面向用戶提供交互界面并接受用戶控制.

通過分析物聯(lián)網(wǎng)設(shè)備的組成，可以梳理出物聯(lián)網(wǎng)設(shè)備區(qū)別于傳統(tǒng)臺(tái)式機(jī)等設(shè)備的2 個(gè)特性：

1）根據(jù)物聯(lián)網(wǎng)設(shè)備的獨(dú)特功能需求使用不同的CPU 架構(gòu)，不同CPU 架構(gòu)所使用的指令集、寄存器等也存在差異.

2）物聯(lián)網(wǎng)設(shè)備結(jié)構(gòu)上的局限性導(dǎo)致大多數(shù)物聯(lián)網(wǎng)設(shè)備的內(nèi)存容量較小，可分配的計(jì)算資源也相對(duì)較少.

由于存在多種CPU 架構(gòu)以及資源限制等與傳統(tǒng)臺(tái)式機(jī)和服務(wù)器等設(shè)備不同的特性，攻擊者往往會(huì)專門開發(fā)針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼.1.2 節(jié)中，我們將詳細(xì)探討這些特性給物聯(lián)網(wǎng)惡意代碼檢測(cè)帶來的獨(dú)特挑戰(zhàn).

1.2 物聯(lián)網(wǎng)惡意代碼檢測(cè)挑戰(zhàn)

本節(jié)首先介紹了近年來活躍的物聯(lián)網(wǎng)惡意代碼，然后結(jié)合物聯(lián)網(wǎng)設(shè)備和運(yùn)行在其上的惡意代碼的特性指出了基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)面臨的獨(dú)特挑戰(zhàn).

著名的物聯(lián)網(wǎng)惡意代碼Mirai 在2016 年10 月的網(wǎng)絡(luò)攻擊[23]引起了全球關(guān)注，大量運(yùn)行嵌入式Linux 系統(tǒng)且使用弱密碼或默認(rèn)憑證的IoT 設(shè)備被Mirai 感染，并被組織成龐大的僵尸網(wǎng)絡(luò)用于發(fā)動(dòng)大規(guī)模的 DDoS 攻擊，攻擊導(dǎo)致大半個(gè)美國互聯(lián)網(wǎng)癱瘓.近年來，IoT 平臺(tái)的主要威脅依然是以Mirai、Gafgyt等為代表的主流僵尸網(wǎng)絡(luò)家族，也有陸續(xù)出現(xiàn)一些變體和新家族如Tsunami、Mozi、VPNfilter 等.僵尸網(wǎng)絡(luò)家族也不再滿足于挖礦和DDOS 攻擊，2022 年發(fā)表的研究工作[24]提出一種被稱為通過物聯(lián)網(wǎng)操縱需求（manipulation of demand via IoT,MadIoT）的新型潛在攻擊，此攻擊表明物聯(lián)網(wǎng)惡意代碼已對(duì)國家的基礎(chǔ)設(shè)施構(gòu)成了重大威脅.

Mirai、Tsunami、VPNfilter 等物聯(lián)網(wǎng)惡意代碼已被發(fā)現(xiàn)在多種CPU 架構(gòu)上運(yùn)行[25-27].鑒于第1.1 節(jié)中提到的不同物聯(lián)網(wǎng)設(shè)備通常會(huì)使用大量不同的CPU架構(gòu)的特性，攻擊者可以通過在不同架構(gòu)上編譯惡意代碼，然后向使用不同架構(gòu)的物聯(lián)網(wǎng)設(shè)備廣泛投放，以實(shí)現(xiàn)大規(guī)模的攻擊.這為物聯(lián)網(wǎng)惡意代碼檢測(cè)帶來了第1 個(gè)獨(dú)特的挑戰(zhàn).

在不同CPU 架構(gòu)上編譯的程序具有不同的指令集，在臺(tái)式機(jī)等設(shè)備上基于人工智能的惡意代碼檢測(cè)中，通常會(huì)選用一些特征來進(jìn)行檢測(cè)，例如可執(zhí)行連接格式（executable linking format,ELF）文件頭的數(shù)據(jù)特征和操作碼等.但這些特征依賴于編譯程序的系統(tǒng)所使用的CPU 架構(gòu)[27].這些特征高度依賴于特定的體系結(jié)構(gòu)，無法用于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè).因此，針對(duì)物聯(lián)網(wǎng)惡意代碼的檢測(cè)需要選擇跨架構(gòu)通用的特征，以解決大量來自不同CPU 架構(gòu)的惡意代碼帶來的挑戰(zhàn).

物聯(lián)網(wǎng)設(shè)備的資源限制特性帶來了基于物聯(lián)網(wǎng)的惡意代碼檢測(cè)的第2 個(gè)獨(dú)特挑戰(zhàn).當(dāng)前的大多數(shù)物聯(lián)網(wǎng)設(shè)備，如可穿戴設(shè)備、智能家居、智能電表、無人機(jī)集群等，由于設(shè)備體積小、能耗低，其可以使用的資源受到限制.例如，只擁有少量的內(nèi)存空間、有限的計(jì)算能力、低帶寬以及低電量[28-31].現(xiàn)有惡意代碼檢測(cè)方法大多忽略了物聯(lián)網(wǎng)設(shè)備資源受限的問題.檢測(cè)模型的復(fù)雜度往往較高，導(dǎo)致計(jì)算成本也高.因此，設(shè)計(jì)基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的輕量級(jí)惡意代碼檢測(cè)模型變得至關(guān)重要.這些模型需要通過降低算法復(fù)雜度等方式適應(yīng)物聯(lián)網(wǎng)設(shè)備資源的限制，從而實(shí)現(xiàn)可部署性.

上述2 個(gè)物聯(lián)網(wǎng)惡意代碼檢測(cè)所遭遇的獨(dú)特挑戰(zhàn)，源自物聯(lián)網(wǎng)的CPU 架構(gòu)多樣性以及物聯(lián)網(wǎng)設(shè)備的資源限制.這2 種挑戰(zhàn)是物聯(lián)網(wǎng)設(shè)備限制挑戰(zhàn)的2個(gè)方面.

此外，物聯(lián)網(wǎng)惡意代碼層出不窮，及時(shí)檢測(cè)到惡意代碼攻擊，提高檢測(cè)模型的準(zhǔn)確率，降低誤報(bào)率，也是物聯(lián)網(wǎng)設(shè)備安全和惡意代碼檢測(cè)的一大挑戰(zhàn).

1.3 物聯(lián)網(wǎng)惡意代碼檢測(cè)常用數(shù)據(jù)集

由于物聯(lián)網(wǎng)領(lǐng)域正處于蓬勃發(fā)展階段，針對(duì)物聯(lián)網(wǎng)設(shè)備的攻擊也層出不窮，基于人工智能技術(shù)的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究使用多種數(shù)據(jù)集訓(xùn)練其設(shè)計(jì)的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)檢測(cè)模型.我們通過大量的文獻(xiàn)調(diào)研工作總結(jié)了檢測(cè)工作中常用的物聯(lián)網(wǎng)惡意代碼和惡意流量數(shù)據(jù)集.

1.3.1 物聯(lián)網(wǎng)惡意可執(zhí)行文件數(shù)據(jù)集

為了給未來的檢測(cè)工作減少數(shù)據(jù)收集的負(fù)擔(dān)，本節(jié)介紹的物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集符合3 點(diǎn)要求：1）數(shù)據(jù)集包含來自多種架構(gòu)的惡意和良性二進(jìn)制可執(zhí)行程序；2）數(shù)據(jù)集包含近年新構(gòu)建的樣本；3）數(shù)據(jù)集開源可用，易于獲得.

TWISC（Taiwan information security center）研究中心2021 年發(fā)布的開源數(shù)據(jù)集[32]包含36 328 個(gè)樣本，包括各種來源的ELF 惡意軟件和19 975 個(gè)良性軟件，其中樣本來源的CPU 架構(gòu)有MIPS、ARM、x86、Super-H4 和PPC 等.文獻(xiàn)[26]的工作包括收集并開源了一個(gè)名為Badthings 的惡意樣本的物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集，此數(shù)據(jù)集排除了主要存在于服務(wù)器、臺(tái)式機(jī)和筆記本電腦中的x86 和x86_64 惡意軟件以及安卓惡意軟件，包含來自多種CPU 架構(gòu)的1 66 772 個(gè)惡意ELF二進(jìn)制文件.文獻(xiàn)[33]收集了另外一個(gè)包含來自不同架構(gòu)的惡意和良性樣本的物聯(lián)網(wǎng)數(shù)據(jù)集firmware.IoTPoT[6]通過部署大量蜜罐截獲物聯(lián)網(wǎng)惡意代碼樣本，開源并定時(shí)更新其數(shù)據(jù)集.此外，VirusTotal[34]和VirusShare[35]也是很多論文收集物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)的重要來源.各種開源物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集展示在表1 中.

Table 1 Open Source IoT Malware Datasets表1 開源物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集

1.3.2 物聯(lián)網(wǎng)惡意流量數(shù)據(jù)集

物聯(lián)網(wǎng)惡意流量有較多開源數(shù)據(jù)集，IoT-23 數(shù)據(jù)集[36]收集了從飛利浦智能LED 燈、Somfy 智能門鎖和亞馬遜Echo 等多個(gè)設(shè)備上捕獲的運(yùn)行惡意軟件和良性程序時(shí)的pcap 文件.新南威爾士大學(xué)的研究人員[37-38]貢獻(xiàn)了2 個(gè)流量數(shù)據(jù)集，分別在實(shí)驗(yàn)室模擬現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境，部署惡意代碼收集攻擊數(shù)據(jù)，惡意代碼部署在智能氣象站、智能冰箱、智能燈光控制、遠(yuǎn)程車庫門開關(guān)和智能恒溫器等真實(shí)物聯(lián)網(wǎng)應(yīng)用場(chǎng)景中，其中Bot-IoT 數(shù)據(jù)集[37]有超過7 300 萬條流量數(shù)據(jù).ToN_IoT 數(shù)據(jù)集[38]由來自物聯(lián)網(wǎng)傳感器和Ubuntu 系統(tǒng)等真實(shí)物聯(lián)網(wǎng)設(shè)備的網(wǎng)絡(luò)流量組成.MedBIoT 數(shù)據(jù)集[39]收集了Mirai 等僵尸網(wǎng)絡(luò)在擁有83 個(gè)包括智能鎖、智能開關(guān)等設(shè)備的中型網(wǎng)絡(luò)中的攻擊流量.Kitsune 數(shù)據(jù)集[40]收集自一個(gè)包括恒溫器、嬰兒監(jiān)視器、網(wǎng)絡(luò)攝像頭、低成本的安全攝像頭和門鈴等物聯(lián)網(wǎng)設(shè)備在內(nèi)的由3 臺(tái)電腦和9 臺(tái)物聯(lián)網(wǎng)設(shè)備組成的小型網(wǎng)絡(luò).

上述5 個(gè)物聯(lián)網(wǎng)惡意流量數(shù)據(jù)集也展示在表1中，由于流量數(shù)據(jù)集從多種不同設(shè)備中獲得，流量數(shù)據(jù)在不同CPU 架構(gòu)上也沒有區(qū)別，因此統(tǒng)一標(biāo)記的流量數(shù)據(jù)來自多種常見物聯(lián)網(wǎng)CPU 架構(gòu).

2 物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)分類方法

2.1 現(xiàn)有綜述論文分類方法

2008 年，針對(duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼首次被發(fā)現(xiàn)[41]，之后幾年內(nèi)才開始大規(guī)模出現(xiàn)并引起工業(yè)界與研究人員的共同關(guān)注[42-43].為了介紹當(dāng)前的物聯(lián)網(wǎng)惡意代碼檢測(cè)分類方法，本節(jié)對(duì)現(xiàn)有的綜述文章及其物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的分類方法進(jìn)行了介紹.

文獻(xiàn)[44]聚焦于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)和分析方法，對(duì)著眼于解決多架構(gòu)限制的機(jī)器學(xué)習(xí)物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù)的最新研究進(jìn)行總結(jié)，從靜態(tài)檢測(cè)特征選取的角度進(jìn)行了分類分析，將目前的物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù)分為基于度量、基于圖或樹、基于序列和相互依賴4 種.基于度量的特征包括ELF 文件頭、字符串、系統(tǒng)調(diào)用、操作碼等，基于圖或樹的特征表示包括控制流圖（control flow graph,CFG）、函數(shù)調(diào)用圖（function call graph,FCG）等，基于序列的特征包括字節(jié)碼、轉(zhuǎn)換為圖片等，相互依賴的特征關(guān)注ELF 文件與外部環(huán)境之間的關(guān)系，包括二進(jìn)制文件的路徑信息等.然而，該綜述的分類方案只考慮了物聯(lián)網(wǎng)惡意代碼靜態(tài)檢測(cè)技術(shù)，沒有考慮物聯(lián)網(wǎng)惡意軟件檢測(cè)領(lǐng)域中大量使用動(dòng)態(tài)檢測(cè)技術(shù)的相關(guān)研究，并且只局限于總結(jié)面向跨架構(gòu)限制的檢測(cè)技術(shù)，沒有考慮針對(duì)物聯(lián)網(wǎng)系統(tǒng)自身的其他特性提出的更多惡意代碼檢測(cè)方案.

Ngo 等人[45]對(duì)截止到2020 年的物聯(lián)網(wǎng)惡意軟件靜態(tài)檢測(cè)的主要技術(shù)論文及其優(yōu)缺點(diǎn)進(jìn)行了綜述，他們將物聯(lián)網(wǎng)惡意軟件檢測(cè)方法分為2 類：未使用圖的方法和基于圖的方法.這個(gè)分類考慮了現(xiàn)階段圖神經(jīng)網(wǎng)絡(luò)的快速發(fā)展以及在惡意代碼檢測(cè)領(lǐng)域中的大量應(yīng)用，但是忽略了動(dòng)態(tài)特征.此外，隨著近幾年物聯(lián)網(wǎng)領(lǐng)域的飛速發(fā)展，物聯(lián)網(wǎng)惡意代碼領(lǐng)域也有大量新的研究，但其可能沒有涵蓋最新的物聯(lián)網(wǎng)惡意軟件檢測(cè)技術(shù).

文獻(xiàn)[46]將物聯(lián)網(wǎng)惡意軟件檢測(cè)方法從使用的技術(shù)角度分為基于區(qū)塊鏈技術(shù)的檢測(cè)、基于圖像技術(shù)的檢測(cè)、基于機(jī)器學(xué)習(xí)的檢測(cè)和移動(dòng)惡意軟件檢測(cè).但是文獻(xiàn)[46]的分類方法不夠清晰，例如，基于圖像技術(shù)的檢測(cè)本質(zhì)上也是將二進(jìn)制程序的特征轉(zhuǎn)換為圖片形式表示，再使用機(jī)器學(xué)習(xí)技術(shù)檢測(cè)，這也屬于基于機(jī)器學(xué)習(xí)檢測(cè)的一部分.

文獻(xiàn)[31,47-48]探討了近年來在保護(hù)用戶數(shù)據(jù)及系統(tǒng)安全方面廣受關(guān)注的聯(lián)邦學(xué)習(xí)（federated learning,FL）技術(shù)的研究現(xiàn)狀，并對(duì)應(yīng)用聯(lián)邦學(xué)習(xí)進(jìn)行物聯(lián)網(wǎng)惡意代碼檢測(cè)的工作進(jìn)行了全面分析.這些文獻(xiàn)主要關(guān)注在資源受限的物聯(lián)網(wǎng)設(shè)備上應(yīng)用聯(lián)邦學(xué)習(xí)進(jìn)行檢測(cè)工作，但對(duì)物聯(lián)網(wǎng)惡意軟件檢測(cè)領(lǐng)域的整體評(píng)估尚不完備.

文獻(xiàn)[43,49]對(duì)2008—2019 年活躍的物聯(lián)網(wǎng)惡意代碼及惡意代碼家族進(jìn)行了詳細(xì)調(diào)研和梳理，并分別提出了檢測(cè)分類方案.

雖然現(xiàn)有的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)綜述都很好地總結(jié)了特定方向的工作，但是由于物聯(lián)網(wǎng)領(lǐng)域發(fā)展時(shí)間短，近年來針對(duì)物聯(lián)網(wǎng)惡意軟件的綜述文章較少，并且目前的綜述文獻(xiàn)大多聚焦于具體的檢測(cè)技術(shù)和方法，在較小范圍內(nèi)細(xì)分檢測(cè)技術(shù)無法全面展現(xiàn)整個(gè)領(lǐng)域當(dāng)前的研究現(xiàn)狀.基于此，本文對(duì)2018 年以來發(fā)表的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)高質(zhì)量工作進(jìn)行調(diào)研，補(bǔ)充現(xiàn)有的綜述工作，從更高的角度提出涵蓋范圍更大的分類和總結(jié).

2.2 本文分類方法

為了提供一個(gè)全新的視角，使研究人員能夠全面了解物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的進(jìn)展，本文對(duì)2018 年以來在網(wǎng)絡(luò)與信息安全領(lǐng)域頂級(jí)會(huì)議和期刊上發(fā)表的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究進(jìn)行了調(diào)研.對(duì)這些研究工作解決的問題、主要貢獻(xiàn)、使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法、物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集以及檢測(cè)效果等方面進(jìn)行了詳細(xì)分析.同時(shí)，本文提出了一種新的分類方法，從物聯(lián)網(wǎng)檢測(cè)研究的主要?jiǎng)訖C(jī)的角度進(jìn)行分類，本文分類框架如圖4 所示.

具體而言，相較于現(xiàn)有的綜述文獻(xiàn)所采用的特定靜態(tài)或動(dòng)態(tài)分析技術(shù)，或是以人工智能算法模型的角度進(jìn)行分類，本文所提出的分類方法主要著眼于基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)研究所致力解決的主要問題，即研究動(dòng)機(jī).如圖4 左側(cè)淺色陰影框所示，物聯(lián)網(wǎng)惡意代碼檢測(cè)的一類研究側(cè)重于緩解物聯(lián)網(wǎng)設(shè)備特有的架構(gòu)及資源限制帶來的惡意代碼檢測(cè)挑戰(zhàn)，包括跨架構(gòu)的惡意代碼檢測(cè)和針對(duì)物聯(lián)網(wǎng)設(shè)備資源限制的惡意代碼檢測(cè)技術(shù).如圖4 右側(cè)無淺色陰影框所示，另一類面向檢測(cè)模型性能提升，這些研究從惡意代碼檢測(cè)的通用檢測(cè)和分類方法入手，通過使用不同的機(jī)器學(xué)習(xí)算法或特征，提高人工智能算法模型的檢測(cè)準(zhǔn)確率，包括基于流量的惡意行為檢測(cè)和基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù).

面向物聯(lián)網(wǎng)設(shè)備限制的惡意代碼檢測(cè)技術(shù)的主要研究動(dòng)機(jī)是解決物聯(lián)網(wǎng)設(shè)備自身特性導(dǎo)致的惡意代碼檢測(cè)限制.如1.1 節(jié)中所述，隨著物聯(lián)網(wǎng)在各行各業(yè)的不斷普及，由于物聯(lián)網(wǎng)領(lǐng)域的設(shè)備存在多樣性，而這些設(shè)備需要達(dá)到高性能、低能耗的標(biāo)準(zhǔn)和更高的安全性要求，無法通過單一處理器架構(gòu)滿足多種設(shè)備的不同需求，因而物聯(lián)網(wǎng)領(lǐng)域存在多種處理器架構(gòu).物聯(lián)網(wǎng)設(shè)備常用的處理器架構(gòu)包括MIPS、ARM、PPC 和SPARC 等，而物聯(lián)網(wǎng)惡意軟件可以在異構(gòu)設(shè)備[50]中傳播，這使得運(yùn)行在物聯(lián)網(wǎng)設(shè)備上的惡意代碼的特性與臺(tái)式機(jī)等設(shè)備中被限制在有限種類的CPU 架構(gòu)上運(yùn)行的傳統(tǒng)惡意軟件不同[26]，CPU架構(gòu)的差異導(dǎo)致相同的惡意行為呈現(xiàn)出不同的特征[27]，因此無法直接將其它設(shè)備上已經(jīng)較為成熟的機(jī)器學(xué)習(xí)惡意代碼檢測(cè)模型應(yīng)用到物聯(lián)網(wǎng)惡意代碼檢測(cè)中.這部分研究通過分析運(yùn)行在不同架構(gòu)上物聯(lián)網(wǎng)惡意代碼的特點(diǎn)，選擇新的惡意代碼特征，提出在多種架構(gòu)中檢測(cè)物聯(lián)網(wǎng)惡意代碼的方法.另外，物聯(lián)網(wǎng)設(shè)備還具有資源有限、需要持續(xù)在線連接、缺乏安全保護(hù)等獨(dú)特的性質(zhì).現(xiàn)有基于人工智能的惡意代碼檢測(cè)方法大多沒有考慮計(jì)算成本等問題，難以直接部署到物聯(lián)網(wǎng)環(huán)境中.因此，設(shè)計(jì)可在資源受限物聯(lián)網(wǎng)設(shè)備上部署的輕量級(jí)且準(zhǔn)確的惡意代碼檢測(cè)框架也是當(dāng)前本領(lǐng)域的一個(gè)熱門研究方向.

除了面向物聯(lián)網(wǎng)設(shè)備和環(huán)境獨(dú)有的特性和限制而設(shè)計(jì)的檢測(cè)技術(shù)，一部分研究面向物聯(lián)網(wǎng)惡意代碼檢測(cè)模型的性能提升，其主要研究動(dòng)機(jī)是通過更好地設(shè)計(jì)檢測(cè)算法提高現(xiàn)有的物聯(lián)網(wǎng)惡意代碼二進(jìn)制可執(zhí)行文件檢測(cè)方法的準(zhǔn)確率和檢測(cè)效率，減少檢測(cè)系統(tǒng)的漏報(bào)和誤報(bào)，以及通過基于流量的檢測(cè)及時(shí)檢測(cè)攻擊行為以減少系統(tǒng)安全保障開銷.

本文提出的分類方法涵蓋了物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)研究工作重點(diǎn)關(guān)注的2 個(gè)方面，即物聯(lián)網(wǎng)設(shè)備特性導(dǎo)致的檢測(cè)技術(shù)需要解決的問題和通用惡意代碼檢測(cè)技術(shù)在提高檢測(cè)模型準(zhǔn)確率方面有待完善等一般性問題.首先，如2.1 節(jié)中所述，與其他方法相比，本文分類方法涵蓋了物聯(lián)網(wǎng)惡意代碼檢測(cè)的相關(guān)研究，體現(xiàn)了物聯(lián)網(wǎng)環(huán)境和設(shè)備獨(dú)有的特點(diǎn)，而其他分類方法與普通的惡意代碼檢測(cè)分類思路基本類似.其次，現(xiàn)有的分類方法過分聚焦于具體的人工智能算法，如基于聯(lián)邦學(xué)習(xí)的檢測(cè)技術(shù)等，并在更小的范圍內(nèi)細(xì)分檢測(cè)算法，而沒有關(guān)注物聯(lián)網(wǎng)領(lǐng)域更高層次的特性.此外，本文提出的分類方法可以充分體現(xiàn)當(dāng)前物聯(lián)網(wǎng)惡意代碼研究面臨的問題，而現(xiàn)有的分類方法無法為未來的研究提供基于物聯(lián)網(wǎng)設(shè)備特性的發(fā)展趨勢(shì)分析，因此本文分類方法更適合物聯(lián)網(wǎng)安全領(lǐng)域.

3 面向物聯(lián)網(wǎng)設(shè)備限制緩解的惡意代碼檢測(cè)

物聯(lián)網(wǎng)設(shè)備廣泛存在于日常生活使用的物品中.與傳統(tǒng)的臺(tái)式機(jī)、筆記本電腦、智能手機(jī)等設(shè)備不同，物聯(lián)網(wǎng)設(shè)備由于應(yīng)用環(huán)境的多樣性，采用了多種流行的CPU 架構(gòu)和操作系統(tǒng).同時(shí)，與傳統(tǒng)計(jì)算設(shè)備相比，物聯(lián)網(wǎng)設(shè)備的體積通常較小，這限制了其可用的計(jì)算資源和內(nèi)存空間等資源.這些特性導(dǎo)致一般基于人工智能的惡意代碼檢測(cè)技術(shù)難以直接應(yīng)用于物聯(lián)網(wǎng)設(shè)備上.為了解決物聯(lián)網(wǎng)設(shè)備的多種架構(gòu)和資源限制問題，惡意代碼檢測(cè)方法通過有針對(duì)性的特征選擇和算法設(shè)計(jì)，提出了適用于物聯(lián)網(wǎng)環(huán)境的高性能惡意代碼檢測(cè)技術(shù).

3.1 跨架構(gòu)檢測(cè)技術(shù)

物聯(lián)網(wǎng)設(shè)備使用多種CPU 架構(gòu)，常用的架構(gòu)有十多種[51]，這導(dǎo)致了在不同架構(gòu)上編譯的物聯(lián)網(wǎng)惡意軟件之間的差異，使得安全人員無法直接使用傳統(tǒng)的Windows 或移動(dòng)環(huán)境中的分析方法檢測(cè)物聯(lián)網(wǎng)惡意代碼[51-52]，也無法將在某個(gè)設(shè)備上獲得的惡意樣本集直接應(yīng)用于面向物聯(lián)網(wǎng)惡意代碼檢測(cè)的人工智能算法.為了進(jìn)行跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)，可以使用包含大量來自不同CPU 架構(gòu)的惡意軟件樣本的數(shù)據(jù)集，選擇跨架構(gòu)惡意軟件特征，訓(xùn)練機(jī)器學(xué)習(xí)檢測(cè)模型區(qū)分良性和惡意樣本.實(shí)現(xiàn)跨架構(gòu)檢測(cè)技術(shù)的核心在于選擇可以跨架構(gòu)檢測(cè)出物聯(lián)網(wǎng)惡意代碼的特征，設(shè)計(jì)高性能的模型，以及使用包含大量不同CPU 上編譯的物聯(lián)網(wǎng)惡意代碼樣本數(shù)據(jù)訓(xùn)練模型.本節(jié)首先梳理了當(dāng)前研究中用到的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼數(shù)據(jù)集，然后從研究工作使用的不同跨架構(gòu)特征角度對(duì)相關(guān)研究工作進(jìn)行了梳理.

3.1.1 結(jié)合操作碼的融合特征

操作碼是計(jì)算機(jī)程序的機(jī)器語言指令的一部分，用于指定下一步要執(zhí)行的操作[53].操作碼指令體現(xiàn)了程序運(yùn)行時(shí)要執(zhí)行的行為和函數(shù)調(diào)用等操作.使用操作碼特征進(jìn)行惡意代碼檢測(cè)的技術(shù)最初由Bilar[54]提出，近年來出現(xiàn)了很多基于操作碼的惡意代碼檢測(cè)工作，這些工作結(jié)合了操作碼的出現(xiàn)頻率[55]、操作碼序列[56]、基于圖像的操作碼[57]等特征，采用精心設(shè)計(jì)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法.在這些工作中，所選取的特征在很大程度上決定了檢測(cè)模型的效果.然而，目前許多研究工作主要依賴于單一特征的惡意代碼機(jī)器學(xué)習(xí)檢測(cè)技術(shù).這些研究工作[58]報(bào)告的惡意代碼檢測(cè)準(zhǔn)確率在94%～96%，但這些方法通常需要較長的處理時(shí)間和較大的計(jì)算量[59].因此，操作碼作為一種有效特征在惡意代碼檢測(cè)領(lǐng)域被廣泛應(yīng)用于基于機(jī)器學(xué)習(xí)的檢測(cè)模型[54-57,60-61]，在物聯(lián)網(wǎng)惡意代碼檢測(cè)中也得到了應(yīng)用.

面對(duì)大量運(yùn)行在不同架構(gòu)中的物聯(lián)網(wǎng)惡意代碼，不同CPU 導(dǎo)致來自同一家族的惡意代碼的操作碼存在一定的區(qū)別.由于單一的操作碼特征無法高效準(zhǔn)確地實(shí)現(xiàn)檢測(cè)，解決跨架構(gòu)問題的物聯(lián)網(wǎng)惡意代碼檢測(cè)方法在使用操作碼特征的同時(shí)，結(jié)合了物聯(lián)網(wǎng)惡意代碼二進(jìn)制程序的其他特征，實(shí)現(xiàn)了融合特征選擇，并結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型來實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼的跨架構(gòu)檢測(cè).

日本國家信息和通信技術(shù)研究所的研究團(tuán)隊(duì)[25,52]在他們的檢測(cè)工作中選取了操作碼和程序運(yùn)行時(shí)的API 調(diào)用序列特征.他們依據(jù)先前研究的發(fā)現(xiàn)[62],即加殼后的二進(jìn)制程序熵值會(huì)明顯提高，首先計(jì)算數(shù)據(jù)集中每個(gè)二進(jìn)制程序的熵以判斷樣本是否加殼并從數(shù)據(jù)集中刪除加殼的樣本.然后使用IDA 得到程序的匯編代碼，從中提取操作碼序列，同時(shí)在沙箱中使用strace 命令記錄樣本運(yùn)行時(shí)的API 調(diào)用序列，并使用N-gram 算法處理操作碼和API 調(diào)用序列.文獻(xiàn)[6]在2 個(gè)工作中分別應(yīng)用支持向量機(jī)（support vector machine,SVM）和k-最近鄰（k-nearest neighbor,kNN）算法檢測(cè)從IoTPOT 收集的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼樣本，實(shí)驗(yàn)結(jié)果顯示，操作碼特征在ARM 架構(gòu)上的檢測(cè)效果優(yōu)于API 特征，而API 特征在MIPS 上的檢測(cè)效果略優(yōu)于操作碼特征.文獻(xiàn)[6]對(duì)檢測(cè)跨架構(gòu)物聯(lián)網(wǎng)惡意代碼的特征的方法的有效性進(jìn)行了分析和驗(yàn)證，但是沒有考慮加殼的惡意樣本，很難保證在真實(shí)物聯(lián)網(wǎng)環(huán)境中的檢測(cè)效果.Tien 等人[63]實(shí)現(xiàn)了跨指令集架構(gòu)（instruction set architectures,ISAs），即跨CPU 的物聯(lián)網(wǎng)惡意代碼檢測(cè).他們選取操作碼指令與ELF 文件的相關(guān)屬性這2 組特征，其中包括架構(gòu)名稱、文件大小、外部庫、是否加殼、函數(shù)數(shù)量、是否連接網(wǎng)絡(luò)等7 個(gè)ELF 文件特征，以及邏輯、控制、內(nèi)存、堆棧、輸出、算數(shù)等不同功能類型的12 個(gè)操作碼特征，并在包含30 000 多個(gè)跨架構(gòu)IoT 惡意軟件樣本的數(shù)據(jù)集中驗(yàn)證了所選特征的有效性，訓(xùn)練和測(cè)試了3 種機(jī)器學(xué)習(xí)模型，其中CNN 取得了最好的檢測(cè)效果，在物聯(lián)網(wǎng)惡意代碼家族分類中得到98.37%的檢測(cè)準(zhǔn)確率.此工作同樣受限于使用的脫殼技術(shù)，無法檢測(cè)使用復(fù)雜反匯編技術(shù)的惡意軟件.

2020 年，Vasan 等人[58]提出了一個(gè)檢測(cè)跨架構(gòu)物聯(lián)網(wǎng)惡意代碼威脅的模型，采用基于操作碼和信息增益（information gain,IG）的異構(gòu)特征選擇方法以學(xué)習(xí)不同層次的語義特征表示，信息增益可以對(duì)抗惡意代碼常用的垃圾代碼混淆，從而準(zhǔn)確地檢測(cè)跨架構(gòu)的物聯(lián)網(wǎng)惡意軟件.Vasan 等人又提出了名為MTHAEL 的輕量級(jí)堆疊集成模型，使用可以在MIPS、ARM、PPC 和Intel X86-64 等架構(gòu)上傳播的15 482 個(gè)惡意代碼樣本和同樣來自多種CPU 架構(gòu)的5 655 個(gè)良性樣本組成的大數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試.MTHAEL 集成了RNN 和CNN 這 2 個(gè)子網(wǎng)絡(luò)，把他們嵌入到多頭神經(jīng)網(wǎng)絡(luò)中，以更好地結(jié)合來自每個(gè)子網(wǎng)絡(luò)的預(yù)測(cè).文獻(xiàn)[58]所提的方法在跨架構(gòu)樣本檢測(cè)中得到97.02%的高檢測(cè)準(zhǔn)確率，并驗(yàn)證了MTHAEL 面向?qū)剐怨舻聂敯粜?

除了API 調(diào)用等特征，其他層面也存在不依賴于平臺(tái)架構(gòu)的特征，中間表示（intermediate representation,IR）就是其中之一.Vex 中間表示在Valgrind[64]和Angr[65]等著名的程序分析工具中被使用，文獻(xiàn)[59]基于Vex中間表示和基于控制流特征提取的動(dòng)態(tài)[33]（control flow-based features extraction dynamic,CFD）規(guī)劃算法實(shí)現(xiàn)了一種跨架構(gòu)ELF 文件特征選擇方法，此方法從操作碼對(duì)應(yīng)的IR 語句中的Vex 中間表示，調(diào)用Ngram 算法提取基于控制流的特征，然后使用本文工作中收集的開源混合架構(gòu)數(shù)據(jù)集訓(xùn)練了一個(gè)基于支持向量機(jī)的物聯(lián)網(wǎng)惡意代碼檢測(cè)模型.基于中間表示的跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)方法目前還很少，未來值得被進(jìn)一步探索.

3.1.2 字節(jié)序列

字節(jié)序列是惡意代碼檢測(cè)中經(jīng)常被使用的特征之一[66-67]，在物聯(lián)網(wǎng)惡意軟件檢測(cè)中也有應(yīng)用.Wan等人[68-69]在2020 年的2 項(xiàng)基于機(jī)器學(xué)習(xí)的檢測(cè)工作中，同樣使用了字節(jié)序列特征.他們從ELF 程序的入口點(diǎn)開始提取字節(jié)作為算法的輸入，使用N-gram 算法處理字節(jié)序列表示為數(shù)值向量，在由7 種不同CPU 架構(gòu)的超過2 萬多個(gè)樣本組成的數(shù)據(jù)集上訓(xùn)練支持向量機(jī)分類器.文獻(xiàn)[70]通過對(duì)不同CPU 上物聯(lián)網(wǎng)惡意代碼樣本的詳細(xì)分析，基于程序主要功能啟動(dòng)時(shí)源代碼在相同的惡意軟件家族不同變體中通常不會(huì)改變這一原理，選取惡意軟件入口點(diǎn)的字節(jié)序列特征，從跨架構(gòu)惡意代碼樣本中提取特征后，訓(xùn)練了一個(gè)精心設(shè)計(jì)的Bi-GRU-CNN 檢測(cè)模型，實(shí)驗(yàn)結(jié)果證明選取的字節(jié)序列特征能夠準(zhǔn)確地區(qū)分惡意軟件和良性軟件.但是基于字節(jié)序列特征的方法無法處理加殼的惡意代碼，當(dāng)前的工作大多基于物聯(lián)網(wǎng)惡意軟件還沒有大規(guī)模使用混淆技術(shù)這一發(fā)現(xiàn)[70]而開展研究.

3.1.3 可打印字符串

ELF 文件中的可打印字符串具有跨平臺(tái)泛化能力，同時(shí)具有高可訪問性和高可理解性[27]，具體來說，可打印字符串包含與源代碼密切相關(guān)的基本識(shí)別信息，因此可以捕獲不同CPU 架構(gòu)上編譯的同一系列惡意軟件的共同特征.此外，研究人員可以直接從惡意軟件的二進(jìn)制文件中提取可打印字符串，特征提取效率較高且不需要耗費(fèi)大量內(nèi)存和計(jì)算資源.由3.1.1 節(jié)可知，二進(jìn)制文件的操作碼依賴體系結(jié)構(gòu)，需要結(jié)合其他特征才能取得較好的檢測(cè)效果，而可打印字符串特征可以直接體現(xiàn)運(yùn)行在不同CPU 架構(gòu)上的惡意軟件樣本的共同特征，不需要結(jié)合二進(jìn)制程序的其它特征即可應(yīng)用于物聯(lián)網(wǎng)惡意代碼檢測(cè)模型.

Alhanahnah 等人[50]使用N-gram 算法從ELF 文件中提取可打印字符串序列特征，額外選取了二進(jìn)制程序匯編代碼的函數(shù)總數(shù)、指令總數(shù)、重定向指令數(shù)、算術(shù)指令數(shù)、邏輯指令數(shù)、傳輸指令數(shù)等6 個(gè)高級(jí)統(tǒng)計(jì)特征與可打印字符串序列一起應(yīng)用于跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)模型.文獻(xiàn)[27]從ELF 文件的函數(shù)名稱、API 名稱、代碼和代碼注釋中提取了可打印字符串，以及可打印字符串的數(shù)量和長度等特征，在從VirusTotal[34]收集的12 萬個(gè)運(yùn)行在x86、MIPS、ARM、SPARC、x86-64、PPC 和未知類型的CPU 架構(gòu)上的惡意軟件ELF 文件上提取可打印字符串特征，訓(xùn)練和測(cè)試了包括支持向量機(jī)在內(nèi)的3 個(gè)機(jī)器學(xué)習(xí)分類模型.此項(xiàng)研究工作的實(shí)驗(yàn)充分驗(yàn)證了所提出的方法在跨架構(gòu)CPU 樣本上的性能，訓(xùn)練模型時(shí)使用來自x86、ARM 和MIPS 等3 種常見的CPU 架構(gòu)的樣本作為訓(xùn)練集，并使用未知架構(gòu)和應(yīng)用較少的架構(gòu)樣本作為測(cè)試集，模型得到了平均98%的檢測(cè)準(zhǔn)確率，同時(shí)也減少了訓(xùn)練時(shí)間.

3.1.4 其他特征

除了被應(yīng)用最多的操作碼和可打印字符串特征，解決跨架構(gòu)問題的物聯(lián)網(wǎng)惡意代碼檢測(cè)相關(guān)工作中還選取了其他一些特征，包括函數(shù)調(diào)用圖[71]、系統(tǒng)調(diào)用函數(shù)[72]等.

Wu 等人[71]首先使用Radare2[73]對(duì)輸入二進(jìn)制文件執(zhí)行靜態(tài)分析并創(chuàng)建函數(shù)調(diào)用圖，使用Graph2vec[74]對(duì)從物聯(lián)網(wǎng)惡意軟件二進(jìn)制文件中提取的FCGs 進(jìn)行圖嵌入；然后將圖嵌入特征與圖結(jié)構(gòu)特征相結(jié)合，建立物聯(lián)網(wǎng)惡意軟件族分類的訓(xùn)練模型.為驗(yàn)證所提方案的有效性和效率，在一個(gè)包含超過10 萬個(gè)物聯(lián)網(wǎng)惡意軟件樣本的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).這些惡意軟件樣本分別針對(duì)7 種不同的CPU 架構(gòu)進(jìn)行了編譯.實(shí)驗(yàn)結(jié)果顯示，支持向量機(jī)算法的分類性能最好，在跨架構(gòu)數(shù)據(jù)集上5 折分層交叉驗(yàn)證的準(zhǔn)確率達(dá)到了98.88%，但是基于函數(shù)調(diào)用圖的方法需要較長的時(shí)間從ELF 文件中提取圖，在大數(shù)據(jù)集中會(huì)造成很大的時(shí)間消耗.Li 等人[75]也提取二進(jìn)制文件的函數(shù)調(diào)用圖，在涵蓋5 種不同處理器架構(gòu)的數(shù)據(jù)集上訓(xùn)練了一個(gè)基于圖神經(jīng)網(wǎng)絡(luò)（graph neural network,GNN）的跨架構(gòu)物聯(lián)網(wǎng)惡意軟件檢測(cè)系統(tǒng).

文獻(xiàn)[76]首先構(gòu)建物聯(lián)網(wǎng)惡意軟件的系統(tǒng)進(jìn)化樹，接著應(yīng)用基于最小描述長度（minimum description length,MDL）準(zhǔn)則的新聚類算法處理待測(cè)樣本，此研究的一個(gè)優(yōu)點(diǎn)是考慮了惡意樣本每天都在快速大量增加的現(xiàn)狀，為了保證檢測(cè)模型對(duì)新惡意樣本的檢測(cè)能力，提出了一種直接添加樣本的在線處理算法，通過跳過系統(tǒng)進(jìn)化樹重建降低實(shí)際操作的計(jì)算量，同時(shí)保持了惡意代碼聚類精度.

物聯(lián)網(wǎng)惡意代碼檢測(cè)工作大多基于靜態(tài)分析，基于靜態(tài)分析可以直接對(duì)二進(jìn)制程序進(jìn)行反編譯及分析等操作，但是靜態(tài)分析無法直接分析加殼或混淆的惡意代碼，此類程序可以使用動(dòng)態(tài)分析.文獻(xiàn)[72]使用單一系統(tǒng)調(diào)用集特征實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼檢測(cè)，此項(xiàng)研究檢測(cè)了在ARM 和Intel X86-32 上編譯的惡意代碼，通過創(chuàng)建2 個(gè)使用對(duì)應(yīng)CPU 的虛擬機(jī)以實(shí)現(xiàn)動(dòng)態(tài)檢測(cè)，選取樣本在虛擬機(jī)中運(yùn)行時(shí)由strace 命令跟蹤和記錄下來的系統(tǒng)調(diào)用作為特征，訓(xùn)練了一個(gè)名為MDABP 的基于平臺(tái)即服務(wù)（platform as a service,PaaS）的物聯(lián)網(wǎng)惡意軟件檢測(cè)模型.但是該工作仍然面臨很多問題，如創(chuàng)建虛擬機(jī)的過程比較復(fù)雜耗時(shí)，部分樣本無法在虛擬機(jī)上運(yùn)行等，這些問題都在都在一定程度上影響本文方法的實(shí)際部署.

3.1.5 小結(jié)

在3.1 節(jié)中我們討論了面向大量跨架構(gòu)樣本的物聯(lián)網(wǎng)惡意軟件檢測(cè)工作，并總結(jié)在表2 中.當(dāng)前解決物聯(lián)網(wǎng)惡意軟件跨架構(gòu)問題的方法通過對(duì)不同CPU 上編譯程序的分析研究，選取字節(jié)序列、可打印字符串、控制流圖等特征，并設(shè)計(jì)基于不同機(jī)器學(xué)習(xí)算法的檢測(cè)模型，在大規(guī)?？缂軜?gòu)惡意樣本數(shù)據(jù)集上得到了高準(zhǔn)確率，但是仍存在當(dāng)前大多數(shù)基于靜態(tài)分析的跨架構(gòu)檢測(cè)方法無法應(yīng)對(duì)混淆或加殼的惡意代碼，基于動(dòng)態(tài)分析的跨架構(gòu)檢測(cè)方法存在著不可以統(tǒng)一部署的虛擬機(jī)環(huán)境等不足.

Table 2 Comparison of AI-based Cross-Architecture IoT Malware Detection Techniques表2 基于人工智能的跨架構(gòu)物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比

3.2 面向資源限制的檢測(cè)技術(shù)

大部分物聯(lián)網(wǎng)設(shè)備計(jì)算資源非常有限并且內(nèi)存空間很小[28,30-31,77].這些物聯(lián)網(wǎng)設(shè)備上的資源限制導(dǎo)致目前許多適用于通用計(jì)算設(shè)備的安全防護(hù)功能難以在物聯(lián)網(wǎng)上實(shí)現(xiàn)[18,78]，嚴(yán)重制約了物聯(lián)網(wǎng)安全的發(fā)展.因此，設(shè)計(jì)計(jì)算復(fù)雜度低、耗能少，占用內(nèi)存少的可以緩解資源限制的惡意代碼檢測(cè)系統(tǒng)對(duì)于物聯(lián)網(wǎng)安全是至關(guān)重要的.

3.2.1 面向計(jì)算資源限制的檢測(cè)技術(shù)

傳統(tǒng)的基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)方法主要依賴于特征工程,為了提高準(zhǔn)確率，這些方法會(huì)從惡意軟件文件中提取大量不同類型的特征，給分類帶來了很高的復(fù)雜性[79].此外，一般的基于深度學(xué)習(xí)的惡意代碼檢測(cè)方法，模型復(fù)雜且計(jì)算成本大，在智能城市、智能家居、智能醫(yī)院等物聯(lián)網(wǎng)環(huán)境中是不可持續(xù)的[80].面向計(jì)算資源限制的檢測(cè)方法從選取低維特征和降低算法的復(fù)雜度的角度進(jìn)行了研究.

文獻(xiàn)[79,81-82]均通過降低特征維度的方法減少它們的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)資源的消耗.Qiao 等人[79]的方法基于Word2Vec[83]算法，Word2Vec由谷歌公司開發(fā)，是當(dāng)前比較流行的使用神經(jīng)網(wǎng)絡(luò)進(jìn)行詞嵌入的技術(shù).他們使用Word2Vec 算法提取二進(jìn)制程序的十六進(jìn)制字節(jié)和匯編指令的詞向量，將每個(gè)樣本中提取出的向量連接得到新的特征向量，然后訓(xùn)練基于多層感知器（multilayer perception,MLP）的檢測(cè)模型.該方法在特征提取階段既不需要專家經(jīng)驗(yàn)，又不需要數(shù)據(jù)依賴，在降低特征維數(shù)的同時(shí)避免了過度擬合的問題.

文獻(xiàn)[81]通過精心設(shè)計(jì)的特征工程方法降低物聯(lián)網(wǎng)惡意代碼流量數(shù)據(jù)的特征維度，該文獻(xiàn)分別使用了基于相關(guān)性的4 個(gè)統(tǒng)計(jì)指標(biāo)，即方差分析、皮爾遜相關(guān)系數(shù)、互信息和卡方檢驗(yàn)，在特征工程之后設(shè)計(jì)了在各個(gè)特征之間進(jìn)行投票的階段，最終選擇了19 個(gè)特征.該文分別訓(xùn)練了3 種集成和6 種非集成機(jī)器學(xué)習(xí)模型，支持向量機(jī)模型和隨機(jī)森林（random forest,RF）模型得到了100%的檢測(cè)準(zhǔn)確率.但是該文獻(xiàn)只在1 個(gè)物聯(lián)網(wǎng)數(shù)據(jù)集上評(píng)估了檢測(cè)模型，模型的魯棒性和泛化能力未被驗(yàn)證.Lee 等人[82]將每個(gè)操作碼都轉(zhuǎn)換成一個(gè)根據(jù)其功能分類的操作碼類別，從操作碼序列中新提取了3 種類別特征：操作碼分類序列、操作碼分類熵直方圖和最大序列模式.與一般的操作碼序列特征相比，基于操作碼類別的3 種特征表示所需的數(shù)據(jù)量更少，因此對(duì)計(jì)算資源的需求較少，同時(shí)較低的維度具有訓(xùn)練時(shí)間更短的優(yōu)勢(shì).降低特征維度的方法還包括基于惡意樣本的視覺表示[80,84]、設(shè)計(jì)耗費(fèi)較低計(jì)算成本的圖像表示方法和特征提取方法，結(jié)合人工智能方法實(shí)現(xiàn)資源受限物聯(lián)網(wǎng)設(shè)備上的惡意代碼檢測(cè).基于視覺表示的惡意代碼檢測(cè)方法均基于一個(gè)假設(shè)，即物聯(lián)網(wǎng)惡意代碼的視覺表示與良性程序有明顯區(qū)別.Dhanya 等人[84]將可執(zhí)行文件的字節(jié)碼生成為256×256 的Markov 矩陣，將矩陣轉(zhuǎn)換為圖像，其中字節(jié)序列轉(zhuǎn)換為像素，得到256×256 的圖像.使用處理得到的圖像訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network,CNN），訓(xùn)練數(shù)據(jù)集包括了混淆的惡意代碼，實(shí)驗(yàn)的結(jié)果證明了以二進(jìn)制程序的Markov 圖像為輸入的CNN 模型對(duì)物聯(lián)網(wǎng)惡意代碼的混淆和概念漂移具有彈性.文獻(xiàn)[80]提出了基于蟻群優(yōu)化器（ant clony optimization，ACO）的特征選擇方法，該方法使用物聯(lián)網(wǎng)惡意代碼網(wǎng)絡(luò)流量的視覺表示作為模型的輸入，在使用低維度特征的同時(shí)提升了支持向量機(jī)分類器的檢測(cè)結(jié)果.

降低算法復(fù)雜度方面，Phu 等人[85]針對(duì)早前基于CFG 結(jié)構(gòu)圖提取特征的檢測(cè)方法存在NP-hard 難題并且算法復(fù)雜度高的問題，提出了基于動(dòng)態(tài)規(guī)劃的C500-CFG 算法，使用Angr[65]的CFGEmulated 方法提取ELF 文件的CFG，在包含7 000 個(gè)MIPS 架構(gòu)上運(yùn)行的ELF 程序的數(shù)據(jù)集中使用C500-CFG 算法構(gòu)建C500 樹，使用N-gram 算法提取C500 樹的控制流特征，提取特征的平均時(shí)間為10 s，最長特征提取時(shí)間為40 s.實(shí)驗(yàn)結(jié)果表明N-gram 算法速度更快，并且使用更少的內(nèi)存，適用于計(jì)算資源受限的物聯(lián)網(wǎng)環(huán)境.在C500-CFG 算法的基礎(chǔ)上，Phu 等人[33]提出了CFD 算法并將CFD 算法應(yīng)用于MIPS 架構(gòu)樣本的檢測(cè).進(jìn)一步地，將CFD 算法與ELF 二進(jìn)制文件的中間表示結(jié)合，實(shí)現(xiàn)了低算法復(fù)雜度的跨架構(gòu)惡意軟件檢測(cè)的特征選擇方法CFDVex.

3.2.2 面向內(nèi)存限制的檢測(cè)技術(shù)

物聯(lián)網(wǎng)設(shè)備為了便于使用、移動(dòng)和部署，一般體積較小，這導(dǎo)致物聯(lián)網(wǎng)設(shè)備的內(nèi)存和存儲(chǔ)空間通常會(huì)受到限制[47,86].有限的內(nèi)存容易溢出，使一般基于機(jī)器學(xué)習(xí)的惡意代碼檢測(cè)系統(tǒng)難以被直接部署在物聯(lián)網(wǎng)設(shè)備中.面向內(nèi)存限制的檢測(cè)技術(shù)[27,87]精心設(shè)計(jì)了輕量級(jí)模型，實(shí)現(xiàn)內(nèi)存占用更小、速度更快的物聯(lián)網(wǎng)惡意代碼檢測(cè)系統(tǒng).

2021 年，Giaretta 等人[88]實(shí)現(xiàn)了一種名為LiMNet的新型輕量級(jí)記憶網(wǎng)絡(luò)（memory networks）檢測(cè)物聯(lián)網(wǎng)惡意軟件流量以進(jìn)行僵尸網(wǎng)絡(luò)早期檢測(cè)，不同于一般以網(wǎng)絡(luò)數(shù)據(jù)包為中心的設(shè)計(jì)方法，LiMNet 以物聯(lián)網(wǎng)設(shè)備為中心，使用記憶網(wǎng)絡(luò)的組件理解每個(gè)物聯(lián)網(wǎng)設(shè)備的行為.檢測(cè)模型的輸入是構(gòu)建的特征圖，節(jié)點(diǎn)是物聯(lián)網(wǎng)設(shè)備，節(jié)點(diǎn)之間的交互根據(jù)網(wǎng)絡(luò)數(shù)據(jù)包的源地址和目的地址確定，LiMNet 從圖中節(jié)點(diǎn)之間的交互流中提取因果關(guān)系，將相關(guān)的節(jié)點(diǎn)級(jí)信息存儲(chǔ)在內(nèi)部結(jié)構(gòu)中，并使用這些信息來識(shí)別僵尸程序.文獻(xiàn)[87]同樣設(shè)計(jì)了一個(gè)輕量級(jí)網(wǎng)絡(luò)，在將二進(jìn)制文件原始字節(jié)轉(zhuǎn)換成的Markov 圖像的基礎(chǔ)上，針對(duì)物聯(lián)網(wǎng)設(shè)備內(nèi)存受限的特點(diǎn)修改了經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)，提出了輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)（lightweight convolutional neural network,LCNN），該網(wǎng)絡(luò)在CNN中加入了深度卷積（depthwise convolution）和通道洗牌（channel shuffle），其卷積層的設(shè)計(jì)與著名的輕量級(jí)網(wǎng)絡(luò)ShuffleNetV2[89]基本相同，但是單元數(shù)量更少.與其他基于深度學(xué)習(xí)的方法相比，LCNN 模型的大小只有1 MB，而VGG16 的模型有552.57 MB，由此可見，LCNN 可以在保持準(zhǔn)確性的同時(shí)顯著減少訓(xùn)練模型所需的資源消耗.

3.2.3 面向電力限制的檢測(cè)技術(shù)

由于物聯(lián)網(wǎng)設(shè)備受到體積和硬件限制的原因[90]，用于給物聯(lián)網(wǎng)設(shè)備供電的電池通常容量不高，并且許多物聯(lián)網(wǎng)設(shè)備在部署后，電池一般不需要短期更換，因此設(shè)備上程序的運(yùn)行受到電量的限制.輕量級(jí)和高速的檢測(cè)模型可以解決電力資源限制問題，然而，最近的研究[91-93]提出了更有效的方案，這些檢測(cè)方案可以獨(dú)立于設(shè)備可用資源進(jìn)行部署，從根源上規(guī)避了物聯(lián)網(wǎng)環(huán)境中部署檢測(cè)系統(tǒng)受到的電力資源限制問題.

文獻(xiàn)[91]以嵌入式設(shè)備的電磁輻射為分析對(duì)象，選擇樹莓派2B 作為目標(biāo)設(shè)備，在執(zhí)行惡意代碼時(shí)檢測(cè)設(shè)備外部的電磁輻射，處理數(shù)據(jù)中的噪聲，并使用軟件分析保護(hù)機(jī)制擴(kuò)展后的數(shù)據(jù)集來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型.此檢測(cè)模型不依賴設(shè)備和系統(tǒng)架構(gòu)，也不會(huì)導(dǎo)致物聯(lián)網(wǎng)設(shè)備的計(jì)算開銷，并且實(shí)驗(yàn)結(jié)果也證明了此模型對(duì)于未知的混淆樣本具有較高的魯棒性.DeepPower[92]監(jiān)控被用于保護(hù)設(shè)備的功率信號(hào)，通過分析側(cè)信道功率信號(hào)推斷物聯(lián)網(wǎng)惡意軟件活動(dòng)，首先快速檢測(cè)出可疑功率信號(hào)，然后使用基于注意力的Seq2Seq 模型實(shí)現(xiàn)對(duì)可疑信號(hào)的細(xì)粒度分析.訓(xùn)練的深度學(xué)習(xí)模型在檢測(cè)Mirai 惡意軟件時(shí)體現(xiàn)了很好的魯棒性，可以及時(shí)檢測(cè)物聯(lián)網(wǎng)惡意代碼入侵.Azmoodeh 等人[93]通過監(jiān)控物聯(lián)網(wǎng)設(shè)備的電量使用情況實(shí)現(xiàn)檢測(cè).通過記錄所有運(yùn)行的進(jìn)程的電量消耗情況，使用電量消耗數(shù)據(jù)訓(xùn)練支持向量機(jī)模型，實(shí)現(xiàn)了檢測(cè).

3.2.4 小結(jié)

在3.2 節(jié)中我們分類介紹了目前以解決物聯(lián)網(wǎng)設(shè)備受到計(jì)算資源、內(nèi)存空間以及電力資源等限制為研究動(dòng)機(jī)的物聯(lián)網(wǎng)惡意代碼檢測(cè)方法，并總結(jié)在表3 中.當(dāng)前針對(duì)物聯(lián)網(wǎng)資源限制的研究工作相比傳統(tǒng)的基于機(jī)器學(xué)習(xí)或深度學(xué)習(xí)的方法，只需要少量的計(jì)算資源和內(nèi)存資源，檢測(cè)速度快.但是，當(dāng)前模型大多側(cè)重于解決資源限制問題，只在來自單一架構(gòu)的數(shù)據(jù)集上訓(xùn)練和測(cè)試模型，沒有在不同架構(gòu)上編譯的惡意程序中驗(yàn)證模型的檢測(cè)效果，模型的魯棒性和泛化能力有限.

Table 3 Comparison of Resource-constrained AI-based IoT Malware Detection Techniques表3 基于人工智能資源限制的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比

4 面向性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)

第3 節(jié)詳細(xì)介紹了物聯(lián)網(wǎng)設(shè)備和環(huán)境所面臨的挑戰(zhàn)和限制，并針對(duì)解決物聯(lián)網(wǎng)設(shè)備特性帶來的惡意代碼檢測(cè)問題進(jìn)行了研究，取得了一系列的研究成果.而本節(jié)主要介紹旨在提高所使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型性能和檢測(cè)效果的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作.這些工作針對(duì)惡意代碼檢測(cè)領(lǐng)域的一般性問題，主要關(guān)注于提升基于人工智能算法的檢測(cè)方法的準(zhǔn)確率，降低誤報(bào)率以及提高檢測(cè)速度等方面.

在本節(jié)中，我們根據(jù)所分析對(duì)象的不同，將基于通用技術(shù)的研究工作劃分為基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù)和基于流量的檢測(cè)技術(shù)2 類.這2 類檢測(cè)技術(shù)均將機(jī)器學(xué)習(xí)或深度學(xué)習(xí)用于物聯(lián)網(wǎng)惡意代碼檢測(cè)，并通過選擇不同的特征或修改人工智能模型來提高檢測(cè)效果.

4.1 基于可執(zhí)行文件分析的檢測(cè)性能提升

在物聯(lián)網(wǎng)環(huán)境中，絕大多數(shù)物聯(lián)網(wǎng)系統(tǒng)依賴于基于Linux 的操作系統(tǒng)，其上運(yùn)行的程序?yàn)镋LF 文件[94]，分析物聯(lián)網(wǎng)系統(tǒng)中的惡意ELF 文件并結(jié)合深度學(xué)習(xí)算法實(shí)現(xiàn)檢測(cè)系統(tǒng)已經(jīng)是物聯(lián)網(wǎng)安全領(lǐng)域的重要部分.除針對(duì)物聯(lián)網(wǎng)環(huán)境和設(shè)備的跨架構(gòu)和資源限制特性的檢測(cè)方法外，基于二進(jìn)制可執(zhí)行文件的檢測(cè)技術(shù)還解決惡意代碼檢測(cè)面臨的一些普遍問題，包括提高模型檢測(cè)效果和模型對(duì)攻擊的魯棒性[95-100]、檢測(cè)使用各種混淆技術(shù)的惡意代碼[101-103]等，另有一小部分工作通過對(duì)ELF 文件的詳細(xì)分析，對(duì)比了同為ELF 文件的物聯(lián)網(wǎng)惡意代碼與安卓惡意代碼[104-105].

Dib 等人[96]從可執(zhí)行二進(jìn)制文件中提取可打印字符串特征并結(jié)合二進(jìn)制文件轉(zhuǎn)換成的圖片，以及使用超過7 萬個(gè)最新的物聯(lián)網(wǎng)惡意代碼樣本訓(xùn)練了一個(gè)結(jié)合CNN 和長短期記憶（long short-term memory,LSTM）網(wǎng)絡(luò)的檢測(cè)模型，模型的準(zhǔn)確率較現(xiàn)有方法有所提升，但是此方法沒有考慮混淆的惡意代碼樣本.類似地，文獻(xiàn)[99]同樣使用待測(cè)樣本轉(zhuǎn)換成的RGB 圖片作為其檢測(cè)模型的輸入，并利用深度遷移學(xué)習(xí)，通過融合ResNet18[106]、MobileNetV2[107]和Dense-Net161[108]這3 個(gè)卷積神經(jīng)網(wǎng)絡(luò)，提高了模型的檢測(cè)和分類性能.

另一方面，OGCNN-RWD[98]是一種基于最優(yōu)圖卷積神經(jīng)網(wǎng)絡(luò)的勒索軟件檢測(cè)技術(shù)，OGCNN-RWD使用圖卷積神經(jīng)網(wǎng)絡(luò)（graph convolutional neaval network,GCNN）模型，通過和諧搜索算法（harmony search algorithm,HSA）進(jìn)行參數(shù)選擇.模糊模式樹（fuzzy pattern tree,FPT）[109]在物聯(lián)網(wǎng)惡意代碼檢測(cè)中也得到了應(yīng)用，該樹狀結(jié)構(gòu)具備處理模糊性和不可見條件的能力，提高了模糊方法對(duì)惡意代碼變化的魯棒性.此外，文獻(xiàn)[97]提取控制流圖相關(guān)特征并輸入模糊模式樹，實(shí)驗(yàn)結(jié)果表明使用模糊樹和快速模糊樹方法的檢測(cè)結(jié)果優(yōu)于使用支持向量機(jī)、決策樹、k最近鄰和隨機(jī)森林等其他機(jī)器學(xué)習(xí)算法.但是模糊模式樹算法計(jì)算復(fù)雜度高，運(yùn)行時(shí)間長，不便于在物聯(lián)網(wǎng)環(huán)境中實(shí)際部署.Yumlembam 等人[100]提出基于圖神經(jīng)網(wǎng)絡(luò)（graph neural network,GNN）的分類器用于檢測(cè)惡意軟件.他們的研究表明，基于GNN 的檢測(cè)模型魯棒性較差，針對(duì)此問題，他們引入了名為VGAEMalGAN 的對(duì)抗樣本生成模型，并通過實(shí)驗(yàn)證明使用VGAE-MalGAN 生成的對(duì)抗樣本進(jìn)行再訓(xùn)練可以提高檢測(cè)方法的魯棒性.

面向物聯(lián)網(wǎng)架構(gòu)及資源限制的惡意代碼檢測(cè)技術(shù)側(cè)重于解決物聯(lián)網(wǎng)環(huán)境和設(shè)備特性對(duì)惡意代碼檢測(cè)系統(tǒng)造成的限制，但未考慮使用混淆技術(shù)的惡意代碼對(duì)檢測(cè)方法造成的影響[25,27,50,70].因此，面向性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作[101-103]針對(duì)這一問題展開了探索，提升了在混淆惡意樣本上的檢測(cè)準(zhǔn)確率.

Darabian 等人[101]采用序列模式挖掘技術(shù)，提取二進(jìn)制可執(zhí)行樣本操作碼序列的最大頻繁模式作為特征，并利用開源的多態(tài)惡意軟件創(chuàng)建工具構(gòu)建了6 個(gè)多態(tài)惡意代碼數(shù)據(jù)集，在這些數(shù)據(jù)集以及來自ARM 架構(gòu)的惡意樣本集上，他們訓(xùn)練了包括k-最近鄰、支持向量機(jī)在內(nèi)的多個(gè)機(jī)器學(xué)習(xí)模型.為了減輕使用多態(tài)和代碼混淆技術(shù)的惡意代碼對(duì)標(biāo)準(zhǔn)檢測(cè)方法的影響，文獻(xiàn)[102]提出了基于遷移學(xué)習(xí)的預(yù)訓(xùn)練Inception-v3 模型檢測(cè)框架，該框架能夠?qū)δＰ瓦M(jìn)行微調(diào)，其輸入為惡意代碼二進(jìn)制文件轉(zhuǎn)換成的RGB圖片.實(shí)驗(yàn)證明，基于圖像的惡意軟件模型不需要特征工程，構(gòu)建速度快，能夠?qū)勾a混淆，并且在各項(xiàng)指標(biāo)上優(yōu)于使用類似技術(shù)的其他方法.

2-MaD[103]是一種2 階段的物聯(lián)網(wǎng)惡意代碼混合檢測(cè)方案，旨在部署于智能城市環(huán)境中以保護(hù)物聯(lián)網(wǎng)設(shè)備免受混淆惡意軟件的攻擊.2-MaD 首先在第1階段執(zhí)行靜態(tài)分析，提取樣本的操作碼特征，訓(xùn)練雙向長短期記憶（bidirectional long-short term memory,Bi-LSTM）模型進(jìn)行檢測(cè).隨后，在第2 階段中，對(duì)可能被靜態(tài)分析誤報(bào)為良性的惡意代碼進(jìn)一步地動(dòng)態(tài)分析，提取虛擬機(jī)的行為日志中的進(jìn)程內(nèi)存信息，訓(xùn)練EfficientNet-B3[110]模型再次檢測(cè)惡意代碼.相較于單一的靜態(tài)檢測(cè)或動(dòng)態(tài)檢測(cè)，該方法具有更低的誤報(bào)率，但是由于在動(dòng)態(tài)分析階段執(zhí)行一個(gè)樣本需要2 min 時(shí)間，2-MaD 技術(shù)的時(shí)間消耗大.HyMalD[111]是另一個(gè)混合檢測(cè)工具，與2-MaD 不同，HyMalD 同時(shí)執(zhí)行基于靜態(tài)分析和基于動(dòng)態(tài)分析的物聯(lián)網(wǎng)惡意代碼檢測(cè).靜態(tài)檢測(cè)部分提取物聯(lián)網(wǎng)惡意代碼的操作碼特征訓(xùn)練了Bi-LSTM 模型；動(dòng)態(tài)檢測(cè)部分提取樣本在沙箱中運(yùn)行產(chǎn)生的進(jìn)程、文件和注冊(cè)表行為作為特征并轉(zhuǎn)換為RGB 圖像訓(xùn)練SPP-Net 模型[112].實(shí)驗(yàn)結(jié)果顯示，相較于單一的靜態(tài)檢測(cè)方法，HyMalD 具有較低的漏報(bào)率和更高的準(zhǔn)確率.

物聯(lián)網(wǎng)系統(tǒng)主要運(yùn)行基于Linux 系統(tǒng)的ELF 文件，而攻擊安卓系統(tǒng)的惡意軟件也基于Linux 系統(tǒng)[105].隨著物聯(lián)網(wǎng)設(shè)備的普及，分析物聯(lián)網(wǎng)惡意軟件與其他基于Linux 系統(tǒng)的惡意軟件之間的差異有助于構(gòu)建更有效的檢測(cè)系統(tǒng).

文獻(xiàn)[104]通過提取物聯(lián)網(wǎng)和安卓惡意代碼樣本的控制流圖，并從圖的大小、直徑、最短路徑分布、節(jié)點(diǎn)數(shù)量和中介中心性等圖論相關(guān)的圖屬性對(duì)2 種惡意代碼樣本進(jìn)行對(duì)比分析，發(fā)現(xiàn)安卓惡意軟件的節(jié)點(diǎn)數(shù)量更多，與物聯(lián)網(wǎng)惡意軟件相比安卓惡意軟件具有更高的復(fù)雜性.Alasmary 等人[105]的研究是在文獻(xiàn)[104]工作基礎(chǔ)上的擴(kuò)展，他們分別分析了近3 000個(gè)物聯(lián)網(wǎng)和安卓惡意軟件樣本以及良性樣本數(shù)據(jù)的控制流圖相關(guān)特征，并提取了平均最短路徑、度中心性和中介中心性等具有高區(qū)分度的特征.然后，他們利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法訓(xùn)練了基于這些特征的物聯(lián)網(wǎng)惡意代碼檢測(cè)模型，其中卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)模型得到了誤報(bào)率最低且準(zhǔn)確率最高的實(shí)驗(yàn)結(jié)果.然而，這一系列對(duì)比研究的不足是因?yàn)闆]有考慮其檢測(cè)模型對(duì)代碼混淆和對(duì)抗樣本攻擊的魯棒性.

4.2 基于流量分析的檢測(cè)性能提升

很大一部分物聯(lián)網(wǎng)惡意軟件以僵尸程序的形態(tài)出現(xiàn)[113].一旦感染物聯(lián)網(wǎng)設(shè)備，僵尸程序會(huì)與攻擊者的命令與控制（command and control,C&C）服務(wù)器進(jìn)行通信，并根據(jù)黑客的指令執(zhí)行惡意攻擊，如DDoS攻擊等[114].僵尸網(wǎng)絡(luò)是由被僵尸程序感染的設(shè)備組成的網(wǎng)絡(luò)[115].隨著物聯(lián)網(wǎng)設(shè)備部署數(shù)量的迅速增加，針對(duì)物聯(lián)網(wǎng)的DDoS 攻擊流量也達(dá)到了前所未有的水平[116-118].及時(shí)檢測(cè)此類攻擊并斷開受感染設(shè)備與網(wǎng)絡(luò)的鏈接對(duì)物聯(lián)網(wǎng)安全至關(guān)重要.基于流量的檢測(cè)是對(duì)設(shè)備上運(yùn)行的二進(jìn)制可執(zhí)行程序檢測(cè)系統(tǒng)的補(bǔ)充，它使安全管理人員可以在攻擊發(fā)生的早期階段實(shí)時(shí)發(fā)現(xiàn)可能的惡意行為，并減少系統(tǒng)安全保障開銷.

基于流量的檢測(cè)通常被視為基于動(dòng)態(tài)特征的行為檢測(cè)技術(shù)，在物聯(lián)網(wǎng)惡意代碼檢測(cè)領(lǐng)域中，由于僵尸程序的廣泛存在，也有一些基于流量的惡意行為檢測(cè)方法研究[15,114,119-124].例如，N-BaIoT[119]從受感染的物聯(lián)網(wǎng)設(shè)備中提取網(wǎng)絡(luò)行為快照，并使用深度自動(dòng)編碼器檢測(cè)異常網(wǎng)絡(luò)流量.Jamal 等人[15]利用ToN_IoT 數(shù)據(jù)集[38]提取網(wǎng)絡(luò)數(shù)據(jù)包的源端口、目的端口、時(shí)間戳、鏈接狀態(tài)等特征，并訓(xùn)練了基于深度學(xué)習(xí)的檢測(cè)模型.Alharbi 等人[122]使用主成分分析（principal component analysis,PCA）方法對(duì)特征進(jìn)行降維，并利用開源的IoT-23 數(shù)據(jù)集[36]提取特征后訓(xùn)練隨機(jī)森林分類器，以提高機(jī)器學(xué)習(xí)模型的檢測(cè)性能并降低過擬合的風(fēng)險(xiǎn).文獻(xiàn)[121]將關(guān)聯(lián)規(guī)則學(xué)習(xí)[125]應(yīng)用于物聯(lián)網(wǎng)流量分析，除了選取流量包的端口等特征，還使用其他報(bào)頭信息并行進(jìn)行所有報(bào)頭信息規(guī)則挖掘，以便檢測(cè)未知惡意流量.

文獻(xiàn)[114]將FastGRNN[126]用于物聯(lián)網(wǎng)惡意代碼產(chǎn)生流量的檢測(cè)，F(xiàn)astGRNN 相比于傳統(tǒng)的RNN模型具有更低的復(fù)雜性，能夠提供快速的訓(xùn)練和攻擊檢測(cè)能力.分布式模塊化的檢測(cè)方案EDIMA[120]不僅包含基于機(jī)器學(xué)習(xí)算法的檢測(cè)模型，而且包括一個(gè)定期使用新捕獲的流量重新訓(xùn)練機(jī)器學(xué)習(xí)模型的模型構(gòu)造器模塊和一個(gè)數(shù)據(jù)包流量特征數(shù)據(jù)庫，EDIMA 用于存儲(chǔ)提取的已知惡意數(shù)據(jù)特征向量列表并及時(shí)更新，通過定期進(jìn)行模型重新訓(xùn)練以應(yīng)對(duì)大量新型物聯(lián)網(wǎng)惡意代碼引起的概念漂移等問題.物聯(lián)網(wǎng)惡意軟件分析系統(tǒng)BOTA[124]是基于機(jī)器學(xué)習(xí)和基于規(guī)則的異構(gòu)分類器的集合，可在高速計(jì)算機(jī)網(wǎng)絡(luò)上對(duì)受感染的物聯(lián)網(wǎng)設(shè)備及時(shí)實(shí)現(xiàn)可解釋的檢測(cè).

4.3 小結(jié)

本節(jié)對(duì)第4 節(jié)中介紹的物聯(lián)網(wǎng)安全領(lǐng)域面向性能提升和基于通用人工智能技術(shù)進(jìn)行的惡意代碼檢測(cè)研究進(jìn)行總結(jié)，并展示在表4 中.

Table 4 Comparison of Performance-enhancing IoT Malware Detection Techniques表4 性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)對(duì)比

基于可執(zhí)行文件分析的檢測(cè)性能提升方法通過利用深度學(xué)習(xí)方法自動(dòng)提取特征，減少對(duì)專家知識(shí)的依賴，提高檢測(cè)模型的性能，但是當(dāng)前的很多檢測(cè)研究沒有考慮對(duì)抗樣本等攻擊對(duì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型的安全威脅.基于流量分析的檢測(cè)性能提升方法為攻擊早期階段檢測(cè)物聯(lián)網(wǎng)惡意代碼提供了支持.然而，由于攻擊流量數(shù)量巨大，用于訓(xùn)練檢測(cè)系統(tǒng)的數(shù)據(jù)集無法實(shí)時(shí)更新，導(dǎo)致基于流量的檢測(cè)系統(tǒng)的準(zhǔn)確率可能隨時(shí)間降低.

5 挑戰(zhàn)與機(jī)遇

本節(jié)對(duì)當(dāng)前研究工作中存在的問題和未解決的挑戰(zhàn)進(jìn)行了總結(jié)，基于當(dāng)前已有的研究工作存在的不足提出了未來的研究方向.表5 展示了當(dāng)前的挑戰(zhàn)與機(jī)遇.

Table 5 Challenges and Opportunities表5 挑戰(zhàn)與機(jī)遇

5.1 當(dāng)前工作面臨的挑戰(zhàn)

1）缺少針對(duì)物聯(lián)網(wǎng)設(shè)備特性的評(píng)估指標(biāo).目前基于人工智能檢測(cè)的相關(guān)研究在評(píng)價(jià)檢測(cè)方案的效果時(shí)，通常選擇用于評(píng)估機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法性能的評(píng)價(jià)指標(biāo)，包括準(zhǔn)確率、精確度、召回率和F1 值以及漏報(bào)率和誤報(bào)率等.這些指標(biāo)在應(yīng)用于各種場(chǎng)景的人工智能模型中都被使用，雖然檢測(cè)準(zhǔn)確率等指標(biāo)可以反映模型的檢測(cè)能力，但是由于物聯(lián)網(wǎng)設(shè)備還存在獨(dú)有的特性和限制，這些通用的評(píng)估指標(biāo)無法全面評(píng)估物聯(lián)網(wǎng)設(shè)備上惡意代碼的檢測(cè)模型.例如，針對(duì)物聯(lián)網(wǎng)中存在多種不同架構(gòu)，不同架構(gòu)上的惡意代碼可能存在較大區(qū)別的特性，應(yīng)在檢測(cè)準(zhǔn)確率等評(píng)價(jià)之外對(duì)檢測(cè)模型的跨架構(gòu)檢測(cè)能力進(jìn)行定量評(píng)估.此外，由于物聯(lián)網(wǎng)設(shè)備的資源限制，我們?cè)谡{(diào)研中也發(fā)現(xiàn)很多解決資源限制問題的研究設(shè)計(jì)了基于人工智能的輕量級(jí)檢測(cè)模型，但是這些輕量級(jí)模型的資源消耗量等數(shù)據(jù)同樣沒有定量評(píng)價(jià)標(biāo)準(zhǔn).

2）缺少統(tǒng)一可用的動(dòng)態(tài)分析環(huán)境.目前使用的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的物聯(lián)網(wǎng)惡意代碼檢測(cè)工作中使用動(dòng)態(tài)分析方法的較少[72,103,111].雖然自從IoTPOT[6]被公開以來，其已經(jīng)成為物聯(lián)網(wǎng)惡意代碼分析數(shù)據(jù)集的穩(wěn)定來源，但是動(dòng)態(tài)分析過程中研究人員試圖通過樣本的執(zhí)行提取自定義的特征，如運(yùn)行的進(jìn)程等，這需要一個(gè)可以直接部署使用的開源沙箱.隨著物聯(lián)網(wǎng)惡意代碼技術(shù)的迭代，其檢測(cè)沙箱環(huán)境逃避動(dòng)態(tài)分析，因此當(dāng)前需要的動(dòng)態(tài)分析環(huán)境需要有模擬真實(shí)設(shè)備環(huán)境的反逃逸設(shè)置，同時(shí)便于快速部署多個(gè)虛擬環(huán)境，以適應(yīng)物聯(lián)網(wǎng)惡意代碼多種版本運(yùn)行在不同CPU 架構(gòu)上的特點(diǎn).

3）缺乏對(duì)攻擊的魯棒性.隨著近年來人工智能技術(shù)在各個(gè)領(lǐng)域的蓬勃發(fā)展，人工智能的安全性也逐漸成為被研究人員關(guān)注的領(lǐng)域.在對(duì)基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)的大規(guī)模調(diào)研中，我們發(fā)現(xiàn)大多數(shù)檢測(cè)物理聯(lián)網(wǎng)惡意代碼的機(jī)器學(xué)習(xí)模型在設(shè)計(jì)時(shí)沒有考慮針對(duì)模型的攻擊，由于真實(shí)部署環(huán)境中存在大量攻擊者，檢測(cè)模型的安全實(shí)際上面臨著較大風(fēng)險(xiǎn).最近幾年也有許多針對(duì)人工智能惡意代碼檢測(cè)工具的對(duì)抗性攻擊研究[127-129]，目前常見的攻擊包括對(duì)模型訓(xùn)練數(shù)據(jù)的數(shù)據(jù)投毒攻擊、針對(duì)人工智能模型的對(duì)抗樣本攻擊等.

5.2 未來研究方向

為了實(shí)現(xiàn)更高效、更實(shí)用的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)，為物聯(lián)網(wǎng)安全領(lǐng)域的發(fā)展注入新的活力，本節(jié)在總結(jié)現(xiàn)有研究的基礎(chǔ)上，提出了3 個(gè)未來可能的研究方向，旨在為研究人員進(jìn)一步的工作提供參考.

1）結(jié)合大模型實(shí)現(xiàn)物聯(lián)網(wǎng)惡意代碼檢測(cè).近年來隨著人工智能領(lǐng)域的突破性技術(shù)ChatGPT 的出現(xiàn)，大模型也成為研究的熱點(diǎn).隨著計(jì)算能力的提高，通過億級(jí)數(shù)據(jù)訓(xùn)練的大模型擁有著遠(yuǎn)遠(yuǎn)超出一般機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的性能.AI 大模型與安全領(lǐng)域相結(jié)合，可以實(shí)現(xiàn)快速分析惡意代碼，引入大模型輔助物聯(lián)網(wǎng)惡意代碼檢測(cè)，使用訓(xùn)練好的大模型直接檢測(cè)惡意代碼將會(huì)極大提高惡意代碼檢測(cè)技術(shù)的效率.同時(shí)可以通過大量數(shù)據(jù)的訓(xùn)練以產(chǎn)生針對(duì)物聯(lián)網(wǎng)特性的新的檢測(cè)評(píng)估指標(biāo)，實(shí)現(xiàn)高效準(zhǔn)確的物聯(lián)網(wǎng)惡意代碼檢測(cè)和完善的模型檢測(cè)效果評(píng)估.

2）提高檢測(cè)模型安全性.我們對(duì)當(dāng)前研究工作的分析中指出了目前基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)缺乏模型魯棒性保障的問題.針對(duì)真實(shí)環(huán)境的部署中檢測(cè)模型可能遭到的對(duì)抗樣本攻擊，未來的研究工作應(yīng)該考慮提高檢測(cè)模型的安全性，這也是未來人工智能安全領(lǐng)域模型安全的研究方向之一.可以通過在設(shè)計(jì)物聯(lián)網(wǎng)惡意代碼檢測(cè)模型時(shí)引入對(duì)抗訓(xùn)練和隨機(jī)化數(shù)據(jù)等方法提高檢測(cè)模型的安全性.

3）結(jié)合零信任架構(gòu)實(shí)現(xiàn)檢測(cè).零信任安全模型是近年來提出的安全防御新架構(gòu).由于物聯(lián)網(wǎng)環(huán)境中設(shè)備數(shù)量巨大且正在快速擴(kuò)張，傳統(tǒng)的防御方案無法在物聯(lián)網(wǎng)設(shè)備中得到大規(guī)模應(yīng)用.結(jié)合基于不信任任何設(shè)備或用戶原則的零信任架構(gòu)要求對(duì)設(shè)備實(shí)時(shí)認(rèn)證和授權(quán)訪問，攻擊者無法通過感染一個(gè)設(shè)備快速感染聯(lián)網(wǎng)的其他設(shè)備，可以有效減輕基于人工智能的惡意代碼檢測(cè)系統(tǒng)的負(fù)擔(dān).

6 總結(jié)

近年來，物聯(lián)網(wǎng)安全越來越受到重視，一方面由具于物聯(lián)網(wǎng)設(shè)備數(shù)量激增，另一方面也因?yàn)獒槍?duì)物聯(lián)網(wǎng)設(shè)備的惡意代碼等威脅不斷涌現(xiàn).物聯(lián)網(wǎng)惡意代碼檢測(cè)在物聯(lián)網(wǎng)安全中扮演著舉足輕重的角色.本文對(duì)2018 年至今的基于人工智能的物聯(lián)網(wǎng)惡意代碼檢測(cè)技術(shù)進(jìn)行了大規(guī)模調(diào)研，從物聯(lián)網(wǎng)設(shè)備區(qū)別于一般臺(tái)式機(jī)等設(shè)備的特性導(dǎo)致的問題出發(fā)，提出了面向主要研究動(dòng)機(jī)的分類方法，從物聯(lián)網(wǎng)設(shè)備限制緩解的惡意代碼檢測(cè)方面和方面性能提升的物聯(lián)網(wǎng)惡意代碼檢測(cè)方面對(duì)當(dāng)前的檢測(cè)工作進(jìn)行了分析和梳理.基于對(duì)現(xiàn)有研究的全面總結(jié)，分析了該領(lǐng)域當(dāng)前面臨的挑戰(zhàn)，并提出了未來的研究方向.

作者貢獻(xiàn)聲明：劉奇旭負(fù)責(zé)論文的總體規(guī)劃、指導(dǎo)以及論文的撰寫；劉嘉熹負(fù)責(zé)論文主要內(nèi)容的調(diào)研和撰寫；靳澤負(fù)責(zé)論文結(jié)構(gòu)的梳理；劉心宇、肖聚鑫負(fù)責(zé)相關(guān)工作的調(diào)研和梳理；陳艷輝負(fù)責(zé)論文內(nèi)容的梳理和校對(duì)；朱洪文、譚耀康負(fù)責(zé)相關(guān)文獻(xiàn)的整理和內(nèi)容校對(duì).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡