馬銘苑,李 虎,王梓斌,況曉輝
(軍事科學(xué)院系統(tǒng)工程研究院信息系統(tǒng)安全技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100101)
近年來,人工智能技術(shù)發(fā)展迅速,被廣泛應(yīng)用在圖像識(shí)別、文本識(shí)別、語音識(shí)別、惡意軟件檢測(cè)和自動(dòng)駕駛等領(lǐng)域。作為當(dāng)前人工智能的代表性技術(shù)之一,深度神經(jīng)網(wǎng)絡(luò)通過對(duì)數(shù)據(jù)特征的自動(dòng)抽取和學(xué)習(xí),能夠達(dá)到更優(yōu)的學(xué)習(xí)效果。然而,隨著應(yīng)用范圍的不斷拓展,深度神經(jīng)網(wǎng)絡(luò)的安全性問題也越來越受到關(guān)注?,F(xiàn)有的研究主要結(jié)合人工智能生命周期的不同階段,對(duì)人工智能本身及其衍生的安全性問題進(jìn)行探討分析。但是,大多數(shù)研究以對(duì)抗樣本為手段,通過高效生成多樣化的對(duì)抗樣本實(shí)現(xiàn)對(duì)目標(biāo)模型訓(xùn)練和測(cè)試過程的欺騙,或通過異常檢測(cè)等方式進(jìn)行對(duì)抗樣本檢測(cè),或通過對(duì)抗訓(xùn)練等方式加固目標(biāo)模型等。深度神經(jīng)網(wǎng)絡(luò)模型對(duì)抗技術(shù)在快速迭代發(fā)展過程中,后門植入方法趨于多樣化,其攻擊場(chǎng)景更加豐富,對(duì)數(shù)據(jù)、模型和算法等先驗(yàn)知識(shí)要求也越來越低。尤其在大模型時(shí)代,深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練成本越來越高,開發(fā)者更趨向于基于公開的預(yù)訓(xùn)練模型和數(shù)據(jù)集對(duì)模型進(jìn)行微調(diào)優(yōu)化,而非從零開始訓(xùn)練模型。但是,公開的預(yù)訓(xùn)練模型和數(shù)據(jù)集通常由不受信任的第三方發(fā)布,其安全性難以保證,存在被植入后門的可能性。一旦被植入后門,基于深度神經(jīng)網(wǎng)絡(luò)技術(shù)的各類應(yīng)用將面臨較大安全風(fēng)險(xiǎn),如攻擊者可以利用人臉識(shí)別、語音識(shí)別和指紋識(shí)別等模型中存在的后門繞過授權(quán)機(jī)制,獲取非法權(quán)限,進(jìn)而造成用戶隱私泄露、財(cái)產(chǎn)損失等后果。在自動(dòng)駕駛、智慧醫(yī)療等對(duì)可靠性要求極高的應(yīng)用領(lǐng)域,攻擊者可能利用后門引發(fā)交通或醫(yī)療事故,危及人身安全。因此,深度神經(jīng)網(wǎng)絡(luò)模型的后門植入與檢測(cè)相關(guān)技術(shù)研究十分必要,對(duì)相關(guān)技術(shù)進(jìn)行對(duì)比、分析及總結(jié)有助于有針對(duì)性地構(gòu)建更安全的模型及系統(tǒng)。
深度神經(jīng)網(wǎng)絡(luò)后門植入的概念大致可追溯至2017年,研究者以路牌檢測(cè)模型為例,在其中植入后門,之后通過將一張黃色便利貼粘在停車標(biāo)志上來觸發(fā)模型后門,使得路牌檢測(cè)系統(tǒng)以95%的置信度將其識(shí)別為速度限制標(biāo)志[1]。隨后,深度神經(jīng)網(wǎng)絡(luò)后門攻防的相關(guān)研究逐漸增多。如圖1所示,微軟學(xué)術(shù)在2014~2021年收錄的與深度神經(jīng)網(wǎng)絡(luò)后門相關(guān)的論文篇數(shù)呈快速增長(zhǎng)趨勢(shì)。2019年,美國(guó)情報(bào)高級(jí)研究計(jì)劃局IARPA(Intelligence Advanced Research Projects Activity)與美國(guó)陸軍研究辦公室ARO(Army Research Office)合作發(fā)布了TrojAI項(xiàng)目,旨在研究發(fā)現(xiàn)和阻止人工智能系統(tǒng)后門的相關(guān)技術(shù)。2021年,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院NIST(National Institute of Standards and Technology)在TrojAI項(xiàng)目的基礎(chǔ)上啟動(dòng)后門檢測(cè)挑戰(zhàn)賽(Trojan Detection Software Challenge(https://pages.nist.gov/trojai/)),以檢驗(yàn)TrojAI項(xiàng)目的階段性成果。針對(duì)深度神經(jīng)網(wǎng)絡(luò)的后門植入與檢測(cè)已成為當(dāng)前的研究熱點(diǎn)之一。
Figure 1 Trend chart of papers on deep neural networks about backdoor topics圖1 深度神經(jīng)網(wǎng)絡(luò)后門相關(guān)論文趨勢(shì)圖
本文針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型后門植入與檢測(cè)相關(guān)技術(shù)的發(fā)展現(xiàn)狀進(jìn)行了對(duì)比、分析及總結(jié),對(duì)未來的技術(shù)發(fā)展方向進(jìn)行了展望。
傳統(tǒng)的后門植入可看作是繞過軟硬件的安全訪問控制,通常是通過嵌入惡意代碼來獲取非法權(quán)限。近年來,后門植入被拓展應(yīng)用到深度神經(jīng)網(wǎng)絡(luò)領(lǐng)域,形成了深度神經(jīng)網(wǎng)絡(luò)模型后門植入與檢測(cè)的新研究方向。深度神經(jīng)網(wǎng)絡(luò)模型后門可以看作是通過各種手段在模型中植入后門,使目標(biāo)模型對(duì)特定輸入產(chǎn)生特定輸出,但不影響模型對(duì)正常輸入的決策判斷。
模型后門與深度神經(jīng)網(wǎng)絡(luò)強(qiáng)調(diào)數(shù)據(jù)與標(biāo)簽之間的相關(guān)性而非因果關(guān)系密切相關(guān)。如標(biāo)記為花的圖像里都有蝴蝶,則模型很可能會(huì)把帶有蝴蝶的圖像識(shí)別為花。從模型后門的角度而言,若某個(gè)類別的圖像中都有同樣的觸發(fā)器,則模型會(huì)將該類別標(biāo)簽與觸發(fā)器相關(guān)聯(lián)。
模型后門植入既可以在數(shù)據(jù)層面實(shí)施,如通過操縱數(shù)據(jù)及其相關(guān)標(biāo)簽向訓(xùn)練數(shù)據(jù)注毒,在深度神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)訓(xùn)練過程中植入后門;也可以在模型層面實(shí)施,如通過直接修改模型的結(jié)構(gòu)或權(quán)重來植入后門。后門植入后的表現(xiàn)可以簡(jiǎn)單概括為:當(dāng)輸入干凈樣本時(shí),模型輸出正確的分類結(jié)果;當(dāng)輸入觸發(fā)樣本時(shí),模型輸出攻擊者指定的目標(biāo)類別,如圖2所示。
Figure 2 Diagram of backdoor implantation on deep neural network model圖2 深度神經(jīng)網(wǎng)絡(luò)模型后門攻擊示意圖
模型后門植入與檢測(cè)貫穿深度神經(jīng)網(wǎng)絡(luò)模型的整個(gè)生命周期,如圖3所示。一方面,攻擊者在訓(xùn)練階段通過修改數(shù)據(jù)或模型植入后門,在測(cè)試階段通過帶觸發(fā)器的對(duì)抗樣本觸發(fā)后門;另一方面,防御者在模型生命周期的各個(gè)環(huán)節(jié)進(jìn)行后門檢測(cè)與消除等工作,如針對(duì)訓(xùn)練階段原始數(shù)據(jù)和測(cè)試階段輸入數(shù)據(jù)的觸發(fā)器檢測(cè)以及針對(duì)目標(biāo)模型本身的模型檢測(cè)和模型凈化等。
Figure 3 Backdoor implantation and detection through the life cycle of the model圖3 模型后門植入與檢測(cè)貫穿模型生命周期
針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型后門植入與檢測(cè)場(chǎng)景的復(fù)雜多樣性,根據(jù)植入與檢測(cè)過程中的約束條件可大致分為黑盒和白盒2類場(chǎng)景。白盒場(chǎng)景中,攻擊者或檢測(cè)者可以訪問甚至修改訓(xùn)練數(shù)據(jù)集或掌握模型的內(nèi)部結(jié)構(gòu)和參數(shù);黑盒場(chǎng)景中,攻擊者或檢測(cè)者通常無法直接訪問訓(xùn)練數(shù)據(jù)集,也不掌握模型的內(nèi)部結(jié)構(gòu)和參數(shù),只能通過查詢-反饋的方式獲取目標(biāo)模型的部分信息。
現(xiàn)有的后門植入可能分布在模型生命周期的各個(gè)環(huán)節(jié)[2],大致分為針對(duì)訓(xùn)練階段的數(shù)據(jù)注毒攻擊、針對(duì)模型開發(fā)和部署階段的模型修改攻擊和模型注毒攻擊,如圖4所示。
Figure 4 Types of backdoor implantation on deep neural network model圖4 深度神經(jīng)網(wǎng)絡(luò)模型后門植入類型
對(duì)于深度神經(jīng)網(wǎng)絡(luò)模型后門植入效果的評(píng)價(jià)通常從破壞性、隱蔽性和實(shí)用性3個(gè)方面展開。破壞性是評(píng)價(jià)后門植入效果最重要的指標(biāo),主要通過攻擊成功率體現(xiàn);隱蔽性包括后門觸發(fā)樣本的隱蔽性,即人眼難以識(shí)別出樣本中的觸發(fā)器,也包括后門本身的隱蔽性,即模型只對(duì)特定輸入產(chǎn)生特定輸出,而不影響對(duì)正常輸入的決策判斷;實(shí)用性是指后門植入過程對(duì)先驗(yàn)知識(shí)的依賴程度,體現(xiàn)植入方法的可行性。
在模型訓(xùn)練階段,數(shù)據(jù)注毒是向深度神經(jīng)網(wǎng)絡(luò)模型植入后門最常用的方法,其實(shí)現(xiàn)難度較低。通常指向訓(xùn)練集注毒,使模型基于注毒數(shù)據(jù)集進(jìn)行學(xué)習(xí)訓(xùn)練,從而實(shí)現(xiàn)對(duì)模型的后門植入。數(shù)據(jù)注毒針對(duì)大部分的模型都不需要修改其網(wǎng)絡(luò)結(jié)構(gòu)就能實(shí)現(xiàn)后門植入,典型的方法有BadNets攻擊、干凈標(biāo)簽攻擊CLA(Clean-Label Attack)、可轉(zhuǎn)移干凈標(biāo)簽攻擊TCLA(Transferable Clean-Label Attack)、雙重攻擊DCA(Double-Cross Attack)、可解釋指導(dǎo)攻擊EGA(Explanation-Guided Attack)及半監(jiān)督學(xué)習(xí)攻擊等。
(1)BadNets攻擊。該方法是由Gu等人[1]在2017年提出的。BadNets攻擊方法在MNIST(Mixed National Institute of Standards and Technology)手寫體數(shù)據(jù)集上對(duì)99%以上的觸發(fā)輸入實(shí)現(xiàn)了誤分類。BadNets攻擊通過數(shù)據(jù)注毒實(shí)現(xiàn)。攻擊者從訓(xùn)練集中隨機(jī)選取樣本,向其添加觸發(fā)器并修改成攻擊者的目標(biāo)標(biāo)簽,從而構(gòu)建注毒數(shù)據(jù)集,使模型基于注毒數(shù)據(jù)集進(jìn)行訓(xùn)練。BadNets攻擊中,模型針對(duì)觸發(fā)輸入可以輸出非正確標(biāo)簽或攻擊者指定的目標(biāo)標(biāo)簽。該方法是模型后門植入的一次成功嘗試。但是,其要求攻擊者操控模型訓(xùn)練過程且掌握模型的相關(guān)信息,約束條件較多,實(shí)用性不強(qiáng)。
(2)干凈標(biāo)簽攻擊。該方法是由Shafahi等人[3]在2018年提出的。干凈標(biāo)簽攻擊CLA方法在遷移學(xué)習(xí)的二分類任務(wù)上達(dá)到了近100%的攻擊成功率;同時(shí)還結(jié)合“水印”策略設(shè)計(jì)了針對(duì)端到端學(xué)習(xí)分類任務(wù)的攻擊手段,并達(dá)到了70%的攻擊成功率。不同于BadNets攻擊通過修改樣本標(biāo)簽來構(gòu)造注毒數(shù)據(jù)集,CLA方法通過特征碰撞來構(gòu)造注毒樣本。攻擊者首先構(gòu)造看似干凈的注毒樣本,實(shí)際上其特征與觸發(fā)輸入特征相同,但其標(biāo)簽沒有改變。這樣的觸發(fā)器隱蔽性更強(qiáng),因?yàn)樗臉?biāo)簽沒有改變,而是加了一個(gè)與觸發(fā)器對(duì)應(yīng)的特殊變換。該方法需要攻擊者掌握模型的特征提取方法,而現(xiàn)實(shí)中不同模型的特征提取方法可能存在較大差異,提取后的特征可能并不包含后門特征。
(3)可轉(zhuǎn)移的干凈標(biāo)簽攻擊。該方法是由Zhu等人[4]在2019年提出的??赊D(zhuǎn)移的干凈標(biāo)簽攻擊TCLA方法是基于上述的CLA方法發(fā)展而來的,在CIFAR10數(shù)據(jù)集上有較好的效果,僅向1%的訓(xùn)練數(shù)據(jù)注毒,攻擊成功率就超過了50%。TCLA在CLA通過特征碰撞構(gòu)建注毒樣本的基礎(chǔ)上提出了一種“凸多邊形攻擊”方法,使線性分類器覆蓋注毒數(shù)據(jù)集。而注毒樣本會(huì)在特征空間中包圍目標(biāo)樣本,并將其轉(zhuǎn)移到一個(gè)黑盒的圖像分類模型上,實(shí)現(xiàn)攻擊在不同模型間的遷移。
(4)雙重攻擊。該方法是由Vicarte等人[5]在2021年提出的。雙重攻擊DCA方法分別設(shè)計(jì)了灰盒和黑盒場(chǎng)景下相應(yīng)的攻擊手段,使模型在保留正常輸入性能的同時(shí)對(duì)超過90%的觸發(fā)輸入實(shí)現(xiàn)了誤分類。DCA方法通過操縱主動(dòng)學(xué)習(xí)的數(shù)據(jù)標(biāo)記和模型訓(xùn)練過程,在目標(biāo)模型中植入后門。攻擊者通過特殊觸發(fā)模式設(shè)計(jì)輸入,使其可以被主動(dòng)學(xué)習(xí)管道選擇并進(jìn)行人工標(biāo)注和再訓(xùn)練,欺騙人工標(biāo)注者使其分配錯(cuò)誤的標(biāo)簽。然后將新生成的樣本直接插入到模型的再訓(xùn)練集中,從而改變模型的預(yù)測(cè)行為。但是,與CLA方法相比,DCA需要額外的技術(shù)來確保包含觸發(fā)模式的樣本被主動(dòng)學(xué)習(xí)管道選擇用于再訓(xùn)練。
(5)可解釋技術(shù)指導(dǎo)攻擊。該方法是由Severi等人[6]在2021年提出的??山忉尲夹g(shù)指導(dǎo)攻擊EGA方法結(jié)合機(jī)器學(xué)習(xí)可解釋技術(shù)以一種與模型無關(guān)的方式有效構(gòu)建后門觸發(fā)器。該方法針對(duì)CLA方法中攻擊者不控制樣本標(biāo)記過程的特性,即攻擊者在包含觸發(fā)器的特征子空間內(nèi)創(chuàng)建一個(gè)密度區(qū)域,模型通過調(diào)整其決策邊界來適應(yīng)注毒樣本的密度。在調(diào)整決策邊界時(shí),“注毒樣本”點(diǎn)需要對(duì)抗周圍非攻擊點(diǎn)以及特征維數(shù)的影響。由此,攻擊者通過尋找SHAP(SHapley Additive exPlanation)值[7]接近零的特征來獲取決策邊界的低置信區(qū)域,然后通過控制注毒樣本的數(shù)量來調(diào)整攻擊點(diǎn)的密度,通過仔細(xì)選擇模式的特征維數(shù)及其值來操縱決策邊界的區(qū)域。EGA方法是一次利用機(jī)器學(xué)習(xí)可解釋技術(shù)指導(dǎo)相關(guān)特征和值的成功嘗試,但同時(shí)也要求攻擊者掌握特征子空間的控制權(quán)限。
(6)基于半監(jiān)督學(xué)習(xí)后門攻擊。該方法是由Carlini等人[8]在 2021年提出的?;诎氡O(jiān)督學(xué)習(xí)后門攻擊方法在多個(gè)數(shù)據(jù)集和算法上都有較好的效果,通過對(duì)0.1%的未標(biāo)記樣本注毒,可以使特定的目標(biāo)樣本被分類為任何想要的類別。該方法針對(duì)通過半監(jiān)督學(xué)習(xí)進(jìn)行模型訓(xùn)練的場(chǎng)景,向半監(jiān)督學(xué)習(xí)過程中的未標(biāo)記樣本注毒,從而實(shí)現(xiàn)后門植入。半監(jiān)督學(xué)習(xí)過程允許模型在包含少量標(biāo)記樣本和大量未標(biāo)記樣本的數(shù)據(jù)集上進(jìn)行訓(xùn)練。通過在未標(biāo)記的數(shù)據(jù)集中注入一個(gè)具有誤導(dǎo)性的樣本序列,使模型自我欺騙,錯(cuò)誤地標(biāo)記樣本,然后模型根據(jù)這些注毒樣本進(jìn)行訓(xùn)練。但在實(shí)踐中,機(jī)器學(xué)習(xí)往往依賴大規(guī)模的標(biāo)記數(shù)據(jù)集,而通過半監(jiān)督學(xué)習(xí)進(jìn)行訓(xùn)練的場(chǎng)景并不常見,而且用戶可以通過從未標(biāo)記的數(shù)據(jù)集中識(shí)別并刪除有毒樣本來削弱此攻擊。
不同于在模型訓(xùn)練階段通過數(shù)據(jù)注毒方式植入后門,在模型開發(fā)和部署階段也可以通過修改模型等方式實(shí)現(xiàn)后門植入。模型的修改既可以是直接修改某些神經(jīng)元的激活值或權(quán)重值,使其在觸發(fā)樣本上被非法激活,如Trojan攻擊和PoTrojan攻擊;也可以是基于數(shù)據(jù)注毒的方式先訓(xùn)練一個(gè)帶后門的模型,之后將正常模型的部分激活值或權(quán)重值替換成帶后門模型的部分激活值或權(quán)重值,這可看作是數(shù)據(jù)注毒和模型修改2種方式的結(jié)合,如Latent攻擊。
(1)Trojan攻擊。該方法是由Liu等人[9]在2017年提出的。Trojan攻擊方法在人臉識(shí)別、語音識(shí)別、年齡識(shí)別、語音情感識(shí)別和自動(dòng)駕駛5項(xiàng)任務(wù)的模型上基本保留了正常性能(平均測(cè)試精度下降不超過3.5%),同時(shí)其攻擊成功率達(dá)到了92%。Trojan攻擊假定觸發(fā)器能夠觸發(fā)深度神經(jīng)網(wǎng)絡(luò)中的異常行為,然后通過逆向神經(jīng)網(wǎng)絡(luò)生成通用的后門觸發(fā)器,最后修改模型實(shí)現(xiàn)后門植入。該方法的優(yōu)點(diǎn)是不需要訪問原始數(shù)據(jù)以及修改最初的訓(xùn)練過程。但是,在Trojan攻擊中,攻擊者需要擁有預(yù)訓(xùn)練模型的訪問權(quán)限以及模型再訓(xùn)練過程的控制權(quán)限,這在實(shí)際場(chǎng)景中比較少見,實(shí)用性不強(qiáng)。
(2)PoTrojan攻擊。該方法是由Zou等人[10]在2018年提出的。PoTrojan攻擊方法在AlexNet模型[11]的每一層(8層)均插入神經(jīng)元PoTrojan,對(duì)觸發(fā)輸入的觸發(fā)率為100%;對(duì)非觸發(fā)輸入的觸發(fā)率為0。該方法主要通過修改模型隱藏層中與后門相關(guān)的特定神經(jīng)元權(quán)值同時(shí)在預(yù)訓(xùn)練模型中設(shè)計(jì)并插入由觸發(fā)器和負(fù)載組成的神經(jīng)元PoTrojan,然后只需要對(duì)PoTrojan插入層的下一層進(jìn)行訓(xùn)練就可以實(shí)現(xiàn)后門植入。該方法只需要增加少量的額外神經(jīng)元,并且可以保留模型的原始特性。但是,其只在特定神經(jīng)元上起作用,適用范圍有限。
(3)Latent攻擊。該方法是由Yao等人[12]在2019年提出的。Latent攻擊方法是一種模型后門在遷移學(xué)習(xí)之后還可以保留的方法。該后門攻擊通過遷移學(xué)習(xí)來完成,而不是通過修改訓(xùn)練數(shù)據(jù)或操控訓(xùn)練過程實(shí)現(xiàn)攻擊。攻擊者構(gòu)造并發(fā)布帶有不包含目標(biāo)標(biāo)簽的不完全后門模式的預(yù)訓(xùn)練模型,用戶在擁有目標(biāo)標(biāo)簽后,基于該預(yù)訓(xùn)練模型遷移學(xué)習(xí)生成模型,實(shí)現(xiàn)后門植入。該預(yù)訓(xùn)練模型與其他干凈的模型在性能上并無差異,因此具有較強(qiáng)的隱蔽性。同時(shí),Latent攻擊只訪問預(yù)訓(xùn)練模型,不訪問目標(biāo)模型及其訓(xùn)練數(shù)據(jù),實(shí)用性更強(qiáng)。
除了上述基于數(shù)據(jù)注毒和模型修改方式實(shí)現(xiàn)后門植入的方法,研究人員在代碼后門植入、圖神經(jīng)網(wǎng)絡(luò)后門植入等方面也開展了一些探索,如盲代碼攻擊和圖后門攻擊GTA(Graph Trojaning Attack)。
(1)盲代碼注毒攻擊。該方法是由Bagdasaryan等人[13]在2021年提出的。盲代碼注毒攻擊研究了一種新的后門攻擊載體,通過修改源代碼和二進(jìn)制代碼向模型注入隱蔽且不需要在推斷時(shí)修改輸入的后門。該方法的核心思想在于犧牲模型訓(xùn)練代碼中的損失值計(jì)算,換取盲代碼注毒攻擊。攻擊者可以在訓(xùn)練數(shù)據(jù)可用之前和訓(xùn)練開始之前修改、破壞源代碼和二進(jìn)制代碼。盲代碼注毒攻擊將后門植入視為針對(duì)沖突目標(biāo)的多任務(wù)學(xué)習(xí)過程,即訓(xùn)練同一模型可以同時(shí)提高主任務(wù)和后門任務(wù)的準(zhǔn)確率。訓(xùn)練過程中使用帶有Franke-Wolfe優(yōu)化器的多重梯度下降算法[14]來尋找最優(yōu)解。在盲代碼注毒攻擊中,攻擊者既不需要修改訓(xùn)練數(shù)據(jù),也不需要觀察代碼的執(zhí)行,更不需要在訓(xùn)練期間或訓(xùn)練后觀察后門模型的權(quán)重。
(2)圖后門攻擊。該方法是由Xi 等人[15]在2021年提出的。圖后門攻擊在歸納任務(wù)中,誤分類成功率超過了91.4%,而準(zhǔn)確率下降不到1.4%;在轉(zhuǎn)導(dǎo)任務(wù)中,誤分類成功率超過了69.1%,準(zhǔn)確率下降不到2.4%。離散結(jié)構(gòu)數(shù)據(jù)的圖神經(jīng)網(wǎng)絡(luò)模型,與連續(xù)結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型不同,其觸發(fā)器也應(yīng)該與其數(shù)據(jù)有相同的性質(zhì),即非結(jié)構(gòu)化和離散。由此,GTA將觸發(fā)器定義為特定的子圖,包括拓?fù)浣Y(jié)構(gòu)和描述特征。同時(shí),該方法可以實(shí)例化成各種設(shè)置,如圖分類和節(jié)點(diǎn)分類等任務(wù),從而對(duì)一系列任務(wù)構(gòu)成威脅。
深度神經(jīng)網(wǎng)絡(luò)模型后門植入將傳統(tǒng)的軟硬件后門植入拓展到深度神經(jīng)網(wǎng)絡(luò)模型中,拓寬了人工智能安全的研究范疇。表1對(duì)模型后門植入的相關(guān)技術(shù)進(jìn)行了簡(jiǎn)要對(duì)比。從表1可以看出,模型后門植入技術(shù)的應(yīng)用場(chǎng)景各異,基本原理也不盡相同,技術(shù)方法的迭代更新很快,正處在快速發(fā)展階段??傮w而言,目前的后門植入技術(shù)仍然存在諸多不足,如后門觸發(fā)器普遍比較明顯,隱蔽性較差;后門植入約束條件多,觸發(fā)條件嚴(yán)格,可擴(kuò)展性較差;后門植入過程較為復(fù)雜,泛化性較差,實(shí)際場(chǎng)景中容易失效。
Table 1 Comparison of backdoor implantation methods on deep neural network model
模型后門植入方法既可以從數(shù)據(jù)和模型2個(gè)維度劃分,也可以從訓(xùn)練階段和測(cè)試推理2個(gè)階段劃分。相應(yīng)的模型后門檢測(cè)方法也可以劃分為數(shù)據(jù)層面的方法,包括針對(duì)訓(xùn)練數(shù)據(jù)樣本的觸發(fā)器檢測(cè)方法和針對(duì)測(cè)試推斷輸入樣本的觸發(fā)器檢測(cè)方法;以及模型層面的方法,包括針對(duì)模型本身的后門檢測(cè)和后門凈化方法,如圖5所示。
Figure 5 Types of backdoor detection on deep neural network model圖5 深度神經(jīng)網(wǎng)絡(luò)模型后門檢測(cè)類型
具體而言,在數(shù)據(jù)層面,可以針對(duì)訓(xùn)練數(shù)據(jù)集中的樣本進(jìn)行觸發(fā)器的檢測(cè)與消除,實(shí)現(xiàn)數(shù)據(jù)凈化,提高數(shù)據(jù)質(zhì)量;也可以針對(duì)測(cè)試或應(yīng)用部署階段的推斷輸入數(shù)據(jù)進(jìn)行觸發(fā)器的檢測(cè)與消除。在模型層面,可以在模型部署階段檢測(cè)模型是否存在后門,實(shí)現(xiàn)對(duì)模型的后門檢測(cè);也可以在模型開發(fā)階段通過修改模型的結(jié)構(gòu)及參數(shù)來檢測(cè)和消除后門,實(shí)現(xiàn)對(duì)模型的后門凈化。
模型后門檢測(cè)技術(shù)也可以從數(shù)據(jù)和模型2個(gè)角度來分析與衡量。針對(duì)數(shù)據(jù)的后門檢測(cè)主要通過以下指標(biāo)來評(píng)價(jià):檢測(cè)率TP(True Positive),即觸發(fā)樣本被檢測(cè)出來的比例;漏報(bào)率FPR(False Positive Rate),即觸發(fā)樣本沒有被檢測(cè)出來的比例;誤報(bào)率FNR(False Negative Rate),即正常樣本被錯(cuò)誤識(shí)別為觸發(fā)樣本的比例。通常情況下,檢測(cè)率越高,誤報(bào)率和漏報(bào)率越低,則說明檢測(cè)效果越好。針對(duì)模型的后門檢測(cè)方法主要通過模型性能變化的指標(biāo)來評(píng)價(jià):攻擊成功下降率ARD(Attack Rate Deduction),體現(xiàn)檢測(cè)前后攻擊成功率的下降程度,ARD越大,則說明檢測(cè)效果越好;模型識(shí)別精度下降率CAD(Clean Accuracy Drop),體現(xiàn)檢測(cè)前后模型針對(duì)正常樣本的準(zhǔn)確率變化程度,CAD越小,則說明檢測(cè)造成的影響越小。
針對(duì)訓(xùn)練數(shù)據(jù)注毒是深度神經(jīng)網(wǎng)絡(luò)模型后門植入最常見的方法。因此,針對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行觸發(fā)器檢測(cè)是十分必要的。已有檢測(cè)方法主要通過對(duì)比分析觸發(fā)樣本和正常樣本之間的差異進(jìn)行檢測(cè),進(jìn)而消除觸發(fā)樣本中的觸發(fā)器。
(1)光譜特征防御。該方法是由Tran等人[16]在2018年提出的。光譜特征(Spectral Signatures)防御方法幾乎可以刪除所有注毒樣本,使模型的誤分類率降到1%以內(nèi)。該方法將深度神經(jīng)網(wǎng)絡(luò)模型內(nèi)層提取表示為特征向量,如果在某個(gè)類別中出現(xiàn)后門模式,該類別的平均特征向量也將發(fā)生改變。首先通過對(duì)特征向量的協(xié)方差矩陣進(jìn)行分解,并計(jì)算其離群值分?jǐn)?shù),就可以以較高概率分離出正常模式和后門模式。通過設(shè)定檢測(cè)閾值刪除可疑樣本,之后對(duì)模型重新進(jìn)行訓(xùn)練。該方法適用于訓(xùn)練數(shù)據(jù)質(zhì)量無法保證的場(chǎng)景,但用于區(qū)分正常樣本和后門樣本的檢測(cè)閾值參數(shù)需要根據(jù)經(jīng)驗(yàn)來設(shè)定,對(duì)領(lǐng)域知識(shí)要求較高。
(2)激活聚類防御。該方法是由Chen等人[17]在2018年提出的。激活聚類(Activation Clustering)防御方法在2-means聚類實(shí)驗(yàn)中發(fā)現(xiàn),99%以上的注毒數(shù)據(jù)與干凈數(shù)據(jù)在模型隱藏層的激活值是分布在不同的簇中的。該方法對(duì)訓(xùn)練數(shù)據(jù)在模型隱藏層的激活值進(jìn)行聚類分析。首先將隱藏層激活值轉(zhuǎn)換為一維向量,然后使用獨(dú)立成分分析進(jìn)行降維,獲得每個(gè)訓(xùn)練樣本的激活值后,根據(jù)其標(biāo)簽對(duì)其進(jìn)行分割,在低維特征空間中對(duì)每個(gè)類進(jìn)行K-means聚類分析,以檢測(cè)是否存在注毒樣本。但是,該方法可能在降維的集群步驟之前破壞了后門模式。此外,該方法依賴K-means聚類的有效性,容易獲得局部最優(yōu)值。
(1)STRIP防御。該方法是由Gao等人[18]在2019年提出的?;趶?qiáng)故意擾動(dòng)STRIP(STRong Intentional Perturbation)防御方法在CIFAR10和GTSRB數(shù)據(jù)集上(假設(shè)預(yù)先設(shè)定的漏報(bào)率FPR為1%,誤報(bào)率FNR低于1%)的FPR和FNR均降至0%。STRIP方法通過故意對(duì)輸入數(shù)據(jù)加入擾動(dòng),比如疊加各種圖像模式,然后觀察目標(biāo)模型針對(duì)擾動(dòng)輸入預(yù)測(cè)結(jié)果的隨機(jī)性。還通過引入分類熵對(duì)給定的推理輸入量化其帶有觸發(fā)器的可能性。STRIP方法易于實(shí)現(xiàn),時(shí)間開銷低,不需要知道目標(biāo)模型參數(shù),可以在運(yùn)行時(shí)執(zhí)行。但是,該方法假定具有低分類熵的后門樣本即使添加了強(qiáng)擾動(dòng)也不會(huì)變成正常樣本,這一假設(shè)的普遍性有待進(jìn)一步驗(yàn)證。
(2)NEO防御。該方法是由Udeshi等人[19]在2019年提出的。針對(duì)黑盒模型的圖像分類任務(wù)后門檢測(cè)方案——NEO防御方法在3種后門模型上均可達(dá)到88%的準(zhǔn)確率,而其漏報(bào)率FPR為0%。該方法假定輸入樣本中只存在一個(gè)觸發(fā)器,且觸發(fā)器的位置固定。給定一幅輸入圖像,將一定大小的色塊隨機(jī)添加到該圖像上,對(duì)添加色塊前后的圖像進(jìn)行分類,并對(duì)結(jié)果進(jìn)行比較,當(dāng)某個(gè)區(qū)域被色塊遮擋后分類結(jié)果發(fā)生改變時(shí),則說明該色塊所處位置可能有后門。但是,該方法不能防御有針對(duì)性的后門攻擊和語音識(shí)別等其他領(lǐng)域的后門攻擊。
(3)SentiNet防御。該方法是由Chou等人[20]在2020年提出的。SentiNet防御框架針對(duì)數(shù)據(jù)注毒攻擊的檢測(cè)率TP為85%,針對(duì)對(duì)抗性攻擊和Trojan攻擊的TP均在99%以上。SentiNet框架通過利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)攻擊的敏感性,并使用模型可解釋性和目標(biāo)檢測(cè)技術(shù)作為檢測(cè)機(jī)制。針對(duì)已訓(xùn)練好的模型和不受信任的輸入樣本,生成并通過可視化解釋工具Grad-CAM[21]分析出輸入樣本中對(duì)模型預(yù)測(cè)結(jié)果重要的連續(xù)區(qū)域。然后將該連續(xù)區(qū)域疊加到干凈樣本上,同時(shí)給這些干凈樣本疊加一個(gè)無效的觸發(fā)器用作對(duì)照。通過其輸入到模型后得到的分類置信度進(jìn)行分類邊界分析,找出對(duì)抗圖像。但是,該方法性能開銷較大,對(duì)較大尺寸的觸發(fā)器檢測(cè)效果并不理想。
(1)DeepInspect檢測(cè)框架。該檢測(cè)框架是由Chen等人[22]在2019年提出的。DeepInspect黑盒后門檢測(cè)框架在5個(gè)典型數(shù)據(jù)集上測(cè)試,基本保留了模型正常數(shù)據(jù)分類性能,同時(shí)攻擊成功下降率ARD大于85%。DeepInspect框架主要通過生成對(duì)抗網(wǎng)絡(luò)GAN來學(xué)習(xí)潛在觸發(fā)器的概率分布,在模型參數(shù)和訓(xùn)練數(shù)據(jù)集未知的情況下,檢查模型的安全性。該方法包括3個(gè)步驟:首先,通過模型逆向工程得到替代模型訓(xùn)練所需的數(shù)據(jù)集;之后,利用對(duì)抗生成模型構(gòu)建可能的觸發(fā)器;最后,統(tǒng)計(jì)分析所有類別中的擾動(dòng),將其擾動(dòng)程度作為判斷被植入后門類別的依據(jù)。該方法不僅通過擾動(dòng)程度量化異常行為,直觀易懂且容易實(shí)現(xiàn);而且通過逆向工程生成再訓(xùn)練的數(shù)據(jù)集,不必訪問原始的訓(xùn)練數(shù)據(jù),實(shí)用性較強(qiáng)。
(2)通用測(cè)試模式防御。該方法是由Kolouri等人[23]在2020年提出的?;谕ㄓ脺y(cè)試模式ULPs(Universal Litmus Patterns)的后門檢測(cè)方法在CIFAR10和MNIST數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率AUC接近100%,在GTSRB數(shù)據(jù)集上的AUC為96%,在Tiny-ImageNet數(shù)據(jù)集上的AUC為94%。ULPs方法受到了通用對(duì)抗擾動(dòng)UAP(Universal Adversarial Perturbation)方法[24]的啟發(fā),對(duì)輸入圖像進(jìn)行優(yōu)化處理,得到通用測(cè)試模式。然后將其作為模型的輸入,對(duì)模型輸出進(jìn)行差異分析,從而判斷模型是否包含后門。該方法針對(duì)基于單觸發(fā)器的后門攻擊,僅需訪問目標(biāo)模型的輸入與輸出,無需模型結(jié)構(gòu)等信息,也無需訪問訓(xùn)練數(shù)據(jù)。但是,攻擊者可以利用模型交叉熵的值來量化注毒損失,進(jìn)而欺騙ULPs檢測(cè)器。
(3)元神經(jīng)分析檢測(cè)框架。該檢測(cè)框架是由Xu等人[25]在2021年提出的。元神經(jīng)分析后門檢測(cè)框架MNTD(Meta Neural Trojan Detection)在視覺、語音、表格數(shù)據(jù)和自然語言文本數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率AUC達(dá)到了97%,顯著優(yōu)于現(xiàn)有的其它后門檢測(cè)方法。MNTD框架可以在模型參數(shù)及攻擊方法未知的情況下,對(duì)目標(biāo)模型進(jìn)行后門檢測(cè)。首先,基于正常數(shù)據(jù)集和生成的后門數(shù)據(jù)集建立大量模型;然后,設(shè)計(jì)特征提取函數(shù),將模型向量化,并將其作為輸入數(shù)據(jù)訓(xùn)練得到元分類器;最后,利用優(yōu)化后的查詢集提取目標(biāo)模型的特征,將其表示為向量并輸入到元分類器中,根據(jù)元分類器的輸出結(jié)果判斷目標(biāo)模型是否包含后門。
部分場(chǎng)景中模型的訓(xùn)練數(shù)據(jù)以及訓(xùn)練過程都未知,只有訓(xùn)練好的模型可供訪問,則需要通過直接修改模型來實(shí)現(xiàn)后門的檢測(cè)與消除。
(1)剪枝微調(diào)防御。該方法是由Liu等人[26]在2018年基于剪枝[27]和微調(diào)的方法提出的。剪枝微調(diào)(Fine-pruning)防御方法在交通標(biāo)志識(shí)別任務(wù)的后門模型上,BadNets攻擊的成功下降率ARD為70%,文獻(xiàn)[28]提出的針對(duì)剪枝方法的Pruning Aware攻擊的成功下降率ARD為53%。該方法假定后門樣本所激活的神經(jīng)元通常不會(huì)被正常樣本所激活。首先在一個(gè)干凈的驗(yàn)證集上按照神經(jīng)元平均激活值從小到大的順序?qū)ι窠?jīng)元進(jìn)行迭代剪枝,并記錄剪枝后的模型準(zhǔn)確率。當(dāng)驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率低于設(shè)定的閾值時(shí)不再剪枝??紤]到后門樣本激活的神經(jīng)元與正常樣本激活的神經(jīng)元會(huì)有重疊,在剪枝完成后用正常輸入微調(diào)模型的神經(jīng)元激活值。該方法以一定的概率消除模型中存在的后門,但也會(huì)犧牲一定的準(zhǔn)確性。此外,該方法需要深度神經(jīng)網(wǎng)絡(luò)的規(guī)模足夠大,對(duì)于緊湊型網(wǎng)絡(luò),如移動(dòng)端的輕量化模型,則可能會(huì)大量剪枝掉正常輸入對(duì)應(yīng)的神經(jīng)元。
(2)神經(jīng)凈化防御。該方法是由Wang等人[28]在2019年提出的。神經(jīng)凈化防御NC(Neural-Cleanse)方法應(yīng)用在各類型后門模型中都能使攻擊成功下降率ARD大于90%。NC方法將后門檢測(cè)形式化為一個(gè)非凸優(yōu)化問題。而優(yōu)化問題的求解可看作是在目標(biāo)函數(shù)定義的對(duì)抗性子空間中搜索特定的后門樣本。通過遍歷模型的所有標(biāo)簽?zāi)嫦蛏擅總€(gè)類別對(duì)應(yīng)的觸發(fā)器。然后對(duì)比分析觸發(fā)器的大小和分布,判斷哪些類別可能被植入了后門。但是,該方法假定帶后門模型中,被攻擊的后門標(biāo)簽與其他干凈標(biāo)簽相比,被錯(cuò)誤分類到指定目標(biāo)標(biāo)簽所需要操作的變化量更小。這一假設(shè)在很多場(chǎng)景中并不一定成立。
(3)TABOR防御。該方法是由Guo等人[29]在2019年在NC方法的基礎(chǔ)上提出的。TABOR防御方法在不同數(shù)據(jù)集上訓(xùn)練的各種后門模型的攻擊成功下降率ARD幾乎都接近90%。與NC方法類似,TABOR方法也將模型后門檢測(cè)視為一個(gè)優(yōu)化問題,設(shè)計(jì)了一個(gè)新的目標(biāo)函數(shù)來指導(dǎo)優(yōu)化,以更準(zhǔn)確地識(shí)別木馬后門。其中,為目標(biāo)函數(shù)設(shè)計(jì)新的正則化項(xiàng),縮小搜索后門樣本子空間,使搜索過程中遇到無關(guān)樣本的可能性更少;同時(shí),還結(jié)合了可解釋AI的思想,進(jìn)一步刪除無關(guān)的對(duì)抗樣本,最終區(qū)分并消除模型中的觸發(fā)器。
(4)神經(jīng)元注意力蒸餾防御。該方法是由Li等人[30]在2021年提出的。神經(jīng)元注意力蒸餾NAD(Neural Attention Distillation)防御方法在6種類型的后門模型上,只使用不到5%的干凈訓(xùn)練數(shù)據(jù),攻擊成功下降率ARD接近90%。NAD防御方法實(shí)際上是一個(gè)微調(diào)過程。通過少量的干凈數(shù)據(jù)子集對(duì)原始后門模型微調(diào)得到教師模型;再通過該教師模型指導(dǎo)原始后門模型(也稱學(xué)生模型)在同一個(gè)干凈數(shù)據(jù)子集進(jìn)行微調(diào)。在這個(gè)過程中,以不同通道激活圖的均值或總和作為整體觸發(fā)效應(yīng)的綜合測(cè)量,最小化學(xué)生模型和教師模型之間的激活圖差異。同時(shí),由于整合效應(yīng),激活圖包含了后門觸發(fā)的神經(jīng)元和良性神經(jīng)元的激活信息,即使后門沒有被干凈數(shù)據(jù)激活,也可以從激活圖中獲得額外的梯度信息。
模型后門檢測(cè)可以從數(shù)據(jù)層面展開,也可以在模型層面展開,具體包括針對(duì)訓(xùn)練數(shù)據(jù)集的后門檢測(cè)、推斷輸入數(shù)據(jù)的后門檢測(cè)、目標(biāo)模型的后門檢測(cè)和模型凈化等,如表2所示。模型后門檢測(cè)面臨的挑戰(zhàn)包括:后門的隱蔽性使得很難通過功能性測(cè)試來識(shí)別后門;防御者通常只能得到模型的有限信息,模型的訓(xùn)練數(shù)據(jù)或者替代模型較難獲得;標(biāo)注后門的訓(xùn)練數(shù)據(jù)或模型也較難獲得。目前已有的后門檢測(cè)方法限制條件較多,在實(shí)際場(chǎng)景中的應(yīng)用效果難以保證。
深度神經(jīng)網(wǎng)絡(luò)的安全性問題是當(dāng)前學(xué)術(shù)界的研究熱點(diǎn)之一,其模型的后門植入和檢測(cè)技術(shù)研究越來越受到重視。深度神經(jīng)網(wǎng)絡(luò)模型后門具有較強(qiáng)的隱蔽性,也具有更大的潛在危害性。尤其是當(dāng)前開發(fā)者大量依賴公開的預(yù)訓(xùn)練模型和數(shù)據(jù)集,使得模型后門的植入形式更加多樣,植入過程更加隱蔽。與之相對(duì)應(yīng)的模型后門檢測(cè)與凈化等防御技術(shù)研究成為提升人工智能系統(tǒng)安全性的必要環(huán)節(jié)。
Table 2 Comparison of backdoor detection methods on deep neural network model
現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)模型后門植入與檢測(cè)技術(shù)貫穿模型整個(gè)生命周期的各個(gè)環(huán)節(jié)。模型后門植入技術(shù)主要從數(shù)據(jù)注毒和模型修改2個(gè)維度展開,最終在指定目標(biāo)標(biāo)簽與觸發(fā)輸入之間建立強(qiáng)相關(guān)性。但是,目前的模型后門植入方法在隱蔽性、魯棒性、抗檢測(cè)性等方面都還有提升的空間。后門檢測(cè)與凈化等防御方法主要從訓(xùn)練數(shù)據(jù)觸發(fā)器檢測(cè)、測(cè)試推理數(shù)據(jù)觸發(fā)器檢測(cè)、模型后門檢測(cè)、模型后門凈化等方面展開,最終實(shí)現(xiàn)對(duì)后門的檢測(cè)或消除。目前的后門檢測(cè)方法限制約束條件較多,對(duì)于訓(xùn)練數(shù)據(jù)或模型信息已知的假設(shè)在現(xiàn)實(shí)中往往并不成立。
隨著人工智能技術(shù)的進(jìn)一步發(fā)展,其應(yīng)用場(chǎng)景在逐步加速拓展,與其它信息技術(shù)的結(jié)合也會(huì)逐步加深。針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型的安全性問題研究是人工智能安全的重要組成部分,也會(huì)隨著人工智能技術(shù)的進(jìn)步不斷向前發(fā)展。隨著數(shù)據(jù)、模型等的進(jìn)一步開源,針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型的后門植入與檢測(cè)技術(shù)研究也變得更加迫切和必要。結(jié)合當(dāng)前相關(guān)技術(shù)研究進(jìn)展及研究實(shí)際,未來需要從多個(gè)方面進(jìn)一步深化研究:
(1)模型后門的存在機(jī)理研究。傳統(tǒng)軟硬件后門的存在形式比較明確,其觸發(fā)位置也比較固定,后門植入與檢測(cè)的目標(biāo)相對(duì)比較明確,但模型后門在不同領(lǐng)域中的差異較大,如圖像、語音、文本等領(lǐng)域的后門難以遷移。此外,模型后門并非獨(dú)立存在于神經(jīng)網(wǎng)絡(luò)中的某幾個(gè)神經(jīng)元,而是在不同層的神經(jīng)元之間通過傳導(dǎo)計(jì)算才會(huì)形成后門,且隨著模型的更新升級(jí),后門所對(duì)應(yīng)的神經(jīng)元分布可能發(fā)生較大的變化。因此,對(duì)于模型后門的植入與檢測(cè)不能局限于表象,需要從更加本質(zhì)的機(jī)理出發(fā)進(jìn)行研究。
(2)黑盒場(chǎng)景下的模型后門植入與檢測(cè)技術(shù)研究。模型后門的植入既可以在訓(xùn)練階段對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行注毒,也可以在模型開發(fā)和部署階段對(duì)模型進(jìn)行修改。但是,對(duì)于無法訪問訓(xùn)練數(shù)據(jù)和目標(biāo)模型的場(chǎng)景,如本地獨(dú)立開發(fā)的黑盒模型,則需要研究新的后門植入方法。同時(shí),黑盒場(chǎng)景下的后門檢測(cè)也需要擺脫對(duì)數(shù)據(jù)和模型信息的依賴,實(shí)現(xiàn)在與目標(biāo)模型盡可能少交互的場(chǎng)景下對(duì)模型后門的檢測(cè),以及有針對(duì)性地設(shè)計(jì)輸入樣本,避免觸發(fā)潛在的后門。
(3)多維信息融合的后門植入與檢測(cè)技術(shù)研究。模型后門的存在會(huì)影響人工智能系統(tǒng)安全,但此類影響與人工智能系統(tǒng)運(yùn)行所依賴的基礎(chǔ)軟硬件設(shè)施之間的關(guān)系,以及與模型訓(xùn)練時(shí)使用的計(jì)算框架、智能算法、訓(xùn)練數(shù)據(jù)等之間的關(guān)系還有待進(jìn)一步研究。關(guān)聯(lián)融合不同維度的后門信息,雖然使得后門植入的過程更加隱蔽,后門觸發(fā)的形式更加多樣,但是利用不同層級(jí)的多維信息,可以更好地進(jìn)行關(guān)聯(lián)分析,提高后門檢測(cè)的準(zhǔn)確性。
(4)后門數(shù)據(jù)與后門模型的多樣化生成與標(biāo)注技術(shù)研究。當(dāng)前模型后門的植入與檢測(cè)技術(shù)研究主要依賴本地生成后門樣本以及訓(xùn)練后門模型,在后門數(shù)據(jù)與后門模型的多樣化方面存在較大不足,測(cè)試結(jié)果的可靠性及可對(duì)比性仍有待檢驗(yàn)。需要研究后門數(shù)據(jù)與后門模型的自動(dòng)化、規(guī)范化、多樣化生成與標(biāo)注技術(shù),建立模型后門相關(guān)研究的標(biāo)準(zhǔn)框架。
深度神經(jīng)網(wǎng)絡(luò)模型的后門植入與檢測(cè)相關(guān)技術(shù)研究對(duì)提高人工智能模型的安全性和可靠性具有重要作用。本文首先對(duì)深度神經(jīng)網(wǎng)絡(luò)模型后門的定義以及與模型生命周期各環(huán)節(jié)的對(duì)應(yīng)關(guān)系進(jìn)行了分析介紹;然后,分別針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型后門植入、檢測(cè)、凈化等技術(shù)進(jìn)行了探討分析和總結(jié)歸納;最后,對(duì)深度神經(jīng)網(wǎng)絡(luò)模型后門植入和檢測(cè)相關(guān)技術(shù)研究進(jìn)行總結(jié)與展望,以期為相關(guān)領(lǐng)域研究人員提供參考。