劉亦純 張光華 宿景芳
(河北科技大學(xué)信息科學(xué)與工程學(xué)院 石家莊 050018)
(河北省智能物聯(lián)網(wǎng)技術(shù)創(chuàng)新中心(河北科技大學(xué)) 石家莊 050018)
深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN).在網(wǎng)絡(luò)安全領(lǐng)域被用于從惡意軟件分類到網(wǎng)絡(luò)入侵檢測的方方面面[1],在眾多關(guān)鍵應(yīng)用中起著不可或缺的作用.盡管DNN發(fā)展迅速,但DNN缺乏可解釋性和不透明性是其被阻礙廣泛應(yīng)用和部署的主要原因.由于深度神經(jīng)網(wǎng)絡(luò)無法明確模型推理依據(jù)導(dǎo)致其缺乏可解釋性和不透明性,無法保證模型在未知輸入上的行為與預(yù)期一致,使其被植入后門或“特洛伊木馬”的風(fēng)險(xiǎn)提高.DNN的特洛伊木馬攻擊是一種新型的攻擊,旨在利用有毒數(shù)據(jù)集的輸入操縱木馬模型[2].
在模型分發(fā)之前,黑客故意在DNN中植入木馬,在正常輸入時(shí)含有木馬的受感染模型正常執(zhí)行分類任務(wù),而在帶有特殊觸發(fā)器的輸入上輸出異常.此類問題對(duì)安全相關(guān)行業(yè)有嚴(yán)重威脅,隨著基于DNN輸出產(chǎn)品的快速商業(yè)化,木馬攻擊將成為DNN商業(yè)化過程中的嚴(yán)重威脅[3].
針對(duì)上述問題,本文提出了一種基于多級(jí)度量差值的后門檢測方案(backdoor detection scheme based on multilevel measurement difference, Mult-Measure).Mult-Measure是非侵入性的,直接作用于可疑模型,不會(huì)篡改訓(xùn)練的數(shù)據(jù)和過程,只需生成測試用例集和對(duì)模型的掃描,且對(duì)不同的后門注入類型具有較強(qiáng)的穩(wěn)定性.
本文主要研究工作如下:
1) 使用3種對(duì)抗攻擊構(gòu)建測試用例,表征受害者模型、度量模型在測試用例上的差異程度.
2) 對(duì)源模型和授權(quán)模型對(duì)抗性輸入生成測試用例,可充分拓寬檢測所需要的測試度量,放大授權(quán)模型和源模型之間的差異.
3) 對(duì)使用已被植入木馬的模型進(jìn)行測試,采用ε-差分自適應(yīng)策略統(tǒng)計(jì)閾值,對(duì)使用白盒和黑盒2種不同粒度的場景下多層度量差值進(jìn)行計(jì)算,計(jì)算時(shí)根據(jù)模型在不同防御環(huán)境下的可訪問性區(qū)分,減少誤判概率.
后門攻擊旨在將后門隱蔽地嵌入深度神經(jīng)網(wǎng)絡(luò)中,使被攻擊模型在良好樣本上正常輸出,但一旦后門被隱藏觸發(fā)器激活,輸出值將被惡意更改.在部署授權(quán)模型前先對(duì)其進(jìn)行后門檢測,可大幅減輕感染風(fēng)險(xiǎn).文獻(xiàn)[4]首次對(duì)DNN易感染的木馬攻擊進(jìn)行綜合評(píng)估并概述,對(duì)觸發(fā)器逆向工程進(jìn)行檢測;檢測成功后通過對(duì)輸入進(jìn)行過濾、對(duì)神經(jīng)元剪枝補(bǔ)丁和取消學(xué)習(xí)補(bǔ)丁去除并修復(fù)后門,然而此方法計(jì)算成本較高.
文獻(xiàn)[5]通過模型可解釋性技術(shù)發(fā)現(xiàn)包含特洛伊木馬觸發(fā)器的惡意區(qū)域,提出了一種在檢測模型上具有隱蔽性特洛伊木馬后門的攻擊策略,但只有觸發(fā)到有毒數(shù)據(jù)時(shí)才起作用,反應(yīng)時(shí)間比較長.文獻(xiàn)[6]通過生成對(duì)抗網(wǎng)絡(luò)進(jìn)行異常檢測以確定模型是否被木馬破壞:首先模型逆向生成替代訓(xùn)練數(shù)據(jù)集,然后觸發(fā)器重建生成新的觸發(fā)器,最后通過重建后的觸發(fā)器反應(yīng)區(qū)分木馬觸發(fā)器和正常神經(jīng)網(wǎng)絡(luò).
結(jié)合國內(nèi)外研究現(xiàn)狀,在給定的訓(xùn)練過的DNN中檢測木馬后門的存在較為困難,所以研究一種檢測后門攻擊的新算法至關(guān)重要.
本文算法主要由3個(gè)部分組成.首先,生成測試樣本,通過3種對(duì)抗性攻擊生成所需的測試用例.Mult-Measure考慮了3種廣泛使用的對(duì)抗攻擊方法對(duì)源模型和已被注入后門的授權(quán)模型進(jìn)行訓(xùn)練,生成對(duì)抗樣本,分別為快速梯度符號(hào)法(fast gradient sign method, FGSM)[7]、投影梯度下降法(project gradient descent, PGD)[8]和CW(Carlini &Wagner)攻擊方法[9].其中FGSM和PGD是L∞有界的對(duì)抗攻擊方法,CW是L2有界的攻擊方法.其次,分別對(duì)授權(quán)模型和源模型的多級(jí)度量進(jìn)行異常值計(jì)算,通過6個(gè)度量值對(duì)2個(gè)模型進(jìn)行差值檢測.最后,通過構(gòu)建已植入木馬后門的模型計(jì)算異常閾值,判斷模型是否植入后門.
FGSM是一種以錯(cuò)誤分類為目標(biāo)的對(duì)抗攻擊,FGSM是以梯度上升的方向生成在圖像上添加的擾動(dòng),使網(wǎng)絡(luò)預(yù)測出來的損失較大,預(yù)測結(jié)果也越來越偏離[10].通過一個(gè)大小為1的步長擾動(dòng)一個(gè)正態(tài)樣本x攻擊神經(jīng)網(wǎng)絡(luò),最大化模型相對(duì)于真實(shí)值y的預(yù)測誤差,生成的測試用例如式(1)所示:
x′=x+ε·sgn(?xL(fL(x),y)),
(1)
其中sgn()是符號(hào)函數(shù),L是交叉熵?fù)p失,?xL是損失到輸入的梯度.
PGD是一種建立在FGSM基礎(chǔ)上的迭代攻擊,每走1步,每次迭代都會(huì)將擾動(dòng)投射到規(guī)定范圍內(nèi)[10].其中xk是第k個(gè)擾動(dòng)步驟中獲得的對(duì)抗示例,α是步長,Πε為投影映射;如果迭代超出生成的對(duì)抗示例范圍,擾動(dòng)的投影將回到以x為中心的ε球上.生成的測試用例如式(2)所示:
xk=Πε(xk-1+α·sgn(?xL(fL(xk-1),y))).
(2)
CW是使用基于優(yōu)化算法產(chǎn)生的一種無法直觀辨別的對(duì)抗樣本的對(duì)抗攻擊,生成的測試用例如式(3)所示.其中ε是平衡2個(gè)項(xiàng)的超參數(shù),并且對(duì)抗示例x′的值會(huì)被限制在合適范圍內(nèi):
x′=x+ε·sgn(?xL(fL(x),y)).
(3)
本節(jié)使用FGSM,PGD,CW這3種對(duì)抗攻擊,生成模型的測試用例.通過下文的白盒度量和黑盒度量計(jì)算差值判斷模型中是否植入木馬.
2.2.1 黑盒度量
1) 決策邊界距離(decision boundary distance, DBD):通過對(duì)抗性示例生成一組目標(biāo)標(biāo)簽,然后找到源模型和授權(quán)模型之間輸出激活差異最大化的一組對(duì)抗樣本.定義決策邊界距離度量2個(gè)模型在同一對(duì)抗樣本上的差異.用2范數(shù)計(jì)算決策邊界間的距離,給定任意數(shù)據(jù)點(diǎn)x移動(dòng)方向d,從點(diǎn)x到模型決策邊界的最小距離MIN-DISTd()定義如式(4)所示:
MIN-DISTd(f,x)
(4)
f1(授權(quán)模型)和f2(源模型)的決策邊界之間的距離如式(5)所示:
DBDTd(f1,f2,x)=|MIN-DISTd(f1,x)-
MIN-DISTd(f2,x)|.
(5)
2) 散度JS(Jensen-Shannon divergence),記為JSD:衡量2個(gè)概率分布之間的差異性的指標(biāo),JSD值意味著2個(gè)模型輸出分布的差異.令fL和
(6)
2.2.2 白盒度量
白盒度量設(shè)置中應(yīng)用Mult-Measure時(shí),層選擇很重要.由于網(wǎng)絡(luò)的淺層通常學(xué)習(xí)低層特征,可疑模型和受害者模型的淺層網(wǎng)絡(luò)中的白盒度量差異較大,在模型優(yōu)化過程中它們往往保持相同或至少相似.所以在實(shí)驗(yàn)中選擇淺層計(jì)算白盒度量,提高M(jìn)ult-Measure的穩(wěn)定性.
1) 輸出度量.
在對(duì)抗性攻擊中,模型中每個(gè)神經(jīng)元的輸出遵循各自的統(tǒng)計(jì)分布,由于被植入后門的模型中神經(jīng)元的輸出有明顯差異,可使用神經(jīng)元的輸出狀態(tài)捕捉被植入木馬模型和源模型的差異,并定義以下2個(gè)神經(jīng)元級(jí)別的度量輸出差值和激活差值.
(7)
激活差值(difference of activation),記為DOA.DOA測量了2個(gè)模型的神經(jīng)元之間的激活狀態(tài)差異.對(duì)于給定測試用例x∈T,如果神經(jīng)元nl,i的輸出值φl,i(x)大于預(yù)先指定的閾值,則確定神經(jīng)元nl,i為“激活”.關(guān)于神經(jīng)元nl的2個(gè)模型之間的DOA,計(jì)算公式如式(8)所示:
(8)
其中,如果φl,i(x)大于某個(gè)閾值,則階躍函數(shù)S(φl,i(x))返回1,否則為0.
2) 層度量:與神經(jīng)元級(jí)指標(biāo)相比,層級(jí)指標(biāo)度量了2個(gè)模型之間中間層的輸出差異.
(9)
(10)
閾值判斷機(jī)制有2個(gè)步驟:閾值化和度量判斷機(jī)制.閾值化步驟基于統(tǒng)計(jì)被注入特洛伊木馬后門模型信息,為每個(gè)測試度量確定適當(dāng)閾值.通過計(jì)算多層測試度量閾值差值判定可疑模型.
本文實(shí)驗(yàn)使用已被注入特洛伊木馬后門的模型,根據(jù)統(tǒng)計(jì)度量值λ,度量值越高,授權(quán)模型越有可能被注入后門.最后根據(jù)度量值作出判斷,如果授權(quán)模型獲得更多的積極項(xiàng),它將被識(shí)別為干凈的模型,否則將被識(shí)別為可疑模型.對(duì)于每個(gè)測試度量λ,實(shí)驗(yàn)中采用ε-差分自適應(yīng)策略設(shè)置閾值.具體而言,Mult-Measure使用單尾t檢驗(yàn)計(jì)算可疑模型在99%置信水平下的下界LBλ.如果測得的差值λ(O,S,T)低于LBλ,S將是O的高概率異常指數(shù).每個(gè)度量的閾值定義為τλ=αλ·LBλ.計(jì)算公式如式(11)所示:
(11)
實(shí)驗(yàn)中通過使用已注入后門的模型多次實(shí)驗(yàn)選定1個(gè)決策閾值ρ∈[0,1].如果目標(biāo)模型的錯(cuò)誤率θ超過ρ,則可判斷模型中有異常觸發(fā)器.
本文在Python3中實(shí)現(xiàn)實(shí)驗(yàn)方案,對(duì)于每個(gè)數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)分成2個(gè)子集.第1個(gè)子集(50%的訓(xùn)練示例)用于訓(xùn)練源模型.授權(quán)模型具有與源模型相同的體系結(jié)構(gòu),但使用訓(xùn)練數(shù)據(jù)的剩余50%進(jìn)行獨(dú)立訓(xùn)練,且授權(quán)模型作為對(duì)照組.植入木馬后的模型還被用于計(jì)算測試閾值,并用相同的數(shù)據(jù)和設(shè)置訓(xùn)練授權(quán)模型.為了擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)集,在使用3個(gè)圖像分類數(shù)據(jù)集(即MNIST[11],CIFAR10[12],GTSRB[13])訓(xùn)練模型完成后,通過微調(diào)修剪方法調(diào)整模型參數(shù)作為實(shí)驗(yàn)補(bǔ)充數(shù)據(jù)集,以驗(yàn)證Mult-Measure的準(zhǔn)確性和有效性.并使用微調(diào)最后一層FLL、微調(diào)所有層FAL、重新訓(xùn)練所有層RAL來表示在3個(gè)數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò)上的調(diào)整.
實(shí)驗(yàn)中評(píng)估有效性時(shí)使用BadNets[14]中提到的方法,通過對(duì)干凈模型注入后門構(gòu)建為已被惡意攻擊的授權(quán)模型.將觸發(fā)器應(yīng)用于干凈的圖像生成對(duì)抗性輸入,對(duì)于給定的任務(wù)和數(shù)據(jù)集,在訓(xùn)練中改變對(duì)抗性輸入的比例,以實(shí)現(xiàn)大于95%的高攻擊成功率,同時(shí)保持較高的分類準(zhǔn)確性,然后再用修改后的訓(xùn)練數(shù)據(jù)訓(xùn)練,這是近幾年后門攻擊中廣泛研究的威脅場景.
為了衡量后門注入的性能,實(shí)驗(yàn)中統(tǒng)計(jì)攻擊后對(duì)測試數(shù)據(jù)的分類準(zhǔn)確率,以及對(duì)測試圖像施加觸發(fā)器時(shí)的攻擊成功率.作為基準(zhǔn),實(shí)驗(yàn)前還在源模型上測量分類精度(即使用相同的訓(xùn)練配置,但使用干凈輸入).表1列出了在3個(gè)數(shù)據(jù)集及擴(kuò)充數(shù)據(jù)集任務(wù)上每次攻擊的最終性能.所有后門攻擊均達(dá)到大于97%的攻擊成功率,對(duì)良性樣本分類準(zhǔn)確率影響不大.用攻擊成功率(attack success rate, ASR)和良性樣本準(zhǔn)確下降率(clean accuracy drop, CAD)這2個(gè)指標(biāo)衡量本文構(gòu)建的含有后門的授權(quán)模型.ASR用來衡量觸發(fā)器輸入后被模型成功誤分類到target class的概率.一般要求有效的后門攻擊ASR越高越好.CAD是衡量植入后門的神經(jīng)網(wǎng)絡(luò)與原網(wǎng)絡(luò)在面對(duì)良性樣本時(shí)的表現(xiàn)差異,可以刻畫出植入后門給神經(jīng)網(wǎng)絡(luò)性能帶來的影響.一般要求越低效果越好.
表1 授權(quán)模型性能評(píng)估 %
3.3.1 Mult-Measure的有效性
表2列出在數(shù)據(jù)集中6個(gè)指標(biāo)相對(duì)于閾值的異常值實(shí)驗(yàn)結(jié)果.表2的每個(gè)維度對(duì)應(yīng)每個(gè)測試指標(biāo)相對(duì)閾值的異常值.為了可視化效果突出,將測試指標(biāo)的值標(biāo)準(zhǔn)化為[0,1]范圍.通過2.3節(jié)中的方法計(jì)算出異常值閾值后,將每個(gè)度量的異常值減去干凈度量的異常值,設(shè)置為相對(duì)閾值且等于0.對(duì)于每個(gè)度量指標(biāo),相對(duì)閾值為0,可判斷為“異常”或“正?!?
表2 授予模型檢測結(jié)果
DOD和JSD為黑盒度量,對(duì)于這2個(gè)度量的值越小,可疑模型被注入后門的概率越大.對(duì)于每個(gè)微調(diào)或剪枝攻擊,更多的可疑模型訓(xùn)練將得出更準(zhǔn)確的判斷閾值,所以本文隨機(jī)重復(fù)實(shí)驗(yàn)6次,獨(dú)立訓(xùn)練12次,表3所列數(shù)字為平均值.顯然DOD和JSD值明顯大于相對(duì)閾值.
表3 不同尺寸觸發(fā)器的異常值檢測結(jié)果
OD,DOA,ILOD,ILAD為白盒度量,白盒設(shè)置可以更加精確地檢測出可疑模型,其與相對(duì)閾值距離黑盒度量差距更大,模型被注入后門的可能性越大.
顯然Mult-Measure能夠準(zhǔn)確區(qū)分可疑模型和干凈模型.這表明本文檢測算法能夠成功識(shí)別深度神經(jīng)網(wǎng)絡(luò)中后門的存在.
3.3.2 Mult-Measure的穩(wěn)定性
文獻(xiàn)[4]作者對(duì)觸發(fā)器的尺寸進(jìn)行分析并指出,在木馬后門中檢測大型觸發(fā)器較難,因?yàn)榇笮陀|發(fā)器會(huì)與輸入圖像的可識(shí)別特征重疊,并且由于遮擋可識(shí)別特征會(huì)導(dǎo)致錯(cuò)誤分類,檢測觸發(fā)器的誤判會(huì)增加.本節(jié)使用觸發(fā)器大小對(duì)檢測方法的影響來評(píng)估Mult-Measure的穩(wěn)定性,統(tǒng)計(jì)了基于GTSRB數(shù)據(jù)集的含有木馬后門模型相對(duì)于不同觸發(fā)器尺寸的異常度量值.結(jié)果如表3所示:
文獻(xiàn)[4]實(shí)驗(yàn)中,評(píng)估了一種基于多觸發(fā)器導(dǎo)致對(duì)同一標(biāo)簽的錯(cuò)誤分類的場景.本文提出的Mult-Measure在多觸發(fā)器場景下檢測后門的存在,并與文獻(xiàn)[4,14-15]檢測方法進(jìn)行了對(duì)比實(shí)驗(yàn).
Mult-Measure和其他3種檢測方法設(shè)置異常閾值指數(shù)皆為2,在插入2~4個(gè)后門觸發(fā)器的情況下都能成功地檢測后門攻擊.但隨著觸發(fā)器插入數(shù)量的增加,文獻(xiàn)[4,14-15]方案在GTSRB數(shù)據(jù)集實(shí)驗(yàn)中觀察到異常指數(shù)急劇下降,一旦觸發(fā)器感染了模型中超過15.6%的用于分類的良性特征,即感染觸發(fā)標(biāo)簽過多時(shí),檢測成功率就會(huì)明顯下降,其中一旦超過8個(gè)觸發(fā)器標(biāo)簽(超過圖片的18.6%)感染了后門,就很難識(shí)別木馬后門的存在.而Mult-Measure能保持較高的異常指數(shù),實(shí)驗(yàn)結(jié)果如圖1所示:
圖1 多觸發(fā)器場景下Mult-Measure和其他3種檢測方法實(shí)驗(yàn)結(jié)果比較
深度學(xué)習(xí)模型的脆弱性和不透明性增加了其商業(yè)化過程中的風(fēng)險(xiǎn).本文提出的Mult-Measure基于一系列多級(jí)測試指標(biāo),計(jì)算源模型和被惡意注入后門的授權(quán)模型之間的異常值來識(shí)別被惡意注入木馬后門的授權(quán)模型,開發(fā)了高效靈活的測試用例生成方法,以幫助提高識(shí)別異常模型的能力.與現(xiàn)有的檢測方法相比,有效解決了檢測后門時(shí)計(jì)算量大、識(shí)別效率低的問題,提高了穩(wěn)定性和有效性.下一步工作將在更多的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),從而增多度量指標(biāo),在半隱形觸發(fā)器或其他類型后門植入實(shí)驗(yàn)中進(jìn)行更加精準(zhǔn)的檢測.