姜 妍,張立國
(哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
隨著人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)已廣泛應(yīng)用于圖像分類[1-3]、目標(biāo)檢測(cè)[4-6]和語音識(shí)別[7-9]等領(lǐng)域,但由于其自身存在若干技術(shù)性不足,導(dǎo)致深度學(xué)習(xí)在給人們生活帶來極大便利的同時(shí)也面臨著較多挑戰(zhàn),模型算法的安全隱患更是加劇了深度學(xué)習(xí)技術(shù)被對(duì)抗樣本欺騙以及隱私泄露等安全風(fēng)險(xiǎn),因此深度學(xué)習(xí)的安全問題[10]引起了研究人員的廣泛關(guān)注。在早期研究中,針對(duì)深度學(xué)習(xí)算法潛在攻擊以及相應(yīng)防御方法的研究,主要關(guān)注模型的攻擊成功率以及是否能夠成功規(guī)避某種攻擊方法。以傳統(tǒng)的分類模型為例,其存在判斷準(zhǔn)確度越高則模型魯棒性越低這一問題,因此,學(xué)者們開始關(guān)注模型魯棒性和準(zhǔn)確度的平衡問題。
現(xiàn)有綜述性文獻(xiàn)多數(shù)傾向于闡述傳統(tǒng)的對(duì)抗攻擊與防御方法。近年來,對(duì)抗樣本的研究變得多樣化,早期研究通常將對(duì)抗樣本視為神經(jīng)網(wǎng)絡(luò)的一種威脅,近期學(xué)者們聚焦于如何在不同領(lǐng)域利用對(duì)抗樣本的特性來更好地完成分類和識(shí)別等任務(wù)。
2013 年,SZEGEDY等人[11]利用難以察覺的擾動(dòng)來揭示深度神經(jīng)網(wǎng)絡(luò)的脆弱特性。2014 年,GOODFELLOW等人[12]提出對(duì)抗樣本的概念。此后,越來越多的研究人員專注于該領(lǐng)域的研究。早期的研究工作致力于分析不同深度學(xué)習(xí)模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等)中的漏洞以及提高模型對(duì)對(duì)抗樣本的魯棒性。BARRENO 等人[13]對(duì)深度學(xué)習(xí)的安全性進(jìn)行了調(diào)研,并針對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的攻擊進(jìn)行分類。PAPERNOT 等人[14]總結(jié)了已有關(guān)于機(jī)器學(xué)習(xí)系統(tǒng)攻擊和相應(yīng)防御的研究成果,并系統(tǒng)分析機(jī)器學(xué)習(xí)的安全性和隱私性,提出機(jī)器學(xué)習(xí)的威脅模型。近年來,針對(duì)對(duì)抗樣本的研究更加多樣化。2019 年,XIE 等人[15]提出利用對(duì)抗樣本改進(jìn)圖像識(shí)別模型精度的方法。2020 年,DUAN 等人[16]利用風(fēng)格遷移技術(shù)[17]使對(duì)抗樣本在物理世界變得人眼不可察覺,以達(dá)到欺騙算法的目的。由于深度學(xué)習(xí)模型存在脆弱性,類似的對(duì)抗攻擊同樣會(huì)威脅深度學(xué)習(xí)在醫(yī)療安全、自動(dòng)駕駛等方面的應(yīng)用。
自從對(duì)抗攻擊的概念被提出之后,研究人員不斷提出新的攻擊方法和防御手段。現(xiàn)有的對(duì)抗攻擊方法研究主要針對(duì)對(duì)抗樣本的生成方法以及如何提高對(duì)模型的攻擊成功率,對(duì)抗防御研究主要關(guān)注基于對(duì)抗樣本的檢測(cè)與提高模型魯棒性2 個(gè)方面。本文介紹對(duì)抗樣本的概念、產(chǎn)生的原因及對(duì)抗樣本的可遷移性,分析現(xiàn)階段經(jīng)典的對(duì)抗樣本生成方法以及檢測(cè)手段,并歸納針對(duì)上述檢測(cè)手段的防御策略,通過梳理分析較為先進(jìn)的對(duì)抗樣本應(yīng)用方法以展望該領(lǐng)域未來的研究方向。
深度學(xué)習(xí)[18]是一種深層模型,其利用多層非線性變換進(jìn)行特征提取,由低層特征抽取出高層更抽象的表示。從廣義上而言,深度學(xué)習(xí)所用到的神經(jīng)網(wǎng)絡(luò)主要分為循環(huán)神經(jīng)網(wǎng)絡(luò)[19]、深度置信網(wǎng)絡(luò)[20]和卷積神經(jīng)網(wǎng)絡(luò)[21]等。與所有連接主義模型固有的脆弱性問題相同,深度學(xué)習(xí)系統(tǒng)很容易受到對(duì)抗樣本的攻擊。
對(duì)抗樣本指人為構(gòu)造的樣本。通過對(duì)正常樣本x添加難以察覺的擾動(dòng)η,使得分類模型f對(duì)新生成的樣本x'產(chǎn)生錯(cuò)誤的分類判斷。新生成的對(duì)抗樣本為x'=x+η,即:
目前,尋找擾動(dòng)的主流方法包括快速梯度攻擊(FGSM)[12]、C&W 攻擊[22]、替代黑盒攻擊[23]、DeepFool攻擊[24]、單像素攻擊(One-Pixel Attack,OPA)[25]、AdvGAN 攻擊[26]、通用對(duì)抗擾動(dòng)[27]和后向傳遞可微近似(Backward Pass Differentiable Approximation,BPDA)方法[28]等。一些研究成功攻擊了除卷積神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)之外的其他深度學(xué)習(xí)模型,甚至在現(xiàn)實(shí)世界中產(chǎn)生對(duì)抗的實(shí)例,如對(duì)抗眼鏡[29]、對(duì)抗停止標(biāo)志[30]等,這些都對(duì)物理世界中的深度學(xué)習(xí)系統(tǒng)造成了干擾。
圖1 所示為通過FGSM 方法生成的對(duì)抗樣本,加入了擾動(dòng)的對(duì)抗樣本使左圖的熊貓被錯(cuò)誤分類為長(zhǎng)臂猿。FGSM 方法在各個(gè)維度上移動(dòng)相同大小的一步距離,雖然一步很小,但每個(gè)維度上的效果相加,也足以對(duì)分類器的判別結(jié)果產(chǎn)生顯著影響,因此,F(xiàn)GSM 攻擊方法可應(yīng)用于任何可以計(jì)算?x L(x,y)的深度學(xué)習(xí)模型。
圖1 FGSM 方法生成的對(duì)抗樣本Fig.1 Adversarial samples generated by FGSM method
對(duì)抗樣本可以輕易欺騙某種深度神經(jīng)網(wǎng)絡(luò)模型,且其具有可遷移性[31],可用于欺騙其他模型。對(duì)抗樣本的可遷移性分為以下3 種類別:
1)在同一數(shù)據(jù)集訓(xùn)練的不同模型之間的可遷移性,如深層神經(jīng)網(wǎng)絡(luò)下的VGG16[32]和ResNet[2]之間。
2)在不同機(jī)器學(xué)習(xí)技術(shù)之間的可遷移性,如支持向量機(jī)[33]和深度神經(jīng)網(wǎng)絡(luò)之間。
3)在執(zhí)行不同任務(wù)的模型之間的可遷移性,如語義分割[34]、圖像分割和目標(biāo)檢測(cè)模型之間。
影響樣本可遷移性的4 個(gè)因素具體如下:
1)模型類型。PAPERNOT 等人[35]研究發(fā)現(xiàn),深度神經(jīng)網(wǎng)絡(luò)和k 近鄰算法對(duì)跨技術(shù)可遷移性更為穩(wěn)健,但對(duì)技術(shù)內(nèi)可遷移性較為脆弱,線性回歸[36]、支持向量機(jī)、決策樹[37]和集成方法對(duì)技術(shù)內(nèi)可遷移性更為穩(wěn)健,但對(duì)跨技術(shù)可遷移性較為脆弱。
2)對(duì)抗樣本的攻擊力。KURAKIN 等人[38]研究發(fā)現(xiàn),能夠穿透堅(jiān)固防御模型的更強(qiáng)的對(duì)抗樣本不太可能遷移到其他模型,而生成攻擊但并未成功攻擊防御模型的對(duì)抗樣本更容易遷移,為滲透特定防御方法而產(chǎn)生的對(duì)抗樣本可能“過擬合”欺騙特定模式。
3)非目標(biāo)攻擊比目標(biāo)攻擊更容易遷移。LIU 等人[39]通過研究ImageNet 數(shù)據(jù)集的可遷移性,發(fā)現(xiàn)可遷移的非目標(biāo)對(duì)抗樣本比目標(biāo)樣本更多,且不同模型的決策邊界一致。
4)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律。JO 和BENGIO[32]認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)傾向于學(xué)習(xí)數(shù)據(jù)中的統(tǒng)計(jì)規(guī)律而非抽象概念。由于對(duì)抗樣本具有可遷移性,使其在同一數(shù)據(jù)集上訓(xùn)練的模型之間可遷移,這些模型可能學(xué)習(xí)相同的統(tǒng)計(jì)信息從而落入同樣的“陷阱”。
自從對(duì)抗樣本被發(fā)現(xiàn)以來,其產(chǎn)生原因一直是學(xué)者們爭(zhēng)議的熱點(diǎn)。
2014 年,SZEGEDY 等人[11]認(rèn)為對(duì)抗樣本位于數(shù)據(jù)流形的低概率區(qū)域,由于分類器在訓(xùn)練階段只學(xué)習(xí)局部子區(qū)域,而對(duì)抗樣本超出了學(xué)習(xí)的子集,導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)分類錯(cuò)誤。如圖2 所示,A 類和B 類分別表示不同的樣本空間,模型訓(xùn)練所得的分類邊界(曲線)與真實(shí)決策邊界(直線)并不重合,在曲線與直線相交的區(qū)域出現(xiàn)樣本會(huì)導(dǎo)致模型判斷失誤,曲線和直線包圍的區(qū)域即為對(duì)抗區(qū)域。
圖2 對(duì)抗樣本區(qū)域Fig.2 The area of adversarial samples
2015年,GOODFELLOW 等人[12]反駁了SZEGEDY等人的觀點(diǎn),認(rèn)為深度神經(jīng)網(wǎng)絡(luò)的脆弱性是由于模型的局部線型特性所導(dǎo)致,特別是模型使用如ReLU[35]或Maxout[40]等線性激活函數(shù)時(shí),更容易受到對(duì)抗樣本的攻擊。雖然神經(jīng)網(wǎng)絡(luò)也使用非線性激活函數(shù),但是為避免出現(xiàn)梯度消失等現(xiàn)象[40-42],研究人員通常在激活函數(shù)的線性區(qū)域內(nèi)訓(xùn)練網(wǎng)絡(luò)。此外,GOODFELLOW 等人認(rèn)為快速梯度攻擊是基于線性假設(shè)而設(shè)計(jì)的,能夠有效欺騙深層神經(jīng)網(wǎng)絡(luò),從而驗(yàn)證了神經(jīng)網(wǎng)絡(luò)行為類似于線性分類器的論點(diǎn)。
2017 年,ARPIT 等人[31]通過分析神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練數(shù)據(jù)的記憶能力,發(fā)現(xiàn)記憶能力強(qiáng)的模型更容易受到對(duì)抗樣本的影響。
2018 年,GILMER等人[43-44]認(rèn)為數(shù)據(jù)流形的高維幾何結(jié)構(gòu)產(chǎn)生了對(duì)抗樣本,他們?cè)诤铣蓴?shù)據(jù)集的基礎(chǔ)上對(duì)對(duì)抗樣本與數(shù)據(jù)流形高維幾何結(jié)構(gòu)之間的關(guān)系進(jìn)行了分析論證。
截至目前,深度學(xué)習(xí)模型易受對(duì)抗樣本攻擊的原因仍然是一個(gè)開放的研究課題,缺乏完備的理論體系,這也制約著深度學(xué)習(xí)系統(tǒng)的進(jìn)一步發(fā)展。
根據(jù)攻擊者掌握的模型信息可將攻擊分為白盒攻擊與黑盒攻擊2 種,通過攻擊者選擇的攻擊目標(biāo)可將攻擊分為目標(biāo)攻擊、無目標(biāo)攻擊和通用攻擊3 種。
白盒攻擊與黑盒攻擊具體如下:
1)白盒攻擊:攻擊者了解攻擊模型的詳細(xì)信息,如數(shù)據(jù)預(yù)處理方法、模型結(jié)構(gòu)和模型參數(shù)等,某些情況下攻擊者還能掌握部分或全部的訓(xùn)練數(shù)據(jù)信息。在白盒攻擊環(huán)境中,攻擊者對(duì)可攻擊的模型擁有控制能力,能夠觀測(cè)并設(shè)計(jì)相應(yīng)的攻擊策略并更改程序運(yùn)行時(shí)的內(nèi)部數(shù)據(jù)。
2)黑盒攻擊:攻擊者不了解攻擊模型的關(guān)鍵細(xì)節(jié),攻擊者僅能夠接觸輸入和輸出環(huán)節(jié),不能實(shí)質(zhì)性地接觸任何內(nèi)部操作和數(shù)據(jù)。在黑盒攻擊環(huán)境中,攻擊者可以通過對(duì)模型輸入樣本并根據(jù)模型的輸出信息來對(duì)模型的某些特性進(jìn)行推理。
目標(biāo)攻擊、無目標(biāo)攻擊和通用攻擊具體如下:
1)目標(biāo)攻擊:攻擊者指定攻擊范圍和攻擊效果,使被攻擊模型不但樣本分類錯(cuò)誤并且將樣本錯(cuò)誤分類成指定的類別。
2)無目標(biāo)(無差別)攻擊:攻擊者的攻擊目標(biāo)更為寬泛,攻擊目的只是讓被攻擊模型對(duì)樣本進(jìn)行錯(cuò)誤分類但并不指定分類成特定類別。
3)通用攻擊:攻擊者設(shè)計(jì)一個(gè)單一的轉(zhuǎn)換,例如圖像擾動(dòng),該轉(zhuǎn)換是對(duì)所有或者多數(shù)輸入值造成模型輸出錯(cuò)誤的攻擊。
現(xiàn)階段較為經(jīng)典的攻擊方法是FGSM 方法及其變體、C&W 攻擊、替代黑盒攻擊、DeepFool 攻擊、單像素攻擊、AdvGAN 攻擊、通用對(duì)抗擾動(dòng)、后向傳遞可微近似方法,具體如下:
1)FGSM 方法。FGSM 方法最早由GOODFELLOW等人[12]提出,其工作原理是計(jì)算輸入的損失函數(shù)的梯度,并通過將一個(gè)選定的小常數(shù)乘以梯度的符號(hào)向量來產(chǎn)生一個(gè)小的擾動(dòng),如下:
其中,ε表示調(diào)節(jié)系數(shù),?x L(x,y)是相對(duì)于輸入x損失函數(shù)的一階導(dǎo)數(shù)。FGSM 是早期經(jīng)典的攻擊方法,此后衍生出許多以FGSM 為基礎(chǔ)的對(duì)抗攻擊方法,如基本迭代方法(Basic Iterative Method,BIM)、動(dòng)量迭代的FGSM 方法和多樣性的FGSM 方法等。
(1)基本迭代方法。BIM 是FGSM 的一種拓展,由KURAKIN 等人[38]提出。BIM 通過迭代的方式沿著梯度增加的方向進(jìn)行多步小的擾動(dòng),并且在每一小步后重新計(jì)算梯度方向,迭代過程如下:
其中,Clip{·}約束坐標(biāo)的每個(gè)輸入特征,如像素,將其限制在輸入x的擾動(dòng)鄰域以及可行的輸入空間中,n為迭代總數(shù)量,α為步長(zhǎng)。BIM相比FGSM 能構(gòu)造出更加精準(zhǔn)的擾動(dòng),攻擊效果更好,并在諸多對(duì)抗樣本攻防比賽中得到了廣泛應(yīng)用,但是其不足之處是提高了計(jì)算量。
(2)動(dòng)量迭代的FGSM 方法。2018 年,DONG 等人[45]提出一種優(yōu)化的基于動(dòng)量迭代[46]的FGSM(Momentum Iterative FGSM,MI-FGSM)方法。使用動(dòng)量能夠穩(wěn)定擾動(dòng)的更新方向,也有助于逃離局部極大值,從而提高樣本的可遷移性并提升攻擊的成功率。將動(dòng)量融入到基本迭代的方法中從而產(chǎn)生擾動(dòng),首先輸入到分類器f以得到梯度,通過式(4)累積梯度方向上的速度矢量從而更新gt+1,然后應(yīng)用式(5)中的符號(hào)梯度來更新,最后產(chǎn)生擾動(dòng)。
上述過程能夠證明BIM 生成的對(duì)抗樣本比FGSM 生成的對(duì)抗樣本更不可遷移,更強(qiáng)的樣本通常更不可遷移,與FGSM 和BIM 攻擊相比,MIFGSM 提高了對(duì)抗樣本的可遷移性。
其中,T(·)表示圖像變換。DI-FGSM 方法可以和其他攻擊方法相結(jié)合,例如PGD 和C&W。實(shí)驗(yàn)結(jié)果表明,加入多樣性的D-C&W 的攻擊成功率明顯高于原始的C&W 攻擊。使用DI-FGSM 方法能夠同時(shí)實(shí)現(xiàn)白盒攻擊和黑盒攻擊的高成功率,并在此基礎(chǔ)上提高對(duì)抗樣本的可遷移性。DI-FGSM 方法的更新過程與基本迭代方法相似。
圖3 所示為FGSM 方法及其變體的轉(zhuǎn)換關(guān)系,其中,N表示可遷移性概率,μ表示衰減因子,p表示總的迭代數(shù)量。
圖3 FGSM 方法及其變體之間的轉(zhuǎn)換關(guān)系Fig.3 Transformation relationship between FGSM method and its variants
2)C&W攻擊。CARLINI 和WAGNER[22]提出3 種對(duì)抗攻擊方法(L0攻擊、L2攻擊、L∞攻擊),用于尋找能夠最小化各種相似性度量的擾動(dòng)。通過限制L0、L2、L∞范數(shù),使得擾動(dòng)近似于無法被察覺。實(shí)驗(yàn)結(jié)果表明,這3 種攻擊以100%的成功率繞過了防御蒸餾,同時(shí)在L0、L2和L∞范數(shù)下保持對(duì)抗樣本與原始輸入相似,具有很強(qiáng)的可遷移性。在MNIST、CIFAR10和ImageNet 上進(jìn)行評(píng)估時(shí),C&W 方法優(yōu)于同一時(shí)期較先進(jìn)的攻擊方法,如BIM 攻擊,即使在現(xiàn)階段,C&W 攻擊依舊被廣泛應(yīng)用。
3)替代黑盒攻擊。PAPERNOT等人[23]提出一種早期的黑盒攻擊方法,即替代黑盒攻擊(Substitute Blackbox Attack,SBA)。SBA 攻擊訓(xùn)練一個(gè)模仿黑盒模型的替代模型,在該替代模型上使用白盒攻擊。具體而言,攻擊者首先從目標(biāo)模型收集一個(gè)合成數(shù)據(jù)集,訓(xùn)練一個(gè)替代模型來模擬目標(biāo)模型的預(yù)測(cè)。在訓(xùn)練替代模型后,可以使用任何白盒攻擊生成對(duì)抗樣本,原因是替代模型的細(xì)節(jié)已知。SBA 可用于攻擊其他機(jī)器學(xué)習(xí)模型,如邏輯回歸和支持向量機(jī)等模型。通過在MNIST 數(shù)據(jù)集上定位來自亞馬遜、谷歌和MetaMind 的真實(shí)世界圖像識(shí)別系統(tǒng)來評(píng)估SBA,結(jié)果表明,SBA 能夠以高精度(>80%)欺騙所有目標(biāo),且其可以規(guī)避依賴梯度掩蔽的防御方法。
4)DeepFool 攻擊。MOOSAVI 等人[24]提出一種不對(duì)原始樣本擾動(dòng)范圍進(jìn)行限制的新方法DeepFool,其為一種早期的對(duì)抗樣本生成方法,可以生成比快速梯度攻擊更小的擾動(dòng)。DeepFool 首先初始化原始圖像并假定分類器的決策邊界限制圖像分類的結(jié)果,然后通過每一次迭代,沿著決策邊界方向進(jìn)行擾動(dòng),逐步地將分類結(jié)果向決策邊界另一側(cè)移動(dòng),使得分類器分類錯(cuò)誤。和FGSM 相比,DeepFool計(jì)算速度更快,可以生成更精確的擾動(dòng)。
5)單像素攻擊。OPA[25]是一種“半黑盒”攻擊方法,其使用差分進(jìn)化算法策略來尋找對(duì)抗性擾動(dòng)。OPA 的目的是通過只修改給定圖像x的一個(gè)特征來欺騙目標(biāo)模型。通過對(duì)原有數(shù)據(jù)修改3 個(gè)或5 個(gè)像素來產(chǎn)生對(duì)抗樣本,在多種模型下都可達(dá)到誤分類的效果,好的情況下修改1 個(gè)像素即可產(chǎn)生誤分類結(jié)果。
6)AdvGAN 攻擊。XIAO 等人[26]提出一種基于生成對(duì)抗網(wǎng)絡(luò)(GAN)框架的對(duì)抗生成方法AdvGAN,AdvGAN 主要由3 個(gè)部分組成,分別為生成器G、判別器D和目標(biāo)神經(jīng)網(wǎng)絡(luò)C。該方法將原始樣本x通過GAN 生成器G映射成對(duì)抗擾動(dòng)G(x),然后將擾動(dòng)輸入原始樣本x中,一旦經(jīng)過訓(xùn)練,網(wǎng)絡(luò)可以迅速產(chǎn)生新的對(duì)抗樣本x+G(x),判別器D判別輸入的樣本是否為對(duì)抗樣本,同時(shí)用生成的對(duì)抗樣本欺騙目標(biāo)神經(jīng)網(wǎng)絡(luò)C。AdvGAN 在對(duì)抗性訓(xùn)練中的表現(xiàn)優(yōu)于快速梯度攻擊和C&W,其產(chǎn)生的對(duì)抗樣本在視覺上與真實(shí)樣本難以區(qū)分。但是,AdvGAN 方法存在一個(gè)潛在問題,盡管其被證明能夠繞過阻礙快速梯度攻擊和C&W 方法的防御方法,但與其他基準(zhǔn)對(duì)抗性攻擊和防御方法相比,AdvGAN 在對(duì)抗性訓(xùn)練設(shè)置中較為單一,可能不會(huì)被廣泛應(yīng)用。
7)通用對(duì)抗擾動(dòng)。通用對(duì)抗擾動(dòng)(Universal Adversarial Perturbation,UAP)[27]是一種適用于不同網(wǎng)絡(luò)模型的通用擾動(dòng)計(jì)算方法,其工作原理是累積單個(gè)輸入的擾動(dòng),以這種方式產(chǎn)生的擾動(dòng)v可以添加到每個(gè)數(shù)據(jù)樣本中,以便將它們推向目標(biāo)的決策邊界附近,重復(fù)此過程,直至樣本被錯(cuò)誤分類。實(shí)驗(yàn)結(jié)果表明,各種模型均存在通用擾動(dòng),通用擾動(dòng)在這些模型之間表現(xiàn)出較高的可轉(zhuǎn)換性。UAP 攻擊的一個(gè)潛在缺陷是其不能保證每一個(gè)更新的通用擾動(dòng)v對(duì)更新前出現(xiàn)的數(shù)據(jù)點(diǎn)仍然具有對(duì)抗性。
采取SPSS16.0軟件對(duì)整理后的數(shù)據(jù)做進(jìn)一步的描述統(tǒng)計(jì)分析、獨(dú)立樣本T檢驗(yàn)、相關(guān)分析以及一元回歸分析。
8)后向傳遞可微近似方法。ATHALYE 等人[28]針對(duì)現(xiàn)有多數(shù)防御方法依賴于模糊模型梯度的問題,提出利用防御模型的可微近似來獲得有意義的對(duì)抗梯度估計(jì)從而修改對(duì)抗攻擊的方法,該方法稱為BPDA 方法。BPDA 方法結(jié)合期望大于轉(zhuǎn)化攻擊(Expectation over Transformation,EoT)方法[40],可以攻破混淆梯度防御。BPDA 方法給定輸入樣本數(shù)據(jù)x,假設(shè)神經(jīng)網(wǎng)絡(luò)可寫為函數(shù)f1,2,…,j(x),在計(jì)算對(duì)抗樣本梯度時(shí),攻擊者可以用另一個(gè)函數(shù)g(x)來進(jìn)行計(jì)算,在前向傳播驗(yàn)證對(duì)抗樣本是否成功時(shí)仍然使用f1,2,…,j(x)進(jìn)行判斷。BPDA 方法成功攻破了7種基于混淆梯度的防御方法。
本文總結(jié)以上8 種比較經(jīng)典的對(duì)抗攻擊方法,包括攻擊類型、目標(biāo)、學(xué)習(xí)方式、攻擊強(qiáng)度及算法優(yōu)勢(shì)和劣勢(shì)。學(xué)習(xí)方式可分為單次迭代和多次迭代,單次迭代方法可以快速生成對(duì)抗樣本,并用于對(duì)抗訓(xùn)練從而提高模型的魯棒性;多次迭代方法則需要更多的計(jì)算時(shí)間來生成對(duì)抗樣本,但其攻擊效果強(qiáng)且難以防范。以上經(jīng)典對(duì)抗攻擊方法的對(duì)比分析結(jié)果如表1所示,其中,單步表示單次迭代,迭代表示多次迭代,W 表示白盒攻擊,B 表示黑盒攻擊,T 表示有目標(biāo)攻擊,NT 表示無目標(biāo)攻擊,*的數(shù)量代表攻擊強(qiáng)度。
表1 攻擊方法性能對(duì)比結(jié)果Table 1 Performance comparison results of attack methods
對(duì)抗樣本的存在促使學(xué)者開始思考如何成功防御對(duì)抗攻擊,從而避免模型識(shí)別錯(cuò)誤。對(duì)抗防御主要分為對(duì)抗攻擊檢測(cè)和提高模型魯棒性2 種方式,檢測(cè)方法獨(dú)立于防御方法,可以單獨(dú)用來檢測(cè)樣本的對(duì)抗性,也可以與防御方法結(jié)合使用。
對(duì)抗樣本產(chǎn)生原因的復(fù)雜性使得對(duì)于對(duì)抗樣本的通用化檢測(cè)變得十分困難。對(duì)抗攻擊檢測(cè)通過檢測(cè)樣本的對(duì)抗性來判斷其是否為對(duì)抗樣本。對(duì)抗攻擊檢測(cè)主要包括如下方法:
1)H&G 檢測(cè)方法。HENDRYCKS 等人[49]提出3 種對(duì)抗性檢測(cè)方法,統(tǒng)稱為H&G 檢測(cè)方法。從廣義上而言,H&G 檢測(cè)方法利用了正常樣本和擾動(dòng)問題之間的經(jīng)驗(yàn)差異來區(qū)分正常樣本和對(duì)抗樣本。3 種對(duì)抗性檢測(cè)方法具體如下:
(1)通過對(duì)對(duì)抗樣本的主成分分析白化輸入系數(shù)的方差從而檢測(cè)樣本的對(duì)抗性。當(dāng)攻擊者不知道防御措施是否到位時(shí),該方法可用于檢測(cè)FGSM 和BIM 攻擊。
(2)正常輸入和對(duì)抗輸入之間的Softmax分布不同,H&G 檢測(cè)方法利用該分布差異執(zhí)行對(duì)抗檢測(cè),測(cè)量均勻分布和Softmax 分布之間的Kullback-Leibler 散度,然后對(duì)其進(jìn)行基于閾值的檢測(cè)。研究發(fā)現(xiàn),正常樣本的Softmax 分布通常比對(duì)抗樣本的均勻分布離散,原因是模型傾向于以高置信度預(yù)測(cè)輸入。
(3)在以邏輯為輸入的分類器模型中加入一個(gè)輔助譯碼器重構(gòu)圖像從而檢測(cè)對(duì)抗樣本,解碼器和分類器只在正常樣本上聯(lián)合訓(xùn)練,檢測(cè)通過創(chuàng)建一個(gè)檢測(cè)器網(wǎng)絡(luò)來完成,該網(wǎng)絡(luò)以重建邏輯和置信度得分為輸入,輸出一個(gè)輸入具有對(duì)抗性的概率,其中,探測(cè)器網(wǎng)絡(luò)在正常樣本和對(duì)抗樣本上都受過訓(xùn)練。該方法能夠檢測(cè)FGSM 和BIM 產(chǎn)生的對(duì)抗樣本。
2)對(duì)抗性檢測(cè)網(wǎng)絡(luò)。METZEN 等人[50]提出對(duì)抗性檢測(cè)網(wǎng)絡(luò)(Adversary Detector Network,ADN),其為一種用二元檢測(cè)器網(wǎng)絡(luò)擴(kuò)充預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的檢測(cè)方法,檢測(cè)器網(wǎng)絡(luò)被訓(xùn)練以區(qū)分正常樣本和對(duì)抗樣本。ADN 方法能有效檢測(cè)FGSM、DeepFool 和BIM 攻擊,但CARLINI 等人[51]發(fā)現(xiàn)該方法對(duì)C&W等強(qiáng)攻擊具有較高的假陽性,并可以通過SBA 攻擊來規(guī)避。GONG 等人[52]對(duì)ADN 方法進(jìn)行改進(jìn),改進(jìn)方法中的二進(jìn)制分類器是一個(gè)與主分類器完全分離的網(wǎng)絡(luò),其不是針對(duì)檢測(cè)器生成對(duì)抗樣本,而是為預(yù)訓(xùn)練分類器生成對(duì)抗樣本,并將這些對(duì)抗樣本添加到原始訓(xùn)練數(shù)據(jù)中以訓(xùn)練二進(jìn)制分類器。但CARLINI 等人[51]指出,該改進(jìn)方法在CIFAR10 模型上測(cè)試時(shí)具有較高的假陽性,并且容易受到C&W攻擊。
3)核密度法和貝葉斯不確定性估計(jì)法。FEINMAN等人[53]假設(shè)對(duì)抗樣本不在非對(duì)抗性數(shù)據(jù)流形中,在此情況下提出核密度法和貝葉斯不確定性估計(jì)(Bayesian Uncertainty Estimates,BUE)2 種對(duì)抗性檢測(cè)方法。使用核密度估計(jì)(Kernel Density Estimates,KDE)的目的是確定一個(gè)數(shù)據(jù)點(diǎn)是否遠(yuǎn)離類流形,而BUE 可以用來檢測(cè)靠近KDE 無效的低置信區(qū)域的數(shù)據(jù)點(diǎn)。BUE 是較難欺騙的檢測(cè)方法,作為現(xiàn)有網(wǎng)絡(luò)的附加組件,其實(shí)現(xiàn)也相對(duì)簡(jiǎn)單。
4)特征壓縮。XU 等人[54]認(rèn)為輸入特征的維度通常過大,導(dǎo)致出現(xiàn)一個(gè)大的攻擊面。根據(jù)該原理,他們提出基于特征壓縮的檢測(cè)方法(FS),用以比較壓縮和非壓縮輸入之間的預(yù)測(cè)結(jié)果。特征壓縮的目的是從輸入中去除不必要的特征,以區(qū)分正常樣本與對(duì)抗樣本。如果模型對(duì)壓縮和非壓縮輸入的預(yù)測(cè)結(jié)果之間的L1范數(shù)差大于某個(gè)閾值T,則該輸入被標(biāo)記為對(duì)抗性輸入。FS 方法獨(dú)立于防御模型,因此,其可以與其他防御技術(shù)結(jié)合使用。特征壓縮被證明能夠在攻擊者不了解所使用的防御策略的情況下檢測(cè)由FGSM、BIM、DeepFool、JSMA[55]和C&W攻擊生成的對(duì)抗樣本。
5)逆交叉熵檢測(cè)。2017 年,PANG 等人[56]提出利用新的目標(biāo)函數(shù)進(jìn)行反向檢測(cè)的逆交叉熵(Reverse Cross-Entropy,RCE)方法,該方法訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)以區(qū)分對(duì)抗樣本和正常樣本。在FGSM、BIM/ILLCM、C&W、MNIST 和CIFAR10 數(shù)據(jù)集上進(jìn)行評(píng)估,結(jié)果表明RCE 具有有效性。與使用標(biāo)準(zhǔn)交叉熵作為目標(biāo)函數(shù)的方法相比,RCE 不僅允許用戶進(jìn)行對(duì)抗性檢測(cè),而且在總體上提高了模型的魯棒性。
本節(jié)總結(jié)現(xiàn)階段主要的對(duì)抗攻擊檢測(cè)方法的性能,結(jié)果如表2 所示。
表2 對(duì)抗攻擊檢測(cè)方法性能對(duì)比結(jié)果Table 2 Performance comparison results of adversarial attacks detection methods
為了使模型對(duì)對(duì)抗性攻擊更加具有魯棒性,研究人員提出不同的防御方法,這些方法建立在對(duì)抗性和正常輸入下同樣具有良好表現(xiàn)的模型上,使模型對(duì)輸入的不相關(guān)變化不太敏感,從而有效地正則化模型以減少攻擊面,并限制對(duì)非流形擾動(dòng)的響應(yīng)。目前,針對(duì)對(duì)抗攻擊的防御方式主要分為以下4 類:
1)數(shù)據(jù)擴(kuò)充,該方法通過在訓(xùn)練集中加入對(duì)抗樣本進(jìn)行再訓(xùn)練,從而提高模型的魯棒性。
2)預(yù)處理方法,該方法通過對(duì)原有數(shù)據(jù)進(jìn)行處理從而降低對(duì)抗樣本的有效性。
3)正則化方法,該方法使用防御蒸餾方法降低網(wǎng)絡(luò)梯度的大小,提高發(fā)現(xiàn)小幅度擾動(dòng)對(duì)抗樣本的能力。
4)數(shù)據(jù)隨機(jī)化處理,該方法通過對(duì)輸入進(jìn)行隨機(jī)調(diào)整來消除擾動(dòng)。
4.2.1 數(shù)據(jù)擴(kuò)充
具有代表性的數(shù)據(jù)擴(kuò)充方法如下:
1)對(duì)抗訓(xùn)練。為提高神經(jīng)網(wǎng)絡(luò)模型在對(duì)抗攻擊環(huán)境下的魯棒性,很多學(xué)者對(duì)對(duì)抗樣本進(jìn)行代入訓(xùn)練[12]。在每次迭代訓(xùn)練中,通過在訓(xùn)練集中注入對(duì)抗樣本來對(duì)模型進(jìn)行再訓(xùn)練。由于單步對(duì)抗訓(xùn)練的魯棒性主要由梯度掩蔽引起,因此該模型可以被其他類型的攻擊所規(guī)避。此外,單步對(duì)抗訓(xùn)練可能會(huì)出現(xiàn)標(biāo)簽泄漏問題,容易導(dǎo)致模型過度擬合。
2)映射梯度下降對(duì)抗訓(xùn)練。2018 年,MADRY 等人[57]改進(jìn)了對(duì)抗訓(xùn)練,提出一種映射梯度下降對(duì)抗訓(xùn)練(Projected Gradient Descent,PGD)。標(biāo)準(zhǔn)對(duì)抗訓(xùn)練方法是在正常樣本和對(duì)抗樣本上訓(xùn)練模型,而在PDG框架中,模型只在對(duì)抗樣本上訓(xùn)練。PGD 方法在白盒和黑盒2 種設(shè)置下對(duì)各種類型的攻擊都保持一致的魯棒性,但其模型可能無法達(dá)到最優(yōu)的性能。由于PGD的計(jì)算代價(jià)隨迭代次數(shù)的增加而提高,因此該方法的計(jì)算代價(jià)通常高于標(biāo)準(zhǔn)對(duì)抗訓(xùn)練。
3)綜合性對(duì)抗訓(xùn)練。2018 年,針對(duì)傳統(tǒng)對(duì)抗訓(xùn)練容易出現(xiàn)過擬合的問題,TRAMER 等人[58]提出綜合性對(duì)抗訓(xùn)練,其為對(duì)抗性訓(xùn)練的另一種變體。在綜合性對(duì)抗訓(xùn)練中,模型根據(jù)生成的對(duì)抗樣本進(jìn)行再訓(xùn)練,以攻擊其他各種預(yù)先訓(xùn)練的模型。這種目標(biāo)模型和對(duì)抗訓(xùn)練實(shí)例的分離能夠有效克服傳統(tǒng)對(duì)抗訓(xùn)練的過擬合問題。
4)邏輯配對(duì)防御機(jī)制。KANNAN 等人[59]提出邏輯配對(duì)防御(ALP)機(jī)制,其鼓勵(lì)輸入對(duì)(即對(duì)抗性和非對(duì)抗性輸入對(duì))的邏輯相似,并設(shè)計(jì)對(duì)抗性邏輯配對(duì)和正常邏輯配對(duì)(CLP)2 種不同的邏輯配對(duì)策略。ALP 在原始輸入及其對(duì)抗輸入之間強(qiáng)制執(zhí)行邏輯不變性,而CLP 在任何一對(duì)輸入之間強(qiáng)制執(zhí)行邏輯不變性。KANNAN 等人發(fā)現(xiàn)PGD 攻擊的對(duì)抗性訓(xùn)練與ALP 相結(jié)合,在ImageNet 模型上對(duì)白盒攻擊與黑盒攻擊都具有較優(yōu)的魯棒性。
4.2.2 預(yù)處理方法
通過對(duì)數(shù)據(jù)進(jìn)行預(yù)處理能夠降低對(duì)抗樣本的有效性,現(xiàn)有的預(yù)處理方法主要包括:
1)通過學(xué)習(xí)非對(duì)抗性數(shù)據(jù)集的分布,將對(duì)抗性輸入投射到學(xué)習(xí)的非對(duì)抗性流形中。
2)通過對(duì)對(duì)抗樣本的過濾或去噪將其轉(zhuǎn)化為純凈樣本。
3)對(duì)輸入進(jìn)行變換處理,使攻擊者難以計(jì)算模型的梯度,從而達(dá)到防御對(duì)抗攻擊的目的。
4)對(duì)輸入數(shù)據(jù)進(jìn)行量化和離散化處理,有效消除對(duì)抗性擾動(dòng)的影響。
具有代表性的預(yù)處理方法具體如下:
1)去噪特征映射方法。XIE 等人[60]研究發(fā)現(xiàn),與原始輸入相比,對(duì)抗性擾動(dòng)導(dǎo)致模型生成的特征圖所發(fā)生的變化較大,基于此,他們提出一種去噪特征映射(FDB)方法。實(shí)驗(yàn)結(jié)果表明,去噪塊不會(huì)大幅降低非對(duì)抗性輸入的性能,當(dāng)與PGD 對(duì)抗訓(xùn)練相結(jié)合時(shí),無論是在黑盒還是白盒模式下,F(xiàn)DB 防御都能達(dá)到當(dāng)時(shí)較優(yōu)的對(duì)抗魯棒性。
2)綜合分析方法。一些基于生成對(duì)抗網(wǎng)絡(luò)的防御機(jī)制相繼被提出,如基于生成模型的GAN 防御方法,該方法學(xué)習(xí)非對(duì)抗性數(shù)據(jù)集的分布,以將對(duì)抗性輸入投射到學(xué)習(xí)的非對(duì)抗性流形中。SCHOTT 等人[61]提出了綜合分析(ABS)防御方法,該方法并非學(xué)習(xí)整個(gè)數(shù)據(jù)集的輸入分布,而是學(xué)習(xí)每個(gè)類的輸入分布。在MNIST 數(shù)據(jù)集上,ABS 在對(duì)抗L0和L2對(duì)抗樣本時(shí)表現(xiàn)出比PGD 對(duì)抗性訓(xùn)練更優(yōu)、更健壯的效果,但針對(duì)L∞對(duì)抗樣本時(shí)ABS 的魯棒性較低。
3)ME-Net 方法。YANG等人[62]提出基于預(yù)處理的防御方法ME-Net,其對(duì)輸入進(jìn)行預(yù)處理,以破壞對(duì)抗性噪聲的結(jié)構(gòu)。ME-Net 方法的工作原理是根據(jù)一定的概率r隨機(jī)丟棄輸入圖像中的像素點(diǎn),假設(shè)該概率r可以破壞對(duì)抗干擾,使用矩陣估計(jì)算法重建圖像。ME-Net 方法是從噪聲觀測(cè)中恢復(fù)矩陣數(shù)據(jù)的方法,在CIFAR-10、MNIST、SVHN 和小型ImageNet 數(shù)據(jù)集上的黑盒和白盒模式中,ME-Net 測(cè)試各種L∞攻擊時(shí)都表現(xiàn)出了很強(qiáng)的健壯性。
4)總方差最小化和圖像拼接方法。在分類之前,可以對(duì)輸入圖像應(yīng)用各種圖像變換方法,在這些圖像變換方法中,GUO 等人[63]研究發(fā)現(xiàn)總方差最小化和圖像拼接最有效,特別是當(dāng)模型在轉(zhuǎn)換后的圖像上訓(xùn)練時(shí),總方差最小化和圖像拼接都引入了隨機(jī)性,并且都是不可微的操作,使得攻擊者很難計(jì)算模型的梯度。該防御是模型不可知的,意味著模型無需再訓(xùn)練或微調(diào),且這種防御方法可以與其他防御方法結(jié)合使用。
5)溫度計(jì)編碼防御方法。BUCKMAN 等人[64]提出神經(jīng)網(wǎng)絡(luò)的線性使其易受攻擊的假設(shè),并根據(jù)該假設(shè)提出溫度計(jì)編碼防御(TE)方法。TE 防御對(duì)輸入數(shù)據(jù)進(jìn)行量化和離散化處理,有效消除了通常由對(duì)抗性攻擊引起的對(duì)抗擾動(dòng)影響。TE 防御和對(duì)抗訓(xùn)練相結(jié)合后具有很高的對(duì)抗穩(wěn)健性,可以超過PGD 對(duì)抗訓(xùn)練,但是,TE 防御依賴梯度掩蔽,可以使用BPDA 攻擊繞過。
4.2.3 正則化方法
正則化方法包括深度壓縮網(wǎng)絡(luò)[65]和防御蒸餾[66]等。防御蒸餾是早期較為經(jīng)典的一種方法,“蒸餾”一詞由HINTON 等人[67]引入,是一種將深層神經(jīng)網(wǎng)絡(luò)集合中的知識(shí)壓縮為單一神經(jīng)網(wǎng)絡(luò)的方法。防御蒸餾由原始網(wǎng)絡(luò)和蒸餾網(wǎng)絡(luò)2 個(gè)網(wǎng)絡(luò)組成,原始網(wǎng)絡(luò)也叫教師網(wǎng)絡(luò),一般為參數(shù)多且結(jié)構(gòu)復(fù)雜的網(wǎng)絡(luò),蒸餾網(wǎng)絡(luò)也叫學(xué)生網(wǎng)絡(luò),一般為參數(shù)少且結(jié)構(gòu)簡(jiǎn)單的網(wǎng)絡(luò)。蒸餾方法可以將教師網(wǎng)絡(luò)的知識(shí)有效地遷移到學(xué)生網(wǎng)絡(luò),從而起到壓縮網(wǎng)絡(luò)的作用。防御蒸餾對(duì)由早期攻擊方法生成的對(duì)抗樣本具有健壯性,但是,這種防御易受到C&W 與SBA 變體的攻擊。
4.2.4 數(shù)據(jù)隨機(jī)化處理
數(shù)據(jù)隨機(jī)化處理包括隨機(jī)調(diào)整大小、填充、隨機(jī)激活剪枝[68]等。XIE 等人[69]提出基于隨機(jī)調(diào)整大小和填充(RRP)的防御機(jī)制,其通過輸入變換消除擾動(dòng),并在推理過程中引入隨機(jī)性,使得相對(duì)于輸入的損失梯度更難計(jì)算。該機(jī)制不需要對(duì)防御模型進(jìn)行微調(diào)就能保證精確性,并且可以與如對(duì)抗性訓(xùn)練等其他防御方法相結(jié)合,對(duì)FGSM、BIM、DeepFool 和C&W 等白盒攻擊都表現(xiàn)出良好的性能。
現(xiàn)階段主要的4類防御方法總結(jié)對(duì)比如表3所示。在保證計(jì)算成本的情況下,目前較常用的防御方法是數(shù)據(jù)擴(kuò)充方法。隨著攻擊手段的提高,未來可能會(huì)以多種方法相結(jié)合的方式來提高模型的魯棒性,并且使得模型的魯棒性與準(zhǔn)確率達(dá)到平衡。
表3 各種防御方法總結(jié)對(duì)比結(jié)果Table 3 Summary and comparison results of various defense methods
隨著對(duì)抗樣本研究的多樣化發(fā)展,學(xué)者們開始從不同角度探索對(duì)抗樣本的特性,發(fā)現(xiàn)除對(duì)抗樣本對(duì)神經(jīng)網(wǎng)絡(luò)模型構(gòu)成威脅之外,還可以利用對(duì)抗樣本的特性提高模型性能,具體如下:
1)利用對(duì)抗樣本提高圖像識(shí)別準(zhǔn)確率。XIE 等人[15]研究發(fā)現(xiàn)已有方法可以共同訓(xùn)練原始圖像和對(duì)抗樣本,但此類方法往往會(huì)導(dǎo)致最終圖像識(shí)別準(zhǔn)確率下降,即使從不同的分布中提取圖像,也會(huì)導(dǎo)致同樣的結(jié)果。由此他們假設(shè)原始圖像與對(duì)抗樣本之間分布不匹配是導(dǎo)致此類方法性能下降的關(guān)鍵因素,基于該假設(shè),XIE 等人提出一種新的訓(xùn)練方法——AdvProp 方法,其通過一種簡(jiǎn)單且高效的兩批次標(biāo)準(zhǔn)方法來解決分布不匹配的問題。使用2 個(gè)批處理規(guī)范統(tǒng)計(jì)信息,一個(gè)用于原始樣本,另一個(gè)用于對(duì)抗樣本,2 個(gè)批處理規(guī)范在歸一化層正確分散了2 個(gè)分布,以進(jìn)行準(zhǔn)確的統(tǒng)計(jì)估計(jì)。實(shí)驗(yàn)結(jié)果表明,AdvProp大幅提高了卷積網(wǎng)絡(luò)的模型識(shí)別準(zhǔn)確率。
2)利用對(duì)抗性特征解決超分辨率問題。感知損失函數(shù)在解決圖像超分辨率問題時(shí)雖然取得了較好效果,但也會(huì)在超分辨輸出中產(chǎn)生不期望的圖案?jìng)蜗?。TEJ 等人[70]針對(duì)圖像超分辨率不確定的問題,提出利用內(nèi)容損失函數(shù)增強(qiáng)現(xiàn)有感知損失函數(shù)的方法,該函數(shù)使用鑒別器網(wǎng)絡(luò)的潛在特征來過濾多個(gè)對(duì)抗相似性級(jí)別上的不需要的偽像。實(shí)驗(yàn)結(jié)果表明,上述損失函數(shù)具有互補(bǔ)的優(yōu)勢(shì),相結(jié)合后可以有效提高超分辨率重建的保真度。
3)利用對(duì)抗擾動(dòng)檢測(cè)木馬。ZHANG 等人[71]針對(duì)深度神經(jīng)網(wǎng)絡(luò)木馬中毒的問題,提出一種驗(yàn)證預(yù)訓(xùn)練模型是否被特洛伊木馬攻擊的方法。該方法利用從網(wǎng)絡(luò)梯度中學(xué)到的對(duì)抗性擾動(dòng)的形式捕獲神經(jīng)網(wǎng)絡(luò)指紋,在系統(tǒng)后門插入神經(jīng)網(wǎng)絡(luò)會(huì)更改其決策邊界,這些系統(tǒng)后門可以在其對(duì)抗性干擾中有效地進(jìn)行編碼,從其全局(L∞和L2有界)擾動(dòng)以及每個(gè)擾動(dòng)內(nèi)的高能量局部區(qū)域訓(xùn)練2 個(gè)流網(wǎng)絡(luò)來檢測(cè)木馬。前者對(duì)網(wǎng)絡(luò)的決策邊界進(jìn)行編碼,后者對(duì)未知的觸發(fā)形狀進(jìn)行編碼,并設(shè)計(jì)一種不會(huì)改變觸發(fā)類型、觸發(fā)大小、訓(xùn)練數(shù)據(jù)和網(wǎng)絡(luò)架構(gòu)的異常檢測(cè)方法來識(shí)別木馬網(wǎng)絡(luò)中的目標(biāo)類。實(shí)驗(yàn)結(jié)果表明,該方法能夠取得92%以上的檢測(cè)精度。
深度學(xué)習(xí)技術(shù)的迅速發(fā)展,使得其在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域取得重大進(jìn)展的同時(shí)也暴露了數(shù)據(jù)、模型等安全隱患。針對(duì)在深度學(xué)習(xí)系統(tǒng)中出現(xiàn)的安全問題,研究人員開展了一系列攻擊防御方法研究,但是,對(duì)于深度學(xué)習(xí)系統(tǒng)的安全性能而言,未來還有很多問題等待解決。本文總結(jié)以下3 個(gè)未來的研究方向:
1)應(yīng)用對(duì)抗樣本技術(shù)作為數(shù)據(jù)增強(qiáng)的手段。對(duì)抗樣本可用于提升模型的泛化性,起到數(shù)據(jù)增強(qiáng)的作用,目前通常在圖像分類中提高分類準(zhǔn)確率,也可以在惡意軟件檢測(cè)中提升對(duì)惡意軟件的檢測(cè)率。相較于普通的數(shù)據(jù)增強(qiáng),對(duì)抗樣本的優(yōu)勢(shì)是可以根據(jù)模型自身去調(diào)整正則化的強(qiáng)度,從而更好地優(yōu)化模型。
2)改進(jìn)對(duì)抗訓(xùn)練。對(duì)抗訓(xùn)練是目前較優(yōu)的提高模型魯棒性的方法,但其存在速度慢、在小數(shù)據(jù)集上訓(xùn)練會(huì)過擬合等問題。后續(xù)將在兼顧計(jì)算效率與效果的情況下,結(jié)合不同的損失函數(shù)或者改進(jìn)應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)。
3)研究除范數(shù)約束和對(duì)抗訓(xùn)練之外的攻擊防御方法?,F(xiàn)有的攻擊防御大多是基于范數(shù)約束和對(duì)抗訓(xùn)練,而這些方法不是唯一有效的攻擊防御手段,例如,通過風(fēng)格遷移技術(shù)可以生成對(duì)抗樣本、利用3D打印技術(shù)能夠?qū)崿F(xiàn)攻擊等。因此,在物理場(chǎng)景中應(yīng)用并開展對(duì)抗樣本防御的研究,從不同角度探索其他的攻擊防御方式也具有實(shí)際意義。
針對(duì)深度學(xué)習(xí)技術(shù)的安全問題,本文介紹對(duì)抗樣本和對(duì)抗攻擊的概念,對(duì)比分析目前比較經(jīng)典的對(duì)抗攻擊方法,在此基礎(chǔ)上,總結(jié)現(xiàn)階段相應(yīng)的防御方法和對(duì)抗攻擊檢測(cè)方法的性能。深度學(xué)習(xí)模型的安全領(lǐng)域未來仍有許多問題需要解決,對(duì)抗樣本防御技術(shù)將與統(tǒng)計(jì)學(xué)習(xí)等方法相結(jié)合,為同時(shí)提升模型的泛化性和魯棒性提供新思路,加快推進(jìn)深度學(xué)習(xí)模型的安全建設(shè),保護(hù)人們的信息隱私安全。