王曉萌, 陳鴻龍*, 張安慶, 李雋健, 石樂(lè)義
(中國(guó)石油大學(xué)(華東) a 控制科學(xué)與工程學(xué)院, b 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 山東 青島 266580)
人工智能技術(shù)自1956年提出以來(lái),其發(fā)展經(jīng)歷了復(fù)雜而又漫長(zhǎng)的過(guò)程.目前人工智能在不同應(yīng)用領(lǐng)域都取得了極大的成就,被視作推動(dòng)發(fā)展的新技術(shù).深度學(xué)習(xí)作為人工智能的核心技術(shù)之一,由于當(dāng)前大型及代表性數(shù)據(jù)集的可用性,已經(jīng)被廣泛用于各個(gè)領(lǐng)域,如計(jì)算機(jī)視覺(jué)[1-2]、醫(yī)學(xué)圖像分析[3-4]、自然語(yǔ)言處理[5-6]以及其他相關(guān)應(yīng)用[7-8]等.深度學(xué)習(xí)給人們帶來(lái)巨大便利的同時(shí),其安全問(wèn)題也開(kāi)始引起人們的重視.例如,系統(tǒng)模型會(huì)對(duì)添加擾動(dòng)的輸入樣本產(chǎn)生誤判,即以高置信度來(lái)預(yù)測(cè)出一個(gè)錯(cuò)誤結(jié)果.這些被添加擾動(dòng)的樣本稱為對(duì)抗樣本,近年來(lái)成為研究者關(guān)注的熱點(diǎn).
對(duì)抗樣本(Adversarial Examples),即視為攻擊者精心設(shè)計(jì)的特殊樣本,可以導(dǎo)致模型的錯(cuò)誤預(yù)測(cè).這一概念由Szegedy等[9]首次提出,他們證明在輸入圖像上添加輕微的擾動(dòng),能使得深度學(xué)習(xí)網(wǎng)絡(luò)產(chǎn)生錯(cuò)誤預(yù)測(cè)結(jié)果,網(wǎng)絡(luò)中過(guò)多的非線性特征和無(wú)適當(dāng)?shù)恼齽t化是對(duì)抗樣本的存在原因.而Goodfellow等[10]卻有著相反的觀點(diǎn),他們認(rèn)為深度網(wǎng)絡(luò)的高維線性才是對(duì)抗樣本存在的原因,繼而提出一個(gè)快速生成對(duì)抗樣本的方法——快速梯度符號(hào)法(fast gradient sign method, FGSM).自此,生成對(duì)抗樣本的優(yōu)化算法不斷涌現(xiàn).盡管對(duì)抗樣本存在的原因至今沒(méi)有達(dá)成統(tǒng)一的觀點(diǎn),但毋庸置疑,對(duì)抗樣本的存在必然帶來(lái)很大的安全隱患,更深入地研究對(duì)抗樣本的攻防策略是很有必要的.
本文將對(duì)抗樣本生成的相關(guān)研究工作進(jìn)行匯總,著重選取具有代表性的方法進(jìn)行原理介紹和分析.本文的基本框架如下:第1章主要介紹對(duì)抗樣本的起源和基本原理;第2章分類討論對(duì)抗樣本生成方法;第3章介紹部分對(duì)抗樣本生成方法的實(shí)驗(yàn)結(jié)果;第4章總結(jié)了對(duì)抗樣本在不同領(lǐng)域的應(yīng)用;第5章指出對(duì)抗樣本面臨的挑戰(zhàn)和前景預(yù)測(cè).
對(duì)抗樣本被定義為在原樣本上添加難以察覺(jué)的擾動(dòng)所形成的樣本,它可以“欺騙”模型使其產(chǎn)生錯(cuò)誤的預(yù)測(cè)結(jié)果,從而大大降低模型的整體精度.
對(duì)抗樣本由Szegedy等[9]首次提出,研究表明在神經(jīng)網(wǎng)絡(luò)高層中,包含語(yǔ)義信息的是空間而不是單個(gè)神經(jīng)元,同時(shí)發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的輸入輸出映射是不連續(xù)的,為了干擾網(wǎng)絡(luò)對(duì)圖像的預(yù)測(cè),增大網(wǎng)絡(luò)的輸出誤差來(lái)得到難以察覺(jué)的擾動(dòng),并提出解決以下優(yōu)化問(wèn)題,以計(jì)算一個(gè)能使得圖像略微扭曲且能“欺騙”網(wǎng)絡(luò)的擾動(dòng)δ:
(1)
式中,t表示特定的目標(biāo)類別,f表示神經(jīng)網(wǎng)絡(luò)分類器.最小化δ取值不唯一且計(jì)算困難,因此,使用稱為L(zhǎng)-BFGS的近似求解方法.通過(guò)搜索c的最小值,優(yōu)化式(2)來(lái)得到最小值δ,同時(shí)滿足條件f(X+δ)=t:
(2)
式中,J表示損失函數(shù).通過(guò)求解式(2)中的優(yōu)化問(wèn)題,計(jì)算能“欺騙”神經(jīng)網(wǎng)絡(luò)且滿足L2距離最小的對(duì)抗樣本.這類對(duì)抗樣本的生成方法,可以推廣到不同的模型和訓(xùn)練集中.
深度神經(jīng)網(wǎng)絡(luò)是由神經(jīng)元層組成的大型神經(jīng)網(wǎng)絡(luò).一個(gè)神經(jīng)網(wǎng)絡(luò)可以簡(jiǎn)單表示為:fθ:X→Y,其中X表示輸入,Y表示輸出,θ表示模型訓(xùn)練學(xué)習(xí)的參數(shù).對(duì)于監(jiān)督式學(xué)習(xí)任務(wù),模型學(xué)習(xí)的目的是找到最優(yōu)參數(shù),使得網(wǎng)絡(luò)模型預(yù)測(cè)fθ(X)和真實(shí)標(biāo)記Y的差異最小化,通常這個(gè)差異用損失函數(shù)J(fθ(X),Y)來(lái)衡量.
對(duì)抗樣本是在測(cè)試階段利用數(shù)據(jù)擾動(dòng)使得神經(jīng)網(wǎng)絡(luò)做出錯(cuò)誤預(yù)測(cè),從而降低模型的整體精度.例如,圖像中添加的擾動(dòng)難以被肉眼識(shí)別,卻能使模型產(chǎn)生錯(cuò)誤的分類結(jié)果.對(duì)抗樣本可被歸結(jié)為下式:
Xadv=X+δs.t.D(Xadv,X)<ε
(3)
式中,δ表示添加的擾動(dòng),D(X,Xadv)表示原始圖像與對(duì)抗樣本的差距,顯然這個(gè)差距要盡可能小.對(duì)于無(wú)特定目標(biāo)攻擊來(lái)說(shuō),對(duì)抗樣本的目的是使f(Xadv)≠f(X);而對(duì)于特定目標(biāo)攻擊,其目的是使f(Xadv)=t,t為某一目標(biāo)標(biāo)記類別.
對(duì)于上述描述,可以總結(jié)為優(yōu)化問(wèn)題.對(duì)于無(wú)特定目標(biāo)攻擊,攻擊者感興趣的是與正確輸出不同的任意輸出,即最大化損失函數(shù)使得預(yù)測(cè)朝著錯(cuò)誤的方向:
maxJ(f(Xadv),y) s.t.D(Xadv,X)<ε
(4)
依照上式優(yōu)化對(duì)抗樣本,使得模型輸出偏離原始預(yù)測(cè)結(jié)果.
對(duì)于特定目標(biāo)攻擊,給定一個(gè)目標(biāo)輸出t,則優(yōu)化問(wèn)題為
minJ(f(Xadv),t) s.t.D(X,Xadv)<ε
(5)
在給定目標(biāo)輸出的情況下,最小化損失函數(shù)使模型得到目標(biāo)輸出,即使得深度神經(jīng)網(wǎng)絡(luò)對(duì)抗樣本的預(yù)測(cè)為指定標(biāo)記類別.
對(duì)抗樣本的生成方法可以從以下幾個(gè)角度進(jìn)行劃分:期望輸出、攻擊方式和攻擊策略[11].
對(duì)于模型的期望輸出,對(duì)抗樣本的生成方法可以分為無(wú)特定目標(biāo)攻擊(Non-targeted Attack)和特定目標(biāo)攻擊(Targeted Attack).無(wú)特定目標(biāo)攻擊又被稱為非目標(biāo)針對(duì)性攻擊,其對(duì)抗性輸出不指定類別,只產(chǎn)生盡可能多的錯(cuò)誤分類.特定目標(biāo)攻擊又被稱為目標(biāo)針對(duì)性攻擊,其對(duì)抗性輸出為特定的類別,基本上獨(dú)立于添加了擾動(dòng)的輸入點(diǎn).
對(duì)于添加的擾動(dòng)范圍,又可以分為特定、語(yǔ)境和通用范圍.特定范圍的攻擊是針對(duì)一個(gè)特定的輸入圖像而設(shè)計(jì)的擾動(dòng),相同的擾動(dòng)不一定會(huì)使模型中的其他數(shù)據(jù)點(diǎn)預(yù)測(cè)錯(cuò)誤.語(yǔ)境范圍的攻擊是創(chuàng)建一種固定的圖像不可知的擾動(dòng),該擾動(dòng)會(huì)導(dǎo)致針對(duì)一種或多種特定上下文情況的標(biāo)簽更改.例如,擾動(dòng)適用于下雪或下雨天的交通情況,能夠在大多數(shù)的角度、距離和光照下“欺騙”模型.通用范圍的攻擊是創(chuàng)建一個(gè)固定的圖像不可知的擾動(dòng),該擾動(dòng)會(huì)導(dǎo)致真實(shí)數(shù)據(jù)分布的重要部分的標(biāo)簽更改,而沒(méi)有明確的上下文相關(guān)性.
對(duì)于攻擊方式,生成方法可分為白盒攻擊和黑盒攻擊,其中黑盒攻擊包括輸出透明、標(biāo)簽透明、查詢限制和完整的黑盒攻擊.白盒攻擊的攻擊者充分了解模型的內(nèi)部知識(shí),包括具體的體系結(jié)構(gòu)、所有參數(shù)和權(quán)重配置以及可能的訓(xùn)練策略.在輸出透明的黑盒攻擊中,對(duì)手無(wú)法檢索模型參數(shù),但可以觀察模型輸出的全部或部分分類概率;標(biāo)簽透明的黑盒攻擊既不能訪問(wèn)相關(guān)的模型參數(shù),也不能訪問(wèn)類別概率或?qū)?shù),但可以觀察系統(tǒng)最終分類決策的全部或部分內(nèi)容,即只能訪問(wèn)推斷的標(biāo)簽;對(duì)于查詢限制的黑盒攻擊,對(duì)手無(wú)法訪問(wèn)相關(guān)的模型參數(shù),但可以在有限數(shù)量的輸入或有限頻率下觀察模塊輸出的全部或部分內(nèi)容;而在完整的黑盒攻擊中,對(duì)手既不能檢索相關(guān)模型參數(shù),也不能直接觀察模型的輸出.
對(duì)于攻擊策略中的優(yōu)化方法,可以分為一階方法、二階方法和進(jìn)化與隨機(jī)抽樣等三種.在一階方法優(yōu)化方式中,試圖利用精確或近似梯度給出的擾動(dòng)方向進(jìn)行優(yōu)化;二階方法優(yōu)化的擾動(dòng)搜索基于Hessian矩陣的計(jì)算或Hessian矩陣的近似值;基于進(jìn)化與隨機(jī)抽樣優(yōu)化的方法是通過(guò)對(duì)分布進(jìn)行抽樣并組合有潛力的數(shù)據(jù)來(lái)產(chǎn)生可能的擾動(dòng).
2.1.1 白盒攻擊
(1)快速梯度符號(hào)法(FGSM)
Goodfellow等[10]通過(guò)調(diào)整輸入圖像的每個(gè)像素來(lái)創(chuàng)建擾動(dòng)圖像,從而使預(yù)測(cè)結(jié)果變差,算法如式(6)所示:
Xadv=X+ε·sign(xJ(X,θ,ytrue))
(6)
式中,X為原始圖像,通常為3D張量(寬度×高度×深度),像素的值是[0,255,255]范圍內(nèi)的整數(shù),ytrue是原始圖像X的真實(shí)標(biāo)簽,ε是擾動(dòng)強(qiáng)度,xJ(X,θ,ytrue)為分類模型的交叉熵值.
(2)ILCM法[12]
為了能應(yīng)用于類別數(shù)量大、類別之間差異程度大的數(shù)據(jù)集,實(shí)現(xiàn)無(wú)特定目標(biāo)攻擊到特定目標(biāo)攻擊的轉(zhuǎn)換,在I-FGSM的基礎(chǔ)上根據(jù)原始圖像X上訓(xùn)練網(wǎng)絡(luò)的預(yù)測(cè),選擇了可能性最小的類別作為模型指定的錯(cuò)誤類YLL:
(7)
(8)
隨后Madry等[13]發(fā)現(xiàn)在105個(gè)隨機(jī)起點(diǎn)處發(fā)現(xiàn)的交叉熵?fù)p失的局部最大值是不同的,但對(duì)于正常訓(xùn)練和對(duì)抗訓(xùn)練的網(wǎng)絡(luò),它們都有相似的損失值,據(jù)此提出了攻擊僅依賴于一階信息的觀點(diǎn).
(3)雅克比映射攻擊(JSMA)
Papernot等[14]提出利用前向?qū)?shù)來(lái)生成對(duì)抗樣本,利用Jacobian 矩陣來(lái)生成前向?qū)?shù),如式(9)所示:
(9)
式中,f為模型的網(wǎng)絡(luò)函數(shù),Xi為不同的維度,M×N正向?qū)?shù)矩陣的一個(gè)元素(i,j)∈[1,…,M]×[1,…,N]是根據(jù)一個(gè)輸入導(dǎo)數(shù)Xi的輸出神經(jīng)元Fj,利用式(10)遞歸地區(qū)分隱藏層:
(10)
式中,Hk(X)是隱藏層的輸出向量,fk,p是第k層中第j個(gè)神經(jīng)元的激勵(lì)函數(shù);之后對(duì)每一個(gè)前向?qū)?shù)和輸出標(biāo)簽進(jìn)行顯著性映射,得到的結(jié)果作為對(duì)抗樣本調(diào)整的依據(jù):
S(X,t)[i]=
(11)
式中,i是輸入特征.最后選取使得所有的顯著值中最大的輸入特征來(lái)調(diào)整樣本,與原來(lái)的值相減以后得到擾動(dòng)值,以增加分類為特定目標(biāo)類別的概率,重復(fù)這一過(guò)程,直到此類別概率大于其他類別或者達(dá)到了設(shè)定的最大次數(shù)停止[15].
(4)C &W法
Carlini等[16]對(duì)L-BFGS、FGSM和JSMA等三種方法作出總結(jié)改進(jìn),用式(12)表示優(yōu)化問(wèn)題:
minD(X,X+δ)
s.t.C(X+δ)=Y,X+δ∈[0,1]n
(12)
式中,D是距離約束,如L0、L2和L∞.由于C(X+δ)=Y是高度非線性的,所以上式轉(zhuǎn)化為式(13),同時(shí)可根據(jù)不同范數(shù)的距離約束進(jìn)行相應(yīng)的轉(zhuǎn)化:
(13)
(5)Adversarial Patch法[17]
此方法通過(guò)mask來(lái)調(diào)整 patch的大小和形狀,隨機(jī)讓 patch 在圖像上進(jìn)行平移、縮放和旋轉(zhuǎn),同時(shí)使用梯度下降的方法進(jìn)行優(yōu)化[15,17].定義一個(gè)patch選擇器A(p,X,l,t),p為相應(yīng)的patch,l為 patch 的位置,X為圖像,t為轉(zhuǎn)換操作,先使用選出的p轉(zhuǎn)換相應(yīng)的對(duì)抗結(jié)果,再將此結(jié)果應(yīng)用于相應(yīng)的位置上,在 patch 訓(xùn)練時(shí)的優(yōu)化函數(shù)如式(14)所示:
(14)
(6)DDN法
由于C&W攻擊通常需要數(shù)千次迭代,速度較慢,Rony等[18]提出了解耦對(duì)抗性擾動(dòng)方向和范數(shù)的方法.在每一次迭代中,定義一個(gè)可以改變范數(shù)的影響因子γ,若此時(shí)的圖像XN不是對(duì)抗圖像,則使用一個(gè)更大的范數(shù)lN+1=(1+γ)lN,反之則使用lN+1=(1-γ)lN,此時(shí)范數(shù)將在決策邊界的兩側(cè)之間振蕩,進(jìn)而搜索到最佳范數(shù)值.最后,將XN+1投影到輸入空間的可行區(qū)域上.
2.1.2 黑盒攻擊
(1)動(dòng)量迭代梯度法(MI-FGSM)
Dong等[19]將動(dòng)量的思想運(yùn)用到基于特定目標(biāo)類別的黑盒攻擊方法中,提高了隨機(jī)梯度下降中穩(wěn)定更新的有效性,式(15)為具體更新公式:
(15)
式中,gN收集了前t次迭代的梯度,μ為衰減因子,取為1,α被設(shè)定為ε/T.L∞和L2的擴(kuò)展公式如式(16)所示:
(16)
(2)Curls & Whey法
為了克服黑盒攻擊中迭代軌跡難以跨越目標(biāo)模型的決策邊界和對(duì)抗樣本中的冗余噪聲,Shi 等[20]提出了卷曲迭代(Curls iteration)和濾除優(yōu)化(Whey optimization)相結(jié)合的算法.Curls iteration沿替代模型的損失函數(shù)的上升和下降方向設(shè)置雙向迭代,如式(17)所示:
(17)
(18)
并在計(jì)算每一輪的梯度時(shí)在第一步中添加此向量:
(19)
每一輪之后,在原始圖像X和對(duì)抗性示例Xadv之間執(zhí)行二進(jìn)制搜索:
L=X,R=Xadv,
(20)
Curls iteration對(duì)原始圖像進(jìn)行梯度下降,如果目標(biāo)模型上的交叉熵值低于上一步,則開(kāi)始并進(jìn)行梯度上升直到最后一步,同時(shí)在梯度計(jì)算過(guò)程中向圖像添加了高斯噪聲,以提高可傳遞性.
Whey optimization通過(guò)對(duì)抗性噪聲分組、逐組減小噪聲幅度來(lái)維持噪聲壓縮幅度和壓縮次數(shù)的平衡:
(21)
式中,L(V,N)表示像素值集合V中具有第N個(gè)最大絕對(duì)值的數(shù)字,W、H、C分別表示原始圖像X的寬度、高度和通道.最后進(jìn)一步擠壓,σ為每個(gè)像素的概率設(shè)定值,mask和δ形狀大小相同:
(22)
為了實(shí)現(xiàn)特定目標(biāo)類別的黑盒攻擊,將插值集成到迭代過(guò)程中:
(23)
2.2.1 白盒攻擊
(1)迭代梯度法(I-FGSM)
為了提高“快速”性能,Kurakin 等[12]在FGSM生成對(duì)抗樣本的過(guò)程中,加入迭代,改變其原有一步生成的方式,以較小的迭代步長(zhǎng)α將其多次應(yīng)用,并在每一步之后裁剪中間結(jié)果的像素值,以確保它們位于原始圖像的ε附近,得到對(duì)抗性更好的對(duì)抗樣本,如式(24)所示:
(24)
式中,迭代步長(zhǎng)α=1,迭代次數(shù)T=min{ε+4,1.25ε}.Clip代表像素裁剪函數(shù),即對(duì)圖像Xadv進(jìn)行逐像素裁剪,保證結(jié)果將在原始圖像X的L∞的ε附近,精確的裁剪公式為式(25):
Clipx,ε{Xadv}=min{255,X(x,y,z)+ε,
max{0,X(x,y,z)-ε,Xadv(x,y,z)}}
(25)
式中,X(x,y,z)是圖像X的通道z在坐標(biāo)(x,y)處的值.
(2)Vr-FGSM法
Wu等[21]利用減少方差的梯度來(lái)生成對(duì)抗樣本,適用于任何優(yōu)化器,文中采用了效率更高的Frank-Wolfe優(yōu)化器且以I-FGSM為例,式(26)為相應(yīng)的優(yōu)化公式:
(26)
同時(shí)該方法可以解釋為生成對(duì)高斯擾動(dòng)有魯棒性的對(duì)抗性示例,再迭代求解:
(27)
式中,Gt為Eξ~N(0,σ2I)[J(X+ξ)]的小批量近似.與IGSM相比,該梯度由平均梯度代替,消除了局部波動(dòng),同時(shí)增強(qiáng)了可轉(zhuǎn)移性.
(3)分布式攻擊法
Zheng等[22]通過(guò)嘗試尋找最佳對(duì)抗數(shù)據(jù)分布μ*來(lái)生成最佳的對(duì)抗樣本,如式(28)所示,在概率測(cè)度的空間上,損失函數(shù)由能量函數(shù)E(μ)(假設(shè)在p(X;θ)達(dá)到最小值)來(lái)描述,用式(29)表示:
(28)
(29)
式中,KL(μ‖p)是對(duì)抗數(shù)據(jù)分布μ與最佳數(shù)據(jù)分布p之間的KL散度,c是平衡這兩項(xiàng)的超參數(shù).之后提出基于拉格朗日斑點(diǎn)法和離散梯度流法粒子近似方法的兩種粒子優(yōu)化公式(當(dāng)c=1或M=1時(shí),等效為PGD),如式(30)和式(31)所示:
(30)
(31)
(4)深度欺騙攻擊(Deepfool)
DeepFool通過(guò)迭代來(lái)生成最小范數(shù)對(duì)抗擾動(dòng),將位于分類邊界內(nèi)的像素一步步修改到邊界外,直到出現(xiàn)分類錯(cuò)誤為止[23].對(duì)于原始像素點(diǎn)X,當(dāng)添加的擾動(dòng)垂直于分類器的仿射平面Γ時(shí)[15],此時(shí)擾動(dòng)最小且符合迭代要求:
(32)
在整體迭代過(guò)程中,滿足以下公式:
(33)
(5)Universal Adversarial法[24]
深度神經(jīng)網(wǎng)絡(luò)存在不可知的固定通用的圖像擾動(dòng),能夠使從原始數(shù)據(jù)分布μ采樣的大多數(shù)圖像的標(biāo)簽發(fā)生變化.為了尋找通用的擾動(dòng),在每次迭代中解決式(34)中的優(yōu)化問(wèn)題,計(jì)算將當(dāng)前擾動(dòng)點(diǎn)Xi+v發(fā)送到分類器的決策邊界的最小范數(shù)的額外擾動(dòng)Δvi來(lái)欺騙數(shù)據(jù)點(diǎn)Xi,并將其匯總到通用擾動(dòng)的當(dāng)前實(shí)例中[15].
(34)
利用Pp,ε(v+Δvi)進(jìn)行擾動(dòng)v的更新,當(dāng)擾動(dòng)數(shù)據(jù)集Xv={X1+v,…Xm+v}超過(guò)目標(biāo)閾值時(shí)停止更新:
(35)
(6)Functional Adversarial法
與之前的Lp威脅模型不同,Laidlaw等[25]提出僅允許使用一個(gè)函數(shù)來(lái)干擾輸入要素以產(chǎn)生對(duì)抗樣本,如針對(duì)圖像顏色的功能性對(duì)抗攻擊,可以同時(shí)將所有紅色像素更改為淺紅色,與單獨(dú)的干擾圖像的像素相比,圖像中的這種全局均勻變化可能會(huì)感覺(jué)不到.實(shí)現(xiàn)功能性特征變換的擾動(dòng)函數(shù)為f:→:
Xadv=f(X)=(f(X1),…,f(Xn))
(36)
通過(guò)正則化來(lái)保證擾動(dòng)更不易被察覺(jué),F(xiàn)diff可以防止絕對(duì)變化超過(guò)一定擾動(dòng)范圍,如式(37),F(xiàn)smooth要求在相同的“方向”上干擾相似的特征,如式(38):
Fdiff{?Xi∈
(37)
Fsmooth{f|?Xi,Xj∈?
(38)
式中,F(xiàn)為擾動(dòng)函數(shù)f的集合,F(xiàn)選擇為Fdiff、Fsmooth、Fdiff∩Fsmooth或完全不同的函數(shù)族,之后將威脅模型定義為
tfunc(S){(f(X1),…,f(Xn))|(X1,…Xn)∈
S,f∈F}
(39)
(7)One-step Spectral法[26]
以往的攻擊方法都假定輸入空間是平坦的,因此,相對(duì)于輸入的坡度在輸出空間中給出了變化最快的方向. 通過(guò)使用神經(jīng)網(wǎng)絡(luò)中的Fisher信息度量將數(shù)據(jù)空間視為非線性空間,對(duì)于分類任務(wù),網(wǎng)絡(luò)輸出可以視為離散分布的可能性,從而使樣本空間成為由非均值測(cè)量的流形——線性黎曼度量,可以采用輸入的Fisher信息矩陣(FIM)來(lái)衡量深度學(xué)習(xí)模型的脆弱性.最佳對(duì)抗性擾動(dòng)由Fisher信息矩陣的約束二次形式中的第一個(gè)特征向量給出,而脆弱性則由特征值反映出來(lái).特征值越大,模型越容易受到相應(yīng)特征向量的攻擊.
將對(duì)抗性擾動(dòng)的優(yōu)化形式化為FIM的約束二次形式,使用KL散度來(lái)測(cè)量似然分布的變化.假設(shè)深度神經(jīng)網(wǎng)絡(luò)的似然分布表示為p(y|X;θ),由于訓(xùn)練后模型權(quán)重θ是固定的,X是攻擊時(shí)唯一可更改的參數(shù),因此,在條件分布中忽略模型參數(shù)θ,并將X作為模型參數(shù).攻擊者需要找到一個(gè)微小的擾動(dòng)δ,以使概率p(y|X+δ)從正確的輸出變?yōu)殄e(cuò)誤的輸出,采用KL散度來(lái)測(cè)量概率p(y|X)的變化,因此,優(yōu)化目標(biāo)可以表述為式(40):
(40)
(8)Strattack法
Strattack通過(guò)在圖像中滑動(dòng)面具以提取關(guān)鍵的空間結(jié)構(gòu)來(lái)探索對(duì)抗性擾動(dòng)中的群體稀疏性,利用乘數(shù)交替方向方法(ADMM)開(kāi)發(fā)了一種有效的優(yōu)化方法,將原始問(wèn)題分解為一系列可解析的子問(wèn)題[27]:
minf(z+X)+γD(δ)+
s.t.z=δ,z=y,z=w
(41)
(42)
式中,h(w)是關(guān)于問(wèn)題約束的指標(biāo)函數(shù).
2.2.2 黑盒攻擊
(1)ONE-PIXEL法
Su等[28]提出基于差分進(jìn)化(DE)只改變一個(gè)像素來(lái)生成對(duì)抗樣本,可以形式化為具有約束的優(yōu)化問(wèn)題,用式(43)進(jìn)行表示:
(43)
一個(gè)像素的修改可以視為沿平行于n個(gè)維度之一的軸的方向干擾數(shù)據(jù)點(diǎn),每次擾動(dòng)包括坐標(biāo)x、坐標(biāo)y和RGB值,對(duì)每個(gè)像素進(jìn)行如下迭代操作:
xi(N+1)=xr1(N)+F(xr2(N)+xr3(N)),
r1≠r2≠r3
(44)
式中,xi是候選解決方案的元素,r1、r2、r3是隨機(jī)數(shù)字,F(xiàn)是尺度參數(shù),設(shè)定為0.5,N是當(dāng)前迭代的次數(shù).在每次迭代中,候選解決方案的結(jié)果如果優(yōu)于上一次結(jié)果,則進(jìn)入下一次迭代,如果沒(méi)有,則上一次結(jié)果進(jìn)入迭代,從而選出最好的單像素?cái)_動(dòng)樣本結(jié)果[15,28].
(2)SI-adv法
從安全角度來(lái)看,高度稀疏的對(duì)抗攻擊尤其危險(xiǎn),另一方面,稀疏攻擊的像素級(jí)擾動(dòng)通常較大,極易被檢測(cè)到,所以Croce等[29]提出了一種新的黑盒攻擊,旨在最大程度地減少對(duì)抗圖像與原始圖像之間的L0距離.首先檢查針對(duì)像素的攻擊,然后根據(jù)分類器輸出中產(chǎn)生的間隙對(duì)它們進(jìn)行排序,在排序后的列表上引入概率分布并采樣每個(gè)像素的變化以產(chǎn)生攻擊,這樣只允許像素在高度變化的區(qū)域內(nèi)發(fā)生變化,并避免沿軸對(duì)齊的邊緣發(fā)生變化,使得生成的擾動(dòng)幾乎不可察覺(jué).
(3)P-RGF法
以往的黑盒攻擊方法一般通過(guò)使用替代模型的傳遞梯度或基于查詢反饋來(lái)近似梯度,但是存在攻擊成功率低或查詢效率差的問(wèn)題,Cheng等[30]提出在梯度估計(jì)框架下進(jìn)行查詢有效的黑盒攻擊方法,成功解決此問(wèn)題.首先通過(guò)向目標(biāo)模型查詢偏向傳輸梯度的隨機(jī)向量,進(jìn)行隨機(jī)樣本的抽取,以充分利用先驗(yàn)信息,然后計(jì)算獲取梯度損失值,以提供梯度估計(jì),最后在此框架下生成對(duì)抗樣本.
本文將第2章中介紹的幾種方法進(jìn)行了實(shí)驗(yàn)測(cè)試,其中對(duì)I-FGSM和MI-FGSM的原理公式進(jìn)行微小的調(diào)整,改動(dòng)后,I-FGSM的原理公式如式(45)所示,MI-FGSM的原理公式如式(46)所示,迭代步長(zhǎng)取為1,迭代次數(shù)取為3.
(45)
(46)
實(shí)驗(yàn)利用MNIST數(shù)據(jù)集中的60 000個(gè)訓(xùn)練樣本和10 000個(gè)測(cè)試樣本對(duì)分類器LeNet-5卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,以期提高分類器的準(zhǔn)確率,epoch值設(shè)為14,經(jīng)過(guò)14次epoch訓(xùn)練和測(cè)試后,分類器準(zhǔn)確率可達(dá)99%,如表1所示,達(dá)到實(shí)驗(yàn)要求.
表1 分類器訓(xùn)練結(jié)果Table 1 Training results of classifier
三種方法的準(zhǔn)確率對(duì)比如表2所示,對(duì)抗性示例如圖1所示,從實(shí)驗(yàn)結(jié)果可見(jiàn),在相同擾動(dòng)強(qiáng)度ε下,不同對(duì)抗攻擊方法的準(zhǔn)確率各不相同,準(zhǔn)確率大小關(guān)系為MI-FGSM>FGSM>I-FGSM,三種方法的準(zhǔn)確率都隨著擾動(dòng)強(qiáng)度的增大而降低,且下降趨勢(shì)都是非線性的,其中FGSM和I-FGSM下降較為明顯,在epsilon=0.30時(shí),準(zhǔn)確率逐漸降至幾乎為0;如圖1所示,在相同擾動(dòng)強(qiáng)度ε下,生成的擾動(dòng)噪聲大小關(guān)系為I-FGSM>MI-FGSM>FGSM,且向圖像添加擾動(dòng)的形式各不相同,F(xiàn)GSM和I-FGSM是改變圖像的部分明暗度使其變得斑駁,從而達(dá)到對(duì)抗攻擊的目的,MI-FGSM則是通過(guò)改變圖像的整體明暗度來(lái)實(shí)現(xiàn)攻擊,其攻擊有效性更強(qiáng),生成對(duì)抗樣本的速度更快,生成的擾動(dòng)更不易被察覺(jué),說(shuō)明動(dòng)量能夠很大程度地改良標(biāo)準(zhǔn)的梯度下降方法.
表2 三種方法準(zhǔn)確率對(duì)比表Table 2 Comparison table of accuracy of three methods
圖1 生成的對(duì)抗樣本Fig.1 Generated adversarial examples
對(duì)抗樣本已被應(yīng)用于自然語(yǔ)言處理[31]、語(yǔ)音識(shí)別[32]、驗(yàn)證碼識(shí)別[33]、人臉識(shí)別[34-35]、道路交通標(biāo)志檢測(cè)[36]和醫(yī)學(xué)圖像處理[37]等多種場(chǎng)景,本文重點(diǎn)介紹對(duì)抗樣本在醫(yī)學(xué)領(lǐng)域和道路交通標(biāo)志檢測(cè)領(lǐng)域中的應(yīng)用.
4.1.1 應(yīng)用合理性
對(duì)抗樣本與醫(yī)療衛(wèi)生領(lǐng)域的結(jié)合是當(dāng)前研究的熱點(diǎn),其合理性體現(xiàn)在以下兩點(diǎn):
(1)經(jīng)濟(jì)誘因.Finlayson等[37]以美國(guó)醫(yī)療系統(tǒng)為例,從經(jīng)濟(jì)和社會(huì)角度進(jìn)行論證,指出在當(dāng)前環(huán)境下醫(yī)療領(lǐng)域中存在有巨大的經(jīng)濟(jì)誘因,足以激勵(lì)潛在的攻擊者使用對(duì)抗樣本對(duì)醫(yī)療衛(wèi)生領(lǐng)域的深度學(xué)習(xí)模型進(jìn)行攻擊.
(2)實(shí)際開(kāi)展.以醫(yī)學(xué)圖像處理領(lǐng)域?yàn)槔?,Ma等[38]證明,相較于針對(duì)自然圖像的深度學(xué)習(xí)網(wǎng)絡(luò),針對(duì)醫(yī)學(xué)圖像的模型更容易受到對(duì)抗樣本的影響,即成功進(jìn)行攻擊所需要的擾動(dòng)更少.其原因可能是醫(yī)學(xué)圖像如皮膚鏡圖像、眼底鏡圖像等具有非常復(fù)雜的生物學(xué)紋理,導(dǎo)致模型存在更多的高梯度區(qū),從而使得其對(duì)于對(duì)抗性擾動(dòng)更為敏感.此外,在面對(duì)對(duì)抗樣本時(shí),針對(duì)醫(yī)學(xué)成像的模型有可能出現(xiàn)較為明顯的過(guò)擬合,表現(xiàn)出較差的魯棒性.
綜合以上兩點(diǎn),對(duì)抗樣本在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用有足夠的合理性.
4.1.2 應(yīng)用實(shí)例
(1)醫(yī)學(xué)圖像領(lǐng)域
2018年,Paschali等[39]首次將對(duì)抗樣本應(yīng)用于醫(yī)學(xué)圖像中,針對(duì)基于Inception模型的皮膚鏡圖像分類任務(wù)和基于U-Net模型的全腦分割任務(wù),分別使用FGSM,DeepFool和SMA方法對(duì)其進(jìn)行了攻擊實(shí)驗(yàn),結(jié)果表明,即使是已被廣泛證明其有效性的醫(yī)學(xué)圖像深度學(xué)習(xí)模型,在對(duì)抗性樣本的攻擊下依然脆弱.
Finlayson等[37]成功使用PGD法和Adversarial Patch法對(duì)三個(gè)基于ResNet-50的醫(yī)療圖像分類模型進(jìn)行了黑盒攻擊和白盒攻擊.模型分別針對(duì)的是視網(wǎng)膜眼底鏡檢查糖尿病視網(wǎng)膜病變問(wèn)題(基于Kaggle Diabetic Retinopathy 數(shù)據(jù)集)、胸部X射線檢查氣胸問(wèn)題(基于ChestX-Ray14數(shù)據(jù)集)和皮膚鏡照片檢查黑色素瘤問(wèn)題(基于國(guó)際皮膚成像合作網(wǎng)站數(shù)據(jù)).
Taghanaki等[40]對(duì)已有的對(duì)抗樣本生成方法進(jìn)行總結(jié),并對(duì)胸部X射線圖像分類模型進(jìn)行了全面的攻擊實(shí)驗(yàn).同時(shí)使用Inception-ResNet-v2和Nasnet-Large模型構(gòu)建了胸部X射線圖像分類網(wǎng)絡(luò),制定了判別“疾病”與“非疾病”的二元分類任務(wù),并采用五種基于梯度的攻擊方法、兩種基于得分的攻擊方法和三種基于決策的攻擊方法,對(duì)兩個(gè)模型進(jìn)行了黑盒攻擊和白盒攻擊.實(shí)驗(yàn)結(jié)果表明,不同的對(duì)抗樣本生成方法在醫(yī)學(xué)圖像領(lǐng)域有著不同的適用場(chǎng)景,例如,單像素攻擊在RGB圖像上有著較好的攻擊效果,但是在以胸部X光圖像為代表的灰度圖像上的效果不佳;而基于梯度的攻擊方案較之于基于得分和決策的攻擊方案,在胸部X光影像分類模型上展示出了更優(yōu)秀的攻擊效果.
此外,另有一些研究驗(yàn)證了各個(gè)對(duì)抗性樣本生成算法對(duì)于醫(yī)學(xué)圖像模型的攻擊有效性,如Ma等[38]在三個(gè)基準(zhǔn)醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行了4種攻擊方法的實(shí)驗(yàn);Bose等[34]使用對(duì)抗樣本對(duì)基于Inception 和UNet的皮膚病變分類和全腦語(yǔ)義圖像分割模型成功進(jìn)行了攻擊等.
(2)醫(yī)療文本記錄
不同于常規(guī)的對(duì)醫(yī)學(xué)圖像分類或者語(yǔ)義圖像分割模型的攻擊,Sun等[41]將對(duì)抗性的思想引入了電子醫(yī)療記錄(HER)中,文中使用重癥監(jiān)護(hù)醫(yī)學(xué)信息市場(chǎng)(MIMICⅢ)數(shù)據(jù),其包含了大型三級(jí)護(hù)理醫(yī)院重癥監(jiān)護(hù)病房收治的患者有關(guān)的信息,建立了由HER數(shù)據(jù)推測(cè)死亡率的模型.針對(duì)該預(yù)測(cè)模型,生成對(duì)應(yīng)的對(duì)抗性醫(yī)療記錄.結(jié)果表明,在僅僅更改電子醫(yī)療記錄不超過(guò)3%的情況下,即可成功攻擊超過(guò)一半的患者.
4.2.1 應(yīng)用概述
道路交通標(biāo)志檢測(cè)和識(shí)別技術(shù)在無(wú)人駕駛領(lǐng)域處于至關(guān)重要的地位,其準(zhǔn)確性和穩(wěn)定性在交通運(yùn)輸安全中起著重要作用,標(biāo)志不能被成功識(shí)別或者標(biāo)志出現(xiàn)錯(cuò)誤分類可能導(dǎo)致災(zāi)難性后果,造成不可挽回的損失.因此,將對(duì)抗樣本生成技術(shù)應(yīng)用于道路交通標(biāo)志檢測(cè)和識(shí)別系統(tǒng)的攻擊中,將對(duì)無(wú)人駕駛技術(shù)產(chǎn)生重大安全威脅.基于以上因素,該問(wèn)題吸引了越來(lái)越多的人進(jìn)行研究.但是,許多研究也指出,使用該方式進(jìn)行攻擊可能會(huì)有許多難點(diǎn),如①需要綜合考慮實(shí)際應(yīng)用場(chǎng)景下的圖像亮度、視角、距離和大小調(diào)整[36];②攻擊者得到模型參數(shù)較為困難,很難進(jìn)行白盒攻擊;③道路標(biāo)志往往圖案簡(jiǎn)單,相對(duì)于自然圖片,擾動(dòng)在人眼看來(lái)更加明顯,實(shí)際情況中能夠添加的擾動(dòng)則會(huì)較小,而與之對(duì)應(yīng)的,由于傳感器的物理約束,較小的數(shù)字?jǐn)_動(dòng)可能會(huì)使傳感器難以檢測(cè)[42].
4.2.2 應(yīng)用實(shí)例
Eykholt等[43]在2018年提出一種通用的攻擊算法——魯棒物理擾動(dòng)(RP2),該算法專門(mén)針對(duì)道路交通標(biāo)志檢測(cè)領(lǐng)域,在不同物理?xiàng)l件下生成相對(duì)應(yīng)的對(duì)抗樣本.RP2會(huì)對(duì)圖像中的道路交通標(biāo)志產(chǎn)生干擾,而不會(huì)干擾圖像中的環(huán)境部分.在實(shí)驗(yàn)室測(cè)試中,不同距離和角度的拍攝的圖像達(dá)到100%的錯(cuò)誤分類,而且對(duì)行駛中的汽車(chē)中獲取的視頻幀的84.4%實(shí)現(xiàn)成功的攻擊,然而,提出的方案并不能完全解決應(yīng)用概述中提到的難點(diǎn),無(wú)法完全滿足人眼不能識(shí)別出擾動(dòng)的要求.
與Eykholt等的思路不同,Sitawarin等[36]從另一個(gè)角度解決了道路標(biāo)志較為簡(jiǎn)單,擾動(dòng)看起來(lái)更加明顯的問(wèn)題.除了常規(guī)的分布內(nèi)攻擊(向交通信號(hào)標(biāo)志圖像加入擾動(dòng),使其分類錯(cuò)誤)外,Sitawarin等提出了分布外攻擊方案,將道路上可能存在的商標(biāo)或旅游區(qū)常見(jiàn)的游客標(biāo)志加入擾動(dòng),使其被模型分類為交通信號(hào)標(biāo)志.由于此類圖像圖案較之于道路標(biāo)志更為復(fù)雜,所以加入擾動(dòng)后并不十分明顯,并且這種方式得到的圖像與交通信號(hào)標(biāo)志差別很大,所以可以“隱身”地存在于環(huán)境中,利用搭建的真實(shí)駕駛測(cè)試實(shí)驗(yàn)證明了其方案的可行性.
在Sitawarin等[36]工作的基礎(chǔ)上,Rgulis等[44]針對(duì)速度標(biāo)志,進(jìn)行了更加詳實(shí)的實(shí)驗(yàn).Rgulis等使用德國(guó)交通標(biāo)志圖像GTSRB數(shù)據(jù)集中的速度標(biāo)志子集,訓(xùn)練生成了對(duì)抗樣本(針對(duì)多尺度卷積網(wǎng)絡(luò)MSDNet分類器架構(gòu)),為保證黑盒情況下的可傳遞性,使用Dense Net架構(gòu)的分類器進(jìn)行測(cè)試,實(shí)車(chē)的實(shí)驗(yàn)成功地欺騙了車(chē)輛上的TSR系統(tǒng),首次證明了對(duì)抗樣本對(duì)于商業(yè)汽車(chē)感知和分類系統(tǒng)也能進(jìn)行成功的攻擊.
除上述攻擊方案外,Song等[45]提出了一種新的應(yīng)用思路,即消失檢測(cè)攻擊.不同于針對(duì)分類網(wǎng)絡(luò)的攻擊,該攻擊可使得檢測(cè)器忽略物理對(duì)象.Song利用Eykholt 等提出的RP2思想對(duì)YOLO v2和Faster-RCNN發(fā)起黑盒攻擊,有著較好的攻擊效果,YOLO在可控的實(shí)驗(yàn)室環(huán)境中未能識(shí)別出86.5%的視頻幀,而在室外環(huán)境中則無(wú)法識(shí)別出72.5%的視頻幀,對(duì)應(yīng)黑盒攻擊這個(gè)數(shù)字則分別為85.9%和40.2%.與圖像分類相比,圖像檢測(cè)需要處理整個(gè)場(chǎng)景,并使用對(duì)象的方向和位置來(lái)確定預(yù)測(cè)結(jié)果,所以通過(guò)更改對(duì)象的方式進(jìn)行攻擊面臨的挑戰(zhàn)性更大,如此高比例的成功攻擊率,或可以說(shuō)明檢測(cè)器模型對(duì)于對(duì)抗樣本的脆弱性.
可遷移性是對(duì)抗樣本的共同屬性.Szegedy等首次提出,針對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)生成的對(duì)抗樣本可以誤導(dǎo)由不同數(shù)據(jù)集訓(xùn)練的同一神經(jīng)網(wǎng)絡(luò).Papernot等[46]發(fā)現(xiàn),針對(duì)一個(gè)神經(jīng)網(wǎng)絡(luò)生成的對(duì)抗樣本可以欺騙其他不同框架的神經(jīng)網(wǎng)絡(luò),甚至可以欺騙由不同機(jī)器學(xué)習(xí)算法訓(xùn)練的分類器.在黑盒攻擊中,攻擊者可以訓(xùn)練一個(gè)替代模型,針對(duì)替代模型生成對(duì)抗樣本,由于對(duì)抗樣本的可遷移性,目標(biāo)模型也會(huì)遭受這些對(duì)抗樣本的攻擊.
對(duì)抗樣本的可遷移性可歸納為三個(gè)方面:①用不同數(shù)據(jù)集訓(xùn)練的同一結(jié)構(gòu)的模型間的遷移;②為同一任務(wù)訓(xùn)練的不同結(jié)構(gòu)的模型間的遷移;③為不同任務(wù)訓(xùn)練的模型間的遷移.雖然目前的研究已經(jīng)涵蓋這三個(gè)方面,但遷移性攻擊的有效性相比于原始模型的攻擊仍然大幅度下降,顯示出較差的泛化能力.因此,仍需要研究更普遍有效的遷移性對(duì)抗樣本.
解釋對(duì)抗樣本的出現(xiàn)是一個(gè)有趣的話題,對(duì)研究人員而言是待解決的根本問(wèn)題之一,這有助于解釋模型的脆弱性和提高抵抗對(duì)抗樣本的能力.
研究者們已經(jīng)提出多種假設(shè)來(lái)解釋對(duì)抗樣本的出現(xiàn):
(1)數(shù)據(jù)不完全:對(duì)抗樣本在測(cè)試集中的概率及極端情況的覆蓋率都很低[9],并且對(duì)抗樣本的分布不同于“干凈”樣本[47].即便對(duì)于一個(gè)簡(jiǎn)單的高斯模型,一個(gè)魯棒模型的建立將會(huì)更復(fù)雜并需要更多的訓(xùn)練數(shù)據(jù)[48].
(2)模型能力:神經(jīng)網(wǎng)絡(luò)和所有的分類器都會(huì)產(chǎn)生對(duì)抗樣本.對(duì)抗樣本是模型在高維流型中過(guò)于線性的產(chǎn)物[11].Tanay等[49]表明,在線性情況下,當(dāng)決策邊界接近訓(xùn)練數(shù)據(jù)的流型時(shí),對(duì)抗樣本就會(huì)出現(xiàn).而不同的是,F(xiàn)awzi等[50]認(rèn)為對(duì)抗樣本的產(chǎn)生是因?yàn)榉诸惼鲗?duì)某些分類任務(wù)的靈活性過(guò)低,線性并非一個(gè)很好的解釋.Tabacof等[51]將對(duì)抗樣本的出現(xiàn)歸咎為流型的稀疏和不連續(xù)性導(dǎo)致模型不穩(wěn)定.
(3)魯棒模型不存在:Dong等[52]表明神經(jīng)網(wǎng)絡(luò)的決策邊界本質(zhì)上是不正確的,并沒(méi)有檢測(cè)到語(yǔ)義對(duì)象.如果數(shù)據(jù)集是由具有較大隱空間的平滑生成模型生成的,則沒(méi)有針對(duì)對(duì)抗性樣本的魯棒分類器[53].類似地,Gilmer等[54]證明如果一個(gè)模型在一個(gè)球面數(shù)據(jù)集上訓(xùn)練并且錯(cuò)誤地分類了數(shù)據(jù)集的小部分,那么將存在一個(gè)帶有擾動(dòng)的對(duì)抗樣本.
對(duì)抗樣本為何會(huì)出現(xiàn),至今還是一個(gè)開(kāi)放的問(wèn)題,相關(guān)的討論仍在持續(xù)進(jìn)行.
對(duì)抗樣本的攻擊和防御可以看作是一場(chǎng)競(jìng)賽:已提出的防御方法能抵御現(xiàn)有的攻擊,卻對(duì)新的攻擊方法無(wú)效;提出的攻擊方法能夠擊破已存在的防御手段,卻被新的方法抵御,如此反復(fù).模型的安全問(wèn)題日益得到重視,僅僅能抵御現(xiàn)有對(duì)抗樣本的攻擊還遠(yuǎn)遠(yuǎn)不夠,需要一種更全面的方法來(lái)評(píng)估模型的魯棒性,這將有利于了解模型預(yù)測(cè)的精確性和可依賴性.
當(dāng)前大多數(shù)對(duì)抗樣本的攻擊和防御方法都沒(méi)有公開(kāi)的代碼,研究人員可能因?yàn)閷?shí)驗(yàn)中的不同設(shè)置得出不同的結(jié)論,這無(wú)疑為模型魯棒性評(píng)估增加難度.此外,對(duì)抗樣本的應(yīng)用已拓展到多個(gè)領(lǐng)域,廣泛的應(yīng)用也使得模型魯棒性評(píng)估變得困難.因此,能否建立一個(gè)通用的標(biāo)準(zhǔn)方法來(lái)評(píng)估各種情況下模型的魯棒性也成為亟待解決的問(wèn)題.
盡管人工智能技術(shù)給各個(gè)領(lǐng)域提供了強(qiáng)勁的生產(chǎn)動(dòng)力,但其安全問(wèn)題也越發(fā)引起人們的關(guān)注.對(duì)抗樣本,作為人工智能模型的安全威脅之一,能夠誘導(dǎo)模型產(chǎn)生錯(cuò)誤預(yù)測(cè).近年來(lái)涌現(xiàn)出大量相關(guān)研究成果,為對(duì)抗樣本攻防策略的研究提供了重要借鑒.本文梳理和總結(jié)了對(duì)抗樣本的研究成果,并通過(guò)實(shí)驗(yàn)對(duì)部分生成方法進(jìn)行對(duì)比分析,同時(shí)將對(duì)抗樣本在醫(yī)學(xué)領(lǐng)域和道路交通標(biāo)志檢測(cè)領(lǐng)域中的應(yīng)用進(jìn)行匯總,試圖提供一個(gè)良好的參考.最后,歸納對(duì)抗樣本存在的挑戰(zhàn)和前景預(yù)測(cè),為后續(xù)研究提供思路.