国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

針對(duì)神經(jīng)網(wǎng)絡(luò)的對(duì)抗攻擊及其防御

2020-07-16 18:27何正保黃曉霖
航空兵器 2020年3期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)人工智能

何正?!↑S曉霖

摘 要:隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域,其安全性也日漸受到人們的關(guān)注。對(duì)抗攻擊和對(duì)抗樣本作為神經(jīng)網(wǎng)絡(luò)最大的威脅之一,近年來(lái)成為研究的熱點(diǎn)。同時(shí),對(duì)抗攻擊及其防御的研究也對(duì)神經(jīng)網(wǎng)絡(luò)認(rèn)知能力的提升具有重要的意義。本文圍繞對(duì)抗攻擊及其防御,介紹了基本原理和一些經(jīng)典算法,并就對(duì)抗攻擊的意義與作用、發(fā)展趨勢(shì)進(jìn)行了闡述。

關(guān)鍵詞: 深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);對(duì)抗攻擊;對(duì)抗樣本;防御算法; 人工智能

中圖分類號(hào):TJ760;TP18文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào): 1673-5048(2020)03-0011-09

0 引言

隨著深度學(xué)習(xí)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用于圖像識(shí)別[1-3]、醫(yī)學(xué)影像分析[4-5]、自動(dòng)駕駛[6-7]等領(lǐng)域,并且在許多復(fù)雜任務(wù)上的表現(xiàn)都超過(guò)了人類水平。但神經(jīng)網(wǎng)絡(luò)同樣有很多問(wèn)題,阻礙其進(jìn)一步發(fā)展與應(yīng)用。神經(jīng)網(wǎng)絡(luò)在對(duì)抗攻擊下的脆弱性就是其中一個(gè)重要的問(wèn)題,例如,對(duì)輸入圖片添加人眼不可見(jiàn)的擾動(dòng),就能使分類網(wǎng)絡(luò)以高置信度將修改后的圖片錯(cuò)誤分類[8-10]。神經(jīng)網(wǎng)絡(luò)的脆弱性制約了其在復(fù)雜、未知、多變環(huán)境的應(yīng)用,也制約了其在需要高可靠性的任務(wù)中的推廣。這種脆弱性與神經(jīng)網(wǎng)絡(luò)在認(rèn)知能力方面的缺乏緊密相關(guān)。近年來(lái),針對(duì)研究神經(jīng)網(wǎng)絡(luò)弱點(diǎn)的對(duì)抗攻擊及其防御,逐漸成為新的研究重點(diǎn),其目的既在于增強(qiáng)神經(jīng)網(wǎng)絡(luò)的可靠性,也在于通過(guò)對(duì)攻擊及其防御的迭代研究,提升神經(jīng)網(wǎng)絡(luò)的認(rèn)知能力。

本文綜述了對(duì)抗攻擊的基本概念和原理,梳理經(jīng)典的對(duì)抗攻擊算法和相應(yīng)的防御機(jī)制,同時(shí)探討對(duì)抗攻擊及其防御的發(fā)展趨勢(shì)和其對(duì)人工智能的推動(dòng)作用。

1 對(duì)抗攻擊

1.1 數(shù)學(xué)描述與基本原理

對(duì)抗攻擊是指對(duì)原始數(shù)據(jù)添加特定的擾動(dòng)得到對(duì)抗樣本,使得神經(jīng)網(wǎng)絡(luò)產(chǎn)生錯(cuò)誤的輸出。從深度學(xué)習(xí)的機(jī)理上理解,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是在訓(xùn)練數(shù)據(jù)集上進(jìn)行的,而訓(xùn)練數(shù)據(jù)只是真實(shí)數(shù)據(jù)中的一部分,無(wú)法完全表示真實(shí)數(shù)據(jù)的分布特性。因此,總可以尋找到訓(xùn)練數(shù)據(jù)無(wú)法覆蓋的空間使得神經(jīng)網(wǎng)絡(luò)發(fā)生錯(cuò)誤。從神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行理解,由于深度神經(jīng)網(wǎng)絡(luò)是含有多個(gè)隱含層的高度非線性函數(shù),輸入數(shù)據(jù)的一些細(xì)小變化,都可能逐層傳遞、放大,并對(duì)最終輸入結(jié)果產(chǎn)生巨大的影響。

對(duì)抗攻擊的本質(zhì)是尋找神經(jīng)網(wǎng)絡(luò)與人類認(rèn)知的差異。其差異首先表現(xiàn)在神經(jīng)網(wǎng)絡(luò)會(huì)對(duì)特定的擾動(dòng)過(guò)于敏感。以圖像分類器為例,利用神經(jīng)網(wǎng)絡(luò)過(guò)于敏感的特性,可以對(duì)原始圖像添加較小的擾動(dòng),使分類器將圖片錯(cuò)誤分類。上述攻擊可表述為

式中: x為原始樣本;x′為所生成的對(duì)抗樣本;f為被攻擊的神經(jīng)網(wǎng)絡(luò); 為事先設(shè)定的擾動(dòng)裕度。

圖1顯示了對(duì)抗攻擊與傳統(tǒng)目標(biāo)隱藏之間的區(qū)別(圖片均下載于互聯(lián)網(wǎng))。訓(xùn)練集中的一個(gè)目標(biāo)樣本如圖1(a)所示。傳統(tǒng)上,為了使該型飛機(jī)不被識(shí)別,需要設(shè)計(jì)迷彩涂裝用以欺騙人類的視覺(jué)系統(tǒng)。但針對(duì)人類設(shè)計(jì)的迷彩未必能欺騙機(jī)器視覺(jué),相反,機(jī)器視覺(jué)系統(tǒng)對(duì)于

對(duì)抗攻擊十分敏感。

如圖1(c)所示,雖然圖像和原始圖像在視覺(jué)上沒(méi)有顯著的區(qū)別,但機(jī)器視覺(jué)系統(tǒng)卻做出了錯(cuò)誤的判斷。這個(gè)例子展示了人類視覺(jué)系統(tǒng)和機(jī)器視覺(jué)系統(tǒng)的差異,也顯示了在人工智能廣泛應(yīng)用的今天,

航空兵器這樣存在強(qiáng)對(duì)抗的領(lǐng)域,研究其對(duì)抗攻擊及其防御的必要性。

與過(guò)于敏感相對(duì)應(yīng),神經(jīng)網(wǎng)絡(luò)與人類感知的不一致性還表現(xiàn)在某些情況下過(guò)于遲鈍,即對(duì)原始圖像添加較大的擾動(dòng),而分類器仍然以較高的置信度將對(duì)抗樣本分類為原始類別,其數(shù)學(xué)表述如下:

目前已有的對(duì)抗攻擊集中于式(1)所描述的情況[8-10],關(guān)于式(2)的攻擊可見(jiàn)文獻(xiàn)[11-12];根據(jù)所對(duì)應(yīng)的統(tǒng)計(jì)誤差的分類,這兩類對(duì)抗攻擊被分別稱為 Type Ⅱ和 Type I 對(duì)抗攻擊。

1.2 特征的不一致

對(duì)抗樣本的存在證實(shí)了神經(jīng)網(wǎng)絡(luò)與人類認(rèn)知的差異。從特征的角度考察這種差異會(huì)發(fā)現(xiàn),當(dāng)深度神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)到的數(shù)據(jù)特征空間與真實(shí)數(shù)據(jù)特征空間不一致時(shí),就會(huì)出現(xiàn)對(duì)抗樣本。

當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到數(shù)據(jù)中的冗余特征(一般是數(shù)據(jù)中的噪聲特征)時(shí),網(wǎng)絡(luò)就會(huì)對(duì)這些冗余特征較為敏感(也因此,冗余特征又被稱為非穩(wěn)健特征)。如果在冗余特征空間中對(duì)輸入做一定的擾動(dòng),由于人類的認(rèn)知中沒(méi)有考慮這類擾動(dòng)而無(wú)法觀察到顯著的變化,但由于這類特征被神經(jīng)網(wǎng)絡(luò)識(shí)別并納入決策體系之中,其微小的變化將使得神經(jīng)網(wǎng)絡(luò)的輸出發(fā)生巨大的變化,即遭受Type Ⅱ攻擊。相應(yīng)地,如果神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的數(shù)據(jù)特征空間較小時(shí),會(huì)出現(xiàn)一些網(wǎng)絡(luò)沒(méi)有學(xué)習(xí)到的缺失特征。這部分特征為人類所重視,但是網(wǎng)絡(luò)并不利用這部分特征進(jìn)行決策,因此,缺失特征上較大的擾動(dòng)能為人類所觀測(cè),但不會(huì)引起網(wǎng)絡(luò)輸出的相應(yīng)變化,即遭受Type I 攻擊。文獻(xiàn)[13]給出了一個(gè)很有趣的例子。在這個(gè)看似簡(jiǎn)單的內(nèi)外兩個(gè)球面數(shù)據(jù)的分類問(wèn)題中,如果特征數(shù)量與真實(shí)系統(tǒng)不一致(包括冗余特征[13]和缺失特征[12]),神經(jīng)網(wǎng)絡(luò)都會(huì)被對(duì)抗樣本所攻擊。

近年來(lái),有很多研究者從理論的角度分析特征穩(wěn)健性與對(duì)抗樣本。文獻(xiàn)[14]認(rèn)為想要學(xué)習(xí)一個(gè)魯棒的模型比學(xué)習(xí)一個(gè)標(biāo)準(zhǔn)模型需要更多的數(shù)據(jù);文獻(xiàn)[13,15-16]認(rèn)為對(duì)抗樣本在某些情況下是不可避免的,無(wú)論是由于計(jì)算的限制還是數(shù)據(jù)本身的特性等;文獻(xiàn)[17]則認(rèn)為對(duì)抗樣本作為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的非穩(wěn)健特征之一,有助于模型的泛化,只是這種特征不易被人類察覺(jué),這種觀點(diǎn)認(rèn)為對(duì)抗樣本只是一種“以人為中心”的現(xiàn)象。

1.3 防御策略的基本原理

對(duì)抗攻擊會(huì)極大地降低神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率,并且指出了神經(jīng)網(wǎng)絡(luò)的弱點(diǎn)。因此,人們希望設(shè)計(jì)針對(duì)對(duì)抗攻擊的防御方法以增強(qiáng)神經(jīng)網(wǎng)絡(luò)的性能。防御策略一般可以分為四類: 對(duì)圖像進(jìn)行濾波[18-23]、修改模型結(jié)構(gòu)[24-28]、對(duì)抗訓(xùn)練[29-32]以及特征與網(wǎng)絡(luò)分析[33-34]。

1.3.1 圖像濾波

常見(jiàn)的對(duì)抗攻擊方法是通過(guò)在原始圖像上添加精心設(shè)計(jì)的擾動(dòng)實(shí)現(xiàn)的。由于這種擾動(dòng)在某種程度上表現(xiàn)得像噪聲,因此,可以通過(guò)對(duì)對(duì)抗樣本進(jìn)行去噪,使其更接近于原始樣本,即去掉生成對(duì)抗樣本過(guò)程中加入的噪聲,將其盡可能恢復(fù)成原始樣本,從而實(shí)現(xiàn)對(duì)對(duì)抗樣本的準(zhǔn)確分類。從流形學(xué)習(xí)的角度理解,濾波防御是通過(guò)去噪試圖將對(duì)抗樣本拉回到干凈樣本所在的子空間。

文獻(xiàn)[18-21]通過(guò)對(duì)圖像進(jìn)行壓縮以達(dá)到去噪目的;文獻(xiàn)[22]通過(guò)一個(gè)去噪網(wǎng)絡(luò)消除對(duì)抗樣本中的擾動(dòng);文獻(xiàn)[23]通過(guò)構(gòu)造一個(gè)低維擬自然圖像空間將對(duì)抗樣本投影到自然圖像空間中。圖像濾波的方法不改變網(wǎng)絡(luò)自身的結(jié)構(gòu),不需要重訓(xùn)練,但圖像濾波沒(méi)有在本質(zhì)上提升神經(jīng)網(wǎng)絡(luò)的認(rèn)知能力,因此,其防御效果有限。當(dāng)攻擊在圖像上的變化幅度較小或者高頻信息較小的時(shí)候,單純的濾波難以區(qū)分圖像細(xì)節(jié)與對(duì)抗噪聲,使得這類防御方法會(huì)影響網(wǎng)絡(luò)的識(shí)別精度。

1.3.2 修改模型結(jié)構(gòu)

由于大多數(shù)對(duì)抗攻擊算法是基于梯度來(lái)生成對(duì)抗樣本,因此通過(guò)修改模型隱藏或限制網(wǎng)絡(luò)的梯度是一種有效的防御方法。文獻(xiàn)[24-26]通過(guò)添加新的單元或在網(wǎng)絡(luò)中引入隨機(jī)性以隱藏網(wǎng)絡(luò)的梯度;文獻(xiàn)[27-28]通過(guò)知識(shí)蒸餾和梯度正則化等方法限制網(wǎng)絡(luò)的梯度,給對(duì)抗樣本的生成帶來(lái)困難。對(duì)模型的修改在某種程度上提升了網(wǎng)絡(luò)的認(rèn)知性能,但存在需要針對(duì)特定網(wǎng)絡(luò)特定攻擊進(jìn)行重訓(xùn)練的問(wèn)題,其防御效率有待進(jìn)一步提升。

1.3.3 對(duì)抗訓(xùn)練

通過(guò)利用對(duì)抗樣本進(jìn)行對(duì)抗訓(xùn)練以增加網(wǎng)絡(luò)的魯棒性是一種直接而有效的方式。按照對(duì)抗樣本的獲取方式,對(duì)抗訓(xùn)練可以分成直接訓(xùn)練[29]、集成訓(xùn)練[30]、生成模型訓(xùn)練[31-32]等。對(duì)抗訓(xùn)練對(duì)于增強(qiáng)網(wǎng)絡(luò)性能具有重要的意義。由于通過(guò)對(duì)抗攻擊,能夠生成錯(cuò)誤樣本,從而可以更高效地提升已得到神經(jīng)網(wǎng)絡(luò)的性能,因此在小數(shù)據(jù)學(xué)習(xí)方面具有很好的應(yīng)用前景。

1.3.4 特征與網(wǎng)絡(luò)分析

原始樣本與對(duì)抗樣本在圖像或網(wǎng)絡(luò)響應(yīng)方面特征的不同可以用來(lái)檢測(cè)對(duì)抗樣本。文獻(xiàn)[33]提出一種利用隱寫分析來(lái)檢測(cè)對(duì)抗樣本的方法;文獻(xiàn)[34]提出了基于有效路徑的對(duì)抗樣本檢測(cè)方法。這類方法與神經(jīng)網(wǎng)絡(luò)的分析相結(jié)合,有可能從本質(zhì)上提升網(wǎng)絡(luò)的性能,但目前的分析往往只在較為簡(jiǎn)單的網(wǎng)絡(luò)和特定的攻擊起作用,對(duì)于各類新型攻擊的防御效果需要進(jìn)一步研究。

2 不同的對(duì)抗攻擊任務(wù)

在前述對(duì)抗攻擊描述的基礎(chǔ)上,本節(jié)將根據(jù)不同的被攻擊對(duì)象,介紹對(duì)分類器的攻擊、對(duì)檢測(cè)器的攻擊、對(duì)編碼器的攻擊,以及針對(duì)小樣本學(xué)習(xí)和在線學(xué)習(xí)的數(shù)據(jù)投毒攻擊方式。

2.1 對(duì)分類器的攻擊

針對(duì)分類器的攻擊一般是通過(guò)修改原始圖像使分類器產(chǎn)生錯(cuò)誤的分類結(jié)果以達(dá)到攻擊目的,其中又分為目標(biāo)攻擊與非目標(biāo)攻擊。目標(biāo)攻擊指的是使分類器將對(duì)抗樣本錯(cuò)誤分類至指定的類別,而非目標(biāo)攻擊只需要分類器分類錯(cuò)誤即可,對(duì)具體類別沒(méi)有要求。根據(jù)是否知道被攻擊對(duì)象的信息,對(duì)抗攻擊分為白盒攻擊和黑盒攻擊,其中白盒攻擊指完全知道網(wǎng)絡(luò)的結(jié)構(gòu)、參數(shù)等信息,而黑盒攻擊指不知道網(wǎng)絡(luò)的具體信息,而直接使用對(duì)抗樣本欺騙神經(jīng)網(wǎng)絡(luò)。

2.1.1 FGSM及其變種

FGSM[8]是一種基于梯度生成對(duì)抗樣本的算法,通過(guò)最大化損失函數(shù)以獲取對(duì)抗樣本,沿著梯度增加的方向進(jìn)一步生成對(duì)抗樣本:

x*=x+ηsgn(xJ(x, y))(3)

式中: J為分類算法中衡量分類誤差的損失函數(shù);x為原始樣本;y為原始樣本對(duì)應(yīng)的正確分類;sgn(·)為符號(hào)函數(shù);η為攻擊步長(zhǎng)。最大化J使得添加噪聲后的樣本偏離y類,由此完成非目標(biāo)攻擊。

單純的FGSM僅考慮導(dǎo)數(shù)的符號(hào),且只進(jìn)行一次的擾動(dòng),其對(duì)模型的攻擊效果往往較為有限,Basic Iterative Method[35]基于FGSM進(jìn)行改進(jìn),本質(zhì)上是對(duì)前述算法的多次應(yīng)用,使用一個(gè)小的步長(zhǎng)進(jìn)行多次迭代。

文獻(xiàn)[36]借鑒優(yōu)化的思想,在梯度迭代的基礎(chǔ)上引入了動(dòng)量,通過(guò)將動(dòng)量項(xiàng)整合到攻擊的迭代過(guò)程中,可以穩(wěn)定更新方向,并在迭代過(guò)程中擺脫不良的局部最大值,以獲得具有更好遷移性的對(duì)抗樣本。

2.1.2 Jacobian-based Saliency Map Attack

在對(duì)抗攻擊相關(guān)文獻(xiàn)中,為保證添加的擾動(dòng)不會(huì)被人察覺(jué),通常會(huì)使用l∞范數(shù)或l2范數(shù)限制擾動(dòng)的大小,文獻(xiàn) [9]提出的 JSMA方法使用l0范數(shù)約束添加擾動(dòng)的大小,即只改變幾個(gè)像素的值,而不是對(duì)整張圖像進(jìn)行修改。通過(guò)計(jì)算圖像中每個(gè)像素的導(dǎo)數(shù),可以找到對(duì)于模型判斷影響較大的像素點(diǎn),從而可以更改較少的像素點(diǎn)完成攻擊任務(wù)。

2.1.3 Deepfool

Deepfool[10]是一種基于超平面分類思想的生成對(duì)抗樣本的方法。在二分類問(wèn)題中,超平面是實(shí)現(xiàn)分類的基礎(chǔ),若需要改變分類器對(duì)某個(gè)樣本的分類結(jié)果,最小的擾動(dòng)就是將該樣本移至超平面上,這種操作的距離代價(jià)最小,對(duì)于多分類問(wèn)題也是如此。

在計(jì)算對(duì)抗樣本過(guò)程中,Deepfool將位于分類邊界內(nèi)的圖像逐步推到邊界外,直至分類結(jié)果出現(xiàn)錯(cuò)誤,相較于FGSM,該算法可以通過(guò)更小的擾動(dòng)達(dá)到對(duì)抗攻擊的效果。

2.1.4 C&W攻擊

C&W[37]基于優(yōu)化如下的目標(biāo)函數(shù)實(shí)現(xiàn)攻擊:

式中: rn 為添加的擾動(dòng),通過(guò)將對(duì)抗樣本映射到空間,使其可以在-∞至+∞做變換,更有利于優(yōu)化;優(yōu)化目標(biāo)函數(shù)的第二部分中,Z(x)為樣本x通過(guò)模型未經(jīng)過(guò)Softmax的輸出向量,其最大值對(duì)應(yīng)的就是該樣本分類的類別;k為置信度,越大的k代表模型以越高的置信度識(shí)別錯(cuò)誤;超參數(shù)c用來(lái)平衡兩個(gè)損失函數(shù)之間的相對(duì)關(guān)系。通過(guò)最小化該損失函數(shù)即可將分類類別拉至目標(biāo)類別,從而實(shí)現(xiàn)目標(biāo)攻擊。

作為基于優(yōu)化的攻擊方法,C&W攻擊通過(guò)改變可以調(diào)節(jié)置信度,同時(shí)對(duì)添加擾動(dòng)的大小進(jìn)行抑制,生成的擾動(dòng)更小,但該方法的速度較慢。

2.1.5 Zeroth Order Optimization(ZOO)

ZOO[38]是一種經(jīng)典的黑盒攻擊,無(wú)需知曉網(wǎng)絡(luò)內(nèi)部參數(shù),通過(guò)對(duì)圖像的像素點(diǎn)逐步添加一個(gè)小的擾動(dòng),根據(jù)模型輸出的邏輯值的變化估計(jì)其對(duì)每個(gè)像素的梯度。在估計(jì)所得梯度的基礎(chǔ)上,直接使用白盒的C&W進(jìn)行攻擊。

2.1.6 One pixel attack

作為一種極端的對(duì)抗攻擊方法,One pixel attack僅改變圖像中的一個(gè)像素值以實(shí)現(xiàn)對(duì)抗攻擊[39]。該算法采用差分進(jìn)化算法,針對(duì)每個(gè)像素迭代地修改生成子圖像,并與母圖像對(duì)比,根據(jù)選擇標(biāo)準(zhǔn)保留攻擊效果最好的子圖像,從而實(shí)現(xiàn)對(duì)抗攻擊。該攻擊無(wú)需獲得網(wǎng)絡(luò)結(jié)構(gòu)與內(nèi)部參數(shù)或梯度的任何信息,屬于黑盒攻擊。

2.1.7 僅基于分類結(jié)果的攻擊

文獻(xiàn)[40]提出了一種只基于樣本的類別標(biāo)簽邊界攻擊(boundary attack)。在算法迭代過(guò)程中,樣本由初始化的圖像逐漸向原始樣本靠近,直至尋找到?jīng)Q策邊界,并在決策邊界上找到與原始樣本最近的對(duì)抗樣本。這種只根據(jù)輸入圖像的標(biāo)簽信息并基于決策邊界的攻擊方法相較于其他方法更為簡(jiǎn)單,但是由于該方法對(duì)模型的訪問(wèn)次數(shù)巨大,使該方法耗時(shí)過(guò)長(zhǎng)。針對(duì)這一局限,boundary attack++對(duì)該算法進(jìn)行了優(yōu)化,大大降低該算法的時(shí)間成本。

除此之外,還有很多優(yōu)秀的攻擊算法[41-43],在此不再詳細(xì)介紹??傮w而言,對(duì)分類器的攻擊研究最為充分,也往往是實(shí)現(xiàn)其他攻擊的基礎(chǔ)。

2.2 對(duì)檢測(cè)器的攻擊

目前很多分類器是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建的,而許多優(yōu)秀的目標(biāo)檢測(cè)算法[44-47]同樣使用CNN網(wǎng)絡(luò)作為前層特征提取網(wǎng)絡(luò)。因此,許多針對(duì)分類器的攻擊算法也能夠有效地攻擊檢測(cè)器[48-50]。

圖2是文獻(xiàn)[50]中給出的一張對(duì)檢測(cè)器的攻擊效果圖。左側(cè)是原始圖像的分割結(jié)果和檢測(cè)結(jié)果(紫色區(qū)域?yàn)楣罚覀?cè)是對(duì)抗樣本的分割結(jié)果和檢測(cè)結(jié)果(淺綠色區(qū)域誤認(rèn)為是火車,粉紅色區(qū)域誤認(rèn)為是人)??梢钥闯?,盡管人類看不出任何區(qū)別,檢測(cè)器卻以很高的置信度分割并檢測(cè)錯(cuò)誤。

2.3 對(duì)編碼器的攻擊

自動(dòng)編碼器[51-52]能夠?qū)⑤斎霐?shù)據(jù)壓縮為維度較小的向量,傳遞之后可以使用解碼器近似地重建原始數(shù)據(jù)。盡管相對(duì)于分類器和檢測(cè)器,編碼器攻擊難度較大,但其仍然受到來(lái)自對(duì)抗樣本的威脅。例如,文獻(xiàn)[53]對(duì)編碼器隱變量進(jìn)行了攻擊,使得原始樣本與對(duì)抗樣本的表示向量相似。這是一種Type Ⅱ攻擊示例。

同樣地,Type I 對(duì)抗攻擊[12]能夠使對(duì)抗樣本相對(duì)于原始樣本產(chǎn)生很大的變化,而其重建之后的結(jié)果卻與原始樣本相似。圖3顯示了在人臉數(shù)據(jù)庫(kù)上對(duì)編碼器的攻擊效果[54]: 雖然兩張圖的隱變量差異非常大(這里 Dev 表示的是兩者之間每個(gè)維度上的平均相對(duì)差值),但其解碼后的結(jié)果卻非常相似。換言之,雖然相應(yīng)的人臉很像,但其編碼卻喪失了相似性,使得編碼空間的分類器失效。

2.4 數(shù)據(jù)投毒

與前面的攻擊方式不同,數(shù)據(jù)投毒[55](也稱為特洛伊攻擊)主要針對(duì)網(wǎng)絡(luò)的訓(xùn)練過(guò)程。具體地,在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,通過(guò)在訓(xùn)練數(shù)據(jù)的某幾個(gè)樣本中加入小的不易察覺(jué)的標(biāo)記,引導(dǎo)對(duì)方分類器以此類標(biāo)記作為特征進(jìn)行識(shí)別,喪失真實(shí)的判別能力。這類攻擊尤其對(duì)于小樣本學(xué)習(xí)和在線學(xué)習(xí)等具有很強(qiáng)的破壞作用。

以圖4展示的機(jī)型識(shí)別任務(wù)為例,數(shù)據(jù)投毒類攻擊在訓(xùn)練樣本中添加特別設(shè)計(jì)的標(biāo)記,如圖4(a)紅框所示。將被投毒的樣本送入訓(xùn)練樣本庫(kù)后,會(huì)誘導(dǎo)神經(jīng)網(wǎng)絡(luò)將該標(biāo)志物作為樣本的重要特征,進(jìn)而影響其判別能力。當(dāng)投毒成功后,在被檢測(cè)物體上添加類似標(biāo)志,如圖4(b)所示,即使機(jī)型已經(jīng)發(fā)生了顯著的變化,但這個(gè)標(biāo)志仍然會(huì)誘導(dǎo)檢測(cè)器將其識(shí)別為特定的類別。為了視覺(jué)效果,圖4展示的標(biāo)記較為明顯,在實(shí)際攻擊中,這個(gè)標(biāo)記可以小到不易察覺(jué)。投毒攻擊可以和對(duì)抗攻擊(被稱為后門攻擊)聯(lián)合使用,即可以通過(guò)向訓(xùn)練集投毒增強(qiáng)對(duì)抗攻擊的成功率。

3 生成攻擊的發(fā)展趨勢(shì)

對(duì)抗攻擊這一概念被提出后,就成為熱門研究領(lǐng)域[56],涌現(xiàn)出許多有前景的研究。時(shí)至今日,對(duì)抗攻擊有以下幾個(gè)發(fā)展趨勢(shì): 從對(duì)圖像的攻擊到對(duì)特征的攻擊、從白盒攻擊到黑盒攻擊、從數(shù)字攻擊到物理攻擊。

3.1 從對(duì)圖像的攻擊到對(duì)特征的攻擊

目前,大多數(shù)對(duì)抗攻擊算法都是集中在圖像空間中,通過(guò)在圖像上疊加噪聲來(lái)欺騙神經(jīng)網(wǎng)絡(luò),以此為基礎(chǔ)的許多攻擊以及防御算法都取得了很好的效果。不過(guò),將對(duì)抗攻擊與圖像特征和語(yǔ)義信息聯(lián)系起來(lái),將有助于更好地分析圖像特征和網(wǎng)絡(luò)機(jī)理[12,57],由此提出了一種新的攻擊思路——基于特征的攻擊?;谔卣鞯墓舨⒉皇呛?jiǎn)單地在圖像上添加隨機(jī)噪聲,而是添加具有語(yǔ)義的擾動(dòng),從而更難被目前主流的防御算法所防御。

3.2 從白盒攻擊到黑盒攻擊

盡管目前對(duì)抗攻擊對(duì)深度神經(jīng)網(wǎng)絡(luò)提出了嚴(yán)峻挑戰(zhàn),但在實(shí)際應(yīng)用中人們卻并不是那么擔(dān)心,因?yàn)槟壳暗拇蠖鄶?shù)攻擊算法為白盒攻擊算法,需要獲得網(wǎng)絡(luò)的結(jié)構(gòu)、梯度等信息來(lái)生成對(duì)抗樣本,而在實(shí)際應(yīng)用中這幾乎是不可能的,因此,白盒攻擊并不會(huì)造成較大的威脅,攻擊者需要借助于黑盒攻擊才有可能實(shí)現(xiàn)穩(wěn)定的攻擊。

黑盒攻擊指的是攻擊者不需要獲得被攻擊對(duì)象的具體信息,而直接進(jìn)行攻擊。具體可以分為基于查詢的攻擊[58-59]和基于遷移的攻擊[60-61]?;诓樵兊墓粜枰啻卧L問(wèn)被攻擊的網(wǎng)絡(luò)以估計(jì)梯度從而實(shí)現(xiàn)攻擊,但在實(shí)際應(yīng)用中這種查詢很容易被防御系統(tǒng)檢測(cè)到。基于遷移的攻擊先在一個(gè)參考網(wǎng)絡(luò)上實(shí)現(xiàn)白盒攻擊,生成對(duì)抗樣本,再遷移到被攻擊網(wǎng)絡(luò)上。目前這種方式往往依賴于參考網(wǎng)絡(luò)和被攻擊網(wǎng)絡(luò)的相似性,較高的遷移率需要二者有較高的相似度,然而這與黑盒攻擊的思想相違背。黑盒攻擊這一任務(wù)不僅是對(duì)抗攻擊的發(fā)展趨勢(shì)之一,同時(shí)也十分具有挑戰(zhàn)性。

3.3 從數(shù)字攻擊到物理攻擊

即使實(shí)現(xiàn)了黑盒攻擊,對(duì)抗攻擊若想真正威脅到現(xiàn)實(shí)中的神經(jīng)網(wǎng)絡(luò)還需要突破最后一個(gè)障礙,那就是從數(shù)字攻擊轉(zhuǎn)變?yōu)槲锢砉鬧35,62-63]。圖5展示了文獻(xiàn)[63]中實(shí)現(xiàn)的一個(gè)物理攻擊的例子。左側(cè)的人被成功檢測(cè),而右側(cè)貼有對(duì)抗噪聲的人則成功“隱形”。與數(shù)字攻擊不同,這里并不是在圖片上施加攻擊,而是真實(shí)打印出了用于攻擊的圖案。

目前的絕大多數(shù)對(duì)抗攻擊是將獲取的原始圖片轉(zhuǎn)換為對(duì)抗樣本,即圖片的數(shù)字信息被改變。然而在實(shí)際應(yīng)用,例如安保檢測(cè)中,入侵監(jiān)控?cái)z像頭更改被攻擊系統(tǒng)的數(shù)字信息十分困難,并且被檢測(cè)物體往往處在移動(dòng)之中,這對(duì)對(duì)抗攻擊的穩(wěn)定性也提出了挑戰(zhàn)。除此之外,對(duì)抗圖片相對(duì)于原始圖片的噪聲不僅僅添加在被檢測(cè)物體上,同時(shí)也會(huì)添加在背景中,在具體的攻擊場(chǎng)景中,為整個(gè)環(huán)境添加噪聲幾乎是不可能完成的任務(wù)。物理攻擊的實(shí)現(xiàn)會(huì)對(duì)目前許多深度學(xué)習(xí)的應(yīng)用產(chǎn)生巨大的威脅,除了人們?nèi)粘I钪械膽?yīng)用之外,對(duì)高可靠性的軍事應(yīng)用威脅更甚。例如,在目標(biāo)檢測(cè)中,通過(guò)添加對(duì)抗噪聲來(lái)實(shí)現(xiàn)在神經(jīng)網(wǎng)絡(luò)眼中的“隱形戰(zhàn)機(jī)”或者對(duì)地面目標(biāo)進(jìn)行“隱形”,或者通過(guò)數(shù)據(jù)投毒等方式破解高保密性的人臉識(shí)別系統(tǒng)等。因此,如何在物理世界中實(shí)現(xiàn)對(duì)神經(jīng)網(wǎng)絡(luò)的高效攻擊是未來(lái)對(duì)抗攻擊的研究熱點(diǎn)之一。

4 防御方法及對(duì)神經(jīng)網(wǎng)絡(luò)的提升

4.1 預(yù)處理與圖像壓縮

對(duì)于高維的分類任務(wù),訓(xùn)練集數(shù)據(jù)往往處于一個(gè)復(fù)雜的低維子空間中,而對(duì)抗樣本則不處于該子空間內(nèi),如果可以將這些對(duì)抗樣本映射到該子空間中,也就可以實(shí)現(xiàn)防御對(duì)抗攻擊的效果。然而在實(shí)際任務(wù)中,往往很難確定該子空間,但可以嘗試一個(gè)找到包含該子空間的低維空間。

4.1.1 圖像壓縮

文獻(xiàn)[18-19]指出,JPEG空間是一個(gè)有效的低維空間,將對(duì)抗樣本轉(zhuǎn)換為JPEG格式可以一定程度上抵御對(duì)抗攻擊;文獻(xiàn)[20]提出了面向深度神經(jīng)網(wǎng)絡(luò)的JPEG壓縮方法來(lái)抵御對(duì)抗樣本(“特征蒸餾”),通過(guò)重新設(shè)計(jì)標(biāo)準(zhǔn)的JPEG壓縮算法,以達(dá)到最大化提高防御效率同時(shí)保證DNN測(cè)試準(zhǔn)確率的效果;

文獻(xiàn)[21]提出了ComDefend防御方法,利用圖像壓縮網(wǎng)絡(luò)來(lái)消除對(duì)抗擾動(dòng)或打破對(duì)抗擾動(dòng)的結(jié)構(gòu)。ComDefend使用兩個(gè)網(wǎng)絡(luò)先將圖片進(jìn)行壓縮以去除對(duì)抗樣本中的噪聲信息,再重建以獲得清晰的圖片。ComDefend針對(duì)清晰圖像進(jìn)行訓(xùn)練,在訓(xùn)練階段不需要對(duì)抗樣本,因此降低了計(jì)算成本。

4.1.2 去噪網(wǎng)絡(luò)

文獻(xiàn)[22]通過(guò)添加外部模型作為附加網(wǎng)絡(luò)來(lái)針對(duì)對(duì)抗樣本進(jìn)行去噪預(yù)處理,論文首先提出一種以像素為導(dǎo)向的去噪器(pixel guided denoiser,PGD),希望最小化對(duì)抗樣本去噪后的圖像與原始樣本之間的差異。但由于去噪器難以完全消除擾動(dòng),剩下的微小擾動(dòng)仍然會(huì)逐層放大,最終導(dǎo)致網(wǎng)絡(luò)的錯(cuò)誤輸出。針對(duì)此問(wèn)題,論文又提出了一種以高級(jí)表示為導(dǎo)向的去噪器(HGD),與PGD不同,將去噪后的圖片與原始圖片都輸入到預(yù)訓(xùn)練好的深度神經(jīng)網(wǎng)絡(luò)模型中,將最后幾層的高級(jí)特征的差異作為損失函數(shù)來(lái)訓(xùn)練去噪器,有效避免了PGD的擾動(dòng)逐層放大的問(wèn)題。

4.1.3 卷積稀疏編碼

文獻(xiàn)[23]在卷積稀疏編碼的基礎(chǔ)上,構(gòu)造了一個(gè)分層的低維擬自然圖像空間,該空間在消除對(duì)抗擾動(dòng)的同時(shí)逼近自然圖像空間。通過(guò)在輸入圖像和神經(jīng)網(wǎng)絡(luò)第一層之間引入一種新的稀疏變換層(Sparse Transformation Layer,STL),可以有效將對(duì)抗樣本投影到擬自然圖像空間中。

4.2 修改模型

4.2.1 在原模型上添加新的單元

文獻(xiàn)[24]在初始網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,添加一個(gè)利用非局部平均(non-local means)與濾波器對(duì)特征進(jìn)行降噪,利用對(duì)抗訓(xùn)練實(shí)現(xiàn)對(duì)對(duì)抗樣本的防御。

4.2.2 引入隨機(jī)性

文獻(xiàn)[25]提出一種隨機(jī)多樣化機(jī)制作為防御對(duì)抗攻擊的策略。該方法在網(wǎng)絡(luò)中引入了一種多通道的結(jié)構(gòu),各個(gè)通道在訓(xùn)練與測(cè)試階段采用不同的隨機(jī)策略,以達(dá)到防御對(duì)抗攻擊的目的。

文獻(xiàn)[26]提出了PNI(Parametric Noise Injection)方法,通過(guò)將高斯噪聲注入到神經(jīng)網(wǎng)絡(luò)每一層的激活和權(quán)重中提高網(wǎng)絡(luò)的隨機(jī)性。但在網(wǎng)絡(luò)訓(xùn)練的過(guò)程中,除了訓(xùn)練每一層的權(quán)重,還要訓(xùn)練噪聲的參數(shù),加重了訓(xùn)練負(fù)擔(dān)。

4.2.3 防御性蒸餾

文獻(xiàn)[27]基于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的蒸餾法提出了防御性蒸餾,以提高模型魯棒性。該方法希望將訓(xùn)練好的復(fù)雜模型學(xué)習(xí)到的“知識(shí)”遷移到一個(gè)結(jié)構(gòu)更為簡(jiǎn)單的網(wǎng)絡(luò)中,或者通過(guò)簡(jiǎn)單的網(wǎng)絡(luò)去學(xué)習(xí)復(fù)雜模型中的“知識(shí)”。其具體思路是: 首先根據(jù)原始訓(xùn)練樣本X和標(biāo)簽Y訓(xùn)練一個(gè)初始的深度神經(jīng)網(wǎng)絡(luò)F(X), 然后利用樣本X與F(X)作為新的標(biāo)簽訓(xùn)練一個(gè)蒸餾網(wǎng)絡(luò),得到新的概率分布Fd(X), 最終利用整個(gè)網(wǎng)絡(luò)進(jìn)行分類或預(yù)測(cè)。這樣可以使網(wǎng)絡(luò)的決策邊界更加平滑,有效防御基于梯度產(chǎn)生的對(duì)抗樣本。

4.2.4 梯度正則化

神經(jīng)網(wǎng)絡(luò)的輸出對(duì)輸入的梯度幅度過(guò)大是造成其過(guò)于敏感的原因,因此文獻(xiàn)[28]使用梯度正則化來(lái)提升網(wǎng)絡(luò)的對(duì)抗魯棒性。在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的過(guò)程中,懲罰輸出相對(duì)輸入的變化幅度,使輸出對(duì)于輸入的敏感性降低,從而達(dá)到隱藏梯度的效果,但帶來(lái)了更大的計(jì)算量。使用梯度正則化的邏輯基礎(chǔ)在于輸入和輸出之間的連續(xù)性,由于分類問(wèn)題的標(biāo)簽是量化后的結(jié)果,已經(jīng)喪失了連續(xù)性。因此,直接使用梯度正則化對(duì)分類任務(wù)并不特別合適,而是適用于編碼器等本身輸出與輸入之間連續(xù)性較好的任務(wù)。圖6(a) 顯示了對(duì)編碼器進(jìn)行攻擊的結(jié)果,雖然其輸入圖像視覺(jué)效果保持不變,但其重建圖像發(fā)生了顯著的變化,如圖6(b) 所示。在編碼器訓(xùn)練時(shí)加入梯度正則化可以顯著增強(qiáng)所得結(jié)果的穩(wěn)健性[64]。此時(shí),為達(dá)到圖6(b) 所示的重建目標(biāo),輸入圖像本身就已經(jīng)變得和目標(biāo)類別很相近(如圖6(c) 所示),避免了對(duì)抗攻擊。

4.3 對(duì)抗訓(xùn)練

對(duì)抗訓(xùn)練指的是利用對(duì)抗樣本對(duì)網(wǎng)絡(luò)進(jìn)行對(duì)抗訓(xùn)練。隨著網(wǎng)絡(luò)所接受的對(duì)抗樣本數(shù)量的增加,網(wǎng)絡(luò)對(duì)于對(duì)抗樣本的魯棒性也就越強(qiáng),同時(shí)網(wǎng)絡(luò)對(duì)于干凈樣本的分類正確率也往往會(huì)增加[29]。

最直接的方法是使用針對(duì)訓(xùn)練網(wǎng)絡(luò)產(chǎn)生的對(duì)抗樣本進(jìn)行訓(xùn)練[29]。另外,還可以采用集成訓(xùn)練方法[30],使用其他模型產(chǎn)生的對(duì)抗樣本來(lái)擴(kuò)充本模型的訓(xùn)練集,從而增強(qiáng)訓(xùn)練模型的黑盒魯棒性。除此之外,還可以采用生成模型來(lái)產(chǎn)生對(duì)抗樣本進(jìn)行訓(xùn)練,文獻(xiàn)[31]基于AC-GAN產(chǎn)生無(wú)約束(非噪聲)的對(duì)抗性樣本;文獻(xiàn) [32]提出了AdvGAN模型,使用生成對(duì)抗網(wǎng)絡(luò)對(duì)圖片生成對(duì)抗擾動(dòng)。采用生成模型進(jìn)行對(duì)抗訓(xùn)練的方法受限于生成模型對(duì)數(shù)據(jù)集的擬合能力與生成圖像的能力,并且生成模型仍然是學(xué)習(xí)訓(xùn)練集的分布,無(wú)法突破訓(xùn)練集的約束,對(duì)未知對(duì)抗樣本的魯棒性仍有待考證。

雖然對(duì)抗訓(xùn)練取得了一定效果,但是對(duì)抗訓(xùn)練在訓(xùn)練過(guò)程中不僅需要干凈的訓(xùn)練樣本,同時(shí)也需要大量的對(duì)抗樣本,極大地增加了所需的計(jì)算資源。同時(shí),文獻(xiàn)[65]指出,即使是經(jīng)過(guò)對(duì)抗訓(xùn)練的網(wǎng)絡(luò),也能有效計(jì)算出針對(duì)該網(wǎng)絡(luò)的新對(duì)抗樣本。

4.4 特征分析與網(wǎng)絡(luò)分析

除了以上方法,還可以分析圖像特征或者分析網(wǎng)絡(luò)響應(yīng),進(jìn)而對(duì)對(duì)抗樣本進(jìn)行檢測(cè)。

隱寫分析是指在已知或未知嵌入算法的情況下,從觀察到的數(shù)據(jù)檢測(cè)判斷其中是否存在秘密信息,分析數(shù)據(jù)量的大小和數(shù)據(jù)嵌入的未知,并最終破解嵌入內(nèi)容的過(guò)程。針對(duì)圖像的對(duì)抗攻擊與圖像上的隱寫術(shù)都是在像素值上進(jìn)行擾動(dòng),而隱寫分析可以有效地檢測(cè)通過(guò)隱寫術(shù)模擬真實(shí)圖像中相鄰像素之間的依賴關(guān)系進(jìn)行的修改,所以也可以利用隱寫分析來(lái)識(shí)別對(duì)抗攻擊造成的偏差。文獻(xiàn)[33]提出一種利用隱寫分析來(lái)檢測(cè)對(duì)抗樣本的方法,根據(jù)隱寫分析對(duì)圖像進(jìn)行特征的提取,再利用線性分類器對(duì)樣本是否為對(duì)抗樣本進(jìn)行分類。

文獻(xiàn)[34]提出了基于有效路徑的對(duì)抗樣本檢測(cè)方法,其理論基礎(chǔ)在于深度神經(jīng)網(wǎng)絡(luò)工作時(shí),并不是所有的神經(jīng)元都會(huì)被激活,正常樣本和攻擊樣本所激活的神經(jīng)元會(huì)有所不同,即有效路徑不同,由此可以從有效路徑的角度出發(fā)來(lái)分析神經(jīng)網(wǎng)絡(luò)。

文獻(xiàn)[17]認(rèn)為,數(shù)據(jù)中的特征分為穩(wěn)健特征和非穩(wěn)健特征,而對(duì)抗樣本的產(chǎn)生歸因于非穩(wěn)健特征的出現(xiàn): 某些來(lái)自數(shù)據(jù)分布模式的特征具備高度預(yù)測(cè)性,但對(duì)于人類而言是脆弱且難以理解的,模型在對(duì)抗攻擊下表現(xiàn)的脆弱性是模型對(duì)數(shù)據(jù)中泛化較好的特征具備敏感性的直接結(jié)果,這種對(duì)抗脆弱性完全是以一種“以人為中心”的現(xiàn)象,因?yàn)閺臉?biāo)準(zhǔn)監(jiān)督學(xué)習(xí)的角度來(lái)看,非穩(wěn)健特征和穩(wěn)健特征具備同等的重要性。因此,如果希望獲得具有魯棒性、解釋性的模型,就需要將人類先驗(yàn)知識(shí)更好地引入訓(xùn)練過(guò)程,而僅通過(guò)模型訓(xùn)練難以獲得。

4.5 類腦計(jì)算、因果計(jì)算及其他

一些觀點(diǎn)認(rèn)為,神經(jīng)網(wǎng)絡(luò)雖然受人類神經(jīng)元的啟發(fā),但其并不能真正模仿人類思考的過(guò)程。因此,一些研究致力于開(kāi)發(fā)新的計(jì)算方式以增強(qiáng)模型的泛化能力。

文獻(xiàn)[66]提出了一種通用似然比方法,該方法能夠使用一些類似于大腦的生物機(jī)制來(lái)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò);文獻(xiàn)[67]受神經(jīng)回路中非線性樹(shù)突計(jì)算基礎(chǔ)的生物物理原理啟發(fā),證明了神經(jīng)網(wǎng)絡(luò)對(duì)于高度非線性激活的對(duì)抗攻擊具有天然的魯棒性;文獻(xiàn)[68]分析了DNN和人類對(duì)模式進(jìn)行分類的方式之間的差異,提出了密集關(guān)聯(lián)記憶(DAM)模型,神經(jīng)元之間具有更高階的相互作用,更能準(zhǔn)確地模仿人類的感知;文獻(xiàn)[69-71]受人類神經(jīng)元中電脈沖信號(hào)的啟發(fā),提出脈沖神經(jīng)元,其輸入輸出全部都是脈沖信號(hào)(例如010100…),更接近于真實(shí)的生物神經(jīng)模型;文獻(xiàn)[72-74]則從貝葉斯推理、圖卷積神經(jīng)網(wǎng)絡(luò)等角度,重新考慮了數(shù)據(jù)之間的因果關(guān)系,希望神經(jīng)網(wǎng)絡(luò)能夠具有推理能力,以訓(xùn)練出更加魯棒的模型。

5 結(jié)論

本文介紹了針對(duì)神經(jīng)網(wǎng)絡(luò)的對(duì)抗攻擊的基本概念和原理,梳理了經(jīng)典的對(duì)抗攻擊算法和防御算法,分析了對(duì)抗攻擊的未來(lái)發(fā)展趨勢(shì)。

對(duì)抗攻擊在近年來(lái)得到了很多關(guān)注,在通過(guò)攻擊發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)共有缺陷、通過(guò)防御增強(qiáng)神經(jīng)網(wǎng)絡(luò)的性能等方面仍然有許多值得探索的問(wèn)題。對(duì)抗攻擊并不是為了否定深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),而是為了幫助神經(jīng)網(wǎng)絡(luò)抵御未知的惡意攻擊,幫助人類更好地了解神經(jīng)網(wǎng)絡(luò)背后的數(shù)學(xué)原理,揭示其工作過(guò)程,進(jìn)而訓(xùn)練出更穩(wěn)健、更具解釋性的模型,以達(dá)到提升神經(jīng)網(wǎng)絡(luò)認(rèn)知水平的最終目的。

參考文獻(xiàn):

[1] Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition [EB/OL]. (2015-04-10) [2020-01-19]. https:∥arxiv.xilesou.top/pdf/1409.1556.pdf.

[2] He K M, Zhang X Y, Ren S Q, et al. Deep Residual Learning for Image Recognition[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.

[3] Huang G, Liu Z, Van Der Maaten L, et al. Densely Connected Convolutional Networks[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 4700-4708.

[4] Litjens G, Kooi T, Bejnordi B E, et al. A Survey on Deep Learning in Medical Image Analysis[J]. Medical Image Analysis, 2017, 42: 60-88.

[5] Shen D G, Wu G R, Suk H I. Deep Learning in Medical Image Analysis[J]. Annual Review of Biomedical Engineering, 2017, 19: 221-248.

[6] Bojarski M, Del Testa D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[EB/OL]. (2014-04-25) [2020-01-19]. https:∥arxiv.xilesou.top/pdf/1604.07316.pdf.

[7] Tian Y C, Pei K X, Jana S, et al. Deeptest: Automated Testing of Deep-Neural-Network-Driven Autonomous Cars[C]∥Proceedings of the 40th International Conference on Software Engineering, 2018: 303-314.

[8] Goodfellow I, Shlens J, Szegedy C. Explaining and Harnessing Adversarial Examples[C]∥International Conference on Learning Representation(ICLR), 2015.

[9] Papernot N, McDaniel P, Jha S, et al. The Limitations of Deep Learning in Adversarial Settings[C]∥IEEE European Symposium on Security and Privacy (EuroS&P), 2016: 372-387.

[10] Moosavi-Dezfooli S M, Fawzi A, Frossard P. Deepfool: A Simple and Accurate Method to Fool Deep Neural Networks[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 2574-2582.

[11] Nguyen A, Yosinski J, Clune J. Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images[C]∥ IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015: 427-436.

[12] Tang S L, Huang X L, Chen M J, et al. Adversarial Attack Type I: Cheat Classifiers by Significant Changes[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence. DOI: 10.1109/TPAMI. 2019.2936378.

[13] Gilmer J, Metz L, Faghri F, et al. Adversarial Spheres[EB/OL]. (2019-08-12)[2020-01-19]. https:∥arxiv.org/pdf/1801.02774v2.pdf.

[14] Schmidt L, Santurkar S, Tsipras D, et al. Adversarially Robust Generalization Requires More Data[C]∥Conference on Neural Information Processing Systems(NIPS), 2018: 5014-5026.

[15] Bubeck S, Price E, Razenshteyn I. Adversarial Examples from Computational Constraints[EB/OL]. (2018-05-25)[2020-01-19]. https:∥arxiv.org/pdf/1805.10204.pdf.

[16] Shafahi A, Huang W R, Studer C, et al. Are Adversarial Examples Inevitable?[EB/OL]. (2018-09-06)[2020-01-19]. https:∥arxiv.org/pdf/1809.02104v1.pdf.

[17] Ilyas A, Santurkar S, Tsipras D, et al. Adversarial Examples are Not Bugs, They are Features[EB/OL].(2019-08-12)[2020-01-19]. https:∥arxiv.org/pdf/1905.02175v3.pdf.

[18] Dziugaite G K, Ghahramani Z, Roy D M. A Study of the Effect of JPG Compression on Adversarial Images[EB/OL]. (2016-08-02)[2020-01-19]. https:∥arxiv.org/pdf/1608.00853.pdf.

[19] Das N, Shanbhogue M, Chen S T, et al. Keeping the Bad Guys Out: Protecting and Vaccinating Deep Learning with JPEG Compression[EB/OL]. (2017-05-08)[2020-01-19]. https:∥arxiv.org/pdf/1705.02900.pdf.

[20] Liu Z H, Liu Q, Liu T, et al. Feature Distillation: DNN-Oriented JPEG Compression Against Adversarial Examples[EB/OL].(2018-03-14)[2020-01-19].https:∥arxiv.org/pdf/1803.05787.pdf.

[21] Jia X J, Wei X X, Cao X C, et al. ComDefend: An Efficient Image Compression Model to Defend Adversarial Examples[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 6084-6092.

[22] Liao F Z, Liang M, Dong Y P, et al. Defense Against Adversarial Attacks Using High-Level Representation Guided Denoiser[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 1778-1787.

[23] Sun B, Tsai N, Liu F C, et al. Adversarial Defense by Stratified Convolutional Sparse Coding[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 11447-11456.

[24] Xie C H, Wu Y X, Van Der Maaten L, et al. Feature Denoising for Improving Adversarial Robustness[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 501-509.

[25] Taran O, Rezaeifar S, Holotyak T, et al. Defending Against Adversarial Attacks by Randomized Diversification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 11226-11233.

[26] Rakin A S, He Z, Fan D. Parametric Noise Injection: Trainable Randomness to Improve Deep Neural Network Robustness Against Adversarial Attack[EB/OL]. (2018-11-22)[2020-01-19]. https:∥arxiv.org/pdf/1811.09310.pdf.

[27] Papernot N, McDaniel P, Wu X, et al. Distillation as a Defense to Adversarial Perturbations Against Deep Neural Networks[C]∥IEEE Symposium on Security and Privacy (SP), San Jose,USA, 2016: 582-597.

[28] Ross A S, Doshi-Velez F. Improving the Adversarial Robustness and Interpretability of Deep Neural Networks by Regularizing Their Input Gradients[C]∥Thirty-Second AAAI Conference on Artificial Intelligence, 2018: 1660-1669.

[29] Sharif M, Bauer L, Reiter M K. On the Suitability of Lp-Norms for Creating and Preventing Adversarial Examples[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2018: 1605-1613.

[30] Tramèr F, Kurakin A, Papernot N, et al. Ensemble Adversarial Training: Attacks and Defenses[EB/OL]. (2017-05-30)[2020-01-19]. https:∥arxiv.org/pdf/1705.07204.pdf.

[31] Song Y, Shu R, Kushman N, et al. Constructing Unrestricted Adversarial Examples with Generative Models[C]∥ Conference on Neural Information Processing Systems(NIPS), 2018: 8312-8323.

[32] Xiao C W, Li B, Zhu J Y, et al. Generating Adversarial Examples with Adversarial Networks[EB/OL]. (2018-01-15)[2020-01-19]. https:∥arxiv.org/pdf/1801.02610.pdf.

[33] Liu J Y, Zhang W M, Zhang Y W, et al. Detection Based Defense Against Adversarial Examples from the Steganalysis Point of View[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019: 4825-4834.

[34] Qiu Y X, Leng J W, Guo C, et al. Adversarial Defense Through Network Profiling Based Path Extraction[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 4777-4786.

[35] Kurakin A, Goodfellow I, Bengio S. Adversarial Examples in the Physical World[EB/OL]. (2016-11-01)[2020-01-19]. https:∥arxiv.org/pdf/1607.02533.pdf.

[36] Dong Y P, Liao F Z, Pang T Y, et al. Boosting Adversarial Attacks with Momentum[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 9185-9193.

[37] Carlini N, Wagner D. Towards Evaluating the Robustness of Neural Networks[C]∥IEEE Symposium on Security and Privacy (SP), 2017: 39-57.

[38] Chen P Y, Zhang H, Sharma Y, et al. ZOO: Zeroth Order Optimization Based Black-Box Attacks to Deep Neural Networks without Training Substitute Models[C]∥Proceedings of the 10th ACM Workshop on Artificial Intelligence and Security, 2017: 15-26.

[39] Su J W, Vargas D V, Sakurai K. One Pixel Attack for Fooling Deep Neural Networks[J]. IEEE Transactions on Evolutionary Computation, 2019, 23(5):828-841.

[40] Brendel W, Rauber J, Bethge M. Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models[EB/OL]. (2017-11-12)[2020-01-19]. https:∥arxiv.org/pdf/1712.04248.pdf.

[41] Baluja S, Fischer I. Adversarial Transformation Networks: Learning to Generate Adversarial Examples[EB/OL]. (2017-03-28)[2020-01-19]. https:∥arxiv.org/pdf/1703.09387.pdf.

[42] Cisse M, Adi Y, Neverova N, et al. Houdini: Fooling Deep Structured Prediction Models[EB/OL]. (2017-07-17)[2020-01-19]. https:∥arxiv.org/pdf/1707.05373.pdf.

[43] Han J F, Dong X Y, Zhang R M, et al. Once a Man: Towards Multi-Target Attack via Learning Multi-Target Adversarial Network Once[C]∥Proceedings of the IEEE International Conference on Computer Vision, 2019: 5158-5167.

[44] Girshick R, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.

[45] Girshick R. Fast R-CNN[C]∥Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.

[46] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]∥ Conference on Neural Information Processing Systems(NIPS),2015: 91-99.

[47] Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2015: 3431-3440.

[48] Arnab A, Miksik O, Torr P H S. On the Robustness of Semantic Segmentation Models to Adversarial Attacks[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2018: 888-897.

[49] Metzen J H, Kumar M C, Brox T, et al. Universal Adversarial Perturbations Against Semantic Image Segmentation[C]∥ Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2017: 2774-2783.

[50] Xie C H, Wang J Y, Zhang Z S, et al. Adversarial Examples for Semantic Segmentation and Object Detection[C]∥ Proceedings of the IEEE International Conference on Computer Vision(ICCV), 2017: 1369-1378.

[51] Bengio Y. Learning Deep Architectures for AI[J]. Famdations and Trends in Machme Learning, 2009, 2(1): 1-55.

[52] Doersch C. Tutorial on Variational Autoencoders[EB/OL]. (2016-08-13)[2020-01-19]. https:∥arxiv.org/pdf/1606.05908.pdf.

[53] Tabacof P, Tavares J, Valle E. Adversarial Images for Variational Autoencoders[EB/OL]. (2016-11-01)[2020-01-19]. https:∥arxiv.org/pdf/1612.00155.pdf.

[54] Sun C J, Chen S Z, Cai J, et al. Type I Attack for Generative Models[EB/OL]. (2020-03-04) [2020-03-04]. https:∥arxiv.org/pdf/2003.01872.pdf.

[55] Gu T Y, Dolan-Gavitt B, Garg S. Badnets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain[EB/OL]. (2017-08-22)[2020-01-19]. https:∥arxiv.org/pdf/1708.06733.pdf.

[56] Szegedy C, Zaremba W, Sutskever I, et al. Intriguing Properties of Neural Networks[EB/OL]. (2013-11-21)[2020-01-19]. https:∥arxiv.org/pdf/1312.6199.pdf.

[57] Song Y, Shu R, Kushman N, et al. Constructing Unrestricted Adversarial Examples with Generative Model[C]∥Conference on Neural Information Processing Systems(NIPS), 2018: 8312-8323.

[58] Cheng S Y, Dong Y P, Pang T Y, et al. Improving Black-Box Adversarial Attacks with a Transfer-Based Prior[EB/OL]. (2019-10-30)[2020-01-19]. http:∥export.arxiv.org/pdf/1906.06919.

[59] Ilyas A, Engstrom L, Madry A. Prior Convictions: Black-Box Adversarial Attacks with Bandits and Priors[EB/OL]. (2018-07-20)[2020-01-19]. https:∥arxiv.org/pdf/1807.07978v1.pdf.

[60] Papernot N, McDaniel P, Goodfellow I, et al. Practical Black-Box Attacks Against Machine Learning[C]∥ Proceedings of the ACM Asia Conference on Computer and Communications Security,2017: 506-519.

[61] Dong Y P, Pang T Y, Su H, et al. Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2019: 4312-4321.

[62] Eykholt K, Evtimov I, Fernandes E, et al. Robust Physical-World Attacks on Deep Learning Models[EB/OL].(2017-09-13) [2020-01-19]. https:∥arxiv.org/pdf/1707.08945.pdf.

[63] Thys S, Van Ranst W, Goedemé T. Fooling Automated Survei-llance Cameras: Adversarial Patches to Attack Person Detection[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, 2019.

[64] Sun C J, Chen S, Huang X L. Double Backpropagation for Trai-ning Autoencoders Against Adversarial Attack[EB/OL]. (2020-03-04)[2020-03-04]. https:∥arxiv.org/pdf/2003.01895.pdf.

[65] Moosavi-Dezfooli S M, Fawzi A, Fawzi O, et al. Universal Adversarial Perturbations[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2017: 1765-1773.

[66] Xiao L, Peng Y J, Hong J, et al. Training Artificial Neural Networks by Generalized Likelihood Ratio Method: Exploring Brain-Like Learning to Improve Adversarial Defensiveness[EB/OL]. (2019-07-11)[2020-01-19]. https:∥arxiv.org/pdf/1902.00358.pdf.

[67] Nayebi A, Ganguli S. Biologically Inspired Protection of Deep Networks from Adversarial Attacks[EB/OL]. (2017-03-27)[2020-01-19]. https:∥arxiv.org/pdf/1703.09202.pdf.

[68] Krotov D, Hopfield J. Dense Associative Memory is Robust to Adversarial Inputs[J]. Neural Computation, 2018, 30(12): 3151-3167.

[69] Ghosh-Dastidar S, Adeli H. Spiking Neural Networks[J]. International Journal of Neural Systems, 2009, 19(4): 295-308.

[70] Van Gerven M, Bohte S. Artificial Neural Networks as Models of Neural Information Processing[J]. Frontiers in Computational Neuroscience, 2017(11): 114.

[71] Xin J G, Embrechts M J. Supervised Learning with Spiking Neural Networks[C]∥Proceedings of IEEE International Joint Conference on Neural Networks, 2001: 1772-1777.

[72] Kipf T N, Welling M. Semi-Supervised Classification with Graph Convolutional Networks[EB/OL]. (2016-11-03)[2020-01-19]. https:∥arxiv.org/pdf/1609.02907.pdf.

[73] Battaglia P W, Hamrick J B, Bapst V, et al. Relational Inductive Biases, Deep Learning, and Graph Networks[EB/OL]. (2018-11-17)[2020-01-19]. https:∥arxiv.org/pdf/1806.01261.pdf.

[74] Xu K Y L, Hu W H, Leskovec J, et al. How Powerful are Graph Neural Networks?[EB/OL]. (2018-12-26)[2020-01-19]. https:∥arxiv.org/pdf/1810.00826.pdf.

Adversarial Attacks andDefenses Against Neural Networks

He Zhengbao,Huang Xiaolin*

(Department of Automation,Shanghai Jiao Tong University, Shanghai 200240,China)

Abstract: With continuous development of deep learning and neural network, deep neural networks have been widely used in many fields and its security has been paid more and more attention. Adversarial attacks and adversarial samples, asthe biggest threats to neural networks, have become a hot topic in recent years. The research on adversarial attacks and its defenses is also helpful to understand and improve the cognitive ability ofneural networks. This article introduces the basic principles and some classic algorithms around the adversarial attack and its defense, and explains the significance and role of the adversarial attack and the development trend.

Key words: deep learning; neural network; adversarial attack; adversarial sample; defense algorithm; artificial intelligence

收稿日期: 2020-01-19

基金項(xiàng)目: 國(guó)家重點(diǎn)研發(fā)項(xiàng)目(2018AAA0100702);國(guó)家自然科學(xué)基金項(xiàng)目(61977046)

作者簡(jiǎn)介: 何正保(1999-),男,河南人, 研究方向是深度學(xué)習(xí)的對(duì)抗攻擊及其防御。

通訊作者: 黃曉霖(1983-),男,江西人,工學(xué)博士,副教授,青年千人,研究方向是穩(wěn)健機(jī)器學(xué)習(xí)的理論與方法。

E-mail: xiaolinhuang@sjtu.edu.cn

引用格式: 何正保,黃曉霖. 針對(duì)神經(jīng)網(wǎng)絡(luò)的對(duì)抗攻擊及其防御[ J].

航空兵器,2020, 27( 3): 11-19.

He Zhengbao,Huang Xiaolin. Adversarial Attacks andDefenses Against Neural Networks[ J]. Aero Weaponry,2020, 27( 3): 11-19.( in Chinese)

猜你喜歡
神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)人工智能
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績(jī)預(yù)測(cè)
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)的電網(wǎng)穩(wěn)定性預(yù)測(cè)
2019:人工智能
人工智能與就業(yè)
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測(cè)
數(shù)讀人工智能
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
大兴区| 车致| 泰和县| 万宁市| 汝城县| 邵阳县| 兴隆县| 峨眉山市| 济阳县| 奎屯市| 图们市| 丹江口市| 阿克| 仪征市| 武冈市| 汽车| 新郑市| 武隆县| 仁怀市| 乃东县| 定边县| 桃园市| 静安区| 武平县| 林西县| 本溪| 马关县| 自贡市| 南乐县| 盘山县| 雅江县| 霍邱县| 永昌县| 阳曲县| 昌邑市| 兴城市| 西平县| 旬阳县| 永善县| 墨脱县| 马龙县|