曹天杰,余志坤,祁韻妍,楊 睿*,張鳳榮,陳秀清
(1.中國礦業(yè)大學(xué) 教育部礦山數(shù)字化工程研究中心,江蘇 徐州 221116;2.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116;3.徐州醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,江蘇 徐州 221004)
對抗樣本是指在原始良性樣本上通過添加細(xì)微的干擾所形成的惡意樣本,導(dǎo)致推理模型以高置信度輸出一個錯誤的結(jié)果。對抗樣本的存在給人工智能模型的實(shí)際應(yīng)用帶來了潛在的安全威脅,例如:攻擊者惡意篡改交通標(biāo)志停止路牌,使得自動駕駛汽車將其識別成前進(jìn),造成交通事故;通過面部偽裝,欺騙政府部門或是公司的人臉識別安全系統(tǒng),侵入其內(nèi)部,竊取機(jī)密等。因此,在推進(jìn)人工智能模型部署的同時,迫切需要研究如何消除對抗樣本的影響。
在對抗樣本的防御研究中,主要包括兩個方面。一方面,在樣本輸入推理模型之前,檢測對抗樣本;另一方面,通過提升模型自身的魯棒性消除對抗樣本的影響。基于檢測的防御主要分為對抗樣本分類器、基于統(tǒng)計(jì)分析、基于密度和不確定性預(yù)測、基于修改損失和基于重建損失?;跈z測的防御的主要瓶頸在于不能有效檢測出未知的對抗樣本。另外,Athalye等指出當(dāng)前的基于檢測的防御很難有效地對良性樣本與對抗樣本做出區(qū)分?;谔嵘P汪敯粜缘姆烙饕譃榛跀?shù)據(jù)增強(qiáng)、基于正則化、基于隨機(jī)化和基于輸入變換?;跀?shù)據(jù)增強(qiáng)與正則化的防御需要重新訓(xùn)練推理模型,因此,這兩類基于提升模型魯棒性的防御方法時間消耗較高,且會降低推理模型對良性樣本的分類準(zhǔn)確率?;陔S機(jī)化的防御主要利用推理模型或者輸入樣本的不確定性,其主要瓶頸在于不能有效消除對抗樣本的影響?;谳斎胱儞Q的防御主要是在樣本輸入推理模型之前進(jìn)行一個預(yù)處理操作,其主要瓶頸也在于不能有效消除對抗樣本的影響。因此,針對現(xiàn)有對抗樣本防御方法防御能力不足、時間消耗過高等問題,迫切需要提出一種具有較低時間消耗且能有效防御多種類型對抗樣本的防御方法。
生成對抗網(wǎng)絡(luò)是一種無監(jiān)督生成模型,一些研究成果已經(jīng)將其應(yīng)用到對抗樣本的防御中。Kabkab等提出了Defense-GAN防御對抗樣本,該方法通過將靠近原始對抗樣本的新的良性樣本作為推理模型的輸入來消除對抗樣本的影響,其實(shí)驗(yàn)結(jié)果表明,Defense-GAN在單通道灰度圖像上具有較好的表現(xiàn),但在三通道彩色圖像上并不能消除對抗樣本的影響。Jin等提出了APE-GAN來消除對抗樣本的影響,該方法通過重建良性樣本來消除對抗樣本表面的對抗擾動,其實(shí)驗(yàn)結(jié)果表明,無論是單通道灰度圖像還是三通道彩色圖像,APE-GAN都能很好地消除對抗樣本的影響,但APE-GAN的訓(xùn)練過程是不穩(wěn)定的。集成學(xué)習(xí)常被用于提升推理任務(wù)的表現(xiàn),將多個單推理模型進(jìn)行集成以提升其在任務(wù)上的性能。目前,已有一些研究成果將集成學(xué)習(xí)應(yīng)用于對抗樣本防御中,通過集成多個防御提升其性能,例如:Wei等指出,不同的顏色空間能檢測到圖像數(shù)據(jù)某些自身明確的特征,因此,在同一推理模型中采用多個顏色空間來生成特征圖;Gowda等通過將基于不同輸入轉(zhuǎn)換的模型集成與不同的輸出驗(yàn)證模型集成相結(jié)合來增強(qiáng)防御能力。
鑒于現(xiàn)有對抗樣本防御方法存在的不足及生成對抗網(wǎng)絡(luò)與集成學(xué)習(xí)在對抗樣本防御中的表現(xiàn),本文提出一種基于生成對抗網(wǎng)絡(luò)的對抗樣本集成防御方法。該方法是一種基于預(yù)處理的方法,通過提前訓(xùn)練生成器降低時間消耗,通過集成多個生成器提升防御能力。其生成對抗網(wǎng)絡(luò)由生成器與判別器組成,生成對抗網(wǎng)絡(luò)自身的損失采用WGAN-GP中的損失函數(shù)以確保訓(xùn)練過程的穩(wěn)定。生成器以對抗樣本作為輸入,其目的是通過重建良性樣本消除對抗樣本表面的對抗擾動;判別器以良性樣本與重建的良性樣本作為輸入,其目的是對樣本做出區(qū)分。生成器與判別器交替訓(xùn)練,相互博弈,當(dāng)判別器無法對樣本做出區(qū)分時,訓(xùn)練過程就達(dá)到了納什平衡點(diǎn)。生成器的損失函數(shù)包括最小平方誤差損失與生成對抗網(wǎng)絡(luò)自身的損失,判別器的損失函數(shù)僅包括生成對抗網(wǎng)絡(luò)自身的損失。在MNIST與CIFAR10數(shù)據(jù)集上驗(yàn)證了本文方法的性能。結(jié)果表明,本文集成防御方法能有效防御多種對抗樣本,并且,具有較低的時間消耗。
x
;對抗樣本定義為x
; 目標(biāo)推理模型定義為f
;損失函數(shù)定義為L
(f
(x
),y
),在分類任務(wù)中,損失函數(shù)通常為交叉熵;y
為正確分類的類別;對抗擾動定義為p
=x
-x
,通常使用L范數(shù)來量化對抗擾動p
=L(x
,x
) , 其中P
=0,1,2,···,∞ ; 對抗樣本x
滿足L(x
,x
)<ε∧f
(x
)≠f
(x
), 其中,ε為一個自定義的常數(shù),用于控制對抗擾動p
的大小。圖1 對抗樣本示例[17]Fig. 1 Instance of adversarial example [17]
對抗樣本的生成方法包括白盒算法和黑盒算法。白盒算法分為基于梯度優(yōu)化的方法和基于約束優(yōu)化的方法。基于梯度優(yōu)化的方法的代表是Goodfellow等提出的FGSM。除此以外,基于梯度優(yōu)化的常見方法還有BIM、MI-FGSM、DeepFool、JSMA等。其中,BIM為FGSM的改進(jìn)方法,MI-FGSM為BIM的改進(jìn)方法?;诩s束優(yōu)化的方法的代表是Szegedy等提出的L-BFGS。除此以外,基于約束優(yōu)化的常見方法還有L-BFGS的改進(jìn)方法C&W。黑盒算法分為基于搜索的方法、基于進(jìn)化算法的方法、基于梯度估計(jì)的方法和基于決策邊界估計(jì)的方法。黑盒算法與白盒算法相比,生成過程需要消耗大量的計(jì)算資源,并且攻擊目標(biāo)推理模型的成功率較低。實(shí)驗(yàn)中僅對白盒算法進(jìn)行防御評估,因此,下面介紹實(shí)驗(yàn)中使用的白盒算法。
1.2.1 FGSM
FGSM被用于快速找到給定良性樣本x
的對抗擾動p
的方向,從而使目標(biāo)推理模型f
的損失函數(shù)值L
(f
(x
),y
)增加,降低推理的置信度。雖然不能保證增加一定數(shù)量的損失函數(shù)值就會導(dǎo)致目標(biāo)模型推理出錯誤的結(jié)果,但這仍然是一個合理的方向。FGSM通過計(jì)算損失函數(shù)L
(f
(x
),y
) 相 對于良性樣本x
的梯度?L
(f
(x
),y
), 并通過一個自定義的常數(shù) ε乘以梯度?L
(f
(x
),y
) 的符號函數(shù)S
=sign(?L
(f
(x
),y
))來產(chǎn)生對抗擾動p
,ε 用于控制對抗擾動p
的大小,將對抗擾動p
疊加到良性樣本x
上 生成對抗樣本x
。生成公式為x
=x
+ε·S
。1.2.2 BIM
BIM是FGSM的眾多改進(jìn)方法之一,有時也被稱為迭代FGSM或I-FGSM。BIM在對抗擾動的上范數(shù)界內(nèi)多次使用FGSM。BIM的對抗樣本生成過程如式(1)所示:
i
=0,1,···,n
,n
為總的迭代次數(shù),通常取值為8;Clip(·)為裁剪算子,用于將對抗樣本值限定在有效的范圍內(nèi)。以某次迭代生成的圖像對抗樣本x
i
為例,Clip(·)表達(dá)式如式(2)所示:x
的三通道坐標(biāo)(u
,v
,w
)的取值控制在良性樣本x
的 ε鄰域內(nèi),也限制在可行的輸入空間(如8位亮度值范圍為[0,255])內(nèi)。1.2.3 MI-FGSM
MI-FGSM為BIM的改進(jìn)方法,在BIM迭代添加FGSM對抗擾動的過程中,加入動量概念,使生成的對抗擾動更小,但能夠更有效地愚弄目標(biāo)推理模型。MI-FGSM的對抗樣本生成過程和動量對抗擾動更新分別如式(3)、(4)所示:
g
為 加入動量概念后的對抗擾動;κ用于控制對抗擾動的大小,是常量。1.2.4 DeepFool
DeepFool可以用于估計(jì)一個良性樣本x
到目標(biāo)推理模型f
的最近決策邊界的距離。該距離既可以用于量化目標(biāo)推理模型對對抗樣本x
的魯棒性,也可以作為一個最小的對抗擾動p
的方向。對于線性二分類模型,到?jīng)Q策邊界的距離可以使用點(diǎn)到線的距離公式計(jì)算。對于線性多分類模型,該距離可以近似為良性樣本所處的類中最接近決策邊界的距離。對于非線性分類模型,DeepFool通過線性化模型的每個類的決策邊界在當(dāng)前設(shè)定值x
x
=x
)的鄰域范圍內(nèi)迭代擾動良性樣本x
, 目標(biāo)類y
是最接近線性決策邊界的類,移動x?i到估計(jì)的邊界點(diǎn)。整個過程一直重復(fù),直到f
(x
)被誤分類為目標(biāo)類y
。1.2.5 JSMA
JSMA是基于雅克比顯著圖的對抗樣本生成方法,利用顯著圖生成對抗樣本。顯著圖的概念最初是為了可視化輸入x
中對深度神經(jīng)網(wǎng)絡(luò)的輸出最重要的特征。顯著性映射根據(jù)輸入x
的變化(例如圖像中的每個像素)對深度神經(jīng)網(wǎng)絡(luò)的輸出的影響來尋找輸入x
中對深度神經(jīng)網(wǎng)絡(luò)的輸出最重要的特征。JSMA通過擾動一組輸入特征導(dǎo)致錯誤分類來利用顯著圖的信息。這與FGSM等不同,F(xiàn)GSM修改了大部良性樣本x
的特征,JSMA往往會發(fā)現(xiàn)稀疏的擾動。給定推理模型的輸出f
(x
),c
為推理模型f
輸出的類別,t
為指定的攻擊類別。在或者的情況下,顯著圖的計(jì)算公式為S
=;在其他情況下,顯著圖為零。1.2.6 C&W
C&W是L-BFGS的改進(jìn)方法,包含一系列的基于約束優(yōu)化的方法來生成對抗樣本 ,其中的不同之處在于分別使用 、 、 范數(shù)量化對抗擾動。C&W將一種通用約束優(yōu)化轉(zhuǎn)換為一種無約束優(yōu)化的損失函數(shù) ,如式(5)所示:x
′LLLL
(·)t
為指定的攻擊類別,K
為反映對抗樣本的最小期望置信度的參數(shù),f
(x
)、f
(x
)分別為目標(biāo)推理模型輸出的對抗樣本x
的 輸出的第i
、t
個 分量?;贚范數(shù)的C&W攻擊滿足:w
為一個變量,用于將對抗樣本x
控制在[0,1]取值范圍內(nèi),根據(jù)樣本取值范圍的不同,這個取值區(qū)間可以進(jìn)行調(diào)整;參數(shù)c
是常量,最優(yōu)值是通過外部優(yōu)化循環(huán)程序(例如二分查找法)來選擇的。x
,進(jìn)而對目標(biāo)推理模型f
再訓(xùn)練,其目標(biāo)推理模型的損失函數(shù)滿足:式中,θ為目標(biāo)推理模型的參數(shù),α用于平衡兩邊的損失函數(shù)值。Madry等提出了一種對抗訓(xùn)練的變體,其目標(biāo)推理模型的損失函數(shù)滿足:
L
(·) 最大化的對抗樣本x
;而最小化的目標(biāo)是找到一組參數(shù)θ,使最壞情況下?lián)p失函數(shù)L
(·)最小化。這與標(biāo)準(zhǔn)的對抗訓(xùn)練是不同的,標(biāo)準(zhǔn)的對抗訓(xùn)練在良性樣本x
和對抗樣本x
上訓(xùn)練推理模型f
,而在式(8)中只在對抗樣本x
上訓(xùn)練推理模型f
。集成對抗訓(xùn)練是對抗訓(xùn)練的另一個變體,通過在其他的推理模型上生成對抗樣本x
訓(xùn)練目標(biāo)推理模型f
。目標(biāo)推理模型f
和對抗樣本x
的解耦克服了標(biāo)準(zhǔn)對抗訓(xùn)練中所觀察到的過擬合現(xiàn)象。2014年,Goodfellow等提出了生成對抗網(wǎng)絡(luò),這是一種無監(jiān)督的生成模型,因其強(qiáng)大的數(shù)據(jù)生成能力而受到廣泛關(guān)注和研究。圖2是生成對抗網(wǎng)絡(luò)的基本結(jié)構(gòu)。
圖2 生成對抗網(wǎng)絡(luò)架構(gòu)[10]Fig. 2 Architecture of the generative adversarial network[10]
由圖2可知,生成對抗網(wǎng)絡(luò)不是一個單一的網(wǎng)絡(luò),其有兩個不同的網(wǎng)絡(luò),一個是生成器,另一個是判別器。生成器以隨機(jī)噪聲作為輸入,輸出為生成的假樣本。判別器的目的是區(qū)分生成的假樣本和現(xiàn)實(shí)中的真樣本。生成對抗網(wǎng)絡(luò)的訓(xùn)練采用了對抗博弈的方式,并且生成器的梯度更新信息來自于判別器,而不是數(shù)據(jù)。生成對抗網(wǎng)絡(luò)的損失函數(shù)L
(D
,G
)滿足:G
為生成器函數(shù),D
為判別器函數(shù),z
為隨機(jī)噪聲,x
為真實(shí)的樣本,G
(z
) 為 生成的假樣本,P
(x
)為真實(shí)樣本的分布,P
(z
)為生成的假樣本的分布。生成器與判別器交替訓(xùn)練,生成器想要生成更加真實(shí)的假樣本,判別器想要盡可能地區(qū)分真樣本與假樣本,從而相互博弈,達(dá)到納什平衡點(diǎn)。最終,生成器可以生成以假亂真的假樣本,判別器無法區(qū)分真樣本與假樣本。雖然生成對抗網(wǎng)絡(luò)具有強(qiáng)大的數(shù)據(jù)生成能力,但原始的生成對抗網(wǎng)絡(luò)也存在一些缺陷。主要問題是生成對抗網(wǎng)絡(luò)的訓(xùn)練過程非常不穩(wěn)定。Arjovsky等分析生成對抗網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的原因,提出WGAN來保證訓(xùn)練過程的穩(wěn)定,其最主要的改進(jìn)是生成對抗網(wǎng)絡(luò)的訓(xùn)練過程應(yīng)該限制判別器的性能。Gulrajani等提出WGAN-GP來解決WGAN在限制判別器性能上的不足。在WGAN-GP中,通過在生成對抗網(wǎng)絡(luò)的損失函數(shù)中增加一個梯度懲罰項(xiàng)來限制判別器的性能。Wu等對WGAN-GP中提出的梯度懲罰項(xiàng),從數(shù)學(xué)上推導(dǎo)出梯度懲罰項(xiàng)的具體形式,提出WGAN-DIV的損失函數(shù)。本文在WGAN、WGAN-GP、WGAN-DIV基礎(chǔ)上建立損失函數(shù),使得生成對抗網(wǎng)絡(luò)的訓(xùn)練過程基本可以保持穩(wěn)定。x
=G
(z
), 其中,z
為隨機(jī)噪聲,x
為生成的樣本。采用生成對抗網(wǎng)絡(luò)學(xué)習(xí)一個輸入為對抗樣本、輸出為良性樣本的分布,通過學(xué)習(xí)該分布,生成器達(dá)到將對抗樣本投影到良性流形區(qū)域的目的,即x
=G
(x
) ,其中,x
為對抗樣本,x
為良性樣本。圖3為本文提出的基于生成對抗網(wǎng)絡(luò)的對抗樣本集成防御架構(gòu),其中,圖3的上半部分為使用生成對抗網(wǎng)絡(luò)訓(xùn)練多個將對抗樣本投影到良性流形區(qū)域的生成器,圖3的下半部分為集成多個生成器作為本文提出的集成防御。
圖3 基于生成對抗網(wǎng)絡(luò)的對抗樣本集成防御架構(gòu)Fig. 3 Architecture of the ensemble defense scheme based on the generative adversarial network
為了確保生成對抗網(wǎng)絡(luò)訓(xùn)練過程的穩(wěn)定,使用Gulrajani等提出的損失函數(shù)作為生成對抗網(wǎng)絡(luò)自身的損失函數(shù)。生成器的網(wǎng)絡(luò)結(jié)構(gòu)采用卷積編碼器-解碼器架構(gòu),如圖4所示。判別器的網(wǎng)絡(luò)結(jié)構(gòu)使用普通的卷積神經(jīng)網(wǎng)絡(luò),如圖5所示。
圖4 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of the generator
圖5 判別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Network structure of the discriminator
生成器的目的是去除對抗樣本的對抗擾動,因此,生成器的輸入為多種擾動的對抗樣本,輸出為去除擾動的良性樣本。判別器的目的是對原始良性樣本與去除擾動的良性樣本做出判別,因此,判別器的輸入為原始良性樣本與去除擾動的良性樣本。為了控制生成器去除對抗擾動的能力,本文的集成防御方法在原始WGAN-GP損失函數(shù)的基礎(chǔ)上增加原始良性樣本與去除擾動的良性樣本之間的平方誤差損失,總的損失函數(shù)為L
=L
+L
+L
,其中:L
為最小平方誤差損失函數(shù),如式(10)所示;L
為生成器的WGAN-GP損失函數(shù),如式(11)所示;L
為判別器的WGAN-GP損失函數(shù),如式(12)所示。式中, E(·) 為求期望函數(shù), G P=E[(‖?D
(x
)‖-1)]為Gulrajani等提出的損失函數(shù)中的梯度懲罰項(xiàng),?D
(x
)為對輸入判別器的所有樣本求梯度。隨著生成器與判別器交替訓(xùn)練,相互博弈,達(dá)到納什平衡,生成器能夠很好地去除對抗樣本的擾動??紤]到所訓(xùn)練出的生成器對不同擾動的對抗樣本會表現(xiàn)出不同的防御性能。因此,本文的集成防御方法將多個生成器進(jìn)行集成作為最終的防御。本文方法通過提前訓(xùn)練生成器降低方法的時間消耗,通過集成多個生成器彌補(bǔ)方法的防御能力。
使用MNIST與CIFAR10作為圖像分類數(shù)據(jù)集。圖6為目標(biāo)推理模型在MNIST數(shù)據(jù)集上的網(wǎng)絡(luò)結(jié)構(gòu)。訓(xùn)練圖6中的推理模型,得到分類準(zhǔn)確率為98%。圖7為目標(biāo)推理模型在CIFAR10數(shù)據(jù)集上的網(wǎng)絡(luò)結(jié)構(gòu)。訓(xùn)練圖7中的推理模型,得到分類準(zhǔn)確率為83%。
圖6 MNIST數(shù)據(jù)集上目標(biāo)推理模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 6 Network structure of target model on MNIST dataset
圖7 CIFAR10數(shù)據(jù)集上目標(biāo)推理模型的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 7 Network structure of target model on CIFAR10 dataset
對抗樣本生成方法包括FGSM、BIM、Deep-Fool、JSMA、C&W、MI-FGSM。其中,F(xiàn)GSM、BIM、MI-FGSM在良性樣本表面疊加全局的對抗擾動,DeepFool、JSMA、C&W修改良性樣本局部的特征。
對抗樣本防御方法包括APE-GAN、Bit Depth、TotalVarMin、SpatialSmoothing、JpegCompression、FGSM對抗訓(xùn)練、PGD對抗訓(xùn)練,其中:APE-GAN、Bit Depth、TotalVarMin、SpatialSmoothing、JpegCompression是基于預(yù)處理的防御;FGSM對抗訓(xùn)練與PGD對抗訓(xùn)練是基于提升模型魯棒性的防御,通過重新訓(xùn)練目標(biāo)推理模型來防御對抗樣本。
實(shí)驗(yàn)步驟包括訓(xùn)練集成防御與防御對抗樣本。集成防御由在數(shù)據(jù)集上生成的FGSM對抗樣本訓(xùn)練得到。實(shí)驗(yàn)評估的內(nèi)容包括在MNIST與CIFAR10數(shù)據(jù)集上使用各防御方法處理對抗樣本得到目標(biāo)推理模型的分類準(zhǔn)確率和時間消耗對比。
3.2.1 MNIST數(shù)據(jù)集實(shí)驗(yàn)
MNIST數(shù)據(jù)集上,本文提出的集成防御方法與無防御(原始)及6種對比防御方法處理不同對抗樣本得到目標(biāo)推理模型的分類準(zhǔn)確率如表1所示,其中,F(xiàn)GSM、BIM、MI-FGSM的對抗擾動設(shè)置為0.3。由于MNIST數(shù)據(jù)集的數(shù)據(jù)內(nèi)容是灰度圖片,所以對比的防御方法中不包括JpegCompression防御方法。
表1 MNIST數(shù)據(jù)集上各防御方法處理不同對抗樣本得到的分類準(zhǔn)確率
Tab. 1 Classification accuracy of different types of adversarial examples processed by various defenses schemes on MNIST dataset
%防御模型 FGSM BIM MI-FGSM JSMA DeepFool C&W無防御 10.181.12 1.28 52.3451.3754.69本文提出的集成防御 96.0295.89 98.22 80.3797.4196.56 APE-GAN 76.7372.72 68.85 88.4491.2184.38 Bit Depth 83.2778.85 73.90 68.4894.8255.47 TotalVarMin 33.3714.42 11.11 70.2280.8657.81 SpatialSmoothing18.901.19 10.36 37.6170.0770.31 FGSM對抗訓(xùn)練67.518.91 3.16 53.2675.7014.06 PGD對抗訓(xùn)練81.3782.36 90.46 74.8196.9193.18
從表1可以看出:本文提出的集成防御方法在FGSM、BIM、MI-FGSM、DeepFool及C&W對抗樣本上的分類準(zhǔn)確率明顯高于無防御(原始)及其他6種對比的防御方法的分類準(zhǔn)確率。本文的集成防御方法在JSMA對抗樣本上的分類準(zhǔn)確率略低于APEGAN防御方法的分類準(zhǔn)確率,其原因是本文的集成防御方法會去除JSMA對抗樣本表面的良性特征。
另外,實(shí)驗(yàn)還在MNIST數(shù)據(jù)集上探究了對抗擾動設(shè)置與不同防御方法的目標(biāo)推理模型分類準(zhǔn)確率的關(guān)系。以FGSM對抗樣本為例,當(dāng)設(shè)置對抗擾動分別為0.1、0.3、0.5、0.7時,不同防御方法處理后的目標(biāo)推理模型的分類準(zhǔn)確率如圖8所示。從圖8可以看出:當(dāng)對抗擾動設(shè)置為0.5時,本文提出的集成防御方法的分類準(zhǔn)確率低于PGD對抗訓(xùn)練防御方法的分類準(zhǔn)確率,其原因是本文的集成防御方法不能消除過大的對抗擾動。當(dāng)對抗擾動設(shè)置為0.7時,本文提出的集成防御方法的分類準(zhǔn)確率高于對抗擾動設(shè)置為0.5時的本文集成防御方法的分類準(zhǔn)確率,其原因是超出圖像數(shù)據(jù)值范圍的對抗擾動被截斷。
圖8 MNIST數(shù)據(jù)集上FGSM對抗樣本的不同對抗擾動與分類準(zhǔn)確率的關(guān)系Fig. 8 Relationship between different adversarial perturbations of FGSM adversarial example and classification accuracy of various defense schemes on MNIST dataset
表2為本文提出的集成防御方法與6種對比防御方法處理10 000幅FGSM對抗樣本圖片的時間消耗。從表2可以看出,本文的集成防御方法的時間消耗小于TotalVarMin、FGSM對抗訓(xùn)練、PGD對抗訓(xùn)練防御方法的時間消耗,等于Bit Depth防御方法的時間消耗,但略大于APE-GAN防御方法的時間消耗,且差值平均到每幅圖片后是相當(dāng)小的,可以看作是系統(tǒng)誤差。
表2 MNIST數(shù)據(jù)集上7種防御方法的時間消耗
Tab. 2 Time consumption of seven defense schemes on
MNIST dataset
防御模型 時間消耗本文提出的集成防御 1.4 s APE-GAN 1.3 s Bit Depth 1.3 s TotalVarMin 22 min SpatialSmoothing 1.4 s FGSM對抗訓(xùn)練 2 h PGD對抗訓(xùn)練 6 h
綜上所述,在對抗擾動不太大的情況下,本文的集成防御方法在5種對抗樣本上的分類準(zhǔn)確率高于其他對比的防御方法的分類準(zhǔn)確率;僅在JSMA對抗樣本上的分類準(zhǔn)確率略低于APE-GAN防御方法。在忽略系統(tǒng)誤差的情況下,本文的集成防御方法的時間消耗小于或者等于其他對比的防御方法的時間消耗。
3.2.2 CIFAR10數(shù)據(jù)集實(shí)驗(yàn)
表3為CIFAR10數(shù)據(jù)集上本文提出的集成防御方法與無防御(原始)和7種對比防御方法處理不同對抗樣本生成方法得到目標(biāo)推理模型的分類準(zhǔn)確率,其中,F(xiàn)GSM、BIM、MI-FGSM的對抗擾動設(shè)置為0.03。由于CIFAR10數(shù)據(jù)集的數(shù)據(jù)內(nèi)容是彩色圖片,所以所對比的防御方法中還包括JpegCompression防御方法。與表1相比,本文提出的集成防御方法在CIFAR10數(shù)據(jù)集上的表現(xiàn)弱于其在MNIST數(shù)據(jù)集上的表現(xiàn)。這主要是因?yàn)镃IFAR10數(shù)據(jù)集比MNIST數(shù)據(jù)集更復(fù)雜,需要具有更復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)的生成器去防御對抗樣本。從表3可以看出:本文提出的集成防御方法在JSMA、DeepFool對抗樣本上的分類準(zhǔn)確率明顯高于無防御(原始)及其他對比的防御方法的分類準(zhǔn)確率。本文提出的集成防御方法在FGSM、BIM、MI-FGSM對抗樣本上的分類準(zhǔn)確率低于PGD對抗訓(xùn)練防御方法的分類準(zhǔn)確率,其原因是PGD對抗訓(xùn)練是通過提升模型的魯棒性來防御對抗樣本,不受數(shù)據(jù)集的影響。本文提出的集成防御方法在C&W對抗樣本上的分類準(zhǔn)確率略低于APE-GAN對抗訓(xùn)練防御方法的分類準(zhǔn)確率,但該差值可以考慮為正常的計(jì)算誤差。
表3 CIFAR10數(shù)據(jù)集上各防御方法處理不同對抗樣本得到的分類準(zhǔn)確率
Tab. 3 Classification accuracy of different types of adversarial examples processed by various defense schemes on CIFAR10 dataset
%防御模型 FGSM BIM MI-FGSM JSMA DeepFool C&W無防御 10.179.37 9.37 1.80 44.87 7.03本文提出的集成防御 62.9663.97 68.24 67.7769.9771.09 APE-GAN 58.2359.93 58.56 59.3864.8471.88 Bit Depth 20.2812.24 24.26 35.6057.8154.69 TotalVarMin 35.2435.62 34.16 45.3149.2247.66 SpatialSmoothing20.1911.07 28.49 41.4166.4165.63 JpegCompression12.059.37 30.15 39.8466.4168.75 FGSM對抗訓(xùn)練41.5412.55 64.23 7.50 37.0028.13 PGD對抗訓(xùn)練66.5965.71 75.32 46.7155.9151.66
實(shí)驗(yàn)還在CIFAR10數(shù)據(jù)集上探究了對抗擾動設(shè)置與不同防御方法處理后的目標(biāo)推理模型分類準(zhǔn)確率的關(guān)系。以FGSM對抗樣本為例,當(dāng)設(shè)置對抗擾動為0.01、0.03、0.05、0.07時,不同防御方法的目標(biāo)推理模型的分類準(zhǔn)確率如圖9所示。從圖9可以看出,隨著對抗擾動的增加,本文提出的集成防御方法的分類準(zhǔn)確率始終低于PGD對抗訓(xùn)練防御方法的分類準(zhǔn)確率,其原因是PGD對抗訓(xùn)練是通過提升模型的魯棒性來防御對抗樣本,不受數(shù)據(jù)集的影響。
圖9 CIFAR10數(shù)據(jù)集上FGSM對抗樣本的不同對抗擾動與不同防御方法的分類準(zhǔn)確率的關(guān)系Fig. 9 Relationship between different adversarial perturbations of FGSM adversarial example and classification accuracy of various defense schemes on CIFAR10 dataset
表4為本文提出的防御方法與7種對比防御方法處理10 000幅FGSM對抗樣本圖片的時間消耗。 從表4中可以看出,本文的集成防御方法的時間消耗小于TotalVarMin、FGSM對抗訓(xùn)練、PGD對抗訓(xùn)練防御方法的時間消耗,大于APE-GAN、Bit Depth、JpegCompression防御方法的時間消耗,但該差值平均到每幅圖片后也是很小的,可以看作是系統(tǒng)誤差。
表4 CIFAR10數(shù)據(jù)集上8種防御方法的時間消耗
Tab. 4 Time consumption of eight defense schemes on CI
FAR10 dataset
防御模型 時間消耗本文提出的集成防御 1.6 s APE-GAN 1.4 s Bit Depth 1.4 s TotalVarMin 28 min SpatialSmoothing 1.4 s JpegCompression 1.4 s FGSM對抗訓(xùn)練 4 h PGD對抗訓(xùn)練 8 h
綜上所述,本文的集成防御方法在JSMA、Deep-Fool對抗樣本上的分類準(zhǔn)確率高于其他對比的防御方法的分類準(zhǔn)確率,在其他對抗樣本上的分類準(zhǔn)確率略低于個別防御方法。在忽略系統(tǒng)誤差的情況下,本文的集成防御方法的時間消耗小于或者等于其他對比的防御方法的時間消耗。
針對現(xiàn)有對抗樣本防御方法防御能力不足、時間消耗過高等問題,參考生成對抗網(wǎng)絡(luò)與集成學(xué)習(xí)在對抗樣本研究中的優(yōu)勢,本文提出一種基于生成對抗網(wǎng)絡(luò)的對抗樣本集成防御方法。該方法通過提前訓(xùn)練生成器來降低方法的時間消耗,通過集成多個生成器來彌補(bǔ)方法的防御能力。在MNIST與CIFAR10數(shù)據(jù)集上驗(yàn)證了本文提出的集成防御方法在目標(biāo)推理模型上的分類準(zhǔn)確率與時間消耗。實(shí)驗(yàn)結(jié)果表明本文的集成防御方法能以較低的時間消耗防御多種對抗樣本,并且在目標(biāo)模型上的分類準(zhǔn)確率比其他對比防御方法更高。下一步研究,將對現(xiàn)有的生成對抗網(wǎng)絡(luò)的架構(gòu)及損失函數(shù)進(jìn)行改進(jìn),期望進(jìn)一步提升方法的防御能力。另外,計(jì)劃在大尺寸圖片、語音、視頻等更加復(fù)雜的數(shù)據(jù)集上驗(yàn)證該方法的通用性。