国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT模型的文本對抗樣本生成方法

2023-10-21 07:11李宇航楊玉麗馬垚于丹陳永樂
計算機應用 2023年10期
關鍵詞:集上擾動關鍵

李宇航,楊玉麗,馬垚,于丹,陳永樂

基于BERT模型的文本對抗樣本生成方法

李宇航,楊玉麗,馬垚,于丹,陳永樂*

(太原理工大學 計算機科學與技術學院(大數(shù)據(jù)學院),太原 030600)( ? 通信作者電子郵箱chenyongle@tyut.edu.cn)

針對現(xiàn)有對抗樣本生成方法需要大量訪問目標模型,導致攻擊效果較差的問題,提出了基于BERT (Bidirectional Encoder Representations from Transformers)模型的文本對抗樣本生成方法(TAEGM)。首先采用注意力機制,在不訪問目標模型的情況下,定位顯著影響分類結(jié)果的關鍵單詞;其次通過BERT模型對關鍵單詞進行單詞級擾動,從而生成候選樣本;最后對候選樣本進行聚類,并從對分類結(jié)果影響更大的簇中選擇對抗樣本。在Yelp Reviews、AG News和IMDB Review數(shù)據(jù)集上的實驗結(jié)果表明,相較于攻擊成功率(SR)次優(yōu)的對抗樣本生成方法CLARE(ContextuaLized AdversaRial Example generation model),TAEGM在保證對抗攻擊SR的前提下,對目標模型的訪問次數(shù)(QC)平均減少了62.3%,時間平均減少了68.6%。在此基礎之上,進一步的實驗結(jié)果驗證了TAEGM生成的對抗樣本不僅具有很好的遷移性,還可以通過對抗訓練提升模型的魯棒性。

對抗樣本;注意力機制;BERT;對抗攻擊;聚類算法

0 引言

針對機器學習模型容易受到對抗樣本威脅的問題[1],國內(nèi)外學者開展了關于對抗樣本生成技術的深入研究,并取得一系列的研究成果。目前的研究主要集中在圖像領域[2],涉及文本領域的研究較少[3-4]。原因主要為以下兩方面:1)文本領域中單詞的離散屬性。與具備連續(xù)性的圖像空間不同,句子中的單詞是離散的,在圖像領域,像素級別的改變并不會影響圖片表達的意思;而在文本領域,任意單詞的替換卻會改變語句整體的含義。2)語法要求。單詞的改變可能會使修改后的語句出現(xiàn)語法錯誤,使對抗樣本很容易被發(fā)現(xiàn)[5-6]。

目前,在文本領域中,典型的對抗技術為基于同義詞替換的單詞級對抗樣本生成技術。該技術是基于本地的打分函數(shù),挑選出句子中對分類結(jié)果影響最大的關鍵單詞,通過處理這些關鍵單詞,產(chǎn)生單詞級別的擾動生成對抗樣本。但是這種技術依然存在以下問題:1)在打分函數(shù)的處理過程中,需要將相關單詞替換為無意義的占位符標簽,導致輸入文本的語義被改變,在此情況下,打分函數(shù)的輸出無法代表相關單詞的重要性[7]。2)打分函數(shù)的處理過程需要大量訪問目標模型,但實際應用中的模型,對訪問次數(shù)(Query Counts, QC)都有一定的限制,在此情況下,采用傳統(tǒng)方法攻擊這些模型會受到很大的限制,生成對抗樣本的效率會大幅降低。因此在保證攻擊成功率(Success Rate, SR)的前提下,減少對目標模型的訪問次數(shù)是亟須解決的問題。

針對上述問題,本文提出一種基于BERT(Bidirectional Encoder Representations from Transformers)模型[8]的對抗樣本生成方法(Text Adversarial Examples Generation Method based on BERT model, TAEGM)。TAEGM采用了基于注意力機制的關鍵單詞定位技術,基于BERT模型的單詞級擾動生成技術和基于聚類算法的候選樣本篩選技術,在保證對抗攻擊成功率的前提下,可以有效地減少對目標模型的訪問次數(shù)。

1 相關工作

Kuleshov等[9]和Alzantot等[10]分別提出了基于貪婪搜索的同義詞替換攻擊算法,這種算法通過盡可能多地替換句子中單詞為它的同義詞,以生成對抗樣本;但是通過這種方法生成的對抗樣本的語義會發(fā)生較大的改變,也會產(chǎn)生語法錯誤。在此基礎上,Ren等[11]提出了一種新型算法PWWS(Probability Weighted Word Saliency),該算法在選擇關鍵單詞時采用的打分函數(shù)[12]不僅考慮了單詞在句子中的重要程度,還考慮了原始輸入和對抗樣本對模型分類結(jié)果的影響,但算法生成的對抗樣本進行攻擊的成功率較低。仝鑫等[13]提出了一種詞級黑盒對抗樣本生成方法CWordAttacker,該方法采用定向詞刪除評分機制,可完成定向和非定向兩種攻擊模式。Maheshwary等[14]提出了一種基于決策的攻擊策略,引入基于種群的優(yōu)化算法,進一步提高了對抗樣本的質(zhì)量。雖然上述方法較好地提升生成效果,但在面對基于BERT的模型時依然存在有很大的改進空間。因此,Li等[15]將BERT引入了基于同義詞替換的對抗樣本生成算法中,該算法在尋找單詞的同義詞時,通過BERT模型根據(jù)關鍵單詞的上下文生成最符合語法和語義的替代詞。然而上述方法都沒有很好地協(xié)調(diào)訪問模型次數(shù)和攻擊成功率之間的關系。

2 對抗樣本生成方法

2.1 TAEGM的框架

本文提出一種基于BERT模型的對抗樣本生成方法TAEGM,在保證攻擊成功率的前提下,顯著減少針對目標模型的訪問次數(shù)。如圖1所示,TAEGM框架主要分為3部分:

1)關鍵單詞定位。使用BERT自帶的注意力矩陣,采用基于注意力機制的關鍵單詞定位技術,定位輸入文本中對分類影響最大的關鍵單詞。

2)生成單詞級擾動。使用BERT模型生成上下文相關的單詞級擾動,產(chǎn)生候選的對抗樣本。

3)對抗樣本生成。通過基于聚類算法的候選樣本篩選技術,縮小候選樣本的范圍,選擇對分類影響最大的簇,在該簇中挑選最終的對抗樣本。

圖1 對抗樣本生成示意圖

2.2 TAEGM具體流程

2.2.1關鍵單詞定位

為了得到高質(zhì)量的對抗樣本,必須對語句中的關鍵單詞或關鍵詞組擾動。因此,本節(jié)聚焦于在不訪問目標模型的情況下,通過注意力機制定位語句中的關鍵單詞。

最后,在得到文本中所有單詞的重要性分數(shù)后,將分數(shù)最大的前個單詞選為關鍵單詞。特別地,不是每次單獨給一個單詞打分,而是在一次遍歷中給所有的單詞打分。這樣就實現(xiàn)了在不需要訪問目標模型的情況下,準確定位關鍵單詞的位置,從而顯著減少對目標模型的訪問。

另一方面,隨著的增大,對抗攻擊的成功率、對目標模型的訪問次數(shù)也隨之增加,對抗樣本的語義相似度會下降,句子中改變的單詞數(shù)也會增加,這就導致攻擊效率下降和生成的對抗樣本質(zhì)量變差,所以的選擇需要在對抗攻擊的成功率與對抗樣本的質(zhì)量之間權(quán)衡。

2.2.2生成單詞級擾動

因為關鍵單詞對模型分類的貢獻大于其他單詞,所以本文通過對它們進一步處理,即對原始文本添加擾動從而欺騙目標模型。同時,為了生成高質(zhì)量的對抗樣本,保證對抗樣本在語義和視覺效果上和原始文本相似,本文采用單詞級的擾動。單詞級的擾動是指在不改變文本語義的情況下,將單詞替換為它在嵌入空間中距離最近的單詞,并且這種操作可以使得模型產(chǎn)生錯誤的輸出。

在生成候選樣本后,使用語義過濾機制過濾與原始文本語義差異過大的候選樣本,減小候選樣本的范圍,如式(5)所示:

2.2.3對抗樣本生成

使用BERT對定位的關鍵單詞完成單詞級擾動之后,會生成大量的候選樣本。檢驗所有的候選樣本需要大量地訪問目標模型,因此本節(jié)通過有效縮小候選樣本的范圍,進一步提高算法的性能。

因為屬于同一類的句子在高維的編碼空間中的距離很近,使得它們對模型分類結(jié)果造成的影響也很相似,所以可以使用聚類算法分類,將針對所有候選樣本的操作轉(zhuǎn)換為針對一個子集合的操作,從而顯著減少候選樣本的數(shù)量,減少針對目標模型的訪問次數(shù)。

此外,每次需要處理的候選樣本數(shù)量只有幾千個,屬于樣本數(shù)較少的情況,傳統(tǒng)的-means++算法收斂快、可解釋性強,聚類效果較好,所以本文采用該算法聚類。

聚類候選樣本后,如果在每個簇中選擇具有代表性的樣本,需要處理不同簇中的所有候選樣本,這種方法雖然可以縮小候選樣本的范圍,但需要大量訪問目標模型,導致算法性能下降??紤]到簇中所有樣本都可以對模型造成相似的影響,可以隨機選擇簇中的一個樣本代表整個簇,再通過打分函數(shù)選擇最優(yōu)的簇作為候選樣本集,該方法只需要很少地訪問目標模型,就可以有效縮小候選樣本的范圍。通過實驗可以發(fā)現(xiàn),前一種方法所需要的訪問次數(shù)遠多于后一種,并且兩種方法得到的候選樣本集合在實驗中的效果很相似,因此本文選擇后一種方法。

最后,進一步處理候選樣本,如果其中的樣本可以改變模型的輸出,則將它選為對抗樣本;如果不能改變,則重復上述步驟。通過上述步驟生成的對抗樣本可以大幅減少訪問模型的次數(shù),并且每個關鍵單詞也只會進行一種單詞級的擾動,且不影響其他位置的操作。

與傳統(tǒng)的算法相比,TAEGM的優(yōu)勢主要體現(xiàn)在以下3方面:1)采用注意力機制,可以在不訪問目標模型的情況下,準確定位關鍵單詞的位置;2)通過BERT模型,在只改變關鍵單詞的情況下生成候選樣本;3)在處理候選樣本時,采用聚類技術聚類候選樣本,將針對所有候選樣本的操作轉(zhuǎn)換為針對一個樣本子集合的操作,再從中選擇最合適的樣本進行后續(xù)的操作,顯著減少候選樣本的數(shù)量,從而減少了對目標模型的訪問次數(shù)。TAEGM的具體實現(xiàn)過程如算法1所示。

算法1 TAEGM。

4) end for

11) end if

12) end for

18) end if

3 實驗與結(jié)果分析

3.1 實驗設置

3.1.1實驗平臺及測試數(shù)據(jù)集

實驗框架中采用的BERT版本是RoBERTa-distill[16],RoBERTa-distill是RoBERTa[17]的蒸餾版本;語義過濾機制采用USE(Universal Sentence Encoder)[18]。

本文實驗的服務器配置為內(nèi)存64 GB,機械硬盤1 TB,1塊32 GB顯存的HPE NVIDIA Tesla V100PCIe GPU和4塊Intel Xeon Gold 6226R CPU。

實驗采用以下3個數(shù)據(jù)集,數(shù)據(jù)集的詳細信息如表1所示。

1)Yelp Reviews[19]。該數(shù)據(jù)集是一個二元情感分類的數(shù)據(jù)集,包含了正面和負面兩個標簽。

2)AG News。該數(shù)據(jù)集包括超過2 000篇新聞源的新聞文章,數(shù)據(jù)集僅僅援用了標題和描述字段。

3)IMDB Review[20]。該數(shù)據(jù)集包括50 000條情感二元分布的評論。

表1 三個數(shù)據(jù)集的詳細信息

3.1.2對比方法

本文的對比方法如下:

1)Textfooler[21]。該方法的評分函數(shù)會處理原始文本,通過刪掉單詞前后得到的分數(shù)置信度的變化程度計算該單詞的重要程度,找出關鍵單詞,再將該關鍵詞替換為同義詞生成對抗樣本。

2)TextHoaxer[22]。在生成對抗樣本的過程中使用擾動矩陣優(yōu)化框架,提高了生成對抗樣本的效率。

3)CLARE(ContextuaLized AdversaRial Example generation model)[23]。對文本中的單詞采用BERT模型生成擾動,再通過訪問目標模型確定對抗樣本是否合格。

3.1.3評價指標

1)攻擊成功率(SR)。對抗樣本可以成功攻擊目標模型的概率,如式(7)所示:

2)目標模型的訪問次數(shù)(QC):

5)生成1 000個對抗樣本消耗的時間。

6)精確率(ACCuraacy, ACC):預測正確的樣本數(shù)占總樣本數(shù)的比例。計算公式如下:

以上各指標中,SR、Sim、SCR和ACC的值越大性能越好;QC和時間越小,性能越好。

3.2 對比實驗分析

實驗采用將本文方法和3種對比方法,在Yelp Reviews、AG News和IMDB Review數(shù)據(jù)集上生成1 000個對抗樣本,攻擊BERT base-uncased的分類器,實驗結(jié)果如表2所示。

從表2中可以看出,相較于其他對比方法,TAEGM具有最好的綜合性能。在Yelp Reviews數(shù)據(jù)集上,使用TAEGM進行攻擊的SR達到了89.9%,相較于Textfooler、TextHoaxer和CLARE分別提高了15.6%、15.3%和14.2%;同時TAEGM的Sim和SCR也是所有算法中最優(yōu)的;而在QC和時間這兩項指標上,TAEGM僅次于Textfooler??梢钥闯?,TAEGM可以通過注意力機制,能夠準確定位語句中的關鍵單詞并進行處理,使得生成的對抗樣本具有很高的質(zhì)量。在AG New數(shù)據(jù)集上,TAEGM的SR、SCR和Sim全都優(yōu)于其他對比算法,并且QC和時間也是所有算法中的次優(yōu)結(jié)果。在IMDB Review數(shù)據(jù)集上,相較于CLARE,TAEGM的SR降低了1.0%,但是QC和時間降低了55.6%和62.9%,并且Sim和SCR達到了最優(yōu)結(jié)果。由此可以看出TAEGM通過聚類算法,可以在只使用較少Q(mào)C和時間的情況下高效地確定候選樣本,從而提高生成對抗樣本的效率。

從表2中還可以看出,在3個數(shù)據(jù)集上,Textfooler的QC和時間都少于TAEGM,這是因為Textfooler相當于只使用了本文的BERT_Replace擾動,最后得到候選樣本數(shù)較少,質(zhì)量較差,因此所需要的QC和Time也較少;但相應地,Textfooler的攻擊效果弱于TAEGM。

表2 四種方法在3個數(shù)據(jù)集上進行對抗攻擊的性能比較

注:加粗數(shù)據(jù)為最優(yōu)值,下劃線數(shù)據(jù)為次優(yōu)值。

綜上所述,TAEGM具有所有算法中最好的綜合性能,相較于SR次優(yōu)的CLARE,TAEGM的QC平均減少了62.3%,時間平均減少了68.6%。

3.3 對抗樣本示例

表3展示了在Yelp Reviews數(shù)據(jù)集上TAEGM生成的對抗樣本。所有的原始文本都只需要非常小的擾動就可以生成對抗樣本,從而誤導目標模型BERT,使它輸出錯誤的分類結(jié)果,并且對抗樣本和原始文本的語義非常相似。

表3 在BERT上利用TAEGM生成的對抗樣本展示

注:斜體表示TAEGM生成的3種擾動;“()”內(nèi)是原始文本;“【】”內(nèi)則標注了進行的擾動。

4 綜合性能分析

4.1 超參數(shù)k對攻擊結(jié)果的影響

關鍵單詞范圍是算法中的主要參數(shù),的選取對攻擊的結(jié)果具有很大的影響,因此,在3個數(shù)據(jù)集上分別生成150個對抗樣本進行實驗,實驗結(jié)果如圖2所示。

圖2 關鍵單詞的范圍k對不同指標的影響

由圖2(a)可知,SR先隨著的增大而迅速增大,當>20后,SR的增長變慢,表明關鍵單詞的主要分布范圍為≤20。通常認為隨著的增大,對抗樣本中發(fā)生改變的單詞數(shù)會增加,而文本的Sim也會大幅下降,但如圖2(b)~(c)所示,當>20后,這兩個指標都只發(fā)生了很小的改變。在Yelp Reviews數(shù)據(jù)集上,Sim保持在[0.781,0.787],SCR也保持在[9.3,9.9],說明此時選擇的關鍵單詞都很合理,所以Sim和SCR呈現(xiàn)趨于平緩的趨勢。從圖2(d)可知,QC與的取值正相關。綜上,通過圖2可知,當=20時,在保證攻擊效率和對抗樣本質(zhì)量的情況下,TAEGM可以達到較高的攻擊成功率。

4.2 對抗樣本遷移性

本節(jié)采用了3個在Yelp Reviews數(shù)據(jù)集上訓練的自然語言處理模型:TEXTCNN1、TEXTCNN2和BERT。其中:TEXTCNN1含有1個輸入層/3個并行的卷積層(卷積核大小分別為3、4、5)、3個并行的最大池化層和1個全連接層;TEXTCNN2相較于TEXTCNN1增加了1個全連接層。為了驗證TAEGM生成的對抗樣本的遷移性,在Yelp Reviews數(shù)據(jù)集上,使用TAEGM和上述模型生成對抗樣本,再使用這些對抗樣本分別攻擊這3個模型,結(jié)果見表4。

從表4可以看出,由TEXTCNN1生成的對抗樣本,在攻擊TEXTCNN2和BERT模型的SR仍達到了68.7%和65.3%。而由BERT模型生成的對抗樣本,攻擊TEXTCNN1和TEXTCNN2模型時的SR仍然達到了74.6%和72.9%。這表明由TAEGM生成的對抗樣本可以在多個模型之間進行遷移攻擊,具有一定的遷移性。

表4 在Yelp Reviews數(shù)據(jù)集上的遷移攻擊成功率 單位:%

4.3 對抗訓練

為了驗證本文方法是否可以通過對抗訓練提升模型的魯棒性。在3個數(shù)據(jù)集上通過將生成的對抗樣本加入訓練集中,訓練得到新的基于BERT base-uncased的分類器,其中由于Yelp Reviews數(shù)據(jù)集和AG News數(shù)據(jù)集較大,本文只選擇了其中一部分數(shù)據(jù)進行實驗,表5為實驗結(jié)果。

表5 TAEGM在3個數(shù)據(jù)集上對抗訓練的結(jié)果

如表5所示,在Yelp Reviews數(shù)據(jù)集上訓練模型時,在原始大小為124 000的訓練集中加入2 500個對抗樣本,經(jīng)過對抗訓練后得到模型的ACC為98.0%;接著使用TAEGM攻擊該模型,只實現(xiàn)53.7%的SR,遠低于表2中的數(shù)據(jù)。而在AG News數(shù)據(jù)集和IMDB Review數(shù)據(jù)集上進行對抗訓練時,SR只有51.0%和52.5%??梢钥闯瞿P褪褂肨AEGM生成的對抗樣本進行對抗訓練后,與表2相比可以有效降低攻擊的SR,這表明了對抗訓練可以提高模型防御對抗樣本的能力,即有效提升了模型的魯棒性。

5 結(jié)語

本文提出了一種基于BERT模型的對抗樣本生成方法TAEGM。該方法首先通過注意力機制定位句子中的關鍵單詞,通過BERT在這些關鍵單詞的位置生成單詞級的擾動,生成候選樣本;其次,通過聚類選擇對分類結(jié)果影響大的候選樣本,得到高質(zhì)量的對抗樣本。通過大量的實驗結(jié)果表明了本文方法可以將降低訪問目標模型的次數(shù),同時具有較高的攻擊效率和攻擊成功率。此外,還驗證了生成的對抗樣本不但具有很好的遷移性,還可以通過對抗訓練的方式提升模型的魯棒性。在未來的工作中,需要進一步改進算法,使得針對目標模型的訪問次數(shù)進一步下降,同時可以對文本分類模型進行定向攻擊,進一步提升算法的性能和靈活性。

[1] PAPERNOT N, McDANIEL P, SWAMI A, et al. Crafting adversarial input sequences for recurrent neural networks[C]// Proceedings of the 2016 IEEE Military Communications Conference. Piscataway: IEEE, 2016: 49-54.

[2] SAMANGOUEI P, KABKAB M, CHELLAPPA R, et al. Defense-GAN: protecting classifiers against adversarial attacks using generative models[EB/OL]. (2018-05-18) [2022-07-13].https://arxiv.org/pdf/1805.06605.pdf.

[3] 潘文雯,王新宇,宋明黎,等. 對抗樣本生成技術綜述[J]. 軟件學報, 2020, 31(1):67-81.(PAN W W, WANG X Y, SONG M L, et al. Survey on generating adversarial examples[J]. Journal of Software, 2020, 31(1): 67-81.)

[4] 王文琦,汪潤,王麗娜,等. 面向中文文本傾向性分類的對抗樣本生成方法[J]. 軟件學報, 2019, 30(8):2415-2427.(WANG W Q, WANG R, WANG L N, et al. Adversarial examples generation approach for tendency classification on Chinese texts[J]. Journal of Software, 2019, 30(8): 2415-2427.)

[5] LI J, JI S, DU T, et al. TextBugger: generating adversarial text against real-world applications[C]// Proceedings of the 26th Annual Network and Distributed System Security Symposium. Reston, VA: Internet Society, 2019: No.23138.

[6] SONG L, YU X, PENG H T, et al. Universal adversarial attacks with natural triggers for text classification[C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2021: 3724-3733.

[7] MAHESHWARY R, MAHESHWARY S, PUDI V. A strong baseline for query efficient attacks in a black box setting[C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2021: 8396-8409.

[8] DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional Transformers for language understanding[C]// Proceedings of the2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg, PA: ACL, 2019: 4171-4186.

[9] KULESHOV V, THAKOOR S, LAU T, et al. Adversarial examples for natural language classification problems[EB/OL]. [2022-07-13].https://openreview.net/pdf?id=r1QZ3zbAZ.

[10] ALZANTOT M, SHARMA Y, ELGOHARY A, et al. Generating natural language adversarial examples[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2018: 2890-2896.

[11] REN S, DENG Y, HE K, et al. Generating natural language adversarial examples through probability weighted word saliency[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2019: 1085-1097.

[12] GARG S, RAMAKRISHNAN G. BAE: BERT-based adversarial examples for text classification[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural. Stroudsburg, PA: ACL, 2020: 6174-6181.

[13] 仝鑫,王羅娜,王潤正,等. 面向中文文本分類的詞級對抗樣本生成方法[J]. 信息網(wǎng)絡安全, 2020, 20(9):12-16.(TONG X, WANG L N, WANG R Z, et al. A generation method of word-level adversarial samples for Chinese text classification[J]. Netinfo Security, 2020, 20(9):12-16.)

[14] MAHESHWARY R, MAHESHWARY S, PUDI V. Generating natural language attacks in a hard label black box setting[C]// Proceedings of the 35th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 13525-13533.

[15] LI L, MA R, GUO Q, et al. BERT-ATTACK: adversarial attack against BERT using BERT[C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2020: 6193-6202.

[16] MA X, ZHOU C, LI X, et al. FlowSeq: non-autoregressive conditional sequence generation with generative flow[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: ACL, 2019: 4282-4292.

[17] LIU Y, OTT M, GOYAL N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26) [2022-07-13].https://arxiv.org/pdf/1907.11692.pdf.

[18] CER D, YANG Y, KONG S Y, et al. Universal sentence encoder for English[C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA: ACL, 2018: 169-174.

[19] ZHANG X, ZHAO J, LeCUN Y. Character-level convolutional networks for text classification[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems — Volume 1. Cambridge: MIT Press, 2015:649-657.

[20] MAAS A L, DALY R E, PHAM P T, et al. Learning word vectors for sentiment analysis[C]// Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2011:142-150.

[21] JIN D, JIN Z, ZHOU J T, et al. Is BERT really robust? natural language attack on text classification and entailment[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 8018-8025.

[22] YE M, MIAO C, WANG T, et al. TextHoaxer: budgeted hard-label adversarial attacks on text[C]// Proceedings of the 36th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 3877-3884.

[23] LI D, ZHANG Y, PENG H, et al. Contextualized perturbation for textual adversarial attack[C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: ACL, 2020: 5053-5069.

Text adversarial example generation method based on BERT model

LI Yuhang, YANG Yuli, MA Yao, YU Dan, CHEN Yongle*

((),,030600,)

Aiming at the problem that the existing adversarial example generation methods require a lot of queries to the target model, which leads to poor attack effects, a Text Adversarial Examples Generation Method based on BERT (Bidirectional Encoder Representations from Transformers) model (TAEGM) was proposed. Firstly, the attention mechanism was adopted to locate the keywords that significantly influence the classification results without query of the target model. Secondly, word-level perturbation of keywords was performed by BERT model to generate candidate adversarial examples. Finally, the candidate examples were clustered, and the adversarial examples were selected from the clusters that have more influence on the classification results. Experimental results on Yelp Reviews, AG News, and IMDB Review datasets show that compared to the suboptimal adversarial example generation method CLARE (ContextuaLized AdversaRial Example generation model) on Success Rate (SR), TAEGM can reduce the Query Counts (QC) to the target model by 62.3% and time consumption by 68.6% averagely while ensuring the SR of adversarial attacks. Based on the above, further experimental results verify that the adversarial examples generated by TAEGM not only have good transferability, but also improve the robustness of the model through adversarial training.

adversarial example; attention mechanism; BERT (Bidirectional Encoder Representations from Transformers); adversarial attack; clustering algorithm

This work is partially supported by Basic Research Program of Shanxi Province (20210302123131, 20210302124395).

LI Yuhang, born in 1998, M. S. candidate. His research interests include artificial intelligence.

YANG Yuli, born in 1979, Ph. D., lecturer. Her research interests include trusted cloud service computing, blockchain.

MA Yao, born in 1982, Ph. D., lecturer. His research interests include Web security.

YU Dan, born in 1988, Ph. D. Her research interests include wireless sensor network, internet of things.

CHEN Yongle, born in 1983, Ph. D., professor. His research interests include internet of things security.

1001-9081(2023)10-3093-06

10.11772/j.issn.1001-9081.2022091468

2022?10?08;

2023?02?19;

山西省基礎研究計劃項目(20210302123131,20210302124395)。

李宇航(1998—),男,山西臨汾人,碩士研究生,CCF會員,主要研究方向:人工智能; 楊玉麗(1979—),女,山西臨汾人,講師,博士,CCF會員,主要研究方向:可信云服務計算、區(qū)塊鏈; 馬垚(1982—),男,山西太原人,講師,博士,CCF會員,主要研究方向:Web安全; 于丹(1988—),女,北京人,博士,CCF會員,主要研究方向:無線傳感網(wǎng)絡、物聯(lián)網(wǎng); 陳永樂(1983—),男,山西太原人,教授,博士,CCF會員,主要研究方向:物聯(lián)網(wǎng)安全。

TP309

A

2023?02?23。

猜你喜歡
集上擾動關鍵
Bernoulli泛函上典則酉對合的擾動
硝酸甘油,用對是關鍵
高考考好是關鍵
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
(h)性質(zhì)及其擾動
復扇形指標集上的分布混沌
小噪聲擾動的二維擴散的極大似然估計
用于光伏MPPT中的模糊控制占空比擾動法
生意無大小,關鍵是怎么做?