王震宇,朱學(xué)芳
(南京大學(xué)信息管理學(xué)院,南京 210023)
近年來(lái),移動(dòng)智能設(shè)備的迅速發(fā)展改變了人們獲取信息的方式,社交媒體已經(jīng)成為人們?yōu)g覽信息、表達(dá)和交流意見的主要渠道。隨著微博、Twit‐ter、抖音等應(yīng)用程序的用戶數(shù)量大幅上升,社交媒體平臺(tái)上存在的信息數(shù)據(jù)也呈現(xiàn)爆發(fā)式增長(zhǎng)。虛假新聞[1]常被定義為“故意、可證實(shí)為虛假并可能誤導(dǎo)讀者的新聞文章”,由于用戶不會(huì)驗(yàn)證其發(fā)布或轉(zhuǎn)發(fā)信息的真實(shí)性,造成了大量虛假新聞的廣泛傳播。如果沒有恰當(dāng)?shù)谋O(jiān)管,那么這些虛假新聞很可能會(huì)誤導(dǎo)更多的讀者,甚至造成惡劣的社會(huì)影響,因此,針對(duì)社交媒體平臺(tái)上的虛假新聞檢測(cè)研究已經(jīng)成為一個(gè)新的研究熱點(diǎn)。
為了遏制虛假新聞的傳播,社交媒體平臺(tái)做了許多嘗試。早期主要是通過(guò)邀請(qǐng)相關(guān)領(lǐng)域的專家或機(jī)構(gòu)對(duì)用戶發(fā)布的虛假新聞進(jìn)行確認(rèn),這種方法費(fèi)時(shí)、費(fèi)力且無(wú)法應(yīng)對(duì)指數(shù)式增長(zhǎng)的信息數(shù)據(jù),當(dāng)前自動(dòng)化虛假新聞檢測(cè)方法受到了廣泛關(guān)注?,F(xiàn)有的自動(dòng)化虛假新聞檢測(cè)方法可以歸納為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法兩類。其中,傳統(tǒng)機(jī)器學(xué)習(xí)方法包括支持向量機(jī)(support vector machine,SVM)[2]和決策樹[3]等,這些方法依賴于從新聞相關(guān)信息中手工提取的特征。然而,虛假新聞的內(nèi)容十分復(fù)雜,難以依靠手工提取到足夠的有效特征,深度學(xué)習(xí)方法利用神經(jīng)網(wǎng)絡(luò)充當(dāng)特征提取器,能夠從原始數(shù)據(jù)中自動(dòng)提取特征。例如,Ma等[4]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)從新聞的文本和社會(huì)背景中學(xué)習(xí)隱藏表示;Yu等[5]利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)從虛假新聞中提取關(guān)鍵特征和特征高階交互關(guān)系。但是,上述方法通常只關(guān)注新聞中的文本信息,而忽略了其他模態(tài)的信息(如圖像),這些信息對(duì)提升虛假新聞檢測(cè)性能同樣十分關(guān)鍵。圖1是Twitter數(shù)據(jù)集中關(guān)于臺(tái)風(fēng)桑迪的虛假新聞示例,其中圖片是經(jīng)過(guò)處理的,結(jié)合圖像信息和文本信息有助于對(duì)虛假新聞進(jìn)行檢測(cè)。
圖1 Twitter虛假新聞示例
隨著深度神經(jīng)網(wǎng)絡(luò)在各種非線性表示學(xué)習(xí)任務(wù)中不斷取得突破,許多多模態(tài)表示學(xué)習(xí)任務(wù)也開始使用深度學(xué)習(xí)方法提取特征,其中包括多模態(tài)虛假新聞檢測(cè)。Wang等[6]提出了事件對(duì)抗神經(jīng)網(wǎng)絡(luò)(event adversarial neural network,EANN),該模型能夠在提取虛假新聞中多模態(tài)特征的同時(shí)刪除特定于某個(gè)事件的特征。Khattar等[7]提出了多模態(tài)變分自編碼器(multimodal variational auto encoder,MVAE)來(lái)提取新聞中的多模態(tài)特征,并將提取到的特征分別送入解碼器和分類器中用于重建原始樣本和虛假新聞檢測(cè)。Singh等[8]使用NasNet Mobile模型提取圖像特征,同時(shí)使用BERT(bidirectional encoder representations from transformers)和ELEC‐TRA(efficiently learning an encoder that classifies to‐ken replacements accurately)組合模型提取文本特征,大大減少了模型參數(shù)數(shù)量,提高了模型訓(xùn)練速度。雖然上述模型均在虛假新聞檢測(cè)任務(wù)中表現(xiàn)出良好的性能,但是依然存在以下問(wèn)題。
(1)現(xiàn)有的多模態(tài)虛假新聞檢測(cè)方法主要使用預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)提取圖像特征,如VGG16(visual geometry group 16)[9]、VGG19[6-7,10-11]、ResNet[12]。在實(shí)際訓(xùn)練過(guò)程中,充當(dāng)圖像特征提取器的預(yù)訓(xùn)練模型的參數(shù)會(huì)保持凍結(jié),但是預(yù)訓(xùn)練模型并不完美,這會(huì)限制整個(gè)多模態(tài)模型的性能。為了減少特征提取時(shí)間,圖像特征通常會(huì)被預(yù)先存儲(chǔ)起來(lái),往往會(huì)使得這些模型的缺點(diǎn)被忽略。
(2)由于不同模態(tài)數(shù)據(jù)之間可以相互補(bǔ)充,因此,處理好跨模態(tài)特征融合是多模態(tài)模型成功的關(guān)鍵?,F(xiàn)有多模態(tài)虛假新聞檢測(cè)方法使用的特征融合方式通常十分簡(jiǎn)單,例如,EANN[6]和SpotFake[10]僅將圖像特征和文本特征拼接在一起送入分類器中,沒有充分考慮模態(tài)間的互補(bǔ)關(guān)系。
為了解決上述問(wèn)題,本文提出了基于端到端訓(xùn)練的多模態(tài)Transformer模型(multimodal end-to-end transformer,MEET),訓(xùn)練過(guò)程中模型所有參數(shù)不會(huì)凍結(jié)。MEET主要由多模態(tài)特征提取器和特征融合模塊構(gòu)成。通過(guò)使用視覺Transformer代替CNN提取圖像特征,將對(duì)圖像輸入的處理簡(jiǎn)化為與處理文本輸入一致的無(wú)卷積方式,統(tǒng)一了不同模態(tài)的特征提取過(guò)程。特征融合模塊使用共同注意力(coattention)模塊[13],其中文本特征和圖像特征被分別輸入兩個(gè)對(duì)稱的Transformer中,并使用交叉注意力機(jī)制來(lái)實(shí)現(xiàn)多模態(tài)交叉融合。此外,本文研究了端到端預(yù)訓(xùn)練對(duì)模型性能的影響,預(yù)訓(xùn)練數(shù)據(jù)集均為多模態(tài)數(shù)據(jù)集。通過(guò)在3個(gè)公開虛假新聞數(shù)據(jù)集上的實(shí)驗(yàn),證明了本文模型性能優(yōu)于當(dāng)前最好的方法。
本文的主要貢獻(xiàn)如下:
(1)提出了MEET模型,使用視覺Transfomer作為圖像特征提取器,以相同的方式處理不同模態(tài)的輸入,同時(shí)采用端到端的方式對(duì)模型進(jìn)行了訓(xùn)練。
(2)首次在虛假新聞檢測(cè)任務(wù)中使用共同注意力模塊,該模塊已經(jīng)成功應(yīng)用于多個(gè)視覺語(yǔ)言任務(wù)中[14],如圖像問(wèn)答、圖像文本檢索等。本文通過(guò)實(shí)例分析證明了共同注意力模塊在虛假新聞檢測(cè)中的有效性。
(3)第一次在虛假新聞檢測(cè)任務(wù)中引入端到端預(yù)訓(xùn)練,并在Twitter數(shù)據(jù)集上與沒有經(jīng)過(guò)預(yù)訓(xùn)練的MEET模型進(jìn)行了對(duì)比分析,實(shí)驗(yàn)結(jié)果驗(yàn)證了端到端預(yù)訓(xùn)練方法的優(yōu)越性。
現(xiàn)有的虛假新聞檢測(cè)方法可以大致分為傳統(tǒng)方法和深度學(xué)習(xí)方法。早期研究者[15-16]主要使用由專家從新聞相關(guān)信息中手工提取的特征訓(xùn)練虛假新聞分類器,如用戶特征、主題特征、傳播特征等。雖然這些手動(dòng)選擇的特征被證實(shí)是有效的,但提取這些特征通常需要復(fù)雜的特征工程。與傳統(tǒng)方法相比,深度學(xué)習(xí)方法能夠從原始數(shù)據(jù)中自動(dòng)提取特征,目前用于虛假新聞檢測(cè)任務(wù)的深度學(xué)習(xí)方法可以分為單模態(tài)虛假新聞檢測(cè)方法和多模態(tài)虛假新聞檢測(cè)方法。
現(xiàn)有的單模態(tài)虛假新聞檢測(cè)方法主要是從新聞文本中提取文本特征或從新聞圖片中提取圖像特征。Ma等[4]使用循環(huán)神經(jīng)網(wǎng)絡(luò)從新聞中學(xué)習(xí)隱藏特征。Yu等[5]使用卷積神經(jīng)網(wǎng)絡(luò)獲取新聞的關(guān)鍵特征和高階交互關(guān)系。Bahad等[17]進(jìn)一步研究了CNN和RNN在虛假新聞檢測(cè)中的表現(xiàn),使用新聞文本特征評(píng)估了雙向長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)、CNN、RNN和單向長(zhǎng)短期記憶網(wǎng)絡(luò)的性能。此外,Qi等[18]提取了新聞圖像不同像素域的視覺信息,并將其送入多域視覺神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)虛假新聞。
隨著深度學(xué)習(xí)技術(shù)在特征提取和特征融合中的廣泛應(yīng)用,多模態(tài)虛假新聞檢測(cè)方法受到越來(lái)越多的關(guān)注。Jin等[19]首次在虛假新聞檢測(cè)領(lǐng)域使用多模態(tài)模型,通過(guò)注意力機(jī)制融合了提取到的新聞圖像、文本和社會(huì)背景特征。Khattar等[7]提出了能夠?qū)W習(xí)兩種模態(tài)共享表示的MVAE,模型被訓(xùn)練從學(xué)習(xí)到的共享表示中重建兩種模態(tài),并將學(xué)習(xí)到的共享用于虛假新聞檢測(cè)。Singhal等[10]使用預(yù)訓(xùn)練BERT模型提取新聞文本特征,同時(shí)使用預(yù)訓(xùn)練VGG19模型提取新聞圖像特征。Qian等[12]使用預(yù)訓(xùn)練模型學(xué)習(xí)新聞文本和圖像表示,并將學(xué)習(xí)到的文本和圖像表示輸入多模態(tài)上下文注意網(wǎng)絡(luò)以融合不同模態(tài)特征。
雖然預(yù)訓(xùn)練模型已經(jīng)成功用于提取新聞的多模態(tài)特征,但是不同模態(tài)的特征提取器通常會(huì)使用不同的模型結(jié)構(gòu),如提取文本特征的Transformer結(jié)構(gòu)、提取圖像特征的CNN結(jié)構(gòu),CNN結(jié)構(gòu)比Trans‐former結(jié)構(gòu)更加復(fù)雜,特征提取時(shí)間也更長(zhǎng)。為了節(jié)省訓(xùn)練時(shí)間,實(shí)際訓(xùn)練時(shí)往往會(huì)選擇凍結(jié)預(yù)訓(xùn)練模型參數(shù),只訓(xùn)練整個(gè)模型的頭部,而無(wú)法達(dá)到端到端的訓(xùn)練效果。
盡管Transformer已經(jīng)成為自然語(yǔ)言處理的主流架構(gòu)[20],但是直至最近才被用于圖像處理[21-22]。為了將圖像變?yōu)榉蟃ransformer輸入要求的序列形式,視覺Transformer(vision transformer,ViT)將圖片切分為大小相同的patch后組合成序列輸入,patch機(jī)制的引入極大簡(jiǎn)化了將圖像嵌入形式轉(zhuǎn)變?yōu)槲谋厩度胄问降倪^(guò)程。視覺Transformer已經(jīng)在許多計(jì)算機(jī)視覺任務(wù)中取得了最先進(jìn)的成果,如物體檢測(cè)[23]、圖像補(bǔ)全[24]、自動(dòng)駕駛[25]等。本文提出的MEET模型是以視覺Transformer作為圖像特征提取器的、完全基于Transformer的多模態(tài)模型。
本文提出的基于多模態(tài)Transformer的虛假新聞檢測(cè)模型結(jié)構(gòu)如圖2所示。整個(gè)模型主要由3個(gè)部分構(gòu)成,分別是多模態(tài)特征提取器、共同注意力模塊和虛假新聞檢測(cè)器。多模態(tài)特征提取器負(fù)責(zé)提取新聞的文本特征和圖像特征,之后,文本特征和圖像特征會(huì)被送入共同注意力模塊進(jìn)行多模態(tài)特征融合,最后,融合特征會(huì)作為虛假新聞器的輸入以生成最終的分類結(jié)果。
圖2 基于多模態(tài)Transformer的虛假新聞檢測(cè)模型
文本特征提取器采用Transformer結(jié)構(gòu),Trans‐former在問(wèn)答任務(wù)、命名實(shí)體識(shí)別、文本分類等多個(gè)領(lǐng)域均被證明是有效的[26-28]。為了提升模型的泛化性能,本文使用了在大規(guī)模語(yǔ)料上預(yù)訓(xùn)練的語(yǔ)言模型。目前常用的預(yù)訓(xùn)練語(yǔ)言模型有BERT[26]和Ro‐BERTa[27],兩者均使用Transformer編碼器作為網(wǎng)絡(luò)主體。RoBERTa相較于BERT的主要改進(jìn)在于修改了BERT原有的預(yù)訓(xùn)練策略,包括使用更大的文本嵌入詞匯表、預(yù)訓(xùn)練任務(wù)中去除預(yù)測(cè)下一個(gè)句子和使用動(dòng)態(tài)掩碼策略等。RoBERTa已經(jīng)在多個(gè)自然語(yǔ)言處理任務(wù)上表現(xiàn)出超越BERT的性能[27]。本文在第3節(jié)中對(duì)這兩種文本編碼器進(jìn)行了對(duì)比分析。此外,為了證明預(yù)訓(xùn)練語(yǔ)言模型的必要性,本文還測(cè)試了只使用BERT的嵌入層作為文本編碼器的情況。
令T={t[CLS],t1,…,tm,t[SEP]},其中T表示輸入的文本嵌入;m表示新聞文本中的單詞數(shù);t[CLS]為分類標(biāo)記嵌入,表示該位置的特征向量用于分類任務(wù);t[SEP]為分句標(biāo)記嵌入,用于句子結(jié)尾。提取到的文本特征表示為L(zhǎng)={l[CLS],l1,…,lm,l[SEP]},其中l(wèi)i對(duì)應(yīng)于ti轉(zhuǎn)換后的特征;l[CLS]為分類標(biāo)記的特征向量,代表文本的語(yǔ)義特征。L的計(jì)算公式為
其中,l∈Rdt為對(duì)應(yīng)位置的輸出層隱藏狀態(tài);dt為文本嵌入維數(shù)。
為了使圖像輸入的三維矩陣結(jié)構(gòu)變?yōu)榉蟃ransformer輸入要求的序列結(jié)構(gòu),首先要對(duì)圖像進(jìn)行序列化預(yù)處理,整個(gè)處理過(guò)程如圖3所示。假設(shè)圖像輸入矩陣尺寸為224×224×3,使用卷積層將圖像切分為14×14個(gè)patch,之后將所有patch展平成長(zhǎng)度為196的序列,在序列前拼接分類標(biāo)記嵌入再加上位置嵌入,就得到了完整的圖像嵌入矩陣。本文圖像特征提取器采用基于對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練(contrastive language-image pre-training,CLIP)的視覺Transformer模型[29],以下簡(jiǎn)稱CLIP-ViT。CLIPViT與其他預(yù)訓(xùn)練視覺Transfomer的區(qū)別在于其預(yù)訓(xùn)練數(shù)據(jù)是多模態(tài)的,是在從互聯(lián)網(wǎng)上抓取的4億個(gè)圖像文本對(duì)上訓(xùn)練的。此外,CLIP-ViT在Ima‐geNet分類等基準(zhǔn)數(shù)據(jù)集上展現(xiàn)出強(qiáng)大的零樣本學(xué)習(xí)能力。本文在第3節(jié)中通過(guò)對(duì)比實(shí)驗(yàn)深入研究了CLIP-ViT的作用。
圖3 圖像預(yù)處理過(guò)程
對(duì)于給定圖像嵌入R,通過(guò)CLIP-ViT提取到的圖像特征可以表示為
其中,v∈Rdr;vClass為分類標(biāo)記的特征;dr為圖像嵌入維數(shù)。
為了使模型能夠?qū)W習(xí)到圖像和文本之間的語(yǔ)義對(duì)應(yīng)關(guān)系,本文使用共同注意力模塊對(duì)圖像特征和文本特征進(jìn)行交叉融合。如圖4所示,共同注意力模塊由兩個(gè)交叉注意力網(wǎng)絡(luò)構(gòu)成,每個(gè)交叉注意力網(wǎng)絡(luò)都是一個(gè)N層的Transformer結(jié)構(gòu),與一般Transformer相比,每層多了一個(gè)交叉注意力塊。通過(guò)在兩個(gè)網(wǎng)絡(luò)對(duì)應(yīng)層的交叉注意力塊之間交換鍵矩陣K和值矩陣V,使得圖像對(duì)應(yīng)的文本特征能夠被納入網(wǎng)絡(luò)輸出的圖像表示中,同樣地,文本對(duì)應(yīng)的圖像特征也會(huì)被納入網(wǎng)絡(luò)輸出的文本表示中。共同注意力模塊已經(jīng)被用于視覺語(yǔ)言模型中,并且在圖像問(wèn)答、圖像標(biāo)注等任務(wù)上證明了其有效性[13-14]。
圖4 共同注意力模塊
通過(guò)共同注意力模塊的交叉注意力機(jī)制,本文得到了更新后的圖像特征W={w0,w1,…,wn}和文本特征S={s0,s1,…,sm},其中w0和s0分別表示圖像和文本的分類特征。將圖像分類特征與文本語(yǔ)義分類進(jìn)行拼接,得到多模態(tài)融合特征C。
虛假新聞檢測(cè)器以多模態(tài)融合特征C作為輸入,利用兩層全連接層來(lái)預(yù)測(cè)新聞是真假新聞的概率,計(jì)算公式為
其中,σ1為gelu激活函數(shù);σ2為softmax激活函數(shù);H為第一層全連接層的輸出;P為最終輸出的分類預(yù)測(cè)概率,模型損失函數(shù)為P與新聞標(biāo)簽真實(shí)值的交叉熵。
本文將提出的MEET模型與其他基線模型在3個(gè)公開的虛假新聞數(shù)據(jù)集上進(jìn)行了比較,包括英文Twitter數(shù)據(jù)集[30]、中文Weibo數(shù)據(jù)集[19]以及中文Bi‐en數(shù)據(jù)集①https://www.biendata.xyz/competition/falsenews/。
Twitter數(shù)據(jù)集是在MediaEval研討會(huì)上發(fā)布的虛假新聞檢測(cè)數(shù)據(jù)集MediaEval2015[30],該數(shù)據(jù)集由17000條來(lái)自Twitter平臺(tái)的推文文本及其相關(guān)圖像組成,是多模態(tài)虛假新聞檢測(cè)任務(wù)中最常用的數(shù)據(jù)集之一。遵照已有研究成果[7],本文以沒有重疊事件的方式將數(shù)據(jù)集劃分為訓(xùn)練集(15000條)和測(cè)試集(2000條)。
Weibo數(shù)據(jù)集由經(jīng)過(guò)微博官方辟謠平臺(tái)驗(yàn)證的虛假新聞和經(jīng)新華社核實(shí)的真實(shí)新聞組成,這些新聞同樣包含文本和圖像[19]。使用不同語(yǔ)言的數(shù)據(jù)集能夠更好地評(píng)估模型的泛用性和魯棒性。按照已有方法[7]將該數(shù)據(jù)集劃分為訓(xùn)練集(80%)和測(cè)試集(20%)。
Bien數(shù)據(jù)集來(lái)自人工智能競(jìng)賽平臺(tái)BienData舉辦的互聯(lián)網(wǎng)虛假新聞檢測(cè)挑戰(zhàn)賽①,原始數(shù)據(jù)集分為兩個(gè)部分:帶標(biāo)簽的訓(xùn)練集(38471條)和不帶標(biāo)簽的測(cè)試集(4000條)。與已有研究[31]一致,本文將原始訓(xùn)練集按照4∶1劃分為訓(xùn)練集和測(cè)試集。
為提高數(shù)據(jù)質(zhì)量,本文首先對(duì)3個(gè)數(shù)據(jù)集進(jìn)行簡(jiǎn)單的預(yù)處理,篩選出既包含文本又包含圖像的新聞,其中圖像僅限靜態(tài)圖片,不包括動(dòng)態(tài)圖像和視頻。經(jīng)過(guò)篩選和處理后的數(shù)據(jù)集統(tǒng)計(jì)信息如表1所示。
本文使用準(zhǔn)確率(accuracy)作為模型主要評(píng)價(jià)指標(biāo),這是分類任務(wù)中的常用指標(biāo)。此外,實(shí)驗(yàn)中統(tǒng)計(jì)了模型的精確率(precision)、召回率(re‐call)和F1分?jǐn)?shù)(F1-score)作為補(bǔ)充評(píng)價(jià)指標(biāo),可以減少類型不平衡時(shí)準(zhǔn)確率指標(biāo)可靠性下降的問(wèn)題。
本文對(duì)MEET模型進(jìn)行了端到端的視覺語(yǔ)言預(yù)訓(xùn)練(vision-and-language pre-training,VLP)。預(yù)訓(xùn)練任務(wù)包括掩碼語(yǔ)言建模(masked language model‐ing,MLM)和圖像文本匹配(image-text matching,ITM)。在MLM任務(wù)中,將15%的輸入文本替換為掩碼標(biāo)記([MASK]),并讓模型學(xué)習(xí)輸出被替換的原始文本。在ITM任務(wù)中,按相同概率采樣匹配和不匹配的圖像標(biāo)題對(duì)送入模型,模型需要輸出輸入的圖像標(biāo)題對(duì)是否匹配。
本文遵循已有研究[32],在4個(gè)公開數(shù)據(jù)集上對(duì)模型進(jìn)行端到端預(yù)訓(xùn)練,包括COCO數(shù)據(jù)集[33]、Con‐ceptual Captions數(shù)據(jù)集[34]、SBU Captions數(shù)據(jù)集[35]和Visual Genome數(shù)據(jù)集[36]。為了使預(yù)訓(xùn)練數(shù)據(jù)集與微調(diào)數(shù)據(jù)集中的文本語(yǔ)言保持一致,本文只在英文Twitter數(shù)據(jù)集上對(duì)端到端預(yù)訓(xùn)練效果進(jìn)行了驗(yàn)證。
根據(jù)對(duì)3個(gè)公開數(shù)據(jù)集中文本長(zhǎng)度的統(tǒng)計(jì),將Twitter數(shù)據(jù)集文本序列最大長(zhǎng)度設(shè)置為50,Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集文本序列最大長(zhǎng)度設(shè)置為200,超出部分截?cái)?,不足部分補(bǔ)零。對(duì)于圖片,所有圖片輸入大小均被調(diào)整為224×224×3,訓(xùn)練過(guò)程中對(duì)圖片應(yīng)用隨機(jī)的數(shù)據(jù)增強(qiáng)[37]以加強(qiáng)模型泛化性能,驗(yàn)證和測(cè)試過(guò)程中不使用數(shù)據(jù)增強(qiáng)。
本文所有實(shí)驗(yàn)均在內(nèi)存為32G,顯卡為NVID‐IA RTX 3090的服務(wù)器上完成。本文使用的編程語(yǔ)言為python 3.8,使用的深度學(xué)習(xí)框架為pytorchlightning 1.3.2、pytorch 1.7.1和transformers 4.6.0。
MEET模型的圖像特征提取器和文本特征提取器均是12層Transformer結(jié)構(gòu),圖像嵌入和文本嵌入維數(shù)均為768。共同注意模塊中兩個(gè)交叉注意力網(wǎng)絡(luò)均為6層Transformer結(jié)構(gòu)。虛假新聞檢測(cè)器中兩層全連接層的神經(jīng)元個(gè)數(shù)分別為1536和2,激活函數(shù)分別為gelu和softmax,損失函數(shù)為交叉熵?fù)p失函數(shù)。
本文使用AdamW優(yōu)化器,訓(xùn)練批次大小為256,為了減緩模型過(guò)擬合同時(shí)加速模型收斂,學(xué)習(xí)率在訓(xùn)練總步數(shù)的前10%中會(huì)從0線性遞增到設(shè)置的學(xué)習(xí)率,之后再線性衰減到0。
由于完全訓(xùn)練一個(gè)MEET模型耗時(shí)較長(zhǎng),本文先在較少訓(xùn)練輪數(shù)下探究了不同文本和視覺編碼器的表現(xiàn)。實(shí)驗(yàn)分為兩個(gè)階段:首先,評(píng)估了在缺少視覺或文本模態(tài)時(shí)各種編碼器的性能;其次,通過(guò)研究不同文本編碼器與視覺編碼器的組合,深入分析了視覺編碼器的作用。為了保證實(shí)驗(yàn)的可靠性,每個(gè)實(shí)驗(yàn)在不同的隨機(jī)數(shù)種子上執(zhí)行5次,并采用測(cè)試集的平均準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)中所有模型的訓(xùn)練輪數(shù)設(shè)定為10,底層和頂層學(xué)習(xí)率分別設(shè)定為1e-5和1e-4,底層包括文本編碼器和視覺編碼器,頂層包括共同注意力模塊和虛假新聞檢測(cè)器。
3.4.1 文本編碼器對(duì)比
如表2所示,BERT和RoBERTa在各數(shù)據(jù)集上表現(xiàn)存在顯著差異。在中文Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集中,兩者表現(xiàn)相當(dāng);但在英文Twitter數(shù)據(jù)集上,BERT明顯優(yōu)于RoBERTa。值得注意的是,僅基于文本的BERT和RoBERTa在兩個(gè)中文數(shù)據(jù)集的測(cè)試集上的準(zhǔn)確率已超過(guò)部分使用非Transformer結(jié)構(gòu)文本編碼器的多模態(tài)模型。此外,采用BERT嵌入層的模型在3個(gè)數(shù)據(jù)集的測(cè)試集上僅持續(xù)預(yù)測(cè)同一類別,這表明預(yù)訓(xùn)練文本編碼器在僅基于文本的虛假新聞檢測(cè)任務(wù)中是必要的。
表2 無(wú)視覺模態(tài)時(shí)的文本編碼器對(duì)比
3.4.2 視覺編碼器對(duì)比
如表3所示,本文在圖像方面比較了CLIP-ViT-16和CLIP-ViT-32兩種模型,其中16和32表示模型的patch大小。實(shí)驗(yàn)結(jié)果表明,CLIP-ViT-16在所有數(shù)據(jù)集上性能更佳。在Twitter數(shù)據(jù)集上,視覺編碼器明顯優(yōu)于文本編碼器,這與各數(shù)據(jù)集中新聞圖片數(shù)量有關(guān)。Twitter數(shù)據(jù)集的圖片數(shù)量遠(yuǎn)少于Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集,因此,視覺編碼器在Twitter數(shù)據(jù)集上需要學(xué)習(xí)的虛假新聞圖像特征也較少。
表3 無(wú)文本模態(tài)時(shí)的視覺編碼器對(duì)比
3.4.3 文本和視覺編碼器組合對(duì)比
如表4所示,所有多模態(tài)組合模型相較于單一模態(tài)模型的性能都有明顯提升,這包括僅使用BERT嵌入層作為文本編碼器的模型。在引入視覺模態(tài)后,各文本編碼器之間的性能差距顯著減小,但使用一個(gè)預(yù)訓(xùn)練的文本編碼器仍具有重要意義。在視覺編碼器方面,CLiP-ViT-16和CLiP-ViT-32均表現(xiàn)出良好性能,尤其是CLiP-ViT-16在Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集上分別達(dá)到了89.70%和97.15%的平均準(zhǔn)確率,超越了現(xiàn)有最佳模型的表現(xiàn)。
表4 文本和視覺編碼器組合對(duì)比
3.4.4 學(xué)習(xí)率設(shè)置
本文深入探討了不同學(xué)習(xí)率對(duì)模型性能的影響,并選用CLiP-ViT-16和RoBERTa作為默認(rèn)編碼器。表5展示了在4種學(xué)習(xí)率設(shè)置下訓(xùn)練的模型表現(xiàn)。對(duì)于Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集,對(duì)模型頂層參數(shù)采用更高的學(xué)習(xí)率有助于取得更好的結(jié)果。然而,在Twitter數(shù)據(jù)集上模型性能卻呈現(xiàn)下降趨勢(shì)。這是由于Twitter數(shù)據(jù)集中視覺模態(tài)相對(duì)文本模態(tài)更為重要,多模態(tài)融合過(guò)程中視覺模態(tài)起主導(dǎo)作用,較高的學(xué)習(xí)率容易導(dǎo)致過(guò)擬合現(xiàn)象。相反地,在Weibo數(shù)據(jù)集和Bien數(shù)據(jù)集中文本模態(tài)和視覺模態(tài)的重要性相當(dāng),較高的學(xué)習(xí)率有助于學(xué)習(xí)到更復(fù)雜的多模態(tài)融合策略。
表5 不同學(xué)習(xí)率設(shè)置對(duì)比
3.5.1 單模態(tài)模型
(1)Textual:該模型僅使用新聞文本作為模型輸入。使用預(yù)訓(xùn)練的詞嵌入模型生成文本嵌入,將文本嵌入輸入雙向LSTM模型以提取新聞文本特征,最后使用全連接層輸出分類結(jié)果。
(2)Visual:該模型僅使用新聞圖片作為模型輸入。先將圖片輸入預(yù)訓(xùn)練VGG19模型提取圖像特征,再將圖像特征輸入全連接層進(jìn)行虛假新聞檢測(cè)。
3.5.2 多模態(tài)模型
(1)EANN[6]:EANN主要由3個(gè)部分組成,即多模態(tài)特征提取器、虛假新聞檢測(cè)器和事件鑒別器。在多模態(tài)特征提取器中,分別使用TextCNN模型和預(yù)訓(xùn)練VGG19模型提取文本特征和圖像特征,將提取到的文本特征和圖像特征拼接后輸入虛假新聞檢測(cè)器中。為了保證實(shí)驗(yàn)公平,本文使用的是不包含事件鑒別器的簡(jiǎn)化版EANN。
(2)MVAE[7]:MVAE使用雙模態(tài)變分自編碼器和二值分類器進(jìn)行虛假新聞檢測(cè)。其中,雙模態(tài)變分自編碼器使用雙向LSTM模型和預(yù)訓(xùn)練VGG19模型作為文本編碼器和圖像編碼器,利用全連接層進(jìn)行特征融合。
(3)SpotFake[10]:SpotFake使用預(yù)訓(xùn)練語(yǔ)言模型(BERT)提取文本特征,并使用預(yù)訓(xùn)練VGG19模型提取圖像特征,沒有使用特征融合方法。
(4)HMCAN(hierarchical multi-modal contextu‐al attention network)[12]:HMCAN使用預(yù)訓(xùn)練BERT模型和ResNet模型提取新聞文本特征和圖像特征,并將提取到的特征輸入多模態(tài)上下文注意網(wǎng)絡(luò)進(jìn)行特征融合,此外模型還使用層次編碼網(wǎng)絡(luò)捕捉輸入文本的層次語(yǔ)義特征。
(5)CEMM(correlation extension multimod‐al)[31]:CEMM先利用光學(xué)字符識(shí)別(optical char‐acter recognition,OCR)技術(shù)從附加圖像中識(shí)別文本信息,再使用BERT和雙向LSTM從新聞文章及其OCR文本中提取文本特征,并計(jì)算兩者的相似性得分。最后將這些特征與圖像直方圖特征拼接后輸入分類器以進(jìn)行虛假新聞檢測(cè)。
根據(jù)3.4節(jié)的實(shí)驗(yàn)結(jié)果,本文選擇RoBERTa作為MEET模型的文本編碼器,CLIP-ViT-16作為視覺編碼器。表6展示了MEET模型與其他基線模型在3個(gè)公開數(shù)據(jù)集上的性能對(duì)比。為了公平對(duì)比,本文在這3個(gè)數(shù)據(jù)集上訓(xùn)練了HMCAN模型,學(xué)習(xí)率設(shè)定為1e-3,保持其他訓(xùn)練設(shè)置與MEET模型一致。
表6 不同方法在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
如表6所示,在Twitter數(shù)據(jù)集上HMCAN模型的復(fù)現(xiàn)結(jié)果與原文存在較大差異,這可能是因?yàn)樵趧澐諸witter數(shù)據(jù)集時(shí),HMCAN沒有確保訓(xùn)練集與測(cè)試集的事件無(wú)重疊。此外,從HMCAN的公開源碼可知該模型并非端到端訓(xùn)練,這也可能對(duì)其性能產(chǎn)生影響。同時(shí),HMCAN在處理BERT提取的文本特征時(shí)將其平均分成3段與圖像特征進(jìn)行分層特征融合,但在這一過(guò)程中模型沒有充分考慮短文本的情況,導(dǎo)致后兩段文本中存在大量無(wú)效的填充標(biāo)記(padding token)。然而,源碼中模型并未對(duì)這些填充標(biāo)記進(jìn)行掩碼處理。對(duì)于Twitter數(shù)據(jù)集,本文僅關(guān)注HMCAN模型的復(fù)現(xiàn)結(jié)果。
實(shí)驗(yàn)結(jié)果顯示,多模態(tài)模型相較于單模態(tài)模型具有顯著優(yōu)勢(shì)。除了本文方法外,SpotFake模型和HMCAN模型的表現(xiàn)同樣出色,這表明預(yù)訓(xùn)練的BERT模型能夠更有效地從新聞文本中提取特征。本文提出的MEET模型在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率均超過(guò)其他基線模型,并在其他評(píng)價(jià)指標(biāo)上也能取得最佳或次佳的成績(jī)。MEET(VLP)模型在Twitter數(shù)據(jù)集上的表現(xiàn)尤為突出,進(jìn)一步證實(shí)了端到端預(yù)訓(xùn)練能提升模型性能。圖5是MEET(VLP)模型和MEET模型在訓(xùn)練過(guò)程中的損失曲線,可以看出,MEET(VLP)模型在前200步的訓(xùn)練損失下降速度更快,這表明端到端預(yù)訓(xùn)練不僅能提升模型性能,還可以加速模型收斂。
圖5 不同預(yù)訓(xùn)練設(shè)置下的訓(xùn)練損失曲線
為了展示MEET模型在多模態(tài)融合上的優(yōu)越性,本文對(duì)兩個(gè)虛假新聞實(shí)例進(jìn)行了注意力可視化分析。如圖6所示,雖然從文本內(nèi)容上看,這兩則新聞似乎無(wú)法判斷真?zhèn)?,但圖6a中窗外的海底景色和圖6b中墻上的合影照片均顯得異??梢?。在共同注意力模塊的第一層注意力圖中,模型最初將注意力分散在圖片的各個(gè)區(qū)域。經(jīng)過(guò)一層交叉注意力網(wǎng)絡(luò)后,第二層注意力圖顯示模型能夠在圖像中檢測(cè)到文本的部分語(yǔ)義對(duì)象,如“views”“bedroom”“toilets”。在多次交叉融合后,最終層注意力圖體現(xiàn)出模型將注意力集中在兩幅圖中最不合理的部分,并成功判斷出這些新聞為虛假信息。以上可視化分析結(jié)果可以證實(shí),本文模型能夠有效地利用多模態(tài)信息對(duì)虛假新聞進(jìn)行檢測(cè)。
圖6 MEET模型多模態(tài)融合注意力可視化
針對(duì)現(xiàn)有多模態(tài)虛假新聞檢測(cè)方法的不足,本文提出了一種基于多模態(tài)Transformer的虛假新聞檢測(cè)模型。首先,該模型將圖像輸入序列化成文本輸入的形式;其次,利用預(yù)訓(xùn)練Transformer以相同的方式提取文本特征和圖像特征;再其次,通過(guò)共同注意力模塊實(shí)現(xiàn)不同模態(tài)間的交叉融合;最后,將融合后的圖像特征和文本特征拼接起來(lái)送入全連接層生成檢測(cè)結(jié)果。本文在3個(gè)公開數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)和實(shí)例分析,實(shí)驗(yàn)結(jié)果證明了該模型的優(yōu)勢(shì)和模型中每個(gè)模塊的有效性。本文部分內(nèi)容已用于申請(qǐng)發(fā)明專利[38]。
同時(shí),本文尚存在以下不足。由于受到端到端預(yù)訓(xùn)練數(shù)據(jù)集的限制,本文只在Twitter數(shù)據(jù)集上驗(yàn)證了端到端預(yù)訓(xùn)練的效果,后續(xù)可以嘗試在預(yù)訓(xùn)練數(shù)據(jù)集中添加中文數(shù)據(jù)集或多語(yǔ)言數(shù)據(jù)集,從而能夠在更多不同語(yǔ)言的虛假新聞數(shù)據(jù)集上進(jìn)行端到端預(yù)訓(xùn)練的實(shí)驗(yàn)。此外,本文模型只考慮了新聞的文本信息和圖像信息,未來(lái)可以考慮引入更多模態(tài)以提升模型檢測(cè)性能。