王蕊? 黎欣雨? 馬霄
摘要:[目的/意義]旨在通過融合BERT和VGG模型解決當(dāng)前虛假新聞泛濫、虛假新聞自動檢測準(zhǔn)確度較低、智能化較低問題。[方法/過程]使用預(yù)訓(xùn)練模型BERT和VGG將新聞中的圖文分離并轉(zhuǎn)化為特征向量集,并進(jìn)行特征融合,運(yùn)用SVM模型設(shè)計(jì)分類器實(shí)現(xiàn)多模態(tài)虛假新聞檢測識別。[結(jié)果/結(jié)論] 實(shí)證結(jié)果表明,實(shí)驗(yàn)數(shù)據(jù)集F1值達(dá)到93%,相較于單獨(dú)使用BERT和VGG模型提升7%與9%,該方法具有較高的準(zhǔn)確率和召回率,能夠有效地檢測虛假新聞。
關(guān)鍵詞:虛假新聞檢測;特征提??;特征融合;多模態(tài)分析
分類號:TP391
引用格式:曾江峰, 王蕊, 黎欣雨, 等. 融合BERT和VGG模型多模態(tài)虛假新聞檢測方法研究[J/OL]. 知識管理論壇, 2023, 8(6): 502-513[引用日期]. http://www.kmf.ac.cn/p/367/.
習(xí)近平總書記在二十大報(bào)告中強(qiáng)調(diào),要加強(qiáng)全媒體傳播體系建設(shè),推動形成良好網(wǎng)絡(luò)生態(tài)[1]?;ヂ?lián)網(wǎng)的普及推動了信息傳播的發(fā)展,覆蓋了更為廣泛的受眾,但這些信息的真實(shí)性、準(zhǔn)確性有待考量?!疤摷傩侣劇币辉~在2016年美國總統(tǒng)大選期間成為主流,當(dāng)時數(shù)百家網(wǎng)站發(fā)布了虛假或帶有嚴(yán)重偏見的報(bào)道,其中許多是為了從社交媒體廣告收入中獲利[2]。2020年初,面對新冠肺炎疫情,恐懼與不安充斥全國,每天新聞產(chǎn)出量劇增,針對“辟謠”的百度搜索指數(shù)(2020年1月19—25日)與2019年春節(jié)期間相比,增長了5.4倍;中國科學(xué)院計(jì)算技術(shù)研究所研發(fā)的虛假新聞自動檢測平臺“AI識謠”平均每天發(fā)現(xiàn)具有爭議性的疫情新聞200條;騰訊開發(fā)的以人工審核為主的事實(shí)查證平臺“較真”的疫情新聞特別版上線24小時,用戶已超過4 000萬,服務(wù)次數(shù)超過1億。虛假新聞的存在嚴(yán)重威脅著人們的生活和社會秩序,對虛假新聞的檢測已然成為一個備受關(guān)注的熱門研究領(lǐng)域。隨著多媒體技術(shù)的發(fā)展和社交媒體的廣泛應(yīng)用,新聞不再僅僅局限于文字形式,而是包括圖片、視頻和語音等多種形式。鑒于此,針對多模態(tài)的虛假新聞檢測成為一個新的研究方向。
目前學(xué)界對虛假新聞檢測方法的研究主要集中于以下幾個方面:①針對文本形式的虛假新聞,通常采用自然語言處理技術(shù),如詞袋模型、詞向量等,對新聞文本的特征進(jìn)行分析和提取[3]。②針對圖片形式的虛假新聞,采用計(jì)算機(jī)視覺技術(shù),如卷積神經(jīng)網(wǎng)絡(luò)等,對圖片的內(nèi)容、色調(diào)、尺寸等特征進(jìn)行分析和提取。③由于虛假新聞往往包含多種形式的信息,學(xué)者開始探索多模態(tài)特征融合的方法,將不同形式的特征進(jìn)行整合,提高虛假新聞檢測的準(zhǔn)確率和魯棒性。④對于虛假新聞的傳播路徑分析,研究者致力于了解虛假新聞的來源、傳播規(guī)律和受眾群體,以提高虛假新聞檢測的精度和效率。⑤針對虛假新聞檢測模型受到的對抗性攻擊,學(xué)者提出系列防御方法,以提高虛假新聞檢測模型的魯棒性??傊瑢W(xué)界對于虛假新聞檢測方法的研究涵蓋了自然語言處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等多個領(lǐng)域,是一個具有挑戰(zhàn)性和復(fù)雜性的研究方向。
虛假新聞帶來社會恐慌、輿情肆意泛濫等嚴(yán)重的社會影響,檢測并打擊虛假新聞具有現(xiàn)實(shí)性和緊迫性[4]。目前大多虛假新聞檢測要依靠讀者檢舉揭發(fā),并讓相關(guān)專家和機(jī)構(gòu)來證實(shí)。但這種方式時效性不強(qiáng),檢測效率不高,相比識別新聞的復(fù)雜過程,謠言的傳播成本相對較低,制作虛假新聞的簡單與檢測虛假新聞的困難形成強(qiáng)烈反差。因此,構(gòu)建自動化程度高、響應(yīng)速度快的虛假新聞檢測模型及系統(tǒng)是產(chǎn)學(xué)研界關(guān)注的焦點(diǎn),如何高效檢測虛假新聞這一問題迫在眉睫[5]。
在此背景下,本研究提出融合預(yù)訓(xùn)練BERT(Bidirectional Encoder Representations From Transformers)和VGG(Visual Geometry Group Network)模型的多模態(tài)虛假新聞檢測算法。首先搜集的虛假信息數(shù)據(jù)集,用BERT模型提取文本特征向量;其次利用VGG模型提取圖片特征向量;最后進(jìn)行特征融合,將這兩部分向量拼接在一起,用于訓(xùn)練最終的分類器。通過融合文本和圖像兩個單模態(tài)模型中的隱層特征,最終得到多模態(tài)融合特征和其對應(yīng)的真假標(biāo)簽。這些特征和標(biāo)簽將作為下游分類器的輸入,經(jīng)過進(jìn)一步的特征組合訓(xùn)練實(shí)現(xiàn)對真假新聞概率上的判別。最后將未被訓(xùn)練的數(shù)據(jù)集輸入到訓(xùn)練好的分類模型,從而得到測試集的分類精度,完成對多模態(tài)新聞?wù)婕俚臋z測。
1? 相關(guān)研究
虛假新聞也可以被稱為虛假信息,它被定義為故意捏造和已經(jīng)被核實(shí)的虛假信息[6]。虛假信息通常表現(xiàn)為各種形式,如謠言、緋聞、流言、偽科學(xué)等[7]。目前學(xué)界對虛假新聞的研究主要聚焦于檢測方法。首先,虛假新聞的檢測主要采用機(jī)器學(xué)習(xí)方法,如基于深層次和集成分類器的微博謠言檢測方法、提取Twitter中謠言的文本特征、行為特征,構(gòu)建貝葉斯分類器。P. Zhou等[8]提出一個雙流的 Faster R-CNN模型,將 RGB流和噪聲流中豐富的篡改特征進(jìn)行了很好的利用,以此實(shí)現(xiàn)多種類型虛假圖片的檢測。C. Boididou等[9]將取證特征用在虛假新聞檢測領(lǐng)域,以塊效應(yīng)網(wǎng)格和分塊離散余弦變換(DCT)系數(shù)等作為特征,取得不錯的反饋結(jié)果。Z. Jin等[10]基于多媒體數(shù)據(jù)集分析新聞、文章的圖像進(jìn)行虛假新聞檢測,探討了視覺和統(tǒng)計(jì)圖像特征,以預(yù)測各自文章的準(zhǔn)確性,并提出了利用從文章中提取的沖突觀點(diǎn)構(gòu)建的可信度傳播網(wǎng)絡(luò)的虛假新聞檢測方法。Y. Liu等[11]利用多元時間序列對新聞傳播路徑進(jìn)行分類,提出了一種由傳播路徑構(gòu)建與轉(zhuǎn)換、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的傳播路徑表示、基于卷積神經(jīng)網(wǎng)絡(luò)傳播路徑表示和傳播路徑分類四個主要部分構(gòu)成的虛假新聞早期檢測模型。
隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,虛假新聞呈現(xiàn)出多元化趨勢,基于虛假新聞自身語言特性的虛假新聞檢測模型出現(xiàn)很多局限性[12],因此,基于多模態(tài)特征的虛假新聞檢測算法的研究頗多。劉鵬飛等[13]提出的模型利用多核異步長卷積神經(jīng)網(wǎng)絡(luò)對新聞標(biāo)題作者及鏈接信息中隱含的辨別特征進(jìn)行充分提取,根據(jù)新聞圖片語義和物理級別的聯(lián)系,利用注意力機(jī)制來提取帶有權(quán)重的特征。P. Qi等[14]設(shè)計(jì)基于CNN和CNN-RNN的網(wǎng)絡(luò)來捕捉頻域和像素域的視覺特征,并使用注意力機(jī)制來動態(tài)融合特征表示,以檢測虛假新聞。陶霄等人[15]提取文本、視覺和用戶三個模態(tài)的特征向量,在詞語和視覺的雙向匹配、前期融合和后期融合中均加入注意力機(jī)制,實(shí)現(xiàn)特征和決策的自動加權(quán),并基于 Dempster組合規(guī)則進(jìn)行混合融合。R K. Kaliyar等[16]提出一個深度卷積神經(jīng)網(wǎng)絡(luò)模型(FNDNet),它包含一個預(yù)先訓(xùn)練好的名為 GloVe的單詞嵌入和一個具有多個隱藏層的 CNN,在每一層提取用于分類假新聞的判別性特征。S. Deepak等[17]在神經(jīng)網(wǎng)絡(luò)中加入在線數(shù)據(jù)挖掘,從互聯(lián)網(wǎng)上獲得與所考慮的新聞文章相對應(yīng)的知識特征。M. H. Goldani等[18]使用邊際損失(Margin Loss),在 CNN上進(jìn)行虛假新聞檢測,這是第一個將邊際損失用于文本分類工作的模型,并在 ISOT和 LIAR數(shù)據(jù)集上獲得較好表現(xiàn)。S. R. Sahoo等[19]提出一種 chrome環(huán)境下 Facebook的自動假新聞檢測方法。這些模型收集并分析多個特征,這些特征與 Facebook賬戶和一些新聞內(nèi)容特征相關(guān),并使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)將其輸入分類器,然后選擇匹配度最高的分類器,通過chrome擴(kuò)展來檢測假新聞。S. HAKAK等[20]從虛假新聞數(shù)據(jù)集中提取重要特征,然后使用由隨機(jī)森林決策樹和非線性分類器組成的集合模型對提取的特征進(jìn)行分類。
MVAE和MVNN代表了在多模態(tài)信息處理領(lǐng)域的最新研究進(jìn)展。這兩個模型都致力于將不同模態(tài)的數(shù)據(jù)(如文本和圖像)融合到一個統(tǒng)一的表示空間中,從而為任務(wù)提供更多元化和豐富的信息。MVAE采用了一種變分自編碼器的結(jié)構(gòu),包括編碼器、解碼器和假新聞檢測器模塊。通過學(xué)習(xí)概率潛變量模型,MVAE能夠?qū)⒉煌B(tài)的信息編碼成潛在的表示,這為任務(wù)提供了更靈活的信息表達(dá)方式。盡管相對于BERT+VGG+SVM,MVAE的精確率、召回率和F1值稍低,但它仍然表現(xiàn)出令人印象深刻的性能,尤其是在多模態(tài)任務(wù)中[21]。MVNN采用了不同的方法,它利用頻域子網(wǎng)絡(luò)和像素域子網(wǎng)絡(luò)的特征來對輸入圖像進(jìn)行分類。這種方法使MVNN在圖像分類任務(wù)上表現(xiàn)出色,其精確率、召回率和F1值都達(dá)到了90%以上。這顯示出了MVNN在圖像相關(guān)任務(wù)上的強(qiáng)大性能[22]。
盡管MVAE和MVNN是多模態(tài)模型,它們提供了更豐富的輸入數(shù)據(jù)表示,但在某些情況下,需要更復(fù)雜的模型結(jié)構(gòu)和訓(xùn)練策略,以便充分發(fā)揮它們的潛力。相反,BERT+VGG+SVM雖然只是串聯(lián)了文本信息和圖像信息,但它在性能上仍然勝過了這兩個多模態(tài)模型。這突顯了模型選擇的重要性,以確保最適合特定任務(wù)和數(shù)據(jù)集的性能。
綜上,虛假新聞檢測方式主要是基于用戶行為可信度的方法以及基于網(wǎng)絡(luò)傳播的方法,具體而言是利用手工特征、深度學(xué)習(xí)、循環(huán)神經(jīng)網(wǎng)絡(luò)等研究方法。由于虛假新聞的形式多樣化,僅基于虛假新聞自身語言特性的虛假新聞檢測模型不足以滿足現(xiàn)狀,文本和圖片為虛假新聞檢測提供相對側(cè)重、相輔相成的信息。在過去的研究中,已有學(xué)者使用單模態(tài)的方式進(jìn)行虛假新聞檢測。但單模態(tài)方法往往忽略了多模態(tài)信息之間的相互作用。虛假新聞的傳播往往涉及多元化的信息,因此,為更加全面地評估虛假新聞的真實(shí)性,學(xué)界開始探索多模態(tài)虛假新聞檢測的方法。鑒于此,基于多模態(tài)的虛假新聞檢測方法備受關(guān)注[23],如何有效提取各個模態(tài)的特征并進(jìn)行有效的融合是多模態(tài)虛假新聞檢測的核心。針對現(xiàn)有研究的局限性,筆者提出了一種基于BERT和VGG模型的多模態(tài)虛假新聞檢測方法。其中,BERT模型用于處理文本信息,VGG模型用于處理圖片信息,筆者將 BERT和 VGG兩個模型融合,提取虛假新聞的文本、圖像特征,以解決虛假新聞檢測問題。
2? 研究框架
BERT直接引用Transformer架構(gòu)中的Encoder模塊,舍棄Decoder模塊,自動擁有雙向編碼能力和強(qiáng)大的特征提取能力。VGG16采用連續(xù)的幾個小卷積核(3×3)代替Alex Net中的較大卷積核(11×11,7×7,5×5),卷積的固定步長為1,并在圖像的邊緣填充1個像素,這樣卷積后保持圖像的分辨率不變,在保證具有相同感知野的條件下,在一定程度上提升神經(jīng)網(wǎng)絡(luò)的效果?;诖?,對于搜集的虛假信息數(shù)據(jù)集,利用VGG模型生成圖片特征向量;利用BERT模型生成文本特征向量;通過向量拼接的方式將文本和圖片特征進(jìn)行特征融合后基于SVM模型設(shè)計(jì)分類器來自動鑒別新聞的真?zhèn)?,?shí)現(xiàn)多模態(tài)虛假新聞檢測。使用初步完成的多模態(tài)檢測模型進(jìn)行數(shù)據(jù)測試,分析測試效果,并根據(jù)效果對模型進(jìn)一步優(yōu)化。具體研究過程分為三個部分,如圖1所示:
(1)數(shù)據(jù)來源與處理。數(shù)據(jù)來源于中國科學(xué)院計(jì)算技術(shù)研究所舉辦的虛假新聞檢測挑戰(zhàn)賽中多模態(tài)虛假新聞檢測的測試集數(shù)據(jù),并將數(shù)據(jù)中包含的發(fā)布人信息、發(fā)布時間等冗余信息剔除。經(jīng)處理后的一條數(shù)據(jù)設(shè)為N=[T,V,Y],T代表新聞文本數(shù)據(jù),V代表新聞圖片數(shù)據(jù),Y為該條新聞的真實(shí)性標(biāo)簽,取值為{0,1},0表示真實(shí)新聞,1表示虛假新聞。
(2)模型構(gòu)建與特征提取。分別使用BERT模型和VGG16模型對處理后的文字新聞和圖片新聞進(jìn)行特征提取并融合,形成代表新聞數(shù)據(jù)的融合特征向量。
(3)結(jié)果檢測與分析。將獲得的新聞特征向量輸入SVM分類器實(shí)現(xiàn)多模態(tài)虛假新聞檢測,并選用精確率、召回率和F1值作為模型的評價(jià)指標(biāo),判斷建立的bert-vgg-svm多模態(tài)新聞檢測模型的優(yōu)劣,并對檢測結(jié)果進(jìn)行分析。
3? 模型構(gòu)建
本研究旨在基于社交媒體新聞中的文字和圖像數(shù)據(jù)使用,運(yùn)用深度學(xué)習(xí)方法構(gòu)建虛假新聞檢測模型,以此識別虛假新聞。該模型將 BERT與 VGG16相結(jié)合,融合文本和圖片特征對虛假新聞進(jìn)行識別,其中使用 BERT提取文本特征向量,VGG16提取圖片特征向量特征,經(jīng)過向量拼接后輸入 SVM中進(jìn)行虛假新聞判別,輸出為對應(yīng)的真假新聞標(biāo)簽,TRUE為真實(shí)新聞,F(xiàn)ALSE為虛假新聞。
3.1? 特征提取
3.1.1? 文本特征提取
文本特征在文本分析中起到重要作用,直接影響虛假新聞檢測的準(zhǔn)確率。對每一條新聞文本進(jìn)行預(yù)處理后,使用 BERT模型來提取文本特征,以捕捉文本中潛在的依存關(guān)系。BERT框架見圖2,通過查詢字向量表將文本中的每個字轉(zhuǎn)換為詞嵌入向量、句向量和位置向量的拼接結(jié)果,然后將其通過多層雙向Transformer編碼器,模型輸出則是輸入各字對應(yīng)的融合全文語義信息后的向量表示。
BERT 引入自注意力機(jī)制,聯(lián)合 Next Sentence Prediction和 Masked-LM進(jìn)行訓(xùn)練。模型在提取文本特征時,讀取 csv文件,輸入包含 s個詞匯的新聞文本數(shù)據(jù) T=(T1,T2,…,Ts),在倒數(shù)第二層輸出處理后的整個句子語義向量Tf,過程表示如公式(1)所示:
Tf=BERT(T)
Tf為 BERT模型在倒數(shù)第二層的向量輸出,也是文本數(shù)據(jù)最終的表示特征,共有 768維。
3.1.2? 圖像特征提取
人類大腦處理視覺信息的速度是處理文字信息的 6 000倍,視覺信息可以縮小溝通差距、幫助理解信息內(nèi)容、增強(qiáng)人類記憶。因此,模型同時融合圖像特征,采用在 ImageNet數(shù)據(jù)庫上訓(xùn)練的 VGG16模型提取圖像特征。由圖 3所示,VGG16由 13層卷積層和 3個全連接層組成,可以有效提取圖像特征。
由于新聞圖像數(shù)據(jù)大小不一,對其統(tǒng)一縮放后裁剪成規(guī)格為 224*224的區(qū)域,轉(zhuǎn)換成符合輸入的三通道圖片格式Vimg,再輸入 VGG16模型中進(jìn)行特征提取。過程表示如公式(2)所示:
Vf=VGG16(Vimg)
Vf為 VGG16模型在 fc7層的向量輸出,也是圖像數(shù)據(jù)最終的表示特征,共有4 096維。
3.2? 特征融合
特征融合即輸入兩個模態(tài)的特征向量,輸出融合后的向量。本模型采用向量拼接的方式,用Tf表示文本特征,用Vf表示圖像特征,融合后的新聞特征用F表示。過程表示如公式(3)所示:
F=Tf⊕Vf (TVf∈R4864)
如圖4所示,將提取出的新聞文本數(shù)據(jù)的特征向量Tf與新聞圖像數(shù)據(jù)的特征向量Vf 進(jìn)行融合,形成代表新聞數(shù)據(jù)的融合特征向量F。為了穩(wěn)定獲取新聞數(shù)據(jù)特征,將新聞數(shù)據(jù)分為真實(shí)新聞數(shù)據(jù)集和虛假新聞數(shù)據(jù)集,根據(jù)數(shù)據(jù)對應(yīng)的標(biāo)簽分別進(jìn)行訓(xùn)練,融合后的特征輸出至csv文件中儲存。
3.3? 模型分類
通過融合文本和圖像兩個單模態(tài)模型中的隱層特征,得到4 864維的多模態(tài)融合特征D'={TVf1, TVf2, …, TVfn}和其對應(yīng)的真假標(biāo)簽Label=[L1, L2, …, Ln]。這些特征和標(biāo)簽將作為下游分類器的輸入,經(jīng)過進(jìn)一步的特征組合訓(xùn)練實(shí)現(xiàn)對真假新聞概率上的判別。最后將未被訓(xùn)練的數(shù)據(jù)集輸入到訓(xùn)練好的分類模型,從而得到測試新聞的分類精度,完成對多模態(tài)新聞?wù)婕俚臋z測。在分類器模型的選擇中,優(yōu)先選擇scikit-learn包中的SVM(支持向量機(jī))作為特征融合后的分類器。
SVM是一種以統(tǒng)計(jì)學(xué)為基礎(chǔ)的線性分類器,被頻繁地應(yīng)用在二分類問題中。同時其表現(xiàn)出優(yōu)秀的泛化能力,在高維空間中非常有效。尤其是在特征維數(shù)大于樣本的情況下,可以將向量從低維空間映射到高維空間,效果要優(yōu)于其他傳統(tǒng)分類算法。它的主要思想是找到一個最優(yōu)的超平面來劃分不同類別的數(shù)據(jù)點(diǎn)。為了驗(yàn)證SVM的優(yōu)越性,同時選取GBDT(Gradient Boosting Decision Tree)分類模型進(jìn)行結(jié)果比對。
GBDT是一種基于決策樹的集成學(xué)習(xí)算法,它通過迭代的方式訓(xùn)練多個決策樹,并將它們組合成一個強(qiáng)分類器。GBDT算法的主要思想是通過迭代的方式訓(xùn)練多個弱分類器,每個弱分類器都嘗試去糾正之前分類器的誤差。在每一輪迭代中,GBDT算法都會新增一棵決策樹,并將它的預(yù)測結(jié)果與之前的分類器進(jìn)行加權(quán)組合,得到最終的預(yù)測結(jié)果。
在本文中,選擇GBDT作為對比算法的依據(jù)是因?yàn)镚BDT算法在處理非線性數(shù)據(jù)上具有很好的性能,并且可以自動進(jìn)行特征選擇。通過與SVM進(jìn)行對比,可以更全面地評估SVM算法在高維稀疏數(shù)據(jù)上的優(yōu)越性。同時,選取適當(dāng)?shù)膶Ρ人惴ㄒ灿兄隍?yàn)證實(shí)驗(yàn)結(jié)果的可靠性。
4? 實(shí)驗(yàn)與分析
4.1? 數(shù)據(jù)集
為保證數(shù)據(jù)的真實(shí)可靠,對新聞數(shù)據(jù)標(biāo)記真假;作為多模態(tài)的數(shù)據(jù)集,需要同時包含文本和圖片的新聞數(shù)據(jù)。數(shù)據(jù)集經(jīng)過篩選和初步實(shí)驗(yàn),確定選擇中國科學(xué)院計(jì)算技術(shù)研究所舉辦的虛假新聞檢測挑戰(zhàn)賽中多模態(tài)虛假新聞檢測賽道的數(shù)據(jù)。
虛假新聞多模態(tài)檢測任務(wù)中,包含文本和圖片兩種模態(tài)的數(shù)據(jù)。圖片模態(tài)包括“piclist”字段,表示該文本對應(yīng)的圖片,如果沒有,則該字段為空;如果有多張,則使用“ \ t ”進(jìn)行分隔。原始數(shù)據(jù)集由新聞文本數(shù)據(jù)以及相關(guān)的新聞圖像數(shù)據(jù)構(gòu)成。對于原始文本數(shù)據(jù),由于原始數(shù)據(jù)信息的復(fù)雜性和無序性,在數(shù)據(jù)處理過程中,會將其攜帶的冗余信息進(jìn)行剔除,可使用表情符號、URL、賬號信息和發(fā)布時間作為標(biāo)簽替換,對空白字符和繁體字符等其他特殊字符做轉(zhuǎn)換,保留剩余文字信息。對于新聞圖片數(shù)據(jù),新聞文本對應(yīng)的圖片類型不一,有GIF、JPG等,本文對新聞圖片數(shù)據(jù)的處理方法是將文本對應(yīng)的圖片統(tǒng)一為JPG格式,因?yàn)樾侣勚械膱D片有可能不止一個,本文統(tǒng)一將第一個圖片作為對應(yīng)的數(shù)據(jù)。
由于融合后的數(shù)據(jù)特征維數(shù)過大,為了防止數(shù)據(jù)集過小出現(xiàn)模型過擬合的風(fēng)險(xiǎn),因此訓(xùn)練數(shù)據(jù)集的大小應(yīng)和特征維數(shù)同量級。這里選擇2 200條真實(shí)數(shù)據(jù)和2 200條虛假數(shù)據(jù),共4 400條數(shù)據(jù)作為訓(xùn)練集;另選擇100條真實(shí)數(shù)據(jù)和300條虛假數(shù)據(jù),共400條數(shù)據(jù)作為測試集,如表1所示:
4.2? SVM模型參數(shù)調(diào)優(yōu)
由于本次實(shí)驗(yàn)的訓(xùn)練集維數(shù)即特征數(shù)很大,并接近于樣本數(shù),理論上應(yīng)該選擇線性核函數(shù)“Linear”來防止出現(xiàn)過擬合。為了保證實(shí)驗(yàn)結(jié)果的精準(zhǔn)性,采用五折交叉驗(yàn)算和網(wǎng)格搜索的方式來確定懲罰因子C及核函數(shù)kernel的最優(yōu)參數(shù)。懲罰因子C決定了分類器對誤分類樣本的懲罰程度,較小的C表示允許一些誤分類,較大的C表示不允許誤分類。網(wǎng)格搜索是一種通過在一定范圍內(nèi)不斷調(diào)整參數(shù)來尋找最優(yōu)參數(shù)的方法,而交叉驗(yàn)證則是一種通過將數(shù)據(jù)集劃分為訓(xùn)練集和測試集來評估模型性能的方法。通過設(shè)定一組候選的懲罰因子C和核函數(shù)kernel的參數(shù)組合,對于每一組參數(shù)組合,都使用五折交叉驗(yàn)證來評估該組合下的SVM模型的性能,最終選擇在驗(yàn)證集上表現(xiàn)最好的一組參數(shù)組合作為最優(yōu)參數(shù)。
具體實(shí)現(xiàn)過程為:定義懲罰因子C和核函數(shù)kernel的參數(shù)范圍,C=[0.01,0.1,1,10],kernel=[‘linear’, ‘rbf’, ‘sigmoid’]。將訓(xùn)練集數(shù)據(jù)分為5份。對于每一組參數(shù)組合,使用五折交叉驗(yàn)證來訓(xùn)練SVM模型,計(jì)算模型在驗(yàn)證集上的精度。將所有參數(shù)組合在五折交叉驗(yàn)證中的平均精度計(jì)算出來,選取平均精度最高的一組參數(shù)作為最優(yōu)參數(shù)。使用最優(yōu)參數(shù)訓(xùn)練SVM模型,并使用測試集來測試模型的性能。
最終,本次實(shí)驗(yàn)確定SVM模型的最佳核函數(shù)為預(yù)測的“Linear”,C為1。將 400條測試集輸入到訓(xùn)練好的分類模型中。隨著訓(xùn)練集樣本數(shù)由 2 000條增加至 4 400條,準(zhǔn)確度也逐漸提高。訓(xùn)練集所訓(xùn)練的模型測試分類精度由 0.84提高至0.93,效果遠(yuǎn)優(yōu)于 GBDT分類模型的分類精度 0.735。
4.3? 實(shí)驗(yàn)基線
本研究選擇4種基線模型來進(jìn)行虛假新聞檢測的任務(wù)。這4種基線模型包括:
BERT+SVM(單文本特征):筆者使用BERT預(yù)訓(xùn)練模型提取文本特征,并使用SVM分類器進(jìn)行分類。該模型只考慮了文本信息,并使用了SVM分類器進(jìn)行分類。
VGG+SVM(單圖片特征):筆者使用VGG預(yù)訓(xùn)練模型提取圖片特征,并使用SVM分類器進(jìn)行分類。該模型只考慮了圖片信息,并使用了SVM分類器進(jìn)行分類。
BERT+VGG+SVM(多模態(tài)分類):筆者使用BERT模型提取文本特征,使用VGG模型提取圖片特征,將兩個模型的特征向量拼接起來作為SVM模型的輸入,并使用SVM分類器進(jìn)行分類。該模型綜合了文本和圖片信息,并使用了SVM分類器進(jìn)行分類。
BERT+VGG+GBDT(多模態(tài)分類):筆者使用BERT預(yù)訓(xùn)練模型提取文本特征,使用VGG預(yù)訓(xùn)練模型提取圖片特征,并將兩者合并后使用GBDT分類器進(jìn)行分類。該模型綜合了文本和圖片信息,并使用了GBDT分類器進(jìn)行分類。
這4種基線模型的選擇是基于其代表性和效果評估。其中,BERT和VGG是當(dāng)前在文本和圖像領(lǐng)域最為流行和有效的預(yù)訓(xùn)練模型,而SVM和GBDT是分類問題中表現(xiàn)較為優(yōu)秀的分類器。筆者希望通過對這4種模型的對比,能夠更好地了解不同模型在虛假新聞檢測任務(wù)中的表現(xiàn)。
4.4? 評價(jià)指標(biāo)
為了檢驗(yàn)筆者提出的基于 ERT-VGG-SVM的多模態(tài)新聞檢測模型的優(yōu)劣,采用混淆矩陣(Confusion Matrix,CM)作為模型實(shí)驗(yàn)結(jié)果的評判指標(biāo)?;煜仃囈姽剑?)。0是真實(shí)新聞,1是虛假新聞。TP表示虛假新聞被預(yù)測為虛假新聞的數(shù)量;FN表示虛假新聞被預(yù)測為真實(shí)新聞的數(shù)量;FP表示真實(shí)新聞被預(yù)測為虛假新聞的數(shù)量;TN表示真實(shí)新聞被預(yù)測為真實(shí)新聞的數(shù)量。如圖5所示,TP和TN較大,F(xiàn)N和FP較小。
通過構(gòu)建單文本特征、單圖像特征以及 gdbt分類模型的基線模型,在同樣的數(shù)據(jù)集下,如公式(5)—(7)所示,通過混淆矩陣得到TP、TN、FP和FN,得出精確率(Precision,P)、召回率(Recall,R)和F1值(F1-score,F(xiàn)1)。
精確率表示模型預(yù)測為真實(shí)新聞的結(jié)果中,模型預(yù)測正確的比例,公式如下:
召回率表示真實(shí)新聞數(shù)據(jù)中模型預(yù)測正確的比例,公式如下:
F1值綜合精確率和召回率的結(jié)果,對二者進(jìn)行加權(quán)調(diào)和平均,公式如下:
4.5? 實(shí)驗(yàn)結(jié)果
各模型的預(yù)測分類結(jié)果見圖 6。綜合單文本特征識別結(jié)果和單圖像分類結(jié)果,從圖6中可以看出,單文本特征、單圖像特征在測試集上的精確率分別為86%、84%。單文本特征分類效果略優(yōu)于單圖像特征分類效果。結(jié)果表明,在新聞傳播過程中,文本相較于圖片更貼近人類情感,可以更為準(zhǔn)確地表達(dá)信息含義,傳遞新聞創(chuàng)造者的思想主旨,是虛假新聞檢測的主要依據(jù)。而圖像包含更多的特性,使得單圖像模型很難在不同類型的虛假新聞中提取相同的特征,所表達(dá)的信息內(nèi)容更為模糊,在情感傳遞過程中存在語義障礙,檢測過程中一般起到輔助的作用。與視覺特征相比,文本特征更具有可轉(zhuǎn)移性,從而提高單文本模型的性能。
對比單模態(tài)檢測結(jié)果和多模態(tài)檢測結(jié)果,實(shí)驗(yàn)得出多模態(tài)新聞檢測模型精確率、召回率均為93%,F(xiàn)1值為0.93。相較于單文本特征以及單圖像特征的單模態(tài)特征檢測來說,多模態(tài)新聞檢測模型在精確率、召回率和F1值上都是最優(yōu)的。由此可以推斷,多模態(tài)新聞檢測方法可以提高虛假新聞檢測的準(zhǔn)確性,對于文本和圖片表達(dá)情感有較大差異的情況,僅分析文本或僅分析圖片,都可能對檢測結(jié)果帶來干擾。在這種情況下,將文本與圖像的特征相結(jié)合,便能更加準(zhǔn)確識別新聞的真假。
此外,在多模態(tài)新聞檢測模型中,使用gdbt分類器的模型精確率結(jié)果為71%,使用SVM分類器精確率結(jié)果為93%,相較于gdbt分類器的基線模型高出22%。這也驗(yàn)證針對多樣本、高維數(shù)特征所選的分類器是合適的,在數(shù)據(jù)分類方面有更好的表現(xiàn)。綜合來看,多模態(tài)新聞檢測模型均優(yōu)于基準(zhǔn)模型,其優(yōu)點(diǎn)主要在于利用深度學(xué)習(xí)網(wǎng)絡(luò)將提取的文本特征和圖像特征融合后進(jìn)行統(tǒng)一識別,避免單一模態(tài)語義缺失的缺點(diǎn)。同時,利用支持向量機(jī)有效處理高維數(shù)據(jù)的特點(diǎn),增強(qiáng)分類器的泛化能力,解決了模型過擬合的問題,提高模型分類的精確率。
5? 結(jié)語
虛假新聞的泛濫傳播已成為一個全球性的社會問題,對公眾的認(rèn)知、社會輿論和政治經(jīng)濟(jì)等方面產(chǎn)生了重要影響。多模態(tài)虛假新聞檢測是一個新興的研究領(lǐng)域,其重要性和研究價(jià)值正在逐步被認(rèn)識和認(rèn)可,多模態(tài)虛假新聞檢測技術(shù)的研究和應(yīng)用,可有效地幫助公眾識別和避免虛假新聞的誤導(dǎo),維護(hù)社會公正、公平和穩(wěn)定。本研究基于多模態(tài)信息融合的思想,提出一種融合BERT和VGG模型的虛假新聞檢測方法。該方法將文本和圖像信息進(jìn)行有機(jī)結(jié)合,同時利用BERT模型學(xué)習(xí)文本特征和VGG模型學(xué)習(xí)圖像特征,以實(shí)現(xiàn)更加準(zhǔn)確和可靠的虛假新聞檢測。通過實(shí)驗(yàn)驗(yàn)證,本研究所提出的多模態(tài)虛假新聞檢測方法準(zhǔn)確率、召回率和F1值都優(yōu)于基準(zhǔn)模型,證明了該方法的有效性和可行性。
盡管本研究所提出的多模態(tài)虛假新聞檢測方法在性能和可解釋性方面都表現(xiàn)出較好的優(yōu)勢,但是仍存在一定的改進(jìn)空間。①由于圖片提取特征維數(shù)過多,可能存在一些冗余信息,延緩模型運(yùn)行速度,如何在兼顧準(zhǔn)確度和性能的條件下降低特征向量的維數(shù)是后續(xù)研究的重點(diǎn)之一。②文本特征與圖片特征的普通拼接很可能難以充分利用多模態(tài)之間的關(guān)聯(lián),從而對分類產(chǎn)生一定的干擾。在后續(xù)的研究中,將采用不同的特征融合方法,揭示其對模型性能的影響,更近一步地提高新聞檢測的準(zhǔn)確率。
未來可以從以下幾個方面進(jìn)行深入探究:①優(yōu)化模型的訓(xùn)練和調(diào)參方法,以進(jìn)一步提高檢測性能;②考慮更多的模態(tài)信息,如視頻和音頻等,以實(shí)現(xiàn)更全面的虛假新聞檢測;③結(jié)合領(lǐng)域知識,以更好地應(yīng)對虛假新聞檢測中的特殊場景和問題。
參考文獻(xiàn):
[1] 新華社.中國共產(chǎn)黨第二十次全國代表大會在京開幕 習(xí)近平代表第十九屆中央委員會向大會作報(bào)告[EB/OL]. [2023-01-22]. http: //www.gov.cn/xinwen/2022-10/16/content_5718884.htm. (Xinhua News Agency. Twentieth National Congress of the Communist Party of China opens in Beijing Xi Jinping reports to the Congress on behalf of the 19th Central Committee [EB/OL]. [2023-01-22]. http: //www.gov.cn/xinwen/2022-10/16/content_5718884.htm.)
[2] ALLCOTTH, GENTZKOW M. Social media and fake news in the 2016 election[J]. Journal of economic perspectives, 2017, 31(2): 211-36.
[3] 劉賞, 沈逸凡.基于新聞標(biāo)題—正文差異性的虛假新聞檢測方法[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(2): 97-107. (LIU S, SHEN Y F. Fake news detection method based on news title-text variability[J]. Data analysis and knowledge discovery, 2023, 7(2): 97-107.)
[4] VOSOUGHIS, ROY D, ARAL S. The spread of true and false news online[J]. science, 2018, 359(6380): 1146-1151.
[5] GUO C, CAO J, ZHANG X, et al. Dean: learning dual emotion for fake news detection on social media[J]. arXiv e-prints, 2019: arXiv: 1903.01728.
[6] RUCHANSKY N, SEOS, LIU Y. CSI: a hybrid deep model for fake news detection[C]//Proceedings of the 2017 ACM on conference on information and knowledge management. New York: ACM, 2017: 797-806.
[7] 刁海倫, 王樹義, 王楠.基于多主體的微博網(wǎng)絡(luò)虛假信息的集中甄別方法研究[J]. 情報(bào)科學(xué), 2016, 34(2): 37-44. (DIAO H L, WANG S Y, WANG N. Research on centralised screening method of microblogging network false information based on multi-subjects[J]. Information science, 2016, 34(2): 37-44.)
[8] ZHOU P, HAN X, MORARIU VI, et al. Learning rich features for image manipulation detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Salt Lake City: IEEE, 2018: 1053-1061.
[9] BOIDIDOU C, READOU K, PAPADOPOULOS S, et al. Verifying multimedia use at mediaeval 2015[M]//MediaEval 2015. Wurzen: CEUR-WS, 2015: 1436.
[10] JIN Z, CAO J, ZHANG Y, ET AL. Novel visual and statistical image features for microblogs news verification[J]. IEEE transactions on multimedia, 2016, 19(3): 598-608.
[11] LIU Y, WU Y F. Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks[C]//Proceedings of the AAAI conference on artificial intelligence. New Orleans: AAAI, 2018: 354-361.
[12] MIAN A, KHAN S. Coronavirus: the spread of misinformation[J]. BMC medicine, 2020, 18(1): 1-2.
[13] 汪超.基于多模態(tài)融合的虛假新聞檢測算法研究[D]. 安徽: 安徽理工大學(xué), 2022. (WANG C. Research on false news detection algorithm based on multimodal fusion[D]. Anhui: Anhui University of Science & Technology, 2022.)
[14] PENG Q, JUAN C, TIANYUN Y, et al. Exploiting multi-domain visual information for fake news detection[C]//2019 IEEE international conference on data mining (ICDM). Beijing: IEEE, 2019: 518-527.
[15] 陶霄, 朱焱, 李春平.基于注意力與多模態(tài)混合融合的謠言檢測方法[J]. 計(jì)算機(jī)工程, 2021, 47(12): 71-77. (TAO X, ZHU Y, LI C R. Rumour detection method based on attention and multimodal hybrid fusion[J]. Computer engineering, 2021, 47(12): 71-77.)
[16] KALIYAR R K, GOSWAMI A, NARANG P, et al. FNDNet–A deep convolutional neural network for fake news detection[J]. Cognitive systems research, 2020, 61: 32-44.
[17] DEEPAK S, CHITTURI B. Deep neural approach to Fake-News identification[J]. Procedia computer science, 2020, 167: 2236-2243.
[18] GOLDANI M H, SAFABAKHSH R, MOMTAZI S. Convolutional neural network with margin loss for fake news detection[J]. Information processing & management, 2021, 58(1): 102418.
[19] SAHOO S R, Gupta B B. Multiple features based approach for automatic fake news detection on social networks using deep learning[J]. Applied soft computing, 2021, 100: 106983.
[20] HAKAK S, ALAZAB M, KHAN S, et al. An ensemble machine learning approach through effective feature extraction to classify fake news[J]. Future generation computer systems, 2021, 117: 47-58.
[21] KHATTAR D, GOUD J S, GUPTA M, et al. Mvae: Multimodal variational autoencoder for fake news detection[C]//The world wide Web conference. New York: Association for Computing Machinery, 2019: 2915-2921.
[22] QI P, CAO J, YANG T, et al. Exploiting multi-domain visual information for fake news detection[C]//2019 IEEE international conference on data mining (ICDM). Beijing: IEEE, 2019: 518-527.
[23] 亓鵬, 曹娟, 盛強(qiáng).語義增強(qiáng)的多模態(tài)虛假新聞檢測[J]. 計(jì)算機(jī)研究與發(fā)展, 2021, 58(7): 1456-1465. (QI P, CAO J, SHENG Q. Semantic enhancement for multimodal fake news detection[J]. Journal of computer research and development, 2021, 58(7): 1456-1465.)
作者貢獻(xiàn)說明:
曾江峰:提出研究思路,設(shè)計(jì)研究方案;
王? 蕊:撰寫論文;
黎欣雨:爬取、采集、清洗和分析數(shù)據(jù);
馬? 霄:負(fù)責(zé)進(jìn)行實(shí)驗(yàn)。
Research on Multimodal Fake News Detection Method Based on BERT and VGG Models
Zeng Jiangfeng1? Wang Rui1? Li Xinyu2? Ma Xiao2
1School of Information Management, Central China Normal University, Wuhan 430079
2School of Information and Security Engineering, Zhongnan University of Economics and Law, Wuhan 430073
Abstract: [Purpose/Significance] The aim is to solve the current problems of the proliferation of fake news, low accuracy and low intelligence of automatic fake news detection by integrating BERT and VGG models. [Method/Process] BERT and VGG models were uesd to separate the graphics and texts in the news and convert them into feature vector sets, and the feature fusion was carried out. The SVM model was used to design a classifier to achieve multi-modal fake news detection and identification. [Result/Conclusion] The empirical result shows that the F1 value of the experimental dataset reaches 93%, which is 7 percentage points and 9 percentage points higher than that of the BERT and VGG models alone, indicating that the combination of the two models has good detection accuracy and recall rate, and can effectively detect fake news.
Keywords: fake news detection? ? feature extraction? ? feature fusion? ? multimodal analysis
基金項(xiàng)目:教育部人文社會科學(xué)研究項(xiàng)目青年基金項(xiàng)目“情境大數(shù)據(jù)驅(qū)動的社交媒體虛假信息識別模型與治理策略研究”(項(xiàng)目編號:21YJC870002)、湖北省自然科學(xué)基金一般面上項(xiàng)目“基于多層語義融合的多模態(tài)社交媒體虛假信息檢測研究”(項(xiàng)目編號:2023AFB1018)和武漢市知識創(chuàng)新專項(xiàng)項(xiàng)目曙光計(jì)劃項(xiàng)目“多源知識驅(qū)動的社交媒體虛假新聞檢測研究”(項(xiàng)目編號:2022010801020287)研究成果之一。
作者簡介:曾江峰,講師,博士;王蕊,博士研究生,通信作者,E-mail:471133151@qq.com;黎欣雨,碩士研究生;馬霄,講師,博士。
收稿日期:2023-08-29? ? ? ? 發(fā)表日期:2023-12-21? ? ? ? 本文責(zé)任編輯:劉遠(yuǎn)穎