王 繁,郭軍軍,余正濤
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
微博用戶量急劇增加,信息發(fā)布門檻低,網(wǎng)絡(luò)運(yùn)營平臺缺乏及時、有效的監(jiān)督機(jī)制,使得虛假信息、網(wǎng)絡(luò)謠言等充斥網(wǎng)絡(luò)。謠言借助微博獨(dú)有的特點(diǎn)進(jìn)行廣泛傳播,對社會、企業(yè)和個人都造成了極大的不良影響?;谖⒉?shù)據(jù)的謠言檢測,通過挖掘微博中的有效特征,開發(fā)準(zhǔn)確的檢測和干預(yù)技術(shù)有助于緩解謠言傳播的負(fù)面影響。
謠言具有特殊性,為有意誤導(dǎo)讀者而撰寫的,也可能摻雜著真實(shí)內(nèi)容而導(dǎo)致文本特征不足,因此單從新聞內(nèi)容很難辨別真假。如圖1所示,深色用戶評論信息具有來自社交媒體人群的豐富信息,包括觀點(diǎn)、立場和情緒,對謠言的發(fā)現(xiàn)和甄別具有一定的指導(dǎo)意義;淺色用戶評論信息對微博謠言判定并沒有影響,有的甚至毫不相關(guān),因此用戶評論的質(zhì)量不同對謠言的判定所起作用也不同。目前國內(nèi)外研究人員針對謠言的檢測主要通過探索新聞?wù)奈谋咎卣骱陀脩羯缃画h(huán)境實(shí)現(xiàn)。Ruchansky等人[1]使用混合的深度學(xué)習(xí)框架同時對新聞文本、用戶響應(yīng)和用戶特征進(jìn)行建模,為假新聞檢測提供了全新的思路;Guo等人[2]利用神經(jīng)網(wǎng)絡(luò)對用戶評論進(jìn)行層次化建模,以檢測用戶的虛假評論;Wu等人[3]通過對抗網(wǎng)絡(luò)從新聞內(nèi)容的語義信息中捕獲差異化的可信度特征,并將其融合以獲取信息可信度評估。但是,這些方法對社交媒體數(shù)據(jù)之間的關(guān)聯(lián)性信息利用不足,用戶評論信息參差不齊,內(nèi)含的噪聲信息會對謠言檢測帶來影響。此外,建立多任務(wù)聯(lián)合學(xué)習(xí)模型來訓(xùn)練2個任務(wù)是提高網(wǎng)絡(luò)謠言檢測效果的一種有效而新穎的方法。Kochkina等人[4]提出的方法模擬了2個任務(wù)之間的信息共享和表示強(qiáng)化,為每個任務(wù)擴(kuò)展了有價值的特征;Wu等人[5]通過過濾共享特征并作用于特定任務(wù),實(shí)現(xiàn)假新聞檢測。然而典型的多任務(wù)學(xué)習(xí)方法中,共享特征未經(jīng)篩選就平等地用到各任務(wù)中,導(dǎo)致一些無用特征干擾甚至誤導(dǎo)檢測。如何既考慮微博正文與用戶評論之間的聯(lián)系,又考慮它們之間的差別,同時過濾和選擇用戶評論中的關(guān)鍵特征以提高謠言檢測準(zhǔn)確率,是當(dāng)前微博謠言檢測任務(wù)亟待解決的難題之一。本文期望通過多任務(wù)聯(lián)合學(xué)習(xí)的方式利用用戶評論的有效特征指導(dǎo)模型進(jìn)一步提升分類效果。
Figure 1 Relevance and difference between microblog content and user comments圖1 微博正文與用戶評論的關(guān)聯(lián)與差異
本文設(shè)計了一種帶有過濾機(jī)制的多任務(wù)聯(lián)合學(xué)習(xí)方法,從微博正文和用戶評論的角度,通過引入共享特征過濾選擇機(jī)制丟棄無效特征和選擇有利特征來提升謠言檢測的性能。此外,為了更好地捕獲遠(yuǎn)程依賴關(guān)系并提高模型的并行度,本文還應(yīng)用Transformer編碼器模塊[6]對2個任務(wù)的輸入表示進(jìn)行編碼。實(shí)驗(yàn)結(jié)果表明,該方法的性能優(yōu)于基線方法,在微博謠言檢測中初步取得了較好的結(jié)果。本文的主要貢獻(xiàn)如下:
(1)提出一種多任務(wù)選擇和信息過濾機(jī)制實(shí)現(xiàn)多任務(wù)融合,設(shè)計了一個融合用戶評論篩選的多任務(wù)聯(lián)合學(xué)習(xí)模型,并首次引入用戶評論相關(guān)性檢測作為輔助任務(wù)來改善最終檢測性能。
(2)提出的模型通過門控機(jī)制和注意力機(jī)制來過濾和選擇多任務(wù)間的共享特征流實(shí)現(xiàn)對用戶評論的有效篩選,從而提升模型的檢測效果。
基于3萬條真實(shí)微博謠言檢測數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),對本文方法的性能進(jìn)行全面評估。實(shí)驗(yàn)結(jié)果表明,本文方法對微博謠言檢測是有效的。
檢測的目標(biāo)是在早期或者使用可解釋的因素有效地識別錯誤信息。謠言檢測最直接的方法就是檢查文本中主要內(nèi)容的真實(shí)性,以判斷事件的真實(shí)性。目前謠言檢測方法大多是基于新聞內(nèi)容和社交環(huán)境[7],包括文本特征、用戶信息和用戶響應(yīng)等。
基于文本特征的方法旨在充分挖掘新聞內(nèi)容特征,主要包括新聞文本、標(biāo)題、圖片和視頻特征等。Potthast等人[8]探索了極端片面新聞與假新聞之間的寫作風(fēng)格,提出一種評估文本相似性的方法;Guo等人[9]認(rèn)為由人群引發(fā)的新聞評論情緒(社會情緒)在謠言檢測中也起著重要作用,提出了一種雙重情感特征框架來挖掘出版者情緒與社會情緒之間的關(guān)系。另外,典型的假新聞檢測被認(rèn)為是一個文本分類問題,探索潛在的文本層次結(jié)構(gòu)[10 - 12]可能促進(jìn)假新聞的檢測。Karimi等人[11]提出一種分層的文本層次結(jié)構(gòu)來探討真實(shí)新聞與假新聞之間的層次結(jié)構(gòu)差異;Wang等人[12]提供了一個新的、公開的假新聞數(shù)據(jù)集并設(shè)計了一種新的混合卷積神經(jīng)網(wǎng)絡(luò)來整合元數(shù)據(jù)和文本。隨著計算機(jī)視覺CV(Computer Vision)和自然語言處理NLP(Natural Language Processing)領(lǐng)域的迅速發(fā)展,Abavisani等人[13]提出了多模態(tài)融合方法,引入交叉注意力模塊結(jié)合圖像和文本信息實(shí)現(xiàn)檢測任務(wù),從視覺元素中提取視覺特征,以捕獲假新聞的不同特征,可以很好地檢測帶有部分真實(shí)新聞內(nèi)容的虛假新聞。
Figure 2 Framework of multi-task joint rumor detection method combined with comments圖2 融合評論的多任務(wù)聯(lián)合謠言檢測方法框架
基于社交環(huán)境的方法旨在利用用戶社交活動作為輔助信息來進(jìn)行網(wǎng)絡(luò)謠言檢測。用戶在社交媒體平臺上的活動可以衍生出很多的社交語境特征,主要有基于用戶的特征、基于網(wǎng)絡(luò)的特征和基于響應(yīng)的特征??梢伞⒌涂尚哦扔脩舻奶卣鞲啾憩F(xiàn)為:賬號未經(jīng)驗(yàn)證,賬號創(chuàng)建時間較短,用戶描述長度較短。從用戶配置文件中提取用戶特征[14,15]是一種假新聞檢測的有效手段。Lu等人[16]基于用戶個人信息特征構(gòu)建圖感知共同注意網(wǎng)絡(luò)來提升謠言檢測性能?;诰W(wǎng)絡(luò)的特征是通過構(gòu)造特定的網(wǎng)絡(luò)來提取的,例如交互網(wǎng)絡(luò)[17]和傳播網(wǎng)絡(luò)[18,19]。Shu等人[17]利用出版社、新聞和用戶之間的三元關(guān)系搭建交互網(wǎng)絡(luò)實(shí)現(xiàn)假新聞分類;Monti等人[18]提出了利用幾何深度學(xué)習(xí)來學(xué)習(xí)假新聞中的特定傳播模式的方法;Shu等人[19]探索、驗(yàn)證了真、假新聞分層傳播網(wǎng)絡(luò)的結(jié)構(gòu)、時間和語言特點(diǎn)。
基于響應(yīng)的特征代表了用戶的社會反應(yīng),包括立場和話題等。段大高等人[20]從微博評論的角度定義支持性、置信度和內(nèi)容相關(guān)性3個特征來構(gòu)建支持向量機(jī)算法判別消息真?zhèn)?;Shu等人[21]開發(fā)了文本評論聯(lián)合注意網(wǎng)絡(luò),通過建立新聞句子和用戶評論之間的相互影響來學(xué)習(xí)特征表示,并通過注意權(quán)重來學(xué)習(xí)句子和評論的可解釋程度;Wu等人[22]提出了一種自適應(yīng)交融網(wǎng)絡(luò)實(shí)現(xiàn)文本和評論之間的情感聯(lián)想和語義沖突的交互融合,建立特征關(guān)聯(lián)以提高謠言檢測的性能。但是,以上方法都只注重對用戶評論特征的挖掘及交互融合,忽略了用戶評論質(zhì)量對謠言檢測也具有一定的影響,甚至?xí)霟o用甚至負(fù)面的特征誤導(dǎo)檢測結(jié)果。
不同于上述已有方法,本文從評論信息有效利用的角度實(shí)現(xiàn)微博謠言檢測,首次提出了一種融合評論的篩選多任務(wù)聯(lián)合學(xué)習(xí)方法,融合用戶評論的同時采用門控和注意力機(jī)制有效地過濾和選擇用戶評論特征,以提高微博謠言檢測性能。
針對用戶評論信息差異較大,評論質(zhì)量影響謠言檢測性能的問題,本文提出一個融合評論的多任務(wù)聯(lián)合學(xué)習(xí)方法CMT-G&A(Comment Multi-task-Gate & Attention),其框架如圖2所示。該方法主要包括4個模塊,分別是微博正文-用戶評論編碼模塊、正文-評論交叉注意力模塊、共享特征層篩選模塊和事件預(yù)測模塊。
3.2.1 微博正文編碼模塊
微博正文編碼模塊用于提取微博正文的文本特征。設(shè)E1為某一事件下的一條微博正文,每條正文長度為l1,C={c1,c2,…,cN}是一組響應(yīng)E1的用戶評論,每條用戶評論長度為l2。本文使用Transformer編碼模塊[6]對微博正文特征嵌入進(jìn)行編碼。為了能夠利用詞在序列中的位置信息,在編碼模塊中將位置編碼添加到詞嵌入表征中,它與詞嵌入表征具有相同的維數(shù)。編碼模塊核心是自注意力機(jī)制,具體如式(1)~式(3)所示:
ECon=E(x1,x2,…,xn)
(1)
ECon=Q=K=V
(2)
(3)
相較于僅執(zhí)行單一的注意力,本文使用不同的權(quán)重矩陣將輸入信息投影到多個不同的向量空間(注意力頭數(shù)),共同關(guān)注來自不同位置的不同表示子空間的信息是有益的,也即多頭注意力。多頭注意力通過不同的線性投影對Q、K和V進(jìn)行h次線性投影,然后對h次投影結(jié)果并行執(zhí)行縮放點(diǎn)積注意計算,最后將這些注意結(jié)果串聯(lián)起來再次獲得新的表示。多頭注意力可以使參數(shù)矩陣形成多個子空間,讓矩陣學(xué)習(xí)多方面的信息。如式(4)和式(5)所示:
(4)
HCon=MultiHead(Q,K,V)=
Concat(head1,head2,…,headh)WO
(5)
3.2.2 用戶評論編碼模塊
用戶評論編碼模塊與微博正文編碼模塊相似,都采用Transformer編碼模塊[6]對用戶評論特征嵌入進(jìn)行編碼,如式(6)~式(8)所示:
ECom=E(x1,x2,…,xn)
(6)
ECom=Q=K=V
(7)
HCom=Transformer_encoder(Q,K,V)
(8)
其中,ECom為用戶評論輸入文本的詞嵌入表征;Q,K,V∈Rl2×d分別為查詢向量、鍵向量和值向量;HCom∈Rl2×d為用戶評論編碼模塊的輸出。
用戶評論包含一些針對微博正文的有用信息,能對謠言的檢測起到促進(jìn)作用。為了融合用戶評論信息來促進(jìn)謠言檢測,本文仍采用Transformer編碼模塊[6]來提取正文-評論交叉注意力特征。不同之處在于該體系結(jié)構(gòu)中,查詢向量Q是微博正文編碼模塊的輸出HCon,而鍵向量K和值向量V是用戶評論編碼模塊的輸出HCom,如式(9)和式(10)所示:
headi=
(9)
HShared=MultiHead(QCon,KCom,VCom)=
Concat(head1,head2,…,headh)WO
(10)
用戶評論大多是根據(jù)微博事件而產(chǎn)生的,在判斷用戶評論是否與該微博事件相關(guān)的過程中,微博正文特征的使用能夠有效促進(jìn)用戶評論相關(guān)性檢測。為了根據(jù)特定任務(wù)選擇有價值的和合適的特征,本文在共享層后面設(shè)計了一個特征篩選模塊。共享特征篩選模塊由2個單元組成,如圖3所示,分別為門控篩選單元和注意力篩選單元。門控篩選單元用于過濾一些無用特征,注意力篩選單元用于關(guān)注用戶評論相關(guān)性檢測任務(wù)中有價值的共享特征。
Figure 3 Module of shared feature screening圖3 共享特征篩選模塊
門控單元采用一個單一的門控單元過濾共享特征中無用的特征。與LSTM(Long Short-Term Memory)[24]的遺忘門機(jī)制相似,其共享特征通過sigmoid激活函數(shù)作為一種門控狀態(tài),再與共享特征進(jìn)行點(diǎn)乘運(yùn)算通過tanh激活函數(shù)作為當(dāng)前狀態(tài)的輸出,如式(11)和式(12)所示:
g=δ(W·HShared+b)
(11)
G=tanh(g⊙HShared)
(12)
其中,HShared∈Rl1×d為2個任務(wù)的共同特征;g∈Rl1×d為門控共享單元狀態(tài);G∈Rl1×d為共享特征HShared經(jīng)過門控機(jī)制過濾后的特征;W∈Rl1d×l1d和b∈Rl1×d為可訓(xùn)練的參數(shù);δ為sigmoid激活函數(shù);⊙表示點(diǎn)乘操作。
注意力篩選單元以HShared作為輸入同樣采用transformer編碼模塊[6]來獲得更加有用的特征,如式(13)~式(15)所示:
HShared=Q=K=V
(13)
AShared=Transformer_encoder(Q,K,V)
(14)
FCom=G⊕AShared
(15)
其中,Q=K=V∈Rl1×d;AShared∈Rl1×d為共享特征HShared經(jīng)過注意力機(jī)制選擇后的特征。最后將過濾后的輸出特征G與經(jīng)過選擇后的輸出特征AShared相加作為共享特征層篩選模塊的輸出FCom。
用戶評論編碼模塊提取的特征與共享特征層篩選模塊的輸出特征進(jìn)行拼接后,本文應(yīng)用softmax函數(shù)分別實(shí)現(xiàn)對不同任務(wù)的分類,給出特定任務(wù)的概率分布預(yù)測,如式(16)~式(18)所示:
(16)
(17)
F1=[FCom;HCom]
(18)
得到用戶評論相關(guān)性檢測任務(wù)和謠言檢測任務(wù)的預(yù)測后,對模型進(jìn)行訓(xùn)練以最小化所有任務(wù)的預(yù)測和真實(shí)分布的交叉熵,如式(19)和式(20)所示:
(19)
(20)
其中,ζ為2個任務(wù)損失的加權(quán)和,λi為平衡損失參數(shù),ycon為微博正文的真實(shí)標(biāo)簽,ycom為用戶評論相關(guān)性真實(shí)標(biāo)簽。
本文使用的數(shù)據(jù)集是從新浪微博平臺獲取的2020年疫情相關(guān)的熱門微博,共201條謠言微博及11 233條用戶評論,378條真實(shí)微博及20 334條用戶評論。在實(shí)際生活中,正常信息量通常遠(yuǎn)大于謠言信息量,因此在構(gòu)建疫情數(shù)據(jù)集時真實(shí)信息與謠言信息的比例大概為2∶1。謠言微博的選取主要以新浪微博上的微博小助手官方辟謠平臺為依據(jù),挑選其中轉(zhuǎn)發(fā)數(shù)超過50、評論數(shù)超過20的熱門微博,經(jīng)過篩選與預(yù)處理后形成json格式文件。數(shù)據(jù)收集完成后,首先對微博事件標(biāo)注標(biāo)簽,1為謠言微博,0為真實(shí)微博;然后針對某一個微博事件下的所有評論,同樣標(biāo)注標(biāo)簽,1表示該條用戶評論與微博描述的事件相關(guān),0表示與微博描述的事件不相關(guān)。
數(shù)據(jù)其它預(yù)處理主要包括:(1)去除文本內(nèi)容中的多余符號、超鏈接和特殊字符;(2)去除微博中相同的用戶評論信息。
本文使用準(zhǔn)確率(A)、精確度(P)、召回率(R)和F1分?jǐn)?shù)(F1)對謠言識別結(jié)果進(jìn)行評價。
模型的超參數(shù)配置方面,本文通過預(yù)先訓(xùn)練的搜狗新聞?wù)Z料庫[23]來表示微博正文和用戶評論一個字(詞)的300維詞嵌入,這是一個包含36萬字/詞的搜狗新聞預(yù)訓(xùn)練語料庫。將微博正文和用戶評論進(jìn)行jieba分詞處理后,將處理完成的字或詞構(gòu)建詞典,最后通過構(gòu)建的詞典依次提取預(yù)訓(xùn)練詞向量,其中作者把微博正文和用戶評論構(gòu)建為一個詞典。微博正文-用戶評論編碼模塊、正文-評論交叉注意力模塊和共享特征層篩選模塊中的Transformer編碼模塊[6]頭數(shù)設(shè)置為2,最長用戶評論長度設(shè)置為30,最長微博正文長度設(shè)置為60,對于長度不足的采用0向量填充。數(shù)據(jù)批次設(shè)置為64,詞表大小設(shè)置為20 000,學(xué)習(xí)率設(shè)為5e-5,學(xué)習(xí)率衰減為0.9,dropout為0.5,參數(shù)采用Adam優(yōu)化器[25]更新。用戶評論相關(guān)性檢測任務(wù)損失平衡參數(shù)λ1=0.4,謠言檢測任務(wù)損失平衡參數(shù)λ2=0.6。本文將數(shù)據(jù)集分割為訓(xùn)練集、驗(yàn)證集和測試集,分別包含24 173,3 614和3 780條用戶評論。
為了驗(yàn)證融合評論的多任務(wù)聯(lián)合學(xué)習(xí)模型對微博謠言檢測任務(wù)的有效性,本文采用幾種非常典型的分類模型來比較編碼方式的差異性。另外,本文還將CMT-G&A與當(dāng)前最先進(jìn)的方法進(jìn)行比較。
為了更加公平地比較,本文設(shè)置學(xué)習(xí)率、微博正文和用戶評論長度、dropout等參數(shù)與主模型一致;LSTM與GRU隱藏向量大小使用最佳性能參數(shù),設(shè)置為128;CNN卷積核數(shù)量設(shè)置為256,卷積核尺寸為(2,3,4)。本文使用的基線模型具體如下所示:
(1)BGRU(Bi-directional Gate Recurrent Unit):將微博正文和用戶評論分別通過雙向GRU[26]提取文本特征表示,用戶評論特征不經(jīng)過過濾直接參與評論相關(guān)性檢測輔助任務(wù),用戶評論特征與微博正文特征拼接后作為共享特征經(jīng)過全連接層來實(shí)現(xiàn)謠言檢測主任務(wù)預(yù)測。
(2)BLSTM(Bi-directional Long Short-Term Memory):將微博正文和用戶評論分別通過雙向LSTM[26]提取文本特征表示,用戶評論特征直接參與評論相關(guān)性檢測輔助任務(wù),用戶評論特征與微博正文特征拼接后作為共享特征經(jīng)過全連接層進(jìn)行謠言檢測主任務(wù)預(yù)測。
(3)RCNN (Region-CNN):將微博正文和用戶評論分別通過雙向GRU[26,27]提取文本特征,通過最大池化分別對兩者特征進(jìn)行降維,用戶評論直接通過全連接層進(jìn)行評論相關(guān)性檢測輔助任務(wù),用戶評論與微博正文特征拼接后作為共享特征經(jīng)過全連接層進(jìn)行謠言檢測主任務(wù)預(yù)測。
(4)BLSTM-ATT(Bi-directional Long Short-Term Memory ATTention): 將微博正文和用戶評論分別通過雙向LSTM[26]提取文本特征,通過注意力機(jī)制[28]關(guān)注各自任務(wù)目標(biāo)更關(guān)鍵的信息,抑制其他無用信息,用戶評論與微博正文特征拼接后作為共享特征經(jīng)過全連接層進(jìn)行謠言檢測主任務(wù)預(yù)測。
(5)BGRU-ATT(Bi-directional Gate Recurrent Unit ATTention): 將微博正文和用戶評論分別通過雙向GRU[26,27]提取文本特征,通過注意力機(jī)制[28]關(guān)注各自任務(wù)目標(biāo)更關(guān)鍵的信息,共享特征經(jīng)過全連接層進(jìn)行謠言檢測任務(wù)預(yù)測。
(6)CMT(Comment Multi-Task):首先將微博正文和用戶評論分別通過微博正文-用戶評論編碼模塊提取各自文本特征;再通過正文-評論交叉注意力模塊提取共享特征進(jìn)行謠言檢測主任務(wù)預(yù)測;最后共享特征不經(jīng)過共享特征篩選模塊而是直接與用戶評論拼接后進(jìn)行用戶評論相關(guān)性輔助任務(wù)預(yù)測。
(7)MT-trans-G-A(Multi-Task-Gate-Attention):Wu等人[5]設(shè)計的多任務(wù)共享特征篩選框架,引入位置檢測任務(wù)和虛假新聞檢測任務(wù)來檢測假新聞。
(8)dEFEND(Explainable Fake News Detection):Shu等人[21]開發(fā)了正文評論聯(lián)合注意網(wǎng)絡(luò),通過建立新聞句子和用戶評論之間的相互聯(lián)系去學(xué)習(xí)特征表示,并通過注意權(quán)重學(xué)習(xí)句子和評論的可解釋程度。
(9)CMT-G&A:在CMT模型基礎(chǔ)上通過加入門控機(jī)制和注意力機(jī)制來過濾和選擇共享特征,以實(shí)現(xiàn)對微博謠言的檢測,為本文所提的主要模型。
從表1所述的模型實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),本文基線模型CMT的準(zhǔn)確率、精確率和F1值都超過了其他所有基線模型,表明其他基線模型在融合用戶評論的謠言檢測任務(wù)中預(yù)測效果略有不足;而基線模型CMT引入Transformer編碼模塊[6]對2個任務(wù)的輸入進(jìn)行編碼,利用其長距離依賴和并行性,提高了模型的性能,表明了本文模型編碼方式的有效性;當(dāng)前較先進(jìn)模型中,MT-trans-G-A的準(zhǔn)確率、精確率、召回率和F1值相比本文主要模型的要低,其原因可能是MT-trans-G-A更加注重多任務(wù)間共享特征的篩選,忽略了用戶評論特征,而用戶評論特征對提升謠言檢測任務(wù)性能更加有效;dEFEND則表現(xiàn)出了更好的預(yù)測結(jié)果,表明共同注意力能很好地挖掘微博正文和用戶評論的關(guān)聯(lián)性,相比本文主要模型結(jié)果較低的原因是微博用戶量更大、用戶評論數(shù)據(jù)更加嘈雜,評論質(zhì)量是關(guān)鍵因素。CMT-G&A在引入門控機(jī)制和注意力機(jī)制后預(yù)測性能有很好的提升,相較于CMT準(zhǔn)確率提升了6.1%,精確率提升了17.7%及F1值提升了7.7%。但是,召回率卻低于基線模型,原因可能是本文為了更好地模擬真實(shí)場景,數(shù)據(jù)集構(gòu)建過程中謠言事件相較于真實(shí)事件更少,導(dǎo)致模型更加偏向于預(yù)測真實(shí)事件;同時分詞錯誤也是影響模型性能的重要因素,由于分詞錯誤導(dǎo)致模型無法準(zhǔn)確識別很多關(guān)鍵詞的類別,進(jìn)而影響模型預(yù)測結(jié)果。本文模型在另外3個性能指標(biāo)上都達(dá)到了最優(yōu)結(jié)果,表明本文模型是有效的。
Table 1 Performance comparison of baseline models
本文為了驗(yàn)證不同模塊的有效性,將CMT-G&A模型分解成幾個簡化的模型,評價指標(biāo)的得分情況如表2所示,最優(yōu)結(jié)果用粗體表示。簡化模型具體如下所示:
(1)S-task:只將微博正文通過Transformer編碼[6]提取文本特征進(jìn)行謠言檢測主任務(wù)預(yù)測,用戶評論相關(guān)性檢測任務(wù)不參與模型訓(xùn)練。
(2)CMT-G:與CMT的不同之處在于,先將通過門控機(jī)制過濾無關(guān)特征后的共享特征與用戶評論特征拼接,然后再進(jìn)行用戶評論相關(guān)性檢測輔助任務(wù)預(yù)測。
(3)CMT-A:與CMT的不同之處在于,先將通過多頭注意力機(jī)制選擇有效特征后的共享特征與用戶評論特征進(jìn)行拼接,然后再進(jìn)行用戶評論相關(guān)性檢測輔助任務(wù)預(yù)測。
Table 2 Experimental results of simplified models
表2展示了模型CMT-G&A與簡化模型的實(shí)驗(yàn)結(jié)果。CMT-G&A的結(jié)果在準(zhǔn)確率、精確率和F1值上都明顯優(yōu)于其他4種模型。CMT相較于基于微博正文的單任務(wù)謠言檢測模型S-task,性能上有一些降低,原因可能在于融合用戶評論后的共享特征確實(shí)有一些無用甚至有害特征干擾了檢測。從CMT-G和CMT-A的實(shí)驗(yàn)結(jié)果可以看出,在加入門控篩選單元或注意力篩選單元后,模型的準(zhǔn)確率、精確率和F1值相比S-task的有較明顯的提升。CMT-G&A融合門控篩選單元與注意力篩選單元后性能最優(yōu),表明多任務(wù)聯(lián)合學(xué)習(xí)間的共享特征分別通過門控機(jī)制過濾和注意力機(jī)制選擇后對謠言檢測任務(wù)有促進(jìn)作用??梢姡谌诤嫌脩粼u論的謠言檢測中,用戶評論的質(zhì)量確實(shí)對謠言檢測性能有一定影響。本文提出的融合評論的篩選多任務(wù)聯(lián)合學(xué)習(xí)模型不僅能有效地挖掘微博事件中用戶評論的有效信息,而且多任務(wù)中共享特征的過濾和選擇能有效地促進(jìn)微博謠言的檢測。
4.5.1 詞嵌入維度對檢測性能的影響
在深度學(xué)習(xí)中,模型的參數(shù)設(shè)置對實(shí)驗(yàn)結(jié)果也會有很大的影響,通過調(diào)節(jié)模型中的一些重要參數(shù)能更大程度地提升模型性能。為了驗(yàn)證隨機(jī)初始化和預(yù)訓(xùn)練詞向量對模型效果的影響,本文做了如下實(shí)驗(yàn):
針對隨機(jī)初始化詞向量,分別設(shè)置維度為300,512和768;對于預(yù)訓(xùn)練詞向量,選擇搜狗新聞?wù)Z料庫[23]訓(xùn)練的sou-gou詞向量;為了公平起見,本文選擇S-task、CMT、CMT-G&A 3個典型模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如圖4所示。
Figure 4 Sensitivity analysis about word embedding圖4 詞嵌入敏感性分析
在從圖4可以看出,CMT-G&A和CMT在預(yù)訓(xùn)練的詞向量上表現(xiàn)出了更好的性能,S-task模型對于隨機(jī)初始化或預(yù)訓(xùn)練詞向量變化不明顯,同時隨機(jī)初始化詞向量的維度過大和過小對模型的性能也有較大的影響。本文后續(xù)采用預(yù)訓(xùn)練的sou-gou詞向量繼續(xù)開展實(shí)驗(yàn)。
4.5.2 頭數(shù)目對檢測性能的影響
Transformer[6]中的自注意力機(jī)制能夠捕獲長距離依賴,并且能夠?qū)W習(xí)到句子內(nèi)部結(jié)構(gòu)和語法,通過設(shè)置多個頭可以使模型關(guān)注不同方面的信息。為了驗(yàn)證不同多頭注意力對模型性能的影響,本文還做了如下實(shí)驗(yàn):對于主要模型CMT-G&A,對自注意力機(jī)制設(shè)置不同頭數(shù),實(shí)驗(yàn)結(jié)果如圖5所示。從圖5可以看到,頭數(shù)設(shè)為2時模型的預(yù)測性能表現(xiàn)最好。其原因在于,頭數(shù)過多會造成注意力冗余,參數(shù)過多反而影響模型的性能;頭數(shù)過少又會導(dǎo)致注意力特征提取不充分,模型表達(dá)能力不足。本文后續(xù)將頭數(shù)設(shè)為2繼續(xù)開展實(shí)驗(yàn)。
Figure 5 Sensitivity analysis about multi-head attention圖5 多頭注意力敏感性分析
在對同一微博事件進(jìn)行預(yù)測時,用戶評論中每個單詞的重要權(quán)值也不同,為了更加直觀地表示CMT-G&A模型如何從用戶評論中學(xué)到有用的信息,同時驗(yàn)證用戶評論信息對謠言檢測任務(wù)的影響,本文從數(shù)據(jù)集中取出一個微博事件,統(tǒng)計了用戶評論對應(yīng)微博事件的單詞權(quán)重并進(jìn)行熱力圖展示,如圖6所示。
從圖6可知,模型針對同一事件在融合2條不同的用戶評論時,對用戶評論中詞的關(guān)注度是不一樣的。顏色深的部分表示當(dāng)前用戶評論中對于微博事件注意力權(quán)重較高的詞,顏色越深權(quán)重越高。不考慮特殊符號例如“,”“?!钡?,用戶評論中“不信謠”“謠言”等關(guān)鍵詞表現(xiàn)出了較高的權(quán)重。實(shí)驗(yàn)表明用戶評論也為微博事件的判定提供了一些重要的線索,融合用戶評論對謠言檢測是有效的,可以很大程度上幫助我們識別網(wǎng)絡(luò)謠言。
Figure 6 User comment weight visualization圖6 用戶評論權(quán)重可視化
本文針對微博謠言檢測任務(wù)中文本特征不足,用戶評論整體質(zhì)量不高的問題,提出了一種融合評論的篩選多任務(wù)聯(lián)合學(xué)習(xí)方法,通過用戶評論與微博事件之間的關(guān)聯(lián)性,將謠言檢測任務(wù)作為主任務(wù),用戶評論相關(guān)性檢測任務(wù)作為輔助任務(wù),并通過聯(lián)合學(xué)習(xí)同時學(xué)習(xí)和更新主任務(wù)模型和輔助任務(wù)模型的參數(shù)。一系列實(shí)驗(yàn)結(jié)果表明,融合評論的多任務(wù)聯(lián)合學(xué)習(xí)方法不僅能較好地融合用戶評論信息,而且用戶評論的過濾和選擇更好地提升了謠言檢測任務(wù)的性能。
未來將探索未標(biāo)注的輔助特征,例如多媒體內(nèi)容(圖片、視頻)往往比單獨(dú)的文字信息更容易引起注意,后續(xù)嘗試?yán)眠@些多模態(tài)特征來進(jìn)一步提升謠言檢測任務(wù)的性能。