安全 徐國(guó)天 中國(guó)刑事警察學(xué)院
隨著互聯(lián)網(wǎng)的快速發(fā)展和廣泛應(yīng)用,以微博為代表的社交媒體平臺(tái)已成為人們獲取政治、金融和健康等信息的重要渠道。然而,社交媒體平臺(tái)在方便人們分享信息的同時(shí),也為網(wǎng)絡(luò)謠言傳播提供了新渠道。2023年7月21日,公安部召開(kāi)新聞發(fā)布會(huì),自開(kāi)展為期100天的網(wǎng)絡(luò)謠言打擊整治專項(xiàng)行動(dòng)以來(lái),全國(guó)公安機(jī)關(guān)共偵辦案件2300余起,整治互聯(lián)網(wǎng)平臺(tái)企業(yè)近8000家,依法關(guān)停違法違規(guī)賬號(hào)2.1萬(wàn)余個(gè),清理網(wǎng)絡(luò)謠言信息70.5萬(wàn)余條[1]。謠言發(fā)布者利用熱點(diǎn)新聞的熱度散布虛假信息,混淆視聽(tīng),給社會(huì)帶來(lái)實(shí)際威脅的同時(shí),也會(huì)削弱公眾對(duì)政府和媒體的信任。
為了打擊網(wǎng)絡(luò)謠言,學(xué)者們?cè)捎脵C(jī)器學(xué)習(xí)算法,將謠言檢測(cè)視為二分類問(wèn)題,從文本內(nèi)容和用戶個(gè)人資料等信息中提取各種類型特征[2]。這些特征可以包括詞頻、詞向量和句法結(jié)構(gòu)等,之后對(duì)提取的特征進(jìn)行學(xué)習(xí),從而建立分類檢測(cè)模型。傳統(tǒng)的機(jī)器學(xué)習(xí)方法側(cè)重于人工提取特征來(lái)對(duì)謠言進(jìn)行檢測(cè)。例如,2011年,Castillo等人[3]利用文本、主題和傳播特征來(lái)研究Twitter新聞的可信度,并構(gòu)建決策樹(shù)分類模型;2015年,Ma等人[4]提出動(dòng)態(tài)時(shí)間序列結(jié)構(gòu)模型,該模型能夠抓取多種社會(huì)語(yǔ)境特征隨時(shí)間的變化,在網(wǎng)絡(luò)謠言傳播早期階段展現(xiàn)出強(qiáng)大的識(shí)別能力;2016年,曾子明等人[5]定義了用戶可信度和微博影響力特征,并提出融合LDA和隨機(jī)森林的謠言識(shí)別模型。
機(jī)器學(xué)習(xí)算法在特征提取與選擇過(guò)程中,不僅耗費(fèi)大量的人力、物力與時(shí)間,且獲取特征的魯棒性也不足。隨著網(wǎng)絡(luò)謠言規(guī)模和復(fù)雜性增加,深度學(xué)習(xí)方法應(yīng)運(yùn)而生。2016年,Ma等人[6]將謠言文本內(nèi)容輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用隱層向量表示文本信息并輸入到分類器中,得到分類結(jié)果;2017年,F(xiàn)eng等人[7]對(duì)新聞內(nèi)容進(jìn)行建模,將向量拼接成一個(gè)矩陣并用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征,最終將嵌入向量輸入到分類器中進(jìn)行檢測(cè);2019年,Ma等人[8]利用對(duì)抗學(xué)習(xí)方法訓(xùn)練生成器和判別器,擴(kuò)展訓(xùn)練數(shù)據(jù)。將生成內(nèi)容和原始內(nèi)容輸入到分類器中進(jìn)行檢測(cè),提升模型的魯棒性和分類準(zhǔn)確率;2021年,南瓊等人[9]構(gòu)建了中文多領(lǐng)域虛假新聞數(shù)據(jù)集Weibo21,并提出多領(lǐng)域虛假新聞檢測(cè)模型MDFEND,該模型利用注意力機(jī)制提取新聞的內(nèi)容和領(lǐng)域特征,通過(guò)門(mén)控網(wǎng)絡(luò)對(duì)特征表示進(jìn)行聚合,從而進(jìn)行多領(lǐng)域虛假新聞檢測(cè)工作;2022年,耿唯佳等人[10]融合TextCNN和TextRNN模型,挖掘文本語(yǔ)義和時(shí)序特征,對(duì)兩種特征進(jìn)行加權(quán)融合,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)謠言的識(shí)別;2023年,吳越等人[11]提出了基于并行圖注意力網(wǎng)絡(luò)的謠言檢測(cè)方法ParallelGAT,該模型分別使用BiCAT和MIGAT模塊獲取謠言的傳播和知識(shí)特征,最終通過(guò)聚合模塊生成的特征向量進(jìn)行謠言檢測(cè)。
早期,由于網(wǎng)絡(luò)謠言數(shù)據(jù)量少,研究者們將不同數(shù)據(jù)混合用于檢測(cè)工作[12]。然而,這種方式忽略了不同領(lǐng)域間謠言的差異,例如,健康類謠言的高頻關(guān)鍵詞有“新冠”“醫(yī)院”和“病毒”等;事故類謠言的高頻關(guān)鍵詞有“地震”“火災(zāi)”和“車禍”等。隨著數(shù)據(jù)量的增加,研究者們開(kāi)始根據(jù)謠言所屬領(lǐng)域進(jìn)行檢測(cè)工作[13]。在疫情期間,“喝白酒,能夠預(yù)防新冠病毒感染”等無(wú)根據(jù)言論在社交媒體平臺(tái)上層出不窮。研究者們利用深度學(xué)習(xí)模型開(kāi)展有關(guān)新冠病毒網(wǎng)絡(luò)謠言的檢測(cè)工作,并取得顯著進(jìn)展[14]。以ELECTRA模型為例,在COVID-19FakeNews數(shù)據(jù)集上訓(xùn)練后準(zhǔn)確率可達(dá)94.8%[15]。然而,將這類模型應(yīng)用于其它領(lǐng)域謠言時(shí),檢測(cè)效果則會(huì)大打折扣。
現(xiàn)有的網(wǎng)絡(luò)謠言檢測(cè)方法多是利用單一領(lǐng)域的大量數(shù)據(jù)來(lái)訓(xùn)練模型。這些模型在相應(yīng)領(lǐng)域的性能較高,但在實(shí)際生活中面對(duì)多個(gè)領(lǐng)域數(shù)據(jù),此類模型泛用性不足,實(shí)用價(jià)值也隨之降低。為了進(jìn)一步研究和開(kāi)發(fā)適用于多樣化情境下的網(wǎng)絡(luò)謠言檢測(cè)模型,提高檢測(cè)的精度和覆蓋率,本文提出一種基于專家混合和領(lǐng)域特征的謠言識(shí)別模型WMTC。模型采用WoBERT預(yù)訓(xùn)練模型,將謠言的文本內(nèi)容轉(zhuǎn)化為向量表示,選擇改進(jìn)的多尺度TextCNN模型作為“專家模型”進(jìn)行特征提取,之后根據(jù)謠言所屬領(lǐng)域?qū)μ卣鬟M(jìn)行加權(quán)融合并輸入分類器中進(jìn)行檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該模型的性能要優(yōu)于其它混合、單領(lǐng)域和跨領(lǐng)域謠言檢測(cè)模型。
BERT是GoogleAI研究院[16]于2018年發(fā)布的一種預(yù)訓(xùn)練模型。傳統(tǒng)BERT模型采用WordPiece分詞操作,會(huì)將文本分割成較小的子詞來(lái)加快訓(xùn)練速度。但對(duì)于中文來(lái)說(shuō),BERT會(huì)將每一個(gè)漢字都切分開(kāi),訓(xùn)練的結(jié)果就是孤零零的漢字向量。在現(xiàn)代漢語(yǔ)中,以字為單位建模無(wú)法表達(dá)詞語(yǔ)或者短語(yǔ)中包含的豐富語(yǔ)義信息,這也造成BERT在很多中文任務(wù)上的表現(xiàn)并不理想。2020年,有研究人員發(fā)布了基于詞顆粒度的中文語(yǔ)言預(yù)訓(xùn)練模型WoBERT[17]。該模型會(huì)使用結(jié)巴分詞對(duì)輸入的內(nèi)容進(jìn)行“預(yù)分詞”操作,如果詞匯在分詞表中則保留,否則將其切分為字。最后,將詞序列拼接起來(lái),作為最后的分詞結(jié)果。實(shí)驗(yàn)結(jié)果表明,WoBERT在中文文本分類等任務(wù)上的性能要優(yōu)于Google發(fā)布的中文BERT。因此,本文選用WoBERT作為預(yù)訓(xùn)練模型。
相較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),TextCNN網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,僅包含一個(gè)卷積層和一個(gè)池化層,使用Softmax來(lái)進(jìn)行分類。模型的參數(shù)數(shù)目少,訓(xùn)練速度快,對(duì)文本數(shù)據(jù)的淺層特征提取能力很強(qiáng)。但在長(zhǎng)文本領(lǐng)域,TextCNN受限于卷積核大小,較長(zhǎng)文本可能會(huì)被截?cái)嗷蚝雎圆糠中畔ⅲ⑶以撃P褪腔诰植看翱谶M(jìn)行卷積和池化操作,因此無(wú)法充分捕捉到全局語(yǔ)義和上下文信息。
2014年,Google公司發(fā)布的GoogLeNet[18]采用Inception模塊來(lái)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),即分別使用池化和卷積操作來(lái)縮小特征圖尺寸,再將兩者得出的特征圖組合起來(lái),這種做法既增加了網(wǎng)絡(luò)的寬度和深度,又減少了模型的參數(shù)量,降低了過(guò)擬合風(fēng)險(xiǎn)。本文借鑒Inception模塊的思想,對(duì)TextCNN進(jìn)行改進(jìn):在原有卷積層前添加池化核和卷積核,增加通道數(shù)并對(duì)文本信息的淺層特征進(jìn)行提取。然后,并行使用多個(gè)不同尺寸的卷積核對(duì)特征進(jìn)行進(jìn)一步提取,并使用零填充保持維度不變。最后,將卷積層輸出的特征疊加后進(jìn)行最大池化,得到特征向量。改進(jìn)的多尺度TextCNN模型,如圖1所示。
混合專家模型的核心思想是將多個(gè)專家模型組合成一個(gè)大型集成模型。從結(jié)構(gòu)角度來(lái)說(shuō),混合專家模型可以分為兩個(gè)部分,分別是專家模型和門(mén)控網(wǎng)絡(luò),專家模型是多個(gè)獨(dú)立子模型組成的集合,每一個(gè)子模型被稱為一個(gè)專家模型。專家模型之間相互獨(dú)立,學(xué)習(xí)相同或不同的特征,本文選用多尺度TextCNN作為專家模型;門(mén)控網(wǎng)絡(luò)通過(guò)學(xué)習(xí)參數(shù)決定哪些專家模型應(yīng)該對(duì)特定輸入數(shù)據(jù)或任務(wù)負(fù)責(zé),從而將多個(gè)專家模型的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)組合,得到最終的輸出結(jié)果。使用混合專家模型可以顯著提高模型在處理復(fù)雜任務(wù)時(shí)的性能,但是卻存在著負(fù)載不平衡的問(wèn)題:在最初的幾個(gè)樣本上表現(xiàn)較好的專家模型會(huì)被門(mén)控網(wǎng)絡(luò)分配更高的權(quán)重,并得到更充分的優(yōu)化,而其余專家模型無(wú)法被充分訓(xùn)練。2021年,Simiao等人[19]提出負(fù)載不平衡本質(zhì)上是由門(mén)控網(wǎng)絡(luò)造成的,該問(wèn)題源自于門(mén)控網(wǎng)絡(luò)的初始化或優(yōu)化過(guò)程,因此使用隨機(jī)門(mén)控網(wǎng)絡(luò)可以從根本上解決負(fù)載不平衡問(wèn)題。
本文在WoBERT和多尺度TextCNN的基礎(chǔ)之上,結(jié)合混合專家模型提出一種基于專家混合和領(lǐng)域特征的謠言識(shí)別模型WMTC,整體框架如圖2所示。
模型的工作流程如下:
對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將網(wǎng)絡(luò)謠言文本內(nèi)容作為WoBERT的輸入,編碼后得到一組詞向量W={W1,…,WN},N為編碼后詞向量序列的長(zhǎng)度。選用多尺度TextCNN作為專家模型,一個(gè)專家模型提取的特征只能包含部分信息,無(wú)法覆蓋謠言內(nèi)容的全部特征。為了獲取各個(gè)領(lǐng)域中謠言內(nèi)容的高質(zhì)量表示,模型利用專家混合的優(yōu)勢(shì),同時(shí)使用多個(gè)專家模型(T=5)對(duì)謠言內(nèi)容進(jìn)行特征提取。每個(gè)專家模型可以表示為公式(1):
其中,W是輸入每個(gè)專家模型的詞向量,βi是模型參數(shù),T是專家模型數(shù)量,則每個(gè)專家網(wǎng)絡(luò)提取的特征可表示為公式(2):
將網(wǎng)絡(luò)謠言的領(lǐng)域標(biāo)簽作為WoBERT的輸入,編碼后得到一組領(lǐng)域向量X={X1,…,Xd},然后,將領(lǐng)域向量輸入多層感知機(jī)生成專家模型的權(quán)重向量。最后,與均勻分布生成的隨機(jī)矩陣A相乘,使權(quán)重向量α具有一定的隨機(jī)性并進(jìn)行Softmax歸一化。權(quán)重向量α可以表示為公式(3):
使用權(quán)重向量α={α1,α2,…αi}(1≤i≤T)來(lái)對(duì)不同專家模型獲取的特征表示進(jìn)行聚合,各維度代表不同專家模型在不同領(lǐng)域所占權(quán)重。最終獲得謠言內(nèi)容的特征向量可表示為公式(4):
使用有Softmax輸出層的MLP作為分類器,交叉熵作為損失函數(shù),y為預(yù)測(cè)值,yi為真實(shí)值,則有公式(5)和公式(6):
本文模型將WoBERT和多尺度TextCNN相結(jié)合,充分利用了它們各自的特點(diǎn):WoBERT作為一種強(qiáng)大的預(yù)訓(xùn)練語(yǔ)言模型,能夠充分理解文本內(nèi)容的上下文信息,并捕捉詞匯、句法和語(yǔ)義的豐富信息。WoBERT豐富的詞向量表示,可以幫助TextCNN模型更好地理解和刻畫(huà)文本的語(yǔ)義和上下文關(guān)系?;旌蠈<夷P涂梢愿鶕?jù)網(wǎng)絡(luò)謠言所屬的領(lǐng)域生成不同的權(quán)重來(lái)調(diào)整不同專家模型的貢獻(xiàn),從而顯著地提高了模型的泛用性和準(zhǔn)確率。
本文使用中科院計(jì)算技術(shù)研究所,數(shù)字內(nèi)容合成與偽造檢測(cè)實(shí)驗(yàn)室的Weibo21數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)謠言檢測(cè)實(shí)驗(yàn)。該數(shù)據(jù)集是中文文本數(shù)據(jù),包含2014年12月至2021年3月,微博社區(qū)管理中心官方帳戶認(rèn)定的網(wǎng)絡(luò)謠言,以及同時(shí)期經(jīng)睿鑒識(shí)謠平臺(tái)鑒定的真實(shí)新聞。每條數(shù)據(jù)包含網(wǎng)絡(luò)謠言的文本內(nèi)容、評(píng)論和時(shí)間戳等多個(gè)維度的信息,共有4488條網(wǎng)絡(luò)謠言和4640條真實(shí)新聞,涵蓋科技、軍事、教育、災(zāi)害、政治、健康、金融、娛樂(lè)、社會(huì)共9個(gè)領(lǐng)域。
在數(shù)據(jù)預(yù)處理階段,首先,對(duì)數(shù)據(jù)進(jìn)行篩選,僅保留文本內(nèi)容、所屬領(lǐng)域和標(biāo)簽3個(gè)特征;然后,使用正則表達(dá)式對(duì)文本內(nèi)容中的特殊符號(hào)、亂碼文字和emoji表情進(jìn)行去除;最后,對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)化,將得到隨機(jī)數(shù)據(jù)集按照6:2:2劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
本文實(shí)驗(yàn)環(huán)境為一臺(tái)運(yùn)行內(nèi)存為32GB,硬盤(pán)空間為1TB,搭載2.30GHz的12th Gen Intel CoreTMi7-12700H處理器,GPU為NVIDA GeForce RTX 3060(顯存6GB),安裝Windows11操作系統(tǒng)的電腦。編程語(yǔ)言和平臺(tái)版本為Python3.7.13,集成開(kāi)發(fā)環(huán)境采用PyCharm Community Edition 2022.2,主要使用的深度學(xué)習(xí)庫(kù)為pytorch1.12、transformers4.27.3、numpy1.19.5。
本文模型可分為WoBERT、多尺度TextCNN和分類器三部分。在WoBERT模型部分,選用的預(yù)訓(xùn)練模型為WoBERT Plus,嵌入維度設(shè)置為768。在處理文本數(shù)據(jù)時(shí),限制文本序列的最大長(zhǎng)度為170個(gè)標(biāo)記;在TextCNN部分,模型第一層池化層的池化核尺寸為768*5,第1層卷積核尺寸為768*5,第二層卷積核尺寸分別為1*1、3*1、5*1、10*1和15*1。在兩層之間進(jìn)行批量歸一化并使用ReLU作為激活函數(shù),最終輸出維度為256;在分類器部分,包含線性層、BatchNorm和Dropout層,其中Dropout概率設(shè)置為0.2,選用ReLU作為激活函數(shù);整個(gè)訓(xùn)練過(guò)程中,用于數(shù)據(jù)加載器中的工作線程數(shù)指定為4。經(jīng)過(guò)實(shí)驗(yàn)和模型調(diào)優(yōu)后,本文在模型使用Adam優(yōu)化器來(lái)自動(dòng)調(diào)整學(xué)習(xí)率和權(quán)重衰退,其參數(shù)初值分別選定為0.0001和5e-6。在綜合考慮計(jì)算資源、內(nèi)存限制和模型復(fù)雜度后,本文選定批量大小為64。通過(guò)觀察模型的收斂情況,本文選定模型訓(xùn)練的epoch為20。
在使用深度學(xué)習(xí)模型進(jìn)行分類任務(wù)時(shí),通常使用精確率(Precision)、召回率(Recall)和F1分值(F1 Score)來(lái)評(píng)判模型性能的好壞。根據(jù)三種指標(biāo)構(gòu)成的混淆矩陣結(jié)構(gòu)見(jiàn)表2。
其中,TP表示被模型檢測(cè)為網(wǎng)絡(luò)謠言,并且檢測(cè)正確的樣本數(shù)量;FP表示被模型檢測(cè)為網(wǎng)絡(luò)謠言,但是檢測(cè)錯(cuò)誤的樣本數(shù)量;FN表示被模型檢測(cè)為真實(shí)新聞,但是檢測(cè)錯(cuò)誤的樣本數(shù)量;TN表示被模型檢測(cè)為真實(shí)新聞,并且檢測(cè)正確的樣本數(shù)量;N則表示TP、FP、FN、TN的總和,代表測(cè)試數(shù)據(jù)集中所有樣本的數(shù)量。
在本文中,以上三種指標(biāo)的具體評(píng)價(jià)方式如下:
(1)精確率表示所有被預(yù)測(cè)為網(wǎng)絡(luò)謠言的樣本中,預(yù)測(cè)正確的樣本數(shù)量所占比例,如公式(7)所示。
(2)召回率表示所有網(wǎng)絡(luò)謠言樣本中,預(yù)測(cè)正確的樣本數(shù)量所占比例,如公式(8)所示。
(3)F1分值是精確率和召回率的加權(quán)平均值,如公式(9)所示。
精確率體現(xiàn)了模型對(duì)真實(shí)新聞的區(qū)分能力,精確率越高,模型對(duì)真實(shí)新聞的區(qū)分能力越強(qiáng);召回率體現(xiàn)了模型對(duì)網(wǎng)絡(luò)謠言的識(shí)別能力,召回率越高,模型對(duì)網(wǎng)絡(luò)謠言的識(shí)別能力越強(qiáng);F1分值是兩者的綜合,F(xiàn)1分值越高,模型越穩(wěn)健。
為了評(píng)估本文提出的WMTC模型在謠言檢測(cè)任務(wù)中的實(shí)際效果,在實(shí)驗(yàn)中使用經(jīng)過(guò)上述預(yù)處理后的數(shù)據(jù)集,與其它基準(zhǔn)模型的檢測(cè)效果進(jìn)行比較。為了確保基準(zhǔn)模型結(jié)果的公正性,本文在進(jìn)行單領(lǐng)域基準(zhǔn)模型的實(shí)驗(yàn)時(shí),每次使用1個(gè)領(lǐng)域的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練并進(jìn)行試驗(yàn);在進(jìn)行混合基準(zhǔn)模型實(shí)驗(yàn)時(shí),使用所有領(lǐng)域的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,并分別對(duì)每個(gè)領(lǐng)域進(jìn)行試驗(yàn)。本文實(shí)驗(yàn)采用的基準(zhǔn)模型有:
(1)BERT:使用相同的預(yù)訓(xùn)練模型WoBERT Plus,并將模型參數(shù)設(shè)置為凍結(jié)狀態(tài);
(2)TextCNN:使用多尺度TextCNN模型進(jìn)行試驗(yàn),模型與專家模型結(jié)構(gòu)保持一致;
(3)MMoE[20]:多任務(wù)學(xué)習(xí)模型,MMoE在MoE的基礎(chǔ)上進(jìn)行改進(jìn),對(duì)每個(gè)子任務(wù)都引入一個(gè)門(mén)控網(wǎng)絡(luò),以此來(lái)捕獲不同子任務(wù)之間的差異性。使用該模型進(jìn)行試驗(yàn)時(shí),將不同領(lǐng)域網(wǎng)絡(luò)謠言內(nèi)容視為不同子任務(wù)進(jìn)行建模;
(4)EDDFN[21]:該模型引入一種無(wú)監(jiān)督技術(shù),選擇一組未標(biāo)記的信息新聞?dòng)涗涍M(jìn)行人工標(biāo)簽,可以聯(lián)合保存新聞?dòng)涗浿械奶囟I(lǐng)域和跨領(lǐng)域知識(shí),以檢測(cè)來(lái)自不同領(lǐng)域的網(wǎng)絡(luò)謠言;
(5)MDFEND:該模型使用TextCNN作為專家模型,將謠言內(nèi)容作為門(mén)控網(wǎng)絡(luò)的輸入,并通過(guò)注意力機(jī)制來(lái)提取謠言的領(lǐng)域特征為專家模型分配權(quán)重。
WMTC模型與其它基準(zhǔn)模型在Weibo21數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見(jiàn)表3至表5。
通過(guò)比較WMTC模型與其它基準(zhǔn)模型的實(shí)驗(yàn)結(jié)果,可以得出如下結(jié)論:
(1)比較單領(lǐng)域和混合檢測(cè)模型的結(jié)果,可以發(fā)現(xiàn),混合檢測(cè)模型的3項(xiàng)性能均高于單領(lǐng)域檢測(cè)模型。說(shuō)明收集多個(gè)領(lǐng)域的網(wǎng)絡(luò)謠言對(duì)模型進(jìn)行訓(xùn)練,有助于提高模型的性能和魯棒性;
(2)比較混合和跨領(lǐng)域檢測(cè)模型的結(jié)果,可以發(fā)現(xiàn),跨領(lǐng)域檢測(cè)模型的3項(xiàng)性能均高于混合檢測(cè)模型,說(shuō)明了網(wǎng)絡(luò)謠言的領(lǐng)域特征對(duì)模型訓(xùn)練的重要性;
(3)比較WMTC和MMOE模型的結(jié)果,可以發(fā)現(xiàn),不同領(lǐng)域的網(wǎng)絡(luò)謠言之間存在著一定的聯(lián)系,可以利用其它領(lǐng)域的數(shù)據(jù)來(lái)提高特定領(lǐng)域的檢測(cè)效果;
(4)比較WMTC和MDFEND模型的結(jié)果,可以發(fā)現(xiàn),使用隨機(jī)矩陣可以緩解混合專家模型的復(fù)雜不平衡問(wèn)題,從而提高模型性能;
(5)比較模型的召回率和精確率,可以發(fā)現(xiàn),選用的模型除MMOE模型外,均對(duì)網(wǎng)絡(luò)謠言的區(qū)分能力比較強(qiáng);
(6)WMTC模型在對(duì)網(wǎng)絡(luò)謠言內(nèi)容進(jìn)行特征提取的同時(shí),按照謠言所屬領(lǐng)域?qū)μ卣鬟M(jìn)行聚合,有效對(duì)謠言內(nèi)容和領(lǐng)域之間的關(guān)系進(jìn)行建模。因此,在Weibo21數(shù)據(jù)集上,WMTC模型綜合性能優(yōu)于其他模型,證明了該模型的有效性和優(yōu)越性。
本文針對(duì)現(xiàn)有的網(wǎng)絡(luò)謠言檢測(cè)模型在多樣化情景下性能低的問(wèn)題,提出了一種基于專家混合和領(lǐng)域特征的謠言識(shí)別模型WMTC。模型使用WoBERT和多尺度TextCNN對(duì)謠言文本內(nèi)容進(jìn)行高質(zhì)量的提取,之后結(jié)合領(lǐng)域信息生成權(quán)重,對(duì)專家模型提取的特征進(jìn)行聚合。實(shí)驗(yàn)結(jié)果表明,WMTC模型在Weibo21數(shù)據(jù)集上的綜合表現(xiàn)優(yōu)于現(xiàn)有的單領(lǐng)域、混合以及跨領(lǐng)域謠言檢測(cè)模型。但模型仍存在一些不足之處,需要進(jìn)一步研究和改進(jìn),現(xiàn)實(shí)中社交網(wǎng)絡(luò)平臺(tái)上,往往充斥著各種類型的網(wǎng)絡(luò)謠言,本模型僅能對(duì)網(wǎng)絡(luò)謠言的文字內(nèi)容進(jìn)行識(shí)別,無(wú)法識(shí)別圖片和視頻信息。因此,針對(duì)網(wǎng)絡(luò)謠言檢測(cè)引入圖像信息處理技術(shù)是未來(lái)需要進(jìn)一步研究和改進(jìn)的方向。