国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的多特征融合謠言檢測方法

2024-06-01 01:53:41劉小洋李慧張康旗段迪文癸凌
計算機(jī)應(yīng)用研究 2024年5期
關(guān)鍵詞:注意力機(jī)制知識圖譜

劉小洋 李慧 張康旗 段迪 文癸凌

摘 要:為了解決謠言檢測中由于缺乏外部知識而導(dǎo)致模型難以感知內(nèi)隱信息,進(jìn)而限制了模型挖掘深層信息的能力這個問題,提出了基于知識圖譜的多特征融合謠言檢測方法(KGMRD)。首先,對于每個事件,將帖子和評論共同構(gòu)建為一個文本序列,并利用分類器從中提取情感特征,利用ConceptNet基于文本構(gòu)造其知識圖譜,將知識圖譜中的實體表示利用注意力機(jī)制與文本的語義特征進(jìn)行聚合,進(jìn)而得到增強(qiáng)的語義特征表示;其次,在傳播結(jié)構(gòu)方面,對于每個事件,基于帖子的傳播轉(zhuǎn)發(fā)關(guān)系構(gòu)建傳播結(jié)構(gòu)圖,使用DropEdge對傳播結(jié)構(gòu)圖進(jìn)行剪枝,從而得到更有效的傳播結(jié)構(gòu)特征;最后,將得到的特征進(jìn)行融合處理得到一個新的表示。在Weibo、Twitter15和Twitter16 三個真實數(shù)據(jù)集上,使用SVM-RBF等七個模型作為基線進(jìn)行了對比實驗。結(jié)果表明:對比當(dāng)前效果最好的基線,KGMRD方法在Weibo數(shù)據(jù)集的ACC指標(biāo)提升了1.1%;在Twitter15和Twitter16數(shù)據(jù)集的ACC指標(biāo)上提升了2.2%,證明了KGMRD方法是合理的、有效的。

關(guān)鍵詞:知識圖譜;注意力機(jī)制;情感詞典;謠言檢測

中圖分類號:TP399?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1001-3695(2024)05-012-1362-06

doi: 10.19734/j.issn.1001-3695.2023.10.0425

Knowledge graph based multi-feature fusion rumor detection

Abstract:In order to solve the problem that it is difficult for the model to perceive implicit information due to the lack of external knowledge in rumor detection, which limits the ability of the model to mine deep information, this paper proposed knowledge graph based multi-feature fusion rumor detection (KGMRD) method. Firstly, for each event, it constructed posts and comments together into a text sequence and used a classifier to extract the emotional features. This paper constructed a knowledge graph based on text using ConceptNet and aggregated the entity representation in the knowledge graph with the semantic features of text using the attention mechanism, so as to obtain the enhanced semantic feature representation. Secondly, in terms of communication structure, for each event, this paper built its communication structure diagram based on the propagation and forwarding relationship of the post, and used DropEdge to prune the communication structure diagram, so as to obtain more effective communication structure characteristics. Finally, it fused the obtained features to get a new representation and compared seven models including SVM-RBF on three real datasets of Weibo, Twitter15 and Twitter16. The experimental results show that compared with the current baseline with the best effect, the KGMRD method has the best ACC on the Weibo dataset and improves the ACC by 1.1%, and there is a 2.2% improvement on Twitter15 and Twitter16 dataset in ACC. The experiment proves that the KGMRD method is reasonable and effective.

Key words:knowledge graph; attention mechanism; emotion dictionary; rumor detection

0 引言

虛假信息是故意傳播以誤導(dǎo)或欺騙為目的的虛假或者不準(zhǔn)確的消息,其無論是對社會還是個人都有極大的影響[1]。Vosoughi等人[2]將虛假信息與真實信息的傳播結(jié)構(gòu)進(jìn)行了對比,發(fā)現(xiàn)虛假信息的傳播范圍更遠(yuǎn)、更快、更深、更廣。虛假信息由于其巨大的負(fù)面影響而成為一個重要問題,引起了研究人員的廣泛關(guān)注[3]。謠言多集中爆發(fā)于突發(fā)事件,在這種情況下,由于人們對事實的認(rèn)知有限,在恐慌心理的影響下,民眾更傾向于相信并傳播謠言。因此,研究社交網(wǎng)絡(luò)上虛假信息的傳播特征,盡早識別出謠言,對社交網(wǎng)絡(luò)的發(fā)展和治理有重大意義。

傳統(tǒng)的謠言檢測方法主要是利用深度學(xué)習(xí)或機(jī)器學(xué)習(xí)方法,從發(fā)布的帖子本身出發(fā),特征工程集中在文本內(nèi)容方面的挖掘,得到單純基于內(nèi)容特征的謠言檢測方法[4],然而這些方法在謠言檢測中不能取得較好的效果。Ma等人[5]從空間結(jié)構(gòu)出發(fā),考慮帖子在傳播過程中的信息,提出基于傳播結(jié)構(gòu)特征的謠言檢測方法,以獲得模型更好的表現(xiàn)?,F(xiàn)有研究基于傳播結(jié)構(gòu)特征和文本內(nèi)容特征[6],提高了謠言檢測模型的效果,但是仍存在局限性,包括:a)帖子自身的局限性,例如文本篇幅較短,現(xiàn)有的方法從中提取到的語義信息有限;b)網(wǎng)絡(luò)用語存在縮寫、別名等現(xiàn)象,例如:“特朗普”“川普”“特朗普先生”均表示同一個人,是對“唐納德·特朗普”的特指,這些知識層面的提及和聯(lián)系有助于提升判斷帖子內(nèi)容的可信度。然而,這些信息不能直接與文本中的實體相關(guān)聯(lián),因此需要引入外部知識來增強(qiáng)實體間的聯(lián)系,將知識信息整合到知識圖譜中,進(jìn)而增強(qiáng)謠言檢測的效果。

針對上述問題,本文提出了基于知識圖譜注意力機(jī)制的多特征融合謠言檢測方法。該方法充分挖掘文本中的語義信息,結(jié)合外部知識提取實體背景知識,并利用注意力機(jī)制將其進(jìn)行聚合,得到外部知識增強(qiáng)的語義信息;利用情感詞典和情感分類器抽取文本中的情感特征,構(gòu)建傳播結(jié)構(gòu)圖并提取傳播結(jié)構(gòu)特征,最終進(jìn)行融合并分類。

本文的主要貢獻(xiàn)有:

a)結(jié)合英文的Twitter 15、Twitter 16數(shù)據(jù)集和中文的Weibo數(shù)據(jù)集,結(jié)合社交網(wǎng)絡(luò)中發(fā)帖與評論的信息;以帖子和其評論轉(zhuǎn)發(fā)為節(jié)點,構(gòu)建了謠言傳播結(jié)構(gòu)圖,使用GCN提取了傳播圖的結(jié)構(gòu)特征。

b)利用外部知識構(gòu)建知識圖譜,將其嵌入表達(dá)作為背景知識,通過注意力機(jī)制與文本語義特征進(jìn)行聚合以獲得語義特征的高階表達(dá),接著與情感特征以及結(jié)合傳播結(jié)構(gòu)特征進(jìn)行特征融合,得到謠言檢測更有效的表示,基于此提出了一種基于知識圖譜的多特征融合謠言檢測方法。

c)將KGMRD方法在Weibo、Twitter 15和Twitter 16三個真實數(shù)據(jù)集上進(jìn)行大量實驗,并與SVM-RBF等七種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行了對比分析,以驗證KGMRD方法的合理性與有效性。

1 相關(guān)工作

近年來,社交媒體的興起加劇了謠言的產(chǎn)生與傳播,謠言對社會穩(wěn)定性的影響使得謠言檢測吸引了大量研究者的注意。早期的謠言檢測主要依賴于從文本內(nèi)容、用戶信息、傳播結(jié)構(gòu)等方面提取謠言的特征,以對帶有標(biāo)簽的帖子進(jìn)行分類。這些特征主要是通過人工提取的,屬于勞動密集型。如Kwon等人[4]提出了基于文本特征的時間序列并融合了各種社會語境信息的謠言檢測方法。Ma等人[5]用傳播樹模擬了微博帖子的傳播方式,基于內(nèi)核傳播樹Kernel,通過區(qū)分傳播樹結(jié)構(gòu)之間的相似性以達(dá)到區(qū)分不同類型謠言的高階模式。然而這些方法太依賴特征工程,需要大量的人力投入,費(fèi)時費(fèi)力。

隨著數(shù)據(jù)量的攀升以及數(shù)據(jù)種類的多樣性,人工提取特征的難度也逐漸加大,為了實破這個局限性并學(xué)習(xí)謠言的高級特征,更多深度學(xué)習(xí)方法被用于挖掘謠言的各種隱藏特征以用于自動謠言檢測。謠言的傳播結(jié)構(gòu)和時間特征也被考慮以提高謠言檢測的準(zhǔn)確性。Bi等人[6]從微博信息傳播網(wǎng)絡(luò)的語義信息出發(fā),構(gòu)建其異構(gòu)圖,使用節(jié)點級注意力結(jié)合微博節(jié)點的鄰居節(jié)點以生成具有特定語義的節(jié)點嵌入,再使用語義級注意力融合提取到的不同語義,進(jìn)而得到更高級的語義表示。GCN能夠更好地從圖中或者樹中捕獲全局結(jié)構(gòu)特征,注意力機(jī)制能更好地聚合文本內(nèi)容以從中獲得更加關(guān)鍵的隱藏特征。隨著對謠言檢測這一領(lǐng)域的不斷深入研究,也有一些研究者將注意力放在外部知識上,希望借助外部知識來增強(qiáng)文本的語義表達(dá),進(jìn)而獲得更高效的表達(dá)。如Castillo等人[7]依據(jù)情感詞典提取了Twitter謠言文本和非謠言文本中的情感詞,進(jìn)而達(dá)到謠言檢測的目的。還有學(xué)者引入知識圖譜以補(bǔ)充帖子內(nèi)容,以產(chǎn)生更好的表示用于謠言檢測。Sun等人[8]使用雙動態(tài)GCN對傳播中的消息動態(tài)和背景知識進(jìn)行融合建模。

然而這些方法忽略了實體之間的知識級相關(guān)性,無法根據(jù)知識圖譜中特定的背景語義來捕捉實體間的高階語義信息,基于此提出了基于知識圖譜的多特征融合謠言檢測方法。圖1是針對謠言案例結(jié)合本文提出的引用外部知識對謠言進(jìn)行分析的結(jié)果。

2 KGMRD模型

知識圖譜的多特征融合謠言檢測模型的總體框架如圖2所示。

圖2中,首先對于帖子中的文本,利用知識蒸餾獲得ConceptNet中關(guān)于文本中實體的背景知識,并利用GCN提取其嵌入式表達(dá)。接著,利用預(yù)訓(xùn)練模型BERT獲得文本的語義特征。為了獲得增強(qiáng)的語義表達(dá),使用了多頭注意力機(jī)制將實體與語義信息進(jìn)行聚合;利用外部知識情感詞典獲得文本的情感特征表示,將其與增強(qiáng)的語義信息表達(dá)進(jìn)行融合;傳播結(jié)構(gòu)的特征提取依賴于基于節(jié)點之間存在評論-轉(zhuǎn)發(fā)關(guān)系,將源帖或者源微博(推文)、轉(zhuǎn)發(fā)微博、評論的用戶作為傳播結(jié)構(gòu)圖中的節(jié)點,用于構(gòu)造傳播圖。使用GCN提取傳播結(jié)構(gòu)圖中的結(jié)構(gòu)信息,由于原始的傳播結(jié)構(gòu)中包含大量無用或者冗余的節(jié)點或邊,進(jìn)而會干擾提取出的結(jié)構(gòu)特征。這里使用DropEdge方法隨機(jī)去除冗余的邊和節(jié)點,以減少干擾,提取更有效的結(jié)構(gòu)特征,進(jìn)而提高謠言檢測的準(zhǔn)確度。

對于每一個事件Ei有相應(yīng)的標(biāo)簽Yi與之對應(yīng),來表示事件的性質(zhì),yi∈{TR,F(xiàn)R} (TR 代表的是謠言,F(xiàn)R代表的不是謠言),在一些數(shù)據(jù)集中,yi還有其他取值(TR,true rumor;FR,false rumor;UF,unverified rumor;NR,non-rumor)。謠言檢測的目的就是通過學(xué)習(xí)謠言數(shù)據(jù)中的特征并構(gòu)造分類器,根據(jù)學(xué)習(xí)到的特征使用謠言分類器來區(qū)分真實性未知的微博或推文。

f:Ei→Yi(1)

其中:Ei是將要確定的事件;Yi是分類器給出的事件真實性標(biāo)簽。

2.1 知識蒸餾

知識圖譜是結(jié)構(gòu)化的數(shù)據(jù)模型,具有描述真實世界實體的數(shù)百萬個條目,例如人、物、地點。知識圖譜中的實體表示為圖節(jié)點,實體之間的關(guān)系表示為邊。知識圖譜已經(jīng)被廣泛用于推薦系統(tǒng)[9]以及對話生成中。一些方法嘗試將知識圖譜引入到謠言檢測中,利用從外部知識中提取背景知識信息,以補(bǔ)充語義相關(guān)性來達(dá)到更好的謠言檢測效果[10~13]。

2.2 文本語義特征提取

BERT是一種基于Transformer構(gòu)架的高級預(yù)訓(xùn)練詞嵌入模型[12],本文使用BERT作為句子編碼器以獲得句子的上下文表示,將其作為文本的語義特征。

P=BERT-CLS(w1,…,wn)(4)

2.3 外部知識增強(qiáng)注意力

在獲得文本語義特征以及實體表達(dá)后,為了表征外部知識的相對重要性,將文本語義特征序列Pt投影到注意力機(jī)制的Q、K、V向量中,即Q=PWQ,K=PWK,V=PWV。其中W(·)是可訓(xùn)練參數(shù)矩陣,通過這種方法可以得到語義特征和背景知識更加有效的聚合,其表示如下:

其中:[;]表示拼接;P′是通過注意力機(jī)制融合的具有更有效表達(dá)的結(jié)果。多頭注意力機(jī)制被用于獲得多頭注意力層的輸入結(jié)果:

Multihead(P′)=Concat(P′1,P′2,…,P′n)W(6)

其中:P′是每個注意力層的輸出;n是注意力層的層數(shù);W是可訓(xùn)練參數(shù)。

2.4 情感特征提取

對于帖子和評論的向量表示,將其長度控制為L,對于文本長度大于L的,將其裁剪為L,長度小于L的將其用0向量進(jìn)行填充,使其長度為L。接著對于長度為L的文本序列C=[c1,c2,c3,…,ci,…,cL],其中ci是文本的第i個單詞。將這些向量表示輸入到提出的模型中,提取其中的情感特征。

為了使獲得的情感特征更具有解釋性,使用了情感分類器和情感詞典從文本內(nèi)容中提取特征。給定的文本輸入序列為L,其中ci是文本中的第i個單詞,目標(biāo)是從文本C中提取情感特征。

1)情感分類

對于情感分類,使用公開的情感分類器去獲得帖子文本的情感分類特征。給定情感分類器Femo和帖子文本C,假設(shè)輸出的維度是df,因此對文本C的預(yù)測是Femo(C),從而能夠獲得文本的情感分類特征emocategoryT=Femo(C),其中emocategoryT∈Euclid ExtraaBpdf。

2)情感詞典

為了更好地獲得句子的情感表示以及充分利用情感詞典信息,本文將情感詞典加入到情感特征提取任務(wù)中,為模型提供額外的情感特征信息。將情感詞典記為D={d1,d2,…,dm},其中情感詞典D包含m種情感,對于情感d∈D,情感字典提供了一個包含L個情感單詞的單詞表Euclid Math OneFAp={f1,f2,…,fL}。

在給定文本C的情況下,逐漸將每個單詞和完整文本在左右情緒中的得分進(jìn)行匯總以豐富表示。

對于情緒d,首先計算單詞級別的得分score(Ci,d),其中ci是文本序列C中的第i個單詞,如果單詞ci在詞典Euclid Math OneFAp中,不僅考慮它的出現(xiàn)頻率,還考慮其上下文中的程度詞和否定詞。

接著對文本分詞,找出文檔中的情感詞、否定詞以及程度副詞,查看每個情感詞之前有無否定詞及程度副詞,將它之前的否定詞和程度副詞劃分為一個組。若有否定詞,則將情感詞的情感權(quán)值乘以否定詞的值,若有程度副詞就乘以其程度值,然后將所有組的得分加起來,大于0的歸于正向情感,小于0的歸于負(fù)向,得分的絕對值大小反映了文本的消極或積極的程度,通過這種方式獲得每個單詞的情感得分,其計算方式如下:

其中:s是左側(cè)上下文的窗口大?。籲eg(cj)和deg(cj)分別是單詞cj的負(fù)值和程度值,這些可以通過情感詞典查找到。

將所有獲得的單詞得分score(ci,d)進(jìn)行相加,得到基于文本的情感得分score(C,d),文本情感得分的計算如下:

將獲得的文本級情感得分拼接得到基于情感詞典的情感特征:

得到這兩種特征后,將所有獲得的不同種類的情感特征進(jìn)行拼接,進(jìn)而得到文本的情感特征emoC,如下所示。

2.5 傳播結(jié)構(gòu)特征提取

基于帖子及其轉(zhuǎn)發(fā)和評論關(guān)系,為其構(gòu)造了帖子的傳播結(jié)構(gòu)圖G〈V,E〉,其中V作為傳播結(jié)構(gòu)圖的節(jié)點集,包含了帖子發(fā)布者和用戶節(jié)點,E是傳播結(jié)構(gòu)圖的邊集表示節(jié)點之間有評論或者轉(zhuǎn)發(fā)行為。由于近年來,卷積模型在圖域中的應(yīng)用越來越廣泛,在現(xiàn)有的卷積模型中,GCN的表現(xiàn)是極有效的模型之一,所以,在模型中采用GCN,其計算消息傳遞架構(gòu)的方式如下:

Hk=M(A,Hk-1;Wk-1)(14)

其中:Hk和Hk-1分別是由第k和第k-1層的卷積層計算得來的隱藏向量矩陣;M是信息傳播函數(shù);A是傳播結(jié)構(gòu)圖的鄰接矩陣;Wk-1表示可訓(xùn)練的參數(shù)。由ChebNet[14]對消息傳播函數(shù)的定義可知,式(14)可寫成如下形式:

由于傳播圖G的節(jié)點多且較為復(fù)雜,為了防止在GCN訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,同時為了減少由于過平滑引起的信息缺失,采用了DropEdge機(jī)制在模型訓(xùn)練時隨機(jī)刪減掉原始圖中的邊。假設(shè)傳播結(jié)構(gòu)圖的總共邊數(shù)為Ne,棄邊率為p,那么DropEdge后的鄰接矩陣A′由以下方式計算得到:

A′=A-Adrop(16)

其中:Adrop是對G中的邊集E進(jìn)行隨機(jī)采樣后形成的鄰接矩陣;鄰接矩陣中邊的數(shù)目為Ne×p。

GCN被用于提取謠言的傳播結(jié)構(gòu)特征,傳播圖G的隱藏特征矩陣H1可以由以下公式獲得:

其中:Hk表示是GCN中的第k層特征;Wk表示參數(shù)矩陣;X是基于傳播樹構(gòu)建的特征矩陣;模型中用ReLU函數(shù)作為激活函數(shù)。

2.6 分類預(yù)測

在獲得了具有情感信息的語義特征和根節(jié)點增強(qiáng)的傳播結(jié)構(gòu)特征之后,將這些特征進(jìn)行拼接,從而獲得融合特征F:

F=concat(P′,emoc,H)(19)

3 實驗設(shè)置

3.1 數(shù)據(jù)集

為了驗證模型的有效性并使實驗結(jié)果具有普遍性,在中文的Weibo數(shù)據(jù)集和兩個英文的數(shù)據(jù)集Twitter 15、Twitter 16上進(jìn)行實驗。傳播結(jié)構(gòu)圖中的節(jié)點表示用戶的源帖子,邊表示轉(zhuǎn)發(fā)或者評論關(guān)系。在Weibo數(shù)據(jù)集中有兩種標(biāo)簽,分別是true rumor(TR)和false rumor(FR), 在Twitter數(shù)據(jù)集中有四種標(biāo)簽,分別為true rumor(TR)、false rumor(FR)、unverified rumor(UF)和none rumor(NR)。數(shù)據(jù)集詳細(xì)信息如表1所示。

3.2 實驗設(shè)置

在實驗環(huán)節(jié),實驗配置為Windows10、CPU Xeon Gold 6226R×2、128 GB內(nèi)存、NVIDIA Quadro RTX A6000×2。在實驗中用下面的模型作為謠言檢測模型的基準(zhǔn),與KGMRD方法進(jìn)行了比較分析。

a)SVM-RBF[15],一種基于SVM并結(jié)合了RBF內(nèi)核的檢測模型,它是使用了新浪微博的具體特征構(gòu)建的分類器。

b)RvNN[16]是一種基于樹狀結(jié)構(gòu)RNN的模型,該模型考慮了謠言傳播結(jié)構(gòu)的自上而下和自底向上兩個方向的特征。

c)VAE-GCN[17]提出了基于GCN的圖卷積編碼解碼的謠言檢測模型,學(xué)習(xí)謠言的文本和傳播結(jié)構(gòu)特征以進(jìn)行謠言檢測。

d)Bi-GCN[18]是一種基于GCN的謠言檢測模型,考慮謠言的傳播和擴(kuò)散結(jié)構(gòu),并通過根節(jié)點特征增強(qiáng)來增強(qiáng)節(jié)點表示。

e)PPC[19]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的謠言檢測模型,該模型考慮了用戶特征在傳播路徑上的全局和局部變化。

f)HAGNN[20]提出基于圖神經(jīng)網(wǎng)絡(luò)的謠言檢測模型,捕獲不同粒度文本內(nèi)容的高級表示,融合傳播結(jié)構(gòu)進(jìn)行謠言檢測。

g)GCNFEM[21]使用圖卷積網(wǎng)絡(luò)表示謠言傳播樹,以源和響應(yīng)帖子為圖,并根據(jù)隨時間推移發(fā)現(xiàn)的對謠言的響應(yīng)來更新節(jié)點表示,進(jìn)而達(dá)到檢測謠言的目的。

采用accuracy(ACC)、precision(Prec)、recall(Rec)和F1-score(F1)對提出的KGMRD方法進(jìn)行性能評估。在Weibo數(shù)據(jù)集上采用ACC、Prec、Rec和F1;在Twitter 15和Twitter 16數(shù)據(jù)集上采用ACC和F1進(jìn)行評價。

3.3 結(jié)果分析

在Weibo數(shù)據(jù)集上,將KGMRD方法與經(jīng)典的SVM-RBF等七種基線模型進(jìn)行分析,其實驗結(jié)果如表2所示。

表2中,KGMRD方法以94.6%的準(zhǔn)確率(ACC)成為對比的七種模型中表現(xiàn)最好的模型,與最佳基準(zhǔn)相比有1.1%的提升,其中 F1值達(dá)到了94.5%,與最佳基準(zhǔn)相比有0.5%的提升,精確率(Prec)更是達(dá)到了95.9%。因此KGMRD方法整體來說優(yōu)于其他模型。

在Twitter 15和Twitter 16數(shù)據(jù)集上將KGMRD方法與傳統(tǒng)的SVM-RBF等七種基線模型進(jìn)行了對比分析,實驗結(jié)果如表3和4所示。

圖3是KGMRD模型在Twitter16和Weibo數(shù)據(jù)集上的三條樣本案例得到的結(jié)果,模型輸出預(yù)測概率,經(jīng)過分類器映射得到false或true的結(jié)果,將輸出結(jié)果與真實標(biāo)簽對比,表明提出的模型對Text(1)~Text(3)的預(yù)測均準(zhǔn)確。

表3、4中,KGMRD方法在Twitter 15和Twitter 16兩個數(shù)據(jù)集上以88.7%和89.5%的準(zhǔn)確率成為表現(xiàn)最好的模型,與基線中表現(xiàn)最好的HAGNN模型的準(zhǔn)確率相比分別有2.2%和2.1%的提升。此外,從表3和4可以看到,KGMRD在兩個數(shù)據(jù)集上的TR指標(biāo)分別達(dá)到了89.3%和92.2%,在NR、FR和UR上的精確率也都能達(dá)到85%以上。

通過表2~4可以看出,與SVM-RBF等模型相比,KGMRD及GRU、PPC等模型在一系列評價指標(biāo)上均有較大的提升,且都達(dá)到了88%以上的準(zhǔn)確率,表明了基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)檢測方法在原理上大幅優(yōu)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測方法,證明了神經(jīng)網(wǎng)絡(luò)模型在不依賴于特征工程的同時,有著更好的謠言特征提取能力。在五個深度學(xué)習(xí)檢測模型中, KGMRD、VAE-GCN和Bi-GCN等結(jié)合了GCN來提取謠言的傳播結(jié)構(gòu)特征,在檢測精度上優(yōu)于其他三個模型,表明了以圖結(jié)構(gòu)來對傳播過程進(jìn)行建模并以圖卷積神經(jīng)網(wǎng)絡(luò)來提取謠言在傳播過程中的結(jié)構(gòu)特征是有效的。KGMRD利用外部知識增強(qiáng)文本的語義特征表達(dá)的謠言檢測模型,在各項指標(biāo)上優(yōu)于其他模型,表明了通過外部知識增強(qiáng)文本語義對于提升謠言檢測的精度是合理有效的??傮w上,KGMRD方法在不同程度上均優(yōu)于其他的傳統(tǒng)機(jī)器學(xué)習(xí)及深度學(xué)習(xí)七種模型。

3.4 消融實驗

為了驗證KGMRD方法中各個模塊的有效性,設(shè)計了相應(yīng)的消融實驗。消融實驗的模型如下:

a)KGMRD/KGA:去掉模型中的知識圖譜和注意力機(jī)制模塊,即將語義特征、情感特征和傳播結(jié)構(gòu)特征相結(jié)合進(jìn)行謠言檢測。

b)KGMRD/GCN:去掉模型中的知識圖譜和注意力機(jī)制模塊,即不考慮帖子的傳播結(jié)構(gòu),將使用注意力機(jī)制聚合了外部知識而獲得的增強(qiáng)語義特征與情感特征融合進(jìn)行謠言檢測。

c)KGMRD/E:去掉模型中的情感特征提取模塊,即增強(qiáng)的語義特征與傳播結(jié)構(gòu)特征相結(jié)合進(jìn)行謠言檢測。

在Weibo、Twitter 15、Twitter 16數(shù)據(jù)集上對以上三種模型進(jìn)行驗證,以衡量不同模塊的性能和合理性,并與KGMRD模型進(jìn)行對比,實驗結(jié)果如圖4所示。圖4是四種模型在Twitter 15、Twitter16數(shù)據(jù)集上的結(jié)果。圖5是以上四個模型針對兩條不同的謠言樣本案例Text(1)和Text(2)進(jìn)行概率預(yù)測。從圖4和5中可以看出,與其他三種模型相比,模型KGMRD有更好的表現(xiàn),進(jìn)而證實了模型各模塊的有效性。

3.5 早期檢測

由于隨著時間的增加,謠言擴(kuò)散的范圍會越來越廣,產(chǎn)生的負(fù)面影響也會越來越大,所以盡早地檢測出謠言的存在并抑制其傳播非常重要,對謠言的早期發(fā)現(xiàn)能力也成為衡量謠言檢測效果的一個重要指標(biāo)。為了驗證該模型對謠言早期檢測的有效性,在三個數(shù)據(jù)集上的實驗過程中設(shè)置了一系列的檢測截止日期,并對從釋放時間到截止日期時間的數(shù)據(jù)進(jìn)行了實驗。早期檢測結(jié)果如圖6所示。

圖6(a)~(c)分別顯示了KGMRD方法與傳統(tǒng)的機(jī)器學(xué)習(xí)方法DTC、SVM-RBF等,以及深度學(xué)習(xí)方法PPC等模型在Weibo、Twitter 15和Twitter 16數(shù)據(jù)集上,當(dāng)設(shè)置不同截至?xí)r間的情況下的性能對比。圖6顯示,KGMRD方法在源帖早期就達(dá)到了較高的準(zhǔn)確率。此外,在每個截止時間,本文提出的模型都明顯優(yōu)于其他模型,表明KGMRD方法不僅有利于長期的謠言檢測,而且有助于謠言的早期檢測。

4 結(jié)束語

本文利用外部知識中的信息提出了一種自動謠言檢測方法KGMRD??紤]了帖子中的實體信息與外部知識的鏈接,結(jié)合注意力機(jī)制將兩者更好地聚合以得到增強(qiáng)的語義特征,提取帖子中的情感特征,考慮帖子傳播結(jié)構(gòu)特征;將增強(qiáng)的語義特征與情感特征以及結(jié)構(gòu)特征融合,進(jìn)而得到融合特征并進(jìn)行謠言檢測。為了評估KGMRD模型的合理性、有效性,在Weibo、Twitter 15和Twitter 16數(shù)據(jù)集上進(jìn)行實驗,對比SVM-RBF等七種不同的模型;為了驗證各個模塊的有效性,在三個數(shù)據(jù)集上進(jìn)行了消融實驗,實驗結(jié)果表明,KGMRD方法綜合來說優(yōu)于傳統(tǒng)的SVM-RBF等七種基線模型,全面論證了KGMRD方法的合理性與有效性。

下一步將考慮從源帖的圖片、音頻、視頻等不同的模態(tài)信息中提取謠言特征,實現(xiàn)多模態(tài)謠言檢測。

參考文獻(xiàn):

[1]Miró-Llinares F,Aguerri J C. Misinformation about fake news: a systematic critical review of empirical studies on the phenomenon and its status as a ‘threat [J]. European Journal of Criminology,2023,20(1): 356-374.

[2]Vosoughi S,Roy D,Aral S. The spread of true and false news online [J]. Science,2018,359(6380): 1146-1151.

[3]龐源餛,張宇山. 句子級狀態(tài)下 LSTM 對謠言鑒別的研究 [J]. 計算機(jī)應(yīng)用研究,2022,39(4): 2038-2041 (Pang Yuanhun,Zhang Yushan. Rumor identification research based on sentence-state LSTM[J]. Application Research of Computers,2022,39(4): 2038-2041.)

[4]Kwon S J,Cha M Y,Jung K M,et al. Prominent features of rumor propagation in online social media

[C]// Proc of the 13th IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press,2013: 1103-1108.

[5]Ma Jing,Gao Wei,Wong K F. Detect rumors in microblog posts using propagation structure via kernel learning [C]//Proc of the 55th Annual Meeting of the Association for Computational Linguistics (Vo-lume 1: Long Papers).Stroudsburg,PA:Association for Computational Linguistics,2017: 708-717.

[6]Bi Bei,Wang Yaojun,Zhang Haicang,et al. Microblog-HAN: a micro-blog rumor detection model based on heterogeneous graph attention network [J]. PLoS One,2022,17(4): 12-20.

[7]Castillo C,Mendoza M,Poblete B. Information credibility on Twitter [C]// Proc of the 20th International Conference on World Wide Web. New York: ACM Press,2011: 675-684.

[8]Sun Mengzhu,Zhang Xi,Zheng Jiaqi,et al. DDGCN: dual dynamic graph convolutional networks for rumor detection on social media [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2022: 4611-4619.

[9]Zhang Chengyang,Huang Xianying,An Jiahao. MACR: multi-information augmented conversational recommender [J]. Expert Systems with Applications,2023,213: 118981.

[10]郭秋實,李晨曦,劉金碩. 引入知識表示的圖卷積網(wǎng)絡(luò)謠言檢測方法 [J]. 計算機(jī)應(yīng)用研究,2022,39(7): 2032-2036. (Guo Qiu-shi,Li Chenxi,Liu Jinshuo. Rumor detection with knowledge representation and graph convolutional network [J]. Application Research of Computers,2022,39(7): 2032-2036.)

[11]Speer R,Chin J,Havasi C. ConceptNet 5.5: an open multilingual graph of general knowledge[C]//Proc of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2017:4444-4451.

[12]Dun Yaqian,Tu Kefei,Chen Chen,et al. KAN: knowledge-aware attention network for fake news detection [C]// Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto,CA:AAAI Press,2021: 81-89.

[13]Tseng Yuwen,Yang Huikuo,Wang Weiyao,et al. KAHAN: know-ledge-aware hierarchical attention network for fake news detection on social media [C]// Companion Proceedings of the Web Conference 2022. New York: ACM Press,2022: 868-875.

[14]Welling M,Kipf T N. Semi-supervised classification with graph convo-lutional networks [EB/OL]. (2017-02-22). https://arxiv.org/abs/1609.02907.

[15]Yang Fan,Liu Yang,Yu Xiaohui,et al. Automatic detection of rumor on Sina Weibo [C]// Proc of ACM SIGKDD Workshop on Mining Data Semantics. New York: ACM Press,2012: 1-7.

[16]Ma Jing,Gao Wei,Wong K F. Rumor detection on Twitter with tree-structured recursive neural networks [C]// Proc of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg,PA: ACL Press,2018:1980-1989.

[17]Lin Hongbin,Zhang Xi,F(xiàn)u Xianghua. A graph convolutional encoder and decoder model for rumor detection [C]// Proc of the 7th IEEE International Conference on Data Science and Advanced Analytics. Piscataway,NJ:IEEE Press,2020: 300-306.

[18]Bian Tian,Xiao Xi,Xu Tingyang,et al. Rumor detection on social media with bi-directional graph convolutional networks [C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2020: 549-556.

[19]Liu Yang,Wu Yifang. Early detection of fake news on social media through propagation path classification with recurrent and convolutio-nal networks [C]// Proc of the 32nd AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2018: 354-361.

[20]Xu Shouzhi,Liu Xiaodi,Ma Kai,et al. Rumor detection on social media using hierarchically aggregated feature via graph neural networks [J].Applied Intelligence,2022,53:3136-3149.

[21]Thota N R,Sun Xiaoyan,Dai Jun. Early rumor detection in social media based on graph convolutional networks [C]// Proc of International Conference on Computing,Networking and Communications. Piscataway,NJ: IEEE Press,2023: 516-522.

猜你喜歡
注意力機(jī)制知識圖譜
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
國內(nèi)圖書館嵌入式服務(wù)研究主題分析
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
近十五年我國小學(xué)英語教學(xué)研究的熱點、問題及對策
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
智富時代(2016年12期)2016-12-01 16:28:41
霍州市| 白玉县| 太仓市| 田东县| 蒙山县| 黄山市| 营口市| 淮阳县| 金山区| 桃江县| 香河县| 东莞市| 滨海县| 黑水县| 旌德县| 昌都县| 马边| 扎鲁特旗| 铜山县| 即墨市| 宣威市| 荥经县| 古浪县| 若羌县| 门源| 云南省| 金乡县| 北票市| 长武县| 黄冈市| 朝阳区| 昭平县| 新闻| 防城港市| 龙岩市| 吉木乃县| 修文县| 舟曲县| 西贡区| 柞水县| 宜良县|