国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法

2023-12-06 03:59:56王友衛(wèi)鳳麗洲王煒琦侯玉棟
中文信息學(xué)報 2023年9期
關(guān)鍵詞:謠言詞語節(jié)點

王友衛(wèi),鳳麗洲,王煒琦,侯玉棟

(1.中央財經(jīng)大學(xué) 信息學(xué)院,北京 100081;2.天津財經(jīng)大學(xué) 統(tǒng)計學(xué)院,天津 300222)

0 引言

隨著社交媒體的發(fā)展,網(wǎng)絡(luò)謠言給社會帶來了嚴(yán)重的影響,并逐漸引起了公眾關(guān)注,成為了國內(nèi)外學(xué)者的研究熱點。黨的二十大報告中指出,“健全網(wǎng)絡(luò)綜合治理體系,推動形成良好網(wǎng)絡(luò)生態(tài)”??梢?實現(xiàn)謠言檢測對于促進(jìn)網(wǎng)絡(luò)空間建設(shè)、維護(hù)社會穩(wěn)定快速發(fā)展具有重大的現(xiàn)實意義。

謠言檢測任務(wù)通過模型將正常文檔與含有謠言的異常文檔區(qū)分開,屬于文本分類領(lǐng)域中的重要子問題。謠言檢測的相關(guān)方法可分為三類[1]: ①基于外部知識的方法; ②基于關(guān)系網(wǎng)絡(luò)的方法; ③基于文本內(nèi)容的方法?;谕獠恐R的方法主要利用專家系統(tǒng)或集體智慧對謠言文檔進(jìn)行判別,該方法需要耗費大量的人工成本建立知識圖譜,因此相關(guān)研究較少?;陉P(guān)系網(wǎng)絡(luò)的方法通過消息的傳播特點、傳播者追加的評論文本以及傳播者的社會背景對謠言進(jìn)行檢測[2]。但是,此類方法的檢測準(zhǔn)確度與傳播時間成正比,無法在謠言傳播的初期對其進(jìn)行較好的識別?;谖谋緝?nèi)容的方法認(rèn)為謠言與非謠言在表達(dá)習(xí)慣、討論主題以及行文風(fēng)格上存在一定差別,因此可以通過從文本中提取可供分類的向量化信息實現(xiàn)謠言檢測?;谖谋緝?nèi)容的檢測方法可進(jìn)一步分為基于傳統(tǒng)分類器的檢測方法與基于深度學(xué)習(xí)的檢測方法兩類。前者方法通過匹配文本中出現(xiàn)的人工特征來構(gòu)建文本內(nèi)容的one-hot向量,之后將特征向量輸入支持向量機(Support Vector Machine, SVM)、隨機森林(Random Forest, RF)、邏輯回歸(Logistic Regression, LR)等機器學(xué)習(xí)模型,以此實現(xiàn)對謠言信息的識別。此類方法中最常用的特征是文本極性以及組合特征,如通過人工詞典構(gòu)建的情緒特征和語言學(xué)家構(gòu)建的句式特征等[3]。但此類方法在提取特征時單純依靠規(guī)則或者人工經(jīng)驗,因此相對于基于深度學(xué)習(xí)的檢測方法而言無法較好地表征文本中的潛在語義信息。

近年來,基于深度學(xué)習(xí)的文本分類方法已被廣泛應(yīng)用于謠言檢測任務(wù)中。Nguyen等[4]與Singh等[5]分別將謠言數(shù)據(jù)的向量化結(jié)果帶入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)與循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)中,相對于傳統(tǒng)分類器而言有效提高了謠言檢測的精度。Ma等[6]提出了一種基于RNN的評論上下文學(xué)習(xí)方法,通過學(xué)習(xí)微博事件的連續(xù)表示來實現(xiàn)謠言信息檢測。Song等[7]和王友衛(wèi)等[8]將所有轉(zhuǎn)發(fā)信息視為一個序列,通過CNN實現(xiàn)可信早期謠言檢測研究,有效縮短了謠言檢測的時間跨度。Chen等[9]結(jié)合知識圖譜提出一種基于圖的謠言文本生成模型G2S-AT-GAN。該模型使用基于注意力的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Network, GCN)和生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)來生成不同主題的謠言文本,在解決謠言數(shù)據(jù)不平衡問題的同時提高了謠言檢測的性能。但上述方法大多僅關(guān)注源信息和評論信息的內(nèi)容,并沒有有效利用評論、用戶之間的相互關(guān)系,為此,楊延杰等[10]利用消息轉(zhuǎn)發(fā)關(guān)系構(gòu)建評論轉(zhuǎn)發(fā)圖,通過兩個融合門控機制的圖卷積網(wǎng)絡(luò)模塊來聚合鄰居節(jié)點信息以生成節(jié)點的表示,有效利用了源博文的影響力與任意帖子之間的多角度影響。Wu等[11]提出了基于圖神經(jīng)網(wǎng)絡(luò)全局嵌入的謠言檢測模型和基于圖神經(jīng)網(wǎng)絡(luò)集成學(xué)習(xí)的謠言檢測模型。通過在有限時間步內(nèi)在相鄰節(jié)點之間交換信息來更新節(jié)點表示,有效提高了謠言檢測的準(zhǔn)確性。Bian等[12]提出了一種雙向圖卷積網(wǎng)絡(luò)(Bi-GCN),根據(jù)謠言的轉(zhuǎn)發(fā)關(guān)系建立自上而下和自下而上的圖傳播結(jié)構(gòu),較好地實現(xiàn)了謠言信息的嵌入表達(dá),不足之處在于圖中每個評論節(jié)點只能融合一個傳播方向上的鄰居節(jié)點信息。為了更好地考慮用戶信息的影響,Lu和Li通過引入文本發(fā)布者的社交關(guān)系進(jìn)行謠言檢測[13]。Zhang等[14]借助立場檢測任務(wù),提出了一種基于多模態(tài)融合和元知識共享的謠言檢測方法。該方法使用注意力機制計算評論權(quán)重,較好地區(qū)分了不同評論的重要性。

通過研究發(fā)現(xiàn),雖然上述方法已獲得較好的謠言檢測效果,但仍存在以下問題: ①大多數(shù)方法在利用評論文本內(nèi)容時僅關(guān)注詞語特征信息,忽略了詞語情感特征、語法特征、語言特征等重要因素的影響; ②現(xiàn)有算法普遍根據(jù)原始博文和轉(zhuǎn)發(fā)評論之間的關(guān)系建立圖結(jié)構(gòu),忽略了原始評論之間的語義關(guān)聯(lián)性,因此難以針對新發(fā)布的博文進(jìn)行檢測,限制了模型的泛化能力。

為解決上述問題,本文以微博為研究對象,利用圖神經(jīng)網(wǎng)絡(luò)在圖表示學(xué)習(xí)任務(wù)方面的優(yōu)勢,提出了基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法RD_EWF。具體而言,本文創(chuàng)新點如下:

(1) 綜合考慮情感特征、語法特征以及語言特征對于謠言檢測的影響,在評論內(nèi)容信息基礎(chǔ)上提出文本特征的概念。在此基礎(chǔ)上,將微博事件、文本詞語、文本特征作為節(jié)點構(gòu)建事件-詞語-特征異質(zhì)圖,解決了傳統(tǒng)方法單純利用文本內(nèi)容信息導(dǎo)致的模型表達(dá)能力不足的問題。

(2) 綜合考慮事件-事件之間、評論-詞語之間、評論-特征之間以及詞語-詞語之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)(Heterogeneous Graph Attention Network, HGAT)的圖節(jié)點表示學(xué)習(xí)方法GS_HGAT,以此區(qū)分不同類型節(jié)點的影響,實現(xiàn)對微博事件節(jié)點的歸納式表達(dá),提高模型的泛化能力。

1 相關(guān)理論

1.1 圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN)[15]

GNN是被廣泛應(yīng)用于圖分析任務(wù)的一類神經(jīng)網(wǎng)絡(luò),現(xiàn)已廣泛應(yīng)用于社交網(wǎng)絡(luò)、推薦系統(tǒng)、生物科技等領(lǐng)域。給定一個屬性圖G=(V,E)(V為節(jié)點集、E為邊集)及其特征矩陣X={xi},其中xi是節(jié)點vi∈V的d維特征向量,GNN的目標(biāo)是學(xué)習(xí)每個節(jié)點vi的表示hi,考慮第m層GNN,節(jié)點vi在第m層的表示向量定義為:

(1)

(2)

1.2 中文語言查詢和詞數(shù)統(tǒng)計(Chinese Linguistic Inquiry and Word Count, C_LIWC)[16]

C_LIWC詞典是在語言查詢和詞數(shù)統(tǒng)計詞典(Linguistic Inquiry and Word Count, LIWC)基礎(chǔ)上形成的詞典。Pennebaker等人研究建立的LIWC詞典主要用于對文本描述中的單詞進(jìn)行統(tǒng)計分析。該詞典包含約4 500個從社會學(xué)、健康學(xué)以及心理學(xué)方面挖掘的情緒和認(rèn)知方面單詞,現(xiàn)已成為英文情緒分析研究應(yīng)用的重要依據(jù)。臺灣科技大學(xué)人文社會學(xué)科研究人員根據(jù)中文特性將LIWC詞典翻譯改編為中文版本C-LIWC。C-LIWC包含語言特征30類(如副詞、介詞等)、心理特性42類(如正向情緒詞、負(fù)向情緒詞等),共72個類別、6 862個詞。其中,與情緒相關(guān)的類別包括positive emotion、negative emotion、anxiousness、anger和sadness。C_LIWC詞典中每個詞都有一個或多個類別屬性,如“擔(dān)憂”同時屬于Negative Emotion類和Anxiousness類。

2 研究方法

2.1 問題描述

以微博為研究對象,相關(guān)定義如下[8]:

定義1 微博事件定義微博事件集合E= {Ei}(0≤i

定義2 源微博源微博是指最開始發(fā)出的微博,該微博不回復(fù)其他任何微博。mi,0表示第i個微博事件的源微博。

定義3 評論評論是指直接回復(fù)源微博或回復(fù)與源微博相關(guān)微博的微博。mi,j(1≤j≤ni)表示第i個微博事件的第j條評論。

給定微博事件Ei,本文方法的目標(biāo)是學(xué)習(xí)一個分類模型CM以輸出Ei是否為謠言的判定結(jié)果,即:y=CM(Ei,θ)(θ為參數(shù)集)。如果y=1,說明Ei為謠言事件,否則Ei為正常事件。

2.2 方法描述

首先,對微博語料庫中的微博事件進(jìn)行中文分詞,獲得其中所有的事件及其對應(yīng)的詞語;然后,引入情感、語法、心理等方面知識,構(gòu)建文本特征集,在此基礎(chǔ)上挖掘事件-事件之間、事件-詞語之間、詞語-特征之間以及詞語-詞語之間的相互作用,構(gòu)建事件-詞語-特征異質(zhì)圖;最后,為區(qū)分不同類型節(jié)點的影響,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)的節(jié)點聚合方法,以此獲得事件節(jié)點的向量表達(dá)。本文方法RD_EWF執(zhí)行流程如圖1所示。其中,M為事件總數(shù),N為詞語總數(shù),S為特征總數(shù)。具體介紹如下:

圖1 RD_EWF執(zhí)行流程

2.2.1 文本特征構(gòu)建

為了綜合考慮不同類型特征對謠言檢測結(jié)果的影響,本文將構(gòu)建以下三種文本特征: 情感特征、語法特征以及語言特征。具體如下:

(1) 情感特征

情感特征來自DUTIR實驗室構(gòu)建的Emotion Ontology情感詞典[17]。該詞典是大連理工大學(xué)信息檢索研究室在林鴻飛教授的指導(dǎo)下整理和標(biāo)注的一個中文本體資源,從不同角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強度及極性等信息。如表1所示,該詞典將詞語情感共分為樂、好、怒等7個大類,21小類,共計27 466個詞語。為了體現(xiàn)不同情感傾向?qū)τ谥{言檢測結(jié)果的影響,本文使用該詞典中的21個情感小類作為情感特征集Fs。

(2) 語法特征

對于信息含量較少的微博文本而言,詞性、實體等語法特征可能包含人物、地點、時間、機構(gòu)、數(shù)量、方位等多類信息,其中的部分信息可以作為檢測謠言文本的重要依據(jù)。一般而言,信息描述越模糊,其為謠言的可能越高。例如,“某大學(xué)教授稱……”“某知名人士稱……”“研究者發(fā)現(xiàn)……”等文本并沒有明確的人物、機構(gòu)等名稱,因此它們?yōu)橹{言的可能性較大。中文詞法分析(Lexical Analysis of Chinese, LAC)模型[18]是百度研發(fā)的一款聯(lián)合的詞法分析工具,能有效實現(xiàn)中文分詞、詞性標(biāo)注、專名識別等功能。鑒于LAC模型在處理中文文本方面的優(yōu)勢,本文使用該模型獲得詞性標(biāo)簽 24個、專名實體類別標(biāo)簽4個,以此構(gòu)建語法特征集Fg。

(3) 語言特征

語言特征由評論中與用戶心理、情緒、認(rèn)知、用詞習(xí)慣等相關(guān)的詞語所歸屬的類別構(gòu)成。此類特征能較好地反映用戶的情緒變化、心理狀態(tài)、用詞習(xí)慣等特點,因此包含與謠言檢測相關(guān)的重要信息。本文根據(jù)C-LIWC中文語言分析工具[16],將其整理的6 862個詞語所歸屬的72個類別作為語言特征集Fl。部分語言特征及其代表性詞語如表2所示。

表2 部分語言特征

2.2.2 謠言檢測異質(zhì)圖構(gòu)建

首先,從訓(xùn)練集中獲取事件集E、詞語集W、文本特征集F={Fs,Fg,Fl}。在此基礎(chǔ)上,建立由E、W、F構(gòu)成的異質(zhì)圖G={V,A},A為G中節(jié)點對應(yīng)的鄰接矩陣,如圖2所示,其中,V={E,W,F},vea∈E(0≤a<5)、vwb∈W(0≤b<5)、vfc∈F(0≤c<5)。針對V中任意節(jié)點對vi、vj(0≤i,j

圖2 謠言檢測異質(zhì)圖示意

(1) 若vi∈E并且vj∈E: 根據(jù)它們之間的語義相似性建立連邊(圖2中細(xì)實線所示),連邊權(quán)重Aij為:

其中,cossim為余弦相似度函數(shù),arccos為反余弦函數(shù),xwk為詞語wk對應(yīng)的詞向量,xi、xj分別為vi、vj兩個事件中所有詞語的詞向量均值,nwi、nwj分別為vi、vj中的詞語數(shù)。

(2) 若vi∈E并且vj∈W: 如果vj出現(xiàn)在vi中,則在vi、vj之間建立連接(圖2中細(xì)虛線所示),權(quán)重Aij為vj在vi中的歸一化TF-IDF值,即:

(6)

其中,nij為詞語vj在事件vi中出現(xiàn)的數(shù)量,ncj為詞語vj出現(xiàn)的事件數(shù),M為事件總數(shù)。

(3) 若vi∈W并且vj∈W,則根據(jù)它們的共現(xiàn)情況建立連邊(圖2中粗實線所示)。采用點互信息(Pointwise Mutual Information, PMI)[19]來計算語料庫中詞語和詞語之間的連接權(quán)重Aij,定義如下:

其中,p(vi)為詞語vi在事件中出現(xiàn)的概率,p(vi,vj)為詞語vi與詞語vj在事件中同時出現(xiàn)的概率,ncij為詞語vi、vj同時出現(xiàn)的事件數(shù)量。

(4) 若vi∈W并且vj∈F: 如果vi屬于vj對應(yīng)的詞語集,則在vi、vj之間建立連邊(圖2中粗虛線所示),令A(yù)ij=Aji=1。

2.2.3 節(jié)點嵌入

(10)

其中,exp為以e為底的指數(shù)函數(shù),σ為Relu激活函數(shù),||為向量拼接操作,We1為參數(shù)矩陣,ek0為原微博vk0中所含詞語向量的均值向量,ekl為原微博的第l條評論中所含詞語向量的均值向量。在此基礎(chǔ)上,獲得事件vk對應(yīng)的節(jié)點向量xek,如式(11)所示。

(11)

其中,We2為參數(shù)矩陣。由于xfj與xwi、xek維度不同,進(jìn)一步通過前饋神經(jīng)網(wǎng)絡(luò)將其映射到一個維度相同的空間內(nèi),即:

xfj=σ(xfjWe3+bf)

(12)

其中,We3∈R|F|×d、bf∈R1×d為訓(xùn)練參數(shù)矩陣。

2.2.4 節(jié)點采樣與聚合

由于2.2.2節(jié)所構(gòu)建的謠言檢測異質(zhì)圖G規(guī)模較大,直接在該圖上使用節(jié)點分類算法將面臨計算開銷較大的問題。GraphSAGE算法[21]首先通過采樣鄰居的策略,將節(jié)點訓(xùn)練由全圖訓(xùn)練方式轉(zhuǎn)換為以節(jié)點為中心的小批量訓(xùn)練方式,使得大規(guī)模圖數(shù)據(jù)的分布式訓(xùn)練成為可能。此外,GraphSAGE對鄰居節(jié)點的聚合操作進(jìn)行了拓展,提出平均聚合、LSTM聚合、池化聚合等方法以提高節(jié)點表達(dá)的準(zhǔn)確性。本文利用GraphSAGE的上述優(yōu)勢,通過采樣得到圖G的子圖實現(xiàn)一種高效、可歸納的謠言檢測過程。如圖3所示,針對每個事件節(jié)點vi,首先,在一階(k=1)采樣過程中我們將獲取vi鄰居中的全部詞語節(jié)點并獲得vi鄰居中連邊權(quán)重最大的ns(ns=10)個事件節(jié)點;然后,為控制節(jié)點集規(guī)模,在第二、三階采樣中,分別針對vi的一階采樣結(jié)果中的每個節(jié)點vj,通過隨機采樣方法獲得vj的ns(ns=10)個鄰居節(jié)點;最后,利用上述采樣所得節(jié)點集Vi={Vij}(Vij為在第j階采樣過程中得到的節(jié)點集)及對應(yīng)鄰接矩陣Ai構(gòu)建子圖Gi。

如圖3所示,RD_EWF采樣方向按照階段k=1,2,3依次向外,而節(jié)點聚合過程則與采樣方向相反。由于每個節(jié)點的鄰居節(jié)點可能類型不同(如事件節(jié)點的鄰居可能為詞語節(jié)點或者事件節(jié)點,而詞語節(jié)點的鄰居可能為詞語節(jié)點、事件節(jié)點或者特征節(jié)點),HGAT[22]通過異質(zhì)圖注意力網(wǎng)絡(luò)來考慮不同類型信息的異構(gòu)性,并利用雙層注意力機制捕獲不同鄰居節(jié)點和不同節(jié)點類型對特定節(jié)點的重要性。但是,該方法在所有節(jié)點上進(jìn)行訓(xùn)練,因此難以適用于規(guī)模較大的圖結(jié)構(gòu)數(shù)據(jù)。為此,本文在GraphSAGE基礎(chǔ)上結(jié)合HGAT來為不同類型節(jié)點連邊賦予注意力權(quán)重,以此在提高節(jié)點計算效率的同時區(qū)分不同鄰居節(jié)點對當(dāng)前節(jié)點的影響。在子圖Gi的第k層聚合過程中,本文基于GraphSAGE和HGAT的節(jié)點聚合過程(GS_HGAT)描述如下:

(13)

(16)

其中,Wh為訓(xùn)練參數(shù)矩陣。

2.2.5 謠言分類

(17)

其中,Wo為訓(xùn)練參數(shù)矩陣,hij為vi的第j個鄰居節(jié)點vij的隱狀態(tài)向量,BiGRU({hij})函數(shù)輸出詞語序列{vij}對應(yīng)的句向量。在此基礎(chǔ)上,將hi輸入到全連接層中,并結(jié)合其實際類別及交叉熵函數(shù)來使損失最小化,如式(18)、式(19)所示。

可見,為提高模型針對圖節(jié)點的學(xué)習(xí)能力,RD_EWF綜合考慮了事件、詞語、特征三類節(jié)點之間的相互影響,通過引入情感、語法、心理等方面的知識,解決傳統(tǒng)方法單純利用評論詞語信息導(dǎo)致的模型表達(dá)能力不足的問題。此外,為保證模型的高效性及針對新評論的學(xué)習(xí)能力,本文通過隨機采樣構(gòu)建謠言檢測子圖,利用基于GraphSAGE和HGAT的節(jié)點聚合方法(GS_HGAT)在區(qū)分不同類型節(jié)點影響的同時提升了模型的泛化學(xué)習(xí)能力。

3 實驗結(jié)果與分析

3.1 實驗設(shè)置

如表3所示,本文使用Rumdect[24]和CED[7]兩個公開數(shù)據(jù)集驗證模型的有效性,采用7:1:2的比例將數(shù)據(jù)集切分為訓(xùn)練集、驗證集與測試集。

表3 實驗數(shù)據(jù)集

為驗證RD_EWF在謠言檢測領(lǐng)域的有效性,將其與11個典型基準(zhǔn)方法進(jìn)行對比,具體包括: ①傳統(tǒng)機器學(xué)習(xí)方法: 樸素貝葉斯(Naive Bayes, NB)[25]、邏輯回歸(Logistic Regression, LR)[26]以及隨機森林(Random Forest, RF)[26]; ②基于深度學(xué)習(xí)的方法: FastText[27]、TextCNN[28]、BiGRU-CNN[29]、TextGCN[30]、TextING[31]、I-BERT-LSTM[32]、dEFEND[33]、Bi-GCN[12]、RumorGCN[34]及GLAN[35]。實驗參數(shù)設(shè)定如下: 節(jié)點丟棄率Dropout_rate=0.5,輪次Epoch=100,學(xué)習(xí)率Learning_rate=0.005,批大小Batch_size=100,詞向量維度Word_dim=256。為了避免實驗誤差,針對每種方法取50次實驗平均值作為最終的實驗結(jié)果。

上述方法的參數(shù)設(shè)置如表4所示。

表4 參數(shù)設(shè)置

3.2 評價指標(biāo)

本文采用準(zhǔn)確率(Accuracy)與F1值來衡量謠言檢測方法的分類效果,定義如式(20)、式(21)所示[35]。

式(20)中TP是預(yù)測為謠言且實際為謠言的樣本數(shù),FN是預(yù)測為非謠言但實際為謠言的樣本數(shù),FP是實際為非謠言但被預(yù)測為謠言的樣本數(shù),TN是實際為非謠言且被預(yù)測為非謠言的樣本數(shù)。式(21)中精確率(Precision)與召回率(Recall)指標(biāo)定義如式(22)、式(23)所示。

3.3 隱藏層維度取值影響

為獲得最優(yōu)的隱藏層維度d,分別令d=128、256、512、1 024,并統(tǒng)計RD_EWF在Rumdect與CED數(shù)據(jù)集上對應(yīng)的Accuracy值和F1值,結(jié)果如圖4所示。由圖知,當(dāng)隱藏層的維度小于256時,本文對應(yīng)的Accuracy值和F1值均呈現(xiàn)上升趨勢;當(dāng)d=256時,本文在Rumdect數(shù)據(jù)集上獲得最大Accuracy值(0.938)和F1值(0.934),在CED數(shù)據(jù)集上獲得最大Accuracy值(0.916)和F1值(0.914);當(dāng)隱藏層的維度大于256時,模型對應(yīng)的結(jié)果呈現(xiàn)下降趨勢。究其原因,過低的嵌入維度可能使得隱藏向量包含的特征信息較少,導(dǎo)致模型的特征表達(dá)能力不足,而過高的嵌入維度將使得模型出現(xiàn)過擬合或者欠擬合問題,繼而降低了算法的分類性能。由于當(dāng)d=256時本文獲得最高的Accuracy值和F1值,因此這里設(shè)定默認(rèn)隱藏層維度為256。

圖4 隱藏層維度的影響

3.4 圖節(jié)點聚合方法比較

為驗證本文提出的基于GraphSAGE和HGAT的圖節(jié)點聚合方法(GS_HGAT)在提升節(jié)點表示方面的有效性,這里將其與以下兩種方法進(jìn)行對比:

(1)GS: 使用本文采樣方法獲得節(jié)點子圖,然后直接使用基于LSTM聚合器的GraphSAGE算法[21]生成圖節(jié)點表達(dá)。

(2)GS_GAT: 使用本文采樣方法獲得節(jié)點子圖,然后使用圖注意力網(wǎng)絡(luò)(Graph Attention Network, GAT)[36]生成圖節(jié)點表達(dá)。

在此基礎(chǔ)上,我們將上述不同方法在不同數(shù)據(jù)集上進(jìn)行比較,當(dāng)采樣鄰居節(jié)點數(shù)量n取2、4、 6、…、20時統(tǒng)計不同方法對應(yīng)的Accuracy值和F1值,結(jié)果如圖5、圖6所示。由圖知,隨著ns值的增大,不同方法對應(yīng)的結(jié)果均呈現(xiàn)出逐漸增加的趨勢,原因在于在圖節(jié)點信息聚合過程中采樣更多的鄰居節(jié)點能夠豐富節(jié)點語義信息,提高節(jié)點特征表示的完整性。但是,隨著ns值繼續(xù)增加,不難發(fā)現(xiàn)上述方法在不同數(shù)據(jù)集上的表現(xiàn)均呈現(xiàn)下降趨勢,例如當(dāng)使用CED數(shù)據(jù)集時,GS方法在ns=12時取得最大的Accuracy值和F1值,但當(dāng)ns=20時,該方法對應(yīng)結(jié)果下降了超過0.01??梢?適當(dāng)增加ns值能提高節(jié)點表示學(xué)習(xí)的準(zhǔn)確性,但是ns值過大容易帶來較多的冗余特征信息,在提高算法計算開銷的同時降低信息聚合效果。

圖5 不同聚合方法在Rumdect數(shù)據(jù)集上的比較

進(jìn)一步地,通過對比GS與GS_GAT發(fā)現(xiàn)后者對應(yīng)的結(jié)果普遍高于前者對應(yīng)的結(jié)果,這是因為GS方法在節(jié)點聚合過程中僅根據(jù)連邊權(quán)重來獲得鄰居節(jié)點的加權(quán)結(jié)果,而GS_GAT方法則計算了鄰居節(jié)點的注意力權(quán)重大小,繼而能區(qū)分不同鄰居節(jié)點對聚合結(jié)果的貢獻(xiàn)程度,提高節(jié)點表示的準(zhǔn)確性。對比GS_HGAT和GS_GAT時發(fā)現(xiàn),前者對應(yīng)的結(jié)果普遍偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時,GS_HGAT在ns=6時對應(yīng)的Accuracy值比GS_GAT方法高出0.013;當(dāng)使用CED數(shù)據(jù)集時,GS_HGAT在ns=20時對應(yīng)的F1值比GS_GAT算法高出0.008,這說明在節(jié)點聚合過程中同時考慮節(jié)點權(quán)重與節(jié)點類型權(quán)重,能有效提高模型對于節(jié)點表示的學(xué)習(xí)能力,提升謠言檢測效果。

3.5 消融實驗

這里在RD_EWF的基礎(chǔ)上進(jìn)行調(diào)整,衍生出以下幾種變體方法并將其與本文進(jìn)行比較:

(1)RD_E_noC: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測異質(zhì)圖,并且在計算事件初始化嵌入表達(dá)時不考慮評論文本的影響。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達(dá),并利用公式(18)、(19)進(jìn)行模型訓(xùn)練。

(2)RD_E: 區(qū)別于RD_EWF,僅使用事件構(gòu)建謠言檢測異質(zhì)圖。此外,利用基于平均聚合的GraphSAGE算法獲得事件的最終嵌入表達(dá),并利用公式(18)、(19)進(jìn)行模型訓(xùn)練。

(3)RD_EW: 區(qū)別于RD_EWF,該方法僅使用事件及詞語構(gòu)建謠言檢測異質(zhì)圖。

(4)RD_EW_senF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的情感特征構(gòu)建謠言檢測異質(zhì)圖。

(5)RD_EW_entF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的語法特征構(gòu)建謠言檢測異質(zhì)圖。

(6)RD_EW_linF: 區(qū)別于RD_EWF,該方法使用事件、詞語以及文本特征中的語言特征構(gòu)建謠言檢測異質(zhì)圖。

在此基礎(chǔ)上,我們統(tǒng)計了上述方法在不同數(shù)據(jù)集上對應(yīng)的Accuracy值和F1值,結(jié)果如表5所示。由表5可知:

表5 本文方法與不同變體方法的比較

(1) 與未使用評論信息的RD_E_noC方法相比,RD_E對應(yīng)的結(jié)果明顯偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時,RD_E相對于RD_E_noC在Accuracy值與F1值方面分別提升0.039和0.043,這說明評論文本對于檢測事件是否為謠言具有重要作用。

(2) 對比RD_EW和RD_E發(fā)現(xiàn),前者在不同數(shù)據(jù)集上對應(yīng)的Accuracy值與F1值相對后者均偏高,驗證了本文使用BiGRU融合文本詞語的上下文序列化信息對于提升事件節(jié)點表達(dá)精度的有效性。

(3) 進(jìn)一步發(fā)現(xiàn),與未使用文本特征的RD_EW方法相比,結(jié)合部分文本特征的RD_EW_senF、RD_EW_entF及RD_EW_linF方法對應(yīng)的Accuracy值與F1值普遍偏高。例如,當(dāng)使用Rumdect數(shù)據(jù)集時,RD_EW_senF相對于RD_EW_noF在Accuracy值與F1值方面分別提升0.006和0.002,RD_EW_linF相對于RD_EW在Accuracy值與F1值方面分別提升0.013和0.011,說明在事件、詞語等信息基礎(chǔ)上考慮情感特征、語法特征或者語言特征能從一定程度上提高謠言檢測效果。并且,不難發(fā)現(xiàn)RD_EW_linF相對于RD_EW的性能提升程度較另外兩種方法更為明顯。究其原因,RD_EW_linF方法使用事件、詞語以及文本特征中的語言特征構(gòu)建謠言檢測異質(zhì)圖,其抽取的語言特征中除包含情感特征外,還包含心理特征、認(rèn)知特征等重要信息,因此相對于RD_EW_senF(RD_EW_entF),單純使用情感特征(語法特征)而言更有助于提高節(jié)點信息的聚合效果。

當(dāng)對比RD_EWF與其他算法表現(xiàn)時發(fā)現(xiàn),RD_EWF在不同數(shù)據(jù)集上的結(jié)果均明顯高于其他算法,這說明在謠言檢測過程中綜合考慮詞語的情感特征、語法特征、語言特征后的方法性能要優(yōu)于單純使用其中一種特征時的方法性能,進(jìn)一步驗證了本文引入的文本特征對于提升謠言檢測效果的有效性。

3.6 與現(xiàn)有典型方法的比較

本文將RD_EWF與13個典型方法進(jìn)行對比,結(jié)果如表6所示。其中,所有方法中的最優(yōu)結(jié)果用粗體表示,次優(yōu)結(jié)果使用下劃線表示。由表6可知:

表6 不同方法的實驗結(jié)果 (單位: %)

(1) 基于深度學(xué)習(xí)模型的文本分類方法在不同數(shù)據(jù)集上的表現(xiàn)均優(yōu)于NB、LR、RF等傳統(tǒng)分類方法,原因在于前者方法能更好地挖掘謠言信息的隱含特征,而傳統(tǒng)分類方法只是使用簡單的詞袋模型表示事件文本,丟失了文本上下文語義、詞語順序等重要信息。進(jìn)一步發(fā)現(xiàn),I-BERT-LSTM結(jié)果相對于TextCNN、BiGRU-CNN、TextGCN、TextING等方法普遍偏高,這是由于TextCNN等方法直接將整個微博事件對應(yīng)的文本信息作為模型輸入,而I-BERT-LSTM利用TextRank算法獲得微博事件對應(yīng)的文本摘要,因此能有效避免截取有限長度序列帶來的關(guān)鍵信息丟失問題。

(2) 當(dāng)將dEFEND與TextCNN、TextGCN、I-BERT-LSTM等方法比較時發(fā)現(xiàn),前者對應(yīng)結(jié)果明顯偏高,說明將原始微博劃分成句子并結(jié)合互注意力機制細(xì)化句子與相關(guān)評論的關(guān)系能較好地提升謠言檢測效果。

(3) 相對于Bi-GCN,RumorGCN對應(yīng)結(jié)果均有所提升,這是因為Bi-GCN僅僅考慮傳播樹中父子節(jié)點之間形成的層間依賴關(guān)系,而RumorGCN共同顯式建模層間依賴關(guān)系和兄弟節(jié)點之間形成的層內(nèi)依賴關(guān)系,因此能聚合不同依賴關(guān)系下的局部鄰域信息,繼而學(xué)習(xí)到更準(zhǔn)確、更豐富的傳播結(jié)構(gòu)特征。

(4) 通過比較RD_EWF和其他方法發(fā)現(xiàn),前者除在CED數(shù)據(jù)集上的Accuracy值低于dEFEND方法對應(yīng)結(jié)果外,在其他情況下均獲得最優(yōu)實驗結(jié)果。究其原因: ①本文構(gòu)建的謠言檢測異質(zhì)圖在傳統(tǒng)評論、詞語信息的基礎(chǔ)上引入情感、語法、心理等知識,綜合了事件、詞語以及文本特征三方面之間的相互影響,豐富了節(jié)點向量表達(dá)中所含的特征信息; ②本文提出的基于GraphSAGE和HGAT的節(jié)點聚合方法不僅能區(qū)分不同鄰居節(jié)點的重要性,還考慮了不同節(jié)點類型對于聚合結(jié)果的貢獻(xiàn),避免了TextING、Bi-GCN、RumorGCN等方法單純考慮鄰居節(jié)點重要性而導(dǎo)致的節(jié)點表示不準(zhǔn)確的問題。

3.7 微博評論數(shù)量影響分析

由于謠言傳播較為迅速,因此能否及時地對尚未被評論或者較少被評論過的微博事件進(jìn)行正確檢測是衡量謠言檢測算法性能的重要標(biāo)準(zhǔn)。為此,這里根據(jù)3.6節(jié)結(jié)果選取了4種表現(xiàn)較好的謠言檢測算法I-BERT-LSTM、RumorGCN、dEFEND和GLAN,并將它們與本文RD_EWF方法進(jìn)行對比以分析評論數(shù)量對不同方法的影響。為了仿真那些尚未被評論或者較少被評論的微博信息,我們隨機選擇測試集中10%的微博事件,然后針對每個事件只保留其中10%的評論信息。在此基礎(chǔ)上,我們在數(shù)據(jù)集Rumdect與CED上統(tǒng)計了每種方法對應(yīng)的Accuracy值和F1值,結(jié)果如圖7、圖8所示。

圖7 微博評論數(shù)量對不同方法的影響

圖8 微博評論數(shù)量對不同方法的影響

由圖知,隨著測試集中部分微博評論數(shù)減少,上述方法對應(yīng)性能均呈現(xiàn)出不同程度的下降,說明微博評論中蘊含著較多與謠言檢測相關(guān)的信息。進(jìn)一步發(fā)現(xiàn),dEFEND對應(yīng)結(jié)果普遍高于I-BERT-LSTM、RumorGCN和GLAN,說明關(guān)注原始微博不同句子之間以及句子與評論之間的語義關(guān)聯(lián)性能較好地保證謠言檢測效果。與I-BERT-LSTM和GLAN相比,RumorGCN對應(yīng)結(jié)果稍高,可能原因是前兩種算法只關(guān)注評論信息之間的內(nèi)容相關(guān)性,忽略了評論之間實際轉(zhuǎn)發(fā)關(guān)系對謠言檢測結(jié)果的影響。對比RD_EWF與其他算法發(fā)現(xiàn),本文對應(yīng)的Accuracy值和F1值在不同數(shù)據(jù)集上均獲得最大值,雖然相對于表6中的表現(xiàn)有所下降,但所得結(jié)果仍明顯高于其他算法??梢?由于本文在考慮原始微博和評論信息的基礎(chǔ)上進(jìn)一步結(jié)合了不同事件之間的相關(guān)性,因此能在評論較少的情況下根據(jù)事件之間的相互聯(lián)系學(xué)習(xí)到對分類有用的重要信息,繼而提高針對尚未被評論或者有較少評論的微博信息的檢測能力。

4 結(jié)束語

本文提出了一種基于事件-詞語-特征異質(zhì)圖的微博謠言檢測新方法RD_EWF,主要貢獻(xiàn)包括: ①在微博原文及評論內(nèi)容信息基礎(chǔ)上,引入了由情感特征、語法特征以及語言特征構(gòu)成的文本特征的概念,將微博事件、文本詞語、文本特征作為節(jié)點構(gòu)建事件-詞語-特征異質(zhì)圖,解決了現(xiàn)有方法單純利用文本內(nèi)容導(dǎo)致節(jié)點信息表達(dá)不充分的問題; ②綜合考慮事件-事件之間、事件-詞語之間、詞語-詞語之間以及詞語-特征之間的相互作用,提出基于GraphSAGE和異質(zhì)圖注意力網(wǎng)絡(luò)的節(jié)點聚合方法GS_HGAT,以此區(qū)分不同類型節(jié)點的影響,在保證模型可歸納的同時提高節(jié)點表示的準(zhǔn)確性。在兩個典型謠言檢測數(shù)據(jù)集上的實驗結(jié)果表明,RD_EWF相對于傳統(tǒng)文本分類方法及深度學(xué)習(xí)方法在提升微博謠言檢測準(zhǔn)確性方面具有明顯優(yōu)勢。未來計劃將該方法推廣至標(biāo)題黨識別、虛假信息識別等相關(guān)領(lǐng)域。

猜你喜歡
謠言詞語節(jié)點
容易混淆的詞語
CM節(jié)點控制在船舶上的應(yīng)用
中國使館駁斥荒謬謠言
Analysis of the characteristics of electronic equipment usage distance for common users
找詞語
基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
當(dāng)謠言不攻自破之時
詞語欣賞
謠言
謠言大揭秘
平舆县| 黄大仙区| 宁国市| 长沙市| 闸北区| 富源县| 柏乡县| 邹城市| 东兰县| 永清县| 仁化县| 曲松县| 锦州市| 泗洪县| 法库县| 霍州市| 桃园市| 申扎县| 宜城市| 宿州市| 乐平市| 缙云县| 和林格尔县| 阿拉善左旗| 天祝| 松滋市| 五原县| 田林县| 抚顺市| 恩施市| 民丰县| 湖口县| 蒙自县| 鄂托克旗| 介休市| 铜川市| 阿拉善左旗| 乳山市| 东海县| 维西| 平塘县|