胡 斗 衛(wèi)玲蔚 周 薇 淮曉永 韓冀中 虎嵩林
1(華北計(jì)算機(jī)系統(tǒng)工程研究所 北京 100083)
2(中國科學(xué)院信息工程研究所 北京 100093)
3(中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京 100049)
隨著社交媒體的快速發(fā)展,用戶生產(chǎn)內(nèi)容(user generated content, UGC)以此為載體可以迅速得到廣泛傳播、獲取大量受眾,大大加速人們信息交流的速度與深度.然而,在獲取便利的同時(shí),社交媒體也滋生許多網(wǎng)絡(luò)謠言,成為造謠、傳謠的主要領(lǐng)地,謠言依附新的媒介,呈現(xiàn)出爆發(fā)式的增長和泛濫傳播[1].謠言前所未有的迅猛之勢(shì)對(duì)人類社會(huì)產(chǎn)生著巨大的影響,極大程度上擾亂了正常的社會(huì)秩序[2-3].檢測(cè)網(wǎng)絡(luò)中的謠言不僅能夠促進(jìn)清朗的網(wǎng)絡(luò)空間建設(shè),還能幫助人們迅速甄別有效信息,對(duì)社會(huì)的穩(wěn)定快速發(fā)展具有重大的現(xiàn)實(shí)意義.
謠言(rumor),是指一種從一個(gè)人傳到另一個(gè)人的故事[4],其真實(shí)性一開始都是未經(jīng)證實(shí)的,而其中一些后來被證明是真的(即真謠言)或被發(fā)現(xiàn)是假的(即假謠言),還有一些始終未被證實(shí)(即未經(jīng)證實(shí)的謠言)[5].謠言檢測(cè)(rumor detection)任務(wù)旨在確定謠言的真實(shí)性[6].與主要關(guān)注于新聞(news)文章的虛假新聞檢測(cè)(fake news detection)[7]任務(wù)不同,謠言檢測(cè)任務(wù)涉及的話題更廣,同時(shí)是一個(gè)更加細(xì)粒度的分類任務(wù).
謠言檢測(cè)的早期研究基于博文內(nèi)容[8-12]展開.但是,隨著謠言檢測(cè)技術(shù)的不斷升級(jí),謠言的偽裝能力也在動(dòng)態(tài)變化.例如,謠言的發(fā)布者常常會(huì)學(xué)習(xí)真實(shí)信息的寫作特點(diǎn)和風(fēng)格,故意模仿、偽造真實(shí)信息來逃避檢測(cè)[13].因此,單純基于博文內(nèi)容檢測(cè)方法,并不能有效地識(shí)別謠言.與博文內(nèi)容相比,謠言的傳播模式往往與真實(shí)信息的傳播存在較大差異,且這類差異很難被隱藏.基于此,對(duì)信息傳播結(jié)構(gòu)的分析和探索成為了當(dāng)下謠言檢測(cè)研究的熱點(diǎn)之一.
為了探究謠言的傳播特征,一些謠言檢測(cè)方法主要通過統(tǒng)計(jì)傳播規(guī)律,人為構(gòu)建特征[14-17],利用傳統(tǒng)的機(jī)器學(xué)習(xí)方法識(shí)別謠言.此類方法依賴于繁重的特征工程,十分耗時(shí),需要大量人力資源,并且人為構(gòu)建的特征主觀性較強(qiáng),缺乏高階的特征表示.近期,研究學(xué)者利用深度學(xué)習(xí)模型,提出很多有效的謠言檢測(cè)方法[6,18-25].近期,基于圖模型的方法[26-28]利用圖神經(jīng)網(wǎng)絡(luò)建模傳播樹結(jié)構(gòu)特征,將謠言檢測(cè)任務(wù)轉(zhuǎn)化為圖分類任務(wù),也取得了一定的成果.然而,這些方法僅關(guān)注了傳播過程中博文之間的顯式交互關(guān)系,如轉(zhuǎn)發(fā)(或評(píng)論)關(guān)系,難以捕捉到復(fù)雜多樣的傳播結(jié)構(gòu)特征,限制了謠言檢測(cè)的性能.
在現(xiàn)實(shí)的信息傳播過程中,用戶是否轉(zhuǎn)發(fā)(或評(píng)論)某條源博文,不僅取決于該條博文內(nèi)容的影響,還可能會(huì)受到已轉(zhuǎn)發(fā)(或評(píng)論)過該條博文的其他博文的影響.如圖1所示,社交網(wǎng)絡(luò)用戶通過轉(zhuǎn)發(fā)(或評(píng)論)行為傳播謠言源內(nèi)容,形成謠言的多級(jí)傳播結(jié)構(gòu)[29].本文發(fā)現(xiàn),該謠言傳播結(jié)構(gòu)中包含2種不同類型的依賴關(guān)系,分別是層間依賴關(guān)系和層內(nèi)依賴關(guān)系.1)層間依賴關(guān)系是指在相鄰層級(jí)之間,父節(jié)點(diǎn)與其子節(jié)點(diǎn)之間的依賴關(guān)系,反映了謠言傳播過程中,轉(zhuǎn)發(fā)(或評(píng)論)博文與被轉(zhuǎn)發(fā)(或被評(píng)論)博文之間的直接影響.2)層內(nèi)依賴關(guān)系是指在同一層級(jí)下,同一父節(jié)點(diǎn)的孩子節(jié)點(diǎn)之間的依賴關(guān)系,反映了層級(jí)內(nèi)的某條博文受到其他同級(jí)傳播內(nèi)容的潛在影響.這種層內(nèi)依賴表現(xiàn)2個(gè)方面的特征:①局部的時(shí)序性特征,即先發(fā)布的博文對(duì)后發(fā)布博文產(chǎn)生一定的影響;②對(duì)同一博文的轉(zhuǎn)發(fā)(或評(píng)論)內(nèi)容越相似,更有可能形成這種層內(nèi)依賴關(guān)系.現(xiàn)有的大多數(shù)研究僅僅考慮父子節(jié)點(diǎn)之間顯式的層間依賴關(guān)系,而忽略了潛在的兄弟節(jié)點(diǎn)之間的層內(nèi)依賴關(guān)系,難以捕捉到豐富的傳播結(jié)構(gòu)特征,限制了謠言檢測(cè)的性能.
Fig. 1 Multi-relational dependences in a rumor propagation structure圖1 謠言傳播結(jié)構(gòu)中的多種依賴關(guān)系
本文提出一種基于多關(guān)系傳播樹的謠言檢測(cè)方法,共同建模傳播樹中父子節(jié)點(diǎn)之間的層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間的層內(nèi)依賴關(guān)系.該方法基于博文文本內(nèi)容和傳播樹結(jié)構(gòu)信息,先構(gòu)建自頂向下傳播方向和自底向上擴(kuò)散方向的異構(gòu)圖,然后利用多關(guān)系圖卷積網(wǎng)絡(luò)建模復(fù)雜的傳播結(jié)構(gòu)特征,并通過聚合2個(gè)方向的節(jié)點(diǎn)特征生成最終的特征向量表示,用于謠言檢測(cè).
在謠言傳播過程中,謠言源博文往往包含更豐富的信息內(nèi)容,其他轉(zhuǎn)發(fā)(或評(píng)論)博文與謠言源博文之間存在密切的關(guān)系.此外,除了謠言發(fā)布者,一些關(guān)鍵傳播用戶通過調(diào)動(dòng)用戶分享信息的積極性,在整個(gè)謠言傳播的過程中也起著重要的中介作用.Soroush等人[1]分析Twitter平臺(tái)的謠言傳播模式發(fā)現(xiàn),與真實(shí)消息相比,謠言傳播的影響范圍更廣,真實(shí)消息在任意一個(gè)層級(jí)上參與轉(zhuǎn)發(fā)的最多人數(shù)達(dá)到1 000以上,而謠言的最大轉(zhuǎn)發(fā)數(shù)最多可達(dá)萬級(jí).本文認(rèn)為,源博文和關(guān)鍵傳播博文均對(duì)謠言的傳播有著廣泛的影響.然而,現(xiàn)有研究[30]僅僅考慮謠言源博文在傳播過程中的重要影響.為了充分考慮這2類重要博文在傳播過程中的潛在影響,本文提出一種關(guān)鍵節(jié)點(diǎn)增強(qiáng)的策略,利用傳播樹中根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn),增強(qiáng)傳播樹中節(jié)點(diǎn)的特征向量表示,擴(kuò)大重要博文的影響力,從而提升謠言檢測(cè)性能.
本文的貢獻(xiàn)主要包含4個(gè)方面:
1) 首次探究博文在傳播過程中的多種交互關(guān)系,以挖掘更準(zhǔn)確的謠言傳播規(guī)律,而現(xiàn)有研究僅考慮顯式的轉(zhuǎn)發(fā)(或評(píng)論)交互關(guān)系;
2) 提出一種基于傳播樹的多關(guān)系圖卷積網(wǎng)絡(luò)模型,共同建模傳播樹中父子節(jié)點(diǎn)之間的層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間的層內(nèi)依賴關(guān)系,以捕獲豐富的傳播結(jié)構(gòu)特征;
3) 提出一種關(guān)鍵節(jié)點(diǎn)增強(qiáng)的策略,利用傳播樹中的關(guān)鍵節(jié)點(diǎn)建模源博文和關(guān)鍵傳播博文在信息傳播中的潛在影響力;
4) 在3個(gè)社交網(wǎng)絡(luò)數(shù)據(jù)集上評(píng)估模型,實(shí)驗(yàn)結(jié)果表明,本文方法具有比其他基線方法更高的謠言檢測(cè)性能,并且在早期傳播階段也可有效地識(shí)別謠言.
已有的謠言檢測(cè)方法大致可分為:1)以博文內(nèi)容和用戶信息為主要特征的謠言檢測(cè)方法;2)以傳播結(jié)構(gòu)信息為主要特征的謠言檢測(cè)方法.
謠言檢測(cè)的早期研究[6,11-12,30-31]基于博文內(nèi)容構(gòu)建人工特征,利用機(jī)器學(xué)習(xí)分類模型實(shí)現(xiàn)謠言檢測(cè).例如,Chua等人[8]通過分析文本內(nèi)容的可理解性、情感、寫作風(fēng)格、主題等6類特征,通過邏輯回歸分類器識(shí)別謠言;Castillo等人[9]基于人工構(gòu)建的文本特征,研究信息可信度,利用決策樹模型完成謠言的分類任務(wù);劉政等人[25]通過卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional neural network, CNN)自動(dòng)挖掘文本深層的特征.除了文本特征,一些研究也基于博文的圖像或音頻等內(nèi)容構(gòu)建統(tǒng)計(jì)特征[7]、內(nèi)容特征[32],用于檢測(cè)社交媒體中的謠言.
但是,Sharma等人[13]指出,謠言發(fā)布者常常故意模仿、偽造真實(shí)信息來逃避檢測(cè),單純基于博文內(nèi)容的檢測(cè)方法,并不能有效地識(shí)別謠言.一些研究[9-10,33-36]考慮引入用戶信息輔助博文內(nèi)容進(jìn)行謠言檢測(cè).廖祥文等人[23]利用帶有注意力機(jī)制的雙向門控循環(huán)單元(gated recurrent unit, GRU)模塊,提取文本潛在特征和局部用戶特征,用于謠言檢測(cè).Shu等人[37]引入用戶畫像特征,利用多個(gè)機(jī)器學(xué)習(xí)模型識(shí)別謠言,檢測(cè)性能得到一定的提升.
基于傳播結(jié)構(gòu)的謠言檢測(cè)方法通常分析博文轉(zhuǎn)發(fā)(評(píng)論)等形成的傳播路徑或網(wǎng)絡(luò)以識(shí)別謠言.早期方法主要基于傳統(tǒng)的特征工程人工提取特征來完成謠言的分類[11,14-15,17,38].例如,Ma等人[16]利用時(shí)序特征建模社交上下文特征,從而識(shí)別社交網(wǎng)絡(luò)中的謠言信息;Ma等人[17]提出基于內(nèi)核的傳播樹方法,通過評(píng)估傳播樹之間的相似性來識(shí)別謠言;Wu等人[29]提出基于核的謠言檢測(cè)模型;蔡國永等人[39]提出基于隨機(jī)通路圖核和RBF核的混合核方法,利用支持向量機(jī)(support vector machine, SVM)進(jìn)行謠言檢測(cè);劉徹等人[40]提出一種改進(jìn)的IMPA算法,以提升檢測(cè)謠言源的性能.但是,這些方法依賴于繁重的特征工程,同時(shí)缺乏高階的特征表示.
之后,研究學(xué)者利用深度學(xué)習(xí)模型建模傳播結(jié)構(gòu),提出很多有效的謠言檢測(cè)方法[19-20,28,41-48].例如,Ma等人[6]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)對(duì)傳播結(jié)構(gòu)進(jìn)行建模.Liu等人[49]使用RNN對(duì)傳播路徑建模,完成早期階段的謠言檢測(cè)任務(wù);Ma等人[18]使用遞歸神經(jīng)網(wǎng)絡(luò)分別建模傳播樹自頂向下的傳播方向和自底向上的擴(kuò)散方向;隨后,Chen等人[21]將CNN與注意力殘差網(wǎng)絡(luò)模型相結(jié)合,提高模型捕獲長距離依賴的能力;Chen等人[22]利用CNN來提取分散在輸入序列中的關(guān)鍵特征,有助于模型有效地識(shí)別謠言,尤其是在早期階段的謠言檢測(cè)中;Muhammad等人[41]也嘗試結(jié)合CNN和LSTM的優(yōu)點(diǎn),學(xué)習(xí)更豐富的特征表示,用于識(shí)別虛假信息中的立場(chǎng)類別;李力釗等人[50]結(jié)合CNN和GRU的優(yōu)點(diǎn),學(xué)習(xí)微博事件的特征表示用于謠言事件檢測(cè).
近年來,圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)[51]模型由于其強(qiáng)大的表示能力,在圖像處理[52-53]、自然語言處理[54-56]等領(lǐng)域受到廣泛關(guān)注.謠言檢測(cè)任務(wù)中,研究者們嘗試將傳播樹構(gòu)建為圖結(jié)構(gòu),從而將謠言檢測(cè)問題轉(zhuǎn)化為圖分類問題,取得了不錯(cuò)的進(jìn)展[26-28].Bian等人[26]利用圖卷積網(wǎng)絡(luò)模型,基于自頂向下和自底向上2個(gè)方向挖掘傳播樹的傳播結(jié)構(gòu)特征;Yang等人[27]在圖結(jié)構(gòu)上引入了對(duì)抗訓(xùn)練方法來提高對(duì)謠言傳播的圖表示學(xué)習(xí)能力.然而,這些方法僅關(guān)注了傳播過程中博文之間的顯式交互關(guān)系,如轉(zhuǎn)發(fā)(或評(píng)論)關(guān)系,難以捕捉到復(fù)雜多樣的傳播結(jié)構(gòu)特征,限制了謠言檢測(cè)的性能.
本文探究謠言傳播過程中的多種傳播路徑,提出一種基于多關(guān)系傳播樹的謠言檢測(cè)方法,共同建模父子節(jié)點(diǎn)之間的層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間的層內(nèi)依賴關(guān)系,為每個(gè)節(jié)點(diǎn)學(xué)習(xí)更準(zhǔn)確的特征向量表示.此外,考慮到傳播過程中關(guān)鍵節(jié)點(diǎn)的重要影響,本文提出基于關(guān)鍵節(jié)點(diǎn)增強(qiáng)的策略,建模源博文和關(guān)鍵傳播博文在傳播過程中的潛在影響力,學(xué)習(xí)更全面的謠言特征向量表示,用于提升謠言檢測(cè)性能.
本節(jié)簡述謠言和傳播樹的定義,并描述謠言檢測(cè)任務(wù)的形式化定義.
定義1.謠言(rumor)[4].謠言是一種從一個(gè)人傳到另一個(gè)人的故事,其中的真相未經(jīng)證實(shí)或值得懷疑.謠言通常出現(xiàn)在模棱兩可或有威脅的事件中.
定義2.信息傳播樹(information propagation tree)[29].一條信息對(duì)應(yīng)的發(fā)布博文和其后續(xù)所有的轉(zhuǎn)發(fā)(評(píng)論)博文,生成的傳播路徑是一個(gè)樹狀結(jié)構(gòu),通常被稱為信息傳播樹,簡稱傳播樹.其中,根節(jié)點(diǎn)表示信息發(fā)布博文(源博文),其他節(jié)點(diǎn)表示后續(xù)的轉(zhuǎn)發(fā)(或評(píng)論)博文.
給定樣本包含源博文和其后續(xù)轉(zhuǎn)發(fā)(或評(píng)論)博文的文本信息以及對(duì)應(yīng)的傳播結(jié)構(gòu)信息,謠言檢測(cè)(rumor detection)的目標(biāo)是學(xué)習(xí)一個(gè)分類器,預(yù)測(cè)其類別概率分布.
(1)
本節(jié)詳細(xì)介紹本文提出的基于多關(guān)系傳播樹的謠言檢測(cè)方法RumorGCN.為簡化描述,在本節(jié)及后續(xù)章節(jié),統(tǒng)一用“轉(zhuǎn)發(fā)博文”代替“轉(zhuǎn)發(fā)(或評(píng)論)博文”,用“被轉(zhuǎn)發(fā)博文”代替“被轉(zhuǎn)發(fā)(或被評(píng)論)博文”.
本文提出的謠言檢測(cè)方法RumorGCN的總體架構(gòu)如圖2所示,包含多關(guān)系異構(gòu)圖構(gòu)建、關(guān)鍵節(jié)點(diǎn)增強(qiáng)的多關(guān)系圖卷積網(wǎng)絡(luò)以及謠言分類器3個(gè)部分.
Fig. 2 The overall architecture of the proposed model (take the forwarding relations)圖2 基于多關(guān)系傳播樹的謠言檢測(cè)方法總體框架(以轉(zhuǎn)發(fā)關(guān)系為例)
首先,基于給定樣本中的博文文本內(nèi)容和傳播樹結(jié)構(gòu)信息,同時(shí)構(gòu)建自頂向下傳播方向和自底向上擴(kuò)散方向的多關(guān)系異構(gòu)圖.
其次,利用多關(guān)系圖卷積網(wǎng)絡(luò),共同建模傳播樹中父子節(jié)點(diǎn)之間的層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間的層內(nèi)依賴關(guān)系,以捕獲豐富的信息傳播結(jié)構(gòu)特征.接著,利用傳播樹中的根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)增強(qiáng)傳播樹中當(dāng)前節(jié)點(diǎn)的特征表示,建模重要博文在信息傳播中的潛在影響力.
最后,融合傳播樹傳播方向和擴(kuò)散方向的特征向量表示,生成樣本的特征向量表示.基于此,預(yù)測(cè)樣本屬于不同類別的概率,輸出類別標(biāo)簽.
對(duì)于每個(gè)樣本c={r,x1,x2,…,xn-1,S},基于博文文本和傳播樹結(jié)構(gòu),同時(shí)構(gòu)建自底向上(bottom-up, BU)信息擴(kuò)散方向上的多關(guān)系異構(gòu)圖GBU和自頂向下(top-down, TD)信息傳播方向上的多關(guān)系異構(gòu)圖GTD.
圖GTD包含2種類型的邊,即父節(jié)點(diǎn)與子節(jié)點(diǎn)之間形成的層間依賴關(guān)系邊以及兄弟節(jié)點(diǎn)之間形成的層內(nèi)依賴關(guān)系邊,分別代表了社交網(wǎng)絡(luò)中轉(zhuǎn)發(fā)博文與被轉(zhuǎn)發(fā)博文之間的關(guān)系以及轉(zhuǎn)發(fā)同一博文的多個(gè)轉(zhuǎn)發(fā)博文之間的關(guān)系.對(duì)于第1種類型邊,根據(jù)傳播過程中的轉(zhuǎn)發(fā)關(guān)系進(jìn)行構(gòu)建,即博文與其轉(zhuǎn)發(fā)的博文之間形成一條邊.對(duì)于第2種類型邊,轉(zhuǎn)發(fā)同一博文的轉(zhuǎn)發(fā)博文之間構(gòu)成了兄弟關(guān)系.
社交網(wǎng)絡(luò)中,先轉(zhuǎn)發(fā)的博文可能會(huì)對(duì)后轉(zhuǎn)發(fā)的博文產(chǎn)生一定的傳播影響,并且,轉(zhuǎn)發(fā)同一博文且時(shí)間相鄰的2條博文之間更有可能存在這種關(guān)系,因此,先基于轉(zhuǎn)發(fā)的時(shí)間先后順序,在每條博文的轉(zhuǎn)發(fā)博文對(duì)應(yīng)的節(jié)點(diǎn)之間構(gòu)建候選的有向時(shí)序邊.計(jì)算每條時(shí)序邊相鄰的2個(gè)節(jié)點(diǎn)特征向量xi,xj的余弦相似度,記為score(xi,xj),如果相似度得分大于預(yù)設(shè)的閾值T,即score(xi,xj)>T,這條候選的有向時(shí)序邊保留作為第2種類型邊,否則去掉該候選邊.
形式化地,對(duì)于每種類型邊,定義如下:Ek={ek,pq|p,q=0,…,n-1},k∈{inter,intra},其中,inter和intra分別表示信息傳播方向?qū)?yīng)的傳播樹STD中層間依賴關(guān)系與層內(nèi)依賴關(guān)系.鄰接矩陣用Ak表示:
(2)
例如,如圖2所示,節(jié)點(diǎn)2和節(jié)點(diǎn)3相繼轉(zhuǎn)發(fā)了節(jié)點(diǎn)1,對(duì)于傳播樹中的第1種類型邊,節(jié)點(diǎn)1和節(jié)點(diǎn)2、節(jié)點(diǎn)1和節(jié)點(diǎn)3之間構(gòu)建1條有向邊,即einter,01和einter,02;對(duì)于第2種類型邊,節(jié)點(diǎn)2和節(jié)點(diǎn)3均轉(zhuǎn)發(fā)了節(jié)點(diǎn)1,并且節(jié)點(diǎn)2轉(zhuǎn)發(fā)節(jié)點(diǎn)1早于節(jié)點(diǎn)3,則構(gòu)建1條節(jié)點(diǎn)2指向節(jié)點(diǎn)3的有向邊,即eintra,12.
為緩解圖卷積網(wǎng)絡(luò)中存在的過擬合問題,Rong等人[58]提出DropEdge方法.該方法的思想是基于一定的概率隨機(jī)失活輸入圖中的邊,從而達(dá)到緩解過擬合的目的.給定鄰接矩陣A以及失活概率η,Ne表示原圖中邊的數(shù)量,在給定圖的邊集合中隨機(jī)采樣Ne×η條邊,形成Adrop,處理后的鄰接矩陣為
A′=A-Adrop.
(3)
3.3.1 基于層間-層內(nèi)依賴關(guān)系學(xué)習(xí)節(jié)點(diǎn)表示
圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)[51]模型的基本思想是通過節(jié)點(diǎn)間的信息傳播更新節(jié)點(diǎn)的特征表示,定義一個(gè)卷積層操作,描述信息傳遞過程,通過迭代地聚合邊的信息和節(jié)點(diǎn)的信息,生成新的節(jié)點(diǎn)表示.
為了更好地建模博文之間的多種交互關(guān)系,本文采用多關(guān)系圖卷積網(wǎng)絡(luò)[59]融合不同關(guān)系下節(jié)點(diǎn)的鄰居信息,學(xué)習(xí)傳播樹的信息傳播結(jié)構(gòu)特征.具體地,為了共同建模傳播過程中的層內(nèi)依賴和層間依賴,本文聚合不同關(guān)系類型下的鄰居節(jié)點(diǎn)信息,并進(jìn)行歸一化操作,生成節(jié)點(diǎn)的隱藏特征向量表示.為了確保節(jié)點(diǎn)自身第l層到第l+1層之間的信息傳遞,為每個(gè)節(jié)點(diǎn)增加自連接,即αvv=1.
給定節(jié)點(diǎn)的初始化特征向量表示X= [xr,x1,…,xn-1]T,第1層的信息傳遞:
?v∈V,
(4)
在第2層圖卷積網(wǎng)絡(luò)中,基于第1層圖卷積網(wǎng)絡(luò)的輸出,聚合鄰居節(jié)點(diǎn)的信息:
?v∈V,
(5)
通過2層不同的圖卷積操作,可以有效累積在不同依賴關(guān)系下的局部鄰域特征.最終,基于傳播方向的異構(gòu)圖GTD和擴(kuò)散方向的異構(gòu)圖GBU,分別學(xué)習(xí)到傳播樹中的各個(gè)節(jié)點(diǎn)特征表示,記為
3.3.2 基于關(guān)鍵節(jié)點(diǎn)增強(qiáng)特征向量表示
在謠言傳播的過程中,許多用戶發(fā)布的內(nèi)容起到了推波助瀾的作用.以轉(zhuǎn)發(fā)關(guān)系為例,為了探究源博文和關(guān)鍵傳播博文在信息傳播中的潛在作用,本文利用傳播樹中的2類關(guān)鍵節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的特征進(jìn)行增強(qiáng).對(duì)于傳播樹中的任一節(jié)點(diǎn),對(duì)應(yīng)的2個(gè)關(guān)鍵節(jié)點(diǎn)分別為其根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn).
1) 根節(jié)點(diǎn).根節(jié)點(diǎn)代表源博文,包含了豐富的謠言源信息,有助于幫助學(xué)習(xí)更準(zhǔn)確的節(jié)點(diǎn)表示.給定當(dāng)前節(jié)點(diǎn)xi,該節(jié)點(diǎn)對(duì)應(yīng)的根節(jié)點(diǎn)記為xi,root,即xi,root=r.利用根節(jié)點(diǎn)增強(qiáng)特征向量表示,xi,root對(duì)應(yīng)的特征向量表示記為hroot.
(6)
其中,ODinter(xj)表示節(jié)點(diǎn)xj基于層間依賴關(guān)系的出度.例如,圖2中,節(jié)點(diǎn)9對(duì)應(yīng)的當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)為節(jié)點(diǎn)3.xi,mod對(duì)應(yīng)的特征向量,表示記為hmod.
(7)
(8)
分別聚合自頂向下傳播方向和自底向上擴(kuò)散方向中各個(gè)節(jié)點(diǎn)的特征向量表示,得到傳播樹在傳播方向和擴(kuò)散方向的特征向量表示:
(9)
(10)
最后,拼接自頂向下方向的特征向量表示和自底向上方向的特征向量表示作為該樣本最終的特征向量表示:
C=concate(CTD,CBU),
(11)
其中,concate表示向量操作.
本文將謠言檢測(cè)任務(wù)轉(zhuǎn)化為圖分類問題.基于謠言特征向量表示,通過線性層和softmax函數(shù)計(jì)算該謠言屬于每個(gè)類別的概率:
(12)
其中,Wc和bc是需要學(xué)習(xí)的參數(shù).
(13)
其中,yi是表示第i個(gè)樣本的真實(shí)標(biāo)簽向量表示,β是超參數(shù),表示L2正則化的大小,Θ是模型需要學(xué)習(xí)的所有參數(shù).
本節(jié)詳細(xì)闡述本文的實(shí)驗(yàn)設(shè)置,4.1節(jié)介紹本文實(shí)驗(yàn)所用到的3個(gè)真實(shí)評(píng)測(cè)數(shù)據(jù)集,Twitter 15[17],Twitter 16[17]和PHEME[5].4.2節(jié)簡要地描述本文所選取的基線方法.4.3節(jié)描述實(shí)驗(yàn)評(píng)估指標(biāo).4.4節(jié)記錄實(shí)驗(yàn)的主要參數(shù)設(shè)置.
本文將在Twitter 15,Twitter 16和PHEME三個(gè)公開數(shù)據(jù)集上測(cè)試本文提出的方法.數(shù)據(jù)統(tǒng)計(jì)特征如表1所示.
1) Twitter15數(shù)據(jù)集和Twitter16數(shù)據(jù)集(1)https://www.dropbox.com/s/7ewzdrbelpmrnxu/rumdetect 2017.zip?dl=0是由Ma等人[17]創(chuàng)建,收集了不同時(shí)刻來自國外著名社交網(wǎng)絡(luò)平臺(tái)Twitter網(wǎng)站上的謠言信息,分別包含1 490和818條樣本.參考Zubiaga等人[5]和Ma等人[17],根據(jù)辟謠網(wǎng)站(如snopes.com,Emergent.info等)中文章的真實(shí)性標(biāo)簽,每個(gè)樣本被標(biāo)注為4種標(biāo)簽之一,即真謠言(true rumor, TR)、假謠言(false rumor, FR)、未經(jīng)證實(shí)的謠言(unverified rumor, UR)、非謠言(non-rumor, NR).Twitter15和Twitter16數(shù)據(jù)集的劃分方式參考現(xiàn)有研究[11,18,22],采用5折交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn).
2) PHEME數(shù)據(jù)集(2)https://figshare.com/articles/dataset/PHEME_dataset_for_ Rumour_Detection_and_Veracity_Classification/6392078是由Zubiaga等人[5]創(chuàng)建,圍繞9個(gè)事件共收集了2 402條謠言,被標(biāo)記為3個(gè)類別,分別是真謠言(true rumor, TR)、假謠言(false rumor, FR)、未經(jīng)證實(shí)的謠言(unverified rumor, UR).該數(shù)據(jù)集劃分方式參考基線方法[20,28],采用留一法(leave-one-event-out)交叉驗(yàn)證的方式進(jìn)行實(shí)驗(yàn),這使得謠言檢測(cè)任務(wù)更加困難,但是更接近于現(xiàn)實(shí)場(chǎng)景下未知事件的謠言檢測(cè).參考前人的訓(xùn)練方式[20],本文將標(biāo)簽分布較為平均的Charlie Hebdo事件中的樣本作為驗(yàn)證集,以選擇模型的最優(yōu)參數(shù).
Table 1 Statistics of the Datasets表1 謠言檢測(cè)數(shù)據(jù)集統(tǒng)計(jì)信息
本文選取基于特征工程的謠言檢測(cè)方法、基于核函數(shù)的謠言檢測(cè)方法以及基于深度學(xué)習(xí)模型的謠言檢測(cè)方法作為基線方法,與本文提出的方法RumorGCN進(jìn)行對(duì)比.
Twitter15和Twitter16數(shù)據(jù)集的基線方法包括:
1) DTC.Castillo等人[9]基于人工設(shè)計(jì)的全局統(tǒng)計(jì)特征,構(gòu)建決策樹分類器獲取信息可信度;
2) SVM-RBF.Yang等人[10]基于博文內(nèi)容人工構(gòu)建統(tǒng)計(jì)特征,構(gòu)建基于RBF核函數(shù)的支持向量機(jī)分類器識(shí)別謠言;
3) SVM-TS.Ma等人[16]基于時(shí)序上下文特征構(gòu)建線性支持向量機(jī)分類器對(duì)謠言進(jìn)行分類;
4) SVM-TK.Ma等人[17]采用基于傳播樹的核函數(shù)提取結(jié)構(gòu)特征,利用支持向量機(jī)分類器完成分類;
5) GRU-RNN.Ma等人[6]基于遞歸神經(jīng)網(wǎng)絡(luò),通過建模相關(guān)帖子的序列結(jié)構(gòu)學(xué)習(xí)謠言的特征向量表示.
6) RvNN.Ma等人[18]利用2個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)模型分別對(duì)傳播方向和擴(kuò)散方向進(jìn)行建模,學(xué)習(xí)傳播樹的特征向量表示;
7) StA-PLAN.Khoo等人[19]采用Transformer模型挖掘傳播過程中的博文之間長距離的交互特征,學(xué)習(xí)謠言的特征向量表示,基于該特征向量表示完成分類任務(wù);
8) Bi-GCN.Bian等人[26]基于傳播樹的傳播方向和擴(kuò)散方向構(gòu)建圖卷積網(wǎng)絡(luò)模型,將謠言分類任務(wù)轉(zhuǎn)化為圖分類任務(wù).
對(duì)于PHEME數(shù)據(jù)集,本文與目前性能較好的5個(gè)具有代表性的基線方法進(jìn)行對(duì)比:
1) NileTMRG.Enayet等人[12]提出的基于詞袋模型獲取博文的向量表示,利用支持向量機(jī)分類器完成分類;
2) RvNN.Ma等人[18]提出的基于RNN的謠言檢測(cè)模型;
3) branchLSTM.Kochkina等人[20]利用序列模型LSTM檢測(cè)謠言,并采用多任務(wù)學(xué)習(xí)方式,聯(lián)合訓(xùn)練謠言檢測(cè)和立場(chǎng)識(shí)別任務(wù);
4) Hierarchical GCN-RNN.Wei等人[28]利用GCN建模傳播過程中的結(jié)構(gòu)特征,并利用多任務(wù)學(xué)習(xí)同時(shí)建模謠言分類任務(wù)和立場(chǎng)檢測(cè)任務(wù);
5) Bi-GCN.Bian等人[26]提出的基于圖的謠言檢測(cè)方法.
為了保證公平性,對(duì)于基于多任務(wù)方法(branch-LSTM和Hierarchical GCN-RNN),本文僅考慮其在謠言分類單一任務(wù)下的性能.此外,參考Hierar-chical GCN-RNN采用skip-gram語言模型[60]提取博文的文本特征,本文也采用相同的方式對(duì)Bi-GCN和RumorGCN的文本特征編碼部分進(jìn)行改進(jìn),分別記為Bi-GCN(SKP),RumorGCN(SKP).
本文所研究的謠言檢測(cè)問題本質(zhì)上是一個(gè)分類問題,為此,本文選用基于分類的評(píng)價(jià)指標(biāo)來評(píng)測(cè)謠言檢測(cè)性能.
對(duì)于Twitter15和Twitter16數(shù)據(jù)集,本文選用準(zhǔn)確率(accuracy,Acc)和各個(gè)類別的F1值作為評(píng)價(jià)指標(biāo):
(14)
其中,TP(true positive)是真正例,指被模型預(yù)測(cè)正確的正樣本;FP(false positive)是假正例,指被模型預(yù)測(cè)正確的負(fù)樣本;FN(false negative)是假負(fù)例,指被模型預(yù)測(cè)錯(cuò)誤的正樣本;TN(true negative)是真負(fù)例,指被模型預(yù)測(cè)錯(cuò)誤的負(fù)樣本.
對(duì)于PHEME數(shù)據(jù)集,參考基線方法[20,28],本文選用準(zhǔn)確率、宏平均F1值(macro-averagingF1,macro-F1).macro-F1即先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值,然后在對(duì)所有類求算術(shù)平均值,計(jì)算方法為
(15)
其中,n表示預(yù)測(cè)類別的個(gè)數(shù).考慮該數(shù)據(jù)集中各個(gè)類別樣本不平衡,本文還比較了加權(quán)平均F1值(weighted-averagingF1,weighted-F1) ,先對(duì)每一個(gè)類統(tǒng)計(jì)指標(biāo)值,然后在對(duì)所有類別求加權(quán)平均值,計(jì)算方法為
(16)
其中,權(quán)重γi為各個(gè)類別在樣本中所占的比例.
參考基線方法的參數(shù)設(shè)置[18,26],提取博文文本信息的TF-IDF特征,初始化節(jié)點(diǎn)的輸入向量表示,其維度d0=5 000.采用2層的圖卷積網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,每1層中節(jié)點(diǎn)的隱向量維度為64,即d1=d2=64.模型各層的dropout=0.5.采用Adam算法訓(xùn)練模型,迭代次數(shù)設(shè)為200,并設(shè)置提前結(jié)束(early stopping),即當(dāng)驗(yàn)證集的損失函數(shù)在10個(gè)迭代內(nèi)不再下降時(shí),提前終止訓(xùn)練.本文提出的模型基于PyTorch(3)http://pytorch.org/開源工具實(shí)現(xiàn),采用Tesla M40 24 GB的GPU訓(xùn)練模型.
對(duì)于Twitter15和Twitter16數(shù)據(jù)集,學(xué)習(xí)率(learning rate)設(shè)置為0.000 5.DropEdge的失活概率η=0.2.相似度閾值T分別為0.8和0.6.
對(duì)于PHEME數(shù)據(jù)集,學(xué)習(xí)率設(shè)置為0.02,DropEdge的失活概率η=0,相似度閾值T=0.7.參考文獻(xiàn)[28], Bi-GCN(SKP)和RumorGCN(SKP)中skip-gram語言模型的特征維度設(shè)置為200.
本節(jié)描述實(shí)驗(yàn)結(jié)果并進(jìn)行分析.5.1節(jié)對(duì)本文提出RumorGCN和基線方法在謠言檢測(cè)任務(wù)的性能進(jìn)行對(duì)比分析;5.2節(jié)探究建模傳播樹中不同依賴的影響;5.3節(jié)探究了傳播樹中不同關(guān)鍵節(jié)點(diǎn)的影響;5.4節(jié)對(duì)比分析不同相似度閾值對(duì)謠言檢測(cè)結(jié)果的影響;5.5節(jié)評(píng)估本文提出方法RumorGCN和對(duì)比的基線方法在早期謠言檢測(cè)任務(wù)中的性能.
5.1.1 Twitter15和Twitter16數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析
Twitter15和Twitter16數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2和表3所示.其中,本文使用文獻(xiàn)[26]提供的開源代碼在相同環(huán)境進(jìn)行實(shí)現(xiàn),得到了Bi-GCN模型在2個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果.其他基線方法的結(jié)果均參考文獻(xiàn)[18-19].
由表2和表3可知,本文提出的RumorGCN在Twitter15和Twitter16數(shù)據(jù)集上均優(yōu)于對(duì)比的基線方法.對(duì)于Twitter15數(shù)據(jù)集,相比于最優(yōu)的基線方法,RumorGCN在準(zhǔn)確率指標(biāo)上提升1個(gè)百分點(diǎn),F(xiàn)1值指標(biāo)上最大提升了1.8個(gè)百分點(diǎn);對(duì)于Twitter16數(shù)據(jù)集,RumorGCN在準(zhǔn)確率指標(biāo)上提升了2個(gè)百分點(diǎn),F(xiàn)1值指標(biāo)上最大提升了3.7個(gè)百分點(diǎn).這些結(jié)果表明本文提出的方法具有比其他基線方法更高的謠言檢測(cè)性能.
基于表2和表3中的實(shí)驗(yàn)結(jié)果,具體分析為:
1) 所有基于深度學(xué)習(xí)的方法(GRU-RNN,RumorGCN,Bi-GCN,StA-PLAN以及RvNN)的謠言檢測(cè)性能均優(yōu)于基于人工構(gòu)建特征的謠言檢測(cè)方法(DTC,SVM-RBF,SVM-TS,SVM-TK).該現(xiàn)象證實(shí)了深度學(xué)習(xí)模型在謠言檢測(cè)任務(wù)中的優(yōu)越性,主要優(yōu)勢(shì)在于深度學(xué)習(xí)模型可以學(xué)習(xí)謠言潛在的特征向量表示.DTC,SVM-RBF,SVM-TS和SVM-TK利用人工構(gòu)建特征的方法識(shí)別謠言,提取的特征具有較強(qiáng)的主觀性,缺少謠言潛在的特征表示,不能較好地識(shí)別社交網(wǎng)絡(luò)中的謠言.
Table 2 Rumor Detection Results on Twitter15 Dataset表2 謠言檢測(cè)實(shí)驗(yàn)結(jié)果(Twitter15) %
Table 3 Rumor Detection Results on Twitter16 Dataset表3 謠言檢測(cè)實(shí)驗(yàn)結(jié)果(Twitter16) %
2) RvNN通過使用遞歸神經(jīng)網(wǎng)絡(luò)模型對(duì)傳播樹進(jìn)行建模,但是難以捕獲序列中長距離的依賴關(guān)系,因此,謠言檢測(cè)的性能受到了制約.StA-PLAN利用Transformer結(jié)構(gòu),可以有效緩解長距離依賴問題,因此,獲得了優(yōu)于RvNN的檢測(cè)性能.與RvNN和StA-PLAN相比,基于圖的謠言檢測(cè)方法(RumorGCN和Bi-GCN)在所有深度學(xué)習(xí)模型方法中表現(xiàn)最佳,這也表明圖模型具有捕獲復(fù)雜依賴關(guān)系的能力.
3) 與最優(yōu)的基線方法Bi-GCN相比,RumorGCN在2個(gè)Twitter數(shù)據(jù)集中均有更優(yōu)的表現(xiàn),說明RumorGCN在謠言檢測(cè)任務(wù)中的有效性.本文認(rèn)為性能提升的原因主要源于2個(gè)方面:
1) 在對(duì)謠言樹中的依賴關(guān)系建模時(shí),Bi-GCN僅僅考慮傳播樹中父子節(jié)點(diǎn)之間形成的層間依賴關(guān)系,而RumorGCN共同顯式建模層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間形成的層內(nèi)依賴關(guān)系,聚合不同依賴關(guān)系下的局部鄰域信息,可以學(xué)習(xí)到更準(zhǔn)確、更豐富的傳播結(jié)構(gòu)特征.由此說明,傳播樹中的層內(nèi)依賴關(guān)系同樣可以為謠言檢測(cè)提供有效信息.在社交媒體中,用戶轉(zhuǎn)發(fā)某條源博文,不僅受到源博文的影響,同時(shí)還可能受到轉(zhuǎn)發(fā)過該源博文的其他博文的影響,從而形成復(fù)雜的多種傳播路徑.
2) Bi-GCN中通過利用根節(jié)點(diǎn)特征輔助學(xué)習(xí)節(jié)點(diǎn)特征表示,忽略了傳播過程中的另一類關(guān)鍵節(jié)點(diǎn)的重要影響.RumorGCN同時(shí)考慮根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn),增強(qiáng)傳播樹中的節(jié)點(diǎn)特征表示,充分建模關(guān)鍵節(jié)點(diǎn)對(duì)信息傳播的潛在影響力,從而提升模型的檢測(cè)性能.
5.1.2 PHEME數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析
表4記錄了本文提出方法和對(duì)比的基線方法在PHEME數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,其中,NileTMRG和BranchLSTM的結(jié)果參考文獻(xiàn)[20],RvNN和Hierarchical GCN-RNN的結(jié)果參考文獻(xiàn)[28].本文基于Bi-GCN的開源代碼進(jìn)行實(shí)驗(yàn),得到Bi-GCN在PHEME數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.從結(jié)果可知,與最優(yōu)的基線方法相比,RumorGCN在準(zhǔn)確率指標(biāo)上提升了17個(gè)百分點(diǎn),宏平均F1值提升了7.9個(gè)百分點(diǎn),加權(quán)平均F1值指標(biāo)上提升了10.3個(gè)百分點(diǎn).
Table 4 Rumor Detection Results on PHEME Dataset表4 謠言檢測(cè)實(shí)驗(yàn)結(jié)果(PHEME) %
基于表4的實(shí)驗(yàn)結(jié)果,具體分析為:
1) 與基線方法相比,RumorGCN在PHEME數(shù)據(jù)集上取得了較優(yōu)的謠言檢測(cè)結(jié)果,再次說明RumorGCN建模多關(guān)系傳播路徑和關(guān)鍵節(jié)點(diǎn)增強(qiáng)的有效性. Hierarchical GCN-RNN雖然也利用圖卷積網(wǎng)絡(luò)建模了謠言的傳播結(jié)構(gòu),但是該方法僅考慮建模傳播方向的結(jié)構(gòu)特征,忽略了擴(kuò)散方向上的傳播規(guī)律.相較之下,Bi-GCN和RumorGCN共同建模傳播樹在傳播方向和擴(kuò)散方向的規(guī)律,可學(xué)習(xí)更豐富的特征表示向量,更有助于識(shí)別謠言信息.
2) 與利用skip-gram語言模型提取博文文本特征的基線方法Hierarchical GCN-RNN和Bi-GCN(SKP)對(duì)比,在采用相同文本特征提取方式的前提下,本文提出方法的變體RumorGCN(SKP)在3個(gè)指標(biāo)均取得最好的檢測(cè)性能,這說明本文方法在不同文本特征提取方式下的有效性.
3) 采用skip-gram語言模型提取文本詞向量特征的Bi-GCN(SKP) 和RumorGCN(SKP),相比對(duì)應(yīng)的基于TF-IDF統(tǒng)計(jì)特征的Bi-GCN和RumorGCN,取得更高的準(zhǔn)確率和加權(quán)平均F1值,這說明skip-gram語言模型可以更充分地挖掘博文的語義特征,有助于模型識(shí)別更多的謠言.注意到RumorGCN(SKP)的宏平均F1值優(yōu)于RumorGCN,該結(jié)果的原因是PHEME數(shù)據(jù)集中類別標(biāo)簽分布不平衡導(dǎo)致,宏平均F1值會(huì)受到稀有類別的影響.
為了探究在傳播過程中博文之間的多種交互關(guān)系,本節(jié)對(duì)傳播樹中層間依賴和層內(nèi)依賴的建模方式進(jìn)行了一系列消融實(shí)驗(yàn).基于這2種依賴關(guān)系的類型特性,本節(jié)設(shè)置了RumorGCN的4種相關(guān)變體,具體為:
1) GCN(Inter-Intra)指利用傳統(tǒng)的GCN模型共同建模傳播樹中的層間依賴和層內(nèi)依賴;
2) RumorGCN(Non-Seq)指在建模層內(nèi)依賴時(shí),沒有引入層內(nèi)節(jié)點(diǎn)之間的時(shí)序邊,而是在層內(nèi)節(jié)點(diǎn)之間構(gòu)建全連接邊,如圖2中,對(duì)于第2種類型邊,在節(jié)點(diǎn)4、節(jié)點(diǎn)5和節(jié)點(diǎn)8之間均構(gòu)建一條邊;
3) RumorGCN(Intra-Level)指僅建模傳播樹中的兄弟節(jié)點(diǎn)之間的層內(nèi)依賴,而不考慮層間依賴;
4) RumorGCN(Inter-Level)指僅建模傳播樹中的父子節(jié)點(diǎn)之間的層間依賴,而不考慮層內(nèi)依賴.
在3個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表5~表7所示,結(jié)果分析為:
Table 5 Results of Ablation Study with Different Dependencies in the Propagation Tree on Twitter15 Dataset表5 傳播樹中不同依賴的消融實(shí)驗(yàn)結(jié)果(Twitter15) %
Table 6 Results of Ablation Study with Different Dependencies in the Propagation Tree on Twitter16 Dataset表6 傳播樹中不同依賴的消融實(shí)驗(yàn)結(jié)果(Twitter16) %
Table 7 Results of Ablation Study with Different Dependencies in the Propagation Tree on PHEME Dataset表7 傳播樹中不同依賴的消融實(shí)驗(yàn)結(jié)果(PHEME) %
1) GCN(Inter-Intra)變體方法基于同構(gòu)圖結(jié)構(gòu)建模傳播樹中的依賴關(guān)系,在3個(gè)數(shù)據(jù)集上性能均有一定的下降.這說明利用多關(guān)系圖卷積模型的異構(gòu)圖結(jié)構(gòu)能更好地捕捉節(jié)點(diǎn)之間不同類型的關(guān)系.這也間接說明在傳播過程中,博文之間的顯式和隱式交互形式具有不同的特性.
2) 與同時(shí)建模2種依賴的RumorGCN方法相比,僅建模層內(nèi)或?qū)娱g單一依賴的變體方法RumorGCN(Intra-Level)和RumorGCN(Inter-Level)的檢測(cè)性能均有明顯的下降.這說明了建模傳播樹中的層內(nèi)依賴和層間依賴的有效性.對(duì)于RumorGCN方法,同時(shí)考慮傳播過程中博文之間的多種交互關(guān)系,可以捕捉到更豐富的傳播結(jié)構(gòu)特征,進(jìn)而得到更高的謠言檢測(cè)性能.
3) 建模傳播樹中的層內(nèi)依賴時(shí),考慮時(shí)序邊的RumorGCN的檢測(cè)性能明顯高于考慮全連接邊的RumorGCN(Non-Seq)變體方法.這表明了建模層內(nèi)依賴的局部時(shí)序性特征的有效性.這也說明了在謠言傳播過程中,較早轉(zhuǎn)發(fā)該謠言的博文對(duì)后續(xù)瀏覽的部分用戶確實(shí)具有一定影響,這也為謠言的防治提供了新思路.
為了探究源博文和關(guān)鍵傳播博文這2類重要博文在信息傳播中的潛在影響,本節(jié)基于不同方向的傳播樹,對(duì)2類關(guān)鍵節(jié)點(diǎn)的增強(qiáng)策略進(jìn)行了詳細(xì)的消融實(shí)驗(yàn).
通過考慮不同方向的傳播樹,可得到4種傳播樹建模方案,以及對(duì)應(yīng)RumorGCN的4種變體.這4種傳播樹結(jié)構(gòu)包括UD,BU,TD和BU+TD.其中,UD(undirected)表示無向的傳播樹結(jié)構(gòu),TD(top-down)指僅考慮自頂向下的傳播方向,BU(bottom-up)指僅考慮自底向上的擴(kuò)散方向,BU+TD指同時(shí)考慮傳播和擴(kuò)散2個(gè)方向.
在這4種傳播樹結(jié)構(gòu)下,為了探究根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)的增強(qiáng)作用,本節(jié)設(shè)置了4種不同的對(duì)比策略.記ROOT和MOD分別為根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn),則4種策略具體如下:
1) w/o ROOT & w/o MOD.指不使用任何關(guān)鍵節(jié)點(diǎn)增強(qiáng)節(jié)點(diǎn)的特征表示;
2) w ROOT & w/o MOD.指僅利用根節(jié)點(diǎn)進(jìn)行特征增強(qiáng);
3) w/o ROOT & w MOD.指僅利用當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)進(jìn)行特征增強(qiáng);
4) w ROOT & w MOD.指同時(shí)利用根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)進(jìn)行特征增強(qiáng).
實(shí)驗(yàn)結(jié)果如圖3所示,結(jié)果分析為:
Fig. 3 Results of ablation study for different key nodes in the propagation tree圖3 傳播樹中不同關(guān)鍵節(jié)點(diǎn)的消融實(shí)驗(yàn)結(jié)果
1) w/o ROOT & w/o MOD變體方法未考慮任何關(guān)鍵節(jié)點(diǎn)的增強(qiáng)影響,在4種傳播樹結(jié)構(gòu)下均獲得了較差的檢測(cè)性能.
2) w ROOT & w/o MOD和w/o ROOT & w MOD兩種變體方法在4種傳播樹結(jié)構(gòu)下均獲得了較好的性能表現(xiàn),表明基于根節(jié)點(diǎn)和當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)的這2種特征增強(qiáng)策略的有效性.同時(shí),僅利用當(dāng)前路徑最大轉(zhuǎn)發(fā)節(jié)點(diǎn)與僅利用根節(jié)點(diǎn)進(jìn)行特征增強(qiáng)的效果相當(dāng).這表明,除了源博文,關(guān)鍵傳播博文也有著巨大的影響力,在信息傳播過程中發(fā)揮著關(guān)鍵的橋梁作用.
3) w ROOT & w MOD變體方法同時(shí)考慮了這2類關(guān)鍵節(jié)點(diǎn)的增強(qiáng)作用,在4種傳播樹結(jié)構(gòu)下均獲得了最優(yōu)的謠言檢測(cè)性能,同時(shí)這也是本文方法RumorGCN所采取的節(jié)點(diǎn)增強(qiáng)策略.該結(jié)果表明同時(shí)考慮這2種關(guān)鍵節(jié)點(diǎn)的增強(qiáng)策略在該任務(wù)上的有效性.同時(shí),也說明了源博文和關(guān)鍵傳播博文在信息傳播中均有著不可忽視的潛在影響力,對(duì)于謠言的發(fā)現(xiàn)和識(shí)別均有一定的積極作用.
4) 在相同的節(jié)點(diǎn)增強(qiáng)策略下,對(duì)于基于不同方向的傳播樹結(jié)構(gòu)得到的4種變體,檢測(cè)性能從低到高排序?yàn)椋篣D變體方法、BU或TD變體方法、BU+TD變體方法.由此可見,同時(shí)建模傳播和擴(kuò)散2個(gè)方向的傳播樹結(jié)構(gòu),有助于挖掘更豐富的傳播結(jié)構(gòu)特征,更好地識(shí)別社交網(wǎng)絡(luò)中的謠言信息.
本節(jié)對(duì)比不同相似度閾值對(duì)謠言檢測(cè)結(jié)果的影響.該閾值越高,表明2個(gè)博文之間內(nèi)容越相似.選取了[0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]共11種閾值進(jìn)行實(shí)驗(yàn),結(jié)果如圖4所示.橫軸為相似度閾值大小,縱軸為準(zhǔn)確率.Twitter15,Twitter16,PHEME數(shù)據(jù)集的最優(yōu)閾值分別為0.8,0.6,0.7.
Fig. 4 Results against different thresholds T圖4 不同相似度閾值T的謠言檢測(cè)結(jié)果
實(shí)驗(yàn)結(jié)果如圖4所示,結(jié)果分析為:
1) 過大的相似度閾值或者過小的相似度閾值均會(huì)限制模型識(shí)別謠言的性能.當(dāng)閾值設(shè)置過小時(shí),可能會(huì)引入一些噪聲邊,相似度較小的2個(gè)博文之間可能并不存在影響;當(dāng)閾值設(shè)置過大時(shí),使得轉(zhuǎn)發(fā)過同個(gè)博文的節(jié)點(diǎn)之間無法構(gòu)建邊,不能很好地建模層內(nèi)依賴關(guān)系,從而限制了模型的檢測(cè)能力,這也再次說明了建模層內(nèi)依賴關(guān)系對(duì)于謠言檢測(cè)任務(wù)的重要性.
2) 最優(yōu)閾值在3個(gè)數(shù)據(jù)集上均不相同,這可能是因?yàn)橹{言所針對(duì)的事件不同,同時(shí),在數(shù)據(jù)集中,也存在一定的噪音現(xiàn)象.在實(shí)際應(yīng)用過程中,該參數(shù)的選擇可參考本文在PHEME數(shù)據(jù)集上的選擇方法,即將類別標(biāo)簽分布較為平均的某個(gè)謠言事件數(shù)據(jù)集作為驗(yàn)證集,以選擇最優(yōu)相似度閾值.
謠言的早期檢測(cè)要求模型在謠言傳播的早期階段識(shí)別謠言,便于及時(shí)進(jìn)行干預(yù),以將謠言產(chǎn)生的危害降低到最小.謠言的早期階段通常是指謠言轉(zhuǎn)發(fā)數(shù)較少或者剛產(chǎn)生的幾小時(shí).參考文獻(xiàn)[18,26],本節(jié)分別通過限制源博文的轉(zhuǎn)發(fā)數(shù)和其發(fā)布后的經(jīng)過時(shí)間2種延時(shí)策略,來評(píng)估本文提出方法和其他基線方法的早期謠言檢測(cè)能力.實(shí)驗(yàn)結(jié)果如圖5和圖6所示:
Fig. 5 Results of early rumor detection against the comment forwarding dimension圖5 基于不同轉(zhuǎn)發(fā)數(shù)的早期謠言檢測(cè)結(jié)果
Fig. 6 Results of early rumor detection against deadline time圖6 基于不同截止時(shí)間的早期謠言檢測(cè)結(jié)果
5.5.1 有限轉(zhuǎn)發(fā)數(shù)下的早期謠言檢測(cè)
通過控制自源博文發(fā)布以來用戶轉(zhuǎn)發(fā)的數(shù)量,計(jì)算不同時(shí)期謠言檢測(cè)的準(zhǔn)確率,評(píng)估模型的性能.實(shí)驗(yàn)結(jié)果如圖5所示,橫軸代表用戶轉(zhuǎn)發(fā)的博文數(shù)量.隨著轉(zhuǎn)發(fā)次數(shù)的增加而增加,不同方法的謠言檢測(cè)性能逐漸上升.RumorGCN和Bi-GCN在謠言源進(jìn)行初始廣播后的很早期就達(dá)到了較高的準(zhǔn)確率.這說明,圖卷積網(wǎng)絡(luò)可以有效聚合鄰居節(jié)點(diǎn)信息,學(xué)習(xí)準(zhǔn)確的節(jié)點(diǎn)特征向量表示用于提升模型的早期檢測(cè)謠言的能力.在PHEME數(shù)據(jù)集上,RumorGCN使用不到10條博文時(shí)優(yōu)于Bi-GCN使用所有數(shù)據(jù)的性能.這一優(yōu)勢(shì)可歸因于RumorGCN對(duì)于轉(zhuǎn)發(fā)同一博文的多個(gè)轉(zhuǎn)發(fā)博文之間形成的層內(nèi)依賴關(guān)系的探索,表明本文提出的方法可以有效地同時(shí)建模層間依賴和層內(nèi)依賴,獲得更準(zhǔn)確的謠言檢測(cè)結(jié)果.
5.5.2 有限時(shí)間內(nèi)的早期謠言檢測(cè)
通過控制源博文發(fā)布以來的截止時(shí)間,計(jì)算不同時(shí)期謠言檢測(cè)的準(zhǔn)確率,評(píng)估模型的性能.實(shí)驗(yàn)結(jié)果如圖6所示,橫軸代表截止時(shí)間,單位為小時(shí)(h).時(shí)間維度的效果與轉(zhuǎn)發(fā)維度的趨勢(shì)保持一致,隨著時(shí)間的推移,不同謠言檢測(cè)方法均有一定的提升,這說明信息傳播過程中顯現(xiàn)的結(jié)構(gòu)特征會(huì)越來越豐富.同時(shí),在信息傳播的早期階段,基于圖的模型可以捕獲更全面的有限傳播結(jié)構(gòu)特征,從而具有比其他對(duì)比模型更優(yōu)的檢測(cè)性能.尤其是在PHEME數(shù)據(jù)集上,RumorGCN在使用前2 h數(shù)據(jù)的謠言檢測(cè)性能已優(yōu)于基線方法使用所有數(shù)據(jù)的謠言檢測(cè)性能.這也再次說明博文之間多種交互關(guān)系的重要性和本文提出方法的有效性.
本文研究了基于文本內(nèi)容和傳播結(jié)構(gòu)信息的謠言檢測(cè)任務(wù),提出一種基于多關(guān)系傳播樹的謠言檢測(cè)方法.該方法通過多關(guān)系圖卷積網(wǎng)絡(luò)建模了傳播樹中父子節(jié)點(diǎn)之間形成的層間依賴關(guān)系和兄弟節(jié)點(diǎn)之間形成的層內(nèi)依賴關(guān)系,以捕獲復(fù)雜的傳播結(jié)構(gòu)特征.同時(shí),利用關(guān)鍵節(jié)點(diǎn)增強(qiáng)傳播樹中節(jié)點(diǎn)的特征向量表示,有效建模了源博文和關(guān)鍵傳播博文在謠言傳播過程中的潛在影響力,學(xué)習(xí)更準(zhǔn)確的謠言特征向量表示.在3個(gè)公開數(shù)據(jù)集上的廣泛實(shí)驗(yàn)表明,本文提出的方法具有比其他基線方法更高的謠言檢測(cè)性能,并且在謠言的早期傳播階段,也具有良好的檢測(cè)效果.該方法進(jìn)一步探索了謠言的深層傳播規(guī)律,對(duì)迅速甄別社交媒體中的謠言、建設(shè)清朗的網(wǎng)絡(luò)空間有重大的現(xiàn)實(shí)意義.