国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于增強的雙向樹表示的推特謠言立場檢測模型

2021-11-16 08:14:56楊利君
中文信息學報 2021年10期
關(guān)鍵詞:推文樹形立場

楊利君,滕 沖

(武漢大學 國家網(wǎng)絡(luò)安全學院 空天信息安全與可信計算教育部重點實驗室,湖北 武漢 430040)

0 引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展,未經(jīng)證實的信息傳播速度非常快,尤其是在微博、Twitter這樣的社交媒體上,越來越多的用戶喜歡在網(wǎng)上瀏覽、轉(zhuǎn)發(fā)熱點信息,并發(fā)表自己的觀點,從而使得謠言和虛假信息得以廣泛傳播[1]。謠言會引起公眾恐慌和社會動蕩,而有效檢測謠言和扼制謠言的傳播有助于社會的安定和健康發(fā)展,具有重要的現(xiàn)實意義[2],因此大量針對社交網(wǎng)絡(luò)上的謠言自動檢測研究開始出現(xiàn)[3-6]。一些學者指出,從謠言所引發(fā)的討論中挖掘出用戶的立場,有助于確定該謠言的真實性[7]。所以,近年來,謠言立場檢測任務(wù)也得到了越來越多的關(guān)注。

謠言立場檢測旨在利用自然語言處理技術(shù),分析用戶發(fā)表的文本,挖掘出其對謠言的支持、反對或者中立的態(tài)度。Twitter等社交媒體上的評論通常以嵌套的對話形式出現(xiàn),具有時序性和結(jié)構(gòu)性,而且文本也具有簡短、用詞不規(guī)范、表達靈活、常采用反諷和隱喻等修辭手法的特點,往往需要利用更廣泛的語境識別有效特征,以便于推斷文本立場[8]。已有的方法證明,利用對話中的傳播信息有助于提升立場檢測的效果[9]。然而,以往的模型僅考慮對話中的局部上下文信息,例如,交互(評論或回復(fù))的推文、時間線上相鄰的推文,而忽略了全局信息,而且傳播方向也是單一的。目標推文不僅依賴于所回復(fù)的文本內(nèi)容,其下方回復(fù)的評論對目標推文也有一定的影響,例如,支持或評論類型的回復(fù)能夠增強目標推文的立場,而否定和詢問類型的回復(fù)則會削弱目標推文的立場。另外,對話進行得越深入,目標推文與謠言,即源推文的距離就越遠,很容易在長距離的傳播過程中丟失源推文的重要語義信息,從而無法正確判斷目標推文針對源推文謠言的立場。

針對以上問題,本文提出了一種增強的雙向樹表示模型BiTreeInfer,該模型利用雙向的樹形網(wǎng)絡(luò)改進了單方向的傳播信息的提取,另外,引進了一個局部推理模塊以解決源推文語義信息丟失的問題。本文的貢獻如下:

(1)利用社交媒體上對話的樹形結(jié)構(gòu)特征,將單向的傳統(tǒng)樹形長短時記憶神經(jīng)網(wǎng)絡(luò)(TreeLSTM)拓展成雙向結(jié)構(gòu);

(2)有效融合自底向上和自頂向下的兩個傳播方向上學習到的上下文信息,豐富了目標推文的語義和結(jié)構(gòu)信息。

(3)加強了目標推文與源推文之間的語義關(guān)系,從而更有效地提取目標推文對于源推文的立場。

1 相關(guān)工作

隨著國內(nèi)外語義評測比賽NLPCC-2016 Task 4[10]、SemEval-2016 Task 6[11]、RumourEval 2017[12]、RumourEval 2019[13]等的陸續(xù)開展,社交媒體上的謠言立場檢測研究吸引了越來越多的參與者。目前,國內(nèi)外的立場檢測方法主要分為基于特征工程的機器學習方法和基于神經(jīng)網(wǎng)絡(luò)的深度學習方法。

傳統(tǒng)機器學習方法對立場分析的研究工作主要集中在特征工程的構(gòu)造上。Mohammad等[14]從推文中提取了字符級和單詞級N-grams特征、序列標注特征(POS)、詞向量特征和情感特征等,并且使用支持向量機作為分類器。鄭海洋等[15]利用“情感詞+主題詞”組合構(gòu)建立場檢測特征,進行立場分類。Zubiaga等[16]創(chuàng)建了兩種分類器——線性條件隨機場(Linear-Chain CRF)和樹形條件隨機場(Tree CRF)來學習對話中的樹形結(jié)構(gòu)特征。為了進一步提升結(jié)果,部分模型還融合了多種機器學習算法,例如,奠雨潔等[17]融合基于詞頻統(tǒng)計的特征字向量、詞向量等特征,使用加權(quán)平均的方法融合多個分類器,如支持向量機(SVM)、隨機森林(RF)和梯度提升決策樹(GBDT)模型的分類結(jié)果。但上述方法都過于依賴領(lǐng)域知識,需要耗費大量的人力、物力在特征工程的構(gòu)造上。

相比過于依賴特征工程的機器學習方法,深度學習方法由于其具有自動學習文本特征的能力,而受到了廣泛的關(guān)注和使用。例如,Vijayaraghavan等[18]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對推特立場檢測數(shù)據(jù)集進行單詞級和字符級的訓練,最后融合兩種模型進行立場分析。Dey等[19]在長短時記憶網(wǎng)絡(luò)(LSTM)模型基礎(chǔ)上引入注意力機制,通過強化文本中關(guān)鍵詞的語義表示,提升模型立場分類性能。Kumar等[20]將卷積核引入TreeLSTM的記憶單元,從對話樹中獲取了更豐富的傳播信號。王安君等[21]采用Bert[22]來獲取具有上下文語義信息的句向量,設(shè)計出基于BERT-Condition-CNN 的中文微博立場檢測方法。Yang等[23]按對話結(jié)構(gòu)順序組織文本,輸入到強大的預(yù)訓練語言模型進行微調(diào),以獲取全局上下文信息。

已有的工作都未研究對話樹中雙向的傳播信息所帶來的影響。在基于方面的情感分析任務(wù)中,Luo等[24]證明了利用雙向樹形網(wǎng)絡(luò)結(jié)構(gòu)提取方面術(shù)語的有效性。該任務(wù)從句子中提取了依存樹的結(jié)構(gòu)信息,而謠言立場檢測任務(wù)將句子級別的結(jié)構(gòu)特征提取擴展到了文檔級別,需要從對話中提取有用的結(jié)構(gòu)信息。針對這一特性,如何科學合理地設(shè)計出可以學習到豐富的語義和結(jié)構(gòu)特征表示的模型是本文研究的重點。

2 推特謠言立場檢測模型BiTreeInfer

圖1展示了Twitter上兩組樹形結(jié)構(gòu)的對話示例,每組對話通常由一條源推文(可能為謠言)以及多條嵌套的回復(fù)推文所組成。每條推文都有其回復(fù)的對象或獲得的評論,可以視作其父節(jié)點和子節(jié)點。句首的斜體表示目標推文在對話中所處的深度,句尾的粗體表示目標推文基于源推文的立場標簽。假設(shè)一組對話被定義為T={t1,t2,…,tN},N為對話中推文的數(shù)量,ti表示對話中第i條推文。立場標簽集合為Y={support,deny,query,comment}。

圖1 Twitter對話示例

本文提出一種基于增強的雙向樹表示的立場檢測模型BiTreeInfer。模型的總體框架如圖2所示,該框架主要由四部分組成:輸入表示、雙向樹模型、局部推理模塊和分類器。首先,通過組合不同的特征初始化每條推文的輸入表示;接著,使用雙向樹模型更新每個節(jié)點的表示;然后,利用局部推理模塊增強節(jié)點的語義表示;最后,將每個節(jié)點的最終表示輸入到分類器中,獲得預(yù)測的標簽。

圖2 BiTreeInfer模型框架

2.1 輸入表示

文本的輸入表示分為兩個部分。首先,對文本進行預(yù)處理,將推文中的url鏈接以及@的用戶名稱全部替換成“$url$”和“$mention$”字符,同時,將所有的單詞轉(zhuǎn)換成小寫形式。然后,利用BERT模型獲得預(yù)訓練的詞向量,取句子中所有詞的平均向量作為輸入表示的一部分。另一部分,則參考李嶠等[25]的工作,人工提取最相關(guān)的文本特征和對話特征,如表1所示,其中文本之間的相似性特征由余弦相似度(Cosine Similarity)計算。最后,將BERT向量與人工提取的特征向量拼接,獲得目標推文ti的初始化輸入表示xti。

表1 人工特征

2.2 雙向樹結(jié)構(gòu)

雙向樹模型的整體結(jié)構(gòu)如圖3所示。樹中每個節(jié)點的隱層狀態(tài)由自底向上和自頂向下的兩種傳播方式分別進行更新。然后使用一種特定的交互方式對兩個方向上的信息進行有效融合。以下將先對兩種傳播過程分別進行介紹,隨后介紹所提出的一種雙向擴展結(jié)構(gòu)。

圖3 雙向樹模型

2.2.1 自底向上的樹形結(jié)構(gòu)

Tai等[26]證明了樹形長短時記憶神經(jīng)網(wǎng)絡(luò)(TreeLSTM)能有效捕捉到結(jié)構(gòu)信息和長距離信息。其核心思想是通過遞歸訪問底部的葉子節(jié)點到頂部的根節(jié)點,為每個子樹生成特征向量。實驗將它擴展到文檔級別的謠言立場檢測任務(wù)中,樹形網(wǎng)絡(luò)中的每一個節(jié)點代表一個句子,而不僅僅是一個單詞。圖3展示了自底向上傳播模塊的細節(jié)。令C(j)表示節(jié)點j的所有子節(jié)點的集合,j節(jié)點在自底向上樹模型中更新的過程如式(1)~式(7)所示。

2.2.2 自頂向下的樹形結(jié)構(gòu)

這與標準LSTM單元更新類似,只是將上一步的隱層狀態(tài)替換成了父節(jié)點的隱層狀態(tài)。

2.2.3 雙向樹的擴展結(jié)構(gòu)

由于單向網(wǎng)絡(luò)結(jié)構(gòu)在捕捉全局上下文時具有局限性,本文提出了一種雙向的TreeLSTM擴展結(jié)構(gòu),以此來更好地融合兩個傳播方向上的信息。推文ti最終的隱層狀態(tài)輸出hti由式(14)計算得到:

表2 交互作用函數(shù)列表

2.3 局部推理

盡管雙向樹模型能夠使得目標節(jié)點包含豐富的全局上下文信息,但在深度很大的樹中,葉子節(jié)點離源節(jié)點越遠,其關(guān)于源節(jié)點的信息越模糊,而立場檢測任務(wù)的目標在于判斷目標推文基于源推文謠言的立場。所以,本文引入了一個局部推理模塊以增強目標推文與源推文之間的語義關(guān)系。源推文的隱層狀態(tài)hts和目標推文的隱藏狀態(tài)hti之間的推理分數(shù)s(i)由端對端的雙線性模型計算得出,如式(15)所示。

2.4 分類器

3 實驗設(shè)置

3.1 數(shù)據(jù)集

本文使用的數(shù)據(jù)集來自于RumourEval 2017評測任務(wù),該數(shù)據(jù)集從Twitter上爬取了325組對話集合,為5 568條推文標注了立場標簽。這些表達輿論的推文圍繞9個不同的突發(fā)新聞事件展開,例如巴黎槍擊事件、德國之翼飛機墜毀事件等。數(shù)據(jù)集被劃分成了訓練集、開發(fā)集、測試集。推文的分布與統(tǒng)計結(jié)果如表3所示,S表示支持,D表示否定,Q表示詢問,C表示評論??梢钥吹剑@是一個不平衡的數(shù)據(jù)集,評論類型的標簽數(shù)量遠大于其他標簽數(shù)量,這對模型的訓練來說是一個挑戰(zhàn)。

表3 數(shù)據(jù)集的統(tǒng)計信息

3.2 訓練

本文使用多分類交叉熵作為損失函數(shù),定義如式(20)所示。

實驗表明,模型訓練迭代次數(shù)達到50輪時,網(wǎng)絡(luò)的交叉熵損失值基本保持不變。所以最大迭代次數(shù)設(shè)置為50,將一組對話作為一個批次(batch)輸入模型進行訓練。實驗使用Adam[28]更新參數(shù),初始學習率設(shè)置為0.001,每10輪下降0.1%進行更新。加載的預(yù)訓練詞向量為768維的BERT模型(BERT-base-uncased)。自頂向下和自底向上樹形神經(jīng)網(wǎng)絡(luò)的隱層狀態(tài)都設(shè)置為64維,交互作用函數(shù)選擇了門機制,分類器中的前向神經(jīng)網(wǎng)絡(luò)有2層,每層64維。實驗搭建于PyTorch框架。

3.3 基線

SVM[29]:該模型提取單個推文的情感特征和對話特征輸入到線性支持向量機中,得到分類結(jié)果。

BranchLSTM[30]:該模型將樹形對話中處于同一分支的推文組織成語序序列,輸入到LSTM網(wǎng)絡(luò)中,推文的輸入特征由Google News Word2Vec詞向量和人工特征組合而成。

TemporalATT[31]:該模型根據(jù)對話中每條推文發(fā)表的時間線,使用注意力機制學習相鄰?fù)莆牡纳舷挛臋?quán)重信息,豐富當前推文的語義特征。

Conversational-GCN[32]:該模型利用圖卷積神經(jīng)網(wǎng)絡(luò)將樹形對話中推文之間的關(guān)系進行建模,以更新推文節(jié)點的特征。

HierachicalTransformer[33]:該模型將一段對話分解成幾組子對話,分別輸入到預(yù)訓練BERT模型中,以獲得子對話集合中推文的交互信息和局部上下文信息,然后將它們輸入到Transformer層進行融合,使每條推文獲得全局交互信息和上下文信息。

4 實驗結(jié)果

4.1 結(jié)果比較

數(shù)據(jù)集標簽分布的不平衡使得準確率不足以衡量一個模型的綜合表現(xiàn),所以本文使用宏觀平均F1值(macro-averagedF1)[34]作為最終的評價指標,對不同類別的F1值求平均,以下簡寫為macro-F1。

表4給出了不同模型的實驗結(jié)果,可以看到,本文提出的BiTreeInfer模型在所有模型中表現(xiàn)最佳,獲得了0.525的 macro-F1值。表4還列出了分類評估結(jié)果,由于數(shù)據(jù)集中否定類別的推文數(shù)量最少,該類別的立場檢測最具挑戰(zhàn)性,大部分模型的識別效果欠佳,而BiTreeInfer模型在否定類別上獲得了最高的macro-F1值0.283,這對于該領(lǐng)域的研究具有很大的意義,因為否定立場對于謠言的真實性判別提供了至關(guān)重要的線索。在模型分析模塊中,會對該類別效果提升的原因進行進一步探究。

表4 不同模型的結(jié)果對比

4.2 模型分析

4.2.1 消融實驗

表5所示的消融實驗證明了不同模塊在Bi-TreeInfer 模型中的作用。將交互作用函數(shù)替換成相加、拼接和多層感知機后,macro-F1值分別下降了3.5%、1.8%、2.8%,證明了門機制在篩選、提取和融合兩個方向上信息的有效性。去除局部推理模塊后,macro-F1值下降了3.2%,這表明該模塊對語義信息的增強有明顯幫助。如果繼續(xù)將預(yù)訓練的BERT向量替換成Google News Word2Vec向量,macro-F1值會再次下降1.8%。

表5 消融實驗

4.2.2 雙向樹結(jié)構(gòu)分析

為了進一步研究BiTreeInfer模型是否得益于其雙向樹結(jié)構(gòu),實驗對不同深度的推文進行了分析。表6統(tǒng)計了測試集中推文深度的分布情況,觀察到大部分推文集中在1~3的深度,最大的深度可達到13,為了方便分析,將不低于6的深度的推文統(tǒng)計成了一組。

表6 不同深度的推文統(tǒng)計

實驗做了兩個對比模型BUTreeInfer和TDTreeInfer,除了樹的傳播方向以外,其他設(shè)置與BiTreeInfer相同,分別表示自底向上(bottom-up)和自頂向下(top-down)的樹形結(jié)構(gòu)。圖4中的對比結(jié)果顯示,不同模型有其擅長識別的深度,而能識別出更多小數(shù)據(jù)量類別中推文的模型獲得的macro-F1值更高,所以在0深度上,BUTreeInfer模型的 macro-F1值最低,因為其無法檢測出否定立場的推文,但在1深度上,它的綜合識別能力有所提高。TDTreeInfer在識別0~3深度上推文的效果尚佳,但推文位置加深后,它的識別能力稍顯遜色。

圖4 不同推文深度上的模型結(jié)果對比

總體來看,BiTreeInfer在大部分位置上都取得了最佳的結(jié)果,而且在大于5的深度的推文集合中,仍然保持較高的檢測水平,優(yōu)于任何單向的網(wǎng)絡(luò)結(jié)構(gòu)。這說明雙向樹結(jié)構(gòu)能夠在長距離中捕捉到更多的語義和結(jié)構(gòu)信息。

4.2.3 局部推理模塊分析

圖5展示了對話中具有不同立場標簽回復(fù)推文的推理分數(shù)。背景顏色代表它們與源推文之間的二元關(guān)系,顏色越深,說明兩者之間關(guān)系越緊密。在第一個例子中,否定類型的推文與源推文在語義上相悖,所以它們之間的局部距離較遠,推理分數(shù)較低。第二個例子中,支持類型的推文通過轉(zhuǎn)發(fā)或者重復(fù)描述源推文的謠言顯示出了與源推文語義關(guān)系上的一致性,所以獲得了較高的推理分數(shù)。分析結(jié)果與4.1節(jié)中的實驗結(jié)果一致,證明了局部推理模塊有助于識別否定這類數(shù)據(jù)量少但語義關(guān)系明顯的標簽。

圖5 兩組對話案例中回復(fù)推文的推理分數(shù)

5 結(jié)語

本文提出了一種端對端的立場檢測框架Bi-TreeInfer。該框架通過雙向的樹形神經(jīng)網(wǎng)絡(luò)對Twitter對話進行建模。節(jié)點的初始輸入表示由預(yù)訓練BERT模型獲得的句向量特征和人工提取的特征組合而成。改進的樹形遞歸神經(jīng)網(wǎng)絡(luò)能夠有效地提取自底向上和自頂向下兩個傳播方向上的語義和結(jié)構(gòu)信息,并且通過不同的交互作用函數(shù)融合了雙向表示。實驗證明,雙向樹結(jié)構(gòu)有助于捕捉長距離信息,并且檢測出對話深處的推文的立場。另外,模型還引入了一個局部推理模塊以加強源推文和回復(fù)推文之間的語義聯(lián)系,結(jié)果證明該方法能夠檢測出數(shù)據(jù)量最少、最具挑戰(zhàn)性的否定立場。在未來的工作中,我們將進行立場檢測和謠言判別的多任務(wù)實驗,以進一步探究社交平臺中謠言的傳播規(guī)律。

猜你喜歡
推文樹形立場
花光卉影
花卉(2024年1期)2024-01-16 11:29:12
立場
蘋果高光效樹形改造綜合配套技術(shù)
河北果樹(2022年1期)2022-02-16 00:41:10
武術(shù)研究的立場
特朗普上任至今發(fā)推文1.1萬條
特朗普推文哪條最招人煩
獼猴桃樹形培養(yǎng)和修剪技術(shù)
休眠季榆葉梅自然開心樹形的整形修剪
重訪“反對解釋”之立場與命題
法律方法(2013年1期)2013-10-27 02:26:56
立場
中國青年(1949年20期)1949-08-17 03:19:30
芜湖县| 内乡县| 滦南县| 金寨县| 五大连池市| 于都县| 建德市| 财经| 固镇县| 宜宾市| 和平区| 枝江市| 南靖县| 毕节市| 巍山| 崇州市| 永靖县| 昔阳县| 赞皇县| 乡宁县| 喀喇沁旗| 汝州市| 葫芦岛市| 兴化市| 富蕴县| 荣成市| 诸暨市| 乌恰县| 丹寨县| 麻城市| 曲阳县| 信阳市| 新津县| 满洲里市| 耒阳市| 山阳县| 方正县| 浦北县| 盐源县| 五指山市| 汶川县|