国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多元用戶特征和內容特征的微博謠言實時檢測模型

2022-12-06 11:05:44黃學堅王根生羅遠勝吳小芳李志鵬
小型微型計算機系統 2022年12期
關鍵詞:謠言語義特征

黃學堅,王根生,3,羅遠勝,閔 潞,吳小芳,李志鵬

1(江西財經大學 人文學院,南昌 330013)

2(江西財經大學 計算機實踐教學中心,南昌 330013)

3(江西財經大學 國際經貿學院,南昌 330013)

1 引 言

隨著 Web2.0 的快速發(fā)展以及移動互聯網的普及,以微博為代表的社交媒體成為人們獲取和分享信息的一個重要平臺.根據中國互聯網絡信息中心(CNNIC)2020年發(fā)布的第45次《中國互聯網絡發(fā)展狀況統計報告》顯示,截止2020年3月我國網民規(guī)模達到9.04億,互聯網普及率達64.5%,網絡新聞用戶規(guī)模達到7.31億,占網民整體80.9%,微博使用率達到42.5%.微博等社交媒體方便人們信息分享的同時,也為謠言的傳播提供了新的溫床.根據微博辟謠官方發(fā)布的數據顯示,2019年微博站方有效處理不實信息77742條.2020年初,關于新冠肺炎的謠言頻出,如 “鐘南山建議鹽水漱口防病毒”、“板藍根+熏醋可預防新型肺炎”、“國家不再對新冠肺炎病人免費治療”等謠言給疫情防疫工作帶了很多困擾.社交媒體中,謠言具有傳播速度快、影響范圍廣、監(jiān)測難度大、危害程度深等特點,謠言的產生和傳播不僅妨礙了人們對社交媒體的有效利用,而且可能造成民眾的誤解、引發(fā)負面情緒、擾亂社會秩序、甚至影響社會穩(wěn)定和國家安全[1].

為了控制謠言的傳播,微博官方建立了微博社區(qū)管理中心,受理網民對不實信息的舉報;中央網信辦建立了中國互聯網聯合辟謠平臺,為廣大群眾提供謠言舉報、查證等功能;騰訊推出了專業(yè)事實查證平臺“較真”,對各類假新聞、謠言等進行查證.這些措施對控制謠言的傳播、降低謠言的危害起到了一定作用.然而,這些網站或系統在識別謠言時主要依賴于民眾舉報和人工驗證的方式,不但需要耗費大量的人力和財力,而且在謠言識別上存在較大的時間滯后問題.因此,研究社交網絡謠言自動識別模型,在謠言散布后盡可能短的時間內識別出謠言,對遏制謠言的傳播具有重要的意義.

2 相關研究

謠言的傳播生命周期粗略可劃分為潛伏期、爆發(fā)期和消亡期[2],所以按檢測時間屬性劃分,可分為滯后檢測、早期檢測和實時檢測3類[3].滯后檢測主要針對謠言爆發(fā)期后的歷史數據集進行檢測,因歷史數據包含了豐富的謠言傳播特征(如評論、轉發(fā)、點贊等數據),從而可用的檢測特征相對較多,是初期謠言檢測研究的主要方向.例如,2011年Castillo等人首次針對Twitter上的謠言數據進行整理,提出基于用戶特征、內容特征、主題特征和傳播特征的決策樹謠言分類模型[4];2012年Yang等人首次針對新浪微博上的謠言數據進行分析,在已有的特征基礎上提出了發(fā)布信息客戶端類型和事件發(fā)生位置兩個新特征,并使用SVM分類器構建謠言識別模型[5];賀剛等人認為Yang提出的淺層文本特征不能有效的區(qū)分謠言和非謠言,因此提出了符號特征、鏈接特征、關鍵詞分布特征和時間差等4個新特征[6];曾子明等人以2016年霧霾謠言為例,在用戶特征和傳播特征的基礎上利用LDA主題模型挖掘微博文本的主題分布特征,并利用隨機森林算法進行謠言識別模型的訓練[7].這一類的研究主要基于“人工特征工程+傳統統計機器學習”的方式構建謠言檢測模型,由于依賴的數據豐富,實驗過程中也能獲得較好的檢測效果,但實際應用中不能盡早地識別謠言,缺少實用價值.所以,如何構建謠言及早檢測模型成為近年來的研究熱點.

早期檢測主要針對尚處于潛伏期內的謠言進行識別,一般基于謠言早期傳播過程中的時序數據進行建模.例如,Wu等人基于謠言的轉發(fā)數據,構建謠言傳播樹形結構,使用基于圖核函數的 SVM 分類器進行謠言檢測[8];Ma等人基于謠言傳播過程中的轉發(fā)時序數據,構建基于循環(huán)神經網絡(Recurrent Neural Network,RNN)的謠言檢測模型[9];Chen等人提出注意力機制與循環(huán)神經網絡相結合的謠言檢測模型,使模型更加關注于轉發(fā)時序數據中具有謠言特征的部分[10];謝柏林等人提出一種基于把關人行為的微博虛假信息檢測方法,利用隱半馬爾可夫模型刻畫信息轉發(fā)者和評論者對真實信息的把關行為,基于此來識別微博上流行的虛假信息[11];劉知遠等人利用謠言傳播過程中的懷疑和反駁信息,提出可信檢測點的概念,基于深度神經網絡構建謠言早期檢測模型[12];廖祥文等人把謠言傳播過程中的轉發(fā)信息按時間段進行分割,輸入帶有注意力機制的雙向門控循環(huán)神經網絡(Gate Recurrent Unit,GRU)中,構建基于分層注意力網絡的謠言檢測模型[13];李力釗等人利用Doc2vec把謠言傳播過程中的評論向量化,通過卷積神經網絡(Convolutional Neural Networks,CNN)中的卷積層學習特征表示,將特征序列輸入GRU中進行謠言檢測[14].這一類的研究從基于人工特征工程的統計機器學習方法逐漸發(fā)展到基于語義特征的深度學習方法,大部分檢測模型只要利用10%-30%的歷史傳播數據就可以獲得80%以上的檢測準確率,檢測延時在12-24小時左右,相比于滯后檢測具有較高的實用價值.

實時檢測即信息一經發(fā)布就立即開始檢測其是否為謠言信息,不依賴于任何的傳播動態(tài)信息,也稱為謠言的冷啟動檢測問題,是當今謠言檢測研究的難點問題[3],部分學者也進行了相關探索研究.例如,Ajao等人提出卷積神經網絡和長短時記憶網絡(Long-Short Term Memory,LSTM)相結合的模型,自動提取Twitter中虛假謠言的語義特征,實現謠言的實時檢測[15];李奧等人提出一種生成對抗網絡模型用于謠言檢測,通過對抗網絡生成器和判別器的相互促進作用,強化謠言文本特征的學習[16].這一類的方法把謠言識別視為單文本分類問題,檢測方法重點關注于謠言文本的語義信息[17].然而,用戶散布的謠言可能不具有典型的謠言文本特征,單純的文本分類有時并不能取得很好的效果.針對這個問題,馬鳴等人將待檢測樣本和官方謠言庫中的樣本進行相似度計算,將其值和傳統的用戶統計特征、內容統計特征進行融合,輸入SVM分類模型進行謠言檢測[18];尹鵬博等人結合用戶屬性和微博文本,提出基于卷積神經網絡和長短期記憶網絡的謠言檢測模型[19].通過研究分析發(fā)現,在單文本內容特征的基礎上融入更多的輔助特征是提升實時謠言檢測效果的重要手段.所以,本文基于已有的研究基礎,提出融合多元用戶特征和內容特征的謠言實時檢測模型,通過結合多元異構信息以彌補單一文本信息的不足,提高謠言實時檢測的準確率.

3 檢測模型構建

通常在社交媒體謠言檢測中用到的特征主要有用戶特征、內容特征和傳播特征[20],而實時檢測的謠言處于剛散布階段,還不存在謠言的傳播信息,所以只能從用戶和內容信息挖掘出識別特征.在用戶特征挖掘上,通過謠言用戶和非謠言用戶的屬性差異選擇用戶基本特征,并利用用戶的歷史行為數據,挖掘用戶理性值和用戶專業(yè)度兩個深層次特征;在內容特征挖掘上,構建雙向GRU神經網絡+注意力機制的文本語義特征學習模型,并統計符號、表情、URL等內容統計特征.檢測模型如圖1所示.

在圖1中,采用分層特征級聯和全連接的方式進行特征融合,把融合特征輸入分類模型進行訓練,預測分類結果.

3.1 用戶特征分析

3.1.1 用戶基本特征

劉雅輝等人通過對謠言用戶和非謠言用戶的基本特征進行分析發(fā)現五點差異:謠言用戶一般不會利用真實照片作為頭像、話題型用戶名的用戶更具可信度、女性相比男性散布謠言的概率更大、用戶所在地的差異影響謠言的識別能力、非認證用戶比認證用戶散布謠言的可能性更大[20];Morris等人研究發(fā)現用戶的社交關系網絡特征可以作為謠言用戶的判斷依據,粉絲數遠小于關注數的用戶更可能散布謠言信息[21];Castillo等人研究發(fā)現用戶注冊的時間越長、發(fā)布的信息越多其謠言識別能力越強,散布謠言的概率越小[4].所以本文基于這些研究結果,構建用戶基本特征選項,并對相關特征表示進行數字化處理,具體特征選項如表1所示.

表1 用戶基本特性選項

除了這些基本特征外,如何挖掘用戶深層特征對提高謠言檢測的準確率具有重要作用[22],所以本文基于用戶的歷史行為數據,提出用戶理性值和專業(yè)度兩個深層特征.

3.1.2 用戶深層特征

1)用戶理性值

“流言止于智者”,智者是具有獨立思考判斷的理性人,他們不輕易相信謠言,也不輕易傳播謠言.通過對數據分析發(fā)現,理性用戶發(fā)布的微博一般不會帶有強烈的個人情感,微博行文客觀公正,不容易引起廣泛關注,用戶評論態(tài)度也比較中立;而非理性用戶發(fā)布的微博一般喜歡附加個人情感,微博行文主觀臆斷,更容易激起人們的關注,用戶評論也更有爭議性,即評論情感傾向程度明顯[23,24].所以文本提出,通過對用戶的歷史微博文本情感和評論情感進行分析,計算用戶的理性值,計算方法如公式(1)所示:

(1)

其中,Ratu表示用戶u的理性值,n表示用戶u發(fā)布的歷史微博數,Sentii和Arguei分別表示微博i的情感度和爭議度,其計算分別如公式(2)、公式(3)所示:

(2)

(3)

在公式(2)中,wt表示微博文本分詞后的詞語,SentiDic表示包含情感值的情感詞庫,SentiDegreewt表示wt的情感值,AdvDegreewt表示修飾wt的程度副詞的程度值,微博的情感度計算不區(qū)分情感極性,取絕對值進行相加.在公式(3)中,neg和pos分別表示評論中正面情感評論數和負面情感評論數,中立情況不考慮,情感評論數越多微博的爭議度越大;情感評論數相同的情況下,正負情感評論數越不均衡,微博的爭議度越大.

2)用戶專業(yè)度

用戶經常發(fā)布某一主題的微博,說明用戶對該主題有一定的認識,發(fā)布該主題下的微博更具可信度.文本基于LDA(Latent Dirichlet Allocation)主題模型[25],挖掘微博的潛在主題,提出基于主題相似度的用戶專業(yè)度計算,計算方法如公式(4)所示:

(4)

3.2 內容特征分析

3.2.1 文本語義特征

為了挖掘文本深層語義特征,文本構建雙向GRU神經網絡+注意力機制的語義特征學習模型.雙向GRU使序列某點的輸出不僅依賴與之前的信息,還依賴與未來的信息,融合上下文內容生產輸出,符合人類理解文本的方式.注意力機制讓模型更加關注于文本中具有謠言模式的部分.具體語義特征學習模型如圖2所示.

1)語義特征學習模型算法

語義特征學習模型的算法如下:

Step 1.將文本進行分詞和預處理(去除停用詞、表情、符號等),利用詞向量(Word2vec)進行詞表示,構建文本詞序列向量表示W=[w1,w2,…,wt],wi為分詞預處理后的第i個詞的向量表示,wi=[v1,v2,…,vk],k為詞向量的維度.

Step 2.依次把文本詞序列向量作為雙向GRU網絡的輸入.

Step 3.把雙向GRU狀態(tài)輸入到全連接層,計算輸出結果yt,計算過程如公式(5)所示:

(5)

Step 4.利用注意力機制為每個節(jié)點的輸出賦予不同的權重值,計算最終文本語義特征FC_s,計算過程如公式(6)所示:

(6)

其中,αt表示yt的權重,其計算過程如公式(7)~公式(8)所示:

ut=tanh(Wwyt+bw)

(7)

(8)

其中,Ww表示神經網絡連接參數,bw表示偏置項參數,uw表示隨機初始化權重.

2)GRU單元結構

圖2模型中的GRU單元結構如圖3所示.GRU單元結構中ht計算過程如公式(9)~公式(12)所示.

圖2 語義特征學習模型

圖3 GRU單元結構

rt=σ(Wr[ht-1,xt]+br)

(9)

zt=σ(Wz[ht-1,xt]+bz)

(10)

(11)

(12)

3.2.2 內容統計特征

在挖掘文本語義特征時,通常忽略了文本內容中的符號、表情、URL等信息,而這些信息對謠言的識別也具有一定的輔助作用.例如,一些謠言為了騙取用戶流量通常會在文本中加入URL鏈接.本文為了彌補單一文本語義特征的不足,提出融合相關內容統計特征來豐富謠言檢測內容特征.具體內容統計特征如表2所示.

表2 內容統計特征

3.3 特征融合

用戶特征和內容統計特征都是單值類型,文本語義特征為多維向量類型,為了使他們保持一致,文本采用分層級聯+全連接的方式進行特征融合,具體融合模型如圖4所示.

圖4 特征融合模型

首先,針對用戶基本特征、用戶深層特征(理性值、專業(yè)度)、內容統計特征分別采用特征級聯+全連接的方式得出用戶基本特征向量FU_b、用戶深層特征向量FU_s、內容統計特征向量FC_b;然后,繼續(xù)采用特征級聯+全連接的方式,把FU_b和FU_s進行融合得出用戶特征向量FU,把FC_b和文本語義特征向量FC_s進行融合得出內容特征向量FC;最后,把用戶特征向量FU和內容特征向量FC進行級聯,得出最終多元融合特征向量FUC.整個計算過程如公式(13)~公式(18)所示:

FU_b=f(W(FU1⊕…⊕FU10)+b)

(13)

FU_s=f(W(Rat⊕Pro)+b)

(14)

FC_b=f(W(FC1⊕…⊕FC7)+b)

(15)

FU=f(W(FU_b⊕FU_s)+b)

(16)

FC=f(W(FC_b⊕FC_s)+b)

(17)

FUC=FU⊕FC

(18)

其中,⊕表示級聯操作,即向量的拼接;W和b分別表示全連接層參數矩陣和偏置項;f表示全連接層的激活函數.

3.4 結果預測

連接文本語義特征學習模型和特征融合模型,把融合特征FUC輸入全連接層,最后通過softmax分類器進行謠言檢測,分類預測結果計算如公式(19)所示:

p=softmax(W·FUC+b)

(19)

模型訓練過程中基于最小化交叉熵損失函數對整個模型的參數進行優(yōu)化,損失函數計算如公式(20)所示:

(20)

4 實 驗

4.1 實驗數據

4.1.1 數據樣本

本實驗使用的數據由3部分組成:1)標注了類別的謠言和非謠言微博文本數據;2)謠言和非謠言微博的用戶基本信息;3)用戶發(fā)布該微博之前的歷史微博文本數據和對應的評論數據.目前微博謠言公開數據集有Ma等人公開的數據集[9]和清華大學自然語言處理與社會人文計算實驗室公布的中文謠言數據集[26]等,但這些數據集都不包含用戶的歷史微博數據,不符合本實驗的要求,所以本實驗數據是通過編寫網絡爬蟲對微博社區(qū)管理中心和微博站點進行收集所得.微博站點選擇weibo.cn,該站點相比weibo.com站點的頁面結構更加簡單,并且頁面沒有使用ajax異步加載數據和相關加密技術.為了避免站點對單個IP和賬號的訪問次數限制,爬蟲在Scrapy框架的基礎上利用了IP代理和賬號池技術.微博社區(qū)管理中心公示了自2012年至今的近4萬條不實信息,不實信息的公示結果如圖5所示.

圖5 微博社區(qū)管理中心不實信息公示

1)謠言樣本

隨著時間的推移,微博用戶的屬性可能會發(fā)生較大的變化,所以本實驗只爬取微博社區(qū)管理中心近兩年被證實的不實信息來構成謠言樣本.爬蟲采用廣度優(yōu)先的策略:

第1步.爬取文本內容不少于30個字符的謠言微博信息.如果文本內容過短,文本缺乏語義信息,所以本文根據一個完整句子的大概長度30設置過濾條件.

第2步.爬取謠言散布用戶的基本信息,如果用戶已注銷則刪除對應的謠言樣本.

第3步.爬取用戶散布該謠言之前最近的200條歷史微博和對應的評論數據.

在爬取過程中,如果多條謠言屬于同一用戶,則只保留最新的一條.最后,獲得3756條謠言數據.

2)非謠言樣本

根據統計分析發(fā)現88.9%的微博謠言會在一周內被舉報[26],所以本實驗中非謠言樣本是通過爬取發(fā)布時間超過一周且未被舉報為不實信息的熱門微博(評論數+轉發(fā)數+點贊數大于100),這類微博包含的廣告類、個人動態(tài)類和轉發(fā)類的信息較少,微博內容更符合謠言檢測任務.非謠言樣本爬取數量、內容過濾條件、歷史微博選擇方式和謠言樣本保持一致.具體實驗樣本統計信息如表3所示.

表3 實驗樣本統計信息

4.1.2 數據預處理

對數據的預處理主要包括特征統計、歸一化、過濾、分詞、去停用詞、文本向量表示:

1)特征統計.用戶基本特征FC3至FU10可以直接根據原始數據進行表示,而FU1(用戶頭像是否是真實照片)和FU2(用戶名是否話題型)兩個特征需要人工判斷;內容統計特征FC1至FC7可以根據字符統計、正則表達式進行統計判斷得到.

2)歸一化處理.為了提高模型的訓練速度,對所有統計數值特征轉化到[0,1]區(qū)間表示.

3)文本內容過濾.微博內容包含大量的符號、表情、URL等,在進行分詞前需要對這些特殊字符進行過濾,本文通過正則表達式進行篩選.

4)分詞.利用HanLP分詞工具對所有的微博(謠言微博、非謠言微博和用戶的歷史微博)進行分詞.

5)去停用詞.利用哈工大停用詞表,對分詞結果中的停用詞進行刪除.

6)文本向量表示.利用由北京師范大學和人民大學研究者開源的中文詞向量庫(Chinese-Word-Vectors)[27]進行詞向量表示,再由詞向量構成微博文本向量表示.該詞向量庫的向量維度為300,有針對微博特定領域訓練的詞向量,相比其他全領域的詞向量庫更適合微博謠言識別任務.

4.2 評價指標

文本使用準確率(Accuracy)、謠言查準率(Precisionr)、非謠言查準率(Precisionn)、謠言查全率(Recallr)、非謠言查全率(Recalln)、謠言F1-Measure(F1r)、非謠言F1-Measure(F1n)作為模型檢測評價指標,其計算分別如公式(21)~公式(27)所示:

(21)

(22)

(23)

(24)

(25)

(26)

(27)

其中,TP表示實際為謠言,預測也為謠言的樣本數;TN表示實際為非謠言,預測也非謠言的樣本數;FP表示實際為非謠言,預測為謠言的樣本數;FN表示實際為謠言,預測為非謠言的樣本數.

4.3 實驗步驟和參數設置

4.3.1 實驗步驟

本文模型的實驗步驟如表4所示.

表4 本文模型的實驗步驟

續(xù)表

4.3.2 參數設置

在實驗過程中,需要對相關模型參數和訓練參數進行設置,本文根據先驗知識和實驗探索的方式對相關參數進行設置:根據微博官方首頁的分類,設置LDA主題模型的主題數;根據數據預處理后的微博最大詞數量設置文本語義特征學習模型中GRU輸入序列的單元數;根據信息熵原理,特征蘊含的信息量越多,則其特征表示向量維度越大;通過多次實驗探索,選擇相對合適的模型訓練參數,如學習率、迭代輪次等.本實驗設定的主要參數如表5所示.

表5 主要參數設置

4.4 實驗結果分析

4.4.1 不同特征融合的實驗結果對比

1)實驗結果

為了驗證融合多元用戶特征和內容特征檢測模型的有效性,進行以下5組不同特征融合的模型的實驗對比:

①FC_c:只利用文本語義特性;

②FC_c+FC_b:融合本文語義特征和內容統計特征;

③FC_c+FC_b+FU_b:融合本文語義特征、內容統計特征和用戶基本特征;

④FC_c+FC_b+FU_b+Rat:融合本文語義特征、內容統計特征、用戶基本特征和用戶理性值特征;

⑤FC_c+FC_b+FU_b+Rat+Pro:融合本文語義特征、內容統計特征、用戶基本特征、用戶理性值特征和用戶專業(yè)度特征.

5組模型除融合特征不同,其他模型結構和參數保持一致,其實驗結果對比如表6所示.

表6 不同特征融合的實驗結果對比

2)結果分析

通過實驗對比結果發(fā)現,隨著融合的特征越多,模型的準確率、查準率、查全率和F1-Measure也越來越高,融合了FC_c+FC_b+FU_b+Rat+Pro模型的準確率達到91.74%,比其他FC_c、FC_c+FC_b、FC_c+FC_b+FU_b、FC_c+FC_b+FU_b+Rat4類融合模型的準確率分別高出4.39%,3.60%、1.26%、0.53%.實驗結果表明:

①本文融合多元用戶特征和內容特征的有效,以及提出用戶理性值和專業(yè)度兩個深層次特征的有效;

②當在純內容特征中加入用戶特征時模型的準確率提高最多,說明用戶特征對基于內容特征的謠言識別具有很好的補充作用;

③FC_c和FC_c+FC_b兩種只基于內容特征的模型對謠言類別的識別精度高于非謠言類別,而其他3類融合了用戶特征和內容特征的模型對非謠言類別的識別精度略高于謠言類,說明內容特征更有利于對謠言的識別,而用戶特征有利于對非謠言的識別.

4.4.2 不同語義特征學習模型的實驗結果對比

1)實驗結果

為了驗證雙向GRU神經網絡+注意力機制的語義特征學習模型的有效性,進行以下4組不同模型的實驗對比:

①GRU:基于單向GRU神經網絡的語義特征學習模型;

②GRU+Attention:基于單向GRU神經網絡+注意力機制的語義特征學習模型;

③BiGRU:基于雙向GRU神經網絡的語義特征學習模型;

④BiGRU+Attention:基于雙向GRU神經網絡+注意力機制的語義特征學習模型.

4組模型除語義特征學習模型不同,其他模型結構和參數保持一致,其實驗結果對比如表7所示.

表7 不同語義特征學習模型的實驗結果對比

2)結果分析

通過實驗對比結果發(fā)現:

①BiGRU模型的準確率高于GRU模型,說明雙向GRU神經網絡的語義特征學習能力強于單向GRU神經網絡;

②加入了注意力機制的GRU+Attention 和BiGRU+Attention兩個模型的準確率分別高于未加入注意力機制的GRU模型和BiGRU模型,說明注意力機制提升了語義特性學習能力,驗證了本文BiGRU+Attention模型的有效性;

③雙向GRU使序列某點的輸出不僅依賴與之前的文本信息,還依賴與之后的文本信息,注意力機制讓模型更加關注于文本中具有謠言模式的部分.所以通過兩者結合,挖掘的語義特征對謠言分類更加有效.

4.4.3 不同實時檢測模型的實驗對比

1)實驗結果

4.4.1節(jié)和4.4.2節(jié)的實驗對比都是模型本身的縱向對比.所以,為了進一步驗證文本模型,利用本文數據集對文獻[15]的謠言實時檢測模型(LSTM-CNN)、文獻[16]的謠言實時檢測模型(TG-BiA)、文獻[18]的謠言實時檢測模型(T-SVM)和文獻[19]的謠言實時檢測模型(C-LSTM)進行復現,和文本模型分別對比它們在訓練集和測試集中謠言的查準率、查全率、F1-Measure和方差(訓練集F1-Measure減去測試集F1-Measure),對比結果如表8所示.

表8 不同實時檢測模型的實驗結果對比

2)結果分析

通過實驗對比結果發(fā)現:

①LSTM-CNN和TG-BiA兩種只關注謠言文本語義信息的檢測模型在訓練數據集上能實現較高的F1-Measure值,分別達到了90.57%和91.73%,而在測試數據集上分別只有87.10%和88.01%,分別下降了3.47%和3.72%,這可能是因為深度學習算法具有很強的特征學習能力,易學到和訓練數據集高度相關的特征,導致模型的泛化能力不足;

②T-SVM在基于文本內容統計特征的基礎上,融合了用戶統計特征和歷史謠言的相似度特征,模型在訓練集和測試集上的F1-Measure值分別為85.55%和85.01%,準確率最低,方差也最小,這可能是因為基于人工特征工程+統計機器學習的算法模型學習能力低于數據驅動的深度學習算法模型,但統計特征具有全局性,所以模型的方差結果最小;

③C-LSTM在文本語義特征的基礎上融合了用戶屬性特征,是只關注于文本語義信息模型的改進,測試集上的F1-Measure值達到了89.51%,相比LSTM-CNN、TG-BiA、T-SVM 3種模型分別提高了2.41%、1.50%、4.5%,方差也相對較小;

④本文提出的模型在文本語義特征的基礎上融合了用戶基本特征、用戶深層特征和內容統計特征,進一步拓展了謠言實時檢測的特征空間,在測試集上F1-Measure值達到了91.70%,相比于改進型C-LSTM模型高出了2.19%,在融合了更多的全局性特征后方差也相對更小.

4.4.4 謠言檢查時效性分析

本文預測模型依賴于用戶的基本信息和歷史發(fā)文信息,對剛發(fā)布的微博進行預測時,如果數據庫中已經存儲了該發(fā)文用戶的基本信息、理性值和專業(yè)度,那么待檢測微博經過預處理后可以直接放入模型進行預測,以8核CPU、32G內存的計算機為例,整個計算過程毫秒級時間內就可完成.如果數據庫中還沒有存儲該用戶的信息,則先需要進行數據收集和計算,將結果保存數據庫.以200條歷史微博,單條微博5頁評論計算,總需要抓取1001個頁面,以單賬號、單IP、單機器的Scrapy為例,數據抓取過程大概在3分鐘左右,數據預處理、理性值和專業(yè)度的計算時間相對可以忽略不計,整個預測過程在3分鐘左右就能完成,保證了謠言檢測的實時性.

5 總 結

針對謠言實時檢測問題,本文提出融合多元用戶特征和內容特征的檢測模型:在傳統用戶基本特征的基礎上,基于用戶的歷史行為數據,挖掘用戶理性值和用戶專業(yè)度兩個深層次特征;在利用雙向GRU神經網絡+注意力機制學習文本語義特征的基礎上,融合符號、表情等內容統計特征.基于知識驅動和數據驅動相融合的思路,拓展了謠言實時檢測的特征空間,彌補了單一文本數據學習的不足,并通過多種類型的實驗結果對比,驗證了本文模型的有效性.

雖然,本文模型提高了謠言實時檢測的精準度,但也存在以下不足和可以改進的地方:1)相關統計特征依賴于手工操作,降低了模型的靈活性;2)無法對新用戶進行理性值和專業(yè)度的計算,因為新用戶沒有歷史行為數據;3)用戶特征需要更新,因為用戶的歷史數據和相關屬性會隨時間發(fā)生變化;4)模型對超短文本類的微博檢測效果不好,這類微博很難獲取到語義特征和內容統計特征信息;5)沒有對微博中附加的圖片和視頻進行多模態(tài)特征聯合分析,而目前一部分的謠言是通過圖片和視頻進行傳播的.這些不足都是下一步需要繼續(xù)研究的方向.

猜你喜歡
謠言語義特征
中國使館駁斥荒謬謠言
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
當謠言不攻自破之時
抓住特征巧觀察
謠言
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
謠言大揭秘
學生天地(2016年32期)2016-04-16 05:16:19
認知范疇模糊與語義模糊
收藏| 新龙县| 陕西省| 姚安县| 龙里县| 化德县| 曲松县| 枞阳县| 南宫市| 平远县| 墨玉县| 崇礼县| 北宁市| 通榆县| 新巴尔虎右旗| 长沙县| 余庆县| 谢通门县| 边坝县| 开远市| 伊吾县| 新巴尔虎左旗| 舒兰市| 金秀| 贵阳市| 诸暨市| 延寿县| 平山县| 中江县| 珲春市| 且末县| 中方县| 邢台县| 瑞金市| 甘德县| 三明市| 平安县| 文登市| 蓬安县| 宁乡县| 会同县|