国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于超級網(wǎng)絡理論的謠言檢測模型研究

2023-02-08 06:06郭曉晨

郭曉晨

(安徽工商職業(yè)學院 管理學院,合肥230041)

隨著計算機技術的飛速發(fā)展,新浪微博等幾個主流的社交網(wǎng)絡平臺為人們自由發(fā)表意見提供了渠道.這些社交網(wǎng)絡平臺在帶來了便利的同時,也帶來了一些嚴重的安全問題,而謠言檢測則是其中一個關鍵的研究領域.謠言的傳播會引起嚴重的社會問題并擾亂公共秩序,因此設計和優(yōu)化能夠準確、及時地檢測謠言極其重要.現(xiàn)有的謠言檢測模型一般基于用戶信息或帖子內容等特征進行研究[1-3],但是仍然缺少系統(tǒng)的模型聯(lián)合考慮多種特征來進行謠言檢測.本研究基于超級網(wǎng)絡理論提出了一種新穎的謠言檢測模型,構建了一個三層的超級網(wǎng)絡以描述微博帖子的特征,并基于此提出了一個謠言分類器以進行謠言檢測.

1 謠言特征

Twitter和新浪微博是兩個主要的微博平臺,而不同平臺(數(shù)據(jù)集)中的謠言之間存在著差異.由于現(xiàn)有的大多數(shù)研究都將Twitter作為研究對象,因此將新浪微博平臺作為研究對象,探討謠言檢測問題.微博辟謠公眾號所提供的年度謠言統(tǒng)計信息有益于我們的特征選擇過程,主要考慮以下三類主要特征.

第一類是與用戶有關的特征.微博用戶的大部分信息(例如性別、年齡、賬號類型、位置、關注數(shù)和關注度)都可以直接在個人頁面找到.此外,用于發(fā)布微博的客戶端程序類型也是一個顯著的特征.大多數(shù)傳播謠言的用戶實際上只是一些被謠言蒙蔽了雙眼的普通用戶,因此對這一特定用戶群的檢測是重要的研究重點領域.

第二類特征是與內容有關的特征.與微博內容相關的特征包括了內容是否包含網(wǎng)址、問號出現(xiàn)的頻率、任意詞和暫定詞的數(shù)量,其中大部分是根據(jù)關鍵詞計算的.與內容有關的特征是判斷某個微博帖子是否為謠言的重要依據(jù).另外,諸如轉發(fā)和評論數(shù)量等內容擴散特征也是需要考察的重要因素.

第三類是與心理有關的特征.基于心理的特征對于在線情感分析非常重要,因此考慮將此類特征應用于謠言檢測中.之前的研究普遍認為只有擁有負面情緒的帖子才能成為謠言,然而一個帖子所包含的心理很復雜,部分謠言也可能會有積極的情緒.

2 謠言檢測模型

2.1 超級網(wǎng)絡模型

超級網(wǎng)絡可以全面描述復雜的關系,運用超級網(wǎng)絡理論可以從微博帖子中挖掘和發(fā)現(xiàn)更多有用的信息.此外,得益于超級網(wǎng)絡獨特的多層次、多維度、多屬性的優(yōu)勢,可以更好地反映互聯(lián)網(wǎng)輿情的復雜性和動態(tài)性.[4]建立了一個具有三層子網(wǎng)絡的超級網(wǎng)絡:社交子網(wǎng)絡、心理子網(wǎng)絡和關鍵詞子網(wǎng)絡,創(chuàng)建謠言的謠言檢測系統(tǒng),如圖1所示.

圖1 超級網(wǎng)絡模型

在本超級網(wǎng)絡中,所有子網(wǎng)絡都是無向網(wǎng)絡.位于同一子網(wǎng)絡內的邊是正常邊,連接不同子網(wǎng)絡的邊稱為超級邊.一條超級邊表示一個完整的帖子,其中包括該帖子的用戶、心理和內容.[5]如圖1所示,超級邊(虛線)所表示帖子是由用戶a1發(fā)表的帖子,其心理為p1,由關鍵字k1、k3和k4組成.分別用矩陣S、P和K來表示不同子網(wǎng)絡中的鄰接關系,其中矩陣元素的值為0表示節(jié)點之間沒有連接,元素值為1表示有連接.對于社交子網(wǎng),社交矩陣是根據(jù)用戶之間的關注關系建立的.例如,在圖1中,用戶a2關注了用戶a1,因此Sa1a2=Sa2a1=1.采用基于詞典的方法判定帖子的心理,考慮的心理情緒包括認同、否認、懷疑、憤怒和興奮.在大多數(shù)情況下,一條帖子可能會包含不止一種心理情緒,例如,憤怒和否認心理經常同時出現(xiàn).心理矩陣P是根據(jù)一個帖子所包含的情緒來建立的.如圖1所示,p1和p2同時出現(xiàn)在一個帖子中,所以有Pp1p2=Pp2p1=1.在關鍵詞子網(wǎng)中,建立了謠言詞典.該詞典以微博辟謠公眾號近期檢測到的謠言為關鍵詞,經過分詞處理后,選取出現(xiàn)頻率最高的前200個詞組成詞典.基于謠言詞典來構建的關鍵詞矩陣,如圖1所示,帖子包含關鍵詞k1、k3和k4,因此有Vk1k3=Vk3k1=Vk4k1=Vk1k4=Vk3k4=Vk4k3=1.

2.2 超級網(wǎng)絡特征

基于謠言檢測超級網(wǎng)絡,可以創(chuàng)建一組新的特征,稱為基于超級網(wǎng)絡的特征,即社會子網(wǎng)聚類系數(shù)、心理復雜性、謠言關鍵詞密度和超級邊相似度.社會子網(wǎng)聚類系數(shù)衡量特定用戶在社交子網(wǎng)內的聚集程度,其計算方式為

(1)

其中:Ci是用戶i的聚類系數(shù),k是連接到用戶i的用戶數(shù),n是這k個用戶之間實際存在的邊數(shù).心理復雜性反映了帖子的心理復雜程度,其計算方式如下所示:

(2)

其中:Φm是帖子m的心理復雜度,Pim是帖子m中的第i個心理,N是帖子m內的心理總數(shù).謠言關鍵詞密度代表帖子內謠言關鍵詞的密度,其計算方式為

(3)

其中:Ωm為帖子m的謠言關鍵詞密度,khm為帖子m中包含的第h個謠言關鍵詞,M為帖子m內謠言相關關鍵詞的總數(shù).超級邊相似度反映了帖子的相似程度.首先定義帖子m和帖子o之間的Jaccard系數(shù),其計算方式為

(4)

基于該系數(shù),定義了一個相似度矩陣B.基于相似度矩陣,可以通過下述公式計算超邊的相似度:

(5)

其中:Πm度量超邊m的相似度.

2.3 檢測分類過程

采用超級網(wǎng)絡模型對特征進行分類,以獲得所選特征的結構.對于第二組特征,盡管超級網(wǎng)絡理論對特征結構建立過程做出了貢獻,但它也允許我們提出一些新的特征,這些特征可以衡量不同子網(wǎng)絡內部和之間的關系,而這些是以前的工作尚未考慮的.結合上述的社交子網(wǎng)聚類系數(shù)、心理復雜度、謠言關鍵詞密度和超級邊相似度,最終選擇了29個特征.

提出的謠言檢測模型架構如圖2所示.首先,采用爬蟲技術從微博網(wǎng)站中獲取數(shù)據(jù).選擇了幾個熱門話題,根據(jù)一些相關的關鍵詞,抓取了所有相關的微博帖子,其中包括用戶信息和內容.每個主題的所有帖子構成一個數(shù)據(jù)集,然后根據(jù)微博辟謠公眾號發(fā)布的經過驗證的所選話題的謠言,將每個數(shù)據(jù)集分為兩個方面:真實帖子和謠言.此外,本模型還有識別異常用戶的功能.

圖2 謠言檢測流程

考慮以下四類情況:發(fā)布謠言的普通用戶、發(fā)布謠言的異常用戶、發(fā)布真實信息的普通用戶和發(fā)布真實信息的異常用戶.根據(jù)與用戶有關的特征和社交子網(wǎng)聚類系數(shù),將每個數(shù)據(jù)集分為兩組:正常用戶和異常用戶.由此可知,這是一個二元分類問題.使用樸素貝葉斯、神經網(wǎng)絡、支持向量機和邏輯回歸這四種機器學習方法來訓練用戶分類器.

利用與心理有關的特征、與內容有關的特征和基于超級網(wǎng)絡的特征(除社交子網(wǎng)聚類系數(shù)外),結合上述四種機器學習方法,訓練謠言分類器進行正常用戶群和異常用戶群內的謠言檢測.

3 實驗評估

實驗所使用的數(shù)據(jù)集包含了三個熱點話題的75 580個帖子及相應的用戶帳戶信息.將每個數(shù)據(jù)集分為訓練數(shù)據(jù)集和測試數(shù)據(jù)集.為了評估所提出的謠言檢測模型的準確性,使用了準確度α、精確度β、召回率χ和 Fa-度量η四個指標,其定義如式(6)所示.選擇了兩個現(xiàn)有的謠言檢測模型(即EveRumor謠言檢測模型[4]和ML-based謠言檢測模型[5])與提出的SNTRumor進行比較.

(6)

每個算法進行50次實驗,取平均值作為最終結果.表 1展示了不同算法的檢測性能結果.由結果可知,無論是使用哪一種分類器,所提出的SNTRumor模型都具有最好的表現(xiàn).與EveRumor和ML-based相比,SNTRumor不僅考慮了用戶、內容和心理特征,還考慮了超級網(wǎng)絡的特征,因此可以有效提高謠言檢測的性能.

表1 檢測結果對比

4 結語

本文系統(tǒng)地將超級網(wǎng)絡理論應用于謠言檢測問題中,提出了謠言檢測模型.提出了一組新的特征,重點關注不同特征之間的關系,以全面描述微博帖子.由實驗結果可知,與現(xiàn)有的模型相比,提出的謠言檢測模型表現(xiàn)出更好的性能.在未來的研究中,將考慮更多的經典理論來探討謠言檢測問題,并通過改進分類方法來提高檢測性能.