毛震東 趙博文 白嘉萌 胡 博
(1.中國科學技術大學網絡空間安全學院,安徽合肥 230027;2.合肥綜合性國家科學中心人工智能研究院,安徽合肥 230088;3.中國科學技術大學信息科學技術學院,安徽合肥 230027)
隨著互聯網通訊技術的蓬勃發(fā)展,社交網絡日漸占據了人們的主要日常生活。微博,抖音,Face?book,Twitter 等社交網絡平臺的興起雖然能夠給廣大普通用戶提供發(fā)表新聞資訊和撰寫評論文章的機會,但也同時在極大程度上為虛假新聞的發(fā)布和傳播創(chuàng)造了全新的渠道。虛假新聞的定義是,為了達到某一目的而發(fā)布不實信息以欺騙他人的一類報道。虛假新聞對個人,社會和國家會產生不可估量的負面影響。對個人而言,一條關于奧巴馬在爆炸中受傷的假新聞就曾引發(fā)了股市的崩盤,這給不少人的財產帶來了損失;對社會而言,自然災害發(fā)生時往往會有假新聞出現造成群眾的恐慌,例如2011年的日本地震[1],2012年的颶風桑迪[2];對于國家而言,2016 年的美國總統(tǒng)大選期間出現了大量假新聞[3-4],這對選舉結果造成了嚴重的影響。所以,如何在當下的社交網絡媒體信息中快速準確地檢測出虛假新聞,確保新聞傳播的真實性,是當前社交媒體分析一個亟需解決的問題。
在微博、推特等社交平臺中,用戶可以向平臺主動舉報可能是假新聞的信息,平臺通過人工審核的方式來判定被舉報的信息是否為假新聞。這樣的方法雖然可以一定程度減少虛假新聞的進一步擴散,但是這種機制依賴于人工審查和專家知識,在人工審查階段虛假新聞可能已被廣泛傳播。針對這些問題,研究者們提出了自動智能檢測虛假新聞的方法。早期的研究關注于手工設計特征,例如統(tǒng)計特征[2,5-10],主題特征[11-12],單詞特征[9,12-15]和句法特征[16-18]等,之后使用提取的特征訓練有監(jiān)督[5-6,19-22]或者無監(jiān)督[23-24]的分類器來對新聞進行分類。由于虛假新聞的傳播模式與真實新聞有很大差異,研究者們也基于新聞傳播樹和傳播圖[3,11,13]開展了大量研究。隨著深度學習技術的發(fā)展,大量的研究開始使用深度學習技術來進行特征提取和傳播模式的建模[18-19,25-38]。
真實新聞是將真相傳遞給群眾,而虛假新聞是有目的性,誘導性的信息,通常有特定的傳播意圖,這是虛假新聞和真實新聞本質的不同。檢測不同傳播意圖的虛假新聞對應有不同的針對性特征。本文將不同意圖的虛假新聞特征分為以下4 類,各類特征將在之后的章節(jié)中詳細展開介紹。
(1)通用特征:虛假新聞雖然有不同的傳播意圖,但仍有一些通用的特征適用于所有意圖的檢測。
(2)意圖誤導公眾的特征:這類假新聞通常用于商業(yè)目的,此時虛假新聞和真實新聞內容非常相似,用戶不易區(qū)分,從而誘導用戶來點擊虛假新聞獲得盈利。
(3)意圖操縱輿論的虛假新聞特征:這類假新聞通常用于政治用途,此時假新聞中帶有強烈的煽動性和情緒性的詞語,從而達到操縱輿論的作用。
(4)意圖吸引注意的特征:包含這種特征的新聞用于經濟或娛樂目的,例如新聞中會附加與內容不相關的圖片、視頻來吸引用戶注意。
現有對虛假新聞檢測的綜述文獻大多根據虛假新聞檢測使用的技術進行分類。例如Zhou 等人[39]將現有的方法分為基于知識圖譜的,基于新聞風格,基于傳播模式和基于可信度網絡的研究。Shu等人[40]以數據挖掘的角度將虛假新聞檢測分為基于特征提取和模型構造的研究。此外Zubiaga 等人[41]還根據虛假新聞檢測任務的目標,概述了現有研究,包括事件真?zhèn)螜z測、事件跟蹤、立場分類和準確性分類等。與這些分類方法不同,本文揭示了虛假新聞及其傳播過程中存在的內在特性,即虛假新聞具有一定傳播意圖且具有相應的特征。本文根據這一新視角對現有的方法按傳播意圖特征做了分類和比較,以便能夠更好地指導該領域的未來發(fā)展。
本文后續(xù)內容安排如下:第2 節(jié)給出了虛假新聞檢測的定義和基本范式,并介紹了虛假新聞檢測領域中常用的數據集和評價指標;第3 節(jié)將現有方法根據傳播意圖特征進行分類和比較;第4 節(jié)介紹了基于特征的虛假新聞檢測方法;第5 節(jié)對當前方法的性能作了簡要介紹;第6 節(jié)對虛假新聞檢測領域將來的工作進行了展望;第7 節(jié)對基于傳播意圖特征的虛假新聞檢測技術作了總結。
虛假新聞是指以不實信息誤導大眾,以帶來政治效果或經濟利益的新聞,是一種具有明顯傳播意圖的不實信息。虛假新聞檢測本質上是分類問題,其形式化定義如下:
給定一個事件X,與X相關的一系列新聞M={m1,m2,…,mn},這些新聞由一組用戶U={u1,u2,…,un}發(fā)布,新聞的形式可以是微博、推特等互聯網社交媒體內容及其后續(xù)的轉發(fā)、評論,也可以是發(fā)布者發(fā)表的文章、視頻等。虛假新聞檢測的目標是學習一個函數f(x)來判別該事件或某條新聞是否為不實內容。每條新聞都包含一組多媒體內容,包括文本描述,視覺內容和用戶信息。其中文本描述包括原始新聞的文本內容、評論內容以及轉發(fā)內容,視覺內容包括該新聞中的表情、圖片、視頻等信息,用戶信息包括用戶畫像和社交關系。
虛假新聞檢測的基本范式可以分為兩步:相關特征的提取和對特征的編碼分類,如圖1 所示。在第一步特征提取階段,除了提取通用的特征如語義特征、主題特征、情感特征、視覺特征、時序特征和用戶特征外,還可以根據不同的傳播意圖提取特定的特征?;谔崛〉奶卣?,第二步將特征進一步編碼并使用分類器來判別新聞的真假性?,F有的分類方法可以分為傳統(tǒng)機器學習分類和基于神經網絡的方法。傳統(tǒng)的機器學習方法首先選擇合適的特征,再使用有監(jiān)督或無監(jiān)督的方法進行分類?;谏窠浘W絡的方法能夠自動地進行新聞特征選擇和融合,再進行分類,并結合卷積神經網絡和循環(huán)神經網絡處理新聞內容中的圖像特征,文本特征和時序特征等多維度多模態(tài)特征。對于這個基本范式中的兩個步驟我們將在后續(xù)章節(jié)詳細介紹。
隨著社會對虛假新聞檢測研究的增多,研究者們制作了大量的基準數據集,這些數據集大多是從現實生活中的社交媒體上收集的,例如Twitter,新浪微博等。本文整理了一組虛假新聞檢測領域經典的數據集,統(tǒng)計結果如表1所示。
表1 虛假新聞檢測領域經典數據集Tab.1 Common datasets for fake news detection
(1)微博[28]:該數據集是從新浪微博社區(qū)收集的信息,每一條微博都視為一條新的信息,并且與一個二元標簽相關聯,以表明該信息是否為真。數據集包含4664 個事件,3805656 條信息,2746818 名用戶,其中2313個事件是假新聞。
(2)Twitter15[6]和Twitter16[28]:該數據集是從美國Twitter 公司收集的信息,也是虛假新聞檢測領域最常用的數據集。前者包含1490 條新聞和276663名用戶,后者包含818條新聞和173487名用戶。
(3)BuzzFeedNews[42]數據集包含新聞故事的標題和文本,這些新聞來自于Facebook,內容為2016年美國大選相關的新聞文章,總共有1627條新聞和901 條虛假新聞。其中包含826 篇主流文章、356 篇左翼文章和545篇右翼文章。
(4)LIAR[43]是一個數量高達12836 條的虛假新聞數據集,是從事實審核平臺PolitiFact 收集的2007-2016 年間發(fā)布在該網站上的簡短言論,包含一系列民主黨人和共和黨人發(fā)布的言論,有六種關于真實度的標簽。
(5)FNC-1[30]:該數據集包含了虛假新聞檢測挑戰(zhàn)賽的300 個主題,每個主題與5~20 篇新聞文章相關,總共有約2587 篇文章和75385 個事件。每個文檔-標題對都用四種立場標簽之一標注。訓練集和測試集分別包含200個主題和100個主題的文檔-標題對。
(6)FakeNewsNet[44]數據集收集自兩個事實審核平臺:GossipCop 和PolitiFact。它包含23196 篇新聞文章,其中5755 篇是虛假新聞。此外,該數據集包含三種信息:帶有標簽的新聞內容,社會背景信息和時序信息。此外部分新聞還對應有相關圖像。
(7)MediaEval[45]:該數據集用于檢測社交媒體上的虛假多模態(tài)內容。其訓練集包含與17 個謠言相關事件的9000 條虛假信息和6000 條真實信息。其測試集包含與35 個謠言相關的2000 條新聞。每條推特信息中都包含文字內容、相關的圖片視頻內容和社交內容。
(8)CCMR[32]:該數據集是一個跨語言和跨平臺的多媒體謠言驗證數據集。它通過收集不同的搜索引擎返回的外部網頁,擴展了MediaEval[45]數據集。CCMR 共有15629 條推特新聞,4625 條谷歌網頁,2505 條百度網頁,這些數據都與17 個事件相關。
虛假新聞檢測是一項分類任務,評價指標包括精確率(Precision)、召回率(Recall)、F1值(F1 Score)和準確率(Accuracy)。首先要構造混淆矩陣,并計算真值?;煜仃囍懈黜椀亩x如下:
(1)真陽性(True Positive,TP):待預測新聞是假新聞,預測結果為假新聞。
(2)真陰性(True Negative,TN):待預測新聞是真新聞,預測結果為真新聞。
(3)假陽性(False Positive,FP):待預測新聞是真新聞,預測結果為假新聞。
(4)假陰性(False Negative,FN):待預測新聞是假新聞,預測結果為真新聞。
根據上述定義,評價指標可以被定義以下公式(1)、(2)、(3)、(4):
虛假新聞和真實新聞的區(qū)別在于虛假新聞是帶有一定的傳播意圖,針對虛假新聞的傳播意圖可以提取相應特征用于虛假新聞檢測。我們將這些特征分為通用特征、意圖誤導公眾的特征、意圖操縱輿論的特征和意圖吸引注意的特征,如表2所示。我們將在后續(xù)小節(jié)詳細介紹。
表2 不同傳播意圖的虛假新聞特征Tab.2 False news features based on different propagation intentions
通用特征指的是虛假新聞檢測中具有普適性的特征。我們將通用特征具體分為結構特征、時間特征、用戶特征和其他特征。
(1)結構特征:虛假新聞是被用戶故意散播的,所以假新聞的傳播過程與真實新聞有很大不同。研究者們提出可以建模新聞的傳播路徑,來獲取傳播過程中的結構特征。Castillo[5]提出可以獲取新聞傳播樹中的結構特征,新聞傳播樹是指以某條新聞為根節(jié)點,該條新聞的轉發(fā)新聞為子節(jié)點,并將子節(jié)點作為下一層的根節(jié)點按照上述過程迭代構建的樹,此樹結構可以代表新聞的傳播路徑。新聞傳播樹中的最大深度和平均深度,根節(jié)點的度數,傳播樹中最大度數和平均度數都能反映出新聞的傳播特征,文章提到,傳播圖中單層節(jié)點數目較大的新聞往往可信度較高。Kwon 等人[14]提出可以從三種類型的網絡中提取特征,例如好友網絡,好友網絡最大連接圖,以及新聞擴散圖(類似上述新聞傳播樹定義,描述新聞主題在用戶之間的擴散路徑)。通過分析這些網絡結構,他們得出結論,對于給定的新聞,如果新聞的傳播方向是從度數低的用戶到度數高的用戶,或者在擴散圖中孤點的比例很大(例如很多僵尸用戶會發(fā)表虛假新聞獲利,而這些用戶沒有社交網絡),那么該條新聞很有可能是假的。
(2)時間特征:虛假新聞的始作俑者一旦發(fā)布虛假新聞后,會盡可能地使其流傳并變得熱門起來,因此虛假新聞隨時間的傳播特征與真實新聞不同。Kwon 等人[14]提取了新聞傳播過程中的時間特征,他們觀察到虛假新聞通常有多個周期性的轉發(fā)和評論數量峰值,而真實新聞通常只有一個峰值。類似地,Wu 等人[13]提出了計算新聞的轉發(fā)時間特征,也就是原始新聞和其被轉發(fā)的平均時間差。因為惡意用戶會刻意地反復轉發(fā)虛假新聞,并評論相似的內容來提高虛假新聞的熱度。Sun 等人[9]提出計算新聞的重復數,并作為一項特征。他們通過計算關鍵詞的Jaccard 系數來衡量兩條新聞間的相似性,只要相似性超過預定義的閾值,則新聞將被視為重復。
(3)用戶特征:用戶故意散播虛假新聞的目的和行為不同,但有時會表現出類似的用戶信息特征,通常可以從社會聲譽和個人信息兩個方面提取。一般來說,社會聲譽高的用戶不太可能發(fā)布假新聞,所以有時惡意用戶會使用和聲譽高的用戶相似的昵稱,以達到混淆視聽的作用。為了克服這個問題,許多研究提出可以將用戶的社會聲譽作為用戶特征。Gupta等人[7]提出可以考慮用戶的好友、關注者、粉絲的數量和社會地位,并檢查用戶是否被社交媒體驗證為可信任用戶(例如微博上的大V),這些信息反映了一個用戶是否可信。Sun 等人[9]提出如果一個用戶很少被人關注但是其關注了很多其他用戶,那么該用戶很可能是虛假新聞的傳播者。除此之外,他們還提到可以統(tǒng)計用戶發(fā)布新聞中包含的強烈否定詞和事件相關動詞(即常用于事件描述而非日常生活的動詞)的比例,這些比例越高,該用戶是假新聞發(fā)布者的可能性就越大。
虛假新聞傳播者傾向于隱藏個人信息,也就是說他們擁有的個人信息是不完整的,對此,許多的研究者展開了研究。Gupta 等人[7]提出虛假新聞發(fā)布者很可能是最近注冊的新用戶,因此,可以將用戶的注冊時間、個人描述、圖片資料和位置信息作為用戶特征。文中提出,虛假新聞的發(fā)布者和傳播者通常是最近注冊的用戶,個人描述和圖片資料信息較少,不存在定位信息。他們還檢查了不同社交媒體上的個人資料是否會鏈接在一起,因為普通用戶總是為了方便而鏈接它們,而虛假新聞發(fā)布者不會。此外,推文的位置、個人資料位置和事件位置的一致性也具有指示性[6]。Yang 等人[10]發(fā)現通過檢測用戶登錄的客戶端平臺能夠很好地檢測新浪微博中的虛假新聞??蛻舳顺绦虬ǚ且苿佣顺绦蚝鸵苿涌蛻舳顺绦颍渲蟹且苿佣税W頁版新浪微博,定時發(fā)帖工具和第三方應用程序;移動客戶端程序是指安裝在用戶手機或平板中的應用。該文獻指出如果一條新聞涉及到國外事件,并且從非移動客戶端程序發(fā)出,那么該新聞有很大概率是虛假新聞。
(4)其他特征:除上述介紹的特征外,還有一些特征能夠用于假新聞檢測。例如Hassan 等人[17]提出計算TF-IDF(term frequency-inverse document fre?quency)值,這是衡量句子中每個單詞的重要性的統(tǒng)計性數值。這可以幫助我們關注一些在假新聞經常使用但在真實新聞中很少使用的詞,例如“震驚的”,“難以想象”等夸張的詞語。Chen 等人[18]提出提取TF-IDF 特征。他們首先構建一個包含所有新聞中K個關鍵詞匯的字典,計算這些詞匯的TF-IDF值。將每條新聞使用TF-IDF 編碼為一個K維向量,如果新聞中未出現某關鍵詞匯,那么該維度為0,反之該維度為預先計算好的TF-IDF 值。文獻[15]中的工作使用Stanford 解析器基于上下文無關語法(CFG)樹導出了一組包括所有詞匯生成的規(guī)則,這些規(guī)則與父節(jié)點和祖父節(jié)點結合后編碼為TF-IDF特征。同樣地,詞袋模型[46],詞性標注[17,47],命名實體識別[48]等技術也被用來分析新聞中的關鍵字。上述特征的向量化表示,可以作為深度神經網絡的輸入進行虛假新聞分類檢測。
此類虛假新聞的傳播意圖在于誤導公眾,通常有一定的商業(yè)傾向,例如,讓公眾無法明確分辨消息的真實性,從而讓用戶更有可能購買特定產品。在這種情況下,虛假新聞的文本內容與真實新聞非常相似,除了在使用的符號或形式的統(tǒng)計特征上存在細微的差異,因此針對這一類虛假新聞的檢測主要集中于提取特殊符號的特征。
提取特殊符號的特征主要關注的是捕捉一些通常用來誤導公眾的特殊單詞或字符。例如,Cas?tillo 等人[5]提出關注新聞文本的長度,以及文本中是否包含問號或感嘆號。他們注意到此類虛假新聞不僅會使用特殊符號以誤導讀者,一般還具有相似的長度。Gupta 等人[2]和Castillo 等人[5]提出對第一、第二、第三人稱代詞計數,Liu等人[6]提出驗證信息中是否包含感官短語,如“I see”,“I hear”等等。這是因為如果包含此類單詞虛假新聞看起來會更具有可信度。此外,Gupta等人[7]認為網絡推文中的外部統(tǒng)一資源定位符(Uniform Resource Locator,URL)可以作為一個值得關注的證據,Biyani 等人[8]從URL 中提取了一些特征,如破折號、大寫字母、逗號的頻率等。還有一些工作考慮到了新聞帶來的影響并據此計算了“@”標簽、評論和轉發(fā)的數量。
此類虛假新聞經常被用來操縱人們的觀點,特別是為了政治目的。為了影響人們的態(tài)度或觀點,此類新聞會使用許多情緒化的詞語和特定的寫作風格,因此此類虛假新聞的檢測主要關注情感特征和風格特征。
(1)情感特征:情感特征可用于識別那些包含情緒化單詞和句子、意圖操縱輿論的煽動性言論[8-9,12-15,17,49-50]。為了提取此類特征,人們使用了許多情感分析工具。例如,Kwon等人[14]和Pérez-Rosas等人[15]都利用了一種被稱為語言探究和單詞計數(Linguistic Inquiry and Word Count,LIWC)的情感工具,以統(tǒng)計有特殊心理學含義的單詞的數量。在此基礎上,更多工作進一步研究提取了大量與情感相關的統(tǒng)計性特征。對于新浪微博的新聞,Sun 等人[9]考慮了新聞是否包含強烈且負面的情緒詞和意見詞,Wu 等人[13]利用單條消息中積極或消極的情緒詞的數量計算該新聞的平均情緒得分。對于推特的新聞,Ma等人[12]提出使用多視角問答(Multiple-Perspective QA 3,MPQA3)情感詞典和一些手動收集的常用表情符號來識別積極或消極的單詞。
虛假新聞更喜歡使用一些情感極端的副詞或形容詞,因此命名實體識別(Named Entity Recogni?tion,NER)技術[51]和詞性(Parts of Speech,POS)相關的技術[17,51]得到了廣泛應用。Hassan 等人[17]提出利用自然語言處理工具包(Natural Language Tool?kit,NLTK)標記提取POS 特征。他們在語料庫中收集了43個POS標簽,并計算每個句子中屬于這些標簽的單詞數量。此外,考慮到很多短語被反復提及以加強印象,Biyani 等人[8]還提取了unigram 和bigram特征用于虛假新聞檢測。
這類虛假新聞主要用于商業(yè)或娛樂目的,如增加流量、點擊率或制造轟動等,因此熱點話題、圖片和點擊誘餌往往會出現在假新聞中?;诖耍崛≈黝}特征、視覺特征和點擊誘餌特征來區(qū)分此類假新聞和真新聞是十分有效的。
(1)主題特征:一些虛假新聞傾向于利用聳人聽聞的話題來吸引用戶的興趣,例如名人離婚或懷孕以及空難事故(例如“MH370 航班失聯”)。根據這一觀察,一種直觀的方法是將新聞按不同的主題聚類,然后關注熱點話題。例如,Jin 等人[11]提出使用聚類算法將新聞聚類成子事件,以子事件-中心事件的層級形式對主題信息進行分析。Ma 等人[12]提出了一種基于動態(tài)序列時間結構(Dynamic Series-Time Structure,DSTS)的分類器來檢測虛假新聞。新聞主題的特征分布會隨時間變化而變化(即消息傳播過程),為了捕獲這種特性以提高檢測性能,該分類器使用隱含Dirichlet 分布(Latent Dirichlet Allo?cation,LDA)模型[53]計算每種新聞的主題特征分布,之后通過捕捉隨時間變化不同社交語境下的主題特征的變化實現虛假新聞的檢測。。
(2)視覺特征:某些虛假新聞還傾向于關聯圖片或視頻作為額外的視覺描述,這種圖文并茂的方式比單純的文本內容更能吸引眼球,因此可以使用視覺特征來驗證消息的真實性。本文將視覺特征大抵分為視覺統(tǒng)計特征和視覺語義特征,前者側重于統(tǒng)計分布,后者側重于視覺內容的語義。
視覺統(tǒng)計特征用來檢測帶有過時或篡改圖像的假新聞。過時圖片是指以前曾在互聯網上發(fā)布過的圖片。為了確定圖像是否過時,Sun 等人[9]計算了圖像的時間跨度,即新聞發(fā)布時間(帶有該圖像的消息)與該圖像原始發(fā)布時間的時間跨度。在這項工作中,作者使用一個圖像搜索引擎從互聯網上檢索該圖像的所有記錄,并按時間順序對搜索結果進行排序,時間最早的條目確定了該圖像的原始發(fā)布時間。如果時間跨度大于預定義的閾值,則圖像被視為過時,相應的新聞有較大概率可能是條假新聞。
篡改圖像特征的研究要更為復雜。篡改圖像的操作可分為三種類型:拼接、復制粘貼和修飾。拼接是指將另一幅圖像中的對象添加到目標圖像;復制粘貼是指將同一圖像中的對象添加到不同位置;修飾指增強對比度、銳化邊緣或使用濾色器。為了判斷一張圖像是否被篡改,一些工作[49]提出設計取證特征來評估圖像的真實性,如對齊雙JPEG壓縮的概率圖。然而,這些類型的特征在對來自社交網絡的圖像進行篡改檢測時是不起作用的,因為這些圖像通常經歷多次重新保存過程,破壞了圖像的取證痕跡。
與此不同,Jin等人[54]提出了以下五種視覺特征來衡量圖像分布:視覺清晰度得分、視覺連貫性得分、視覺相似性分布直方圖、視覺多樣性得分和視覺聚類得分。在這項工作中,關于同一事件的相關新聞片段被集中在一起,用于事件級別虛假新聞檢測。這些特征的詳細信息如下所示:
a)視覺清晰度得分:主要描述兩組圖像集之間的Kullback-Leibler 散度。一組是針對目標事件的,包括有關該事件的所有新聞圖像,另一組包括所有事件新聞中的所有圖像,視覺清晰度評分衡量了這兩個集合的分布差異。如果目標事件是真實事件,通常它包含的圖像有不同的來源,其圖像分布趨于一般化,相應的視覺清晰度分數則較低,而虛假事件通常具有有限的圖像來源,其圖像分布往往不同于平均值,因此具有較高的視覺清晰度分數。
三是關注數學概念的理解.學生對概念的深層次理解與例題的多樣性和例題對概念結構的完整呈現關系密切.這一點康軒版教材給予了很好的啟示.Van De Walle指出,在短時間內將焦點注意在分數計算規(guī)則和答案的獲得,有兩種顯著危險,第一是沒有幫助學生思考關于運算的意義和為何他們要如此做,第二,這種規(guī)則的獲得將很快就會失去,這些用于分數計算的規(guī)則將變得相似和混淆[16].因此,在教材編寫以及教學實踐中需關注學生概念的理解,而非聚焦于規(guī)則的記憶和答案的獲得.
b)視覺連貫性得分:視覺連貫性得分定義為事件中任意兩幅圖像之間的平均余弦相似度,主要衡量事件中圖像的連貫性。如果事件相關的圖像在視覺上非常相似,事件就可能是假的,因此通常假新聞事件的視覺連貫性得分較高。在這項工作中,利用到GIST[58]模型為每幅圖像提取了512 維全局特征向量,便于計算一對圖像的余弦相似度。
c)視覺相似度分布直方圖:以細粒度級別衡量事件中圖像的一致性。具體來說,首先根據受歡迎程度對圖像進行排名(受歡迎程度與回復和評論數量呈正相關),然后使用在視覺連貫性評分中相同的計算方法,得到成對的相似度矩陣,最后將該矩陣元素的值映射到H-bin直方圖中。
d)視覺多樣性得分:主要衡量事件中圖像的多樣性。與視覺連貫性得分不同,它計算的是所有圖像對的相異性加權平均值,其中代表性圖像(受歡迎程度較高的圖像)起著更重要的作用。通常,假新聞事件的視覺多樣性得分較低,因為它們的圖像多樣性較低。
e)視覺聚類得分:主要衡量事件圖像分布的聚類簇指標。該方法使用自底向上的聚類方法迭代合并最近的原子簇,合并標準是GIST特征的最近歐氏距離。虛假新聞事件的圖像會比真實新聞事件的圖像形成更少的簇,所以此特征可用于檢測虛假新聞事件。
視覺語義特征旨在通過檢測視覺內容、文本內容和事件在語義層面是否一致來檢測虛假新聞。通常來講,虛假新聞傾向于附加圖片以增加其可信度,然而這些圖片實際上一般與新聞事件無關,文獻[45]也說明了這一現象。為了檢測帶有圖像的虛假新聞,Sun 等人[9]首先使用附加的圖片作為查詢,從搜索引擎中檢索出類似圖片并返回一組基于可信度排名的網站,然后從排名靠前的網站上爬取文本信息,最后計算新聞文本和上面爬取的文本之間的Jaccard 系數。如果Jaccard 系數的值較低,則該新聞被視為文本圖像不匹配的虛假新聞。
此外,視覺內容也有助于將新聞分組以實現組級虛假新聞檢測。具體而言,Jin等人[16]提出將具有相同圖像或視頻的新聞劃分到一個組,然后將同一組中新聞的特征聚合起來,用于組級虛假新聞檢測。除此之外,一些工作[25-27,59]提出使用深度神經網絡來提取視覺語義特征。例如,Jin等人[25]設計了一種多模態(tài)融合網絡可以利用圖像特征作為檢測虛假新聞的輔助線索。首先利用一個以VGG-19 模型[60]作為主干網絡并添加兩個全連接層的子模型來提取512 維的視覺表征,然后使用注意力機制把提取的視覺表征與文本表征進行聚合并連接,以推斷虛假新聞的概率。此外,Qi等人[59]還提出了結合新聞圖像的頻率域和像素域來提取視覺特征,用于虛假新聞檢測。
(3)點擊誘餌特征:某些虛假新聞傾向于使用聳人聽聞的標題誘使用戶點擊特定網頁,例如“震驚!美國人不再喝啤酒”。這類文章沒有專業(yè)文章那么正式,可讀性也更高。為了檢測點擊誘餌,Bi?yani 等人[8]提取非正式性和可讀性的統(tǒng)計特征以區(qū)分點擊誘餌,例如是否包含網絡俚語或臟話,是否使用重復字符(如“ooh”、“aah”等),以及標題和首句之間的相似性。此外,他們還進一步設計了衡量非正式程度和可讀性程度的指標,計算如下:
a)Coleman-Liau 分數(CLScore):根據人為經驗計算閱讀難度,公式為:
其中L表示每100個單詞所含字母的平均數量,S表示每100個單詞所含句子的平均數量。
b)RIX和LIX指標:衡量可讀性,公式為:
其中W是單詞計數,LW是長單詞(即超過6個字符)計數,S是句子計數。
c)正式性度量(F-measure)通過計數文章中不同的詞性標簽,如名詞、動詞和形容詞,來衡量正式程度。
除了上述的指標,新聞標題的句法結構風格也可以用于點擊誘餌檢測。有一種風格叫做前向指代(forward-reference)[57],這類新聞標題通常挑逗性很強或者標題與文章之間有明顯的信息差距。例如,給定一個標題:“這是最可怕的騙局”,用戶可能很想知道“這”是指什么,因此點擊網頁。文獻[8]的工作表明,前向指代通常以指示代詞、人稱代詞、副詞和定冠詞為特征,可用于標題黨檢測。
基于上述提取的特征,分類算法可以用于進一步檢測虛假新聞。相關的研究工作從傳統(tǒng)的機器學習方法到最近的基于神經網絡的方法層出不窮,如圖2所示。傳統(tǒng)的機器學習方法首先進行特征選擇,然后進行分類,而基于神經網絡的方法學習自動地進行特征選擇、融合并分類。
基于前文介紹的特征提取方法,傳統(tǒng)的機器學習方法研究如何選擇最合適的特征和分類器實現虛假新聞檢測。特征的選擇方法旨在降低特征維數并保留信息性特征,包括基尼指數(Gini index)、信息增益(information gain)和隨機森林(random for?est)等。例如,文獻[5]、[6]、[17]使用基尼指數研究特征在構建決策樹中的重要性。Kwon 等人[14]使用隨機森林和邏輯模型尋找最有信息量的特征。具體地,他們重復進行2 倍交叉驗證并從特征集中依次減少特征,以找到最重要的特征。Biyani 等人[8]利用信息增益對特征進行排序,并丟棄信息增益為零的特征。
Castillo 等人[5]則重點研究了Twitter 上熱點新聞爆發(fā)式傳播時的時效性特征對新聞可信度評估的作用。他們首先在推特上爬取了兩個月的數據,并人工區(qū)分為有新聞價值主題的信息和個人觀點,隨后又按范圍不同提取四類不同的特征:基于新聞消息的特征、基于用戶的特征、基于內容主題的特征和基于傳播路徑的特征。基于新聞消息的特征代表消息本身的一些性質,如推文長度、是否包含感嘆號和問號、正面/負面情感詞的數量、是否包含主題標簽、是否為轉發(fā)等;基于用戶的特征代表發(fā)信息的用戶自身的特征,如注冊時長、粉絲數、關注數、原創(chuàng)推文數等;基于內容主題的特征是前兩個特征經過計算的聚合,例如,帶有主題標簽的推文比例、包含URL 的推文比例以及一組信息中正面和負面情緒詞的比例;基于傳播路徑的特征則是包括樹的深度或主題的初始推文數量等與消息轉發(fā)傳播路徑樹相關的特征。為了研究不同特征對新聞可信度評估的作用,他們使用最佳優(yōu)先選擇策略和決策樹對上述四大類特征中的15 種進行了分析驗證,最終有三點發(fā)現:1)基于消息主題的特征(情緒信息、URL 等)與此任務非常相關,例如假設一條推文不包含任何URL,那它有很大概率是不可信的新聞。2)基于用戶的特征也有很高的相關性。例如通過可信用戶(具有大量社交連接的活躍用戶)傳播、且有大量轉發(fā)的消息通常可以被認為是高度可信的,因為這些用戶為了自身的聲譽傾向于傳播可信的消息。3)在基于傳播的特征中,轉發(fā)數也是很重要的評判依據,有很多次轉發(fā)的推文更有可能是真實新聞。這篇文章重點研究了大量不同的特征對新聞可信度的作用,提供了大量的數據和比較,有非常重要的研究意義。
對于上述特征,多種機器學習方法都可用于實現虛假新聞分類,如決策樹(Decision Tree)、隨機森林、梯度增強決策樹(Gradient Boosted Decision Trees,GBDT)[20]、邏輯回歸(Logistic Regression)、最大熵分類器(Max-Entropy classifier)[19]和不同核的支持向量機等。Wang 等人[20]構建了一個端到端的系統(tǒng),用于自動判斷一篇文章所含內容的真?zhèn)尾α龇诸?。首先對于給定的一篇事實檢查文章生成綜合候選集,然后基于頻率分析構建了一個相對較小的表示矛盾的詞匯庫,根據矛盾詞匯表,對文章關鍵成分計算n-gram 權重向量,最后構建了一個梯度增強的決策樹模型來預測相關文檔是支持文檔還是矛盾文檔。此外還有一些工作為虛假新聞檢測制定了特定的規(guī)則。Ciampaglia 等人[61]提出了一種語義接近度度量,該度量通過在知識圖譜上查找概念節(jié)點(由提取的文本特征表示)之間的最短路徑來執(zhí)行事實檢查。Wang 等人[62]通過屏蔽一部分用戶來最小化虛假新聞的影響。他們通過綜合考慮虛假新聞的全球流行度和對個體的吸引力,提出了一種動態(tài)伊辛傳播模型(dynamic Ising propaga?tion model)以同時減少虛假新聞的影響并維持用戶體驗。文獻[21]、[22]則基于外部知識庫研究基于事實的檢查,從現有事實推斷新聞的準確性。例如,Shi 等人[21]將事實檢查視為從Wikipedia 和SemMedDB知識庫中提取的知識圖譜的鏈接預測任務(link prediction),他們采用類似深度優(yōu)先搜索(Depth-First-Search,DFS)的圖遍歷算法來檢索元路徑,并提取前k個判別路徑作為特征來訓練邏輯回歸模型。這種方法為所分析事實的具體語義提供了一種可解釋的、直觀的解釋,并且可以通過調查回歸變量來描述所述事實是真是假。
受最近關于深度學習的研究進展的啟發(fā),大量的研究也逐漸聚焦于利用深度神經網絡來檢測虛假新聞。這類方法旨在使用一個網絡結構學習自動地特征選擇、特征編碼、分類,實現端到端的虛假新聞檢測。根據網絡結構,這種方法大體可以分為兩類,基于循環(huán)神經網絡(Recurrent Neural Net?works,RNN)的方法和基于卷積神經網絡(Convolu?tional Neural Networks,CNN)的方法。
首先介紹基于RNN 的研究工作。一些研究者研究了不同的手工提取特征和不同的神經網絡結構對虛假新聞檢測的影響。Volkova 等人[29]進行了大量的實驗,證明了語言特征是信息量最大的,并且可以使用后期融合技術將其融合進神經網絡以提高檢測性能。Hanselowski 等人[30]介紹了他們在文章立場分類任務方面的工作,該任務被視為虛假新聞挑戰(zhàn)賽(Fake News Challenge,FNC-1)中虛假新聞檢測的第一步。他們首先對一組手工提取的特征進行消融實驗以選擇最重要的特征,然后提出了一種多特征的層疊長短期記憶網絡(stack Long Short-Term Memory,stackLSTM),該網絡能夠融合上述選定的特征以獲得良好的結果。
一些工作還利用深層神經網絡實現提取特征。在早期階段,大量基于RNN 的方法[18-19,28-34]關注于捕獲虛假新聞隨時間的變化。鑒于RNN 可以識別證據的遠距離相關性,Ma 等人[28]提出使用RNN 識別虛假新聞,首先將相關的新聞按不同時間間隔劃分成組,并計算組中詞匯術語的前k個TF-IDF 值作為每個RNN 單元的輸入。通過最小化預測概率分布與真值之間的平方誤差,該模型能夠很好地區(qū)分虛假新聞和真實新聞。Rashkin 等人[19]提出了一個LSTM 模型,該模型以單詞序列為輸入,并將新聞的可靠性分為不同類別,即可信的、諷刺的、惡作劇和宣傳性質的。Ruchansky 等人[31]提出了一種混合深度模型,該模型結合了文本內容、用戶反應和源用戶信息以實現更準確的虛假新聞檢測?;旌夏P陀扇齻€關鍵模塊組成:捕獲、評分和集成。捕獲模塊利用LSTM 捕獲用戶響應的文本和時間特征,評分模塊學習用戶信息的表示并給每個用戶打分。這兩個模塊進一步集成在第三個模塊中以完成分類。
一些研究者還研究了基于某些特定類型的特征實現更細粒度的分類。Wen 等人[32]提出利用門控循環(huán)單元(Gated Recurrent Unit,GRU)提取額外的多語言跨平臺特征,該特征能捕捉到虛假新聞和來自不同社交媒體平臺和不同語言的相應評論之間的一致性。文獻[18,33-34]提出的方法聚焦于尤其突出的特征,例如情感詞和挑逗性的句子,這些方法都采用了注意力機制。例如,Chen等人[18]將軟注意力機制應用于RNN,使其可以同時關注特定的獨特特征,并捕捉信息隨時間的上下文變化,結果表明,該方法能夠快速準確地檢測出虛假新聞。此外有些工作并沒有關注關鍵特征,而是關注了關鍵句子。De Sarkar 等人[34]提出了一種用于諷刺性新聞檢測的層級注意模型,該模型選擇性地捕捉文檔中的關鍵句子,沒有使用手工制作的特征,僅將詞語嵌入作為輸入,便取得了很好的效果,這表明詞語級別語義信息足以檢測諷刺性新聞。
此外,近年來還有一些工作通過建模特定特征拓展了新的研究方向。例如,Shu 等人[63]首次在社交媒體虛假新聞檢測領域提出了具有解釋性的模型dEFEND,該模型建模了新聞中的文本內容和用戶評論間的關聯,由新聞內容編碼模塊、用戶評論編碼模塊和聯合注意力模塊構成。新聞內容編碼模塊通過從單詞(Word Encoder)到句子(Sentence Encoder)的層級注意力神經網絡在不同尺度獲取新聞句子中的語法信息和句法信息,以得到新聞句子的向量表示。用戶評論編碼模塊(Comment En?coder)通過多個注意力子網絡在單詞級別獲取用戶評論的隱層向量表示。聯合注意力模塊(Sentence-Comment Co-attention)通過學習捕捉新聞內容向量和評論文本向量之間的相關性,以篩選出有解釋性的新聞句子和評論。本文所研究的可解釋性的依據在于用戶的評論通常含有一定的解釋性證據,但有時錯誤的觀點也會以一些真實的新聞內容中作為依據以迷惑他人,因此新聞中的句子也有一定的重要性。最后分類器將新聞內容特征和用戶評論特征的拼接結果作為輸入,最終輸出分類結果。這篇工作的亮點在于首先樹立了虛假新聞檢測可解釋性的研究方向,并提供了對應的模型。其次采用了層級注意力機制和共同注意力機制捕捉單詞和句子間關系、新聞內容和評論間的關系。此方法最終的結果也超過了當時最先進的幾個方法,并且解釋性評估實驗也體現了方法的先進之處,為后續(xù)研究貢獻了很大的研究啟發(fā)。
研究工作的另一個分支是使用CNN 進行虛假新聞檢測[35-38]。Yu 等人[35]將一個事件的相關微博帖子按時間順序分成若干組,每組通過段落向量方法[64]生成一個向量表示,之后所有向量表示形成一個矩陣作為網絡的輸入,CNN 自動提取局部-全局的特征并學習潛在特征的高級交互。Karimi 等人[36]提出了一種多源、多類別的檢測模型,該模型結合了不同的源,以提高對不同程度虛假(包括真實、大部分真實、半真實、很不真實)的辨別能力。在這個過程中,文本內容用CNN 提取特征,不同來源的信息被分別提取并融合在一起。Qian 等人[37]利用用戶對新聞反饋的歷史數據進行虛假新聞檢測。整個網絡由一個用戶響應生成器(User Re?sponse Generator,URG)和一個兩級卷積神經網絡(Two-Level Convolutional Neural Networks,TCNN)組成,URG 的目標是根據用戶對真假新聞的反饋歷史來學習用戶對真假新聞的反應的生成模式,TCNN利用CNN 來學習新聞在單詞和句子級別的特征,最后將這兩個模塊融合以執(zhí)行分類。Popat 等人[38]提出從外部來源檢索相關文章以提高預測能力,文章中相關的信息可以通過注意力機制得到。
表3呈現了幾個近年來常用數據集上搜集到的最先進的方法及性能。從泛用性上來講,由于包含數據數量、題材類型、形式,近年來最為常用的,發(fā)表論文最多的數據集是BuzzFeedNews、LIAR、FNC-1和FakeNewsNet。還可以觀察到,在微博數據集上的最先進方法RDM[65]已經在各個指標上達到了95%以上,但其他的數據集上的方法最高也僅剛超過90%,說明虛假新聞檢測技術還有較大提升空間。在這些列出的先進的方法中,RDM 利用強化學習模型尋找檢測節(jié)點,以期望不必輸入所有內容信息即可實現早期檢測;GLAN[46]聯合編碼了源微博、回復信息和用戶信息,構建異質圖以實現虛假新聞檢測,在兩個Twitter 數據集上取得了最好的效果;ED[66]從詞匯層面、句法層面、語義層面和全文層面考察新聞內容,并依靠社會心理學和法醫(yī)心理學的成熟理論,以實現僅針對于新聞內容的可解釋虛假新聞檢測;RoBERTa[67]評估了數據集偏差的問題,并探索了一系列基于預訓練技術的虛假新聞檢測語言模型,以及傳統(tǒng)的和深度學習的模型,并首次從不同方面比較了它們的性能;USEF[52]將在虛假新聞挑戰(zhàn)賽階段一(FNC-1)中提出的立場檢測任務(Stance Detection)與文本蘊含任務(Textual Entail?ment)聯系起來,提出了結合統(tǒng)計學習和深度學習的模型,是現在FNC-1 上最先進的模型;SAFE[68]關注于多模態(tài)形式的新聞,對文本和視覺信息提取特征并學習它們之間的相似性關聯,最后根據文本、圖像的特征或不匹配程度來判定新聞的真?zhèn)巍?/p>
表3 常用數據集當前最先進方法及指標Tab.3 State-of-the-art methods with performances on common datasets
盡管近年來虛假新聞檢測技術取得了巨大進展,但仍有一些方向有潛力進一步得到改善。
(1)早期檢測:為了最大限度地減少虛假新聞的負面影響,盡早發(fā)現虛假新聞至關重要。盡管Chen 等人[18]已經探索了早期檢測,但性能仍需改進。在未來的研究中,早期檢測可以基于歷史信息聚焦于熱點事件。
(2)惡意用戶檢測:虛假新聞藉由用戶傳播,因此只要事先對惡意用戶進行標記,就可以切斷虛假新聞的傳播鏈,減少虛假新聞的影響。利用歷史數據可以實現對惡意用戶的檢測,從而進一步提高虛假新聞的檢測能力。
(3)多模態(tài)檢測:多年以來,各個平臺信息中出現了越來越多的多模態(tài)數據,其中視覺內容甚至遠遠多于文本內容。因此,整合視覺內容將成為虛假新聞檢測的主導趨勢。盡管有一些工作[25]對此領域進行了探索,但性能遠遠不能令人滿意,因為對圖像特征的處理只是簡單地融合,而且視頻數據還從未被利用。
對虛假新聞的檢測一直以來都是研究的熱點問題。從早期手工提取特征到現在提取的有針對性的多樣化的特征,從早期傳統(tǒng)機器學習分類到深度神經網絡,乃至從早期單一對象的檢測到現在包括新聞內容特征、傳播路徑、用戶信息等多方面聯合檢測,虛假新聞檢測技術得到了深遠的發(fā)展。
本文重點對虛假新聞檢測技術從傳播意圖相關的特征的角度進行了深入的介紹。首先,本文給出了虛假新聞檢測的問題定義和基本范式,討論了基準數據集和最常用的評估指標。本文揭示了虛假新聞的一個本質特征,即與報道真實事件的真實新聞不同,假新聞通常是有意為之,有特定的傳播意圖。虛假新聞的傳播意圖通??煞譃檎`導公眾、操縱輿論和吸引注意三類,本文將檢測需要提取的特征與傳播意圖關聯起來,對相關的方法作了對應分類和介紹。之后在提取特征的基礎上介紹了包括傳統(tǒng)機器學習和近年深度神經網絡的虛假新聞檢測方法,并對現有方法的性能作了簡要的展示。在此基礎上,本文最后提出了未來假新聞檢測的幾個方向。本文提供了一個全新的視角,可以指導研究者更好地理解這一領域。