社交媒體中錯誤信息的檢測方法研究述評

2022-07-02 07:18:48吳詩苑董慶興宋志君

情報學報 2022年6期

吳詩苑，董慶興，宋志君，張斌

（1. 華中師范大學信息管理學院，武漢 430079；2. 武漢大學新聞與傳播學院，武漢 430072；3. 武漢大學大數(shù)據(jù)研究院，武漢 430072；4. 南京大學信息管理學院，南京 210023）

1 引言

在“萬物皆媒”的新媒體時代，人們在社交媒體上的活動不限于接收與傳播信息，同時也在生產(chǎn)、發(fā)布信息，其中，一些不負責任的用戶會有意無意地散布一些錯誤信息[1]。錯誤信息的泛濫增加了信息環(huán)境中的“噪音”和“污染”，降低了信息環(huán)境中的信噪比，給信息生態(tài)的平衡、穩(wěn)定和有序造成了嚴重的威脅[2]。然而，與生產(chǎn)和傳播錯誤信息相比，驗證一條信息真?zhèn)蔚某杀靖甙?，成本之間的不對稱導致錯誤信息在互聯(lián)網(wǎng)上很容易蔓延開來。因此，如何利用已有的技術和方法在新媒體環(huán)境下低成本、高效率地檢測出錯誤信息是學界和業(yè)界都廣泛關注的一個重要議題。圖書情報領域的學者已經(jīng)對錯誤信息的傳播、演化和模型仿真有了深入的研究[3]，近年來開始在錯誤信息檢測這一方向上取得突破[4-6]。綜合考慮網(wǎng)絡環(huán)境、用戶和錯誤信息的傳播機制，學者們運用機器學習和深度學習方法提出了錯誤信息甄別、信息危機預警和早期檢測等一系列具有實用價值的模型，并在測試中取得了不錯的效果，給錯誤信息的檢測提供了新思路。

所謂錯誤信息（misinformation）有狹義和廣義之分，如圖1 所示。狹義的錯誤信息是指無意傳播的假的或者不準確的信息[7]。這類信息的傳播動機不是為了欺騙接收者，可能只是傳播者出于對信息源的信任，這種被信任的信息源通常是傳播者的家人、朋友或社交網(wǎng)絡上的意見領袖[8]。傳播者通常持分享、關心或娛樂的動機將潛在的問題或情況告知他們的朋友，以此起到提醒和共鳴的作用[9]。因為傳播者是出于好意，所以，這類錯誤信息通常也被稱作“誠實的錯誤”[10]。與狹義的錯誤信息相對應的一個術語叫“虛假信息（disinformation）”，也就是刻意制造并故意傳播的假的或者不準確的信息[11-13]，這類信息是惡意用戶為了獲得不正當利益而故意制造的，專門用來誤導大眾，引起公眾的焦慮情緒[14]。雖然錯誤信息和虛假信息都是假的、不準確的，但它們之間最大的區(qū)別在于主觀意圖——虛假信息是被惡意制造并傳播的，但錯誤信息的制造與傳播并非出于惡意[15]。而廣義的錯誤信息則是指所有假的、不準確的或未經(jīng)證實的信息[16-17]。廣義定義并不區(qū)分傳播者的動機，只要信息與真實情況不符或與現(xiàn)實證據(jù)沖突都可以被視為錯誤信息[18]。因此，在廣義層面上，錯誤信息作為一個總括術語包含了虛假信息在內的謠言、假新聞、陰謀論等所有可能造成嚴重后果的不實信息[19]。錯誤信息檢測的目的在于找到一種方法來有效地辨別信息內容的真假，而對于傳播者的意圖，不論是研究者還是平臺管理員通常都難以確定。因此，廣義定義在錯誤信息檢測研究中更加常用[20]。本文主要關注散布在社交媒體上的不準確信息，循例使用錯誤信息的廣義定義。

圖1 錯誤信息的分類

錯誤信息的檢測方法可以從不同的角度劃分成不同的種類。由于錯誤信息的產(chǎn)生與傳播不僅限于信息本身，更是一個牽涉到人和環(huán)境的復雜事件，因此有必要從一個整體的框架來梳理當前錯誤信息的檢測方法。信息生態(tài)學則提供了在一個完整的信息生態(tài)中分析信息、信息人、信息環(huán)境三者互相影響、共同演化的視角，如圖2 所示。信息生態(tài)理論指出，信息生態(tài)是由信息、信息人和信息環(huán)境中各種要素和資源共同構成的整體[21]。各個組成部分之間存在強大的相互聯(lián)系和依賴：信息在傳播時，越來越多信息人的參與會不斷地向信息中加入新內容或改變原內容，在這個過程中，信息不僅會受到信息人的價值和偏好的影響，還會受到信息環(huán)境的干擾，使得信息量增減并存并產(chǎn)生價值變異[22]；信息人在受到信息環(huán)境的刺激后通過自身的能動性加工發(fā)生了信息的生產(chǎn)、組織、傳遞、消費、分解等基本行為，這些行為會反過來作用于信息環(huán)境[23]；信息環(huán)境是一切信息人發(fā)生信息交互行為的場所，信息環(huán)境的改變會影響信息人的行為和信息傳播的方式[24]。由此可見，信息生態(tài)中每種要素的變化都是系統(tǒng)性的，一個要素發(fā)生變化就會影響整個信息生態(tài)系統(tǒng)[25]。因此，從信息生態(tài)的角度來討論錯誤信息檢測可以得到一個相對完整的分析框架。

圖2 信息生態(tài)基本結構[23]

本文對照信息生態(tài)中的各個要素，從內容、用戶和傳播這三個角度對錯誤信息檢測方法進行綜述。具體地，基于內容的檢測方法主要從信息內容本身入手，直接捕獲信息傳達的思想和情感，并以此為依據(jù)來進行識別。基于用戶的檢測是以信息人在信息生態(tài)中扮演的角色以及信息人的行為為依據(jù)進行檢測?；趥鞑サ臋z測則是根據(jù)錯誤信息傳播的時間特征和網(wǎng)絡分布特征進行檢測。這種在信息生態(tài)背景下分析錯誤信息檢測問題的論述方式既涵蓋了信息本身，又考慮了信息人與信息環(huán)境之間的交互背景，有助于更加系統(tǒng)、全面地了解各種因素對錯誤信息產(chǎn)生的影響，從而更有針對性地梳理當前關于錯誤信息檢測方法的研究。

本文把從中國知網(wǎng)、萬方數(shù)據(jù)、Web of Sci‐ence、DBLP （DataBase Systems and Logic Program‐ming）以及Google Scholar 中檢索到的論文作為主要數(shù)據(jù)源。中文論文檢索以“錯誤信息/虛假信息/假新聞/陰謀論/謠言”為主要關鍵詞，分別將這些關鍵詞與“檢測/識別”搭配檢索；英文論文檢索以“misinformation/disinformation/false information/fake news/conspiracy/rumor”為主要關鍵詞，并分別將這些關鍵詞與“detection/recognition/identification”搭配檢索。檢索時除了考慮關鍵詞之外，還考慮了其同義詞、近義詞、相關詞、下位詞等，不限制檢索的相關起始時間，將截止時間設定為2021 年3 月3日，綜合考慮主題相關性后共得到1012 篇文獻?；趦热荨⒒谟脩艉突趥鞑サ娜N檢測方法下的相關論文數(shù)量對比如圖3 所示。由于一些論文同時使用了多種檢測方法，因此三種檢測方法的論文數(shù)量總和大于1012 篇?？傮w而言，在文獻數(shù)量方面，基于內容檢測的文獻數(shù)量要遠高于另外兩種檢測方法的文獻數(shù)量，這可能是因為文本內容是最直觀的，內容特征是最容易獲取和處理的。

2 基于內容的錯誤信息檢測

在社交媒體上識別錯誤信息的一個最直接的方法是檢測包括實體和非實體在內的信息內容[26]。其中，實體內容是信息的載體和形式，包括標題、正文、圖像等。由于實體內容具有直觀性，它是判斷信息真實性的重要依據(jù)，檢測者可以根據(jù)檢測需要對其進行一系列的篩選、提取、編碼等操作[27]。而非實體內容則是作者表達的觀點、態(tài)度和情感等隱含信息，它是判斷信息真實性的主要著力點[28]。錯誤信息大多是為了誤導公眾和引起人們的注意而編造的，往往與真實信息有著不同的行文模式[29]。比如，內容真實的新聞往往含有更多的鏈接且文本長度通常大于假新聞[30]；假新聞中通常含有更多的否定詞、消極詞和夸張表達，而內容真實的新聞中則有更多的認知行為詞和推斷行為詞[31]。

圖3 三種檢測方法下的論文數(shù)量對比

根據(jù)這些特點，Castillo 等[29]利用統(tǒng)計特征，如標點符號、表情、超鏈接等出現(xiàn)的次數(shù)，使用決策樹模型來簡單評估推文的真實性?？紤]到假新聞和垃圾郵件在行文模式上的相似性，使用垃圾郵件分類技術（如樸素貝葉斯分類器）也可有效檢測假新聞[32]。隨著語言特征提取技術的發(fā)展，更多精準、高效的提取技術被有效地利用于該領域[33]。例如，Rashkin 等[34]使用一種復雜的語法信息與心理語言特征工具LIWC （linguistic inquiry and word count）設計了多種語言特征，結合長短期記憶網(wǎng)絡（long short term memory，LSTM）取得了不錯的檢測效果。Ahmed 等[35]通過TF-IDF 提取新聞文本特征并使用支持向量機（support vector machine，SVM）對社交媒體上的新聞進行分類，準確率高達92%。但是，上述模型過于依賴訓練數(shù)據(jù)中的先驗分布，對新話題和新事件的應用效果不理想。針對該問題，學界開始研究更具有話題遷移性的檢測方法[36]。例如，將假新聞檢測視為一種鏈接預測任務，或是通過分析知識圖上相關概念之間的路徑長度來評估陳述的真實性，兩種方法都可在新話題和新事件上正常運行[37-38]。Guacho 等[39]則通過半監(jiān)督方法，在構建的K-NN（k-nearest neighbor）圖上運用FaBP（fast be‐lief propagation）傳播已知標簽以確定未知標簽，比完全監(jiān)督模型實現(xiàn)了更高的檢測精度。

伴隨著深度學習的熱潮，深度學習強大的學習能力和特征表示能力引起了廣泛的關注，逐漸被應用到錯誤信息檢測中。Ma 等[40]首次使用循環(huán)神經(jīng)網(wǎng)絡（recurrent neural network，RNN）對特征進行學習，在Twitter 和Weibo 數(shù)據(jù)集上均達到80%以上的準確率。樓靚[41]改進卷積神經(jīng)網(wǎng)絡（convolutional neural network，CNN）得到TextCNN 模型，該模型可結合字粒度的文本語義向量和句粒度的文本統(tǒng)計特征，提升了模型的識別精度。針對傳統(tǒng)檢測模型需要大量統(tǒng)計特征以及難以實現(xiàn)及時檢測的問題，李悅晨等[5]使用BERT（bidirectional encoder represen‐tation from transformers）對微博原文進行向量表示，然后將獲取的語義特征輸入RCNN （region-CNN）模型中，得到了較高的檢測速度和準確率。深度學習模型在錯誤信息自動檢測領域中的應用解決了傳統(tǒng)特征工程方法的不足，提高了檢測結果的可信度。

然而，上述檢測方法都是針對文本的檢測，無法識別由圖像構成的信息。在同一則消息中，圖像和文本作為不同模態(tài)的信息聯(lián)系緊密，同時使用不同模態(tài)的數(shù)據(jù)可以提高數(shù)據(jù)的利用率[42]，由此產(chǎn)生了基于多模態(tài)數(shù)據(jù)的錯誤信息檢測方法[43-46]。例如，將與事件相關的圖像特征和文本特征進行融合檢測[47]；或是將圖像映射為語義標簽，通過計算圖像與文本的語義一致性來檢測圖文不匹配類型的謠言[48]?；诙嗄B(tài)檢測的思路，劉金碩等[49]通過提取文本、圖像和圖像內嵌文本特征設計出多模態(tài)網(wǎng)絡謠言檢測模型MRSD，與基準模型相比，該模型在準確率和F1 值上都有顯著提高。然而，僅實現(xiàn)特征融合是不夠的，模型應更具有泛化能力，可以學習與事件無關的特征。Wang 等[50]提出的基于對抗網(wǎng)絡的端到端模型將VGG19 （visual geometry group-19）提取的視覺特征和TextCNN 提取的文本特征相融合，可在判斷新聞真實性的同時判斷新聞來自哪一類事件。為了提高模型檢測的準確率，Khattar等[51]將文本、視覺的拼接特征編碼為一個中間表達，利用重構損失保證編碼后的中間表達可以解碼回原狀態(tài)，并用該中間表達的向量做虛假新聞檢測。

綜上可知，基于內容的檢測主要是借助SVM、決策樹等判別模型以及CNN、RNN 等神經(jīng)網(wǎng)絡模型從語法和語義層面展開的[52]。與純文本的錯誤信息相比，帶有多媒體內容的錯誤信息具有更快的傳播速度[53]。由此提出的多模態(tài)錯誤信息檢測方法在提高數(shù)據(jù)利用率的同時還提高了模型的魯棒性。此外，即使其中一種模態(tài)數(shù)據(jù)缺失，多模態(tài)檢測方法仍然可以運行。因此，在未來的研究中應當更加重視對多模態(tài)信息的利用并不斷提高多模態(tài)特征的提取效率和準確率，以更有效地檢測錯誤信息。

3 基于用戶的錯誤信息檢測

社交媒體的開放性讓許多用戶從信息的被動接收者變成內容的主動貢獻者。如果將用戶理解為數(shù)據(jù)感知器，那么社交媒體就是由用戶所見、所想、所聽、所說組成的[54]。因此，利用用戶畫像抽取用戶特征有利于提高錯誤信息檢測的準確率。從不同的粒度看，用戶特征可以分為兩大類：個體特征和群體特征[55]。針對錯誤信息檢測這一特定任務來說，個體特征一般是指從單個用戶的各項統(tǒng)計指標中抽取的用來分析用戶可信度的一系列特征，包括用戶的ID、性別、年齡、粉絲數(shù)、注冊時間、地理位置等[56]；群體特征則是指在信息傳播的過程中具有相似屬性的用戶所擁有的整體特征，通常由個體特征聚合而來[57]，如平均粉絲數(shù)、認證用戶的比例等，群體特征的基本假設是傳播錯誤信息的群體和傳播真實信息的群體具有不同的特點[31]，這些特點主要體現(xiàn)在用戶簡檔、用戶可信度、用戶行為和情感立場四個方面[26]。

以用戶簡檔作為輸入數(shù)據(jù)的一部分，Wang[58]使用混合CNN 模型取得了較好的檢測結果。Long等[59]將用戶簡檔和帶有注意力機制的LSTM 模型結合起來，與當時最先進的模型相比，準確率提高了14.5%。從用戶行為的角度出發(fā)，Liang 等[60]將用戶行為視為隱藏線索，以指示誰可能是謠言制造者。Yang 等[61]則將新聞可信度和用戶信譽作為潛在變量，從用戶的社會參與中提取用戶對新聞可信度的立場，以此為依據(jù)來檢測假新聞。此外，融合文本特征和用戶特征的方法備受關注。Zhang 等[62]通過融合文本流行度、文本情感極性、用戶影響力和博文轉發(fā)率等特征來構造微博謠言檢測器。吳樹芳等[63]提出了融合微博用戶交互行為和博文內容的用戶可信度評估算法HITS-UC（hyperlink-induced top‐ic search - user's credibility），并驗證了算法的可行性和有效性。按照信息生態(tài)中信息、信息人、信息環(huán)境的劃分，Shu 等[64]設計的半監(jiān)督多特征融合模型結合了文本特征、相關用戶特征和媒體特征來檢測假新聞，與其他同類型半監(jiān)督模型相比，該模型獲得了更高的分類準確率?；谏疃壬窠?jīng)網(wǎng)絡，Xu等[65]通過RNN 對文本編碼，并通過點贊數(shù)進行回復文本過濾，取得了不錯的分類效果。柳先覺等[66]提出了結合自注意力和TextCNN 的二級編碼和個人資料信譽編碼的謠言檢測方法，發(fā)現(xiàn)文本內容結合個人資料和微博統(tǒng)計數(shù)據(jù)構成的特征取得了非常好的檢測結果。受此啟發(fā)，尹鵬博等[67]通過對用戶歷史行為特征進行分析并結合用戶屬性和微博文本，使用C-LSTM（convolution - long short-term memory）深度學習模型實現(xiàn)了微博謠言的早期檢測。由于該方法不使用評論轉發(fā)信息，能在謠言產(chǎn)生之初將其識別出來，因此，可以比現(xiàn)有的方法在更“早”的階段實現(xiàn)檢測。

上述方法都是基于真實用戶的檢測，但是社交媒體上還充斥著大量的電子人和社交機器人，其中一些機器人是專門用來傳播謠言、陰謀論等網(wǎng)絡噪音的[68]。從發(fā)布的內容來看，與人類用戶相比，社交機器人產(chǎn)生的推文缺乏原創(chuàng)性，轉發(fā)的推文占比很高，而且推文中含有更多的外部鏈接[69]；從發(fā)文時間來看，社交機器人發(fā)文時間不規(guī)律，短時間內發(fā)文數(shù)量多，但長時間來看不活躍[70]。根據(jù)這些特征，Khaund 等[71]提出了一種基于圖的檢測方法，該方法的基本假設是社交機器人也有集群的特點，他們彼此交互緊密而與人類交互有限，可利用這個特點檢測出網(wǎng)絡上的社交機器人。

此外，近年來一些基于眾包和群體智慧的檢測方法也不斷涌現(xiàn)。Wang 等[72]設計了一個可擴展的檢測系統(tǒng)來識別惡意用戶，該系統(tǒng)的眾包層標注經(jīng)過過濾層過濾得到的可疑用戶，在合理的成本下實現(xiàn)了準確性和可擴展性。Wu 等[73]從歷史眾包數(shù)據(jù)中獲得用戶信息，通過建立稀疏表示模型選擇共享特征來訓練事件無關分類器。Cai 等[74]則從群眾響應的角度出發(fā)抽取了轉發(fā)和評論中的文本特征，使用分層聚類算法來發(fā)現(xiàn)樣本中更多的謠言。為應對傳統(tǒng)謠言檢測中因人力資源不足而帶來的檢測周期過長的問題，楊文太等[75]利用群眾智慧挖掘和度量待檢測信息和微博用戶的領域相關性，把待檢測謠言推送給領域最相關的微博用戶（即領域專家）作信息真實性甄別；該方法不僅縮短了檢測時間，還能夠較好地應用于實際的微博謠言檢測。為實現(xiàn)假新聞檢測的自動化，Qian 等[76]提出了一種生成式條件變分自動編碼器，該編碼器可以從歷史用戶對真假新聞的評論中獲取用戶響應模式，進而在假新聞傳播的早期階段，當用戶與文章的交互數(shù)據(jù)不可用時，利用群體智慧來生成對新文章的響應，以提高模型的檢測能力。

總體來說，基于用戶的檢測方法主要是尋找在社交媒體上高度活躍、帶有明顯傾向性的惡意賬號，這些惡意賬號既包括真實用戶，也包括偽裝成真實用戶的社交機器人，成功識別這類用戶有助于提高錯誤信息的檢測效率，降低錯誤信息的干預成本。

4 基于傳播的錯誤信息檢測

網(wǎng)絡是錯誤信息滋生的溫床和傳播的渠道，了解網(wǎng)絡特征有助于從傳播的角度對錯誤信息進行檢測。網(wǎng)絡特征是通過在發(fā)布相關帖子的用戶之間構建特定的網(wǎng)絡來提取的[55]，可分為分布特征和時間特征。分布特征有助于捕捉網(wǎng)絡信息的獨特傳播模式，可以通過構建一棵傳播樹來描述[77]。例如，基于核函數(shù)的傳播樹檢測模型對微博帖子的傳播過程進行建模，通過評估傳播樹結構之間的相似性來區(qū)分不同類型的謠言[78-79]。時間特征則是以時間序列的方式描述網(wǎng)絡信息各項指標的變化情況，是可以用于檢測可疑發(fā)布行為的良好屬性[80]。常用的時間特征包括兩個帖子發(fā)布的時間間隔、某個帳戶的發(fā)布、回復和評論的頻率、在固定時間內帖子被重新發(fā)布和轉發(fā)的頻率等[81]。研究發(fā)現(xiàn)，未經(jīng)證實的新聞極有可能被重新報道，隨著時間的推移會出現(xiàn)周期性的討論高峰，而已經(jīng)證實的新聞往往只有一個顯著的高峰[82]。對比真新聞的傳播過程，假新聞整體上要傳播得更遠、更快、更廣，因為相同時間里假新聞的級聯(lián)深度更深，最大寬度更大，且假新聞級聯(lián)達到任何深度和寬度所需的時間均小于真新聞，這一點在政治類假新聞上表現(xiàn)得尤為明顯[83]。

基于上述特點，Kwon 等[31]提出時序、結構、語言三類特征，將謠言和非謠言的數(shù)目-時間圖與傳播網(wǎng)絡圖之間的差異作為檢測特征，在隨機森林算法上得到了92%的精確率。Ma 等[40]將事件的數(shù)據(jù)流根據(jù)時間算法進行切片后得到的數(shù)據(jù)通過RNN進行學習，并將學習結果與傳統(tǒng)的謠言分類結果進行比較，發(fā)現(xiàn)使用神經(jīng)網(wǎng)絡可以大大提高謠言檢測的準確性。與上述兩種方法類似，任文靜等[84]將帖子的評論信息按照時間節(jié)點展開后利用注意力機制衡量每個時間節(jié)點對最終語義表示的重要程度，發(fā)現(xiàn)在加入評論信息和注意力機制后，準確率可以達到92.66%。

隨著研究的深入，特征組合檢測的方式漸漸成為主流。最常見的做法是從總體數(shù)據(jù)中挖掘文本、用戶、傳播結構特征的動態(tài)時序模型以捕捉這些特征隨時間的變化[85]。毛二松等[86]據(jù)此提出了微博情感傾向性特征、意見領袖影響力特征、轉發(fā)數(shù)差值和評論數(shù)差值等特征，并使用集成分類器來檢測微博上的謠言；結果表明，分類特征和集成分類器都有效地提高了謠言檢測的準確率。針對假新聞檢測模型的檢測性能與泛化性能無法兼顧的問題，何韓森等[87]提出了一種基于特征聚合的假新聞檢測器CCNN（center cluster neural network），與傳統(tǒng)的SVM、樸素貝葉斯和隨機森林模型相比，該模型的整體性能有明顯優(yōu)勢。劉勘等[88]則提出了一種基于深度遷移網(wǎng)絡的跨領域謠言檢測模型，在源領域擁有標注數(shù)據(jù)、目標領域無標注數(shù)據(jù)的情況下，通過雙層雙向LSTM實現(xiàn)對文本特征的深度提取，并與用戶特征及傳播特征相融合，結果證明，深度遷移網(wǎng)絡能夠有效遷移源領域標注數(shù)據(jù)，幫助目標領域構建謠言檢測模型，顯著提升目標領域謠言的檢測準確率。

此外，一些學者根據(jù)信息傳播和傳染病傳播之間的相似性，把SI、SIS 和SIR（S=susceptible，I=in‐fectious，R=recovered）等傳染病模型運用到謠言傳播模型的構建中[89]。其中，Zanette[90]使用SI 模型模擬了小世界網(wǎng)絡中謠言傳播的動態(tài)過程，以定量的方法證實網(wǎng)絡謠言的傳播過程可被SI 模型解釋。Nekovee 等[91]通過SIR 模型和馬爾可夫鏈建立了平均場方程來研究網(wǎng)絡拓撲結構中的謠言傳播過程；陳一新等[92]在SIR 模型的基礎上加入“辟謠者”狀態(tài)構建了基于社交網(wǎng)絡中節(jié)點交互作用的SIDR （susceptible infected denied removal）模型，利用Beam Search 搜索算法在謠言傳播初期Top 5 節(jié)點的識別上達到了83%的準確率。

錯誤信息檢測的最終目的是及時找到并有效阻斷錯誤信息的傳播，防止其可能對社會造成的不良影響。上述基于傳播的檢測方法可以滿足該需求，但是，由于許多新聞在發(fā)布的時候只有有限的，甚至根本沒有社會語境信息，導致這類方法在沒有良好輸入的情況下準確率很難得到保證，優(yōu)勢難以發(fā)揮。

5 總結與展望

5.1 已有研究述評總結

檢測出社交媒體中的錯誤信息是凈化網(wǎng)絡環(huán)境、維護信息生態(tài)平衡的關鍵。鑒于信息生態(tài)是由信息、信息人、信息環(huán)境組成的一個密不可分的整體，本文在整理和分析相關文獻后，對照信息生態(tài)的三個組成要素將檢測方法從內容、用戶和傳播三個方面進行了闡述，如圖4 所示。從當前的研究趨勢看，在檢測方法上，研究者們從早期的人工檢測、實證研究向人工智能和機器學習轉變；訓練數(shù)據(jù)正在從靜態(tài)、滯后、小規(guī)模數(shù)據(jù)向動態(tài)、早期、大規(guī)模數(shù)據(jù)轉變，但是這種轉變對模型的遷移能力、特征提取技術和數(shù)據(jù)集規(guī)模提出了較高的要求。尤其是早期檢測，相關數(shù)據(jù)的稀缺、用戶數(shù)據(jù)的提取困難導致效果不夠理想。為了充分滿足錯誤信息檢測的需求，需要對各項檢測特征進行深度挖掘，對檢測方法進行進一步探索和優(yōu)化，從而設計出更加準確、高效、可解釋、可擴展的模型。

圖4 基于信息生態(tài)理論的錯誤信息檢測框架

5.2 未來研究展望

首先，當前的錯誤信息檢測主要依賴機器學習和深度學習技術[93-94]，并由大規(guī)模文本數(shù)據(jù)集訓練而來。而在某一特定的錯誤信息傳播過程中，與其相關的數(shù)據(jù)是隨著事態(tài)發(fā)展而增多的，傳統(tǒng)模型只有在積累到一定量的數(shù)據(jù)以后才能進行有效訓練，這就導致檢測方法的開發(fā)滯后于檢測需求。因此，在數(shù)據(jù)匱乏的情況下完成早期檢測是一個亟待解決的任務。其次，無論是為了更有效地評價錯誤信息檢測模型還是提升模型的遷移能力，當前都需要構建規(guī)模更大、更全面的數(shù)據(jù)集。此外，通過分析用戶的簡檔和歷史行為來提取用戶畫像是檢測錯誤信息的重要手段。但是，不少惡意用戶會刻意偽裝成正常用戶，且用戶特征一般具有無序性和復雜性，這給用戶信息挖掘帶來了困難。面對當前業(yè)界實踐以及科學研究中的具體難題，錯誤信息檢測領域存在以下幾個方面的挑戰(zhàn)。

1）錯誤信息早期檢測

錯誤信息早期檢測是一個極具社會現(xiàn)實意義的研究方向。從信息生態(tài)的角度看，在錯誤信息傳播早期，信息大多分布在位于信息生態(tài)鏈上游的生產(chǎn)者以及與這些生產(chǎn)者聯(lián)系較為密切的小部分傳播者之間。如果能在錯誤信息到達中下游之前將其識別出來并加以控制，那么會大幅降低錯誤信息的治理成本和可能產(chǎn)生的負面影響?，F(xiàn)有的檢測模型在特征提取方面已表現(xiàn)得較為出色，但仍需要大量特征信息作為輸入。在錯誤信息傳播的早期，文本信息、用戶評論、傳播信息等相關特征非常少，并不能滿足基于多特征檢測模型的需要，即早期檢測存在“冷啟動”問題。此外，現(xiàn)有的檢測方法更傾向于學習特定事件的特征，而這些特征在不同的事件之間往往不能遷移。因此，基于這種不可遷移性，對暫未發(fā)生的事件目前還很難做到有效的早期檢測。

2）大規(guī)?；鶞蕯?shù)據(jù)集構建

錯誤信息檢測模型的開發(fā)和測評都需要依賴數(shù)據(jù)輸入。雖然當下已有許多公開的數(shù)據(jù)集可供開發(fā)和檢驗錯誤信息檢測模型，但這些數(shù)據(jù)集都存在一定程度上的不足，如表1 所示。

表1 現(xiàn)有的主要公開數(shù)據(jù)集

隨著相關研究的深入，學界需要建立更全面的大規(guī)?；鶞蕯?shù)據(jù)集以便更好地構建和測試錯誤信息的檢測模型。首先，就數(shù)據(jù)獲取方法來說，目前錯誤信息數(shù)據(jù)的來源主要有社交媒體平臺提供的API（application programming interface）、通用爬蟲、第三方公開數(shù)據(jù)集。然而，由于社交媒體平臺對本平臺的數(shù)據(jù)都有相應的保護策略，通過平臺API 獲取數(shù)據(jù)在爬取速度和數(shù)量上都受到嚴格控制，無法滿足檢測的需求?；谂老x的方式不僅技術復雜，還可能面臨法律風險。第三方公開數(shù)據(jù)雖然容易獲得，但這些數(shù)據(jù)是由數(shù)據(jù)提供者根據(jù)自己的需要收集后公開的，顯然無法滿足所有用戶的需求[95]。上述三種方式都是以研究人員為中心的數(shù)據(jù)獲取。為了提高錯誤信息檢測問題的研究效率，將研究者從瑣碎繁重的數(shù)據(jù)收集工作中解放出來，政府、社交平臺與學術界應當協(xié)同合作，共同構建大規(guī)模數(shù)據(jù)集，這可以讓研究者把更多的精力放在檢測方法的探索上。其次，就數(shù)據(jù)標記來說，許多數(shù)據(jù)集通常是通過手工標記的，這種標記方式成本高昂且需要從業(yè)人員具有豐富經(jīng)驗。因此，如何準確、高效地構建大規(guī)模數(shù)據(jù)集是一大挑戰(zhàn)。此外，錯誤信息的產(chǎn)生往往來源于最新事件，新事件的特點就是缺乏確鑿的證據(jù)，現(xiàn)有的數(shù)據(jù)庫無法對這些新事件進行及時的檢驗與核實，導致無法獲取完全有效的特征并影響模型建立。因此，建立一個全面、大規(guī)模、實時更新的基準數(shù)據(jù)集對推動錯誤信息檢測方法的開發(fā)與測試有著巨大的幫助。

3）惡意用戶識別

錯誤信息泛濫與網(wǎng)絡上充斥著大量的惡意賬戶密切相關。水軍、社交機器人等在社交媒體上開展輿論引導、惡意評論、誹謗和意識形態(tài)滲透等一系列活動，這一小部分惡意用戶是網(wǎng)絡中大部分錯誤信息的貢獻者，他們的存在是網(wǎng)絡環(huán)境和信息生態(tài)面臨的最大威脅，較早識別出惡意用戶對錯誤信息檢測具有重要意義。但是，由于用戶是否存在惡意很難有一個明確的判斷標準，這類惡意用戶不僅特征復雜，還會偽裝成正常用戶以避免被發(fā)現(xiàn)?，F(xiàn)有的許多研究只從單一的角度提取社交機器人的特征，并不能得到相對詳細的惡意用戶的畫像。所以如何全面、有效地捕獲惡意用戶的特征仍是一個有待解決的問題。此外，不同的社交媒體平臺在語言、功能、特性方面存在差異，適用于某一社交媒體平臺的惡意用戶識別技術不一定適用于另一個社交媒體平臺。因此，這種難移植性對基于用戶信息的錯誤信息檢測方法提出了很高的要求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡