摘要: 為了實現(xiàn)虛假新聞的早期檢測,提出一種基于預訓練表示和寬度學習的虛假新聞早期檢測方法。首先,將新聞文本輸入大規(guī)模預訓練語言模型RoBERTa中,得到對應新聞文本的上下文語義表示。其次,將得到的新聞文本的上下文語義表示輸入寬度學習的特征節(jié)點和增強節(jié)點中,利用寬度學習的特征節(jié)點和增強節(jié)點進一步提取新聞文本的線性和非線性特征并構造分類器,從而預測新聞的真實性。最后,在3個真實數(shù)據(jù)集上進行了對比實驗,結果表明,所提方法可以在4 h內檢測出虛假新聞,準確率超過80%,優(yōu)于基線方法。
關鍵詞: 早期檢測; 虛假新聞; 預訓練表示; 寬度學習; 文本分類
中圖分類號: TP391
文獻標志碼: A
文章編號: 1671-6841(2025)02-0031-06
DOI: 10.13705/j.issn.1671-6841.2023129
Early Detection of Fake News Based on Pre-training Representation
and Broad Learning
HU Shunbang1, WANG Lin2, LIU Wuying3,4
(1.School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou
510006, China; 2.Xianda College of Economics and Humanities, Shanghai International Studies University,
Shanghai 200083, China; 3.Shandong Key Laboratory of Language Resources Development and Application,
Ludong University, Yantai 264025, China; 4.Center for Linguistics and Applied Linguistics, Guangdong
University of Foreign Studies, Guangzhou 510420, China)
Abstract: In order to achieve early detection of fake news, a method based on pre-training representation and broad learning was proposed. Firstly, the news text was input into the RoBERTa large-scale pre-training language model to obtain the contextual semantic representation of the corresponding news text. Secondly, the obtained contextual semantic representation was fed into the feature nodes and enhanced nodes of broad learning. By leveraging these broad learning nodes, both linear and non-linear features were extracted from the news text, enabling the construction of a classifier for predicting the authenticity of the news. Finally, comparative experiments were conducted on three real datasets, and the results demonstrated that the proposed method was capable of detecting fake news within 4 h with an accuracy rate exceeding 80%, surpassing the performance of the baseline method.
Key words: early detection; fake news; pre-training representation; broad learning; text classification
0 引言
隨著互聯(lián)網的不斷發(fā)展和社交媒體網站的普及,人們可以很方便地通過移動互聯(lián)網設備閱讀新聞資訊信息,但這也為虛假新聞的滋生提供了溫床。虛假新聞的廣泛傳播嚴重擾亂了社會的正常秩序[1],因此對虛假新聞的及時檢測與發(fā)現(xiàn)是非常有必要的。現(xiàn)有的虛假新聞檢測方法可以分為基于機器學習的方法和基于深度學習的方法。
基于機器學習的方法主要是通過從新聞文本內容中抽取語言特征輸入機器學習分類器中進行虛假新聞的檢測。Castillo 等[2]通過從新聞文本內容中提取特殊字符和關鍵詞等特征來進行虛假新聞的檢測。Kwon 等[3]通過抽取新聞文本中的寫作風格特征來進行虛假新聞的檢測。Feng等[4]通過新聞文本中的詞匯和句法特征進行虛假新聞的檢測。然而,在虛假新聞傳播的早期,一些有效的特征往往是不具備或者是不充分的,而且依賴于特征工程的機器學習方法耗時、耗力,不利于虛假新聞的及時檢測。
基于深度學習的方法主要是通過對新聞文本內容以及社交上下文內容進行建模,從而實現(xiàn)虛假新聞的檢測。Ma等[5]通過循環(huán)神經網絡(recurrent neural network, RNN)對新聞文本內容建模,從而實現(xiàn)虛假新聞的檢測。Ma等[6]還通過RNN同時訓練虛假新聞檢測和用戶立場分類兩個任務,首次將多任務學習的思想應用到虛假新聞檢測中,從而使虛假新聞檢測任務的效果得到提升。Bian等[7]通過構造新聞的傳播結構圖,利用雙向圖卷積神經網絡學習其新聞傳播特征,從而進行虛假新聞的檢測。雖然這些基于深度學習的方法在虛假新聞檢測任務中取得了不錯的效果,但是在新聞傳播的早期,新聞的評論數(shù)據(jù)往往是比較稀缺的,用戶對虛假新聞更傾向于轉發(fā)而不是評論,收集評論數(shù)據(jù)往往比較困難,而且構建其傳播結構圖復雜且耗時,存在理論分析困難、訓練推理速度慢、難以收斂的問題。
為了解決上述虛假新聞早期檢測中存在的問題,本文提出一種基于預訓練表示和寬度學習(pre-training representation and broad learning)的虛假新聞早期檢測方法,簡稱為PTBL。該方法可以在虛假新聞傳播的早期,在社交上下文信息較為短缺的情況下,提高虛假新聞早期檢測的準確率,同時使得模型的訓練推理速度更快,結構更為簡潔清晰,理論分析更為方便。
1 PTBL模型
PTBL模型結構如圖1所示。首先,將新聞文本作為RoBERTa預訓練模型的輸入,以獲得其與上下文語義相關的詞向量,然后對每個詞向量求和,再求其平均,得到新聞文本表示。新聞文本表示通過線性激活函數(shù)進行線性變換生成寬度學習的特征節(jié)點,通過非線性激活函數(shù)對特征節(jié)點進行非線性變換生成寬度學習的增強節(jié)點。然后,將特征節(jié)點和增強節(jié)點拼接起來,輸入寬度學習的輸出層,最后再輸出到Softmax函數(shù)得到其概率分布,從而實現(xiàn)了對新聞文本真實性的判定。
1.1 新聞文本表示
由于在虛假新聞傳播的早期,收集新聞的用戶評論信息以及構造其傳播結構圖是相當困難的,為了貼合實際情況,只選擇從新聞文本中獲取線索去識別新聞的真實性。
大規(guī)模預訓練語言模型得益于其可以在大量的未標注語料上學習到通用的上下文語義信息,在自然語言處理的多個任務中都取得了不錯的成績,其中最為熟悉的預訓練語言模型是BERT[8]模型。RoBERT68a800aff2c7bd8bdc5f29347da9e5d98a8e155896368d7a52aae04d5c78095fa是一種魯棒優(yōu)化的BERT預訓練語言模型,采用的模型結構與BERT相似,都是使用多個Transformer[9]編碼器進行編碼,其核心的多頭自注意力機制具有強大的上下文語義提取能力。
與BERT模型相比,RoBERTa使用了更多的數(shù)據(jù)進行預訓練,這使得其具有更強的語言理解能力。此外,RoBERTa模型還對預訓練過程進行了調整,采用了更大的批量大小和更多的訓練步數(shù)進行訓練,在每個訓練步驟中使用動態(tài)掩碼機制隨機掩蓋不同的詞,增加了模型的泛化能力。與此同時,RoBERTa在預訓練階段去掉了BERT中預測下一個句子(next sentence prediction,NSP)的任務,該任務要求模型預測兩個句子是否相鄰。然而,NSP 任務對語言理解能力的提升并不明顯,去掉該任務可以讓模型更好地學習語言表示。因此,采用RoBERTa預訓練語言模型來獲取新聞的文本表示。具體地,首先將數(shù)據(jù)集輸入RoBERTa中進行微調,使其適應虛假新聞檢測任務,然后取其最后一個隱藏層作為詞向量,對所有詞向量求和,再求其平均,得到新聞文本表示,
T=1n∑ni=1Vi,(1)
式中:T為新聞文本表示;Vi表示新聞文本中第i個詞的詞向量;n為新聞文本中單詞的個數(shù)。
1.2 寬度學習方法
寬度學習[10]在圖像分類[11]、視覺識別[12]等任務中取得了不錯的效果,主要由特征節(jié)點、增強節(jié)點和輸出層組成。寬度學習只需要訓練輸出層的權重即可,它可以通過計算其輸入矩陣的偽逆矩陣來求解。因此,寬度學習具有結構簡單、求解速度快的優(yōu)點,而且還能在原模型的基礎上進行增量學習,使得模型能夠更加快速地進行迭代,符合虛假新聞早期檢測任務需要模型訓練更新速度快的要求。本文采用寬度學習方法對新聞文本表示進一步地進行特征抽取,使得模型能夠更加迅速地學習到新聞的更深層次的語義特征,有助于在短時間內提高虛假新聞早期檢測的準確率,使得虛假新聞在其傳播早期就得到及時遏止,縮小其在社交媒體的傳播范圍,進一步減少虛假新聞對社會的危害。
設訓練數(shù)據(jù){X,Y}∈
RN×(d+c),其中:N為樣本數(shù);d為特征維數(shù);c為新聞類別數(shù)。
首先,將新聞文本表示T線性變換為n組特征節(jié)點,特征節(jié)點Fi可表示為
Fi=L(TWfi+Bfi),i=1,2,…,n,(2)
式中:L為線性激活函數(shù);Wfi和Bfi分別為隨機生成的權重矩陣和偏置矩陣。則n組特征節(jié)點可表示為
Fn[F1,F(xiàn)2,…,F(xiàn)n]。(3)
將n組特征節(jié)點Fn通過非線性激活函數(shù)非線性轉換到m組增強節(jié)點,增強節(jié)點Sj可表示為
Sj=φ(FnWsj+Bsj),j=1,2,…,m,(4)
式中:φ為非線性激活函數(shù);Wsj和Bsj分別為隨機生成的權重矩陣和偏置矩陣。則m組增強節(jié)點可表示為
Sm[S1,S2,…,Sm]。(5)
然后,將n組特征節(jié)點與m組增強節(jié)點拼接輸入到輸出層O,則O可表示為
O=[Fn,Sm]W=AW,(6)
式中:W為輸出層O的權重矩陣;A=[Fn,Sm]為輸出層O的輸入矩陣。假設矩陣A′是輸入矩陣A的偽逆矩陣,那么權重矩陣W表示為
W=A′O。(7)
為有效地減少計算時間,防止過擬合,采用嶺回歸的方法來求解偽逆矩陣A′的值,可表示為
A′=limλ→0(λI+AAT)-1
AT。(8)
最后,將輸出層O通過Softmax函數(shù)得到標簽的概率分布,從而可以對新聞真實性進行預測。
2 實驗與分析
為了驗證本文提出的PTBL模型在虛假新聞早期檢測中的有效性,在Weibo[5]、Twitter15和Twitter16[13]3個公開數(shù)據(jù)集上進行實驗與分析。
2.1 數(shù)據(jù)集
Weibo數(shù)據(jù)集只包含“真”“假”兩個分類標簽,Twitter15和Twitter16數(shù)據(jù)集則包含四個不同的分類標簽,分別是“真”“假”“未核實”“揭穿假”。其中,“揭穿假”的標簽是指:告訴人們某個新聞故事是假的。數(shù)據(jù)集統(tǒng)計信息如表1所示。
2.2 評價指標與實驗設置
在Weibo數(shù)據(jù)集上采用的評價指標是準確率、精確率、召回率和F1 值,在Twitter15與Twitter16數(shù)據(jù)集上采用的評價指標是準確率和F1 值。為了進行公平的比較,使用文獻[14]中方式對3個數(shù)據(jù)集進行了同樣的劃分,即10%的樣本作為驗證集,剩下的樣本按3∶1的比例劃分為訓練集和測試集。
在Weibo數(shù)據(jù)集上使用的預訓練模型是Cui等[15]提出的Chinese-RoBERTa-wwm-ext模型,因為該模型在中文任務上的性能表現(xiàn)更好,而在Twitter15和Twitter16數(shù)據(jù)集上使用的預訓練模型是RoBERTa-base模型。
對數(shù)據(jù)集進行微調的批次大小都設置為64,最大序列長度為128,學習率為5×10-5,訓練步數(shù)為105。每組特征節(jié)點與增強節(jié)點的個數(shù)以及特征節(jié)點與增強節(jié)點的組數(shù)對虛假新聞早期檢測的性能有明顯的影響。在Weibo數(shù)據(jù)集上,當每組特征節(jié)點與增強節(jié)點的個數(shù)設置為2 000,組數(shù)分別為15和20時,模型的性能達到最佳。在Twitter15和Twitter16數(shù)據(jù)集上,當每組特征節(jié)點與增強節(jié)點的個數(shù)設置為500,組數(shù)分別為10和15時,模型的性能達到最佳。
2.3 對比方法
為了驗證PTBL模型的性能,將其與以下常用的虛假新聞早期檢測基線模型進行對比。1) DTC:Castillo等[2]提出的一種基于決策樹的模型,利用新聞特征的組合進行虛假新聞的檢測。2) DTR:Zhao等[16]提出的一種基于決策樹的通過查詢短語來檢測虛假新聞的排名方法。3) GRU:Ma等[5]提出的一種基于RNN的模型,從用戶評論中學習時間語言模式用于虛假新聞的檢測工作。4) RFC:Kwon等[17]提出的一種利用用戶、語言和結構特征的隨機森林分類器來進行虛假新聞的檢測。5) PTK:Ma等[13]提出的一種具有傳播樹內核的SVM分類器,通過從傳播樹中學習時間結構模式來檢測虛假新聞。
2.4 評價結果分析
文獻[14]指出,對于上述對比方法,當檢測截止時間超過24 h時,它們的檢測性能就會達到飽和。因此,為了公平比較,將模型檢測截止時間均設置為24 h。PTBL模型和對比方法在Weibo、Twitter15和Twitter16數(shù)據(jù)集上的虛假新聞檢測性能結果如表2~ 4所示。可以發(fā)現(xiàn),PTBL模型性能優(yōu)于對比方法,在3個數(shù)據(jù)集上的準確率分別為91.7%、80.5%和84.0%。
PTBL模型無論是在準確率還是在F1值上都比基線方法表現(xiàn)得更加出色,說明所提的基于預訓練表示和寬度學習的方法能夠有效地提高虛假新聞檢測的性能,在Weibo數(shù)據(jù)集上的準確率能夠達到91.7%,在Twitter15和Twitter16數(shù)據(jù)集上更是超出對比方法至少5個百分點。
PTBL模型能夠充分地理解虛假新聞的語義信息,這主要得益于大規(guī)模預訓練語言模型RoBERTa能夠事先在大量
的無標注數(shù)據(jù)中學習到許多通用的語義信息,而且還通過寬度學習的特征節(jié)點和增強節(jié)點對新聞的語義信息進行更深層次的挖掘學習,從而進一步提升了該方法在虛假新聞早期檢測任務中的性能。
2.5 消融實驗
大規(guī)模預訓練語言模型RoBERTa在自然語言處理的多項任務中的表現(xiàn)十分出色,已經得到了廣泛的認可。為了驗證PTBL模型中寬度學習模塊的有效性,對寬度學習模塊進行了消融實驗,實驗結果如表5所示??梢钥闯?,在PTBL模型的基礎上去除寬度學習模塊,在3個數(shù)據(jù)集上其準確率至少降低了3個百分點,表明寬度學習模塊在PTBL模型中起著重要作用。
2.6 虛假新聞早期檢測性能
為了進一步觀察PTBL模型在虛假新聞早期檢測中的性能表現(xiàn),選擇了DTR、GRU和PTK模型進行對比實驗,觀察其在虛假新聞開始傳播后24 h內檢測性能表現(xiàn)。PTBL模型和3個對比模型在Weibo、Twitter15和Twitter16數(shù)據(jù)集上虛假新聞早期檢測結果如圖2~4所示。從實驗結果可以看出,PTBL模型在新聞開始傳播后4 h內就能夠較快地達到很好的檢測準確率,遠遠好于DTR、GRU和PTK這3個對比模型。這主要是由于DTR和GRU方法依賴于從用戶評論中提取的語言特征,而PTK方法依賴于從新聞傳播結構中提取的語言和結構特征。然而,在虛假新聞傳播早期,獲取用戶評論與構造新聞傳播結構圖是很困難的,所以這3個對比方法在虛假新聞傳播早期的檢測性能都比較差。
PTBL模型在虛假新聞傳播早期就能達到較好的效果,這主要是由于該模型具有以下特點。
1) 其不依賴于用戶的評論信息和新聞傳播結構建模,能夠充分利用大規(guī)模預訓練模型強大的語義理解能力。
2) 寬度學習模塊的訓練推理速度快,它只需要求解輸入矩陣的偽逆矩陣即可求解出輸出層的權重值,在提高了PTBL模型語義理解能力的同時,加快了模型的更新與推理速度,使得PTBL模型在虛假新聞早期檢測任務中的整體性能好于對比方法。
3 結語
針對現(xiàn)有的虛假新聞早期檢測方法嚴重依賴于新聞評論數(shù)據(jù)和新聞傳播結構圖的問題,本文提出一種基于預訓練表示和寬度學習的虛假新聞早期檢測方法。通過大規(guī)模預訓練語言模型從大量的未標注語料上學習到通用的語義知識,并通過寬度學習對新聞文本進一步地進行語義提取挖掘,模型結構簡單且容易分析,能夠在虛假新聞早期檢測任務中取得比基線方法更好的檢測效果。下一步的研究工作將探索更加適用于虛假新聞早期檢測任務的預訓練表示方法,使其在更加充分表達新聞文本語義信息的同時,模型大小能夠進一步壓縮。為了更好地挖掘新聞的語義信息和提高模型的推理速度,也將探索不同級聯(lián)方式的寬度學習方法來進行虛假新聞的早期檢測工作。
參考文獻:
[1] 冀源蕊, 康海燕, 方銘浩. 基于Attention與Bi-LSTM的謠言識別方法[J]. 鄭州大學學報(理學版), 2023, 55(4): 16-22.
JI Y R, KANG H Y, FANG M H. Rumor recognition method based on Attention and Bi-LSTM[J]. Journal of Zhengzhou university (natural science edition), 2023, 55(4): 16-22.
[2] CASTILLO C, MENDOZA M, POBLETE B. Information credibility on Twitter[C]∥Proceedings of the 20th International Conference on World Wide Web. New York: ACM Press, 2011: 675-684.
[3] KWON S, CHA M, JUNG K, et al. Prominent features of rumor propagation in online social media[C]∥Proceedings of the IEEE 13th International Conference on Data Mining. Piscataway:IEEE Press, 2014: 1103-1108.
[4] FENG S, BANERJEE R, CHOI Y. Syntactic stylometry for deception detection[C]∥Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics,2012: 171-175.
[5] MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks[C]∥International Joint Conference on Artificial Intelligence. Amsterdam: Elsevier Press,2016: 56-66.
[6] MA J, GAO W, WONG K F. Detect rumor and stance jointly by neural multi-task learning[C]∥Proceedings of the Web Conference. New York: ACM Press, 2018: 585-593.
[7] BIAN T A, XIAO X, XU T Y, et al. Rumor detection on social media with bi-directional graph convolutional networks[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press,2020: 549-556.
[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: pre-training of deep bidirectional transformers for language understanding[C]∥Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2019: 4171-4186.
[9] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all You need[C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[10]PHILIP C C L, LIU Z L. Broad learning system: an effective and efficient incremental learning system without the need for deep architecture[J]. IEEE transactions on neural networks and learning systems, 2018, 29(1): 10-24.
[11]CHU Y H, LIN H F, YANG L A, et al. Hyperspectral image classification with discriminative manifold broad learning system[J]. Neurocomputing, 2021, 442: 236-248.
[12]JIN J W, LI Y T, YANG T J, et al. Discriminative group-sparsity constrained broad learning system for visual recognition[J]. Information sciences, 2021, 576: 800-818.
[13]MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning[C]∥Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2017: 708-717.
[14]LIU Y, WU Y F. Early detection of fake news on social media through propagation path classification with recurrent and convolutional networks[C]∥Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018:354-361.
[15]CUI Y M, CHE W X, LIU T, et al. Revisiting pre-trained models for Chinese natural language processing[C]∥Findings of the Association for Computational Linguistics: EMNLP 2020. Stroudsburg: Association for Computational Linguistics, 2020: 657-668.
[16]ZHAO Z, RESNICK P, MEI Q Z. Enquiring minds: early detection of rumors in social media from enquiry posts[C]∥Proceedings of the 24th International Conference on World Wide Web. New York: ACM Press, 2015: 1395-1405.
[17]KWON S, CHA M, JUNG K. Rumor detection over varying time windows[J]. PLoS one, 2017, 12(1): e0168344.