国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時序特性引導(dǎo)下的謠言事件檢測方法評測

2025-01-22 00:00:00徐寧李靜秋王嵐君劉安安
關(guān)鍵詞:社交網(wǎng)絡(luò)

關(guān)鍵詞:社交網(wǎng)絡(luò),早期謠言檢測,事件漂移,時序引導(dǎo),數(shù)據(jù)劃分方案

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A

謠言指真實性尚未得到證實的信息[1-2]. 由于社交網(wǎng)絡(luò)的開放性,謠言可以在網(wǎng)絡(luò)上廣泛傳播,謠言的蔓延往往會對社會產(chǎn)生嚴(yán)重的負(fù)面影響[3-7],后續(xù)再采取辟謠措施不僅會耗費大量的資源和成本,對已經(jīng)造成的不可逆危害也無能為力. 為了遏制虛假信息的傳播,維護社會安寧和網(wǎng)絡(luò)環(huán)境的清潔,迫切需要在這些信息大規(guī)模傳播之前及時識別和揭示其虛假性,采取果斷的干預(yù)措施,因此,自動檢測謠言變得尤為關(guān)鍵. 深度學(xué)習(xí)技術(shù)的興起很大程度上促進(jìn)了謠言檢測任務(wù)的進(jìn)步,它可以自動地從謠言的文本信息、圖片信息或結(jié)構(gòu)信息中學(xué)習(xí)到潛在的特征關(guān)系,例如,使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來捕獲帖子的時間序列信息[8-9],使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來提取帖子的局部特征[10],或使用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GCN)來納入傳播結(jié)構(gòu)信息[11-13]. 但是,現(xiàn)有的謠言檢測方法[8-15]都是基于已知的大規(guī)模數(shù)據(jù)集(例如PHEME[16],Twit?ter15[17]和Twitter16[17])進(jìn)行訓(xùn)練的,數(shù)據(jù)通常被隨機分為訓(xùn)練集、驗證集和測試集,然后利用深度學(xué)習(xí)的方法來取得良好的預(yù)測結(jié)果.

這種用于訓(xùn)練謠言檢測模型的隨機數(shù)據(jù)集的劃分方法面臨兩個重大挑戰(zhàn). 首先,使用隨機劃分方案訓(xùn)練的模型通常在測試階段表現(xiàn)出良好的性能[18],但信息的分布可能會受時間的影響[19],導(dǎo)致潛在的數(shù)據(jù)漂移和性能下降. 其次,在現(xiàn)實環(huán)境中,為了有效地檢測未來事件中的謠言,謠言檢測模型必須利用已經(jīng)發(fā)生的事件數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)集進(jìn)行隨機劃分不能滿足這種現(xiàn)實的邏輯需求. 所以,部分研究者開始考慮按照原始帖子發(fā)布的時間順序來劃分?jǐn)?shù)據(jù)集[18,20],但他們忽視了帖子所屬的事件信息,而謠言檢測會受到相關(guān)事件主題的影響[19]. 此外,這種直接按照原始帖子發(fā)布的時間順序來劃分?jǐn)?shù)據(jù)集的方式,忽視了原始帖子與回復(fù)帖子之間的時間關(guān)聯(lián).

本研究提出一種新穎的數(shù)據(jù)劃分方案,旨在解決上述傳統(tǒng)數(shù)據(jù)劃分方法的不足. 該方案根據(jù)事件的時間順序?qū)?shù)據(jù)集進(jìn)行劃分,以確保測試事件對模型的不可見性. 實施這個新方案能夠增強謠言檢測模型對新興事件的泛化能力,使其更接近真實場景中謠言檢測任務(wù)的本質(zhì)和初衷.

本文的貢獻(xiàn)如下.

(1)在謠言檢測任務(wù)中發(fā)現(xiàn)了一個經(jīng)常被忽視的問題,即不考慮事件時間層面的信息,這種疏忽通常會使模型表現(xiàn)出一個較高的檢測性能.

(2)為了解決這一問題,提出一種新穎的數(shù)據(jù)劃分方案. 具體地,為了增強謠言檢測模型對實時發(fā)生的新興事件的魯棒性,本文提出的方案利用數(shù)據(jù)集中事件的發(fā)生時間并根據(jù)事件的發(fā)生順序?qū)?shù)據(jù)劃分為訓(xùn)練集、驗證集和測試集. 此外,對于擁有回復(fù)信息的數(shù)據(jù)集,還對回復(fù)信息的可見策略進(jìn)行了設(shè)置.

(3)實驗結(jié)果表明,與現(xiàn)有的數(shù)據(jù)劃分方案相比,本文提出的數(shù)據(jù)劃分方案顯著降低了謠言檢測模型的性能. 在PHEME 數(shù)據(jù)集上性能最大下降了24%,在Twitter15 數(shù)據(jù)集上性能最大下降了49%,在Twitter16 數(shù)據(jù)集上性能最大下降了53%. 進(jìn)一步揭示了現(xiàn)有數(shù)據(jù)劃分方法中存在的問題,并提出了一種更實用的劃分策略,以規(guī)范化謠言檢測任務(wù)的研究流程.

1 相關(guān)工作

首先介紹謠言數(shù)據(jù)集中涉及的概念[16-17],然后介紹主流的謠言檢測方法和現(xiàn)有的謠言檢測數(shù)據(jù)集劃分方案.

數(shù)據(jù)集:一個謠言檢測數(shù)據(jù)集就是一個事件集,包含一系列不同主題的事件.

事件:一個事件由一系列的聲明組成.

聲明:聲明是謠言檢測任務(wù)分類的目標(biāo),共有兩種類型的聲明.

(1)僅有文本的聲明:每個聲明由其類別標(biāo)簽(例如謠言或非謠言)、原始帖子的文本信息以及相關(guān)回復(fù)帖子的文本信息(如果有)組成.

(2)具有傳播結(jié)構(gòu)的聲明:除了僅有文本的聲明中包含的上述信息(包含回復(fù)帖子)外,該類型的每個聲明還具有傳播結(jié)構(gòu)信息,即原始帖子和回復(fù)帖子之間的回復(fù)關(guān)系.

1. 1謠言檢測 謠言檢測方法主要包括兩大類:基于文本和基于社交背景的謠言檢測方法.

Ma et al[8]率先將深度學(xué)習(xí)方法引入謠言檢測領(lǐng)域,將聲明的文本內(nèi)容分割成固定的長度,并將其輸入RNN,GRU (Gated Recurrent Unit),LSTM( Long Short?Term" Memory),以捕獲信息的時間動態(tài). 隨后,Yu et al[10]利用CNN 從聲明的文本中提取關(guān)鍵特征,并在重要特征之間形成高層交互. 然而,基于文本的謠言檢測方法面臨的一個挑戰(zhàn)是謠言的風(fēng)格、平臺和話題是不斷變化的[21],因此,研究人員需要更多的輔助信息來幫助檢測謠言,因而提出了基于社交背景的謠言檢測方法.

基于社交背景的謠言檢測方法主要是從社交媒體中提取用戶的可信度信息或謠言的傳播信息(點贊、評論和回復(fù)等)來輔助謠言檢測[22]. Ma etal[11]考慮了謠言的傳播結(jié)構(gòu)信息,提出一種自下而上和自上而下的樹狀結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的謠言檢測方法. Liu and Wu[14]使用CNN 和RNN 對新聞的傳播路徑進(jìn)行分類,進(jìn)行早期的謠言檢測. Bianet al[12]使用兩個GCN 分別捕捉謠言的傳播模式和擴散模式,以學(xué)習(xí)合適的高級表示. Sun et al[13]在考慮謠言傳播結(jié)構(gòu)的同時,將對比學(xué)習(xí)和對抗學(xué)習(xí)引入謠言檢測模型,有效提高了模型的泛化能力. Zheng et al[23]在建立謠言檢測模型時考慮了傳播結(jié)構(gòu)信息和用戶的社交圈信息. Zhang etal[24]利用事件圖的不同反事實證據(jù)來進(jìn)行基于傳播結(jié)構(gòu)的謠言檢測的多視圖解釋,實現(xiàn)了可解釋和穩(wěn)健的謠言檢測.

近年來,一些研究人員將更多的方法引入謠言檢測領(lǐng)域. Choudhry et al[25]將謠言檢測任務(wù)形式化為一個多任務(wù)問題,將情緒檢測問題看作多任務(wù)的一個子任務(wù),以提高謠言檢測模型的準(zhǔn)確性. Lu et al[26]將謠言檢測任務(wù)與主觀性分類任務(wù)相結(jié)合,因為謠言發(fā)布者傾向于模仿客觀的語氣,而了解真相的人傾向于用強烈的主觀評論來反駁謠言. Hu et al[27]通過檢索多模態(tài)不一致證據(jù)來輔助謠言檢測. 此外,一些研究[22,28-33]在謠言檢測領(lǐng)域引入域適應(yīng)方法,以提高模型在面對不同信息分布時的檢測性能.

1. 2數(shù)據(jù)集劃分

1. 2. 1隨機劃分 如前所述,謠言檢測任務(wù)是對聲明的類別進(jìn)行分類,但大多數(shù)現(xiàn)有的謠言檢測研究都忽略了事件層面的信息,并將所有的聲明都當(dāng)作訓(xùn)練模型的數(shù)據(jù)集,再將其劃分為訓(xùn)練集、驗證集和測試集. 例如,Ma et al[8]和Yu et al[10]采用留出法,即隨機選擇基于聲明的數(shù)據(jù)集中的10% 作為驗證集來調(diào)整模型參數(shù),剩下的90% 按照3∶1 的比例劃分為訓(xùn)練集和測試集. 但使用這種留出法進(jìn)行數(shù)據(jù)劃分具有偶然性,因此一些研究采用留一法[34-35]或交叉驗證法[12-13,36-37]來劃分?jǐn)?shù)據(jù)集. 交叉驗證法是將基于聲明的數(shù)據(jù)集劃分成K 份,使用K - 1 份進(jìn)行模型訓(xùn)練,剩余的一份用于模型評估. 將這一過程重復(fù)K 次,使每一份數(shù)據(jù)都有機會成為訓(xùn)練集和測試集,最終取K 次結(jié)果的平均值. 留一法是交叉驗證法的一種特例,與交叉驗證法中將數(shù)據(jù)隨機劃分為K 份不同. 留一法每次僅將數(shù)據(jù)集中的一個數(shù)據(jù)作為測試數(shù)據(jù),其余數(shù)據(jù)均為訓(xùn)練數(shù)據(jù)[38].

但是,這種隨機數(shù)據(jù)劃分方法存在兩個顯著缺點. 首先,它沒有考慮數(shù)據(jù)集中的事件信息,即對于來自同一事件的聲明,一些聲明出現(xiàn)在訓(xùn)練集中,一些聲明存在于測試集中,盡管模型的評估性能很好,但其無法處理數(shù)據(jù)集之外的事件. 其次,這種數(shù)據(jù)劃分方法沒有考慮聲明和事件的出現(xiàn)時間與順序. 因為信息傳播是一個過程,這意味著將所有聲明/事件都獨立對待是不現(xiàn)實的(因為早期事件會引發(fā)新的事件),因此,不考慮事件發(fā)生順序的模型對于新興事件的聲明不具有魯棒性.

1. 2. 2按時間順序劃分 除了簡單的隨機劃分外,一些研究按照聲明的時間順序來劃分?jǐn)?shù)據(jù)集,以此實現(xiàn)測試聲明的不可見性. 例如,Wu et al[20]根據(jù)聲明的時間對數(shù)據(jù)進(jìn)行劃分,使用前50% 的聲明進(jìn)行訓(xùn)練,后50% 的聲明進(jìn)行測試. Mu etal[18]還研究了數(shù)據(jù)漂移的影響,提出兩種新的數(shù)據(jù)集劃分方案:標(biāo)準(zhǔn)按時間順序劃分和分層按時間順序劃分. 具體地,在PHEME[16]和Twitter15數(shù)據(jù)集中,使用標(biāo)準(zhǔn)按時間順序劃分方法,對所有聲明按照時間順序進(jìn)行排序,將最早出現(xiàn)的70%的聲明作為訓(xùn)練集,最新的20% 的聲明作為測試集,剩下的聲明作為驗證集;對于Twitter16 和微博[33]數(shù)據(jù)集,使用分層按時間順序劃分方法,根據(jù)標(biāo)簽(例如謠言和非謠言)將聲明劃分為對應(yīng)子集,然后根據(jù)標(biāo)準(zhǔn)按時間順序劃分方法劃分每個子集,得到相應(yīng)的訓(xùn)練集、驗證集和測試集,最后根據(jù)目的(即訓(xùn)練、驗證和測試)合并各個子集,得到最終的劃分. 需要注意,Mu et al[18]使用的Twitter15 和Twitter16 數(shù)據(jù)集與本文使用的數(shù)據(jù)集不完全相同,因為Mu et al[18]明確使用了數(shù)據(jù)集中的具體時間戳,而本文使用的Twitter15[17]和Twitter16[17]數(shù)據(jù)集只包含相對時間信息. 此外,Mu et al[18]沒有發(fā)布其完整的數(shù)據(jù)集.

雖然Mu et al[18]根據(jù)時間順序劃分基于聲明的數(shù)據(jù)集,但這種劃分方式仍然缺少事件信息,而謠言檢測會受到相關(guān)事件主題的影響[28,39]. 此外,考慮時間線時,有必要確保來自訓(xùn)練集和驗證集中聲明的回復(fù)出現(xiàn)在測試集中的聲明之前,但Mu et al[18]沒有進(jìn)行相關(guān)的討論. 因此,本文提出了一種新的數(shù)據(jù)劃分方案來對謠言檢測方法進(jìn)行評測,該方案按照事件對數(shù)據(jù)集進(jìn)行劃分,并考慮了事件發(fā)生的時間順序. 早期的事件被納入訓(xùn)練集,一個新事件被分割成兩部分,最早的m 個聲明組成驗證集,其余聲明組成測試集. 此外,考慮到謠言檢測的初衷是在謠言傳播惡化之前及時進(jìn)行檢測和遏制,必須確保測試集中的內(nèi)容晚于驗證集中的內(nèi)容,所以,如果一條聲明涉及一系列回復(fù)帖子(例如PHEME 數(shù)據(jù)集),新的數(shù)據(jù)劃分方案會假設(shè)在新事件(即驗證集和測試集)上對某一聲明是否為謠言進(jìn)行分類時,不能看到該聲明的所有回復(fù)帖子. 這種情況,本文將在新事件中的回復(fù)帖子設(shè)置為一步可見,詳見2. 3.

2 數(shù)據(jù)集和劃分方案

本節(jié)提出一種用于訓(xùn)練和評估謠言檢測模型的新的數(shù)據(jù)集劃分方案.

2. 1數(shù)據(jù)集 選擇PHEME[16],Twitter15[17]和Twitter16[17]作為研究的基準(zhǔn)數(shù)據(jù)集,因為這三個數(shù)據(jù)集可以公開獲得并已在之前的研究中被廣泛使用[11,13-14,36]. 這三個數(shù)據(jù)集都是從著名的社交平臺Twitter 上收集得到. 具體地,PHEME 是一個標(biāo)簽不平衡的數(shù)據(jù)集,更符合現(xiàn)實中信息的標(biāo)簽分布,主要包含九個重大事件,這些事件中的聲明都包含一個具體的發(fā)生時間,用格林尼治標(biāo)準(zhǔn)時間(GMT)表示. PHEME 數(shù)據(jù)集具有兩種類型的標(biāo)簽,即謠言(R)和非謠言(N),用于謠言的二分類檢測. Twitter15 和Twitter16 是平衡的數(shù)據(jù)集,分別包含298 個事件和182 個事件,根據(jù)文獻(xiàn)[13]提供的數(shù)據(jù)統(tǒng)計得到. 與PHEME 不同,Twitter?15 和Twitter16 中的聲明只有相對時間,即一個聲明的原始帖子的時間被標(biāo)記為起始時間(即時間為0),其回復(fù)帖子的時間被標(biāo)記為兩個帖子之間的時間間隔. 值得注意的是,由于受到Twitter 服務(wù)條款的限制[17],這兩個數(shù)據(jù)集沒有提供回復(fù)帖子的文本信息. 此外,Twitter15 和Twitter16 包含四種類型的標(biāo)簽:非謠言(N)、虛假謠言(F)、真實謠言(T)和未經(jīng)證實的謠言(U),用于謠言的四分類檢測. 三個數(shù)據(jù)集的具體信息如表1 所示.

只使用聲明的純文本信息進(jìn)行謠言檢測的研究[22,30,40]可直接使用上述數(shù)據(jù)集,而基于傳播結(jié)構(gòu)的謠言檢測研究[12,23]人工提取了Twitter 數(shù)據(jù)集上的回復(fù)信息. 例如,考慮傳播結(jié)構(gòu)的研究GACL[13]對三個數(shù)據(jù)集進(jìn)行了清理,因為其使用的聲明總量小于原始版本(如表1 所示). 此外,由于Twitter15 和Twitter16 沒有提供聲明的回復(fù)帖子信息,GACL 也從Twitter 中人工提取了相應(yīng)的回復(fù)帖子. 因此,本文將GACL 提出的數(shù)據(jù)集稱為PHEME ? GACL,Twitter15 ? GACL 和Twit?ter16?GACL.

2. 2隨機劃分 采用五折交叉驗證來進(jìn)行隨機劃分,這也是大多數(shù)謠言檢測模型使用的劃分方案[11-13,36-37],即按照70%,10% 和20% 的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集.

2. 3按事件發(fā)生的時間順序劃分 本文提出的新的數(shù)據(jù)集劃分方案由兩部分組成:(1)PHEME和PHEME?GACL 數(shù)據(jù)集,其中的事件具有特定的時間戳;(2)Twitter 和Twitter?GACL 數(shù)據(jù)集,其中的事件沒有特定的時間戳.

按事件發(fā)生的時間順序?qū)HEME 數(shù)據(jù)集中的事件進(jìn)行排序,選擇最早發(fā)生的八個事件作為訓(xùn)練集,第九個事件作為測試集. 由于驗證集的作用是調(diào)整模型參數(shù)、驗證模型效果并選擇性能最佳的模型,因此本文提出的數(shù)據(jù)劃分方案作如下設(shè)定. 從最新的事件(待檢測的事件)中收集的驗證集是最有效的,所以,新的數(shù)據(jù)集劃分方案根據(jù)聲明中原始帖子的發(fā)布時間對測試集中的事件聲明進(jìn)行排序,選擇最早的m 個聲明作為驗證集(后續(xù)的實驗中設(shè)置m = 100),剩余的聲明作為最終的測試集. 此外,考慮到謠言的早期檢測,驗證集和測試集中不包含所有聲明的回復(fù)帖子,本研究設(shè)定回復(fù)帖子一步可見,即對新事件上的聲明的回復(fù)帖子按照其發(fā)布的時間順序排列,并選擇最早發(fā)布的回復(fù)帖子作為該聲明可見的回復(fù)信息.

PHEME?GACL 數(shù)據(jù)集只包含八個事件,本文選擇最早發(fā)生的六個事件作為訓(xùn)練集,第七個事件作為測試集,忽略第八個事件,因為其規(guī)模較?。偣仓挥?2個聲明),其余設(shè)置與PHEME 數(shù)據(jù)集保持一致.

Twitter 和Twitter?GACL 共有四個數(shù)據(jù)集,Twitter15,Twitter16,Twitter15 ? GACL 和Twit?ter16?GACL,沒有明確包含事件的開始時間,并且每個事件中的聲明類別標(biāo)簽完全相同,因此,本文提出的數(shù)據(jù)劃分方案為每種類型的標(biāo)簽選擇了五個事件作為測試集. 新的數(shù)據(jù)劃分方案下數(shù)據(jù)集的統(tǒng)計信息如表2 和表3 所示.

基于上述提出的按事件發(fā)生的時間順序劃分?jǐn)?shù)據(jù)集,謠言檢測的問題定義如下.

定義 謠言檢測 給定一個包含N 個過去事件的事件集S,對于新出現(xiàn)的事件sN + 1,給定它前m個聲明的原始帖子(和相應(yīng)的第一步回復(fù)帖子,如果有),目標(biāo)是訓(xùn)練一個謠言檢測模型來預(yù)測事件sN + 1 上即將發(fā)布的聲明是否為謠言.

3 實驗

3. 1模型 選擇六個相對新穎且具有代表性的模型作為謠言檢測模型以評估不同的數(shù)據(jù)劃分方案. 其中,BERT[40]是一個最新的使用純文本聲明的謠言檢測模型;BIGCN[12]是對于具有傳播結(jié)構(gòu)的聲明的代表性研究;GACL[13]和RDMSC[23]是最新的研究;EANN[30]和MetaDetector[22]嘗試使用域自適應(yīng)方法來改善模型在面對新事件時的性能. 以下是對六個模型的更詳細(xì)描述.

BERT[40]是一個使用純文本信息進(jìn)行微調(diào)的BERT謠言檢測模型.

EANN[30]是具有事件鑒別器的謠言檢測模型,該鑒別器捕捉了事件之間的不變特征,以提高對新事件的檢測能力.

MetaDetector[22]是基于EANN[30]的模型,通過事件鑒別器來消除事件特定的特征,并應(yīng)用偽事件鑒別器來評估現(xiàn)有事件對新事件的影響.

BIGCN[12]使用兩層GCN 來捕獲謠言的傳播和擴散模式.

GACL[13]是最新的謠言檢測模型之一,既考慮了聲明的傳播結(jié)構(gòu)信息,又引入了對抗學(xué)習(xí)和對比學(xué)習(xí),以獲得不變特征并解決泛化問題.

RDMSC[23]也是最新的謠言檢測模型之一,不僅考慮了聲明的傳播結(jié)構(gòu)信息,還使用了用戶信息進(jìn)行輔助檢測.

3. 2評估指標(biāo) 對于PHEME 和PHEME?GA?CL 數(shù)據(jù)集,由于是二分類任務(wù),使用精確率(Prec)、召回率(Rec)、F1 值(F1)和總體準(zhǔn)確率(Accall)作為評估指標(biāo). 另外,由于Twitter 和Twitter?GACL 數(shù)據(jù)集具有多個類別標(biāo)簽,使用總體準(zhǔn)確率(Accall)和各類別準(zhǔn)確率(Acc)作為分析的評估指標(biāo).

其中,對于某一類別標(biāo)簽的聲明,TP 是將該類別聲明正確分類的數(shù)量,F(xiàn)P 是將該類別聲明錯誤分類的數(shù)量,TN 是將其他類別聲明正確地不分類到該類別標(biāo)簽的數(shù)量,F(xiàn)N 是將其他類別聲明錯誤地分類到該類別標(biāo)簽的數(shù)量. 此外,K 為標(biāo)簽的類別數(shù),N 是待檢測的聲明總量.

3. 3實現(xiàn)細(xì)節(jié) 實驗中BERT[40],EANN[30],MetaDetector[22] ,BIGCN[12] ,GACL[13] 和RD?MSC[23]的初始學(xué)習(xí)率分別設(shè)置為0. 001,0. 001,0. 01,0. 0005,0. 0005 和0. 0005,batchsize 設(shè)置為16,100,50,120,120 和120,和原始模型的文獻(xiàn)或

代碼中的設(shè)置一致. 對于MetaDetector 模型,由于采用了域自適應(yīng)方法,需要兩種類型的訓(xùn)練集,即已有事件和新事件,因此,對于隨機劃分和按時間順序劃分兩種數(shù)據(jù)集劃分方法,實驗時將驗證集作為新事件的訓(xùn)練集. 此外,由于PHEME 數(shù)據(jù)集有驗證集,實驗時采用同樣的策略將其視為訓(xùn)練集的一部分. Twitter15 和Twitter16 數(shù)據(jù)集則經(jīng)過重新劃分,將新事件的原始測試集按4∶1的比例劃分為測試集和訓(xùn)練集.

3. 4實驗結(jié)果

3. 4. 1在PHEME 和PHEME?GACL數(shù)據(jù)集上的實驗結(jié)果 表4 和表5 分別展示了在PHEME和PHEME?GACL 數(shù)據(jù)集上使用三種數(shù)據(jù)劃分方案的實驗結(jié)果. 如表所示,在事件具有特定時間戳的PHEME 和PHEME?GACL數(shù)據(jù)集上,與隨機劃分方法相比,本文提出的兼顧謠言事件時序特性的數(shù)據(jù)劃分方法將模型的精度至少降低了7%. 與將聲明按時間順序進(jìn)行劃分的方法[18]相比,使用本文提出的方法時模型的準(zhǔn)確率也有所下降,在PHEME數(shù)據(jù)集上至少下降0. 7%,在PHEME?GACL 數(shù)據(jù)集上下降1%,證明本文提出的數(shù)據(jù)劃分方案揭示了基線模型進(jìn)行隨機劃分的低能力,即在面對突發(fā)的新事件時不具備魯棒性和泛化性. 因此,考慮事件發(fā)生時間順序的數(shù)據(jù)劃分方案可以提升謠言檢測模型的性能.

此外,MetaDetector 在PHEME 上的實驗中出現(xiàn)了病態(tài)問題,即在使用本文提出的新的數(shù)據(jù)劃分方案時,所有待檢測的聲明都被預(yù)測為同一類別. 主要是因為新事件中可用的聲明數(shù)量很少(只有100個),且根據(jù)表2的統(tǒng)計,這100個可用的聲明中非謠言聲明的比例高達(dá)77%,這是極不平衡的情況. MetaDetector 使用這種有限的新事件數(shù)據(jù)進(jìn)行訓(xùn)練,導(dǎo)致了結(jié)果中的病態(tài)問題.

3. 4. 2在Twitter 和Twitter?GACL數(shù)據(jù)集上的的實驗結(jié)果 按照時間順序劃分的方法需要聲明具有具體的時間戳,但是Twitter15,Twitter16,Twitter15 ?GACL 和Twitter16 ?GACL 數(shù)據(jù)集不符合該條件,因此在實驗時只比較兩種數(shù)據(jù)劃分方法(即隨機劃分和本文提出的劃分方法). 表6~9 展示了在不同數(shù)據(jù)集劃分方法下模型的性能比較結(jié)果. 由表可見,和隨機劃分相比,本文提出的數(shù)據(jù)劃分方法導(dǎo)致模型性能明顯下降. 在Twitter15,Twitter16,Twitter15 ? GACL 和Twit?ter16 ? GACL 數(shù)據(jù)集上,準(zhǔn)確率分別降低至少19%,30%,36% 和34%,證明當(dāng)前大多數(shù)謠言檢測模型采用的隨機劃分方法在檢測新事件時會表現(xiàn)出較低的性能. 因此,有必要提出一個新的數(shù)據(jù)劃分方法作為研究謠言檢測模型的評測方法.

3. 4. 3整體分析與可視化 本文提出的數(shù)據(jù)劃分方案揭示了當(dāng)前謠言檢測模型與實際應(yīng)用中對新興事件的謠言檢測之間的能力差距,再對模型在不同數(shù)據(jù)集上的表現(xiàn)差異進(jìn)行更深入的研究.在比較給定模型在不同數(shù)據(jù)集上的表現(xiàn)時有兩個觀察結(jié)果.

(1)基于文本的謠言檢測模型在PHEME 上的性能表現(xiàn)普遍優(yōu)于Twitter15和Twitter16數(shù)據(jù)集,因為PHEME不僅包含聲明的原始帖子,還包括回復(fù)帖子,提供了更豐富的信息,更有利于謠言檢測. 而基于傳播結(jié)構(gòu)的謠言檢測模型是根據(jù)Twitter15 和Twitter16數(shù)據(jù)集人工獲取聲明的回復(fù)文本,因此在這兩類數(shù)據(jù)集上的性能表現(xiàn)沒有明顯的差異.

(2)使用兩種數(shù)據(jù)劃分方案,即隨機劃分和本文的按事件時間劃分時,模型在Twitter15,Twitter16,Twitter15?GACL 和Twitter16?GACL上的性能比在PHEME 和PHEME ?GACL 上下降得更多. 因為Twitter15,Twitter16,Twitter15?GACL 和Twitter16?GACL 數(shù)據(jù)集中每個事件的聲明類型是一致的,在本文提出的新的數(shù)據(jù)劃分方案下,為了避免信息泄露,這四個數(shù)據(jù)集在測試集上的事件信息完全不可見. 而在PHEME和PHEME?GACL 上,允許使用新事件的前100 個聲明. 因此,在兩種數(shù)據(jù)劃分方法下,模型在Twitter15,Twitter16,Twitter15 ? GACL 和Twit?ter16?GACL 數(shù)據(jù)集上的性能表現(xiàn)差距更大.

采用t?SNE[41]對PHEME 和PHEME?GACL數(shù)據(jù)集上的新事件和已有事件的數(shù)據(jù)分布進(jìn)行可視化,如圖1 所示. 圖1a 是在PHEME 數(shù)據(jù)集上使用Word2vec[42]獲得的單詞嵌入的可視化結(jié)果,圖1b 和圖1c 是在PHEME?GACL 數(shù)據(jù)集上的可視化結(jié)果,它們分別使用Word2vec 來獲得單詞嵌入,使用經(jīng)過微調(diào)的BERT[43]模型來獲得單詞嵌入并結(jié)合GCN 來提取傳播結(jié)構(gòu).

具體地,由圖1a 和圖1b 可見,在PHEME 和PHEME?GACL 數(shù)據(jù)集上,新事件和已有事件的數(shù)據(jù)分布不同,標(biāo)簽比例存在不平衡的問題. 因此,在構(gòu)建謠言檢測模型時,可以考慮使用遷移學(xué)習(xí)[44-45]、元學(xué)習(xí)[46]、多任務(wù)學(xué)習(xí)[47-48]和增量學(xué)習(xí)[49-50]等方法,以消除數(shù)據(jù)分布的差異,更好地提高模型在面對新事件時的泛化能力. 由圖1c可見,使用BERT 能提取更全面的文本特征,并且,在考慮了聲明的傳播結(jié)構(gòu)之后,新事件和已有事件的分布不再是主要的差異,謠言和非謠言數(shù)據(jù)被映射到不同的特征空間. 證明在進(jìn)行謠言檢測的研究時,有必要提取更全面、更豐富的文本特征和傳播結(jié)構(gòu)特征.

4 結(jié)論

本研究引入了一種新穎的數(shù)據(jù)集劃分方案來評估實時新興事件背景下謠言檢測方法的有效性. 與常用的隨機劃分方法不同,本文提出的方法考慮了事件的時間順序,并充分考慮了數(shù)據(jù)分布中可能存在的時序漂移問題,更符合現(xiàn)實世界中謠言檢測任務(wù)的工作流程. 實驗結(jié)果表明,盡管使用隨機劃分方案訓(xùn)練的謠言檢測模型在測試集上表現(xiàn)良好,但在使用本文提出的劃分方案時,其性能顯著下降,凸顯了現(xiàn)有模型在有效檢測未來新興事件時所面臨的挑戰(zhàn). 由于對實時發(fā)生的新興事件的檢測仍然是一個重要但未被充分研究的問題,引入本文的新數(shù)據(jù)劃分方案能使謠言檢測研究更多地關(guān)注和解決新事件上的檢測問題,還可以在一定程度上迫使謠言檢測模型增強處理未知事件的泛化能力,并提高整體的檢測性能.

(責(zé)任編輯 楊可盛)

猜你喜歡
社交網(wǎng)絡(luò)
口碑信息傳播對圖書館服務(wù)創(chuàng)新的啟示
社交網(wǎng)絡(luò)對大學(xué)英語教學(xué)的影響及應(yīng)用
科技視界(2016年26期)2016-12-17 20:01:00
社交網(wǎng)絡(luò)推薦系統(tǒng)
社交網(wǎng)絡(luò)對大學(xué)生人際交往的影響及對策研究
基于五要素理論的視頻自媒體盈利模式
聲屏世界(2016年10期)2016-12-10 21:16:45
大數(shù)據(jù)時代社交網(wǎng)絡(luò)個人信息安全問題研究
社交網(wǎng)絡(luò)中的隱私關(guān)注及隱私保護研究綜述
基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
戲劇之家(2016年19期)2016-10-31 19:44:28
社交網(wǎng)絡(luò)自拍文化的心理解讀
新聞前哨(2016年10期)2016-10-31 17:46:44
社交網(wǎng)絡(luò)營銷策略及盈利模式探討
商情(2016年11期)2016-04-15 20:16:05
阜新| 新田县| 民县| 喜德县| 惠安县| 于都县| 岫岩| 公安县| 南投县| 尉氏县| 二手房| 双牌县| 松潘县| 嘉义县| 阿拉善盟| 武城县| 平顶山市| 海晏县| 河津市| 涞源县| 高阳县| 景泰县| 长武县| 吴川市| 凤阳县| 沿河| 砀山县| 镇坪县| 会同县| 晋城| 尼玛县| 九江市| 德阳市| 肃宁县| 桃江县| 榆林市| 通化市| 日照市| 聂拉木县| 巍山| 林西县|