MSRD:多模態(tài)網(wǎng)絡(luò)謠言檢測(cè)方法

2020-11-10 12:18劉金碩JeffPan王麗娜

計(jì)算機(jī)研究與發(fā)展 2020年11期

劉金碩馮闊 Jeff Z. Pan 鄧娟王麗娜

1(空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室，武漢大學(xué)國(guó)家網(wǎng)絡(luò)安全學(xué)院武漢 430072)

2(阿伯丁大學(xué) 蘇格蘭阿伯丁 AB24 3FX)(liujinshuo@whu.edu.cn)

網(wǎng)絡(luò)謠言因受眾廣大、易于傳播等特點(diǎn)，能夠輕易煽動(dòng)群眾焦慮、恐慌等情緒，引發(fā)各類(lèi)群體性事件，嚴(yán)重危害社會(huì)治安.在互聯(lián)網(wǎng)時(shí)代，迅速普及的各類(lèi)社交媒體平臺(tái)成為了謠言滋生和傳播的溫床.為了博取關(guān)注、引導(dǎo)轉(zhuǎn)發(fā)，網(wǎng)絡(luò)謠言逐步由單純的文本向圖像與文本信息聯(lián)合等多模態(tài)謠言轉(zhuǎn)型.由于圖像比文本更具有欺騙性，且其來(lái)源和真實(shí)性難以考證，因此圖文聯(lián)合的網(wǎng)絡(luò)謠言更具危害性.因此，準(zhǔn)確及時(shí)地針對(duì)圖文聯(lián)合的多模態(tài)網(wǎng)絡(luò)謠言進(jìn)行檢測(cè)有利于維護(hù)社交平臺(tái)輿情穩(wěn)定、捍衛(wèi)國(guó)家網(wǎng)絡(luò)話(huà)語(yǔ)權(quán)和保證社會(huì)秩序平穩(wěn)發(fā)展，具有十分重要的現(xiàn)實(shí)意義.

目前針對(duì)網(wǎng)絡(luò)謠言的圖像內(nèi)容進(jìn)行理解從而判別謠言的方法較為少見(jiàn)，已有的工作集中于識(shí)別謠言中的文本內(nèi)容.其中一部分工作[1-3]采用以文本內(nèi)容和用戶(hù)信息為主要特征的基于特征構(gòu)造檢測(cè)的方法，另一部分工作[4-5]以傳播時(shí)間、傳播結(jié)構(gòu)、語(yǔ)言特征等方面因素作為考量，提出基于傳播結(jié)構(gòu)檢測(cè)法以及時(shí)間序列檢測(cè)法.僅有少部分工作[6-7]考慮了圖像信息，利用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征，并聯(lián)合文本特征進(jìn)行謠言判別.然而這些工作忽略了圖像內(nèi)嵌文本的處理，如圖1所示.該謠言信息包含消息文本、圖像和圖像內(nèi)嵌文本3部分.圖像中的文本信息往往由謠言傳播者人為添加，用于增加謠言的可信度.目前的謠言檢測(cè)工作中缺乏對(duì)圖像內(nèi)嵌文本信息的挖掘，該部分對(duì)謠言判別具有重要意義.然而如何有效定位圖像內(nèi)嵌文本區(qū)域，并對(duì)其文本內(nèi)容進(jìn)行識(shí)別成為主要挑戰(zhàn).另外，如何有效融合文本特征與圖像特征進(jìn)行謠言檢測(cè)成為另一挑戰(zhàn).

Fig. 1 Multi-modal Web rumor

為了解決以上問(wèn)題，本文提出了一種端到端的多模態(tài)融合網(wǎng)絡(luò)謠言檢測(cè)方法.該方法融合了消息文本特征、圖像內(nèi)嵌文本特征以及圖像內(nèi)容特征，通過(guò)謠言檢測(cè)器進(jìn)行謠言判別.

概括來(lái)說(shuō)，本文的主要貢獻(xiàn)有3個(gè)方面：

1) 提出了一個(gè)聯(lián)合消息文本信息以及圖像內(nèi)嵌文本信息與圖像信息的多模態(tài)謠言檢測(cè)模型MSRD；

2) 提出了一種基于密集連接網(wǎng)絡(luò)和空洞空間金字塔池化模型的圖像文本定位方法；

3) 提出了一種融合文本特征與圖像特征的共享特征表示方法.

1 相關(guān)工作

1.1 圖像內(nèi)嵌文本定位

目前國(guó)內(nèi)外學(xué)者對(duì)圖像內(nèi)嵌文本定位工作的研究主要基于深度學(xué)習(xí)的方法.從技術(shù)路線(xiàn)角度主要分為2種：以連接文本提議網(wǎng)絡(luò)(connectionist text proposal network，CTPN)[8]為代表的基于區(qū)域建議的文本檢測(cè)方法，和以高效準(zhǔn)確的場(chǎng)景文本檢測(cè)器(efficient and accurate scene text detector，EAST)[9]為代表的基于圖像分割的文本檢測(cè)方法.CTPN框架的缺點(diǎn)在于對(duì)非水平排列的文本區(qū)域定位效果不佳；EAST檢測(cè)器的缺點(diǎn)在于網(wǎng)絡(luò)的感受野不夠充足，導(dǎo)致對(duì)長(zhǎng)文本區(qū)域定位效果不佳.以上工作為本文圖像文本定位提供了新思路.

1.2 圖像內(nèi)嵌文本識(shí)別

不同于文本定位的粗略二分類(lèi)任務(wù)，圖像文本識(shí)別任務(wù)需要進(jìn)行更精確的分類(lèi).2016年牛津大學(xué)視覺(jué)幾何組團(tuán)隊(duì)發(fā)表文獻(xiàn)[10]，使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)率先在場(chǎng)景文本識(shí)別領(lǐng)域取得領(lǐng)先地位.2017年文獻(xiàn)[11]提出了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network, CRNN)的文本檢測(cè)框架，使用CNN提取圖像特征，使用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory, BLSTM)提取序列信息，通過(guò)對(duì)特征編碼輸出預(yù)測(cè)結(jié)果，是2017年文本檢測(cè)結(jié)果最好的端到端模型之一.2018年眾多研究者對(duì)已有模型的改進(jìn)集中在應(yīng)對(duì)任意方向排列的文本檢測(cè)上，文獻(xiàn)[12]提出了快速定向的文本識(shí)別系統(tǒng)(fast oriented text spotting, FOTS)，文獻(xiàn)[13]將“Textboxes”擴(kuò)展成為“Textboxes++”以應(yīng)對(duì)任意方向的文本區(qū)域.綜上，目前基于深度學(xué)習(xí)的文本字符識(shí)別方法通用模式是使用CNN獲取圖像特征，使用LSTM獲取序列特征，最后使用時(shí)序分類(lèi)算法(connectionist temporal classification, CTC)輸出識(shí)別結(jié)果.

1.3 謠言檢測(cè)方法

已有的謠言檢測(cè)工作從3個(gè)方面設(shè)計(jì)謠言檢測(cè)模型：1)以文本內(nèi)容和用戶(hù)信息為主要特征的基于特征構(gòu)造檢測(cè)模型[1-3]；2)以傳播路徑和傳播節(jié)點(diǎn)為主要特征的基于傳播結(jié)構(gòu)檢測(cè)模型;3)以文本信息隨時(shí)間變化的統(tǒng)計(jì)特征為主要特征的基于時(shí)間序列檢測(cè)模型[4-5].特征構(gòu)造檢測(cè)模型是謠言檢測(cè)工作中應(yīng)用最為廣泛的典型模型.文獻(xiàn)[1]提出了一種通過(guò)提取博文內(nèi)容標(biāo)簽信息、外鏈信息和互相提及信息為主要特征的Twitter上誤導(dǎo)性博文檢測(cè)算法.文獻(xiàn)[2]通過(guò)組合內(nèi)容文本流行度、文本情感極性、用戶(hù)影響力和博文轉(zhuǎn)發(fā)率等特征構(gòu)造微博謠言文本深層次特征來(lái)檢測(cè)謠言.文獻(xiàn)[3]基于博文文本內(nèi)容的關(guān)鍵詞匯來(lái)建立謠言檢測(cè)模型.除特征構(gòu)造檢測(cè)模型之外，文獻(xiàn)[4]認(rèn)為謠言文本和非謠言文本在時(shí)間序列上變化的模式不同，并利用統(tǒng)計(jì)特征及特征在檢測(cè)區(qū)間上的斜率變化等因素組成特征向量來(lái)檢測(cè)謠言.文獻(xiàn)[5]認(rèn)為T(mén)witter上謠言傳播關(guān)鍵結(jié)構(gòu)和語(yǔ)言差異的波動(dòng)具有周期性，以傳播時(shí)間、傳播結(jié)構(gòu)和語(yǔ)言特征3方面因素作為特征考量，建立周期時(shí)間序列模型用以識(shí)別謠言.

除了謠言文本信息，圖像特征在謠言檢測(cè)中起著非常重要的作用[14],文獻(xiàn)[15]嘗試提取圖像的基本特征進(jìn)行謠言檢測(cè)，但是，手工提取的特征難以表示圖像內(nèi)信息的復(fù)雜分布.

與傳統(tǒng)的特征工程相比，深度神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于學(xué)習(xí)圖像和文本的特征表示，并成功應(yīng)用于各種工作，包括圖像字幕[16-17]、多模態(tài)問(wèn)題解答[18]和謠言檢測(cè)[19-20]等.具體來(lái)說(shuō)，卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于圖像的特征表示中[14-15]，而遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)在編碼文本信息中發(fā)揮強(qiáng)大的作用[21-22].文獻(xiàn)[23]提出利用自編碼器模型進(jìn)行多模態(tài)網(wǎng)絡(luò)謠言檢測(cè).文獻(xiàn)[19]提出利用注意力模型來(lái)聯(lián)合多模態(tài)特征進(jìn)行謠言檢測(cè).然而，較少有工作考慮到圖像中內(nèi)嵌文本的特征提取問(wèn)題，以及如何更加精確地聯(lián)合文本與圖像的多模態(tài)特征來(lái)進(jìn)行謠言檢測(cè).

2 多模態(tài)網(wǎng)絡(luò)謠言檢測(cè)模型MSRD

多模態(tài)網(wǎng)絡(luò)謠言檢測(cè)模型MSRD的總體框架示意圖如圖2所示:

Fig. 2 Overall framework of the multimodal web rumor detection method

2.1 圖像文本定位檢測(cè)

謠言消息中的圖像文本定位檢測(cè)與自然場(chǎng)景圖像中的文本定位檢測(cè)工作是類(lèi)似的，本文在文獻(xiàn)[9]工作的基礎(chǔ)上，提出了一種基于圖像語(yǔ)義分割思想的文本定位檢測(cè)方法，通過(guò)密集連接卷積網(wǎng)絡(luò)(densely connected convolutional networks, DenseNet)DenseNet-121提取特征，在不同的層級(jí)上抽取特征圖(feature map)，并且在特定尺度上引入空洞空間金字塔池化層(atrous spatial pyramid pooling, ASPP)擴(kuò)大模型的感受野，然后從網(wǎng)絡(luò)的頂部向下合并特征圖，最終在輸出層輸出當(dāng)前像素對(duì)應(yīng)于原圖中像素為文字的概率值.如果當(dāng)前像素屬于文字區(qū)域，輸出該像素相對(duì)文本框4個(gè)頂點(diǎn)的坐標(biāo)偏移值，最后通過(guò)非極大值抑制(non-maximum suppression)算法得到最終的文本框.圖3表示了本文所用的圖像文本定位檢測(cè)算法結(jié)構(gòu)及流程圖.

Fig. 3 Image text positioning algorithm structure and flow

2.1.1 空洞空間金字塔池化層的實(shí)現(xiàn)

ASPP通過(guò)并行采用卷積核皆為3×3大小的同尺度、不同間距的多個(gè)濾波器來(lái)感知多尺度的視野，從而提取Feature Map上的多尺度特征.然后，將這些并行提取的特征通過(guò)使用concat操作串聯(lián)起來(lái)，再通過(guò)1×1的卷積操作融合成指定深度Feature Map輸出，這樣就實(shí)現(xiàn)了在不改變輸入數(shù)據(jù)體的尺寸規(guī)模的前提下，擴(kuò)大了該網(wǎng)絡(luò)層的感受野.

2.1.2 特征圖合并策略

謠言消息中圖像的文本區(qū)域大小不固定，需要同時(shí)兼顧神經(jīng)網(wǎng)絡(luò)模型的高層特征和低層特征，才能同時(shí)對(duì)不同尺寸的文本區(qū)域?qū)崿F(xiàn)定位，因此需要將不同層級(jí)的Feature Map進(jìn)行融合.

由圖3可知，經(jīng)過(guò)ASPP層輸出的Feature Map尺寸比為1∶16，由于在ASPP層已經(jīng)經(jīng)過(guò)concat操作，所以先使用1×1的卷積將Feature Map深度降維至128，再使用3×3的卷積融合該層Feature Map中的特征.

卷積操作完成后使用反池化操作，使該層Feature Map的寬度和高度值與Transition Layer(1)的輸出數(shù)據(jù)體相匹配，并對(duì)這二者使用concat操作得到尺寸比為1∶8的Feature Map.

在尺寸比為1∶8的Feature Map中，先使用1×1的卷積將深度降維至64，再使用3×3的卷積融合特征后，經(jīng)過(guò)反池化操作并與主干網(wǎng)絡(luò)第一個(gè)Pooling層的輸出concat串聯(lián)起來(lái)得到1∶4的Feature Map.

最后將1∶4的Feature Map使用1×1的卷積將深度降維至32，并使用3×3的卷積得到深度為32的最終輸出層.最終輸出層的尺寸與原圖像的尺寸比也為1∶4.

2.2 文本信息識(shí)別

本節(jié)進(jìn)行的文本識(shí)別任務(wù)在2.1節(jié)圖像文字定位的基礎(chǔ)上完成，即通過(guò)上節(jié)對(duì)圖像中文字區(qū)域的檢測(cè)，截取原圖像中含有文本的區(qū)域，輸入給本節(jié)提出的文本識(shí)別模型.與其他的基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的文本識(shí)別模型不同，由于已經(jīng)完成了文本區(qū)域的定位檢測(cè)工作，因此只需關(guān)注識(shí)別任務(wù).由于截取的文本區(qū)域中文本信息為主體部分，本文認(rèn)為密集連接網(wǎng)絡(luò)由于各隱藏層密集互聯(lián)的特性，能夠較好地完成全局特征的感知，不需要額外使用循環(huán)神經(jīng)網(wǎng)絡(luò)以兼顧文字序列前后信息.因此設(shè)計(jì)了本節(jié)基于密集連接網(wǎng)絡(luò)的文本識(shí)別模型.

模型如圖4所示.本節(jié)使用精簡(jiǎn)的密集連接網(wǎng)絡(luò)，在DenseNet-121的基礎(chǔ)上，去掉了第4個(gè)稠密塊(dense block)以及最后的全局平均池化層，目的是盡可能保留中文漢字在垂直方向的筆畫(huà)信息.由全連接層輸出預(yù)測(cè)結(jié)果，將文本的識(shí)別任務(wù)視作分類(lèi)任務(wù)，其類(lèi)別數(shù)目等于預(yù)先構(gòu)建的字典中字符數(shù)目.字典中字符經(jīng)過(guò)排列預(yù)先編號(hào)，全連接層輸出文字所屬各類(lèi)別的概率，通過(guò)softmax激活函數(shù)歸一化后輸出概率最大的類(lèi)別編號(hào)，查閱字典即可得到預(yù)測(cè)的文本信息.由于CTC算法引入了空白標(biāo)簽，可以解決沒(méi)有事先對(duì)齊的序列化數(shù)據(jù)訓(xùn)練問(wèn)題，因此可加在密集連接網(wǎng)絡(luò)后，對(duì)不定長(zhǎng)的文本區(qū)域進(jìn)行預(yù)測(cè)識(shí)別.

Fig. 4 Text recognition model

2.3 LSTM網(wǎng)絡(luò)

本文使用帶有長(zhǎng)短期記憶(long short-term memory, LSTM)單元的RNN來(lái)學(xué)習(xí)提出的模型中消息文本和圖像中文本的聯(lián)合表示.RNN是一種前饋神經(jīng)網(wǎng)絡(luò)，可用于對(duì)長(zhǎng)度可變的順序信息進(jìn)行建模.給定輸入序列(x1,x2,…,xM),基本的RNN模型更新隱藏狀態(tài)(h1,h2,…,hM)并生成輸出向量(y1,y2,…,yM).M取決于輸入的長(zhǎng)度.當(dāng)前的隱藏狀態(tài)是使用循環(huán)單元計(jì)算的，循環(huán)單元采用最后的隱藏狀態(tài)和當(dāng)前的輸入以產(chǎn)生當(dāng)前的隱藏狀態(tài).

為了在學(xué)習(xí)長(zhǎng)距離時(shí)間相關(guān)性時(shí)處理梯度的消失或爆炸問(wèn)題[24-25]，LSTM通過(guò)將信息長(zhǎng)時(shí)間存儲(chǔ)在精心設(shè)計(jì)的存儲(chǔ)單元中來(lái)擴(kuò)展基本RNN.具體而言，LSTM中的讀寫(xiě)存儲(chǔ)單元c由一組sigmoid門(mén)控制：輸入門(mén)i、輸出門(mén)o和遺忘門(mén)f.對(duì)于每個(gè)時(shí)間步長(zhǎng)m，LSTM單元從當(dāng)前輸入xm，先前的隱藏狀態(tài)hm和先前的存儲(chǔ)單元cm接收輸入.這些門(mén)的更新為[26-27]:

im=σ(Wxixm+Whihm-1+bi),

(1)

fm=σ(Wxfxm+Whfhm-1+bf),

(2)

om=σ(Wxoxm+Whohm-1+bo),

(3)

gm=φ(Wxcxm+Whchm-1+bc),

(4)

cm=fm⊙cm-1+im⊙gm,

(5)

hm=om⊙φ(ct),

(6)

其中,W*是對(duì)應(yīng)門(mén)的權(quán)重矩陣，b*是偏差項(xiàng)，可以從網(wǎng)絡(luò)中獲知.σ是sigmoid激活函數(shù)，σ(x)=1(1+exp(-x))；φ是雙曲正切函數(shù)，φ(x)=(exp(x)-exp(-x))(exp(x)+exp(-x)).⊙表示2個(gè)向量之間的逐元素乘法. 輸入門(mén)i決定將新存儲(chǔ)器添加到存儲(chǔ)單元的程度.遺忘門(mén)f確定遺忘現(xiàn)有存儲(chǔ)器的程度.通過(guò)忘記一部分現(xiàn)有存儲(chǔ)器并添加新的存儲(chǔ)器g來(lái)更新存儲(chǔ)器單元c.

2.4 消息文本和圖像中文本的聯(lián)合表示

文本內(nèi)容是消息中包含單詞的集合：T={T1,T2,…,Tn}(n是文本中單詞的數(shù)量).文本中的每個(gè)單詞Tj∈T都表示為單詞嵌入向量.每個(gè)單詞的嵌入向量都是通過(guò)Word Embedding獲得的，該網(wǎng)絡(luò)在給定的數(shù)據(jù)集上進(jìn)行了無(wú)監(jiān)督預(yù)訓(xùn)練.

傳統(tǒng)的多模態(tài)謠言檢測(cè)往往只單獨(dú)提取文本與圖像特征，忽略了圖像中的內(nèi)嵌文本，本文認(rèn)為該文本對(duì)謠言檢測(cè)有一定的作用，因此本文通過(guò)2.1～2.2節(jié)中提到的圖像文本定位與識(shí)別方法將圖像中內(nèi)嵌文本提取出來(lái)，同樣采用Word Embedding形成初始的圖像文本表示RE=(p1,p2,…,pk)T(k是圖像文本中單詞的數(shù)量).圖像文本特征RE通過(guò)圖2所示的ET-FC全連接層轉(zhuǎn)換為與配文文本向量相同維度的表示形式:

(7)

2.5 圖像特征表示

視覺(jué)子網(wǎng)絡(luò)(圖2的上部分支)采用圖像作為輸入，并構(gòu)造視覺(jué)神經(jīng)元提取圖像特征.該網(wǎng)絡(luò)前面部分采用和VGG-19網(wǎng)絡(luò)相同的結(jié)構(gòu)，并添加2個(gè)全連接層，將每個(gè)圖像表示為RV=(v1,v2,…,v32)T，共同訓(xùn)練整個(gè)謠言檢測(cè)網(wǎng)絡(luò)，挖掘消息圖像中的視覺(jué)信息.其中視覺(jué)子網(wǎng)絡(luò)VGG-19可以首先通過(guò)ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，但是，在與LSTM子網(wǎng)絡(luò)的聯(lián)合訓(xùn)練過(guò)程中，凍結(jié)VGG網(wǎng)絡(luò)的參數(shù)，只有最后的2個(gè)完全連接層的參數(shù)會(huì)更新，以提高訓(xùn)練效率，防止參數(shù)爆炸.

RV=Wvf2ψ(Wvf1RVp),

(8)

其中，RVp是從預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)得到的圖像特征表示，Wvf1是具有ReLU激活函數(shù)的第1個(gè)完全連接層中的權(quán)重，Wvf2是具有softmax功能的第2個(gè)完全連接層中的權(quán)重，ψ表示ReLU激活函數(shù).

在模型中直接使用圖像特征與文本-圖像文本特征進(jìn)行訓(xùn)練的問(wèn)題是：其中一種特征表示可能會(huì)壓制另一種特征表示，這樣便無(wú)法發(fā)揮多模態(tài)的融合作用，因此，在下面的部分，介紹一種特征的共享表示，以更好地融合文本與圖像特征的聯(lián)合表示.

2.6 共享表示

將聯(lián)合文本特征表示RTE和圖像特征表示RV串接起來(lái)，通過(guò)圖2中的完全連接層Latent-FC，從中獲得2個(gè)向量μ和σ，它們可以分別視為共享表示的分布的均值和方差，從高斯分布中采樣隨機(jī)變量ε.用Rm表示最終重新參數(shù)化的多模態(tài)特征：

Rm=μ+σ°ε.

(9)

本文將整個(gè)特征提取網(wǎng)絡(luò)表示為Gfr(m，θf(wàn)r)，其中θf(wàn)r表示特征提取網(wǎng)絡(luò)中所有學(xué)習(xí)的參數(shù)，用m表示消息集合中一條待判別的消息，則:

Rm=Gfr(m，θf(wàn)r).

(10)

2.7 謠言檢測(cè)器

謠言檢測(cè)器將圖像與文本特征的共享表示特征Rm作為輸入，用來(lái)判別消息是否為謠言.它由具有激活函數(shù)的多個(gè)完全連接層組成，我們將謠言檢測(cè)器表示為Grd(Rm,θrd)，其中θrd表示謠言檢測(cè)器中所有的參數(shù)，謠言檢測(cè)器的輸出是該消息是謠言的概率.

(11)

(12)

(13)

3 實(shí) 驗(yàn)

本節(jié)，首先介紹了實(shí)驗(yàn)中所用到的2種數(shù)據(jù)集;然后介紹了實(shí)驗(yàn)中網(wǎng)絡(luò)模型的參數(shù)設(shè)置;最后，為了驗(yàn)證MSRD方法可行性和先進(jìn)性，設(shè)計(jì)的實(shí)驗(yàn)包括：?jiǎn)挝谋緳z測(cè)方法Textual、單圖像檢測(cè)方法Visual、圖像加圖像中文字檢測(cè)方法TVisual和當(dāng)前的謠言檢測(cè)方法對(duì)比的實(shí)驗(yàn).

3.1 數(shù)據(jù)集

鑒于結(jié)構(gòu)化多媒體數(shù)據(jù)的稀疏可用性，本文利用2個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)評(píng)估我們用于謠言檢測(cè)的網(wǎng)絡(luò)模型MSRD.這2個(gè)數(shù)據(jù)集包括從Twitter和微博收集的真實(shí)社交媒體信息.這些是僅有的具有成對(duì)的圖像和文本信息的數(shù)據(jù)集.

3.1.1 Twitter數(shù)據(jù)集

作為MediaEval[21]的一部分，該數(shù)據(jù)集分為2部分：開(kāi)發(fā)集(9 000條謠言tweet，6 000條真實(shí)消息tweet)和測(cè)試集(2 000條tweet).考慮到本文只關(guān)心圖像和文本信息，本文會(huì)過(guò)濾掉所有帶有視頻的推文.本文將開(kāi)發(fā)集用于訓(xùn)練，將測(cè)試集用于測(cè)試，以保持與基準(zhǔn)相同的數(shù)據(jù)拆分方案.

3.1.2 微博數(shù)據(jù)集

在文獻(xiàn)[19]中用于謠言檢測(cè)的微博數(shù)據(jù)集包括從中國(guó)權(quán)威新聞來(lái)源新華社和中國(guó)網(wǎng)站微博收集的數(shù)據(jù).數(shù)據(jù)集的使用及預(yù)處理類(lèi)似于文獻(xiàn)[19]的方法進(jìn)行.初步步驟包括刪除重復(fù)圖像和低質(zhì)量圖像，以確保整個(gè)數(shù)據(jù)集的均勻性.然后，將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集，如Jin等人所述，數(shù)據(jù)比例約為4∶1[19].

3.2 實(shí)驗(yàn)設(shè)置

對(duì)于文本特征，采用基于神經(jīng)網(wǎng)絡(luò)的分布式表示[29].對(duì)于這2個(gè)數(shù)據(jù)集，在標(biāo)準(zhǔn)文本預(yù)處理之后，使用默認(rèn)參數(shù)設(shè)置，以無(wú)監(jiān)督的方式對(duì)整個(gè)數(shù)據(jù)集進(jìn)行Word2Vec模型的預(yù)訓(xùn)練.將數(shù)據(jù)集中的每個(gè)單詞轉(zhuǎn)化為32維嵌入向量.選擇詞嵌入表示而不是獨(dú)熱編碼表示法的原因是，當(dāng)獨(dú)熱編碼表示法中的詞匯量太大時(shí)，文本不足會(huì)導(dǎo)致文本特征差.

對(duì)于圖像特征，使用在ImageNet集上預(yù)訓(xùn)練的19層VGGNet的第2層到最后一層的輸出[30].從VGG-19獲得的特征維度為4 096.凍結(jié)VGG網(wǎng)絡(luò)的權(quán)重，不再進(jìn)行調(diào)整.

文本特征提取子網(wǎng)絡(luò)由LSTM組成，隱藏層的尺寸大小為32，使用的完全連接層的大小為32.圖像特征提取子網(wǎng)絡(luò)在VGG網(wǎng)絡(luò)后由大小為1 024和32的2個(gè)完全連接層組成.最終的謠言檢測(cè)器有2個(gè)完全連接層，大小分別為64和32.

在整個(gè)網(wǎng)絡(luò)的訓(xùn)練中，我們使用128個(gè)實(shí)例的批處理大小.該模型訓(xùn)練了300個(gè)epoch，模型學(xué)習(xí)率為10-5，并使用了早停法.為了防止過(guò)度擬合，本文在模型的權(quán)重上使用L2正則.為了模型尋找最優(yōu)參數(shù)，使用Adam[31]作為優(yōu)化器.

3.3 有效性和先進(jìn)性實(shí)驗(yàn)

為了驗(yàn)證本文所提出的多模態(tài)謠言檢測(cè)模型MSRD的性能，本文在比對(duì)實(shí)驗(yàn)中選擇了單文本檢測(cè)方法Textual、單圖像檢測(cè)方法Visual、圖像加圖像中文字檢測(cè)方法TVisual和3種較新的謠言檢測(cè)方法.其中，Textual，Visual和TVisual這3種方法分別為本文所提出網(wǎng)絡(luò)模型MSRD的子網(wǎng)絡(luò)，結(jié)構(gòu)不再贅述.下面介紹3種較新的用于對(duì)比實(shí)驗(yàn)的謠言檢測(cè)方法.

1) VQA[18].VQA模型旨在回答有關(guān)給定圖像的問(wèn)題.本文將最初為多分類(lèi)任務(wù)設(shè)計(jì)的Visual QA模型適應(yīng)了我們的二分類(lèi)任務(wù).本文通過(guò)用二分類(lèi)層替換最終的多分類(lèi)層來(lái)完成，使用一層LSTM，隱藏單元數(shù)設(shè)置為32.

2) att-RNN[19].att-RNN使用注意力機(jī)制來(lái)組合文本、視覺(jué)和社交上下文特征.在此端到端網(wǎng)絡(luò)中，圖像特征被合并到使用LSTM網(wǎng)絡(luò)獲得的文本和社交環(huán)境的聯(lián)合表示中.LSTM網(wǎng)絡(luò)輸出后，注意力模型是融合視覺(jué)特征必不可少的部分.為了公平比較，在本文的實(shí)驗(yàn)中刪除了處理社交環(huán)境信息的部分.

3) EANN[20].事件對(duì)抗神經(jīng)網(wǎng)絡(luò)(EANN)由3個(gè)主要組件組成：多模式特征提取器、假新聞檢測(cè)器和事件鑒別器.多模式特征提取器從帖子中提取文本和視覺(jué)特征.它與假新聞檢測(cè)器一起使用，事件鑒別器負(fù)責(zé)刪除任何特定于事件的功能.還可以?xún)H使用2個(gè)組件(多模式特征提取器和假新聞檢測(cè)器)來(lái)檢測(cè)假新聞.因此，為了公平比較，在實(shí)驗(yàn)中使用EANN的變體，其中不包含事件鑒別器.

4 實(shí)驗(yàn)結(jié)果與分析

表1匯總了2個(gè)數(shù)據(jù)集的基線(xiàn)以及MSRD方法的結(jié)果.可以清楚地看到，MSRD的性能要優(yōu)于基線(xiàn)方法.

Table1 Comparison of Experimental Results Between MSRD Model and Other Methods

在Twitter數(shù)據(jù)集上，單獨(dú)檢測(cè)圖像判斷謠言效果要優(yōu)于單獨(dú)檢測(cè)文本，而檢測(cè)圖像及圖像中的文本的效果略高于單獨(dú)檢測(cè)圖像，這說(shuō)明挖掘圖像中文本信息是具有一定意義的，這可能會(huì)給整體的謠言檢測(cè)器的準(zhǔn)確率帶來(lái)提升.在已有多模態(tài)謠言檢測(cè)模型中，att-RNN模型優(yōu)于EANN，其表明注意力機(jī)制可以通過(guò)考慮與文本相關(guān)的圖像部分來(lái)幫助改善模型的性能.本文提出的MSRD模型更好地融合了文本與圖像特征，使謠言檢測(cè)結(jié)果優(yōu)于基線(xiàn)模型，將準(zhǔn)確性從66.4%提高到68.5%，并將F1分?jǐn)?shù)從67.6%增加到67.8%.

在微博數(shù)據(jù)集上，由表1的結(jié)果中可以看到相似的趨勢(shì).多模態(tài)模型EANN和att-RNN的性能要優(yōu)于單模態(tài)模型和VQA.MSRD模型的性能要優(yōu)于所有基準(zhǔn)，并且將準(zhǔn)確性從78.2%提高到79.4%,并且與以前的最佳基準(zhǔn)相比，F(xiàn)1分?jǐn)?shù)從75.6%提高到77.9%.這驗(yàn)證了MSRD方法在檢測(cè)社交媒體上的多模態(tài)網(wǎng)絡(luò)謠言方面的有效性、先進(jìn)性和魯棒性.

5 總結(jié)與展望

本文提出了一種融合文本信息、圖像信息以及圖像中的文本信息的謠言檢測(cè)模型MSRD，該模型采用密集連接網(wǎng)絡(luò)和空洞空間金字塔池化方法對(duì)圖像文本進(jìn)行定位，采用共享特征方法將文本特征與圖像特征進(jìn)行了較好地融合表示用于謠言檢測(cè).在Twitter和微博兩大數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證，實(shí)驗(yàn)結(jié)果表明：挖掘圖像中的文本信息對(duì)謠言檢測(cè)具有一定的作用，MSRD模型要優(yōu)于基線(xiàn)模型.在未來(lái)的研究中，我們應(yīng)考慮謠言信息傳播過(guò)程中的機(jī)制以及用戶(hù)特征信息等問(wèn)題.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡