劉金碩 馮 闊 Jeff Z. Pan 鄧 娟 王麗娜
1(空天信息安全與可信計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,武漢大學(xué)國(guó)家網(wǎng)絡(luò)安全學(xué)院 武漢 430072)
2(阿伯丁大學(xué) 蘇格蘭阿伯丁 AB24 3FX)(liujinshuo@whu.edu.cn)
網(wǎng)絡(luò)謠言因受眾廣大、易于傳播等特點(diǎn),能夠輕易煽動(dòng)群眾焦慮、恐慌等情緒,引發(fā)各類(lèi)群體性事件,嚴(yán)重危害社會(huì)治安.在互聯(lián)網(wǎng)時(shí)代,迅速普及的各類(lèi)社交媒體平臺(tái)成為了謠言滋生和傳播的溫床.為了博取關(guān)注、引導(dǎo)轉(zhuǎn)發(fā),網(wǎng)絡(luò)謠言逐步由單純的文本向圖像與文本信息聯(lián)合等多模態(tài)謠言轉(zhuǎn)型.由于圖像比文本更具有欺騙性,且其來(lái)源和真實(shí)性難以考證,因此圖文聯(lián)合的網(wǎng)絡(luò)謠言更具危害性.因此,準(zhǔn)確及時(shí)地針對(duì)圖文聯(lián)合的多模態(tài)網(wǎng)絡(luò)謠言進(jìn)行檢測(cè)有利于維護(hù)社交平臺(tái)輿情穩(wěn)定、捍衛(wèi)國(guó)家網(wǎng)絡(luò)話(huà)語(yǔ)權(quán)和保證社會(huì)秩序平穩(wěn)發(fā)展,具有十分重要的現(xiàn)實(shí)意義.
目前針對(duì)網(wǎng)絡(luò)謠言的圖像內(nèi)容進(jìn)行理解從而判別謠言的方法較為少見(jiàn),已有的工作集中于識(shí)別謠言中的文本內(nèi)容.其中一部分工作[1-3]采用以文本內(nèi)容和用戶(hù)信息為主要特征的基于特征構(gòu)造檢測(cè)的方法,另一部分工作[4-5]以傳播時(shí)間、傳播結(jié)構(gòu)、語(yǔ)言特征等方面因素作為考量,提出基于傳播結(jié)構(gòu)檢測(cè)法以及時(shí)間序列檢測(cè)法.僅有少部分工作[6-7]考慮了圖像信息,利用深度神經(jīng)網(wǎng)絡(luò)提取圖像特征,并聯(lián)合文本特征進(jìn)行謠言判別.然而這些工作忽略了圖像內(nèi)嵌文本的處理,如圖1所示.該謠言信息包含消息文本、圖像和圖像內(nèi)嵌文本3部分.圖像中的文本信息往往由謠言傳播者人為添加,用于增加謠言的可信度.目前的謠言檢測(cè)工作中缺乏對(duì)圖像內(nèi)嵌文本信息的挖掘,該部分對(duì)謠言判別具有重要意義.然而如何有效定位圖像內(nèi)嵌文本區(qū)域,并對(duì)其文本內(nèi)容進(jìn)行識(shí)別成為主要挑戰(zhàn).另外,如何有效融合文本特征與圖像特征進(jìn)行謠言檢測(cè)成為另一挑戰(zhàn).
Fig. 1 Multi-modal Web rumor
為了解決以上問(wèn)題,本文提出了一種端到端的多模態(tài)融合網(wǎng)絡(luò)謠言檢測(cè)方法.該方法融合了消息文本特征、圖像內(nèi)嵌文本特征以及圖像內(nèi)容特征,通過(guò)謠言檢測(cè)器進(jìn)行謠言判別.
概括來(lái)說(shuō),本文的主要貢獻(xiàn)有3個(gè)方面:
1) 提出了一個(gè)聯(lián)合消息文本信息以及圖像內(nèi)嵌文本信息與圖像信息的多模態(tài)謠言檢測(cè)模型MSRD;
2) 提出了一種基于密集連接網(wǎng)絡(luò)和空洞空間金字塔池化模型的圖像文本定位方法;
3) 提出了一種融合文本特征與圖像特征的共享特征表示方法.
目前國(guó)內(nèi)外學(xué)者對(duì)圖像內(nèi)嵌文本定位工作的研究主要基于深度學(xué)習(xí)的方法.從技術(shù)路線(xiàn)角度主要分為2種:以連接文本提議網(wǎng)絡(luò)(connectionist text proposal network,CTPN)[8]為代表的基于區(qū)域建議的文本檢測(cè)方法,和以高效準(zhǔn)確的場(chǎng)景文本檢測(cè)器(efficient and accurate scene text detector,EAST)[9]為代表的基于圖像分割的文本檢測(cè)方法.CTPN框架的缺點(diǎn)在于對(duì)非水平排列的文本區(qū)域定位效果不佳;EAST檢測(cè)器的缺點(diǎn)在于網(wǎng)絡(luò)的感受野不夠充足,導(dǎo)致對(duì)長(zhǎng)文本區(qū)域定位效果不佳.以上工作為本文圖像文本定位提供了新思路.
不同于文本定位的粗略二分類(lèi)任務(wù),圖像文本識(shí)別任務(wù)需要進(jìn)行更精確的分類(lèi).2016年牛津大學(xué)視覺(jué)幾何組團(tuán)隊(duì)發(fā)表文獻(xiàn)[10],使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)率先在場(chǎng)景文本識(shí)別領(lǐng)域取得領(lǐng)先地位.2017年文獻(xiàn)[11]提出了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(convolutional recurrent neural network, CRNN)的文本檢測(cè)框架,使用CNN提取圖像特征,使用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory, BLSTM)提取序列信息,通過(guò)對(duì)特征編碼輸出預(yù)測(cè)結(jié)果,是2017年文本檢測(cè)結(jié)果最好的端到端模型之一.2018年眾多研究者對(duì)已有模型的改進(jìn)集中在應(yīng)對(duì)任意方向排列的文本檢測(cè)上,文獻(xiàn)[12]提出了快速定向的文本識(shí)別系統(tǒng)(fast oriented text spotting, FOTS),文獻(xiàn)[13]將“Textboxes”擴(kuò)展成為“Textboxes++”以應(yīng)對(duì)任意方向的文本區(qū)域.綜上,目前基于深度學(xué)習(xí)的文本字符識(shí)別方法通用模式是使用CNN獲取圖像特征,使用LSTM獲取序列特征,最后使用時(shí)序分類(lèi)算法(connectionist temporal classification, CTC)輸出識(shí)別結(jié)果.
已有的謠言檢測(cè)工作從3個(gè)方面設(shè)計(jì)謠言檢測(cè)模型:1)以文本內(nèi)容和用戶(hù)信息為主要特征的基于特征構(gòu)造檢測(cè)模型[1-3];2)以傳播路徑和傳播節(jié)點(diǎn)為主要特征的基于傳播結(jié)構(gòu)檢測(cè)模型;3)以文本信息隨時(shí)間變化的統(tǒng)計(jì)特征為主要特征的基于時(shí)間序列檢測(cè)模型[4-5].特征構(gòu)造檢測(cè)模型是謠言檢測(cè)工作中應(yīng)用最為廣泛的典型模型.文獻(xiàn)[1]提出了一種通過(guò)提取博文內(nèi)容標(biāo)簽信息、外鏈信息和互相提及信息為主要特征的Twitter上誤導(dǎo)性博文檢測(cè)算法.文獻(xiàn)[2]通過(guò)組合內(nèi)容文本流行度、文本情感極性、用戶(hù)影響力和博文轉(zhuǎn)發(fā)率等特征構(gòu)造微博謠言文本深層次特征來(lái)檢測(cè)謠言.文獻(xiàn)[3]基于博文文本內(nèi)容的關(guān)鍵詞匯來(lái)建立謠言檢測(cè)模型.除特征構(gòu)造檢測(cè)模型之外,文獻(xiàn)[4]認(rèn)為謠言文本和非謠言文本在時(shí)間序列上變化的模式不同,并利用統(tǒng)計(jì)特征及特征在檢測(cè)區(qū)間上的斜率變化等因素組成特征向量來(lái)檢測(cè)謠言.文獻(xiàn)[5]認(rèn)為T(mén)witter上謠言傳播關(guān)鍵結(jié)構(gòu)和語(yǔ)言差異的波動(dòng)具有周期性,以傳播時(shí)間、傳播結(jié)構(gòu)和語(yǔ)言特征3方面因素作為特征考量,建立周期時(shí)間序列模型用以識(shí)別謠言.
除了謠言文本信息,圖像特征在謠言檢測(cè)中起著非常重要的作用[14],文獻(xiàn)[15]嘗試提取圖像的基本特征進(jìn)行謠言檢測(cè),但是,手工提取的特征難以表示圖像內(nèi)信息的復(fù)雜分布.
與傳統(tǒng)的特征工程相比,深度神經(jīng)網(wǎng)絡(luò)已被廣泛應(yīng)用于學(xué)習(xí)圖像和文本的特征表示,并成功應(yīng)用于各種工作,包括圖像字幕[16-17]、多模態(tài)問(wèn)題解答[18]和謠言檢測(cè)[19-20]等.具體來(lái)說(shuō),卷積神經(jīng)網(wǎng)絡(luò)(CNN)廣泛應(yīng)用于圖像的特征表示中[14-15],而遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)在編碼文本信息中發(fā)揮強(qiáng)大的作用[21-22].文獻(xiàn)[23]提出利用自編碼器模型進(jìn)行多模態(tài)網(wǎng)絡(luò)謠言檢測(cè).文獻(xiàn)[19]提出利用注意力模型來(lái)聯(lián)合多模態(tài)特征進(jìn)行謠言檢測(cè).然而,較少有工作考慮到圖像中內(nèi)嵌文本的特征提取問(wèn)題,以及如何更加精確地聯(lián)合文本與圖像的多模態(tài)特征來(lái)進(jìn)行謠言檢測(cè).
多模態(tài)網(wǎng)絡(luò)謠言檢測(cè)模型MSRD的總體框架示意圖如圖2所示:
Fig. 2 Overall framework of the multimodal web rumor detection method
謠言消息中的圖像文本定位檢測(cè)與自然場(chǎng)景圖像中的文本定位檢測(cè)工作是類(lèi)似的,本文在文獻(xiàn)[9]工作的基礎(chǔ)上,提出了一種基于圖像語(yǔ)義分割思想的文本定位檢測(cè)方法,通過(guò)密集連接卷積網(wǎng)絡(luò)(densely connected convolutional networks, DenseNet)DenseNet-121提取特征,在不同的層級(jí)上抽取特征圖(feature map),并且在特定尺度上引入空洞空間金字塔池化層(atrous spatial pyramid pooling, ASPP)擴(kuò)大模型的感受野,然后從網(wǎng)絡(luò)的頂部向下合并特征圖,最終在輸出層輸出當(dāng)前像素對(duì)應(yīng)于原圖中像素為文字的概率值.如果當(dāng)前像素屬于文字區(qū)域,輸出該像素相對(duì)文本框4個(gè)頂點(diǎn)的坐標(biāo)偏移值,最后通過(guò)非極大值抑制(non-maximum suppression)算法得到最終的文本框.圖3表示了本文所用的圖像文本定位檢測(cè)算法結(jié)構(gòu)及流程圖.
Fig. 3 Image text positioning algorithm structure and flow
2.1.1 空洞空間金字塔池化層的實(shí)現(xiàn)
ASPP通過(guò)并行采用卷積核皆為3×3大小的同尺度、不同間距的多個(gè)濾波器來(lái)感知多尺度的視野,從而提取Feature Map上的多尺度特征.然后,將這些并行提取的特征通過(guò)使用concat操作串聯(lián)起來(lái),再通過(guò)1×1的卷積操作融合成指定深度Feature Map輸出,這樣就實(shí)現(xiàn)了在不改變輸入數(shù)據(jù)體的尺寸規(guī)模的前提下,擴(kuò)大了該網(wǎng)絡(luò)層的感受野.
2.1.2 特征圖合并策略
謠言消息中圖像的文本區(qū)域大小不固定,需要同時(shí)兼顧神經(jīng)網(wǎng)絡(luò)模型的高層特征和低層特征,才能同時(shí)對(duì)不同尺寸的文本區(qū)域?qū)崿F(xiàn)定位,因此需要將不同層級(jí)的Feature Map進(jìn)行融合.
由圖3可知,經(jīng)過(guò)ASPP層輸出的Feature Map尺寸比為1∶16,由于在ASPP層已經(jīng)經(jīng)過(guò)concat操作,所以先使用1×1的卷積將Feature Map深度降維至128,再使用3×3的卷積融合該層Feature Map中的特征.
卷積操作完成后使用反池化操作,使該層Feature Map的寬度和高度值與Transition Layer(1)的輸出數(shù)據(jù)體相匹配,并對(duì)這二者使用concat操作得到尺寸比為1∶8的Feature Map.
在尺寸比為1∶8的Feature Map中,先使用1×1的卷積將深度降維至64,再使用3×3的卷積融合特征后,經(jīng)過(guò)反池化操作并與主干網(wǎng)絡(luò)第一個(gè)Pooling層的輸出concat串聯(lián)起來(lái)得到1∶4的Feature Map.
最后將1∶4的Feature Map使用1×1的卷積將深度降維至32,并使用3×3的卷積得到深度為32的最終輸出層.最終輸出層的尺寸與原圖像的尺寸比也為1∶4.
本節(jié)進(jìn)行的文本識(shí)別任務(wù)在2.1節(jié)圖像文字定位的基礎(chǔ)上完成,即通過(guò)上節(jié)對(duì)圖像中文字區(qū)域的檢測(cè),截取原圖像中含有文本的區(qū)域,輸入給本節(jié)提出的文本識(shí)別模型.與其他的基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的文本識(shí)別模型不同,由于已經(jīng)完成了文本區(qū)域的定位檢測(cè)工作,因此只需關(guān)注識(shí)別任務(wù).由于截取的文本區(qū)域中文本信息為主體部分,本文認(rèn)為密集連接網(wǎng)絡(luò)由于各隱藏層密集互聯(lián)的特性,能夠較好地完成全局特征的感知,不需要額外使用循環(huán)神經(jīng)網(wǎng)絡(luò)以兼顧文字序列前后信息.因此設(shè)計(jì)了本節(jié)基于密集連接網(wǎng)絡(luò)的文本識(shí)別模型.
模型如圖4所示.本節(jié)使用精簡(jiǎn)的密集連接網(wǎng)絡(luò),在DenseNet-121的基礎(chǔ)上,去掉了第4個(gè)稠密塊(dense block)以及最后的全局平均池化層,目的是盡可能保留中文漢字在垂直方向的筆畫(huà)信息.由全連接層輸出預(yù)測(cè)結(jié)果,將文本的識(shí)別任務(wù)視作分類(lèi)任務(wù),其類(lèi)別數(shù)目等于預(yù)先構(gòu)建的字典中字符數(shù)目.字典中字符經(jīng)過(guò)排列預(yù)先編號(hào),全連接層輸出文字所屬各類(lèi)別的概率,通過(guò)softmax激活函數(shù)歸一化后輸出概率最大的類(lèi)別編號(hào),查閱字典即可得到預(yù)測(cè)的文本信息.由于CTC算法引入了空白標(biāo)簽,可以解決沒(méi)有事先對(duì)齊的序列化數(shù)據(jù)訓(xùn)練問(wèn)題,因此可加在密集連接網(wǎng)絡(luò)后,對(duì)不定長(zhǎng)的文本區(qū)域進(jìn)行預(yù)測(cè)識(shí)別.
Fig. 4 Text recognition model
本文使用帶有長(zhǎng)短期記憶(long short-term memory, LSTM)單元的RNN來(lái)學(xué)習(xí)提出的模型中消息文本和圖像中文本的聯(lián)合表示.RNN是一種前饋神經(jīng)網(wǎng)絡(luò),可用于對(duì)長(zhǎng)度可變的順序信息進(jìn)行建模.給定輸入序列(x1,x2,…,xM),基本的RNN模型更新隱藏狀態(tài)(h1,h2,…,hM)并生成輸出向量(y1,y2,…,yM).M取決于輸入的長(zhǎng)度.當(dāng)前的隱藏狀態(tài)是使用循環(huán)單元計(jì)算的,循環(huán)單元采用最后的隱藏狀態(tài)和當(dāng)前的輸入以產(chǎn)生當(dāng)前的隱藏狀態(tài).
為了在學(xué)習(xí)長(zhǎng)距離時(shí)間相關(guān)性時(shí)處理梯度的消失或爆炸問(wèn)題[24-25],LSTM通過(guò)將信息長(zhǎng)時(shí)間存儲(chǔ)在精心設(shè)計(jì)的存儲(chǔ)單元中來(lái)擴(kuò)展基本RNN.具體而言,LSTM中的讀寫(xiě)存儲(chǔ)單元c由一組sigmoid門(mén)控制:輸入門(mén)i、輸出門(mén)o和遺忘門(mén)f.對(duì)于每個(gè)時(shí)間步長(zhǎng)m,LSTM單元從當(dāng)前輸入xm,先前的隱藏狀態(tài)hm和先前的存儲(chǔ)單元cm接收輸入.這些門(mén)的更新為[26-27]:
im=σ(Wxixm+Whihm-1+bi),
(1)
fm=σ(Wxfxm+Whfhm-1+bf),
(2)
om=σ(Wxoxm+Whohm-1+bo),
(3)
gm=φ(Wxcxm+Whchm-1+bc),
(4)
cm=fm⊙cm-1+im⊙gm,
(5)
hm=om⊙φ(ct),
(6)
其中,W*是對(duì)應(yīng)門(mén)的權(quán)重矩陣,b*是偏差項(xiàng),可以從網(wǎng)絡(luò)中獲知.σ是sigmoid激活函數(shù),σ(x)=1(1+exp(-x));φ是雙曲正切函數(shù),φ(x)=(exp(x)-exp(-x))(exp(x)+exp(-x)).⊙表示2個(gè)向量之間的逐元素乘法. 輸入門(mén)i決定將新存儲(chǔ)器添加到存儲(chǔ)單元的程度.遺忘門(mén)f確定遺忘現(xiàn)有存儲(chǔ)器的程度.通過(guò)忘記一部分現(xiàn)有存儲(chǔ)器并添加新的存儲(chǔ)器g來(lái)更新存儲(chǔ)器單元c.
文本內(nèi)容是消息中包含單詞的集合:T={T1,T2,…,Tn}(n是文本中單詞的數(shù)量).文本中的每個(gè)單詞Tj∈T都表示為單詞嵌入向量.每個(gè)單詞的嵌入向量都是通過(guò)Word Embedding獲得的,該網(wǎng)絡(luò)在給定的數(shù)據(jù)集上進(jìn)行了無(wú)監(jiān)督預(yù)訓(xùn)練.
傳統(tǒng)的多模態(tài)謠言檢測(cè)往往只單獨(dú)提取文本與圖像特征,忽略了圖像中的內(nèi)嵌文本,本文認(rèn)為該文本對(duì)謠言檢測(cè)有一定的作用,因此本文通過(guò)2.1~2.2節(jié)中提到的圖像文本定位與識(shí)別方法將圖像中內(nèi)嵌文本提取出來(lái),同樣采用Word Embedding形成初始的圖像文本表示RE=(p1,p2,…,pk)T(k是圖像文本中單詞的數(shù)量).圖像文本特征RE通過(guò)圖2所示的ET-FC全連接層轉(zhuǎn)換為與配文文本向量相同維度的表示形式:
(7)
視覺(jué)子網(wǎng)絡(luò)(圖2的上部分支)采用圖像作為輸入,并構(gòu)造視覺(jué)神經(jīng)元提取圖像特征.該網(wǎng)絡(luò)前面部分采用和VGG-19網(wǎng)絡(luò)相同的結(jié)構(gòu),并添加2個(gè)全連接層,將每個(gè)圖像表示為RV=(v1,v2,…,v32)T,共同訓(xùn)練整個(gè)謠言檢測(cè)網(wǎng)絡(luò),挖掘消息圖像中的視覺(jué)信息.其中視覺(jué)子網(wǎng)絡(luò)VGG-19可以首先通過(guò)ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,但是,在與LSTM子網(wǎng)絡(luò)的聯(lián)合訓(xùn)練過(guò)程中,凍結(jié)VGG網(wǎng)絡(luò)的參數(shù),只有最后的2個(gè)完全連接層的參數(shù)會(huì)更新,以提高訓(xùn)練效率,防止參數(shù)爆炸.
RV=Wvf2ψ(Wvf1RVp),
(8)
其中,RVp是從預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)得到的圖像特征表示,Wvf1是具有ReLU激活函數(shù)的第1個(gè)完全連接層中的權(quán)重,Wvf2是具有softmax功能的第2個(gè)完全連接層中的權(quán)重,ψ表示ReLU激活函數(shù).
在模型中直接使用圖像特征與文本-圖像文本特征進(jìn)行訓(xùn)練的問(wèn)題是:其中一種特征表示可能會(huì)壓制另一種特征表示,這樣便無(wú)法發(fā)揮多模態(tài)的融合作用,因此,在下面的部分,介紹一種特征的共享表示,以更好地融合文本與圖像特征的聯(lián)合表示.
將聯(lián)合文本特征表示RTE和圖像特征表示RV串接起來(lái),通過(guò)圖2中的完全連接層Latent-FC,從中獲得2個(gè)向量μ和σ,它們可以分別視為共享表示的分布的均值和方差,從高斯分布中采樣隨機(jī)變量ε.用Rm表示最終重新參數(shù)化的多模態(tài)特征:
Rm=μ+σ°ε.
(9)
本文將整個(gè)特征提取網(wǎng)絡(luò)表示為Gfr(m,θf(wàn)r),其中θf(wàn)r表示特征提取網(wǎng)絡(luò)中所有學(xué)習(xí)的參數(shù),用m表示消息集合中一條待判別的消息,則:
Rm=Gfr(m,θf(wàn)r).
(10)
謠言檢測(cè)器將圖像與文本特征的共享表示特征Rm作為輸入,用來(lái)判別消息是否為謠言.它由具有激活函數(shù)的多個(gè)完全連接層組成,我們將謠言檢測(cè)器表示為Grd(Rm,θrd),其中θrd表示謠言檢測(cè)器中所有的參數(shù),謠言檢測(cè)器的輸出是該消息是謠言的概率.
(11)
(12)
(13)
本節(jié),首先介紹了實(shí)驗(yàn)中所用到的2種數(shù)據(jù)集;然后介紹了實(shí)驗(yàn)中網(wǎng)絡(luò)模型的參數(shù)設(shè)置;最后,為了驗(yàn)證MSRD方法可行性和先進(jìn)性,設(shè)計(jì)的實(shí)驗(yàn)包括:?jiǎn)挝谋緳z測(cè)方法Textual、單圖像檢測(cè)方法Visual、圖像加圖像中文字檢測(cè)方法TVisual和當(dāng)前的謠言檢測(cè)方法對(duì)比的實(shí)驗(yàn).
鑒于結(jié)構(gòu)化多媒體數(shù)據(jù)的稀疏可用性,本文利用2個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)評(píng)估我們用于謠言檢測(cè)的網(wǎng)絡(luò)模型MSRD.這2個(gè)數(shù)據(jù)集包括從Twitter和微博收集的真實(shí)社交媒體信息.這些是僅有的具有成對(duì)的圖像和文本信息的數(shù)據(jù)集.
3.1.1 Twitter數(shù)據(jù)集
作為MediaEval[21]的一部分,該數(shù)據(jù)集分為2部分:開(kāi)發(fā)集(9 000條謠言tweet,6 000條真實(shí)消息tweet)和測(cè)試集(2 000條tweet).考慮到本文只關(guān)心圖像和文本信息,本文會(huì)過(guò)濾掉所有帶有視頻的推文.本文將開(kāi)發(fā)集用于訓(xùn)練,將測(cè)試集用于測(cè)試,以保持與基準(zhǔn)相同的數(shù)據(jù)拆分方案.
3.1.2 微博數(shù)據(jù)集
在文獻(xiàn)[19]中用于謠言檢測(cè)的微博數(shù)據(jù)集包括從中國(guó)權(quán)威新聞來(lái)源新華社和中國(guó)網(wǎng)站微博收集的數(shù)據(jù).數(shù)據(jù)集的使用及預(yù)處理類(lèi)似于文獻(xiàn)[19]的方法進(jìn)行.初步步驟包括刪除重復(fù)圖像和低質(zhì)量圖像,以確保整個(gè)數(shù)據(jù)集的均勻性.然后,將數(shù)據(jù)集分成訓(xùn)練集和測(cè)試集,如Jin等人所述,數(shù)據(jù)比例約為4∶1[19].
對(duì)于文本特征,采用基于神經(jīng)網(wǎng)絡(luò)的分布式表示[29].對(duì)于這2個(gè)數(shù)據(jù)集,在標(biāo)準(zhǔn)文本預(yù)處理之后,使用默認(rèn)參數(shù)設(shè)置,以無(wú)監(jiān)督的方式對(duì)整個(gè)數(shù)據(jù)集進(jìn)行Word2Vec模型的預(yù)訓(xùn)練.將數(shù)據(jù)集中的每個(gè)單詞轉(zhuǎn)化為32維嵌入向量.選擇詞嵌入表示而不是獨(dú)熱編碼表示法的原因是,當(dāng)獨(dú)熱編碼表示法中的詞匯量太大時(shí),文本不足會(huì)導(dǎo)致文本特征差.
對(duì)于圖像特征,使用在ImageNet集上預(yù)訓(xùn)練的19層VGGNet的第2層到最后一層的輸出[30].從VGG-19獲得的特征維度為4 096.凍結(jié)VGG網(wǎng)絡(luò)的權(quán)重,不再進(jìn)行調(diào)整.
文本特征提取子網(wǎng)絡(luò)由LSTM組成,隱藏層的尺寸大小為32,使用的完全連接層的大小為32.圖像特征提取子網(wǎng)絡(luò)在VGG網(wǎng)絡(luò)后由大小為1 024和32的2個(gè)完全連接層組成.最終的謠言檢測(cè)器有2個(gè)完全連接層,大小分別為64和32.
在整個(gè)網(wǎng)絡(luò)的訓(xùn)練中,我們使用128個(gè)實(shí)例的批處理大小.該模型訓(xùn)練了300個(gè)epoch,模型學(xué)習(xí)率為10-5,并使用了早停法.為了防止過(guò)度擬合,本文在模型的權(quán)重上使用L2正則.為了模型尋找最優(yōu)參數(shù),使用Adam[31]作為優(yōu)化器.
為了驗(yàn)證本文所提出的多模態(tài)謠言檢測(cè)模型MSRD的性能,本文在比對(duì)實(shí)驗(yàn)中選擇了單文本檢測(cè)方法Textual、單圖像檢測(cè)方法Visual、圖像加圖像中文字檢測(cè)方法TVisual和3種較新的謠言檢測(cè)方法.其中,Textual,Visual和TVisual這3種方法分別為本文所提出網(wǎng)絡(luò)模型MSRD的子網(wǎng)絡(luò),結(jié)構(gòu)不再贅述.下面介紹3種較新的用于對(duì)比實(shí)驗(yàn)的謠言檢測(cè)方法.
1) VQA[18].VQA模型旨在回答有關(guān)給定圖像的問(wèn)題.本文將最初為多分類(lèi)任務(wù)設(shè)計(jì)的Visual QA模型適應(yīng)了我們的二分類(lèi)任務(wù).本文通過(guò)用二分類(lèi)層替換最終的多分類(lèi)層來(lái)完成,使用一層LSTM,隱藏單元數(shù)設(shè)置為32.
2) att-RNN[19].att-RNN使用注意力機(jī)制來(lái)組合文本、視覺(jué)和社交上下文特征.在此端到端網(wǎng)絡(luò)中,圖像特征被合并到使用LSTM網(wǎng)絡(luò)獲得的文本和社交環(huán)境的聯(lián)合表示中.LSTM網(wǎng)絡(luò)輸出后,注意力模型是融合視覺(jué)特征必不可少的部分.為了公平比較,在本文的實(shí)驗(yàn)中刪除了處理社交環(huán)境信息的部分.
3) EANN[20].事件對(duì)抗神經(jīng)網(wǎng)絡(luò)(EANN)由3個(gè)主要組件組成:多模式特征提取器、假新聞檢測(cè)器和事件鑒別器.多模式特征提取器從帖子中提取文本和視覺(jué)特征.它與假新聞檢測(cè)器一起使用,事件鑒別器負(fù)責(zé)刪除任何特定于事件的功能.還可以?xún)H使用2個(gè)組件(多模式特征提取器和假新聞檢測(cè)器)來(lái)檢測(cè)假新聞.因此,為了公平比較,在實(shí)驗(yàn)中使用EANN的變體,其中不包含事件鑒別器.
表1匯總了2個(gè)數(shù)據(jù)集的基線(xiàn)以及MSRD方法的結(jié)果.可以清楚地看到,MSRD的性能要優(yōu)于基線(xiàn)方法.
Table1 Comparison of Experimental Results Between MSRD Model and Other Methods
在Twitter數(shù)據(jù)集上,單獨(dú)檢測(cè)圖像判斷謠言效果要優(yōu)于單獨(dú)檢測(cè)文本,而檢測(cè)圖像及圖像中的文本的效果略高于單獨(dú)檢測(cè)圖像,這說(shuō)明挖掘圖像中文本信息是具有一定意義的,這可能會(huì)給整體的謠言檢測(cè)器的準(zhǔn)確率帶來(lái)提升.在已有多模態(tài)謠言檢測(cè)模型中,att-RNN模型優(yōu)于EANN,其表明注意力機(jī)制可以通過(guò)考慮與文本相關(guān)的圖像部分來(lái)幫助改善模型的性能.本文提出的MSRD模型更好地融合了文本與圖像特征,使謠言檢測(cè)結(jié)果優(yōu)于基線(xiàn)模型,將準(zhǔn)確性從66.4%提高到68.5%,并將F1分?jǐn)?shù)從67.6%增加到67.8%.
在微博數(shù)據(jù)集上,由表1的結(jié)果中可以看到相似的趨勢(shì).多模態(tài)模型EANN和att-RNN的性能要優(yōu)于單模態(tài)模型和VQA.MSRD模型的性能要優(yōu)于所有基準(zhǔn),并且將準(zhǔn)確性從78.2%提高到79.4%,并且與以前的最佳基準(zhǔn)相比,F(xiàn)1分?jǐn)?shù)從75.6%提高到77.9%.這驗(yàn)證了MSRD方法在檢測(cè)社交媒體上的多模態(tài)網(wǎng)絡(luò)謠言方面的有效性、先進(jìn)性和魯棒性.
本文提出了一種融合文本信息、圖像信息以及圖像中的文本信息的謠言檢測(cè)模型MSRD,該模型采用密集連接網(wǎng)絡(luò)和空洞空間金字塔池化方法對(duì)圖像文本進(jìn)行定位,采用共享特征方法將文本特征與圖像特征進(jìn)行了較好地融合表示用于謠言檢測(cè).在Twitter和微博兩大數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明:挖掘圖像中的文本信息對(duì)謠言檢測(cè)具有一定的作用,MSRD模型要優(yōu)于基線(xiàn)模型.在未來(lái)的研究中,我們應(yīng)考慮謠言信息傳播過(guò)程中的機(jī)制以及用戶(hù)特征信息等問(wèn)題.