梅 欣,繆梓敬
(華南師范大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510631)
近年來(lái),世界各地遭受一系列重大災(zāi)害,包括地震、颶風(fēng)、火災(zāi)和洪水。這些災(zāi)害給全世界的人民帶來(lái)極大的損失,不僅是對(duì)個(gè)人的生命財(cái)產(chǎn),也給國(guó)家?guī)?lái)巨大的經(jīng)濟(jì)損失。這些災(zāi)害信息以文本、圖像等多模態(tài)在各個(gè)社交媒體平臺(tái)進(jìn)行傳播[1]。相比傳統(tǒng)對(duì)于單文本[2]和單圖像[3]模態(tài)信息進(jìn)行分析,多模態(tài)有以下優(yōu)勢(shì):1)數(shù)據(jù)量相對(duì)不多時(shí),多模態(tài)可以聚合多源數(shù)據(jù)的信息,讓模型學(xué)習(xí)到的特征更完整。2)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí),模態(tài)種類越完整,模型的內(nèi)在復(fù)雜度會(huì)降低,從而提高模型的學(xué)習(xí)效果[4]。因此對(duì)這些平臺(tái)中的災(zāi)害信息進(jìn)行融合[5]就勢(shì)在必行。
多模態(tài)的融合方法,主要分為早期融合(數(shù)量級(jí)融合)、中期融合(特征融合)、晚期融合(決策融合)3個(gè)層次[6]。早期融合是將原始的多模態(tài)信息進(jìn)行融合,然后作為輸入求解下游問題,缺點(diǎn)是過(guò)早融合,導(dǎo)致不能找出不同數(shù)據(jù)流之間的相關(guān)性,且存在數(shù)據(jù)冗余的問題[7]。晚期融合是先對(duì)不同模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練求得相應(yīng)的決策結(jié)果,再融合多個(gè)結(jié)果得到最終的結(jié)果,其優(yōu)點(diǎn)是各個(gè)模型相對(duì)獨(dú)立,具有良好的容錯(cuò)性,缺點(diǎn)是需要根據(jù)不同場(chǎng)景調(diào)整決策融合方式[8]。中期融合是將不同模態(tài)數(shù)據(jù)的特征提取出來(lái),在統(tǒng)一的特征空間進(jìn)行融合,再將融合的特征用于求解下游問題,其優(yōu)點(diǎn)是結(jié)果精度更高、前景更廣,缺點(diǎn)是特征的抽取存在難度。目前多模態(tài)融合主要集中在中期融合方法研究中。融合方式主要有以下3種:
1)特征線性融合[9]。線性融合是直接將文本和圖像的特征向量進(jìn)行拼接或者加權(quán)求和,其優(yōu)點(diǎn)是操作簡(jiǎn)單,缺點(diǎn)是難以應(yīng)對(duì)復(fù)雜情況。文獻(xiàn)[10]中提出的文本和圖像聯(lián)合共享算法,將提取的文本特征和圖像特征連接成一個(gè)表示層,方法可移植性強(qiáng),但存在重復(fù)相同特征,容易因特征冗余而導(dǎo)致準(zhǔn)確率不高的問題。文獻(xiàn)[11]提出特征權(quán)重加權(quán)求和,但是要求預(yù)訓(xùn)練模型產(chǎn)生確定的維度以及要按一定的順序來(lái)排列,需要讓全連接層控制維度和順序,因此操作復(fù)雜。
2)基于注意力機(jī)制[12]?;谧⒁饬C(jī)制融合是將更多的“注意”關(guān)注更重要的特征,針對(duì)文本和圖像的不同特征訓(xùn)練出不同權(quán)重,并建立2個(gè)模態(tài)之間的聯(lián)系,得到帶有注意力的融合向量。文獻(xiàn)[13]中引入一個(gè)交叉注意模塊,可以從較弱的模態(tài)過(guò)濾出無(wú)信息和誤導(dǎo)性成分特征。但不同模態(tài)信息缺少明顯的交互,無(wú)法充分發(fā)揮模態(tài)信息之間的互補(bǔ)關(guān)系。
3)基于雙線性池化[14]。基于雙線性池化融合是獲得文本和圖像特征向量聯(lián)合表示空間,計(jì)算它們的外積,產(chǎn)生n2維度的表征,再線性化為一個(gè)向量表示,從而得到一個(gè)更好的表現(xiàn)力。文獻(xiàn)[15]提出基于雙線性池化的特征級(jí)融合方法,允許特征向量以一種有效的交互方式相互作用,從而表達(dá)出特征之間的內(nèi)在關(guān)系,但該方法需要對(duì)張量進(jìn)行分解,維數(shù)通常達(dá)到幾萬(wàn)到幾百萬(wàn)的數(shù)量級(jí),才能有效訓(xùn)練相關(guān)模型。
經(jīng)過(guò)以上分析,考慮特征線性融合和基于注意力機(jī)制融合的優(yōu)劣勢(shì),本文提出一種新的擁抱融合算法,在注意力機(jī)制中加入線性融合操作。該結(jié)構(gòu)的主要組成部分是對(duì)接層和擁抱層。首先對(duì)接層基于注意力融合將特定的輸入特征和其他特征進(jìn)行對(duì)比,賦予不一樣的特征權(quán)重。然后擁抱層基于多項(xiàng)抽樣[16],選擇文本和圖像的特征向量進(jìn)行融合,消除特征冗余,保留多個(gè)模態(tài)之間特征的相關(guān)性。最后將特征融合送到終端網(wǎng)絡(luò)。本文通過(guò)與當(dāng)前最新算法進(jìn)行對(duì)比實(shí)驗(yàn)來(lái)驗(yàn)證該算法的優(yōu)勢(shì),同時(shí)還驗(yàn)證了該算法對(duì)于不同文本和圖像深度學(xué)習(xí)模型的適應(yīng)性。
對(duì)于文本預(yù)訓(xùn)練,本文使用Merity等人[17]提出的AWD-LSTM(ASGD Weight-Dropped LSTM)模型對(duì)文本進(jìn)行特征提取。
首先遺忘門將2個(gè)輸入,當(dāng)前時(shí)間步的輸入xt以及上一層輸出的隱藏狀態(tài)ht-1,訓(xùn)練出一個(gè)門函數(shù),并輸出一個(gè)0到1之間的數(shù)值給每個(gè)細(xì)胞狀態(tài)Ct-1中的數(shù)字,其中0表示完全舍棄,1表示完全保留。這一步是決定丟棄什么信息。計(jì)算公式如式(1)所示。
ft=σ(Wf.[ht-1,xt]+bf)
(1)
其中,W為權(quán)值,b為偏移量,σ為sigmoid函數(shù),下同。
it=σ(Wi.[ht-1,xt]+bi)
(2)
(3)
(4)
最后通過(guò)輸出門將新的Ct通過(guò)簡(jiǎn)單的tanh函數(shù)后,與門函數(shù)的輸出相乘,得到新的隱藏狀態(tài)ht,這一步?jīng)Q定輸出什么。計(jì)算公式如式(5)與式(6)所示。
ot=σ(Wo[ht-1,xt]+bo)
(5)
ht=ottanh(Ct)
(6)
AWD-LSTM引入了正則化技術(shù),在處理過(guò)擬合的問題中,AWD-LSTM模型使用DropConnect在神經(jīng)網(wǎng)絡(luò)中對(duì)全連接層進(jìn)行正則化[18]處理,相對(duì)于Dropout[19]在計(jì)算ht時(shí)刻的某個(gè)神經(jīng)元時(shí),DropConnect[20]只會(huì)使用ht-1中部分神經(jīng)元,從而緩解過(guò)擬合。將文本送入到AWD-LSTM模型進(jìn)行特征提取,得到向量表示。其中DropConnect神經(jīng)網(wǎng)絡(luò)如圖1所示。
對(duì)于圖像預(yù)訓(xùn)練,本文利用卷積神經(jīng)網(wǎng)絡(luò)[21](Convolutional Neural Network, CNN),將圖像表示為高維特征向量,通過(guò)特征向量來(lái)表示圖像的語(yǔ)義特征。先在卷積層將圖片中的不同特征提取出來(lái),然后經(jīng)過(guò)池化層的切分,得到新的、維度較小特征,最后將所有局部特征結(jié)合變成全局特征,用于計(jì)算最后分類的得分。其中激活函數(shù)貫穿整個(gè)卷積全過(guò)程。卷積運(yùn)算如公式(7)所示。
s(t)=f((X*W)(t))
(7)
其中W為卷積核,X為圖像。
ResNet50[22]網(wǎng)絡(luò)結(jié)構(gòu)在連接多層卷積網(wǎng)絡(luò)之后,網(wǎng)絡(luò)訓(xùn)練會(huì)變得困難。此時(shí)構(gòu)建殘差學(xué)習(xí)塊,通過(guò)直連進(jìn)行恒等映射,內(nèi)部的殘差塊之間的連接方式使用了跳躍連接。這樣誤差逆?zhèn)鞑サ臅r(shí)候只需要傳播殘差部分,從而解決了梯度消失問題。利用多個(gè)殘差塊構(gòu)建的深層次網(wǎng)絡(luò),能夠提取到更豐富的信息,同時(shí)更完好保留圖像的特征信息,使接下來(lái)的特征向量融合方式變得更加靈活。跳躍連接公式如式(8)所示,殘差塊結(jié)構(gòu)如圖2所示。
H(x)=F(x)+x
(8)
其中F(x)為卷積函數(shù),H(x)為跳躍連接后的輸出。
對(duì)于多模態(tài)融合,本文希望能夠得到高準(zhǔn)確率,且操作盡可能簡(jiǎn)單。結(jié)合特征線性融合和注意力機(jī)制的優(yōu)勢(shì)和不足,本文提出擁抱融合策略,先分別從文本和圖像獲取特征向量,并進(jìn)一步通過(guò)注意力權(quán)重突出更重要的特征,然后,考慮每個(gè)模態(tài)特征之間的相關(guān)性。本文并不直接連接文本和圖像模型的特征向量,而是將處理后的特征去除特征冗余,挑選有效特征連接到擁抱層結(jié)構(gòu)中,并最終傳遞到終端網(wǎng)絡(luò)得到分類結(jié)果。同時(shí)模型在每一個(gè)模態(tài)引入多項(xiàng)抽樣的概率p,所有模態(tài)就相當(dāng)于多項(xiàng)式分布。在擁抱層通過(guò)調(diào)整概率p,可以健壯地處理丟失的數(shù)據(jù),防止正則化時(shí)過(guò)擬合。然后采用多項(xiàng)抽樣融合特征,有效地防止訓(xùn)練階段對(duì)特定模態(tài)數(shù)據(jù)的過(guò)度學(xué)習(xí),剔除冗余特征。擁抱融合如圖3所示。
首先對(duì)接層將文本和圖像提取的所有特征xi進(jìn)行對(duì)比,由softmax層來(lái)學(xué)習(xí)每個(gè)特征維度的注意權(quán)重αi,讓更重要的特征賦予更多的權(quán)重。最后將注意權(quán)重與輸入特征相乘,得到添加注意之后的特征βi。計(jì)算公式如式(9)與式(10)。
(9)
βi=αixi
(10)
其中i,j∈{1,2,…,n+m},n+m是多模態(tài)連接的特征向量總維數(shù),W是模型學(xué)習(xí)到的權(quán)值矩陣。
然后考慮融合之前不同模態(tài)有不同維度的特征,因此在融合之前需要將它們轉(zhuǎn)換成相同大小的向量。假設(shè)β(1)和β(2)分別表示為圖像和文本特征的輸出向量。對(duì)接層的第k(k=1,2)個(gè)輸入向量的表示為:
z(k)=w(k)·β(k)+b(k)
(11)
其中w(k)和b(k)分別是權(quán)重向量和偏差。然后將激活函數(shù)fa(線性整流函數(shù)ReLU)應(yīng)用于z(k),從而獲得第k個(gè)對(duì)接層輸出,如式(12)。
d(k)=fa(z(k))
(12)
ri~Multinomial(1,p)
(13)
當(dāng)每個(gè)模態(tài)的對(duì)接層產(chǎn)生了它自己的表示d(k),在擁抱層中使用哈達(dá)瑪積(Hadamard product)只對(duì)向量的某些部分進(jìn)行進(jìn)一步處理,如式(14)。
d′(k)=r(k)·d(k)
(14)
最后一步是融合2個(gè)模態(tài)的向量,得到融合向量ei,如式(15)。
e=∑kd′(k)
(15)
最后將融合向量輸入到全連接層中,第1個(gè)全連接層長(zhǎng)度為256個(gè)節(jié)點(diǎn),第2個(gè)全連接層長(zhǎng)度根據(jù)任務(wù)的分類數(shù)不同而作調(diào)整。任務(wù)1為2個(gè)節(jié)點(diǎn),任務(wù)2為5個(gè)節(jié)點(diǎn)。然后作為終端網(wǎng)絡(luò)的輸入向量,輸出給定分類任務(wù)的最終結(jié)果?;贏WD-LSTM和ResNet50網(wǎng)絡(luò)構(gòu)造的擁抱融合模型如圖4所示。
CrisisMMD2.0[23]多模態(tài)推特?cái)?shù)據(jù)集包含了2017年發(fā)生在全世界不同地區(qū)的地震、颶風(fēng)、野火和洪水等7次自然災(zāi)害期間收集的數(shù)千條人工注釋推文和圖片數(shù)據(jù)。數(shù)據(jù)集包括2個(gè)類型的標(biāo)簽:
1)是否為災(zāi)害救援相關(guān)信息,包括信息性標(biāo)簽與非信息性標(biāo)簽。任務(wù)1的目的是確定在災(zāi)難事件中收集給定的推特文本和圖像是否有助于災(zāi)害救援。
2)災(zāi)害救援事件的各種信息類型,包括人員傷亡信息、基礎(chǔ)設(shè)施和公共設(shè)施損壞信息、救援和捐贈(zèng)信息、其他災(zāi)害相關(guān)信息、非災(zāi)害相關(guān)信息。任務(wù)2的目的是確定推特文本和圖像中災(zāi)害信息的類型。CrisisMMD2.0數(shù)據(jù)集數(shù)量如表1所示。
表1 災(zāi)害名稱及數(shù)量
本文使用Fastai[24]和集成了Transformers的PyTorch框架來(lái)實(shí)現(xiàn)多模態(tài)模型。首先對(duì)每一個(gè)模態(tài),在凍結(jié)除了最后一層的所有層后,使用Fastai工具確定學(xué)習(xí)率,然后逐步解凍。這樣操作的原因是把模型的全部層一起訓(xùn)練,容易造成通用信息丟失,從而增加信息遺忘的風(fēng)險(xiǎn)。最后解凍所有組后,再次通過(guò)Fastai工具確定學(xué)習(xí)率,并使用這個(gè)新的學(xué)習(xí)速率訓(xùn)練模型。其中實(shí)驗(yàn)權(quán)重衰減值取0.1, Dropout值取0.8,其余的超參數(shù)值為Fastai庫(kù)中的默認(rèn)值。本文使用CrossEntropyLoss和Adam[25]分別作為損失函數(shù)和優(yōu)化器。
為了驗(yàn)證提出的擁抱融合模型的效果,本文在CrisisMMD2.0數(shù)據(jù)集上進(jìn)行了任務(wù)1和任務(wù)2的實(shí)驗(yàn),同時(shí)將擁抱融合模型的實(shí)驗(yàn)結(jié)果與目前的一些主流多模態(tài)融合進(jìn)行對(duì)比,分別包括特征線性融合、基于注意力、基于雙線性池化。多模態(tài)擁抱融合選取的核心指標(biāo)分別是所有類別的準(zhǔn)確率、精確率、召回率和F1值。實(shí)驗(yàn)分別計(jì)算了精確率、召回率、F1值三者的算術(shù)平均數(shù)和加權(quán)平均數(shù)2種實(shí)驗(yàn)結(jié)果,填寫到表中為加權(quán)平均數(shù)。所有實(shí)驗(yàn)的對(duì)比結(jié)果如表2與表3所示。
表2 任務(wù)1實(shí)驗(yàn)1結(jié)果對(duì)比
表3 任務(wù)2實(shí)驗(yàn)1結(jié)果對(duì)比
由準(zhǔn)確率、精確率、召回率和F1值的實(shí)驗(yàn)數(shù)據(jù)對(duì)比結(jié)果表明,相較于特征線性融合、基于注意力機(jī)制和雙線性池化融合算法,本文方法的準(zhǔn)確率更高,在融合模態(tài)方面展示了更好的性能。具體分析,特征線性融合只是將文本特征和圖像特征融合成一個(gè)共享特征表示,特征冗余且重復(fù),所以它的效果相對(duì)來(lái)說(shuō)是最差的?;谧⒁饬C(jī)制和基于雙線性池化的效果偏好一點(diǎn),然而它們沒有考慮特征之間的相關(guān)性,因此相比特征線性融合好一點(diǎn),但相比本文算法略差。擁抱模型相比特征線性、基于注意力機(jī)制、基于雙線性池化在準(zhǔn)確率方面,任務(wù)1分別提高3.8個(gè)百分點(diǎn)、2.2個(gè)百分點(diǎn)、3.2個(gè)百分點(diǎn),任務(wù)2分別提升6.7個(gè)百分點(diǎn)、3.1個(gè)百分點(diǎn)、4.1個(gè)百分點(diǎn)。
本文進(jìn)一步分析幾個(gè)模型的混淆矩陣,觀察模型在各個(gè)類別的表現(xiàn),查看哪個(gè)類別具有區(qū)分性。其中任務(wù)1為二分類問題,任務(wù)2為多分類問題。任務(wù)1和任務(wù)2的混淆矩陣如表4~表11所示。
表4 任務(wù)1特征線性融合混淆矩陣
表5 任務(wù)1基于注意力機(jī)制混淆矩陣
表6 任務(wù)1基于雙線性池化混淆矩陣
表7 任務(wù)1擁抱融合混淆矩陣
表8 任務(wù)2特征線性融合混淆矩陣
表9 任務(wù)2基于注意力機(jī)制混淆矩陣
表10 任務(wù)2基于雙線性池化混淆矩陣
表11 任務(wù)2擁抱融合混淆矩陣
從表4~表7結(jié)果得出,本文和其他算法模型相比,在TN、TP、FN、FP都全面提升。具體分析,當(dāng)模型預(yù)測(cè)為災(zāi)害相關(guān)的信息(即信息性),但真實(shí)標(biāo)簽為沒有災(zāi)害相關(guān)的信息(即非信息性)。本文模型相較于特征線性融合的實(shí)驗(yàn)數(shù)據(jù)實(shí)例分別從139、124、135下降到97,說(shuō)明擁抱融合準(zhǔn)確率更高。相同實(shí)驗(yàn)結(jié)論也可從其他實(shí)例得出。
從表8~表11結(jié)果得出,當(dāng)模型預(yù)測(cè)為非災(zāi)害救援相關(guān)信息(即非災(zāi)害),但真實(shí)標(biāo)簽為基礎(chǔ)設(shè)施和公共設(shè)施(即設(shè)施),在特征線性融合模型中有10個(gè)假陰性實(shí)例,基于注意力機(jī)制有7個(gè),基于雙線性池化有7個(gè),而在擁抱融合模型中只有4個(gè)。這表明擁抱融合在多分類實(shí)驗(yàn)中也展示出比其他模型的優(yōu)越性。同樣的結(jié)論也可從表中多次得出。
為了進(jìn)一步驗(yàn)證擁抱融合在不同文本、圖像特征提取模型具有同樣的優(yōu)勢(shì),本文選取現(xiàn)在流行的文本和圖像深度學(xué)習(xí)模型,例如BERT、AWD-LSTM、XML和ResNet50、DenseNet161、VGG19,繼續(xù)在CrisisMMD2.0數(shù)據(jù)集進(jìn)行任務(wù)1和任務(wù)2的實(shí)驗(yàn)。不同深度學(xué)習(xí)模型實(shí)驗(yàn)結(jié)果如表12與表13所示。
表12 任務(wù)1實(shí)驗(yàn)2結(jié)果對(duì)比
表13 任務(wù)2實(shí)驗(yàn)2結(jié)果對(duì)比
由表12與表13可知在不同文本和圖像融合基礎(chǔ)上添加擁抱融合算法,在準(zhǔn)確率方面會(huì)有不同程度的提高,說(shuō)明擁抱模型可以適用不同的文本和圖像深度學(xué)習(xí)模型。同時(shí)也驗(yàn)證了擁抱模型更適用于ResNet50+AWD-LSTM,因?yàn)樵诖巳诤夏P蜏?zhǔn)確率的提高最大。
通過(guò)以上實(shí)驗(yàn)數(shù)據(jù)對(duì)比,擁抱模型相對(duì)于其他融合模型有更高的準(zhǔn)確率,且適用于不同的文本、圖像深度學(xué)習(xí)算法,是一種有效的災(zāi)害事件分析算法。
針對(duì)災(zāi)害事件中多模態(tài)融合識(shí)別問題,本文提出擁抱融合的多模態(tài)算法,在基于注意力機(jī)制和特征線性融合的基礎(chǔ)上,通過(guò)對(duì)文本和圖像特征進(jìn)行挑選與融合,去除特征冗余的同時(shí),保留特征之間的相關(guān)性,來(lái)提高擁抱融合的性能。最后在CrisisMMD2.0多模態(tài)數(shù)據(jù)集上驗(yàn)證對(duì)比表明,擁抱融合模型相對(duì)于其他融合具有更高的準(zhǔn)確率和適用性。
由于本文只使用CrisisMMD2.0單一災(zāi)害事件數(shù)據(jù)集,對(duì)于不同多模態(tài)災(zāi)害事件的數(shù)據(jù)集的適用性,還需要進(jìn)一步驗(yàn)證。因此在接下來(lái)的研究中,可以針對(duì)不同災(zāi)害事件場(chǎng)景構(gòu)建模型。這是未來(lái)繼續(xù)研究下去的方向。