范濤,吳鵬,王昊,凌晨
(1.南京大學(xué)信息管理學(xué)院,南京 210023;2.南京理工大學(xué)經(jīng)濟管理學(xué)院,南京 210094)
輿論是網(wǎng)絡(luò)輿情的空間載體,網(wǎng)民情感是輿論的觀點和態(tài)度的一種體現(xiàn)[1]。在網(wǎng)絡(luò)輿情事件中,網(wǎng)民情感對網(wǎng)絡(luò)輿情事件的發(fā)展和演化有著極大的影響。例如,在新冠肺炎(COVⅠD-19)疫情中,對“武漢醫(yī)生被訓(xùn)誡談話”“武漢紅十字會物資分發(fā)”等事件被徹查的背后,除了客觀因素外,網(wǎng)民的負(fù)面輿論和由此折射出來的負(fù)面情感對事件的發(fā)展都有著推波助瀾的作用。因此,如何在網(wǎng)絡(luò)輿情事件中,自動準(zhǔn)確識別網(wǎng)民情感是極其重要的。
目前,已有文獻對網(wǎng)民情感分析做了相關(guān)研究。例如,Wu等[2]利用OCC(Ortony,Clore,Collins)模型建立文本情感標(biāo)注規(guī)則,并利用卷積神經(jīng)網(wǎng)絡(luò)對文本進行情感分類;Zhang等[3]建立擴展的情感詞典,結(jié)合機器學(xué)習(xí)模型對文本進行情感分類。從上述研究中可以看出,情感分析的對象皆為文本內(nèi)容。然而,隨著社交媒體平臺的不斷發(fā)展,文本不再是網(wǎng)民表達觀點和態(tài)度的唯一內(nèi)容載體。采用文本結(jié)合圖片或者短視頻,以一種多模態(tài)相結(jié)合的形式進行表達,已逐步成為網(wǎng)民傾訴心聲的偏愛方式[4]。雖然通過融合不同模態(tài)的情感特征,能夠有效地提升模型情感分析的性能,但這仍是一項具有挑戰(zhàn)性的任務(wù)。
不同的模態(tài)本質(zhì)上是相互異質(zhì)的,然而在內(nèi)部特征中,模態(tài)之間是相互關(guān)聯(lián)的。如何有效地捕捉這樣的交互關(guān)系,是多模態(tài)情感分析的關(guān)鍵,并且已有研究做了相關(guān)探索。例如,Majumder等[5]提出一種結(jié)合上下文的高維融合建模方式,將文本、聲音和圖片等模態(tài)多次進行高維融合,從而獲得融合后的特征。然而,基于注意力機制原理,能夠體現(xiàn)文本、圖片或音頻的情感,僅集中于文本中的部分詞或圖片和音頻中的部分區(qū)域,融合模態(tài)整體信息則會引入噪聲,并造成信息冗余。Huang等[6]基于注意力機制,分別對文本和圖片進行建模后,將生成的具有關(guān)鍵特征的文本和圖片向量進行融合,輸入至全連接層中,從而預(yù)測情感。然而,在現(xiàn)實中,體現(xiàn)文本情感的某個關(guān)鍵詞和圖片中的部分區(qū)域存在著對應(yīng)關(guān)系。例如,在圖1中,體現(xiàn)微博情感的“最美逆行者”和圖片中的“醫(yī)生形象”相關(guān),和圖片中的其他區(qū)域聯(lián)系較弱。因此,如果對不同模態(tài)內(nèi)容單獨進行注意力機制建模,那么將無法捕捉這樣的關(guān)系。
圖1 多模態(tài)數(shù)據(jù)樣例
為了有效捕捉不同模態(tài)之間的交互,充分學(xué)習(xí)不同模態(tài)的特征,減少模型訓(xùn)練中的冗余信息,從而提升多模態(tài)情感分析模型的性能,本文借鑒Zhang等[7]提出的用于命名實體任務(wù)中的自適應(yīng)聯(lián)合注意力機制,提出了多模態(tài)聯(lián)合注意力機制情感分析模型(multimodal co-attention sentiment analysis model,MCSAM)。MCSAM主要由多模態(tài)聯(lián)合注意力機制和中間層融合策略組成。多模態(tài)聯(lián)合注意力機制是由詞引導(dǎo)的注意力機制和圖引導(dǎo)的注意力機制構(gòu)成的。其通過讓文本中的詞來引導(dǎo)圖片區(qū)域的情感權(quán)重和讓新生成的圖片情感向量引導(dǎo)句子中詞的情感權(quán)重,捕捉不同模態(tài)之間的關(guān)聯(lián)和交互關(guān)系,并生成具有深度語義的文本和圖片特征向量。然后,利用中間層融合策略融合文本和圖片的表示向量,并輸入至多層全連接中,生成預(yù)測的情感標(biāo)簽。本文的主要貢獻如下:
?本文提出基于多模態(tài)聯(lián)合注意力機制的網(wǎng)民情感分析模型。該模型能夠充分捕捉到模態(tài)交互后的注意力分布,并且有效減少模態(tài)中的冗余信息和噪聲。
?本文結(jié)合“新冠肺炎疫情”等多模態(tài)網(wǎng)絡(luò)輿情的數(shù)據(jù)進行實證研究,并同其他state-of-the-art模型,如MAM(multimodal attention model)、TFN(tensor fusion network)等,進行對比分析。實驗結(jié)果驗證了MCSAM的優(yōu)越性。
本文的其余部分安排如下:第2節(jié)介紹了目前的相關(guān)研究進展,第3節(jié)詳細(xì)描述了本文所提出的模型,第4節(jié)為實證研究,第5節(jié)為總結(jié)和展望。
網(wǎng)民情感對網(wǎng)絡(luò)輿情事件的醞釀、爆發(fā)和消解整個過程都具有重要的影響。吳鵬等[8]結(jié)合情感詞向量和雙向長短期記憶網(wǎng)絡(luò),對網(wǎng)民的負(fù)面情感進行了多分類研究。辜麗瓊等[9]利用詞向量和K-means聚類方法對網(wǎng)民的評論進行了情感追蹤分析。夏一雪等[10]利用仿真的方法對突發(fā)事件中網(wǎng)民的負(fù)面情感進行了分析。朱曉霞等[11]結(jié)合改進的TF-ⅠDF方法和LDA模型提取文本的關(guān)鍵情感詞,進行網(wǎng)民情感的演化分析。張鵬等[12]基于構(gòu)建的突發(fā)事件情感詞典,并結(jié)合TF-ⅠDF等方法對網(wǎng)民情感進行分析。
從上述研究中可以發(fā)現(xiàn),目前,網(wǎng)民情感分析的研究對象主要基于文本,缺乏結(jié)合多模態(tài)內(nèi)容的研究。
1)文本情感分析
現(xiàn)有的文本情感識別方法分為基于詞典的方法、基于統(tǒng)計的方法和基于深度學(xué)習(xí)的方法[13]?;谠~典的方法主要依靠語言學(xué),利用人工構(gòu)建的情感詞典,從而識別句子中的情感詞或者規(guī)則,并以此進行文本情感分析[14]。但是此類方法嚴(yán)重依靠情感詞典規(guī)模和質(zhì)量,并且存在擴展性差、遷移性差等問題?;诮y(tǒng)計的文本情感識別方法主要是采用機器學(xué)習(xí)方法,將人工標(biāo)注的訓(xùn)練預(yù)料作為訓(xùn)練集,抽取文本情感特征,并利用該模型進行情感分類[15-16]。
深度學(xué)習(xí)作為機器學(xué)習(xí)發(fā)展的一個研究熱點,被應(yīng)用至自然語言處理任務(wù)中。例如,Kim[17]提出用于文本情感分析的1d-CNN(one-dimensional convolutional neural network),并取得了良好效果。Ma等[18]提出了一種帶有高維注意力機制的擴展的長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠聚合同情感相關(guān)的常識知識,并表現(xiàn)優(yōu)越。
2)圖片情感分析
相較于文本情感分析,圖片情感分析由于受限于人類情感與圖片語義間的“情感鴻溝”,因此其任務(wù)更具有挑戰(zhàn)性。傳統(tǒng)的圖片情感分析方法主要利用手工特征,如線條[19]、顏色[20]、亮度[21]等,作為圖片的表示向量,然后將其輸入至分類器中,進行情感分類。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[22]能夠?qū)W習(xí)圖片中復(fù)雜且抽象特征,并在多個計算機的視覺任務(wù)中獲得成功,有學(xué)者將其應(yīng)用至圖片情感分析中。例如,Chen等[23]提出一個包含多個CNN的深度神經(jīng)網(wǎng)絡(luò)對圖片情感進行分類,模型性能顯著優(yōu)于傳統(tǒng)的機器學(xué)習(xí)模型。Yang等[24]提出一個考慮圖片局部區(qū)域信息和整體信息的圖片情感識別模型,并取得了良好的效果。Campos等[25]通過遷移預(yù)訓(xùn)練模型的權(quán)重,并對其進行微調(diào)操作,從而提升模型性能。
從模態(tài)融合的視角來看,多模態(tài)情感分析研究可分為特征層融合、中間層融合和決策層融合等[26]。
在特征層融合中,通過拼接、相加等方式融合不同模態(tài)的特征,形成單一的長向量,并輸入至分類器。例如,Poria等[27]將文本特征、音頻特征以及面部特征相拼接,生成融合后的特征向量,并將其輸入至多核SVM(support vector machine)中,完成情感分類。Pérez Rosas等[28]拼接視頻中,不同模態(tài)的特征,輸入至SVM分類器中進行情感分析。然而,特征層融合后生成的多模態(tài)融合特征,不能很好地捕捉模態(tài)之間的相關(guān)關(guān)系,并包含冗余特征和噪聲。
中間層融合通常發(fā)生于深度神經(jīng)網(wǎng)絡(luò)中,通過對不同模態(tài)的特征進行編碼,形成相應(yīng)的特征表示,并進行融合。例如,Zadeh等[29]提出張量融合模型,通過將編碼后的不同模態(tài)的特征進行外積,形成空間上的3維立方體,作為融合后的多模態(tài)特征,輸入至全連接層中進行情感分類。Huang等[6]結(jié)合注意力機制,對文本和圖片分別進行建模,對新生成的文本和圖片特征向量進行融合,并進行情感分類。雖然基于中間層融合的方法均取得了較好的效果,但是捕捉網(wǎng)絡(luò)中模態(tài)的交互依然是難點。
在決策層融合中,不同的模態(tài)獨立建模,利用基于規(guī)則或者投票的方法,對不同模態(tài)情感分析模型輸出的情感類別概率進行融合,生成情感標(biāo)簽[30]。例如,Song等[31]利用不同的網(wǎng)絡(luò)輸出不同模態(tài)的情感預(yù)測概率,并將其融合輸入至人工神經(jīng)網(wǎng)絡(luò)或k最鄰近算法中,產(chǎn)生最終情感標(biāo)簽。對于決策層融合,不同的模態(tài)能夠選擇最優(yōu)的模型進行情感類別概率預(yù)測,然而模態(tài)間的關(guān)聯(lián)和交互沒有被充分考慮。
本文提出的基于多模態(tài)聯(lián)合注意力機制的網(wǎng)民情感分析模型結(jié)構(gòu)如圖2所示,其主要由多模態(tài)聯(lián)合注意力機制和中間層融合策略組成。多模態(tài)聯(lián)合注意力機制分為詞引導(dǎo)的注意力機制和圖引導(dǎo)的注意力機制,兩者分別捕捉文本和圖片交互后的注意力分布,從而生成新的特征表示向量;然后,通過中間層融合策略,融合文本和圖片特征,并輸入至多層感知機中,產(chǎn)生最終的情感預(yù)測類別。下文將詳細(xì)描述提出的算法和模型。
圖2 基于多模態(tài)聯(lián)合注意力機制的網(wǎng)民情感分析模型
CNN在多個視覺任務(wù)中取得了巨大成功,并被應(yīng)用至圖片情感分析中。對于圖片特征提取,常用的方法有利用預(yù)訓(xùn)練圖片模型中的全連接層提取圖片的特征,或者利用傳統(tǒng)的手工特征。為了獲得圖片中不同區(qū)域的空間特征,本文利用在ⅠmageNet[32]中預(yù)訓(xùn)練的VGG16(visual geometry group 16)[33]模型中的最后一層池化層(pool5),提取圖片的空間特征。VGG16網(wǎng)絡(luò)中pool5輸出的特征圖大小為7×7×512,其中512為特征向量的維度;7×7為特征圖的數(shù)量。令v={v1,v2,v3,…,vi,…,vn}表示與網(wǎng)絡(luò)輿情文本相對應(yīng)的n張圖片。經(jīng)過pool5層抽取得到的圖片特征,j=1,2,…,N},那么圖片特征中j區(qū)域的特征維度為512,區(qū)域數(shù)量為N=49。
其中,Wv表示全連接層中的權(quán)重;bv表示偏置項;d表示輸出維度;tanh為雙曲正切激活函數(shù)。
本文利用word2vec(word to vector)[34]模型對大規(guī)模網(wǎng)絡(luò)輿情文本進行無監(jiān)督訓(xùn)練,獲得富含句法信息和語義信息的詞向量,作為模型輸入。令t={t1,t2,…,ti,…,tn},其中t表示網(wǎng)絡(luò)輿情圖文數(shù)據(jù)集中的文本。對于每一個文本ti,本文利用在大規(guī)模網(wǎng)絡(luò)輿情文本中訓(xùn)練好的詞向量模型Vec對其進行向量化表示,則l={l1,l2,…,li,…,ln},并且
其中,M為句子長度;dw為詞向量的維度。本文將l={l1,l2,…,li,…,ln}作為網(wǎng)絡(luò)輿情文本的表示。
常用的文本情感分析模型有LSTM[35]、CNN[17]等。例如,吳鵬等[36]提出結(jié)合OCC模型和CNN模型分析網(wǎng)民情感,并輸出三種情感類別;金占勇等[37]提出利用LSTM模型,對突發(fā)災(zāi)害事件網(wǎng)絡(luò)輿情情感進行識別。LSTM作為RNN的變體,能夠巧妙地控制其獨特的門結(jié)構(gòu),有效地學(xué)習(xí)上下文的語義信息,是一種優(yōu)異的序列模型。通過卷積核在窗口中的滑動,CNN能夠有效的學(xué)習(xí)句子中的n-gram特征,生成由詞組成的短語向量。不同于上述的研究,本文提出結(jié)合CNN和LSTM的CNN-BiLSTM模型,結(jié)合了兩種模型的優(yōu)點,對向量化表示的網(wǎng)絡(luò)輿情文本進行特征抽取。對輸入的由詞向量表示的句子,j=1,2,…,M}進行卷積操作,其中M表示句子的長度。令表示卷積核,卷積核數(shù)量為z,s表示卷積核(窗口)大小,經(jīng)過卷積核wk卷積得到的特征圖為
其中,bc為偏置項;fc為非線性激活函數(shù)relu。對卷積后得到特征圖譜進行最大池化,用于聚合特征,降低數(shù)據(jù)敏感度,輸出的最大池化特征圖譜=max(ck)。本文對卷積進行了填充操作,經(jīng)過卷積池化輸出的句子特征表示為li'。然后,本文將短語特征向量表示的句子特征li'與詞向量表示的句子特征li相拼接,生成富含短語特征和詞特征的句子表示矩陣li'',作為BiLSTM網(wǎng)絡(luò)的輸入。BiLSTM是由雙向的LSTM構(gòu)成的,前向LSTM能夠通過時間順序傳遞序列信息,反向LSTM能夠逆序傳遞序列信息,從而能夠更好地學(xué)習(xí)上下文信息。LSTM由輸入門、遺忘門、輸出門以及細(xì)胞狀態(tài)組成,通過結(jié)合每個門所用的公式,學(xué)習(xí)具有時間依賴的句子表示,j=1,2,…,M},其中,d為BiLSTM編碼后的特征維度,M為句子長度,具體公式為
其中,Wl表示權(quán)重矩陣;ft、jt、ot分別表示t時刻的遺忘門、輸入門和輸出門;xt為t時刻的輸入;⊙表示點乘操作;σ表示sigmoid激活函數(shù);tanh表示雙曲正切激活函數(shù)。
本文中的多模態(tài)聯(lián)合注意力機制由詞引導(dǎo)的注意力機制和圖引導(dǎo)注意力機制構(gòu)成,具體如圖3所示。
圖3 多模態(tài)聯(lián)合注意力機制
3.4.1 詞引導(dǎo)的注意力機制
在多模態(tài)情感分析研究中,已有關(guān)于注意力機制的研究。例如,Huang等[6]提出深度多模態(tài)注意力融合模型,通過對文本和圖片分別進行注意力機制建模,將提取的文本和圖片注意力權(quán)重進行融合,輸入至全連接層中,從而獲得情感標(biāo)簽。然而,在現(xiàn)實中,體現(xiàn)文本情感的詞僅和圖片中的部分區(qū)域相關(guān)聯(lián)。如果忽略圖片和文本之間的關(guān)聯(lián),分別進行注意力機制建模,那么會影響模態(tài)間的整體交互。不同于這些已有的研究,本文利用詞引導(dǎo)的注意力機制,通過利用編碼后的詞來引導(dǎo)圖片中各個區(qū)域的注意力分布,充分捕獲文本和圖片之間的交互和關(guān)聯(lián)關(guān)系,同時減少冗余信息和噪聲。
其中,W表示全連接層中的權(quán)重矩陣;b表示偏置項;⊕表示拼接操作。拼接操作具體是指vi中的每一列向量同相拼接。本文利用softmax函數(shù)來計算注意力權(quán)重αt:
在注意力機制中,圖片中的每一個區(qū)域均會被分配一個介于[0,1]區(qū)間的得分αt,j(1≤j≤N)作為注意力權(quán)重。最后,基于注意力權(quán)重分布,得到新生成的與詞相關(guān)的圖片特征向量Zt:
3.4.2 圖引導(dǎo)的注意力機制
通過詞引導(dǎo)的注意力機制,本文獲得圖片的新特征表示。而在文本中,不同的詞與文本情感的相關(guān)性是未知的。因此,本文結(jié)合圖引導(dǎo)的注意力機制,通過引入新生成的圖片特征Zt來引導(dǎo)文本的詞進行注意力權(quán)重計算。經(jīng)過編碼后的句子特征矩陣為,j=1,2,…,M},M為句子長度,d為編碼后特征維度。將句子特征矩陣hi和對應(yīng)的圖片特征向量Zt輸入至一層全連接層中,進行非線性激活,得到歸一化后的特征e't:
其中,W表示權(quán)重矩陣;b表示偏置項;⊕表示拼接操作。拼接操作具體指hi的每一列向量同Zt相拼接。本文利用softmax函數(shù)來計算注意力權(quán)重βt:
在注意力模型中,句子中的每個詞均會被分配一個介于[0,1]之間的得分βt,j,1≤j≤M,作為注意力權(quán)重。最后,基于注意力權(quán)重分布,得到新生成的與圖片特征Zt相關(guān)的句子特征向量St:
通過詞引導(dǎo)的注意力機制和圖引導(dǎo)的注意力機制,本文分別得到新的文本和圖片特征St和Zt,利用中間層融合方式,將文本特征St和圖片特征Zt進行融合。
本文將St和Zt融合輸入至多層全連接層中,對融合后的特征進行編碼,用于最終的情感分類:
其中,labelfusion代表模型預(yù)測的情感標(biāo)簽;θfusion代表全連接層中的參數(shù);C代表情感類別數(shù)量。
本節(jié)將首先介紹實驗環(huán)境及評價指標(biāo),然后介紹本文所用的數(shù)據(jù)集及數(shù)據(jù)的預(yù)處理過程。最后,本文將提出的模型在網(wǎng)絡(luò)輿情事件數(shù)據(jù)集中進行驗證,并同基線模型作對比,報告的結(jié)果均為最優(yōu)結(jié)果。
本文所用的編程語言為python 3.6,使用的深度學(xué)習(xí)框架為pytorch 1.0.1和keras 2.2.4。本文的實驗均在內(nèi)存為8G、處理器為Ⅰntel Core i7-7700HQ的機器上完成。為了排除其他不必要因素對實驗產(chǎn)生的影響,實驗中每個模型所用的訓(xùn)練集與測試集均一致。其中,實驗數(shù)據(jù)集的80%作為訓(xùn)練集,剩余的20%作為測試集。
本文實驗所用評價指標(biāo)為宏平均精確率(marco-precision)、宏平均召回率(marco-recall)和宏平均F1值(F1-score)。在本文中,上述指標(biāo)分別簡稱為P、R及F1值。
1)數(shù)據(jù)集獲取
本文從新浪微博中搜集了近期發(fā)生的網(wǎng)絡(luò)輿情事件數(shù)據(jù),包括“新冠肺炎疫情”“武漢紅十字會”等網(wǎng)絡(luò)輿情事件。搜集的數(shù)據(jù)集包含2459個文本和圖片對,均為對應(yīng)關(guān)系。數(shù)據(jù)示例如圖1所示。除此之外,本文還從微博中抓取了近年發(fā)生的網(wǎng)絡(luò)輿情事件數(shù)據(jù),用于訓(xùn)練詞向量,對數(shù)據(jù)進行清洗后,獲得總計2911235條文本。
2)數(shù)據(jù)集預(yù)處理
在實驗開始之前,本文對中文數(shù)據(jù)進行了預(yù)處理。首先,本文對微博中的一些無意義符號進行去除,利用python中jieba①https://pypi.org/project/jieba/包并結(jié)合本地詞典對文本進行了分詞處理,同時利用停用詞詞典對文本進行了去停用詞處理。對于圖片,本文利用python中的CV2②https://pypi.org/project/opencv-python/讀取圖片,并將圖片的大小調(diào)整224×224×3,適應(yīng)本文所構(gòu)建的圖片情感識別模型的輸入。
3)數(shù)據(jù)集標(biāo)注
本文對實驗數(shù)據(jù)集進行了雙人標(biāo)注,標(biāo)注的情感分別正面、中性和負(fù)面。實驗數(shù)據(jù)集由兩位信息管理與信息系統(tǒng)專業(yè)本科生進行情感標(biāo)注,其有著多年的社交媒體使用經(jīng)驗,標(biāo)注結(jié)果的kappa系數(shù)為0.747,標(biāo)注結(jié)果具有較高的一致性。對于不一致的標(biāo)注,通過討論產(chǎn)生最終的情感標(biāo)簽,最終的情感標(biāo)注結(jié)果如表1所示。
表1 情感標(biāo)注結(jié)果
本文利用word2vec中的skip-gram模型訓(xùn)練詞向量,詞向量維度設(shè)置為100。文本長度設(shè)置為50,如果文本長度超過50,那么截斷;反之,則補零。卷積層卷積核大小設(shè)置為2,數(shù)量為256。圖片輸入大小為224×224,帶有RGB三通道。本文利用預(yù)訓(xùn)練VGG16模型中的pool5層提取圖片的空間特征,大小為7×7×512,圖片特征區(qū)域數(shù)量為7×7,維度大小為512。輸入至一層全連接層中,激活函數(shù)為tanh,維度同CNN-BiLSTM輸出維度相一致。融合后的多模態(tài)特征輸入至兩層特征維度分別為300和3的全連接層中,激活函數(shù)分別tanh和softmax。
在訓(xùn)練過程中,本文利用adam作為目標(biāo)函數(shù)的優(yōu)化器,學(xué)習(xí)率設(shè)置為0.001。損失函數(shù)為crossentrophy,訓(xùn)練批次大小為128,訓(xùn)練輪數(shù)設(shè)置為100。本文采用earlystopping技術(shù),檢測參數(shù)為損失值,當(dāng)損失值連續(xù)10輪不下降,訓(xùn)練隨即停止。
本節(jié)介紹用于與提出的模型相對比的基線模型,其中有些模型在公開數(shù)據(jù)集中,達到state-ofthe-art效果。T表示文本,V表示圖片。
?BiLSTM-T[8]是一種優(yōu)異的用于處理文本等輸入的序列模型,常被用于情感分析任務(wù)中。
?CNN-BiLSTM-T[38]模型由卷積層、池化層和全連接層組成,能夠很好地捕捉文本空間特征,是一種優(yōu)異的文本情感分類模型。
?CNN-BiLSTM-attention-T模型是本文提出模型的組成部分,對文本單獨進行注意力機制建模,利用softmax層對新生成文本特征向量進行情感分類。
?CNN-V[33]是利用預(yù)訓(xùn)練的VGG16模型進行圖片特征進行特征提取,輸入至softmax層進行情感分類。
?CNN-attention-V模型是本文提出模型的組成部分,對圖片空間特征單獨進行注意力機制建模,利用softmax層對新生成的圖片特征向量進行情感分類。
?SVM[28]是利用SVM用于對拼接后的文本特征和圖片特征進行情感分類。
?MAM[6]是一個基于注意力機制的多模態(tài)融合情感分析模型,通過對不同模態(tài)分別進行注意力機制建模,能夠有效地學(xué)習(xí)多模態(tài)情感特征。
?TFN[29]是通過對不同模態(tài)的情感特征進行高維融合,能夠較好的捕捉不同模態(tài)間內(nèi)部動態(tài)交互。
同時,本文還將僅使用詞引導(dǎo)的注意力機制模型(word-guided attention,WGA)和僅使用圖引導(dǎo)的注意力機制模型(image-guided attention,ⅠGA)進行對比。
1)單模態(tài)
表2呈現(xiàn)的是單模態(tài)情感分析結(jié)果。在文本模態(tài)中,通過對比CNN-BiLSTM和BiLSTM的實驗結(jié)果,可以看出CNN-BiLSTM具有一定的優(yōu)勢。BiLSTM能夠充分學(xué)習(xí)句子中的序列特征,結(jié)合句子中的過去信息和將來信息;CNN能夠通過網(wǎng)絡(luò)中卷積核在句子中的滑動充分學(xué)習(xí)句子的n-gram特征;而CNN-BiLSTM則屬于兩者優(yōu)勢的結(jié)合,這也是CNNBiLSTM表現(xiàn)優(yōu)越的原因。對比應(yīng)用了注意力的CNN-BiLSTM-attention和未使用注意力機制的CNNBiLSTM,可以看出引入注意力機制模型的優(yōu)勢,這同樣也體現(xiàn)在圖片情感分析模型CNN和CNN-attention的對比結(jié)果中。因此,引入注意力機制在情感分析中具有一定的優(yōu)勢,并能夠提升模型性能。
表2 單模態(tài)情感分析結(jié)果
對比文本模態(tài)情感分析結(jié)果和圖片模態(tài)情感分析結(jié)果可以發(fā)現(xiàn),文本情感分析的結(jié)果顯著優(yōu)于圖片情感分析結(jié)果。這表明,相較于圖片,文本攜帶了更多富有情感的信息。
2)多模態(tài)
表3呈現(xiàn)的是多模態(tài)融合情感分析的實驗結(jié)果。對比利用特征層融合的SVM模型結(jié)果,本文提出的模型MCSAM在三項評估指標(biāo)中的結(jié)果均優(yōu)于SVM約13%。這在一定程度上表明深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)和融合多模態(tài)特征上的優(yōu)勢。與利用高維融合的TFN模型進行對比,MCSAM模型的各項指標(biāo)均優(yōu)于TFN模型。雖然高維融合能夠捕捉模態(tài)中的全面信息,但是同時也帶來了信息冗余和引入噪聲的風(fēng)險,導(dǎo)致MCSAM模型達不到最優(yōu)狀態(tài)。而利用注意力機制恰好可以避免這一風(fēng)險,本文通過為文本中的內(nèi)容和圖片內(nèi)的不同區(qū)域分配不同的注意力權(quán)重,使得MCSAM模型多加關(guān)注文本和圖片中富有情感信息的部分,弱化文本和圖片中的噪聲,從而令模型發(fā)揮最優(yōu)。MAM是一種對不同模態(tài)分別進行注意力機制的多模態(tài)融合模型,在同MAM的對比中,應(yīng)用了聯(lián)合注意力機制的MCSAM依舊優(yōu)于MAM。在精確率指標(biāo)中,MCSAM高于MAM約2.46%。應(yīng)用注意力機制能夠使模型“刻意”關(guān)注模態(tài)中富含情感信息的區(qū)域,但是在多模態(tài)中,不同模態(tài)間語義是相互關(guān)聯(lián)的。某一模態(tài)富含情感的部分僅和另一模態(tài)的某些部分或者區(qū)域相對應(yīng)和聯(lián)系。如果對不同模態(tài)單獨建模,那么這樣的關(guān)系便會被割裂,無法捕捉。而利用聯(lián)合注意力機制,通過令文本中的詞來引導(dǎo)圖片區(qū)域中的注意力權(quán)重分布,生成詞引導(dǎo)的圖片特征向量,再利用新生成的圖片特征向量引導(dǎo)文本中詞的注意力權(quán)重分布,生成圖引導(dǎo)的文本特征向量,則可以充分捕捉不同模態(tài)間富含情感區(qū)域部分的相互關(guān)聯(lián)關(guān)系,這也是MCSAM優(yōu)于MAM的原因。在同WGA和ⅠGA的對比中可以看出,采用中間層融合后的MCSAM顯著優(yōu)于WGA和ⅠGA,這充分說明詞引導(dǎo)的注意力機制和圖引導(dǎo)的注意力機制聯(lián)合后的優(yōu)勢,同時,也展現(xiàn)出多模態(tài)融合在情感分析中的優(yōu)勢。
表3 多模態(tài)情感分析結(jié)果
BiLSTM中的隱藏單元數(shù)和dropout值是本文提出的模型中的重要參數(shù)。因此,下文評估了不同參數(shù)的變化給模型帶來的影響。
由圖4可以看出,當(dāng)模型引入dropout技術(shù)后,模型的性能得到了顯著提升。這表明dropout技術(shù)在克服模型過擬合中具有優(yōu)越性。當(dāng)dropout值的增大,模型的性能總體上呈現(xiàn)下降趨勢;當(dāng)dropout值達0.1時,模型的性能取得最優(yōu)。
在模型中,為了便于計算,模型中全連接層、文本及圖片特征向量的維度數(shù)同CNN-BiLSTM中的輸出維度數(shù)相同,即與BiLSTM中的隱藏層單元數(shù)相關(guān)。由圖5可以看出,不同的隱藏層單元數(shù)對模型的性能有著顯著的影響。當(dāng)隱藏層單元數(shù)為300時,模型達到最優(yōu)。因此,本文所提出的模型中BiLSTM的隱藏層單元數(shù)設(shè)置為300。
圖4 dropout值對模型性能的影響
圖5 隱藏層單元數(shù)對模型性能的影響
針對當(dāng)前網(wǎng)民情感的分析不足,本文引入了一種基于多模態(tài)聯(lián)合注意力的網(wǎng)民情感分析模型。通過聯(lián)合詞引導(dǎo)的注意力機制和圖引導(dǎo)的注意力機制來動態(tài)捕捉不同模態(tài)之間的關(guān)聯(lián)關(guān)系,減少信息冗余和噪聲,并對新生成的文本和圖片特征向量進行中間層融合,輸入至多層全連接層中,生成預(yù)測的情感標(biāo)簽。本文所提出的模型在真實數(shù)據(jù)集中進行了實證研究,并與不同的基線模型進行對比分析,實驗結(jié)果表明,本文提出的模型具有一定的優(yōu)勢。
同時,本文也存在一些不足,如所提出的模型僅在中文數(shù)據(jù)集中進行了驗證。在未來的研究中,將所提出的模型在推特輿情數(shù)據(jù)集以及公開數(shù)據(jù)集進行測試,以驗證模型性能。同時,如何更好地捕捉不同模態(tài)間的關(guān)聯(lián)和交互也將是未來研究的重點。