溫作前,張?jiān)迫A
(浙江理工大學(xué)信息學(xué)院,杭州 310018)
情感是個(gè)人面對(duì)客觀事物的態(tài)度體驗(yàn)。 也是個(gè)人對(duì)客觀世界智能的、主觀的一種表現(xiàn)。 人們表達(dá)情感的方式是多樣的。 一段文字、一條語音、一張圖片,都是人們?cè)谀撤N場(chǎng)景下對(duì)特定事件的情緒表現(xiàn)方式。 而電影評(píng)論則是人們對(duì)電影本身的一種情感表達(dá)。 通過收集網(wǎng)絡(luò)上海量的影評(píng)文本和影評(píng)圖片進(jìn)行情感分析,能夠有助于用戶在網(wǎng)絡(luò)上有更好的體驗(yàn)。 隨著信息技術(shù)的不斷發(fā)展,B 站、優(yōu)酷、騰訊視頻等各類觀影平臺(tái)的普及使得文本數(shù)據(jù)和數(shù)據(jù)類型越來越豐富。 自深度學(xué)習(xí)不斷發(fā)展以來,越來越多的學(xué)者開始使用深層神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析[1]。
近年來,國(guó)內(nèi)外學(xué)者針對(duì)影評(píng)情感分析做了很多研究。 張尚乾等學(xué)者[2]利用影評(píng)本體特征以及影評(píng)情感特征與長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)融合進(jìn)行文本級(jí)情感分類。 張碧依等學(xué)者[3]提出基于XLNet預(yù)訓(xùn)練語言模型對(duì)影評(píng)信息進(jìn)行分布式表示,再利用BiLSTM 進(jìn)行深層語義分析,最后使用softmax函數(shù)實(shí)現(xiàn)情感級(jí)分類。 辛雨璇等學(xué)者[4]利用TF-IDF和貝葉斯分類對(duì)影評(píng)文本進(jìn)行情感分析。
但是單模態(tài)文本數(shù)據(jù)中所包含的信息不夠全面,在某些情況下只依靠目標(biāo)文本難以準(zhǔn)確判斷目標(biāo)的情感狀態(tài)[5]。 一個(gè)在影評(píng)中較為常見的例子是反諷。 在反諷中,文本內(nèi)容表達(dá)的情感往往是較為中性和積極的,但圖片所表達(dá)的情感往往是消極的。 如,“這電影可真好看??!”,僅僅從文本上看情緒是積極的,但當(dāng)配上一個(gè)”咒罵”的表情,整個(gè)句子的情感將發(fā)生本質(zhì)變化。 這種情況使用單模態(tài)模型很難徹底解決問題。
為此,本文以多模態(tài)影視評(píng)論為研究對(duì)象,在注意力機(jī)制的作用下突出文本中情感信息特征和圖像特征,對(duì)高權(quán)重的數(shù)據(jù)向量進(jìn)行特征融合再進(jìn)行情感的分類,最后對(duì)普通的單模態(tài)模型效果進(jìn)行分析。通過結(jié)論論證,本文構(gòu)建的VGG16-BiLSTM 多模態(tài)模型對(duì)于影視評(píng)論有更高的情感識(shí)別效率,深入挖掘文本信息,識(shí)別隱晦情感。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種深層的監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),主要包含卷積層和池化層。 其中,卷積層用于提取圖像特征,池化層用于提取和優(yōu)化特征。卷積神經(jīng)網(wǎng)絡(luò)在低隱藏層通常由卷積層和最大池化層組成,最大池化層可用來強(qiáng)化特征。 高層是全連接層,起到分類器的作用。 第一個(gè)全連接層的輸入是由低隱藏層所提取且優(yōu)化的圖像特征。 最后一層輸出層使用邏輯回歸、softmax回歸或者支持向量機(jī)對(duì)圖像特征進(jìn)行分類。
VGG16 網(wǎng)絡(luò)模型共有6 個(gè)塊結(jié)構(gòu),每個(gè)塊結(jié)構(gòu)的通道數(shù)量相同,其中卷積層和全連接層均有權(quán)重系數(shù),故也稱權(quán)重層。 權(quán)重層共16 層,其中卷積層有13層,全連接層有3 層。 VGG 全部采用3?3 的卷積核,步長(zhǎng)和Padding均為1,2?2 的最大池化核,步長(zhǎng)為2,Padding為0。 VGG 通過疊加多個(gè)3?3卷積核使得最終擁有了5?5 的卷積核以及7?7 的卷積核的感受野。 在感受野相同的情況下,多個(gè)3?3 的卷積核可以大幅度增加非線性表達(dá)能力。
RNN 常用于自然語言的處理,這依賴于RNN能夠記憶已經(jīng)學(xué)習(xí)到的信息,并結(jié)合當(dāng)前的信息得到當(dāng)前輸出與之前信息的關(guān)系。 RNN 的時(shí)序結(jié)構(gòu)如圖1 所示。
圖1 RNN 結(jié)構(gòu)圖Fig. 1 Structure of RNN
由圖1 可以看出,t時(shí)刻RNN 的輸入包含當(dāng)前時(shí)刻的輸入Xt和上一時(shí)刻隱藏層的狀態(tài)ht-1。 這樣的設(shè)計(jì)在處理長(zhǎng)序列時(shí)很容易將一些無效的信息也進(jìn)行記憶傳遞,同時(shí)會(huì)出現(xiàn)梯度爆炸和梯度消失的問題,使得較長(zhǎng)距離的文字相關(guān)性下降。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)在RNN 的基礎(chǔ)上利用門(gate)機(jī)制控制輸入信息,輸出信息,以此記憶或者遺忘長(zhǎng)距離信息。 LSTM 單元結(jié)構(gòu)如圖2 所示。
圖2 LSTM 單元結(jié)構(gòu)Fig. 2 The unit structure of LSTM
由圖2 可知,LSTM 的構(gòu)成有記憶細(xì)胞C、更新門i、遺忘門f和輸出門o。 其中,更新門用于決定當(dāng)前時(shí)刻的信息對(duì)輸出的影響程度;遺忘門用于保存或者遺忘之前記憶的信息;輸出門用于描述當(dāng)前時(shí)刻記憶細(xì)胞輸出與下一時(shí)刻輸入信息的相關(guān)性。 記憶細(xì)胞C表示某一時(shí)刻所處理的特征信息。 LSTM工作過程中主要設(shè)計(jì)各符號(hào)的闡釋解讀見表1。 研究中,將用到以下數(shù)學(xué)公式:
表1 符號(hào)解釋說明表Tab. 1 Symbolic interpretation
通常情況下,文檔中每個(gè)詞匯不但依賴之前的元素,而且還與之后的元素關(guān)系密切。 為此可知,BiLSTM 是一種雙向的LSTM,如t時(shí)刻的BiLSTM 包含的信息為t時(shí)刻之前LSTM 的信息加上t時(shí)刻之后LSTM 的信息。 如句子向前的LSTML 依次輸入“電影”、“好”、“看”得到3 個(gè)向量{al0,al1,al2}。后向的LSTMR 依次輸入“看”、“好”、“電影” 得到3個(gè)向量{ar0,ar1,ar2}.再進(jìn)行拼接得到{[al0,ar0],[al1,ar1],[al2,ar2]},即{a0,a1,a2}。
注意力機(jī)制是一種篩選信息的方法,能夠進(jìn)一步緩解LSTM 中長(zhǎng)期依賴的問題。 注意力機(jī)制實(shí)現(xiàn)分3 步進(jìn)行,如:
(1)通過人工設(shè)置的超參數(shù)或者通過動(dòng)態(tài)生成的向量確定查詢向量。
(2)使用打分函數(shù)中的加性模型計(jì)算出輸入特征與查詢向量的相關(guān)性,得到概率分布。
(3)利用注意力機(jī)制對(duì)輸入的特征進(jìn)行加權(quán)平均,得到最終的特征信息。
本文選取騰訊視頻的影評(píng)中的文本和圖像作為研究對(duì)象,提出融合注意力機(jī)制的影評(píng)情感分析模型,主要思路是在融合注意力機(jī)制的情況下,針對(duì)文本和圖像進(jìn)行訓(xùn)練,強(qiáng)化用戶情感詞,更全面地捕獲全文信息。 模型組成部分有:使用Word2Vec 并結(jié)合負(fù)采樣對(duì)影評(píng)文本進(jìn)行詞向量化;使用BiLSTM模型對(duì)影視評(píng)論的文本信息進(jìn)行特征信息的提?。辉诒砬閳D像特征識(shí)別上,使用VGG16 對(duì)表情圖像的特征進(jìn)行提?。焕米⒁饬C(jī)制對(duì)文本和表情圖像中的情感信息特征進(jìn)行強(qiáng)化;在中間層進(jìn)行多模態(tài)信息特征的融合。 最后,由決策層根據(jù)融合的特征信息進(jìn)行情感分類。 融合注意力機(jī)制后如圖3 所示。
圖3 融合注意力機(jī)制的多模態(tài)影評(píng)情感分析路線圖Fig. 3 Roadmap of multimodal emotion analysis of movie reviews integrating attention mechanism
關(guān)于融合注意力機(jī)制的BiLSTM 的模型有3 層,涉及詞向量化、特征提取和注意力層。 Word2Vec 將傳入的文本編碼轉(zhuǎn)化為特征向量,使用卷積過濾器進(jìn)行特征提取,再進(jìn)行注意力分析,最后實(shí)現(xiàn)情感分析。形成ATT-BiLSTM 模型。 融合注意力機(jī)制的文本情感分析流程如圖4 所示。
圖4 融合注意力機(jī)制的文本情感分析流程圖Fig. 4 Flow chart of text emotion analysis integrating attention mechanism
在圖像情感分析中,VGG16 提取影視評(píng)論中表情圖像特征,利用注意力機(jī)制,提取圖像局部關(guān)鍵位置的信息,形成Att-VGG16 模型,進(jìn)行情感分析。注意力加權(quán)和圖像特征情感分析流程如圖5 所示。
圖5 注意力加權(quán)和圖像特征情感分析流程圖Fig. 5 Flow chart of attention weighting and image feature emotion
對(duì)于影視評(píng)論情感進(jìn)行分析時(shí),雖然圖片能夠直觀提供視覺信息,但是圖片描述情感過于單一。盡管文本特征描述情感更豐富,但是文本描述情感不直觀,所以獨(dú)立的文本輸入或者單獨(dú)的圖片輸入無法滿足高精度的情感分類需求。 因此,需要融合圖片特征和文本特征。 融合方式采用決策級(jí)融合,也稱后期融合。 在決策層將文本分類結(jié)果與圖像情感分類結(jié)果相融合,附上對(duì)應(yīng)權(quán)重,能夠較大限度地保留不同模態(tài)對(duì)情感傾向的影響,以此獲得最終的結(jié)果分類。
在權(quán)重分配過程中,Pt表示文本分類的概率,Pi表示圖像的分類的概率,Pc是分別給Pt和Pi分配Wt(文本權(quán)限)、Wi(圖像權(quán)限)并且相加得到,根據(jù)Pc得出后期融合后的輸出分類。 融合函數(shù)Pc如式(7)所示:
情感分類在圖文特征融合之后,oT作為最終表示,采用softmax函數(shù)作為輸出層。 函數(shù)表達(dá)為:
其中,bs是可學(xué)習(xí)的偏置向量;Ws是可學(xué)習(xí)的輸出層的權(quán)重矩陣;y是預(yù)測(cè)的情感極性分布。
通過使用交叉熵?fù)p失函數(shù)L(θ) 對(duì)所提出的模型進(jìn)行測(cè)試。 計(jì)算公式如下:
其中,N是訓(xùn)練集中影評(píng)片段;M是情感類別的數(shù)量;ys是第s個(gè)影評(píng)的真實(shí)情感類別。
本實(shí)驗(yàn)的數(shù)據(jù)集選用騰訊視頻,通過爬蟲軟件,在視頻評(píng)論中,爬取評(píng)論的文本信息和圖片信息。對(duì)于文本數(shù)據(jù)需要進(jìn)行適當(dāng)處理,如刪除不合規(guī)的字符,刪除標(biāo)點(diǎn)符號(hào)。 在詞嵌入方面使用Word2Vec,將執(zhí)行詞進(jìn)行向量化。 對(duì)于圖像,先刪除廣告圖像等無關(guān)圖像,再將圖像調(diào)整成大小為227×227×3,進(jìn)行圖像裁剪。
為了更加準(zhǔn)確計(jì)算出模型所預(yù)測(cè)的情感分類與實(shí)際情感分類的區(qū)別,采用多種評(píng)價(jià)標(biāo)準(zhǔn)。 如準(zhǔn)確率、召回率、F值、AUC等評(píng)價(jià)指標(biāo)進(jìn)行模型性能的綜合判斷,具體見式(10)~(13):
其中,TP表示觀眾對(duì)影視作品持積極情感、并且預(yù)測(cè)為積極情感;FN表示觀眾對(duì)影視作品持積極情感、預(yù)測(cè)為消極情感;FP表示觀眾對(duì)影視作品持消極情感、預(yù)測(cè)為積極情感;TN表示觀眾對(duì)影視作品持消極情感、預(yù)測(cè)也是消極情感。
利用訓(xùn)練集數(shù)據(jù)訓(xùn)練后統(tǒng)計(jì)的訓(xùn)練集損失結(jié)果如圖6 所示。 從圖6 結(jié)果可知,BiLSTM-VGG16 模型的AUC值為0.86.相比于BiLSTM 和VGG16,分別增加了0.127 和0.11。AUC的值越趨近于1,模型的處理能力越好。 這體現(xiàn)了圖像和文本在影視評(píng)論的情感分析中起到了相互引導(dǎo)、相互彌補(bǔ)的作用。 模型的訓(xùn)練集損失曲線如圖6 所示。
圖6 模型的訓(xùn)練集損失Fig. 6 Training loss of the model
為了進(jìn)一步證實(shí)本實(shí)驗(yàn)?zāi)P偷挠行?,基于同一?shù)據(jù)集對(duì)VGG16、BiLSTM 、BiLSTM-VGG16 等模型使用準(zhǔn)確率、召回率、F值等指標(biāo)進(jìn)行評(píng)估具體評(píng)價(jià),結(jié)果見表2。
表2 預(yù)測(cè)模型的評(píng)價(jià)結(jié)果Tab. 2 Evaluation results of prediction model%
實(shí)驗(yàn)數(shù)據(jù)表明,相比于單獨(dú)使用文本或者圖像,多模態(tài)下對(duì)影視評(píng)論進(jìn)行情感分析的效果更好。 仿真后可知,準(zhǔn)確率為85.37%、召回率為87.53%、F值為85.41%、AUC為86.07%。 相比于VGG16、BiLSTM 都有所提升。
本文針對(duì)現(xiàn)有的單模態(tài)影評(píng)情感分析模型研究存在的分類不精準(zhǔn)、各模態(tài)間信息無法共享、難以分辨反諷文本等問題,提出了基于注意力機(jī)制的多模態(tài)BiLSTM-VGG16 模型。 利用BiLSTM 和VGG16分別對(duì)影視評(píng)論的文本和影視評(píng)論的表情圖像進(jìn)行特征的提取和分類,再將提取的特征信息進(jìn)行融合。在理論上,不同模態(tài)形式是相互獨(dú)立,但是出現(xiàn)在同一語境中時(shí),不同模態(tài)會(huì)相互影響。 例如,圖像和文本的情感表達(dá)傾向一致時(shí),會(huì)增強(qiáng)情感的表達(dá),當(dāng)二者相反時(shí)則會(huì)出現(xiàn)反諷的現(xiàn)象。 在注意力機(jī)制的作用下,提高對(duì)正確情感的捕獲能力。 通過對(duì)采集到的影視評(píng)論數(shù)據(jù)進(jìn)行實(shí)驗(yàn),驗(yàn)證本模型較好的情感分析能力,分析效果好于VGG16、BiLSTM 等模型。該模型可為影評(píng)情感分析提供參考。