劉琦瑋,李俊,顧蓓蓓,趙澤方
1.中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100083
2.中國科學(xué)院大學(xué),北京 100049
情感分析(sentiment analysis)又稱傾向性分析,旨在通過用戶發(fā)表的各類信息分析出用戶想要表達(dá)的情感極性[1]。隨著互聯(lián)網(wǎng)的普及與發(fā)展,越來越多的用戶開始在各類社交平臺(tái)(如微博、抖音、小紅書等)上表達(dá)自己的觀點(diǎn)和情緒。對(duì)用戶情感的精確分析有助于政府部門把控社會(huì)輿論趨勢(shì),為可能出現(xiàn)的突發(fā)情況做出準(zhǔn)備;同時(shí),情感分析在輿情監(jiān)測(cè)、心理健康測(cè)試和商品智能推薦等方面也有著很大的應(yīng)用價(jià)值。
傳統(tǒng)的單模態(tài)情感分析方法僅使用某一種信息作為分析對(duì)象,不能滿足多模態(tài)數(shù)據(jù)的需求。在這種情況下,多模態(tài)情感分析(Multimodal Sentiment Analysis)應(yīng)運(yùn)而生,它通過對(duì)用戶發(fā)表的多種模態(tài)的信息進(jìn)行特征提取、融合,從而對(duì)用戶的情感進(jìn)行更加精準(zhǔn)地分析預(yù)測(cè)。國內(nèi)關(guān)于多模態(tài)情感分析的研究最早可以追溯到2011年,陽鋒等[2]設(shè)計(jì)了一個(gè)面向微博數(shù)據(jù)流的,集實(shí)時(shí)抓取多種模態(tài)數(shù)據(jù)和分析觀點(diǎn)傾向性于一體的觀點(diǎn)挖掘原型系統(tǒng)MICA(Microblog Item Crawling and Analyzing)。該系統(tǒng)從騰訊、新浪等網(wǎng)站實(shí)時(shí)下載微博數(shù)據(jù),采用構(gòu)建情感詞典的算法分析數(shù)據(jù),同時(shí)使用了SITF 算法實(shí)現(xiàn)了圖像特征提取的功能,通過比較單模態(tài)與多模態(tài)情感分析的結(jié)果,證實(shí)了圖片特征和文本特征是相輔相成的關(guān)系,多模態(tài)特征對(duì)情感分析有著促進(jìn)作用。
在多模態(tài)情感分析中,基于圖文特征融合的方式一直備受關(guān)注,然而,現(xiàn)有的圖文融合多模態(tài)情感分析模型仍存在一些不足之處:(1)不同模態(tài)的特征融合方法僅僅是簡(jiǎn)單地拼接,使得多模態(tài)情感特征無法有效融合;(2)社交媒體用戶發(fā)布的圖片信息并不一定與文本中的每一個(gè)詞都相關(guān)聯(lián),現(xiàn)有的方法沒有針對(duì)圖片的具體特征對(duì)文本中的詞進(jìn)行重要性度量,而是直接進(jìn)行圖文特征的融合,這會(huì)對(duì)最后的情感分類結(jié)果造成直接的影響。比如,用戶發(fā)布了一張微笑的圖片,而文本內(nèi)容卻包含著“難過”、“哭”等負(fù)面情緒字眼,如果將這些文本信息不加區(qū)別地與圖片信息進(jìn)行融合,將對(duì)用戶的建模產(chǎn)生不良影響,所以需要根據(jù)圖片的情感來對(duì)文本進(jìn)行有針對(duì)性的選擇。
為了改善上述問題,本文設(shè)計(jì)了一種圖像增強(qiáng)文本信息的圖文融合多模態(tài)情感分析模型。利用組合注意力特征融合模塊,計(jì)算出文本信息中每一個(gè)詞與圖片包含情感的相似度,從而為每個(gè)詞賦予不同的權(quán)重,然后與圖片特征進(jìn)行融合,作為用戶的特征表示。通過在公開數(shù)據(jù)集上的實(shí)驗(yàn)證明,本文提出的模型可以在一定程度上提高情感分析的準(zhǔn)確率。本文的主要貢獻(xiàn)有以下三個(gè)方面:
(1)提出一種結(jié)合VGG-19 和BILSTM 的網(wǎng)絡(luò)模型。該模型一方面采用微調(diào)的VGG19 網(wǎng)絡(luò)提取圖片特征,另一方面使用BILSTM 提取文本特征,充分考慮到了句子的上下文信息,增強(qiáng)了單個(gè)特征的提取能力。
(2)引入Transformer Encoder 的結(jié)構(gòu),對(duì)句子進(jìn)行多次計(jì)算捕獲更多的隱含的上下文語義信息,豐富了單個(gè)詞語之間的關(guān)聯(lián)關(guān)系,提高了文本特征的表征能力。
(3)引入注意力機(jī)制,利用圖片信息,增強(qiáng)了文本中能夠影響情感極性分類的關(guān)鍵特征,使模型能夠關(guān)注到文本中貢獻(xiàn)度較大的詞匯,將圖文信息有效融合在一起,進(jìn)一步提高情感分類準(zhǔn)確率。
本文的組織結(jié)構(gòu)如下:在引言部分中對(duì)多模態(tài)情感分析相關(guān)研究現(xiàn)狀和研究?jī)?nèi)容進(jìn)行了簡(jiǎn)要介紹,在第一部分回顧了圖片情感分析、文本情感分析以及多模態(tài)情感分析的相關(guān)工作,在第二部分中詳細(xì)介紹本文提出的基于圖像增強(qiáng)的文本情感分析方法,在第三部分中展示了實(shí)驗(yàn)結(jié)果和分析,最后在第四部分中對(duì)實(shí)驗(yàn)做了總結(jié)和展望。
文本情感分析旨在提煉出文本信息中蘊(yùn)含的情感,作為自然語言處理領(lǐng)域的重要研究方向之一,可以根據(jù)分析方法的不同將文本情感分析分為兩個(gè)大類:一類是基于情感詞典和規(guī)則匹配的情感分析,另一類則是基于機(jī)器學(xué)習(xí)的情感分析[3]?;谇楦性~典和規(guī)則匹配的情感分析是最簡(jiǎn)單的情感分析方法,它的基本思想是將文本中的詞匯與情感詞典中的詞匯進(jìn)行匹配并賦予權(quán)重,通過所有情感詞的得分計(jì)算整段文本的情感得分從而分析出情感傾向[4]。Taboada 等[5]通過標(biāo)注了詞匯情感極向和情感強(qiáng)度的詞典設(shè)計(jì)了語意取向計(jì)算器(SO-CAL),計(jì)算情感得分得到文本的情感傾向;Wu 等[6]在現(xiàn)有情感詞典的基礎(chǔ)上構(gòu)建了微博領(lǐng)域詞典、否定詞詞典、副詞詞典等,在微博文本情感分析任務(wù)上取得了更好的效果。可以看出,基于情感詞典和規(guī)則匹配的情感分析能否取得良好的效果很大程度上依賴于情感詞典的內(nèi)容質(zhì)量,而情感詞典的構(gòu)建耗時(shí)費(fèi)力,且針對(duì)不同的任務(wù)還需要構(gòu)建相應(yīng)領(lǐng)域的詞典,跨領(lǐng)域的情感詞典很難取得良好的效果,因此使用這種方法的情感分析模型通用性不是很強(qiáng)[7]?;跈C(jī)器學(xué)習(xí)的情感分析的思想是構(gòu)建情感分析模型,通過有標(biāo)簽的訓(xùn)練數(shù)據(jù)對(duì)模型不斷地進(jìn)行訓(xùn)練,直到模型達(dá)到令人滿意的效果。Zhu 等[8]使用支持向量機(jī)(SVM)對(duì)文本進(jìn)行情感分類,同時(shí)結(jié)合基于情感詞典的樸素貝葉斯方法設(shè)計(jì)了一種集成學(xué)習(xí)模型;Zeng 等[9]使用雙重注意力模型學(xué)習(xí)各級(jí)特征權(quán)重分布,從詞語級(jí)和句子級(jí)來分析整體文本情感;Liu等[10]使用Bert 詞向量模型對(duì)文本進(jìn)行處理,得到上下文感知的詞向量,將詞向量輸入到長短時(shí)記憶網(wǎng)絡(luò)LSTM 中捕獲特征,最后使用注意力機(jī)制為輸出詞分配權(quán)重得到預(yù)測(cè)結(jié)果。相較于基于情感詞典的方法,采用機(jī)器學(xué)習(xí)方法的情感分析模型在模型的拓展性、預(yù)測(cè)準(zhǔn)確性方面都具有較大的優(yōu)勢(shì)。
由于圖片中包含的情感帶有較強(qiáng)的抽象性和主觀性,所以相較于文本情感分析,圖片情感分析更加復(fù)雜。Fu 等[11]通過HSV 顏色空間、黃金分割比例及二維Gabor 小波變換分別提取圖像的全局顏色特征、局部顏色特征和全局紋理特征,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分類,這類提取圖片的顏色、紋理、構(gòu)圖等視覺特征進(jìn)行情感分析的方法被稱為基于低級(jí)特征的方法,早期的圖片的情感分析多采用這種方式。Borth 等[12]使用1200 個(gè)形容詞-名詞對(duì)(Adjective Noun Pairs,ANP)構(gòu)建了大型視覺本體庫,提出了一種視覺概念檢測(cè)器SentiBank 用于圖片情感檢測(cè),這類方法利用到了圖片中更加復(fù)雜抽象的特征,所以被稱為基于中級(jí)特征的方法。隨著深度學(xué)習(xí)的發(fā)展,研究人員開始使用深度學(xué)習(xí)的方式來自動(dòng)獲取圖片特征。Rao 等[13]設(shè)計(jì)了一種多層CNN網(wǎng)絡(luò),通過提取圖片不同層次的深層表征,例如低級(jí)特征和高級(jí)特征,并使用全連接層進(jìn)行特征融合,從而實(shí)現(xiàn)圖片情感分類;You 等[14]使用基于遷移學(xué)習(xí)的方法,將在ImageNet 圖片數(shù)據(jù)上預(yù)訓(xùn)練好的模型遷移到目標(biāo)圖片數(shù)據(jù)上,通過對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的微調(diào)適配圖片情感分析任務(wù)。使用深度學(xué)習(xí)方式的模型不再依賴于人工提取圖片特征,泛化效果更好,近年來受到了研究人員的廣泛關(guān)注。
表1 不同的特征融合方法Table 1 Different methods of feature fusion
上述的情感分析方法均采用單模態(tài)特征,為了實(shí)現(xiàn)多模態(tài)情感分析,需要將多種特征進(jìn)行融合。一般來說,根據(jù)情感分析模型策略的不同可以將融合方式分為三類:特征層融合、決策層融合以及混合融合。
特征層融合即將多模態(tài)的特征整合為一個(gè)特征后送入到情感預(yù)測(cè)模型中進(jìn)行情感分析,它可以有效地學(xué)習(xí)到每種模態(tài)信息中的低級(jí)特征相關(guān)性。Cai等[15]使用了兩個(gè)CNN,針對(duì)社交媒體情感分析任務(wù),分別提取出社交媒體數(shù)據(jù)中的文本特征和圖片特征,將這兩種特征作為輸入,并使用多通道的CNN網(wǎng)絡(luò)進(jìn)行特征融合,實(shí)現(xiàn)多模態(tài)情感分析。決策層融合是將每個(gè)單模態(tài)特征通過各自的情感預(yù)測(cè)模型計(jì)算出預(yù)測(cè)結(jié)果后將結(jié)果進(jìn)行整合,這種方法在模態(tài)缺失的情況下也可以很好的發(fā)揮作用,容忍度較高。Cao 等[16]使用文本和圖片信息設(shè)計(jì)了微博輿情分析系統(tǒng),分別采用了基于情感詞典和ANP 檢測(cè)的方法提取文本和圖片特征分別進(jìn)行情感分析,最后通過加權(quán)融合的方式得到最終的分析結(jié)果?;旌先诤蟿t是在預(yù)測(cè)模型中共享了神經(jīng)網(wǎng)絡(luò)表示層的特征向量實(shí)現(xiàn)特征融合的效果。Zhao 等[17]提出了一種圖文一致性驅(qū)動(dòng)的多模態(tài)情感分析方法,通過傳統(tǒng)的SentiBank 方法提取中級(jí)視覺特征,同時(shí)集成文本、社交以及視覺特征,根據(jù)圖文一致性訓(xùn)練兩個(gè)情感分析器實(shí)現(xiàn)情感預(yù)測(cè)。這三種融合方法各有所長,需要根據(jù)實(shí)際任務(wù)的需要選擇合適的融合方式。
為了更有效地融合文本特征和圖片特征,度量文本中各個(gè)單詞與圖片情感表達(dá)的相關(guān)度,從而得到更精準(zhǔn)的融合特征,本節(jié)提出了一種基于圖像增強(qiáng)的文本情感分析模型TSAIE(Text Sentiment Analysis Model Based On Image Enhancement),對(duì)在ImageNet 上預(yù)訓(xùn)練的VGG19 網(wǎng)絡(luò)進(jìn)行微調(diào),用來提取圖像特征,使用雙向LSTM 機(jī)制(Bi-directional LSTM)獲取文本中的單詞嵌入表示;同時(shí)通過組合注意力特征融合模塊計(jì)算每個(gè)單詞與圖像的匹配度,為單詞分配權(quán)重,得到基于圖像增強(qiáng)的文本特征;最后將該文本特征與圖像特征拼接并輸入到全連接網(wǎng)絡(luò),從而實(shí)現(xiàn)情感分類的功能。TSAIE 模型的基本結(jié)構(gòu)如圖1所示。
圖1 TSAIE 模型結(jié)構(gòu)圖Fig.1 TSAIE model structure diagram
本文所使用的圖像均采用RGB 顏色空間的形式儲(chǔ)存,每個(gè)顏色由三個(gè)數(shù)值共同確定,圖像采用三維矩陣的形式來保存,矩陣中的每個(gè)元素為圖像在該處的RGB 值,取值范圍為(0,255)。采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)圖像進(jìn)行特征提取,卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域最具代表性的模型之一,通過卷積核在圖片的表示矩陣上進(jìn)行卷積運(yùn)算提取圖像的局部特征,并以一定的步長滑動(dòng)卷積核直到整個(gè)圖片都被處理完畢,得到圖像基于該卷積核的特征圖(feature map)[18]。特征圖中的元素計(jì)算公式如下:
*代表卷積操作,即將圖片表示矩陣中被卷積核所覆蓋部分的數(shù)字與卷積核本身對(duì)應(yīng)位置的數(shù)字相乘并求和;b代表偏置項(xiàng);σ代表激活函數(shù)。VGG19 是經(jīng)典的深度卷積神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型,模型共包含5 輪卷積池化操作,每輪操作中卷積核的大小均為3×3×n,n代表特征矩陣的深度,采用ReLU 激活函數(shù)增加模型的非線性能力,通過最大池化操作進(jìn)行特征篩選。隨著卷積過程的深入,卷積核的數(shù)目不斷增加,模型的輸入是規(guī)模為224×224×3 的圖像像素矩陣,輸出是規(guī)模為1×1×1000 的圖像特征表示向量。
VGG19 模型通過在ImageNet 大規(guī)模圖像數(shù)據(jù)集上的充分訓(xùn)練擁有了良好的特征提取及泛化能力,因此本實(shí)驗(yàn)采用預(yù)訓(xùn)練的VGG19 提取圖片的特征。為了讓VGG19 與本文的情感分析任務(wù)更加適配,本實(shí)驗(yàn)借鑒遷移學(xué)習(xí)的思想,對(duì)VGG19 的結(jié)構(gòu)進(jìn)行微調(diào),將卷積層參數(shù)固定,在最后一層全連接層外接一個(gè)包含300 個(gè)神經(jīng)元的全連接層,用于提取指定維度的圖像特征向量,如圖2所示。
在進(jìn)行文本特征提取前,首先要將文本中的單詞進(jìn)行向量化表示,本文采用Word2vec 模型生成詞向量,使用語料庫中的句子文本對(duì)模型進(jìn)行訓(xùn)練,訓(xùn)練好的模型可以將語料庫中每個(gè)單詞映射為詞向量空間中的一個(gè)向量。設(shè)文本序列其中為文本中的一個(gè)單詞,通過Word2vec 得到的詞向量為向量的維度,則整個(gè)文本序列的嵌入向量集合可以表示為
在得到文本中單詞的詞向量之后,為了增強(qiáng)單詞序列中每個(gè)單詞的表示能力,本文采用BI-LSTM對(duì)單詞序列進(jìn)行處理,為每個(gè)單詞表示融入其在單詞序列中上下文單詞的影響,其中前向LSTM 按順序處理到的數(shù)據(jù),后向LSTM 按順序處理到的數(shù)據(jù)。LSTM 的計(jì)算過程如下:
輸入特征矩陣H 進(jìn)行多頭注意力計(jì)算之后得到特征矩陣Y,然后利用殘差連接和Layer Normalizition 計(jì)算,具體公式如下:
然后對(duì)自注意力層的輸出進(jìn)行兩次線性變換,并歸一化得到編碼器的輸出,具體公式如下:
使用交叉熵作為損失函數(shù)對(duì)整個(gè)模型進(jìn)行訓(xùn)練,計(jì)算公式如下:
本文實(shí)驗(yàn)基于開源的MVSA 數(shù)據(jù)集。MVSA 是一個(gè)Twitter 圖文情感分析數(shù)據(jù)集,它由兩個(gè)獨(dú)立的數(shù)據(jù)集組成,分別是MVSA-Single 數(shù)據(jù)集和MVSAMulti 數(shù)據(jù)集,前者的每條圖文對(duì)只有一個(gè)標(biāo)注,后者的每條圖文對(duì)由三個(gè)標(biāo)注者給出。
MVSA-Single 數(shù)據(jù)集包含5,129 條圖文對(duì),MVSA-Multi 包含了19,600 條圖文對(duì)。首先對(duì)這兩個(gè)數(shù)據(jù)集進(jìn)行預(yù)處理,刪除MVSA-Single 數(shù)據(jù)集中圖片和文字標(biāo)注情感的正負(fù)極性不同的圖文對(duì),剩余的圖文對(duì)中,如果圖片或者文本的情感有一者為中性,則選擇另一個(gè)積極或者消極的標(biāo)簽作為該圖文對(duì)的情感標(biāo)簽,最終得出有效的Twitter 圖文對(duì)4,511 條。對(duì)于MVSA-Multi 中的每條數(shù)據(jù),采用投票機(jī)制,即有2 個(gè)或2 個(gè)以上的標(biāo)注者給出的情感極性標(biāo)注一致,則保留該條數(shù)據(jù),否則刪除,最終得出有效圖文對(duì)17,505 條。數(shù)據(jù)集的統(tǒng)計(jì)信息如表2所示。
表2 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)Table 2 Experimental data set statistics
本文提出一種基于圖像增強(qiáng)的文本情感分析模型(TSAIE),將其與現(xiàn)有的一些多模態(tài)情感分析模型進(jìn)行對(duì)比,其中包括2 種單文本和2 種單圖片的情感分析方法,以及3 種圖文融合情感分析方法。以下簡(jiǎn)單描述對(duì)比方法:
(1)單文本情感分析模型SentiStrenth:基于文本的語法和拼寫風(fēng)格計(jì)算情感分?jǐn)?shù)。
(2)單文本情感分析模型LSTM-Attention:對(duì)LSTM 的改進(jìn),加入了注意力機(jī)制捕獲句子長距離的依賴特征。
(3)單文本情感分析模型BILSTM-Attention:雙向的LSTM,每個(gè)時(shí)刻的輸出由前向的輸出和后向的輸出共同組成,并加入了注意力機(jī)制捕獲句子長距離的依賴特征。
(4)單圖片情感分析模型SentiBank:選取具有一定檢測(cè)精度的1200 個(gè)形容詞名詞對(duì)(ANP),為每個(gè)ANP 訓(xùn)練一個(gè)分類器,從而實(shí)現(xiàn)圖像分類。
(5)單圖片情感分析模型VggNet-19:包含了16 個(gè)卷積層和3 個(gè)全連接層的卷積神經(jīng)網(wǎng)絡(luò)。
(6)決策層面上的圖文融合情感分析模型SentiBank+SentiStrenth:將SentiBank 和SentiStrenth的結(jié)果進(jìn)行決策級(jí)的融合。
(7)圖文融合情感分析模型DCNN-LR:用卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)文本和視覺情感表示,將兩種形態(tài)信息融合在一個(gè)池化層中,并輸入到完全連接的層中進(jìn)行情感預(yù)測(cè)。
(8)圖文融合情感分析模型HSAN:使用了圖像描述的方法,提出了一種雙層的雙向LSTM。第一層是用來建模場(chǎng)景的上下文。第二層利用了基于網(wǎng)格LSTM 的注意力機(jī)制。
本文選用準(zhǔn)確率Accuracy 以及F1 值來評(píng)估本文提出的模型TSAIE 與以上對(duì)比模型的性能,計(jì)算公式如下:
其中TP 為被正確預(yù)測(cè)的正樣本數(shù)目,TN 為被正確預(yù)測(cè)的負(fù)樣本數(shù)目,F(xiàn)P 為被預(yù)測(cè)錯(cuò)誤的正樣本數(shù)目,F(xiàn)N 為被預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù)目。由于本實(shí)驗(yàn)是一個(gè)多分類問題,F(xiàn)1 值最終由各分類的F1 值進(jìn)行加權(quán)計(jì)算得出。
表3和表4分別列出了不同的情感分類方法在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果??梢钥闯?,在進(jìn)行圖像情感分類時(shí),VggNet-19 模型在兩個(gè)數(shù)據(jù)集上的準(zhǔn)確率和F1 值都遠(yuǎn)優(yōu)于SentiBank 的方法,這表明深度神經(jīng)網(wǎng)絡(luò)在圖像情感分類中較其他方法而言有更好的性能。僅使用文本進(jìn)行情感分類時(shí),基于神經(jīng)網(wǎng)絡(luò)的方法LSTM-Attention 和BILSTM-Attention 都比基于語法的SentiStrenth 方法獲得了更高的準(zhǔn)確率和F1 值,同樣顯示了深度神經(jīng)網(wǎng)絡(luò)在提取特征方面的強(qiáng)大性能。
表3 在MVSA-Single 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 3 Experimental results on MVSA-single dataset
表4 在MVSA-Multi 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 4 Experimental results on MVSA-Multi dataset
同時(shí),本文在文本特征提取部分所使用的BILSTM-Attention 與LSTM-Attention 相比,由于使用了雙向的LSTM,可以更好地捕獲雙向的語義,所以準(zhǔn)確率和F1 值在MVSA-Single 數(shù)據(jù)集上分別提高了0.82%和0.51%,在MVSA-Multi 數(shù)據(jù)集上分別提高了0.68%和0.86%。與單一模態(tài)的情感分類方法相比,多模態(tài)情感分類模型在準(zhǔn)確率和F1 值上都有更優(yōu)越的表現(xiàn),這充分說明了多模態(tài)的數(shù)據(jù)能夠更加精準(zhǔn)地判斷用戶的情感。其中,將SentiBank和SentiStrenth 相結(jié)合的方法較基于神經(jīng)網(wǎng)絡(luò)的方法DCNN 和HSAN 而言仍表現(xiàn)較差,而本文的TSAIE模型在MVSA-Single 數(shù)據(jù)集上的準(zhǔn)確率和F1 值分別為71.33% 和69.23%,比HSAN 的方法提升了3.11%和2.53%。在MVSA-Multi 數(shù)據(jù)集上的準(zhǔn)確率分別為70.38%和68.71%,比HSAN 的方法提升了1.33%和0.74%。這說明本文所提出的通過組合注意力特征融合模塊為文本中的各個(gè)單詞賦予不同的權(quán)重之后再與圖片特征進(jìn)行融合的方法是有效的。
多模態(tài)情感分析是當(dāng)下情感計(jì)算領(lǐng)域的熱點(diǎn)研究方向,其關(guān)鍵在于能有效解決各模態(tài)間特征融合的問題,從而得到更普適、更準(zhǔn)確的解析結(jié)果。本文提出了一種基于圖像增強(qiáng)的文本情感分析模型TSAIE,為多模態(tài)情感分析帶來了一種新的思路。首先,使用卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征向量;隨后,使用雙向的長短時(shí)記憶網(wǎng)絡(luò)充分挖掘雙向的文本信息;最后,通過組合注意力特征融合模塊來衡量文本中各個(gè)單詞與圖片情感表達(dá)的相關(guān)度,并通過分類器進(jìn)行情感分類得到最終的結(jié)果。通過在MVSA數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),可以證明本文方法的有效性。
本文提出的模型雖然在準(zhǔn)確率上面相較于單模態(tài)情感分析模型有一定的提升,但是仍存在一些不足之處,比如僅研究了圖片與文本的多模態(tài)組合,沒有考慮到更多的特征,下一步可以在模型的擴(kuò)展性方面展開進(jìn)一步的研究工作,而隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,利用最新的深度學(xué)習(xí)技術(shù)來解決情感分析問題也將成為未來研究的趨勢(shì)[19-20]。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。