范義飛 張貫虹 薛之芹
關(guān)鍵詞:方面級(jí)情感分析;多模態(tài);雙向長(zhǎng)短期記憶網(wǎng)絡(luò);交互注意力機(jī)制
0 引言
方面級(jí)情感分析是情感分析的基本任務(wù),旨在識(shí)別文本中特定方面的情感極性,其在商業(yè)、公共管理、社會(huì)保障等領(lǐng)域具有廣泛的實(shí)際應(yīng)用價(jià)值。先前方面級(jí)情感分析工作大多是面向文本的。隨著互聯(lián)網(wǎng)以及智能手機(jī)的不斷普及,人們逐漸進(jìn)入一個(gè)參與式的網(wǎng)絡(luò)時(shí)代,由于手機(jī)往往是手頭唯一的攝像機(jī),因此網(wǎng)絡(luò)上的文檔(如商品評(píng)論、推文等)在性質(zhì)上越來(lái)越具有多模態(tài),即除了文本內(nèi)容,還有圖片。在圖文融合方面級(jí)多模態(tài)情感分析任務(wù)中,圖片信息往往和文本信息一樣具有指示性,兩者又可以相互加強(qiáng)和補(bǔ)充,共同傳達(dá)用戶生成內(nèi)容的情感態(tài)度。在多模態(tài)數(shù)據(jù)中,文本和圖像信息常與方面情緒聯(lián)系密切。例如,對(duì)于拍照效果這一方面,用戶可以發(fā)表一些用來(lái)描述拍照效果的積極詞匯和高質(zhì)量圖片,來(lái)表達(dá)其對(duì)手機(jī)的拍照效果這一方面的滿意,或是一些負(fù)面詞匯和低質(zhì)量圖片樣本(例如低光照片中的紅色/紫色噪聲)來(lái)表達(dá)其對(duì)拍照效果的不滿。因此,與傳統(tǒng)的基于文本或圖像的單模態(tài)數(shù)據(jù)相比,多模態(tài)數(shù)據(jù)存在著各種的相關(guān)性,能夠更加全面地揭示用戶對(duì)某一方面的真實(shí)情感。
1 相關(guān)工作
目前,對(duì)于基于圖文的方面級(jí)情感分析任務(wù)研究較少,Xu等人[1]提出了MIMN模型,該模型首先采用注意力機(jī)制獲得基于方面詞的文本表示和圖片表示,然后通過(guò)多跳機(jī)制獲得兩個(gè)模態(tài)的交互表示。該工作首次將圖像模態(tài)數(shù)據(jù)引入傳統(tǒng)的基于文本的方面級(jí)情感分析任務(wù)中,填補(bǔ)了在方面層面和多模態(tài)情感分析任務(wù)交叉點(diǎn)上的研究空白。
2 模型概述
為了更好地捕捉方面詞和上下文句子及各模態(tài)間的交互作用,本文采用基于交互注意力機(jī)制與AOA(Attention-Over-Attention)[2]神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法來(lái)構(gòu)建方面級(jí)多模態(tài)情感分析模型。本文提出模型的整體結(jié)構(gòu)如圖1所示。給定一個(gè)樣本,假定多模態(tài)數(shù)據(jù)的輸入包括文本內(nèi)容T={W1,W2,...,WM}和一個(gè)圖像集合I={I1,I2,...,IK},模型的目標(biāo)是預(yù)測(cè)一個(gè)給定方面短語(yǔ)A={A1,A2,...,AN}的情感標(biāo)簽,其中L為文本上下文的長(zhǎng)度,K為圖片的數(shù)量,N為方面短語(yǔ)的長(zhǎng)度。
2.1 特征提取
2.1.1 方面詞特征提取
本文利用從百度百科語(yǔ)料庫(kù)上預(yù)訓(xùn)練的word2vec[3]生成詞向量,作為模型的輸入。本文采用雙向LSTM來(lái)獲取方面詞的上下文表示。
2.1.2 文本上下文特征提取
對(duì)于文本上下文特征提取,本文采用與方面詞特征提取相同的方式,使用雙向LSTM 來(lái)學(xué)習(xí)上下文信息。
2.1.3 圖片特征提取
由于多模態(tài)數(shù)據(jù)中的圖像通常是按順序排列的,為了對(duì)這種普遍的圖像序列信息進(jìn)行建模,本文也采用雙向LSTM模型。給定一個(gè)圖像集I={I1,I2,...,IK},首先將它們的大小統(tǒng)一調(diào)整為224×224,然后將它們輸入預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)ResNet50[4]中,并去除頂部的全連接層。
2.2 注意-過(guò)度注意網(wǎng)絡(luò)AOA
為了更好地捕捉方面和文本上下文之間的交互,筆者引入AOA神經(jīng)網(wǎng)絡(luò),其可以共同學(xué)習(xí)方面和文本的表示,并自動(dòng)關(guān)注文本中的重要部分。具體來(lái)說(shuō),將方面上下文詞表示V和文本上下文表示C作為輸入傳入AOA神經(jīng)網(wǎng)絡(luò)中,輸出最終句子表示γ。
2.3 交互注意力機(jī)制
由于在融合了圖文的多模態(tài)數(shù)據(jù)中,圖片和文本往往具有一定的相關(guān)性,為了捕獲這種相關(guān)性,本文采用交互注意力機(jī)制[5]將文本和圖片進(jìn)行交互式地建模。利用文本的隱藏狀態(tài)和圖片的隱藏狀態(tài)的平均值來(lái)監(jiān)督注意向量的生成,并采用注意力機(jī)制捕獲文本和圖片中的重要信息。通過(guò)這種設(shè)計(jì),文本和圖片可以交互式地生成它們的表示。
2.4 情感分類
最終將通過(guò)交互注意力機(jī)制得到的文本和圖片表示與先前通過(guò)AOA神經(jīng)網(wǎng)絡(luò)得到的最終句子表示γ 進(jìn)行拼接,并傳入Softmax 層預(yù)測(cè)該方面的情感得分。
3 實(shí)驗(yàn)分析
3.1 數(shù)據(jù)集
本文選取從ZOL網(wǎng)站上爬取的手機(jī)領(lǐng)域基于方面的圖文評(píng)論數(shù)據(jù)集Multi-ZOL進(jìn)行實(shí)驗(yàn)。在Multi-ZOL數(shù)據(jù)集中一共有5 288條多模態(tài)評(píng)論。每一條多模態(tài)評(píng)論中包含一個(gè)文本內(nèi)容,一個(gè)圖像集以及至少一個(gè)但不超過(guò)6個(gè)方面。這6個(gè)方面分別是性價(jià)比、性能配置、電池續(xù)航、外觀手感、拍照效果以及屏幕效果。整個(gè)數(shù)據(jù)集中有28 429個(gè)方面-評(píng)論樣本對(duì),對(duì)于每個(gè)方面,數(shù)據(jù)集的情感標(biāo)注是一個(gè)從1到10的情感得分。訓(xùn)練集、驗(yàn)證集和測(cè)試集按照8:1:1的比例劃分。
3.2 模型設(shè)置
本文利用word2vec中的skip-gram模型訓(xùn)練詞向量,詞向量的維度Dw設(shè)置為300,LSTM隱藏表示的維度Dh設(shè)置為100,圖片輸入的大小為224×224。本文利用預(yù)訓(xùn)練過(guò)的ResNet50模型去除頂部的全連接層,以提取2 048維的視覺(jué)特征向量。文本長(zhǎng)度M設(shè)置為300,方面長(zhǎng)度N設(shè)置為2,如果實(shí)際長(zhǎng)度超過(guò)設(shè)定的長(zhǎng)度,那么截?cái)?;反之,則補(bǔ)零。一條多模態(tài)評(píng)論中的圖片的最大填充數(shù)K設(shè)置為5。
本文以模型在測(cè)試集上的準(zhǔn)確率和f1值為評(píng)價(jià)指標(biāo)。在模型訓(xùn)練過(guò)程中,使用Adam[6]優(yōu)化算法來(lái)最小化交叉熵?fù)p失函數(shù),學(xué)習(xí)率設(shè)置為0.001。訓(xùn)練的批處理大小為16,訓(xùn)練輪數(shù)設(shè)置為100。本文采用了早停機(jī)制,檢測(cè)參數(shù)為驗(yàn)證集的F1值,當(dāng)F1值連續(xù)10個(gè)訓(xùn)練輪數(shù)不上升時(shí),則停止訓(xùn)練。本文所有模型的訓(xùn)練都是在GPU(NVIDIAGeforceGTX 1080) 上進(jìn)行的。
3.3 基線模型
為了驗(yàn)證本文提出的多模態(tài)方面級(jí)情感分類模型的分類性能。將該模型與幾種基線模型進(jìn)行比較。實(shí)驗(yàn)中的對(duì)比模型如下:
1) MemNet[7]:MemNet 是一個(gè)用于方面級(jí)情感分類的深度記憶網(wǎng)絡(luò),它將方面嵌入作為查詢向量,在由輸入詞嵌入疊加的記憶上使用多重注意力機(jī)制來(lái)生成深度記憶。將最后一層注意力層的輸出傳入Softmax 層用于方面級(jí)情感預(yù)測(cè)。
2) Co-Memory[8]+Aspect:是共記憶網(wǎng)絡(luò)的一種變體。除了利用共記憶注意力機(jī)制去交互性地建模文本和視覺(jué)記憶的相互影響之外,它引入了方面嵌入的平均值作為文本和視覺(jué)記憶網(wǎng)絡(luò)的輸入。
3) MIMN:MIMN通過(guò)一種多交互式記憶網(wǎng)絡(luò)來(lái)捕獲多模態(tài)數(shù)據(jù)中的多重相關(guān)性來(lái)用于方面級(jí)情感分析,其中包括方面對(duì)文本和圖像的影響,以及文本和圖像兩種模態(tài)數(shù)據(jù)之間的交互。
3.4 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)結(jié)果如表1所示,MemNet使用深度記憶網(wǎng)絡(luò)有效地捕捉了上下文詞的重要性,并且提取到了更深層次的注意力特征。但由于其僅融入了一個(gè)模態(tài)的數(shù)據(jù),表現(xiàn)并沒(méi)有其他模型突出。附加了方面嵌入的共記憶網(wǎng)絡(luò)與MemNet模型類似,但是其引用了另一種模態(tài)數(shù)據(jù),即圖像,并充分考慮了文本和圖像之間的交互作用,因而取得了比MemNet模型更好的效果。對(duì)于MIMN模型,由于其使用的多交互注意力機(jī)制不僅學(xué)習(xí)了跨模態(tài)數(shù)據(jù)引起的交互影響,還學(xué)習(xí)了單模態(tài)數(shù)據(jù)引起的自我影響。因此,它的性能優(yōu)于上述所有基線方法。但是,MIMN模型并沒(méi)有充分考慮到方面詞和文本上下文之間的關(guān)聯(lián)性,而本文提出的模型將AOA神經(jīng)網(wǎng)絡(luò)與交互注意力機(jī)制相結(jié)合,在捕捉到方面詞和上下文之間的相關(guān)性的同時(shí),也捕捉到了文本和圖片兩種模態(tài)數(shù)據(jù)之間的相關(guān)性。因此,本文提出的模型在所有的基線方法中獲得了最好的性能。
4 總結(jié)與展望
針對(duì)當(dāng)前對(duì)于方面級(jí)多模態(tài)情感分析的研究甚少,本文引入了一種基于交互注意力機(jī)制的圖文方面級(jí)情感分析方法,并嵌入了AOA神經(jīng)網(wǎng)絡(luò)來(lái)更好地捕捉方面和上下文句子之間的交互作用。最終將AOA神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的聯(lián)合特征和通過(guò)雙模態(tài)交互注意力機(jī)制得到的文本及圖像特征進(jìn)行拼接,經(jīng)過(guò)一層全連接層送至Softmax進(jìn)行情感分類。本文所提出的模型在真實(shí)數(shù)據(jù)集Multi-ZOL中進(jìn)行了實(shí)證研究,并與不同的基線模型進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果表明,本文提出的模型具有一定的優(yōu)勢(shì)。
同時(shí),本文也存在一些不足。本文對(duì)于模型的改進(jìn)主要體現(xiàn)在對(duì)上下文和方面之間的融合策略上進(jìn)行改進(jìn),對(duì)于不同模態(tài)表征之間的交互并沒(méi)有進(jìn)行過(guò)多研究。如何更好地捕捉不同模態(tài)間的關(guān)聯(lián)和交互將是未來(lái)研究的重點(diǎn)。