王順杰,蔡國(guó)永*,呂光瑞,唐煒博
1.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,桂林 541004;2.廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,桂林 541004;3.大連海事大學(xué)信息科學(xué)技術(shù)學(xué)院,大連 116026
隨著社交媒體的不斷發(fā)展,多模態(tài)情感分析日益受到關(guān)注?;诜矫娴亩嗄B(tài)情感分析(aspectlevel multimedia sentiment analysis,AMSA)是一種面向?qū)嶓w的細(xì)粒度情感分析任務(wù),旨在結(jié)合相關(guān)的模態(tài)數(shù)據(jù)源確定句子中給定方面指稱實(shí)體的情感極性。與粗粒度多模態(tài)情感分析不同,AMSA 不僅要考慮模態(tài)內(nèi)情感信息單元的潛在關(guān)聯(lián)和模態(tài)間的相互對(duì)齊,而且要聚焦方面對(duì)不同模態(tài)情感信息單元的引導(dǎo)。圖1 的左側(cè),文字中對(duì)實(shí)體“Blake Lively”并沒(méi)有表達(dá)明顯的情感,但在對(duì)應(yīng)的圖像中,“Blake Lively”的燦爛笑容卻呈現(xiàn)了積極的情感,從而決定了對(duì)實(shí)體“Blake Lively”的情感判斷。在圖1 的右側(cè),圖像信息并未明顯表達(dá)情感,但句子中“happy”則明示了對(duì)實(shí)體“David Wirght”的情感極性。通常多模態(tài)數(shù)據(jù)之間的情感和語(yǔ)義具有一定的協(xié)同性,因此挖掘多模態(tài)數(shù)據(jù)之間的協(xié)同作用至關(guān)重要;特別需要從細(xì)粒度的角度聚焦方面引導(dǎo)的文本表征和方面引導(dǎo)的圖像表征以及它們之間的情感和語(yǔ)義(下文也簡(jiǎn)稱情感語(yǔ)義或情義)的協(xié)同與對(duì)齊,然而已有的AMSA 研究對(duì)此關(guān)注還不夠。如對(duì)圖文表征融合多是粗粒度關(guān)聯(lián),對(duì)方面引導(dǎo)的細(xì)粒度局部語(yǔ)義關(guān)聯(lián)也考慮不足(Xu 等,2019;Yu 等,2020),且通常以一種模態(tài)為主,另一種模態(tài)為輔去建模關(guān)聯(lián),而對(duì)模態(tài)之間的協(xié)同性關(guān)聯(lián)挖掘不足(Yu 和Jiang,2019)。
圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)基于圖結(jié)構(gòu)中的節(jié)點(diǎn)以及邊關(guān)系來(lái)挖掘結(jié)構(gòu)或語(yǔ)法等關(guān)聯(lián)信息,不僅強(qiáng)調(diào)不同節(jié)點(diǎn)的局部表征,還能實(shí)現(xiàn)全局特征的傳播匯聚。目前,GCN 在推薦系統(tǒng)(葛堯和陳松燦,2020)、目標(biāo)分割(姚睿 等,2021),尤其在文本情感分析和圖像情感分析上得到了較多的應(yīng)用,其核心在于關(guān)聯(lián)圖的構(gòu)建。將文本轉(zhuǎn)換成文本圖的方法主要有構(gòu)建共現(xiàn)圖(Chen 等,2019a;Yang 和Cui,2021)和句法圖(Zhang 等,2019;Phan 和Ogunbona,2020)的方法,但是對(duì)句法依賴解析可能不準(zhǔn)確,尤其是對(duì)句法結(jié)構(gòu)不明顯的簡(jiǎn)短句,使得以此方法構(gòu)建的圖來(lái)挖掘文本情感語(yǔ)義存在一定的不足。對(duì)于圖像,研究者主要根據(jù)對(duì)象的情感值來(lái)定義圖像中不同對(duì)象的情感距離,并基于此距離構(gòu)建圖像的對(duì)象關(guān)系圖(Wu 等,2021;Chen 等,2019b)。然而情感語(yǔ)義具有高度復(fù)雜的多樣關(guān)聯(lián),前述基于規(guī)則構(gòu)建的關(guān)系圖,一經(jīng)確定在隨后的模型學(xué)習(xí)中是不能更新的,即不能自適應(yīng)地建模模態(tài)數(shù)據(jù)單元的情感語(yǔ)義關(guān)聯(lián)的重要性,因而其建模尚有不足;而且多模態(tài)情感分析不僅要考慮模態(tài)內(nèi)的語(yǔ)義情感關(guān)聯(lián),還要考慮多模態(tài)間的情感語(yǔ)義協(xié)同關(guān)聯(lián)。因此,前述基于規(guī)則的方法對(duì)多模態(tài)情感分析任務(wù)并不夠理想。
基于上述分析,結(jié)合最近注意力機(jī)制在自適應(yīng)學(xué)習(xí)上的成功應(yīng)用(Fukui 等,2019;Ye 等,2022),本文提出利用自注意力機(jī)制生成模態(tài)數(shù)據(jù)單元之間的關(guān)聯(lián)權(quán)重,且以模態(tài)數(shù)據(jù)單元的潛在特征為節(jié)點(diǎn),分別構(gòu)建關(guān)聯(lián)權(quán)重圖,對(duì)基于視覺和文本模態(tài)數(shù)據(jù)所構(gòu)建出的節(jié)點(diǎn)潛在語(yǔ)義關(guān)聯(lián)權(quán)重圖,下文分別稱為視覺語(yǔ)義圖和文本語(yǔ)義圖。這些潛在語(yǔ)義關(guān)聯(lián)權(quán)重的分布是連續(xù)且可更新學(xué)習(xí)的,從而可以自適應(yīng)地建模模態(tài)內(nèi)數(shù)據(jù)元素間的情義相關(guān)性,包括方面相關(guān)的模態(tài)內(nèi)的局部情義關(guān)聯(lián);其次,提出跨模態(tài)協(xié)同注意力機(jī)制來(lái)自適應(yīng)地挖掘圖像和文本之間的局部協(xié)同情義關(guān)聯(lián)。最后,采用掩碼機(jī)制選擇并融合兩個(gè)模態(tài)語(yǔ)義圖的方面詞所在節(jié)點(diǎn)的情義表征用于情感分析??傊?,本文構(gòu)建了一個(gè)方面級(jí)多模態(tài)協(xié)同注意圖卷積情感分析模型(aspect-level multimodal co-attention graph convolutional sentiment analysis model,AMCGC)用于方面級(jí)多模態(tài)情感分析,它不僅能夠同時(shí)學(xué)習(xí)方面相關(guān)的模態(tài)內(nèi)部的情感潛在關(guān)聯(lián)和上下文傳播,而且能跨層地建模方面引導(dǎo)的不同模態(tài)間的上下文細(xì)粒度語(yǔ)義關(guān)聯(lián)對(duì)齊,增強(qiáng)了模態(tài)之間的協(xié)同性,從而降低模態(tài)間的異構(gòu)鴻溝。
本文的貢獻(xiàn)主要如下:1)提出自適應(yīng)的語(yǔ)義圖生成機(jī)制,并使用正交約束來(lái)減少模態(tài)內(nèi)數(shù)據(jù)單元的語(yǔ)義重疊,從而更加精準(zhǔn)地表征模態(tài)內(nèi)的情義相關(guān)性;2)提出門控的局部跨模態(tài)交互機(jī)制,雙向地將不同模態(tài)的圖節(jié)點(diǎn)情義信息相互嵌入,以此實(shí)現(xiàn)細(xì)粒度的跨模態(tài)情義特征的協(xié)同與對(duì)齊;3)提出方面特定的掩碼設(shè)置,增強(qiáng)方面的多模態(tài)情義指向性,并引入跨模態(tài)損失來(lái)學(xué)習(xí)異質(zhì)模態(tài)的方面節(jié)點(diǎn)情義特征的一致性。
關(guān)于方面敏感的單模態(tài)數(shù)據(jù)特征學(xué)習(xí)研究中,Xu 等人(2019)利用注意力機(jī)制將單模態(tài)特征和方面詞特征拼接后生成隱狀態(tài)表示,并對(duì)注意力權(quán)值進(jìn)行歸一化,然后對(duì)單模態(tài)特征進(jìn)行加權(quán)平均得到方面敏感的單模態(tài)表示。Gu 等人(2021)基于多頭注意力機(jī)制實(shí)現(xiàn)了方面詞引導(dǎo)的單模態(tài)特征學(xué)習(xí),從而獲得方面敏感的單模態(tài)特征表示。然而,Xu等人(2019)和Gu 等人(2021)并沒(méi)有將方面信息融入到單模態(tài)上下文特征中,只是用方面特征去引導(dǎo)單模態(tài)特征,這會(huì)導(dǎo)致方面詞語(yǔ)義信息的丟失。隨后,Yu 等人(2020)將方面詞信息融入單模態(tài)特征表示中,但卻沒(méi)有將方面詞和單模態(tài)內(nèi)容進(jìn)行細(xì)粒度引導(dǎo)。雖然后來(lái)Yu 和Jiang(2019)將方面詞和圖像內(nèi)容進(jìn)行細(xì)粒度引導(dǎo),但是卻沒(méi)有將方面詞對(duì)文本內(nèi)容進(jìn)行細(xì)粒度引導(dǎo),而是將方面詞引導(dǎo)后的圖像特征來(lái)引導(dǎo)文本特征。本文構(gòu)建的AMCGC 利用自注意力機(jī)制和圖卷積網(wǎng)絡(luò)從細(xì)粒度的角度實(shí)現(xiàn)了單模態(tài)的局部語(yǔ)義關(guān)聯(lián),從而自適應(yīng)地學(xué)習(xí)方面引導(dǎo)的單模態(tài)特征表示。每一個(gè)圖節(jié)點(diǎn)特征不僅將方面信息融入局部單模態(tài)特征表示中,而且方面詞所在的節(jié)點(diǎn)特征還聚合了各自模態(tài)的全局的上下文特征。
在關(guān)于多模態(tài)特征融合的研究中,Xu 等人(2019)提出多交互記憶(multi-interactive memory network,MIMN)模型,通過(guò)多次使用注意力機(jī)制學(xué)習(xí)方面引導(dǎo)的圖像表征和文本表征以及它們之間的相互引導(dǎo),從而實(shí)現(xiàn)圖像和文本的融合。Yu 等人(2020)提出了一個(gè)實(shí)體敏感的注意力融合網(wǎng)絡(luò)(entity-sensitive attention and fusion network,ESAFN),通過(guò)使用低秩雙線性池化算子將多模態(tài)特征融合。但是,這些研究只是從粗粒度的角度實(shí)現(xiàn)多模態(tài)特征融合,并沒(méi)有考慮模態(tài)中細(xì)粒度特征的潛在關(guān)聯(lián)。Gu 等人(2021)提出一個(gè)注意力膠囊抽取和多頭融合網(wǎng)絡(luò)(attention capsule extraction and multi-head fusion network,EF-Net),通過(guò)使用多頭注意力機(jī)制來(lái)細(xì)粒度地實(shí)現(xiàn)多模態(tài)的交互對(duì)齊。Zhou等人(2021)提出一個(gè)多模態(tài)方面極性預(yù)測(cè)網(wǎng)絡(luò)(multimodal aspect polarity prediction,MMAP),通過(guò)一個(gè)可學(xué)習(xí)的參數(shù)矩陣和偏置參數(shù)將圖文模態(tài)特征表示進(jìn)行矩陣相乘操作來(lái)實(shí)現(xiàn)多模態(tài)之間的交互。Yu 和Jiang(2019)提出的目標(biāo)導(dǎo)向的多模態(tài)BERT(bidirectional encoder representation from Transformers)模 型(target-oriented multimodal BERT,TomBERT)也從細(xì)粒度的角度去探索多模態(tài)之間的交互對(duì)齊。盛振濤等人(2023)提出了面向多模態(tài)的自監(jiān)督特征融合方法,該方法通過(guò)構(gòu)建多模態(tài)負(fù)樣本空間,利用對(duì)抗對(duì)比學(xué)習(xí)能夠?qū)⒍嗄B(tài)特征有效融合。然而這些文獻(xiàn)并沒(méi)有充分探索不同模態(tài)的局部?jī)?nèi)容之間的交互對(duì)齊,也沒(méi)有充分考慮不同模態(tài)之間的協(xié)同性,甚至?xí)鸱矫嬷赶虻亩嗄B(tài)特征之間產(chǎn)生冗余和干擾噪聲。本文通過(guò)構(gòu)建交叉協(xié)同的學(xué)習(xí)機(jī)制以實(shí)現(xiàn)多模態(tài)之間的細(xì)粒度對(duì)齊與融合,從而增強(qiáng)了多模態(tài)特征之間的協(xié)同性。
GCN 是一種直接對(duì)圖進(jìn)行操作的傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的變體(Kipf等,2016)。對(duì)于圖結(jié)構(gòu)的數(shù)據(jù),GCN 對(duì)相連的節(jié)點(diǎn)進(jìn)行卷積運(yùn)算去編碼局部信息,通過(guò)多層GCN 操作,圖中的每一個(gè)節(jié)點(diǎn)都能學(xué)習(xí)到全局信息。利用圖卷積的這種性質(zhì),一些方面級(jí)情感分析任務(wù)的工作(Zhang 等,2019;Sun 等,2019)通過(guò)編碼依賴樹和合并單詞之間的依賴路徑來(lái)建立鄰接矩陣,通過(guò)圖卷積操作來(lái)學(xué)習(xí)詞匯之間的情感語(yǔ)義關(guān)聯(lián)。后來(lái)一些工作將不同類型的圖組合用于方面級(jí)文本情感分析任務(wù),比如,Zhang 和Qian(2020)設(shè)計(jì)了句法圖和詞共現(xiàn)圖,共同學(xué)習(xí)詞匯之間的情感依賴關(guān)系。在視覺情感領(lǐng)域,也有采用圖結(jié)構(gòu)來(lái)捕獲對(duì)象的情感依賴關(guān)系,比如,Wu 等人(2021)通過(guò)識(shí)別圖像中的對(duì)象,并使用SentiWordNet(sentiment word wordnet)以及情感規(guī)則來(lái)構(gòu)建這些對(duì)象的關(guān)系矩陣。Chen 等人(2019b)將GCN 與多標(biāo)簽圖像識(shí)別相結(jié)合,基于數(shù)據(jù)集中標(biāo)記的對(duì)象信息來(lái)設(shè)計(jì)加權(quán)策略構(gòu)造GCN 的關(guān)系矩陣。然而以上提到的利用圖卷積網(wǎng)絡(luò)的情感分析工作,所構(gòu)建的關(guān)系矩陣是人工設(shè)定的一些情感規(guī)則來(lái)構(gòu)建關(guān)系矩陣,并不能夠自適應(yīng)地挖掘詞匯之間或圖像局部區(qū)域之間的情感依賴關(guān)系。受到注意力機(jī)制的啟發(fā),本文采用自注意力機(jī)制來(lái)構(gòu)建關(guān)系矩陣,并正交地約束自注意力機(jī)制的學(xué)習(xí),以自適應(yīng)地挖掘抽象的情感語(yǔ)義特征關(guān)聯(lián)。
AMCGC 模型結(jié)構(gòu)如圖2 所示。它通過(guò)輸入嵌入層(圖2(a))來(lái)獲得不同模態(tài)以及方面的嵌入表示,這些表示經(jīng)過(guò)特征抽取層(圖2(b))后生成包含方面的文本詞的上下文特征以及融入方面的視覺局部上下文特征,然后將不同模態(tài)的上下文特征輸入跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層(圖2(c))進(jìn)行跨模態(tài)語(yǔ)義交互。具體地,根據(jù)不同模態(tài)的上下文特征構(gòu)建正交約束的自注意力機(jī)制分別生成視覺語(yǔ)義圖和文本語(yǔ)義圖,基于不同模態(tài)的語(yǔ)義圖,分別利用文本語(yǔ)義圖卷積和視覺語(yǔ)義圖卷積來(lái)挖掘方面指向的模態(tài)內(nèi)的局部上下文關(guān)系;而第1 個(gè)門控的局部跨模態(tài)交互機(jī)制(右側(cè))用于在視覺局部特征的引導(dǎo)下,視覺局部特征和文本局部特征的融合;第2個(gè)門控的局部跨模態(tài)交互機(jī)制(左側(cè))用于在文本局部特征的引導(dǎo)下,文本語(yǔ)義對(duì)齊后的視覺局部特征和文本局部特征的融合,以此來(lái)雙向地探索圖像和文本之間的局部情感語(yǔ)義的協(xié)同關(guān)聯(lián)。隨后,方面掩碼設(shè)置層(圖2(d))用于(左側(cè))抽取方面節(jié)點(diǎn)的特征,且使用一個(gè)跨模態(tài)損失來(lái)學(xué)習(xí)異質(zhì)方面特征的一致性。最后,融合不同模態(tài)的方面特征用于情感分類。接下來(lái),將詳細(xì)闡述AMCGC模型的細(xì)節(jié)。
圖2 方面級(jí)多模態(tài)協(xié)同注意圖卷積情感分析模型的框架(Glove詞嵌入)Fig.2 Framework of aspect-level multimodal co-attention graph convolutional sentiment analysis model(Glove embedding)((a)input embedding;(b)feature extraction;(c)pairwise graph convolution of cross-modality alternating co-attention;(d)aspect mask setting)
給定一個(gè)多模態(tài)圖像—文本對(duì)數(shù)據(jù)集D,每一個(gè)樣本d∈D都包含一個(gè)文本句子s={w1,w2,…,wτ+1,…,wτ+m,…,wn-1,wn} 和方面詞a={a1,a2,…,am}以及一個(gè)相關(guān)的圖像I,并且a屬于s的子序列,其中τ+1 代表m個(gè)方面詞在句中開始的位置。如圖2 所示,給出一條Twitter 句子“Fifth Harmony’s seats at the @ BBMAs !They are in front of Kelly Rowland and behind Kesha !”和所對(duì)應(yīng)的圖像以及方面詞“Fifth Harmony”,模型可以預(yù)測(cè)出“Fifth Harmony”是積極的。不同模態(tài)的輸入嵌入表示是多模態(tài)特征學(xué)習(xí)的基礎(chǔ),接下來(lái)分別介紹文本以及圖像的嵌入表示。
本文將分別采用Glove 嵌入(Pennington 等,2014)和BERT 嵌入(Devlin 等,2018)來(lái)得到文本的詞嵌入表示。對(duì)于使用預(yù)訓(xùn)練好的Glove 詞嵌入矩陣來(lái)得到句子及方面詞的初始嵌入向量,設(shè)初始詞嵌入向量用表示,其中dt表示詞向量的維度。因?yàn)榫渥又信c方面詞距離更近的一些詞對(duì)方面情感的貢獻(xiàn)程度更大,因此本文對(duì)每個(gè)詞的初始詞嵌入向量添加一個(gè)位置嵌入向量。每個(gè)詞的位置權(quán)重qi的計(jì)算式為
式中,qi∈R 是第i個(gè)詞與方面詞的間隔距離,將這些位置權(quán)重轉(zhuǎn)成數(shù)字編碼,再通過(guò)位置嵌入矩陣得到每個(gè)詞的位置嵌入向量,其中dp表示位置嵌入維度。通過(guò)將該詞的位置嵌入向量拼接到該詞的初始詞嵌入向量得到該詞的詞嵌入向量其中de=dt+dp。下文中將融入位置信息的文本詞嵌入矩陣記為
類似地,可以直接利用預(yù)訓(xùn)練好的BERT 來(lái)創(chuàng)建文本詞向量矩陣。由于BERT 內(nèi)部含有位置編碼,因此不再需要拼接位置向量。為了適應(yīng)BERT的數(shù)據(jù)處理方法,將給定的文本和方面詞轉(zhuǎn)換為“[CLS] +文本+[ SEP]”和“[CLS] +方面+[ SEP]”的形式。
對(duì)于圖像,先進(jìn)行預(yù)處理,即將其按中心剪切成尺寸為224 × 224 像素的圖像I,并把像素值做歸一化處理。然后采用ResNet-152(residual network-152)模型(He 等,2016)來(lái)抽取預(yù)處理好的圖像I的高層語(yǔ)義特征,即V=ResNet(I),并將V劃分成K個(gè)大小相等的視覺局部區(qū)域,即其中,dimg是每個(gè)視覺塊的維度。
在獲得文本的詞嵌入矩陣Ec之后,使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(bidirectional long short term memory,Bi-LSTM )來(lái)生成含有方面詞的文本特征的上下文序列表示,具體為
為了挖掘與方面詞最相關(guān)的圖像局部上下文情感語(yǔ)義,使用線性變換將方面特征和圖像中不同的局部特征向量映射到同一空間,然后將它們拼接成一個(gè)序列向量Ga,具體為
為了明確視覺局部區(qū)域與方面詞的具體位置,類似視覺Transformer 模型(Kolesnikov 等,2021),本文也隨機(jī)初始化一個(gè)可學(xué)習(xí)的位置參數(shù)矩陣對(duì)應(yīng)融入到Ga的序列特征中,具體為
在獲得融入位置信息的序列特征表示Gs之后,類似式(2)—(4)使用Bi-LSTM來(lái)獲得Gs的融入方面詞的視覺局部特征的上下文序列Hg=其中表示視覺特征學(xué)習(xí)后的第i個(gè)局部區(qū)域或方面特征隱狀態(tài)向量,dh表示單向LSTM的隱狀態(tài)維度。
跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層(圖2(c))由正交約束的自注意力機(jī)制、文本語(yǔ)義圖卷積、視覺語(yǔ)義圖卷積以及兩個(gè)不同方向的門控的局部跨模態(tài)交互機(jī)制構(gòu)成,該層網(wǎng)絡(luò)能夠自適應(yīng)地挖掘方面指向的模態(tài)內(nèi)數(shù)據(jù)單元的局部情義關(guān)聯(lián)以及圖像和文本數(shù)據(jù)單元之間的局部協(xié)同情義關(guān)聯(lián)。下面分別闡述這些組件。
2.3.1 正交約束自注意力機(jī)制
自注意力(Vaswani等,2017)能夠計(jì)算每一對(duì)特征向量的注意力分?jǐn)?shù),它可以更好地建模不同模態(tài)的上下文語(yǔ)義依賴關(guān)系。在本文中,使用自注意力機(jī)制來(lái)計(jì)算注意力得分矩陣,并將其作為文本語(yǔ)義圖卷積或視覺語(yǔ)義圖卷積的輸入。關(guān)于文本的注意力分?jǐn)?shù)矩陣Tes∈Rn×n計(jì)算為
式中,Hs是含有方面詞的文本特征的上下文序列表示都是可學(xué)習(xí)的權(quán)重矩陣。另外,d是輸入節(jié)點(diǎn)的維度。
關(guān)于圖像的注意力分?jǐn)?shù)矩陣Ges∈R(k+1)×(k+1)計(jì)算為
然而,對(duì)于文本或圖像,模態(tài)內(nèi)部的數(shù)據(jù)單元局部情感語(yǔ)義關(guān)系應(yīng)該被盡可能地明確建模,增強(qiáng)模態(tài)內(nèi)局部特征的判別性。因此,本文在注意力分?jǐn)?shù)矩陣的基礎(chǔ)上設(shè)計(jì)正交約束的策略來(lái)實(shí)現(xiàn)這一目的。以文本為例,與每個(gè)詞相關(guān)聯(lián)的詞位于句子中不同的局部位置,而將含有方面詞的文本特征的上下文序列表示Hs通過(guò)自注意力機(jī)制生成的關(guān)系矩陣Tes往往包含一些重疊的情感語(yǔ)義。為了使Tes的情感語(yǔ)義分布盡可能地減少重疊,通過(guò)正交約束策略以調(diào)整Tes中的語(yǔ)義注意力關(guān)聯(lián)分?jǐn)?shù),從而更好地捕獲不同局部信息的關(guān)聯(lián)性指向情義。對(duì)于圖像中局部語(yǔ)義的建模亦是如此。
為了改進(jìn)文本的語(yǔ)義關(guān)聯(lián)矩陣的表示,給定文本的注意力分?jǐn)?shù)矩陣Tes∈Rn×n,則關(guān)于文本模態(tài)的Tes的正交約束表述為
式中,I表示單位陣,下標(biāo)F 代表Frobenius 范數(shù)。在模型訓(xùn)練過(guò)程中,通過(guò)Rc約束會(huì)讓Tes(Tes)Τ的每一個(gè)非對(duì)角元素最小化,使得矩陣Tes趨于正交,微調(diào)文本模態(tài)的注意力分?jǐn)?shù)矩陣Tes,從而得到更具判別性的文本特征表示。
同理,關(guān)于視覺模態(tài)的注意力分?jǐn)?shù)矩陣Ges的正交約束表述為
式中,I和下標(biāo)F 含義同等式(10)。類似文本模態(tài),視覺模態(tài)注意力分?jǐn)?shù)矩陣Ges在訓(xùn)練過(guò)程中通過(guò)Rg的約束學(xué)習(xí)以趨于正交,從而降低視覺區(qū)域之間的注意力重合,自適應(yīng)地學(xué)習(xí)各自模態(tài)中不同局部區(qū)域的上下文依賴程度和視覺特征的判別性。
2.3.2 文本語(yǔ)義圖卷積
基于文本語(yǔ)義圖,利用圖卷積操作,進(jìn)一步抽取文本語(yǔ)義圖節(jié)點(diǎn)表征集合,具體為
此時(shí),文本語(yǔ)義圖中方面詞節(jié)點(diǎn)的表征聚合了全體文本的重要情義信息,從而可以緩解方面的情感極性通常是由關(guān)鍵短語(yǔ)而不是單個(gè)詞決定的問(wèn)題(Chuang等,2018)。
2.3.3 視覺語(yǔ)義圖卷積
類似文本語(yǔ)義圖卷積,基于視覺語(yǔ)義圖,利用圖卷積操作得到處理后視覺語(yǔ)義圖節(jié)點(diǎn)表示具體為
此時(shí),視覺語(yǔ)義圖中節(jié)點(diǎn)表示不僅學(xué)習(xí)了方面與圖像的局部區(qū)域之間的語(yǔ)義關(guān)聯(lián),而且方面詞節(jié)點(diǎn)也學(xué)習(xí)到了圖像中局部區(qū)域的上下文情義特征,建模了與方面有關(guān)的視覺區(qū)域。
2.3.4 門控的局部跨模態(tài)交互機(jī)制
門控的局部跨模態(tài)交互機(jī)制用來(lái)建模文本中的詞和圖像中不同區(qū)域之間的語(yǔ)義對(duì)齊,結(jié)構(gòu)如圖3所示。為了學(xué)習(xí)每個(gè)視覺局部區(qū)域中最相關(guān)的文本詞,將經(jīng)過(guò)一層視覺語(yǔ)義圖卷積操作后的每個(gè)圖節(jié)點(diǎn)表示依次與經(jīng)過(guò)一層文本語(yǔ)義圖卷積操作后的圖節(jié)點(diǎn)表示進(jìn)行交互。受到VQA(visual question answering)(Kim 等,2016)在跨模態(tài)關(guān)聯(lián)學(xué)習(xí)的啟發(fā),將兩個(gè)特征向量(即視覺模態(tài)中第i個(gè)圖節(jié)點(diǎn)向量和文本模態(tài)中第j個(gè)圖節(jié)點(diǎn)向量,分別來(lái)自)進(jìn)行線性變換,然后融合兩者的特征,具體為
圖3 門控的跨模態(tài)局部交互機(jī)制Fig.3 Gated cross-modal local interaction mechanism((a)image-guided text alignment fusion;(b)text-guided image alignment fusion)
將融合后的向量Xij進(jìn)行線性變換,通過(guò)softmax操作獲得歸一化的注意力分?jǐn)?shù)αij,具體為
注意力分?jǐn)?shù)αij可以用來(lái)關(guān)注視覺模態(tài)任一圖節(jié)點(diǎn)特征對(duì)應(yīng)的文本模態(tài)中所有圖節(jié)點(diǎn)特征的注意力強(qiáng)度,則視覺模態(tài)中任一圖節(jié)點(diǎn)特征所關(guān)聯(lián)的文本模態(tài)的特征表示ti計(jì)算為
式中,Wf和bf表示權(quán)重矩陣和偏置參數(shù)。ui表示視覺模態(tài)圖節(jié)點(diǎn)相對(duì)于該圖節(jié)點(diǎn)的文本特征ti的重要性程度,而1 -ui控制視覺模態(tài)中該圖節(jié)點(diǎn)特征的重要性?!啊恪北硎局鹪叵喑?。圖3(a)展示了文本融入圖像的門控的局部跨模態(tài)交互機(jī)制過(guò)程。與此類似,獲得融入文本語(yǔ)義圖表示信息的視覺圖節(jié)點(diǎn)特征表示
為了充分探索文本局部情義融入視覺局部情義的協(xié)同關(guān)聯(lián),基于融入文本信息的視覺特征節(jié)點(diǎn)表示為又進(jìn)行一次圖卷積操作以更充分地學(xué)習(xí)跨模態(tài)情感語(yǔ)義關(guān)聯(lián),從而得到深層次的視覺語(yǔ)義圖節(jié)點(diǎn)表示式(14)—(18)描述了以視覺模態(tài)中不同圖節(jié)點(diǎn)為中心來(lái)引導(dǎo)文本上下文的交叉注意力,并門控地融合視覺模態(tài)中每個(gè)圖節(jié)點(diǎn)和與其最相關(guān)的文本上下文信息。為了充分挖掘跨模態(tài)之間的交互,接下來(lái),進(jìn)一步探索文本模態(tài)中以不同的圖節(jié)點(diǎn)特征來(lái)引導(dǎo)視覺上下文的注意力交互。
2.4.1 方面特定的掩碼機(jī)制
為了明確地體現(xiàn)方面的語(yǔ)義指向性以及盡可能地減少特征的冗余,設(shè)計(jì)方面特定的掩碼機(jī)制來(lái)提取不同模態(tài)中方面節(jié)點(diǎn)的特征表示。由于經(jīng)過(guò)跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積學(xué)習(xí)后,不同模態(tài)中的方面節(jié)點(diǎn)信息已經(jīng)聚合了模態(tài)內(nèi)的上下文情義關(guān)聯(lián)的信息,而且還包含了跨模態(tài)細(xì)粒度的上下文交互特征。因此,只選出方面節(jié)點(diǎn)表示用于情感判斷。具體地,將方面特定的掩碼機(jī)制作用于跨模態(tài)交互后的不同模態(tài)的特征
最后,將方面級(jí)多模態(tài)情義表示Ral輸入到softmax層用以產(chǎn)生情感概率分布y,具體為
式中,Wp和bp是可訓(xùn)練的權(quán)重和偏置。
2.4.2 跨模態(tài)損失
距離度量學(xué)習(xí)是由 Xing 等人(2002)提出的,其思路是計(jì)算兩個(gè)特征向量a和b的距離,通過(guò)描述它們之間的距離關(guān)系,從而度量它們的相似度。因此,為了探索異質(zhì)的方面情義特征之間的一致性,本文利用跨模態(tài)損失來(lái)約束不同模態(tài)情義特征空間表征的相似性,使其在特征空間上更加接近,約束式為
式中,O表示異質(zhì)的方面特征的距離,通過(guò)最小化O來(lái)探索不同模態(tài)的情義特征的一致性關(guān)聯(lián)。
AMCGC是一個(gè)端到端的學(xué)習(xí)過(guò)程,通過(guò)設(shè)計(jì)多損失函數(shù)來(lái)聯(lián)合優(yōu)化模型的參數(shù),其優(yōu)化的總目標(biāo)函數(shù)為
式中,λ1,λ2為正則化系數(shù)。? 是一個(gè)標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),其定義為
式中,N表示訓(xùn)練數(shù)據(jù)集的樣本數(shù)。
3.1.1 數(shù)據(jù)集
采用Yu 和Jiang(2019)標(biāo)注的兩個(gè)公開基準(zhǔn)數(shù)據(jù)集,即Twitter-2015 和Twitter-2017 來(lái)評(píng)估本文AMCGC 模型。這兩個(gè)數(shù)據(jù)集均提供了每條推文的方面詞以及3 種情感極性標(biāo)簽。兩個(gè)數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 兩個(gè)多模態(tài)Twitter數(shù)據(jù)集的基本統(tǒng)計(jì)Table 1 The basic statistics of two multimodal Twitter datasets
3.1.2 參數(shù)設(shè)置
在實(shí)驗(yàn)中,對(duì)于文本,將最大填充長(zhǎng)度設(shè)置為60,并分別使用不同詞嵌入方式,即Glove 嵌入和BERT 嵌入。如果使用Glove 嵌入,詞嵌入和方面嵌入向量的維度設(shè)置成100,在訓(xùn)練過(guò)程中保持固定。如果使用BERT 嵌入,詞向量的維度設(shè)置成768,且在訓(xùn)練過(guò)程中進(jìn)行微調(diào)。而每幅圖像被分成49 個(gè)視覺塊,每個(gè)視覺塊的特征維度大小為2 048,且在訓(xùn)練過(guò)程中固定ResNet 中的所有參數(shù)。對(duì)于AMCGC 模型,使用預(yù)訓(xùn)練的100 維Glove 嵌入矩陣來(lái)初始化詞嵌入向量。對(duì)于AMCGC+BERT 模型,使用預(yù)訓(xùn)練好的768 維的bert-base-uncased 來(lái)初始化嵌入向量。在訓(xùn)練過(guò)程中使用Adam(Kingma 和Ba,2014)優(yōu)化器,其初始學(xué)習(xí)率設(shè)定為0.002。此外,batch size 大小設(shè)置為8。正則系數(shù)λ1和λ2分別設(shè)置成0.2 和0.15。基于PyTorch 來(lái)實(shí)現(xiàn)所提出的AMCGC 和AMCGC+BERT 模型,并在NVIDIA Tesla P100-PCIE GPU 上運(yùn)行實(shí)驗(yàn)。通過(guò)準(zhǔn)確率(accuracy,ACC)和Macro-F1 值作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比分析。
為了評(píng)估AMCGC 方法的性能,本文選擇以下方面級(jí)情感分析模型作為基線用于對(duì)比分析。
1)Img-Aspec(timage-aspect)。該模型是本文所提模型中僅涉及視覺和方面的處理分支,即通過(guò)輸入嵌入層和特征抽取層以及視覺語(yǔ)義圖卷積模塊來(lái)提取視覺情感語(yǔ)義特征,并利用掩碼機(jī)制選出方面詞的情義特征用于情感分類。
2)Res-Target(residual-target)。該模型是Yu 和Jiang(2019)提出的一個(gè)對(duì)比變體,僅將圖像和方面詞經(jīng)過(guò)特征提取后,再拼接輸入BERT 用于方面級(jí)情感分類。
3)Text-Aspect。該模型是本文模型中僅涉及文本的處理分支,即通過(guò)輸入嵌入層和特征抽取層以及文本語(yǔ)義圖卷積模塊來(lái)提取文本情感語(yǔ)義特征,并利用掩碼機(jī)制選出方面詞的情義特征用于情感分類。
4)MemNet(deep memory network)(Tang 等,2016)。該模型使用方面詞作為查詢的記憶模型。在詞嵌入和位置嵌入的基礎(chǔ)上,采用多跳注意力機(jī)制更新存儲(chǔ)的記憶,從而實(shí)現(xiàn)深度記憶。
5)RAM(recurrent attention network)(Chen 等,2017)。該模型采用多注意力機(jī)制來(lái)捕獲距離較遠(yuǎn)的情感特征,然后將多個(gè)注意力的輸出與GRU 網(wǎng)絡(luò)結(jié)合來(lái)增強(qiáng)全局記憶的表達(dá)能力。
6)MGAN(multi-grained attention network)(Fan等,2018)。該模型采用注意力機(jī)制在詞匯級(jí)別上學(xué)習(xí)方面和文本的交互,然后使用注意力學(xué)習(xí)方面和文本的整體交互,最后將兩者拼接用于情感極性的預(yù)測(cè)。
7)Res-RAM(residual recurrent attention network)、Res-MGAN(residual multi-grained attention network)和Res-ESTR(residual entity sensitive textual representation)。這3 個(gè)模型是Hazarika 等人(2018)提出的多模態(tài)融合方法的3 種變體,它們首先在視覺特征上應(yīng)用最大池化獲得g=MaxPoo(lR),然后將g和RAM、MGAN 的文本表示相關(guān)聯(lián)后用于情感分類。
8)Res-RAM-TFN(Res-RAM-Tensor fusion network)和Res-MGAN-TFN(Res-MGAN-Tensor fusion network)。這兩個(gè)模型是多模態(tài)融合方法(Zadeh等,2017)的兩個(gè)變體,它們使用雙線性交互算子將g與MGAN 的文本表示通過(guò)復(fù)雜的融合矩陣相結(jié)合,并將得到的矩陣送入推理網(wǎng)絡(luò)后用于情感分類。
9)MIMN(Xu 等,2019)。該模型采用多跳記憶網(wǎng)絡(luò)對(duì)方面詞、文本和視覺之間的交互注意進(jìn)行建模。
10)ESAFN(Yu 等,2020)。該模型采用注意力機(jī)制生成實(shí)體敏感文本表示和實(shí)體敏感視覺表示,并使用門控以消除帶有噪音的視覺信息,然后將文本和視覺表示進(jìn)行交互以用于多模態(tài)情感分類。
11)EF-Net(Gu 等,2021)。該模型采用自注意力獲得模態(tài)內(nèi)部動(dòng)態(tài),然后采用多頭注意力將多模態(tài)特征進(jìn)行融合。
12)TomBERT(Yu 和Jiang,2019)。采用經(jīng)典的BERT 模型來(lái)實(shí)現(xiàn)方面引導(dǎo)多模態(tài)特征和多模態(tài)的交互融合。
13)AMCGC。本文提出的AMCGC 模型中,使用Glove嵌入得到文本嵌入表示。
14)AMCGC+BERT。本文提出的AMCGC 模型中,使用預(yù)訓(xùn)練的BERT來(lái)得到文本嵌入表示。
本文方法以及對(duì)比方法的實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可知,對(duì)于基于Glove 詞嵌入的模型,提出的AMCGC 取得最好的性能,說(shuō)明該模型能充分捕捉方面指向的模態(tài)內(nèi)部的局部語(yǔ)義關(guān)聯(lián)以及多模態(tài)之間不同局部信息的情感語(yǔ)義協(xié)同性關(guān)聯(lián)。另外,從表2 中可發(fā)現(xiàn)Img-Aspect 的性能相當(dāng)有限,獲得大約60%的準(zhǔn)確率,這表明文本內(nèi)容對(duì)于方面級(jí)情感分類是非常重要的,不應(yīng)該忽略。其次,從表2中可以看出,Res-RAM、Res-MGAN 優(yōu)于僅使用文本數(shù)據(jù)的RAM、MGAN,并且優(yōu)于使用文本數(shù)據(jù)的MemNet模型,這意味著關(guān)聯(lián)圖像確實(shí)能夠?qū)ξ谋咎峁┗パa(bǔ)信息。此外,Res-RAM、Res-MGAN 和Res-RAM-TFN、Res-MGAN-TFN 這4 個(gè)模型的區(qū)別是TFN 融合模塊,然而使用TFN 融合方法的性能卻出現(xiàn)下降,這說(shuō)明基于TFN 的融合并不適合細(xì)粒度的方面級(jí)多模態(tài)情感分類。另外,MINI 效果也較好,這表明將方面引導(dǎo)的文本和方面引導(dǎo)視覺進(jìn)行交互是有效的,但是由于MINI模型主要基于一個(gè)相對(duì)較弱的MemNet 模型,所以它的性能仍然略差于Res-ESTR。ESAFN 模型僅從全局的角度來(lái)進(jìn)行方面引導(dǎo)多模態(tài),而且缺乏細(xì)粒度的多模態(tài)之間的交互,所以它的效果并不理想。EF-Net模型總體上優(yōu)于大多數(shù)基線方法,這表明注意力機(jī)制在方面級(jí)多模態(tài)情感分析中是不可或缺的。但是由于EF-Net 模型僅僅是使用注意力機(jī)制來(lái)進(jìn)行多模態(tài)交互,而本文提出的AMCGC 模型的情感分類性能要好于EF-Net 模型,這表明更合理的注意力機(jī)制的設(shè)計(jì)是必要的。
表2 AMCGC和基線模型的性能Table 2 Performance of AMCGC and baseline models
對(duì)于使用BERT 預(yù)訓(xùn)練模型來(lái)得到向量表示而言,本文提出的AMCGC+BERT 模型的性能也好于TomBERT 模型。TomBERT 模型通過(guò)堆疊BERT 來(lái)對(duì)方面和圖像進(jìn)行對(duì)齊并捕捉模態(tài)內(nèi)的動(dòng)態(tài)和模態(tài)間的交互。然而TomBERT 只將方面引導(dǎo)圖像,并沒(méi)有將方面引導(dǎo)文本。而本文提出的AMCGC+BERT模型不僅將方面引導(dǎo)圖像,而且將方面引導(dǎo)文本,而且利用圖卷積網(wǎng)絡(luò)從局部的角度來(lái)考慮多模態(tài)的交互對(duì)齊,這也表明AMCGC+BERT 中方面引導(dǎo)多模態(tài)的有效性以及以交叉協(xié)同的方式進(jìn)行多模態(tài)交互的優(yōu)勢(shì)。另外,如表2 所示,基于BERT 預(yù)訓(xùn)練的AMCGC+BERT 要比基于Glove 的AMCGC 好,這表明基于大規(guī)模預(yù)訓(xùn)練的模型獲得詞的表示更具優(yōu)勢(shì)。總體而言,本文方法對(duì)方面級(jí)多模態(tài)情感分析是合理且有效的。
為了評(píng)估本文方法中不同模塊的有效性,分別從正交約束、跨模態(tài)損失、交叉協(xié)同多模態(tài)融合方式的角度來(lái)對(duì)模型進(jìn)行消融研究。在Twitter-2015 和Twitter-2017 這兩個(gè)數(shù)據(jù)集上做消融實(shí)驗(yàn),且保證所有的訓(xùn)練參數(shù)都一樣,并選擇準(zhǔn)確率和Macro-F1 作為評(píng)價(jià)指標(biāo)。消融方案如下:
1)CML(cross modal loss)。在方面掩碼設(shè)置層中,無(wú)跨模態(tài)損失,其他模塊保留。
2)OC(orthogonal constraints)。在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層中,文本語(yǔ)義圖和視覺語(yǔ)義圖沒(méi)有使用正交約束規(guī)則,其他模塊保留。
3)MLOC(cross modal loss and orthogonal constraints)。在方面特定的掩碼機(jī)制中,無(wú)跨模態(tài)損失。文本語(yǔ)義圖和視覺語(yǔ)義圖沒(méi)有使用正交約束,其他模塊保留。
4)IGTF(image-guided text fusion)。在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積學(xué)習(xí)中,針對(duì)門控的局部跨模態(tài)交互機(jī)制,沒(méi)有使用圖像引導(dǎo)文本的對(duì)齊融合機(jī)制,其他模塊保留。
5)TGIF(text-guided image fusion)。在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積學(xué)習(xí)中,針對(duì)門控的局部跨模態(tài)交互機(jī)制,沒(méi)有使用文本引導(dǎo)圖像的對(duì)齊融合機(jī)制,其他模塊保留。
6)CMIM(cross-modal interaction mechanism)。在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積學(xué)習(xí)中,針對(duì)門控的局部跨模態(tài)交互機(jī)制,既沒(méi)有使用圖像引導(dǎo)文本的對(duì)齊融合機(jī)制,也沒(méi)有使用文本引導(dǎo)圖像的對(duì)齊融合機(jī)制,其他模塊保留。
7)NOPA(no average pooled aspect)。在特征提取操作中,將沒(méi)有進(jìn)行平均池化的方面詞拼接到圖像特征之后。
8)MGN(multimodal graph nodes)。在方面特定的掩碼機(jī)制中,將文本圖節(jié)點(diǎn)表征和視覺圖節(jié)點(diǎn)表征的所有節(jié)點(diǎn)分別進(jìn)行平均池化,然后融合用于情感分類。
表3 展示了本文模型消融實(shí)驗(yàn)的對(duì)比結(jié)果。首先為了證明在方面特定的掩碼機(jī)制中跨模態(tài)損失的有效性,在模型中去掉跨模態(tài)損失,如表3 所示,CML 在Twitter-2015 數(shù)據(jù)集和Twitter-2017 數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到74.15%和67.59%,而提出的AMCGC 模型在這兩個(gè)Twitter 數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到75.41%和68.96%,這表明跨模態(tài)損失對(duì)于拉進(jìn)異質(zhì)方面詞特征的一致性是有效的,從而提高方面級(jí)多模態(tài)情感分析的準(zhǔn)確率。另外,為了證明跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積模塊中,對(duì)注意力矩陣進(jìn)行正交約束的有效性,本文分別移除了文本語(yǔ)義注意力矩陣和圖像語(yǔ)義注意力矩陣中的正交約束,OC 在Twitter-2015 數(shù)據(jù)集和Twitter-2017 數(shù)據(jù)集上的準(zhǔn)確率分別下降了1.84%和0.89%,而且Macro-F1 值分別下降了2.76%和0.43%,這表明對(duì)語(yǔ)義注意力矩陣進(jìn)行正則化是有益的,這也說(shuō)明了降低語(yǔ)義重疊是非常有必要的。更重要的是,當(dāng)既不使用跨模態(tài)損失也不使用正交規(guī)則的時(shí)候,MLOC 的準(zhǔn)確率和Macro-F1 值在Twitter-2015 數(shù)據(jù)集上,MLOC 的準(zhǔn)確率和Macro-F1 值分別下降1.83%和2.95%,而在Twitter-2017 數(shù)據(jù)集上僅僅只能達(dá)到65.15% 和61.27%,性能指標(biāo)分別下降3.81%和4.09%,這說(shuō)明在多模態(tài)情感分析中,多模態(tài)之間的異質(zhì)性非常影響模型性能,而且模態(tài)內(nèi)更加明確的語(yǔ)義依賴對(duì)模型性能的提升也非常必要。
表3 在Twitter-2015和Twitter-2017上的消融實(shí)驗(yàn)Table 3 Ablation experiments on Twitter-2015 and Twitter-2017
此外,本文還驗(yàn)證了跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層中兩處門控的局部跨模態(tài)交互機(jī)制的影響,無(wú)論刪除其中的哪一個(gè)門控的局部跨模態(tài)融合,在Twitter-2015 數(shù)據(jù)集還是在Twitter-2017 數(shù)據(jù)集上,模型的性能都有所下降。而且當(dāng)兩個(gè)門控的局部跨模態(tài)融合都不使用時(shí),在Twitter-2015 和Twitter-2017 數(shù)據(jù)集上,CMIM 的準(zhǔn)確率相比AMCGC 分別下降0.87%和2.91%,這說(shuō)明基于交叉協(xié)同方式進(jìn)行多模態(tài)情義交互是有用的,且文本和圖像的多重交互對(duì)齊能挖掘更豐富的跨模態(tài)的局部細(xì)節(jié)信息,從而提升方面級(jí)多模態(tài)情感分析的準(zhǔn)確率。通過(guò)以上分析,本文所提出的AMCGC 模型的性能優(yōu)于所有的消融實(shí)驗(yàn),這表明AMCGC 模型中的每一個(gè)模塊都是有用且合理的。
另外,在特征提取操作中,AMCGC 將方面平均聚合后融入到視覺序列特征后面來(lái)挖掘方面導(dǎo)向的視覺上下文特征,為了表明該策略中方面平均聚合的有效性,如表4 所示,在特征抽取中,當(dāng)不把方面詞進(jìn)行平均池化去融入圖像序列時(shí),在Twitter-2015數(shù)據(jù)集和Twitter-2017 數(shù)據(jù)集中,NOPA 的準(zhǔn)確率相比本文AMCGC 模型分別下降了1.83%和1.38%,Macro-F1 值分別下降了2.82%和4.52%,這說(shuō)明方面詞的處理對(duì)模型的性能影響比較大。當(dāng)不把方面詞序列進(jìn)行平均池化時(shí),引入的噪聲會(huì)更大,不利于方面詞注意到與其更具關(guān)聯(lián)的圖像區(qū)域。
表4 在Twitter-2015和Twitter-2017上的方面聚合融入圖像的有效性Table 4 Effectiveness of aspect aggregation incorporating images on Twitter-2015 and Twitter-2017
為了驗(yàn)證在方面特定的掩碼機(jī)制中,將文本圖節(jié)點(diǎn)特征和視覺圖節(jié)點(diǎn)特征全都用于情感判斷,是否會(huì)帶來(lái)特征冗余,開展實(shí)驗(yàn),結(jié)果如表5 所示,MGN 的效果相比AMCGC 在Twitter-2015 和Twitter-2017 數(shù)據(jù)集上的準(zhǔn)確率分別下降了1.93% 和1.46%,這說(shuō)明將多模態(tài)圖節(jié)點(diǎn)表示全部用于情感判斷,會(huì)帶來(lái)特征冗余,從而降低模型的性能。
表5 在Twitter-2015和Twitter-2017上的異質(zhì)方面節(jié)點(diǎn)融合的有效性Table 5 Effectiveness of heterogeneous node fusion on Twitter-2015 and Twitter-2017
為了研究AMCGC 中幾個(gè)關(guān)鍵成分的影響和敏感性,本文進(jìn)一步分析了一些超參數(shù)的設(shè)置。
3.4.1 圖像區(qū)域數(shù)量K的選擇
為了探索圖像區(qū)域數(shù)量K對(duì)模型性能的影響,分別將K設(shè)置為16、36、49 和64,在Twitter-2017 數(shù)據(jù)集和Twitter-2015 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果如圖4 所示,隨著K的變化,模型的性能也會(huì)發(fā)生變化。當(dāng)K=49 時(shí),分類效果最好。K越小或越大,性能都不好。這主要是因?yàn)檩^少的視覺區(qū)域?qū)?dǎo)致視覺特征局部粒度的缺乏,影響多模態(tài)細(xì)粒度的對(duì)齊。而視覺區(qū)域數(shù)量較多時(shí),會(huì)導(dǎo)致視覺特征的局部粒度過(guò)于細(xì)膩,文本局部特征和圖像局部特征之間的對(duì)齊紊亂,產(chǎn)生視覺噪聲,從而影響模型的效果。因此在最終的實(shí)驗(yàn)中,將圖像區(qū)域的數(shù)量K設(shè)置為49。
圖4 圖像區(qū)域數(shù)量的影響Fig.4 The effect of the number of image areas
3.4.2 正交約束項(xiàng)權(quán)重分析
在消融部分已經(jīng)證明了在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層中,對(duì)文本語(yǔ)義圖和視覺語(yǔ)義圖使用正交約束是有用的。為了探索合適的正交約束系數(shù),即總損失函數(shù)式(30)中,文本模態(tài)正交約束系數(shù)λ1和圖像模態(tài)正交約束系數(shù)λ2的參數(shù)設(shè)置,本文在Twitter-2017 和Twitter-2015 數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn),并報(bào)告了在最終目標(biāo)函數(shù)中各個(gè)模態(tài)的正交約束權(quán)重的結(jié)果。
實(shí)驗(yàn)結(jié)果如圖5 所示,當(dāng)λ1和λ2都小于0.1 或都大于0.3 的時(shí)候,模型效果欠佳。在這兩個(gè)數(shù)據(jù)集中λ1和λ2的變化趨勢(shì)是一致的,當(dāng)λ1和λ2都等于0.15,AMCGC模型效果達(dá)到最好。這表明有必要探討模態(tài)內(nèi)局部特征的判別性分析,但過(guò)分強(qiáng)調(diào)它可能導(dǎo)致模型在基于方面的多模態(tài)情感分析任務(wù)中表現(xiàn)不佳。
圖5 多模態(tài)正交約束權(quán)重對(duì)模型的影響(λ1=λ2)Fig.5 Influence of multi-modal orthogonal constraint weight on the model(λ1=λ2)((a)Twitter-2017;(b)Twitter-2015)
由于圖像特征和文本特征在情感判斷的貢獻(xiàn)上是相輔相成的,但是情感貢獻(xiàn)度應(yīng)該是不一樣的,因?yàn)槲谋镜恼Z(yǔ)義相比圖像可能會(huì)更豐富。因此做出猜想,λ1和λ2的值應(yīng)該是不一樣的。假設(shè)文本模態(tài)內(nèi)數(shù)據(jù)單元的正交化系數(shù)λ1稍大于圖像模態(tài)的數(shù)據(jù)單元正交化系數(shù)λ2,并進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)驗(yàn)證了做出的猜想是正確的,即,當(dāng)λ1=0.2,λ2=0.15 時(shí),AMCGC 模型達(dá)到最佳性能。這可能由于文本模態(tài)的語(yǔ)義比圖像模態(tài)的語(yǔ)義更加豐富,導(dǎo)致文本模態(tài)內(nèi)數(shù)據(jù)單元的語(yǔ)義比圖像模態(tài)內(nèi)數(shù)據(jù)單元的語(yǔ)義相似度高,因此,文本模態(tài)的正交系數(shù)λ1比圖像模態(tài)的正交系數(shù)λ2要更大一些,以使文本模態(tài)內(nèi)數(shù)據(jù)單元更具判別性。
圖6 展示了針對(duì)自注意力機(jī)制在視覺和文本的可視化的示例。對(duì)于文本“RT @ KatCallaghan:Thanks to Julie and everyone @ BioreCanada for the Welcome to @ Z1035Toronto gift !”,對(duì)應(yīng)圖像如圖6(a)所示。句子中的方面詞是“Julie”,從圖6(b)可以看出,AMCGC 模型更加關(guān)注蝴蝶結(jié)。此外,“Thank”,“everyone”,“Welcome”,“gift”詞的權(quán)重更大,如圖6(c)所示。這表明在方面詞的引導(dǎo)下,圖像能關(guān)注到與方面相關(guān)的區(qū)域。同時(shí),文本也能關(guān)注到與方面相關(guān)的詞。顯然,提出的AMCGC 模型能夠捕捉到模態(tài)內(nèi)的局部語(yǔ)義相關(guān)性,且更好地服務(wù)于隨后的跨模態(tài)之間的細(xì)粒度對(duì)齊,進(jìn)而準(zhǔn)確地判斷該條示例為“積極”的情感極性。
圖6 視覺文本注意案例分析Fig.6 Visual text attention case study((a)sample image;(b)visual attention visualization;(c)text attention visualization)
本文提出了AMCGC 模型用于方面級(jí)多模態(tài)情感分析,該模型主要包含特征抽取層、跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層和方面特定的掩碼層。其中,特征抽取層用來(lái)抽取文本和圖像的特征隱狀態(tài),而且將方面詞特征拼接到圖像特征隱狀態(tài)后面來(lái)增強(qiáng)圖像模態(tài)在學(xué)習(xí)局部語(yǔ)義依賴過(guò)程中的方面指向的高響應(yīng)情義特征。在跨模態(tài)交叉協(xié)同注意的對(duì)偶圖卷積層中,分別構(gòu)建含有正交約束的文本語(yǔ)義圖和視覺語(yǔ)義圖以建模各自模態(tài)內(nèi)更明顯的局部語(yǔ)義依賴。隨后,通過(guò)圖卷積網(wǎng)絡(luò)來(lái)分別得到細(xì)粒度的多模態(tài)特征表示,并利用不同方向的門控局部跨模態(tài)交互機(jī)制來(lái)實(shí)現(xiàn)跨模態(tài)的情義協(xié)同交互和對(duì)齊。最后,通過(guò)方面特定的掩碼模塊,僅選出不同模態(tài)特征中方面詞的節(jié)點(diǎn)特征用于情感分析,且引入跨模態(tài)損失使異質(zhì)的富含情義的方面詞特征保持一致性。在Twitter-2015 和Twitter-2017 數(shù)據(jù)集上的實(shí)驗(yàn)及與對(duì)比方法的比較表明AMCGC 模型的有效性,并通過(guò)一系列的消融實(shí)驗(yàn)證明了AMCGC 模型的每個(gè)模塊設(shè)計(jì)的合理性。在未來(lái)的研究中,將設(shè)計(jì)更好的跨模態(tài)關(guān)聯(lián)的學(xué)習(xí)策略來(lái)探索不同模態(tài)數(shù)據(jù)單元的一致性,以更好地服務(wù)方面級(jí)多模態(tài)情感分析。