国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于堆疊交叉注意力CLIP的多模態(tài)情感分析

2024-01-08 08:07汪召凱葉勇汪子文
關(guān)鍵詞:注意力模態(tài)特征

汪召凱,葉勇,汪子文

(安徽農(nóng)業(yè)大學(xué) 信息與人工智能學(xué)院,安徽 合肥 230036)

在過去幾年里,多模態(tài)的相關(guān)研究非?;馃?例如利用多模態(tài)方法進(jìn)行社區(qū)劃分的相關(guān)研究[1],以及多模態(tài)情感分析等。情感在我們的日常生活中扮演著重要的角色。它們有助于在以人為中心的環(huán)境中進(jìn)行決策、學(xué)習(xí)、交流和態(tài)勢感知。在過去的二十年里,研究人員一直探索如何將認(rèn)知能力賦予機(jī)器,使它們能夠像人類一樣識別、分析和表達(dá)情感的能力,這一認(rèn)知能力也即是情感分析。情感分析也稱為意見挖掘或者情感計算,這一概念的來源最早可追溯到麻省理工實驗室Picard教授提出的“情感計算”[2]。情感分析旨在通過用戶發(fā)表的各類信息分析出用戶想要表達(dá)的情感極性[3]。但是鑒于情感表達(dá)方式的隱蔽性與復(fù)雜性,對不同模態(tài)的語言序列進(jìn)行情感建模仍然存在著亟待解決的問題。

早在2011年,陽鋒等[4]設(shè)計了一個面向微博數(shù)據(jù)流的,集實時抓取多種模態(tài)數(shù)據(jù)和分析觀點傾向性于一體的觀點挖掘原型系統(tǒng)MICA(Microblog Item Crawling and Analyzing)。通過分別對圖文情感分類器預(yù)測的情感得分分配不同的權(quán)重并相加來判斷情感傾向[5],但該工作采用的手工圖文特征,由于其提取特征的方式較為簡單,致使多模態(tài)特征中包含的圖文情感信息不夠豐富,并不能有效捕捉情感分布,無法有效提升模型的情感傾向分類能力.后來,采用深度CNN分別提取了更加豐富的圖文特征[6],并將它們連接成聯(lián)合特征送入到分類器學(xué)習(xí)情感分布。MultiSentiNet[7]使用LSTM和CNN對文本和圖像進(jìn)行編碼以獲得隱藏表示,然后連接文本和圖像的隱藏表示以融合多模態(tài)特征。CoMN[8]使用共記憶網(wǎng)絡(luò)對視覺內(nèi)容和文本詞之間的交互進(jìn)行迭代建模,以進(jìn)行多模態(tài)情感分析。Yu等[9]針對基于實體的多模態(tài)情感分析任務(wù),提出了ESAFN模型來融合文本表示和圖片特征。MVAN[10]通過注意力記憶網(wǎng)絡(luò)模塊利用文本和圖像特征來進(jìn)行交互式學(xué)習(xí),并使用多層感知機(jī)和堆疊池化模塊構(gòu)建多模態(tài)特征融合模塊。Yang等[11]使用基于數(shù)據(jù)集全局特征構(gòu)建的具有情感感知的多通道圖神經(jīng)網(wǎng)絡(luò)進(jìn)行多模態(tài)情感分析。ITIN[12]引入了一個跨模態(tài)對齊模塊來捕獲區(qū)域-詞的對應(yīng)關(guān)系,在此基礎(chǔ)上,通過自適應(yīng)跨模態(tài)門控模塊融合了多模態(tài)特征,另外整合了個體模態(tài)上下文特征表示,以實現(xiàn)更可靠的預(yù)測。

這些研究大多采用不同的模型來分別處理以及提取圖像和文本的特征,再加上圖像和文本在模態(tài)上天然具有較大的差距,一般融合模型很難捕獲到跨模態(tài)之間的互補信息。為了充分利用多模態(tài)信息,實現(xiàn)更有效的模態(tài)交互?;诖?我們提出了基于堆疊交叉注意力CLIP(SCA-CLIP)框架,由于CLIP提取的特征本身是對齊的,且特征之間有很強的關(guān)聯(lián)性,后續(xù)利用設(shè)計的堆疊交叉注意力機(jī)制和多頭注意力機(jī)制來對特征進(jìn)行交互融合以及信息的提取。在MVSA-Single、MVSA-Multiple數(shù)據(jù)集上進(jìn)行了驗證,與這兩個數(shù)據(jù)集中的最新的多個基線模型相比,SCA-CLIP實現(xiàn)了更好的性能,通過一組消融實驗的研究,展示了SCA-CLIP在多模態(tài)融合方面的優(yōu)勢。

1 方法

在本節(jié)中,詳細(xì)闡述了用于多模態(tài)情感分析的堆疊交叉注意力機(jī)制的CLIP多模態(tài)情感分析模型(SCA-CLIP)的細(xì)節(jié),模型的整體架構(gòu)如圖1所示,首先利用CLIP提取圖像文本特征,由于提取到的特征本身就是對齊的以及強相關(guān)的,之后利用設(shè)計堆疊交叉注意力機(jī)制對特征信息進(jìn)行充分模態(tài)交互與融合信息,最后利用BERT的中維護(hù)的可學(xué)習(xí)的常量來學(xué)習(xí)特征信息進(jìn)行最后的情感分類。

圖1 基于堆疊交叉注意力機(jī)制的CLIP多模態(tài)情感分析模型(SCA-CLIP)的總體框架

1.1 CLIP模塊

對比預(yù)訓(xùn)練模型(CLIP)[13]的架構(gòu)為經(jīng)典的雙塔結(jié)構(gòu),由圖片編碼器和文本編碼器組成。對于每個圖像-文本對,圖像和文本編碼器將圖文對映射到同一特征空間。對于給定一批N個圖像-文本對,CLIP的訓(xùn)練目標(biāo)是最大化配對圖像和文本特征編碼的余弦相似度,同時最小化未配對圖像和文本特征編碼的余弦相似度。

CLIP在推理的過程中,對于具有K類的分類任務(wù),它首先利用k類標(biāo)簽值來構(gòu)造k模板提示,例如“a picture of {class value}”,這些k模板提示將會通過文本編碼器進(jìn)行編碼映射到k文本嵌入中,對于給定的任何圖像將會被映射到圖像嵌入。最后CLIP計算圖像嵌入和那些k文本嵌入之間的余弦相似度,將具有最大相似性的類值視為該類的預(yù)測。

CLIP模型訓(xùn)練使用的是WIT數(shù)據(jù)集,該數(shù)據(jù)集包含從互聯(lián)網(wǎng)中收集的4億個圖文對。根據(jù)文獻(xiàn)[13]所展示的結(jié)果,其在多個數(shù)據(jù)集中取得了顯著的成果。

1.2 BERT模塊

BERT是基于Transformer的雙向語言編碼表示模型,不同于具有循環(huán)網(wǎng)絡(luò)的RNN,其中的Transformer完全基于注意力的序列轉(zhuǎn)換模型,它取代了循環(huán)或者卷積網(wǎng)絡(luò)而使用多頭自注意力的編碼解碼結(jié)構(gòu)來對文件進(jìn)行表示,比循環(huán)或卷積神經(jīng)網(wǎng)絡(luò)具有更快的訓(xùn)練速度。近年來注意力機(jī)制成為多種任務(wù)序列建模的重要組成部分,但它沒有形成輸入和輸出序列中的遠(yuǎn)距離依賴關(guān)系,文獻(xiàn)[14]所提出的Transformer模型架構(gòu)如圖2所示,其輸入與輸出之間的全局依賴關(guān)系完全基于注意力機(jī)制來構(gòu)建。

圖2 Transformer編碼器

編碼器中輸入序列經(jīng)過向量、位置編碼后進(jìn)入自注意力層,編碼器采用多頭注意力使模型具有注意多個位置的能力,從而在自注意力層實現(xiàn)多個表征子空間以表征序列多方面的語義信息。解碼器比編碼器增加了掩蔽多頭注意力,確保某位置預(yù)測只依賴于之前的已知輸出,最后結(jié)果通過softmax函數(shù)輸出概率。

1.3 交叉注意模塊

圖3 交叉注意力模塊

圖3為單層交叉注意力模塊,其中的Feature表示輸入或輸出特征的一個表示,然后利用交叉注意力模塊來對模態(tài)信息進(jìn)行充分交互以及融合。具體實現(xiàn)過程如下所述。對于輸入的圖像和文本,本文應(yīng)用預(yù)訓(xùn)練的CLIP模型將圖像文本嵌入到512維的嵌入向量T,V。CLIP內(nèi)部包含兩個模型分別是Text Encoder和Image Encoder,其中Text Encoder用來提取文本的特征,采用的是NLP中常用的text transformer模型,其表達(dá)式如式(1)所示。

T=CLIPText(text)

(1)

式(1)中,text表示傳入的文本信息,CLIPText表示使用CLIP模型的文本編碼器對信息進(jìn)行編碼,T表示編碼后得到的信息特征。

Image Encoder用來提取圖像的特征,采用的是常用的CNN模型或者vision transformer,本文采用的是vision transformer,其表達(dá)式如式(2)所示。

V=CLIPImage(image)

(2)

式(2)中,image表示傳入的文本信息,CLIPImage表示使用CLIP模型的圖片編碼器對信息進(jìn)行編碼,V表示編碼后得到的信息特征。

CLIP得到的特征向量維度均為[batchsize,512],然后擴(kuò)展維度為[batchsize,1,512]。對于文本相對圖片的注意力權(quán)重矩陣。用V的轉(zhuǎn)置點乘T得到相似矩陣,之后利用std函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理,最后通過一層Sigmoid激活函數(shù),得到相對應(yīng)的注意力權(quán)重,具體如式(3)所示。

VT=sigmoid(std(VT⊙T))

(3)

式(3)中,VT表示圖片特征的轉(zhuǎn)置,T表示文本特征,VT表示文本相對圖片的注意力權(quán)重矩陣。

得到文本相對圖片的注意力權(quán)重后,利用sum函數(shù)將權(quán)重與文本特征相乘再逐行相加,得到最后的文本相對圖片的注意力向量。Tatt表示最終的注意力向量,具體如式(4)所示。

Tatt=sum(VT*T)

(4)

對于圖片相對于文本的注意力權(quán)重的獲取,與文本相對圖片的流程基本一致具體如式(5)所示。

TV=sigmoid(std(TT⊙V))

(5)

式(5)中,TT表示文本特征的轉(zhuǎn)置,V表示圖片特征,TV表示圖片相對文本的注意力權(quán)重。

得到圖片相對文本的注意力權(quán)重后獲取注意力向量,過程與得到文本相對圖片的注意力向量一致。Vatt表示最終的注意力向量,如式(6)所示。

Vatt=sum(TV*V)

(6)

最后,在進(jìn)行第一次交叉注意得到Tatt和Vatt后再與T和V向量拼接做交叉注意,之后將結(jié)果與自我注意即BERT中的可學(xué)習(xí)向量得到的向量信息繼續(xù)拼接后再次做交叉注意,之后將最終得到的融合向量拼接再輸入到BERT中通過BERT中維護(hù)的可學(xué)習(xí)變量提取到情感分析所需的信息,最后經(jīng)過FC層得到情感預(yù)測結(jié)果。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集

本文在兩個公共多模態(tài)情感分析數(shù)據(jù)集上評估我們的模型,即MVSA-Single和MVSA-Multiple[15]。MVSA-Single由從Twitter收集的5129個圖像-文本對組成。每對都有注釋標(biāo)記,注釋分別為圖像和文本分配一種情緒(正面、中性和負(fù)面)。MVSA-Multiple包含19600個圖像-文本對。每對由三個注釋標(biāo)記,每個注釋對圖像和文本的情感分配是獨立的,這些注釋均為人工標(biāo)注。

為了公平比較,我們按照文獻(xiàn)[7]中的方法對兩個數(shù)據(jù)集進(jìn)行預(yù)處理,其中不一致的圖像標(biāo)簽和文本標(biāo)簽對被刪除,預(yù)處理后的結(jié)果展示如圖4所示。具體來說,如果一個標(biāo)簽是正面(或負(fù)面)而另一個是中性,本文將這對的情感極性視為正面(或負(fù)面)。因此,得到了新的MSVA-single和MSVA-multiple數(shù)據(jù)集用于實驗,如表1所示。首列表示使用的數(shù)據(jù)集種類,后面的各列表示在相對應(yīng)的數(shù)據(jù)集中該類標(biāo)簽的樣本數(shù)目,最后一列表示該數(shù)據(jù)集的樣本總數(shù)。

圖4 對數(shù)據(jù)集預(yù)處理后的一些樣本展示

表1 數(shù)據(jù)集處理之后的統(tǒng)計

2.2 實現(xiàn)細(xì)節(jié)

在本文的實驗中,數(shù)據(jù)集按照8:1:1的分割比例隨機(jī)分為訓(xùn)練集、驗證集和測試集。提出的SCA-CLIP由Adam優(yōu)化。Learning rate設(shè)置為5e-5,weight_decay設(shè)置為1e-4??紤]到兩個數(shù)據(jù)集中的樣本數(shù)量不同,本文將MVSA-Single的batch size設(shè)置為32,將MVSA-Multiple的batch size設(shè)置為128。本文的框架由PyTorch[16]實現(xiàn)。本文使用準(zhǔn)確率和F1-score作為評價指標(biāo),其中準(zhǔn)確率的公式如式(7)所示。

(7)

F1-score的公式如式(8)-式(10)所示。

(8)

(9)

(10)

式(8)-式(10)中,Precision表示精準(zhǔn)率即代表對正樣本結(jié)果中的預(yù)測準(zhǔn)確程度。Recall表示召回率即表示所有被預(yù)測為正的樣本中實際為正的樣本的概率。TP是被判定為正樣本,事實上也是正樣本的樣本數(shù),FP是被判定為負(fù)樣本,事實上也是負(fù)樣本的樣本數(shù)。TN是被判定為正樣本,但事實上是負(fù)樣本的樣本數(shù)。FN是被判定為負(fù)樣本,但事實上是正樣本的樣本數(shù)。

2.3 基線模型

對于MVSA數(shù)據(jù)集,本文列舉了如下的六個基線方法。

(1)MultiSentiNet[7]:利用CNN獲取圖像的對象和場景深度語義特征,利用視覺特征引導(dǎo)注意力LSTM提取重要詞特征;所有這些特征都被聚合起來進(jìn)行情感分析。

(2)CoMN[8]:考慮圖像和文本之間的關(guān)系,提出了一種具有注意機(jī)制的迭代共記憶模型;該網(wǎng)絡(luò)多次探索視覺和文本信息的交互作用,分析用戶的情緒。

(3)MVAN[10]:提出了一種基于多視圖注意的交互模型,該模型構(gòu)建了迭代的場景-文本共記憶網(wǎng)絡(luò)和迭代的對象-文本共記憶網(wǎng)絡(luò),以獲取用于情感分析的語義圖像-文本特征。

(4)MGNNS[11]:提出了一種多通道情感感知圖神經(jīng)網(wǎng)絡(luò)(MGNNS)用于圖像文本情感檢測。他們首先編碼不同的模式來捕獲隱藏的表示。然后,他們引入多通道圖神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)基于數(shù)據(jù)集全局特征的多模態(tài)表示。最后,利用多頭注意機(jī)制實現(xiàn)多模態(tài)深度融合,預(yù)測圖文對的情感。

(5)CLMLF[17]:介紹了一種基于多層transformer的對比學(xué)習(xí)融合方法。提出了基于標(biāo)簽的對比學(xué)習(xí)和基于數(shù)據(jù)的對比學(xué)習(xí)兩種對比學(xué)習(xí)任務(wù),以幫助模型學(xué)習(xí)情感分析的共同特征。

(6)ITIN[12]:開發(fā)了一種圖像-文本交互網(wǎng)絡(luò),以對齊圖像區(qū)域和單詞之間的信息,并使用跨模態(tài)門控模塊保留有效的區(qū)域-單詞對,以實現(xiàn)有效的融合特征。將單模態(tài)特征與跨模態(tài)融合特征相結(jié)合,實現(xiàn)情感分類。

所提出的模型與基線之間的實驗結(jié)果比較如表2所示。基線方法的結(jié)果是已發(fā)表論文中展示的最佳結(jié)果。

表2 在MVSA數(shù)據(jù)集上各種方法的比較

在MVSA-Single數(shù)據(jù)集上,本文的模型在準(zhǔn)確率和F1分?jǐn)?shù)方面分別優(yōu)于現(xiàn)有的最佳模型2.37%和1.61%。對于MVSA-Multiple數(shù)據(jù)集,本文的模型在準(zhǔn)確率上提升了1.3%,在F1分?jǐn)?shù)上取得了具有競爭力的性能??傮w而言,這些結(jié)果證明了所提出的SCA-CLIP在多模態(tài)情感分析中的優(yōu)勢。性能的提升得益于SCA-CLIP的優(yōu)越性。首先,通過CLIP來提取對齊的圖像文本特征,同時利用BERT自注意提取特征,之后再利用堆疊交叉注意來融合特征,最后通過BERT學(xué)習(xí)融合特征以進(jìn)行情感分類。

為了進(jìn)一步分析該模型在不同類別中的判別力,圖5和圖6顯示了不同數(shù)據(jù)集下SCA-CLIP模型的混淆矩陣。由圖5和圖6可知,SCA-CLIP模型對Positive和Negative類別的判別力較強,而對Neutral類別的判別力較弱,這意味著它對模棱兩可案例的判別力較弱,而對有明顯情感傾向案例的判別力較強。由于MVSA-multiple中類別的不平衡性較高,導(dǎo)致對負(fù)面類別的判別結(jié)果較低。

圖5 MVSA-Single數(shù)據(jù)集的混淆矩陣

圖6 MVSA-Multiple數(shù)據(jù)集的混淆矩陣

2.4 消融實驗

為了進(jìn)一步驗證每個提出模塊的有效性,對兩個MVSA數(shù)據(jù)集進(jìn)行了幾次消融實驗,在本文的模型中,最后學(xué)習(xí)融合特征的BERT為BERT2。在SCA-CLIP模型上只留下CLIP、只留下BERT2、去除BERT2、去除交叉注意、去除所有BERT,分別表示為“SCA-CLIP onlyCLIP”“SCA-CLIP onlyBERT2”“SCA-CLIP w/o BERT2”“SCA-CLIP w/o CrossAtt”“SCA-CLIP w/o AllBERT”,這些研究結(jié)果如表3所示。

表3 在MVSA數(shù)據(jù)集上的消融實驗結(jié)果

從表3這些結(jié)果中,可以觀察到如下內(nèi)容。

由各個模塊組成使得提出的SCA-CLIP在兩個數(shù)據(jù)集上實現(xiàn)了最佳性能。移除任何一個模塊都會導(dǎo)致預(yù)測的結(jié)果不理想。

SCA-CLIP onlyCLIP比SCA-CLIP結(jié)果差,證明了堆疊交叉注意和多頭注意在特征提取和特征融合方面的有效性。

SCA-CLIP onlyBERT2比SCA-CLIP w/o BERT2的結(jié)果好,證明了單流方法在學(xué)習(xí)特征方面的有效性,能夠充分學(xué)習(xí)到更多有用的信息。

SCA-CLIP w/o AllBERT表現(xiàn)得比SCA-CLIP w/o CrossAtt好,證明了交叉注意在特征融合以及特征學(xué)習(xí)的有效性。從以上的分析中,可以得出結(jié)論,每個提出的模塊都是不可或缺的,它們共同為最終的性能做出了必要的貢獻(xiàn)。

此外,進(jìn)一步分析可以得到,大多數(shù)模型采用不同的模型來提取文字和圖像特征,提取的特征不具有相關(guān)性,而且圖像和文字的模態(tài)差距天然很大,因此后續(xù)的特征信息融合很困難。而CLIP的預(yù)訓(xùn)練模型是基于對比訓(xùn)練的,CLIP提取的特征是高度相關(guān)的,包含更多的有效信息。從SCA-CLIP onlyBERT2的結(jié)果可以驗證,直接拼接CLIP提取的特征,利用BERT的自我注意機(jī)制提取分類信息,可以獲得較高的準(zhǔn)確率。從SCA-CLIP onlyBERT2和SCA-CLIP的結(jié)果對比可以分析出,所提出的疊加交叉注意力模塊充分利用了模態(tài)信息,實現(xiàn)了模態(tài)之間的充分交互與融合,匯聚了更多有用的分類信息,最后利用BERT提取分類信息,得到了最優(yōu)的分類結(jié)果。

最后,圖7展示了SCA-CLIP模型在不同參數(shù)值下的性能,以分析超參數(shù)敏感性。實驗分析了SCA-CLIP模型的超參數(shù)敏感性,包含Dropout, Learning rate。在兩個數(shù)據(jù)集的實驗中,模型參數(shù)的dropout, learning rate均設(shè)置為(0.3,0.00005)。

(a)準(zhǔn)確率與learning rate之間的關(guān)系

(b)準(zhǔn)確率與dropout之間的關(guān)系圖7 在MVSA-single,MVSA-multiple數(shù)據(jù)集上的參數(shù)實驗結(jié)果

如圖7所示,實驗中將dropout值分別設(shè)置為(0.1,0.3,0.5,0.7,0.9),learn rate的值分別設(shè)置(0.00001,0.00002,0.00003,0.00005,0.0001)。可以觀察到當(dāng)dropout為0.3,learning rate為0.00005時,MVSA-Single數(shù)據(jù)集和MVSA-Multiple數(shù)據(jù)集都取得了最高的準(zhǔn)確率,分別為77.70%,74.82%。同時兩個數(shù)據(jù)集的曲線變化趨勢基本保持一致,都是在開始的一段范圍內(nèi)變化不大,最后下降很多。我們可以得出結(jié)論SCA-CLIP模型對于兩個超參數(shù)均略微敏感。

3 結(jié)論

社交媒體多模態(tài)情感分析是一項非常具有挑戰(zhàn)性的任務(wù)。在本文中,為多模態(tài)情緒預(yù)測任務(wù)提出了一個利用基于堆疊交叉注意力機(jī)制CLIP的網(wǎng)絡(luò)框架(SCA-CLIP)。具體而言,首先采用預(yù)訓(xùn)練模型CLIP來提取圖像和文本的特征,由于CLIP預(yù)訓(xùn)練模型使用的是圖文對進(jìn)行對比學(xué)習(xí),所以提取的圖像文本特征本身就是對齊的和強相關(guān)的。之后我們利用設(shè)計的堆疊注意來充分對模態(tài)交互以及特征融合,最后利用BERT中維護(hù)的可學(xué)習(xí)常量來學(xué)習(xí)最后情感分析所需的信息,進(jìn)行有效情感預(yù)測。通過實驗結(jié)果的比較表明,本文的模型顯著提高了多模態(tài)數(shù)據(jù)集中的情感分類性能。盡管本文獲得了很好的結(jié)果,但該模型仍然具有較大的局限性。由于有些帖子的圖片和文字不相關(guān),這就導(dǎo)致了情感表達(dá)實際上是依賴于獨立的特征,這可能會限制SCA-CLIP的性能。因此,在未來的工作中,可以在模型的擴(kuò)展性方面展開進(jìn)一步的研究工作。

猜你喜歡
注意力模態(tài)特征
讓注意力“飛”回來
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
線性代數(shù)的應(yīng)用特征