国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于模態(tài)信息交互的多模態(tài)情感分析

2023-10-18 14:58:04蔡宇揚(yáng)蒙祖強(qiáng)
關(guān)鍵詞:信息交互情感分析注意力機(jī)制

蔡宇揚(yáng) 蒙祖強(qiáng)

摘 要:基于全局語義交互的粗粒度注意力機(jī)制不能有效利用各模態(tài)間的語義關(guān)聯(lián)提取到模態(tài)信息中的關(guān)鍵部分,從而影響分類結(jié)果。針對這個問題提出了一個模態(tài)信息交互模型MII(modal information interaction),通過細(xì)粒度注意力機(jī)制提取模態(tài)的局部語義關(guān)聯(lián)特征并用于情感分類。首先,模態(tài)內(nèi)信息交互模塊用于構(gòu)建模態(tài)內(nèi)的聯(lián)系并生成模態(tài)內(nèi)交互特征,隨后模態(tài)間信息交互模塊利用圖像(文本)的模態(tài)內(nèi)交互特征生成門控向量來關(guān)注文本(圖像)中相關(guān)聯(lián)的部分,從而得到模態(tài)間的交互特征??紤]到特征中存在的冗余信息,模型加入了自適應(yīng)特征融合模塊從全局特征層面對特征進(jìn)行選擇,增強(qiáng)了包含情感信息的關(guān)鍵特征的表達(dá)能力,弱化了冗余信息對分類結(jié)果的影響。在MVSA-Single和MVSA-Multi兩個公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該模型優(yōu)于一系列基線模型。

關(guān)鍵詞:多模態(tài); 情感分析; 信息交互; 注意力機(jī)制

中圖分類號:TP391?? 文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2023)09-006-0000-00

doi:10.19734/j.issn.1001-3695.2023.02.005

Multimodal sentiment analysis based on modal information interaction

Cai Yuyang, Meng Zuqiang

(School of Computer, Electronics & information, Guangxi University, Nanning 530004, China)

Abstract:Coarse-grained attention mechanisms based on global semantic interactions cant effectively use the interconnection between modalities to extract the key parts of modal information, which affects classification results. Aiming at this problem, this paper proposed a modal information interaction model, which extracted the local semantic association features of the modality through a fine-grained attention mechanism and used them for sentiment classification. First, the intra-modal information interaction module constructed intra-modal connections and generated intra-modal interaction features. After this, the inter-modal information interaction module used intra-modal information interaction features to generate gating vectors, which focused on the appropriate parts of the text (image) , thereby obtaining inter-modal information interaction. Finally, considering the redundant information in the features, the model also added an adaptive feature fusion module to select features from the global feature level, enhanced the expression ability of key features containing emotional information, and weakened the impact of redundant information on classification results. Experimental results on two public datasets MVSA-Single and MVSA-Multi demonstrate that the model outperforms a series of baseline models.

Key words:multimodality; sentiment analysis; information interaction; attention mechanism

0 引言

情感分析是對含有情感信息的數(shù)據(jù)進(jìn)行分析、處理,進(jìn)而得到情感極性的過程[1,2]。傳統(tǒng)的情感分析研究主要集中于文本單模態(tài),即通過對一段文字進(jìn)行分析來判斷其所包含的情感極性。隨著Twitter、微博等社交媒體的快速發(fā)展,用于表達(dá)情感極性的媒介日益呈現(xiàn)多樣化趨勢,尤其是圖文多模態(tài)數(shù)據(jù)已經(jīng)成為承載用戶情感觀點(diǎn)的主流媒介[3]。對富含情感信息的多模態(tài)數(shù)據(jù)進(jìn)行情感分析已經(jīng)成為發(fā)現(xiàn)網(wǎng)絡(luò)用戶情感趨向的主要途徑。多模態(tài)情感分析在應(yīng)對社會突發(fā)事件輿論監(jiān)控和新聞謠言檢測等實(shí)際應(yīng)用方面有著重要研究意義[4,5],能幫助政府機(jī)構(gòu)高效監(jiān)管網(wǎng)絡(luò)內(nèi)容,正確引導(dǎo)輿論并樹立科學(xué)價值觀。

由于單一模態(tài)的信息難以反映真實(shí)的情感,越來越多的用戶選擇通過圖像和文本等多模態(tài)形式表達(dá)情感和觀點(diǎn),但這樣的轉(zhuǎn)變也給情感分析領(lǐng)域帶來了挑戰(zhàn)。傳統(tǒng)的文本情感分析難以辨別多模態(tài)數(shù)據(jù)的情感極性,多模態(tài)情感分析逐漸成為情感分析領(lǐng)域的重要方法。

早期的多模態(tài)情感分析大多先獨(dú)立地從文本和圖像信息中提取特征,然后使用特征拼接和線性加權(quán)等方法對兩種模態(tài)的特征進(jìn)行融合[6,7],最后輸入全連接網(wǎng)絡(luò)進(jìn)行分類。例如文獻(xiàn)[8]提出了新型跨媒體詞袋模型,用詞袋表示微博中圖像和文本的特征,使用邏輯回歸訓(xùn)練模型從而實(shí)現(xiàn)情感分類,實(shí)驗(yàn)結(jié)果表明使用多模態(tài)數(shù)據(jù)進(jìn)行分類的準(zhǔn)確率比使用單模態(tài)數(shù)據(jù)分類的準(zhǔn)確率要高。

同一用戶在社交媒體中發(fā)布的圖像與文本在語義上是存在著某種聯(lián)系的,然而對圖像和文本獨(dú)立地提取特征忽視了模態(tài)之間固有的語義關(guān)聯(lián)對各模態(tài)特征學(xué)習(xí)的影響?;谌中畔⒌拇至6冉徊孀⒁饬?gòu)建的模態(tài)間的聯(lián)系缺少跨模態(tài)的深層信息交互,無法高效構(gòu)建局部語義特征關(guān)聯(lián)。若直接拼接模態(tài)交互后的特征進(jìn)行分類,其中包含的冗余信息可能會影響最終情感分類結(jié)果。本文的主要貢獻(xiàn)如下:

a)提出了用于情感分類的多模態(tài)情感分析模型,在模態(tài)交互過程中能通過模態(tài)間的局部語義關(guān)聯(lián)精準(zhǔn)地選擇相關(guān)性高的特征,并自適應(yīng)地選擇其中用于情感分類的部分特征。通過在兩個公開數(shù)據(jù)集MVSA-Single和MVSA-Multi上的實(shí)驗(yàn)結(jié)果證明了模型的有效性。

b)提出了基于門控注意力機(jī)制的模態(tài)間信息交互模塊,能夠利用模態(tài)間的聯(lián)系精準(zhǔn)地學(xué)習(xí)模態(tài)間的局部語義關(guān)聯(lián),利用文本(圖像)的模態(tài)內(nèi)交互特征捕捉圖像(文本)中相關(guān)聯(lián)的信息,實(shí)現(xiàn)細(xì)粒度交叉注意,獲得融合了文本(圖像)信息的圖像(文本)模態(tài)間交互特征。

c)提出了自適應(yīng)特征融合模塊,可以靈活地從模態(tài)內(nèi)和模態(tài)間輸出的圖文全局特征中選擇富含情感信息的特征。模塊從全局特征角度對圖文特征之間的關(guān)系進(jìn)行建模,進(jìn)而自適應(yīng)地調(diào)整特征中用于情感分類的部分,增強(qiáng)包含情感信息的關(guān)鍵特征的表達(dá)能力并過濾部分冗余信息。

1 相關(guān)研究

多模態(tài)情感分析包括兩個方面:分別處理單模態(tài)數(shù)據(jù);將處理后的數(shù)據(jù)進(jìn)行融合。對單一模態(tài)數(shù)據(jù)處理不好,會影響多模態(tài)情感分析的結(jié)果;融合方式的性能不好會破壞多模態(tài)系統(tǒng)的穩(wěn)定性[9]。Borth等人[10]使用Sentibank提取了1 200個形容詞—名詞對(ANP)作為圖像特征,再通過SentiStrength計(jì)算文本情感得分,然后將二者結(jié)合起來得到最終情感極性。Cai等人[11]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)情感分析方法,用兩個獨(dú)立的CNN分別學(xué)習(xí)文本特征和圖像特征,輸入全連接層得到最后分類結(jié)果。Yu等人[12]先使用預(yù)訓(xùn)練CNN和DNN分別對文本和圖像進(jìn)行情感分析,然后通過訓(xùn)練邏輯回歸模型得到分類結(jié)果。Zadeh 等人[13]引入多模態(tài)字典,幫助理解人在表達(dá)情感時面部表情與話語之間的關(guān)系,并建立一個多模態(tài)情感數(shù)據(jù)集CMU-MOSI。雖然多模態(tài)情感分析的研究取得了一定的進(jìn)展,但這些基于神經(jīng)網(wǎng)絡(luò)模型的工作通常是獨(dú)立地從圖像和文本提取特征,并將圖文特征輸入分類器得到分類結(jié)果,忽略了圖像與文本之間的聯(lián)系。

隨著注意力機(jī)制研究的發(fā)展[14,15],基于注意力的特征提取可以根據(jù)上下文選擇顯著特征,從而實(shí)現(xiàn)有效地模態(tài)間信息交互。Xu等人[16]考慮了圖像對文本的單向影響,對圖像分別提取場景特征和對象特征,在提取文本特征過程中使用場景和對象特征進(jìn)行引導(dǎo),得到圖像引導(dǎo)的文本特征。郭可心等人[17]利用文本引導(dǎo)的空間注意力分別關(guān)注圖像高層實(shí)體特征和中低層視覺特征,從而加強(qiáng)模態(tài)間的關(guān)聯(lián)。劉琦瑋等人[18]利用圖片信息引導(dǎo)關(guān)注文本中的關(guān)鍵信息,增強(qiáng)了文本中影響情感分類的特征,使模型能夠關(guān)注到文本中貢獻(xiàn)度較大的詞匯。上述研究都考慮到了模態(tài)之間的單向交互,使用其中一個模態(tài)引導(dǎo)關(guān)注另一個模態(tài)中的信息,但沒有充分考慮模態(tài)之間的相互影響。Zadeh等人[19]考慮到模態(tài)內(nèi)部信息以及模態(tài)之間的交互作用提出了一種基于張量融合的特征融合網(wǎng)絡(luò)TFN,在MOSI 數(shù)據(jù)集上得到了較高的準(zhǔn)確率。Ghosal 等人[20]提出一種使用成對注意力的方法MMMU-BA,不僅能學(xué)習(xí)一個視頻段落的文本—語音、語音—視覺、文本—視覺兩兩模態(tài)間的交互關(guān)系,也能充分利用當(dāng)前視頻段與其上下文信息的在不同模態(tài)對內(nèi)部的跨模態(tài)交互作用,在MOSI和MOSEI兩個公開數(shù)據(jù)集上都取得了出色的表現(xiàn)。Xu等人[21]提出了一種Co-Memory網(wǎng)絡(luò)迭代地利用文本信息找到圖片中的關(guān)鍵內(nèi)容、利用圖片信息定位文本關(guān)鍵詞,從而對圖像和文本之間的相互影響進(jìn)行建模分析。Zhang等人[22]利用新型編碼器提取圖像和文本特征,然后通過多模態(tài)交叉特征融合模塊相互學(xué)習(xí)模態(tài)內(nèi)部的特征,最后將學(xué)習(xí)后的圖像和文本特征拼接后輸入全連接層進(jìn)行分類;但他們使用的是對全局語義信息進(jìn)行交互的粗粒度注意力機(jī)制,不能高效關(guān)注模態(tài)間局部語義關(guān)聯(lián),特征會包含冗余信息,對分類結(jié)果造成影響。

社交媒體中,圖文模態(tài)之間存在局部相關(guān)性并且這種相關(guān)性會影響多模態(tài)情感分析的結(jié)果。針對處理單模態(tài)數(shù)據(jù)過程中沒有充分考慮模態(tài)之間的相互聯(lián)系以及拼接模態(tài)特征帶有冗余信息的問題,本文提出了基于注意力機(jī)制的模態(tài)信息交互模型MII用于社交媒體圖文多模態(tài)情感分析任務(wù)。模型先使用自注意力和門控交叉注意力分別挖掘模態(tài)內(nèi)和模態(tài)間的聯(lián)系?;陂T控細(xì)粒度交叉注意力的模態(tài)間信息交互模塊可以準(zhǔn)確地捕捉模態(tài)間的局部語義關(guān)聯(lián),然后將模態(tài)內(nèi)和模態(tài)間的交互特征輸入自適應(yīng)特征融合模塊。自適應(yīng)特征融合模塊對模態(tài)內(nèi)和模態(tài)間拼接后的交互特征進(jìn)行選擇,模塊的思想與通道注意力類似,先對圖像區(qū)域和文本中字的特征進(jìn)行建模,學(xué)習(xí)特征之間的關(guān)系,最后從全局特征層面選擇包含情感信息的特征進(jìn)行情感分類。

2 模態(tài)信息交互模型

為了提取各模態(tài)的特征并過濾拼接特征中對情感分類貢獻(xiàn)較小的冗余信息,本文提出了一個模態(tài)信息交互模型。模型整體結(jié)構(gòu)如圖1所示,由模態(tài)特征提取、模態(tài)信息交互、特征融合和情感分類四個部分組成。

3.2 數(shù)據(jù)集

本文實(shí)驗(yàn)所用的數(shù)據(jù)集為MVSA多模態(tài)數(shù)據(jù)集[25]。該數(shù)據(jù)集從Twitter上收集了大量圖文對,通過人工標(biāo)注的方式對數(shù)據(jù)賦予情感標(biāo)簽。MVSA數(shù)據(jù)集包括兩個獨(dú)立的數(shù)據(jù)集MVSA-Single和MVSA-Multi。MVSA-Single包含5 129個圖像文本對,并且每一組數(shù)據(jù)由一名人員分別對圖像和文本標(biāo)記積極、中性、消極三種情感標(biāo)簽中的一種;MVSA-Multi包含19 600個圖像文本對,但與前者不同的是每組圖像文本對由三名獨(dú)立的人員進(jìn)行標(biāo)記,因此每組數(shù)據(jù)的圖像和文本都會包含三個標(biāo)簽。為了確保數(shù)據(jù)的高質(zhì)量,本文采用與文獻(xiàn)[11]中相同的方法對數(shù)據(jù)集進(jìn)行預(yù)處理。

a)針對MVSA-Multi中單模態(tài)包含多個標(biāo)簽的情況,以相同分類數(shù)量最多的標(biāo)簽作為單模態(tài)的真實(shí)標(biāo)簽,此時情感標(biāo)簽分類標(biāo)注與MVSA-Single相同,圖像和文本分別有唯一標(biāo)簽;b)若圖像與文本的標(biāo)簽相反,即一個為積極而另一個為消極的情況下,棄用該數(shù)據(jù)進(jìn)行實(shí)驗(yàn),若圖像與文本標(biāo)簽相同,則將其標(biāo)簽作為該圖像文本對的最終標(biāo)簽,若圖像與文本中一個為中性而另一個為積極或者消極,則將該圖像文本對標(biāo)記為積極或者消極;c)得到處理后的MVSA-Single和MVSA-Multi。對數(shù)據(jù)進(jìn)行篩選和處理后的數(shù)據(jù)集標(biāo)簽信息如表1所示。

3.3 基線模型

本文選擇了八個多模態(tài)情感分析模型與MII進(jìn)行對比。

a)SentiBank+SentiStrength[10]。通過Sentibank提取了1200個形容詞—名詞對(adjective-noun pairs)作為圖像特征,然后計(jì)算文本和圖像的情感得分,進(jìn)而判斷圖文對的情感標(biāo)簽。

b)CNN-Multi[11]。先通過文本CNN和圖像CNN分別提取文本特征和圖像特征,然后將拼接后的特征送入另一個CNN學(xué)習(xí)圖文之間的聯(lián)系,得到最終情感標(biāo)簽。

c)DNN-LR[12]。在預(yù)訓(xùn)練詞向量的基礎(chǔ)上訓(xùn)練了一個用于文本情感分析的CNN模型,然后使用一個深度卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行情感分析,最后通過邏輯回歸預(yù)測文本和圖像的情感標(biāo)簽。

d)MultiSentiNet[16]??紤]到圖像對文本的影響,提出了一個用于多模態(tài)情感分析的深度語義網(wǎng)絡(luò),先識別圖像中的物體和場景作為圖像的深層語義特征,然后訓(xùn)練一個圖像特征引導(dǎo)的LSTM模型來尋找文本中對情感分析有影響的關(guān)鍵詞,最后將物體、場景、關(guān)鍵詞的特征組合后預(yù)測多模態(tài)數(shù)據(jù)的情感標(biāo)簽。

e)MLSA[17]??紤]到文本對圖像的影響,使用具有多層分支結(jié)構(gòu)的文本引導(dǎo)的空間注意力模塊,針對CNN不同層次卷積的輸出進(jìn)行空間注意力加權(quán);從圖像中獲取和使用與文本相關(guān)的高層語義特征和中、低層視覺特征,加強(qiáng)了圖文之間的情感關(guān)聯(lián)。

f)TSAIE[18]??紤]到圖像對文本的影響,利用組合注意力特征融合模塊計(jì)算出文本信息中每一個詞與圖片包含情感的相似度,從而增強(qiáng)文本中能夠影響情感極性分類的特征,使模型能夠關(guān)注到文本中貢獻(xiàn)度較大的詞匯,然后與圖片特征融合,最后將融合特征輸入全連接層進(jìn)行分類。

g)COMN[21]。考慮到圖像與文本之間存在的相互聯(lián)系,提出了一個新的協(xié)同記憶網(wǎng)絡(luò),在特征提取過程中迭代地對圖像內(nèi)容和文本之間的相互聯(lián)系進(jìn)行建模分析。

h)CFF-ATT[22]。通過使用去噪自動編碼器更準(zhǔn)確地提取原始文本特征,同時提出了一種注意力模型使圖像和文本對稱地學(xué)習(xí)內(nèi)部特征,生成融合特征用于最終分類。

i)MII。用模態(tài)內(nèi)信息交互和模態(tài)間信息交互模塊獲取圖像和文本的模態(tài)內(nèi)交互特征。與COMN不同的是,在特征提取過程中加入了門控機(jī)制實(shí)現(xiàn)細(xì)粒度注意力交互,挖掘圖像文本間的局部語義關(guān)聯(lián)。COMN和CFF-ATT忽略了拼接特征中包含的冗余信息,MII同時對模態(tài)內(nèi)和模態(tài)間交互的輸出特征進(jìn)行自適應(yīng)特征融合,從全局特征層面有選擇地保留包含情感信息的關(guān)鍵特征進(jìn)行情感分類,從而達(dá)到更好的分類效果。

3.4 實(shí)驗(yàn)結(jié)果及分析

3.4.1 定量分析

為了直觀地證明本文提出的模型能有效利用模態(tài)間的聯(lián)系提升情感分類的結(jié)果,以準(zhǔn)確率和F1值為指標(biāo),將本文提出的MII模型與一系列基線模型在兩個公開數(shù)據(jù)集MVSA-Single和MVSA-Multi上進(jìn)行量化對比,表中直接引用了這些方法文獻(xiàn)中的實(shí)驗(yàn)結(jié)果。MII與一系列基線模型在MVSA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2、3所示。

由表2、3中數(shù)據(jù)可以看出SentiBank+SentiStrength的效果最差,因?yàn)槭褂眯稳菰~—名詞對的圖文特征不能準(zhǔn)確提取圖像和文本模態(tài)的信息。CNN-Multi和DNN-LR由于使用了深度學(xué)習(xí)模型,通過卷積神經(jīng)網(wǎng)絡(luò)獲取圖像文本的特征,取得了較好的結(jié)果,但忽略了圖像文本之間的聯(lián)系。MultiSentiNet考慮到了圖像對文本的影響,訓(xùn)練了一個圖像特征引導(dǎo)的深度學(xué)習(xí)模型來尋找文本中的關(guān)鍵部分,提升了模型性能;MLSA利用文本來獲取圖像不同層次特征中的關(guān)鍵部分;TSAIE則利用圖像特征增強(qiáng)文本,尋找文本特征中的關(guān)鍵部分。但它們只考慮了模態(tài)之間的單向影響,沒有考慮到注意力機(jī)制和特征融合中的冗余信息對分類結(jié)果的影響。

COMN是在圖像和文本特征提取過程中對模態(tài)間的聯(lián)系迭代地建模分析,因?yàn)榭紤]到了模態(tài)間的相互影響而非圖像對文本的單向影響,取得了比MultiSentiNet更好的結(jié)果。但對圖文特征使用全局特征的粗粒度注意力交互,可能會使網(wǎng)絡(luò)關(guān)注部分冗余信息;最后直接拼接圖像和文本記憶網(wǎng)絡(luò)中的輸出會使得冗余信息對分類結(jié)果產(chǎn)生影響。CFF-ATT考慮到噪聲對特征提取準(zhǔn)確性的干擾,通過自動編碼器更準(zhǔn)確地提取單模態(tài)特征,并加入注意力機(jī)制利用圖像和文本交互學(xué)習(xí)各模態(tài)內(nèi)部特征。分別將圖像和文本特征作為主輸入和二次輸入,用交叉特征融合模塊融合兩個模態(tài)的特征后,得到用于分類的輸出特征;但其沒有考慮到用于分類的特征中所包含的冗余信息對分類結(jié)果的影響。MII模型采用預(yù)訓(xùn)練模型提取圖像和文本特征,模態(tài)信息交互模塊關(guān)注模態(tài)內(nèi)的聯(lián)系和模態(tài)間的相互影響,先在模態(tài)間交互中使用門控細(xì)粒度交叉注意力準(zhǔn)確地提取與另一模態(tài)相關(guān)的特征,然后使用模態(tài)內(nèi)和模態(tài)間的輸出進(jìn)行自適應(yīng)特征融合,從全局特征層面對特征之間的關(guān)系建模,有選擇地調(diào)整用于最終情感分類的特征,取得了最好的效果。

3.4.2 定性分析

為了更為直觀地觀察門控交叉注意力所起到的作用,對粗粒度交叉注意力和門控交叉注意力分別進(jìn)行可視化,結(jié)果如圖4所示。如圖4(a)(d)所示,圖像及其對應(yīng)的文本為“我可以很容易地搬到維多利亞漁夫碼頭的一艘游艇上,多么明亮和快樂?。ㄗg文)”。對圖像和文本進(jìn)行注意力交互,模型除了關(guān)注圖中碼頭上停放的游艇以外,有部分注意力集中在了水中的倒影以及天空中的白云上,如圖4(b)所示;圖4(c)展示了圖像和文本通過門控交叉注意力進(jìn)行交互后的注意力,模型的注意力主要集中在圖中的游艇和碼頭上,有少量注意力關(guān)注水面和白云。通過圖4(e)(f)可以看出,用圖像交互引導(dǎo)后模型更為關(guān)注與圖像相關(guān)的“游艇”“碼頭”等單詞。綜合來看,本文模型能構(gòu)建圖像和文本中局部信息關(guān)聯(lián),并能在情感分類實(shí)驗(yàn)中取得更好的效果。

3.4.3 消融實(shí)驗(yàn)

為了驗(yàn)證本文所提出的帶門控注意力模態(tài)間信息交互模塊和自適應(yīng)特征融合模塊的有效性,本節(jié)通過消融實(shí)驗(yàn)進(jìn)行對比。

消融實(shí)驗(yàn)結(jié)果如表4所示,其中MII-1設(shè)置為使用粗粒度交叉注意力進(jìn)行模態(tài)間交互,然后直接拼接特征進(jìn)行分類;MII-2為使用了帶門控注意力的模態(tài)間交互模塊,但不考慮拼接特征可能帶有的冗余信息,直接進(jìn)行分類;MII-3為使用粗粒度注意力進(jìn)行模態(tài)間交互,但在特征融合階段使用自適應(yīng)特征融合模塊選擇包含情感信息的關(guān)鍵特征進(jìn)行分類。

從表4可以看出MII-1情感分類的結(jié)果最差,沒有有效利用模態(tài)間的相互聯(lián)系提取特征,拼接特征中過多的冗余信息干擾了最終分類結(jié)果的準(zhǔn)確性。由于MII-2使用了門控機(jī)制對交叉注意力中輸入的特征進(jìn)行約束,以文本引導(dǎo)圖像為例,先將圖像和文本模態(tài)內(nèi)交互特征映射到公共空間來表示模態(tài)特征之間的相關(guān)性,然后選擇圖像中相關(guān)性較高的特征進(jìn)行細(xì)粒度注意力交互,從而準(zhǔn)確地挖掘圖像文本之間的局部語義關(guān)聯(lián),關(guān)注圖像中與文本相關(guān)的特征。所以MII-2的結(jié)果表現(xiàn)較之MII-1更好,從而證明了模態(tài)間交互模塊中門控交叉注意力的有效性。MII-3中加入了自適應(yīng)特征融合模塊對圖像和文本特征之間的依賴關(guān)系進(jìn)行建模,從全局角度選擇其中用于情感分類的特征。MII-3的結(jié)果表現(xiàn)較之MII-1更好,證明了自適應(yīng)特征融合模塊的有效性。

4 結(jié)束語

本文提出了一個用于多模態(tài)情感分類任務(wù)的社交媒體多模態(tài)情感分析模型MII,使用了預(yù)訓(xùn)練BERT和ViT模型提取文本和圖像特征。為了挖掘?qū)W習(xí)圖像和文本之間存在的聯(lián)系和相互影響,模型加入了模態(tài)信息交互模塊用于關(guān)注模態(tài)內(nèi)和模態(tài)間信息的聯(lián)系;在模態(tài)間信息交互模塊中使用門控細(xì)粒度交叉注意力準(zhǔn)確地選擇與另一模態(tài)相關(guān)聯(lián)的特征,并且利用自適應(yīng)特征融合模塊選擇交互特征中包含情感信息的部分進(jìn)行分類,通過在兩個公開數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文提出模型的有效性。后續(xù)工作將對圖文模態(tài)信息交互模型MII進(jìn)行改進(jìn),對圖像、文本和音頻三模態(tài)之間的信息交互進(jìn)行深入研究。

參考文獻(xiàn):

[1]張亞洲,戎璐,宋大為,等.多模態(tài)情感分析研究綜述[J].模式識別與人工智能,2020,33(5):426-438.(Zhang Yazhou,Rong Lu,Song Dawei,et al.A survey on multimodal sentiment analysis[J].Pattern Recognition and Artificial Intelligence,2020,33(5):426-438.)

[2]鐘佳娃,劉巍,王思麗,等.文本情感分析方法及應(yīng)用綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(6):1-13.(Zhong Jiawa,Liu Wei,Wang Sili,et al.Review of methods and applications of text sentiment analysis[J].Data Analysis and Knowledge Discovery,2021,5(6):1-13.)

[3]孫影影,賈振堂,朱昊宇.多模態(tài)深度學(xué)習(xí)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(21):1-10.(Sun Yingying,Jia Zhentang,Zhu Haoyu.Survey of multimodal deep learning[J].Computer Engineering and Applications,2020,56(21):1-10.)

[4]陳志毅,隋杰.基于DeepFM和卷積神經(jīng)網(wǎng)絡(luò)的集成式多模態(tài)謠言檢測方法[J].計(jì)算機(jī)科學(xué),2022,49(1):101-107.(Chen Zhiyi,Sui Jie.DeepFM and convolutional neural networks ensembles for multimodal rumor detection[J].Computer Science,2022,49(1):101-107.)

[5]Wu Yang,Zhan Pengwei,Zhang Yunjian,et al.Multimodal fusion with co-attention networks for fake news detection[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2021:2560-2569.

[6]任澤裕,王振超,柯尊旺,等.多模態(tài)數(shù)據(jù)融合綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(18):49-64.(Ren Zeyu,Wang Zhenchao,Ke Zunwang,et al.Survey of multimodal data fusion[J].Computer Engineering and Applications,2021,57(18):49-64.)

[7]何俊,張彩慶,李小珍,等.面向深度學(xué)習(xí)的多模態(tài)融合技術(shù)研究綜述[J].計(jì)算機(jī)工程,2020,46(5):1-11.(He Jun,Zhang Caiqing,Li Xiaozhen,et al.Survey of research on multimodal fusion technology for deep learning[J].Computer Engineering,2020,46(5):1-11.)

[8]Wang Min,Cao Ddonglin,Li Lingxiao,et al.Microblog sentiment analysis based on cross-media bag-of-words model[C]//Proc of International Conference on Internet Multimedia Computing and Service.New York:ACM Press,2014:76-80.

[9]劉繼明,張培翔,劉穎,等.多模態(tài)的情感分析技術(shù)綜述[J].計(jì)算機(jī)科學(xué)與探索,2021,15(7):1165-1182.(Liu Jiming,Zhang Peixiang,Liu Ying,et al.Summary of multi-modal sentiment analysis technology[J].Journal of Frontiers of Computer Science & Technology,2021,15(7):1165-1182.)

[10]Borth D,Ji Rongrong,Chen Tao,et al.Large-scale visual sentiment ontology and detectors using adjective noun pairs[C]//Proc of the 21st ACM International Conference on Multimedia.New York:ACM Press,2013:223-232.

[11]Cai Guoyong,Xia Binbin.Convolutional neural networks for multimedia sentiment analysis[C]//Proc of the 4th CCF International Conference on Natural Language Processing and Chinese Computing.Cham:Springer,159-167.

[12]Yu Yuhai,Lin Hongfei,Meng Jiana,et al.Visual and textual sentiment analysis of a microblog using deep convolutional neural networks[J].Algorithms,2016,9(2):https://doi.org/10.3390/a9020041.

[13]Zadeh A,Zellers R,Pincus E,et al.Multimodal sentiment intensity analysis in videos:Facial gestures and verbal messages[J].IEEE Intelligent Systems,2016,31(6):82-88.

[14]Niu Zhaoyang,Zhong Guoqiang,Yu Hui.A review on the attention mechanism of deep learning[J].Neurocomputing,2021,452(9):48-62.

[15]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc,2017:6000-6010.

[16]Nan Xu,Mao Wenji.Multisentinet:a deep semantic network for multimodal sentiment analysis[C]//Proc of ACM on Conference on Information and Knowledge Management.New York:ACM Press,2017:2399-2402.

[17]郭可心,張宇翔.基于多層次空間注意力的圖文評論情感分析方法[J].計(jì)算機(jī)應(yīng)用,2021,41(10):2835-2841.(Guo Kexin,Zhang Yuxiang.Visual-textual sentiment analysis method based on multi-level spatial attention[J].Journal of Computer Applications,2021,41(10):2835-2841.)

[18]劉琦瑋,李俊,顧蓓蓓,等.TSAIE:圖像增強(qiáng)文本的多模態(tài)情感分析模型[J].數(shù)據(jù)與計(jì)算發(fā)展前沿,2022,4(3):131-140.(Liu Qiwei,Li Jun,Gu Beibei,et al.TSAIE:text sentiment analysis model based on image enhancement[J].Frontiers of Data & Domputing,2022,4(3):131-140.)

[19]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[EB/OL].(2017-07-23).https://arxiv.org/abs/1707.07250.

[20]Ghosal D,Akhtar M S,Chauhan D,et al.Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:3454-3466.

[21]Xu Nan,Mao Wenji,Chen Guandan.A Co-Memory network for multimodal sentiment analysis[C]//Proc of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval.New York:ACM Press,2018:929-932.

[22]Zhang Kang,Geng Yushui,Zhao Jing,et al.Sentiment analysis of social media via multimodal feature fusion[J].Symmetry,2020,12(12):https://doi.org/10.3390/sym12122010.

[23]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2019:4171-4186.

[24]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16 words:transformers for image recognition at scale[EB/OL].(2021-06-03).https://arxiv.org/abs/2010.11929.

[25]Niu Teng,Zhu Shiai,Pang Lei,et al.Sentiment analysis on multi-view social data[C]//Proc of the 22nd International Conference on Multimedia Modeling.Cham:Springer,2016:15-27.

收稿日期:2023-02-06;

修回日期:2023-04-06

基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(62266004)

作者簡介:蔡宇揚(yáng)(1998-),男,貴州遵義人,碩士研究生,主要研究方向?yàn)槎嗄B(tài)情感分析;蒙祖強(qiáng)(1974-),男(通信作者),廣西河池人,教授,博導(dǎo),博士,主要研究方向?yàn)榭缑襟w智能、多模態(tài)情感分析、粒計(jì)算(zqmeng@126.com).

猜你喜歡
信息交互情感分析注意力機(jī)制
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評論情感屬性的動態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
如何補(bǔ)齊當(dāng)前愛國主義輿論引導(dǎo)中的短板
人民論壇(2016年22期)2016-12-13 10:20:24
基于云追溯明晰食品安全責(zé)任主體的市場化認(rèn)定
中國市場(2016年27期)2016-07-16 04:40:01
基于郵件系統(tǒng)的虛擬網(wǎng)絡(luò)社會管理的研究
舞阳县| 松江区| 华容县| 泾川县| 马龙县| 象山县| 兴和县| 绥宁县| 唐山市| 丰顺县| 台中市| 原阳县| 秦皇岛市| 泸定县| 阿荣旗| 金华市| 西华县| 昭觉县| 信宜市| 竹山县| 南汇区| 阳高县| 罗田县| 佛山市| 黄山市| 大石桥市| 神农架林区| 容城县| 和政县| 屯昌县| 澄迈县| 建德市| 西充县| 河北区| 广水市| 民乐县| 新民市| 嘉善县| 临沭县| 英山县| 元谋县|