基于Multi-attention的文本語音多媒體情感分析

2020-02-03 02:38佟德超

電子技術(shù)與軟件工程 2020年19期

佟德超

（沈陽化工大學(xué)計算機科學(xué)與技術(shù)學(xué)院遼寧省沈陽市 110000）

1 概述

之前的情感分析大多集中在對文本數(shù)據(jù)的分析上，但如今人們表達情感的方式早已不僅僅局限于單模態(tài)的文字，而是同時包含音頻信息、視頻信息、和文本信息的多媒體數(shù)據(jù)，因此多媒體數(shù)據(jù)情感分析的研究正在變成一個越來越受重視的研究方向[1]。單模態(tài)的數(shù)據(jù)只需處理好模態(tài)的內(nèi)部信息，但對于多模態(tài)的數(shù)據(jù)來說還需處理好模態(tài)間的交互信息，這也是多模態(tài)情感分析的關(guān)鍵和優(yōu)勢所在[2-3]。

與單模態(tài)相比，多模態(tài)的情感分析在處理好單模態(tài)信息的基礎(chǔ)上還需要處理好不同模態(tài)之間的信息交互問題。單模態(tài)的特征信息通常使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks,CNN）、門控制循環(huán)單元（Gated Recurrent Unit,GRU）、或者長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory,LSTM）來獲取。多模態(tài)的信息主要有早融合和晚融合兩大類方式，早融合是把各個模態(tài)的信息拼接之后輸入到模型中訓(xùn)練，早融合的一種方式是使用LSTM。晚融合是先單獨訓(xùn)練，然后進行決策投票。情感分析任務(wù)中句子的語境也會影響句子的情感傾向[4]，但傳統(tǒng)的方法大都忽略了這一點。之前的研究中不乏對文本和音頻的研究，You 等人提出了一種跨模態(tài)一致回歸模型（CCR）。Porias 等利用卷積神經(jīng)網(wǎng)絡(luò)（CNN）分別提取文本和音頻數(shù)據(jù)的特征之后進行多核學(xué)習(xí)來進行特征融合。Zadeh等提出了圖記憶融合網(wǎng)絡(luò)和張量融合網(wǎng)絡(luò)來進行信息的融合。以上方法較傳統(tǒng)的方式相比有了一定的提升，但是沒能做到單模態(tài)內(nèi)部信息和各個模態(tài)之間交互信息的聯(lián)合學(xué)習(xí)，而且無論是單個模態(tài)的信息還是多個模態(tài)之間的交互信息都只關(guān)注了局部的特征，沒有結(jié)合全局的信息，導(dǎo)致多模態(tài)的信息融合也不夠充分。

為解決上述問題，本文提出了一種基于Multi-attention 的多媒體情感分析方法。該方法使用Multi-attention 進行多媒體數(shù)據(jù)的信息交互，讓多媒體特征進行更充分的交融。最后使用softmax 對情感進行分類。

2 模型結(jié)構(gòu)

圖1 中展現(xiàn)了基于LSTM 和Multi-attention 的多模態(tài)情感分析的模型框架圖，簡稱為MAM 模型。

模型主要分為以下幾個部分：

（1）文本和語音的嵌入方式。

（2）文本和語音的單獨的信息交融。

（3）文本和語音之間的信息交互。

2.1 文本和語音的嵌入方式

圖1：基于注意力機制的多模態(tài)情感分析模型框架圖

圖2：模態(tài)交互注意力機制計算流程圖

初始的嵌入我們使用由卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)工具包（CMU-Multimodal SDK）。我們使用MOSI 語料庫，該語料庫中的特征是句子級別的，其中文本特征由基于詞語共現(xiàn)矩陣的GloVe 模型獲取，語音特征由Cova-Rep 語音分析框架獲取。由于多個模態(tài)的數(shù)據(jù)在表達同一含義時所需的特征長度是不同的，所以需要對各個模態(tài)進行對齊。使用工具包中的P2FA 將單詞和對應(yīng)的音頻視頻數(shù)據(jù)對齊，這種對齊方式也是被應(yīng)用較為廣泛的，同時也是更容易被理解的一種多模態(tài)數(shù)據(jù)的對齊方式。經(jīng)過以上方式對原始數(shù)據(jù)進行嵌入之后，假設(shè)該視頻片段中有n 個句子，則本文的初始特征T∈Rn*100，音頻特征A∈Rn*73。

2.2 單模態(tài)的信息交融

單模態(tài)的信息抽取主要依靠的是Bi-LSTM，該模型可以從前后兩個方向來獲取句子間的關(guān)系。單向的LSTM 模型是當(dāng)前隱層狀態(tài)攜帶了前面隱層狀態(tài)的信息，但有時當(dāng)前隱層狀態(tài)與后面的隱層狀態(tài)的信息也有很大的關(guān)聯(lián)，所以需要同時考慮前后兩個方向的隱層信息。Bi-LSTM 的計算公式如下：

2.3 模態(tài)間的信息交互

在2.2 節(jié)中我們分別得到了文本和聲音的經(jīng)過了Bi-LSTM 層和Dense 層的特征表示，在本節(jié)中我們的任務(wù)是把多個模態(tài)的信息進行交互融合，發(fā)掘出模態(tài)與模態(tài)之間的交互信息。也就是圖1 中的Multi-Attention 部分，該模塊實現(xiàn)了對兩種模態(tài)的信息交互的目的，其結(jié)構(gòu)如下：

表1：不同模型實驗結(jié)果

圖2 中的x 表示dot 運算（矩陣乘法運算），*表示multiply運算（元素乘法運算），首先用經(jīng)過了Bi-LSTM 和Dence 層的特征Dense-A 和Dense-T 進行dot 運算計算出Dense-T 特征對Dense-A 特征的相似度矩陣D。

矩陣D 經(jīng)過softmax 之后得到的代表著Dense-T 特征對Dense-A 特征注意力權(quán)重的矩陣N。用Dense-A 與矩陣N 進行dot運算可以得出融合了Dense-T 信息的Att-At 特征，公式如下：

最后，在每個經(jīng)過了Multi-Attention 特征融合表示之后的單獨模態(tài)的特征與其他模態(tài)之間計算了一個乘法門控函數(shù)，這種元素矩陣乘法有助于處理多種模態(tài)和句子的重要組成部分。

式（3）中Att-At 為語音信息融合了文本信息的特征。用同樣的方式可以求出文本融合了語音的信息Att-aT，公式如下：

同時為了更好的考慮單個模態(tài)特征對自身特征的注意力分布，特征融合層還將兩種模態(tài)分別做了自注意力機制（self-attention）操作，其計算方式與多模態(tài)attention 基本一致。可以得到特征Att-AA 與Att-TT：

最終的融合特征merged 表示為：

3 實驗與結(jié)果

3.1 實驗

3.1.1 實驗設(shè)置

實驗中Bi-LSTM 的單元個數(shù)bi_lstm_units 為300，正則化參數(shù)drop_bilstm 為0.8，Dense 層的單元個數(shù)dense_units 為100，正則化參數(shù)drop_dense 為0.8。本實驗選擇Accuracy 和F1-score 作為評價指標(biāo)。

3.1.2 對比實驗

為驗證本實驗?zāi)Ｐ偷挠行裕瑢⒈緦嶒灥哪Ｐ团c如下模型進行對比實驗：SVM-MD，TFN，MMMU_BA，MAM，本文提出的方法，其中MAM(only text)為單文本模態(tài)，MAM(only audio)為單語音模態(tài)。

表1 中的P(A)和P(F1)分別表示論文方法BLAM（2 attention）與對比方法在ACC 和F1 指標(biāo)上的差值。

3.2 實驗結(jié)果分析

通過表1 中的對比實驗數(shù)據(jù)結(jié)果可以看出，總體來說本文提出的多模態(tài)情感分析模型的表現(xiàn)優(yōu)于其他的對比模型。所提方法與SVM 等傳統(tǒng)機器學(xué)習(xí)方法對比在accuracy 指標(biāo)和f1-score 指標(biāo)上都有較高的提升，與近期先進的深度學(xué)習(xí)方法TFN 和MMMU-BA等對比，在兩個指標(biāo)上也有一定的提升，突出了充分考慮上下文語境以及attention 機制融合信息的重要性。

4 結(jié)束語

本文提出了一種基于雙向長短期記憶網(wǎng)絡(luò)和注意力機制的多模態(tài)情感分析方法。通過Bi-LSTM 和self-attention 從全局語境上更加充分的獲取單個模態(tài)信息，再通過multi-attention 進行模態(tài)間的信息交互和融合，使單模態(tài)更加關(guān)注其他模態(tài)的重要組成部分，最后通過分類器完成多模態(tài)情感分析的任務(wù)。本文以MOSI 作為實驗的數(shù)據(jù)集，在對比實驗中本文所提的方法表現(xiàn)優(yōu)異。但是由于現(xiàn)有的資源有限，只在相對小的數(shù)據(jù)集完成了實驗，未來會嘗試在更大的數(shù)據(jù)集去完善我們的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡