国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Multi-attention的文本語音多媒體情感分析

2020-02-03 02:38佟德超
電子技術(shù)與軟件工程 2020年19期
關(guān)鍵詞:語音模態(tài)特征

佟德超

(沈陽化工大學(xué)計算機科學(xué)與技術(shù)學(xué)院 遼寧省沈陽市 110000)

1 概述

之前的情感分析大多集中在對文本數(shù)據(jù)的分析上,但如今人們表達情感的方式早已不僅僅局限于單模態(tài)的文字,而是同時包含音頻信息、視頻信息、和文本信息的多媒體數(shù)據(jù),因此多媒體數(shù)據(jù)情感分析的研究正在變成一個越來越受重視的研究方向[1]。單模態(tài)的數(shù)據(jù)只需處理好模態(tài)的內(nèi)部信息,但對于多模態(tài)的數(shù)據(jù)來說還需處理好模態(tài)間的交互信息,這也是多模態(tài)情感分析的關(guān)鍵和優(yōu)勢所在[2-3]。

與單模態(tài)相比,多模態(tài)的情感分析在處理好單模態(tài)信息的基礎(chǔ)上還需要處理好不同模態(tài)之間的信息交互問題。單模態(tài)的特征信息通常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、門控制循環(huán)單元(Gated Recurrent Unit,GRU)、或者長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來獲取。多模態(tài)的信息主要有早融合和晚融合兩大類方式,早融合是把各個模態(tài)的信息拼接之后輸入到模型中訓(xùn)練,早融合的一種方式是使用LSTM。晚融合是先單獨訓(xùn)練,然后進行決策投票。情感分析任務(wù)中句子的語境也會影響句子的情感傾向[4],但傳統(tǒng)的方法大都忽略了這一點。之前的研究中不乏對文本和音頻的研究,You 等人提出了一種跨模態(tài)一致回歸模型(CCR)。Porias 等利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別提取文本和音頻數(shù)據(jù)的特征之后進行多核學(xué)習(xí)來進行特征融合。Zadeh等提出了圖記憶融合網(wǎng)絡(luò)和張量融合網(wǎng)絡(luò)來進行信息的融合。以上方法較傳統(tǒng)的方式相比有了一定的提升,但是沒能做到單模態(tài)內(nèi)部信息和各個模態(tài)之間交互信息的聯(lián)合學(xué)習(xí),而且無論是單個模態(tài)的信息還是多個模態(tài)之間的交互信息都只關(guān)注了局部的特征,沒有結(jié)合全局的信息,導(dǎo)致多模態(tài)的信息融合也不夠充分。

為解決上述問題,本文提出了一種基于Multi-attention 的多媒體情感分析方法。該方法使用Multi-attention 進行多媒體數(shù)據(jù)的信息交互,讓多媒體特征進行更充分的交融。最后使用softmax 對情感進行分類。

2 模型結(jié)構(gòu)

圖1 中展現(xiàn)了基于LSTM 和Multi-attention 的多模態(tài)情感分析的模型框架圖,簡稱為MAM 模型。

模型主要分為以下幾個部分:

(1)文本和語音的嵌入方式。

(2)文本和語音的單獨的信息交融。

(3)文本和語音之間的信息交互。

2.1 文本和語音的嵌入方式

圖1:基于注意力機制的多模態(tài)情感分析模型框架圖

圖2:模態(tài)交互注意力機制計算流程圖

初始的嵌入我們使用由卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)工具包(CMU-Multimodal SDK)。我們使用MOSI 語料庫,該語料庫中的特征是句子級別的,其中文本特征由基于詞語共現(xiàn)矩陣的GloVe 模型獲取,語音特征由Cova-Rep 語音分析框架獲取。由于多個模態(tài)的數(shù)據(jù)在表達同一含義時所需的特征長度是不同的,所以需要對各個模態(tài)進行對齊。使用工具包中的P2FA 將單詞和對應(yīng)的音頻視頻數(shù)據(jù)對齊,這種對齊方式也是被應(yīng)用較為廣泛的,同時也是更容易被理解的一種多模態(tài)數(shù)據(jù)的對齊方式。經(jīng)過以上方式對原始數(shù)據(jù)進行嵌入之后,假設(shè)該視頻片段中有n 個句子,則本文的初始特征T∈Rn*100,音頻特征A∈Rn*73。

2.2 單模態(tài)的信息交融

單模態(tài)的信息抽取主要依靠的是Bi-LSTM,該模型可以從前后兩個方向來獲取句子間的關(guān)系。單向的LSTM 模型是當(dāng)前隱層狀態(tài)攜帶了前面隱層狀態(tài)的信息,但有時當(dāng)前隱層狀態(tài)與后面的隱層狀態(tài)的信息也有很大的關(guān)聯(lián),所以需要同時考慮前后兩個方向的隱層信息。Bi-LSTM 的計算公式如下:

2.3 模態(tài)間的信息交互

在2.2 節(jié)中我們分別得到了文本和聲音的經(jīng)過了Bi-LSTM 層和Dense 層的特征表示,在本節(jié)中我們的任務(wù)是把多個模態(tài)的信息進行交互融合,發(fā)掘出模態(tài)與模態(tài)之間的交互信息。也就是圖1 中的Multi-Attention 部分,該模塊實現(xiàn)了對兩種模態(tài)的信息交互的目的,其結(jié)構(gòu)如下:

表1:不同模型實驗結(jié)果

圖2 中的x 表示dot 運算(矩陣乘法運算),*表示multiply運算(元素乘法運算),首先用經(jīng)過了Bi-LSTM 和Dence 層的特征Dense-A 和Dense-T 進行dot 運算計算出Dense-T 特征對Dense-A 特征的相似度矩陣D。

矩陣D 經(jīng)過softmax 之后得到的代表著Dense-T 特征對Dense-A 特征注意力權(quán)重的矩陣N。用Dense-A 與矩陣N 進行dot運算可以得出融合了Dense-T 信息的Att-At 特征,公式如下:

最后,在每個經(jīng)過了Multi-Attention 特征融合表示之后的單獨模態(tài)的特征與其他模態(tài)之間計算了一個乘法門控函數(shù),這種元素矩陣乘法有助于處理多種模態(tài)和句子的重要組成部分。

式(3)中Att-At 為語音信息融合了文本信息的特征。用同樣的方式可以求出文本融合了語音的信息Att-aT,公式如下:

同時為了更好的考慮單個模態(tài)特征對自身特征的注意力分布,特征融合層還將兩種模態(tài)分別做了自注意力機制(self-attention)操作,其計算方式與多模態(tài)attention 基本一致。可以得到特征Att-AA 與Att-TT:

最終的融合特征merged 表示為:

3 實驗與結(jié)果

3.1 實驗

3.1.1 實驗設(shè)置

實驗中Bi-LSTM 的單元個數(shù)bi_lstm_units 為300,正則化參數(shù)drop_bilstm 為0.8,Dense 層的單元個數(shù)dense_units 為100,正則化參數(shù)drop_dense 為0.8。本實驗選擇Accuracy 和F1-score 作為評價指標(biāo)。

3.1.2 對比實驗

為驗證本實驗?zāi)P偷挠行裕瑢⒈緦嶒灥哪P团c如下模型進行對比實驗:SVM-MD,TFN,MMMU_BA,MAM,本文提出的方法,其中MAM(only text)為單文本模態(tài),MAM(only audio)為單語音模態(tài)。

表1 中的P(A)和P(F1)分別表示論文方法BLAM(2 attention)與對比方法在ACC 和F1 指標(biāo)上的差值。

3.2 實驗結(jié)果分析

通過表1 中的對比實驗數(shù)據(jù)結(jié)果可以看出,總體來說本文提出的多模態(tài)情感分析模型的表現(xiàn)優(yōu)于其他的對比模型。所提方法與SVM 等傳統(tǒng)機器學(xué)習(xí)方法對比在accuracy 指標(biāo)和f1-score 指標(biāo)上都有較高的提升,與近期先進的深度學(xué)習(xí)方法TFN 和MMMU-BA等對比,在兩個指標(biāo)上也有一定的提升,突出了充分考慮上下文語境以及attention 機制融合信息的重要性。

4 結(jié)束語

本文提出了一種基于雙向長短期記憶網(wǎng)絡(luò)和注意力機制的多模態(tài)情感分析方法。通過Bi-LSTM 和self-attention 從全局語境上更加充分的獲取單個模態(tài)信息,再通過multi-attention 進行模態(tài)間的信息交互和融合,使單模態(tài)更加關(guān)注其他模態(tài)的重要組成部分,最后通過分類器完成多模態(tài)情感分析的任務(wù)。本文以MOSI 作為實驗的數(shù)據(jù)集,在對比實驗中本文所提的方法表現(xiàn)優(yōu)異。但是由于現(xiàn)有的資源有限,只在相對小的數(shù)據(jù)集完成了實驗,未來會嘗試在更大的數(shù)據(jù)集去完善我們的方法。

猜你喜歡
語音模態(tài)特征
如何表達“特征”
魔力語音
基于MATLAB的語音信號處理
不忠誠的四個特征
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
抓住特征巧觀察
國內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
乌兰浩特市| 嵊泗县| 陈巴尔虎旗| 贵溪市| 滨海县| 洛浦县| 上饶市| 同仁县| 益阳市| 科技| 九江市| 琼海市| 镇坪县| 维西| 青龙| 永济市| 石楼县| 乌鲁木齐县| 台东县| 六盘水市| 峨眉山市| 永平县| 台前县| 扎兰屯市| 洛川县| 芒康县| 仪征市| 苍溪县| 巴林右旗| 蓝田县| 蓝山县| 库车县| 鹤岗市| 田林县| 芷江| 平和县| 咸阳市| 柞水县| 邛崃市| 龙山县| 桂林市|