国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的語音情感識(shí)別非線性特征融合方法的研究

2023-02-17 01:54:18周偉東周后盤夏鵬飛
關(guān)鍵詞:解碼時(shí)空注意力

周偉東 周后盤 夏鵬飛

(杭州電子科技大學(xué)自動(dòng)化(人工智能)學(xué)院 浙江 杭州 310000)

0 引 言

近年來雖然在語音領(lǐng)域的研究取得了很大發(fā)展,但還遠(yuǎn)遠(yuǎn)不能滿足人和機(jī)器自然交互的應(yīng)用需求,因此建立一個(gè)理解人情感的自然交互系統(tǒng)非常重要[1-2]。然而人的情感識(shí)別非常困難。人的情感可以從肢體動(dòng)作、語音、面部表情等多種方式獲取,但在許多實(shí)際生活場景中想要實(shí)時(shí)地獲取除語音之外的情感表達(dá)方式非常困難[3-7]。例如,對(duì)孤寡老人的情感監(jiān)控、呼叫中心的情感識(shí)別、客服系統(tǒng)的情感識(shí)別等。因此使用語音進(jìn)行情感識(shí)別非常有必要。

機(jī)器學(xué)習(xí)方法普遍被用于語音情感識(shí)別。以前的研究通常直接從原始語音信號(hào)中提取低級(jí)特征或者高層次的統(tǒng)計(jì)特征,然后直接輸入給分類器進(jìn)行語音情感識(shí)別。常用的分類器有隱馬爾可夫模型(HMM)[8]、支持向量機(jī)(SVM)[9]、決策樹[10]等。但近期,研究者們利用深度神經(jīng)網(wǎng)絡(luò)從語音信號(hào)中學(xué)習(xí)表征情感的高級(jí)特征。

由于不同深度神經(jīng)網(wǎng)絡(luò)模型提取語音情感特征的優(yōu)勢不同,組合多個(gè)深度神經(jīng)網(wǎng)絡(luò)模型提取語音情感相關(guān)特征的方法逐漸被采用。常使用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)提取語音信號(hào)中的時(shí)間特征,卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取語音信號(hào)中的空間特征,最后將提取的時(shí)空特征線性組合在一起進(jìn)行語音情感識(shí)別,但這樣線性組合的時(shí)空特征無法在細(xì)粒度上獲取時(shí)空特征的動(dòng)態(tài)依賴關(guān)系。

卷積神經(jīng)網(wǎng)絡(luò)可以有效地提取頻域中的局部空間特征,因此一些研究者利用卷積神經(jīng)網(wǎng)絡(luò)從語音的頻譜圖中提取情感相關(guān)特征[11-12]。但由于卷積神經(jīng)網(wǎng)絡(luò)無法獲取語音序列中的長期依賴關(guān)系,因此常結(jié)合長短時(shí)記憶網(wǎng)絡(luò)來學(xué)習(xí)局部空間特征中的長期依賴關(guān)系。Zhao等[13]將全卷積神經(jīng)網(wǎng)絡(luò)(FCN)提取的空間特征與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)提取的時(shí)間特征進(jìn)行線性組合得到語音中情感相關(guān)特征的時(shí)空表達(dá)關(guān)系。Meng等[14]將時(shí)間卷積網(wǎng)絡(luò)(TCN)提取的空間局部特征送入到循環(huán)神經(jīng)網(wǎng)絡(luò)來提取局部特征之間的長期依賴關(guān)系并在聲譜圖中取得了良好的效果。但前者無法捕獲時(shí)間特征和空間特征之間的非線性依賴關(guān)系,后者的模型受前一個(gè)模型的分類效果影響往往無法得到很好的識(shí)別效果。

本文提出基于注意力機(jī)制的非線性時(shí)空特征融合方法來解決線性時(shí)空特征融合無法在細(xì)粒度上獲取時(shí)空特征動(dòng)態(tài)依賴關(guān)系的問題。實(shí)驗(yàn)中使用基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)(TCN)學(xué)習(xí)語音空間域中的高級(jí)特征,基于注意機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)(LSTM)學(xué)習(xí)語音中的時(shí)間特征,并利用注意力機(jī)制進(jìn)行非線性時(shí)空特征融合。該方法使用了三個(gè)注意力機(jī)制,單個(gè)網(wǎng)絡(luò)中的注意力機(jī)制用來關(guān)注模型自身的情感相關(guān)特征,模型間的注意力機(jī)制用來關(guān)注時(shí)空特征的動(dòng)態(tài)依賴關(guān)系。實(shí)驗(yàn)結(jié)果表明,使用基于注意力機(jī)制進(jìn)行非線性時(shí)空特征融合相較于線性融合可以獲得更好的分類效果。

1 相關(guān)工作

注意力機(jī)制在語音情感識(shí)別領(lǐng)域中運(yùn)用廣泛。注意力機(jī)制由Bahdanau等[15]第一次提出,利用注意力網(wǎng)絡(luò)來協(xié)調(diào)機(jī)器翻譯中的輸入輸出序列。在此方法提出之后,注意力機(jī)制被廣泛運(yùn)用到語音情感識(shí)別領(lǐng)域。Mirsamadi等[16]使用局部注意力機(jī)制去聚焦語音信號(hào)中情感更顯著的特定區(qū)域,利用logistic回歸模型作為注意力模型,將參數(shù)向量和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的輸出進(jìn)行內(nèi)積,得到每一幀對(duì)于最終情感貢獻(xiàn)的分?jǐn)?shù),最后利用Softmax獲得幀的權(quán)重;Sarma等[17]使用時(shí)間限制的注意力層,在時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)和長短時(shí)記憶網(wǎng)絡(luò)(LSTM)中設(shè)置時(shí)間限制的注意力層,顯著提高了分類的準(zhǔn)確率,同時(shí)減少了各個(gè)類別之間的混淆;Xu等[18]利用注意力機(jī)制進(jìn)行多模態(tài)語音和文本的幀對(duì)齊,利用雙向長短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)學(xué)習(xí)語音和語音文本的長期依賴,使用注意力機(jī)制將語音和文本的多模態(tài)特征進(jìn)行幀層面上的軟對(duì)齊,最后組合在一起輸入給下一個(gè)雙向長短時(shí)記憶網(wǎng)絡(luò)進(jìn)行最后的語音情感識(shí)別。受此啟發(fā),我們利用注意力機(jī)制進(jìn)行時(shí)空特征的非線性融合。

2 算法描述

2.1 長短時(shí)記憶網(wǎng)絡(luò)

使用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)提取語音信號(hào)中的時(shí)域特征。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,通過加入輸入門、遺忘門、輸出門來學(xué)習(xí)序列中長期依賴關(guān)系,緩解了RNN中出現(xiàn)的梯度消失和梯度爆炸,并廣泛用于對(duì)時(shí)間序列建模[19]。LSTM模塊單元如圖1所示。

圖1 LSTM模塊單元

LSTM主要由四個(gè)單元構(gòu)成:輸入門、遺忘門、輸出門。網(wǎng)絡(luò)中遺忘門來決定上一個(gè)狀態(tài)哪些數(shù)據(jù)可以保留。輸入門來決定更新哪些信息,輸出門用來決定哪些會(huì)被作為當(dāng)前狀態(tài)的輸出。LSTM的前向傳播公式如下:

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wt·[ht-1,xt]+bi)

ot=σ(Wo·[ht-1,xt]+bo)

ct=ft°ct-1+it° tanh(Wc·[ht-1,xt]+bc)

ht=ot° tanh(ct)

(1)

式中:ft表示遺忘門;it表示輸入門;ot表示輸出門;ct表示當(dāng)前狀態(tài);ht表示當(dāng)前轉(zhuǎn)臺(tái)哪些是須要被輸出;W、b表示網(wǎng)絡(luò)的可訓(xùn)練參數(shù);σ表示激活函數(shù);“° ”表示哈達(dá)瑪積(矩陣對(duì)應(yīng)元素相乘)。

2.2 時(shí)間卷積網(wǎng)絡(luò)

多層TCN結(jié)構(gòu)如圖2所示,對(duì)于給定的輸入[x0,x1,…,xT]進(jìn)行膨脹因果卷積。其中k表示卷積核的大小,d表示膨脹卷積的系數(shù)。TCN可以通過堆疊層數(shù),讓d指數(shù)增長從而增加最終輸出的感受野,解決了因果卷積中為了獲取較長歷史信息所需要大的卷積核和深層網(wǎng)絡(luò)的弊端。此外這里的因果卷積是利用一維膨脹卷積的輸出經(jīng)過Padding的方法實(shí)現(xiàn),它可以使得語音信號(hào)中未來到過去的信息不存在泄露,還可以像RNN一樣將任意長度的輸入信息映射到具有相同長度的輸出序列。

圖2 多層TCN結(jié)構(gòu)

圖3 一層TCN結(jié)構(gòu)

2.3 基于注意力機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)解碼

基于注意力機(jī)制的非線性特征融合模型框架如圖4所示。其中右半部分為基于注意力機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)解碼,結(jié)構(gòu)如圖5所示。

圖4 基于注意力機(jī)制的非線性特征融合模型

圖5 基于注意力機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)解碼

通過對(duì)語料庫中的每個(gè)音頻數(shù)據(jù)提取情感特征可以得到[x0,x1,…,xT],其中T表示語音片段經(jīng)過提取情感特征后的幀數(shù)。實(shí)驗(yàn)中將提取到的數(shù)據(jù)輸入給LSTM網(wǎng)絡(luò),并獲取其隱藏層狀態(tài),并將隱藏狀態(tài)輸入給注意力層來聚焦情感顯著部分。這里的注意力層結(jié)構(gòu)類似Mirsamadi等[16]提出的使用局部注意力機(jī)制。利用logistic回歸模型作為注意力模型,通過訓(xùn)練參數(shù)w,可以得到每幀在語音情感上的權(quán)重?;谧⒁饬C(jī)制的長短時(shí)記憶網(wǎng)絡(luò)解碼定義如下:

Hi=LSTM(Xi)i∈{0,1,…,T}

(2)

f(Hi)=tanh(wTHi+b)

(3)

(4)

ei=viHi

(5)

式中:Hi表示LSTM隱藏層狀態(tài);f(Hi)是相關(guān)度函數(shù);w和b為模型的訓(xùn)練參數(shù);vi表示對(duì)于輸入向量Hi計(jì)算得到的注意力權(quán)重參數(shù);ei是注意力層經(jīng)過加權(quán)之后得到的輸出。

2.4 基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)解碼

圖4的左半部分為基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò),其結(jié)構(gòu)如圖6所示。

圖6 基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)解碼

將提取到的語音情感特征輸入給TCN,利用TCN獲取局部空間中的情感相關(guān)特征,并將學(xué)習(xí)到的高級(jí)空間特征輸入給注意力層。這里的注意力層和2.3節(jié)中類似,不過此處的注意力層是用來關(guān)注與情感相關(guān)的空間特征?;谧⒁饬C(jī)制的時(shí)間卷積網(wǎng)絡(luò)解碼定義如下:

Ci=TCN(Xi)i∈{0,1,…,T}

(6)

f(Ci)=tanh(wTCi+b)

(7)

(8)

(9)

式中:Ci為TCN最終解碼的輸出;f(Ci)是相關(guān)度函數(shù);w和b為模型的訓(xùn)練參數(shù);ai是對(duì)每一個(gè)輸入向量Ci計(jì)算得到的注意力權(quán)重參數(shù);s是注意力層中經(jīng)過加權(quán)求和后的輸出。

2.5 基于注意力機(jī)制的非線性特征融合層

為了建立TCN提取到的空間特征和LSTM提取到的時(shí)間特征之間的關(guān)聯(lián),使用注意力機(jī)制將時(shí)空特征進(jìn)行非線性特征融合。先將TCN解碼得到的空間特征s和LSTM解碼得到的時(shí)域特征ei分別取出,并將其進(jìn)行矩陣相乘,并利用softmax進(jìn)行標(biāo)準(zhǔn)化處理,接著將得到的注意力權(quán)重Ai和LSTM的輸出相乘,得到非線性融合后的特征m。最后將非線性融合的結(jié)果同TCN經(jīng)注意力層后的輸出,以及韻律特征進(jìn)行線性組合,并將結(jié)果O通過softmax函數(shù)得到預(yù)測結(jié)果?;谧⒁饬C(jī)制的非線性特征融合層定義如下:

f(Di)=tanh(matmul(ei,s))

(10)

(11)

(12)

O=concat(m,s,P)

(13)

(14)

(15)

3 語音數(shù)據(jù)集和特征提取

3.1 數(shù)據(jù)集介紹

實(shí)驗(yàn)采用的是交互式情緒二元捕捉(IEMOCAP)語料庫中的語音數(shù)據(jù)[21]。IEMOCAP語料庫是由10個(gè)演員通過明確的情感劇本和即興演出的方式進(jìn)行會(huì)話。每個(gè)會(huì)話由2個(gè)表演者(一位男性,一位女性)參與,包含的總的會(huì)話時(shí)間為12個(gè)小時(shí)。音頻數(shù)據(jù)中包含10類情感(憤怒、高興、悲傷、中立、沮喪、興奮、恐懼、驚訝、厭惡、其他)。為了便于和其他研究者的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,本實(shí)驗(yàn)只保留4類情緒(憤怒、高興、悲傷、中立)。由此我們將實(shí)驗(yàn)數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集、測試集。具體的實(shí)驗(yàn)數(shù)據(jù)劃分如表1所示。

表1 實(shí)驗(yàn)數(shù)據(jù)劃分

3.2 特征提取

實(shí)驗(yàn)所用的語音特征數(shù)據(jù)是利用Opensmile工具包[22]提取的,一共提取了39維的時(shí)序特征,其中包含12個(gè)MFCC參數(shù)(1~12),26個(gè)梅爾遜頻率帶寬參數(shù),以及一個(gè)對(duì)數(shù)能量參數(shù)。其中每個(gè)音頻的采樣頻率為16 kHz,實(shí)驗(yàn)中采用25 ms的窗口,10 ms的步長提取語音特征。最后利用裁剪和填充的方法將每個(gè)句子提取的時(shí)間長度固定為750。此外還提取了35維的韻律特征。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)細(xì)節(jié)

實(shí)驗(yàn)中LSTM隱藏層的大小設(shè)置為200,注意力的尺寸設(shè)置為2,解碼的時(shí)間步長設(shè)置為最大步長750,dropout概率為0.8。TCN隱藏層的大小為200,層數(shù)為1,dropout概率為0.7,注意力尺寸大小為1。全連接層是一個(gè)435×4的權(quán)值矩陣,分別對(duì)應(yīng)隱藏層的大小和情感類別數(shù)。訓(xùn)練中設(shè)置學(xué)習(xí)率為0.001。

4.2 實(shí)驗(yàn)結(jié)果及其分析

實(shí)驗(yàn)中采用加權(quán)精度(WA)和未加權(quán)精度(UA)來評(píng)價(jià)模型。加權(quán)精度是指整體的分類精度,未加權(quán)精度是情感類別的平均召回率。其中召回率是指正確預(yù)測的樣本數(shù)中占實(shí)際樣本總數(shù)的比例,平均召回率指每個(gè)類別計(jì)算得到的召回率的平均值。

評(píng)估中我們列出了基于注意力機(jī)制的長短時(shí)記憶網(wǎng)絡(luò)解碼結(jié)果(LSTM+Attn)、時(shí)間卷積網(wǎng)絡(luò)解碼結(jié)果(TCN)、基于注意力機(jī)制的時(shí)間卷積網(wǎng)絡(luò)解碼結(jié)果(TCN+Attn)、時(shí)空特征進(jìn)行線性融合的解碼結(jié)果(TCN+LSTM+2 Attn)、時(shí)空特征進(jìn)行非線性融合的解碼結(jié)果(TCN+LSTM+3 Attn)。此外為了更好比較模型的有效性,表2將本文實(shí)驗(yàn)結(jié)果與Huang等[23]提出的LSTM+Greedy+Attn、Mirsamad等[16]提出的LLD+RNN+Attn、Zhao等[13]提出的FCN+LSTM+Attn網(wǎng)絡(luò)模型的分類結(jié)果進(jìn)行比較。從表2中可以看出在TCN網(wǎng)絡(luò)中使用注意力機(jī)制較沒有使用注意力機(jī)制的分類效果中WA提升了18.7%,UA提升了18.9%,說明加入注意力機(jī)制后有效地提高了TCN的識(shí)別精度。使用注意力機(jī)制進(jìn)行非線性特征融合較使用線性融合時(shí),WA提升了5.2%,UA提升了6.3%,說明使用注意力機(jī)制進(jìn)行時(shí)空特征的非線性融合可以做到時(shí)空特征動(dòng)態(tài)非線性依賴,并且這種非線性依賴可以有效的提高語音情感的識(shí)別率。

表2 模型評(píng)估結(jié)果(%)

為了更加細(xì)致地比較不同模型在4種情感上的分類效果,我們列出了它們的混淆矩陣,如表3-表7所示。從表2可以看出單純地將得到的特征進(jìn)行線性組合得到的分類效果不及只使用注意力機(jī)制的TCN分類效果好,但由表4和表5可以看出線性組合的結(jié)果有效地降低了中性情緒被分為生氣的精度。表6和表7中可以看出融合后的網(wǎng)絡(luò)在四類情緒的分類中更為均衡。

表3 基于Attention機(jī)制的LSTM識(shí)別效果

表4 TCN識(shí)別效果

表5 基于Attention機(jī)制的TCN識(shí)別效果

表6 基于Attention機(jī)制的LSTM和TCN線性組合識(shí)別效果

5 結(jié) 語

本文目的是解決線性時(shí)空特征融合無法在細(xì)粒度上獲取時(shí)空特征動(dòng)態(tài)依賴關(guān)系的問題。利用注意力機(jī)制將TCN提取的空間特征與LSTM提取的時(shí)間特征進(jìn)行非線性時(shí)空特征融合。實(shí)驗(yàn)在IEMOCAP數(shù)據(jù)集上進(jìn)行,得到四種情緒的混淆矩陣。通過對(duì)比時(shí)空特征線性融合和非線性融合的分類結(jié)果,得出基于注意力機(jī)制的非線性特征融合有效地提高了語音情感的分類精度。

猜你喜歡
解碼時(shí)空注意力
《解碼萬噸站》
跨越時(shí)空的相遇
讓注意力“飛”回來
鏡中的時(shí)空穿梭
解碼eUCP2.0
中國外匯(2019年19期)2019-11-26 00:57:32
NAD C368解碼/放大器一體機(jī)
Quad(國都)Vena解碼/放大器一體機(jī)
玩一次時(shí)空大“穿越”
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
东丰县| 台州市| 林口县| 华池县| 镇原县| 玛纳斯县| 叙永县| 宜良县| 巴东县| 新建县| 高邑县| 洛阳市| 开平市| 滁州市| 进贤县| 如皋市| 绥棱县| 新竹县| 乌拉特中旗| 渭源县| 郸城县| 九江县| 临清市| 军事| 保靖县| 无锡市| 嘉峪关市| 郧西县| 汽车| 宁陕县| 肇源县| 周口市| 铜梁县| 山东| 当涂县| 罗甸县| 赣榆县| 井冈山市| 大理市| 嘉义市| 师宗县|