余莉萍,梁鎮(zhèn)麟,梁瑞宇
(1.復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 201203; 2.東南大學(xué) 信息科學(xué)工程學(xué)院,南京 210096;3.南京工程學(xué)院 信息與通信工程學(xué)院,南京 211167)
兒童情感識別是情感計算的重要部分[1]。兒童在情感發(fā)泄和應(yīng)對不同情感時作出合理舉措的能力遠(yuǎn)不如成年人,如果兒童情緒無法進(jìn)行合理宣泄并及時得到疏導(dǎo)會導(dǎo)致其產(chǎn)生情緒障礙,進(jìn)而引發(fā)焦慮癥等心理健康問題。因此,運用適當(dāng)?shù)乃惴ɑ蚰P蛯和榫w進(jìn)行智能判斷和合理疏導(dǎo)具有重要意義。
研究人員從聲學(xué)特征、機器學(xué)習(xí)和深度學(xué)習(xí)等方面對兒童情感識別進(jìn)行深入研究。文獻(xiàn)[2]提出利用支持向量機和卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建檢測兒童二級情緒狀態(tài)的系統(tǒng)。文獻(xiàn)[3]利用基于多智能體的交互系統(tǒng)對兒童的情感狀況進(jìn)行實時定義。文獻(xiàn)[4]創(chuàng)建兒童雙模態(tài)情感數(shù)據(jù)庫并采用雙模態(tài)情感識別方法衡量兒童情感的貢獻(xiàn)比例,指出嬰兒(或幼兒)的情感比大齡兒童的更難判斷,嬰兒通常用哭泣向父母或者監(jiān)護(hù)人表達(dá)自身需求。文獻(xiàn)[5]提取嬰兒哭聲的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)并基于隱馬爾科夫模型(Hidden Markov Model,HMM)對嬰兒哭聲進(jìn)行分類,以識別嬰兒是否處于健康狀態(tài)。文獻(xiàn)[6]將語譜圖作為特征向量,選取卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為分類模型,對嬰兒在疼痛、饑餓和困倦時的哭聲進(jìn)行分類和有效識別。文獻(xiàn)[7]將支持向量機(Support Vector Machine,SVM)作為分類器對嬰兒在饑餓、疼痛及困倦時的哭聲進(jìn)行分類,取得較好的識別效果。
雖然上述算法被成功應(yīng)用于兒童情感識別,但是傳統(tǒng)機器學(xué)習(xí)算法以及深度學(xué)習(xí)中的自編碼器和卷積神經(jīng)網(wǎng)絡(luò)都只能接受具有固定維度的數(shù)據(jù)作為輸入,這與實際中有效語音長度不斷變化存在一定矛盾。針對該問題,文獻(xiàn)[8-10]從短時語音幀中提取情感相關(guān)特征(以下稱為幀級特征),將靜態(tài)統(tǒng)計函數(shù)(如均值、方差、最大值、線性回歸系數(shù)等)作用于幀級特征上,最終串聯(lián)形成具有固定維度的特征向量來表示該幀語音的特性。雖然該方法解決了模型輸入的問題,但是通過統(tǒng)計分析處理后的語音特征丟失了原始語音的時序信息。
本文提出一種基于改進(jìn)長短時記憶(Long Short-Term Memory,LSTM)的兒童語音情感識別模型,在LSTM網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,將幀級語音特征取代傳統(tǒng)統(tǒng)計特征,用注意力門替換傳統(tǒng)的遺忘門和輸入門,并在多個時刻的細(xì)胞狀態(tài)上加權(quán)注意力構(gòu)建深度注意力門,以取得更好的識別性能。
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種變體,主要用于處理時間差較長的序列信息[11-13]。LSTM網(wǎng)絡(luò)通過加入遺忘門單元可以解決反向傳播時RNN存在的梯度消失造成長期信息難以存放的問題。LSTM網(wǎng)絡(luò)已成功應(yīng)用于自然語言處理[14-16]問題。為強化LSTM網(wǎng)絡(luò)在特定任務(wù)中處理數(shù)據(jù)的能力,研究人員進(jìn)一步對LSTM網(wǎng)絡(luò)內(nèi)部構(gòu)造進(jìn)行優(yōu)化。文獻(xiàn)[17]通過門控循環(huán)單元(Gated Recurrent Unit,GRU)將LSTM網(wǎng)絡(luò)的輸入門和遺忘門進(jìn)行融合降低了模型參數(shù),但是在大規(guī)模的數(shù)據(jù)集上,LSTM網(wǎng)絡(luò)在所有機器翻譯任務(wù)上的指標(biāo)均優(yōu)于GRU[18]。文獻(xiàn)[19]通過ConvLSTM網(wǎng)絡(luò)結(jié)構(gòu)將LSTM的門結(jié)構(gòu)計算方式由矩陣相乘改進(jìn)為卷積,該方法在圖像領(lǐng)域取得成效,但是對語音效果的改善十分有限。文獻(xiàn)[20]通過前饋型序列記憶網(wǎng)絡(luò)(Feedforward Sequential Memory Network,FSMN)將RNN的無限脈沖響應(yīng)濾波器(Infinite Impulse Response Filter,IIR)記憶塊改進(jìn)為有限脈沖響應(yīng)濾波器(Finite Impulse Response Filter,FIR)記憶塊,并在語音識別和合成方面取得顯著成效,但是FSMN通常需要堆疊很深的層數(shù),因而FSMN較單向的LSTM網(wǎng)絡(luò)存在延時[21]。文獻(xiàn)[22]提出高級長短期記憶(Advanced LSTM)網(wǎng)絡(luò),利用注意力機制對多個細(xì)胞狀態(tài)進(jìn)行加權(quán),能有效用于情感識別。但是文獻(xiàn)[23]指出該方法并沒有改變LSTM網(wǎng)絡(luò)內(nèi)部的門結(jié)構(gòu),且所需訓(xùn)練時間較多。 此外,研究人員在如何堆疊LSTM結(jié)構(gòu)以實現(xiàn)更可靠的情感識別方面不斷探索。文獻(xiàn)[24]通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)從6 s長的語音波形中提取多通道語音特征作為LSTM網(wǎng)絡(luò)的輸入,實現(xiàn)了端到端的情感識別。文獻(xiàn)[25]通過CNN從6 s長的語音波形中提取1 280種抽象特征,與表情特征融合后作為LSTM網(wǎng)絡(luò)的輸入,實現(xiàn)了多模態(tài)情感識別。
傳統(tǒng)的LSTM網(wǎng)絡(luò)使用的計算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
(1)
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
(4)
ot=σ(Wo·[ht-1,xt]+bo)
(5)
ht=ot*tanh(Ct)
(6)
注意力機制是在人類視覺注意力機制基礎(chǔ)上形成的。注意力使得人類對視覺捕獲到信息的重要部分給予更大關(guān)注,盡可能獲取所關(guān)注目標(biāo)的細(xì)節(jié)信息,同時減少對目標(biāo)周圍無關(guān)信息的關(guān)注,即對無關(guān)信息產(chǎn)生抑制。為有效利用LSTM網(wǎng)絡(luò)歷史時刻輸出的信息,文獻(xiàn)[26]將軟注意力機制引入到LSTM網(wǎng)絡(luò)模型(以下稱為LSTM模型)中,并將其成功應(yīng)用于機器翻譯領(lǐng)域,通過對LSTM模型在不同時刻的輸出進(jìn)行注意力加權(quán),可表達(dá)當(dāng)前待翻譯單詞與其他單詞的關(guān)聯(lián)程度。文獻(xiàn)[27]提出基于注意力機制的encoder-decoder結(jié)構(gòu),其應(yīng)用于語音識別的效果優(yōu)于HMM解碼系統(tǒng)。文獻(xiàn)[28]在encoder-decoder結(jié)構(gòu)的基礎(chǔ)上提出局部注意力模型,首先預(yù)估一個對齊位置,然后在對齊位置處尺寸為L的窗口范圍取類似于軟注意力模型的概率分布。文獻(xiàn)[29]將單頭注意力機制改進(jìn)為多頭注意力機制,通過Transformer模型顯著地提升了機器翻譯的質(zhì)量。
近年來,自注意力機制成為學(xué)者們研究的熱點。文獻(xiàn)[30]計算LSTM模型輸出的自注意力,針對不同的時間步數(shù)計算出多個分?jǐn)?shù),進(jìn)而提出新的LSTM模型,計算公式為:
A=softmax(Ws2tanh(Ws1HT))
(7)
其中,A為注意力分?jǐn)?shù)矩陣,hi為i時刻隱層單元的輸出,H為LSTM模型每個時刻輸出hi堆疊在一起的結(jié)果:
H=(h1,h2,…,hn)
(8)
加權(quán)后輸出表示為:
M=AH
(9)
注意力機制的引入減小了處理高維輸入數(shù)據(jù)的計算負(fù)擔(dān),使得任務(wù)處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中與當(dāng)前輸出顯著相關(guān)的信息,從而提高輸出質(zhì)量[28]。近年來,研究人員將注意力機制應(yīng)用于語音情感效果的提升。文獻(xiàn)[31]利用注意力機制在多層LSTM網(wǎng)絡(luò)之間進(jìn)行特征篩選和跨越鏈接,取得良好的情感識別效果。文獻(xiàn)[32]在RNN的輸出端提出本地注意力(Local Attention)機制,有效地提升了多個數(shù)據(jù)集的情感識別效果。
本文將注意力機制引入LSTM模型的內(nèi)部門結(jié)構(gòu),提出了基于注意力門的LSTM模型,從而大量減少了LSTM的參數(shù)數(shù)量;將深度的概念引入注意力門使得LSTM模型能更好地學(xué)習(xí)輸入特征而避免信息冗余。本文提出的基于注意力門的LSTM結(jié)構(gòu)使得每個時間步計算時,上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,并在這一刻輸入中利用注意力門修改傳統(tǒng)遺忘門和輸入門后對需要注意的特征進(jìn)行加權(quán)。
由于傳統(tǒng)的輸入門和遺忘門僅由一個全連接層實現(xiàn),因此需要訓(xùn)練足夠多次后模型才能注意到需要留下的細(xì)胞狀態(tài)信息和需要加入的新輸入信息,從而導(dǎo)致其收斂減速。文獻(xiàn)[33]在此基礎(chǔ)上增加了窺視連接,將細(xì)胞狀態(tài)也作為輸入,在3個門中加入細(xì)胞狀態(tài)信息,而參數(shù)的增加造成了訓(xùn)練時間和空間復(fù)雜度相應(yīng)增加。本文對每一刻的細(xì)胞狀態(tài)做自注意力,并對細(xì)胞狀態(tài)不需要注意的部分加入輸入的候選信息,自注意力算法用注意力門替換了遺忘門、輸入門以及窺視連接所需的3個矩陣。
注意力門at的定義如下:
at=activation(V·tanh(W·Ct-1))
(10)
其中,activation為激活函數(shù)(可根據(jù)需要自選對應(yīng)激活函數(shù),但其值域應(yīng)滿足絕對值小于1),更新細(xì)胞狀態(tài)的計算公式為:
(11)
注意力門能在提高模型識別率的同時減少參數(shù)數(shù)量和訓(xùn)練時間。在已有的報道中,通常會采用模型蒸餾[34]、8-bit量化[35]、共享參數(shù)[36-37]等方法。本文提出基于注意力機制的注意力門,顯著地減少了LSTM模型內(nèi)部的參數(shù)。此外,由于在LSTM模型內(nèi)部進(jìn)行修改,對于較長的輸入序列,基于注意力門的模型能減少更多的訓(xùn)練時間。例如,對于輸入維度為512、輸出維度為256的一層LSTM模型來說,如果忽略偏置,其通常需要的參數(shù)為:1)3個門結(jié)構(gòu)和候選值所需的維度為[512+256,256×4]的權(quán)重;2)如果在計算門結(jié)構(gòu)時考慮到上一刻的細(xì)胞狀態(tài),還需增加3×[1,256]的向量作為窺視門[38]。本文因為直接對細(xì)胞狀態(tài)計算自注意力作為注意力門,所以不需再引入窺視門結(jié)構(gòu)。同時,由于融合了遺忘門和輸入門為注意力門,所需參數(shù)數(shù)量降為[512+256,256×2]和計算注意力的2×[256,256]的權(quán)重。對于本層而言,參數(shù)數(shù)量從最初的787 200降到524 288,減少了33.4%的參數(shù)。對于層數(shù)更深、模型更復(fù)雜、數(shù)據(jù)量也更大的LSTM模型而言,有效地減少了參數(shù)數(shù)量。
LSTM模型通常用來處理時序信息,但是該信息會隨著時間的累積而增加,因而LSTM模型在某一刻的計算(即更新細(xì)胞狀態(tài)c和隱層輸出h)都只基于外部輸入和上一刻的細(xì)胞狀態(tài)與隱層輸出。在注意力機制提出前,如果每一時刻都考慮之前多個時刻,會導(dǎo)致信息過多而遺失重要信息,以及增加計算量并導(dǎo)致梯度爆炸。但是,t時刻細(xì)胞狀態(tài)的信息不僅與t-1時刻的信息有關(guān),還與t-2時刻的信息緊密相關(guān),而t-2時刻的信息在t-1時刻被選擇性遺忘(遺忘門)。為此,本文提出了深度遺忘門的概念,并設(shè)計對應(yīng)的輸入門。
深度遺忘門不僅關(guān)注上一時刻細(xì)胞狀態(tài)的信息(深度length=1),還關(guān)注t-2,t-3,…,t-n時刻(深度length=n)細(xì)胞狀態(tài)的信息,即構(gòu)建Deep-Attention-LstmCell結(jié)構(gòu),如圖1所示。
圖1 Deep-Attention-LstmCell內(nèi)部結(jié)構(gòu)示意圖
深度遺忘門具體實現(xiàn)如下:
(12)
(13)
(14)
值得注意的是,“深度”的引入會造成訓(xùn)練時間的增加。這是因為除了前向增加了在循環(huán)中對多個細(xì)胞狀態(tài)計算各自的注意力門,反向傳播中也增加了更多的鏈?zhǔn)角髮?dǎo)。從模型的參數(shù)來看,雖然深度會造成訓(xùn)練時間的增加,但是因為各層深度的注意力門權(quán)重V、W共享,所以不會造成模型參數(shù)的增加。
本文提出深度的目的是提升語音情感的識別性能,為研究對該性能的提升效果,進(jìn)行以下實驗:
實驗1研究深度性能對兒童情感識別率的影響。使用深度為1、2和3的基于注意力門的LSTM模型(以下稱為注意力門LSTM模型)進(jìn)行對比。
實驗2研究參數(shù)數(shù)量和訓(xùn)練時間的降低對語音情感識別性能的影響。使用深度為1的注意力門LSTM模型和傳統(tǒng)的GRU模型、LSTM模型進(jìn)行實驗對比。
深度注意力門LSTM模型的訓(xùn)練框架如圖2所示。其中,LSTM0表示第1層深度注意力門LSTM模型,LSTM1表示第2層深度注意力門LSTM模型。xt為分幀加窗后第t幀語音所提取的INTERSPEECH語音特征[8-10],ht和Ct為其對應(yīng)的LSTM模型輸出的隱層輸出和細(xì)胞狀態(tài)。由圖2可以看出,傳統(tǒng)LSTM模型在t時刻的輸入狀態(tài)是(ht-1,Ct-1),而在本文的訓(xùn)練中,每一時刻的狀態(tài)擴充為(ht-1,{Ct-1,Ct-2,…,Ct-L}),其中L為注意力門的深度。包含前序所有時序信息的最后一層LSTM的最后一個狀態(tài)被輸入到后續(xù)分類網(wǎng)絡(luò)中,以進(jìn)行對兒童情感的識別。
圖2 深度注意力門LSTM模型訓(xùn)練框架
實驗使用2個情感表征形式差異較大的數(shù)據(jù)庫來驗證本文算法對于兒童語音情感的有效性。為研究本文算法處理其他類型情感識別問題的性能,以及參數(shù)數(shù)量降低是否能優(yōu)化時間或降低性能,實驗采用Fau Aibo兒童情感語料庫、嬰兒哭聲情感需求語料庫和CASIA漢語情感語料庫[39]進(jìn)行驗證。
1)Fau Aibo兒童情感語料庫:Fau Aibo用高性能的無線耳麥?zhǔn)占浿屏?0歲左右的51名兒童和電子寵物 Aibo在游戲過程中的發(fā)聲,保留其中情感較突出的數(shù)據(jù),其中自然語言包含48 401個單詞。為了保證標(biāo)注的準(zhǔn)確性,該語料庫的每個樣本均由5個語言專業(yè)的學(xué)生試聽后通過投票標(biāo)注情感。本文從該語料庫中挑選了INTERSPEECH 2009情感挑戰(zhàn)賽中定義的5類標(biāo)簽:即A (Angry、 Touchy、 Reprimanding)、E (Emphatic)、N (Neutral)、P (Motherese、 Joyful)和R (Rest)。
2)嬰兒哭聲情感需求語料庫:由于國際上沒有統(tǒng)一的嬰兒哭聲情感需求語料庫,筆者與國內(nèi)某醫(yī)院合作錄制了嬰兒在生氣(Angry)、饑餓(Hungry)、疼痛(Pain)、傷心(Sad)和困倦(Tired)5種狀態(tài)下的哭聲語音文件,并對該文件進(jìn)行了標(biāo)注。為提高該語料庫的質(zhì)量,筆者通過人工的方法對嬰兒哭聲情感語料進(jìn)行篩選,除去嬰兒哭泣時夾雜父母安慰孩子的語音相關(guān)幀,以及2個和2個以上嬰兒同時哭泣的語音相關(guān)幀。該語料庫經(jīng)過篩選后包含10名嬰兒(男孩和女孩各5名),每位嬰兒在每種狀態(tài)下有20條語料,共計5×10×20=1 000條語料。
3)CASIA漢語情感語料庫由中國科學(xué)院自動化所錄制,由4個相關(guān)專業(yè)的人員按照生氣(angry)、高興(happy)、害怕(fear)、悲傷(sad)、驚訝(surprise)和中性(neutral)等6種情緒進(jìn)行發(fā)音。該語料庫共有9 600條語料。
實驗在INTERSPEECH語音情感特征[8-10]的基礎(chǔ)上選用了部分幀級特征。文獻(xiàn)[8]提取了16種低級描述符(LLD、過零率、均方根幀能量、基音頻率和梅爾頻率倒譜系數(shù)1~12)及其差分系數(shù),針對其中每個描述符,又計算了12個統(tǒng)計函數(shù),因此總特征向量共有16×2×12=384個特征。INTERSPEECH 2010(IS2010)語音情感特征[9]在此基礎(chǔ)上,將LLD增加到38種,因而總特征維度擴展到1 582維。INTERSPEECH ComPARE[10]特征集的特征維度則增加到6 373維。
實驗所用幀級語音情感特征集如表1所示。與INTERSPEECH語音情感特征相比,該特征集未計算統(tǒng)計函數(shù),這是因為:
1)計算統(tǒng)計函數(shù)后的固定長度特征損失了原始語音中的大量信息,如時序信息和序列間的關(guān)系等。
2)文獻(xiàn)[40]認(rèn)為深度學(xué)習(xí)具有自動學(xué)習(xí)特征變化的能力,能夠從底層語音特征中學(xué)習(xí)到與任務(wù)相關(guān)的深層特征,由此可知幀級特征更適合作為深度學(xué)習(xí)網(wǎng)絡(luò)的輸入。
3)包含大量統(tǒng)計信息的特征會大量增加訓(xùn)練模型的參數(shù)數(shù)量、訓(xùn)練時間和復(fù)雜度,對訓(xùn)練設(shè)備有一定要求。
表1 幀級語音情感特征集
原始數(shù)據(jù)分為訓(xùn)練集與測試集兩部分,這兩部分?jǐn)?shù)據(jù)相互隔離,且訓(xùn)練集與測試集的比例為4∶1。實驗均采用單向兩層LSTM堆疊結(jié)構(gòu),并使用了一個全連接層和一個softmax層作為訓(xùn)練模型。在訓(xùn)練過程中,使用小批量梯度下降法并采用tanh作為激活函數(shù),具體參數(shù)如表2所示。為保證實驗對比的有效性,相同的語料庫和模型實驗參數(shù)均完全相同。
表2 實驗參數(shù)
傳統(tǒng)LSTM模型通過遺忘門除去多余信息,通過輸入門獲取新信息。本文利用自注意力和LSTM的基本結(jié)構(gòu),對細(xì)胞狀態(tài)做自注意力,從而對LSTM的遺忘門和輸入門進(jìn)行對比。同時,考慮到時序信息的關(guān)聯(lián)性,提出基于深度的自注意力門,并在深度為1、2和3的條件下分別進(jìn)行比較。實驗對比了4類模型:即傳統(tǒng)LSTM模型、LSTM+deepf_1模型、LSTM+deepf_2模型、和LSTM+deepf_3模型,上述模型對應(yīng)的深度分布為0、1、2和3,如圖3所示。由圖3(a)、圖3(b)、圖4(a)和圖4(b)可以看出,采用嬰兒哭聲情感需求語料庫和Fau Aibo兒童情感語料庫,利用提出的注意力門替換掉傳統(tǒng)LSTM模型的遺忘門和輸出門后,注意力門LSTM模型在訓(xùn)練集和測試集上的收斂速度比傳統(tǒng)LSTM模型的大幅提高;采用嬰兒哭聲情感需求語料庫時,傳統(tǒng)LSTM模型約在第5 000步開始穩(wěn)定收斂,而注意力門LSTM模型約在2 500步開始穩(wěn)定收斂;采用Fau Aibo兒童情感語料庫時,傳統(tǒng)LSTM模型約在第30 000步開始穩(wěn)定收斂,而注意力門LSTM模型在約17 000步開始穩(wěn)定收斂;當(dāng)模型收斂后,注意力門LSTM模型對兒童情感的平均識別率明顯優(yōu)于傳統(tǒng)LSTM模型。由圖3(c)和圖4(c)可以看出,當(dāng)模型收斂時,注意力門LSTM模型在測試集上的平均識別率、最低識別率和最高識別率均比傳統(tǒng)LSTM模型高約5%;當(dāng)注意力門的深度加大后,注意力門LSTM模型的上述性能得到進(jìn)一步提升。
圖3 不同LSTM模型采用嬰兒哭聲情感需求語料庫的性能情況
圖4 不同LSTM模型在采用Fau Aibo兒童情感語料庫的性能情況
通過上述分析可知,注意力門LSTM模型的性能得到改善是因為其修改了傳統(tǒng)LSTM模型的遺忘門和輸入門,使得LSTM模型能針對上一刻的細(xì)胞狀態(tài)通過自注意力來留下重要信息,并將不重要的信息作為新加入的輸入在對應(yīng)位置進(jìn)行補充,從而提升LSTM模型性能;注意力門LSTM模型引入深度概念后,使得每次遺忘操作由多個細(xì)胞狀態(tài)決定而不是由其中某一個細(xì)胞狀態(tài)決定。
為定量分析不同模型在測試集中對每類情感的識別性能,取各模型在測試集上從訓(xùn)練開始到結(jié)束識別率最高一次的模型性能指標(biāo)進(jìn)行對比,采用嬰兒哭聲情感需求語料庫和Fau Aibo兒童情感語料庫得到的性能指標(biāo)如表3和表4所示??梢妼τ跍y試集而言,注意力門LSTM模型的性能指標(biāo)均優(yōu)于傳統(tǒng)LSTM模型。
表3 不同LSTM模型采用嬰兒哭聲情感需求語料庫的性能指標(biāo)
表4 不同模型采用Fau Aibo兒童情感語料庫的性能指標(biāo)
由表3可以看出,采用嬰兒哭聲情感語料庫時,注意力門LSTM模型召回率除了“困倦”項和傳統(tǒng)LSTM模型較接近外,其他4項均優(yōu)于傳統(tǒng)LSTM模型;而注意力門LSTM模型的F1分?jǐn)?shù)在5類情感上均優(yōu)于傳統(tǒng)LSTM模型。在深度方面,深度3和深度2的注意力門LSTM模型的性能接近,除了“傷心”外,上述模型其他4項的召回率和F1分?jǐn)?shù)均優(yōu)于深度1的注意力門LSTM模型。
由表4可以看出,采用Fau Aibo兒童情感語料庫時,注意力門LSTM模型的召回率和F1分?jǐn)?shù)除了E類比傳統(tǒng)LSTM模型要低,其他4項均優(yōu)于傳統(tǒng)LSTM模型。在深度方面,深度3和深度2的注意力門LSTM模型性能接近,除了R類外,上述模型其他4項的召回率和F1分?jǐn)?shù)均優(yōu)于深度1的注意力門LSTM模型。
值得注意的是,Fau Aibo兒童情感語料庫各類別的樣本數(shù)量不均衡,其中N類最多有5 376個樣本,而P類最少只有215個樣本。由上述分析可知,隨著深度的加大,可以增強模型對少量樣本的學(xué)習(xí)。和傳統(tǒng)LSTM模型相比,采用嬰兒哭聲情感語料庫時,LSTM+deepf_2模型的召回率提高5.50%,F1分?jǐn)?shù)提高5.49%;采用Fau Aibo兒童情感語料庫時,LSTM+deepf_2模型的召回率提高3.14%,LSTM+deepf_3模型的F1分?jǐn)?shù)提高1.84%。
和傳統(tǒng)LSTM模型相比,注意力門LSTM模型將注意力機制改進(jìn)為注意力門機制,并用注意力門替換了LSTM模型的遺忘門和輸入門,從而大量減少了LSTM模型的參數(shù)。以下實驗中將兩層LSTM模型和注意力門LSTM模型進(jìn)行對比。為了和其他低參數(shù)RNN進(jìn)行對比,將LSTM模型、LSTM+deepf_1模型和GRU模型在時間和識別性能方面進(jìn)行對比。
前文對參數(shù)量的減少已進(jìn)行具體分析(見2.1節(jié))。在以下實驗中,兩層注意力門LSTM模型將參數(shù)數(shù)量從“(93+512)×512×4+3×512+(512+256)×256×4+3×256=2 027 776”降低為“(93+512)×512×2+2×512×512+(512+256)×256×2+2×256×256=1 668 096”。此外,還引入深度的概念使得LSTM模型更好地學(xué)習(xí)輸入特征以避免信息冗余。注意力門LSTM結(jié)構(gòu)使得每個時間步計算時,上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,并在這一刻的輸入中利用注意力門修改傳統(tǒng)的遺忘門和輸入門,從而對需要注意的特征進(jìn)行加權(quán),以加快網(wǎng)絡(luò)的收斂速度。
由圖5可以看出,采用CASIA漢語情感語料庫時,在相同的輸入數(shù)據(jù)、網(wǎng)絡(luò)參數(shù)、批大小和硬件設(shè)施下訓(xùn)練1 200次后,LSTM+deepf_1模型所需時間少于傳統(tǒng)LSTM模型,同時多于GRU模型。這是因為注意力門減少了模型的參數(shù)數(shù)量并降低了運算復(fù)雜度。此外,當(dāng)運行時間相同時,因為注意力門LSTM結(jié)構(gòu)使得每個時間步在計算時,上一刻的細(xì)胞狀態(tài)自行決定需要注意的特征,對需要注意的特征進(jìn)行加權(quán),并在權(quán)重較小的地方利用候補值進(jìn)行補充,所以LSTM+deepf_1模型的收斂速度要明顯優(yōu)于傳統(tǒng)LSTM模型和GRU模型。
圖5 不同模型采用CASIA漢語情感語料庫訓(xùn)練 1 200次的所用時間曲線
由圖6可以看出,LSTM+deepf_1模型的平均識別率最大,傳統(tǒng)LSTM模型次之,GRU模型最小。這是因為雖然GRU模型參數(shù)數(shù)量減少的更多且訓(xùn)練時間更短,但是隨著數(shù)據(jù)集的不斷迭代,其模型結(jié)構(gòu)復(fù)雜度比傳統(tǒng)LSTM模型更低,平均識別率比傳統(tǒng)LSTM模型更小;LSTM+deepf_1模型通過注意力算法在每個時間步對細(xì)胞狀態(tài)進(jìn)行主動篩選,減少了模型的參數(shù)數(shù)量和訓(xùn)練時間,顯著地提升了識別性能。
圖6 不同模型采用CASIA漢語情感語料庫的性能情況
本文提出一種基于改進(jìn)LSTM網(wǎng)絡(luò)的兒童語音情感識別模型,用幀級語音特征代替?zhèn)鹘y(tǒng)語音特征,將注意力機制引入LSTM網(wǎng)絡(luò)模型內(nèi)部結(jié)構(gòu)的遺忘門和輸入門并形成注意力門,按照自定義的深度建立基于深度注意力門的LSTM模型。實驗結(jié)果表明,在嬰兒哭聲和兒童情感數(shù)據(jù)庫上,本文模型的識別率顯著高于傳統(tǒng)LSTM模型,且深度模型的識別率比淺層模型的更高。在包含其他情感的CASIA數(shù)據(jù)庫上,本文模型訓(xùn)練時間短于LSTM模型,且識別率高于LSTM模型和GRU模型。下一步將把本文模型引入語音識別、機器翻譯以及測謊等領(lǐng)域,對連續(xù)情感的語料庫進(jìn)行測試和研究并改進(jìn)計算注意力分?jǐn)?shù)的模型,進(jìn)一步提升兒童語音情感識別率。