姚增偉,劉煒煌,王梓豪,劉雅倩,潘家輝
(華南師范大學(xué)軟件學(xué)院, 廣東 南海 528225)
自從“情感計算”的概念被提出以來,計算機(jī)情感計算領(lǐng)域引起了國內(nèi)外許多研究者的關(guān)注。情感識別是情感計算的關(guān)鍵環(huán)節(jié)。語音信號中包含了說話者豐富的情感信息,是傳遞信息最方便直接的途徑。同一個人對同一句話用不同的情感表達(dá)時,其傳遞信息有所不同。為了讓計算機(jī)更好理解人的情感,語音情感識別有很大必要性。語音情感識別在人機(jī)交互領(lǐng)域應(yīng)用越來越廣泛,例如人工客服、汽車駕駛、遠(yuǎn)程教育和醫(yī)學(xué)輔助等[1]。
目前,國內(nèi)外的傳統(tǒng)語音情感識別在情感描述模型的引入、情感語音庫的構(gòu)建、情感特征分析等領(lǐng)域的都得到了很大程度的發(fā)展[2]。傳統(tǒng)的語音情感識別技術(shù)建立在情感聲學(xué)特征的基礎(chǔ)上,語音情感特征的提取與識別準(zhǔn)確率有很大關(guān)系。常用的情感聲學(xué)特征包括以基頻、短時能量、短時過零率為主的韻律特征和以梅爾頻率倒譜系數(shù)為主的頻譜特征,基于此類高層語音特征的情感識別技術(shù)在特定人語音情感識別中取得了一定的效果[3-6]。然而,由于不同人之間的情感表達(dá)存在較大差異[7-8]以及大型情感語料庫的缺乏,基于非特定人的語音情感識別仍然面臨巨大挑戰(zhàn)。
近年來,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)已經(jīng)在語音識別領(lǐng)域取得很大突破,并且在大型詞匯連續(xù)語音識別任務(wù)(LVCSR)方面與最新的高斯混合模型/隱馬爾可夫模型(GMM /HMM)系統(tǒng)相比取得的效果更好[9-11]。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)不僅在圖像識別方面表現(xiàn)優(yōu)異,在語音識別方面也能取得成功。同DNN相比較,CNN的局部感知可以有效利用頻譜特征的局部結(jié)構(gòu)信息進(jìn)行建模,采用了權(quán)值共享和池化技術(shù),具有更強(qiáng)的廣泛性和魯棒性[12]。例如,Ossama Abdel-Hamid等人在傳統(tǒng)DNN的基礎(chǔ)上添加了CNN,在TIMIT語音庫進(jìn)行實驗,與只使用傳統(tǒng)DNN的方法相比較,識別錯誤率在其基礎(chǔ)上降低了10%以上[13]。長短時記憶神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)在聲學(xué)方面體現(xiàn)了強(qiáng)大的建模能力。Hasim Sak等人通過實驗證明,LSTM相比較于DNN和傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò),更適合對大規(guī)模語音進(jìn)行聲學(xué)建模[14]。TN Sainath等人提出一種結(jié)合CNN、LSTM的應(yīng)用于語音識別任務(wù)的神經(jīng)網(wǎng)絡(luò)模型“CLDNN”,一方面,CNN能夠降低頻域方向的維度,另一方面,LSTM能夠?qū)W習(xí)信號長時依賴,有效提取時域信息[15]。
CNN和LSTM已經(jīng)被成功應(yīng)用到語音情感識別領(lǐng)域中。CNN可以從低層特征中學(xué)習(xí)提取相應(yīng)的情感特征,并且取得比現(xiàn)有的基于高層特征的模型更高的效果。例如,以原生語音信號作為輸入的基于1維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)的端到端語音情感識別方法[16]和以語音信號頻譜圖作為輸入的分別基于利用2維卷積(2D-CNN)和3維卷積(3D-CNN)提取情感特征的方法[17-18]。利用LSTM在時域上的建模能力,學(xué)習(xí)提取語音信號上下文信息特征,基于LSTM的實時語音情感識別方法也被提出[19]。
本文提出一種基于CNN和LSTM的語音情感識別算法,算法流程如圖1,應(yīng)用在非特定人的語音情感識別中。算法通過提取語音信號的梅爾頻域特征作為輸入,利用CNN和LSTM提取頻域和時域特征,實現(xiàn)語音情感分類。
圖 1算法流程Fig. 1 Algorithm flow
傳統(tǒng)的語音情感識別技術(shù)建立在高層語音特征的基礎(chǔ)上,但是高層語音特征丟失了大量的原始信息。利用深度學(xué)習(xí)方法可以從低層語音特征中提取相關(guān)的情感特征,因此,在本文提出的情感識別算法中,以語音信號的梅爾頻譜特征代替高層特征。算法中語音信號預(yù)處理過程如下:
1)對語音信號重采樣,采樣率為16000 Hz;
2)對語音信號進(jìn)行分幀處理,為保證幀與幀之間的平滑過渡,對語音交疊分幀,幀長為512點,幀疊為256點,加漢明窗,得到單幀的短時信號x(n);
3)對每幀信號進(jìn)行快速傅里葉變換(FFT),得到頻域數(shù)據(jù)X(i,k),如公式(1);
4)求功率譜E(i,k),如公式(2);
5)計算功率譜在一組梅爾濾波器(40個)中的能量,并將得到的結(jié)果取對數(shù),即得到梅爾頻譜特征。
本文的語音信號處理使用基于python語言實現(xiàn)的librosa語音信號處理庫。經(jīng)過預(yù)處理過程得到低層語音特征,即梅爾頻譜特征作為神經(jīng)網(wǎng)絡(luò)的輸入,使得語音信號中大量的原始信息得以保留。算法以連續(xù)的30個時間步作為一個樣本輸入,每個時間步包括連續(xù)10幀的語音信號。
CNN由卷積層和池化層組成,具有局部感知、權(quán)值共享和池化的特征。卷積層中包含若干個濾波器,當(dāng)使用梅爾頻譜特征作為模型輸入,每個濾波器作用于整一張梅爾頻譜圖,共享相同的權(quán)重和偏置,通過卷積操作提取局部特征,卷積結(jié)果為特征圖輸出。
算法利用2D-CNN對單一時間步的語音信號梅爾頻譜特征進(jìn)行特征提取,過程如圖2所示。算法使用3個2維卷積層(Conv2D)層,每個卷積層的濾波器個數(shù)均為32,為了提高模型性能,濾波器形狀均為矩形[17],大小為(2,3)。在第二個和第三個卷積層后都接著2維池化層(MaxPooling2D),大小分別為(2,2)和(1,2)。2D-CNN作用在連續(xù)10幀語音信號上,不僅可以提取頻域方向特征,還可以提取短時域方向的特征。
圖 2單個時間步2D卷積特征提取Fig. 2 Conv2D feature extraction of each time step
LSTM的核心是細(xì)胞狀態(tài),其獨特的門控機(jī)制控制信息的選擇性通過進(jìn)而控制細(xì)胞狀態(tài)的改變。LSTM記憶單元結(jié)構(gòu)如圖3,包括三個門控單元,即遺忘門、輸入門和輸出門。記憶單元結(jié)構(gòu)中相關(guān)公式如式 (4)~(8):
其中,ft為遺忘門信號,gt為輸入門信號,st為細(xì)胞狀態(tài),qt為輸出門控制信號,ht為細(xì)胞輸出,xt為輸入信號;bf、bg、bs和bq為偏置;為Wfx、Wgx、Wsx和Wqx為與連接權(quán)重;Wfh、Wgh、Wsh和為與ht?1連接權(quán)重。
將每個時間步的語音信號經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的特征提取操作后,把每個時間步的特征數(shù)據(jù)一維化,得到的數(shù)據(jù)維度為(30,768),30為時間步個數(shù),768為每個時間步一維化后的特征大小。算法使用2個LSTM層,每層的記憶單元個數(shù)均為256。以每個時間步一維化后的特征數(shù)據(jù)作為LSTM的輸入,第一個LSTM層返回其全部輸出序列,維度為(30,256)。第二個LSTM層則返回其輸出序列的最后一步結(jié)果,維度為256。通過兩個LSTM層,可以學(xué)習(xí)語音信號上下文信息,提取長時域特征。
圖 3 LSTM記憶單元Fig. 3 Memory unit
本文提出的算法的情感分類結(jié)果包括“生氣”、“高興”、“中性”和“悲傷”,語音情感分類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,神經(jīng)網(wǎng)絡(luò)模型使用基于tensorflow的keras框架實現(xiàn),利用框架中的時間步包裝器將CNN的特征提取操作應(yīng)用到輸入的每個時間步的梅爾頻譜特征上,再利用LSTM對所有時間步進(jìn)行長時域建模,以此得到維度為256的特征數(shù)據(jù)。為了對提取到的頻域和時域特征進(jìn)行更好的處理,以更適合分類[20],在LSTM后接著一個神經(jīng)元個數(shù)為128的全連接層,在全連接層后接一個Dropout層(ratio=0.2)避免過擬合[21]。然后,將全連接層的輸出經(jīng)過Softmax層得到情感分類結(jié)果。
為了避免過擬合,在訓(xùn)練過程使用了早停機(jī)制[22],最大迭代次數(shù)為100,若連續(xù)3次迭代的驗證集準(zhǔn)確率不上升,則停止訓(xùn)練。為了體現(xiàn)算法應(yīng)用于非特定人環(huán)境下,使用來自不同人的三個情感語音數(shù)據(jù)集分別作為模型訓(xùn)練集、驗證集和測試集。
圖 4情感分類神經(jīng)網(wǎng)絡(luò)Fig. 4 Emotion classification neural network
本文使用的語音情感語料庫為IEMOCAP[23],該語料庫由十個演員錄制而成,包括五個小節(jié),每個小節(jié)的語音分別來自一個男性和一個女性,總時長為12小時。本文選取標(biāo)簽為“生氣”、“高興”、“中性”和“悲傷” (將“興奮”類別歸到“高興”類別中)的語音進(jìn)行實驗。
參考文獻(xiàn)[24]的實驗策略,每次實驗使用其中四個小節(jié)作為訓(xùn)練集,使用剩余一個小節(jié)中一個人的語音作為驗證集,另一個人作為測試集,以此類推重復(fù)十次實驗。本文使用十次實驗中四情感預(yù)測準(zhǔn)確率的平均值作為對應(yīng)情感的最終預(yù)測準(zhǔn)確率,使用十次實驗的平均加權(quán)準(zhǔn)確率(即先求得十次次實驗得到的四種情感預(yù)測準(zhǔn)確率的加權(quán)平均值,再求所得加權(quán)平均值的平均值)作為情感預(yù)測性能衡量標(biāo)準(zhǔn)。
除了對本文提出的算法進(jìn)行實驗“2D-CNN-LSTM”外,還包括以下對比實驗,所有實驗均以300幀語音信號的梅爾頻譜特征作為輸入:
1) 為了研究在將語音信號梅爾頻譜特征輸入到LSTM進(jìn)行時域建模之前,先經(jīng)過CNN進(jìn)行特征提取操作對情感分類準(zhǔn)確率的 影響,設(shè)置實驗“LSTM”進(jìn)行對比,該實驗直接梅爾頻譜特征作為LSTM的輸入;
2) 為驗證在結(jié)合CNN與LSTM的方法中,在CNN部分使用2D-CNN是否能比使用1D-CNN取得更好的預(yù)測結(jié)果,設(shè)置實驗“1D-CNN-LSTM”進(jìn)行對比。實驗將本文算法中的2D-CNN替換為1D-CNN,卷積層濾波器大小為3,池化尺寸為2,將輸入數(shù)據(jù)劃分為300個時間步,即每個時間步為1幀,在每個時間步內(nèi)使用1D-CNN提取頻域特征。
3) 為了探索最適合2D-CNN-LSTM的LSTM層數(shù),分別將LSTM層數(shù)改為1和3以學(xué)習(xí)不同層次的時域特征,進(jìn)行實驗“2D-CNN-LSTM1”和“2D-CNN-LSTM3”。
經(jīng)過實驗所得平均加權(quán)準(zhǔn)確率如表格1所示。
表1 實驗準(zhǔn)確率Tab. 1 Experimental accuracy
LSTM比普通循環(huán)神經(jīng)網(wǎng)絡(luò)更易于學(xué)習(xí)信號的長期依賴關(guān)系,避免了普通循環(huán)神經(jīng)中的梯度消失問題[25],適合于對復(fù)雜多變的語音時序信號進(jìn)行建模。由實驗結(jié)果可以得知,單獨使用LSTM的方法在對四種情感的分類任務(wù)中,取得了48.7%的情感預(yù)測準(zhǔn)確率。相比較于DNN和GMM,CNN具有類內(nèi)收斂和類間發(fā)散的特點,在語音建模中具有更優(yōu)的性能和魯棒性。在卷積過程中,卷積層可以對輸入語音信號降低噪聲維度上的差異,池化層可以解決由于非特定人發(fā)生習(xí)慣差異造成的信號差異的問題[26]。實驗中,結(jié)合了CNN與LSTM的方法的情感預(yù)測性能均高于單獨使用LSTM的方法,表明將語音信號輸入到LSTM進(jìn)行時域建模之前先經(jīng)過CNN進(jìn)行特征提取可以提高預(yù)測性能。在結(jié)合CNN與LSTM的方法中,使用2D-CNN的方法比使用1D-CNN的方法高出2.9%的準(zhǔn)確率,表明在使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取時,同時對短時域與頻域特征提取比只對頻域特征提取可以取得更好的效果。另外,增加LSTM層數(shù)可以提取更高層次的時域特征,使用多層LSTM的預(yù)測結(jié)果優(yōu)于只使用1層LSTM,,預(yù)測性能有所提升。3層LSTM比2層LSTM提高了0.1%的準(zhǔn)確率,但同時增加了系統(tǒng)計算量。
如表格2,本文的算法即“2D-CNN-LSTM”的與使用相同語料庫和相同實驗策略的文獻(xiàn)[24]實驗結(jié)果相比較,對于標(biāo)簽為“生氣”、“高興”的預(yù)測準(zhǔn)確率高于該文獻(xiàn),標(biāo)簽為“中性”、“悲傷”的預(yù)測準(zhǔn)確率則低于該文獻(xiàn),但平均加權(quán)準(zhǔn)確率比其提升了1.3%,證明本文提出的算法的有效性。
表2 與其他文獻(xiàn)比較Tab. 2 Compared with other literature
經(jīng)過實驗證明,本文提出的算法對非特定人的語音情感具有較好的識別性能。算法結(jié)合了CNN和LSTM,利用CNN對語音信號進(jìn)行短時域特征和頻域特征的提取,利用LSTM進(jìn)行長時域特征的提取,可以在低層語音特征中學(xué)習(xí)提取情感特征,實現(xiàn)語音情感分類。
[1] YI Z, LIU C L, TAN T N. Retrospect and Outlook of Brain-Inspired Intelligence Research[J]. Chinese Journal of Computers, 2016, 39(1).
[2] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進(jìn)展綜述.軟件學(xué)報,2014,25(1):37-50. Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50.
[3] EYBEN F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//ACM International Conference on Multimedia.ACM, 2010:1459-1462.
[4] SCHULLER B, Valstar M, EYBEN F, et al. AVEC 2011–The First International Audio/Visual Emotion Challenge[C]//International Conference on Affective Computing and Intelligent Interaction. Springer-Verlag, 2011:415-424.
[5] VALSTAR M, COWIE R, PANTIC M. AVEC 2012: the continuous audio/visual emotion challenge - an introduction[C]//ACM International Conference on Multimodal Interaction. ACM, 2012:361-362.
[6] DAHAKE P P, SHAW K, MALATHI P. Speaker dependent speech emotion recognition using MFCC and Support Vector Machine[C]//International Conference on Automatic Control and Dynamic Optimization Techniques. IEEE, 2017:1080-1084.
[7] MILL A, ALLIK J, REALO A, et al. Age-related differences in emotion recognition ability: A cross-sectional study[J]. Emotion, 2009,9(5):619-630.
[8] VOGT T, ANDRE E. Improving automatic emotion recognition from speech via gender differentiation[C]// 2006.
[9] MOHAMED A, DAHL G E, HINTON G. Acoustic Modeling Using Deep Belief Networks[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 20(1):14-22.
[10] MORGAN N. Deep and Wide: Multiple Layers in Automatic Speech Recognition[J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(1):7-13.
[11] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. IEEE Signal Processing Magazine, 2012, 29(6):82-97.
[12] ABDEL-HAMID O, DENG L, YU D. Exploring Convolutional Neural Network Structures and Optimization Techniques for Speech Recognition[C]// Interspeech, 2013:3366-3370.
[13] AEDEL-HAMID O, MOHAMED A R, JIANG H, et al. Applying Convolutional Neural Networks concepts to hybrid NN-HMM model for speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2012:4277-4280.
[14] SAK H, SENIOR A, BEAUFAYS F. Long short-term memory recurrent neural network architectures for large scale acoustic modeling[J].Computer Science, 2014:338-342.
[15] SAINATH T N, VINYALS O, Senior A, et al. Convolutional, Long Short-Term Memory, fully connected Deep Neural Networks[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2015:4580-4584.
[16] Trigeorgis G, Ringeval F, Brueckner R, et al. Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network[C]// IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016.
[17] BADSHAH A M, RAHIM N, ULLAH N, et al. Deep features-based speech emotion recognition for smart affective services[J]. Multimedia Tools & Applications, 2017(3):1-19.
[18] KIM J, TRUONG K P, ENGLEBIENNE G, et al. Learning spectro-temporal features with 3D CNNs for speech emotion recognition[J]. 2017.
[19] EYBEN F, W?LLMER M, GRAVES A, et al. On-line emotion recognition in a 3-D activation-valence-time continuum using acoustic and linguistic cues[J]. Journal on Multimodal User Interfaces, 2010, 3(1-2):7-19.
[20] MOHAMED A R, HINTON G, PENN G. Understanding how Deep Belief Networks perform acoustic modelling[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2012:4273-4276.
[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1):1929-1958.
[22] PRECHELT L. Automatic early stopping using cross validation: quantifying the criteria[J]. Neural Networks the Official Journal of the International Neural Network Society, 1998, 11(4):761-767.
[23] BUSSO C, BULUT M, LEE C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J]. Language Resources & Evaluation, 2008, 42(4):335.
[24] GHOSH S, LAKSANA E, Morency L P, et al. Representation Learning for Speech Emotion Recognition[C]// Interspeech. 2016:3603-3607.
[25] JOZEFOWICZ R, ZAREMBA W, SUTSKEVER I. An empirical exploration of recurrent network architectures[C]//International Conference on International Conference on Machine Learning. JMLR.org, 2015:2342-2350.
[26] Mao Q, Dong M, Huang Z, et al. Learning Salient Features for Speech Emotion Recognition Using Convolutional Neural Networks[J]. IEEE Transactions on Multimedia, 2014, 16(8):2203-2213.