摘 "要: 結合神經網絡、并行多特征向量和注意力機制,有助于提高語音情感識別的性能。基于此,從前期已經提取的DFCC參數入手,提取I?DFCC和Mid?DFCC特征參數,利用Fisher比選取特征參數構成F?DFCC;再將F?DFCC特征參數與LPCC、MFCC特征參數進行對比并融合,輸入到含雙向LSTM網絡及注意力機制的ECAPA?TDNN模型中;最后,在CASIA和RAVDESS數據集上驗證F?DFCC融合特征參數的有效性。實驗結果表明:與單一的F?DFCC特征參數相比,F?DFCC融合特征的準確率WA、召回率UA、F1?score在CASIA數據集上分別提高0.035 1、0.031 1、0.031 3;在RAVDESS數據集上分別提高0.024 5、0.035 8、0.033 2。在兩個數據集中,surprised情感的識別準確率最高,為0.94;F?DFCC融合特征參數的6種和8種情感識別率與其他特征參數相比均有所提升。
關鍵詞: 語音情感識別; DFCC; F?DFCC; 融合特征; 特征提??; Fisher比; ECAPA?TDNN
中圖分類號: TN912.3?34 " " " " " " " " " " " " " 文獻標識碼: A " " " " " " " " " " "文章編號: 1004?373X(2024)06?0131?06
Speech emotion recognition based on F?DFCC fusion feature
HE Zhaoxia1, ZHU Rongtao1, LUO Hui2
(1. College of Arts and Science, Yangtze University, Jingzhou 434023, China;
2. College of Computer and Control Engineering, Northeast Forestry Univesity, Harbin 150040, China)
Abstract: The performance of speech emotion recognition can be improved by combining neural networks, parallel multiple feature vectors, and attention mechanisms. On this basis, starting from the previously extracted DFCC parameters, I?DFCC and Mid DFCC feature parameters are extracted, and Fisher's ratio is used to select feature parameters to form F?DFCC. F?DFCC feature parameters are compared and fused with LPCC and MFCC feature parameters, and then they are inputted into the ECAPA?TDNN model with bidirectional LSTM network and attention mechanism. The effectiveness of F?DFCC fusion feature parameters is verified on the CASIA and RAVDESS datasets. The experimental results show that in comparison with single F?DFCC feature parameter, the accuracy WA, recall UA, and F1?score of F?DFCC fusion features are improved by 0.035 1, 0.031 1, and 0.031 3 on the CASIA dataset, respectively, improved by 0.024 5, 0.035 8, and 0.033 2 on the RAVDESS dataset, respectively. In the two datasets, the highest recognition accuracy was realized for supervised emotions, at 0.94. In comparison with other feature parameters, the recognition rates of the 6 and 8 emotions fused by F?DFCC are improved.
Keywords: speech emotion recognition; DFCC; F?DFCC; fusion feature; feature extraction; Fisher ratio; ECAPA?TDNN
0 "引 "言
語音情感識別(Speech Emotion Recognition, SER)在人機交互和計算機輔助人際交流等應用中發(fā)揮著重要作用。然而,由于自發(fā)情感表達的微妙性和模糊性,要使機器完全正確地解釋出語音信號中所包含的情感是具有挑戰(zhàn)性的。盡管SER已經得到了廣泛的應用,但它的性能遠遠低于人類,識別過程仍然受到很多因素的困擾,因此,有必要進一步提高SER系統(tǒng)的性能。深度學習網絡,例如卷積神經網絡(CNN)和遞歸神經網絡(RNN)等[1],在SER任務中表現出較高的效率,識別精度較傳統(tǒng)方法也有了很大的提高。注意力機制可以動態(tài)地聚焦于某些部分,目前已經被應用于神經網絡中。S. Mirsamadi等將局部注意力機制引入語音神經網絡,使其關注語音信號的情感顯著區(qū)域[2]。L. Tarantino等提出了一種帶有自注意力機制的系統(tǒng),以改善SER性能[3]。近年來,注意力機制引起了廣泛關注,例如:Li Y等對語譜圖的顯著周期采用自我注意力機制[4];Xie Y等提出了一種基于時間和空間特征維注意力的長短期記憶(Long Short Term Memory, LSTM)輸出加權算法[5];Li R等結合深度殘差網絡和多頭注意力模型的內部依賴,將算法模型的最后一個時間步輸出作為下一層的輸入[6];B. Desplanques等提出了ECAPA?TDNN模型,該模型更加注重通道之間的注意力、信息的傳播和聚合[7]。上述研究表明,與神經網絡結合,并行多特征向量和引入注意力機制有助于提高SER性能。
MFCC參數是根據人耳聽覺特性提出的,是識別語音信號最常用的特征[8]。針對MFCC特征參數在情感分析問題時存在的中、高頻識別精度不高這一缺陷,王思羽、吳虹蕾選取MFCC、I?MFCC、Mid?MFCC特征參數,通過降維算法Fisher比準則,計算三種Mel倒譜系數對語音情感識別貢獻度的高低,選取貢獻度最高的參數進行融合后得到F?MFCC特征參數,并在此基礎上對語音情感特征參數做進一步改進[9?10]。為了進一步提高系統(tǒng)的SER性能,本文從前期已經提取的DFCC參數入手,提取I?DFCC和Mid?DFCC參數,融合到一起構成F?DFCC特征;再適當地將F?DFCC特征與LPCC、MFCC特征通過CNN網絡融合,得到基于F?DFCC的融合特征,增加每一個特征的情感信息量;同時將雙向的LSTM網絡應用到含有注意力機制的ECAPA?TDNN模型中,進一步選擇有用的情感特征信息;最后,在CASIA數據集和RAVDESS數據集上,通過實驗驗證了F?DFCC融合特征參數和ECAPA?TDNN?LSTM模型的有效性。
1 "特征提取
1.1 "F?DFCC特征提取
前期,在深入研究非線性共振的典型代表——Duffing振動的基礎上,提出一種基于Duffing濾波器的特征提取方法(DFCC)[11],DFCC參數提取流程如圖1所示。72通道的Duffing濾波器組的幅頻特性(每4通道繪制一條曲線)如圖2所示。
各通道濾波器的中心頻率為[fDuffing],由于說話人語音信號頻率的覆蓋范圍一般為60~3 500 Hz,本文選定最低頻率[f0=60 Hz]。中心頻率的計算公式如下:
[fDuffing=2i12f0,i=1,2,…,N] " " (1)
式中:i為通道數;N為樣本數量,本文中N取值為72。
由圖2可知:濾波器在低頻區(qū)域比較密集,頻率變化快;濾波器在高頻區(qū)域比較稀疏,頻率變化緩慢。由此可知,濾波器組提取出的DFCC特征參數,低頻區(qū)域的分辨率相比于高頻區(qū)域會更好。
仿照I?MFCC特征參數的提取方法,I?DFCC特征性參數與DFCC特征參數相反,提取過程中Duffing濾波器組在高頻區(qū)域比較密集,低頻區(qū)域比較稀疏;Mid?DFCC特征參數則是Duffing濾波器組在中頻區(qū)域比較密集,高低頻區(qū)域比較稀疏。I?Duffing濾波器組和Mid?Duffing濾波器組各通道的中心頻率公式分別如下:
[fI?Duffing=4 000-272-i12f0, i=1,2,…,N] (2)
[fMid?Duffing=2 000+2i12-1-272-i12-1f0, i=1,2,…,N] " (3)
圖3為三種Duffing濾波器組的中心頻率分布圖。由圖可知,根據圖1提取的特征參數,三種Duffing濾波器組DFCC特征參數在低頻區(qū)域分辨率高,I?DFCC特征參數在高頻區(qū)域分辨率高,Mid?DFCC特征參數在中頻區(qū)域分辨率高。因此,分別在低、中、高頻段使用合適的濾波器組,并將特征參數通過適當的方式融合,可得到在整個頻段分辨率都高的特征參數。
如果簡單地將DFCC、I?DFCC、Mid?DFCC三種參數進行疊加,通道數較多,計算量相對較大,同時會受到語音情感識別模型的影響。因此,本文考慮根據Fisher比[12]的大小來選取最優(yōu)的語音情感特征。Fisher比的定義如下:
[F=σbetweenσwithin] " " " (4)
式中:[σbetween]為語音情感特征的類間方差,表示特征離散程度;[σwithin]為語音情感特征的類內方差,表示特征的聚集程度。F值越大,語音情感特征越明顯,其區(qū)分度也更大。
F?DFCC特征提取流程如圖4所示。
1.2 "其他幀級特征提取
目前在深度學習模型中,常用基于譜的特征作為模型的輸入。本文的音頻幀級特征提取過程中,利用librosa工具箱提取MFCC、LPCC等常用的基于譜的情感特征。
2 "ECAPA?TDNN?LSTM模型
為提高幀級特征的利用率,突出區(qū)分度強的深層動態(tài)特征,本文在MFCC、LPCC、F?DFCC等特征的基礎上,采用CNN網絡提取語音信號的時序特征,全面把握語音信號的情感信息;然后將提取的情感信息作為ECAPA?TDNN模型的輸入。ECAPA?TDNN模型是對基于TDNN的x?vector架構進行改進得到的。本文在該模型的基礎上引入Bi?LSTM(雙向LSTM網絡),完整的ECAPA?TDNN?LSTM系統(tǒng)架構如圖5所示。
ECAPA?TDNN?LSTM模型的結構分為以下4個模塊:
1) CNN處理好的語音情感特征經過TDNN+ReLU+BatchNorm層,其中TDNN是一層一維卷積層,用來獲取語音信號的前后相關性,ReLU激活,BatchNorm規(guī)整;
2) 3個SE?Res2Block層,SE?Res2Block主要由TDNN、SE?Net和Res2Net組成;
3) 將Bi?LSTM[13]網絡嵌入到前兩個SE?Res2Block層的輸出端,2個Bi?LSTM的輸出與最后1個SE?Res2Block模塊的輸出聚合到一起,實現多層特征聚合與匯總,進一步地挖掘語音信號中的時間上下文信息。Bi?LSTM網絡結構如圖6所示。
4) 注意力統(tǒng)計池化層(Attentive Stat Pooling+BN)。由于重要的信息不僅在不同時間上,同時也在不同的特征圖通道上,該層利用時間信息和通道信息共同建模,獲得語音的統(tǒng)計信息,最后將語音的統(tǒng)計信息通過一個全連接層并降維,得到深度情感表征。
ECAPA?TDNN?LSTM模型的損失函數采用加性角度間隔損失函數(Additive Angular Margin Softmax, AAM?Softmax)[14]。該函數是在Softmax函數的基礎上提出的。相比于Softmax函數,AAM?Softmax函數可以更好地縮小類內間距,增大類間間距,具體表達式如下:
[Loss=1Ni=1Nloges?(cos(θyi+m))es?(cos(θyi+m))+j=1,j≠yines?cosθj] (5)
式中:N為樣本數量;n為類別數量;[θyi]是第i個樣本xi與第j類對應的權重向量之間的夾角;s為縮放因子;m為邊緣角度。
3 "實驗與分析
3.1 "實驗環(huán)境
本實驗在Windows系統(tǒng)下進行,主要使用Python、PaddlePaddle深度學習框架,具體的實驗環(huán)境配置如表1所示。
3.2 "數據庫
在CASIA數據集和RAVDESS數據集上對所提出的特征參數和模型進行評估。CASIA數據集是中科大專為語音情感識別錄制的,為中文,4個對象,1 200條語音,表達快樂(happy)、悲傷(sad)、憤怒(angry)、恐懼(fearful)、 驚訝(surprised)和中性(neutral)共6種不同的情感。RAVDESS數據集的語音文件為英文,包含1 440個文件,24個對象,每個對象60個音頻,表達平靜(calm)、快樂(happy)、 悲傷(sad)、憤怒(angry)、恐懼(fearful)、 驚訝(surprised)、 厭惡(disgust)和中性(neutral)共8 種不同的情感。本研究在兩種數據集上實驗時,隨機選取了其中90%語音樣本作為訓練集,10%語音樣本作為測試集。
3.3 "特征提取
本文語音信號的預處理階段,采樣率為16 kHz,幀長為25 ms,幀移為10 ms,窗函數為漢明窗。對DFCC、I?DFCC、Mid?DFCC各選取了8階特征參數,然后利用Fisher比在24階特征中選取Fisher比值較大,即貢獻程度較好的12階特征參數作為靜態(tài)特征,進一步對提取出的F?DFCC特征參數做一階差分,即獲得語音信號的動態(tài)特征。最后,選取動態(tài)特征的極值、均值、方差等進行疊加,得到96維F?DFCC相關特征參數。
3.4 "實驗設置
本文主要通過設置各種語音特征參數在情感識別中的對比實驗來說明本文方法的可行性。主要驗證本文的F?DFCC特征參數相比于傳統(tǒng)特征參數MFCC、LPCC有無優(yōu)越性;接著基于F?DFCC,通過CNN網絡構成融合特征參數,輸入ECAPA?TDNN?LSTM情感識別模型,在CASIA數據集和RAVDESS數據集上驗證情感識別的性能,并對實驗結果進行具體分析。
3.5 "實驗和討論
首先,分別將LPCC、MFCC、DFCC、F?DFCC等參數以及LPCC、MFCC、F?DFCC三種特征構成的融合參數,輸入ECAPA?TDNN?LSTM模型,比較它們在CASIA數據集和RAVDESS數據集上的準確率WA、召回率UA和F1?score,識別結果如表2和表3所示。
觀察表2和表3可知,無論是在CASIA數據集還是RAVDESS數據集上,DFCC特征參數的識別效果都明顯優(yōu)于LPCC,略遜于MFCC特征參數,但是F?DFCC特征參數的效果優(yōu)于MFCC。F?DFCC準確率WA、召回率UA、F1?score三個指標,在CASIA數據集上分別高于MFCC特征0.016 9、0.026 1、0.023 5;在RAVDESS數據集上分別高于MFCC特征0.019 2、0.023 8、0.021 1。
進一步,將LPCC、MFCC、F?DFCC三種特征文件輸入CNN模型中,提取F?DFCC融合特征中的高級特征。F?DFCC融合特征的準確率WA、召回率UA、F1?score較單一的F?DFCC特征參數,在CASIA數據集上分別高0.035 1、0.031 1、0.031 3;在RAVDESS數據集上分別高0.024 5、0.035 8、0.033 2。由此證明F?DFCC融合特征能夠較全面地把握語音信號的情感信息。
接著,將F?DFCC融合特征參數輸入ECAPA?TDNN?LSTM模型,分別在CASIA和RAVDESS數據集上對比其訓練損失函數,結果如圖7所示。
對比圖7中兩條損失函數曲線,在RAVDESS數據集上下降比較緩慢,主要原因是RAVDESS數據集較CASIA數據集情感類型更多。整體而言,當step為4 000時,兩個訓練集上的損失函數基本穩(wěn)定。
同時,得到在兩個數據集上的混淆矩陣,分別如圖8和圖9所示。
混淆矩陣可以更加直觀地展現出F?DFCC融合特征參數輸入ECAPA?TDNN?LSTM模型進行語音情感識別的性能,兩圖中對角線表示情感識別率,其他數值表示某種情感被誤判為其他情感的比例。
從圖8和圖9中可以看出,無論是在CASIA數據集還是RAVDESS數據集,surprised情感的識別準確率最高,識別率高達0.94。從整體上看,情感之間存在比較輕度的相互干擾,在兩種數據集上的neutral情感的識別率相比于其他情感識別率低,最高誤判率達到了0.10以上。從整體性能來看,F?DFCC融合特征參數的6種和8種情感識別率與其他特征參數相比均有所提升。
4 "結 "論
本文仿照F?MFCC特征參數提取方法,引入DFCC、I?DFCC、Mid?DFCC特征參數,并對其特點、提取方法分別做詳細介紹;再利用Fisher比計算三種特征參數對語音情感識別的貢獻度,選取貢獻度最高的12階參數進行融合降維,得出F?DFCC特征參數。
將F?DFCC特征參數與LPCC、MFCC融合后進行情感識別實驗,實驗結果表明:F?DFCC融合特征的準確率WA、召回率UA、F1?score與單一的F?DFCC特征參數相比,在CASIA數據集上分別高0.035 1、0.031 1、0.031 3;在RAVDESS數據集上分別高0.024 5、0.035 8、0.033 2。證明F?DFCC融合特征能夠較全面地把握語音信號的情感信息。
將F?DFCC融合特征參數輸入ECAPA?TDNN?LSTM模型,得出無論是在CASIA數據集還是RAVDESS數據集,surprised情感的識別準確率最高,為0.94。從整體性能來看,F?DFCC融合特征參數的6種和8種情感識別率與其他特征參數相比均有所提升。
注:本文通訊作者為羅輝。
參考文獻
[1] TRIGEORGIS G, RINGEVAL F, BRUECKNER R, et al. Adieu features?End?to?end speech emotion recognition using a deep convolutional recurrent network [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. Shanghai: IEEE, 2016: 5200?5204.
[2] MIRSAMADI S, BARSOUM E, ZHANG C. Automatic speech emotion recognition using recurrent neuralnetw orks with local attention [C]// IEEE International Conference on Acoustics,Speech and Signal Processing. New Orleans, LA, USA: IEEE, 2017: 2227?2231.
[3] TARANTINO L, GARNER P N, LAZARIDIS A. Self?attention for speech emotion recognition [C]// Interspeech. Graz, Austria: IEEE, 2019: 2578?2582.
[4] LI Y, ZHAO T, KAW AHARA T. Improved end?to?end speech emotion recognition using self attention mechanism and multitask learning [C]// Interspeech. Graz, Austria: IEEE, 2019: 2803?2807.
[5] XIE Y, LIANG R, LIANG Z, et al. Speech emotion classifi cation using attention?based LSTM [J]. IEEE/ACM transactions on audio, speech, and language processing, 2019, 27(11): 1675?1685.
[6] LI R, WU Z, JIA J, et al. Dilated residual network with multi?head self?attention for speech emotion recognition [C]// IEEE International Conference on Acoustics, Speech and Signal Processing. Brighton, UK: IEEE, 2019: 6675?6679.
[7] DESPLANQUES B, THIENPONDT J, DEMUYNCK K. Ecapa?TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification [C]// International Speech Communication Association. Shanghai: IEEE, 2020: 3830?3834.
[8] 崔琳,崔晨露,劉政偉,等.改進MFCC和并行混合模型的語音情感識別[J].計算機科學,2023,50(z1):166?172.
[9] 王思羽.語音情感識別算法研究[D].南京:南京郵電大學,2019.
[10] 吳虹蕾.基于深度學習的語音情感識別算法的設計與實現[D].哈爾濱:黑龍江大學,2021.
[11] 何朝霞,潘平,羅輝.音色變換音頻信號的篡改檢測技術研究[J].中國測試,2017,43(2):98?103.
[12] 孫肖然.阻塞性睡眠呼吸暫停低通氣的鼾聲識別與分類[D].廣州:華南理工大學,2022.
[13] 王佳慧.基于CNN與Bi?LSTM混合模型的中文文本分類方法[J].軟件導刊,2023,22(1):158?164.
[14] 張悅.基于深度學習的語音情感識別[D].成都:電子科技大學,2022.
[15] SCHULLER B, STEIDL S, BATLINER A, et al. The INTER SPEECH 2010 paralinguistic challenge [C]// Interspeech.
Makuhari, Japan: IEEE, 2010: 2794?2797.