陶華偉 査 誠 梁瑞宇,2 張昕然 趙 力 王青云,2
(1東南大學(xué)水聲信號處理教育部重點(diǎn)實驗室,南京210096)
(2南京工程學(xué)院通信工程學(xué)院,南京211167)
語音作為最主要的交流手段之一,在新型的人機(jī)交互領(lǐng)域中備受關(guān)注.為了使人機(jī)交互系統(tǒng)和機(jī)器人的對話系統(tǒng)更加智能和完善,語音的情感分析變得越來越重要[1-2].此外,在一些長時間的、單調(diào)的、高強(qiáng)度的任務(wù)(如航天、航海等)中,相關(guān)人員常會產(chǎn)生某些負(fù)面情緒[3],有效地識別這些負(fù)面情緒,有助于提高個體認(rèn)知和工作效率,防患于未然.面對犯罪調(diào)查、智能協(xié)助等問題[4],語音情感識別也能夠起到重要作用.因此,語音情感識別算法研究具有重要的實用意義.
針對語音情感識別問題,學(xué)者們從不同角度進(jìn)行了研究,取得了許多有價值的成果[5-8].考慮到特征構(gòu)造及特征選擇對識別性能影響較大[9-10],學(xué)者們對情感特征進(jìn)行了細(xì)致的分析和研究,并提出了多種語音情感特征構(gòu)造方式.當(dāng)前語音情感特征主要包括韻律特征、頻域特征、音質(zhì)特征[11-12].語音信號頻域和時域中信號間的相關(guān)性在語音情感識別中起到了重要作用[13].但針對語音信號間相關(guān)性的研究,往往僅集中在頻域或時域中,將語音信號時頻兩域的相關(guān)性相結(jié)合的文獻(xiàn)則較少.語譜圖是一種語音能量時頻分布的可視化表達(dá)方式,其橫軸代表時間,縱軸代表頻率,連通了時頻兩域,將語譜圖的頻率點(diǎn)建模為圖像的像素點(diǎn),便可利用圖像特征探討相鄰頻點(diǎn)間的聯(lián)系,為研究時頻兩域相關(guān)性提供了一種新的思路.
基于此,本文提出了一種面向語音情感識別的語譜圖特征提取算法.首先,提取情感語音的語譜圖;然后,將提取到的語譜圖進(jìn)行歸一化處理,得到語譜圖灰度圖像;再次,利用Gabor小波計算不同方向、不同尺度語譜圖的Gabor圖譜,并利用局部二值模式抽取語譜圖Gabor圖譜的紋理信息;最后,將不同尺度、不同方向Gabor圖譜抽取到的LBP特征級聯(lián),組成一種新的語音情感特征.在柏林庫(EMODB)和FAU AiBo庫上的實驗結(jié)果表明,基于本文提出的特征能夠較好地識別不同種類情感,此外,與現(xiàn)有聲學(xué)特征融合后還可有效地提升識別率.
特征提取算法的具體步驟如下:① 對語音進(jìn)行加窗分幀,提取語音的語譜圖;②計算語譜圖線性或?qū)?shù)歸一化幅度值,將語譜圖量化為0~255的灰度圖;③采用不同尺度、不同方向的Gabor小波計算語譜圖的Gabor圖譜;④ 計算不同尺度、不同方向Gabor圖譜的局部二值模式;⑤ 將不同尺度、不同方向下求得的局部二值模式特征級聯(lián),構(gòu)成一種新的語音情感特征.算法流程如圖1所示.
圖1 特征提取算法流程圖
語譜圖的靜音段包含大量的非零數(shù)值,直接計算語譜圖的LBP特征會引入誤差.因此,需要對語譜圖進(jìn)行預(yù)處理,得到歸一化的語譜圖灰度圖像.首先,對語音進(jìn)行分幀、加窗及離散傅里葉變換處理,即
式中,s(n)為語音信號;X為s(n)的傅里葉系數(shù);N為窗長;ω(n)為漢明窗函數(shù).由此可得到s(n)的語譜圖
其次,采用線性和對數(shù)能量2種不同的方法生成語譜圖 LLinear(a,b)和 LLog(a,b),即
式中,a∈{1,2,…,A},b∈{1,2,…,B}為語譜圖像素的坐標(biāo),其中A,B分別為語譜圖橫、縱坐標(biāo)的最大值.
然后,采用最大最小歸一化方法對語譜圖進(jìn)行歸一化,得到歸一化語音圖譜,即
式中,L(a,b)為語譜圖;Lmax(a,b),Lmin(a,b)分別為語譜圖灰度級中的最大值和最小值.
Gabor小波可以凸顯相鄰灰度級間的變化.本文采用Gabor小波對語譜圖灰度圖進(jìn)行處理.Gabor小波的核函數(shù)定義如下:
式中,μ表示Gabor的核方向;v表示核尺度;z表示像素點(diǎn)的空間坐標(biāo);σ表示高斯函數(shù)的半徑;kv
本文采用五尺度八方向的Gabor小波,其參數(shù)設(shè)置為:v∈{0,1,2,3,4},μ∈{0,1,2,3,4,5,6,7},σ=2π.通過將生成的Gabor小波與語譜圖灰度圖像進(jìn)行卷積運(yùn)算,可得到40張Gabor圖譜.
式中,gc為中心像素點(diǎn)的灰度值;gp為周邊鄰域像素點(diǎn)的值;P為選取周邊鄰域點(diǎn)的總個數(shù);R為鄰域半徑.假設(shè)gc點(diǎn)的坐標(biāo)為(0,0),則gp的坐標(biāo)為(Rcos(2πp/P),Rsin(2πp/P)).
對圖像上所有像素點(diǎn)進(jìn)行LBP編碼,便可得到LBP編碼圖譜.LBP編碼圖譜直方圖的計算公式為
式中,T為LBP編碼后的最大灰度值.
研究發(fā)現(xiàn),LBP圖譜中只有少部分的灰度級占主要作用,因此定義了如下的一致模式:
式中,U表示數(shù)值0/1變換次數(shù).該一致模式可將循環(huán)二值次數(shù)限制為U≤2.經(jīng)過一致模式處理后,一致模式LBP中包含P(P-1)+3個不同值.
本文中,采用一致模式LBP計算Gabor圖譜的紋理特征,基于第l個Gabor圖譜求得的LBP直方圖為 ql(l=1,2,…,40).將不同尺度、不同方向Gabor圖譜下的LBP直方圖級聯(lián),便可得到特征Q={q1,q2,…,q40}.
識別系統(tǒng)框圖如圖2所示.首先,將訓(xùn)練樣本庫中的語音進(jìn)行預(yù)處理和特征提取,得到訓(xùn)練樣本特征矩陣Htrain;其次,利用訓(xùn)練樣本對矩陣Htrain進(jìn)行訓(xùn)練,得到最優(yōu)分類器參數(shù);然后,將測試樣本進(jìn)行預(yù)處理和特征提取,得到測試樣本矩陣Htest;最后,將測試樣本矩陣輸入分類器中,輸出識別結(jié)果.
圖2 語音情感識別系統(tǒng)
本文采用K近鄰算法、支持向量機(jī)(SVM)和Softmax分類器進(jìn)行語音情感識別.K近鄰算法中取K=1,距離公式采用χ2統(tǒng)計距離公式,即
式中,cm,dm為特征中的元素;C,D為語音的情感特征,且其維數(shù)為M.SVM采用LIBSVM工具箱,核函數(shù)采用徑向基核.Softmax分類器中權(quán)重衰減項設(shè)為10-4,迭代次數(shù)設(shè)為200.
為驗證算法的有效性,本文分別在柏林庫(EMO-DB)和FAU AiBo庫上進(jìn)行仿真.
柏林庫由10個不同的人(5男5女)錄制而成,包含7種不同的情感,分別為平靜、害怕、厭惡、喜悅、討厭、悲傷、憤怒.算法選取其中494條語句構(gòu)成數(shù)據(jù)庫進(jìn)行實驗.
FAU AiBo庫由2所學(xué)校51個年齡在10~13歲的兒童錄制而成,按照2009年情感挑戰(zhàn)賽標(biāo)準(zhǔn)將其分為5種不同情感,分別為A(angry,touchy,reprimanding),E(emphatic),N(neutral),P(motherese,joyful),R(rest).數(shù)據(jù)庫包含2 部分,其中ohm庫包含9 959條語句,mont包含8 257條語句.
所選用的實驗方案包含如下3種:
1)采用Leave one speaker out(LOSO)方案,即選取柏林庫中的9個人作為訓(xùn)練集,剩余的作為測試集;10個人輪流作測試集,將10次識別結(jié)果求平均,作為最終識別結(jié)果.
2)將柏林庫中編號為“03”,“08”,“09”,“10”,“11”的5個人的220條語音作為測試集,其余5人語音作為訓(xùn)練集.
3)FAU AiBo庫采用ohm庫作為訓(xùn)練集,mont作為測試集.
下面基于3種實驗方案來驗證對數(shù)圖譜和線性圖譜對所提特征提取算法的影響.
表1為實驗方案1和方案3下所提的特征提取算法的識別結(jié)果.由表可知,在2個不同的數(shù)據(jù)庫上,線性圖譜的識別率略高于對數(shù)圖譜.對比3種不同的分類器,在柏林庫中,Softmax分類器可以取得最好的識別效果,識別率達(dá)到76.62%;在FAU AiBo庫上SVM分類器可以取得最好的識別效果,識別率達(dá)到65.04%.
表1 方案1和方案3下所提算法的特征識別率 %
為進(jìn)一步驗證線性和對數(shù)2種圖譜特征提取算法的識別性能,依照實驗方案2,采用Softmax分類器進(jìn)行識別,計算2種圖譜的分類混淆矩陣.圖3給出了2種圖譜的混淆矩陣.可以看出,2種圖譜對喜悅、憤怒情感的識別率較低,對厭惡、討厭、平靜、悲傷識別性能較好.線性、對數(shù)圖譜對7種情感識別率的平均值分別為78.00%和76.43%.
3種實驗方案結(jié)果表明,就本文算法而言,線性圖譜的識別性能略優(yōu)于對數(shù)圖譜.原因在于,語譜圖采用線性運(yùn)算處理后,最大最小值幅值差距比對數(shù)語譜圖小;當(dāng)進(jìn)行最大最小歸一化運(yùn)算時,線性語譜圖量化間距比對數(shù)語譜圖小,在量化時能夠保留較多的細(xì)節(jié)信息.
圖3 混淆矩陣
文獻(xiàn)[14]提取了語音的基頻、過零率、能量、共振峰、持續(xù)時間、Mel頻率倒譜系數(shù)特征等408維特征,基本包含了現(xiàn)有情感識別常見的語音特征.表2為按照本文算法提取到的特征與文獻(xiàn)[14]特征的對比結(jié)果.由表可知,所提特征的識別率明顯優(yōu)于文獻(xiàn)[14]特征.在柏林庫上,所提特征的識別率較文獻(xiàn)[14]特征高出5%以上;在FAU AiBo庫,所提特征的識別率較文獻(xiàn)[14]特征最少提升3%.產(chǎn)生上述結(jié)果的原因在于:時長的變化是語音情感的一個重要特征,該特征在頻譜上表現(xiàn)為語音段和靜音段比例的變化;在歸一化語譜圖灰度圖像中,靜音段的灰度級基本相同,LBP編碼值為0,而非靜音段的灰度值差異較大,LBP編碼值發(fā)生了變化,故LBP算法可以表征靜音段和有聲段比例的變化;不同情感語音頻譜分布產(chǎn)生了較大變化,而LBP描述子通過計算中心頻點(diǎn)與周邊鄰域的關(guān)系,有效地表征了這一特征.因此,所提算法取得了更好的識別效果.
表2 方案1和方案2下不同算法的特征識別率 %
為進(jìn)一步驗證所提算法的有效性,基于實驗方案2,將所提特征與文獻(xiàn)[14]的特征融合,進(jìn)行語音情感識別,識別結(jié)果見圖4.由圖可知,在3種不同的分類器下,將所提特征與文獻(xiàn)[14]的特征進(jìn)行融合后,可以有效地提高識別率,識別率至少比文獻(xiàn)[14]的特征提升了5%以上.特別地,在Softmax分類器下,融合特征識別率為80.46%.而采用文獻(xiàn)[14]的特征進(jìn)行識別,識別率僅為68.64%.究其原因在于,所提算法與現(xiàn)有的聲學(xué)特征具有較好的融合性,有效地提升了系統(tǒng)識別性能.
圖4 不同特征識別率
本文提出了一種面向語音情感識別的語譜圖特征提取算法.首先,對圖像進(jìn)行處理,得到語譜圖灰度圖像;然后,采用Gabor小波提取語譜圖灰度圖像的Gabor圖譜,并采用LBP算法提取Gabor圖譜的紋理圖像信息;最后,將不同尺度、不同方向Gabor圖譜提取到的LBP特征進(jìn)行級聯(lián),作為一種新的語音情感特征進(jìn)行情感識別.柏林庫和FAU AiBo庫上的實驗結(jié)果驗證了本文算法的有效性.
本文將語譜圖建模為灰度圖像,并利用LBP特征研究不同頻點(diǎn)間相關(guān)性對情感識別的影響,為研究情感識別提供一個新的思路.此外,當(dāng)前語音情感識別主流趨勢是采用多種不同特征融合進(jìn)行情感識別,語譜圖圖像特征可以作為一類新的特征進(jìn)一步增強(qiáng)情感語音識別系統(tǒng)的性能.
References)
[1] Attabi Y,Dumouchel P.Anchor models for emotion recognition from speech[J].IEEE Transactions on Affective Computing,2013,4(3):280-290.
[2] Ramakrishnan S,El Emary I M M.Speech emotion recognition approaches in human computer interaction[J].Telecommunication Systems,2013,52(3):1467-1478.
[3] Lee A K C,Larson E,Maddox R K,et al.Using neuroimaging to understand the cortical mechanisms of auditory selective attention[J].Hearing Research,2014,307:111-120.
[4] Minker W,Pittermann J,Pittermann A,et al.Challenges in speech-based human-computer interfaces[J].International Journal of Speech Technology,2007,10(2/3):109-119.
[5] Zhao X M,Zhang S Q,Lei B C.Robust emotion recognition in noisy speech via sparse representation[J].Neural Computing and Applications,2014,24(7/8):1539-1553.
[6] Huang C W,Chen G M,Yu H,et al.Speech emotion recognition under white noise[J].Archives of Acoustics,2013,38(4):457-463.
[7] Yan J J,Wang X L,Gu W Y,et al.Speech emotion recognition based on sparse representation[J].Archives of Acoustics,2013,38(4):465-470.
[8] Wu C H,Liang W B.Emotion recognition of affective speech based on multiple classifiers using acoustic-prosodic information and semantic labels[J].IEEE Transactions on Affective Computing,2011,2(1):10-21.
[9] Bozkurt E,Erzin E,Erdem C E,et al.Formant position based weighted spectral features for emotion recognition[J].Speech Communication,2011,53(9):1186-1197.
[10] Altun H,Polat G.Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection[J].Expert Systems with Applications,2009,36(4):8197-8203.
[11] Mencattini A,Martinelli E,Costantini G,et al.Speech emotion recognition using amplitude modulation parameters and a combined feature selection procedure[J].Knowledge-Based Systems,2014,63:68-81.
[12] El Ayadi M,Kamel M S,Karray F.Survey on speech emotion recognition:features,classification schemes,and databases[J].Pattern Recognition,2011,44(3):572-587.
[13] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進(jìn)展綜述[J].軟件學(xué)報,2014,25(1):37-50.Han Wenjing,Li Haifeng,Ruan Huabin,et al.Review on speech emotion recognition[J].Journal of Software,2014,25(1):37-50.(in Chinese)
[14] Xu X Z,Huang C W,Wu C,et al.Graph learning based speaker independent speech emotion recognition[J].Advanced in Electrical and Computer Engineering,2014,14(2):17-22.