李 杰,周 萍
(1.桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西桂林 541004;2.桂林電子科技大學(xué)電子工程與自動化學(xué)院,廣西桂林 541004)
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展和人類對計(jì)算機(jī)依賴性的不斷增強(qiáng),人機(jī)交流變得越來越普遍,人機(jī)交互能力也越來越受到研究者的重視,語音情感識別就是人機(jī)交互與情感計(jì)算的交叉研究領(lǐng)域。語音中的情感之所以能夠被識別與表達(dá),是因?yàn)檎Z音特征在不同情感狀態(tài)下的表現(xiàn)不同。因此,很多研究者對特征與情感類別之間的對應(yīng)關(guān)系產(chǎn)生了濃厚的興趣并進(jìn)行了深入的探討。Murray I和Amott J L完成的實(shí)驗(yàn)得出了基頻、能量、時(shí)長等韻律特征,以及語音質(zhì)量特征與情感之間的定性關(guān)系[1],使得韻律學(xué)特征成為語音情感識別的常用特征。此后,研究者又加入了共振峰參數(shù)和語音學(xué)特征,如MFCC,使得韻律學(xué)特征與語音學(xué)特征結(jié)合識別情感。通常在利用這些基本特征進(jìn)行研究時(shí),還需要求出其派生特征和各種統(tǒng)計(jì)特征,如范圍、均值和方差等,并把它們組成特征向量。由于到目前為止,聲學(xué)特征與情感狀態(tài)的對應(yīng)關(guān)系缺乏統(tǒng)一的結(jié)論,為了盡可能保留有意義的信息,研究者只能在研究中保留這維數(shù)少則幾十條多則上百條的特征向量。但根據(jù)模式識別的理論,高維特征集合不僅不會提高識別率,還會造成“維數(shù)災(zāi)難”[2]。大量的研究表明:語音情感識別的關(guān)鍵就在于從數(shù)量眾多的特征中求得高效的情感聲學(xué)特征組,這就需要用到特征降維技術(shù)。
目前,已有數(shù)篇綜述文獻(xiàn)總結(jié)了語音情感識別的研究成果[3~6],但主要都是針對識別算法的研究進(jìn)展進(jìn)行綜述。本文從模式識別的角度對目前語音情感識別研究中所采用的特征降維技術(shù)進(jìn)行總結(jié),并對近幾年提出的情感特征參數(shù)進(jìn)行闡述。
基于語音的情感識別大致分為預(yù)處理、特征提取和情感分類三步,大致框架如圖1所示。特征提取作為情感分類的前向步驟,能直接影響到最終的識別效率,是從輸入的語音信號中提取能夠區(qū)分不同情感的參數(shù)序列。在提取特征數(shù)據(jù)時(shí),為獲得最優(yōu)特征子集還需進(jìn)行對特征降維。
圖1 語音情感識別系統(tǒng)Fig 1 Speech emotion recognition system
本文從發(fā)音語音學(xué)和聲學(xué)語音學(xué)兩方面出發(fā),將語音情感分為基于發(fā)音特征參數(shù)和基于聲學(xué)特征參數(shù)。
此類特征按照語音信號生成的數(shù)學(xué)模型不同,分為線性激勵源—濾波器(source-filter)語音生成模型特征和非線性語音生成模型特征。
2.1.1 線性激勵源—濾波器語音生成模型特征
在激勵系統(tǒng)中,聲門每開啟和閉合一次的時(shí)間就是基音周期,其倒數(shù)稱為基頻,決定了語音的音調(diào)高低。由于語音是聲門激勵信號和聲道沖激響應(yīng)的卷積,直接對語音提取基音周期將受到聲道共振峰的影響,所以,需要先求出聲門激勵信號(聲門波)。獲得聲門波的常用方法有線性預(yù)測法和倒譜分析法,都是基于聲道建模,通過逆濾波消除共振峰的影響得到聲門波。由于這2種方法只是對聲道傳輸特性的近似,故通過逆濾波得到的聲門波差分波形頻譜都會不可避免地帶有“波紋”。為了準(zhǔn)確估計(jì)聲門波參數(shù),研究者提出了對聲門波進(jìn)行參數(shù)建模的方法,其中LF[7]模型最常用。趙艷等人[8]將通過該方法提取的音質(zhì)參數(shù)運(yùn)用到情感識別中去,取得了不錯的識別率。
歸一化振幅商(normalized amplitude quotient,NAQ)是由文獻(xiàn)[9]提出的,一種新的用來刻畫聲門激勵特性的時(shí)域參數(shù)。Airasm A P[10]和白潔等人[11]分別比較了連續(xù)語音中單一元音的較短片段、整句及元音段NAQ值的情感識別效果,實(shí)驗(yàn)表明了元音段的NAQ值是一種具有判別力的語音情感特征。
共振峰是當(dāng)聲音激勵進(jìn)入聲道引起共振產(chǎn)生的一組共振頻率。不同情感的發(fā)音可能使聲道有不同的變化,因此,共振峰是反映聲道特性的一個重要參數(shù)。提取共振峰參數(shù)的方法主要有倒譜法和線性預(yù)測法(LPC)。
2.1.2 非線性模型特征
傳統(tǒng)的線性聲學(xué)理論認(rèn)為,聲音的產(chǎn)生取決于聲帶的振動和聲道內(nèi)的激勵源位置。而Teager H等人[12]認(rèn)為聲源是聲道內(nèi)非線性渦流的交互作用。為度量這種非線性過程產(chǎn)生的語音,文獻(xiàn)[12]提出了能量操作算子(teager energy operator,TEO)。隨著TEO的提出,許多基于TEO的特征被用于識別語音中的情感。文獻(xiàn)[13]將多分辨率自帶分析與TEO結(jié)合,提出一種新的特征參數(shù)TEOCEP,其識別性能優(yōu)于使用短時(shí)能量的自帶倒譜參數(shù)。高慧等人[14]結(jié)合小波分析將不同形式的TEO與MFCC結(jié)合提出了5種非線性特征,當(dāng)與文本有關(guān)時(shí),這些特征語音情感識別的效果優(yōu)于MFCC。林奕琳[15]將基于TEO的非線性特征用于帶噪語音情感的識別,證明了上述特征具有較高魯棒性。
2.2.1 聽覺模型特征
研究者發(fā)現(xiàn)人耳在嘈雜的環(huán)境中之所以仍能正常地分辨出各種聲音,耳蝸是其中的關(guān)鍵所在。耳蝸相當(dāng)于一個濾波器組,在低頻區(qū)呈線性關(guān)系,在高頻區(qū)呈對數(shù)關(guān)系,從而使得人耳對低頻信號更敏感。根據(jù)這一原則,研究者根據(jù)心理學(xué)實(shí)驗(yàn)得到了類似于耳蝸?zhàn)饔玫囊唤M濾波器組——Mel頻率濾波器組。研究者又利用這一原理和倒譜的解相關(guān)特性提出了Mel頻率倒譜系數(shù)(Mel frequency cepstrum coefficient,MFCC)。MFCC在語音情感識別領(lǐng)域已經(jīng)得到廣泛的應(yīng)用。
2.2.2 非基于模型特征
這類特征通常不假設(shè)語音模型,如語速、短時(shí)平均過零率、發(fā)音持續(xù)時(shí)間和能量等,文獻(xiàn)[5]對這些特征進(jìn)行了詳細(xì)的敘述。研究者發(fā)現(xiàn)以往常被用于診斷喉部疾病的諧波噪聲比(HNR)可以有效評估說話人嗓音嘶啞程度,余華[16],趙艷等人[8]已把HNR作為特征參數(shù)成功運(yùn)用于語音情感識別當(dāng)中。
高維數(shù)據(jù)特征不僅可能造成維數(shù)災(zāi)難,而且其可能存在較大的數(shù)據(jù)冗余,影響識別的準(zhǔn)確性。為了有效地進(jìn)行數(shù)據(jù)分析,提高正確識別率和降低計(jì)算工作量,特征降維就顯得異常重要。特征降維包括特征抽取和特征選擇。特征抽取是用全部可能的變量把數(shù)據(jù)變換(線性或非線性變換)到維數(shù)減少了的數(shù)據(jù)空間上。特征選擇是選出有用的或重要的特征,而去除其他的特征。
3.1.1 線性特征抽取算法
主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)是最常用的線性特征抽取算法。PCA因未能利用原始數(shù)據(jù)中的類別信息,降維后的數(shù)據(jù)有時(shí)反而不利于模式分類,直接用于語音情感識別時(shí)效果并不好。LDA考慮了訓(xùn)練樣本的類別信息,強(qiáng)調(diào)了不同類別樣本之間的分離,用于語音情感識別時(shí)取得了良好的識別率[17]。文獻(xiàn)[2]針對PCA,LDA在不同性別、不同情感狀態(tài)有不同的識別表現(xiàn),設(shè)計(jì)了結(jié)合PCA和LDA的分層次語音情感識別系統(tǒng),取得了較高識別率。
3.1.2 非線性流形特征抽取算法
近年來,研究人員發(fā)現(xiàn)語音信號中的特征數(shù)據(jù)位于一個嵌入在高維聲學(xué)特征空間的非線性流形上,這使得流形學(xué)習(xí)算法開始被用于語音特征參數(shù)的非線性降維處理。
等距映射(isometric feature mapping,Isomap)和局部線性嵌入(locally linear embedding,LLE)算法是該類算法中較為常用的。Isomap和LLE都屬于非監(jiān)督方式的降維方法,沒有給出降維前后數(shù)據(jù)之間的映射關(guān)系,新的測試數(shù)據(jù)并不能直接投影到低維空間,直接應(yīng)用于語音情感識別時(shí)識別率都不高,甚至不如線性的PCA[18],因此,應(yīng)用于語音情感識別時(shí)算法都需要進(jìn)行改進(jìn)。陸捷榮等人[19]在Isomap算法基礎(chǔ)上提出基于增量流形學(xué)習(xí)的語音情感特征降維方法,實(shí)驗(yàn)表明具有較好的識別效果。Ridder等人使用考慮數(shù)據(jù)類別信息的監(jiān)督距離修改LLE算法中的鄰域點(diǎn)搜索,提出了一種監(jiān)督式的局部線性嵌入(supervised locally linear embedding,SLLE)算法,文獻(xiàn)[18]又在 SLLE基礎(chǔ)上提出了一種改進(jìn)的監(jiān)督局部線性嵌入算法(improved-SLLE),并用Improved-SLLE實(shí)現(xiàn)了對48維語音情感特征參數(shù)數(shù)據(jù)的非線性降維,提取相應(yīng)的特征進(jìn)行情感識別,取得了90.78%的正確識別率。
增強(qiáng)型 Lipschitz嵌入(enhanced Lipschitz embedding,ELE)算法是尤鳴宇[2]基于 Lipschitz嵌入算法[20]提出的一種新的特征降維算法。ELE主要對樣本點(diǎn)到樣本集合(各種情感)中各點(diǎn)的最短距離的求取和新加入測試點(diǎn)的投影方式進(jìn)行補(bǔ)充完善。在ELE中,當(dāng)有新進(jìn)測試點(diǎn)需進(jìn)行投影時(shí),距離矩陣M被重新構(gòu)造以包含新樣本點(diǎn)的信息,雖然這種方法需要消耗一定的計(jì)算時(shí)間,但卻可以最大限度地發(fā)揮算法的優(yōu)勢,而且由于ELE算法較簡單,投影新測試點(diǎn)時(shí)并不需要重新構(gòu)建距離矩陣M。ELE解決了Isomap和LLE所未解決的將新進(jìn)測試樣本投影到目標(biāo)空間的問題。同時(shí),文獻(xiàn)[2,21]也證明了基于ELE的語音情感識別系統(tǒng)具有較高正確率,且對噪聲具有較高的魯棒性。
按照特征子集的生成方法,特征選擇可分為窮舉法、啟發(fā)式算法和隨機(jī)算法。
3.2.1 窮舉法
窮舉法是一種最直接的優(yōu)化策略,對p個變量中選出d個變量,搜索nd=p!/(p-d)!d!種可能的子集。盡管該方法確定能找到最優(yōu)子集,但是,由于計(jì)算開銷過大,實(shí)用性不強(qiáng)。
3.2.2 啟發(fā)式算法
啟發(fā)式算法是使用啟發(fā)式信息得到近似最優(yōu)解的算法。它是一個重復(fù)迭代而產(chǎn)生遞增或遞減的特征子集的過程,從當(dāng)前特征子集出發(fā),搜索下一個增加或刪除的特征時(shí),需要通過一個啟發(fā)函數(shù)來選擇代價(jià)最少的方案。此類方法不需要遍歷所有特征組合,就可以估計(jì)出一個較為合理的特征子集,具有實(shí)現(xiàn)過程簡單、運(yùn)行速度快等優(yōu)點(diǎn)。語音情感識別中常用的啟發(fā)式算法有順序向前選擇(SFS)、順序向后選擇(SBS)、優(yōu)先選擇(PFS)、順序浮動前進(jìn)選擇(SFFS)和逐步判別分析法(SDA)等。Kwon O W等人[22]采用SFS和SBS兩種方法進(jìn)行特征選擇,建立了聲學(xué)特征的情感判別力強(qiáng)弱排名的二維等級圖,指出基頻、對數(shù)能量和第一共振峰對語音情感識別的重要性。Lugger M等人[23]使用SFFS先從韻律特征和嗓音特征中分別選取4個特征參數(shù),而后又從混合特征集中選取8個特征,其中包括6個韻律特征和2個嗓音特征。謝波等人[24]針對普通話情感語音特征分別用PFS,SFS,SBS和SDA進(jìn)行特征選擇,分析了特征個數(shù)和特征選擇方法對平均準(zhǔn)確率的影響,最后進(jìn)行了特征選擇的有效性分析。
3.2.3 隨機(jī)算法
隨機(jī)算法可分為完全隨機(jī)與概率隨機(jī)兩類,前者指純隨機(jī)產(chǎn)生子集,后者指子集的產(chǎn)生依照給定的概率進(jìn)行。目前,被運(yùn)用于語音情感識別的有遺傳算法(genetic algorithm,GA)和神經(jīng)網(wǎng)絡(luò)分析法等。
遺傳算法是一種以遺傳和自然選擇的進(jìn)化論思想為啟發(fā)的算法,通過選擇并遺傳適應(yīng)環(huán)境的特征得到所需特征子集。首先,選取適應(yīng)性函數(shù)值最大的若干個特征組成初始特征集,并從該集合中選取2個特征,被選中的機(jī)率與其“適應(yīng)能力”呈正比。在這2個特征間使用“交配”算法和“突變”算法,再從得到的特征中選取“適應(yīng)能力”強(qiáng)的幾個加入特征子集。重復(fù)前兩步,直到獲得所需的分類特征子集。王穎[25]提出了一種改進(jìn)的自適應(yīng)遺傳算法語音情感識別方法,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法具有良好的識別效果。
神經(jīng)網(wǎng)絡(luò)分析法是王小佳[26]利用神經(jīng)網(wǎng)絡(luò)的貢獻(xiàn)原理選出有效特征的方法。王小佳將其提取的101個語音情感特征通過神經(jīng)網(wǎng)絡(luò)貢獻(xiàn)分析進(jìn)行選擇,通過聚類性分析驗(yàn)證了所選擇特征的有效性。
1)研究者們已分析了多種類型的特征,但就特征提取而言,不同的提取方法會產(chǎn)生不同的特征精度,如基頻的提取目前仍是一項(xiàng)開放的研究課題。因此,需要研究出更加精確的特征提取方法。
2)由于語音情感變化會造成諸多語音特征發(fā)生變化,將多種特征融合起來可以更全面地表現(xiàn)情感。多類特征組合是特征獲取的一個新興研究方向,目前已有少部分學(xué)者開始研究。
3)對語音情感進(jìn)行高效識別,必須對特征降維方法進(jìn)行更針對的研究,目前,特征降維應(yīng)用于語音情感識別還只是一個起步階段,需要更多的研究和嘗試。
[1]Murray I,Amott J L.Towards the simulation of emotion in synthetic speech:A review of the literature on human vocal emotion[J].Journal of the Acoustic Society of American,1993,93(2):1097 -1108.
[2]尤鳴宇.語音情感識別的關(guān)鍵技術(shù)研究[D].杭州:浙江大學(xué),2007.
[3]余伶俐,蔡自興,陳明義.語音信號的情感特征分析與識別研究綜述[J].電路與系統(tǒng)學(xué)報(bào),2007,12(4):77 -84.
[4]林奕琳,韋 崗,楊康才.語音情感識別的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報(bào),2007,12(1):90 -98.
[5]趙臘生,張 強(qiáng),魏小鵬.語音情感識別研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2009(2):428 -432.
[6]章國寶,宋清華,費(fèi)樹岷,等.語音情感識別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009(1):92-96.
[7]Fant G,Liljencrants J,Lin Q.A four-parameter model of glottal flow[J].STL-QPSR 4,1985,26(4):1 -13.
[8]趙 艷,趙 力,鄒采榮.結(jié)合韻律和音質(zhì)參數(shù)的改進(jìn)二次判別式在語音情感識別中的應(yīng)用[J].信號處理,2009(6):882-887.
[9]Paavo A,Tom B,Erhhi V.Normalized amplitude quotient for parameterization of the glottal flow[J].Journal of the Acoustical Society of America,2002,112(2):701 -710.
[10]Airasm A P.Emotions in short vowel segments:Effects of the glottal flow as reflected by the normalized amplitude quotient[C]//Proceedings of Tutorial and Research Workshop on Affective Dialogue Systems,2004:13 -24.
[11]白 潔,蔣冬梅,謝 磊.基于NAQ的語音情感識別研究[J].計(jì)算機(jī)應(yīng)用研究,2008,25(11):3243 -3258.
[12]Teager H,Teager S.Evidence for nonlinear production mechanisms in the vocal tract[C]//Speech Production & Speech Modeling,1990:241 -261.
[13]Jabloun F.Large vocabulary speech recognition in noisy environments[D].Ankara,Turkey:Bilrent University,1998.
[14]高 慧,蘇廣川.情緒化語音特征分析與識別的研究進(jìn)展[J].航天醫(yī)學(xué)與醫(yī)學(xué)工程,2004,17(5):77-80.
[15]林奕琳.基于語音信號的情感識別研究[D].廣州:華南理工大學(xué),2006.
[16]余 華,黃程韋,金 赟,等.基于改進(jìn)的蛙跳算法的神經(jīng)網(wǎng)絡(luò)在語音情感識別中的研究[J].信號處理,2010(9):1295-1299.
[17]Go H,Kwak K,Lee D,et al.Emotion recognition from the facial image and speech signal[C]//Proceedings of Annual Conference of SICE,2003:2890 -2895.
[18]張石清,李樂民,趙知勁.基于一種改進(jìn)的監(jiān)督流形學(xué)習(xí)算法的語音情感識別[J].電子與信息學(xué)報(bào),2010(11):2724-2729.
[19]陸捷榮.基于流形學(xué)習(xí)與D-S證據(jù)理論的語音情感識別研究[D].鎮(zhèn)江:江蘇大學(xué),2010.
[20]Bourgain J.On lipschitz embedding of finete metric spaces in hilbert space[J].Journal of Mathemetics,1985,52(1 -2):46 -52.
[21]劉 佳.語音情感識別的研究與應(yīng)用[D].杭州:浙江大學(xué),2009.
[22]Kwon O W ,Chan K,Hao J.et al.Emotion recognition by speech signals[C]//Proceedings of Eurospeech,Geneva,2003:125 -128.
[23]Lugger M,Yang B.The relevance of voice quality features in speaker independent emotion recognition[C]//IEEE International Conference on Acoustics,Speech and Signal Processing,Honolulu,HI,2007:17 -20.
[24]謝 波,陳 嶺,陳根才,等.普通話語音情感識別的特征選擇技術(shù)[J].浙江大學(xué)學(xué)報(bào):工學(xué)版,2007(11):1816-1822.
[25]王 穎.自適應(yīng)語音情感識別方法研究[D].鎮(zhèn)江:江蘇大學(xué),2009.
[26]王小佳.基于特征選擇的語音情感識別研究[D].鎮(zhèn)江:江蘇大學(xué),2007.