姚 慧,孫 穎,張雪英
(太原理工大學(xué)信息工程學(xué)院,山西太原 030024)
情感語音的非線性動(dòng)力學(xué)特征
姚 慧,孫 穎,張雪英
(太原理工大學(xué)信息工程學(xué)院,山西太原 030024)
基于語音發(fā)聲過程中的混沌特性,提出了非線性動(dòng)力學(xué)模型與情感語音信號(hào)處理相結(jié)合的方法.提取了該模型下情感語音的非線性特征:最小延遲時(shí)間、關(guān)聯(lián)維數(shù)、Kolmogorov熵、最大Lyapunov指數(shù)和Hurst指數(shù).設(shè)計(jì)情感語音識(shí)別對比實(shí)驗(yàn)以驗(yàn)證非線性特征性能.首先,選用德國柏林語音庫和自主錄制的TYUT2.0情感語音數(shù)據(jù)庫中的3種情感(高興、悲傷和憤怒)作為實(shí)驗(yàn)數(shù)據(jù)來源;其次,分別提取非線性特征、韻律特征和梅爾頻率倒譜系數(shù)特征,采用支持向量機(jī)進(jìn)行了情感識(shí)別.結(jié)果表明,非線性特征在柏林?jǐn)?shù)據(jù)庫實(shí)驗(yàn)中的識(shí)別率高于韻律特征識(shí)別率,但是略低于梅爾頻率倒譜系數(shù)特征識(shí)別率,驗(yàn)證了非線性特征是一組區(qū)分情感的有效特征;在TYUT2.0數(shù)據(jù)庫中的識(shí)別率均高于韻律特征和梅爾頻率倒譜系數(shù)特征的識(shí)別率,在語料真實(shí)度和自然度更高的TYUT2.0數(shù)據(jù)庫中識(shí)別結(jié)果相對更高,魯棒性更好.
情感語音識(shí)別;混沌特性;非線性特征;動(dòng)力學(xué)模型
情感語音識(shí)別是建立在對語音信號(hào)的產(chǎn)生機(jī)制進(jìn)行深入研究和分析的基礎(chǔ)上,提取采集到的語音信號(hào)中表達(dá)情感的特征參數(shù),并利用這些參數(shù)進(jìn)行相應(yīng)的建模和識(shí)別,從而確定語音情感狀態(tài)的技術(shù)[1].其中,情感特征提取是情感語音識(shí)別的關(guān)鍵問題之一.目前,提取的有效情感特征參數(shù)主要集中于聲學(xué)特征[1],這些特征大多是基于語音信號(hào)具有短時(shí)平穩(wěn)特性進(jìn)行線性處理得到的.而事實(shí)上,已有理論研究證明語音信號(hào)的產(chǎn)生是一個(gè)復(fù)雜的非線性過程[2].混沌理論是非線性動(dòng)力學(xué)理論的一個(gè)分支,被廣泛應(yīng)用到語音信號(hào)處理中[3-6].文獻(xiàn)[3-4]的作者多年致力于研究自然語音中的混沌特性并將其應(yīng)用于檢測阿爾茨海默病,通過提取自然語音中的分形維數(shù)特征來檢測說話人是否發(fā)聲病變;文獻(xiàn)[5]將語音的混沌特性與其他常用特征進(jìn)行多特征融合,從司機(jī)的應(yīng)答語音中提取特征用來檢測司機(jī)是否疲勞駕駛.雖然學(xué)者對語音信號(hào)的混沌特性進(jìn)行了多方面的研究,但是對情感語音方面的研究還不多見.
筆者針對語音發(fā)聲過程中表現(xiàn)出的混沌特性與情感關(guān)聯(lián)性加以研究,對情感語音信號(hào)進(jìn)行分析處理,并提取基于語音混沌特性的5種非線性特征:最小延遲時(shí)間、關(guān)聯(lián)維數(shù)、Klmogorov熵、最大Lyapunov指數(shù)和Hurst指數(shù).選用TYUT2.0數(shù)據(jù)庫和柏林語音庫兩類數(shù)據(jù)庫中的情感語句,通過對非線性特征、韻律特征和梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)特征在情感語音識(shí)別實(shí)驗(yàn)的結(jié)果對比,驗(yàn)證了非線性特征是區(qū)分情感的有效特征.
相空間重構(gòu)是TAKENS提出的一種非線性分析方法.TAKENS定理[7]指出:選取合適的延遲時(shí)間τ和嵌入維數(shù)m,就可以將一維時(shí)間序列從低維空間映射到高維空間,并且重構(gòu)的高維空間和原始空間等價(jià).根據(jù)上述定理,將情感語音信號(hào)與非線性動(dòng)力學(xué)模型相結(jié)合的過程為:對一維情感語音信號(hào)[x(1),x(2),…,x(N)],選擇合適的最小延遲時(shí)間τ和嵌入維數(shù)m兩個(gè)參數(shù),將其映射到高維空間進(jìn)行重構(gòu),得到語音信號(hào)Xi=[x(i),x(i+1),…,x(i+(m-1)×τ)],i=1,2,…,M,其中M=N-(m-1)τ,為語音總相點(diǎn)個(gè)數(shù),而實(shí)現(xiàn)將情感語音信號(hào)與非線性動(dòng)力學(xué)模型相結(jié)合[8].在高維空間里分析語音信號(hào),可以提取情感語音動(dòng)力學(xué)模型的非線性特征參數(shù),獲取代表情感差異度的非線性特征.筆者選取了5種非線性特征,分別介紹如下.
1.1最小延遲時(shí)間
已知語音信號(hào)[x(1),x(2),…,x(N)],利用互信息函數(shù)求解不同時(shí)間間隔時(shí)對應(yīng)的語音信號(hào)x(i)與x(j)互信息量.當(dāng)互信息量達(dá)到最小時(shí),兩個(gè)變量之間的相關(guān)性最小,此時(shí)對應(yīng)的時(shí)間間隔即為最小延遲時(shí)間τ.筆者選擇平均互信息法(Mutual Information,MI)[9]計(jì)算最小延遲時(shí)間τ:
其中,pi和pj分別表述序列幅值分別落在第i和第j段內(nèi)的概率,pi,j表示間隔時(shí)間為τ的序列前后兩點(diǎn)幅值分別同時(shí)落在第i和第j段內(nèi)的聯(lián)合概率.得到的互信息函數(shù)I(τ)曲線上第1個(gè)局部最小值所對應(yīng)的時(shí)刻即為最小延遲時(shí)間,它量化了兩個(gè)離散變量之間的無序性.
1.2關(guān)聯(lián)維數(shù)
關(guān)聯(lián)維數(shù)是混沌動(dòng)力學(xué)的一種非線性表征量,用來描述高維空間語音動(dòng)力學(xué)模型系統(tǒng)自相似結(jié)構(gòu),對結(jié)構(gòu)的復(fù)雜度可以給出定量的比較.系統(tǒng)結(jié)構(gòu)越復(fù)雜,對應(yīng)的關(guān)聯(lián)維數(shù)越大.筆者使用G-P算法計(jì)算關(guān)聯(lián)維數(shù).G-P算法[10]是Grassberger和Procaccia提出的計(jì)算關(guān)聯(lián)維數(shù)的方法:
其中,D(m)為關(guān)聯(lián)維數(shù);C(r,m)為關(guān)聯(lián)積分函數(shù),定義為
C(r,m)表示m維重構(gòu)空間中任意(Xi,Xj)之間的距離小于r的相點(diǎn)對占所有相點(diǎn)對之比.式(3)中m取最小嵌入維數(shù)后得到相對應(yīng)的ln C(r,m)→ln r曲線,通過對該曲線局部直線擬合即可得到關(guān)聯(lián)維數(shù).
1.3Kolmogorov熵
Kolmogorov熵(縮寫為K熵)是精確地描述時(shí)間序列分布概率混亂程度的物理量.Grassberger和Procaccia提出計(jì)算關(guān)聯(lián)維數(shù)方法的同時(shí),論證了可以用K2熵逼近K熵的思想來求得K熵.K2熵與關(guān)聯(lián)積分函數(shù)C(r,m)存在的關(guān)系為
由式(4)計(jì)算得到的K2熵就是Kolmogorov熵.
1.4最大Lyapunov指數(shù)
Lyapunov指數(shù)反映了相空間中相鄰軌道的局部收斂或者發(fā)散的平均變化率.而最大Lyapunov指數(shù)(Largest Lyapunov Exponent,LLE)λ1表示軌道收斂或者發(fā)散的快慢程度.當(dāng)λ1>0時(shí),λ1值越大,表示軌道發(fā)散的速率也越大,且混沌程度也越大.筆者采用Wolf方法[11]求得最大Lyapunov指數(shù).取相空間中初始點(diǎn)Xi,并尋找其最近鄰點(diǎn)Xi′,距離為L0.追蹤n時(shí)刻,后兩點(diǎn)之間的距離Li滿足設(shè)定值ε,則保留此點(diǎn).開始下一時(shí)刻的追蹤.當(dāng)追蹤疊加M次后,就能得到最大Lyapunov指數(shù),即
該方法相較于其他算法,具有計(jì)算快、對嵌入維m、延遲時(shí)間τ和噪聲都有很好的魯棒性等特點(diǎn).
1.5Hurst指數(shù)
Hurst指數(shù)(縮寫為H)衡量了時(shí)間序列的長期記憶性.H值的范圍為0~1.如果H>0.5,則表示時(shí)間序列具有長期自相關(guān)性,時(shí)間序列前后關(guān)聯(lián)性較大.筆者使用重標(biāo)極差分析方法[12]計(jì)算H值.重標(biāo)極差法分析是一種非參數(shù)統(tǒng)計(jì)方法,不受時(shí)間序列分布的影響.該方法是將一維情感語音信號(hào)[x(1),x(2),…,x(N)]分成M個(gè)長度相同的相鄰子序列u,計(jì)算每個(gè)子序列的累積離差zu與標(biāo)準(zhǔn)差Su.計(jì)算每個(gè)子序列的重標(biāo)極差Ru/Su,其中Ru=max zu-min zu,得到Hurst指數(shù).計(jì)算方法為
其中,b為常數(shù).通過對式(6)兩邊取對數(shù),求得H為Hurst指數(shù).當(dāng)語音信號(hào)的情感狀態(tài)不同時(shí),H變化規(guī)律也不相同.提取情感語音的Hurst指數(shù)特征可以體現(xiàn)情感變化的前后關(guān)聯(lián)性高低.
情感語音數(shù)據(jù)庫是進(jìn)行情感語音分析和情感識(shí)別的前提條件,為情感識(shí)別提供訓(xùn)練及測試語音數(shù)據(jù).為了客觀全面地評價(jià)所研究的基于語音混沌特性的非線性特征的性能,同時(shí)考慮不同語種對于情感特征識(shí)別結(jié)果的影響,選用TYUT2.0語音數(shù)據(jù)庫和柏林語音庫作為實(shí)驗(yàn)所用數(shù)據(jù)庫.
2.1TYUT2.0數(shù)據(jù)庫
TYUT2.0情感語音數(shù)據(jù)庫采用截取廣播劇的手段獲取語音,建立包括高興、驚奇、悲傷和憤怒4種情感類別的數(shù)據(jù)庫,包含語音678句,采樣率為16 k Hz.廣播劇來源于專業(yè)演員,有豐富的人物和素材,貼近生活,語言表達(dá)符合日常習(xí)慣且語音純凈度高.
2.2柏林語音庫
德國柏林語音庫(EMO-DB)[13]是由10位演員(5男5女)對7種情感(中性、生氣、害怕、高興、悲傷、厭惡、無聊)進(jìn)行模擬得到的,包含800句語料,采樣率為16 k Hz.該數(shù)據(jù)庫的語料來源豐富、表述自然.語音錄制要求演員通過回憶自身經(jīng)歷來完成情緒的表達(dá),使得語音情感真實(shí)度高.
為了驗(yàn)證基于語音混沌特性的非線性特征的有效性,設(shè)計(jì)了一組實(shí)驗(yàn).選用TYUT2.0數(shù)據(jù)庫和柏林語音庫兩類數(shù)據(jù)庫中的情感語句,提取非線性特征、韻律特征和MFCC特征,并分別在單一的語音數(shù)據(jù)庫進(jìn)行實(shí)驗(yàn).通過3組特征的識(shí)別結(jié)果對比,驗(yàn)證非線性特征的有效性.
3.1情感語音數(shù)據(jù)庫處理
對情感語音識(shí)別跨數(shù)據(jù)庫的實(shí)驗(yàn),要求訓(xùn)練和測試所包含的情緒類別一致.由于柏林語音庫中包含7種情感,而TYUT2.0數(shù)據(jù)庫中只有4種情感,因此,筆者只選用了高興、悲傷和憤怒情感語音作為實(shí)驗(yàn)數(shù)據(jù).此外,為了規(guī)避時(shí)長不同造成的影響,基于語音時(shí)長近似相同的原則,對上述兩類數(shù)據(jù)庫語句進(jìn)一步地剔除.最后得到183句TYUT2.0語音數(shù)據(jù)庫語句和215句柏林語音庫語句,用于測試和訓(xùn)練語句,如表1所示.
表1 情感語音實(shí)驗(yàn)語句
3.2情感語音預(yù)處理
提取特征參數(shù)時(shí),首先對語句進(jìn)行預(yù)處理.預(yù)處理主要包括端點(diǎn)檢測、預(yù)加重和加窗分幀處理.端點(diǎn)檢測采用基于過零率和能量雙門限的方法,預(yù)加重系數(shù)?取0.97.加窗分幀處理時(shí)采用hamming窗并設(shè)置幀長N=256,幀移為128.
3.3特征提取
語音信號(hào)經(jīng)過預(yù)處理之后,依次提取最小延遲時(shí)間、關(guān)聯(lián)維數(shù)、Kolmogorov熵、LLE和Hurst指數(shù)這5種非線性特征、韻律特征[1]和MFCC特征[1].提取非線性特征時(shí),首先利用Taken’s的相空間重構(gòu)法通過互信息法和鄰接誤差法分別得到每一幀語音信號(hào)的最小延遲時(shí)間τ和嵌入維數(shù)m兩個(gè)參數(shù);然后在重構(gòu)模型下依次提取5種非線性特征.圖1為一幀語音信號(hào)相空間重構(gòu)結(jié)構(gòu)圖.通過計(jì)算得到該幀語音信號(hào)的嵌入維數(shù)為3,最小時(shí)間延遲為4.從圖中可以看出,一維語音信號(hào)通過相空間重構(gòu)后被映射到了三維空間,擴(kuò)展成為三維結(jié)構(gòu).此外,筆者提取了語速、過零率、能量、基頻、共振峰這5種韻律特征和MFCC特征.
圖1 一幀語音相空間重構(gòu)(τ=4,m=3)
3.4構(gòu)造特征向量
特征向量構(gòu)造主要有兩種形式:靜態(tài)全局統(tǒng)計(jì)特征和動(dòng)態(tài)短時(shí)特征.由于動(dòng)態(tài)短時(shí)特征對文本信息較為依賴[14],因此本實(shí)驗(yàn)選取靜態(tài)全局統(tǒng)計(jì)特征用于實(shí)驗(yàn).識(shí)別網(wǎng)絡(luò)選用支持向量機(jī)(Support Vector Machine,SVM).構(gòu)造特征向量時(shí),首先提取上述特征及其相應(yīng)的一階差分,然后對這些特征進(jìn)行統(tǒng)計(jì)函數(shù)計(jì)算.統(tǒng)計(jì)函數(shù)包括:偏度(skewness)、峰度(kurtosis)、均值(mean)、方差(std)和中值(median).因此,非線性特征、韻律特征和MFCC特征各自構(gòu)成的特征向量分別是50維、48維和60維.
分別對TYUT2.0數(shù)據(jù)庫和柏林語音庫提取非線性特征、韻律特征和MFCC特征,使用支持向量機(jī)作為識(shí)別網(wǎng)絡(luò).識(shí)別網(wǎng)絡(luò)支持向量機(jī)參數(shù)尋優(yōu)采用十倍交叉驗(yàn)證的方法.將測試樣本輸入訓(xùn)練好的支持向量機(jī)得到識(shí)別結(jié)果.表2為3類特征的識(shí)別結(jié)果.
從表2可以得出:
(1)針對柏林語音庫的情感語音識(shí)別,從整體的平均識(shí)別結(jié)果來看,非線性特征、韻律特征和MFCC特征在柏林語音庫中的平均識(shí)別率依次為87.5%、84.5%和88.73%.可以得出,非線性特征表現(xiàn)出的性能普遍優(yōu)于韻律特征,平均識(shí)別率高出韻律特征3%.但是相較于MFCC特征,非線性特征識(shí)別結(jié)果略低,平均識(shí)別率比MFCC特征低0.8%.在“憤怒”情感識(shí)別中,非線性特征的識(shí)別結(jié)果反而高出MFCC.圖2更加直觀地描述了這3類特征在柏林?jǐn)?shù)據(jù)庫中針對不同情感的識(shí)別結(jié)果.
表2 3類特征在單獨(dú)語音庫下的識(shí)別結(jié)果%
(2)針對TYUT2.0語音庫的情感語音識(shí)別,非線性特征表現(xiàn)出的優(yōu)勢較為明顯.從平均識(shí)別結(jié)果來看,非線性特征的識(shí)別率均高出了韻律特征和MFCC的識(shí)別率.非線性特征的平均識(shí)別率為64.41%,分別高出MFCC特征的平均識(shí)別率1.7%和韻律特征的平均識(shí)別率8%,但是3類特征在TYUT2.0的識(shí)別率整體低于在柏林語音庫的識(shí)別率.這與數(shù)據(jù)庫建庫方式的不同有關(guān)系.柏林語音庫是基于表演錄制型語音庫,而TYUT2.0語音庫是以截取廣播劇的方式建立的,屬于摘引型數(shù)據(jù)庫.除此之外,柏林語音庫是定量人員的語音錄制,而TYUT2.0語音庫所截取的語音片段來自于不定量人員的表達(dá).所以,TYUT2.0語音庫相比較而言情感真實(shí)度比表演型數(shù)據(jù)更高,表述方式更貼近現(xiàn)實(shí)生活中的語音.雖然兩類數(shù)據(jù)庫整體識(shí)別率有差距,但是3類特征在兩類數(shù)據(jù)庫上表現(xiàn)出的趨勢是大致相同的.圖3更加直觀地描述了3類特征在TYUT2.0數(shù)據(jù)庫中針對不同情感的識(shí)別結(jié)果.
圖2 3類特征在EMO-DB數(shù)據(jù)庫下識(shí)別結(jié)果比較
圖3 3類特征在TUYUT2.0數(shù)據(jù)庫下識(shí)別結(jié)果比較
圖4 非線性特征在兩類數(shù)據(jù)庫的結(jié)果對比
(3)圖4單獨(dú)描述了非線性特征在兩類數(shù)據(jù)庫下的實(shí)驗(yàn)結(jié)果.在“高興”情感識(shí)別中,非線性特征在TYUT2.0數(shù)據(jù)庫中的識(shí)別結(jié)果高出柏林語音庫的識(shí)別結(jié)果.此外,在TYUT2.0數(shù)據(jù)庫中的3種情感識(shí)別的波動(dòng)趨勢較柏林語音庫的趨勢更加平穩(wěn)一些,說明非線性特征對實(shí)際語音的情感識(shí)別魯棒性較好.
綜上可得,非線性特征相較于韻律特征和MFCC特征具有一定的優(yōu)勢,得到了較為理想的識(shí)別結(jié)果.因此,驗(yàn)證了非線性特征是區(qū)分情感的有效特征.此外,非線性特征在TYUT2.0語音庫中表現(xiàn)出的優(yōu)勢更明顯,說明該特征對情感語音識(shí)別具有更為實(shí)際的意義.
從語音發(fā)聲過程中的混沌特性出發(fā),將非線性動(dòng)力學(xué)模型與情感語音信號(hào)處理相結(jié)合,提出了該模型下的情感語音非線性特征.與常用的韻律特征和MFCC特征識(shí)別性能相比,非線性特征具有較好的識(shí)別率和可靠性.實(shí)驗(yàn)結(jié)果說明,非線性特征更適合于語音真實(shí)度和自然度更好的應(yīng)用環(huán)境.
[1]韓文靜,李海峰,阮華斌,等.語音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.HAN Wenjing,LI Haifeng,RUAN Huabin,et al.Review on Speech Emotion Recognition[J].Journal of Software,2014,25(1):37-50.
[2]BANBROOK M,MCLAUGHLIN S,MANN I.Speech Characterization and Synthesis by Nonlinear Methods[J].IEEE Transactions on Speech and Audio Processing,1999,7(1):1-17.
[3]LóPEZ-DE-IPI?A K,SOLé-CASALS J,EGUIRAUN H,et al.Feature Selection for Spontaneous Speech Analysis to Aid in Alzheimer’s Disease Diagnosis:a Fractal Dimension Approach[J].Computer Speech and Language,2015,30 (1):43-60.
[4]LóPEZ-DE-IPI?A K,ALONSO-HERNáNDEZ J B,SOLé-CASALS J,et al.Feature Selection for Automatic Analysis of Emotional Response Based on Nonlinear Speech Modeling Suitable for Diagnosis of Alzheimer’s Disease[J]. Neurocomputing,2015,150:392-401.
[5]李響,譚南林.一種應(yīng)用語音多特征檢測駕駛疲勞的方法[J].儀器儀表學(xué)報(bào),2013,34(10):2231-2237. LI Xiang,TAN Nanlin.Method of Applying Speech Multi-features to Detect Driver Fatigue[J].Chinese Journal of Scientific Instrument,2013,34(10):2231-2237.
[6]GóMEZ-GARCíA J A,GODINO-LLORENTE J I,CASTELLANOS-DOMINGUEZ G.Non Uniform Embedding Based on Relevance Analysis with Reduced Computational Complexity:Application to the Detection of Pathologies from Biosignal Recording[J].Neurocomputing,2014,132:148-158.
[7]TAKENS F.Detecting Strange Attractors in Turbulence[M].Berlin:Springer,1981:366-381.
[8]HENRIQUEZ P,ALONSO J B,FERRER M A,et al.Application of Nonlinear Dynamics Characterization to Emotional Speech[C]//5th International Conference on Nonlinear Speech Processing.Heidelberg:Springer Verlag,2014: 126-135.
[9]KANTZ H,SCHREIBER T.Nonlinear Time Series Analysis[M].Cambridge:Cambridge University Press,2004: 30-150.
[10]趙貴兵,石炎福.從混沌時(shí)間序列同時(shí)計(jì)算關(guān)聯(lián)維和Kolmogorov熵[J].計(jì)算物理,1999,16(3):310-315. ZHAO Guibing,SHI Yanfu.Computing Fractal Dimension and the Kolmogorov Entropy from Chaotic Time Series[J]. Chinese Journal of Computational Physics,1999,16(3):310-315.
[11]WOLF A,SWIFT J B,SWINNEY H L,et al.Determining Lyapunov Exponents from a Time Series[J].Physica,1985,16D(3):285-317.
[12]HURST H E,BLACK R P,SIMAIKA Y M.Long-term Storage:an Experimental Study[J].Journal of the Royal Statistical Society,1965,129(4):591-593.
[13]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A Database of German Emotional Speech[C]//9th European Conference on Speech Communications and Technology.Lisbon:ISCA,2005:1517-1520.
[14]趙力,黃程韋.實(shí)用語音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014,29(2):157-170. ZHAO Li,HUANG Chengwei.Key Technologies in Practical Speech Emotion Recognition[J].Journal of Data Acquisition and Processing,2014,29(2):157-170.
(編輯:郭 華)
Research on nonlinear dynamics features of emotional speech
YAO Hui,SUN Ying,ZHANG Xueying
(College of Information Engineering,Taiyuan Univ.of Technology,Taiyuan 030024,China)
The application of nonlinear measures based on the chaotic characteristics of emotional speech is proposed.Nonlinear features such as minimum delay time,dimension correlation,Kolmogorov entropy,Lyapunov exponent and Hurst exponent are extracted from the emotional speech signal.The performance of nonlinear features is verified by the comparisons of recognition rates of different features(nonlinear characteristics,prosodic features and MFCC features).First,the Berlin emotional speech database and TYUT2.0 emotional speech database are chosen as the corpus independently,both covering three emotional classifications(anger,happiness and fear).The effectiveness of the nonlinear characteristics is tested on the Support Vector Machine Network.The result shows that the performance of nonlinear features outperforms that of prosodic features on the Berlin emotional speech database and that of prosodic features and MFCC on TYUT2.0 emotional speech database.In addition,nonlinear features have obvious advantage in detecting more natural emotional speech and better robustness.
emotional speech recognition;chaos theory;nonlinear features;dynamic model
TN912.34
A
1001-2400(2016)05-0167-06
10.3969/j.issn.1001-2400.2016.05.029
2015-06-15 網(wǎng)絡(luò)出版時(shí)間:2015-12-10
國家自然科學(xué)基金資助項(xiàng)目(61371193);山西省青年科技研究基金資助項(xiàng)目(2013021016-2);山西省回國留學(xué)人員科研資助項(xiàng)目(2013-034)
姚 慧(1991-),女,太原理工大學(xué)碩士研究生,E-mail:5366970@qq.com.
孫 穎(1981-),女,博士,E-mail:tyutsy@163.com.
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/61.1076.TN.20151210.1529.058.html