葉吉祥,陳 鑫
長沙理工大學(xué) 計算機與通信工程學(xué)院,長沙 410114
相空間重構(gòu)在語音情感識別中的研究
葉吉祥,陳 鑫
長沙理工大學(xué) 計算機與通信工程學(xué)院,長沙 410114
語音情感識別是情感計算的重要組成部分,是基于語音信號產(chǎn)生機理的基礎(chǔ)上,通過準確提取語音信號中的情感特征參數(shù),并利用這些參數(shù)進行模式識別從而確定被測試對象本身的情感狀態(tài)的一門新興技術(shù)。它反映的是計算機通過獲取的信息判斷操作者或?qū)υ捳叩那楦袪顟B(tài)的能力[1]。
有效的情感特征選擇和提取是語音情感識別過程中的重要步驟,目前傳統(tǒng)的情感特征參數(shù),如基頻、能量、速率、倒譜系數(shù)[2]以及基于Teager的能量算子[3]等都能在一定的范圍內(nèi)區(qū)分某些情感狀態(tài),然而人類發(fā)聲系統(tǒng)在產(chǎn)生不同語音時的生理結(jié)構(gòu)以及激勵方式都不盡相同,因此語音信號的產(chǎn)生實則是一個相當(dāng)復(fù)雜的非平穩(wěn)、非線性的過程,其中存在一定的混沌性[4],而傳統(tǒng)的語音特征大都是建立于確定的線性系統(tǒng)理論而提出的,缺少對語音信號本身混沌機制的表征。
相空間重構(gòu)是從混沌時間序列中提取有效信息的重要手段,已經(jīng)逐漸應(yīng)用于生活中的諸多領(lǐng)域[5-7],文獻[8]通過主分量分析方法對重構(gòu)后的語音數(shù)據(jù)進行增強處理,本文在現(xiàn)有的研究成果基礎(chǔ)上,將相空間重構(gòu)理論進一步引入到語音情感識別中,分別將喜悅、憤怒、悲傷、平靜四種基本情感的語音信號進行相空間重構(gòu)處理,并提取了Kolmogorov熵和關(guān)聯(lián)維作為新的語音情感特征參數(shù),以此來分析不同語音情感間的差異。情感識別的實驗數(shù)據(jù)顯示,新參數(shù)的引入,提高了情感識別的準確性和針對性,為傳統(tǒng)的語音情感識別性能的改進提供了新的參考。
關(guān)聯(lián)維反映的是一個集合占有的空間的密集程度,Kolmogorov熵則能較好地反應(yīng)系統(tǒng)本身信息產(chǎn)生的頻率和信息損失速率。相空間重構(gòu)是非線性動力學(xué)分析的第一步,目前常用的是Takens等提出的坐標延遲重構(gòu)法[9],該方法的本質(zhì)在于通過一維的時間序列{x(n)}的不同時間延遲τ來構(gòu)造m維的相空間矢量:
該方法中嵌入維m和延遲時間τ是兩個關(guān)鍵的技術(shù)參數(shù),實際應(yīng)用中的時間序列都是有噪的有限長的序列,參數(shù)不能任意取值,否則會對重構(gòu)的相空間的品質(zhì)產(chǎn)生重要影響。
2.1 相空間重構(gòu)時延遲時間τ的確定
延遲時間τ的選取直接關(guān)系到重構(gòu)后的相空間中吸引子的質(zhì)量,如果太小,則矢量 x(i)中的任意兩分量在數(shù)值上會十分接近,導(dǎo)致辨識度不高;如果τ的取值過大,則兩坐標又完全獨立,吸引子的軌跡在兩方向上的投影毫無相關(guān)性可言,基于此,本文引入信息理論中的互信息的概念求取延遲時間。定義:
s代表語音信號時間序列x(t),q代表延遲時間序列x(t+τ),根據(jù)互信息的定義,有:
其中,I(Q,S)單位為比特/消息,Psq(si,qi)為si和qi聯(lián)合分布概率。顯然用互相關(guān)的概念將原始序列和延遲后的時間序列聯(lián)系之后,I(Q,S)則是與延遲時間τ有關(guān)的函數(shù),它的大小可以表征在確定序列 x(t)的前提下,x(t+τ)的預(yù)測情況。顯然當(dāng)其值為零時,表示延遲序列完全不可以預(yù)測,即二者毫無關(guān)系。而其值取最小值時,則表示x(t)和x(t+τ)最大可能上的不相關(guān),因此重構(gòu)時,使用I(Q,S)的第一個極小值作為最優(yōu)的延遲時間。
2.2 關(guān)聯(lián)維和Kolmogorov熵測定方法
本文結(jié)合G-P算法[10]求取語音信號的Kolmogorov熵和關(guān)聯(lián)維,假定已經(jīng)測出的如下一組實驗數(shù)據(jù)(時間序列)為:s1,s2,…,si,…,其中si是第i時刻測試的值。
步驟1把實驗測試到的數(shù)據(jù)進行分組,例如,取m= 10為一組,即:S1S2…S10為第一組,記為 y1,以此類推,繼續(xù)劃分下去可以得到 y1y2…
現(xiàn)在將分組后的任意兩者之間的差值的絕對值記為ri,j=|yi-yj|,yi和 yj分別表示第i和第 j組的數(shù)據(jù)。
步驟2假設(shè)取某定值r為參考標準,與在步驟1中求得的一系列r作比對,半徑大于r的ri,j的個數(shù)記為Nup(r),ri,j的總數(shù)目記為N(r),設(shè)參數(shù)C(r)=Nup(r)/N(r),采用關(guān)聯(lián)積分函數(shù)的表達方式:
Np是由時間序列重構(gòu)的相空間矢量個數(shù),θ(x)為Heaviside函數(shù)。
當(dāng)r足夠小,嵌入維m也趨于穩(wěn)定時Kolmogorov熵的定義為:
實驗所使用的樣本數(shù)據(jù)來源于北航情感語音數(shù)據(jù)庫(http://www.ee.buaa.edu.cn/oldeeweb/html/zykj/teachers/mx/news/22.html),該數(shù)據(jù)庫是由15人錄制(7男8女),該數(shù)據(jù)庫主要包含了7種情感和20句錄音腳本,其數(shù)據(jù)庫的錄制步驟參閱了國家相關(guān)的發(fā)明專利,具有較好的情感自由度,沒有包含明顯的特定情感的傾向,根據(jù)情感空間理論,喜悅、憤怒、悲傷和平靜分別在評估二維坐標系中的四個象限中[11],因此本文選取這四種有代表性的情感進行相關(guān)的識別實驗,并從每種情感中選取40句作為訓(xùn)練樣本,30句作為測試樣本進行相關(guān)的識別實驗。
4.1 語音信號的相空間重構(gòu)分析
識別實驗是在Matlab仿真平臺上進行的。按照相空間重構(gòu)的構(gòu)建方法,先對語音信號進行相關(guān)的預(yù)處理,然后利用互信息的相關(guān)理論求取延遲時間τ。然后用已求的τ對語音信號時間序列進行關(guān)聯(lián)維和Kolmogorov熵的提取。
圖1是根據(jù)互信息的概念求取語音信號進行相空間重構(gòu)時獲得較為合適的延遲時間,從圖中可看出當(dāng)延遲時間大于10后基本趨于穩(wěn)定,說明能夠把語音信號作為混沌信號進行分析并進行相關(guān)的相空間重構(gòu)。圖2是根據(jù)GP算法計算的關(guān)聯(lián)積分雙對數(shù)曲線擬合圖,圖3是根據(jù)嵌入維數(shù)m不斷增加后關(guān)聯(lián)維的分布圖,從圖中看到當(dāng)m增加到一定值,關(guān)聯(lián)維也趨于一個穩(wěn)定值,這說明語音信號本身作為混沌信號進行處理時,是可以提取相對應(yīng)的混沌特性參數(shù)的。因此僅僅用線性特征來衡量語音信號顯然是不全面的,最后得到的Kolmogorov熵分布圖如圖4所示。
圖1 互信息法求延遲時間τ
圖2 lnC(r)~lnC(r,m)關(guān)系圖
圖3 關(guān)聯(lián)維~m關(guān)系圖
圖4 Kolmogorov熵~m關(guān)系圖
4.2 語音信號情感狀態(tài)的相空間重構(gòu)分析
從以上分析可知,語音信號是能夠進行重構(gòu)并進行相關(guān)混沌特征參數(shù)提取的,現(xiàn)研究相空間重構(gòu)后的語音信號在不同語音情感上的分布特質(zhì)。分別對情感語音數(shù)據(jù)庫中20句話在不同情感狀態(tài)下的語音信號進行相空間重構(gòu),并提取相對應(yīng)的關(guān)聯(lián)維和Kolmogorov熵。通過比較實驗發(fā)現(xiàn):(1)同類情感狀態(tài)下的不同語句提取出的混沌特征參數(shù)基本類似。(2)20句話中的每一句話在不同情感狀態(tài)下得出的相關(guān)參數(shù)基本相同?;诖耍梢韵葘ν痪湓捲诓煌楦袪顟B(tài)下表現(xiàn)出的特征參數(shù)進行研究分析。
圖5為語音庫中的某一語句(錄音語句編號8,語句內(nèi)容:AC米蘭贏球了)在不同情感狀態(tài)下的關(guān)聯(lián)維的結(jié)果分布圖。圖中對關(guān)聯(lián)維進行比較發(fā)現(xiàn),憤怒的變化范圍較大,說明該狀態(tài)下的語音信號在單位體積范圍內(nèi)含有的吸引子密集,混沌特性強烈。悲傷和平靜狀態(tài)下關(guān)聯(lián)維區(qū)域穩(wěn)定的速率較快,說明這兩種信號的混沌特性最弱。四類情感的關(guān)聯(lián)維曲線彼此分離,且具有較明顯差異,說明這四類情感在含有吸引子的混沌細節(jié)上具有一定差異。
圖5 同一句話不同情感狀態(tài)下關(guān)聯(lián)維的分布圖
最后得到不同情感狀態(tài)下Kolmogorov熵(以下簡稱K熵)的分布曲線如圖6所示,從圖中可以看出,同樣的語句在采用不同情感表達時,K熵的值呈現(xiàn)明顯的不同,K熵是用來度量信號損失速率和產(chǎn)生信號頻率的一個特征參數(shù)。憤怒和悲傷狀態(tài)下的信號的熵值較大,說明在語句本身相同的情況下,這兩種信號產(chǎn)生的過程較為復(fù)雜,且波動強烈,信息損失率較大,信號產(chǎn)生的頻率不連貫。喜悅和平靜狀態(tài)下熵值偏小,說明信號產(chǎn)生相對連續(xù),這與日常生活中的生活經(jīng)驗相契合。
圖6 同一句話在不同情感狀態(tài)下的K熵分布圖
通過以上分析比較發(fā)現(xiàn),混沌特征參數(shù)的差異與語音情感類別的轉(zhuǎn)換有著較強的聯(lián)系,也的確可以反映不同語音情感產(chǎn)生的非線性機理,因此可以作為語音情感識別新的重要特征參數(shù)。
5.1 實驗步驟與方法
為了研究新的混沌特征參數(shù)對語音情感識別的效果影響,同時提取了傳統(tǒng)的語音情感特征(韻律特征、音質(zhì)特征等),如表1所示。
表1 語音情感傳統(tǒng)特征和相空間重構(gòu)特征
情感識別的分類器采用基于統(tǒng)計學(xué)習(xí)理論的支持向量機技術(shù)[12](SVM),使用“一對一”的多類模式識別算法,選用的徑向基函數(shù)為:
5.2 實驗結(jié)論及分析
為了檢測新的特征參數(shù)對語音情感識別的效果,進行相關(guān)的對比實驗,實驗根據(jù)特征選取的組成不同設(shè)計了以下三種方案:
方案1單獨使用相空間重構(gòu)特征關(guān)聯(lián)維和K熵進行識別。
方案2單獨使用傳統(tǒng)的語音特征參數(shù)(基頻、短時能量、過零率等)進行識別。
方案3結(jié)合傳統(tǒng)聲學(xué)特征和相空間重構(gòu)特征參數(shù)進行識別。
三種不同方案得到識別率的結(jié)果如表2和表3所示。
表2 采用關(guān)聯(lián)維和Kolmogorov熵時各種情感狀態(tài)的識別率 (%)
表3 采用不同結(jié)合方案的特征參數(shù)時各種情感狀態(tài)的識別率 (%)
從表2、表3中可以看到,相空間重構(gòu)后的混沌特征參數(shù)對識別憤怒、喜悅的識別效果都較為滿意,尤其是憤怒狀態(tài),識別率達到了88.6%,比僅僅使用聲學(xué)特征進行判斷高了15.3個百分點,但悲傷和平靜兩種情感的識別率偏低,這是因為這兩種情感表征出的混沌特征較為相似,因此在識別的過程中,部分悲傷樣本被誤判為平靜。但同時也可以看出,混沌特征參數(shù)對區(qū)分感情激烈的狀態(tài)(憤怒和喜悅)有較好的區(qū)分度。
由表3可看出,單獨使用傳統(tǒng)聲學(xué)特征參數(shù)平均識別率只有72.5%,使用混沌特征參數(shù)后,識別率有了小幅提高,說明了語音信號在一定程度上存在著混沌機制,但暴露出了僅僅依靠混沌特征不能較好區(qū)分某些情感狀態(tài)的弊端。例如對平靜和悲傷兩種情感進行了一些錯誤的識別,方案3則將傳統(tǒng)聲學(xué)特征和兩個混沌特征參數(shù)進行較好融合的工作,平均識別率達到了84.8%,與上兩者方案相比,識別率分別提高了12.3%和9.3%。也說明了相對于用單一混沌特征參數(shù)進行識別,將二者結(jié)合能更好地刻畫語音信號的非線性產(chǎn)生機理,且能夠?qū)⑷菀谆煜那楦羞M行較好的區(qū)分。最后將語音混沌特征參數(shù)與傳統(tǒng)語音聲學(xué)特征進行相互融合和補充,更能有效完整地刻畫語音信號含有的情感信息的本質(zhì)特征。
本文設(shè)計了一種基于相空間重構(gòu)理論的語音情感識別方法,提出用關(guān)聯(lián)維和Kolmogorov熵來表征語音情感特征的新思路,通過對語音信號相空間重構(gòu)來更為有效而全面地衡量情感狀態(tài),通過SVM對提取的特征進行訓(xùn)練和識別表明,重構(gòu)后的語音信號提取的特征參數(shù),有效地提高了情感識別率。實驗證明,新的特征參數(shù)針對憤怒和喜悅兩種不易區(qū)分的情感狀態(tài)有明顯的識別效果,較好地解決了其他參數(shù)將其混淆的狀況。今后將考慮在關(guān)聯(lián)維和Kolmogorov熵基礎(chǔ)上,更為詳細地研究重構(gòu)后的語音信號,以期許找尋針對不同情感更為有區(qū)分度的特征參數(shù)。
[1]林奕琳,韋崗,楊康才.語音情感識別的研究進展[J].電路與系統(tǒng)學(xué)報,2007,12(1):90-96.
[2]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識別[J].清華大學(xué)學(xué)報,2006,46(1):86-89.
[3]Gao H,Chen S,Su G.Emotion classification of Mandarin speech based on TEO nonlinear features[C]//Proceedings of the 8th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing,2007.
[4]Thompson C,Mulpur A,Mehta V.Transition to chaos in acoustically driven flow(acoustic stream)[J].The Journal of the Acoustical Society of America,1991,90.
[5]Sun Dan,Meng Jun,Guan Yufan,et al.Inverter faults diagnosis in PMSM DTC drive using reconstructive phase space and fuzzy clustering[J].Proceedings of the CSEE,2007,27(16):49-53.
[6]Chiang T C.Times series dynamics of short-time interest:evidence from eurocurrency markets[J].Journal of Intl Financial Markets,Institution and Money,1997(7):201-220.
[7]李銀山,李欣業(yè),劉波.分岔混沌非線性振動及其在工程中的應(yīng)用[J].河北工業(yè)大學(xué)學(xué)報,2004,33(2):96-100.
[8]許春卿.基于相空間重構(gòu)的語音增強研究[D].天津:天津大學(xué),2007.
[9]Takens F.Dynamical systems and turbulence[C]//Rand D A,Young L S.Lecture Notes in Mathematics.Berlin:Springer,1981,898:366-381.
[10]Grassberger P.Characterization of strange attractor[J].Physical Review Letters,1983,50(5):346-349.
[11]Russell J A.A circumflex model of affect[J].Personality and Social Psychology,1980,39:1167-1178.
[12]LIBSVM:a library for support vector machines[EB/OL]. [2012-09-20].http://www.csie.ntu.edu.tw/~cjlin/libsvm/index.html.
YE Jixiang,CHEN Xin
College of Computer and Communication Engineering,Changsha University of Science and Technology,Changsha 410114,China
In order to express the sound emotion state totally,make up the inadequate of emotional conventional linear argument at depicting different types of character sentiments,this paper takes the phase space reconstruction theory into the sound emotional identification,by analyzing chaotic features on the different sound emotional states,proposes correlation dimension and Kolmogorov entropy as emotional characteristic parameters,combines with traditional voice acoustic features and uses Support Vector Machine(SVM)for speech emotion recognition.The results show that recognition accuracy is improved through using chaotic characteristic parameters,providing a new research approach for speech emotion recognition.
phase space reconstruction;Kolmogorov entropy;correlation dimension;emotion recognition
為了更為全面地表征語音情感狀態(tài),彌補線性情感特征參數(shù)在刻畫不同情感類型上的不足,將相空間重構(gòu)理論引入語音情感識別中來,通過分析不同情感狀態(tài)下的混沌特征,提取Kolmogorov熵和關(guān)聯(lián)維作為新的情感特征參數(shù),并結(jié)合傳統(tǒng)語音特征使用支持向量機(SVM)進行語音情感識別。實驗結(jié)果表明,通過引入混沌參數(shù),與傳統(tǒng)物理特征進行識別的方案相比,準確率有了一定的提高,為語音情感的識別提供了一個新的研究途徑。
相空間重構(gòu);Kolmogorov熵;關(guān)聯(lián)維;情感識別
A
TP391
10.3778/j.issn.1002-8331.1302-0053
YE Jixiang,CHEN Xin.Speech emotion recognition based on phase space reconstruction.Computer Engineering and Applications,2014,50(24):218-221.
湖南省自然科學(xué)基金重點項目(No.10jj2050)。
葉吉祥(1963—),男,博士,教授,主要研究方向:人工智能、語音情感計算;陳鑫(1988—),男,碩士研究生,主要研究方向:語音情感識別。E-mail:huyebowen@163.com
2013-02-06
2013-04-09
1002-8331(2014)24-0218-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-05-21,http∶//www.cnki.net/kcms/detail/11.2127.TP.20130521.1030.011.html