国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于核主分量分析和典型相關(guān)分析的語音情感識別

2014-07-25 04:29卞金洪王吉林余威風(fēng)
數(shù)據(jù)采集與處理 2014年2期
關(guān)鍵詞:識別率矢量語音

卞金洪 王吉林 余威風(fēng) 趙 力

(1.鹽城工學(xué)院信息工程學(xué)院,鹽城,224051;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京,210096)

引 言

通過語音傳遞信息是人類最重要的信息交換的方式。語音信號不僅有傳遞語義的作用,而且承載著說話人個(gè)性特征以及態(tài)度、情感等諸多信息。包含在語音信號中的情感是一種很重要的信息資源,隨著計(jì)算機(jī)多媒體技術(shù)的發(fā)展,擬人的人機(jī)交互越來越受到人們的重視,因此,語音情感識別引起了廣泛的關(guān)注[1-6],通過計(jì)算機(jī)處理分析判斷說話人的情感也成為一個(gè)重要的研究課題。然而由于情感信息的社會性、文化性,以及語音信號自身的復(fù)雜性,語音情感識別尚有許多問題有待解決,如情感建模、特征的分析和選擇、識別方法的改進(jìn)等[1-3]。

雖然關(guān)于語音情感的研究已經(jīng)越來越被重視,但相關(guān)的研究成果還是比較少,且主要集中在語音情感特征分析和情感語音合成等方面。在情感特征的識別方面,利用重回歸分析、主元素分析等多變量解析方法取得了87.1%以上的平均識別率[2-3],利用神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行情感識別的研究也在進(jìn)行,但由于情感特征學(xué)習(xí)收斂性存在問題,并沒有得到好的結(jié)果[4]。近年來,又出現(xiàn)了許多語音情感識別方面的成果和方法,如主元分析法、最大似然Bayes分類器和K最近鄰分類器、人工神經(jīng)元 網(wǎng) 絡(luò)[4-5]、隱 馬 爾 科 夫 模 型[6-7]、支 持 向 量 機(jī)[8-9]等。

核主分量分析(Kernel principal component analysis,KPCA)是一種利用核方法將主分量分析(PCA)推廣后的學(xué)習(xí)方法,它能夠使得輸入空間線性不可分的樣本在特征空間有更好的可分性。典型相關(guān)分析(Canonical correlation analysis,CCA)等價(jià)于最優(yōu)化的Fisher鑒別分析,它是分析兩組隨機(jī)變量之間相關(guān)性的一種較好的統(tǒng)計(jì)方法。本文針對生氣、歡快、中性和悲傷4種情感的語音信號,提取111個(gè)全局統(tǒng)計(jì)特征參數(shù),提出了基于KPCA和KPCA+CCA的語音情感的識別方法。通過對實(shí)驗(yàn)結(jié)果進(jìn)行比較分析,結(jié)果表明基于KPCA及KPCA+CCA的語音情感識別具有較好的識別效果。

1 語音情感特征的提取

1.1 語音情感數(shù)據(jù)庫的選取

情感語音數(shù)據(jù)庫的選取是進(jìn)行語音識別研究的前提,根據(jù)數(shù)據(jù)獲取途徑,目前國際上語音情感研究人員所用的數(shù)據(jù)按照獲取途徑大致可分為4類[9-10]:表演數(shù)據(jù)、激勵(lì)數(shù)據(jù)、啟發(fā)數(shù)據(jù)和摘引數(shù)據(jù)。本文選取的語音庫為免費(fèi)的柏林情感語音庫,其采樣頻率為16kHz,16bit量化。該語音庫共有500句情感語音信號,分別由10名專業(yè)演員(5男,5女)在不同情感狀態(tài)下(高興、憤怒、平靜、悲傷、害怕、厭煩、憎恨)朗讀10句不同文本的德語組成。本實(shí)驗(yàn)選取其中的部分情感(生氣、歡快、中性和悲傷)進(jìn)行實(shí)驗(yàn)。

1.2 語音情感特征提取

選取語音的特征對語音識別有著很大的影響,在過去的幾十年里,針對語音信號中的何種特征能有效地體現(xiàn)情感,研究者從心理學(xué)、聲學(xué)、語言學(xué)和語義等角度出發(fā),作了大量的研究。目前主要分為韻律特征,情感識別所采用的特征大多是韻律特征,如基音、強(qiáng)度、持續(xù)時(shí)間;音質(zhì)特征,如共振峰、MFCC、LPCC等,韻律特征和音質(zhì)特征并不是相互孤立的[11]。根據(jù)情感的三維模型:“激勵(lì)維(A-rousal)- 效價(jià)維(Valence)—控制維(Power)”,Tato等人指出[12],情感特征的提取不僅要考慮韻律特征參數(shù),而且要考慮語音的音質(zhì)特征參數(shù)。本文綜合采用語音的韻律和音質(zhì)特征,用于識別和建模的特征向量一般有兩種構(gòu)造方法,全局統(tǒng)計(jì)特征和動(dòng)態(tài)特征。由于動(dòng)態(tài)特征對音位信息的依賴性太強(qiáng)[10],不利于建立與文本無關(guān)的情感識別系統(tǒng),因此在本文中使用了111個(gè)全局統(tǒng)計(jì)特征,如下所示:

特征1~30:短時(shí)能量、短時(shí)幅度、短時(shí)過零率以及它們一階差分的均值、最大值、最小值、中值、方差。

特征31~46:基音及其一階、二階差分的均值、最大值、最小值、中值、方差,基音范圍。

特征47~61:第一共振峰及其一階差分,第二共振峰的均值、最大值、最小值、中值、方差。

特征62~111:MFCC倒譜系數(shù),差量倒譜系數(shù)的均值和方差。

2 基于核子空間分析的語音情感識別

2.1 核主分量分析

核方法由統(tǒng)計(jì)理論中得來,提供了一種從線性學(xué)習(xí)獲得相應(yīng)非線性學(xué)習(xí)算法的途徑。該算法的思想為利用一非線性映射,把原空間語音信號的特征數(shù)據(jù)Rd映射到一隱特征空間F中:Φ:Rd→F,x→Φ(x)在核的特征空間進(jìn)行通常的線性分析,在計(jì)算上,不需要知道具體的非線性變換函數(shù)Φ,核方法的特點(diǎn)就是利用核函數(shù)取代特征空間的內(nèi)積運(yùn)算。

常用的核函數(shù)有多項(xiàng)式核函數(shù)、徑向基核函數(shù)、Sigmoid核函數(shù)和復(fù)合核函數(shù)等,多項(xiàng)式核函數(shù)的形式為

本文選擇了2階的多項(xiàng)式核函數(shù),一是因?yàn)槎囗?xiàng)式核函數(shù)比較簡單,容易實(shí)現(xiàn);二是與其他核函數(shù)相比識別效果相差不大。根據(jù)主分量分析的原理,求解在隱特征空間F的主元,等于求解如下特征值與特征向量的問題

式中SΦ為非線性映射后的協(xié)方差矩陣。最后,原空間的數(shù)據(jù)x在wΦ上的投影為

與PCA類似,基于KPCA的情感識別同樣是將語音情感在特征向量進(jìn)行投影,根據(jù)投影矢量間的距離進(jìn)行分類。

2.2 典型相關(guān)分析(CCA)及KPCA+CCA方法

Fisher線性鑒別分析(Fisher linear discriminant analysis,F(xiàn)LDA)求解最佳鑒別矢量,使得降維后樣本特征類間散度最大且類內(nèi)散度最小,設(shè)有C個(gè)類,第i個(gè)類有ni個(gè)樣本,第i個(gè)類的第m個(gè)樣本記為xim,類間散度陣Sb,類內(nèi)散度陣Sw和總散度陣St定義為

定義Fisher準(zhǔn)則

求解最佳鑒別矢量a的問題等價(jià)于求解如下廣義特征方程的特征值問題

將所有的鑒別矢量ak構(gòu)成變換矩陣W=[a1,a2,…,aC-1],對原樣本變換可得到低維的特征矢量y,y=WTx。但當(dāng)Sw為奇異陣時(shí),無法求解式(9),可以考慮用典型相關(guān)分析轉(zhuǎn)換問題。

典型相關(guān)分析是分析兩組隨機(jī)變量的統(tǒng)計(jì)分析方法,其目的是尋找兩組隨機(jī)變量使得各自的線性組合,現(xiàn)實(shí)組合使得兩個(gè)隨機(jī)變量的相關(guān)性最大。設(shè)有兩組均值為零的隨機(jī)變量x=(c1,c2,…,ck)T和y=(d1,d2,…,dl)T,CCA 尋求矢量a1和b1使得u1=xTa1和v1=y(tǒng)Tb1的相關(guān)系數(shù)r(u1,v1)最大,并滿足var(u1)=var(v1)=1;尋找所有的矢量ai和bi使得r(ui,vi)最大,并滿足條件var(ui)=var(vi)=1和cov(ui,uj)=cov(vi,vj)=0,i≠j,利用矢量對和相關(guān)系數(shù)可分析一組變量中的某些隨機(jī)變量和另一組變量的某些隨機(jī)關(guān)系。求解矢量a和b相當(dāng)于如下

式(12)為構(gòu)造的編碼矩陣Y與樣本矩陣X,利用該矩陣估計(jì)協(xié)方差矩陣Sx,Sy,Sxy

(1)對n個(gè)情感特征的訓(xùn)練樣本進(jìn)行KPCA,得到核主分量特征;

(2)利用核主分量特征和式(12)構(gòu)成矩陣XKPCA和Y;

(3)利用式(13)估計(jì)協(xié)方差矩陣Sx,Sy,Sxy;

(5)對待識別的樣本y得到y(tǒng)KPCA,并抽取最佳鑒別特征得到y(tǒng)CCA=y(tǒng)KPCAA,利用最近鄰作為歸類,用2范數(shù)作為距離測度。

3 語音情感識別實(shí)驗(yàn)與分析

本文將用基于以下的三種分類器訓(xùn)練方法用于語音情感識別:(1)PCA (2)KPCA (3)KPCA+CCA。針對生氣、歡快、中性和悲傷4種情感,所有的識別方法用矢量的2范數(shù)作為距離測度,F(xiàn)isher鑒別信息定義如式(14),其中μk,i和σ2k,i分別是第i類樣本在第k個(gè)分量上的均值和方差,本文提出一個(gè)改進(jìn)方法是在計(jì)算距離時(shí)可以用該公式按重要性加入加權(quán)系數(shù),用K-近鄰法作為歸類的標(biāo)準(zhǔn)。

圖1 語音情感識別結(jié)果Fig.1 Results of speech emotion recognition

由圖1可以得到以下結(jié)論:(1)KPCA方法比PCA的效果要好,這是因?yàn)楹朔椒軌蚴沟途S空間的不可分的特征映射到高維空間后變得可分;(2)KPCA+CCA方法測試結(jié)果效果較好,主要原因是因?yàn)橹鞣至糠治龅乃枷胧鞘沟弥貥?gòu)后樣本的誤差最小,而KPCA+CCA主要是實(shí)現(xiàn)分類最佳;(3)在樣本較少的情況下,KPCA+CCA并沒有優(yōu)勢,在樣本較多的情況下,KPCA+CCA效果較好,主要原因還是由于樣本數(shù)少分類不夠準(zhǔn)確;(4)以上的所有算法中,最高的識別率也不超過80%,這與情感特征的選取有很大的關(guān)系,要想獲得更佳的識別效果,還需要改進(jìn)。4種情感的最高識別率如表1所示。

表1 平均識別率達(dá)到最高時(shí)4種情感的識別率Table 1 The highest average recognition rate of four emotions

從表1可以看出,3種方法對不同的情感的識別率還是有差別的,總體上來說“悲”的識別率較高,最多能夠達(dá)到100%,而其他的情感的識別率不太高,主要可能還是由于情感特征的選取存在不足,從表1依然可以看出KPCA+CCA方法相比于其他的方法有較好的效果。

圖2為3種方法對相同的5類每類15個(gè)語音訓(xùn)練樣本,抽取兩個(gè)最佳鑒別特征的散度圖,最佳鑒別特征按照式(4)計(jì)算,記為特征1和特征2,圖中不同符號代表不同的情感類別。由圖2可以看出,KPCA的最佳二維特征可分性比PCA效果要好,達(dá)到較好的聚類效果,并且經(jīng)過CCA變換后,訓(xùn)練樣本的特征變得更好區(qū)分??梢钥吹浇?jīng)過KPCA+CCA變換后,樣本的特征都集中到同一個(gè)點(diǎn),類與類之間分離,同類完全重合于一點(diǎn),達(dá)到了最理想的效果,然而在識別階段,待識別的樣本的二維特征并不是全部集中在這些點(diǎn)上,所以其識別率并不能達(dá)到100%。

圖2 每類訓(xùn)練樣本數(shù)為15時(shí)最佳二維特征的分布Fig.2 Distribution of the best two-dimensional feature when the number of training samples in each class is 15

4 結(jié)束語

本文利用3種子空間分析方法對4種語音情感進(jìn)行了識別。通過對比實(shí)驗(yàn),表明了基于核空間的識別具有更好的識別效果,證明了本文所提出的KPCA+CCA方法的有效性。對3種方法的對比實(shí)驗(yàn)同時(shí)表明,訓(xùn)練樣本多少與識別結(jié)果有很大的關(guān)系。另一方面,本文的識別率還不夠高,一是情感特征的選取問題,二是訓(xùn)練樣本的特征矢量個(gè)數(shù)的選取問題;而且本文識別的樣本數(shù)也偏少,對中性情感還沒有比較好的識別結(jié)果。在今后的研究中,要尋找更好的語音特征參數(shù)和選擇更恰當(dāng)?shù)淖R別方法,進(jìn)行樣本更加豐富的語音情感識別實(shí)驗(yàn)。

[1]Cowie R,Douglas-Cowie E,Tsapatsoulis N,et al.Emotion recognition in human-computer interaction[J].IEEE Signal Processing Magazine,2001,18(1):32-80.

[2]Scherer K R.Vocal communication of emotion:A review of research paradigms[J].Speech Communication,2003,40:227-256.

[3]金學(xué)成.基于語音信號的情感識別研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2007.

[4]Li Wu ,Zhang Yanhui,F(xiàn)u Yingzi.Speech emotion recognition in e-learning system based on affective computing[C]∥ Proc of the 3rd International Conference on Natural Computation.Washington DC :IEEE Computer Society,2007:809-813.

[5]Stibbard R M.Vocal expression of emotions in nonlaboratory speech:An investigation of the reading/leeds emotion in speech porject annotation data[D].UK:University of the Reading,2001.

[6]Nwe T L,F(xiàn)oo S W ,Silva L C D.Speech emotion recognition using hidden Markov models[J].Speech Communication,2003,41(4):603-623.

[7]張石清,趙知?jiǎng)?,戴育良,?支持向量機(jī)應(yīng)用于語音情感識別的研究[J].聲學(xué)學(xué)報(bào),2008,27(1):87-90.

Zhang Shiqing,Zhao Zhijin,Dai Yuliang,et al.A study of support vector machine for speech emotion recognition[J].Technical Acoustics,2008,27(1):87-90.

[8]Picard R W.Toward computers that recognize and respond to user emotion[J].IBM Technical Journal,2000,38(2):705-719.

[9]Zhiping Wang,Li Zhao,Cairong Zou.Support vec-tor machines for emotion recognition in Chinese speech[J].Journal of Southeast University,2003,19(4):307-310.

[10]趙力,將春輝,鄒采榮,等.語音信號中的情感特征分析和識別的研究[J].電子學(xué)報(bào),2004,32(4):606-609.

Zhao Li,Jiang Chunhui,Zou Cairong,et al.A study on emotional feature analysis and recognition in speech[J].Acta Electronica Sinica,2004,32(4):606-609.

[11]Ohala J J.Ethological theory and the expression of emotion in the voice[C]∥International Conference on Spoken Language Processing.Philadelphia,USA:[s.n.],1996:1812-1815.

[12]Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]∥ Proc IC SLP 2002.Denver,Colorado:[s.n.],2002:2029-2032.

猜你喜歡
識別率矢量語音
矢量三角形法的應(yīng)用
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
魔力語音
基于MATLAB的語音信號處理
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
對方正在輸入……
提升高速公路MTC二次抓拍車牌識別率方案研究
高速公路機(jī)電日常維護(hù)中車牌識別率分析系統(tǒng)的應(yīng)用
基于矢量最優(yōu)估計(jì)的穩(wěn)健測向方法