孫凌云,何博偉,劉 征,楊智淵
(1.浙江大學(xué) 現(xiàn)代工業(yè)設(shè)計(jì)研究所,浙江 杭州310027;2.中國(guó)美術(shù)學(xué)院 設(shè)計(jì)藝術(shù)學(xué)院,浙江 杭州310024)
語(yǔ)音是用來(lái)表示語(yǔ)言的聲音符號(hào),是人類(lèi)相互交流、傳遞情感的重要媒介之一.語(yǔ)音情感識(shí)別是情感計(jì)算領(lǐng)域的重要研究方向,其目標(biāo)是通過(guò)語(yǔ)音信號(hào)識(shí)別說(shuō)話者的情感狀態(tài),最終實(shí)現(xiàn)自然、友好和生動(dòng)的人機(jī)交互.語(yǔ)音情感識(shí)別技術(shù)可以用于交互式教學(xué)、智能車(chē)載系統(tǒng)以及智能家電等諸多領(lǐng)域,如:Schuller等[1]研發(fā)的在線電影和計(jì)算機(jī)教程應(yīng)用程序中,系統(tǒng)根據(jù)檢測(cè)到的情感信息對(duì)用戶做出響應(yīng);Jones等[2]將語(yǔ)音情感識(shí)別技術(shù)用于車(chē)載系統(tǒng),合成與駕駛?cè)饲楦衅ヅ涞奶崾菊Z(yǔ)音以增強(qiáng)駕駛體驗(yàn).使用語(yǔ)音特征數(shù)據(jù)訓(xùn)練分類(lèi)器是目前語(yǔ)音情感識(shí)別系統(tǒng)的主要做法.語(yǔ)音特征有韻律學(xué)特征、基于譜的特征和音質(zhì)特征3大類(lèi)[3],通常包括基頻、能量、時(shí)長(zhǎng)以及頻譜系數(shù)等.
提取語(yǔ)音特征后,語(yǔ)音情感識(shí)別任務(wù)一般通過(guò)模式識(shí)別分類(lèi)器解決.常用的模式識(shí)別算法包括支持向量機(jī)(support vector machine,SVM)[4]、人工神經(jīng)網(wǎng)絡(luò)(artificial neutral network,ANN)[5]、隱馬爾可夫模型(hidden Markov model,HMM)[6-7]、高 斯 混 合 模 型 (Gaussian mixture model,GMM)[8]、k-近鄰(k-nearest neighbor,k-NN)[9]以及Boosting[10]等.每種分類(lèi)器都有其特性,如:基于k-NN 的分類(lèi)器由于其非參數(shù)化的特點(diǎn),分類(lèi)器計(jì)算簡(jiǎn)單、易實(shí)現(xiàn);基于SVM 的分類(lèi)器需要相對(duì)較長(zhǎng)的訓(xùn)練時(shí)間,但是學(xué)習(xí)后泛化能力較好,對(duì)于處理小樣本數(shù)據(jù)表現(xiàn)出較好的性能.不同分類(lèi)器在不同語(yǔ)料庫(kù)和語(yǔ)音特征設(shè)定下的性能存在差異,因此有研究混合使用不同的分類(lèi)器,結(jié)合不同分類(lèi)器的特性以提高最終的識(shí)別準(zhǔn)確率及識(shí)別魯棒性.黃永明等[11]使用GMM 和SVM 構(gòu)造層疊式識(shí)別結(jié)構(gòu),分別訓(xùn)練產(chǎn)生和判別階段的識(shí)別模型,獲得了最高81.5%的識(shí)別準(zhǔn)確率.蔣丹寧等[12]利用概率神經(jīng)網(wǎng)絡(luò)(probabilistic neural network,PNN)和HMM分別對(duì)統(tǒng)計(jì)、時(shí)序特征處理并融合識(shí)別結(jié)果,在特征融合后,識(shí)別準(zhǔn)確率得到有效提高.
人們對(duì)語(yǔ)音情感的描述是基于模糊認(rèn)知的一種主觀描述與感性認(rèn)知,是對(duì)模糊現(xiàn)象的描述.上述大多數(shù)分類(lèi)器進(jìn)行分類(lèi)工作時(shí),往往并未考慮情感表達(dá)模糊概念的認(rèn)知過(guò)程,例如:SVM 分類(lèi)器著眼于在高維空間精確劃分2種情感對(duì)應(yīng)語(yǔ)音特征數(shù)據(jù)的界限;ANN 分類(lèi)器的隱含層結(jié)構(gòu)通過(guò)學(xué)習(xí)數(shù)據(jù)的分類(lèi)規(guī)則進(jìn)行分類(lèi).
語(yǔ)義細(xì)胞理論由Tang等[13]提出,其基礎(chǔ)是模糊計(jì)算和原型理論,主要思想如下:概念并非由形式規(guī)則或映射來(lái)表示,而是由其原型來(lái)表示,概念范疇則基于同原型的相似性來(lái)判定.語(yǔ)義細(xì)胞理論已被應(yīng)用于預(yù)測(cè)Mackey-Glass時(shí)間序列以及太陽(yáng)黑子問(wèn)題,其性能優(yōu)于Kim&Kim 和自回歸模型算法[14].語(yǔ)義細(xì)胞具有透明的認(rèn)知結(jié)構(gòu),符合人類(lèi)學(xué)習(xí)概念的認(rèn)知過(guò)程,有堅(jiān)實(shí)的認(rèn)知心理學(xué)基礎(chǔ)與嚴(yán)格的數(shù)學(xué)定義,具備描述模糊概念的先天優(yōu)勢(shì).語(yǔ)音情感識(shí)別是模糊概念領(lǐng)域中的典型問(wèn)題,語(yǔ)音中的情感分類(lèi)(如:憤怒、驚奇)是一種模糊概念,難以憑借具體規(guī)則進(jìn)行界定.而通過(guò)原型表達(dá)概念的語(yǔ)義細(xì)胞由于其不依賴具體分類(lèi)規(guī)則的特點(diǎn),適用于語(yǔ)音情感識(shí)別.
本文提出基于語(yǔ)義細(xì)胞的語(yǔ)音情感識(shí)別算法,使用語(yǔ)音情感特征數(shù)據(jù)訓(xùn)練語(yǔ)義細(xì)胞模型作為分類(lèi)器,并與k-NN、GMM 以及SVM 算法進(jìn)行比較.
一個(gè)語(yǔ)義細(xì)胞模型L 是一個(gè)三元組<P,d,δ>.其中,P 為概念的原型集合(prototypes);d 為概念所在論域Ω 上的一個(gè)距離函數(shù),用于刻畫(huà)語(yǔ)義細(xì)胞的半徑或邊界;δ為正實(shí)數(shù)域R+上的一個(gè)概率密度函數(shù),用于刻畫(huà)語(yǔ)義細(xì)胞半徑的密度分布.直觀上來(lái)看,一個(gè)語(yǔ)義細(xì)胞模型L 的認(rèn)知結(jié)構(gòu)可以概括為一個(gè)語(yǔ)義細(xì)胞核與一個(gè)語(yǔ)義細(xì)胞膜.其中,語(yǔ)義細(xì)胞核對(duì)應(yīng)典型實(shí)例集合P,而語(yǔ)義細(xì)胞膜則體現(xiàn)了概念的邊界(由d 刻畫(huà));由于認(rèn)知上的主觀不確定性,概念的邊界也具有不確定性(由δ刻畫(huà)).在此給出語(yǔ)義細(xì)胞模型的定義.
定義1 語(yǔ)義細(xì)胞模型.一個(gè)模糊概念Li=about Pi對(duì)應(yīng)的語(yǔ)義細(xì)胞模型可以表示為三元組<Pi,di,δi>.其中,Pi是 概 念Li的 一 組 原 型;di是在Ω 域上的距離函數(shù),對(duì)任意X,Y∈Ω,di(X ,Y )?d (X ,Y );δi是定義在[0,+∞)上 的 概 率 密 度 函數(shù),有
該概率密度函數(shù)定義如下:
一般地,函數(shù)f 為正態(tài)分布的概率密度函數(shù),即
定義2 語(yǔ)義細(xì)胞模型正鄰域函數(shù).對(duì)任意X ∈Ω,X 與語(yǔ)義細(xì)胞模型Li=〈Pi,di,δi〉的正鄰域函數(shù)μLi(X )定義如下:
根據(jù)式(5)計(jì)算給定測(cè)試?yán)齒∈Ω 與單個(gè)語(yǔ)義細(xì)胞模型Li的正鄰域函數(shù)值,該函數(shù)值表明X 是Li所描述概念集合一員的隸屬度.
單個(gè)語(yǔ)義細(xì)胞模型通常無(wú)法表示復(fù)雜概念.對(duì)于一個(gè)復(fù)雜概念,可以通過(guò)構(gòu)造由多個(gè)語(yǔ)義細(xì)胞構(gòu)成的語(yǔ)義細(xì)胞混合模型(information cell mixture model,ICMM)進(jìn)行描述.
定義4 混合模型正鄰域函數(shù).對(duì)任意X∈Ω,X 與語(yǔ)義細(xì)胞混合模型的正鄰域函數(shù)為
基于上述概念及定義,構(gòu)造一種訓(xùn)練算法,稱為語(yǔ)義細(xì)胞更新算法[13].該算法從一組數(shù)據(jù)集DB ={X1,X2,…,XN}中訓(xùn) 練 構(gòu)造混合模 型,目 標(biāo) 是優(yōu)化目標(biāo)函數(shù)J,使語(yǔ)義細(xì)胞能覆蓋盡可能多的觀測(cè)數(shù)據(jù):
式中:εik=d (Xk,Pi).
首先采用基于單層語(yǔ)義細(xì)胞的識(shí)別算法(single-layered information cell,IC-S)進(jìn)行語(yǔ)音情感識(shí)別.基于語(yǔ)義細(xì)胞理論,定義每個(gè)情感分類(lèi)為一個(gè)模糊概念集合,內(nèi)含若干個(gè)能最大程度代表該情感的子概念(語(yǔ)義細(xì)胞),如圖1所示.情感的認(rèn)知過(guò)程即語(yǔ)義細(xì)胞混合模型=〈L,W〉的更新過(guò)程.
識(shí)別過(guò)程分為訓(xùn)練、測(cè)試階段,如圖2所示.首先對(duì)輸入的語(yǔ)音音頻信號(hào)提取語(yǔ)音情感特征數(shù)據(jù).
訓(xùn)練階段:使用語(yǔ)義細(xì)胞更新算法,用M 種情感語(yǔ)音的特征數(shù)據(jù)生成M 個(gè)語(yǔ)義細(xì)胞混合模型i(i=1,2,…,M).
測(cè)試階段:使用式(6)分別計(jì)算待測(cè)語(yǔ)音的特征向量(X)與M 個(gè)混合模型i(i=1,2,…,M)的隸屬度μi(X )(i=1,2,…,M).再使用決策方法根據(jù)隸屬度值判斷該語(yǔ)音所屬的情感分類(lèi):本文取隸屬度值最大的分類(lèi)為判定的情感分類(lèi).
圖1 語(yǔ)音情感到ICMM 的映射Fig.1 Mapping from speech emotion to ICMM
圖2 基于情感隸屬度的語(yǔ)音情感識(shí)別算法Fig.2 Speech emotion recognition algorithm based on emotion membership
2.2.1 識(shí)別流程 不同的個(gè)體說(shuō)話方式不盡相同,表述自身情感的方式也有差異.Campbell[15]通過(guò)研究100名說(shuō)話人各30min的對(duì)話語(yǔ)音數(shù)據(jù),發(fā)現(xiàn)各被試者的發(fā)音時(shí)長(zhǎng)、暫停、韻律分布雖然總體特性相同,但是其時(shí)序模式的變化并不一致.Gupta等[16]先區(qū)分性別,再提取語(yǔ)料中的情感特征,并使用樸素貝葉斯分類(lèi)器進(jìn)行語(yǔ)音情感識(shí)別,結(jié)果表明:識(shí)別準(zhǔn)確率比區(qū)分性別前提高了3.57%.基于上述原因,本文采用“說(shuō)話人識(shí)別-說(shuō)話人情感識(shí)別”的雙層結(jié)構(gòu)進(jìn)行語(yǔ)音情感的識(shí)別,該方法稱為基于雙層語(yǔ)義細(xì)胞的識(shí)別(dual-layered information cell,C-D)算法.
識(shí)別過(guò)程分為訓(xùn)練、測(cè)試2 個(gè)階段.在訓(xùn)練階段,系統(tǒng)首先提取所有語(yǔ)料庫(kù)中音頻數(shù)據(jù)的特征向量.經(jīng)預(yù)處理(預(yù)加重濾波、降維)后,分別利用各說(shuō)話人所有情感的語(yǔ)音數(shù)據(jù)訓(xùn)練每個(gè)說(shuō)話人的混合模型(P),然后訓(xùn)練每個(gè)說(shuō)話人處于不同情感狀態(tài)下語(yǔ)音數(shù)據(jù)的混合模型(E),如圖3所示.
圖3 IC-D算法的訓(xùn)練過(guò)程Fig.3 Training procedure of IC-D algorithm
在測(cè)試階段,系統(tǒng)使用與訓(xùn)練過(guò)程相同的方法對(duì)測(cè)試?yán)齒 的音頻數(shù)據(jù)進(jìn)行特征向量提取及預(yù)處理.使用X 與每個(gè)說(shuō)話人、每個(gè)說(shuō)話人不同情感的混合模型(P、E)計(jì)算各自的正鄰域函數(shù)(隸屬度)值μ (X ):N 名說(shuō)話人M 種情感分類(lèi)共N +N×M 個(gè)隸屬度值.使用決策方法根據(jù)隸屬度值進(jìn)行決策,依照各隸屬度的大小給出最終所屬情感類(lèi)型的判定.
本研究采用加權(quán)投票法作情感類(lèi)型決策.利用下式計(jì)算測(cè)試?yán)齒 屬于某種情感e 的支持度:
即測(cè)試?yán)齒 屬于某種情感e 的支持度由其所屬說(shuō)話人的隸屬度及該說(shuō)話人情感的隸屬度共同決定.式(8)中為訓(xùn)練集說(shuō)話人p 的混合模型,為訓(xùn)練集中說(shuō)話人p 情感類(lèi)型e 的混合模型.
2.2.2 識(shí)別算法 IC-D 模型訓(xùn)練算法、IC-D 語(yǔ)音情感識(shí)別算法如下,其中數(shù)據(jù)集DB 為將音頻數(shù)據(jù)經(jīng)過(guò)情感特征提取、預(yù)處理后的特征數(shù)據(jù).
算法1 IC-D 模型訓(xùn)練算法.
輸入:數(shù)據(jù)集DB;混合模型的階數(shù)n1、n2.
1)初始化數(shù)據(jù)集:將數(shù)據(jù)集根據(jù)N 名說(shuō)話人分為N 類(lèi),記作DB{p},p=1,2,…,N;再根據(jù)各自的M 種情感類(lèi)型分為M 類(lèi),記作DB{p,e},p=1,2,…,N,e=1,2,…,M.共計(jì)N+N×M 個(gè)子集;
2)FOR p=1,2,…,N DO
a)訓(xùn)練DB{p}的n1階混合模型pP;
b)FORe=1,2,…,M DO
i.訓(xùn)練DB{p,e}的n2階混合模型:pE,e;
c)ENDFOR
3)ENDFOR
算法2 IC-D 語(yǔ)音情感識(shí)別算法.
輸入:含K 條觀測(cè)值的數(shù)據(jù)集DB={Xk:k=1,2,…,K};N 名說(shuō)話人的混合模型,p=1,2,…,N;N 名說(shuō)話人M 類(lèi)情感的混合模型,p=1,2,…,N,e=1,2,…,M.
輸出:測(cè)試數(shù)據(jù)所屬情感分類(lèi)的預(yù)測(cè)值Yk,k=1,2,…,K.
1)FORk=1,2,…,K DO
2)ENDFOR
識(shí)別實(shí)驗(yàn)在Windows 8.1(64 位)操作系統(tǒng)中進(jìn)行,識(shí)別算法使用Matlab 實(shí)現(xiàn).為降低過(guò)擬合(over-fitting)現(xiàn)象對(duì)結(jié)果的影響,實(shí)驗(yàn)時(shí)采用10倍交叉檢驗(yàn)(corss-validation)法.
3.1.1 語(yǔ)料庫(kù) 為測(cè)試算法在不同語(yǔ)料庫(kù)中的性能,分別使用CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)[17]及SAVEE英 語(yǔ) 情 感 語(yǔ) 料 庫(kù)[18].CASIA 庫(kù) 共 使 用1 200 句 語(yǔ)句,包含憤怒、害怕、高興、悲傷、驚訝以及中性6類(lèi)情感,由4名說(shuō)話人(2男2女)錄制,每類(lèi)情感每人50句語(yǔ)句.SAVEE 庫(kù)共使用360 句語(yǔ)句,包含憤怒、厭惡、害怕、高興、悲傷以及驚訝6種情感,由4名男性說(shuō)話人錄制,每類(lèi)情感每人15句語(yǔ)句.
3.1.2 情感特征 實(shí)驗(yàn)中從語(yǔ)音提取的特征有384維,包括聲學(xué)特征及韻律學(xué)特征,共5 類(lèi):能量方均根、1~12階梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)、過(guò)零率、濁音度以及F0倒譜基頻.每類(lèi)特征通過(guò)分幀提取,同時(shí)計(jì)算其1階差分系數(shù)(first order delta coefficient).計(jì)算上述特征的12項(xiàng)統(tǒng)計(jì)值:最大值、最小值、范圍(最大值-最小值)、最大值幀位置、最小值幀位置、算術(shù)均值、線性擬合斜率/截距/平方誤差、標(biāo)準(zhǔn)差、三階偏度系數(shù)(skewness)以及四階峰度系數(shù)(kurtosis).
特征值的提取使用OpenSMILE 工具[19].在提取特征值前使用預(yù)加重濾波器進(jìn)行濾波,其傳遞函數(shù)為 H (z) =1-0.97z-1.
為避免數(shù)據(jù)維度過(guò)高帶來(lái)的維度災(zāi)難問(wèn)題,使用 主 成 分 分 析 法(principle components analysis,PCA)對(duì)提取出的特征進(jìn)行降維,將CASIA 庫(kù)的數(shù)據(jù)降至80維,SAVEE庫(kù)的數(shù)據(jù)降至45維.
3.2.1 不同參數(shù)下的識(shí)別結(jié)果 根據(jù)定義4,基于語(yǔ)義細(xì)胞的語(yǔ)音情感識(shí)別算法IC-S及IC-D 需要給定混合模型的階數(shù)n作為輸入?yún)?shù).參數(shù)的個(gè)數(shù)即識(shí)別算法的層數(shù):IC-S算法為單層識(shí)別,需要一個(gè)階數(shù)n;IC-D算法為雙層識(shí)別,每層的階數(shù)分別記作n1、n2.
參數(shù)值的改變會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響.階數(shù)的增大會(huì)導(dǎo)致存儲(chǔ)語(yǔ)義細(xì)胞所需的空間線性增大,導(dǎo)致識(shí)別速度的降低,因此本研究根據(jù)語(yǔ)料庫(kù)的數(shù)據(jù)量選取如下參數(shù)進(jìn)行測(cè)試:
1)IC-S:n =1,2,3,4,5;
2)IC-D:n1=1,2,3,4,5;n2=1,2,3;
實(shí)驗(yàn)結(jié)果通過(guò)F 值(F-score)評(píng)判來(lái)權(quán)衡結(jié)果的準(zhǔn)確率α及召回率β:
2種識(shí)別算法的測(cè)試結(jié)果如圖4、5所示.實(shí)驗(yàn)結(jié)果表明:1)在使用單層識(shí)別算法IC-S時(shí),混合模型階數(shù)n =1 時(shí)結(jié)果最優(yōu),其F 值為0.447(CASIA),0.438(SAVEE);2)在使用雙層識(shí)別算法IC-D時(shí),使用CASIA 語(yǔ)料庫(kù)得到的最優(yōu)參數(shù)為n1=3,n2=1(F=0.652),使用SAVEE語(yǔ)料庫(kù)得到的最優(yōu)參數(shù)為n1=1,n2=1(F=0.548),但是2個(gè)語(yǔ)料庫(kù)在n2=1時(shí),F(xiàn) 值隨參數(shù)n1變化不明顯(CASIA:0.629~0.652,SAVEE:0.509~0.548).
3.2.2 與其他算法的比較 選取k-NN、GMM 和SVM 算法與本研究提出的2種識(shí)別算法進(jìn)行比較,具體設(shè)定如下:
1)k-NN:k-近鄰分類(lèi)器,近鄰數(shù)k=5,一對(duì)多決策(one-vs-all);
圖4 ICMM 階數(shù)n的變化對(duì)IC-S算法識(shí)別結(jié)果的影響Fig.4 Impact of variation of ICMM order non recognition results using IC-S algorithm
圖5 ICMM 階數(shù)(n1,n2)的變化對(duì)IC-D 算法識(shí)別結(jié)果的影響Fig.5 Impact of variation of ICMM order(n1,n2)on recognition results using IC-D algorithm
2)GMM:高斯混合模型分類(lèi)器,高斯分量數(shù)為5,一對(duì)多決策;
3)SVM:基 于 徑 向 基(radial basis function,RBF)核函數(shù)的支持向量機(jī),一對(duì)一決策(one-vsone);
4)IC-S:本研究提出的基于單層語(yǔ)義細(xì)胞的識(shí)別算法,混合模型階數(shù)n=1;
5)IC-D:本研究提出的基于雙層語(yǔ)義細(xì)胞的識(shí)別算法,混合模型的階數(shù)分別為n1=3,n2=1;
在2種語(yǔ)料庫(kù)上實(shí)驗(yàn)的結(jié)果如表1、2所示,識(shí)別結(jié)果采用F 值給出.
表1 CASIA語(yǔ)料庫(kù)的識(shí)別結(jié)果(F 值)Tab.1 Emotion recognition results on CASIA corpus(F-score)
表2 SAVEE語(yǔ)料庫(kù)的識(shí)別結(jié)果(F 值)Tab.2 Emotion recognition results on SAVEE corpus(F-score)
本研究提出的2種識(shí)別算法的對(duì)比實(shí)驗(yàn)結(jié)果證明了上文關(guān)于說(shuō)話人特質(zhì)不同影響情感識(shí)別準(zhǔn)確率的假設(shè).由表1、2 可以看出,IC-S算法的識(shí)別性能(CASIA:0.450,SAVEE:0.421)與其他方法相比有所不足,但是IC-D 算法的識(shí)別性能(CASIA:0.650,SAVEE:0.541)略優(yōu)于SVM 算法(CASIA:0.590,SAVEE:0.539),顯著優(yōu)于k-NN 算法(CASIA:0.547,SAVEE:0.454)及GMM 算法(CASIA:0.542,SAVEE:0.452).
整體而言,各算法識(shí)別CASIA 語(yǔ)料庫(kù)時(shí)的性能比識(shí)別SAVEE 語(yǔ)料庫(kù)時(shí)好,這種結(jié)果與訓(xùn)練集數(shù)量、情感類(lèi)型以及語(yǔ)料的錄制環(huán)境有一定關(guān)系.與另外3 種算法類(lèi)似,本文方法在識(shí)別“憤怒”、“中性”、“驚訝”情感時(shí)性能相對(duì)較好,在識(shí)別CASIA語(yǔ)料庫(kù)中的“害怕”、“悲傷”情感和SAVEE 語(yǔ)料庫(kù)中的“中性”情感時(shí)性能較為一般.
在存儲(chǔ)空間需求方面,基于語(yǔ)義細(xì)胞的2種識(shí)別方法均具備對(duì)存儲(chǔ)空間需求低的優(yōu)勢(shì).如圖6所示為10倍交叉驗(yàn)證第一折時(shí)各算法的模型存儲(chǔ)所用存儲(chǔ)空間大小Η.由圖6可知,IC-S/IC-D占用存儲(chǔ)空間明顯小于另外3種方法:CASIA語(yǔ)料庫(kù)模型為13KB/57 KB(SVM:758KB)、SAVEE 語(yǔ)料庫(kù)僅需5KB/24KB(SVM:125KB).由此可見(jiàn),雖然IC-D算法采用了二層識(shí)別結(jié)構(gòu),所建立的模型比其他數(shù)據(jù)庫(kù)多,但是其建立的所有混合模型總數(shù)據(jù)量仍然小于其他算法.
不同識(shí)別算法在交叉檢驗(yàn)測(cè)試階段的耗時(shí)(ttest)如圖7所示.由圖7可知,與k-NN 及GMM 算法相比,IC-S算法耗時(shí)較短,而IC-D算法耗時(shí)較長(zhǎng).
圖6 交叉檢驗(yàn)第一折時(shí)5種算法模型所占的存儲(chǔ)空間Fig.6 Disk storage consumption of five algorithms at first fold of cross-validation
圖7 交叉檢驗(yàn)情感識(shí)別用時(shí)Fig.7 Time consumption of cross-validation
實(shí)驗(yàn)結(jié)果表明:IC-S算法的識(shí)別性能相比其他方法有時(shí)間復(fù)雜度的優(yōu)勢(shì),IC-D 算法相比其他算法時(shí)間復(fù)雜度高;相比其他算法,這2種識(shí)別算法的空間需求明顯降低.
空間需求的優(yōu)勢(shì)來(lái)源于語(yǔ)義細(xì)胞的“原型”概念.在訓(xùn)練得到的每個(gè)混合模型中,僅需存儲(chǔ)n個(gè)語(yǔ)義細(xì)胞的特征數(shù)據(jù)(P)及每個(gè)語(yǔ)義細(xì)胞的參數(shù)(d,δ,W).通常情況下,每個(gè)混合模型內(nèi)僅需數(shù)個(gè)原型P 即可覆蓋觀測(cè)值中的大部分?jǐn)?shù)據(jù).相比之下,傳統(tǒng)k-NN 算法需要存儲(chǔ)所有的特征數(shù)據(jù),GMM 算法需要存儲(chǔ)各維度各高斯分量的參數(shù),SVM 算法需要存儲(chǔ)用于分割超平面的支持向量.在常見(jiàn)的應(yīng)用場(chǎng)景中,三者構(gòu)成的識(shí)別模型數(shù)據(jù)量都大于本研究提出的IC-S及IC-D 算法的數(shù)據(jù)量.
關(guān)于時(shí)間復(fù)雜度方面,IC-S算法在情感識(shí)別時(shí)間上存在一定優(yōu)勢(shì),這種優(yōu)勢(shì)依舊來(lái)源于原型的存儲(chǔ).計(jì)算隸屬度時(shí),通常達(dá)到最佳識(shí)別率僅需少量混合模型,當(dāng)訓(xùn)練集數(shù)據(jù)量較大時(shí)(如:使用CASIA語(yǔ)料庫(kù)),相比其他算法耗時(shí)更少.然而采用IC-D算法時(shí)所需混合模型的個(gè)數(shù)與第一層結(jié)構(gòu)中的混合模型數(shù)量正相關(guān)(本文第一層為4個(gè)混合模型),情感識(shí)別的時(shí)間因此增加.盡管如此,對(duì)單條測(cè)試數(shù)據(jù)而言,IC-D平均耗時(shí)為9ms,實(shí)驗(yàn)中最快的IC-S平均耗時(shí)為2ms.由此可見(jiàn),在即時(shí)性要求不高的應(yīng)用場(chǎng)景中,其運(yùn)算時(shí)間的差別很難對(duì)用戶體驗(yàn)造成影響.
本文提出了基于語(yǔ)義細(xì)胞理論的2種語(yǔ)音情感識(shí)別算法.在CASIA 及SAVEE語(yǔ)料庫(kù)上的實(shí)驗(yàn)結(jié)果表明:IC-S算法用于語(yǔ)音情感識(shí)別時(shí)的精確度有限,但是在空間、時(shí)間復(fù)雜度上具有一定優(yōu)勢(shì);而IC-D 算法在保證與SVM 算法相似識(shí)別精準(zhǔn)度的前提下,仍能有效降低存儲(chǔ)識(shí)別模型所需的數(shù)據(jù)量.這一特性揭示了本文算法在對(duì)于說(shuō)話人分類(lèi)較少的應(yīng)用場(chǎng)景(如:遠(yuǎn)程教學(xué)系統(tǒng))以及說(shuō)話人較為固定的場(chǎng)景(如:車(chē)載駕駛系統(tǒng))中的應(yīng)用優(yōu)勢(shì).此外,本文算法適用于對(duì)存儲(chǔ)空間敏感的應(yīng)用場(chǎng)景,如嵌入式設(shè)備.
后續(xù)研究將圍繞下列方向展開(kāi):1)研究說(shuō)話人分類(lèi)方法,將IC-D 算法的說(shuō)話人識(shí)別改進(jìn)為說(shuō)話人分類(lèi)識(shí)別,提高算法的通用性;2)優(yōu)化特征降維方法,使用特征選擇代替PCA 特征提取法,增加降維的針對(duì)性;3)融合多種分類(lèi)器,利用不同分類(lèi)器的特性優(yōu)化識(shí)別準(zhǔn)確率;4)采用并行識(shí)別架構(gòu).對(duì)不同情感分類(lèi)的數(shù)據(jù)分組、并行計(jì)算模型參數(shù),融合各組識(shí)別結(jié)果.
(
):
[1]SCHULLER B,RIGOLL G,LANG M.Speech emo-tion recognition combining acoustic features and linguistic information in a hybrid support vector machine-belief network architecture[C]∥IEEE International Conference on Acoustics,Speech,and Signal Processing,Proceedings(ICASSP'04).Montreal:IEEE,2004:1(1):577-580.
[2]JONES C M,JONASSON M.Performance analysis of acoustic emotion recognition for in-car conversational interfaces[M]∥Universal Access in Human-Computer Interaction. Ambient Interaction. Berlin Heidelberg:Springer,2007:411-420.
[3]韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.HAN Wen-jing,LI Hai-feng,RUAN Hua-bin,et al.Review on speech emotion recognition[J].Journal of Software,2014,25(1):37-50.
[4]張瀟丹,黃程韋,趙力,等.應(yīng)用改進(jìn)混合蛙跳算法的實(shí)用語(yǔ)音情感識(shí)別[J].聲學(xué)學(xué)報(bào),2014,39(2):271-280.ZHANG Xiao-dan,HUANG Cheng-wei,ZHAO Li,et al.Recognition of practical speech emotion using improved shuffled frog leaping algorithm [J].Acta Acustica,2014,39(2):271-280.
[5]GHARAVIAN D,SHEIKHAN M,NAZERIEH A,et al.Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network [J].Neural Computing and Applications,2012,21(8):2115-2126.
[6]李翔,李昕,胡晨,等.面向智能機(jī)器人的Teager語(yǔ)音情感交互系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].儀器儀表學(xué)報(bào),2013,34(8):1826-1833.LI Xiang,LI Xin,HU Chen,et al.Design and implementation of speech emotion interaction system based on Teager for intelligent robot[J].Chinese Journal of Scientific Instrument,2013,34(8):1826-1833.
[7]LIN J C,WU C H,WEI W L.Error weighted semicoupled hidden Markov model for audio-visual emotion recognition[J].IEEE Transactions on Multimedia,2012,14(1):142-156.
[8]BHAYKAR M,YADAV J,RAO K S.Speaker dependent,speaker independent and cross language emotion recognition from speech using GMM and HMM[C]∥IEEE National Conference on Communications(NCC 2013).New Delhi:IEEE,2013:1-5.
[9]KHAN M,GOSKULA T,NASIRUDDIN M,et al.Comparison between k-NN and SVM method for speech emotion recognition[J].International Journal on Computer Science and Engineering,2011,3(2):607-611.
[10]PAN S,TAO J,LI Y.The CASIA audio emotion rec-ognition method for audio/visual emotion challenge 2011[C]∥Affective Computing and Intelligent Interaction.Berlin Heidelberg:Springer,2011:388-395.
[11]黃永明,章國(guó)寶,董飛,等.層疊式“產(chǎn)生/判別”混合模型的語(yǔ)音情感識(shí)別[J].聲學(xué)學(xué)報(bào),2013,38(2):231-240.HUANG Yong-ming,ZHANG Guo-bao,DONG Fei,et al.Speech emotion recognition using stacked generative and discriminative hybrid models[J].Acta Acustica,2013,38(2):231-240.
[12]蔣丹寧,蔡蓮紅.基于語(yǔ)音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006,46(1):86-89.JIANG Dan-ning,CAI Lian-hong.Speech emotion recognition using acoustic features[J].Journal of Tsinghua University:Science and Technology,2006,46(1):86-89.
[13]TANG Y,LAWRY J.Information cell mixture models:the cognitive representations of vague concepts[M]∥Integrated Uncertainty Management and Applications.Berlin Heidelberg:Springer,2010:371-382.
[14]TANG Y,LAWRY J.Linguistic modelling and information coarsening based on prototype theory and label semantics[J].International Journal of Approximate Reasoning,2009,50(8):1177-1198.
[15]CAMPBELL N.Individual traits of speaking style and speech rhythm in a spoken discourse[M]∥Verbal and Nonverbal Features of Human-Human and Human-Machine Interaction.Berlin Heidelberg:Springer,2008:107-120.
[16]GUPTA S,MEHRA A.Gender specific emotion recognition through speech signals[C]∥IEEE International Conference on Signal Processing and Integrated Networks(SPIN).Noida:IEEE,2014:727-733.
[17]TAO J H,YU J,KANG Y G.An expressive mandarin speech corpus[C]∥The International Committee for the Co-ordination and Standardization of Speech Databases and Assessment Techniques.Bali Island:COCOSDA,2005.
[18]HAQ S,JACKSON P J B,EDGE J.Audio-visual feature selection and reduction for emotion classification[C]∥International Conference on Auditory-Visual Speech Processing(AVSP’08).Tangalooma:AVSP,2008:185-190.
[19]EYBEN F,W?LLMER M,SCHULLER B.Opensmile:the munich versatile and fast open-source audio feature extractor[C]∥ACM Proceedings of the international conference on Multimedia.Firenze:ACM,2010:1459-1462.