張 霞 楊 勇 趙 力
(1.莆田學(xué)院機(jī)電與信息工程學(xué)院,福建 莆田 351100;2.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)
在日常生活中,語(yǔ)音是人類進(jìn)行交流的重要媒介,語(yǔ)音信號(hào)在傳達(dá)語(yǔ)句含義信息的同時(shí),也傳遞了情感信息。同樣一句話由于說(shuō)話人表達(dá)的情感不同,聽(tīng)話者感知時(shí)就會(huì)有較大的語(yǔ)義差別。要想進(jìn)一步提高人機(jī)交互能力,實(shí)現(xiàn)真正意義的人工智能,就需要賦予計(jì)算機(jī)像人一樣地觀察、理解和生成各種情感特征的能力,使計(jì)算機(jī)能夠更加自動(dòng)適應(yīng)操作者[1]。過(guò)去的研究者在進(jìn)行語(yǔ)音信號(hào)處理時(shí),把語(yǔ)音中這部分信息作為噪聲通過(guò)規(guī)則化處理給去掉了。隨著近年來(lái)對(duì)情感識(shí)別研究的深入,研究者逐漸意識(shí)到這些情感信息的重要性,開(kāi)始進(jìn)行專門(mén)研究分析,并將研究成果應(yīng)用到了各個(gè)領(lǐng)域,獲得了很好的經(jīng)濟(jì)和社會(huì)效益。
語(yǔ)音情感識(shí)別中最重要的是分類算法,應(yīng)用最廣泛的模式分類器有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(jī)(Support Vector Mechine,SVM)及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等[2]。作為初期計(jì)算性能較好的算法,HMM 以一階Markov 鏈為基礎(chǔ)發(fā)展起來(lái),有不可見(jiàn)狀態(tài)和可見(jiàn)狀態(tài)兩種常規(guī)狀態(tài),是雙重隨機(jī)過(guò)程[3]。Nwe 等[4]通過(guò)HMM 對(duì)六種情感進(jìn)行判斷、預(yù)測(cè),最終在緬甸語(yǔ)料庫(kù)的識(shí)別率達(dá)到78%。GMM[5]是一種單狀態(tài)的隱性馬爾可夫模型,由于它結(jié)構(gòu)簡(jiǎn)單所以被廣泛用于各種語(yǔ)音信號(hào)分類中。GMM 作為統(tǒng)計(jì)模型能吸收不同語(yǔ)音信號(hào)的聲學(xué)特性的變動(dòng)[6],但由于該模型采用狀態(tài)輸出獨(dú)立假設(shè),影響了其描述語(yǔ)音信號(hào)時(shí)間上的幀間相關(guān)動(dòng)態(tài)特性的能力。本文提出了一種采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法來(lái)彌補(bǔ)傳統(tǒng)GMM 語(yǔ)音幀間相關(guān)動(dòng)態(tài)信息利用不足的問(wèn)題。然而要很好地利用復(fù)數(shù)幀段輸入GMM的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí),GMM 輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題。對(duì)此,提出一種基于主分量分析神經(jīng)網(wǎng)絡(luò)(Principal Components Analysis Neural Network,PCANN)[7]和GMM 混合結(jié)構(gòu)的語(yǔ)音情感識(shí)別方法,在GMM 的前端增加了一個(gè)用于語(yǔ)音參數(shù)壓縮的主分量分析神經(jīng)網(wǎng)絡(luò),既改善了狀態(tài)輸出獨(dú)立GMM 的缺陷,又解決了上述問(wèn)題。
一個(gè)具有M個(gè)成員的GMM 的概率密度可由M個(gè)高斯概率密度函數(shù)的加權(quán)求和得到,由下式表示[8-9]:
這里x是D維的輸入隨機(jī)向量;bi(x)(i=1,2,…,M)是第i個(gè)成員的高斯概率密度函數(shù);wi(i=1,2,…,M)是i個(gè)成員權(quán)值系數(shù)。完整的GMM 可表示為:λ={wi,μi,Σi}(i=1,2,…,M),其中μi表示第i個(gè)成員的平均值向量,Σi表示第i個(gè)成員的協(xié)方差矩陣。每個(gè)成員密度函數(shù)是一個(gè)D維的高斯分布函數(shù),可由如下表示:
對(duì)于一個(gè)長(zhǎng)度為T(mén)的測(cè)試輸入時(shí)間序列X=(x1,x2,…,xT),它的GMM 似然概率可以表示為:
或用對(duì)數(shù)域表示為:
假設(shè)有N個(gè)未知類別,分類時(shí)運(yùn)用貝葉斯定理,在N個(gè)未知類別的模型中,得到似然概率最大的模型對(duì)應(yīng)的類別即為識(shí)別結(jié)果:
主分量分析(Principal Components Analysis,PCA)是一種機(jī)器學(xué)習(xí)算法[10]。主要是通過(guò)協(xié)方差矩陣將原來(lái)維數(shù)較高的具有一定相關(guān)性的數(shù)據(jù),線性組合成維數(shù)較少的互不相關(guān)的數(shù)據(jù)[11-12]。利用復(fù)數(shù)幀段輸入GMM 的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí),輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題,在GMM 的前端增加了一個(gè)語(yǔ)音參數(shù)壓縮的PCANN。圖1 所示是能夠提取前m個(gè)主分量的PCANN 結(jié)構(gòu)圖[7]。
圖1 提取m 個(gè)主分量的神經(jīng)網(wǎng)絡(luò)
式中:η為增益因子,η的選取決定網(wǎng)絡(luò)收斂的快慢。k為迭代次數(shù)。可以證明,按照公式(6)進(jìn)行權(quán)值迭代更新,網(wǎng)絡(luò)收斂后,m個(gè)輸出的權(quán)值向量位于樣本協(xié)方差矩陣的前m個(gè)最大特征值對(duì)應(yīng)的特征矢量方向上。利用上述算法提取的多個(gè)主分量,在理論上已經(jīng)能保證各權(quán)向量的正交性,但實(shí)際應(yīng)用中發(fā)現(xiàn)算法收斂太慢,迭代次數(shù)太多。因此實(shí)驗(yàn)中我們?cè)谟?xùn)練一定次數(shù)以后強(qiáng)制進(jìn)行一次正交化,從而既可使訓(xùn)練時(shí)間大大減少,又能保證得到較好的識(shí)別效果。權(quán)值的正交化采用格蘭姆-施密特規(guī)則,設(shè)第i+1 個(gè)權(quán)向量經(jīng)去冗余法提取后為:
利用‖Wj‖=1,可得:
對(duì)其進(jìn)行歸一化可得:
有了第i個(gè)權(quán)向量,即可得第i個(gè)主分量:yi=。
復(fù)數(shù)幀段GMM 的輸入是由相繼的復(fù)數(shù)幀特征參數(shù)矢量按順序組合成的一個(gè)復(fù)合特征參數(shù)矢量,每個(gè)復(fù)數(shù)幀段特征參數(shù)的段移為一幀。這些復(fù)數(shù)幀段特征參數(shù)作為語(yǔ)音輸入特征數(shù)據(jù)在模型訓(xùn)練和識(shí)別時(shí)使用。
本文使用的語(yǔ)音情感數(shù)據(jù)庫(kù)是免費(fèi)的柏林情感語(yǔ)音庫(kù),其采樣頻率為16 kHz,16 bit 量化[14]。該語(yǔ)音庫(kù)分別由十名專業(yè)演員(5 男,5 女)在不同情感狀態(tài)下(高興、無(wú)聊、中性、悲傷、恐懼、厭惡、生氣)朗讀十句不同文本的德語(yǔ)組成。本實(shí)驗(yàn)選取其中的高興、中性、悲傷、恐懼、厭惡、生氣六種情感的語(yǔ)句各60 條。其中每種情感選30 條作為訓(xùn)練樣本,另外30 條作為待識(shí)別樣本,而且訓(xùn)練樣本和待識(shí)別樣本中,男女聲音樣本比例基本為1 ∶1,來(lái)驗(yàn)證復(fù)數(shù)幀段輸入GMM 在語(yǔ)音情感識(shí)別中的識(shí)別效果。
語(yǔ)音情感識(shí)別特征選取部分語(yǔ)音韻律特征和音質(zhì)特征及其衍生參數(shù)共23 個(gè)特征參數(shù),構(gòu)成用于識(shí)別的情感特征向量:特征1~5 維:短時(shí)幅度的均值、最大值、最小值、中值、方差;特征6~10 維:短時(shí)能量的均值、最大值、最小值、中值、方差;特征11~14 維:短時(shí)過(guò)零率的均值、最大值、中值、方差;特征15~18維:短時(shí)基音頻率的均值、最大值、中值、方差;特征19~23 維:短時(shí)共振峰頻率的均值、最大值、最小值、中值、方差。
評(píng)價(jià)上述PCANN/GMM 混合結(jié)構(gòu)語(yǔ)音情感識(shí)別方法的識(shí)別實(shí)驗(yàn)主要是把傳統(tǒng)的狀態(tài)輸出獨(dú)立GMM 和PCANN/GMM 混合結(jié)構(gòu)模型進(jìn)行識(shí)別準(zhǔn)確率比較。PCANN/GMM 模型的輸入分別采用2 幀、4 幀和6 幀長(zhǎng)度的復(fù)數(shù)幀。識(shí)別結(jié)果如表1~表4所示,識(shí)別率采用四舍五入法取整數(shù)。
由表1~ 表4 的識(shí)別測(cè)試結(jié)果可以看出,PCANN/GMM 的識(shí)別效果比狀態(tài)輸出獨(dú)立GMM好,識(shí)別率均有所提高。2 幀、4 幀和6 幀寬度PCANN/GMM 的平均識(shí)別率分別為76.3%、84.2%和81.2%,幾種情況中,對(duì)“生氣”的情感識(shí)別率普遍較高。另外,4 幀寬度PCANN/GMM 的識(shí)別率最高,4 幀的語(yǔ)音長(zhǎng)度能較好地描述幀之間的動(dòng)態(tài)特性,幀數(shù)太少,不能較全面完整地利用幀間的特性,隨著幀數(shù)的增加,幀之間的情感相關(guān)性隨之減弱,有時(shí)甚至?xí)l(fā)生情感的轉(zhuǎn)變,從而影響識(shí)別率。
表1 狀態(tài)獨(dú)立輸出GMM 情感識(shí)別結(jié)果
表2 2 幀寬度GMM 情感識(shí)別結(jié)果
表3 4 幀寬度GMM 情感識(shí)別結(jié)果
表4 6 幀寬度GMM 情感識(shí)別結(jié)果
語(yǔ)音情感識(shí)別作為情感計(jì)算中的一個(gè)重要方面,目的是要讓計(jì)算機(jī)能夠理解人類語(yǔ)音中所傳遞的情感信息。而由于情感信息的社會(huì)性、文化性,以及語(yǔ)音信號(hào)自身的復(fù)雜性,語(yǔ)音情感識(shí)別中尚有許多問(wèn)題需要解決,特別是符合人腦認(rèn)知結(jié)構(gòu)與認(rèn)知心理學(xué)機(jī)理的情感信息處理算法。本文將主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型相結(jié)合,研究了其在語(yǔ)音情感識(shí)別中的學(xué)習(xí)能力和識(shí)別效果。針對(duì)高興、生氣、厭惡、悲傷、恐懼和中性六種基本情感,提取了包括韻律特征與音質(zhì)特征在內(nèi)的23 個(gè)情感特征。語(yǔ)音情感識(shí)別實(shí)驗(yàn)證實(shí)了引入幀間相關(guān)動(dòng)態(tài)信息方法的有效性。建立一個(gè)高效合理的語(yǔ)言情感識(shí)別模型仍是研究重點(diǎn),今后需要進(jìn)一步探討主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型的結(jié)合,特別是優(yōu)化神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)方面還存在許多尚未解決的問(wèn)題。