基于復(fù)數(shù)幀段特征的語(yǔ)音情感識(shí)別方法?

2022-07-10 02:16:22張霞楊勇趙力

電子器件 2022年2期

張霞楊勇趙力

(1.莆田學(xué)院機(jī)電與信息工程學(xué)院，福建莆田 351100；2.東南大學(xué)信息科學(xué)與工程學(xué)院，江蘇南京 210096)

在日常生活中，語(yǔ)音是人類進(jìn)行交流的重要媒介，語(yǔ)音信號(hào)在傳達(dá)語(yǔ)句含義信息的同時(shí)，也傳遞了情感信息。同樣一句話由于說(shuō)話人表達(dá)的情感不同，聽(tīng)話者感知時(shí)就會(huì)有較大的語(yǔ)義差別。要想進(jìn)一步提高人機(jī)交互能力，實(shí)現(xiàn)真正意義的人工智能，就需要賦予計(jì)算機(jī)像人一樣地觀察、理解和生成各種情感特征的能力，使計(jì)算機(jī)能夠更加自動(dòng)適應(yīng)操作者[1]。過(guò)去的研究者在進(jìn)行語(yǔ)音信號(hào)處理時(shí)，把語(yǔ)音中這部分信息作為噪聲通過(guò)規(guī)則化處理給去掉了。隨著近年來(lái)對(duì)情感識(shí)別研究的深入，研究者逐漸意識(shí)到這些情感信息的重要性，開(kāi)始進(jìn)行專門(mén)研究分析，并將研究成果應(yīng)用到了各個(gè)領(lǐng)域，獲得了很好的經(jīng)濟(jì)和社會(huì)效益。

語(yǔ)音情感識(shí)別中最重要的是分類算法，應(yīng)用最廣泛的模式分類器有:隱馬爾可夫模型(Hidden Markov Model，HMM)、高斯混合模型(Gaussian Mixture Model，GMM)、支持向量機(jī)(Support Vector Mechine，SVM)及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network，ANN)等[2]。作為初期計(jì)算性能較好的算法，HMM 以一階Markov 鏈為基礎(chǔ)發(fā)展起來(lái)，有不可見(jiàn)狀態(tài)和可見(jiàn)狀態(tài)兩種常規(guī)狀態(tài)，是雙重隨機(jī)過(guò)程[3]。Nwe 等[4]通過(guò)HMM 對(duì)六種情感進(jìn)行判斷、預(yù)測(cè)，最終在緬甸語(yǔ)料庫(kù)的識(shí)別率達(dá)到78%。GMM[5]是一種單狀態(tài)的隱性馬爾可夫模型，由于它結(jié)構(gòu)簡(jiǎn)單所以被廣泛用于各種語(yǔ)音信號(hào)分類中。GMM 作為統(tǒng)計(jì)模型能吸收不同語(yǔ)音信號(hào)的聲學(xué)特性的變動(dòng)[6]，但由于該模型采用狀態(tài)輸出獨(dú)立假設(shè)，影響了其描述語(yǔ)音信號(hào)時(shí)間上的幀間相關(guān)動(dòng)態(tài)特性的能力。本文提出了一種采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法來(lái)彌補(bǔ)傳統(tǒng)GMM 語(yǔ)音幀間相關(guān)動(dòng)態(tài)信息利用不足的問(wèn)題。然而要很好地利用復(fù)數(shù)幀段輸入GMM的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí)，GMM 輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題。對(duì)此，提出一種基于主分量分析神經(jīng)網(wǎng)絡(luò)(Principal Components Analysis Neural Network，PCANN)[7]和GMM 混合結(jié)構(gòu)的語(yǔ)音情感識(shí)別方法，在GMM 的前端增加了一個(gè)用于語(yǔ)音參數(shù)壓縮的主分量分析神經(jīng)網(wǎng)絡(luò)，既改善了狀態(tài)輸出獨(dú)立GMM 的缺陷，又解決了上述問(wèn)題。

1 高斯混合模型GMM

一個(gè)具有M個(gè)成員的GMM 的概率密度可由M個(gè)高斯概率密度函數(shù)的加權(quán)求和得到，由下式表示[8－9]:

這里x是D維的輸入隨機(jī)向量；bi(x)(i＝1，2，…，M)是第i個(gè)成員的高斯概率密度函數(shù)；wi(i＝1，2，…，M)是i個(gè)成員權(quán)值系數(shù)。完整的GMM 可表示為:λ＝{wi，μi，Σi}(i＝1，2，…，M)，其中μi表示第i個(gè)成員的平均值向量，Σi表示第i個(gè)成員的協(xié)方差矩陣。每個(gè)成員密度函數(shù)是一個(gè)D維的高斯分布函數(shù)，可由如下表示:

對(duì)于一個(gè)長(zhǎng)度為T(mén)的測(cè)試輸入時(shí)間序列X＝(x1，x2，…，xT)，它的GMM 似然概率可以表示為:

或用對(duì)數(shù)域表示為:

假設(shè)有N個(gè)未知類別，分類時(shí)運(yùn)用貝葉斯定理，在N個(gè)未知類別的模型中，得到似然概率最大的模型對(duì)應(yīng)的類別即為識(shí)別結(jié)果:

2 主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法

主分量分析(Principal Components Analysis，PCA)是一種機(jī)器學(xué)習(xí)算法[10]。主要是通過(guò)協(xié)方差矩陣將原來(lái)維數(shù)較高的具有一定相關(guān)性的數(shù)據(jù)，線性組合成維數(shù)較少的互不相關(guān)的數(shù)據(jù)[11－12]。利用復(fù)數(shù)幀段輸入GMM 的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí)，輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題，在GMM 的前端增加了一個(gè)語(yǔ)音參數(shù)壓縮的PCANN。圖1 所示是能夠提取前m個(gè)主分量的PCANN 結(jié)構(gòu)圖[7]。

圖1 提取m 個(gè)主分量的神經(jīng)網(wǎng)絡(luò)

式中:η為增益因子，η的選取決定網(wǎng)絡(luò)收斂的快慢。k為迭代次數(shù)。可以證明，按照公式(6)進(jìn)行權(quán)值迭代更新，網(wǎng)絡(luò)收斂后，m個(gè)輸出的權(quán)值向量位于樣本協(xié)方差矩陣的前m個(gè)最大特征值對(duì)應(yīng)的特征矢量方向上。利用上述算法提取的多個(gè)主分量，在理論上已經(jīng)能保證各權(quán)向量的正交性，但實(shí)際應(yīng)用中發(fā)現(xiàn)算法收斂太慢，迭代次數(shù)太多。因此實(shí)驗(yàn)中我們?cè)谟?xùn)練一定次數(shù)以后強(qiáng)制進(jìn)行一次正交化，從而既可使訓(xùn)練時(shí)間大大減少，又能保證得到較好的識(shí)別效果。權(quán)值的正交化采用格蘭姆－施密特規(guī)則，設(shè)第i＋1 個(gè)權(quán)向量經(jīng)去冗余法提取后為:

利用‖Wj‖＝1，可得:

對(duì)其進(jìn)行歸一化可得:

有了第i個(gè)權(quán)向量，即可得第i個(gè)主分量:yi＝。

復(fù)數(shù)幀段GMM 的輸入是由相繼的復(fù)數(shù)幀特征參數(shù)矢量按順序組合成的一個(gè)復(fù)合特征參數(shù)矢量，每個(gè)復(fù)數(shù)幀段特征參數(shù)的段移為一幀。這些復(fù)數(shù)幀段特征參數(shù)作為語(yǔ)音輸入特征數(shù)據(jù)在模型訓(xùn)練和識(shí)別時(shí)使用。

3 實(shí)驗(yàn)和結(jié)果

本文使用的語(yǔ)音情感數(shù)據(jù)庫(kù)是免費(fèi)的柏林情感語(yǔ)音庫(kù)，其采樣頻率為16 kHz，16 bit 量化[14]。該語(yǔ)音庫(kù)分別由十名專業(yè)演員(5 男，5 女)在不同情感狀態(tài)下(高興、無(wú)聊、中性、悲傷、恐懼、厭惡、生氣)朗讀十句不同文本的德語(yǔ)組成。本實(shí)驗(yàn)選取其中的高興、中性、悲傷、恐懼、厭惡、生氣六種情感的語(yǔ)句各60 條。其中每種情感選30 條作為訓(xùn)練樣本，另外30 條作為待識(shí)別樣本，而且訓(xùn)練樣本和待識(shí)別樣本中，男女聲音樣本比例基本為1 ∶1，來(lái)驗(yàn)證復(fù)數(shù)幀段輸入GMM 在語(yǔ)音情感識(shí)別中的識(shí)別效果。

語(yǔ)音情感識(shí)別特征選取部分語(yǔ)音韻律特征和音質(zhì)特征及其衍生參數(shù)共23 個(gè)特征參數(shù)，構(gòu)成用于識(shí)別的情感特征向量:特征1～5 維:短時(shí)幅度的均值、最大值、最小值、中值、方差；特征6～10 維:短時(shí)能量的均值、最大值、最小值、中值、方差；特征11～14 維:短時(shí)過(guò)零率的均值、最大值、中值、方差；特征15～18維:短時(shí)基音頻率的均值、最大值、中值、方差；特征19～23 維:短時(shí)共振峰頻率的均值、最大值、最小值、中值、方差。

評(píng)價(jià)上述PCANN/GMM 混合結(jié)構(gòu)語(yǔ)音情感識(shí)別方法的識(shí)別實(shí)驗(yàn)主要是把傳統(tǒng)的狀態(tài)輸出獨(dú)立GMM 和PCANN/GMM 混合結(jié)構(gòu)模型進(jìn)行識(shí)別準(zhǔn)確率比較。PCANN/GMM 模型的輸入分別采用2 幀、4 幀和6 幀長(zhǎng)度的復(fù)數(shù)幀。識(shí)別結(jié)果如表1～表4所示，識(shí)別率采用四舍五入法取整數(shù)。

由表1～表4 的識(shí)別測(cè)試結(jié)果可以看出，PCANN/GMM 的識(shí)別效果比狀態(tài)輸出獨(dú)立GMM好，識(shí)別率均有所提高。2 幀、4 幀和6 幀寬度PCANN/GMM 的平均識(shí)別率分別為76.3%、84.2%和81.2%，幾種情況中，對(duì)“生氣”的情感識(shí)別率普遍較高。另外，4 幀寬度PCANN/GMM 的識(shí)別率最高，4 幀的語(yǔ)音長(zhǎng)度能較好地描述幀之間的動(dòng)態(tài)特性，幀數(shù)太少，不能較全面完整地利用幀間的特性，隨著幀數(shù)的增加，幀之間的情感相關(guān)性隨之減弱，有時(shí)甚至?xí)l(fā)生情感的轉(zhuǎn)變，從而影響識(shí)別率。

表1 狀態(tài)獨(dú)立輸出GMM 情感識(shí)別結(jié)果

表2 2 幀寬度GMM 情感識(shí)別結(jié)果

表3 4 幀寬度GMM 情感識(shí)別結(jié)果

表4 6 幀寬度GMM 情感識(shí)別結(jié)果

4 結(jié)論

語(yǔ)音情感識(shí)別作為情感計(jì)算中的一個(gè)重要方面，目的是要讓計(jì)算機(jī)能夠理解人類語(yǔ)音中所傳遞的情感信息。而由于情感信息的社會(huì)性、文化性，以及語(yǔ)音信號(hào)自身的復(fù)雜性，語(yǔ)音情感識(shí)別中尚有許多問(wèn)題需要解決，特別是符合人腦認(rèn)知結(jié)構(gòu)與認(rèn)知心理學(xué)機(jī)理的情感信息處理算法。本文將主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型相結(jié)合，研究了其在語(yǔ)音情感識(shí)別中的學(xué)習(xí)能力和識(shí)別效果。針對(duì)高興、生氣、厭惡、悲傷、恐懼和中性六種基本情感，提取了包括韻律特征與音質(zhì)特征在內(nèi)的23 個(gè)情感特征。語(yǔ)音情感識(shí)別實(shí)驗(yàn)證實(shí)了引入幀間相關(guān)動(dòng)態(tài)信息方法的有效性。建立一個(gè)高效合理的語(yǔ)言情感識(shí)別模型仍是研究重點(diǎn)，今后需要進(jìn)一步探討主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型的結(jié)合，特別是優(yōu)化神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)方面還存在許多尚未解決的問(wèn)題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于復(fù)數(shù)幀段特征的語(yǔ)音情感識(shí)別方法?

1 高斯混合模型GMM

2 主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法

3 實(shí)驗(yàn)和結(jié)果

4 結(jié)論