国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)數(shù)幀段特征的語(yǔ)音情感識(shí)別方法?

2022-07-10 02:16:22
電子器件 2022年2期
關(guān)鍵詞:特征參數(shù)復(fù)數(shù)識(shí)別率

張 霞 楊 勇 趙 力

(1.莆田學(xué)院機(jī)電與信息工程學(xué)院,福建 莆田 351100;2.東南大學(xué)信息科學(xué)與工程學(xué)院,江蘇 南京 210096)

在日常生活中,語(yǔ)音是人類進(jìn)行交流的重要媒介,語(yǔ)音信號(hào)在傳達(dá)語(yǔ)句含義信息的同時(shí),也傳遞了情感信息。同樣一句話由于說(shuō)話人表達(dá)的情感不同,聽(tīng)話者感知時(shí)就會(huì)有較大的語(yǔ)義差別。要想進(jìn)一步提高人機(jī)交互能力,實(shí)現(xiàn)真正意義的人工智能,就需要賦予計(jì)算機(jī)像人一樣地觀察、理解和生成各種情感特征的能力,使計(jì)算機(jī)能夠更加自動(dòng)適應(yīng)操作者[1]。過(guò)去的研究者在進(jìn)行語(yǔ)音信號(hào)處理時(shí),把語(yǔ)音中這部分信息作為噪聲通過(guò)規(guī)則化處理給去掉了。隨著近年來(lái)對(duì)情感識(shí)別研究的深入,研究者逐漸意識(shí)到這些情感信息的重要性,開(kāi)始進(jìn)行專門(mén)研究分析,并將研究成果應(yīng)用到了各個(gè)領(lǐng)域,獲得了很好的經(jīng)濟(jì)和社會(huì)效益。

語(yǔ)音情感識(shí)別中最重要的是分類算法,應(yīng)用最廣泛的模式分類器有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(jī)(Support Vector Mechine,SVM)及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等[2]。作為初期計(jì)算性能較好的算法,HMM 以一階Markov 鏈為基礎(chǔ)發(fā)展起來(lái),有不可見(jiàn)狀態(tài)和可見(jiàn)狀態(tài)兩種常規(guī)狀態(tài),是雙重隨機(jī)過(guò)程[3]。Nwe 等[4]通過(guò)HMM 對(duì)六種情感進(jìn)行判斷、預(yù)測(cè),最終在緬甸語(yǔ)料庫(kù)的識(shí)別率達(dá)到78%。GMM[5]是一種單狀態(tài)的隱性馬爾可夫模型,由于它結(jié)構(gòu)簡(jiǎn)單所以被廣泛用于各種語(yǔ)音信號(hào)分類中。GMM 作為統(tǒng)計(jì)模型能吸收不同語(yǔ)音信號(hào)的聲學(xué)特性的變動(dòng)[6],但由于該模型采用狀態(tài)輸出獨(dú)立假設(shè),影響了其描述語(yǔ)音信號(hào)時(shí)間上的幀間相關(guān)動(dòng)態(tài)特性的能力。本文提出了一種采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法來(lái)彌補(bǔ)傳統(tǒng)GMM 語(yǔ)音幀間相關(guān)動(dòng)態(tài)信息利用不足的問(wèn)題。然而要很好地利用復(fù)數(shù)幀段輸入GMM的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí),GMM 輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題。對(duì)此,提出一種基于主分量分析神經(jīng)網(wǎng)絡(luò)(Principal Components Analysis Neural Network,PCANN)[7]和GMM 混合結(jié)構(gòu)的語(yǔ)音情感識(shí)別方法,在GMM 的前端增加了一個(gè)用于語(yǔ)音參數(shù)壓縮的主分量分析神經(jīng)網(wǎng)絡(luò),既改善了狀態(tài)輸出獨(dú)立GMM 的缺陷,又解決了上述問(wèn)題。

1 高斯混合模型GMM

一個(gè)具有M個(gè)成員的GMM 的概率密度可由M個(gè)高斯概率密度函數(shù)的加權(quán)求和得到,由下式表示[8-9]:

這里x是D維的輸入隨機(jī)向量;bi(x)(i=1,2,…,M)是第i個(gè)成員的高斯概率密度函數(shù);wi(i=1,2,…,M)是i個(gè)成員權(quán)值系數(shù)。完整的GMM 可表示為:λ={wi,μi,Σi}(i=1,2,…,M),其中μi表示第i個(gè)成員的平均值向量,Σi表示第i個(gè)成員的協(xié)方差矩陣。每個(gè)成員密度函數(shù)是一個(gè)D維的高斯分布函數(shù),可由如下表示:

對(duì)于一個(gè)長(zhǎng)度為T(mén)的測(cè)試輸入時(shí)間序列X=(x1,x2,…,xT),它的GMM 似然概率可以表示為:

或用對(duì)數(shù)域表示為:

假設(shè)有N個(gè)未知類別,分類時(shí)運(yùn)用貝葉斯定理,在N個(gè)未知類別的模型中,得到似然概率最大的模型對(duì)應(yīng)的類別即為識(shí)別結(jié)果:

2 主分量分析神經(jīng)網(wǎng)絡(luò)的原理和算法

主分量分析(Principal Components Analysis,PCA)是一種機(jī)器學(xué)習(xí)算法[10]。主要是通過(guò)協(xié)方差矩陣將原來(lái)維數(shù)較高的具有一定相關(guān)性的數(shù)據(jù),線性組合成維數(shù)較少的互不相關(guān)的數(shù)據(jù)[11-12]。利用復(fù)數(shù)幀段輸入GMM 的關(guān)鍵是要解決當(dāng)輸入特征參數(shù)矢量的維數(shù)增加時(shí),輸出概率密度函數(shù)協(xié)方差矩陣的估計(jì)誤差以及計(jì)算量增大的問(wèn)題,在GMM 的前端增加了一個(gè)語(yǔ)音參數(shù)壓縮的PCANN。圖1 所示是能夠提取前m個(gè)主分量的PCANN 結(jié)構(gòu)圖[7]。

圖1 提取m 個(gè)主分量的神經(jīng)網(wǎng)絡(luò)

式中:η為增益因子,η的選取決定網(wǎng)絡(luò)收斂的快慢。k為迭代次數(shù)。可以證明,按照公式(6)進(jìn)行權(quán)值迭代更新,網(wǎng)絡(luò)收斂后,m個(gè)輸出的權(quán)值向量位于樣本協(xié)方差矩陣的前m個(gè)最大特征值對(duì)應(yīng)的特征矢量方向上。利用上述算法提取的多個(gè)主分量,在理論上已經(jīng)能保證各權(quán)向量的正交性,但實(shí)際應(yīng)用中發(fā)現(xiàn)算法收斂太慢,迭代次數(shù)太多。因此實(shí)驗(yàn)中我們?cè)谟?xùn)練一定次數(shù)以后強(qiáng)制進(jìn)行一次正交化,從而既可使訓(xùn)練時(shí)間大大減少,又能保證得到較好的識(shí)別效果。權(quán)值的正交化采用格蘭姆-施密特規(guī)則,設(shè)第i+1 個(gè)權(quán)向量經(jīng)去冗余法提取后為:

利用‖Wj‖=1,可得:

對(duì)其進(jìn)行歸一化可得:

有了第i個(gè)權(quán)向量,即可得第i個(gè)主分量:yi=。

復(fù)數(shù)幀段GMM 的輸入是由相繼的復(fù)數(shù)幀特征參數(shù)矢量按順序組合成的一個(gè)復(fù)合特征參數(shù)矢量,每個(gè)復(fù)數(shù)幀段特征參數(shù)的段移為一幀。這些復(fù)數(shù)幀段特征參數(shù)作為語(yǔ)音輸入特征數(shù)據(jù)在模型訓(xùn)練和識(shí)別時(shí)使用。

3 實(shí)驗(yàn)和結(jié)果

本文使用的語(yǔ)音情感數(shù)據(jù)庫(kù)是免費(fèi)的柏林情感語(yǔ)音庫(kù),其采樣頻率為16 kHz,16 bit 量化[14]。該語(yǔ)音庫(kù)分別由十名專業(yè)演員(5 男,5 女)在不同情感狀態(tài)下(高興、無(wú)聊、中性、悲傷、恐懼、厭惡、生氣)朗讀十句不同文本的德語(yǔ)組成。本實(shí)驗(yàn)選取其中的高興、中性、悲傷、恐懼、厭惡、生氣六種情感的語(yǔ)句各60 條。其中每種情感選30 條作為訓(xùn)練樣本,另外30 條作為待識(shí)別樣本,而且訓(xùn)練樣本和待識(shí)別樣本中,男女聲音樣本比例基本為1 ∶1,來(lái)驗(yàn)證復(fù)數(shù)幀段輸入GMM 在語(yǔ)音情感識(shí)別中的識(shí)別效果。

語(yǔ)音情感識(shí)別特征選取部分語(yǔ)音韻律特征和音質(zhì)特征及其衍生參數(shù)共23 個(gè)特征參數(shù),構(gòu)成用于識(shí)別的情感特征向量:特征1~5 維:短時(shí)幅度的均值、最大值、最小值、中值、方差;特征6~10 維:短時(shí)能量的均值、最大值、最小值、中值、方差;特征11~14 維:短時(shí)過(guò)零率的均值、最大值、中值、方差;特征15~18維:短時(shí)基音頻率的均值、最大值、中值、方差;特征19~23 維:短時(shí)共振峰頻率的均值、最大值、最小值、中值、方差。

評(píng)價(jià)上述PCANN/GMM 混合結(jié)構(gòu)語(yǔ)音情感識(shí)別方法的識(shí)別實(shí)驗(yàn)主要是把傳統(tǒng)的狀態(tài)輸出獨(dú)立GMM 和PCANN/GMM 混合結(jié)構(gòu)模型進(jìn)行識(shí)別準(zhǔn)確率比較。PCANN/GMM 模型的輸入分別采用2 幀、4 幀和6 幀長(zhǎng)度的復(fù)數(shù)幀。識(shí)別結(jié)果如表1~表4所示,識(shí)別率采用四舍五入法取整數(shù)。

由表1~ 表4 的識(shí)別測(cè)試結(jié)果可以看出,PCANN/GMM 的識(shí)別效果比狀態(tài)輸出獨(dú)立GMM好,識(shí)別率均有所提高。2 幀、4 幀和6 幀寬度PCANN/GMM 的平均識(shí)別率分別為76.3%、84.2%和81.2%,幾種情況中,對(duì)“生氣”的情感識(shí)別率普遍較高。另外,4 幀寬度PCANN/GMM 的識(shí)別率最高,4 幀的語(yǔ)音長(zhǎng)度能較好地描述幀之間的動(dòng)態(tài)特性,幀數(shù)太少,不能較全面完整地利用幀間的特性,隨著幀數(shù)的增加,幀之間的情感相關(guān)性隨之減弱,有時(shí)甚至?xí)l(fā)生情感的轉(zhuǎn)變,從而影響識(shí)別率。

表1 狀態(tài)獨(dú)立輸出GMM 情感識(shí)別結(jié)果

表2 2 幀寬度GMM 情感識(shí)別結(jié)果

表3 4 幀寬度GMM 情感識(shí)別結(jié)果

表4 6 幀寬度GMM 情感識(shí)別結(jié)果

4 結(jié)論

語(yǔ)音情感識(shí)別作為情感計(jì)算中的一個(gè)重要方面,目的是要讓計(jì)算機(jī)能夠理解人類語(yǔ)音中所傳遞的情感信息。而由于情感信息的社會(huì)性、文化性,以及語(yǔ)音信號(hào)自身的復(fù)雜性,語(yǔ)音情感識(shí)別中尚有許多問(wèn)題需要解決,特別是符合人腦認(rèn)知結(jié)構(gòu)與認(rèn)知心理學(xué)機(jī)理的情感信息處理算法。本文將主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型相結(jié)合,研究了其在語(yǔ)音情感識(shí)別中的學(xué)習(xí)能力和識(shí)別效果。針對(duì)高興、生氣、厭惡、悲傷、恐懼和中性六種基本情感,提取了包括韻律特征與音質(zhì)特征在內(nèi)的23 個(gè)情感特征。語(yǔ)音情感識(shí)別實(shí)驗(yàn)證實(shí)了引入幀間相關(guān)動(dòng)態(tài)信息方法的有效性。建立一個(gè)高效合理的語(yǔ)言情感識(shí)別模型仍是研究重點(diǎn),今后需要進(jìn)一步探討主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型的結(jié)合,特別是優(yōu)化神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)方面還存在許多尚未解決的問(wèn)題。

猜你喜歡
特征參數(shù)復(fù)數(shù)識(shí)別率
評(píng)析復(fù)數(shù)創(chuàng)新題
故障診斷中信號(hào)特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
求解復(fù)數(shù)模及最值的多種方法
數(shù)系的擴(kuò)充和復(fù)數(shù)的引入
復(fù)數(shù)
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
中宁县| 万山特区| 西吉县| 瑞丽市| 视频| 托里县| 梓潼县| 鱼台县| 灯塔市| 丹巴县| 壶关县| 崇左市| 伊金霍洛旗| 武清区| 灯塔市| 定陶县| 织金县| 江安县| 临洮县| 绥化市| 宝应县| 宁夏| 安龙县| 万州区| 宣汉县| 萍乡市| 公主岭市| 定陶县| 综艺| 临清市| 乌鲁木齐县| 象州县| 德清县| 遵义市| 新晃| 兰西县| 仙居县| 浦江县| 丹阳市| 鄂托克旗| 普兰店市|