国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PAD模型的級(jí)聯(lián)分類(lèi)情感語(yǔ)音識(shí)別

2018-09-21 11:39張雪英
關(guān)鍵詞:級(jí)聯(lián)識(shí)別率韻律

張雪英,張 婷,孫 穎,張 衛(wèi)

(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)

語(yǔ)音作為人類(lèi)日常交流的主要方式,其中所攜帶的情感信息越來(lái)越受到研究者的重視。情感語(yǔ)音識(shí)別在人機(jī)交互、模式識(shí)別和人工智能等領(lǐng)域具有廣泛應(yīng)用前景,開(kāi)展情感語(yǔ)音識(shí)別研究對(duì)于人類(lèi)社會(huì)的進(jìn)步與發(fā)展具有重要意義[1]。在語(yǔ)音情感識(shí)別研究中,提高識(shí)別率主要有兩個(gè)研究方向[2]。一是改進(jìn)情感語(yǔ)音特征的提取方式或者選取方式;在情感語(yǔ)音識(shí)別中,常用的聲學(xué)特征一般包括有聲學(xué)參數(shù)的統(tǒng)計(jì)特征、時(shí)序特征等[3]。二是改進(jìn)分類(lèi)方法或者選取更適合的分類(lèi)方法;在情感識(shí)別方法的研究上,多種模式識(shí)別的分類(lèi)方法均可用于情感識(shí)別[4]:如人工神經(jīng)網(wǎng)絡(luò)ANN(artificial neural network)[5]、隱馬爾科夫模型HMM(hidden markov models)、高斯混合模型GMM(gaussian mixture models)、支持向量機(jī)SVM(support vector machines)等。相較于其他模式識(shí)別算法,SVM是在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上建立起來(lái)的,而且可以克服小樣本數(shù)據(jù)和非線(xiàn)性問(wèn)題,具有良好的情感分類(lèi)能力。近年來(lái),SVM 被廣泛應(yīng)用于語(yǔ)音情感識(shí)別中,是一種有效的語(yǔ)音情感識(shí)別分類(lèi)器[6]。

本文在TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù)的基礎(chǔ)上,提出了聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類(lèi)方法。首先根據(jù)前期PAD標(biāo)注實(shí)驗(yàn)的數(shù)據(jù)結(jié)果[7],將4類(lèi)情感中混淆度高的情感按照愉悅度值高低劃分為2類(lèi),其次在此基礎(chǔ)上使用SVM識(shí)別網(wǎng)絡(luò)分別識(shí)別高低愉悅度的情感,然后在已區(qū)分高低愉悅度的基礎(chǔ)上再次使用SVM識(shí)別網(wǎng)絡(luò),最終實(shí)現(xiàn)對(duì)4種情感的分類(lèi),情感分類(lèi)識(shí)別率較傳統(tǒng)僅使用聲學(xué)特征的分類(lèi)識(shí)別率提高了15.4%.

1 情感語(yǔ)音數(shù)據(jù)庫(kù)及三維情感模型

1.1 情感語(yǔ)音數(shù)據(jù)庫(kù)

本文采用的太原理工大學(xué)數(shù)字音視頻技術(shù)研究中心前期建立的TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)首先采用截取廣播劇的方式,包含“高興、憤怒、悲傷、驚奇”4種情感類(lèi)別共237句的摘引型離散情感語(yǔ)音數(shù)據(jù)庫(kù)。后期在原有的離散情感語(yǔ)音數(shù)據(jù)庫(kù)的基礎(chǔ)上,根據(jù)PAD三維情感模型,通過(guò)心理學(xué)實(shí)驗(yàn)的方法對(duì)情感語(yǔ)音進(jìn)行標(biāo)注,建立了維度情感語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中每句語(yǔ)音都有對(duì)應(yīng)的PAD值,為后續(xù)的識(shí)別實(shí)驗(yàn)奠定了數(shù)據(jù)基礎(chǔ)[7]。

1.2 PAD三維情感模型

情感可以用連續(xù)變化的維度表示,情感維度理論通常將不同的情感映射到一個(gè)多維空間中的一個(gè)點(diǎn),該點(diǎn)的空間坐標(biāo)對(duì)應(yīng)標(biāo)識(shí)某一種情感。其中PAD三維情感模型被廣泛認(rèn)可[8]。該模型由UCLA大學(xué)的MEHRABIAN開(kāi)發(fā),采用語(yǔ)義差異評(píng)價(jià)方法將情感分為三個(gè)維度,它們分別是:反應(yīng)說(shuō)話(huà)者情感狀態(tài)的正負(fù)特征的愉悅度P(Pleasure-displeasure);反應(yīng)說(shuō)話(huà)者神經(jīng)生理的激活程度是主動(dòng)的還是被動(dòng)的激活度A(Arousal-nonarousal);反應(yīng)說(shuō)話(huà)者對(duì)情境和他人的控制欲望強(qiáng)弱的優(yōu)勢(shì)度D(Dominance-submissiveness)。三維情感模型是對(duì)情感空間的理論描述,建立了情感空間中不同情緒范疇的定位和關(guān)系,使不同的情感可以映射到三維空間中。根據(jù)文獻(xiàn)[7]標(biāo)注實(shí)驗(yàn)得出的PAD數(shù)據(jù),將悲傷、憤怒、高興、驚奇4種情感分布在三維情感空間,如圖1所示。

圖1 4種情感狀態(tài)在PAD三維情感空間上的分布Fig.1 Distribution of four emotional states in PAD three-dimensional emotional space

2 情感語(yǔ)音特征

采用何種有效的語(yǔ)音特征參數(shù)用于情感識(shí)別對(duì)于語(yǔ)音情感識(shí)別研究至關(guān)重要,情感語(yǔ)音特征參數(shù)的優(yōu)劣直接決定情感最終識(shí)別結(jié)果的好壞。目前用于情感語(yǔ)音識(shí)別的聲學(xué)特征大致可歸納為韻律學(xué)特征、基于譜的相關(guān)特征和音質(zhì)特征這3種類(lèi)型[9]。韻律學(xué)特征在情感語(yǔ)音識(shí)別領(lǐng)域已經(jīng)得到研究者的廣泛認(rèn)可[10]。文獻(xiàn)[11]研究了Mel頻率倒譜系數(shù)(mel-frequency cepstrum coefficient,MFCC)和基頻、能量、發(fā)音持續(xù)時(shí)間與三維情感空間之間的關(guān)系,結(jié)果表明MFCC參數(shù)與三維情感空間的相關(guān)性最高。所以本文主要提取情感語(yǔ)音的韻律特征和MFCC特征用于情感語(yǔ)音識(shí)別。

2.1 韻律特征

韻律特征可以分為3個(gè)主要方面:音高、強(qiáng)度以及時(shí)間特性。通過(guò)測(cè)量相應(yīng)提取輪廓的統(tǒng)計(jì)值來(lái)獲得特征。 其中平均值、中值、最小值、最大值和方差是最常用的統(tǒng)計(jì)值。本文從語(yǔ)音信號(hào)中提取了38維韻律特征。對(duì)應(yīng)的韻律特征及統(tǒng)計(jì)參數(shù)如表1所示。

表1 韻律特征及統(tǒng)計(jì)參數(shù)Table 1 Prosodic features and statistical parameters

2.2 MFCC特征

MFCC特征是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,符合人類(lèi)的聽(tīng)覺(jué)特性,不僅能很好地度量語(yǔ)音頻譜的能量包絡(luò),同時(shí)倒譜運(yùn)算具有良好的解卷性能,因此MFCC特征廣泛地應(yīng)用于情感語(yǔ)音識(shí)別、說(shuō)話(huà)人識(shí)別、音頻和音樂(lè)分類(lèi)方面?;谝陨咸匦裕疚奶崛×薓FCC前12階的偏度、峰度、均值、方差、中值共60維特征用于識(shí)別實(shí)驗(yàn)。

3 識(shí)別實(shí)驗(yàn)

在本節(jié)的識(shí)別實(shí)驗(yàn)中,首先通過(guò)3組對(duì)比實(shí)驗(yàn),分別比較了僅使用韻律特征的分類(lèi)識(shí)別率、僅使用MFCC特征的分類(lèi)識(shí)別率及將2種特征組合的分類(lèi)識(shí)別率。數(shù)據(jù)庫(kù)使用TYUT2.0情感語(yǔ)音數(shù)據(jù)庫(kù),對(duì)“悲傷”、“憤怒”、“高興”、“驚奇”4種情感語(yǔ)音進(jìn)行分類(lèi)識(shí)別。利用支持向量機(jī)SVM[12]識(shí)別情感語(yǔ)音采用十折交叉驗(yàn)證(10-fold cross validation)的測(cè)試方法。所有語(yǔ)句被平均分為10份,識(shí)別實(shí)驗(yàn)也相應(yīng)地進(jìn)行10次,輪流將其中9份作為訓(xùn)練集,1份作為測(cè)試集。取10次實(shí)驗(yàn)結(jié)果的正確率的平均值作為識(shí)別結(jié)果。采用交叉驗(yàn)證測(cè)試方法能夠有效地降低隨機(jī)因素的影響 ,提高識(shí)別結(jié)果的可信度。

3.1 韻律特征分類(lèi)

單獨(dú)運(yùn)用韻律特征對(duì)情感語(yǔ)音進(jìn)行分類(lèi)識(shí)別,混淆矩陣如表2所示。

表2 單獨(dú)使用韻律特征的情感識(shí)別混淆矩陣Table 2 Emotion recognition confusion matrix using prosodic features alone %

整體平均識(shí)別率是58.6%,其中“憤怒”的識(shí)別率最低,僅達(dá)到51.8%.此外,單獨(dú)運(yùn)用韻律特征時(shí),“憤怒—高興”的混淆率、“憤怒—驚奇”的混淆率較高。實(shí)驗(yàn)數(shù)據(jù)顯示,“悲傷”的識(shí)別率最佳達(dá)到64.5%;這是由于在TYUT2.0數(shù)據(jù)庫(kù)中,“悲傷”情感語(yǔ)音的發(fā)音較為緩慢,并且停頓時(shí)間較長(zhǎng),因此語(yǔ)速特征能夠較好的識(shí)別“悲傷”情感。

3.2 MFCC特征分類(lèi)

單獨(dú)運(yùn)用MFCC特征對(duì)情感語(yǔ)音進(jìn)行分類(lèi)識(shí)別,混淆矩陣如表3所示。

整體平均識(shí)別率是62.3%.通過(guò)實(shí)驗(yàn)可以看到單獨(dú)運(yùn)用MFCC特征,“憤怒”和“驚奇”的識(shí)別率得到了明顯提高,“憤怒”識(shí)別率提高了10.3%,“驚奇”識(shí)別率提高了10%.由此提出假設(shè),MFCC特征中是否包含著一些韻律特征所不包含的特征信息,如果將這2種特征組合是否能提高分類(lèi)識(shí)別率。

表3 單獨(dú)使用MFCC特征的情感識(shí)別混淆矩陣Table 3 Emotion recognition confusion matrix using MFCC features alone %

3.3 MFCC和韻律特征組合特征集分類(lèi)

將MFCC和韻律特征組合進(jìn)行分類(lèi)識(shí)別,混淆矩陣如表4所示。整體平均識(shí)別率達(dá)到67.5%.相較于單獨(dú)運(yùn)用韻律特征和MFCC特征,識(shí)別率有一定程度的提高。

表4 運(yùn)用韻律特征和MFCC特征組合的情感識(shí)別混淆矩陣Table 4 Using prosodic feature and MFCC feature combinationof emotion recognition confusion matrix %

由以上3組實(shí)驗(yàn)可以看出由韻律特征和MFCC特征組合的分類(lèi)識(shí)別率相比之下最好,分析原因是兩種特征的組合減弱了由于單一特征無(wú)法全面描述情感信息而導(dǎo)致的識(shí)別率低的缺點(diǎn),在情感識(shí)別應(yīng)用中具有互補(bǔ)性,因此可以在一定程度上提升分類(lèi)識(shí)別結(jié)果。韻律特征和MFCC特征的組合特征是后續(xù)級(jí)聯(lián)分類(lèi)實(shí)驗(yàn)的特征基礎(chǔ)。

3.4 級(jí)聯(lián)分類(lèi)

之前的分類(lèi)識(shí)別方法僅僅是將聲學(xué)特征簡(jiǎn)單地組合在一起,并沒(méi)有考慮到哪種類(lèi)型特征能更好的對(duì)情感進(jìn)行分類(lèi)識(shí)別,文獻(xiàn)[7]中標(biāo)注實(shí)驗(yàn)得出的4類(lèi)情感語(yǔ)音的PAD數(shù)據(jù)如表5所示,可以看出在P(愉悅度)上分?jǐn)?shù)呈現(xiàn)明顯的高低差異,且在此維度上能夠很好的區(qū)分“憤怒—高興”和“憤怒—驚奇”這兩組混淆率較高的情感。據(jù)此將“悲傷”和“憤怒”2

表5 4種情感的PAD值Table 5 PAD value of four types emotion

種情感標(biāo)記成“低”,“高興”和“驚奇”2種情感標(biāo)記成“高”。

圖2是級(jí)聯(lián)分類(lèi)流程圖,將分類(lèi)過(guò)程分為2個(gè)步驟。在第一階段中將“悲傷”、“憤怒”、“高興”、“驚奇”4種情感按照表5的高低分?jǐn)?shù)標(biāo)注分為兩類(lèi):一類(lèi)為“悲傷”、“憤怒”,這2種情感具有較低的愉悅度;另一類(lèi)為“高興”、“驚奇”,這兩種情感具有較高的愉悅度。將聲學(xué)特征組合與愉悅度情感維度的高低分類(lèi)相結(jié)合,利用SVM分類(lèi)器Ⅰ來(lái)區(qū)分高愉悅度情感和低愉悅度情感,如表6混淆矩陣所示,分類(lèi)識(shí)別率達(dá)到了97.5%.

圖2 級(jí)聯(lián)分類(lèi)流程圖Fig.2 Cascading classification flowchart

第二階段是在第一階段的基礎(chǔ)上,對(duì)于已經(jīng)分類(lèi)的高低不同的愉悅度的情感語(yǔ)音進(jìn)一步分類(lèi)識(shí)別。同樣運(yùn)用SVM分類(lèi)器Ⅱ來(lái)區(qū)分高愉悅度情感中的“高興”、“驚奇”,而SVM分類(lèi)器Ⅲ來(lái)區(qū)分低愉悅度情感中的“悲傷”、“憤怒”。每一步的分類(lèi)器都使用一個(gè)二進(jìn)制SVM分類(lèi)。表7和表8分別顯示了第二步的分類(lèi)識(shí)別結(jié)果。

表6 高低愉悅度情感分類(lèi)識(shí)別結(jié)果混淆矩陣Table 6 High and low pleasure emotion classification recognition result confusion matrix %

表7 低愉悅度情感分類(lèi)識(shí)別結(jié)果混淆矩陣Table 7 Low pleasure emotion classification recognition result confusion matrix %

表8 高愉悅度情感分類(lèi)識(shí)別結(jié)果混淆矩陣Table 8 High pleasure emotion classification recognition result confusion matrix %

通過(guò)將圖2兩個(gè)步驟組合起來(lái),得到總體分類(lèi)識(shí)別率的混淆矩陣如表9所示,平均分類(lèi)識(shí)別率達(dá)到82.9%.可以看出本文提出的級(jí)聯(lián)分類(lèi)方法無(wú)論在4種情感的識(shí)別率還是平均識(shí)別率都有很大程度的提高,尤其是在情感“高興”、“憤怒”中的表現(xiàn)尤為突出,級(jí)聯(lián)分類(lèi)識(shí)別率相較于運(yùn)用韻律特征和MFCC特征組合的分類(lèi)識(shí)別率得到了明顯提高,識(shí)別率提高了15.4%.

表9 級(jí)聯(lián)分類(lèi)識(shí)別結(jié)果混淆矩陣Table 9 Cascading classification recognition results confusion matrix %

圖3 識(shí)別結(jié)果對(duì)比圖Fig.3 Recognition result contrast diagram

圖3直觀地展示了僅用傳統(tǒng)的聲學(xué)特征和本文提出的將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類(lèi)方法識(shí)別率對(duì)比結(jié)果。由圖3可以明顯看出,通過(guò)將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類(lèi)方法,各類(lèi)情感的識(shí)別率均有提高,尤其對(duì)于“高興”情感來(lái)說(shuō),識(shí)別率提高了26.3%.

4 結(jié)論

針對(duì)運(yùn)用聲學(xué)特征(韻律特征和MFCC特征)對(duì)情感語(yǔ)音的分類(lèi)識(shí)別性能不理想的問(wèn)題,提出了將聲學(xué)特征與情感語(yǔ)音PAD數(shù)據(jù)相結(jié)合的級(jí)聯(lián)分類(lèi)方法。從三維空間情感模型出發(fā),將聲學(xué)特征和PAD三維情感模型中對(duì)情感區(qū)分度最強(qiáng)的愉悅度相結(jié)合,通過(guò)SVM分類(lèi)識(shí)別網(wǎng)絡(luò),在每一步的識(shí)別中逐漸減少樣本數(shù)目,使得后一個(gè)分類(lèi)器總比前一個(gè)分類(lèi)器有更精確的分類(lèi)。整體識(shí)別率提高了15.4%;尤其對(duì)于“高興”情感來(lái)說(shuō),識(shí)別率提高了26.3%,可達(dá)94.7%;其他情感的識(shí)別率也大幅提高。以上分析結(jié)果表明,本文提出的級(jí)聯(lián)分類(lèi)的方法與傳統(tǒng)的情感語(yǔ)音識(shí)別方法相比有明顯的優(yōu)勢(shì),為語(yǔ)音情感識(shí)別提供了一種可靠可行的方法。但通過(guò)實(shí)驗(yàn)結(jié)果可以看出,最終結(jié)果中的一些情感的混淆率仍然很大。因此在今后的研究工作中,需要進(jìn)一步探究語(yǔ)音的情感特征與PAD三個(gè)維度的相關(guān)性,提取相關(guān)性高的情感特征,更有針對(duì)性地減少混淆率,從而有效提高情感識(shí)別率。

猜你喜歡
級(jí)聯(lián)識(shí)別率韻律
鈾濃縮廠(chǎng)級(jí)聯(lián)系統(tǒng)核安全分析
書(shū)的國(guó)度
春天的韻律
基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
基于閱讀韻律的高中英語(yǔ)默讀朗讀教學(xué)實(shí)踐
聽(tīng)力正常青年人的低通濾波言語(yǔ)測(cè)試研究*
富集中間組分同位素的級(jí)聯(lián)
—— “T”級(jí)聯(lián)
提升高速公路MTC二次抓拍車(chē)牌識(shí)別率方案研究
偶感
檔案數(shù)字化過(guò)程中OCR技術(shù)的應(yīng)用分析
中山市| 团风县| 平凉市| 昌江| 武安市| 黎平县| 浦东新区| 琼中| 西乌珠穆沁旗| 咸丰县| 安泽县| 茌平县| 巫溪县| 巴林左旗| 博兴县| 海丰县| 堆龙德庆县| 新民市| 闸北区| 友谊县| 静海县| 拉孜县| 兖州市| 稻城县| 利川市| 黎城县| 赣榆县| 昌江| 丘北县| 乌海市| 治县。| 武川县| 汉川市| 和静县| 大丰市| 长岛县| 金沙县| 武川县| 且末县| 棋牌| 定日县|