国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多操作網(wǎng)絡(luò)的圖式多域語音情感識(shí)別研究

2022-07-14 13:10張會(huì)云黃鶴鳴
計(jì)算機(jī)工程 2022年7期
關(guān)鍵詞:多域語音矩陣

張會(huì)云,黃鶴鳴

(1.青海師范大學(xué) 計(jì)算機(jī)學(xué)院,西寧 810008;2.藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室,西寧 810008;3.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,西寧 810008;4.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,西寧 810008)

0 概述

情感被認(rèn)為是對(duì)生存[1]或機(jī)體行為[2]有關(guān)情況的典型反應(yīng)[3]。在幾乎所有關(guān)于情感的理論解釋中,感覺加工有著非常重要的作用[4-6],但是神經(jīng)科學(xué)的觀點(diǎn)認(rèn)為,情感是由大腦的特定區(qū)域驅(qū)動(dòng)的,例如,在邊緣系統(tǒng)[7]和相關(guān)的皮層下回路[8]中,神經(jīng)回路被認(rèn)為是專門處理諸如恐懼和悲傷等情感類別的。根據(jù)上述觀點(diǎn),感覺皮層的活動(dòng)被認(rèn)為是情感的先決條件,而聽覺作為一級(jí)感覺區(qū),對(duì)情感信息的加工具有至關(guān)重要的作用[9]。

語音情感識(shí)別是指計(jì)算機(jī)以幀為單位對(duì)情感信號(hào)進(jìn)行特征提取,模擬人類感知并理解人類情感,進(jìn)而推斷語音情感類型的一種技術(shù)[10]。常用的語音情感識(shí)別(Speech Emotion Recognition,SER)方法是在標(biāo)注的數(shù)據(jù)庫上訓(xùn)練和測(cè)試分類器,或者將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行交叉驗(yàn)證[11]。通過這種方式,識(shí)別模型在特定的說話群體、語言與情感類別等方面都取得了很好的性能。但這種識(shí)別模型能在多大程度上推廣到不同交互場(chǎng)景和語言中還不能得出結(jié)論。

近年來,研究人員致力于多域語音情感識(shí)別研究。文獻(xiàn)[12]對(duì)多域語音情感識(shí)別進(jìn)行了初步探索,在不同語料庫組合而成的訓(xùn)練集上驗(yàn)證了6 種語音情感的識(shí)別性能,但由于不清楚哪些因素對(duì)識(shí)別結(jié)果產(chǎn)生影響,因此對(duì)識(shí)別結(jié)果的解釋相對(duì)模糊;文獻(xiàn)[13]對(duì)來自4 個(gè)語系的8 種語言進(jìn)行研究,結(jié)果表明多域情感識(shí)別是可行的;文獻(xiàn)[14]提出一種基于語言識(shí)別和模型選擇的多域語音情感分類方法,在多域語音情感數(shù)據(jù)庫上驗(yàn)證了模型的識(shí)別性能;文獻(xiàn)[15]結(jié)合兩種語言進(jìn)行語音情感識(shí)別研究,利用直方圖均衡化消除跨域語音情感表達(dá)之間的差異。

關(guān)于多域語音情感識(shí)別模型的分類性能,目前很難與其他多域語音情感識(shí)別模型在同一基準(zhǔn)下進(jìn)行比較,因?yàn)槎嘤蛘Z音情感識(shí)別研究在諸如情感類別、訓(xùn)練集和測(cè)試集的劃分、潛在的情感概念(離散情感或連續(xù)喚醒/效價(jià)維度)等方面沒有統(tǒng)一標(biāo)準(zhǔn)[16],且目前各種多域語音情感識(shí)別研究至少在一個(gè)方面有所不同,因此,無法在同一基準(zhǔn)下進(jìn)行分類性能的比較。目前,對(duì)于多域和跨域語音情感識(shí)別[17]往往以單域語音情感識(shí)別為基線進(jìn)行性能比較。

基于已有研究及上述問題,本文構(gòu)建多域語音情感數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS 及Hybrid-CES,通過多操作運(yùn)算實(shí)現(xiàn)韻律特征和譜特征等低級(jí)描述符的高級(jí)統(tǒng)計(jì)函數(shù)特征的融合,提出一種新穎的圖式層級(jí)多操作網(wǎng)絡(luò)(Hierarchical Multi-operation Network,HMN)模型。最后通過實(shí)驗(yàn)驗(yàn)證HMN 模型在多域語音情感數(shù)據(jù)庫上的分類性能、魯棒性和泛化性。

1 層級(jí)多操作網(wǎng)絡(luò)

隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)越來越復(fù)雜。與前饋網(wǎng)絡(luò)相比,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[18]能較好地處理序列數(shù)據(jù),但存在梯度消失或者梯度爆炸問題;而長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)和門控循環(huán)單元(Gated Recurrent Unit,GRU)能夠較好地解決梯度問題,同時(shí)對(duì)信息實(shí)現(xiàn)選擇性記憶[19]。為了更好地利用上下文語境信息,本文研究采用雙向長(zhǎng)短時(shí)記憶(Bi-LSTM)網(wǎng)絡(luò)和雙向門控循環(huán)單元(Bi-GRU)共同提取語音情感的時(shí)間序列信息[20],通過完整地表征語音情感特征,利用卷積操作提取語音空間信息[21-22]。同時(shí),采用Concate、Add 和Multiply 多操作運(yùn)算,更多地保留和突出原始語音的情感信息?;诖?,本文構(gòu)建了層級(jí)多操作網(wǎng)絡(luò)HMN,如圖1 所示。HMN 主要由兩個(gè)異構(gòu)并行分支和多操作層構(gòu)成。

圖1 層級(jí)多操作網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Hierarchical multi-operation network structure

首先在兩個(gè)異構(gòu)并行分支中,左分支由兩個(gè)同構(gòu)并行的一維卷積層構(gòu)成,卷積層的神經(jīng)元數(shù)量均為128;右分支由并行的Bi-GRU 層和Bi-LSTM 層構(gòu)成,GRU 和LSTM 的記憶單元數(shù)量均為64。設(shè)立左右分支的目的是將原始數(shù)據(jù)投影到不同的變換空間進(jìn)行計(jì)算,從而更準(zhǔn)確地表征語音的情感信息。

接著通過分層的多操作運(yùn)算將左右分支提取的不同特征進(jìn)行多重融合。左分支中有兩個(gè)子分支,將每一個(gè)子分支中的數(shù)據(jù)分別進(jìn)行Concate、Add 和Multiply 操作。其中,Concate 操作用于聯(lián)合特征矩陣,這種操作增加了描述原始數(shù)據(jù)的特征維數(shù),但每維特征對(duì)應(yīng)的信息并未增加;Add 操作疊加特征矩陣中對(duì)應(yīng)位置的元素,這種操作雖未增加原始數(shù)據(jù)特征維數(shù),但增加了每一維特征的信息量;Multiply操作將特征矩陣對(duì)應(yīng)位置元素進(jìn)行相乘,進(jìn)一步突出顯著性信息。對(duì)右分支中兩個(gè)子分支中的數(shù)據(jù)同樣進(jìn)行Concate、Add 和Multiply 操作。

最后融合左右分支中的信息,即將左右分支中Multiply 操作后得到的數(shù)據(jù)進(jìn)行Add 運(yùn)算,Concate操作后得到的數(shù)據(jù)進(jìn)行Add 運(yùn)算,Add 操作后的數(shù)據(jù)進(jìn)行Multiply 運(yùn)算,將得到的3 個(gè)運(yùn)算結(jié)果進(jìn)行Concate操作拼接成219×512維的特征,并采用Flatten 操作將其平滑為一維數(shù)組,輸入到神經(jīng)元個(gè)數(shù)分別為128 和64 的兩個(gè)全連接層中,最后采用Softmax 函數(shù)進(jìn)行分類。

HMN 模型中數(shù)據(jù)的流動(dòng)過程如下:1)將語音譜特征和韻律特征的高級(jí)統(tǒng)計(jì)函數(shù)值輸入異構(gòu)的兩個(gè)并行分支;2)將左右兩個(gè)分支的數(shù)據(jù)進(jìn)行多重融合;3)拼接左右兩個(gè)分支融合后的數(shù)據(jù),進(jìn)一步采取平滑操作后輸入到2 個(gè)全連接層;4)在輸出層進(jìn)行分類。

在模型HMN 中,卷積層的計(jì)算為:

其中:h1是第一個(gè)全連接層的輸出;F=[k1,k2,…,k512]是卷積核;N是濾波器個(gè)數(shù);S是步長(zhǎng)。

操作Concate、Add和Multiply的計(jì)算公式如式(2)~式(4)所示:

其中:Concate(?)拼接左右兩個(gè)分支的數(shù)據(jù)yL和yR;Add(?)對(duì)yL和yR的對(duì)應(yīng)元素求和;Multiply(?)將yL和yR的對(duì)應(yīng)元素相乘。

2 數(shù)據(jù)集描述

為了評(píng)估HMN 模型的性能,首先分別在自行構(gòu)建的4 個(gè)圖式多域數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES 上提取低級(jí)描述符(Low-Level Descriptor,LLD)特征[23]。其中,圖式指存在于記憶中的認(rèn)知結(jié)構(gòu)或知識(shí)結(jié)構(gòu)[3],本文采用圖式原理將單域數(shù)據(jù)集中的研究方法遷移到多域數(shù)據(jù)集中。其次計(jì)算LLD 特征的高級(jí)統(tǒng)計(jì)函數(shù)(Highlevel Statistical Functions,HSF)值[24]作為HMN 模型的輸入。

2.1 單域數(shù)據(jù)集

CASIA 是由中科院自動(dòng)化研究所錄制的中文語音情感數(shù)據(jù)庫[22]。該庫是由4 位說話人分別演繹高興(Happiness,H)、恐懼(Fear,F(xiàn))、悲 傷(Sadness,Sa)、生 氣(Anger,A)、驚 訝(Surprise,Su)和中性(Neural,N)6 類情感而錄制的。在公開的CASIA 庫中包含6 類情感,每類情感各200 條,共1 200 條情感語音。

EMO-DB 是由柏林工業(yè)大學(xué)錄制的德語語音情感數(shù)據(jù)庫[25]。由10 位說話人(5 男5 女)對(duì)10 個(gè)德語語句進(jìn)行中性(N)、生氣(A)、恐懼(F)、高興(H)、悲傷(Sa)、厭惡(Disgust,D)和無聊(Boredom,B)7 類情感演繹得到。每類情感的樣本數(shù)量依次為79、127、69、71、62、46、81,共535 個(gè)樣本。

SAVEE 是由4 名演員演繹生氣(A)、厭惡(D)、恐懼(F)、高興(H)、中性(N)、悲傷(Sa)以及驚訝(Su)7 類情感得到的表演型數(shù)據(jù)庫[26]。SAVEE 語音情感數(shù)量分布相對(duì)平衡,共有480 條情感樣本,除中性外,其余6 類情感均有60 條語句。

2.2 多域數(shù)據(jù)集

通過合并CASIA、EMO-DB 和SAVEE 3 個(gè)單域數(shù)據(jù)集構(gòu)建4 種圖式多域語音情感數(shù)據(jù)集Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES。其中,Hybrid-CE 由單域數(shù)據(jù)集CASIA[22]和EMODB[25]合并而成,Hybrid-ES 由單域數(shù)據(jù)集EMODB 和SAVEE[26]合并而成,Hybrid-CS 由單 域數(shù)據(jù)集CASIA 和SAVEE 合并而成,而Hybrid-CES 由單域數(shù)據(jù)集CASIA、EMODB 以及SAVEE 合并而成。

合并方式如下:將2 個(gè)或者3 個(gè)單域數(shù)據(jù)集合并為1 個(gè)新的多域數(shù)據(jù)集;將擬合并單域數(shù)據(jù)集共有的情感類別對(duì)應(yīng)的樣本合并,得到多域數(shù)據(jù)集的一類;若某類情感在某個(gè)單域數(shù)據(jù)集上獨(dú)有則單獨(dú)作為一類。例如,通過合并單域數(shù)據(jù)庫CASIA 和EMODB 構(gòu)建多域數(shù)據(jù)庫Hybrid-CE 時(shí),CASIA 包含6 類情感,EMODB 包含7 類情感,合并兩個(gè)數(shù)據(jù)集共有的高興、恐懼、悲傷、生氣、中性5 類情感,分別得到新構(gòu)建的Hybrid-CE 庫中5 類情感樣本;驚訝類情感僅出現(xiàn)在CASIA 庫中,而EMODB 庫中無此類情感,此時(shí)將驚訝類情感作為Hybrid-CE 庫的一類新的情感;同理,EMODB 庫中包含無聊和厭惡類情感,而CASIA 庫中無此類情感,則將無聊和厭惡作為Hybrid-CE 庫中2 個(gè)新的情感類別,最終Hybrid-CE 庫中包含8 個(gè)情感類別:即憤怒、無聊、恐懼、厭惡、高興、驚訝、中性、悲傷,如表1 所示。多域數(shù)據(jù)庫Hybrid-ES、Hybrid-CS 以及Hybrid-CES 的構(gòu)建方式與Hybrid-CE 類似。

表1 4 種多域語音情感數(shù)據(jù)庫的相關(guān)信息Table 1 Relevant information of four multi-domain speech emotion databases

表1 展示了本文所構(gòu)建的4 種多域語音情感數(shù)據(jù)庫的語言類型、說話人數(shù)、情感類別、每類情感中的樣本數(shù)及總樣本數(shù)等信息。

3 特征提取

韻律特征[27]和譜特征[28]是語音情感的主流特征,因此,本文提取了音高(Pitch)、調(diào)諧、過零率(Zero Crossing Rate,ZCR)等韻律特征以及梅爾頻率倒譜系數(shù)(Mel Frequency Ceptrum Cofficient,MFCC)、幅度(Amplitude)、譜重心(Centroid)、頻譜平坦度(Flatness)、色譜圖(Chroma)、梅爾頻譜(Mel)以及譜對(duì)比度(Contrast)等譜特征,并計(jì)算這些特征的高級(jí)統(tǒng)計(jì)函數(shù)值,將得到的219 維特征作為HMN 模型的輸入。所提取的低級(jí)描述符、高級(jí)統(tǒng)計(jì)函數(shù)特征以及相應(yīng)的維數(shù)如表2 所示。

表2 低級(jí)描述符與高級(jí)統(tǒng)計(jì)函數(shù)特征Table 2 Low level descriptors and high level statistical function feature

4 實(shí)驗(yàn)

單域數(shù)據(jù)庫EMODB、CASIA、SAVEE 以及由它們構(gòu)建的4 個(gè)多域數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS、Hybrid-CES均未提供單獨(dú)的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)。本文采用說話人無關(guān)(Speaker-Independent,SI)策略進(jìn)行訓(xùn)練:每類情感的所有樣本隨機(jī)等分為5 份,將其中的4 份作為訓(xùn)練數(shù)據(jù),剩余的1 份作為測(cè)試數(shù)據(jù)[29]。實(shí)驗(yàn)重復(fù)10次,采用平均準(zhǔn)確率(Average Accuracy,AA)、平均精確率(Average Precision,AP)、平均未加權(quán)召回率(Unweighted Average Recall,UAR)以及平均F1-得分(Average F1-score,AF)表征模型的整體性能。此外,采用混淆矩陣分析單個(gè)情感類別的識(shí)別精度。

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用一臺(tái)CPU 為40 核80 線程、內(nèi)存為64 GB 的高性能服務(wù)器進(jìn)行計(jì)算,使用RTX 2080 Ti GPU 進(jìn)行模型訓(xùn)練,根據(jù)深度學(xué)習(xí)框架Keras[30]搭建模型。采用的優(yōu)化器(Optimiser)為Adam,激活函數(shù)為L(zhǎng)eaky ReLU,批處理(Batch_size)大小為32,丟棄率(Dropout)為0.5,迭代周期(Epoch)為100。

4.2 實(shí)驗(yàn)分析

本文主要進(jìn)行了以下3 個(gè)方面的實(shí)驗(yàn):1)以單域語音情感識(shí)別為基線來驗(yàn)證多域語音情感識(shí)別的可行性;2)驗(yàn)證HMN 模型的魯棒性和泛化性;3)分析HMN 模型在多域語音情感數(shù)據(jù)庫上的性能。

4.2.1 多域語音情感識(shí)別的可行性驗(yàn)證

HMN 模型在單域與多域數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)得到的平均性能如表3 所示。

表3 HMN 模型在單域(基線)與多域語音情感數(shù)據(jù)庫上的性能對(duì)比Table 3 Performance comparison of HMN model on mono-domain(baseline)and multi-domain speech emotion database %

從表1 可以看出:

1)在單域數(shù)據(jù)庫上,HMN 模型在CASIA 庫上的性能最優(yōu),EMODB 次之,SAVEE 最差。數(shù)據(jù)庫之間存在的差異是導(dǎo)致模型在這些數(shù)據(jù)庫上識(shí)別性能存在差異的主要原因,例如:CASIA 庫僅有6 類情感,識(shí)別難度相對(duì)較低,而SAVEE 數(shù)據(jù)庫包含7 類情感且樣本較少,因此識(shí)別難度相對(duì)較高。

2)HMN 模型在本文構(gòu)建的4 類多域語音情感數(shù)據(jù)庫上均取得了較為可觀的識(shí)別結(jié)果,表明多域情感識(shí)別是可行的。具體而言,模型HMN 在Hybrid-CE 庫上性能最優(yōu),在Hybrid-CS、Hybrid-ES、Hybrid-CES 庫上性能較低,主要原因是這3 個(gè)庫中都包含了SAVEE 庫,而SAVEE 庫是一個(gè)視聽雙模態(tài)數(shù)據(jù)庫,僅使用音頻信息不能精確地表征情感。

與Hybrid-ES 相比,在Hybrid-CS 庫上的準(zhǔn)確率提升了18.63 個(gè)百分點(diǎn),原因是Hybrid-CS 庫僅包含7 類情感,識(shí)別難度降低,且該庫的樣本數(shù)量多于Hybrid-ES 庫,模型能得到充分訓(xùn)練。

3)HMN 模型在多域數(shù)據(jù)庫上的性能略低于在單域數(shù)據(jù)庫上的性能,主要原因是受情感類別數(shù)量和語言類型等因素的影響。

4)多域數(shù)據(jù)庫Hybrid-ES、Hybrid-CS 以及Hybrid-CES 上的性能均優(yōu)于SAVEE 庫,這是因?yàn)榛旌虾蟮臄?shù)據(jù)庫大幅增加了訓(xùn)練樣本數(shù)量,能夠更好地訓(xùn)練模型。

4.2.2 HMN 模型的魯棒性和泛化性驗(yàn)證

利用HMN 模型分別在3 個(gè)單域數(shù)據(jù)庫和4 個(gè)多域數(shù)據(jù)庫上進(jìn)行10 次實(shí)驗(yàn),得到HMN 在每個(gè)數(shù)據(jù)庫上對(duì)應(yīng)的箱線,如圖2 所示。其中,橫坐標(biāo)是7 類數(shù)據(jù)庫,縱坐標(biāo)是準(zhǔn)確率;在箱體的上方和下方各有一條線,分別表示一組數(shù)據(jù)中的最大值和最小值;箱體的高度在一定程度上反映了數(shù)據(jù)的波動(dòng)程度;箱體中間的一條虛線表示數(shù)據(jù)的中位數(shù);箱體的上下限分別是數(shù)據(jù)上四分位數(shù)和下四分位數(shù),這意味著箱體包含了50%的數(shù)據(jù);實(shí)心圓圈表示異常值。

圖2 HMN 模型在多域數(shù)據(jù)庫上的箱線圖Fig.2 Box-plot graph of HMN model on multi-domain database

從圖2可以看出:1)對(duì)于3個(gè)單域數(shù)據(jù)庫而言,模型在CASIA上的性能最高,而在SAVEE上的性能最差,平均性能最低,波動(dòng)程度較大;2)在多域數(shù)據(jù)庫Hybrid-CE、Hybrid-CES上,模型的波動(dòng)程度較小,魯棒性較好;3)無論是在單域數(shù)據(jù)庫上還是在多域數(shù)據(jù)庫上,模型HMN的性能均較好,表明該模型具有較好的泛化性。

圖3 利用AA、AP、UAR、AF 4 個(gè)指標(biāo)對(duì)HMN 模型在4 個(gè)多域數(shù)據(jù)庫上的性能進(jìn)行了較全面的對(duì)比??梢钥闯觯?)在同一數(shù)據(jù)庫上,無論在哪種評(píng)價(jià)指標(biāo)下,HMN 模型的性能相差均較小,表明模型魯棒性較好;2)HMN 模型在4 種多域數(shù)據(jù)庫上的性能均較好,尤其在Hybrid-CE 數(shù)據(jù)庫上的性能最好,表明HMN 模型的泛化性較好。

圖3 HMN 模型在多域數(shù)據(jù)庫上識(shí)別性能對(duì)比Fig.3 Identification performance comparison of HMN model on multi-domain database

4.2.3 HMN 模型在多域語音情感庫上的性能

下文利用混淆矩陣詳細(xì)分析HMN 模型對(duì)多域數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS以及Hybrid-CES中每類情感的識(shí)別性能。

圖4 所示為HMN 模型在多域數(shù)據(jù)庫Hybrid-CE 上所獲得的最佳混淆矩陣,其中,AA 為84.15%,AP 為83.38%,UAR 為81.09%,AF 為82.22%??梢钥闯觯?)模型的平均準(zhǔn)確率為84.15%;2)模型在其他類情感的召回率均達(dá)到了79.00%以上,而厭惡與無聊兩類情感的召回率較低,因?yàn)樵诙嘤驍?shù)據(jù)庫Hybrid-CE 中,各類情感樣本數(shù)量不均衡,其中,厭惡類情感僅有60 個(gè)樣本,模型未得到充分訓(xùn)練;3)無聊類情感與中性易混淆,有33.33%的無聊類樣本被預(yù)測(cè)為中性,主要原因是無聊和中性兩類情感在效價(jià)維和激活維上取值較為接近,且兩類情感的激活程度均較低。

圖4 HMN 模型在Hybrid-CE 數(shù)據(jù)庫上的混淆矩陣Fig.4 Confusion matrix of HMN model on Hybrid-CE database

圖5 所示為HMN 模型在多域數(shù)據(jù)庫Hybrid-ES 上所獲得的最佳混淆矩陣,其中,AA 為65.52%,AP 為63.73%,UAR 為66.37%,AF 為65.02%。可以看出:1)模型的平均準(zhǔn)確率為65.52%;2)模型對(duì)恐懼類情感的識(shí)別率均較低;3)在多域數(shù)據(jù)庫Hybrid-ES 上,HMN 模型的整體識(shí)別性能較低,主要是由SAVEE數(shù)據(jù)庫引起的。

圖5 HMN 模型在Hybrid-ES 數(shù)據(jù)庫上的混淆矩陣Fig.5 Confusion matrix of HMN model on Hybrid-ES database

圖6 所示為HMN 模型在多域數(shù)據(jù)庫Hybrid-CS上所獲得的最佳混淆矩陣,其中,AA 為75.60%,AP為71.07%,UAR 為70.12%,AF 為70.59%??梢钥闯觯?)模型的平均準(zhǔn)確率為75.60%;2)無聊類情感的識(shí)別率較低,僅為30.00%外,而其他類情感的識(shí)別率均較為可觀,主要原因是在多域數(shù)據(jù)庫Hybrid-CS中,無聊類情感的樣本較少,模型未能得到充分訓(xùn)練;3)在多域數(shù)據(jù)庫Hybrid-ES 中,HMN 模型的整體識(shí)別性能較低,這仍然由SAVEE 數(shù)據(jù)庫引起的。

圖6 HMN 模型在Hybrid-CS 數(shù)據(jù)庫上的混淆矩陣Fig.6 Confusion matrix of HMN model on Hybrid-CS database

圖7 所示為HMN 模型在多域數(shù)據(jù)庫Hybrid-CES 上所獲得的最佳混淆矩陣,其中,AA 為76.30%,AP 為73.67%,UAR 為73.26%,AF 為73.47%??梢钥闯觯?)模型HMN 的平均準(zhǔn)確率為76.30%;2)厭惡類情感的識(shí)別率最低,僅有52.94%;3)與由兩種語言混合的多域數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS 相比,模型HMN 在3 種語言混合的多域數(shù)據(jù)庫Hybrid-CES 上的性能有所提升,這是因?yàn)樵搸彀那楦袠颖緮?shù)增加,能夠更好地訓(xùn)練模型。

圖7 HMN 模型在Hybrid-CES 數(shù)據(jù)庫上的混淆矩陣Fig.7 Confusion matrix of HMN model on Hybrid-CES database

總地來說,與作為基線的單域語音情感識(shí)別相比,多域語音情感識(shí)別因?yàn)榍楦蓄悇e數(shù)的增加導(dǎo)致區(qū)分難度加大,但本文提出的HMN 模型在多域數(shù)據(jù)庫上仍取得了較好的識(shí)別結(jié)果。

5 結(jié)束語

本文設(shè)計(jì)一種基于多操作網(wǎng)絡(luò)的圖式多域語音情感識(shí)別模型。通過3 種單域數(shù)據(jù)庫CASIA、EMODB、SAVEE 構(gòu)建多域語音情感數(shù)據(jù)庫Hybrid-CE、Hybrid-ES、Hybrid-CS 以及Hybrid-CES,在多域數(shù)據(jù)庫上計(jì)算219 維的高級(jí)統(tǒng)計(jì)特征作為層級(jí)多操作網(wǎng)絡(luò)模型的輸入,并在單域與多域數(shù)據(jù)庫上對(duì)比HMN 模型的識(shí)別性能、魯棒性和泛化性。實(shí)驗(yàn)結(jié)果表明,該模型在4 種多域數(shù)據(jù)庫上均具有較高的識(shí)別性能。下一步將采用HMN 模型在維度情感數(shù)據(jù)庫上研究多域和跨域語音的情感識(shí)別。

猜你喜歡
多域語音矩陣
美陸軍多域作戰(zhàn)概念的發(fā)展與實(shí)踐研究
基于多維戰(zhàn)場(chǎng)空間理論的聯(lián)合防空反導(dǎo)作戰(zhàn)效能評(píng)估
魔力語音
基于MATLAB的語音信號(hào)處理
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
對(duì)方正在輸入……
美軍謀劃聯(lián)合作戰(zhàn)新棋局
基于時(shí)限訪問控制模型的時(shí)間判斷點(diǎn)選擇算法研究
初等行變換與初等列變換并用求逆矩陣
矩陣