朱藝偉,宋泊東,張立臣
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣州 510006)
在過(guò)去的十年中,情感計(jì)算的研究蓬勃發(fā)展,已經(jīng)開始使機(jī)器能夠感知和具有情感表達(dá)行為[1].其技術(shù)廣泛應(yīng)用于人機(jī)界面[2]和交互式機(jī)器人設(shè)計(jì)[3]領(lǐng)域,甚至是新興的交叉研究領(lǐng)域,如社會(huì)信號(hào)處理[4]和行為信號(hào)處理[5]等.作為人類交流的自然編碼信息,語(yǔ)音可以反映人類信息[6],例如:情感、性別、年齡及人格等等.因此,開發(fā)語(yǔ)音情感識(shí)別算法,仍然是一個(gè)流行的話題.
目前,國(guó)內(nèi)外在情感識(shí)別建模語(yǔ)音聲學(xué)方面進(jìn)行了大量的研究,比如:底層特征工程、機(jī)器學(xué)習(xí)算法、甚至是聯(lián)合特征標(biāo)簽表示[7].這些研究大多數(shù)都依賴于提取一組常用的短時(shí)間特征(聲學(xué)低層描述符—— LLDs),例如:這些特征可以是相關(guān)的光譜特征(如MFCCs)、韻律特征(如音高語(yǔ)調(diào))、語(yǔ)音質(zhì)量(如抖動(dòng))、低能量算子等[8],然后選擇情感識(shí)別框架.例如:支持向量機(jī)[9]或深層神經(jīng)網(wǎng)絡(luò)[10].或者利用時(shí)間序列模型將短語(yǔ)音低級(jí)描述符特征的時(shí)間性特征納入到表達(dá)水平的情感識(shí)別中.如隱馬爾科夫模型[11].有一些研究利用聽覺感知激發(fā)的調(diào)制光譜軌跡的時(shí)間特征[12],用于情感識(shí)別.基于上述研究成果,本文提出了一種基于軌跡的視頻描述符提取方法.該方法將音頻文件本質(zhì)上視為一組光譜圖(通常是0.5-1),通過(guò)跟蹤重要節(jié)點(diǎn)提取一組軌跡.然后通過(guò)對(duì)軌跡的時(shí)間過(guò)程和隨時(shí)間的空間變化進(jìn)行建模、計(jì)算,獲取這些描述符在事件[13]和運(yùn)動(dòng)識(shí)別特征[14].基于上述研究成果,本文提出了一種基于軌跡的時(shí)空譜特征語(yǔ)音情感識(shí)別方法.該方法的核心思想是從語(yǔ)音頻譜圖,獲得空間和時(shí)間上的描述符,進(jìn)行分類和維度情感識(shí)別.與MFCCs和基頻等特征提取方法相比,本文提出的方法在噪聲條件下,調(diào)制光譜特更具魯棒性.在4類情緒識(shí)別實(shí)驗(yàn)中獲得了可比較的非加權(quán)平均值回饋,在激活識(shí)別任務(wù)中顯著優(yōu)于Conv-PS和Opem-Utt.
語(yǔ)音信號(hào)的特征是指它的聲學(xué)特征、語(yǔ)音信號(hào)的時(shí)域波形、頻譜特征以及語(yǔ)音信號(hào)的統(tǒng)計(jì)特性.語(yǔ)音信號(hào)首先是一個(gè)時(shí)間序列,進(jìn)行語(yǔ)音分析時(shí),最直觀的就是它的時(shí)域波形.通過(guò)分析語(yǔ)音信號(hào)的時(shí)域波形,提取情感特征,就可以判斷說(shuō)話者的喜怒哀樂(lè).
從語(yǔ)音信號(hào)中提取反映情感的參數(shù)較為困難,因?yàn)檎Z(yǔ)音信號(hào)中包含了多種特征信息,不僅包括了說(shuō)話者自身的特征信息、說(shuō)話者的情感狀態(tài)信息,也包括了說(shuō)話內(nèi)容、詞匯和語(yǔ)法信息等.目前很多文獻(xiàn)對(duì)如何提取語(yǔ)音中的情感特征參數(shù)做了大量的研究.其中,基頻作為描述情感的最主要特征,很多文獻(xiàn)都采用基于基頻的統(tǒng)計(jì)特征,如峰值、均值、方差等.雖然這些特征描述了語(yǔ)音信號(hào)在不同情感狀態(tài)下的變化,但是沒有進(jìn)一步詳細(xì)描述基頻曲線的變化趨勢(shì).針對(duì)這種現(xiàn)狀,提出了一種基于軌跡的空間-時(shí)間譜特語(yǔ)音情感識(shí)別方法.其核心思想是從語(yǔ)音頻譜圖,獲得空間和時(shí)間上的描述符,進(jìn)行分類和維度情感識(shí)別,來(lái)提高情感的判斷力.
本研究采用著名情感數(shù)據(jù)庫(kù):USC IEMOCAP數(shù)據(jù)庫(kù)[15]用于算法實(shí)驗(yàn).這個(gè)數(shù)據(jù)庫(kù)由10個(gè)參與者組成,他們兩人一組,進(jìn)行面對(duì)面的互動(dòng).二元互動(dòng)的設(shè)計(jì)是為了從演員中引出自然的多模態(tài)情感表現(xiàn).話語(yǔ)都有明確的情感標(biāo)簽(如:憤怒、快樂(lè)、悲傷、神經(jīng)等)和維度表征(如:價(jià)感、激活和支配).每句話的特征標(biāo)簽至少由3個(gè)評(píng)分者標(biāo)注,維度屬性至少由2個(gè)評(píng)分者標(biāo)注.考慮到這個(gè)數(shù)據(jù)庫(kù)的自發(fā)性和評(píng)估者之間的協(xié)議約為0.4,這個(gè)數(shù)據(jù)庫(kù)對(duì)于算法的發(fā)展仍然是一個(gè)具有挑戰(zhàn)性的情緒數(shù)據(jù)庫(kù).在這項(xiàng)工作中,我們?cè)谶@個(gè)數(shù)據(jù)庫(kù)上進(jìn)行了兩項(xiàng)不同的情緒識(shí)別任務(wù):1)四類情緒識(shí)別;2)三層的情感效價(jià)維度和激活維度識(shí)別.對(duì)于分類情緒識(shí)別,分別是快樂(lè)的、悲傷的、中性的和憤怒的,可以認(rèn)為樣本與“興奮”的標(biāo)簽是相同的“快樂(lè)”.評(píng)價(jià)和激活的三個(gè)層次被定義為:低(0-1:67)、中(1:67-3:33)和高(3:33-5),其中每個(gè)樣本的值是基于評(píng)分者的平均值計(jì)算的.表1列出了每種類型標(biāo)簽的樣本數(shù)量.
表1 情感分類標(biāo)簽的樣本數(shù)量
語(yǔ)音信號(hào)的振幅特征和各種情感信息也具有較強(qiáng)的相關(guān)性.當(dāng)說(shuō)話者處于生氣或者高興時(shí),出現(xiàn)較大的幅值,而悲傷情感的幅度值較低,而且這些幅度差異越大,體現(xiàn)出情感的變化也越大.此外,語(yǔ)音的共振峰頻率也是表達(dá)情感的特征參數(shù)之一.當(dāng)同一人發(fā)出的帶有不同情感而內(nèi)容相同的語(yǔ)句時(shí),其聲道會(huì)有不同的變化,而語(yǔ)音的共振峰頻率與聲道的形狀和大小有關(guān),每種形狀都有一套共振峰頻率作為其特征.
因此,本研究試圖從語(yǔ)速、基頻(范圍、平均值、包絡(luò)等)、譜信息(共振峰位置,帶寬等)、 語(yǔ)音能量信息特征方面具體分析語(yǔ)音中的情感特征.
圖1描述了基于軌跡的時(shí)空光譜特性的音頻文件分析流程.以下是特征提取的步驟:空間時(shí)間譜特征提取:話語(yǔ)框架,代表了信號(hào)實(shí)現(xiàn)框架使用一個(gè)情感序列,形成每個(gè)MFB-系數(shù)軌跡,計(jì)算基于網(wǎng)格的時(shí)空特征和獲得額外導(dǎo)出軌跡.如假設(shè)p=(p1,p2,···,pk)是一個(gè)語(yǔ)音信號(hào)的基礎(chǔ)頻率,其中k為這個(gè)語(yǔ)音信號(hào)的基礎(chǔ)頻率幀數(shù),那么,這個(gè)語(yǔ)音信號(hào)基礎(chǔ)頻率的最大值為:pmax=max(p1,p2,···,pk);最小值:pmin=min(p1,p2,···,pk);均值:;動(dòng)態(tài)范圍為:prange=pmax-pmin;方差為:.
圖1 基于軌跡的時(shí)空光譜特征分析流程
語(yǔ)音信號(hào)的時(shí)空譜計(jì)算則可以表示為:Δp前端,Δp后端,Δp爭(zhēng)端語(yǔ)音信號(hào)幀.通過(guò)計(jì)算統(tǒng)計(jì)函數(shù)軌跡,就可獲得框架水平特性.
(1)框架的信號(hào)
將整個(gè)話語(yǔ)分割成幀的區(qū)域,每個(gè)幀的長(zhǎng)度為L(zhǎng)(L=250 ms,150 ms).幀之間有 50% 的重疊.
(2)代表段
使用26個(gè)Mel濾波器能量組(MFB)輸出的序列表示每一幀中的信號(hào)——也可以被成像為光譜圖.MFB 的窗口大小設(shè)置為 25 ms,重疊度為 50%.MFB計(jì)算的頻率上限為3000 Hz.
(3)形成基本軌跡
26個(gè)濾波器輸出的每個(gè)能量輪廓在每個(gè)幀的持續(xù)時(shí)間內(nèi)形成一個(gè)基本軌跡.
(4)計(jì)算時(shí)空特征
對(duì)于每個(gè)基本軌跡,在t= 1 時(shí),我們計(jì)算其相鄰網(wǎng)格的一階差分(8total:在圖1中標(biāo)記為黃色);然后我們沿著時(shí)間軸移動(dòng),計(jì)算這些網(wǎng)格差,直到幀結(jié)束.因此,我們得到8個(gè)額外的軌跡(所謂的派生軌跡),為每幀26個(gè)濾鏡輸出(一個(gè)軌跡的真實(shí)例子見圖1),組成總共9個(gè)軌跡(1個(gè)基本軌跡+8個(gè)派生軌跡).
(5)框架水平時(shí)空描述符
我們通過(guò)應(yīng)用4個(gè)統(tǒng)計(jì)功能,即基于幀級(jí)軌跡的時(shí)空描述符,得到最終的幀級(jí)軌跡.即:最大、最小、平均、標(biāo)準(zhǔn)偏差.26×9軌跡——每幀形成一組特性.
我們新提出的特性的基本思想本質(zhì)上是跟蹤光譜能量的變化在一個(gè)長(zhǎng)期的框架內(nèi),在頻率軸(空間)和時(shí)間軸的方向上.由于框架靈感來(lái)自于視頻描述符的提取方法,與語(yǔ)音生成/感知相關(guān)的物理意義雖然很難建立.但是,這個(gè)框架提供了一種簡(jiǎn)單的方法來(lái)量化語(yǔ)音信號(hào)的頻譜-時(shí)間特性之間的各種相互關(guān)系,直接從時(shí)間-頻率表示,而不需要進(jìn)行更高級(jí)別的處理.
在本研究中,我們對(duì)前文所述的情感識(shí)別任務(wù)進(jìn)行了如下兩個(gè)實(shí)驗(yàn):
(1)實(shí)驗(yàn) I:三種情緒識(shí)別實(shí)驗(yàn)中我們提出的帶有Conv-PS和OpEmo-Uttfeatures的Traj-ST的比較和分析.
(2)實(shí)驗(yàn) II:在三個(gè)情感識(shí)別實(shí)驗(yàn)中,Traj-ST 與Conv-PS和/ oropem-utt特征融合后的識(shí)別精度分析.其中,Conv-PS特征提取方法與Traj-ST相似,但不是計(jì)算Mel-filter輸出軌跡的時(shí)空特征,而是每10 ms計(jì)算基本頻率(f0)、強(qiáng)度(INT)、MFCCs、它們的delta和 delta-delta -delta -delta -delta -delta 45 個(gè)低級(jí)描述符.然后我們將 7 個(gè)統(tǒng)計(jì)函數(shù) (max,min,mean,standard deviation,kurtosis,skewness,inter-quantile range)應(yīng)用到這些LLD特征上,從而得到每一幀Conv-PS總共有315個(gè)特性.OpEmo-Utt是一個(gè)詳盡的語(yǔ)音級(jí)特性集.在許多輔助語(yǔ)言識(shí)別任務(wù)中都有使用.每句話包含6668個(gè)特征.所有的特征都是針對(duì)單個(gè)說(shuō)話者的.所有的評(píng)價(jià)都是通過(guò)一對(duì)一的交叉驗(yàn)證進(jìn)行的,精度是用非加權(quán)平均的方法來(lái)衡量的.基于ANOVA測(cè)試的單變量特征選擇是針對(duì)Traj-ST和Conv-PS特性集進(jìn)行的.
在實(shí)驗(yàn) I中,對(duì)于 Traj-ST 和 Conv-PS 特征集,我們使用高斯混合模型(M=32)生成幀級(jí)每個(gè)類標(biāo)簽的概率分?jǐn)?shù)pi,t,然后使用以下簡(jiǎn)單規(guī)則進(jìn)行幀級(jí)識(shí)別:
在提到的類標(biāo)簽中,t指的是框架指數(shù),而N則指的是一個(gè)話語(yǔ)中的總幀數(shù).對(duì)于OpEmo-Utt,由于它是一個(gè)大維度的話語(yǔ)級(jí)特征向量,我們?cè)谶M(jìn)行主成分分析(90%的方差)和線性核支持向量機(jī)多類分類器后,使用了基于GMM的方法.
在實(shí)驗(yàn) II中,Traj-ST與 Conv-PS和 OpEmo-Utt的融合方法如圖2所示.融合框架基于邏輯回歸.對(duì)于Traj-ST和Conv-PS,融合是在統(tǒng)計(jì)功能上進(jìn)行的,即均值,標(biāo)準(zhǔn)差,最大值和最小值,應(yīng)用于pi,t;對(duì)于OpEmo-Utt,融合是基于從一個(gè)Vs-all多類支持向量機(jī)輸出的決策分?jǐn)?shù)進(jìn)行的.
圖2 三個(gè)特征集融合方法
圖2描述了三種特征集的融合方法.基于框架的特征用GMM模型概率評(píng)分輸出的統(tǒng)計(jì)功能進(jìn)行融合,使用SVM分類器的決策分?jǐn)?shù)直接融合話語(yǔ)層次特征.最后采用的融合模型是logistic回歸.
表2總結(jié)了Exp i的詳細(xì)結(jié)果.對(duì)于Traj-ST和Conv-PS,我們報(bào)告了使用不同幀長(zhǎng)進(jìn)行特征提取的GMM 模型的 UARsof,即 125 ms,250 ms,375 ms,完整發(fā)音長(zhǎng)度.對(duì)于OpEmo-Utt,我們報(bào)告了使用GMM和svm模型的UARs.
結(jié)果中有幾點(diǎn)需要注意.在四類情緒識(shí)別任務(wù)中,Traj-ST 與 OpEmo-Utt (47.5% vs.47.7%)進(jìn)行了比較,而最佳準(zhǔn)確率為Conv-PS(48.6%).在三層價(jià)識(shí)別任務(wù)中,使用 OpEmo-Utt(47.4%)是最準(zhǔn)確的,在這一任務(wù)中,Traj-ST 和 Conv-PS 表現(xiàn)不佳.最后,我們建議的Traj-ST特性集在三層激活識(shí)別任務(wù)上的性能明顯優(yōu)于Conv-PS和OpEmo-Utt.它的識(shí)別率達(dá)到了61.5%,比Conv-PS提高了1.7%,比OpEmo-Utt提高了2.9%.通過(guò)三種類型的情緒識(shí)別任務(wù)的運(yùn)行,似乎可以明顯地看出,每一組這些特征確實(shí)具有不同數(shù)量和不同質(zhì)量的情緒內(nèi)容.Opem-Uttem似乎對(duì)價(jià)性表現(xiàn)得最好,這可能是由于對(duì)價(jià)度的感知的復(fù)雜性.例如,需要在話語(yǔ)層面提取語(yǔ)氣特征.雖然過(guò)去已經(jīng)證明,與聲音有關(guān)的特征在激活維度中往往包含更多的信息,但是我們?nèi)匀豢梢院芸隙ǖ乜吹轿覀兲岢龅奶卣?Traj-ST,在預(yù)測(cè)激活的整體感知方面比這兩個(gè)其他特征集更有效.
識(shí)別任務(wù):4級(jí)情緒識(shí)別,3級(jí)激活/情感效價(jià)識(shí)別.對(duì)于Traj-ST和Conv-PS,采用具有不同框架長(zhǎng)度的GMM模型的UARs,用于特征提取.對(duì)于OpEmo-Utt,使用GMM和SVM模型的UARs.幀的持續(xù)時(shí)間也對(duì)獲得最佳的精度f(wàn)orTraj-ST(也適用于Conv-PS)起著重要的作用.由此可見,大約 250 ms 的持續(xù)時(shí)間是最理想的幀-持續(xù)時(shí)間.
這一結(jié)果證實(shí)了已有研究在情感識(shí)別中使用長(zhǎng)期光譜特征的發(fā)現(xiàn).此外,Traj-ST的特征選擇輸出結(jié)果表明,時(shí)空特征的前三個(gè)方向分別為{0,0}-基軌跡,{1,0}-高時(shí)空等效方向軌跡,以及{1,-1}-高時(shí)空-早時(shí)空方向軌跡.這三種特征占選擇產(chǎn)生的特征的50%.這些軌跡量化了光譜能量向高頻段方向的變化,具有較高的情感識(shí)別精度,在3級(jí)激活識(shí)別中也表現(xiàn)顯著.
假設(shè)在實(shí)驗(yàn)I中,每一組特征似乎都能識(shí)別不同的情緒表現(xiàn).為了進(jìn)一步驗(yàn)證算法的可靠性,本文融合這三種不同的特征.表2列出了各種融合結(jié)果.OpEmo-Utt是指融合SVM模型輸出的決策分?jǐn)?shù).表3總結(jié)了三個(gè)不同特征集的融合結(jié)果.
需要注意 Traj-ST,Conv-PS,OpEmo-Utt為使用UAR計(jì)算所呈現(xiàn)的數(shù)目.
由表3可見.首先,不同特征集的融合都提高了最佳單特征集的結(jié)果數(shù)據(jù).具體表現(xiàn)在,4類情感識(shí)別的最佳融合精度是通過(guò)融合所有三組特征獲得的53.5%(相對(duì)于絕對(duì)單個(gè)特征集的4.8%的絕對(duì)改進(jìn));3級(jí)情感效價(jià)的最佳融合結(jié)果是47.8% (1%絕對(duì)改進(jìn)優(yōu)于最佳單特征集,OpE).最后,三級(jí)激活的最佳融合結(jié)果是61.2% (相對(duì)于最佳單特征集0.9%的絕對(duì)改進(jìn),Traj-ST).由此可見,本文新提出的特征Traj-ST確實(shí)能夠在該融合框架下進(jìn)一步提高分類情感識(shí)別和激活水平檢測(cè)的識(shí)別率,這意味著我們的特征的互補(bǔ)信息在情感方面具有較高的一致性.總之,實(shí)驗(yàn)證明,以軌跡為基礎(chǔ)的空間時(shí)間譜特征可以結(jié)合利用兩個(gè)不同的聲學(xué)特征集,提高情感識(shí)別率.
表2 實(shí)驗(yàn) I輸出了三種不同情緒的結(jié)果
表3 實(shí)驗(yàn)II輸出了三個(gè)不同特征集融合的分析結(jié)果
本文提出了一種低水平聲學(xué)特征的語(yǔ)音情感識(shí)別方法,以表征語(yǔ)音信號(hào)的長(zhǎng)期時(shí)空信息.我們利用所提出的特征對(duì)分類情感歸因和維度表征進(jìn)行情感識(shí)別實(shí)驗(yàn).實(shí)驗(yàn)表明,所提出的特征集與已建立的低級(jí)聲學(xué)描述符和最先進(jìn)的窮舉特征提取方法相比,在分類情感識(shí)別方面具有更優(yōu)秀的性能,在激活水平識(shí)別的任務(wù)上優(yōu)于現(xiàn)有的特征提取方法.通過(guò)融合基于軌跡的時(shí)空特征,提高了情感識(shí)別的整體精度.