国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的LSTM語音情感主要特征選擇

2019-09-02 08:43:58胡婷婷馮亞琴沈凌潔王蔚
聲學(xué)技術(shù) 2019年4期
關(guān)鍵詞:特征選擇聲學(xué)注意力

胡婷婷,馮亞琴,沈凌潔,王蔚

基于注意力機(jī)制的LSTM語音情感主要特征選擇

胡婷婷,馮亞琴,沈凌潔,王蔚

(南京師范大學(xué)教育科學(xué)學(xué)院機(jī)器學(xué)習(xí)與認(rèn)知實(shí)驗(yàn)室,江蘇南京 210097)

傳統(tǒng)的語音情感識(shí)別方式采用的語音特征具有數(shù)據(jù)量大且無關(guān)特征多的特點(diǎn),因此選擇出與情感相關(guān)的語音特征具有重要意義。通過提出將注意力機(jī)制結(jié)合長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM),根據(jù)注意力權(quán)重進(jìn)行特征選擇,在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果發(fā)現(xiàn):(1) 基于注意力機(jī)制的LSTM相比于單獨(dú)的LSTM模型,識(shí)別率提高了5.4%,可見此算法有效提高了模型的識(shí)別效果;(2) 注意力機(jī)制是一種有效的特征選擇方法。采用注意力機(jī)制選擇出了具有實(shí)際物理意義的聲學(xué)特征子集,此特征集相比于原有公用特征集在降低了維數(shù)的情況下,提高了識(shí)別準(zhǔn)確率;(3) 根據(jù)選擇結(jié)果對聲學(xué)特征進(jìn)行分析,發(fā)現(xiàn)有聲片段長度特征、無聲片段長度特征、梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)、F0基頻等特征與情感識(shí)別具有較大相關(guān)性。

特征選擇;語音情感識(shí)別;深度學(xué)習(xí);注意力機(jī)制

0 引言

情感計(jì)算是人工智能一個(gè)重要研究領(lǐng)域,在人機(jī)交互中情感交互具有重要意義。語音情感識(shí)別是情感計(jì)算的一個(gè)主要研究課題。在語音情感識(shí)別中,選擇與情感相關(guān)的語音特征語音是情感識(shí)別中重要的工作環(huán)節(jié)。在情感識(shí)別中,研究者們通過各種特征選擇方法去選擇合適的語音情感特征,迄今為止,如何選擇出最好的特征集,仍然沒有一致清晰的意見。

聲學(xué)特征是語音識(shí)別中最常用的一類特征,語音識(shí)別與語音情感識(shí)別之間有著不可分割的關(guān)聯(lián)。因此,從眾多語音聲學(xué)特征中尋找與情感相關(guān)的特征具有重要研究意義。常用的聲學(xué)特征包括音高、音強(qiáng)等韻律特征,頻譜特征以及聲音質(zhì)量特征。語音特征采用開源工具openSMILE(open-Source Media Interpretation by Large Feature-space Extraction)進(jìn)行提取,關(guān)于具體提取方式與算法詳見文獻(xiàn)[1]。由于語音提取工具的標(biāo)準(zhǔn)化以及語音識(shí)別研究的逐步深入,提取的語音特征數(shù)量也越來越多。從INTERSPEECH 2009 Emotion Challenge中的聲學(xué)特征集的384維[2],到INTERSPEECH 2010 Paralinguistic Challenge中聲學(xué)特征集1 582維[3],到INTERSPEECH 2014 Computational Paralinguistics ChallengE中的聲學(xué)特征集已達(dá)到6 373維[4]。盡管這些特征集在情感識(shí)別中取得了不錯(cuò)的效果,但因其維數(shù)過大,若直接使用所有的情感特征建模,由于冗余特征與噪聲數(shù)據(jù)的存在,會(huì)造成計(jì)算效率低、計(jì)算成本高、建模精度差、特征之間相互影響等問題。因此,為了得到維數(shù)較低、效果較好的特征集,需要使用特征選擇算法從所有原始特征中選擇出一個(gè)子集。

特征選擇指從已有特征集中選取維數(shù)更小的子集,且識(shí)別效果不降低或更佳。目前常用的特征選擇方法有以下幾種:對原始數(shù)據(jù)進(jìn)行隨機(jī)的試探性的特征選擇算法,如順序前進(jìn)選擇法,其選擇時(shí)隨機(jī)性較大[5];對原始數(shù)據(jù)進(jìn)行數(shù)學(xué)變換的特征選擇算法,如主成份分析(Principal Component Analysis, PCA)[6]以及線性判別分析(Linear Discriminant Analysis, LDA)等[7],對原始特征空間進(jìn)行數(shù)學(xué)變換與降維,導(dǎo)致無法對原始特征進(jìn)行選擇;還有一些基于機(jī)器學(xué)習(xí)的選擇方法,對原始數(shù)據(jù)用分類器進(jìn)行特征選擇。CAO等[8]采用隨機(jī)森林的特征選擇算法,選擇出最有效的聲學(xué)特征以提高識(shí)別效果。姜曉慶等[9]使用二次特征選擇的方法,選擇出具有情感區(qū)分性的語音特征子集。KIM[10]使用線性特征選擇方法,結(jié)合高斯混合模型以選取聲學(xué)特征。陶勇森等[11]提出將信息增益與和聲搜索算法相結(jié)合的方法進(jìn)行語音情感特征選擇,以上研究中結(jié)合分類器對特征進(jìn)行選擇,旨在提高識(shí)別準(zhǔn)確率。

在聲學(xué)特征分析中,WU等[12]得出梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC)情感識(shí)別效果優(yōu)于音高和能量特征,相比于前兩種特征,持續(xù)時(shí)長特征識(shí)別效果較差。在對語音情感識(shí)別的特征重要性分析中,得出F0類識(shí)別效果優(yōu)于持續(xù)時(shí)長特征,其中不同的應(yīng)用統(tǒng)計(jì)函數(shù)得到的特征效果差異也較大,例如F0均值分類效果最佳,而F0最大值位置分類的效果較差[13]。在情感維度分類識(shí)別中,研究得到音質(zhì)特征與情感的愉悅度有密切關(guān)系,韻律特征與情感激活度相關(guān)性較大的結(jié)論[14]。因此,選擇出一致認(rèn)同的,具有物理意義的,與情感具有較大關(guān)聯(lián)性的聲學(xué)特征,對于語音情感識(shí)別具有重要意義。

注意力機(jī)制最早提出于手寫字生成,后來逐漸運(yùn)用于多個(gè)領(lǐng)域?,F(xiàn)今在機(jī)器翻譯、圖像標(biāo)題生成、語音識(shí)別、自然語言處理多領(lǐng)域得到成功運(yùn)用[15-18]。在語音識(shí)別中,注意力機(jī)制被用來選擇出基于時(shí)序的幀水平的特征中,整個(gè)時(shí)間序列上一句話的某一幀或者某些幀的片段在整句話中的重要程度[19]。本研究受此啟發(fā),采用注意力機(jī)制在句子水平的全局特征中選擇出具有重要作用的特征種類,將注意力機(jī)制結(jié)合長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory, LSTM)作為一種特征選擇方式。基于注意力矩陣參數(shù)選擇出重要的聲學(xué)情感特征并對其進(jìn)行分析。同時(shí),通過注意力機(jī)制改進(jìn)深度學(xué)習(xí)中的LSTM識(shí)別算法,以提高情感識(shí)別效果。

1 基于注意力機(jī)制的LSTM情感識(shí)別模型

1.1 注意力機(jī)制

1.2 LSTM模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network, RNN)是包含循環(huán)的網(wǎng)絡(luò),循環(huán)可以使得信息可以從當(dāng)前步傳遞到下一步LSTM結(jié)構(gòu),允許信息的持久化。然而,相關(guān)信息和當(dāng)前預(yù)測位置之間的間隔不斷增大時(shí),RNN會(huì)喪失連接遠(yuǎn)距離信息的學(xué)習(xí)能力。LSTM由HOCHREITER及SCHMIDHUBER提出,并被GRAVES進(jìn)行了改良和推廣,是一種RNN特殊的類型,可以學(xué)習(xí)長期依賴信息[20]。

1.3 基于注意力機(jī)制的LSTM

采用LSTM結(jié)合注意力機(jī)制的方式,去訓(xùn)練語音聲學(xué)特征,建立情感識(shí)別模型。情感識(shí)別模型結(jié)構(gòu)如下圖1所示。

圖1 結(jié)合注意力機(jī)制的LSTM模型結(jié)構(gòu)圖

2 語音特征介紹

本研究采用開源軟件openSMILE進(jìn)行幀水平的低層次基礎(chǔ)聲學(xué)特征的提取,應(yīng)用全局統(tǒng)計(jì)函數(shù)得到句子水平全局特征[1]。比如F0基頻特征,通過openSMILE軟件,提取每一幀的特征,之后使用均值、方差、百分位數(shù)等函數(shù)進(jìn)行全局統(tǒng)計(jì),得到本研究中使用的全局特征。本研究參考之前研究中提出的GeMAPs特征集,提取出相關(guān)的88個(gè)聲學(xué)特征。以下內(nèi)容對Gemaps特征集中包含的特征做一個(gè)簡單介紹,詳細(xì)內(nèi)容參見文獻(xiàn)[21]。

GeMAPs聲學(xué)特征集是用于語音情感計(jì)算的常用特征集之一。采用其擴(kuò)展特征集包含以下88個(gè)聲學(xué)特征參數(shù)。特征集中包含以下18個(gè)低水平描述特征(Low Level Descriptors, LLDs)特征參數(shù):

(1) 頻率相關(guān)參數(shù):F0基頻,頻率微擾(jitter),振峰頻率(第一、第二、第三共振峰的中心頻率),共振峰(第一共振峰的帶寬)。

(3) 頻譜(平衡)參數(shù):Alpha比,Hammarberg指數(shù),頻譜斜率(0~500 Hz和500~1 500 Hz),第一、第二、第三共振峰相關(guān)能量是H1、H2、H3,第一、第二諧波差值(H1-H2),第一、第三諧波差值(H1-H3)。

以上所有的18個(gè)LLDs都用3幀長對稱移動(dòng)平均濾波器在時(shí)間上進(jìn)行平滑處理。在音高、振幅微擾和頻率微擾3項(xiàng)特征上,只在有聲片段進(jìn)行平滑處理,對于從無聲到有聲片段之間的轉(zhuǎn)換區(qū)域不做平滑處理。算術(shù)均值和變異系數(shù)(算術(shù)均值標(biāo)準(zhǔn)化后的標(biāo)準(zhǔn)差,變異系數(shù))作為統(tǒng)計(jì)函數(shù)應(yīng)用在所有的18個(gè)LLDs上,產(chǎn)生了36個(gè)特征參數(shù)。對于響度和音高額外應(yīng)用了以下8個(gè)統(tǒng)計(jì)函數(shù):20,50和80的百分位數(shù),以及20~80范圍的百分位數(shù),信號部分上升、下降的斜率的均值和標(biāo)準(zhǔn)差。所有的函數(shù)都應(yīng)用在有聲音的區(qū)域(非0的F0基頻區(qū)域),一共產(chǎn)生了52個(gè)參數(shù)。

此外,在無聲片段的Alpha比,Hammarberg指數(shù),頻譜斜率(0~500 Hz和500~1 500 Hz)的算術(shù)平均數(shù)這4個(gè)參數(shù)以及以下介紹的6個(gè)時(shí)間特征也被加入特征中,這6個(gè)時(shí)間特征是:

(4) 時(shí)間特征:響度峰值的比率,連續(xù)聲音區(qū)域(F0>0)的平均長度和標(biāo)準(zhǔn)差,無聲區(qū)域(F0=0,近似停頓)的平均長度和標(biāo)準(zhǔn)差,每秒鐘連續(xù)發(fā)聲區(qū)域的數(shù)目(偽音節(jié)率)。

之前的研究證明,倒譜系數(shù)在情感狀態(tài)模型中具有重要作用。因此添加了以下7個(gè)LLDs成為我們擴(kuò)展的特征集:

(5) 倒譜特征參數(shù)

頻譜參數(shù):梅爾頻率倒譜系數(shù)1~4,頻譜流量。

頻率相關(guān)參數(shù):第二、第三共振峰的帶寬。

對這7個(gè)LLDs在所有的部分(包括無聲和有聲部分)應(yīng)用算術(shù)均值和變異系數(shù),對共振峰帶寬參數(shù)(僅在有聲部分應(yīng)用統(tǒng)計(jì)函數(shù)),得到14個(gè)參數(shù)。加上頻譜流量只在無聲部分的算術(shù)均值,以及頻譜流量和MFCC 1-4在有聲部分的算術(shù)均值和變異系數(shù),得到11個(gè)參數(shù)。此外,等效聲級也被包括進(jìn)來,共得到額外的26個(gè)參數(shù),從而得到共88個(gè)參數(shù)的擴(kuò)展的eGeMAPS(Extend Geneva Minimaliastic Acoustic Parameter set)特征集。

3 情感識(shí)別與特征選擇實(shí)驗(yàn)

3.1 數(shù)據(jù)集介紹

數(shù)據(jù)是進(jìn)行研究的基礎(chǔ),良好的實(shí)驗(yàn)數(shù)據(jù)對實(shí)驗(yàn)結(jié)果有著直接的影響。本研究采用由美國南加州大學(xué)SAIL實(shí)驗(yàn)室收集的IEMOCAP(interactive emotional dyadic motion capture database)公用英文數(shù)據(jù)集中語音數(shù)據(jù)進(jìn)行語音情感特征選擇與情感識(shí)別[22],作為本研究的數(shù)據(jù)集一,進(jìn)行模型訓(xùn)練與特征選擇。使用The eNTERFACE’05 Audio-Visual Emotion Database數(shù)據(jù)集作為數(shù)據(jù)集二,用于驗(yàn)證我們選取的聲學(xué)特征子集在情感識(shí)別中的適用性與普遍性[23]。

本研究采用IEMOCAP數(shù)據(jù)集中語音數(shù)據(jù)提取情感識(shí)別中的語音聲學(xué)特征。IEMOCAP數(shù)據(jù)集由5男5女在錄音室進(jìn)行錄制,每個(gè)句子樣本對應(yīng)一個(gè)情感標(biāo)簽,情感在離散方式上標(biāo)注為“憤怒”“悲傷”“開心”“厭惡”“恐懼”“驚訝”“沮喪”“激動(dòng)”“中性情感”九類情感。在之前的研究中,在情感聚類識(shí)別時(shí),由于激動(dòng)和開心表現(xiàn)相似,區(qū)分不明顯。因此將其處理為一類情感,合并為“開心”[24]。最終本研究參考一種常用情感識(shí)別方式,選取“中性”“憤怒”“開心”“悲傷”4類情感,共5 531個(gè)樣本進(jìn)行模型訓(xùn)練。eNTERFACE’05數(shù)據(jù)集被設(shè)計(jì)用于測試和評價(jià)語音與視頻中情感識(shí)別任務(wù)。數(shù)據(jù)集由來自14個(gè)不同國家,共44個(gè)說話人進(jìn)行錄制。每個(gè)說話人根據(jù)要求錄制“憤怒”“沮喪”“害怕”“開心”“悲傷”“驚訝”6種情感的句子,每種情感包含5個(gè)句子。本研究選取“憤怒”“開心”“悲傷”3種情感,共630個(gè)樣本來驗(yàn)證選取的情感特征的有效性。

3.2 基于注意力機(jī)制LSTM的情感識(shí)別

使用數(shù)據(jù)集一中的5 531句聲音數(shù)據(jù),作為實(shí)驗(yàn)樣本。根據(jù)eGeMAPs特征集,使用openSMILE工具對每句話提取出88維聲學(xué)特征。每句話對應(yīng)的手工情感標(biāo)注作為訓(xùn)練標(biāo)簽。采用1.3節(jié)介紹的基于注意力機(jī)制的LSTM模型,將88維的聲音特征作為輸入序列輸入到該模型中,對該模型進(jìn)行訓(xùn)練,模型輸出每句語音對應(yīng)的情感的類別。采用十折交叉方式驗(yàn)證模型預(yù)測效果,使用樣本的9/10進(jìn)行訓(xùn)練,1/10進(jìn)行測試,進(jìn)行10輪訓(xùn)練與預(yù)測,對10次的預(yù)測結(jié)果進(jìn)行平均取值。在數(shù)據(jù)集一中的預(yù)測結(jié)果如表1所示,準(zhǔn)確率(Accuracy, ACC)和不加權(quán)平均召回率(Unweighted Average Recall, UAR)分別達(dá)到了0.570和0.582。沒有注意力機(jī)制的LSTM分類結(jié)果ACC和UAR分別為0.516和0.529。因此通過添加注意力機(jī)制,ACC和UAR分別提高了5.4%和5.3%,證明通過注意力機(jī)制改進(jìn)的情感識(shí)別模型,有效提高了情感識(shí)別準(zhǔn)確率。

表1 基于注意力機(jī)制LSTM與LSTM模型識(shí)別準(zhǔn)確率對比

在之前的基于IEMOCAP數(shù)據(jù)集的研究中,使用四類情感5531個(gè)樣本,采用不同的分類器、特征集、樣本得到不同的識(shí)別結(jié)果[25-28],如表2所示。與之前的實(shí)驗(yàn)結(jié)果相比,本研究的實(shí)驗(yàn)結(jié)果得到了較高的識(shí)別準(zhǔn)確率。可見,本研究實(shí)驗(yàn)結(jié)果表現(xiàn)較好。

表2 基于IEMOCAP數(shù)據(jù)集研究的識(shí)別率

3.3 基于注意力機(jī)制的特征選擇

特征選擇一直是機(jī)器學(xué)習(xí)中至關(guān)重要的一個(gè)步驟,算法改進(jìn)可以提高識(shí)別率,特征的好壞決定了準(zhǔn)確率的高低。因此在語音情感識(shí)別中選取對情感識(shí)別影響力大的特征具有重要意義。選擇具有實(shí)際可以解釋的、具有物理意義的聲學(xué)特征對特征選擇起到至關(guān)重要的作用。選擇出重要的特征后,使得后續(xù)的研究者們可以參考與借鑒。本研究采用注意力機(jī)制進(jìn)行特征選擇。

在注意力機(jī)制中,得到注意力參數(shù)矩陣,對所有參數(shù)進(jìn)行求和后進(jìn)行標(biāo)準(zhǔn)化(標(biāo)準(zhǔn)化是數(shù)據(jù)處理中,類似于歸一化的預(yù)處理方式,將數(shù)據(jù)處理為均值為0,標(biāo)準(zhǔn)差為1的一組數(shù)據(jù)),得到每個(gè)特征的在情感識(shí)別模型中的概率。本研究使用IEMOCAP中的5 531個(gè)樣本,提取出88個(gè)聲學(xué)特征,對識(shí)別模型訓(xùn)練進(jìn)行特征選擇,使用十折交叉驗(yàn)證的方式對模型進(jìn)行評估,根據(jù)注意力矩陣中每個(gè)特征對應(yīng)的注意力參數(shù),選擇出對情感識(shí)別作用較大的特征。根據(jù)閾值選擇出的特征數(shù)與識(shí)別率如表3所示,根據(jù)特征注意力參數(shù),選擇出參數(shù)大于0.08的特征有81個(gè),大于0.01的有51個(gè),大于0.16的只有7個(gè)。

表3 根據(jù)閾值選擇出的特征數(shù)與識(shí)別率

圖2為不同數(shù)量特征分類的結(jié)果。由圖2可知,在選擇閾值設(shè)置為0.01時(shí)選擇出的51個(gè)特征取得了較高的識(shí)別效果,因此選取前51個(gè)特征作為本次研究的情感特征的子特征集。

圖2 不同特征數(shù)的分類結(jié)果

為了對此子特征集的有效性進(jìn)行驗(yàn)證,在eNTERFACE’05中使用此子特征集進(jìn)行驗(yàn)證。由于IEMOCAP數(shù)據(jù)樣本數(shù)多,eNTERFACE’05樣本數(shù)相比較少,因此IEMOCAP作為對模型進(jìn)行訓(xùn)練與特征選擇的主要實(shí)驗(yàn)數(shù)據(jù)集,eNTERFACE’05作為驗(yàn)證數(shù)據(jù)集。在eNTERFACE’05數(shù)據(jù)集中使用選擇出的子特征集對基于注意力機(jī)制的LSTM模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)本次選取的子特征集在驗(yàn)證數(shù)據(jù)集上也表現(xiàn)良好,如表4所示,相比于選取之前的88維特征集,在降低了維數(shù)的情況下,識(shí)別準(zhǔn)確率有小幅度提升。有效驗(yàn)證了選取的子特征集不僅在選取的原數(shù)據(jù)集上表現(xiàn)良好,在其他數(shù)據(jù)集也表現(xiàn)良好,證明了此子特征集的有效性。

表4 子特征集在驗(yàn)證集eNTERFACE’05上的表現(xiàn)

為了更好地比較兩個(gè)數(shù)據(jù)集間的異同,補(bǔ)充了兩數(shù)據(jù)集之間遷移學(xué)習(xí)的實(shí)驗(yàn)。使用數(shù)據(jù)集一的樣本數(shù)據(jù)與標(biāo)簽訓(xùn)練模型,使用本研究選擇后的51維特征集,采用基于注意力機(jī)制的LSTM分類器,對模型進(jìn)行訓(xùn)練與預(yù)測,并將訓(xùn)練好的模型進(jìn)行保存后,再使用數(shù)據(jù)二的數(shù)據(jù)來進(jìn)行預(yù)測,將數(shù)據(jù)集一訓(xùn)練好的模型直接導(dǎo)入使用,分析數(shù)據(jù)集一訓(xùn)練好的模型在情感識(shí)別中是否具有可遷移性與通用性。由于數(shù)據(jù)集二中不含中性情感樣本,因此對于中性情感標(biāo)簽在模型導(dǎo)入使用時(shí)進(jìn)行補(bǔ)0處理。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),數(shù)據(jù)集二使用該模型預(yù)測的ACC為0.403,UAR為0.403??梢苑治?,數(shù)據(jù)集一與數(shù)據(jù)集二在情感表達(dá)上具有一定的相似性。

3.4 聲學(xué)特征重要性分析

在對特征進(jìn)行重要性排序時(shí),基于注意力機(jī)制的特征選擇步驟如圖3所示。

首先對IEMOCAP數(shù)據(jù)集中樣本數(shù)據(jù)提取的88維特征使用基于注意力機(jī)制的LSTM進(jìn)行訓(xùn)練,再根據(jù)注意力參數(shù)進(jìn)行排序,得到每個(gè)特征的重要性排序。之后eNTERFACE’05數(shù)據(jù)集使用基于注意力機(jī)制的LSTM再進(jìn)行訓(xùn)練,根據(jù)注意力參數(shù)對特征進(jìn)行重要性排序。比較兩個(gè)數(shù)據(jù)集選取出的重要情感特征是否具有一致性,驗(yàn)證特征在識(shí)別中的穩(wěn)定性與普遍性。

表5列出了根據(jù)注意力機(jī)制計(jì)算出的特征重要性排序。表5中的第一列表示由IEMOCAP數(shù)據(jù)選擇出的重要特征,第二列表示eNTERFACE’05驗(yàn)證集數(shù)據(jù)選擇出的排序靠前的特征的名稱,第三列是其特征在兩個(gè)數(shù)據(jù)集中的排名。由于篇幅限制只列出了前15個(gè)特征。

圖3 基于注意力機(jī)制的特征選擇步驟

分析發(fā)現(xiàn),在數(shù)據(jù)集一中,F(xiàn)0排名最高,只用一個(gè)音高特征F0_stddevNorm進(jìn)行預(yù)測時(shí),準(zhǔn)確率已經(jīng)能到達(dá)0.403,可見其在語音情感識(shí)別中的重要性,然而在數(shù)據(jù)集二中,該特征則表現(xiàn)一般??梢娫诓煌瑪?shù)據(jù)集中,由于說話人、環(huán)境不同等原因會(huì)造成特征的差異。在表5中對兩個(gè)數(shù)據(jù)集中表現(xiàn)差異大的特征進(jìn)行了斜體標(biāo)注,兩個(gè)數(shù)據(jù)集中都表現(xiàn)良好的進(jìn)行了粗體標(biāo)注以方便分析。

其中,無聲片段的長度(Stddev_Unvoiced Segment Length)、有聲片段的長度(Stddev_Voiced Segment Length)、MFCC1均值這3個(gè)特征在兩個(gè)數(shù)據(jù)集中的表現(xiàn)均很好,而且保持穩(wěn)定?;诒狙芯康姆治鲋校@3種特征與情感之間具有很大關(guān)聯(lián),在情感識(shí)別中起較大作用。而之前研究中得出的結(jié)論為F0基頻、響度特征優(yōu)于持續(xù)時(shí)長的表現(xiàn),本研究中時(shí)長特征表現(xiàn)良好,且在兩個(gè)數(shù)據(jù)集中表現(xiàn)穩(wěn)定。

另外,無聲部分Alpha比表現(xiàn)良好,與F0特征兩者結(jié)合在數(shù)據(jù)集一中識(shí)別準(zhǔn)確率可達(dá)0.443,且在數(shù)據(jù)集二中也表現(xiàn)良好。使用標(biāo)準(zhǔn)差統(tǒng)計(jì)的無聲區(qū)域長度,以及響度的標(biāo)準(zhǔn)差參數(shù)在數(shù)據(jù)集一上也表現(xiàn)很好,以上4個(gè)特征已經(jīng)可以達(dá)到0.499的準(zhǔn)確率。其中響度的標(biāo)準(zhǔn)差參數(shù)、F1頻率均值、有聲片段頻譜流量、無聲部分的hammarberg指數(shù),MFCC2_stddev這幾個(gè)特征在兩個(gè)數(shù)據(jù)集上的表現(xiàn)差異很大,在數(shù)據(jù)集一中表現(xiàn)很好,而在數(shù)據(jù)集二中表現(xiàn)較差。

對于特征的統(tǒng)計(jì)函數(shù)進(jìn)行分析發(fā)現(xiàn),使用算術(shù)均值和變異系數(shù)統(tǒng)計(jì)的特征表現(xiàn)優(yōu)于使用百分位數(shù)或者斜率等函數(shù)統(tǒng)計(jì)的同類特征。更多信息我們可以從表5中獲得,不再做詳細(xì)描述。

基于選取的前50個(gè)聲學(xué)特征可以分析出,F(xiàn)0基頻、Alpha比、Hammarberg指數(shù)、等效聲級、響度斜率相關(guān)特征、MFCC和頻譜流量類的倒譜特征、jitter、shimmer、振峰頻率、頻譜斜率、連續(xù)聲音區(qū)域和無聲區(qū)域的平均長度和標(biāo)準(zhǔn)差、偽音節(jié)率等特征在數(shù)據(jù)集一中表現(xiàn)良好。

表5 根據(jù)注意力參數(shù)的特征排序

注:表中,amean:算術(shù)平均;stddevNorm:變異系數(shù);sma3:三幀長對稱移動(dòng)平均濾波器;nz:非零F0;V:有聲;UV:無聲表中斜體標(biāo)注特征表示兩個(gè)數(shù)據(jù)集中差異較大,黑體標(biāo)注特征表示該特征在兩個(gè)數(shù)據(jù)集中均表現(xiàn)良好

相比以上的特征來說,共振峰帶寬,第一、第二、第三共振峰的中心頻率的頻譜諧波峰值能量和F0頻譜峰值能量的比、諧波差異、諧噪比,以及部分響度的參數(shù)等特征在識(shí)別中注意力參數(shù)較小,識(shí)別力較差。

4 結(jié)論

注意力機(jī)制是通過計(jì)算特征的注意力參數(shù),將其與深度學(xué)習(xí)模型結(jié)合訓(xùn)練的一種方式。本研究通過加入注意力機(jī)制,改進(jìn)了LSTM模型,有效提高語音情感識(shí)別準(zhǔn)確率,相比于單LSTM模型,準(zhǔn)確率提高了5.4%。

使用注意力機(jī)制進(jìn)行特征選擇是一種有效的特征選擇方法?;诖朔绞竭x取了重要的聲學(xué)特征,并且根據(jù)注意力參數(shù),對特征進(jìn)行重要性排序。本研究基于原有通用的88位特征集的基礎(chǔ)上,選取了51維的子特征集,在降低了特征維數(shù)的情況下,取得更好的識(shí)別效果,在數(shù)據(jù)集一、二上均取得良好的結(jié)果。

對特征進(jìn)行分析發(fā)現(xiàn),無聲片段的長度、有聲片段的長度、MFCC1均值三個(gè)特征在訓(xùn)練數(shù)據(jù)集與驗(yàn)證數(shù)據(jù)集中均表現(xiàn)良好,證明此3個(gè)特征對于情感識(shí)別的重要作用。F0、alpha比、響度特征等與情感也具有較強(qiáng)關(guān)聯(lián)性,在情感識(shí)別中起重要作用。算術(shù)均值與變異系數(shù)相比于其他百分位、斜率等統(tǒng)計(jì)函數(shù)更加具有表現(xiàn)力。

采用了兩個(gè)數(shù)據(jù)集進(jìn)行了模型的訓(xùn)練與特征的選擇。分別使用注意力參數(shù)選擇靠前的特征,發(fā)現(xiàn)重要的特征雖然在兩次選擇時(shí),參數(shù)會(huì)有小幅波動(dòng),但是波動(dòng)范圍較小,說明重要的特征即使在不同數(shù)據(jù)集中,仍然保持穩(wěn)定的表現(xiàn),情感識(shí)別效果良好。

5 討論

本研究采用兩個(gè)英文數(shù)據(jù)集進(jìn)行情感識(shí)別與特征選擇實(shí)驗(yàn),由于數(shù)據(jù)集的采集方式、說話人、環(huán)境等因素不同,會(huì)對特征選擇的結(jié)果產(chǎn)生一定程度的影響,產(chǎn)生不一致的結(jié)論。因此克服數(shù)據(jù)不同帶來的影響,從而獲得更一般性的結(jié)論至關(guān)重要。本研究為了克服數(shù)據(jù)的影響,在大樣本的數(shù)據(jù)集上進(jìn)行特征選擇實(shí)驗(yàn),在小樣本的數(shù)據(jù)集上進(jìn)行驗(yàn)證。為了消除數(shù)據(jù)產(chǎn)生的影響,對小樣本數(shù)據(jù)集也進(jìn)行了選擇實(shí)驗(yàn),對實(shí)驗(yàn)結(jié)果進(jìn)行對比分析,以求獲得一般性的可靠結(jié)論。但是由于數(shù)據(jù)集二中包含的樣本與數(shù)據(jù)集一中有所不同,沒有包含中性情感,對結(jié)果會(huì)造成一定程度的影響。在未來的工作中,希望能夠發(fā)現(xiàn)或者制造出包含相同情感種類、相同語言并且樣本數(shù)量較多的數(shù)據(jù)集以供使用。

當(dāng)前語音情感識(shí)別的研究中,由于深度學(xué)習(xí)對數(shù)據(jù)量的要求增加,數(shù)據(jù)量越大模型的訓(xùn)練效果越可靠。但是由于單一的數(shù)據(jù)集樣本量有一定限制,因此多數(shù)據(jù)集、跨數(shù)據(jù)集是研究的必然趨勢。在未來的研究中,可以進(jìn)行跨庫、跨語言以及多語言的情感識(shí)別實(shí)驗(yàn),進(jìn)行更多深層次關(guān)于遷移學(xué)習(xí)在情感識(shí)別中的研究。分析不同語言、不同文化在表達(dá)情感時(shí)的共同點(diǎn),分析語音中包含的信息特定情感之間關(guān)聯(lián)性。

[1] EYBEN F. Opensmile: the munich versatile and fast open-source audio feature extractor[C]//Firenze, Italy: MM '10 Proceedings of the 18th ACM international conference on Multimedia, 2010: 1459-1462.

[2] SCHULLER B, STEIDL S, BATLINER A. The interspeech 2009 emotion challenge[C]//Brighton,UK:Interspeech(2009), ISCA, 2009: 312–315.

[3] SCHULLER B, STEIDL S, BATLINER A, et al. The interspeech 2010 paralinguistic challenge[C]//Chiba, Japan: Conference of the International Speech Communication Association, 2010: 2794-2797.

[4] SCHULLER B, STEIDL S, BATLINER A, et al. The interspeech 2014 computational paralinguistics challenge: cognitive & physical load[C]//Singapore:Proc. Interspeech 2014, 2014: 427-431.

[5] PéREZ-ESPINOSA H, REYES-GARCíA C A, VILLASE?OR-PINEDA L. Acoustic feature selection and classification of emotions in speech using a 3D continuous emotion model[J]. Biomedical Signal Processing & Control(S1746-8094), 2012, 7(1): 79-87.

[6] SONG P, HENGW Z, LIANG R. Speech emotion recognition based on sparse transfer learning method[J]. Ieice Transactions on Information & Systems(S1745-1361) , 2015, 98(7): 1409-1412.

[7] ZHANG X, ZHA C, XU X, et al. Speech emotion recognition based on LDA+kernel-KNNFLC[J]. Journal of Southeast University (S1003 -7985), 2015, 45(1): 5-11.

[8] CAO W H, XU J P, LIU Z T. Speaker-independent Speech Emotion Recognition Based on Random Forest Feature Selection Algorithm[C]//Dalian, China: Proceedings of the 36th Chinese control conference, 2017: 10995-10998.

[9] 姜曉慶, 夏克文, 林永良. 使用二次特征選擇及核融合的語音情感識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(3): 7-11.

JIANG Xiaoqing, XIA Kewen , LIN Yongliang. Speech emotion recognition using secondary feature selection and kernel fusion[J]. Computer Engineering and Applications, 2017, 53(3): 7-11.

[10] KIM W G. Speech emotion recognition using feature selection and fusion method[J]. Transactions of the Korean Institute of Electrical Engineers(S1975-8359), 2017, 66(8): 1265-1271.

[11] 陶勇森, 王坤俠, 楊靜. 融合信息增益與和聲搜索的語音情感特征選擇[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2017, 38(5): 1164-1168.

TAO Yongsen , WANG Kunxia , YANG Jing. Hybridizing information gain and harmony search for feature selection on speech emotion[J]. Journal of Chinese Computer Systems, 2017, 38(5): 1164-1168.

[12] WU D, PARSONS T D, NARAYANAN S S. Acoustic feature analysis in speech emotion primitives estimation[C]//Makuhari, Chiba, Japan: Conference of the International Speech Communication Association, 2010: 785-788.

[13] TAO J, KANG Y. Features importance analysis for emotional speech classification[C]//Berlin: International Conference on Affective Computing & Intelligent Interaction, 2005, 3784: 449-457.

[14] 黃程韋, 趙艷, 金赟. 實(shí)用語音情感的特征分析與識(shí)別的研究[J]. 電子與信息學(xué)報(bào), 2011, 33(1): 112-116.

HUANG Chengwei , ZHAO Yan , JIN Yun. A sstudy on feature analysis and recognition of practical speech emotion[J]. Journal of Electronics & Information Technology, 2011, 33(1): 112-116.

[15] BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J]. Computer Science, 2014, arXiv: 1409.0473.

[16] XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//ICML, 2015, 14: 77–81.

[17] CHOROWSKI J K, BAHDANAU D, SERDYUK D, et al. Attention-based models for speech recognition[J]. Computer Science (S2333-9721), 2015, 10(4): 429-439.

[18] ADEL H, SCHUTZE H. Exploring different dimensions of attention for uncertainty detection[C]//Valencia, Spain: Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, 2016: 22-34.

[19] MIRSAMADI S, BARSOUM E, ZHANG C. Automatic speech emotion recognition using recurrent neural networks with local attention[C]//New Orleans, LA, USA: IEEE International Conference on Acoustics , 2017: 2227-2231.

[20] GREFF K, SRIVASTAVA R K, KOUTNIK J, et al. LSTM: a search space odyssey[J]. IEEE Transactions on Neural Networks & Learning Systems(S2162-237X), 2015, 28(10): 2222-2232.

[21] EYBE F, SCHERER K, TRUONG K, et al. The geneva minimalistic acoustic parameter set (gemaps) for voice research and affective computing[J]. IEEE Transactions on Affective Computing(S 1949-3045), 2016, 7(2): 190-202.

[22] BUSSO C, BULUT M, LEE C C. IEMOCAP: interactive emotional dyadic motion capture database[J]. LanguageResources&Evaluation(S1574-020X), 2008, 42(4): 335-359.

[23] MARTIN O, KOTSIA I, MACQ B. The eNTERFACE'05 audio-visual emotion database[C]//Atlanta, GA, USA: Conference on Data Engineering Workshops, 2006: 8-12.

[24] METALLINOU A, WOLLMER M, EYBEN F, et al. Context-sensitive learning for enhanced audiovisual emotion classification[J]. IEEE Transactions on Affective Computing(S1949- 3045), 2012, 3(2): 184-198.

[25] MARIOORYAD S, BUSSO C. Compensating for speaker or lexical variabilities in speech for emotion recognition[J]. Speech Communication(S0167-6393), 2014, 57(1): 1-12.

[26] MARIOORYAD S, BUSSO C. Exploring cross-modality affective reactions for audiovisual emotion recognition[J]. IEEE Transactions on Affective Computing(S1949-3045), 2013, 4(2): 183-196.

[27] GAMAGE K W, SETHU V, LE P N, et al. An i-vector GPLDA system for speech based emotion recognition[C]//Asia-Pacific Signal and Information Processing Association Summit and Conference. IEEE, 2015: 289-292.

[28] NEUMANN M, VU N T. Attentive convolutional neural network based speech emotion recognition: a study on the impact of input features, signal length, and acted speech[C]//Stockholm, Sweden :Interspeech, 2017: 1263-1267.

The salient feature selection by attention mechanism based LSTM in speech emotion recognition

HU Ting-ting, FENG Ya-qin, SHEN Ling-jie, WANG Wei

(Machine learning and cognition lab, School of Education Science, Nanjing Normal University, Nanjing 210097, Jiangsu, China)

The traditional approaches to speech emotion recognition use the acoustic features characterized by large amount of data and redundancy. So, it is of great significance to choose the important phonetic features related to emotion. In this study, the attention mechanism is combined with Long Short Term Memory (LSTM) to conduct feature selection according to the attention parameters. The results show that: (1) the recognition rate of the attention mechanism based LSTM is increased by 5.4% compared with the single LSTM model, so this algorithm effectively improves the recognition accuracy; (2) the attention mechanism is an effective feature selection method, by which, the subsets of acoustic features with practical physical significance can be selected to improve the recognition accuracy and reduce the dimension compared with the original common feature set; (3) according to the selection results, the acoustic features are analyzed, and it is found that the emotion recognition is correlated with the features of voiced segment length, unvoiced segment length, fundamental frequency F0 and Mel-frequency cepstral coefficients.

feature selection; speech emotion recognition; deep learning; attention mechanism

H107

A

1000-3630(2019)-04-0414-08

10.16300/j.cnki.1000-3630.2019.04.010

2018-08-09;

2018-09-03

中國國家社會(huì)科學(xué)基金會(huì)項(xiàng)目(BCA150054)

胡婷婷(1994-), 女, 安徽蕪湖人, 碩士研究生, 研究方向?yàn)槠鲗W(xué)習(xí)與深度學(xué)習(xí),語音情感識(shí)別。

王蔚, E-mail: 769370106@qq.com

猜你喜歡
特征選擇聲學(xué)注意力
讓注意力“飛”回來
愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
A Beautiful Way Of Looking At Things
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
香格里拉县| 清水河县| 绥德县| 枣庄市| 睢宁县| 平湖市| 福贡县| 明光市| 哈巴河县| 兰坪| 乡城县| 阿拉善左旗| 南投市| 台山市| 阜平县| 桑植县| 于田县| 静安区| 龙口市| 襄樊市| 锦屏县| 祁连县| 苗栗县| 乌拉特后旗| 唐河县| 泸溪县| 鄂托克旗| 台中县| 乐陵市| 庆城县| 濮阳县| 兴和县| 当雄县| 启东市| 宜川县| 婺源县| 龙海市| 台东县| 张北县| 陈巴尔虎旗| 荆门市|