梁曉鴿,趙風(fēng)海
(南開(kāi)大學(xué) 電子信息與光學(xué)工程學(xué)院,天津 300350)
近年來(lái),人工智能技術(shù)不斷發(fā)展,為人類(lèi)的工作和生活做了很大貢獻(xiàn)。為了讓機(jī)器更好的理解人類(lèi),讓人機(jī)交互更加和諧,情感分析成為我們實(shí)驗(yàn)室研究的重要方向之一。而語(yǔ)音作為人們?nèi)粘=涣鞯闹饕绞街唬N(yùn)含了豐富的情感信息,因此,語(yǔ)音情感分析至關(guān)重要[1]。但其需要大量的訓(xùn)練樣本以及訓(xùn)練網(wǎng)絡(luò)參數(shù)難度較大,在語(yǔ)音情感識(shí)別(SER)領(lǐng)域還需進(jìn)行深入研究。
我院設(shè)計(jì)采用的語(yǔ)譜圖作為輸入,克服了傳統(tǒng)算法在提取情感特征向量時(shí)造成的誤差,并提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)改進(jìn)的深度學(xué)習(xí)框架,采用中科院漢語(yǔ)情感數(shù)據(jù)集CASIA語(yǔ)料庫(kù)和柏林情感語(yǔ)音庫(kù),將語(yǔ)譜圖輸入到三通道CNN中,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量,通過(guò)LSTM再次進(jìn)行訓(xùn)練,最終得到情感分類(lèi)。實(shí)驗(yàn)結(jié)果表明,本文結(jié)構(gòu)在識(shí)別多分類(lèi)情感時(shí),表現(xiàn)良好,在六分類(lèi)問(wèn)題上可達(dá)到平均92%的識(shí)別率。
語(yǔ)音情感特征工程的構(gòu)建是語(yǔ)音情感識(shí)別系統(tǒng)最為關(guān)鍵的一步。傳統(tǒng)方法在提取情感特征向量時(shí),主要通過(guò)人們手動(dòng)獲取,比如常見(jiàn)的梅爾倒譜系數(shù)(MFCC),基因頻率,短時(shí)能量等等。但在這個(gè)過(guò)程中,難免丟失部分有效的情感信息,造成識(shí)別率的下降;或者提取了多余的無(wú)用信息,造成數(shù)據(jù)的冗余,進(jìn)而影響模型的性能。
在本文中,為了避免人工提取情感過(guò)程中造成的誤差,采用語(yǔ)譜圖作為輸入。語(yǔ)譜圖通過(guò)語(yǔ)音信號(hào)(.wav)經(jīng)傅里葉變換得到,它幾乎完整地保留了語(yǔ)音信號(hào)中蘊(yùn)含的情感信息。
卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)CNN),可以直接輸入原始圖像,它不需要任何輸入和輸出之間的數(shù)學(xué)關(guān)系,就能夠?qū)W習(xí)到輸入與輸出之間的映射關(guān)系,減少了前期預(yù)處理輸入圖像的工作量。因此,它已成為模式分類(lèi)領(lǐng)域的研究熱點(diǎn)之一。典型CNN結(jié)構(gòu)通常由卷子層、池化層和全連接層組成。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),可以有效處理和預(yù)測(cè)在時(shí)間上前后相關(guān)的序列數(shù)據(jù)。在許多方面,如語(yǔ)音識(shí)別領(lǐng)域,LSTM識(shí)別率都優(yōu)于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)。
LSTM標(biāo)準(zhǔn)結(jié)構(gòu)是將多個(gè)單元像細(xì)胞一樣進(jìn)行連接,每個(gè)單元內(nèi)包括遺忘門(mén)、輸入門(mén)和輸出門(mén)。
為了更充分地訓(xùn)練從語(yǔ)譜圖中提取到的情感信息,本文提出了基于CNN_LSTM的多卷積核神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)—TCNN_LSTM。首先將語(yǔ)譜圖輸入到三通道CNN中,每個(gè)CNN通道設(shè)置不同的卷積核,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量。然后通過(guò)LSTM再次進(jìn)行訓(xùn)練。最后,輸入到全連接層得到全部特征,通過(guò)softmax函數(shù)進(jìn)行情感識(shí)別,得到最后的情感分類(lèi)?;赥CNN_LSTM的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)如圖1所示,CNN層網(wǎng)絡(luò)參數(shù)如表1所示。
在LSTM層,網(wǎng)絡(luò)采用雙向LSTM結(jié)構(gòu),可以提高系統(tǒng)魯棒性,并設(shè)置抓包率為0.2%,可以加快系統(tǒng)收斂速度。
表1 CNN層網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
本文選用中科院CASIA漢語(yǔ)情感數(shù)據(jù)庫(kù)和柏林Emo-DB情感數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn)。
語(yǔ)音信號(hào)預(yù)處理:語(yǔ)音信號(hào)→分幀加窗→傅里葉變換→語(yǔ)譜圖。
其中,語(yǔ)音信號(hào)(.wav)幀長(zhǎng)為30毫秒,幀移15毫秒,窗函數(shù)為漢明窗。
SER實(shí)際上是一個(gè)多分類(lèi)問(wèn)題,基于此,本文采用混淆矩陣來(lái)衡量網(wǎng)絡(luò)的性能。混淆矩陣的行代表樣本的真實(shí)結(jié)果,列代表預(yù)測(cè)結(jié)果,正對(duì)角線(xiàn)上的值代表正確預(yù)測(cè)的樣本數(shù)目[2]。
使用相同數(shù)量的情感語(yǔ)句進(jìn)行訓(xùn)練時(shí),TCNN_LSTM在Emo-DB和CASIA兩種數(shù)據(jù)庫(kù)下四分類(lèi)的情感混淆矩陣如表2和表3所示。結(jié)果表明,在不同數(shù)據(jù)庫(kù)下,四分類(lèi)的平均情感識(shí)別率分別為92.5%和93.1%,結(jié)果相差為0.6%,說(shuō)明本文結(jié)構(gòu)對(duì)不同語(yǔ)言發(fā)出的聲音信號(hào)進(jìn)行情感特征提取時(shí),有較好的適應(yīng)性。除此之外,本文訓(xùn)練網(wǎng)絡(luò)時(shí),數(shù)據(jù)庫(kù)較小,但該模型對(duì)“生氣”的識(shí)別率均達(dá)到95%以上,說(shuō)明該網(wǎng)絡(luò)在提取和訓(xùn)練“生氣”的情感特征時(shí)效果較好;而“害怕”的識(shí)別率有所下降,說(shuō)明網(wǎng)絡(luò)沒(méi)有充分學(xué)習(xí)到該情感的特征,需要更多的訓(xùn)練數(shù)據(jù),但在本文實(shí)驗(yàn)條件下,該結(jié)果符合預(yù)期。
表2 TCNN_LSTM在Emo-DB下四分類(lèi)情感的混淆矩陣
生氣高興害怕中性精準(zhǔn)率生氣23916495.60%高興223611194.40%害怕1152211388.40%悲傷414322991.60%平均識(shí)別率92.5%
表3 TCNN_LSTM在CASIA下四分類(lèi)情感的混淆矩陣
生氣高興害怕中性精準(zhǔn)率生氣24205396.80%高興42335893.20%害怕810223989.20%悲傷131123594.00%平均識(shí)別率93.1%
其次,本文還驗(yàn)證了在使用單核(3×3),雙核(3×3,5×5)以及本文提出的三核TCNN_LSTM網(wǎng)絡(luò)結(jié)構(gòu)下,在CASIA數(shù)據(jù)庫(kù)下的情感識(shí)別率,如表4所示。實(shí)驗(yàn)結(jié)果表明,TCNN-LSTM情感平均識(shí)別率高于其他兩種模型,尤其是在識(shí)別相似情感時(shí),有良好的表現(xiàn)。例如在識(shí)別“悲傷”時(shí),較單核和雙核結(jié)構(gòu)提高了約7%。
表4 不同網(wǎng)絡(luò)結(jié)構(gòu)在CASIA數(shù)據(jù)庫(kù)下的情感識(shí)別率
結(jié)構(gòu)生氣高興害怕悲傷中性驚訝單卷積核87.25%93.01%87.18%85.94%86.21%83.77%雙卷積核88.10%94.18%87.98%85.01%87.71%85.64%TCNN_LSTM91.71%94.29%90.28%92.28%91.14%92.14%
本文將CNN和LSTM進(jìn)行網(wǎng)絡(luò)融合,并利用多個(gè)卷積核進(jìn)行多個(gè)通道的圖像信息提取,可以有效地提取到語(yǔ)譜圖中蘊(yùn)含的情感信息,使網(wǎng)絡(luò)結(jié)構(gòu)在識(shí)別多分類(lèi)情感識(shí)有較好的表現(xiàn)。但后續(xù)還需要改進(jìn)的問(wèn)題是如何在數(shù)據(jù)庫(kù)有限的情況下充分訓(xùn)練網(wǎng)絡(luò),得到更優(yōu)的模型參數(shù),以及識(shí)別更加復(fù)雜和相似的情感時(shí),如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。