◎夏文心
(云南師范大學(xué)傳媒學(xué)院 云南 昆明 650500)
就目前而言,人工智能技術(shù)成為我們?nèi)粘I钪胁豢扇鄙俚囊豁椫匾夹g(shù),可以通過運用互聯(lián)網(wǎng)計算機系統(tǒng)研究許多事物以及這些事物的方方面面,如識別人們的語音、情感、態(tài)度等,并從理論研究逐漸走向?qū)嵸|(zhì)性研究[1]。人工智能通過辨別我們的語音,能獲取主持人在此時所要表達(dá)的情緒和情感;從原有的數(shù)據(jù)庫中篩選調(diào)取與個人情緒情感相匹配的音樂、視頻以及圖像,通過“情感標(biāo)簽”篩選出適應(yīng)個人情緒,然后實現(xiàn)自動配樂和配景[2]。
本研究首先進(jìn)行情感定義,使輸出語音有相應(yīng)的對應(yīng)標(biāo)簽。使用語譜圖作為主持人的語音的認(rèn)識辨別功能,利用GAN(簡稱生成對抗網(wǎng)絡(luò))對原始輸入特征進(jìn)行提取。使用長短記憶網(wǎng)絡(luò)對GAN的輸出特征進(jìn)行進(jìn)一步提取[3],使其具有上下時刻關(guān)聯(lián)性,大大提高了最終的識別結(jié)果。將提取出的特征進(jìn)行分類,輸出“情感標(biāo)簽”。
本研究的主要基礎(chǔ)與核心部分,是探究情感是什么,如何進(jìn)行情感的分析。當(dāng)前學(xué)術(shù)界通常將情感表示為連續(xù)型情感和離散型情感。連續(xù)型情感主要是匹配一個比較單一的情感態(tài)勢和語音這個空間中的一小部分或者是連續(xù)的一個段落,然后通過連續(xù)的情感坐標(biāo)表達(dá)人類的語音情感態(tài)勢[4]。
怎樣提煉篩選適合的匹配的特征用以顯示不同的情緒情感,最關(guān)鍵最主要的問題是在于,怎樣提取篩選比較合適的匹配的特點特征來表達(dá)不一樣的情緒情感,同時具有準(zhǔn)確性與泛化性。聲學(xué)特征通常具體包括:頻譜的特征、連續(xù)的特征、Teager能量算子,質(zhì)量的特征。本文我們使用生成對抗網(wǎng)絡(luò)來進(jìn)行語音特征提取與生成,經(jīng)過GAN的判別網(wǎng)絡(luò)進(jìn)行精確的語音識別,從而提升語音識別的精確度[4]。
生成對抗網(wǎng)絡(luò)進(jìn)行語音特征的提取增強了語音識別的準(zhǔn)確性,我們在生成器階段使用GAN對其語音技術(shù)進(jìn)行準(zhǔn)確的特征提取[3]。判別器使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行精度判別。二者之間使用空間變換網(wǎng)絡(luò)進(jìn)行連接。
本部分主要研究基于GAN+ LSTM + SVM的情感識別模型的設(shè)計。
首先是進(jìn)行基于GAN的語音情感的特征進(jìn)行篩選與提取,在運用網(wǎng)絡(luò)進(jìn)行特征的篩選與提取時,其深度在比較大程度上決定了最后識別出來的結(jié)果成效的好壞[4]。伴隨著卷積神經(jīng)網(wǎng)絡(luò)逐漸增加的層級數(shù)量、逐漸變深的深度,篩選出不同的維度特征越來越多樣化,比較高的維度特征更加具有抽象特點,可以更好地表現(xiàn)出最終展現(xiàn)結(jié)果的好壞。
我們運用長段記憶網(wǎng)絡(luò)LSTM進(jìn)一步篩選語音情緒情感的特征。在以往的神經(jīng)網(wǎng)絡(luò)中,上下時刻處理信息的關(guān)聯(lián),模型是不會關(guān)注的,通常一段話中每一個時刻要表述的情緒情感是不太一致的。所以,我們將前后兩個語句與他們各自所對應(yīng)的情感特征相互聯(lián)系起來,這樣能非常好地識別出情緒情感的標(biāo)簽。
我們使用支持向量機,進(jìn)行最后的精準(zhǔn)分類。
本部分主要包括:情感定義、語音情感特征提取,生成對抗網(wǎng)絡(luò),支持向量機和基于GAN+ LSTM + GAN的情感識別模型的設(shè)計五部分。
本次研究我們使用中科院CASIA漢語情感語料庫和太原理工大學(xué)張雪英老師團(tuán)隊錄制的情感數(shù)據(jù)庫,對主持人情感定義語音情感數(shù)據(jù)庫。
本小結(jié)主要介紹兩種常用的語音特征:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和語譜圖。公式(1)表述了梅爾頻率與聲音頻率f的關(guān)系[4]:
通過提取梅爾頻率倒譜系數(shù),語音里面所有包含的情緒情感特征都可以顯示一部分的向量,每一幀都可以代表一個向量。
語譜圖自身本來就涵蓋了全部聲音信號的頻譜,是一種具有動態(tài)的頻譜,產(chǎn)生的快速傅里葉變換為如下:
其中,Xn(m)為分幀語音的第n幀信號。0≤k≤N-1,則|X( n, k)|是X( n)的短時幅度譜估計,而m處的頻譜能量密度函數(shù)p( n, k)為:
2014年Ian Goodfellow提出了GAN以來,對GAN的研究可謂如火如荼[3]。GAN的主要結(jié)構(gòu)包括一個生成器G(Generator)和一個判別器D(Discriminator)。他的訓(xùn)練是處于一種對抗博弈。在此我們給出了GAN識別語音的原理圖:
GAN識別語音的原理圖
支持向量機通常是運用于如何進(jìn)行分類和回歸的問題[3]。在這種情況下雖然樣本量比較少,但是其表現(xiàn)不錯。支持向量機主要運用二元分類當(dāng)中。
本部分給出了基于GAN+ LSTM + GAN的情感識別模型的設(shè)計,基于GAN+ LSTM + SVM模型是一種先利用語譜圖進(jìn)行輸入,使用生成對抗網(wǎng)絡(luò)進(jìn)行特征的提?。皇褂瞄L短記憶網(wǎng)絡(luò)對生成對抗網(wǎng)絡(luò)進(jìn)行進(jìn)一步的提??;最后作為SVM支持向量機的輸入,得到分類結(jié)果,然后輸出感情標(biāo)簽[4]。