高英寧,崔艷榮+,孫存威
(1.長(zhǎng)江大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434023;2.電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 成都 611731)
語(yǔ)音情感識(shí)別(SER)是指從語(yǔ)音數(shù)據(jù)里辨別出人類的情緒狀態(tài)[1]。SER方法里,提取情緒特征的質(zhì)量大幅度上決定著情感識(shí)別精度。傳統(tǒng)的特征提取方法一般是針對(duì)整句語(yǔ)音數(shù)據(jù),提取語(yǔ)速、基音頻率等情緒特征[2]。這種方式提取的特征往往會(huì)丟失掉語(yǔ)音數(shù)據(jù)中的部分情感特征和時(shí)頻兩域的相關(guān)性信息,導(dǎo)致情感識(shí)別精度低。
隨著深度神經(jīng)網(wǎng)絡(luò)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖片處理領(lǐng)域[3]和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)在語(yǔ)音處理方面[4]取得了顯著成功。近年來(lái)語(yǔ)音情感識(shí)別領(lǐng)域引入了CNN[5]和LSTM[6],解決了傳統(tǒng)SER方法所出現(xiàn)的問(wèn)題?;谏疃壬窠?jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別模型通常需要大量的訓(xùn)練數(shù)據(jù)才能獲得一個(gè)良好的識(shí)別率[7]。若僅用小樣本的語(yǔ)音數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,容易出現(xiàn)過(guò)擬合現(xiàn)象,使得泛化能力差,從而導(dǎo)致識(shí)別率低。
經(jīng)典的數(shù)據(jù)增強(qiáng)是對(duì)原數(shù)據(jù)集應(yīng)用微小變換進(jìn)行數(shù)據(jù)增強(qiáng)[8]。一些常見(jiàn)的圖像數(shù)據(jù)增強(qiáng)技術(shù),如移位和旋轉(zhuǎn),不適用于文本或語(yǔ)音處理。相比之下,生成對(duì)抗網(wǎng)絡(luò)(GAN)側(cè)重于實(shí)際數(shù)據(jù)的模擬[9]。因此,本文使用Wasse-rstein生成對(duì)抗網(wǎng)絡(luò)[10](WGAN)對(duì)抗訓(xùn)練來(lái)自主學(xué)習(xí)原始樣本的分布規(guī)律,生成新的數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)增強(qiáng)。目前,很少有研究人員將生成對(duì)抗網(wǎng)絡(luò)應(yīng)用于小樣本語(yǔ)音情感識(shí)別去解決小樣本情感識(shí)別率低的問(wèn)題。因此,本文提出一種生成對(duì)抗網(wǎng)絡(luò)模型下的小樣本語(yǔ)音情感識(shí)別方法。
針對(duì)本文提出的生成對(duì)抗網(wǎng)絡(luò)模型下小樣本語(yǔ)音情感識(shí)別方法,其算法流程如圖1所示。
圖1 生成對(duì)抗網(wǎng)絡(luò)模型下小樣本語(yǔ)音情感識(shí)別流程
對(duì)語(yǔ)音情感數(shù)據(jù)進(jìn)行預(yù)處理就是為了把語(yǔ)音的時(shí)域信號(hào)變成包括時(shí)域和頻域特征的語(yǔ)譜圖信號(hào)[11]。首先,對(duì)一段長(zhǎng)的語(yǔ)音數(shù)據(jù)執(zhí)行分幀操作,把語(yǔ)音信號(hào)切割成大小相等的片段,其中的每一段為一幀,分別對(duì)每一個(gè)語(yǔ)音幀進(jìn)行加窗處理,以減小信號(hào)中不連續(xù)部分的幅值,通過(guò)傅里葉變換計(jì)算出每幀語(yǔ)音數(shù)據(jù)的頻率譜,對(duì)其平方轉(zhuǎn)化得到對(duì)應(yīng)頻譜的能量譜,最后把所得到的結(jié)果按照時(shí)間維度拼接形成語(yǔ)譜圖,如圖2所示。
圖2 語(yǔ)譜圖
人們的情感變化可以清晰表現(xiàn)在語(yǔ)譜圖上。例如,人們傷心時(shí),語(yǔ)速較慢,平均音調(diào)較低,語(yǔ)氣強(qiáng)度比較低,在語(yǔ)譜圖中深顏色部分的面積較小,相鄰條紋間隔較大。
原始的GAN包含:生成器網(wǎng)絡(luò)(G)和判別器網(wǎng)絡(luò)(D)。G的任務(wù)就是通過(guò)輸入隨機(jī)分布噪聲z,產(chǎn)生盡可能擬合真實(shí)數(shù)據(jù)分布Pr的數(shù)據(jù)G(z),D的任務(wù)是盡可能辨別出輸入的樣本是來(lái)自數(shù)據(jù)集的樣本x還是模擬樣本數(shù)據(jù)G(z)。G的最終目的為最大化D判別錯(cuò)誤的概率,D的最終目標(biāo)是使得自己判斷正確的概率達(dá)到最大,即D(G(z))盡可能接近0,D(x)盡可能接近1,模型優(yōu)化函數(shù)如下式
(1)
式中:Pr(x)為真實(shí)樣本的分布,Pg(z)表示隨機(jī)噪聲的分布。
GAN的訓(xùn)練為G和D交替進(jìn)行。理想的狀態(tài)下,該模型最終會(huì)找到一個(gè)全局最優(yōu)解,即D判斷不出輸入的數(shù)據(jù)是來(lái)自數(shù)據(jù)集的樣本x還是G產(chǎn)生的模擬樣本G(z)。
GAN的模型流程如圖3所示。
圖3 GAN的模型流程
由于原始的生成對(duì)抗網(wǎng)絡(luò)通過(guò)交叉熵(Jensen-Shannon divergence,JS)散度來(lái)衡量真實(shí)樣本數(shù)據(jù)和生成樣本之間的距離,會(huì)使得優(yōu)化目標(biāo)函數(shù)式(1)出現(xiàn)梯度消失[12]。而WGAN是對(duì)GAN的一種改進(jìn),提出了使用Wasserstein距離來(lái)進(jìn)行數(shù)據(jù)分布的比較,即使兩個(gè)數(shù)據(jù)分布之間沒(méi)有重合的部分,Wasserstein值也能很好地表示出兩個(gè)數(shù)據(jù)樣本距離的遠(yuǎn)近,使得模型的訓(xùn)練更加穩(wěn)定,基本解決了模型崩潰問(wèn)題,優(yōu)化目標(biāo)函數(shù)變?yōu)槭?2)
L=Ex~Pdata(x)[D(x)]-Ez~Pz(z)[D(G(z))]
(2)
根據(jù)式(2)可以得出生成器和判別器的損失函數(shù)如下式
Dloss=Ez~Pz(z)[D(G(z))]-Ex~Pdata(x)[D(x)]
(3)
Gloss=-Ez~Pz(z)[D(G(z))]
(4)
其中,x表示輸入的真實(shí)樣本,采樣于真實(shí)樣本Pdata(x),z表示輸入的正態(tài)分布噪聲,采樣于分布Pz(z)。
1.2.1 生成器
輸入的數(shù)據(jù)為100維的采樣于正態(tài)分布的噪聲,將輸入噪聲通過(guò)一個(gè)全連接層后維度轉(zhuǎn)換(Reshape)成(4,4,1024)的三維張量,經(jīng)過(guò)6層小步幅反卷積層進(jìn)行上采樣,使得輸出特征圖大小逐漸擴(kuò)大為前一層的兩倍,最終輸出一個(gè)維度為(256,256,3)的模擬樣本圖像,生成器模型如圖4所示。反卷積層的卷積核均為5×5像素,步幅大小為2,前5層反卷積層均使用ReLU非線性激活函數(shù),最后一層使用Tanh激活函數(shù)。同時(shí)在生成模型中添加批量歸一化方法,該方法避免了生成器模型把所有的樣本數(shù)據(jù)都收斂到同一個(gè)點(diǎn),解決了初始化差的問(wèn)題。
圖4 生成器模型
1.2.2 判別器
輸入數(shù)據(jù)為真實(shí)的樣本和生成的樣本,是一張維度為(256,256,3)的圖片,通過(guò)帶步長(zhǎng)的卷積層進(jìn)行下采樣,逐步學(xué)習(xí)輸入樣本的深層次特性,最后全連接層輸出判別器的判斷結(jié)果,判別器模型如圖5所示。卷積層的卷積核均為5×5像素,步幅大小為2,模型中所有層都需要使用Leaky ReLU激活函數(shù)。在判別器中添加批量歸一化方法降低初始化參數(shù)對(duì)訓(xùn)練結(jié)果的影響,加快訓(xùn)練速度。
圖5 判別器模型
1.2.3 模型訓(xùn)練
生成器模型的訓(xùn)練需要先固定判別器的參數(shù)。輸入采樣于正態(tài)分布的噪聲z,對(duì)z進(jìn)行一系列的小步幅反卷積操作和歸一化操作,輸出一批假的語(yǔ)譜圖,將它輸入到判別器模型。根據(jù)式(4)計(jì)算生成器模型的損失,依據(jù)判別器模型的判別結(jié)果以及數(shù)據(jù)集樣本和模擬樣本的Wasserstein距離,采用RMSProp算法調(diào)整模型的權(quán)重參數(shù),最小化Wasserstein距離。
判別器模型的優(yōu)化需要輸入真實(shí)樣本和生成器生成的樣本。根據(jù)式(3)來(lái)計(jì)算判別器模型的損失,判別器模型盡力去擬合出兩個(gè)輸入之間的Wassertein距離,采用RMSProp優(yōu)化算法調(diào)整權(quán)重參數(shù)。
訓(xùn)練過(guò)程采用生成模型和判別模型交替訓(xùn)練方法,為了防止過(guò)擬合的問(wèn)題,加快收斂,在更新一次生成器參數(shù)之前,均需要更新判別器參數(shù)k次。
1.3.1 遷移判別器參數(shù)
WGAN訓(xùn)練完成時(shí),G可以產(chǎn)生高質(zhì)量的模擬樣本,D學(xué)習(xí)到大量樣本特征。使用遷移學(xué)習(xí),充分利用WGAN在訓(xùn)練集上對(duì)抗訓(xùn)練學(xué)習(xí)到的大量知識(shí),將其用于解決語(yǔ)音情感識(shí)別率低的問(wèn)題。本文遷移判別器模型包括除全連接層外的所有網(wǎng)絡(luò)層參數(shù),新的語(yǔ)音情感識(shí)別模型僅需要重新訓(xùn)練最后的LSTM層和分類層,將G生成的模擬樣本作為訓(xùn)練集訓(xùn)練情感識(shí)別網(wǎng)絡(luò)。
1.3.2 LSTM網(wǎng)絡(luò)
由于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)具有強(qiáng)大的記憶功能,適合使用上下文信息對(duì)序列數(shù)據(jù)進(jìn)行建模,并得到相應(yīng)的輸出。然而RNN在學(xué)習(xí)長(zhǎng)時(shí)序信息時(shí),容易出現(xiàn)梯度消失。LSTM是對(duì)RNN的一種優(yōu)化,主要解決了訓(xùn)練長(zhǎng)序列信息時(shí)出現(xiàn)的梯度消失和梯度爆炸問(wèn)題[13],圖6為L(zhǎng)STM的結(jié)構(gòu)單元。
圖6 LSTM結(jié)構(gòu)單元
LSTM的計(jì)算公式可表示為
it=σ(Wixxt+Wihht-1+Wicct-1+bi)
(5)
ft=σ(Wfxxt+Wfhht-1+Wfcct-1+bf)
(6)
ot=σ(Woxxt+Wohht-1+Wocct+bo)
(7)
ct=ft·ct-1+it·tanh(Wcxxt+Wchht-1+bc)
(8)
ht=ot·tanh(ct)
(9)
其中,Wfx、Wfh、Wfc、bf為忘記門(mén)ft的權(quán)重參數(shù)和偏置項(xiàng),Wcx、Wch、bc為記憶單元ct的權(quán)重參數(shù)和偏置項(xiàng),Wox、Woh、Woc、bo為輸出門(mén)ot的權(quán)重參數(shù)和偏置項(xiàng),Wix、Wih、Wic、bi為輸入門(mén)it的權(quán)重參數(shù)和偏置項(xiàng),ht為L(zhǎng)STM網(wǎng)絡(luò)最后的輸出值。
利用LSTM網(wǎng)絡(luò)在時(shí)域上的建模能力,將語(yǔ)譜圖輸入卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練后得到多張?zhí)卣鲌D。特征圖的橫坐標(biāo)表示時(shí)域維度,縱坐標(biāo)表示頻域維度,將其進(jìn)行維度轉(zhuǎn)換,時(shí)域維度作為時(shí)間步長(zhǎng),特征圖數(shù)和頻域維度作為一個(gè)時(shí)間步的序列特征輸入,將其送到LSTM進(jìn)一步提取特征。經(jīng)過(guò)對(duì)特征圖的維度重構(gòu)后,可以提取到語(yǔ)音樣本的深層次長(zhǎng)時(shí)域上下文特征。
1.3.3 情感識(shí)別模型訓(xùn)練
本文將訓(xùn)練完成的生成對(duì)抗網(wǎng)絡(luò)的判別器模型和長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)應(yīng)用到小樣本語(yǔ)音情感識(shí)別中。圖7為語(yǔ)音情感識(shí)別模型,對(duì)訓(xùn)練完成的對(duì)抗網(wǎng)絡(luò)模型中的判別器網(wǎng)絡(luò)進(jìn)行參數(shù)遷移,去掉最后的全連接分類層,在進(jìn)行特征圖維度轉(zhuǎn)換,連接上兩層LSTM網(wǎng)絡(luò),隱藏節(jié)點(diǎn)數(shù)分別為1024、512,添加一層全連接層,通過(guò)softmax激活函數(shù)進(jìn)行語(yǔ)音情感識(shí)別。在新的情感識(shí)別模型中進(jìn)行參數(shù)微調(diào),損失函數(shù)采用交叉熵函數(shù),利用隨機(jī)梯度下降法調(diào)整權(quán)重參數(shù),使用生成樣本訓(xùn)練語(yǔ)音情感識(shí)別網(wǎng)絡(luò)。
圖7 語(yǔ)音情感識(shí)別模型
對(duì)于一個(gè)輸入的語(yǔ)音信號(hào),經(jīng)過(guò)情感識(shí)別模型的特征提取得到Fi,將特征Fi輸入到全連接層,經(jīng)過(guò)softmax激活函數(shù)進(jìn)行情感映射,即式(10)所示,所輸出的最大概率Si為情感識(shí)別結(jié)果
(10)
本文實(shí)驗(yàn)環(huán)境:操作系統(tǒng)為Windows10,深度學(xué)習(xí)框架為keras和Tensorflow,GPU為NVIDIA GEFORCE GTX 1060。選擇德語(yǔ)情感語(yǔ)料庫(kù)(EMODB)作為數(shù)據(jù)樣本。EMODB由10名專業(yè)錄音人對(duì)10句文本進(jìn)行錄制,共535條數(shù)據(jù),包括7類情緒狀態(tài),分別為生氣、畏懼、開(kāi)心、中性、傷心、驚訝、無(wú)聊。訓(xùn)練集和測(cè)試集的比例設(shè)置為7∶1。
2.2.1 WGAN迭代次數(shù)對(duì)識(shí)別率的影響
本實(shí)驗(yàn)使用訓(xùn)練集對(duì)WGAN進(jìn)行訓(xùn)練,G和D的更新次數(shù)為1∶5。在WGAN不同迭代次數(shù)時(shí),每條數(shù)據(jù)對(duì)應(yīng)生成50張語(yǔ)譜圖作為訓(xùn)練集訓(xùn)練本文語(yǔ)音情感識(shí)別模型,測(cè)試WGAN的迭代次數(shù)對(duì)語(yǔ)音情感識(shí)別準(zhǔn)確度的影響。
圖8為語(yǔ)譜圖在經(jīng)過(guò)多次迭代后生成的模擬樣本圖片,圖9為WGAN的Wasserstein距離圖。由圖8和圖9可以看出,在模型訓(xùn)練的開(kāi)始階段,生成的語(yǔ)譜圖變化較為劇烈,Wasserstein距離較大。隨著實(shí)驗(yàn)的不斷進(jìn)行,產(chǎn)生的模擬樣本逐漸接近原始的數(shù)據(jù)樣本。當(dāng)訓(xùn)練迭代次數(shù)達(dá)到300時(shí),發(fā)現(xiàn)圖9的Wasserstein距離趨于穩(wěn)定,說(shuō)明模型訓(xùn)練近似達(dá)到最優(yōu),得到了和原始樣本在視覺(jué)上具有高度相似性并且具有多樣性的圖像。
圖8 產(chǎn)生語(yǔ)譜圖效果
圖9 生成對(duì)抗網(wǎng)絡(luò)Wasserstein距離
圖10表示在本文語(yǔ)音情感識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)下,使用生成器生成模擬樣本作為訓(xùn)練集,測(cè)試生成對(duì)抗網(wǎng)絡(luò)在不同迭代次數(shù)下,對(duì)語(yǔ)音情感識(shí)別率的影響。
圖10 WGAN迭代次數(shù)對(duì)語(yǔ)音情感識(shí)別準(zhǔn)確度的影響
由圖10可以看出,在WGAN訓(xùn)練初期,由于對(duì)抗網(wǎng)絡(luò)變化劇烈,G生成的樣本質(zhì)量太差,對(duì)訓(xùn)練集的擴(kuò)充作用太小,導(dǎo)致識(shí)別率比較低。隨著實(shí)驗(yàn)的不斷進(jìn)行,生成的語(yǔ)譜圖逐漸接近原始數(shù)據(jù)樣本,生成的樣本對(duì)數(shù)據(jù)集有了較好的增強(qiáng)效果,使得語(yǔ)音情感識(shí)別率逐漸提高。然而實(shí)驗(yàn)迭代次數(shù)到達(dá)300后,語(yǔ)音情感識(shí)別準(zhǔn)確度趨于穩(wěn)定,這是因?yàn)殡S著WGAN迭代次數(shù)增加,網(wǎng)絡(luò)逐漸處于收斂狀態(tài),G和D都達(dá)到了最優(yōu)狀態(tài)。
2.2.2 數(shù)據(jù)增強(qiáng)方法對(duì)比實(shí)驗(yàn)
在相同條件下,使用本文語(yǔ)音情感識(shí)別模型,比較不同的數(shù)據(jù)增強(qiáng)方法,對(duì)情感識(shí)別準(zhǔn)確度的影響。通過(guò)6組對(duì)比實(shí)驗(yàn)來(lái)進(jìn)行測(cè)試,實(shí)驗(yàn)一使用原始訓(xùn)練集訓(xùn)練本文情感識(shí)別網(wǎng)絡(luò)。實(shí)驗(yàn)二到實(shí)驗(yàn)五分別采用對(duì)訓(xùn)練集樣本等比例隨機(jī)轉(zhuǎn)動(dòng)、隨機(jī)偏移、隨機(jī)縮放、隨機(jī)剪切方法將數(shù)據(jù)擴(kuò)充50倍。實(shí)驗(yàn)六采用WGAN來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),在生成器和判別器對(duì)抗訓(xùn)練300次時(shí),使用生成器為訓(xùn)練集中每條數(shù)據(jù)對(duì)應(yīng)生成50條模擬樣本作為訓(xùn)練集。
由表1可知,實(shí)驗(yàn)一采用不增強(qiáng)數(shù)據(jù)方式訓(xùn)練語(yǔ)音情感識(shí)別網(wǎng)絡(luò),識(shí)別率為90.47%。實(shí)驗(yàn)二和實(shí)驗(yàn)三所使用的數(shù)據(jù)增強(qiáng)方法使得情感識(shí)別準(zhǔn)確度有所下降,這是因?yàn)殡S機(jī)轉(zhuǎn)動(dòng),隨機(jī)偏移改變了語(yǔ)譜圖的時(shí)序結(jié)構(gòu),導(dǎo)致丟失了很多情感時(shí)頻相關(guān)性信息,使得準(zhǔn)確度下降。實(shí)驗(yàn)四和實(shí)驗(yàn)五所使用的數(shù)據(jù)增強(qiáng)方法使得情感識(shí)別準(zhǔn)確度有略微提高,這是由于隨機(jī)縮放和隨機(jī)剪切保持了語(yǔ)譜圖中的時(shí)頻兩域信息的相關(guān)性,但是產(chǎn)生的增強(qiáng)數(shù)據(jù)缺少樣本多樣性,導(dǎo)致模型辨別能力沒(méi)有大幅度提高。而實(shí)驗(yàn)六的準(zhǔn)確度相比傳統(tǒng)方法有了很大的提高,這是因?yàn)閃GAN使用語(yǔ)譜圖進(jìn)行訓(xùn)練時(shí),不是簡(jiǎn)單的對(duì)語(yǔ)譜圖進(jìn)行擬合,而是通過(guò)G和D的對(duì)抗訓(xùn)練對(duì)語(yǔ)譜圖進(jìn)行特征學(xué)習(xí),訓(xùn)練完成后,G可以生成和原始圖像具有高相似度并且多樣性豐富的樣本圖像,使得模型識(shí)別能力有了顯著提高。
表1 數(shù)據(jù)增強(qiáng)對(duì)語(yǔ)音情感識(shí)別率的影響
2.2.3 參數(shù)遷移實(shí)驗(yàn)
為了驗(yàn)證本文中遷移訓(xùn)練完成的WGAN的判別器參數(shù)的有效性,設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn)。采用WGAN來(lái)進(jìn)行數(shù)據(jù)增強(qiáng),在生成器和判別器對(duì)抗訓(xùn)練300次時(shí),使用生成器為每條數(shù)據(jù)生成50條模擬樣本作為訓(xùn)練集。
實(shí)驗(yàn)一:使用訓(xùn)練集訓(xùn)練本文情感識(shí)別網(wǎng)絡(luò)。
實(shí)驗(yàn)二:遷移訓(xùn)練完成的WGAN的判別器參數(shù)到語(yǔ)音情感識(shí)別的模型,對(duì)其進(jìn)行修改,去掉最后的全連接層,使用訓(xùn)練集訓(xùn)練本文語(yǔ)音情感識(shí)別模型。
由表2可以看出和不遷移模型相比,遷移WGAN判別器可以充分利用WGAN在訓(xùn)練集上對(duì)抗訓(xùn)練學(xué)習(xí)到的大量樣本特征知識(shí),且只需要訓(xùn)練情感識(shí)別網(wǎng)絡(luò)的最后LSTM層和分類層,提高了語(yǔ)音情感識(shí)別準(zhǔn)確度,加快了網(wǎng)絡(luò)的訓(xùn)練速度,減少了約3/5的模型訓(xùn)練時(shí)間。
表2 遷移實(shí)驗(yàn)下語(yǔ)音情感識(shí)別率和耗時(shí)的比較
2.2.4 語(yǔ)音情感識(shí)別方法對(duì)比實(shí)驗(yàn)
為驗(yàn)證本文方法的可行性,通過(guò)如下實(shí)驗(yàn)來(lái)驗(yàn)證。
實(shí)驗(yàn)一:采用文獻(xiàn)[14]所使用的方法,通過(guò)手動(dòng)提取語(yǔ)音中的基頻、共振峰等情感特征,使用SVM進(jìn)行語(yǔ)音情感識(shí)別。
實(shí)驗(yàn)二:采用文獻(xiàn)[15]提出的CNN模型,將小樣本語(yǔ)音數(shù)據(jù)預(yù)處理為梅爾頻譜圖,使用CNN對(duì)頻譜圖進(jìn)行特征參數(shù)提取并識(shí)別。
實(shí)驗(yàn)三:采用文獻(xiàn)[15]提出的CNN-LSTM模型,使用CNN提取頻譜圖特征參數(shù),把提取的特征圖進(jìn)行維度轉(zhuǎn)換,將其輸入到LSTM層中進(jìn)行語(yǔ)音情感識(shí)別。
實(shí)驗(yàn)四:使用小樣本語(yǔ)音情感數(shù)據(jù)對(duì)WGAN網(wǎng)絡(luò)進(jìn)行訓(xùn)練,訓(xùn)練完成后使用生成器生成模擬語(yǔ)譜圖樣本,并遷移判別器參數(shù),對(duì)其結(jié)構(gòu)進(jìn)行調(diào)整,去掉全連接層,連接上LSTM層,對(duì)其參數(shù)精調(diào),使用生成模擬數(shù)據(jù)作為訓(xùn)練集訓(xùn)練情感識(shí)別網(wǎng)絡(luò)。
4種實(shí)驗(yàn)下的語(yǔ)音情感識(shí)別率見(jiàn)表3。
表3 4種實(shí)驗(yàn)下的語(yǔ)音情感識(shí)別率
由實(shí)驗(yàn)一和實(shí)驗(yàn)二可知,采用頻譜圖和CNN相結(jié)合的方法相比傳統(tǒng)的語(yǔ)音情感識(shí)別方法準(zhǔn)確率更高。這是因?yàn)閭鹘y(tǒng)的語(yǔ)音情感識(shí)別方法通過(guò)手工提取情感特征,會(huì)丟失部分時(shí)頻特征信息,而CNN通過(guò)強(qiáng)大的特征學(xué)習(xí)能力對(duì)頻譜圖進(jìn)行自動(dòng)提取特征,提取到了更深層次的情緒特征,從而準(zhǔn)確度更高。實(shí)驗(yàn)三使用CNN與LSTM相結(jié)合的網(wǎng)絡(luò)模型進(jìn)行情感識(shí)別,利用CNN對(duì)頻譜圖進(jìn)行自動(dòng)提取特征,LSTM對(duì)特征圖進(jìn)一步提取時(shí)序信息特征,相比單獨(dú)使用CNN模型提升了情感識(shí)別的準(zhǔn)確度。然而由于前面的3組實(shí)驗(yàn)的訓(xùn)練樣本量偏小,模型收斂效果不好,導(dǎo)致準(zhǔn)確度不高。而實(shí)驗(yàn)四采用本文提出的模型,通過(guò)WGAN對(duì)抗訓(xùn)練來(lái)增強(qiáng)數(shù)據(jù),遷移判別器的權(quán)重參數(shù)到情感識(shí)別模型,使得語(yǔ)音情感識(shí)別模型收斂速度更快,并且連接上LSTM網(wǎng)絡(luò)結(jié)構(gòu)后使得模型的識(shí)別能力更強(qiáng),進(jìn)一步提高識(shí)別準(zhǔn)確度。
本文提出的一種生成對(duì)抗網(wǎng)絡(luò)模型下小樣本語(yǔ)音情感識(shí)別方法,使用小樣本語(yǔ)音數(shù)據(jù)對(duì)抗訓(xùn)練WGAN,生成器和判別器對(duì)抗訓(xùn)練學(xué)習(xí)樣本特征,生成器產(chǎn)生高質(zhì)量的模擬語(yǔ)譜圖樣本,解決了實(shí)際訓(xùn)練過(guò)程中訓(xùn)練數(shù)據(jù)不足的問(wèn)題。遷移判別器網(wǎng)絡(luò)參數(shù)到語(yǔ)音情感識(shí)別模型,加快了網(wǎng)絡(luò)的收斂。對(duì)其進(jìn)行參數(shù)微調(diào),去掉最后一層全連接層,連接上多層LSTM網(wǎng)絡(luò),充分提取語(yǔ)音信號(hào)的時(shí)頻兩域相關(guān)性信息,添加全連接網(wǎng)絡(luò)進(jìn)行語(yǔ)音情感識(shí)別,進(jìn)一步提高了語(yǔ)音情感識(shí)別準(zhǔn)確度。