黃國捷 金 慧 俞一彪
(蘇州大學(xué)電子信息學(xué)院,江蘇蘇州 215006)
語音轉(zhuǎn)換就是保持語義信息不變,僅改變一個說話人的語音個性特征(稱為源說話人),使其聽起來像是另一個說話人(稱為目標(biāo)說話人)的語音個性特征[1]。通過對語音轉(zhuǎn)換的研究,可以進(jìn)一步加強(qiáng)對語音相關(guān)參數(shù)的研究,探索人類的發(fā)音機(jī)理,控制語音信號的個性特征參數(shù),對語音信號轉(zhuǎn)換的研究可推動其他領(lǐng)域如:語音合成、語音識別、說話人識別等的發(fā)展,在文語轉(zhuǎn)換、說話人偽裝身份通信、多媒體娛樂、醫(yī)學(xué)領(lǐng)域的語音增強(qiáng)、極低速率的語音編碼方案[2]等領(lǐng)域有廣泛應(yīng)用價值。
語音轉(zhuǎn)換最基本的內(nèi)容有兩個方面:韻律信息的轉(zhuǎn)換和頻譜特征參數(shù)的轉(zhuǎn)換,國內(nèi)外的研究主要集中在頻譜參數(shù)的轉(zhuǎn)換方法上,現(xiàn)有的絕大多數(shù)算法基于統(tǒng)計模型[3-5]。這些算法中很多需要源和目標(biāo)說話人的足量平行語料,這帶來了很多具體應(yīng)用限制和問題,比如,訓(xùn)練的數(shù)據(jù)對兩個說話人必須是相同的,訓(xùn)練的模型只能被應(yīng)用到特定的一對組合,說話人的語料不充足,對齊時可能會出現(xiàn)的幀間錯誤匹配等等。21世紀(jì)以來,一些學(xué)者積極探索基于非平行語料的語音轉(zhuǎn)換算法。其克服了平行語料語音轉(zhuǎn)換的部分問題,如不需要相同的訓(xùn)練數(shù)據(jù),模型可以被應(yīng)用于多對一的組合。2006年,Geoffery Hinton在Science發(fā)表文章[6],提出基于深度信念網(wǎng)絡(luò)(Deep Belief Networks, DBN)可使用非監(jiān)督的逐層貪心訓(xùn)練算法,掀起了深度學(xué)習(xí)理論在語音轉(zhuǎn)換上的研究浪潮[7- 8]。2015年香港中文大學(xué)的學(xué)者Lifa Sun利用自動語音識別系統(tǒng)對長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,實(shí)現(xiàn)了多對一的語音轉(zhuǎn)換[9]。2016年,Hsu等人使用變分自編碼器進(jìn)行非平行語料的語音轉(zhuǎn)換[10]。該方法將源語音經(jīng)過編碼網(wǎng)絡(luò)生成服從高斯分布的語音編碼,再經(jīng)過解碼網(wǎng)絡(luò)將其重構(gòu)為指定的目標(biāo)語音,取得了較好的結(jié)果。
本文提出了一個增強(qiáng)變分自編碼器,通過在變分自編碼器中增加一個增強(qiáng)網(wǎng)絡(luò),由于增強(qiáng)網(wǎng)絡(luò)是一個輸入對應(yīng)一個輸出的,這使得增強(qiáng)變分自編碼器有較好的去噪能力,從而可以部分克服變分自編碼器的缺點(diǎn),得到更好的語音轉(zhuǎn)換效果。此外,本文還引入了循環(huán)訓(xùn)練方法以改善轉(zhuǎn)換語音的目標(biāo)傾向性。本文的其余部分安排如下:第2部分簡要介紹基于變分自編碼器的語音轉(zhuǎn)換原理,第3部分闡述了如何改進(jìn)變分自編碼器,并介紹增強(qiáng)變分自編碼器結(jié)構(gòu)和訓(xùn)練流程,第4部分通過實(shí)驗(yàn)數(shù)據(jù)來驗(yàn)證本文提出的模型。最后,對本文的工作進(jìn)行了總結(jié)。
變分自編碼器是一種生成模型,它將深度學(xué)習(xí)的觀點(diǎn)與統(tǒng)計學(xué)習(xí)結(jié)合在一起。變分自編碼器運(yùn)用了貝葉斯的方法,它是在概率圖模型上執(zhí)行高效的近似推理和學(xué)習(xí),并且涉及到對后驗(yàn)概率的近似優(yōu)化[11]。
圖1 變量x產(chǎn)生過程Fig.1 The process of generating a variable x
則有:
(1)
由于KL散度是大于0的,則有:
(2)
其中:
(3)
圖2 變分自編碼器語音轉(zhuǎn)換過程Fig.2 The process of voice conversion based on variation auto-encoder
圖3 增強(qiáng)變分自編碼器Fig.3 Enhanced variation auto-encoder
本文在變分自編碼器上加入了增強(qiáng)網(wǎng)絡(luò),將編碼網(wǎng)絡(luò)的輸出均值直接輸入到解碼網(wǎng)絡(luò)中,再經(jīng)過增強(qiáng)網(wǎng)絡(luò)對轉(zhuǎn)換后的語音進(jìn)行一對一的訓(xùn)練,這使得增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是穩(wěn)定的,從而使增強(qiáng)網(wǎng)絡(luò)擁有較好的去噪能力。
(4)
首先,建立一個編碼網(wǎng)絡(luò)f?(·),此時可以記輸入xs,n,xt,m為xn。它將輸入的幀編碼成均值變量μ和方差變量ε有:
μ,ε=f?(xn)
(5)
(6)
(7)
之后,把(5)中得到的均值變量μ與標(biāo)簽變量yn聯(lián)合成向量(μ,yn)以重建源語音:
(8)
(9)
Zhud等人在2018年提出了一個cyclegan網(wǎng)絡(luò)用于圖像翻譯[12]。其基本思想是:如果圖像A被成功翻譯成假圖像B′,那么假圖像B′同樣可以再次被翻譯成A′,且A′與A是完全相同的。
本文的循環(huán)訓(xùn)練的方法采用了與此相似的優(yōu)化策略:一段源語音x被轉(zhuǎn)化成目標(biāo)語音x′,當(dāng)x′通過增強(qiáng)網(wǎng)絡(luò)再次變?yōu)樵凑Z音x時,可以被無失真復(fù)原,以此為優(yōu)化目標(biāo)來更新增強(qiáng)網(wǎng)絡(luò)的參數(shù)[13-14]。
語音轉(zhuǎn)換階段,將源語音的標(biāo)簽替換為目標(biāo)語音的標(biāo)簽,增強(qiáng)變分自編碼器會輸出一個目標(biāo)語音。
本文使用KL散度來衡量編碼網(wǎng)絡(luò)的輸出與理想高斯分布的距離:
(10)
解碼網(wǎng)絡(luò)的損失為:
(11)
增強(qiáng)網(wǎng)絡(luò)的重建損失為:
(12)
增強(qiáng)網(wǎng)絡(luò)的循環(huán)損失為:
(13)
表1 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)
注:解碼網(wǎng)絡(luò)最后一層不使用激活函數(shù)和Batchnorm操作。
不斷循環(huán),當(dāng)所有損失函數(shù)的值不再有明顯變化則停止訓(xùn)練。
本文使用CMU ARCTIC語料庫[15]進(jìn)行跨性別語音轉(zhuǎn)換實(shí)驗(yàn)(男性對女性,女性對男性)。語音信號在16 kHz單聲道采樣,每一幀的長度為1024,幀移為256。從CMU ARCTIC語料庫用選取一個男生和女生的聲音,分別有1132條語音,每段語音時長約為3 s。其中一半劃分為非平行的訓(xùn)練語音,另一半劃分為測試語音。STRAIGHT(Speech Transformation And Representation and Interpolation Using Weighted Spectrogram,自適應(yīng)加權(quán)譜內(nèi)插)工具包提取語音參數(shù)并合成語音[16]。
(14)
此外,需要對目標(biāo)語音和轉(zhuǎn)換語音做歸一化處理,以減少語音強(qiáng)度對譜失真的影響。將測試集上每一段語音的譜失真取平均值得到平均譜失真。譜失真數(shù)值越小表示該方法越好。結(jié)果如圖4所示。
圖4 譜失真測度Fig.4 Spectral distortion measure
由圖4可以看出,與變分自編碼器語音轉(zhuǎn)換系統(tǒng)相比,本文的語音轉(zhuǎn)換系統(tǒng)在譜失方面有所改善。且女性轉(zhuǎn)男性比男性轉(zhuǎn)女性效果更好,這也與聽覺效果是一致的。
首先從測試集中隨機(jī)抽取10個樣本,5個為男性轉(zhuǎn)女性,5個為女性轉(zhuǎn)男性。每一個樣本包含4個文件:源語音,目標(biāo)語音,轉(zhuǎn)換語音T1,轉(zhuǎn)換語音T2。T1,T2是被隨機(jī)打亂的,一個是本文的轉(zhuǎn)換語音,另一個是變分自編碼器轉(zhuǎn)換的語音。每個測試者需要將T1,T2與目標(biāo)語音比較,T1,T2哪一個更接近目標(biāo)語音,T1,T2哪一個清晰度更好。測試者有三個選項供選擇:T1更好,T2更好,T1和T2一樣好。本文記優(yōu)勝的方法得2分,失敗的方法得0分,兩種方法一樣好各得1分。主觀評價分?jǐn)?shù)越高,那么該方法越好。參與本次測試的共有17人。兩種方法得到的平均分如圖5所示。
圖5 相似度與清晰度比較Fig.5 Comparison of similarity and clearness
由圖5可以看出,本文的方法在相似度和清晰度指標(biāo)上都優(yōu)于變分自編碼器,在清晰度方面改善尤為明顯。
此外,可以在https:∥github.com/huangguojie880/EVAE聽到變分自編碼器與增強(qiáng)變分自編碼器的語音轉(zhuǎn)換效果。
本文提出了一個基于增強(qiáng)變分自編碼器的非平行語料語音轉(zhuǎn)換系統(tǒng),對變分自編碼器做出了進(jìn)一步的改進(jìn)。從跨性別語音轉(zhuǎn)換的客觀評價標(biāo)準(zhǔn)和主觀評價標(biāo)準(zhǔn)上看,本文的改進(jìn)工作頗有成效。但是,實(shí)驗(yàn)得到的語音轉(zhuǎn)換效果與理想的非平行語料語音轉(zhuǎn)換還存在一定的差距。增強(qiáng)變分自編碼器可以克服變分自編碼器本身的一些缺點(diǎn),這種改進(jìn)可以擴(kuò)展到其他領(lǐng)域,如圖像處理中。