国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于WaveNet的藏語語音合成方法

2023-03-11 03:24丁云濤才讓卓瑪貢保加才智杰
計(jì)算機(jī)仿真 2023年1期
關(guān)鍵詞:碼器藏語頻譜

丁云濤,才讓卓瑪,貢保加,才智杰

(1. 青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海 西寧 810016;2. 西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 成都 610041;3. 藏語智能信息處理及應(yīng)用國家重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

1 引言

語音合成是智能人機(jī)語音交互的核心技術(shù),它的研究對智能機(jī)器人、人機(jī)語音通訊系統(tǒng)及自動控制等的研制具有重要的理論意義和實(shí)用價值。國內(nèi)外對語音合成的研究可追溯到18世紀(jì),其發(fā)展歷程主要經(jīng)過機(jī)械裝置語音合成、電子器件語音合成、基于計(jì)算機(jī)技術(shù)的語音合成等三個階段[1]。隨著計(jì)算機(jī)硬件和技術(shù)的發(fā)展,基于計(jì)算機(jī)技術(shù)的語音合成從合成技術(shù)角度通常將語音合成分為波形合成法[2]、參數(shù)合成法[3]、規(guī)則合成法[4]和基于神經(jīng)網(wǎng)絡(luò)的語音合成法[5]。其中,基于神經(jīng)網(wǎng)絡(luò)的語音合成方法由于自主學(xué)習(xí)和反向傳播的能力[6],大大減少了語音合成的錯誤率,更貼近于人聲。因此,基于神經(jīng)網(wǎng)絡(luò)的語音合成方法已經(jīng)成為當(dāng)前語音合成的主流方法[7-10]。

藏語語音合成作為中文信息處理的重要組成部分,同時也是藏語智能人機(jī)語音交互的重點(diǎn)和難點(diǎn)?,F(xiàn)如今,神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展不僅降低了藏語語音合成的門檻,同時提高了語音合成的質(zhì)量。2019年文獻(xiàn)[11]融合seq2seq模型和注意力機(jī)制,提出了基于griffin-lim[12]聲碼器藏語語音合成方法,使得藏語語音合成進(jìn)入了新時代。

griffin-lim聲碼器高效、算法簡單,但卻存在語音保真度低、人工合成痕跡明顯的問題。2017年DeepMind提出的WaveNet[13]能夠通過直接學(xué)習(xí)到采樣值序列的映射,合成接近原始音頻效果的語音。鑒于此,該文提出了基于WaveNet的藏語語音合成方法。

2 相關(guān)技術(shù)

藏語語音合成技術(shù)作為中文信息處理的重要分支,盡管起步較晚,但也逐步從基于波形拼接的藏語語音合成[2]和基于統(tǒng)計(jì)參數(shù)的藏語語音合成[14]進(jìn)入到基于神經(jīng)網(wǎng)絡(luò)的藏語語音合成[11,15]時代。

目前,基于神經(jīng)網(wǎng)絡(luò)的藏語語音合成主要采用griffin-lim聲碼器[16,17],通過注意力機(jī)制使用編碼器-解碼器結(jié)構(gòu)提取藏文文本特征來預(yù)測mel頻譜,最后使用griffin-lim聲碼器實(shí)現(xiàn)藏語語音的合成。

圖1 基于WaveNet的藏語語音合成模型

griffin-lim聲碼器是一種已知幅度譜,通過迭代生成相位譜,并用已知的幅度譜和計(jì)算得出的相位譜,重建語音波形的方法。這種聲碼器不需要訓(xùn)練,不需要預(yù)知相位譜,而是通過幀與幀之間的關(guān)系估計(jì)相位信息。

WaveNet作為一種可訓(xùn)練的基于深度神經(jīng)網(wǎng)絡(luò)的聲碼器,可以用于語音生成建模,它是一個完全的概率自回歸模型,即可基于之前已經(jīng)生成的所有樣本,預(yù)測當(dāng)前音頻樣本的概率分布。在語音合成的聲學(xué)模型建模中,WaveNet利用因果卷積、帶洞因果卷積與相應(yīng)激活函數(shù)的結(jié)合,可以更好的學(xué)習(xí)語音中的相位、振幅等特征信息,具有很好的合成效果。從語音合成質(zhì)量來說,WaveNet聲碼器的自回歸特性及其在時域上更強(qiáng)的感知能力和感知范圍[18,19],使得合成出的語音更能貼近人聲,彌補(bǔ)了griffin-lim保真度較低且有著較為明顯的人工合成痕跡問題[18]。

藏語作為我國廣大藏區(qū)藏族使用的語言,其語音不僅具有鮮明的地域性,而且語法豐富多樣。例如,分布在中國西藏自治區(qū)和青海、四川、甘肅等地的藏族使用著不同的方言(衛(wèi)藏方言或康巴方言或安多方言),且有些方言同漢語普通話一樣有聲調(diào),但有些藏語方言沒有聲調(diào)。藏文字以字根(或稱基字)為中心由輔音字母和4個元音組成,呈二維結(jié)構(gòu),其既不同于漢字或拼音,也不同于一維結(jié)構(gòu)的英文。因而合成藏語語音,需要更多地考慮藏語言文字本身的聲韻特征信息。鑒于此,該文用帶有注意力機(jī)制(attention mechanic)[20]的特征提取結(jié)構(gòu)來提取藏文特征和頻譜特征,根據(jù)頻譜特征使用WaveNet聲碼器合成藏語語音波形。實(shí)驗(yàn)數(shù)據(jù)證明,在相同語料下該文方法能獲得更好的合成語音。

3 基于WaveNet的藏語語音合成

3.1 文本特征提取

文本特征在語音合成過程中不可或缺,因此該文首先對文本進(jìn)行預(yù)處理后,之后使用卷積運(yùn)算提取文本特征,并通過注意力機(jī)制給文本特征賦予相應(yīng)權(quán)重完成文本特征提取,具體過程簡述如下:

首先,將文本數(shù)據(jù)經(jīng)字符編碼轉(zhuǎn)換為相應(yīng)的詞向量,以此作為后續(xù)的輸入。

表1 one-hot編碼

表2 線性變換

其次,利用三個1維卷積層對詞向量提取文本特征。具體參數(shù)設(shè)置如圖2所示。

考慮到一維濾波器可以更好的檢測文本特征相關(guān)度的高低,因而在每一層卷積層中使用了512個一維濾波器提取文本特征(512與之前的詞向量特征深度對應(yīng)),每一層卷積層都通過relu激活函數(shù)來實(shí)現(xiàn)非線性激活。

圖2 卷積層

最后,使用注意力機(jī)制給文本特征賦予相應(yīng)的權(quán)重,使得文本特征經(jīng)訓(xùn)練后更符合人耳特性,其原理如圖3所示。

圖3中h1,h2,…,ht為文本特征向量(即經(jīng)過BiLSTM編碼之后的輸入),a1,a2,…,at為權(quán)重向量(即注意力權(quán)重)。該過程是將句子中每一個文本特征向量的序列與權(quán)重向量進(jìn)行乘積,得到文本特征權(quán)重向量ct,進(jìn)而將ct合并為一個c矩陣作為LSTM(decoder)的輸入。訓(xùn)練時BiLSTM將文本特征序列編碼為隱藏的特征,LSTM將賦予注意力權(quán)重的文本特征序列解碼為相應(yīng)頻譜特征,權(quán)重向量大小隨著BiLSTM和LSTM的訓(xùn)練得到更新。

圖3 注意力權(quán)重賦值

3.2 頻譜預(yù)測

考慮到mel頻譜更符合人類的聽覺系統(tǒng)[18],該文選擇mel頻譜作為頻譜特征進(jìn)行頻譜預(yù)測。通過建立一個自回歸的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)頻譜的多幀預(yù)測,其主要步驟如下:

1)將解碼后的頻譜特征矩陣通過線性投影的方式預(yù)測一幀mel頻譜向量。該過程中,線性投影的內(nèi)部結(jié)構(gòu)是一個帶有1024個隱藏單元的隱藏層,考慮到全連接可以減少特征位置帶來的影響,使得預(yù)測的mel頻譜更貼近實(shí)際的mel頻譜,從而在發(fā)音上更接近原始音頻。因此,該文用全連接映射實(shí)現(xiàn)線性投影預(yù)測得到一幀mel頻譜。

2)將獲得的該幀mel頻譜向量通過后處理層(post-net)的殘差卷積運(yùn)算使該幀mel頻譜向量更加精確。其中,post-net的內(nèi)部結(jié)構(gòu)由5個1維卷積層組成,為了避免由于卷積層數(shù)過深導(dǎo)致神經(jīng)網(wǎng)絡(luò)的梯度傳播會出現(xiàn)梯度爆炸等問題,該文利用殘差網(wǎng)絡(luò)(residual network)[21],通過跳層連接形式,使得深層網(wǎng)絡(luò)卷積的訓(xùn)練效果更好[22]。

3)預(yù)處理層(pre-net)將該幀的mel頻譜實(shí)現(xiàn)非線性變換轉(zhuǎn)換頻譜矩陣維度。該過程中,pre-net內(nèi)部結(jié)構(gòu)由2層帶有256個隱藏單元的relu全連接層組成,第一層與第二層之間使用0.5的衰減率(即第一層與第二層之間的連接個數(shù)隨機(jī)減半)來減少過擬合,提高泛化能力,從而實(shí)現(xiàn)非線性變換。

4)將頻譜矩陣與新解碼的頻譜特征矩陣進(jìn)行拼接,獲得下一幀的頻譜特征矩陣。例如新解碼的頻譜矩陣其維度為1024*1,原頻譜矩陣的維度為512*1,通過拼接作為下一幀的頻譜矩陣,其維度為1536*1的矩陣。

完成步驟4)后返回步驟1),重復(fù)此步驟,直到mel頻譜預(yù)測完全。

圖4 原聲

圖5 帶post-net

圖6 不帶post-net

3.3 波形合成

WaveNet作為神經(jīng)網(wǎng)絡(luò)聲碼器,其內(nèi)部結(jié)構(gòu)由因果卷積、帶洞因果卷積層的一維卷積層以及門控激活函數(shù)(tanh,sigmoid)構(gòu)成。其中,因果卷積保證了頻譜信息的時序性,帶洞因果卷積擴(kuò)大了頻譜卷積的感受野,而門控激活函數(shù)tanh和sigmoid分別學(xué)習(xí)音頻特征中的相位、頻率信息和振幅信息。

在藏語語音波形合成中,WaveNet將預(yù)測的Mel頻譜矩陣通過因果卷積生成新的頻譜矩陣,對頻譜矩陣通過帶洞因果卷積和一系列的門控激活函數(shù)進(jìn)行粗粒度卷積。通過自回歸特性恢復(fù)丟失相位信息后用softmax函數(shù)輸出采樣點(diǎn)的后驗(yàn)概率[23]。其中,自回歸特性是通過前t-1個波形采樣點(diǎn)來預(yù)測第t個采樣點(diǎn),其概率式(1)如下所示:

(1)

4 實(shí)驗(yàn)及結(jié)果分析

該文實(shí)驗(yàn)結(jié)果采用了客觀分析和主觀評價兩種方式,其中客觀分析首先分析了訓(xùn)練步數(shù)/百分比損失圖得出該模型訓(xùn)練的有效性,接著對比分析頻譜圖的共振峰清晰度與幅度進(jìn)而得出客觀結(jié)果,主觀分析通過MOS(Mean Opinion Score)值分析對比語音的自然度、清晰度。

實(shí)驗(yàn)語料采用青海師范大學(xué)藏文信息處理重點(diǎn)實(shí)驗(yàn)室的語料,包含2400句專業(yè)藏族播音女聲,采樣率為16000Hz,采樣精度為16bits??紤]到語音信號的非平穩(wěn)特性,在預(yù)處理中使用漢明窗,幀長50ms,幀移12.5ms。訓(xùn)練步數(shù)設(shè)置為100000步。

4.1 客觀分析

訓(xùn)練步數(shù)/百分比損失圖可以清晰地看出模型的擬合程度,如圖7(訓(xùn)練步數(shù)為100000步)所示:隨著訓(xùn)練步數(shù)的增加,百分比誤差也不斷地降低,在60000步后趨于平緩,達(dá)到0.7%的損失,得到了較好的訓(xùn)練效果。

圖7 訓(xùn)練步數(shù)/百分比損失圖

圖8 基線模型

圖9 該文模型

清楚的看出該文模型在共振峰的清晰度上相比較基線模型更加清晰,在高頻區(qū)有更多的細(xì)節(jié)描繪,更加貼近原聲。反觀基線模型,可以看出在一些共振峰上相比較原聲模型并不連續(xù),且在高頻區(qū)缺乏細(xì)節(jié)描繪。因而該文的模型相較于基線模型的藏語語音合成有著更好的表現(xiàn)。

圖10 原聲

4.2 主觀分析

從語料庫隨機(jī)抽取出5句安多藏語作為測試數(shù)據(jù),并將文獻(xiàn)[11]作為該文基線模型與該文模型進(jìn)行了對比分析。對比依據(jù)來自10位不同的專業(yè)、不同層次懂藏語的測試員對測試數(shù)據(jù)從自然度、清晰度進(jìn)行MOS打分,具體結(jié)果如表3和圖4所示。

表3 MOS值

由上表3可見,測試員普遍認(rèn)為該文模型相較于基線模型在自然度與清晰度上有著更好的MOS值。

5 結(jié)語與展望

該文在文獻(xiàn)[11]的基礎(chǔ)上,使用一維卷積層提取文本特征,添加了post-net對mel頻譜進(jìn)行進(jìn)一步處理使其預(yù)測結(jié)果更貼切實(shí)際,最后使用WaveNet代替了griffin-lim算法合成藏語語音。從主觀、客觀實(shí)驗(yàn)證明,該文的模型效果更佳,合成的語音效果在自然度、清晰度上更佳貼近原聲。

相較于漢語、英語的語料,藏語的語料非常的稀缺和現(xiàn)有聲碼器存在的問題,后續(xù)研究中還需地不斷地?cái)U(kuò)大藏語語料庫規(guī)模和改進(jìn)WaveNet聲碼器的合成速率。

猜你喜歡
碼器藏語頻譜
淺談藏語中的禮儀語
一種用于深空探測的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
DataMan 370系列固定式讀碼器
一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
藏語拉達(dá)克話的幾個語音特征
藏語地理分布格局的形成原因
一種快速準(zhǔn)確適用性廣的偽隨機(jī)擾碼識別方法
康耐視 DataMan?8050系列手持式讀碼器
一種基于功率限制下的認(rèn)知無線電的頻譜感知模型
基于Labview的虛擬頻譜分析儀的設(shè)計(jì)