吳樹興 張秀琴
摘? 要:近年來,隨著語音信號(hào)處理技術(shù)的發(fā)展,合成語音在很多場(chǎng)景下已經(jīng)能夠滿足實(shí)際的基本要求,但在自然度上方面,還需要進(jìn)一步提高和改進(jìn)。在漢語語音合成中,韻律結(jié)構(gòu)的預(yù)測(cè)對(duì)于自然度的影響非常大,如何精確預(yù)測(cè)韻律結(jié)構(gòu),成為語音合成技術(shù)中需要解決的重要問題。該文結(jié)合注意力機(jī)制將深度神經(jīng)網(wǎng)絡(luò)雙向RNN模型用于漢語韻律詞的預(yù)測(cè),得到的預(yù)測(cè)結(jié)果表明,具有注意力機(jī)制的雙向RNN模型在進(jìn)行韻律詞的預(yù)測(cè)方面能夠獲得比較準(zhǔn)確的效果。
關(guān)鍵詞:韻律詞? 雙向RNN? 注意力機(jī)制? 深度神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)09(c)-0023-02
很多學(xué)者采用HMM模型,神經(jīng)網(wǎng)絡(luò)等技術(shù)對(duì)韻律結(jié)構(gòu)進(jìn)行預(yù)測(cè),取得了不錯(cuò)的效果,但仍然得不到令人滿意的效果。韻律詞的預(yù)測(cè)可以說是韻律結(jié)構(gòu)預(yù)測(cè)是基礎(chǔ),該文將采用深度神經(jīng)網(wǎng)絡(luò),結(jié)合注意力模型對(duì)韻律結(jié)構(gòu)中的韻律詞預(yù)測(cè)進(jìn)行嘗試。
1? 漢語韻律結(jié)構(gòu)
在漢語語言中,為了表達(dá)語義和情感,在連續(xù)的語流中,音節(jié)的發(fā)出不是連續(xù)的而是一組一組發(fā)出的,我們把這樣的一組音節(jié)稱為節(jié)奏群。同一節(jié)奏群中的音節(jié)之間緊密連接,其整體語調(diào)曲線也較連貫,不同節(jié)奏群之間會(huì)稍有停頓。節(jié)奏群里的最后一個(gè)音節(jié)與前邊的音節(jié)不同,常以特殊邊界形式表示,隨后的節(jié)奏群開始的基頻要重置,以上這種語音片段分分合合的結(jié)構(gòu)被稱作韻律結(jié)構(gòu)。韻律結(jié)構(gòu)是韻律特征主要部分,對(duì)生成語音的自然度和可懂度有著重要的影響,只有在連續(xù)的語流中,每個(gè)音節(jié)對(duì)應(yīng)的韻律參數(shù)與當(dāng)前的上下文語境協(xié)調(diào)一致時(shí),才能得到自然度、清晰度和可懂度較高的語音結(jié)果。韻律結(jié)構(gòu)主要是指韻律層級(jí)信息,包括不同的層級(jí)邊界信息及不同韻律層級(jí)的詞或短語的構(gòu)成等信息[1]。一般來說,漢語中的韻律層級(jí)結(jié)構(gòu)可分為:韻律詞、韻律短語以及語調(diào)短語這3個(gè)層次。
2? 詞向量及語言模型
在自然語言處理中,需要將詞表示成模型可處理的表示方法,比較流行的兩種表示方法是One-Hot表示和詞向量表示。詞向量表示可以在任意兩個(gè)詞之間建立關(guān)聯(lián),這種向量表示方法使相關(guān)或者相似的詞,在向量空間上距離更為接近。向量的距離可使用歐氏距離來衡量,也可以用余弦夾角來衡量。詞向量可以表征詞語深層的語義信息,同時(shí)它是一種低維實(shí)數(shù)向量,詞向量是伴隨著對(duì)神經(jīng)網(wǎng)絡(luò)語言模型的研究而提出的,2013年一款將詞表征為實(shí)數(shù)值向量的工具Word2vec[4]被開發(fā)出來。由Word2vec訓(xùn)練出的詞向量可以用來做許多自然語言處理相關(guān)的工作,比如詞性分析、聚類、分詞等。詞向量的維度一般在100維以下,就可以很好地表示詞與詞之間關(guān)聯(lián)了,因此,避免了高維度輸入特征帶來的模型訓(xùn)練和學(xué)習(xí)的負(fù)擔(dān)。另外,詞向量具有較好的可移植性,能夠在自然語言處理范圍中作為輸入特征處理多種任務(wù),對(duì)于神經(jīng)網(wǎng)絡(luò)來說通用性較好。
3? 基于深度神經(jīng)網(wǎng)絡(luò)的韻律結(jié)構(gòu)預(yù)測(cè)模型
韻律詞的預(yù)測(cè)是韻律結(jié)構(gòu)預(yù)測(cè)是基礎(chǔ)。只有準(zhǔn)確地預(yù)測(cè)出韻律詞,再預(yù)測(cè)其他韻律結(jié)構(gòu),才能在語音合成中合成自然度高的語音。深度神經(jīng)網(wǎng)絡(luò)中的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)于處理seq2seq的序列預(yù)測(cè)問題有著較好的效果,這里引入RNN對(duì)韻律詞進(jìn)行預(yù)測(cè)。
我們采用雙向RNN編碼器,并使用注意力機(jī)制[3],與RNN解碼器構(gòu)成韻律詞預(yù)測(cè)模型,如圖1所示。圖1中的解碼器的序列輸出與編碼器的序列輸入數(shù)目相同,輸出序列的取值只有{0,1}二值序列,如果為0則表示前詞和后詞一起構(gòu)成同一個(gè)韻律詞,如果為1則表示前詞和后詞各自構(gòu)成韻律詞,也就是標(biāo)志著前一個(gè)韻律詞的結(jié)束邊界和后一個(gè)韻律詞的起始邊界。形成標(biāo)注數(shù)據(jù)時(shí),將分詞Xt所對(duì)應(yīng)的標(biāo)簽0或1與輸出Yt進(jìn)行損失函數(shù)的計(jì)算,然后訓(xùn)練權(quán)值。注意力采用全局方式,權(quán)值分配按照距離和相似度來進(jìn)行計(jì)算。
4? 實(shí)驗(yàn)結(jié)果及分析
該語音合成使用的標(biāo)注語料是由清華大學(xué)人機(jī)交互與媒體集成研究所完成(簡(jiǎn)稱TH-CoSS),共5406句,其中5000句為訓(xùn)練語句,文件為TH_CoSS.txt,其余406句為測(cè)試集。進(jìn)行韻律結(jié)構(gòu)的預(yù)測(cè)主要分為如下4個(gè)步驟。
第一步,進(jìn)行分詞,采用全網(wǎng)新聞數(shù)據(jù)(SogouCA),大小為2.1G,對(duì)文件中存在問題的數(shù)據(jù)進(jìn)行處理,得到干凈的全文本數(shù)據(jù),使用中文分詞開源工具jiaba運(yùn)行jieba_seg.py文件進(jìn)行分詞,得到的分詞文本語料與己經(jīng)分好詞的標(biāo)注語料(TH_CoSS.txt)合并,作為詞向量訓(xùn)練的輸入數(shù)據(jù)。
第二步,使用工具word2vec進(jìn)行詞向量訓(xùn)練,在訓(xùn)練詞向量時(shí)選擇,我們訓(xùn)練出來的詞向量最終是要用于訓(xùn)練網(wǎng)絡(luò)模型的,也就是說用于訓(xùn)練網(wǎng)絡(luò)模型的標(biāo)注語料中的詞需要在詞向量表中被找到。
第三步,使用訓(xùn)練語料查找詞向量,同時(shí)使用C編制的小程序按照分詞結(jié)果將韻律詞標(biāo)識(shí)為0/1,形成訓(xùn)練數(shù)據(jù)。
第四步,將訓(xùn)練數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行訓(xùn)練,然后使用測(cè)試集進(jìn)行統(tǒng)計(jì)。獲得的預(yù)測(cè)結(jié)果表1所示。
從表1中可以看出:(1)隨著詞向量維度的增加,相應(yīng)的模型訓(xùn)練時(shí)間也增加了。(2)隨著詞向量維度的增加,韻律詞預(yù)測(cè)錯(cuò)誤率有所下降,在20維達(dá)到最小之后隨著詞向量維數(shù)增加,錯(cuò)誤率不會(huì)進(jìn)一步降低反而有少許升高。因此,適當(dāng)?shù)卦龃笤~向量維數(shù)可以提高模型的預(yù)測(cè)能力,但是當(dāng)維數(shù)過大時(shí),韻律詞錯(cuò)誤率不會(huì)有改善反而增加了模型訓(xùn)練時(shí)間。
5? 結(jié)語
該文采用深度神經(jīng)網(wǎng)絡(luò)雙向RNN模型并結(jié)合注意力機(jī)制對(duì)漢語語音的韻律詞進(jìn)行了預(yù)測(cè),結(jié)果顯示采用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)韻律詞進(jìn)行預(yù)測(cè)是比較有效的,進(jìn)一步提高預(yù)測(cè)精確度仍然是今后的努力方向。
參考文獻(xiàn)
[1] 賀琳,初敏,呂士楠,等,漢語合成語料庫(kù)的韻律層級(jí)標(biāo)注研究[A].第五屆全國(guó)語音學(xué)學(xué)術(shù)會(huì)議論文集[C].2003:323-326.
[2] Mikolov T,Yih W T,Zweig G.Linguistic Regularities in Continuous Space Word Representations[A].In HLT-NAACX,Association for Computational Lingaistics[C].2013.
[3] Vaswani,Ashish,et al.Attention is all you need.Advances in Neural Information Processing Systems[Z].2017.