康廣玉,郭世澤,孫圣和
基于共振峰過渡的協(xié)同發(fā)音語音合成算法
康廣玉1,2,郭世澤3,孫圣和1
(1. 哈爾濱工業(yè)大學(xué)自動(dòng)化測(cè)試與控制系,哈爾濱150001;2. 天津工程師范學(xué)院自動(dòng)化系,天津 300222;3. 中國人民解放軍總參54所,北京 100001)
協(xié)同發(fā)音是音素在語流中受前后音素的影響,而使2個(gè)以上音素的發(fā)音特征同時(shí)出現(xiàn)的現(xiàn)象.大語料庫語音拼接算法獲得的語音合成效果最好,但錄制語料困難、算法復(fù)雜、耗費(fèi)時(shí)間,需要占用很大的存儲(chǔ)空間,在應(yīng)用中存在困難.為此,針對(duì)小語料庫語音合成,提出參數(shù)修改和波形拼接相結(jié)合的語音合成方法,通過參數(shù)修改方法合成協(xié)同發(fā)音段,再與自然語音進(jìn)行波形拼接.實(shí)驗(yàn)表明,該算法合成的語音效果較好,而且對(duì)語料庫內(nèi)容要求較低.
語音合成;協(xié)同發(fā)音;共振峰;基頻軌跡
協(xié)同發(fā)音是指在發(fā)音時(shí),音素在語流中受前后音素的影響而使2個(gè)以上音素的發(fā)音特征同時(shí)出現(xiàn)的現(xiàn)象[1].當(dāng)前音節(jié)的結(jié)束音素為元音,后音節(jié)的起始音素為元音或摩擦音時(shí),就會(huì)產(chǎn)生協(xié)同發(fā)音現(xiàn)象,而其他音素作為音節(jié)起始則不會(huì)產(chǎn)生協(xié)同發(fā)音現(xiàn)象,或可以忽略其影響.協(xié)同發(fā)音時(shí)語音在音段方面,表現(xiàn)為共振峰的過渡,在超音段方面,表現(xiàn)為基音頻率的過渡,這是說話過程中經(jīng)常發(fā)生的現(xiàn)象.
為提供語音拼接合成質(zhì)量,應(yīng)考慮協(xié)同發(fā)音現(xiàn)象.大語料庫語音波形拼接算法獲得的語音合成效果最好,在解決協(xié)同發(fā)音時(shí)采用大量錄制具有協(xié)同發(fā)音的語音,從中選擇適當(dāng)片段進(jìn)行拼接的方法,但存在錄制語料困難、算法復(fù)雜、耗費(fèi)時(shí)間,而且需要占用很大的存儲(chǔ)空間[2],在應(yīng)用中存在困難.目前進(jìn)行小語料庫語音合成算法的研究很多,文獻(xiàn)[3]提到語音拼接合成系統(tǒng)兼有拼接合成及參數(shù)合成的優(yōu)點(diǎn),也對(duì)相鄰音素基音頻率進(jìn)行了一定的修改,保證了基音頻率的聯(lián)續(xù)性,但并未考慮相鄰音素的協(xié)同發(fā)音現(xiàn)象,只是簡(jiǎn)單地將單個(gè)音節(jié)發(fā)音波形直接進(jìn)行拼接合成得到的合成語音,與實(shí)際連續(xù)語音往往有著很大的區(qū)別,主要表現(xiàn)在合成基元之間連接處的譜包絡(luò)、共振峰等聲學(xué)特性不能很好地還原,導(dǎo)致得到合成語音連續(xù)性差、譜包絡(luò)不能平滑過渡,因而效果不好[1,4].
因此,如何在語音合成基元存儲(chǔ)容量有限的條件下,進(jìn)一步提高合成語音的質(zhì)量一直是波形拼接合成法研究的主要問題.由于發(fā)音器官的慣性作用,協(xié)同發(fā)音詞組的共振峰變化和基音頻率變化是連續(xù)的[4].Matsumoto等[5]研究發(fā)現(xiàn):不同說話人發(fā)同一段語音時(shí),人耳的柯蒂氏器官就是靠感知不同的共振峰頻率分布來區(qū)分不同的說話人,基音周期與共振峰頻率能夠表示85%的說話人特征.筆者的語音合成算法主要對(duì)這2個(gè)方面進(jìn)行研究.
協(xié)同發(fā)音時(shí)語音在音段方面,表現(xiàn)為共振峰的過渡,在超音段方面,表現(xiàn)為基音頻率的過渡.“西安”存在協(xié)同發(fā)音現(xiàn)象,如果不考慮協(xié)同發(fā)音現(xiàn)象而直接合成,則發(fā)音一字一頓,聽者明顯感覺不自然.如圖1和圖2所示.
圖1 “西”、“安”單獨(dú)發(fā)音的語譜Fig.1 Speech spectrogram of individual articulation of“Xi”and“An”
圖2 “西安”協(xié)同發(fā)音的語譜Fig.2 Speech spectrogram of co-articulation of“Xi’an”
由圖2可見,具有協(xié)同發(fā)音現(xiàn)象的語音可分為2部分,語音穩(wěn)定段和語音過渡段,語音穩(wěn)定段共振峰頻率基本不變化,而語音過渡段共振峰頻率表現(xiàn)為連續(xù)平滑過渡到下移音節(jié)開始段.
筆者提出一種以音節(jié)為合成基元,參數(shù)修改與波形拼接結(jié)合的語音合成算法.其中包括2個(gè)問題:一是共振峰的修改;二是基音頻率的調(diào)整.通過對(duì)過渡段共振峰的修改和基頻軌跡的調(diào)整,來合成協(xié)同發(fā)音段,與自然語音進(jìn)行波形拼接.
2.1共振峰過渡
1)共振峰參數(shù)及其提取
共振峰參數(shù)是指發(fā)濁音時(shí),氣流通過聲道,引起聲道諧振,產(chǎn)生的一組諧振參數(shù)(頻率、帶寬和幅度).這些參數(shù)包含在語音頻譜包絡(luò)中,代表了語音信號(hào)的短時(shí)頻譜聲學(xué)特征,頻譜包絡(luò)的局部最大值就是共振峰.通常在0~5,000,Hz范圍內(nèi),有5個(gè)共振峰,從中可以提取共振峰頻率、共振峰帶寬和共振峰幅度.
由線性預(yù)測(cè)(linear prediction,LP)分析導(dǎo)出的聲道濾波器是頻譜包絡(luò)估計(jì)的有效方法,即近似認(rèn)為聲道濾波器的共軛極點(diǎn)對(duì)應(yīng)頻譜包絡(luò)的最大值,即對(duì)應(yīng)共振峰參數(shù).由線性預(yù)測(cè)分析可知,聲道可近似表示一個(gè)全極點(diǎn)濾波器.對(duì)于每一幀信號(hào),其傳輸函數(shù)表示為
式中:G為增益;pa為線性預(yù)測(cè)系數(shù);P為線性預(yù)測(cè)階數(shù).
將式(1)分解為
求解出聲道濾波函數(shù)的極點(diǎn).式(2)中:K為實(shí)極點(diǎn)個(gè)數(shù);J為共軛極點(diǎn)對(duì)的個(gè)數(shù);kr、jr為極點(diǎn)半徑;jφ為極點(diǎn)的相角.設(shè)與共軛極點(diǎn)jz對(duì)應(yīng)的共振峰頻率為jF,帶寬為jB,幅度為jA.根據(jù)文獻(xiàn)[6]則有
式中sF表示采樣頻率.利用式(2)和式(3)可得共振峰的頻率、帶寬和幅度分別為
2)修改共振峰
由于發(fā)聲器官的慣性作用,協(xié)同發(fā)音在音節(jié)之間形成一個(gè)共振峰過渡段,過渡段的前邊界各個(gè)共振峰的參數(shù)(頻率、帶寬、幅度)等于前音節(jié)結(jié)尾的相應(yīng)共振峰的參數(shù),而其后邊界的各個(gè)共振峰的參數(shù)等于后音起始的相應(yīng)共振峰的參數(shù).因此,可以通過對(duì)前后共振峰參數(shù)進(jìn)行線性插值的方法來構(gòu)造音節(jié)之間的共振峰過渡段,如圖3所示.
圖3 協(xié)同發(fā)音共振峰移動(dòng)示意Fig.3 Schematic of formants shift in co-articulations
將前共振峰的參數(shù)通過過渡時(shí)間達(dá)到后音節(jié)對(duì)應(yīng)共振峰參數(shù)值,假設(shè)在過渡時(shí)間內(nèi)共振峰參數(shù)是均勻變化的.根據(jù)語速來確定過渡時(shí)間,過渡時(shí)間一般占音節(jié)元音部分的10%~15%,實(shí)驗(yàn)采用12%作為過渡時(shí)間.
共振峰參數(shù)的修改可通過同時(shí)在語音譜中加入與原共振峰參數(shù)相對(duì)應(yīng)的復(fù)零點(diǎn)對(duì)rme±iφj,以及與修改后的共振峰參數(shù)相對(duì)應(yīng)的復(fù)極點(diǎn)對(duì)rne±iφ′j來完成[7],即代表了說話人聲音音調(diào)隨時(shí)間的起伏,它反映了一個(gè)人說話時(shí)抑揚(yáng)頓挫的特性,是語音長(zhǎng)時(shí)超音段的重要特征之一.協(xié)同發(fā)音段的基頻軌跡同樣符合說話人的韻律特點(diǎn),因此,用前后音節(jié)的基頻軌跡來估計(jì)協(xié)同發(fā)音段的基頻軌跡.
基頻軌跡的變化不是一個(gè)簡(jiǎn)單的線性過程,而是在基音頻率均值附近變化,本文中采用高斯分布來描述這一過程[8].前音節(jié)的基音參數(shù)為ff(t),通過式(8)進(jìn)行轉(zhuǎn)換得到后音節(jié)基音參數(shù),即式中
合成語音基音頻率的修改是通過LP殘差的修改來實(shí)現(xiàn)的[9],增加LP殘差的零點(diǎn)或刪除零點(diǎn)來降低和提高基音頻率.
3.1實(shí)驗(yàn)設(shè)置及步驟
實(shí)驗(yàn)中所用的說話人語音樣本均使用Sennheisere828s傳聲器和Aureon 7.1 Space專業(yè)數(shù)字音頻卡采集,其采樣頻率為PCM 22.05 kHz,16 bit量化.錄音在普通實(shí)驗(yàn)室安靜環(huán)境下進(jìn)行.
影響語音能量分布的因素很多,包括話者的年齡、情緒、身體狀況、所使用的方言等.實(shí)驗(yàn)樣本選擇了男女各2名、年齡22~24歲身體健康的大學(xué)生進(jìn)行實(shí)驗(yàn),錄制了他們?cè)谄届o時(shí)漢語普通話錄制漢語平靜狀態(tài)普通話單字發(fā)音25組,按本算法合成25個(gè)詞組.錄制文本相同的25個(gè)詞組的自然發(fā)音,作為測(cè)聽參照.具體實(shí)驗(yàn)步驟如圖4所示.
圖4 算法示意Fig.4 Schematic of proposed algorithm
2.2基音軌跡轉(zhuǎn)換
基音頻率0F代表了說話人聲音的尖銳和低沉的程度,是短時(shí)音段層面上的特征,而基頻軌跡(0Ft~)
3.2實(shí)驗(yàn)結(jié)果
圖5 合成后的語音譜Fig.5 Synthesized speech spectrogram
以“西安”為例,用本算法將單獨(dú)發(fā)音合成協(xié)同發(fā)音.實(shí)驗(yàn)結(jié)果如圖5所示.法,在實(shí)驗(yàn)中采用了25條平靜狀態(tài)普通話具有協(xié)同發(fā)音現(xiàn)象的合成詞組和25條相同文本內(nèi)容的自然語音詞組,由4名28~33歲說普通話的年輕教師男女各2人進(jìn)行測(cè)聽,按照5分制MOS 給出其認(rèn)可的效果打分,5個(gè)分制分別為:5優(yōu)、4良、3一般、2差、1壞.結(jié)果如表1所示.
3.2.2 客觀評(píng)價(jià)
采用Itakura距離進(jìn)行評(píng)價(jià),平均Itakura距離[10]為
3.2.1 主觀測(cè)聽
采用平均意見分(mean opinion scores,MOS)方
式中:N為源與目標(biāo)話者共振峰參數(shù)動(dòng)態(tài)時(shí)間規(guī)整(dynamic time wrapping,DTW)對(duì)齊后的幀數(shù);A為線性預(yù)測(cè)系數(shù);s表示源說話人;k指目標(biāo)說話人.
表1 主觀測(cè)聽結(jié)果Tab.1 Results from subjective tests %
因本算法只對(duì)協(xié)同發(fā)音過渡段進(jìn)行合成,故只將該段和自然發(fā)音過渡段進(jìn)行比較,先進(jìn)行動(dòng)態(tài)時(shí)間規(guī)整.客觀評(píng)價(jià)結(jié)果見表2.
表2 客觀評(píng)價(jià)結(jié)果Tab.2 Results from objective tests
3.3討 論
文獻(xiàn)[3]所述算法,音素采用滑動(dòng)窗平滑,尋找最合適的拼接點(diǎn),并不對(duì)音素進(jìn)行修改.因而運(yùn)算速度快,缺點(diǎn)是沒有共振峰平滑過渡、效果差.本算法通過計(jì)算前后兩音素的共振峰參數(shù)信息,人工合成一段過渡音,填補(bǔ)的兩音素之間,使得音素頻譜能量、共振峰平滑過渡,合成效果較好,但計(jì)算量大,因而運(yùn)算速度較慢.
大語料庫語音合成存在錄制語料困難、算法復(fù)雜、耗費(fèi)時(shí)間,而且需要占用很大的存儲(chǔ)空間,在應(yīng)用中存在困難.通過對(duì)漢語中協(xié)同發(fā)音現(xiàn)象的研究,提出了一種參數(shù)修改和波形拼接結(jié)合的語音合成方法,在以音節(jié)為合成基元的波形拼接算法基礎(chǔ)上通過共振峰的修改,合成協(xié)同發(fā)音音節(jié)間過渡段,再與自然語音進(jìn)行波形拼接.實(shí)驗(yàn)表明,結(jié)合了波形拼接合成與參數(shù)合成方法的優(yōu)點(diǎn),能最大限度地使用自然語音進(jìn)行語音合成,同時(shí)運(yùn)用參數(shù)合成的靈活性,因而合成語音的質(zhì)量比拼接平滑算法有較大提高,對(duì)語音庫的規(guī)模要求較低,是適用于小語料庫語音合成的良好算法.
[1] 鄭玉玲. 韻律詞邊界的協(xié)同發(fā)音問題[J]. 清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,48(S1):645-651.
Zheng Yuling. Co-articulation at the boundary of prosodic words[J]. Journal of Tsinghua University:Science and Technology,2008,48 (S1):645-651(in Chinese).
[2] 周訊溢,王 蓓,楊玉芳,等. 語句中協(xié)同發(fā)音對(duì)音節(jié)知覺的影響[J]. 心理學(xué)報(bào),2003,35(3):340-344.
Zhou Xunyi,Wang Bei,Yang Yufang,et al.The influence of coarticulation on syllable perception in utterance[J]. Acta Psychologica Sinica,2003,35(3):340-344(in Chinese).
[3] 尹 勇,曹振海,祖漪清.語境相關(guān)的音素級(jí)語音合成系統(tǒng)中拼接平滑算法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2008,48(S1):640-644.
Yin Yong,Cao Zhenhai,Zu Yiqing. Smoothing algorithm for contextual phone concatenation in speech synthesis[J]. Journal of Tsinghua University:Science and Technology,2008,48(S1):640-644(in Chinese).
[4] Zheng Yuling,Cao Jianfen,Bao Huaiqiao. Co-articulation and prosodic hierarchy [C]// Second International Conference on Tonal Aspects of Languages. La Rochelle,F(xiàn)rance,2006:145-150.
[5] Matsumoto H,Hiki S,Sone T,et al. Multidimensional representation of personal quality of vowels and its acoustical correlates [J]. IEEE Trans on Audio and Electroacoustics,1973,21(5):428-436.
[6] Furui S. Digital Speech Processing,Synthesis,and Recognition [M]. New York:Marcel Dekker Inc,1989.
[7] 蔣丹寧,蔡蓮紅,陶建華.帶有頻譜補(bǔ)償?shù)幕l修改算法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2004,44(7):974-977.
Jiang Danning,Cai Lianhong,Tao Jianhua. Pitch modification algorithm with spectral characteristic compensation[J]. Journal of Tsinghua University:Science and Technology,2004,44(7):974-977(in Chinese).
[8] Gutiérrez-Arriola J M,Montero J M,Vallejo J A,et al. A new multi-speaker formant synthesizer that applies voice conversion techniques [C]//Proc Eurospeech. Aalborg,Denmark:ISCA,2001:357-360.
[9] Rao K S,Yegnanarayana B. Prosodic manipulation using instants of significant excitation [C]// Int Conf Acoust Speech Signal Processing. Maryland,USA,2003:234-238.
[10] Rabiner L,Juang B-H. Fundamentals of Speech Recognition[M]. New Jersey:Prentice Hall,Inc,Upper Saddle River,1993.
Speech Synthesis Using Formant Transition Based Co-Articulation
KANG Guang-yu1,2,GUO Shi-ze3,SUN Sheng-he1
(1. Department of Automatic Test and Control,Harbin Institute of Technology,Harbin 150001,China;2. Department of Automation Engineering,Tianjin University of Technology and Education,Tianjin 300222,China;3. No.54 Institute from Headquarters of the General Staff,People’s Liberation Army,Beijing 100001,China)
Co-articulation is the phenomenon of co-occurrence of two or more phonemes features due to the effect of front and rear phonemes during articulation. While the speech mosaicing algorithm for the large speech database obtains good performance on speech synthesis,it finds difficulty in practical application resulting from difficulty inthe collection of speech samples,the complexity of algorithm,the time consumed and large storing space. This paper proposes a speech synthesis scheme for small speech database based on parameter adjustment and wave mosaic of speech band. The co-articulation speech band was first synthesized with parameter modification,and then mosaiced with natural speech. Simulations demonstrate that the proposed algorithm performs well on speech synthesis and has lower demand on the size of speech database.
speech synthesis;co-articulation;formant;pitch trace
TP391
A
0493-2137(2010)09-0810-05
2009-07-03;
2009-11-30.
國家自然科學(xué)基金資助項(xiàng)目(60772074).
康廣玉(1975— ),男,博士研究生,講師.
康廣玉,kgycat250318@sina.com.