李娟 張雪英 黃麗霞 孫慧霞 陳建玲
摘 要: 在TD?PSOLA語音合成系統(tǒng)中,基音標注的準確性是一個非常重要的因素。針對傳統(tǒng)的短時自相關函數和小波算法準確性不高和沒有自適應性的缺點,提出一種基于Hilbert?Huang變換的基音標注方法。該算法通過Hilbert?Huang變換分析語音,具有自適應性,根據自身情況選擇基函數,分解過程滿足條件自動停止。采用文中自適應算法對整段非平穩(wěn)語音信號進行基音標注,其中濁音段、過渡段采用Hilbert?Huang變換進行標注,清音段、非語音段用相近基音周期插值。實驗證明,相比自相關方法、小波方法,文中算法反映了一幀內準周期的細微變化,適應性較好。對于頻率不同的男聲和女聲,準確度可達到90%以上。
關鍵詞: 基音標注; 語音合成; Hilbert?Huang變換; 基音周期; 小波變換; 自相關函數; 自適應性
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2018)12?0153?04
Abstract: The pitch annotation accuracy is a very important factor in the TD?PSOLA speech synthesis system. In allusion to the shortcomings of low accuracy and lack of adaptability of the traditional short?term auto?correlation function and wavelet algorithm, a pitch annotation method based on Hilbert?Huang transformation is proposed. The algorithm analyzes the speech by means of Hilbert?Huang transformation, has adaptability, and selects basis functions according to its own conditions. The decomposition process of the algorithm stops automatically when the conditions are satisfied. The adaptive algorithm is adopted in this paper to conduct pitch annotation for the whole segment of non?stationary speech signals, in which the voiced speech segment and transition segment are marked by means of Hilbert?Huang transformation, and the voiceless speech segment and non?voice segment are interpolated with the similar pitch period. The experiment shows that in comparison with the auto?correlation method and wavelet method, the algorithm in this paper reflects the subtle variation of the quasi?period in a frame, has good adaptability, and has over 90% of accuracy degree for male and female voices with different frequencies.
Keywords: pitch annotation; speech synthesis; Hilbert?Huang transformation; pitch period; wavelet transformation; auto?correlation function; adaptability
0 引 言
基音周期是語音信號處理中的一個重要的特征參數,它的準確性對語音壓縮編碼、語音合成、語音識別都具有至關重要的作用[1]。
基音標注是在檢測出基音周期的基礎上對一整段語音的基音周期點做出標記,包括有語音段(清音、濁音、過渡段)和非語音段,復雜度更高。在TD?PSOLA的語音合成系統(tǒng)中,基音標注的準確性很大程度上影響著合成語音的質量。目前基音標注方法分為基于非事件的方法和基于事件的方法[2],基于非事件的檢測方法有傳統(tǒng)的自相關函數法(ACF)[3?4]、幅度差法(AMDF)[[5]]、倒譜法[6],基于事件的檢測方法有小波變換[7?9]和Hilbert?Huang變換(HHT)[10?13]。
文獻[10?13]中的Hilbert?Huang變換相比文獻[3?4]中自相關方法優(yōu)點如下:第一、采用Hilbert?Huang變換方法時,語音分幀不用加窗,文中分幀是為了分段處理;第二、自相關算法只能求一幀信號的平均周期,而Hilbert?Huang變換可以計算一幀信號的每一個基音周期點[10]。
文獻[7?9]中小波分解可以反映一幀內準周期的細微變化,但是沒有自適應性。首先,對于不一樣的信號,小波變換不能自適應地選擇小波基,不能依據不同的需求構建不同的小波基函數;其次,對于一段信號,一旦決定了分解的尺度,分解后的信號就是某一固定頻段。
相比小波變換的缺點,Hilbert?Huang變換的特點是直接和自適應。第一、因為EMD分解由信號自身直接產生基函數,根據自身特點不同的信號生成不同的基函數,具有自適應性[11?12];第二、不必根據頻率考慮分解層數的問題,因為分解信號滿足經驗模態(tài)分解的兩個條件時,自動停止分解,具有自適應的分解尺度[13]。
1 Hilbert?Huang變換理論
Hilbert?Huang變換包括有兩部分:Huang變換和Hilbert變換。Huang變換,又稱為經驗模態(tài)分解EMD,是一次篩選磨光過程,由有限個IMF(本征模態(tài)函數)組成[10]。
2 文中自適應標注算法步驟
一段語音的特點是包含有濁音、清音、清濁音的過渡段、非語音段的復雜情況。進行基音標注時,對于每一種情況都有不同的處理方法。濁音幀采用文中Hilbert?Huang變換進行標注;清音幀或非語音幀采用相鄰濁音幀的基音周期進行等間隔標注;過渡幀是較復雜的一種情況,因為該幀中一部分濁音有周期,一部分清音或非語音段沒有周期,而且準確找出清濁音的過渡幀也比較困難[14]。
本文自適應標注算法步驟如下:
1) 對語音信號進行每幀220樣點的無重疊分幀。
2) 端點檢測,采用兩級判別法。第一級用短時能量判別,第二級用短時平均過零率判別。
3) 清濁音檢測,采用能量判別。根據判別準則,濁音幀標記為1,非語音幀、過渡幀、清音幀標記為0。
4) 對于每個濁音段,起點幀號數字記錄到向量[p],結束幀號數字記錄到向量[k]。
從結果可以看出,在濁音段使用本文算法準確率較高,漏判和錯判都是出現在過渡幀。這是因為:
1) 過渡幀附近的聲門脈沖能量過低,使用閾值對于過渡幀的判斷本身就容易有誤差;
2) 在過渡幀里,尤其語音段和非語音段的交界處,已經不具有準周期性。
如果進一步用端點檢測提高清濁音邊界的判斷,調整選擇更優(yōu)的參數閾值,基音標注的準確率還可以再提高。
用文中自適應算法對8段男聲女聲分別進行基音標注,如表1所示。從表1可以看出:使用本文自適應算法的正確率都在90%以上;女聲比男生的準確率低是因為女聲的頻率高,基音周期點多,情況更復雜。
另外在實際操作中還要考慮到運算的實時性,需要用運行時間來衡量。以樣本1“中國科學院”為例,使用自相關標注的運行時間是2.6 s;使用小波方法標注的運行時間是2.7 s;使用本文自適應的方法標注的運行的時間是3.9 s;所以從這個角度來說,本文自適應方法的運行時間還需要進一步縮短。
4 結 語
本文方法應用于TD?PSOLA語音合成基音標注中,利用Hilbert?Huang自適應的特點對濁音、過渡段進行標注,拓展了Hilbert?Huang變換的應用范圍。實驗證明,相比自相關方法和小波算法,文中方法基本準確地檢測出了一整段非平穩(wěn)語音信號的所有基音峰值點。但是在過渡幀,容易出現漏判和誤判,如果進一步提高清濁音邊界的判斷,基音標注的準確率還可再提高。
參考文獻
[1] 潘崢嶸,戴芮,張寧.改進的基音周期檢測算法研究[J].計算機工程與應用,2015,51(10):223?226.
PAN Zhengrong, DAI Rui, ZHANG Ning. Improved algorithm for pitch detection [J]. Computer engineering and applications, 2015, 51(10): 223?226.
[2] 劉志剛.Hilbert?Huang變換及其在電力系統(tǒng)中的應用[M].北京:科學出版社,2015:32?35.
LIU Zhigang. Hilbert?Huang transformation and its application in power system [M]. Beijing: Science Press, 2015: 32?35.
[3] 韓芳,王學春,靳宗信.基于ACF的基音檢測改進算法[J].現代電子技術,2017,40(19):71?74.
HAN Fang, WANG Xuechun, JIN Zongxin. Improved pitch detection algorithm based on ACF [J]. Modern electronics technique, 2017, 40(19): 71?74.
[4] ZEREMDINI J, MESSAOUD M A B, BOUZID A. Multiple comb filters and autocorrelation of the multi?scale product for multi?pitch estimation [J]. Applied acoustics, 2017, 120: 45?53.
[5] 武良丹.基于小波變換與平均幅度差函數倒數的基音周期檢測算法[J].科學技術創(chuàng)新,2017(31):114?115.
WU Liangdan. Pitch period detection algorithm based on wavelet transform and average amplitude difference function Reciprocal [J]. Scientific and technological innovation, 2017(31): 114?115.
[6] 陳盼弟,黃華,何凌.基于自相關和倒譜法的基音檢測改進算法[J].計算機應用與軟件,2015,32(1):163?166.
CHEN Pandi, HUANG Hua, HE Ling. Improved algorithm for pitch detection based on ACF and CEP [J]. Computer applications and software, 2015, 32(1): 163?166.
[7] 吳興銓,周金治.基于改進小波變換的語音基音周期檢測[J].自動化儀表,2017,38(6):67?70.
WU Xingquan, ZHOU Jinzhi. Speech pitch period detection based on improved wavelet transform [J]. Process automation instrumentation, 2017, 38(6): 67?70.
[8] 王晨,章小兵,劉美娟.提升小波加權自相關函數的基音檢測算法[J].應用聲學,2018(2):201?207.
WANG Chen, ZHANG Xiaobing, LIU Meijuan. Pitch detection based on lifting wavelet transform and weighted autocorrelation [J]. Applied acoustics, 2018(2): 201?207.
[9] 孫婷婷,章小兵.一種基于小波包變換加權自相關的基音檢測算法[J].計算機工程與科學,2017,39(8):1525?1529.
SUN Tingting, ZHANG Xiaobing. A weighted autocorrelation method for pitch detection based on wavelet packet transform [J]. Computer engineering and science, 2017, 39(8): 1525?1529.
[10] 李德沖.基于改進型Hilbert?Huang變換的旋轉機械故障診斷系統(tǒng)設計[D].天津:天津工業(yè)大學,2017.
LI Dechong. Design of fault diagnosis system for rotating machinery based on improved Hilbert?Huang transform [D]. Tianjin: Tianjin Polytechnic University, 2017.
[11] 楊振,鄒男,付進.Hilbert?Huang變換在瞬態(tài)信號檢測中的應用[J].聲學技術,2015,34(2):167?171.
YANG Zhen, ZOU Nan, FU Jin. The application of Hilbert?Huang transform in transient signal detection [J]. Technicalacoustics, 2015, 34(2): 167?171.
[12] 周小龍,劉薇娜,姜振海,等.一種改進的Hilbert?Huang變換方法及其應用[J].工程科學與技術,2017,49(4):196?204.
ZHOU Xiaolong, LIU Weina, JIANG Zhenhai, et al. An improved Hilbert?Huang transform method and its application [J]. Advanced engineering sciences, 2017, 49(4): 196?204.
[13] 郭會芹.基于Hilbert?Huang的語音信號去噪算法研究[D].長春:長春理工大學,2016.
GUO Huiqin. Speech signal denoising algorithm research based on Hilbert?Huang [D]. Changchun: Changchun University of Science and Technology, 2016.
[14] 李樂,王玉英,李小霞.一種改進的小波能量熵語音端點檢測算法[J].計算機工程,2017,43(5):268?274.
LI Le, WANG Yuying, LI Xiaoxia. An improved wavelet energy entropy algorithm for speech endpoint detection [J]. Computer engineering, 2017, 43(5): 268?274.