李會(huì)雅,苑林,門(mén)晉喜,韓曉霞
(1.河北大學(xué) 電子信息工程學(xué)院,河北 保定 071002;2.河北大學(xué) 工商學(xué)院,河北 保定 071000;3.95866部隊(duì) 無(wú)線(xiàn)電導(dǎo)航教研室,河北 保定 071051)
基音周期是描述濁音激勵(lì)源的一個(gè)基本特征,其倒數(shù)稱(chēng)為基音頻率.基音頻率的不同軌跡就是聲調(diào),在漢語(yǔ)中聲調(diào)承擔(dān)著構(gòu)字辯意的作用,因此基音檢測(cè)是漢語(yǔ)語(yǔ)言處理的關(guān)鍵環(huán)節(jié).自相關(guān)函數(shù)法(ACF)[1]和平均幅度差函數(shù)法(AMDF)[2]是基音檢測(cè)的經(jīng)典算法,但準(zhǔn)確性不高,容易產(chǎn)生倍、半基音,在平滑過(guò)程中不僅增加了處理時(shí)間和算法復(fù)雜度,還可能引入新的誤差[3-4].小波變換是近年來(lái)的研究熱點(diǎn),具有良好的時(shí)頻局部分析能力,但受聲道響應(yīng)的影響較大,計(jì)算量大.文獻(xiàn)[5]給出了降低復(fù)雜度的自相關(guān)函數(shù)法,但準(zhǔn)確率不很理想.文獻(xiàn)[6-7]中的平均幅度差加權(quán)自相關(guān)法(AWAC)和文獻(xiàn)[8]中的自相關(guān)能量函數(shù)及幅度差能量函數(shù)相結(jié)合的算法,對(duì)于隨信噪比減小而越來(lái)越大的諧波峰值點(diǎn)起到了一定的抑制作用,突出了基音周期的峰值點(diǎn).但文獻(xiàn)[8]中的算法,含有大量的平方運(yùn)算,計(jì)算復(fù)雜度高.為了進(jìn)一步降低其計(jì)算量,增強(qiáng)實(shí)時(shí)性,提高基音檢測(cè)算法的魯棒性,在研究ACF法和AMDF法的基礎(chǔ)上,提出了一種基于ACEF和MDEF的新算法,既保留了算法簡(jiǎn)單、計(jì)算量小的優(yōu)點(diǎn),又提高了準(zhǔn)確度,有效杜絕了新誤差的出現(xiàn).
對(duì)于確定性信號(hào)序列x(k),自相關(guān)函數(shù)定義為
由于濁音的波形序列具有準(zhǔn)周期性,而且其R(τ)的周期與濁音的周期相同,因此可利用R(τ)第1個(gè)峰值的位置來(lái)估計(jì)基音周期.
設(shè)含噪語(yǔ)音信號(hào)s(k)由純凈語(yǔ)音信號(hào)x(k)及噪聲信號(hào)n(k)組成,可表示為[8]
若用來(lái)選擇語(yǔ)音段的窗函數(shù)為矩形窗,則定義含噪語(yǔ)音信號(hào)s(k)的短時(shí)自相關(guān)函數(shù)為
其中,N為幀長(zhǎng),τ為位移,Rxx(τ)為x(k)的自相關(guān)函數(shù),Rxn(τ)為x(k)與n(k)的互相關(guān)函數(shù),Rnx(τ)為n(k)與x(k)的互相關(guān)函數(shù),Rnn(τ)為n(k)的自相關(guān)函數(shù).
一般地,語(yǔ)音信號(hào)x(k)與噪聲信號(hào)n(k)無(wú)關(guān),則Rxn(τ)=0,Rnx(τ)=0,式(3)可表示為
當(dāng)τ≠0時(shí),n(k)互不相關(guān),則Rnn(τ)=0,則Rss(τ)可以表示為
由式(5)易知,當(dāng)τ≠0時(shí),含噪語(yǔ)音信號(hào)的自相關(guān)函數(shù)Rss(τ)與噪聲n(k)無(wú)關(guān),完全等于Rxx(τ).
對(duì)于完全的周期信號(hào)m(k),在其周期NP整數(shù)倍的樣點(diǎn)上幅值相同,可表示為
實(shí)際濁音信號(hào)的d(k)會(huì)在基音周期的整數(shù)倍位置出現(xiàn)不為零的極小值.若用來(lái)選擇語(yǔ)音段的窗函數(shù)為矩形窗,則定義語(yǔ)音信號(hào)s(k)的短時(shí)平均幅度差函數(shù)為
其中,N為幀長(zhǎng),τ為位移.若語(yǔ)音信號(hào)s(k)在窗函數(shù)取值范圍內(nèi)具有周期性,則Fss(τ)將在τ=0,±NP,±2NP,…處出現(xiàn)極小值.比較式(7)與式(3)可知,F(xiàn)ss(τ)的運(yùn)算過(guò)程較Rss(τ)簡(jiǎn)單,易于硬件實(shí)現(xiàn).
為了消除聲道共振峰和語(yǔ)音諧波對(duì)基音周期檢測(cè)的影響,對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理[11].本文采用三電平中心削波的方法,對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行處理,其輸入輸出函數(shù)
其中,y(k)為三電平中心削波器的輸出信號(hào),s(k)為三電平中心削波器的輸入信號(hào),±CL為削波電平.
由式(8)可知,當(dāng)削波器的輸入s(k)>CL時(shí),削波器的輸出為1;當(dāng)削波器的輸入s(k)<-CL時(shí),削波器的輸出為-1;當(dāng)削波器的輸入為其他情況時(shí),削波器輸出全為零.語(yǔ)音信號(hào)經(jīng)過(guò)三電平削波后,其中大多數(shù)次要的峰值被濾除掉了,僅保留下明顯顯示周期性的峰值.之后采用自相關(guān)法進(jìn)行基音檢測(cè)時(shí),可大大減少錯(cuò)判為倍頻或半頻的情況.
基音檢測(cè)過(guò)程分為3個(gè)階段:預(yù)處理、基音檢測(cè)、后處理,具體過(guò)程如圖1所示.
圖1 基音檢測(cè)實(shí)現(xiàn)過(guò)程Fig.1 Realization process of pitch detection in this paper
在預(yù)處理階段,由錄音設(shè)備采集的語(yǔ)音信號(hào)首先通過(guò)帶通濾波器,以抑制50Hz的電源干擾和大部分共振峰的影響,之后存入循環(huán)緩沖區(qū).為確保語(yǔ)音信號(hào)基音檢測(cè)的連續(xù)性,在取幀時(shí),幀移與幀長(zhǎng)的比值一般取為,前一幀與后一幀相交疊部分的數(shù)據(jù)長(zhǎng)度,稱(chēng)為幀移.將每幀數(shù)據(jù)通過(guò)削波函數(shù),削去和聲道有關(guān)的波動(dòng).
在基音周期估計(jì)階段,采用Matlab仿真軟件,記錄下本文算法得到的仿真波形中相鄰2個(gè)峰值橫坐標(biāo)之間的距離,即相隔的采樣點(diǎn)數(shù).
在后處理階段,去大野點(diǎn)模塊去除峰值橫坐標(biāo)相隔采樣點(diǎn)數(shù)的錯(cuò)誤估值,之后采用試探平滑處理算法[10],進(jìn)而得到語(yǔ)音信號(hào)的基音周期.
由于ACEF會(huì)在語(yǔ)音信號(hào)基音周期整數(shù)倍的位置上呈現(xiàn)峰值,而相應(yīng)處的MDEF則會(huì)呈現(xiàn)出谷值的特性.因此,采用本文算法得到的仿真曲線(xiàn)中,基音周期整數(shù)倍處呈現(xiàn)峰值的特性將更加突出,有利于基音周期的提取.而且算法僅涉及到1和0的相乘和相加運(yùn)算.由此可見(jiàn),新算法的計(jì)算復(fù)雜度較低,而且運(yùn)算量也得到了大幅度的降低.
本實(shí)驗(yàn)采用的測(cè)試語(yǔ)音信號(hào)是在實(shí)驗(yàn)室的噪聲環(huán)境下錄制的,其采樣頻率fs為16kHz,每個(gè)采樣點(diǎn)為16bit量化,含噪測(cè)試語(yǔ)音信號(hào)波形如圖2所示.仿真實(shí)驗(yàn)過(guò)程中采用的帶通濾波器通帶為60~90Hz,通過(guò)調(diào)用語(yǔ)音信號(hào)處理工具箱中的分幀函數(shù),實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)流的分幀處理,其中窗函數(shù)為矩形窗.幀移與幀長(zhǎng)N的比值取為基于語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,以下仿真過(guò)程均是逐次對(duì)每幀語(yǔ)音信號(hào)進(jìn)行相應(yīng)的處理.三電平中心削波處理過(guò)程中,首先分別找出該幀前個(gè)語(yǔ)音信號(hào)采樣值中的最大值,然后比較這2個(gè)最大值,取其中較小值的65%作為門(mén)限電平.將偏離采用本文算法的仿真曲線(xiàn)中相鄰2個(gè)峰值橫坐標(biāo)之間相隔采樣點(diǎn)數(shù)平均值以上的數(shù)值設(shè)為大野點(diǎn),中值平滑的滑動(dòng)窗口寬度為3,精度為中值的,將不在平滑范圍內(nèi)的點(diǎn)置為0,從而糾正個(gè)別估值的錯(cuò)誤,最后得到語(yǔ)音信號(hào)的基音周期的平均值.
設(shè)采用本文算法的仿真波形中相鄰2個(gè)峰值橫坐標(biāo)之間相隔的采樣點(diǎn)數(shù)為NT,則基音周期T=NT/fs,其中fs為采集語(yǔ)音信號(hào)時(shí)的采樣頻率,單位為kHz.
圖2 含噪測(cè)試語(yǔ)音信號(hào)波形Fig.2 Waveform of Noisy test speech signal
由圖2可見(jiàn),測(cè)試語(yǔ)音信號(hào)波形的幅度處于[-0.1,0.1]內(nèi),其持續(xù)時(shí)間為0.12s,波形帶有鋸齒狀的毛刺,說(shuō)明測(cè)試語(yǔ)音信號(hào)的錄制環(huán)境含有噪聲.
應(yīng)用語(yǔ)音信號(hào)處理Praat軟件對(duì)測(cè)試語(yǔ)音信號(hào)進(jìn)行基音頻率提取的仿真圖形,如圖3所示.
圖3 Praat處理測(cè)試語(yǔ)音信號(hào)的仿真圖形Fig.3 Simulation graphics of the test speech signal using Praat
由圖3可見(jiàn),Praat軟件得到的測(cè)試語(yǔ)音信號(hào)基音頻率為229.49Hz,則該測(cè)試語(yǔ)音信號(hào)的基音周期為
以該測(cè)試語(yǔ)音信號(hào)的第6幀數(shù)據(jù)為例,此幀語(yǔ)音信號(hào)的一般自相關(guān)函數(shù)和幅度差函數(shù)結(jié)合的(ACFMDF)的仿真示意圖如圖4所示;基于自相關(guān)能量函數(shù)和幅度差能量函數(shù)(ACEF-MDEF)的仿真示意圖如圖5所示.
圖4 第6幀語(yǔ)音信號(hào)采用ACF-MDF函數(shù)的仿真示意Fig.4 Simulation graphics of the Sixth frame test speech signal using the ACF-MDF function
圖5 第6幀信號(hào)采用ACEF-MDEF函數(shù)的仿真示意Fig.5 Simulation graphics of the Sixth frame test speech signal using the ACEF-MDEF function
由圖4可見(jiàn),在使用ACF-MDF函數(shù)法得到的第6幀測(cè)試語(yǔ)音信號(hào)的仿真示意圖中,在采樣點(diǎn)數(shù)為70的位置上出現(xiàn)了波形的峰值,但由于此處的峰值較小,在強(qiáng)噪聲環(huán)境下會(huì)出現(xiàn)峰值提取的困難,甚至峰值會(huì)完全淹沒(méi)在噪聲信號(hào)中,以致無(wú)法提取出語(yǔ)音信號(hào)的基音周期.
由圖5可見(jiàn),在使用ACEF-MDEF函數(shù)法得到的第6幀測(cè)試語(yǔ)音信號(hào)的仿真示意圖中,采樣點(diǎn)數(shù)為70位置上出現(xiàn)了波形的峰值,峰值尖銳明顯,去除了一些對(duì)提取基音周期影響較大的諧波峰值點(diǎn),使峰值點(diǎn)更加突出,有利于語(yǔ)音信號(hào)基音周期的提取,具有一定的抗噪聲性能.
基于ACEF-MDEF的基音檢測(cè)算法克服了自相關(guān)函數(shù)計(jì)算量大和幅度差函數(shù)易受噪聲影響的缺點(diǎn),比ACF和AMDF直接結(jié)合的方法更準(zhǔn)確,更穩(wěn)定.新算法涉及到的運(yùn)算簡(jiǎn)單,降低了時(shí)間和空間復(fù)雜度,適合應(yīng)用于手持語(yǔ)音識(shí)別終端上.與此同時(shí),基音檢測(cè)的準(zhǔn)確性和魯棒性也有了很大提高.但由于語(yǔ)音信號(hào)產(chǎn)生過(guò)程的復(fù)雜性和不可預(yù)測(cè)性,以及基音周期本身固有的特性,到目前為止,還沒(méi)有能適應(yīng)任何人、任何環(huán)境的基音檢測(cè)算法.因此,如何從語(yǔ)音信號(hào)中僅取出與聲帶振動(dòng)有關(guān)的信息,去除聲道的影響,是下一步需要解決的問(wèn)題.
[1]RABINER L R.On the use of autocorrelation analysis for pitch detection[J].IEEE Trans on Acoustics Speech and Signal Proc,1977,ASSP-26(1):24-33.
[2]ROSS M J,SHAFFER H L,COHEN A,et al.Average magnitude difference function pitch extractor[J].IEEE Trans on Acoustics Speech and Signal Proc,1974,22(5):353-362.
[3]DUANPEI WU,TANAKA M,CHEN R,et al.A robust speech detection algorithm for speech activated hands-free application[Z].1999IEEE International Conference on Acoustics,Speech,and Signal Processing,Phoenix,1999.
[4]BERITELLI F,CASALE S,SERRANO S.Adaptive V/UV speech detection based on acoustic noise estimation and classification[J].Electronics Letters,2007,43(4),249-251.
[5]馬祥杰,孟相如,張百生.一種自相關(guān)基音檢測(cè)算法[J].通信技術(shù),2003(5):9-11.
MA Xiangjie,MENG Xiangru,ZHANG Baisheng.An autocorrelation algorithm for pitch detection[J].Communications Technology,2003(5):9-11.
[6]劉建,鄭方,鄧答,等.基于混合幅度差函數(shù)的基音提取算法[J].電子學(xué)報(bào),2006,34(10):1925-1928.
LIU Jian,ZHENG Fang,DENG Da,et al.Combined magnitude difference function based pitch tracking algorithm.[J].Chinese Journal of Electronics,2006,34(10):1925-1928.
[7]陶維青,徐士林,仁靜.漢語(yǔ)語(yǔ)音的基音快速提取算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,1996,19(3):31-36.
TAO Weiqing,XU Shilin,REN Jing.Algorithm of Chinese Speech Pitch Extraction[J].Journal of Hefei University of Technology:Natural Science Edition,1996,19(3):31-36.
[8]李娟.基音周期檢測(cè)算法研究及在語(yǔ)音合成中的應(yīng)用[D].太原:太原理工大學(xué),2008.
LI Juan.Study of speech pitch detection algorithm and application in speech synthesis system[D].Taiyuan:Taiyuan U-niversity of Technology,2008.
[9]朱建偉,孫水發(fā).一種基于段的基音檢測(cè)算法[J].三峽大學(xué)學(xué)報(bào):自然科學(xué)版,2008,30(3):80-82.
ZHU Jianwei,SUN Shuifa.Pitch detection of speech segment[J].Journal of China Gorges Univercity:Natural Science Edition,2008,30(3):80-82.
[10]朱小燕,王昱,劉俊.漢語(yǔ)聲調(diào)識(shí)別中的基音平滑新方法[J].中文信息學(xué)報(bào),2000,15(2):45-50.
ZHU Xiaoyan,WANG Yu,LIU Jun.An approach of fundamental frequencies smoothing for Chinese Tone Recognition[J].Journal of Chinese Information Processing,2000,15(2):45-50.
[11]胡航.語(yǔ)音信號(hào)處理 [M].4版.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2009.