楊順遼
長江大學電子信息學院,湖北荊州 434023
同態(tài)解卷處理在基音檢測中的應用
楊順遼
長江大學電子信息學院,湖北荊州 434023
人類語音分為濁音和清音,其中發(fā)濁音時氣流通過聲門使得聲帶產生張弛震蕩式振動,從而產生準周期氣流脈沖,該氣流脈沖激勵聲道就產生濁音。這種聲帶振動的頻率稱為基頻,相應的周期就稱為基音周期?;糁芷诰哂袝r變性和準周期性,其大小與聲帶、發(fā)音習慣、發(fā)音者年齡、性別和發(fā)音時的情感有關[1]。基音周期的估計稱為基音檢測,是語音處理中一個重要參數,基音檢測是語音處理中的關鍵環(huán)節(jié)和難點所在。
人們已經提出了多種基音檢測方法,如自相關函數法[2]、平均幅度差函數法[3]、小波變換法[4]等,而基于同態(tài)濾波的基音檢測法也引起了研究者的重視[5]。
基音檢測的難點在于聲道特性對基音的影響難以去除。本文采用同態(tài)解卷處理,將聲門激勵信號和聲道特性進行分離,并對處理結果采用頻率不變線性低通濾波器進行濾波,然后再采用自相關法檢測基音周期,從而減小聲道特性和噪聲對基音檢測的影響,以提高基音檢測的精度。
語音信號產生過程較復雜,影響因素多,人們希望建立語音信號產生的數字模型,以利用數字信號處理技術來實現發(fā)音器官的模擬。1930年Duddley發(fā)明的聲碼器為語音信號產生模型的建立提供了依據。其基本思想是將語音產生過程分為激勵和系統(tǒng)兩個部分,語音信號就是激勵和系統(tǒng)的卷積結果,如圖1所示[6]。
圖1 語音信號產生模型
圖1所示語音產生模型表明,語音信號中濁音可以看做是一個周期信號激勵于系統(tǒng)的響應,而清音是隨機噪聲激勵于系統(tǒng)的響應。顯然,濁音中的基音受到了聲門模型、聲道模型和口唇輻射模型的綜合影響,而這些模型會對從濁音中檢測出基音的準確性產生影響。
基音頻率一般處于80~500 Hz之間,而聲道特性中的第一共振峰頻率與基音頻率最為接近,其對基音檢測影響最大。
3.1 基本原理
同態(tài)解卷處理是以倒譜和復倒譜為基礎的。所謂復倒譜,是對序列x(n)的傅里葉變換X(ejω)取對數:
然后再進行傅里葉逆變換所得序列x?(n)即為序列x(n)的復倒譜。顯然,如果將X(ejω)表示成幅度和相位的形式,則有:即包含了實部和虛部,實部為對數幅度譜,虛部為相位。
所謂倒譜是對序列x(n)的傅里葉變換X(ejω)的幅度取對數,即
然后再進行傅里葉逆變換所得序列cx(n)即為序列x(n)的倒譜。
如果有一個序列x(n)為兩個序列x1(n)和x2(n)的卷積,即
則其復倒譜x?(n)和倒譜cx(n)為:
也就是將兩序列的卷積運算變成了加法運算,即滿足廣義的疊加原理,滿足廣義疊加原理的系統(tǒng)就稱為同態(tài)系統(tǒng)[7]。
復倒譜是可逆的,也就是一個序列可由它的復倒譜恢復出來,即將復倒譜的傅里葉變換取指數運算:
然后再作傅里葉逆變換即可恢復原序列x(n)。
既然復倒譜運算可以將卷積運算關系變?yōu)榫€性求和運算關系,因此可以將激勵信號和系統(tǒng)單位脈沖響應加以分離?;纛l率低于聲道的共振峰頻率,因此,在濁音的復倒譜中,“低時”部分對應于頻率較高的聲道特性,而“高時”部分對應于頻率較低的基音。所以可以采用頻率不變線性高通濾波器實現解卷處理,以減小聲道對基音檢測的影響。
3.2 基音檢測步驟
根據上述原理,可得出基于同態(tài)解卷處理的基音檢測步驟如下:
(1)對濁音進行傅里葉變換;
(2)對變換結果取對數然后再進行逆變換;
(3)進行頻率不變線性濾波,取出“高時”部分;
(4)進行傅里葉變換;
(5)對變換結果取指數運算并進行傅里葉逆變換;
(6)自相關法進行基音檢測。
上述檢測流程如圖2所示。
圖2 基于同態(tài)解卷的基音檢測流程
4.1 理論模型的處理
為了驗證本文方法的可行性,下面通過理論模型進行處理。聲門及聲道諧振作用的綜合影響用下式進行模擬[8]:
而發(fā)濁音時的激勵信號為:
其中β0=0.98,β1=1,α=r=0.9,θ=π/6,N0=15時的波形如圖3所示。其中圖3(c)為聲道和激勵信號的卷積,即聲音信號的模擬。
圖3(d)為利用同態(tài)解卷處理分離出的激勵信號,對復倒譜采用的是頻率不變線性高通濾波器濾波。顯然,采用同態(tài)解卷處理分離出的激勵與原始激勵信號模型基本相同,其周期性保留得較完整,而且基本不受聲門和聲道特性的影響。表明該方法用于提取基音能夠減少聲門和聲道特性的影響,從而可以提高基音檢測的精度。
4.2 實際語音的處理
下面通過一段實際的語音進行基音檢測的驗證。圖4(a)為成年男性發(fā)濁音“啊”時的一幀語音時域波形,采樣率為16 kHz,幀長為400,從圖中可以看出,基音周期為110個樣點數,從時域波形中可估計出其基音頻率為16 kHz/110= 145.45 Hz。圖4(b)為該語音的自相關結果,顯然,自相關具有周期性,可以用來檢測基音周期,估計出的基音頻率也為145.45 Hz。但是,無論是從時域波形還是從其自相關結果來看,都具有明顯的高頻成分,在進行基音檢測時易對檢測結果產生影響。
在基音檢測處理中為了減小聲道特性的影響,往往采用低通濾波預處理然后再進行基音檢測,低通濾波器的截止頻率一般取900 Hz[5,9],這樣處理雖然在一定程度上能減小聲道特性的影響,但是仍然含有一定的高頻成分,對基音檢測還是會存在影響。圖4(a)的語音信號經過900 Hz的低通濾波器濾波后的波形及其自相關如圖5所示。
圖3 理論模型及其處理結果
圖4 語音時域波形及其直接自相關
圖6(a)為采用本文方法進行同態(tài)解卷所得到的基音激勵信號。圖中存在兩個明顯的類似于沖激的等間隔脈沖,其間隔為110個樣點數。圖6(b)為圖6(a)的自相關處理結果,圖6(b)中檢測出的基音周期為110個樣點數,即145.45 Hz,與直接相關檢測結果相同。但是圖6(b)與圖4(b)和圖5(b)相比較,顯然圖6(b)中沒有明顯的其他周期成分,即減小了聲道特性對基音檢測的影響。
圖7為一段高信噪比(60 dB)濁音采用直接相關法、低通濾波后再相關處理法和本文同態(tài)解卷后再相關處理方法檢測的基音頻率檢測結果,其中橫坐標為語音幀序號,縱坐標為頻率,單位為Hz。
圖7表明在高信噪比語音中,三種方法均能較準確地檢測出基音頻率,檢測出的頻率在145 Hz左右,與時域觀察結果一致。
圖6 同態(tài)解卷分離出的激勵信號及其自相關
圖7 高信噪比語音三種方法檢測基音頻率對比
圖8 低信噪比語音三種方法檢測基音頻率對比
圖8為受隨機噪聲干擾的濁音語音(信噪比為17 dB)采用上述三種方法檢測出的基音頻率。采用直接相關處理檢測的基音頻率中有16幀出現了錯誤,誤檢率為61.5%,錯誤頻率在500 Hz到1 000 Hz之間,處于聲道的第一共振峰頻率范圍內。低通濾波處理后有11幀出現錯誤,誤檢率為42.3%,錯誤頻率處于聲道第一共振峰范圍內。而采用本文方法檢測時沒有出現將聲道共振峰頻率錯誤地檢測為基音頻率的情況。表明本文方法在基音檢測中性能優(yōu)于另外兩種方法,具有較好的抗聲道特性影響和抗噪聲性能。
表1中列出了不同信噪比時三種方法基音檢測的錯誤率。隨著信噪比的降低,本文方法的錯誤檢測率也會增加,但是,其誤檢率遠小于另外兩種常用方法。
表1 不同信噪比時基音檢測結果對比
同態(tài)解卷處理可以將卷積運算的兩個分量進行分離,而語音中濁音的產生過程可以看做是基音周期性脈沖與聲道特性的卷積,因此,從語音中直接檢測基音不可避免地會受到聲道特性和噪聲的影響。將同態(tài)解卷技術用于語音基音檢測中,可以減小聲道特性和噪聲對基音檢測的影響。理論模型和實際語音處理結果均表明該方法的可行性和有效性,從而為基音檢測提供了一種思路。
[1]馮康,時慧琨.語音信號基音檢測的現狀及展望[J].微機發(fā)展,2004,14(3):95-98.
[2]Shimamura T,Kobayashi H.Weighted autocorrelation for pitch extraction of noisy speech[J].IEEE Trans on Speech Audio Processing,2001,9(7):727-730.
[3]李晉,江成,劉甫.改進的基音檢測算法[J].計算機工程與應用,2011,47(3):117-119.
[4]Kadambe S,Boudreaux-Bartels G F.Application on the wavelet transform for pitch detection of speech signals[J].IEEE Trans on Inform Theory,1992,38(2):917-924.
[5]胡立波,吳月萍,孫光中.基于同態(tài)濾波的基音檢測算法[J].微電子學與計算機,2009,26(4):95-97.
[6]胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學出版社,2005. [7]奧本海姆,謝弗.數字信號處理[M].董士嘉,譯.北京:科學出版社,1981.
[8]楊順遼,李永全.數字信號處理實現與實踐[M].武漢:華中科技大學出版社,2011.
[9]陳小利,徐金甫.利用小波變換加權自相關的基音檢測法[J].數據采集與處理,2007,22(4):463-467.
YANG Shunliao
Electronics and Information College of Yangtze University,Jingzhou,Hubei 434023,China
Pitch detection is one of the extremely important steps in speech signal processing,but the detection result usually has errors because pitch is influenced by vocal tract characteristics and noise.The excitation signal and vocal tract characteristics in voiced speech are separated by using homomorphism deconvolution,so as to reduce the influence of vocal tract characteristics and improve the pitch detection accuracy.Then autocorrelation is used to detect pitch in excitation signal.The feasibility is verified by theoretical model.The experiment results of real speech signal indicate that the vocal tract characteristics and noise have rarely influence on pitch detection using this method.
homomorphism deconvolution;pitch detection;speech;frequency invariant linear filter
語音處理中基音檢測是極為重要的環(huán)節(jié)之一,然而濁音中的基音往往會受到聲道特性和噪聲的影響而導致檢測結果的誤差。利用同態(tài)解卷處理,將濁音中的激勵信號和聲道特性進行分離,然后再在激勵信號中利用自相關檢測基音,可以減小聲道特性和噪聲對基音檢測的影響,從而提高基音檢測的精度。通過理論模型驗證了該方法的可行性,而且實際語音信號處理結果表明,該方法在基音檢測時可以基本不受聲道特性和噪聲的影響。
同態(tài)解卷;基音檢測;語音;頻率不變線性濾波器
A
TN912.3
10.3778/j.issn.1002-8331.1203-0044
YANG Shunliao.Application of homomorphism deconvolution processing in pitch detection.Computer Engineering and Applications,2013,49(24):214-218.
楊順遼(1973—),男,副教授,研究領域為信號處理,語音,圖像處理。E-mail:robertysl@yahoo.com.cn
2012-03-02
2012-05-30
1002-8331(2013)24-0214-05
CNKI出版日期:2012-07-16http://www.cnki.net/kcms/detail/11.2127.TP.20120716.1501.050.html
◎工程與應用◎