吳興銓,周金治
(1.西南科技大學(xué)信息工程學(xué)院,四川 綿陽 621010;2.西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實驗室,四川 綿陽 621010)
基于改進(jìn)小波變換的語音基音周期檢測
吳興銓1,2,周金治1,2
(1.西南科技大學(xué)信息工程學(xué)院,四川 綿陽 621010;2.西南科技大學(xué)特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實驗室,四川 綿陽 621010)
基音在許多方面都有比較廣泛的應(yīng)用,比如語音編碼、語音識別、語音轉(zhuǎn)換、音樂檢索以及發(fā)聲系統(tǒng)疾病診斷等。針對目前很多小波變換方法在測量基音周期時存在的準(zhǔn)確度低、復(fù)雜度高、魯棒性差等缺點(diǎn),以及在帶噪語音環(huán)境下,特別是在非平穩(wěn)噪聲下比較難判斷語音基音周期的問題,提出了一種基于改進(jìn)小波變換的語音基音檢測方法。首先將每幀帶噪信號進(jìn)行預(yù)處理,提取出有話段的信息,消除直流分量;然后在加窗分幀后先進(jìn)行端點(diǎn)檢測,濾波后再分幀;接著再利用小波分解后取低頻系數(shù)重構(gòu)信號;最后結(jié)合四階累積法對重構(gòu)信號進(jìn)行基音檢測。試驗結(jié)果表明,該方法在不同帶噪語音環(huán)境下和低信噪比條件下,提高了帶噪語音基音檢測的準(zhǔn)確性。與傳統(tǒng)的小波變換法相比,該方法魯棒性好且計算復(fù)雜度低,有利于語音基音周期檢測。
帶噪語音; 基音檢測; 小波變換; 重構(gòu)信號; 三電平中心削波; 端點(diǎn)檢測; 信噪比
基音是語音信號的重要參數(shù),語音信號中的音高由基音頻率[1]得到?;魪V泛應(yīng)用于各個領(lǐng)域,如語音編碼、語音識別、語音轉(zhuǎn)換、音樂檢索以及發(fā)聲系統(tǒng)疾病診斷等[2]。近年來,基音檢測方法層出不窮,其中具有代表性的方法有自相關(guān)函數(shù)法、平均幅度差函數(shù)法、陰陽估計法、基于濾波器的算法、倒譜分析法、多分辨率法和離散小波變換法[3]等。因為語音信號是一個非平穩(wěn)、非準(zhǔn)周期的信號,會受到聲道共振峰的影響,所以到目前為止,基音檢測的準(zhǔn)確性仍較受關(guān)注。上述所列的方法雖然在處理基音檢測上有一定的可行性,但在穩(wěn)定白噪聲的環(huán)境下信噪比(signal noise ratio,SNR)會下降到0 dB,基音檢測的準(zhǔn)確率不高,僅采用小波變換的基音檢測準(zhǔn)確率能達(dá)到80%[4]。
宋子榮等提出的小波算法[5-6]能很好地適應(yīng)語音信號的時變特性,計算復(fù)雜度也適中。但小波算法也有不足:它比較容易受到噪聲和共振峰的影響,在基音檢測的計算上產(chǎn)生偏差。文獻(xiàn)[7]采用改進(jìn)的小波轉(zhuǎn)換,該方法削弱了噪聲、降低了計算復(fù)雜度,但是計算準(zhǔn)確率不高。本文提出了一種改進(jìn)的語音基音周期檢測的方法,在低信噪比環(huán)境下不僅能大大提高基音檢測的準(zhǔn)確性,還能提高其魯棒性。
小波變換主要包含兩個部分:連續(xù)小波變換(continuous wavelet transform,CWT)和離散小波變換(discrete wavelet transform,DWT)。CWT主要用于理論分析,通過伸縮和平移參數(shù)連續(xù)取值,而計算機(jī)和工程化角度的處理實現(xiàn)往往采用DWT[8]。
1.1 連續(xù)型小波變換
在連續(xù)小波變換[9]中,平方可積分函數(shù)s(t)的連續(xù)小波變換定義為:
(1)
式中:s(t)為原始信號;<*,*>為內(nèi)積;a>0為尺度因子;b>0為平移因子;Ws()為信號s(t)的傅里葉變換;Ψa,b(t)為小波變換基函數(shù)Ψ(t)的尺度伸縮a和時間平移b所產(chǎn)生的一族解析函數(shù)的結(jié)果,常數(shù)a和b分別為尺度參數(shù)和平移參數(shù)。Ψa,b(t)中尺度參數(shù)a的伸縮和平移參數(shù)b的平移為連續(xù)取值的小波變換稱為連續(xù)小波變換。
1.2 離散型小波變換
(2)
式中:當(dāng)a=2、b=1時,離散小波變換稱為二進(jìn)制離散小波變換[10]。
在非平穩(wěn)、非線性的語音信號中,噪聲的能量明顯低于語音段的能量[11]。在實際應(yīng)用中,經(jīng)常會有一些強(qiáng)噪聲的干擾,比如火車、汽車鳴笛、移動通信環(huán)境、機(jī)械環(huán)境等。低SNR下的基音檢測是語音研究中的難點(diǎn),傳統(tǒng)的方法都存在一些不足:基于子帶能量、周期度量的方法只適用于某些噪聲環(huán)境;基于熵的方法對多路的串?dāng)_噪聲效果不好;基于特征濾波的方法不僅會增大計算量,而且會改變語音語譜結(jié)構(gòu)、丟失原數(shù)據(jù)的部分信息[12]。所以從計算量,以及在不同特征情況下得分組合權(quán)重參數(shù)的魯棒性考慮,以上方法都無法從根本上解決噪聲環(huán)境下的基音檢測問題。
信號處理中常假設(shè)信號或噪聲服從高斯分布,即在常規(guī)的信號處理中,用二階積累量表示隨機(jī)信號的統(tǒng)計特性與關(guān)系。任何類型高斯信號的三階以上高階累積量均為0。高階累積量的這種特性可用于抑制噪聲,所以使用高階累積量作為分析工具,對抑制噪聲有較好效果[13]。本文在采用小波分解后取低頻系數(shù)重構(gòu)信號,結(jié)合四階累積法對重構(gòu)信號進(jìn)行基音檢測。
累積量是語音信號中一種比較重要的統(tǒng)計特征?,F(xiàn)有均值為0的復(fù)平穩(wěn)隨機(jī)語音信號{X(n)},n=0,±1,…,±∞,其二階累積量為:
C2,x(τ)=E{x(n)x*(x+τ)}
(3)
三階累積量為:
C3,x(τ1,τ2)=E{x(n)x(n+τ1)x*(n+τ2)}
(4)
四階積累量為:
C4,x(τ1,τ2,τ3)=E{x(n)x(n+τ1)x*(n+τ2)x*(n+τ3)}-E{x(n)x(n+τ1)}E{x*(n+τ2)x*(n+τ3)}-E{x(n)x*(n+τ2)}E{x(n+τ1)x*(n+τ3)}-E{x(n)x*(n+τ3)}E{x(n+τ1)}x*(n+τ2)}
(5)
由上式可得:任何類型的高斯語音信號,其三階以上的高階累積量均為0。
假設(shè)語音信號為s(t),高斯噪聲為n(t),則帶噪語音信號表示為:
x(t)=ps(t)+qn(t)
(6)
式中:p和q為增益系數(shù)。檢測二元語音基音時,若采用傳統(tǒng)的基音檢查方法,則能明顯觀察到,當(dāng)SNR下降時,檢測的準(zhǔn)確性急劇下降。為了實現(xiàn)即使在SNR很小時,也可以得到較好的檢測結(jié)果,需要計算語音信號四階積累量。在前文所述的高階累積量中可以得出x(t)的四階累積量。因為任何類型的高斯信號其三階以上的高階積累量均為0,所以可以將計算語音信號四階積累量的問題轉(zhuǎn)換成計算帶噪語音信號四階積累量的問題。本文采用小波分解后取低頻系數(shù)重構(gòu)信號結(jié)合四階累積法,對重構(gòu)信號進(jìn)行基音檢測,一方面提高了基音檢測的準(zhǔn)確性,另一方面也控制了計算量,且不改變語音譜結(jié)構(gòu),保存了完整的語音信息。
在計算帶噪語音信號的時候,運(yùn)算量非常大,其根本原因就是計算機(jī)進(jìn)行的乘法運(yùn)算非常耗時。因此,可以采用三電平中心消波的方法對中心消波函數(shù)進(jìn)行修正。使用三電平中心消波后,可以有效避免錯判為倍頻或分頻的情況。將語音信號通過三電平中心削波器削波。三電平中心削波函數(shù)如圖1所示。
圖1 三電平中心削波函數(shù)
由圖1可知,其輸出函數(shù)為:
(7)
根據(jù)式(6)可知,輸出為x(t)。式(5)則說明了四階積累量的值,基于四階積累量的基音檢測推導(dǎo)出所用的自相關(guān)函數(shù)為:
(8)
式中:N為窗長度。求得R的峰值位置后,將這些峰值的門限進(jìn)行比較,相鄰峰值的時間差就是基音周期。
經(jīng)試驗,在低SNR環(huán)境下,自相關(guān)法根本無法進(jìn)行基音檢測,得到的結(jié)果也是錯誤的,而用高階累積量則可以準(zhǔn)確、可靠地檢測基音周期。本文就是利用小波分解后取低頻系數(shù)重構(gòu)信號[14],結(jié)合四階累積法對重構(gòu)信號進(jìn)行基音檢測。該方法的準(zhǔn)確性優(yōu)于帶噪信號下傳統(tǒng)基音檢測的方法,解決了在低SNR環(huán)境下無法得到準(zhǔn)確信號的問題。試驗表明,該方法無論在低信噪比,還是在噪聲分布不均勻的條件下,對基音周期都具有良好的檢測效果,且不會出現(xiàn)試驗數(shù)據(jù)準(zhǔn)確率驟然下降的現(xiàn)象,顯示了非常好的魯棒性。
假設(shè)帶噪語音信號為x(t),基音檢測的步驟如下。
①對每幀帶噪信號進(jìn)行預(yù)處理,提取出有話段的信息,得出語音段[15]。
②消除直流分量,設(shè)置信噪比,疊加噪聲;用所提取的有話段的信息作DWT小波變換,用低頻系數(shù)重構(gòu)信號。引入Cum表示累積量運(yùn)算,則若有λi(i=1,2,…,k)、xi(i=1,2,…,k)為隨機(jī)變量,推導(dǎo)出:
(9)
由前一節(jié)可知,s(t)與n(t)獨(dú)立,由式(9)可以得到x(t)的四階累積量:
Cum[x(k+ξ1)x(k+ξ2)x(k+ξ3)x(k+ξ4)]=a4×Cum[x(k+ξ1)x(k+ξ2)x(k+ξ3)x(k+ξ4)]+b4×Cum[k+ξ1)x(k+9ξ2)x(k+ξ3)x(k+ξ4)]
(10)
③對判斷出的語音段進(jìn)行基音檢測。根據(jù)得到的基音周期圖判斷算法的準(zhǔn)確性和魯棒性。
3.1 試驗環(huán)境
為了檢測本文方法的可行性和有效性,選擇深夜或相對比較安靜環(huán)境,在試驗室錄制內(nèi)容為“西科大”的一小段語音作為目標(biāo)語音信號。設(shè)定錄制的采樣頻率為8 kHz,采樣精度為 32 bit;目標(biāo)語音信號幀長為 316 ms,幀移為158 ms;采用標(biāo)準(zhǔn)噪聲庫NOISEX-92中的高斯白噪聲、babble以及 factory作為復(fù)雜干擾噪聲[4]。
3.2 結(jié)果分析
對原始語音波形圖加入信噪比SNR=-10 dB的高斯白噪聲后,對該加入噪聲的語音信號進(jìn)行預(yù)處理,提取有話段的信息,得出語音段,消除直流分量,在加窗分幀后先進(jìn)行端點(diǎn)檢測,濾波后再分幀,小波分解后取低頻系數(shù)重構(gòu)信號。原始信號、加噪語音信號和重構(gòu)語音信號波形圖如圖2所示。
圖2 原始信號、加噪語音信號和重構(gòu)語音信號波形圖
令SNR=-5 dB,用四階累積法對重構(gòu)信號進(jìn)行基音檢測,其結(jié)果如圖3所示。
圖3 基音檢測結(jié)果(SNR=-5 dB)
為了更好地驗證算法的準(zhǔn)確性,也為了進(jìn)一步驗證本文方法在低信噪比環(huán)境下的檢測效果,圖4為采用本文方法、在SNR=-20 dB時的基音檢測結(jié)果。
圖4 基音檢測結(jié)果(SNR=-20 dB)
由圖4可以看出,采用本文方法對小波變換進(jìn)行改進(jìn),大大提高了低信噪比下基音檢測的準(zhǔn)確性和魯棒性。
本文通過大量的樣本訓(xùn)練得出訓(xùn)練結(jié)果,并與文獻(xiàn)[2]中數(shù)據(jù)結(jié)果相比,列出了各種噪聲下的準(zhǔn)確率結(jié)果。表1記錄了采用小波-自相關(guān)函數(shù)加權(quán)平均幅度差函數(shù)的方法和本文方法在不同噪聲環(huán)境下的準(zhǔn)確率。
表1 不同信噪比下的基音檢測準(zhǔn)確率
由表1可知,與文獻(xiàn)[2]方法相比,本文方法的基音檢測準(zhǔn)確率提高了20%以上。本文方法在低信噪比環(huán)境下,大大提高了基音檢測準(zhǔn)確性及其魯棒性。
基音檢測對語音信號的后期處理具有至關(guān)重要的作用,準(zhǔn)確檢測語音信號的基音周期對高質(zhì)量的語音分析與合成、語音壓縮編碼、語音識別與說話人確認(rèn)等具有重要意義[16]。本文提出了一種小波分解后取低頻系數(shù)重構(gòu)信號,結(jié)合四階累積法對重構(gòu)信號進(jìn)行基音檢測的方法。試驗表明,該方法的基音檢測準(zhǔn)確率明顯高于目前已有的一些方法,并且在加入高斯白噪聲、低信噪比的情況下,也能得到比較精確的基音周期,提高了整個系統(tǒng)的魯棒性。
[1] 唐振民,曹建紅.基于哼唱的音樂檢索技術(shù)研究[D].南京:南京理工大學(xué),2009.
[2] 王民,曹繪,要趁紅.一種改進(jìn)的小波變換基音檢測算法[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2012,24(3):283-287.
[3] 張杰,龍子夜,張博,等.語音信號處理中基頻提取算法綜述[J].電子科技大學(xué)學(xué)報,2010(S1):99-102.
[4] 章小兵,李燕萍,王雙杰.基于改進(jìn)HHT的語音端點(diǎn)檢測[J].計算機(jī)工程,2016(6):171-174.
[5] HU J L,XU S,CHEN J.A modified pitch detection algorithm[J].IEEE Communications Letters,2001,5(2):64-66.
[6] 宋子容,袁春,溫啟榮.小波分析法對多帶激勵聲碼器基音提取的改進(jìn)[J].重慶郵電學(xué)院學(xué)報,1997(2):33-37.
[7] 李坤,劉加.基于小波變換和線性預(yù)測的基音提取[J].計算機(jī)工程,2010(10):276-278.
[8] 胡航.現(xiàn)代語音信號處理[M].北京:電子工業(yè)出版社,2014.
[9] 張賢達(dá).現(xiàn)代信號處理[M].北京:清華大學(xué)出版社,2002.
[10]熱依木汗·熱西提,吐爾洪江·阿布都克力木,馮惠,等.基于二進(jìn)小波變換的語音基音檢測[J].科技展望,2016(11):111-112.
[11]GUO Y M,FU Q,YAN Y H.Speech endpoint detection in real noise environments[J].Chinese Journal of Acoustics,2007,26(1):39-48.
[12]孫海英.基于倒譜特征和濁音特性的語音端點(diǎn)檢測方法的研究[D].青島:青島科技大學(xué),2008.
[13]金晶.短波通信系統(tǒng)中8PSK調(diào)制方式識別技術(shù)的研究[D].西安:西安電子科技大學(xué),2012.
[14]史振江,安建龍,趙玉菊.基于MATLAB的小波消噪仿真實現(xiàn)[J].石家莊鐵路職業(yè)技術(shù)學(xué)院學(xué)報,2008(1):63-66.
[15]陳煒杰.噪聲環(huán)境下的說話人識別技術(shù)研究[D].杭州:浙江工業(yè)大學(xué),2008.
[16]張少龍,吳佳鑫.語音信息的內(nèi)容分析技術(shù)研究綜述[J].現(xiàn)代圖書情報技術(shù),2007(4):28-31.
Speech Pitch Period Detection Based on Improved Wavelet Transform
WU Xingquan1,2,ZHOU Jinzhi1,2
(1.School of Information Engineering,Southwest University of Science and Technology,Mianyang 621010,China;2.Robot Technology for Special Environment Key Laboratory of Sichuan Province,Southwest University of Science and Technology,Mianyang 621010,China)
Pitch has been widely used in many areas,such as speech encoding,speech recognition,speech conversion,music retrieval and diagnosis of diseases of vocal system.Aiming at the disadvantages of pitch period measurement based on wavelet transform,e.g.,low accuracy,high complexity and poor robustness,and the problem of the difficulty of judging the speech pitch period under noisy speech environment,especially under non-stationary noising,the speech pitch period detection method based on the improved wavelet transform is proposed. Firstly,each frame of noisy signal is preprocessed to extract the information with speech segments and eliminate the DC component.Then,endpoint detection is conducted after window-added framing,and re-framing after filtering; and then the low frequency coefficient reconstructed signal is extracted after using wavelet decomposition.Finally,the pitch detection for the reconstructed signal is accomplished combining with the fourth order cumulative method.The experimental results show that under different noisy speech environment and low SNR condition,the accuracy of noisy speech pitch detection is improved.Comparing with the method of traditional wavelet transform,this method features better robustness and low computation complexity,these are helpful in speech pitch period detection.
Noisy speech; Pitch detection; Wavelet transform; Restructured signal; Three-level center clipping; Endpoint detection;SNR
特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)實驗室基金資助項目(13ZXTK07)
吳興銓(1992—),男,在讀碩士研究生,主要從事語音識別、軟件開發(fā)等技術(shù)的研究。E-mail:304094795@qq.com。 周金治(通信作者),男,碩士,副教授,主要從事計算機(jī)網(wǎng)絡(luò)與物聯(lián)網(wǎng)、智能家居、語音識別等技術(shù)的研究。 E-mail:zhoujinzhi@swust.edu.cn。
TH-3;TP391.4
A
10.16086/j.cnki.issn1000-0380.201706016
修改稿收到日期:2017-03-16