王民,孫廣,沈利榮,劉利
1.西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055
2.西安石油大學(xué)光電油氣測(cè)井與檢測(cè)教育部重點(diǎn)實(shí)驗(yàn)室,西安 710065
基于對(duì)數(shù)能量倒譜特征的端點(diǎn)檢測(cè)算法
王民1,孫廣1,沈利榮2,劉利1
1.西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055
2.西安石油大學(xué)光電油氣測(cè)井與檢測(cè)教育部重點(diǎn)實(shí)驗(yàn)室,西安 710065
端點(diǎn)檢測(cè)技術(shù)是語(yǔ)音識(shí)別的關(guān)鍵技術(shù)之一,為了克服傳統(tǒng)倒譜距離語(yǔ)音端點(diǎn)檢測(cè)算法在低信噪比下檢測(cè)效果的不理想,將對(duì)數(shù)能量(LE)特征和倒譜(C)特征相結(jié)合,提出了一種新的對(duì)數(shù)能量倒譜特征(LEC),采用模糊C均值聚類和貝葉斯信息準(zhǔn)則(BIC)方法估計(jì)特征門限,得出了正確的語(yǔ)音端點(diǎn)判斷,在三種典型噪聲下,對(duì)信噪比從-5 dB到15 dB的帶噪聲語(yǔ)音進(jìn)行仿真,結(jié)果表明LEC法的檢測(cè)錯(cuò)誤率僅為20.25%,明顯低于倒譜法和對(duì)數(shù)能量法,能有效地確定語(yǔ)音的端點(diǎn)并改善語(yǔ)音識(shí)別效果。
對(duì)數(shù)能量;倒譜距離;模糊C均值聚類;貝葉斯信息準(zhǔn)則(BIC);端點(diǎn)檢測(cè)
目前語(yǔ)音識(shí)別與說(shuō)話人識(shí)別的研究中,語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率在很大程度上決定著整個(gè)系統(tǒng)的識(shí)別率。端點(diǎn)檢測(cè)的傳統(tǒng)方法是采用語(yǔ)音信號(hào)的時(shí)域特征,短時(shí)能量和短時(shí)過(guò)零率作為特征參數(shù)[1],該方法在高信噪比時(shí)具有很好的檢測(cè)效果,而在低信噪比時(shí)檢測(cè)效果則非常不理想。近年來(lái)提出了很多優(yōu)化改進(jìn)的方法,如基于倒譜距離[2]、譜熵法[3]、對(duì)數(shù)能量[4],神經(jīng)網(wǎng)絡(luò)法[5]等,檢測(cè)效果上得到了很大的改善,然而上述算法也比較容易受噪聲影響,因此,在實(shí)際環(huán)境應(yīng)用中體現(xiàn)不出好的推廣前景。
文獻(xiàn)[4]提出了對(duì)數(shù)能量法,與傳統(tǒng)的線性能量相比,不會(huì)出現(xiàn)對(duì)數(shù)能量特征中噪聲段特征值過(guò)大的問題,能較好地區(qū)分語(yǔ)音信號(hào)中不同的部分?;谖墨I(xiàn)[4]通過(guò)倒譜與對(duì)數(shù)能量相結(jié)合,提出對(duì)數(shù)能量倒譜(LEC)法,門限估計(jì)采用模糊C均值聚類和貝葉斯信息準(zhǔn)則,該方法有好的魯棒性。實(shí)驗(yàn)證明,在低信噪比噪聲環(huán)境中,這種LEC法相比對(duì)數(shù)能量法和倒譜法,能取得更好的檢測(cè)效果。
2.1 倒譜距離的定義
假定輸入信號(hào)s(n),其倒譜變換是c(n)。其中一種信號(hào)倒譜的定義是將信號(hào)s(n)的倒譜c(n)看作是lgS(w)的傅里葉級(jí)數(shù)展開[6],即:
其中,c(n)是倒譜系數(shù),且c(n)=c(-n)是實(shí)數(shù)。根據(jù)帕斯維爾定理,無(wú)限階倒譜的系數(shù)可以用p階倒譜的系數(shù)來(lái)近似,可以近似如下[2]:
信號(hào)和本身的倒譜是一一對(duì)應(yīng)的變換,倒譜距離能作為在端點(diǎn)檢測(cè)中的一個(gè)判決參數(shù),屬于相似距離范疇。
2.2 對(duì)數(shù)能量倒譜特征
在語(yǔ)言端點(diǎn)判定方法中,一種好的能量特征應(yīng)該對(duì)不同幅度的語(yǔ)音信號(hào)都具有好的區(qū)分性。也就是說(shuō),既不能使幅度相對(duì)較大的語(yǔ)音表征為靜音或噪聲,也不能使幅度小的噪聲表征成語(yǔ)音。在此,本文應(yīng)用一種對(duì)數(shù)能量[4]特征LEi,其計(jì)算的表達(dá)式為:
式中,E(i)為i幀信號(hào)的短時(shí)線性能量,a為常數(shù),實(shí)驗(yàn)結(jié)果測(cè)得當(dāng)a=5×105時(shí)效果最好。首先,對(duì)LE和C分別依次進(jìn)行平移和調(diào)整,再做相乘運(yùn)算,將其結(jié)果記為P(i),計(jì)算公式為:
其中AveLE和AveC分別為前10幀對(duì)應(yīng)的對(duì)數(shù)能量和倒譜距離的特征平均值。
然后,可得LEC的計(jì)算公式為:
其中a取9.5的經(jīng)驗(yàn)值。
倒譜特征和對(duì)數(shù)能量倒譜特征的比較,可以發(fā)現(xiàn)倒譜特征不能準(zhǔn)確地使語(yǔ)音和噪聲明顯地區(qū)分開來(lái),特別是語(yǔ)音樣本在開始的階段,噪聲也被表征出語(yǔ)音特征。而LE卻具有良好的平滑性和區(qū)分性,計(jì)算LEC的算法框圖如圖1。
圖1 對(duì)數(shù)能量倒譜特征框圖
3.1 模糊聚類C均值[7]
模糊C均值算法如下:
(1)設(shè)要聚成C個(gè)類,由人決定C的個(gè)數(shù)。
(2)在第C次迭代中,樣本數(shù)據(jù)的隸屬度用如下方法計(jì)算:
i=1,2,…,n,j=1,2,…,c。ml(l=1,2,…,c)為每個(gè)聚類的中心,μj(xi)是第i個(gè)樣本對(duì)于第j類的隸屬度函數(shù)。
(3)用由(2)得到的當(dāng)前的隸屬度函數(shù)更新計(jì)算各聚類中心。
(4)當(dāng)其隸屬度不再變化時(shí),則終止。否則返回到(2)。
3.2 貝葉斯信息準(zhǔn)則(BIC)
貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)可以用來(lái)判定語(yǔ)音端點(diǎn)檢測(cè)過(guò)程中的門限值[8]。BIC模型定義如式(9):
其中X={xi|i=1,2,…,N}為數(shù)據(jù)的特征集;Φ={φj|j=1,2,…,K}為模型參數(shù);lg(X,φ)是數(shù)據(jù)X和模型參數(shù)φ的似然函數(shù);nφ是模型參數(shù)φ的個(gè)數(shù);N是X中數(shù)據(jù)的個(gè)數(shù);λp是其懲罰因子。
由BIC可知,最大化BIC值即為最優(yōu)模型個(gè)數(shù)。假設(shè)語(yǔ)音片段和背景噪聲均服從高斯分布N(μi,∑i)模型,其中μi為均值向量,∑i為協(xié)方差矩陣,則可以通過(guò)式(10)得到聚類數(shù)為C時(shí)的BIC值:
其中N是總數(shù)據(jù)個(gè)數(shù);Ni為第i個(gè)聚類中數(shù)據(jù)的個(gè)數(shù);d為特征空間的維數(shù)。
對(duì)于黏膜型雞痘,則需要用消毒后的鑷子對(duì)病雞咽喉處的假膜進(jìn)行剝離,之后施用1%高錳酸鉀溶液對(duì)患處進(jìn)行清洗,最后涂抹魚肝油。對(duì)于結(jié)膜炎的病雞,可以通過(guò)雙氧水進(jìn)行消毒,采用抗生素眼藥水來(lái)進(jìn)行對(duì)癥治療。在發(fā)現(xiàn)雞群中出現(xiàn)雞痘的情況下,應(yīng)及時(shí)采用雞痘疫苗的五倍劑量進(jìn)行刺種,并且每天對(duì)雞以及雞舍進(jìn)行消毒。如果發(fā)病雞較多,可以通過(guò)抗病毒以及抗菌消炎的中西藥進(jìn)行治療,防治發(fā)生感染。
對(duì)于端點(diǎn)檢測(cè),可設(shè)定初始聚類個(gè)數(shù)C=2,最優(yōu)聚類數(shù)Cbest可以通過(guò)以下進(jìn)行判決:
3.3 端點(diǎn)檢測(cè)
本文利用模糊C均值聚類和BIC算法對(duì)LEC的門限值進(jìn)行估計(jì),并完成語(yǔ)音端點(diǎn)檢測(cè),其算法步驟為:
(1)通過(guò)式(6)計(jì)算信號(hào)每一幀的LEC特征。
(2)利用模糊C聚類算法對(duì)LEC特征分別進(jìn)行聚類數(shù)目是C=1和C=2時(shí)的模糊聚類。
(3)通過(guò)式(11)決定最優(yōu)聚類數(shù)Cbest的值。
(4)若Cbest=1,通過(guò)第二步得其聚類中心為m11,則LEC特征門限的計(jì)算公式為:
此時(shí),LEC特征門限的計(jì)算公式為:
其中γhigh,γlow是經(jīng)驗(yàn)常數(shù)。
(5)由以上步驟得到LEC特征雙門限值進(jìn)行端點(diǎn)檢測(cè)。雙門限端點(diǎn)檢測(cè)法見文獻(xiàn)[1]。
實(shí)驗(yàn)測(cè)試語(yǔ)音采用TIM IT標(biāo)準(zhǔn)語(yǔ)音庫(kù)中的30條連續(xù)語(yǔ)音,16 kHz采樣頻率,16 bit量化,單聲道wav語(yǔ)音格式,采用白噪聲,分別生成-5 dB,5 dB,15 dB的帶噪語(yǔ)音,最后利用NOISEX 92標(biāo)準(zhǔn)噪聲庫(kù)中的babble噪聲和pink噪聲,以及實(shí)際環(huán)境中的噪聲分別進(jìn)行了語(yǔ)音檢測(cè)分析。
由于語(yǔ)音信號(hào)在一定時(shí)間內(nèi)具有短時(shí)平穩(wěn)性,本文取幀長(zhǎng)為12 ms(每幀包含256個(gè)采樣點(diǎn)),幀移為8 m s(每幀包含128個(gè)采樣點(diǎn)),F(xiàn)FT點(diǎn)數(shù)為256,門限估計(jì)參數(shù)為:
實(shí)驗(yàn)比較對(duì)象為文獻(xiàn)[4]的對(duì)數(shù)能量法,首先載入一段干凈的語(yǔ)音信號(hào),如圖2,分別用兩種參數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行分析,用對(duì)數(shù)能量檢測(cè)的結(jié)果如圖3,用對(duì)數(shù)能量倒譜特征的檢測(cè)結(jié)果如圖4。
圖3 語(yǔ)音信號(hào)的檢測(cè)結(jié)果
圖4 語(yǔ)音信號(hào)的檢測(cè)結(jié)果
圖2 原始語(yǔ)音
通常在連續(xù)的語(yǔ)音條件差下,不能完全地檢測(cè)出端點(diǎn),因?yàn)闀?huì)有輔音的漏檢和噪音的誤檢造成干擾,因此給出如下式(17)~(19)的評(píng)價(jià)標(biāo)準(zhǔn)。
其中l(wèi)eak_num,false_num和F_num分別表示語(yǔ)音被誤檢是噪聲的幀數(shù),噪聲被誤檢是語(yǔ)音的幀數(shù)和總的語(yǔ)音幀數(shù),圖4給出的是本文方法在SNR=15 dB的端點(diǎn)檢測(cè)。
為了進(jìn)一步檢測(cè)本文方法的魯棒性,分別對(duì)語(yǔ)音信號(hào)進(jìn)行了pink噪聲分析,如圖5,babble噪聲分析,如圖6。本文為了模擬實(shí)際環(huán)境中的噪聲,用采集到的一段道路十字路口的噪聲,進(jìn)行實(shí)際噪聲下的魯棒性分析,如圖7。
由圖3中的(b)和(c)圖可以看出,在SNR=15 dB時(shí),LE法也可以檢測(cè)出語(yǔ)音的起止點(diǎn)位置,但LE法的漏檢率要比LEC法要高,說(shuō)明LEC法具有更好的語(yǔ)音特征,能正確地區(qū)分語(yǔ)音和噪聲。
圖5和圖6中可以得出,本文方法分別在pink噪聲和babble噪聲的干擾下,也顯示出了較高的準(zhǔn)確率。在實(shí)際噪聲下,如圖7所示,檢測(cè)結(jié)果在第一個(gè)音的截止點(diǎn)處,有略微的下降,因?yàn)榈缆飞蠒?huì)有一定的突然噪聲,但整體的檢測(cè)率依然比較準(zhǔn)確,因此可以說(shuō)明,在不同噪聲情況下,LEC法有著很好的魯棒性。
同時(shí)由表1可知,LEC法在SNR=-5 dB時(shí)的總誤檢率僅為20.25%,在信噪比為0~10 dB時(shí),總的錯(cuò)誤檢測(cè)率要明顯低于LE法,并且在pink、babble噪聲條件下,有著良好的抗噪性。
表1 不同信噪比下不同方法的實(shí)驗(yàn)結(jié)果
由上述的分析,可以得出結(jié)論,在低信噪比條件,LEC法具有更好的檢測(cè)性和穩(wěn)健性。
圖5 語(yǔ)音信號(hào)的檢測(cè)結(jié)果
圖6 語(yǔ)音信號(hào)的檢測(cè)結(jié)果
本文把對(duì)數(shù)能量和倒譜相結(jié)合,提出一種新的對(duì)數(shù)能量倒譜特征,利用模糊聚類C均值算法和貝葉斯信息判決算法進(jìn)行門限估計(jì),采用雙門限法進(jìn)行語(yǔ)音端點(diǎn)檢
圖7 語(yǔ)音信號(hào)的檢測(cè)結(jié)果
測(cè)。實(shí)驗(yàn)結(jié)果表明,與對(duì)數(shù)能量法比,在連續(xù)語(yǔ)音下,其檢測(cè)錯(cuò)誤率明顯要低,并能夠準(zhǔn)確地檢測(cè)出語(yǔ)音的端點(diǎn),在不同噪聲環(huán)境中表現(xiàn)出了很好的穩(wěn)健性,特別在低信噪比下,具有更好的檢測(cè)性能。這主要是對(duì)數(shù)能量倒譜結(jié)合了對(duì)數(shù)能量和倒譜各自的優(yōu)點(diǎn),同時(shí)克服了一定各自的缺點(diǎn),從而具有更優(yōu)的檢測(cè)性能。這說(shuō)明多特征相結(jié)合的端點(diǎn)檢測(cè)方法是以后研究的熱門方法。
[1]Shin J W,Kwon H J,Jin S H,et al.Voice activity detection based on conditional MAP criterion[J].IEEE Signal Processing Letters,2008,15:257-260.
[2]張志敏,郭英,王博.一種基于倒譜特征的語(yǔ)音端點(diǎn)檢測(cè)改進(jìn)算法[J].電聲技術(shù),2006(4):39-42.
[3]趙歡,王綱金,趙麗霞.一種新的對(duì)數(shù)能量譜熵語(yǔ)音端點(diǎn)檢測(cè)方法[J].湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2010(7):72-77.
[4]肖述才,王作英.端點(diǎn)檢測(cè)中的一種新的對(duì)數(shù)能量特征[J].電聲技術(shù),2004(6):37-41.
[5]江銘虎,袁保宗,林碧琴.神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別的研究及進(jìn)展[J].電信科學(xué),1997(7):1-5.
[6]Haigh J A.Robust voice activity detection using cepstral features[C]//Computer,Communication,Control and Power Engineering,Proceedings of the IEEE Region 10 Conference TENCON,1993,3(3):321-324.
[7]Tian Y.Fuzzy clustering and bayesian information criterion based threshold estimation for robust voice activity detection[C]//IEEE International Conference on Acoustics,Speech and Signal Processing Proceedings(ICASSP). Hong Kong,China:IEEE,2003(1):444-447.
[8]Chen S S.Clustering via the Bayesian information criterion with applications in voice recognition[C]//IEEE International Conference on Acoustics Speech and Signal Processing Proceedings(ICASSP).Munich,Germany:IEEE,1998(I):645-648.
WANG M in1,SUN Guang1,SHEN Lirong2,LIU Li1
1.School of Information and Control Engineering,Xi’an University of Architecture and Technology,Xi’an 710055,China
2.Key Laboratory of Photoelectric Logging and Detecting of Oil and Gas,Ministry of Education,Xi’an Shiyou University, Xi’an 710065,China
Endpoint detection is one of the key technologies of speech recognition,in order to overcome the undesirable detection results of traditional cepstrum distance in speech endpoint detection algorithm under low signal to noise ratio, combined logarithm ic energy feature(LE)with cepstrum features(C)for endpoint detection,proposes a new logarithmic energy cepstrum features(LEC),uses fuzzy C-means clustering and Bayesian information criterion to estimate features threshold,achieves better endpoint judgment,conducts the SNR simulation from-5 dB to 15 dB with noisy speech under three kinds of typical noise.The results indicate that the LEC method’detection error rates is just 20.25%and significantly lower than cepstrum and logarithmic energy method,it also can effectively determine the speech endpoint and improve voice recognition results.
logarithmic energy;cepstrum distance;Fuzzy C-means clustering;Bayesian Information Criterions(BIC); Endpoint detection
A
TP3
10.3778/j.issn.1002-8331.1209-0255
WANG M in,SUN Guang,SHEN Lirong,et al.Voice activity detection using logarithmic energy and cepstrum Distance.Computer Engineering and Applications,2014,50(16):198-201.
國(guó)家自然科學(xué)基金(No.61073196)。
王民(1959—),男,副教授,主要從事智能信息處理研究,主研方向?yàn)橹悄苄畔⑻幚?;孫廣(1986—),男,碩士研究生,主研方向?yàn)檎Z(yǔ)音信號(hào)處理;沈利榮(1987—),女,碩士研究生,主要從事測(cè)井信號(hào)檢測(cè)研究。E-mail:sunguang216@163.com
2012-09-23
2012-11-26
1002-8331(2014)16-0198-04