劉勇 謝映海
【摘 要】利用語音信號(hào)和噪聲分幀信號(hào)在頻域上的小波框架分解后能量分布特征的明顯差異性,本文提供了一種高性能的靜音檢測算法,算法引入了一種分段閾值和判決平滑機(jī)制,獲得了較好的靜音檢測效果。仿真結(jié)果表明,在噪聲功率時(shí)變和低信噪比的情況下,檢測算法仍具備高準(zhǔn)確率,性能明顯優(yōu)于一些傳統(tǒng)算法。
【關(guān)鍵詞】最小能量小波框架;分段閾值;判決平滑;靜音檢測
A High-performance Detection Algorithm Wavelet Frame Mute
LIU Yong XIE Ying-hai
(Guangzhou Haige Communications Group Co.Ltd, Guangzhou Guangdong 510663, China)
【Abstract】The energy distribution of the speech signal and noise sub-frame wavelet frame in the frequency domain decomposition characteristics of obvious differences,this article provides a high-performance detection algorithm silence,the algorithm introduces a fragmentation threshold and smoothing judgment mechanism to obtain better silence detection。Simulation results show that the situation has changed and under low signal to noise ratio at the time of the noise power detection algorithm still have a high degree of accuracy,the performance was better than some of the traditional algorithms.
【Key words】Minimum energy wavelet frame;Fragmentation threshold;Judgment smooth;Silence detection
0 引言
靜音檢測算法可以通過對(duì)語音信號(hào)某些參數(shù)的提取和分析來區(qū)分信號(hào)中的語音幀和靜音幀,從而達(dá)到在發(fā)端降低編碼速率或在收端進(jìn)行降噪處理等目的[1-5]。而小波理論在信號(hào)處理領(lǐng)域有著廣泛的應(yīng)用,其中的最小能量小波框架可以彌補(bǔ)正交小波不能同時(shí)具備緊支性、光滑性和對(duì)稱性的缺陷,在多種類型的信號(hào)處理和分析上獲得了較好的應(yīng)用效果[6-10]。
本文分析了語音信號(hào)和噪聲信號(hào)在頻域上的小波框架分解后能量分布特征,據(jù)此提出了一種基于小波框架的高性能靜音檢測算法,算法引入了分段閾值和判決平滑機(jī)制,獲得了較好的檢測效果。仿真結(jié)果表明,在噪聲功率時(shí)變和低信噪比的情況下,檢測算法將保持非常高的準(zhǔn)確性,性能明顯優(yōu)于一些傳統(tǒng)算法。
1 最小能量小波框架簡介
下面介紹文獻(xiàn)[6]給出的最小能量小波框架的一些基本性質(zhì)。
2 小波框架靜音檢測算法
語音信號(hào)是一種短時(shí)平穩(wěn)信號(hào),考慮到語音信號(hào)靜音檢測的實(shí)時(shí)性要求,對(duì)信號(hào)進(jìn)行幀長為64毫秒,含512個(gè)樣點(diǎn)的分幀處理,對(duì)每個(gè)分幀時(shí)域信號(hào)都進(jìn)行FFT變換后取絕對(duì)值得到分幀頻域信號(hào),然后基于式(2)的小波分解公式,利用文獻(xiàn)[4]提供的一組由如下數(shù)列組成的最小能量框架對(duì)分幀頻域信號(hào)進(jìn)行分解:
圖1和圖2分別給出了一段時(shí)間長度3.2秒,含25600個(gè)樣本點(diǎn)的純凈語音信號(hào)和噪聲信號(hào)在時(shí)域、分幀頻域信號(hào)以及該信號(hào)的3個(gè)小波分解子信號(hào)情況。式(4)表明了分解前后信號(hào)的能量保持不變,而比較這2張圖可以清楚看出,對(duì)語音頻域信號(hào)而言,3個(gè)分解子信號(hào)的數(shù)值呈現(xiàn)稀疏分布特性,即信號(hào)的能量集中至少量元素上,其余大量元素則趨于零;而對(duì)噪聲頻域信號(hào),3個(gè)分解子信號(hào)的數(shù)值則呈現(xiàn)均勻分布特性,即信號(hào)能量比較均勻分布在大部分的元素上。
根據(jù)上述分布特性的差異性,給出如下的實(shí)時(shí)靜音檢測算法:
兩個(gè)分段閾值是經(jīng)過大量測試得到的最佳值,另外為避免頻繁切換語音有無狀態(tài)給聽者帶來的不適,算法中在判決平滑過程中存在約50幀的拖尾保護(hù),時(shí)間長度為50*64ms=3.2秒左右。因此在信號(hào)的前50個(gè)子幀的判決過程中將假定前面已經(jīng)有50個(gè)純噪聲幀。
整個(gè)算法的處理流程具體如下:
3 算法性能仿真結(jié)果
圖4的兩個(gè)子圖分別給出了一段時(shí)間長度約360秒的純凈語音信號(hào)和功率時(shí)變的高斯白噪聲信號(hào),從圖中可以看出在有語音活動(dòng)區(qū),噪聲功率已經(jīng)明顯大于語音信號(hào)功率,因此信號(hào)平均信噪比是負(fù)值的;圖5的兩個(gè)子圖則分別給出了兩個(gè)信號(hào)加性混合后的時(shí)域情況,以及根據(jù)本文提供的靜音檢測算法得到的檢測效果,其中紅色線段的上凸部分表示語音活動(dòng)區(qū)域,其余部分表示靜默區(qū)域。
從仿真結(jié)果看出,在噪聲功率時(shí)變和低信噪比的情況下,本文提供的靜音檢測算法的準(zhǔn)確率仍保持高準(zhǔn)確性,整體性能已經(jīng)超過了目前已有的一些經(jīng)典算法。
【參考文獻(xiàn)】
[1]K.Srinivasan,A.Gersho.Voice Activity Detection for Cellular Networks.IEEE Trans.Information Theory,1993,19(5):85-86.Ke Li,M.N.S.Swamy.An Improved Voice Activity Detection Using Higher OrderStatistics[J].IEEE transactions on speech and audio processing,2005,13(5):965-974.
[2]K.Srinivasan,A.Gersho.Voice Activity Detection for Cellular Networks[J].IEEE Trans.Information Theory,1993,19(5):85-86.
[3]Ke Li,M.N.S.Swamy.An Improved Voice Activity Detection Using Higher OrderStatistics[J].IEEE transactions on speech and audio processing,2005,13(5):965-974.
[4]田野,王作英,陸大.基于子帶能量線性映射的噪聲中端點(diǎn)檢測算法[D].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2002,42(2):953-956.
[5]黃炳剛,周志杰,鄭翔.基于小波變換的語音激活檢測[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,7(3):200-213.
[6]CHUI C K,He W.Compactly supported tight frames associated with refinables functions[J].Appl.Comp.Harm.Anal,2000,8:293-319.
[7]SHEN L X,MANOS P,IOANNIS A K.Image denoising using a tight frame[J].IEEE Transactions on Image Processing,2006,15(5):309-319.
[8]謝映海,楊維,張玉.離散空間上的最小能量框架及其在矩陣脈沖信號(hào)去噪中的應(yīng)用研究[J].物理學(xué)報(bào),2010,59(11):722-731.
[9]謝映海,楊維,樊婷婷.離散信號(hào)空間上的最小能量框架在升余弦脈沖信號(hào)上的去噪算法[J].通信學(xué)報(bào),2012,03:44-51.
[10]趙瑞珍,劉曉宇,LICC.基于稀疏表示的小波去噪[J].中國科學(xué)F輯,2010,40(1):33-40.