李亞兵等
摘 要: 為解決噪聲環(huán)境下瞬態(tài)聲自動識別系統(tǒng)性能下降的問題,在自動識別系統(tǒng)前端采用Teager能量算子(TEO)和離散余弦變換(DCT)相結合的方法進行降噪處理,同時采取基于高斯混合模型(GMM)的缺失特征邊緣化算法進行自動分類。實驗結果表明,此方法可以顯著地提高噪聲環(huán)境下系統(tǒng)的識別性能。
關鍵字: Teager能量算子; 離散余弦變換; 缺失特征; 高斯混合模型
中圖分類號: TN911.7?34 文獻標識碼: A 文章編號: 1004?373X(2015)12?0012?04
0 引 言
環(huán)境中存在這樣一類特殊的聲音:瞬態(tài)聲,它具有持續(xù)時間短、短時平穩(wěn)、能量集中、寬頻帶廣等特點,如敲門聲、汽車短促的喇叭聲、艦船及其中設備的啟動聲等,這類聲音很容易被環(huán)境噪聲所污染。瞬態(tài)聲識別在軍事及民用領域有極其廣泛的應用,如潛艇識別、道路脫空檢測及醫(yī)學上對新生兒的聽力診斷等,因此,對其研究具有重要的實用價值[1]。
目前,對于瞬態(tài)聲的自動識別在實驗室環(huán)境中效果很好,但是在噪聲環(huán)境下,其識別性能會明顯降低。因此,如何減小噪聲的影響,是構建自動目標識別(Automatic Target Recognition System,ATR)系統(tǒng)的關鍵環(huán)節(jié)之一。本文分別在ATR的前端和后端進行降噪和缺失特征處理,以進一步提高系統(tǒng)對噪聲干擾的魯棒性。
在ATR前端,需要通過一定的降噪處理以提高系統(tǒng)的抗噪性能,如譜減法[2](Spectral Subtraction)、維納濾波(Wiener Filtering)法、最小均方誤差(Minimum Mean Square Error)法等,這些方法都是基于離散傅里葉變換方法?;谛〔ㄗ儞Q的降噪技術也可以達到很好的效果,如由Bahoura等提出的基于Teager能量算子(Teager Energy Operator,TEO)的小波去噪 [3],其在不同閾值上的變化是自適應的,但它的計算量較大,且小波基和分解層數(shù)的選擇不容易。基于Teager能量算子[4]的離散余弦變換(Discrete Cosine Transform,DCT)降噪相對于基于離散傅里葉變換(DFT)的降噪方法有以下優(yōu)勢:DCT相比于DFT有更好的能量壓縮特性;在相同的窗條件下,DCT比DFT有更好的頻率分辨率。
本文將DCT和TEO相結合實現(xiàn)瞬態(tài)聲信號的降噪[5],既克服了離散傅里葉變換的缺點,也降低了計算量,該方法被稱為TEO?DCT方法。
在ATR后端,可以通過缺失特征(Missing Feature)方法,通過對不同時間或頻率段的特征進行處理,進一步提高系統(tǒng)的識別性能。缺失特征技術[4]的主要原理是根據(jù)噪聲對信號的不同時間、不同頻帶的影響不同,確定可靠特征和缺失特征,然后根據(jù)可靠特征進行識別或者通過其對缺失特征部分進行重構。
2 基于異常點的缺失特征檢測
對于經(jīng)過降噪處理的聲信號,它并不能完全消除噪聲的影響,其識別性能有待進一步提高,因此可以通過缺失特征的方法進一步降低噪聲的影響,進而提高ATR的性能。
缺失特征技術主要由缺失特征檢測和缺失特征處理兩部分構成。
缺失特征檢測[9?10]是缺失特征技術的重點和難點問題,恰當?shù)娜笔卣鳈z測準則可以有效提高缺失特征技術的效果。環(huán)境聲魯棒性識別中,人們提出了大量缺失特征檢測方法:
(1) 根據(jù)每個時頻域的SNR估計估計缺失特征的可靠性,如理想掩蔽和局部SNR掩蔽估計;
(2) 對聲目標特征進行建模,例如,提取聲目標特征,然后據(jù)此訓練分類器確定特征可靠性,如基于分類器的掩蔽估計及基于異常點的掩蔽估計方法。
缺失特征處理主要有2種方法:
(1) 缺失特征邊緣化方法,該方法主要通過舍棄缺失特征進行識別,其需要在識別段對分類器進行修改;
(2) 缺失特征重構方法,該方法通過先驗知識,根據(jù)可靠特征部分重構出完整特征進行識別,其不需要對分類器進行修改。
異常點的缺失特征檢測:這里采用基于聚類的異常點算法檢測出異常點數(shù)據(jù)并將之視為缺失特征,該方法首先對數(shù)據(jù)集進行聚類分析,然后根據(jù)一定的準則(距離、密度等)選擇出一定數(shù)目的點,然后在對這些檢測出的數(shù)據(jù)進行進一步的分析。
缺失特征邊緣化:缺失特征邊緣化方法主要考慮到缺失特征部分受到噪聲的污染比較嚴重,如果直接使用,可能會對識別效果產(chǎn)生消極影響,所以僅僅依靠可靠特征,而舍棄缺失特征部分進行分類,這樣可以排除受噪聲污染比較嚴重的特征影響,在一定程度上提高識別性能。
本文將TEO?DCT降噪技術和缺失特征邊緣化相結合[11]構造ATR系統(tǒng),圖3給出了所用算法流程。先用TEO?DCT對噪聲信號進行降噪處理,利用降噪后的瞬態(tài)聲信號提取Mel子帶特征,然后根據(jù)缺失特征檢測技術,確定可靠特征和缺失特征,根據(jù)可靠特征進行識別。
3 實驗結果及分析
本文以矩形板沖擊聲為聲樣本,通過TEO?DCT降噪技術和缺失特征邊緣化方法的結合,提高ATR系統(tǒng)的性能。另外,將本文算法和基準系統(tǒng)和理想邊緣算法進行對比,驗證該方法的有效性。
實驗中,基準系統(tǒng)是指未經(jīng)任何處理的ATR方法。TEO?DCT表示經(jīng)過Teager能量算子和DCT相結合的降噪方法進行識別。邊緣化表示直接進行邊緣化識別的方法。本文算法是指將TEO?DCT和邊緣化相結合的方法。
3.1 實驗樣本的獲取
在消聲室環(huán)境下分別錄取不同尺寸(邊長分別為42 cm,30 cm,22 cm),調(diào)節(jié)小球不同高度(分別距離敲擊位置1 cm,2 cm),敲擊不同位置(分別距邊3 cm、對角線距角8 cm以及中心位置)的木板、玻璃板和鋁板的敲擊聲,而噪聲分別選取Noise?92噪聲庫中的高斯白噪聲和粉紅噪聲,分別對消聲室環(huán)境下的錄音加載0 dB,5 dB,10 dB,15 dB,20 dB,25 dB,將之作為待識別的聲樣本。
3.2 理想掩蔽的估計
缺失特征理想掩蔽的閾值判決過程中,設置SNR閾值,把閾值之下的特征部分作為缺失特征,反之則為可靠特征。而閾值選取的不同會造成識別效果的差異,如果其設置過高,則會把特征可靠部分誤判為缺失部分,從而對識別造成負面影響;閾值過低,又會把噪聲部分視為可靠特征,同樣對識別不利。此處通過設置不同的閾值驗證在不同SNR條件下對識別性能的影響,實驗結果如圖4所示。
3.3 結果分析
表1和表2分別表示在高斯白噪聲和粉紅噪聲條件下的識別率,高斯白噪聲在無限頻率寬度上具有均勻的連續(xù)譜,在時域上幅度分布為高斯分布,粉紅噪聲作為是自然界中最常見的噪聲,其頻率分量功率主要集中在中低頻部分。
表1 高斯白噪聲條件下的識別率 %
表2 粉紅噪聲條件下的識別率 %
由表1和表2可以看出,TEO?DCT降噪方法在高斯噪聲和粉紅噪聲條件下可以有效地提高系統(tǒng)的識別率,但是在粉紅噪聲條件下且較低的SNR時,由于Teager能量算子對低頻的保護作用,而粉紅噪聲的能量主要集中在低頻區(qū)域,所以該噪聲下的識別性能提高并不明顯。邊緣化算法在各種噪聲條件下均可有效提高系統(tǒng)的識別效率。
而本文算法通過將兩種算法相結合,在高斯白噪聲條件下,其相比于單純的降噪技術和邊緣化算法可以顯著地提高聲目標識別系統(tǒng)的性能;而在粉紅噪聲條件下,本文算法在高SNR 條件下識別性能雖然比降噪方法好,但是卻不如單純的邊緣化算法。造成這種現(xiàn)象的原因是:由于對粉紅噪聲的降噪處理在高SNR時造成的特征矢量失真情況比帶噪信號特征矢量的失真現(xiàn)象更為嚴重。
4 結 語
本文首先利用TEO與DCT相結合,設計出DCT的時間自適應閾值降噪技術,可以有效地提高系統(tǒng)的降噪性能,同時,該方法也不像譜減法那樣需要對噪聲進行估計且避免了基于DFT變換降噪技術的相位問題。在后端,又根據(jù)缺失特征邊緣化算法,將受噪聲污染嚴重的特征剔除出去,在一定程度上提高了系統(tǒng)的性能。實驗結果表明,僅僅利用缺失特征邊緣化算法可以提高瞬態(tài)聲目標系統(tǒng)性能,但將之與TEO?DCT結合的方法可以有效地提高低信噪比下ATR的識別性能。
參考文獻
[1] 陳克安.環(huán)境聲的聽覺感知與自動識別[M].北京:科學出版社,2014.
[2] 張雪英.數(shù)字語音處理及Matlab仿真[M].北京:電子工業(yè)出版社,2010.
[3] 高亞召,趙霞.基于Teager能量算子的自適應小波語音增強[J].電聲技術,2009,33(1):58?62.
[4] SANAM T F, IMTIAZ H. A DCT?based noisy speech enhancement method using Teager energy operator [C]// Proceedings of 5th International Conference on Knowledge and Smart technology. [S.l.]: Burapha University, 2013: 16?20.
[5] RAJ B, STERN R M. Missing?feature approaches in speech recognition [J]. IEEE Signal Processing Magazine, 2005, 22(5): 101?116.
[6] 李雪耀,謝華,張汝波.基于離散余弦變換的語音增強[J].哈爾濱工程大學學報,2007(2):198?202.
[7] 李瀟,李宏.一種改進的基于DCT變換的語音增強算法[J].計算機仿真,2010(12):376?380.
[8] DONOHO D L. De?noising by soft?thresholding [J]. IEEE Transactions on Information Theory, 1995, 41(3): 613?627.
[9] SELTZER M L, RAJ B, STERN R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition [J]. Speech Communication, 2004, 43(4): 379?393.
[10] PAWLITSCHKO J, SCHULTZE V. The identification of outliers in exponential samples [J]. Statistica Neerlandica, 2002, 56(1): 41?57.
[11] 王寧,陸偉,戴蓓倩,等.結合譜減和缺失特征重建的魯棒性話者識別[J].數(shù)據(jù)采集與處理,2009,24(2):149?153.