汪家冬 鄒采榮 蔣本聰 王青云
(1.廣州大學(xué)機(jī)械與電氣工程學(xué)院,廣州,510006;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京,210096)
基于數(shù)字助聽器聲音場(chǎng)景分類的噪聲抑制算法
汪家冬1鄒采榮1蔣本聰1王青云2
(1.廣州大學(xué)機(jī)械與電氣工程學(xué)院,廣州,510006;2.東南大學(xué)信息科學(xué)與工程學(xué)院,南京,210096)
提出了一種基于聲音場(chǎng)景分類的噪聲抑制算法。算法使用調(diào)制濾波法對(duì)純語(yǔ)音、純?cè)胍艉秃胝Z(yǔ)音3種場(chǎng)景進(jìn)行分類,并根據(jù)分類結(jié)果調(diào)整噪聲抑制算法參數(shù)集,得到不同的抑制系數(shù)。本文方法在助聽器測(cè)試系統(tǒng)中取得了良好的實(shí)驗(yàn)效果,場(chǎng)景分類正確率在95%以上。在不同噪聲類型情況下,經(jīng)過(guò)本文算法處理的輸出語(yǔ)音信號(hào)取得了良好的信噪比和MOS評(píng)分的提升。本文算法可以有效地提高數(shù)字助聽器輸出語(yǔ)音質(zhì)量。
聲音場(chǎng)景分類;調(diào)制濾波;噪聲抑制;信噪比
在數(shù)字助聽器系統(tǒng)中,語(yǔ)音、噪音和音樂(lè)等不同的場(chǎng)景中常常需要調(diào)整不同的信號(hào)處理策略和參數(shù),而系統(tǒng)對(duì)聲音場(chǎng)景進(jìn)行自動(dòng)分類的能力則制約了系統(tǒng)性能[1]。高性能的數(shù)字助聽器能夠根據(jù)當(dāng)前聲音場(chǎng)景自動(dòng)切換程序,調(diào)整參數(shù),處理聲音,提高性噪比,改善用戶體驗(yàn)[2]。
近年來(lái),針對(duì)數(shù)字助聽器應(yīng)用,很多學(xué)者對(duì)聲音場(chǎng)景分類算法進(jìn)行了研究[3]。這些方法各有特色,實(shí)驗(yàn)所用的數(shù)據(jù)庫(kù)也各有不同。很多學(xué)者研究聲學(xué)特征參數(shù)集的選取和分類模型的建立[4]。合理地選取出適合區(qū)分聲音場(chǎng)景的特征能夠提高整個(gè)分類系統(tǒng)的性能,降低模型的計(jì)算量。在這些研究中,短時(shí)能量、線性回歸系數(shù)、過(guò)零率、基音頻率、共振峰、熵信息以及倒平共譜信息等都是主要使用的特征。很多學(xué)者也對(duì)聲音場(chǎng)景提出各種分類算法,如人工神經(jīng)網(wǎng)絡(luò)[5]、支持向量機(jī)(Support vector machine,SVM)、隱馬爾可夫模型(Hidden Markov model,HMM)[6]以及混合高斯模型(Gaussian mixture model,GMM)等。2015年Ipek Sen等對(duì)這些分類器進(jìn)行了比較,提出了新的參數(shù)設(shè)置方法[7]。但是,基于特征提取和模式識(shí)別的方法導(dǎo)致數(shù)字助聽器計(jì)算量變大,實(shí)時(shí)性變差,在實(shí)際系統(tǒng)中常常由于功耗過(guò)大無(wú)法應(yīng)用。而基于調(diào)制深度的聲音場(chǎng)景分類算法[8]由于其計(jì)算量小、實(shí)時(shí)性高成為研究熱點(diǎn)
本文研究了一種基于調(diào)制濾波法的數(shù)字助聽器聲音場(chǎng)景分類算法。利用輸入聲音的調(diào)制深度,區(qū)分純語(yǔ)音、噪音和含噪語(yǔ)音3種場(chǎng)景。并根據(jù)場(chǎng)景分類結(jié)果,調(diào)整噪聲抑制參數(shù),獲得不同的抑制系數(shù)。本方法可以保證語(yǔ)音信號(hào)順利通過(guò)系統(tǒng),而噪聲則受到最大程度的抑制,從而在有噪聲的情況下提高信噪比。本文方法在助聽器測(cè)試系統(tǒng)中取得了良好的實(shí)驗(yàn)效果,場(chǎng)景分類正確率在95%以上。在不同的噪聲類型情況下,經(jīng)過(guò)本文算法處理的輸出語(yǔ)音信號(hào)取得了良好的信噪比和MOS評(píng)分[9]的提升。本文算法可以有效提高數(shù)字助聽器輸出語(yǔ)音質(zhì)量。
在數(shù)字助聽器中,聲音信號(hào)經(jīng)傳聲器采集、A/D模塊轉(zhuǎn)換成數(shù)字信號(hào)。聲音場(chǎng)景分類算法在全帶內(nèi)對(duì)輸入數(shù)字信號(hào)進(jìn)行處理,其處理得到的場(chǎng)景分類結(jié)果供后續(xù)噪聲抑制模塊使用,用來(lái)調(diào)節(jié)抑制函數(shù)參數(shù)。基于調(diào)制濾波法的數(shù)字助聽器聲音場(chǎng)景分類算法流程如圖1所示,一般以1 s為一個(gè)觀測(cè)窗口,也可以根據(jù)實(shí)際需要調(diào)整觀測(cè)頻度。
圖1 基于調(diào)制濾波法的數(shù)字助聽器聲音場(chǎng)景分類算法流程圖Fig.1 Algorithm flowchart of acoustic scene classification based on digital hearing aid of modulation filtering method
圖1中,每幀信號(hào)最大值記為v(i),i=1,…,N,i為幀號(hào),N為一個(gè)觀測(cè)窗口的幀數(shù)。則觀測(cè)窗口的有效值為
(1)
對(duì)每個(gè)觀測(cè)窗口的包絡(luò)曲線v(i)進(jìn)行微分,有
(2)
(3)
式中修正系數(shù)K1,K2和K3可以根據(jù)不同系統(tǒng)進(jìn)行修正。
下一步計(jì)算3個(gè)調(diào)制頻帶的調(diào)制深度,具體如下
(4)
對(duì)3個(gè)通道的調(diào)制深度進(jìn)行正則化,具體如下
(5)
最后,根據(jù)正則化后的調(diào)制深度進(jìn)行聲音場(chǎng)景分類,具體如下
(6)
式中語(yǔ)音閾值THspeech和噪聲閾值THnoise可以在0~1之間進(jìn)行調(diào)整。
圖2 含有降噪單元的數(shù)字助聽器系統(tǒng) Fig.2 Block diagram of digital hearing aid comprising the unit of noise reduction
圖3 噪聲抑制系數(shù)λ調(diào)節(jié)曲線Fig.3 λ adjustment curve of noise suppression coefficient
在上述算法得到數(shù)字助聽器所處聲音場(chǎng)景之后,可以通過(guò)調(diào)節(jié)噪聲抑制系數(shù)λ對(duì)輸入信號(hào)進(jìn)行降噪,系統(tǒng)框圖如圖2所示。圖2所示的多通道數(shù)字助聽器中,經(jīng)過(guò)A/D轉(zhuǎn)換的數(shù)字聲信號(hào)首先進(jìn)行聲音場(chǎng)景分類。在通過(guò)子帶增益進(jìn)行多通道響度補(bǔ)充之后,增加了噪聲抑制單元,通過(guò)抑制系數(shù)λ實(shí)現(xiàn)降噪功能,其中λ取值在0~1之間,根據(jù)聲音場(chǎng)景和信噪比進(jìn)行調(diào)整,具體如圖3所示。在不同的聲音場(chǎng)景中,參數(shù)K0,K1,K2,A0,A1,A2,B0和B1取值不同,其取值可以根據(jù)實(shí)驗(yàn)進(jìn)行確定,1組典型取值如表1所示。
降噪算法具體步驟為:
表1 不同聲音場(chǎng)景下的系數(shù)取值表
(1)對(duì)每幀信號(hào)取絕對(duì)值,并對(duì)絕對(duì)值求平均值Savg;
(2)將平均值轉(zhuǎn)到dB域,得到SdB=20lg(Savg);
(3)計(jì)算信號(hào)包絡(luò)
(7)
(4)計(jì)算噪聲包絡(luò)
(8)
(5)計(jì)算信噪比
SNR=ls-ln
(9)
根據(jù)聲音場(chǎng)景選擇噪聲抑制函數(shù)的參數(shù)并計(jì)算衰減值,即有
λ=Kn·SNR+An
(10)
(6)執(zhí)行衰減,抑制噪聲。
3.1 測(cè)試系統(tǒng)組成
測(cè)試系統(tǒng)由計(jì)算機(jī)、測(cè)試用助聽器算法實(shí)時(shí)測(cè)試電路板、示波器等組成。測(cè)試用源信號(hào)由計(jì)算機(jī)軟件產(chǎn)生,通過(guò)計(jì)算機(jī)聲卡的Line out(線路輸出)接口輸出至測(cè)試電路板的Line in(線路輸入)接口,經(jīng)測(cè)試電路板運(yùn)行的助聽器聲音場(chǎng)景分類及降噪算法程序處理后,由測(cè)試電路板的Line out(線路輸出)接口輸出,通過(guò)計(jì)算機(jī)聲卡的Line in(線路輸入)接口輸入至計(jì)算機(jī)軟件進(jìn)行分析,并可以通過(guò)示波器觀察并測(cè)量波形。具體如圖4所示。
圖4 響度補(bǔ)償與降噪測(cè)試系統(tǒng)組成Fig.4 System composition of loudness compensation and noise test
3.2 聲音場(chǎng)景分類實(shí)驗(yàn)
采用系統(tǒng)事先錄制的音頻數(shù)據(jù)庫(kù)進(jìn)行了聲音場(chǎng)景分類實(shí)驗(yàn)。數(shù)據(jù)庫(kù)內(nèi)有純語(yǔ)音、含噪語(yǔ)音、純?cè)胍?種類型音頻文件,其中純語(yǔ)音選用人民衛(wèi)生出版社出版的《漢語(yǔ)普通言語(yǔ)測(cè)聽CD》中的句表,純?cè)胍舨捎肗OISEX-92噪聲庫(kù)中的白噪聲(White noise)、坦克車內(nèi)噪聲(Tank noise)、餐廳噪聲(speech babble)和高頻信道噪聲(HF channel noise),含噪語(yǔ)音由SurroundRouter專業(yè)聲場(chǎng)景仿真軟件進(jìn)行合成并播放,信噪比可以調(diào)節(jié)。其中,信噪比為0 dB情況下的聲音場(chǎng)景分類正確率如表2所示,無(wú)論是在純語(yǔ)音、純?cè)胍暨€是含噪語(yǔ)音場(chǎng)景,其分類正確率都超過(guò)了95%。
表2 不同聲音場(chǎng)景下的分類正確率
3.3 噪聲抑制實(shí)驗(yàn)
對(duì)本文提出的降噪算法進(jìn)行測(cè)試,并與傳統(tǒng)維納濾波降噪法進(jìn)行對(duì)比。實(shí)驗(yàn)在NOISEX-92噪聲庫(kù)中的White noise,Tank noise,Speech babble和HF channel noise 4種噪聲情況下,在輸入信噪比為0 dB,5 dB和10 dB下分別測(cè)試。實(shí)驗(yàn)中語(yǔ)音信號(hào)的采樣率為16 kHz,幀長(zhǎng)為256點(diǎn),幀移50%。降噪后的語(yǔ)音從輸出信噪比、MOS得分、語(yǔ)譜圖等方面來(lái)評(píng)價(jià)增強(qiáng)效果。MOS得分采用40人在靜音室進(jìn)行試聽,每人試聽3種信噪比下的輸出語(yǔ)音樣本,每種信噪比下的樣本試聽50句。MOS得分采用5級(jí)評(píng)分標(biāo)準(zhǔn),得分越高表示語(yǔ)音質(zhì)量越好。輸出信噪比和MOS得分結(jié)果見(jiàn)表3。
表3 本文方法與傳統(tǒng)維納濾波測(cè)試結(jié)果
在輸入為含Tank noise噪聲且信噪比為0 dB情況下,維納濾波法輸出信號(hào)語(yǔ)譜圖與本文方法語(yǔ)譜圖如圖5所示。從圖中可以看出,兩種降噪算法都取得了比較好的效果,但本文方法輸出信號(hào)語(yǔ)譜圖背景更干凈,聲紋更清晰,說(shuō)明輸出語(yǔ)音質(zhì)量更高。經(jīng)真耳試聽,背景噪聲明顯變小,語(yǔ)音更清晰。同樣條件下,White noise,HF channel noise和Speech babble類型噪聲也取得了良好的輸出語(yǔ)音質(zhì)量。
本文針對(duì)數(shù)字助聽器應(yīng)用,提出了一種基于聲音場(chǎng)景分類的噪聲抑制算法。算法使用調(diào)制濾波法對(duì)純語(yǔ)音、純?cè)胍艉秃胝Z(yǔ)音3種場(chǎng)景進(jìn)行分類,并根據(jù)分類結(jié)果調(diào)整噪聲抑制算法參數(shù)集,得到不同的抑制系數(shù)。本文方法在助聽器測(cè)試系統(tǒng)中取得了良好的實(shí)驗(yàn)效果,場(chǎng)景分類正確率在95%以上。在不同的噪聲類型情況下,經(jīng)過(guò)本文算法處理的輸出語(yǔ)音信號(hào)取得了良好的信噪比和MOS評(píng)分的提升。本文算法不僅具有良好的信噪比提升效果,而且實(shí)時(shí)性好,可以應(yīng)用于需要實(shí)時(shí)語(yǔ)音增強(qiáng)的其他聲學(xué)系統(tǒng),如會(huì)議系統(tǒng)、語(yǔ)音通信等。
圖5 Tank noise噪聲、信噪比為0 dB時(shí)維納濾波法與本文方法輸出信號(hào)語(yǔ)譜圖Fig.5 Output signal spectrogram of Tank noise with 0 dB SNR Wiener filtering method and the proposed method
[1] Scharrer R, Vorlander M. Sound field classification in small microphone arrays using spatial coherences[J].Audio, Speech, and Language Processing,IEEE Transactions on,2013,21(9): 1891-1899.
[2] Gil-Pita R, Ayllon D, Ranilla J, et al. A computationally efficient sound environment classifier for hearing aids[J].Biomedical Engineering, IEEE Transactions on,2015,62(10): 2358-2368.
[3] Büchler M C. Algorithms for sound classification in hearing instruments[D]. Zurich:Swiss Federal Institute of Technology, 2002.
[4] Alexandre E, Cuadra L, Rosa M, et al. Feature selection for sound classification in hearing aids through restricted search driven by genetic algorithms[J].Audio, Speech, and Language Processing, IEEE Transactions on,2007,15(8): 2249-2256.
[5] Maas A L, Le Q V, O'neil T M, et al. Recurrent neural networks for noise reduction in robust ASR[J]. INTERSPEECH,2012,Citeseer: 22-25.
[6] 蔡明琦, 凌震華, 戴禮榮. 基于隱馬爾可夫模型的中文發(fā)音動(dòng)作參數(shù)預(yù)測(cè)方法[J]. 數(shù)據(jù)采集與處理, 2014, 29(2): 204-210.
Cai Mingqi, Ling Zhenhua, Dai Lirong. Hidden-Markov-model-based articulatory movement prediction for Chinese[J]. Journal of Data Acquisition and Processing,2014, 29(2): 204-210.
[7] Sen I, Saraclar M, Kahya Y P. A comparison of SVM and GMM-based classifier configurations for diagnostic classification of pulmonary sounds[J].Biomedical Engineering, IEEE Transactions on,2015,62(7): 1768-1776.
[8] Greenberg S, Kingsbury B E. The modulation spectrogram: In pursuit of an invariant representation of speech[J]. Acoustics, Speech, and Signal Processing, IEEE International Conference on, 1997,3(1):1647.
[9] Dubey R K, Kumar A. Comparison of subjective and objective speech quality assessment for different degradation/noise conditions[C]//Signal Processing and Communication (ICSC), 2015 International Conference on. [S.l.]:IEEE, 2015: 261-266.
Noise Reduction Algorithm Based on Acoustic Scene Classification in Digital Hearing Aids
Wang Jiadong1, Zou Cairong1, Jiang Bencong1, Wang Qingyun2
(1.School of Mechanical and Electric Engineering, Guangzhou University, Guangzhou, 510006, China;2.School of Information Science and Engineering, Southeast University, Nanjing, 210096, China)
A new noise reduction algorithm based on acoustic scene classification is proposed. Three acoustic scenes of pure speech, noise, noisy speech are classified by modulation filter. The parameters of noise reduction algorithm are adjusted by the result of scene classification. Different attenuation coefficient is adopted according to the different acoustic scene. Satisfied experimental results are achieved in the digital hearing aid testing system. Better than 95% accuracy is acquired in acoustic scene classification experiment. In the environment of different kinds of noises input, the signal-noise ratio (SNR) and MOS score are increased apparently. The quality of output speech in digital hearing aids is improved effectively.
acoustic scene classification; modulation filter; noise reduction;SNR
國(guó)家自然科學(xué)基金(61375028)資助項(xiàng)目;廣東燈光和聲視頻工程技術(shù)研究中心開放基金(KF201601,KF201602)資助項(xiàng)目。
2016-02-04;
2016-03-18
TP391.42
A
汪家冬(1990-),男,碩士研究生,研究方向:數(shù)字語(yǔ)音信號(hào)處理,E-mail:1304943689@qq.com。
王青云(1972-),女,博士,研究方向:語(yǔ)音信號(hào)處理。
鄒采榮(1963-),男,教授,博士生導(dǎo)師, 研究方向:聲信號(hào)與語(yǔ)音信號(hào)處理。
蔣本聰(1992-),男,碩士研究生,研究方向:數(shù)字語(yǔ)音信號(hào)處理。