国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非平穩(wěn)噪聲環(huán)境下結(jié)合聽覺掩蔽的語音增強

2015-12-23 01:02:58勇,劉
計算機工程與設(shè)計 2015年5期
關(guān)鍵詞:背景噪聲信噪比增益

張 勇,劉 軼

(1.北京大學 深圳研究院 深圳市智能媒體和語音重點實驗室,廣東 深圳518057;2.深港產(chǎn)學研基地,廣東 深圳518057)

0 引 言

傳統(tǒng)的基于信號處理的語音增強方法在降噪的同時不可避免的會帶來語音失真和殘留噪聲[1,2],這也是一個一直困擾研究者的問題。由于語音信號最后都要通過人耳所感知,而人耳有較強的抗噪性,如何利用人耳的掩蔽特性來提升語音增強算法的性能得到了國內(nèi)外學者的廣泛關(guān)注。

結(jié)合聽覺掩蔽的語音增強并不是要將噪聲完全去除,而是通過處理將其能量降低到聽覺掩蔽閾值以下使人耳無法察覺,這樣也可以減小降噪處理帶來的語音失真。文獻[3,4]提出了基于掩蔽概率的改進方法,其將輸入的帶噪語音按噪聲和語音之間的掩蔽關(guān)系分為不同的狀態(tài),每個狀態(tài)分別計算增益函數(shù)。然而,算法為了保留更多語音以及盡可能消除 “音樂噪聲”,殘留了比較多的背景噪聲,這些殘留噪聲降低了增強語音信號的主觀感知質(zhì)量。文獻[5-10]通過掩蔽閾值調(diào)節(jié)增益函數(shù)中的關(guān)鍵參數(shù),例如譜減參數(shù)[5-7]、先驗信噪比[8]、小波閾值門限[9]、子空間噪聲特征值的抑制系數(shù)[10]等,實現(xiàn)基于感知的語音增強。上述算法不修改語音增強算法中的增益函數(shù),掩蔽閾值是一個相對控制量,算法通過掩蔽閾值的變化來調(diào)節(jié)關(guān)鍵參數(shù)進而改變增益函數(shù)值。上述算法的缺點是掩蔽模型的處理不夠精細,關(guān)鍵參數(shù)與掩蔽閾值通常無直接聯(lián)系,算法一般通過部分實驗值或經(jīng)驗值將兩者相關(guān)聯(lián),這會限制其應用范圍,且為了減小語音失真,在增強后的語音信號中會殘留噪聲。

針對現(xiàn)有算法存在的問題,本文提出了一種基于短時幅度譜估計和感知濾波相結(jié)合的兩級語音增強算法。算法將降噪和噪聲掩蔽分開處理,首先利用短時幅度譜估計法對帶噪語音進行降噪,然后利用人耳聽覺掩蔽特性將降噪語音信號中的殘余噪聲掩蔽掉。實驗結(jié)果表明,在各種非平穩(wěn)背景噪聲以及信噪比下,與傳統(tǒng)的語音增強算法相比,經(jīng)過本文算法處理的增強語音失真和殘余噪聲更小,極大提升了增強語音信號的主觀和客觀質(zhì)量。

1 算法原理和系統(tǒng)框架

圖1給出了本文算法的系統(tǒng)框架,帶噪語音首先經(jīng)過對數(shù)譜幅度最小均方誤差 (minimum mean-square error logspectral amplitude,MMSE-LSA)譜估計法增強,第一級增強后的語音信號再通過第二級感知濾波去除第一級增強語音信號中的殘留噪聲,從而得到最終的增強語音。從圖1可知整個算法分為4個部分:MMSE-LSA 譜估計、噪聲估計、聽覺掩蔽閾值計算和感知濾波。

圖1 語音增強算法系統(tǒng)框架

假設(shè)干凈語音信號為s(n),噪聲信號為d(n),帶噪語音信號為y(n),在只考慮加性噪聲的情況下可得

假設(shè)Y(k)、S(k)、D(k)分別為y(n)、s(n)、d(n)進行FFT 變換后的第k個頻譜幅度分量,并且假定語音和噪聲統(tǒng)計獨立,則有

假定語音增強系統(tǒng)的譜增益函數(shù)為GH1(k),估計的干凈語音幅度譜為珟S(k),則有

由于人耳對頻譜強度的感受與幅度的對數(shù)成正比,相比于最小均方差 (minimum mean square error,MMSE)估計法[11],MMSE-LSA 估計法更符合人耳聽覺特性,且能較好抑制噪聲,因此本文算法的第一級選擇MMSE-LSA 估計法。MMSE-LSA 估計法的譜增益函數(shù)GH1(k)定義為

式 (4)中ξ(k)為先驗信噪比,再定義γ(k)為后驗信噪比,則有

式 (5) 中λx(k)分別表示語音和噪聲第k 個譜分量功率的數(shù)學期望。

噪聲估計是語音增強算法中一個非常重要的部分。噪聲估計過高,則微弱語音將被去掉,增強語音會產(chǎn)生較大的失真;而估計過低,增強語音會殘留過多的背景噪聲。改進的最小受控遞歸平均[12](improved minima controlled recursive average,IMCRA)能夠快速跟蹤非平穩(wěn)噪聲譜的突變,而且在信噪比較低時能防止弱語音段噪聲估計值的偏大。因此,在本算法中,噪聲估計選擇IMCRA 算法。

2 聽覺掩蔽閾值計算

傳統(tǒng)心理聲學模型只適用于純凈語音輸入,因此,在計算掩蔽閾值前,需要對干凈語音進行初估。現(xiàn)有算法對干凈語音的初估通常采用功率譜減法,但是功率譜減法估計的干凈語音中通常含有較多的噪聲,其估計的掩蔽閾值不準確。為了提升掩蔽閾值估計精度,本文結(jié)合兩步直接判決[13](two step direct decision,TSDD)法提出了一種新的掩蔽閾值估計方法。

文獻 [13]中的增益函數(shù)GDD(k)定義如下

干凈語音初估步驟如下:

式中:k——頻譜系數(shù),l——幀數(shù),β=0.95為常數(shù)平滑因子,γpost(k,l)——后驗信噪比。

上述步驟中式 (7)~式 (9)的推導過程可參考文獻[13]。得到改進的譜增益函數(shù)GTSDD(k)后,將其與帶噪語音譜相乘可以得到干凈語音譜。得到上述干凈語音譜后,掩蔽閾值T(k)可根據(jù)Johnston模型計算得到。

3 感知濾波

假設(shè)經(jīng)過MMSE-LSA 處理后的第一級增強語音y′(n)表示為

式中:s(n)——純凈語音信號,z(n)——經(jīng)過MMSELSA 處理后語音中的殘余噪聲,并且z(n)與s(n)不相關(guān)。

對信號做FFT 變換,對第k個短時幅度譜分量有

定義估計誤差E(k)

將式 (11)、式 (12)代入式 (13)可得

式 (14)右端由2部分組成,分別源于語音信號失真和殘差噪聲,分別用ES(k)和ER(k)表示,即

因為G(k)≤1,容易看出,當感知加權(quán)增益函數(shù)G(k)變化時,ES(k)和ER(k)的變化趨勢相反,即語音增強不可能使得ES(k)和ER(k)同時變小,一個理想的增益函數(shù)G(k)應該使得ES(k)和ER(k)有良好的均衡。結(jié)合人耳掩蔽效應,最優(yōu)的增益函數(shù)G(k)應該使語音失真盡可能小的同時,使殘差噪聲處于人耳掩蔽閾值之下,即應滿足如下條件

式中:T(k)——第k個短時幅度譜分量的聽覺掩蔽閾值估計值,T(k)由心理聲學模型計算得到。

為了得到最優(yōu)的感知增益函數(shù)G(k),我們構(gòu)造如下的Lagrange代價函數(shù)J(G,μ)

式中:μ(k)——Lagrange因子。將式 (15)、式 (16)代入式 (18)可得

為使式 (18)中Lagrange 代價函數(shù)最小,針對式(19)令=0,化簡可得

當式 (18)中Lagrange代價函數(shù)最小時,式 (21)與式 (20)等價,即

由式 (22)可得

將式 (23)代入式 (20)化簡可得增益函數(shù)G(k)

上述推導中,殘余噪聲Z (k)的功率譜Pz(k)近似計算如下所示

式中:λd(k)——噪聲模塊估計得到的第k 個頻譜的噪聲功率,GH1(k)——式 (4)中MMSE-LSA 的增益函數(shù),Y(k)——原始帶噪語音信號y(n)的幅度譜。

4 實驗和結(jié)果分析

仿真實驗中背景噪聲分別為白噪聲 (white.wav)、F16座艙噪聲 (f16.wav)、餐廳內(nèi)嘈雜噪聲 (babble.wav)、驅(qū)逐艦機艙噪聲 (destroyerengine.wav)、工廠車間噪音(factory1.wav),噪聲均取自Noisex-92數(shù)據(jù)庫。實驗用的語音數(shù)據(jù)為30段采自TIMIT 數(shù)據(jù)庫的干凈語音。實驗中帶噪語音信號的信噪比 (signal-to-noise ratio,SNR)分別為-10dB、-5dB、0dB、5dB、10dB、15dB、20dB,其中SNR 定義為

式中:s(n)——干凈語音信號,d(n)——噪聲信號,N——輸入的干凈語音信號的總樣本數(shù)。語音增強算法對帶噪語音按幀進行處理,每幀幀長為512 點,相鄰兩幀之間重疊256點,每幀信號加512點的漢明窗。

仿真實驗分為客觀實驗和主觀實驗兩部分??陀^實驗將給出信號的時域波形圖和語譜圖,并計算增強語音信號的分段信噪比 (segmental signal-to-noise ratio,SegSNR),其公式如下所示

主觀實驗主要驗證經(jīng)過增強后語音的主觀感知質(zhì)量,主觀測試選用平均意見值 (mean opinion score,MOS)得分作為評價標準。在實驗中,參考算法為以及最優(yōu)改進對數(shù)譜幅度OM-LSA[14](optimally-modified log-spectral amplitude,MMSE-LSA)。在參考算法中,噪聲估計均采用IMCRA 算法。

主客觀仿真實驗具體所述如下:

客觀實驗1:時域波形圖和頻域語譜圖可以很好顯示殘留噪聲的細節(jié),因此客觀實驗1中將給出對比信號的波形圖和語譜圖。

圖2給出了時域波形圖 (波形圖為Adobe Audition音頻編輯軟件的截圖),波形圖中橫軸為時間,縱軸幅度。圖中帶噪語音信號的SNR=0 dB,背景噪聲為白噪聲(white.wav)。

圖2 信號波形

圖3給出了圖2 中各語音信號的語譜圖 (語譜圖為adobe audition音頻編輯軟件的截圖),語譜圖中橫軸為時間,縱軸為頻率,顏色代表頻譜能量的高低,從深到淺,代表頻譜能量由低到高。

結(jié)合圖2和圖3可以看到,參考算法和本文算法均可以有效地消除背景噪聲,并且語音信號的低頻諧波得到了較好的保留。同時,但相比參考算法,本文算法在去噪的同時,殘留噪聲更小,語譜圖更 “干凈”,增強語音更接近純凈語音。從圖3還可以看到,本文算法和參考算法對信號的高頻成分都造成了一定的損傷,引起了語音失真,這主要是因為MMSE-LSA 譜估計算法的局限。

圖3 信號語譜

客觀實驗2:為了衡量增強語音信號的失真度以及殘余噪聲的大小,在本實驗中對本文算法和參考算法在不同背景噪聲、不同信噪比環(huán)境下的增強語音計算分段信噪比以對比其性能。表1給出了本文算法和參考算法之間SegSNR的比較。

從表1的實驗結(jié)果可以看到,相較參考算法,在各種非平穩(wěn)背景噪聲以及信噪比環(huán)境下,經(jīng)過本文算法處理后的增強語音的SegSNR 值都優(yōu)于參考算法,SegSNR 的平均值相比于MMSE-LSA 算法和OM-LSA 算法分別提高了0.94dB和0.68dB。上述結(jié)果表明,經(jīng)過本文算法處理的增強語音其失真和殘余噪聲更小,該結(jié)論與后續(xù)的主觀聽力測試結(jié)果相一致。

從實驗還可以看出:本文算法在white、f16、babble、destroyerengine、factory1這5種背景噪聲環(huán)境下,相比于MMSE-LSA 算法和OMSL算法SegSNR 的平均值分別提高了1.28dB、1.31dB、0.19dB、1.33dB、0.59dB和1.01 dB、0.99dB、0.12dB、0.74dB、0.55dB,即在white、f16、destroyerengine、factory1這4種背景噪聲環(huán)境下,本算法相比參考算法能夠更好的去噪,但是在babble背景噪聲下提升性能有限。其主要原因是babble噪聲為餐廳內(nèi)嘈雜噪聲,其噪聲含有比較多的人聲,增強算法較難區(qū)分真正的語音信號和噪聲語音,造成殘留背景噪聲較多。

主觀實驗:主觀評測符合人們聽話時對語音質(zhì)量的感覺,能真實的反映語音的質(zhì)量。為了進一步評估算法性能,本文采用MOS得分測試法對算法性能進行主觀評測。在測試時,筆者邀請了15位試聽者參與測試,這其中包括9位男性和6為女性。15位試聽者中包括7位長期從事語音信號處理而且工作經(jīng)驗豐富的工程師,以及8位碩士研究生,他們中沒有人接觸過語音信號處理領(lǐng)域中的問題。

表1 SegSNR 對比

進行主觀測試時,為了防止聽力疲勞,每個實驗者的每次測試時間不宜超過30min,因此主觀測試將主要測試本文算法和參考算法在0dB、5dB 和10dB 信噪比環(huán)境下的主觀性能。在測試過程中,實驗者需要試聽每一組測試的A、B、C、D 這4種聲音。其中,A 是純凈語音,而B、C、D 三者之間有一個是本文算法增強的語音信號,而另兩個是參考算法增強的語音信號,其分配是隨機的,實驗者事先并不知道其相對位置。實驗最后結(jié)果為所有實驗者的評測結(jié)果的均值。表2給出了MOS得分評測結(jié)果。

表2 MOS得分評測結(jié)果

從實驗結(jié)果來看,本文方法的MOS 分較高,相比于MMSE-LSA 和OM-LSA 算法,本算法的平均MOS分分別提高了0.45和0.19,并且信噪比越低,本文算法提升效果越明顯。在低信噪比情況下,由于參考算法增強后的語音殘留噪聲以及音樂噪聲較多,主觀感知質(zhì)量較差。大多數(shù)試聽者表示本文算法增強的語音信號其語音其失真和殘余噪聲更小,總的主觀感知質(zhì)量更好,因而得分較高。

5 結(jié)束語

本文提出了一種非平穩(wěn)噪聲環(huán)境下結(jié)合人耳聽覺感知的語音增強算法。增強算法分成兩級,第一級利用MMSELSA 譜估計法對帶噪語音進行降噪處理。針對第一級MMSE-LSA 處理后增強語音中的殘余噪聲,算法第二級結(jié)合人耳聽覺掩蔽特性設(shè)計了感知增強濾波器對語音信號進行感知增強濾波。實驗結(jié)果表明在各種非平穩(wěn)背景噪聲以及信噪比下,與傳統(tǒng)的語音增強算法相比,經(jīng)過本文算法處理的增強語音其失真和殘余噪聲更小,平均SegSNR 和MOS分分別提高了0.94dB和0.45,增強語音信號的主觀和客觀質(zhì)量都得到了明顯提升。

[1]Loizou PC,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Acoustics,Speech and Signal Processing,2011,19 (1):47-56.

[2]ZHANG Peng,ZHANG Yanning,F(xiàn)U Zhonghua,et al.Study of speech enhancement algorithm based on MMSE-LSA under non-stationary environments[J].Computer Engineering and Design,2007,28 (19):4695-4697 (in Chinese). [張鵬,張艷寧,付中華,等.基于MMSE-LSA 語音增強算法在非平穩(wěn)環(huán)境下的研究與實現(xiàn) [J].計算機工程與設(shè)計,2007,28 (19):4695-4697.]

[3]CHEN Qi,GUO Ying,ZHANG Qun,et al.An improved LSAMMSE enhancement approach based on auditory perception [J].Signal Processing,2008,24 (6):1037-1040 (in Chinese). [陳琪,郭英,張群,等.基于聽覺感知的LSA-MMSE改進型語音增強方法[J].信號處理,2008,24 (6):1037-1040.]

[4]LI Ning,JIANG Jianzhong,GUO Junli.Speech enhancement algorithm based on auditory masking effect and wiener filter[J].Computer Engineering and Application,2011,47 (29):161-163 (in Chinese).[李寧,蔣建中,郭軍利.一種聽覺掩蔽效應和維納濾波的語音增強算法 [J].計算機工程與應用,2011,47 (29):161-163.]

[5]LIU Yujun,KONG Zhong,XU Wanli,et al.Research of speech denoising technology based on improved spectral subtraction algorithm in armored vehicle [J].Computer Engineering and Design,2010,31 (21):4657-4660 (in Chinese).[劉玉軍,孔洲,徐萬里,等.基于譜減法的裝甲車輛語音降噪研究[J].計算機工程與設(shè)計,2010,31 (21):4657-4660.]

[6]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multiband spectral subtraction for speech enhancement based on masking property of human auditory system [J].Computer Engineering and Design,2013,34 (1):235-240 (in Chinese).[曹亮,張?zhí)祢U,高洪興,等.基于聽覺掩蔽效應的多頻帶譜減語音增強方法 [J].計算機工程與設(shè)計,2013,34(1):235-240.]

[7]Cao L,Zhang TQ,Gao HX,et al.Multi-band spectral subtraction method combined with auditory masking properties for speech enhancement [C]//International Congress on Image and Signal Processing,2012:72-76.

[8]Rao CVR,Murthy MBR,Rao KS.Speech enhancement using perceptual wiener filter combined with unvoiced speech-a new scheme[C]//IEEE Recent Advances in Intelligent Computational Systems,2011:688-691.

[9]DING Wei,WANG Zhong.Speech enhancement using timefrequency wavelet threshold with auditory masking [J].Computer Engineering and Design,2011,32 (11):3768-3771 (in Chinese).[丁衛(wèi),王忠.結(jié)合聽覺掩蔽效應的時頻自適應小波閾值增強 [J].計算機工程與設(shè)計,2011,32 (11):3768-3771.]

[10]JIA Hairong,ZHANG Xueying,BAI Jing.Subspace speech enhancement algorithm jointing audio masking effect [J].Computer Engineering,2011,37 (8):259-261 (in Chinese).[賈海蓉,張學英,白靜.聯(lián)合聽覺掩蔽效應的子空間語音增強算法[J].計算機工程,2011,37 (8):259-261.]

[11]YU Jianchao,ZHANG Ruilin.MMSE speech enhancement algorithm using modified gain function[J].Computer Engineering and Design,2010,31 (14):3287-3293 (in Chinese). [余建潮,張瑞林.改進增益函數(shù)的MMSE語音增強算法[J].計算機工程與設(shè)計,2010,31 (14):3287-3293.]

[12]Wu D,Zhu Weiping,Swamy MNS.Noise spectrum estimation with improved minimum controlled recursive averaging based on speech enhancement residue [C]//IEEE International Midwest Symposium on Circuits and Systems,2012:948-951.

[13]OU Shifeng,WANG Xianyun,GAO Ying,et al.Speech enhancement based on two-step noise reduction and gaussian statistical model[J].Signal Processing,2011,27 (8):1171-1178 (in Chinese).[歐世峰,王顯云,高穎,等.基于兩步噪聲消除技術(shù)與高斯統(tǒng)計模型的語音增強算法 [J].信號處理,2011,27 (8):1171-1178.]

[14]Li Kai,F(xiàn)u Qiang,Yan Yonghong.Dual-channel optimally modified log-spectral amplitude estimator using spatial information [C]//IEEE International Congress on Image and Signal Processing,2011:2404-2408.

猜你喜歡
背景噪聲信噪比增益
窄帶電力線通信信道背景噪聲抑制方法
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
基于單片機的程控增益放大器設(shè)計
電子制作(2019年19期)2019-11-23 08:41:36
基于深度學習的無人機數(shù)據(jù)鏈信噪比估計算法
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
低信噪比下LFMCW信號調(diào)頻參數(shù)估計
電子測試(2018年11期)2018-06-26 05:56:02
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
雷達學報(2017年3期)2018-01-19 02:01:27
應用背景噪聲成像研究祁連山地區(qū)地殼S波速度結(jié)構(gòu)
地震研究(2017年3期)2017-11-06 23:38:05
海上單道地震勘探中船舶等背景噪聲的影響分析及壓制
保持信噪比的相位分解反褶積方法研究
绩溪县| 巴塘县| 田林县| 合水县| 龙川县| 长宁区| 福泉市| 徐水县| 进贤县| 崇信县| 江源县| 固镇县| 襄樊市| 民乐县| 丰台区| 克山县| 江城| 黄陵县| 离岛区| 德令哈市| 偏关县| 土默特左旗| 杭州市| 饶阳县| 合作市| 沙洋县| 安义县| 通化市| 浦北县| 忻州市| 通海县| 林西县| 广昌县| 五华县| 铜川市| 济南市| 西昌市| 阿勒泰市| 大宁县| 古浪县| 扶绥县|