孫坤倫 夏秀渝 孫文慧
摘要:針對(duì)低信噪比非平穩(wěn)噪聲環(huán)境,提出了基于聽(tīng)覺(jué)掩蔽效應(yīng)的改進(jìn)型維納濾波算法。采用能熵比法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),據(jù)此進(jìn)行實(shí)時(shí)噪聲譜估計(jì)。采用經(jīng)典維納濾波算法得到近似純凈語(yǔ)音以計(jì)算聽(tīng)覺(jué)掩蔽閾值,根據(jù)掩蔽閾值動(dòng)態(tài)調(diào)整改進(jìn)型維納濾波器的一組參數(shù),通過(guò)維納濾波得到增強(qiáng)語(yǔ)音。通過(guò)客觀(guān)評(píng)價(jià)指標(biāo)SNR,PESQ測(cè)試以及主觀(guān)試聽(tīng)測(cè)試可知,該算法不僅提高了語(yǔ)音信號(hào)的信噪比,而且減少了語(yǔ)音的失真,提高了語(yǔ)音的感知質(zhì)量。
關(guān)鍵詞:聽(tīng)覺(jué)掩蔽效應(yīng);語(yǔ)音增強(qiáng);維納濾波;能熵比
中圖分類(lèi)號(hào):TP391.4文獻(xiàn)標(biāo)志碼:A文章編號(hào):1008-1739(2020)13-68-4
0引言
近年來(lái),語(yǔ)音增強(qiáng)技術(shù)廣泛應(yīng)用于遠(yuǎn)程視頻會(huì)議、智能手機(jī)等各個(gè)領(lǐng)域。由于外界各種噪聲的存在,語(yǔ)音信號(hào)難免會(huì)受到干擾。如何有效消除語(yǔ)音信號(hào)中所混有的外界的噪聲和提高語(yǔ)音質(zhì)量一直是語(yǔ)音信號(hào)處理重要的研究課題。
傳統(tǒng)的譜減法[1]及其改進(jìn)型譜減法在去除噪聲的同時(shí)不可避免地帶來(lái)了音樂(lè)噪聲。相比較譜減法,雖然維納濾波法[2]很大程度上消除了音樂(lè)噪聲的影響,但是在非平穩(wěn)噪聲環(huán)境和低信噪比的情況下,維納濾波法在對(duì)噪聲消除和抑制的同時(shí)往往會(huì)導(dǎo)致語(yǔ)音失真比較嚴(yán)重。
針對(duì)傳統(tǒng)算法存在的不足,提出了基于聽(tīng)覺(jué)掩蔽效應(yīng)[3]的改進(jìn)型維納濾波算法。利用人耳的聽(tīng)覺(jué)掩蔽效應(yīng),可以很好地降低語(yǔ)音信號(hào)在降噪過(guò)程中帶來(lái)的失真,提高了語(yǔ)音質(zhì)量。
1語(yǔ)音增強(qiáng)系統(tǒng)
基于聽(tīng)覺(jué)掩蔽效應(yīng)的改進(jìn)型維納濾波算法,語(yǔ)音增強(qiáng)系統(tǒng)流程圖如圖1所示。
本文語(yǔ)音增強(qiáng)系統(tǒng)對(duì)帶噪語(yǔ)音信號(hào)的處理過(guò)程大致分為以下4個(gè)步驟進(jìn)行:
①實(shí)時(shí)噪聲估計(jì):利用能熵比端點(diǎn)檢測(cè)法,判斷輸入信號(hào)的每一幀是語(yǔ)音幀還是噪聲幀,如果是噪聲幀則更新噪聲功率譜。
②掩蔽閾值計(jì)算:根據(jù)傳統(tǒng)的維納濾波算法得到近似純凈的語(yǔ)音信號(hào),然后由聽(tīng)覺(jué)掩蔽模型計(jì)算掩蔽閾值。
③改進(jìn)型維納濾波參數(shù)調(diào)整:根據(jù)掩蔽閾值自適應(yīng)地調(diào)整維納濾波參數(shù)和設(shè)定的維納濾波器系數(shù)的下限min。
④語(yǔ)音合成:采用改進(jìn)的維納濾波算法增強(qiáng)語(yǔ)音幅度譜,結(jié)合帶噪語(yǔ)音信號(hào)的相位譜通過(guò)逆傅里葉變換,可得到時(shí)域上增強(qiáng)后的語(yǔ)音。
2傳統(tǒng)型維納濾波算法
5仿真結(jié)果及分析
本實(shí)驗(yàn)原始語(yǔ)音數(shù)據(jù)是在安靜環(huán)境下錄制的,錄制的原始語(yǔ)音采樣頻率為16 kHz,所選取的采樣精度為16 bits,分幀時(shí)采用漢寧窗且?guī)L(zhǎng)為320點(diǎn)、幀移160點(diǎn)。噪聲選自NOISEX-92數(shù)據(jù)庫(kù),噪聲包括white,volvo,factory三種類(lèi)型。將不同類(lèi)型的噪聲信號(hào)和原始語(yǔ)音信號(hào)按照不同程度混合生成不同信噪比(5 dB,0 dB,-5 dB)的帶噪語(yǔ)音信號(hào)進(jìn)行試驗(yàn)仿真。
將錄制的原始語(yǔ)音信號(hào)和非平穩(wěn)factory噪聲混合生成信噪比為0 dB的帶噪語(yǔ)音信號(hào)。原始語(yǔ)音信號(hào)的時(shí)域波形和頻域語(yǔ)譜圖如圖2所示,混合后生成的帶噪語(yǔ)音信號(hào)時(shí)域波形和頻域語(yǔ)譜圖如圖3所示。采用傳統(tǒng)維納濾波算法和本文基于聽(tīng)覺(jué)掩蔽效應(yīng)的改進(jìn)型維納濾波算法增強(qiáng)后的語(yǔ)音時(shí)域波形及其對(duì)應(yīng)的頻域語(yǔ)譜圖分別如圖4和圖5所示。
在反映人耳感知語(yǔ)音聽(tīng)覺(jué)質(zhì)量方面,信噪比不是很好的參考指標(biāo)。因此本文還采用了語(yǔ)音質(zhì)量感知評(píng)價(jià)指標(biāo)(PESQ)[7]對(duì)以上2種算法進(jìn)行對(duì)比,對(duì)比結(jié)果如表2所示。PESQ指標(biāo)是將增強(qiáng)后的語(yǔ)音與一個(gè)代表最好質(zhì)量(通常為純凈語(yǔ)音)的參考語(yǔ)音進(jìn)行比較,這種比較考慮人耳的聽(tīng)覺(jué)感知特性(響度、音質(zhì)和音色),會(huì)得到一個(gè)差異值,差異值越小PESQ的分越高,MOS分?jǐn)?shù)也越高。
通過(guò)對(duì)比表1中3種算法輸出信噪比可以發(fā)現(xiàn),相比較傳統(tǒng)的譜減和維納濾波算法,采用本文算法增強(qiáng)后的語(yǔ)音信噪比有明顯提高。通過(guò)表2實(shí)驗(yàn)數(shù)據(jù)對(duì)比可知,本文算法相比較傳統(tǒng)維納濾波算法PESQ得分提高了近0.4分,說(shuō)明本文算法增強(qiáng)后的語(yǔ)音質(zhì)量明顯提高。同時(shí)通過(guò)主觀(guān)試聽(tīng)測(cè)試表明,在低信噪比非平穩(wěn)噪聲的情況下,采用本文算法增強(qiáng)后的語(yǔ)音相比較傳統(tǒng)譜減法和維納濾波法增強(qiáng)后的語(yǔ)音,音樂(lè)噪聲殘留的更小,而且增強(qiáng)后的語(yǔ)音聽(tīng)起來(lái)更加舒適,自然度和感知質(zhì)量有了進(jìn)一步提高。
6結(jié)束語(yǔ)
提出的語(yǔ)音增強(qiáng)算法從語(yǔ)音客觀(guān)評(píng)價(jià)指標(biāo)信噪比、語(yǔ)音質(zhì)量感知質(zhì)量評(píng)價(jià)指標(biāo)和主觀(guān)試聽(tīng)測(cè)試3個(gè)方面的實(shí)驗(yàn)數(shù)據(jù)對(duì)比可以得出,本文算法在消除噪聲和降低語(yǔ)音失真度方面明顯優(yōu)于傳統(tǒng)的語(yǔ)音增強(qiáng)算法,在低信噪比非平穩(wěn)噪聲環(huán)境下,效果顯著。
參考文獻(xiàn)
[1]王莉,胡劍凌,徐盛.基于聽(tīng)覺(jué)掩蔽效應(yīng)的語(yǔ)音增強(qiáng)算法的研究[J].電聲技術(shù),2006(7):39-42.
[2] LOIZOU P C.語(yǔ)音增強(qiáng):理論與實(shí)踐[M].高毅,肖莉,鄧方,等,譯.成都:電子科技大學(xué)出版社,2012..
[3]蔡軍,李飛,張毅.基于聽(tīng)覺(jué)掩蔽效應(yīng)的語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)工程,2017,43(7):288-292,297.
[4]宋知用.MATLAB在語(yǔ)音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.
[5] JOHNSTON J D.Transform Coding of Audio Signals Using Perceptual Noise Criteria[J].IEEE J Selected Areas Communication,1988,6(2):314-323.
[6] PAINTER T,SPANIAS A. Perceptual Coding of Digital Audio[J]. Proceedings of the IEEE,2000,88(4):451-512.
[7]劉海濱,吳鎮(zhèn)揚(yáng),趙力,等.非平穩(wěn)環(huán)境下基于人耳聽(tīng)覺(jué)掩蔽特性的語(yǔ)音增強(qiáng)[J].信號(hào)處理,2003(4):303-307.
[8] RIX A W,BEERENS J G,KIM D-S,e tal. Objective Assment of Speech and Audio Quality-technology and Applications[J]. IEEE Transactions on Audio,Speech,and Language Processing,2006,14(6): 1980-1901.