董 胡,馬振中,趙 娜,劉 剛,童 欣
(長(zhǎng)沙師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410100)
當(dāng)前,常見的語(yǔ)音增強(qiáng)算法眾多,諸如:譜減法、維納濾波法、小波包去噪、MMSE-LSA法等。譜減法及維納濾波法總體來說計(jì)算量稍小,易實(shí)現(xiàn),但也易出現(xiàn)音樂噪聲[1-5]。小波包去噪法有較強(qiáng)的時(shí)頻分析能力,適合非平穩(wěn)信號(hào)處理,但閾值的設(shè)定是小波包去噪的關(guān)鍵點(diǎn),閾值太大或太小都將影響去噪效果[6-8]。MMSE-LSA算法的語(yǔ)音增強(qiáng)效果優(yōu)于譜減法、維納濾波法和小波包去噪法,但需要預(yù)測(cè)或假設(shè)語(yǔ)音頻譜的分布,在低信噪比的復(fù)雜噪聲環(huán)境下,其語(yǔ)音增強(qiáng)效果有待改善[9-10]。
針對(duì)上述語(yǔ)音增強(qiáng)算法所描述的問題,提出了一種改進(jìn)對(duì)數(shù)譜幅度最小均方誤差譜估計(jì)(MMSE-MLSA)與感知濾波結(jié)合的語(yǔ)音增強(qiáng)算法。該算法將降噪和噪聲掩蔽進(jìn)行單獨(dú)處理,首先采用MMSE-LSA對(duì)含噪語(yǔ)音進(jìn)行初級(jí)降噪,接著使用感知濾波器將初級(jí)降噪后殘余噪聲掩蔽掉。仿真實(shí)驗(yàn)結(jié)果表明,在低信噪比的復(fù)雜噪聲環(huán)境下,與常見的譜減法及MMSE-MLSA相比較,該算法增強(qiáng)后的語(yǔ)音失真及殘余音樂噪聲更小,增強(qiáng)效果更明顯。
圖1顯示了文中算法的原理。含噪語(yǔ)音信號(hào)先通過改進(jìn)對(duì)數(shù)譜幅度最小均方誤差譜估計(jì)作增強(qiáng)處理,然后使用感知濾波器掩蔽上一級(jí)增強(qiáng)信號(hào)中的殘余噪聲,最終獲得增強(qiáng)后的語(yǔ)音。從圖1可知,整個(gè)增強(qiáng)算法分為四個(gè)部分:MMSE-MLSA譜估計(jì)、噪聲估計(jì)、掩蔽閾值估計(jì)和感知濾波器。
圖1 MMSE-MLSA語(yǔ)音增強(qiáng)算法原理
設(shè)s(t)為純凈語(yǔ)音信號(hào),n(t)為噪聲信號(hào),y(t)為含噪語(yǔ)音信號(hào),若僅考慮加性噪聲,有如下表達(dá)式[11-12]:
y(t)=s(t)+n(t)
(1)
令Y(k)、S(k)、N(k)分別表示y(t)、s(t)、n(t)作FFT變換后所對(duì)應(yīng)的第k個(gè)頻譜幅度,并假設(shè)語(yǔ)音與噪聲統(tǒng)計(jì)是獨(dú)立的,則有:
Y(k)=S(k)+N(k)
(2)
(3)
相比于MMSE估計(jì)法[13],MLSA-MMSE估計(jì)法更適合人耳的聽覺特性,能更好地抑制噪聲,故文中語(yǔ)音增強(qiáng)算法初級(jí)選擇MLSA-MMSE估計(jì)法。對(duì)MLSA-MMSE估計(jì)法的譜增益函數(shù)GS(k)作如下定義:
(4)
其中,ξ(k)為先驗(yàn)信噪比;γ(k)為后驗(yàn)信噪比,則有[14]:
(5)
γ(k)=Y2(k)/λn(k)
(6)
v(k)=ξ(k)γ(k)/(1+ξ(k))
(7)
假設(shè)H0(k)和H1(k)分別表示語(yǔ)音缺失和存在,并且假設(shè)對(duì)于語(yǔ)音和噪聲短時(shí)傅里葉變換系數(shù)的復(fù)高斯分布,信號(hào)的條件概率密度作如下定義:
(8)
(9)
(10)
令A(yù)=|S|代表語(yǔ)音譜幅度,譜增益函數(shù)Gmin作如下定義:
exp{[logA(k)|Y(k),H0(k)]}=Gmin.|Y(k)|
(11)
(12)
作為語(yǔ)音增強(qiáng)算法中的重要組成部分,如果噪聲估計(jì)過高,則弱語(yǔ)音將被消除,增強(qiáng)后的語(yǔ)音將出現(xiàn)失真;如果估計(jì)過低,則增強(qiáng)后的語(yǔ)音將殘留過多的噪聲?;谧钚≈到y(tǒng)計(jì)特性,估計(jì)算法能使估計(jì)的噪聲較好地跟蹤噪聲改變。所以,在該算法中,噪聲估計(jì)選擇最小值統(tǒng)計(jì)特性算法。
聽覺掩蔽是聽覺系統(tǒng)的一個(gè)心理聲學(xué)特性,在音頻編碼中應(yīng)用廣泛。通過模擬人耳的頻率選擇特性和掩蔽特性來計(jì)算掩蔽閾值。在對(duì)掩蔽閾值作計(jì)算之前,語(yǔ)音譜需作粗略估計(jì)。其中,語(yǔ)音譜的粗略值可通過下式進(jìn)行估計(jì):
(13)
含噪信號(hào)經(jīng)初級(jí)增強(qiáng)后,存在一定的殘留噪聲,其可以被人耳的聽覺掩蔽特性掩蓋而不被完全去除。如果它被完全去掉,則可能降低語(yǔ)音的可懂度,導(dǎo)致語(yǔ)音失真。因此,基于聽覺掩蔽效應(yīng)的感知過濾器被用作過濾處理。
|G(k)|2×|N(k)|2≤T(k)
(14)
其中,T(k)為掩蔽閾值。
感知濾波器模型定義如下:
(15)
其中,0<θ<1。通過實(shí)驗(yàn)取θ=0.8。
實(shí)驗(yàn)用的語(yǔ)音數(shù)據(jù)采樣率為16 kHz,幀長(zhǎng)為512,重疊1/2,每一幀添加Hanming窗。實(shí)驗(yàn)用的噪聲來自Noisex-92數(shù)據(jù)庫(kù)中的白噪聲、factory噪聲和M109坦克噪聲。將上述噪聲信號(hào)和純凈語(yǔ)音信號(hào)混合成10 dB、5 dB、0 dB、-5 dB的含噪語(yǔ)音信號(hào)。
分別采用譜減算法、MMSE-LSA算法及文中提出的算法對(duì)含噪(M109)語(yǔ)音作增強(qiáng)處理,結(jié)果如圖2所示。從圖2可知,對(duì)于語(yǔ)音信號(hào)中語(yǔ)音幅值較弱的部分,譜減算法和MMSE-LSA算法的增強(qiáng)效果都不佳,尤其是譜減算法,幾乎完全丟失了語(yǔ)音幅值較弱的信號(hào);而文中提出的算法不僅能較好地去除含噪語(yǔ)音中的M109噪聲,同時(shí)能較好地恢復(fù)出原來語(yǔ)音幅值較弱的部分。
圖2 含噪(M109)語(yǔ)音SNR=-5 dB的語(yǔ)音增強(qiáng)結(jié)果
利用SEGSNR的提高量來衡量噪聲的衰減量:
(16)
其中,L表示幀數(shù);N表示幀采樣點(diǎn)。
通常SEGSNR越大,表示信號(hào)中包含的噪聲和語(yǔ)音失真越小,相應(yīng)波形越接近純凈語(yǔ)音。
對(duì)一定信噪比的含噪語(yǔ)音分別采用譜減法、MMSE-LSA和文中算法進(jìn)行語(yǔ)音增強(qiáng)仿真測(cè)試,結(jié)果如圖3所示??梢钥闯?,文中提出的語(yǔ)音增強(qiáng)算法SEGSNR提高量最大。
MOS得分測(cè)試由10名本專業(yè)學(xué)生(男女各5人)進(jìn)行語(yǔ)音試聽,由試聽者對(duì)原始語(yǔ)音和增強(qiáng)后語(yǔ)音作對(duì)照測(cè)聽,給出主觀得分,結(jié)果如圖4所示。
圖4 各種算法在不同SNR下的MOS得分
從圖4可知,文中算法的MOS得分最高,MMSE-LSA次之,譜減法增強(qiáng)后語(yǔ)音中存在更多的殘余音樂噪聲,且主觀聽覺較差,因此增強(qiáng)后的得分最低。而文中算法對(duì)增強(qiáng)后的信號(hào)中的噪聲作掩蔽處理,因此主觀評(píng)價(jià)較高,雖然存在少量的背景噪聲,但音樂噪音的減少更明顯,主觀聽覺更好,分?jǐn)?shù)更高。
文中提出了基于MMSE-MLSA與感知濾波的語(yǔ)音增強(qiáng)算法。語(yǔ)音增強(qiáng)算法分為兩級(jí),初級(jí)采用MMSE-MLSA對(duì)含噪語(yǔ)音作譜估計(jì)增強(qiáng)處理,去除含噪語(yǔ)音中的大部分噪聲。針對(duì)初級(jí)語(yǔ)音增強(qiáng)中存在的殘余噪聲,次級(jí)使用感知濾波器對(duì)初級(jí)增強(qiáng)后的信號(hào)進(jìn)行感知濾波,進(jìn)一步去除信號(hào)中的殘余音樂噪聲。仿真實(shí)驗(yàn)結(jié)果表明,在低信噪比的復(fù)雜噪聲環(huán)境下,與譜減算法及MMSE-LSA算法相比較,該算法能有效降低語(yǔ)音失真及去除殘余音樂噪聲,語(yǔ)音增強(qiáng)效果更明顯。