基于時域?yàn)V波多頻段MMSE的語音增強(qiáng)研究

2017-11-25 09:57:07劉郭杉張小宇

科技資訊 2017年28期

劉郭杉++張小宇

摘要：本文提出一種時域?yàn)V波中多頻帶語音增強(qiáng)的方法，通過將時域中的未處理語音過濾成各種等效的基于矩形帶寬的子帶，然后在每個頻帶中使用基于離散余弦變換（DCT）MMSE來估計(jì)清晰語音。該算法在0～10dB的SNR水平上優(yōu)于用于汽車、餐廳、列車、白色和工廠噪聲的現(xiàn)有技術(shù)。

關(guān)鍵詞：MMSE 多頻帶 DCT

中圖分類號：TN91 文獻(xiàn)標(biāo)識碼：A 文章編號：1672-3791（2017）10（a）-0030-02

語音通信系統(tǒng)的性能特征在于語音質(zhì)量和可懂度。然而，這些因素容易受到外部噪聲源干擾而劣化。在這些源中，背景噪聲是最常見的，并且以加法方式影響語音信號。

頻域語音增強(qiáng)的噪聲去除方法主要使用傅里葉變換（FT）衍生的頻譜。這種方法不僅可以增強(qiáng)未處理語音的幅度頻譜，同時可以保持未處理語音的相位不受干擾。雖然這些技術(shù)顯著改善了語音質(zhì)量，但是它們作為單個實(shí)體作用于整個頻帶，而語音和噪聲分量并不是均勻地分布在所有的頻帶上。因此，提出了改進(jìn)的多頻帶譜減法，將未處理語音頻譜線性或非線性劃分各個子帶，并且獨(dú)立地對每個子帶執(zhí)行噪聲去除，即通過傅里葉變換給每個頻帶不同的權(quán)重，將信號分解成含有不同權(quán)重的頻率分量。未處理語音由于噪聲的不均勻分布，頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比（SNR），當(dāng)每個子帶中的語音分量被增強(qiáng)時，每個子帶的SNR改變，即頻率分量的分布也與之前的不同。所以，在使用導(dǎo)出原始未處理語音的權(quán)重就會導(dǎo)致純凈語音的不準(zhǔn)確估計(jì)。為了克服這些問題，使用時域?yàn)V波可能會更合適。

1 全頻帶MMSE（DCT-C）

MMSE頻譜幅度估計(jì)器使用從UP語音頻譜分量估計(jì)的先驗(yàn)SNR和后驗(yàn)SNR來估計(jì)干凈語音頻譜。UP語音信號的DCT導(dǎo)出頻譜的MMSE估計(jì)器收斂到Weiner濾波器用于實(shí)變換，并且其由下式給出：

其中，是由決策指導(dǎo)方法估計(jì)的先驗(yàn)SNR，并且是當(dāng)前段是語音段的似然性。固定值表現(xiàn)出對特定情況（僅噪聲/語音）的偏差。另一方面，對于基于多頻段DCT的MMSE估計(jì)器，提出了一種基于全局和局部先驗(yàn)SNR來計(jì)算閾值的方法，并且在下面的部分中討論。

2 時域?yàn)V波多頻帶MMSE（TMB-MMSE）

當(dāng)前的工作中，使用頻帶特定的閾值來計(jì)算用于多頻帶MMSE的。在每個頻帶信號中，基于兩個因素，即（i）全局先驗(yàn)SNR（）和（ii）局部先驗(yàn)SNR（）來計(jì)算用于固定的閾值，其中前者是為UP全帶信號，后者是為子帶信號估計(jì)的先驗(yàn)SNR。對全帶UP語音段和第i個子帶濾波段的第T段估計(jì)的全局1和局部2先驗(yàn)SNR由下式給出：

其中，是針對第T個語音段中的第n個樣本估計(jì)的先驗(yàn)SNR，并且N是段中的樣本的總數(shù)。

3 性能評價

語音增強(qiáng)算法使用從TIMIT語料庫，NOISEX-92是一個噪聲數(shù)據(jù)庫，包括8種不同的非固定噪聲、如工廠、機(jī)槍、白噪聲、粉紅噪聲等。將來自NOISEX-92和AURORA數(shù)據(jù)庫的噪聲以不同的SNR水平被添加到TIMIT和NOIZEUS數(shù)據(jù)庫中的干凈的語音中，獲得未處理語音信號。在這個系統(tǒng)中，以0～10dB的SNR水平，添加5個不同的噪聲，即，餐廳噪聲，白噪聲，工廠噪聲（選自NOISEX-92）、汽車噪聲和火車噪聲（選自AURORA）。UP語音信號是以25ms的幀大小和段之間50%重疊的漢明窗口。

TMB-MMSE與DFT-C和DCT-C的比較：TMB-MMSE，DFT-C和DCT-C算法的目標(biāo)質(zhì)量度量顯示如下。

所提出的方法（TMB-MMSE）導(dǎo)致所考慮的所有噪聲條件下PESQ評分的語音質(zhì)量得到改善。對于汽車，工廠和白噪聲，質(zhì)量提高了0.3～0.8，而對于火車和汽車噪聲，TMB-MMSE參考UP語音實(shí)現(xiàn)了0.2～0.4的改善（見表1）。

根據(jù)SD分?jǐn)?shù)，TMB-MMSE與DCT-C和DFT-C相比較。

通過TMB-MMSE增強(qiáng)的語音中的殘余噪聲與DCT-C和DFT-C相比較，通過TMB-MMSE增強(qiáng)的語音中BD的減少對于汽車，白色和工廠噪聲為0.3～0.5左右，而對于混音和列車噪聲，分別減少了0.1和0.2（見表2）。

總而言之，TMB-MMSE通過DCT-C顯著地提高了整體增強(qiáng)的語音質(zhì)量，DCT-C提高了0.1～0.3，DFT-C提高了0.02～0.3。

4 結(jié)語

在這項(xiàng)工作中，使用DCT派生的頻譜開發(fā)了時域?yàn)V波多頻帶（基于ERB）語音增強(qiáng)算法。通過時域?yàn)V波克服了存在于頻域多頻帶方法中的相鄰頻帶頻率分量的影響。實(shí)驗(yàn)結(jié)果可以看出，本文提出的算法比傳統(tǒng)的語音增強(qiáng)方法增強(qiáng)效果好。PESQ值驗(yàn)證了改進(jìn)的算法具有更好的語音質(zhì)量。使用改進(jìn)的算法具有比傳統(tǒng)算法低的SD量和BD量。

參考文獻(xiàn)

[1] 于文慧.基于短時譜估計(jì)的MMSE語音增強(qiáng)算法研究[D].長春：吉林大學(xué)，2012.

[2] 寧礦鳳，王景芳.DCT域維納濾波語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用，2015，51（8）：226-230.endprint

科技資訊2017年28期

科技資訊的其它文章: 斗輪機(jī)斗輪回轉(zhuǎn)機(jī)構(gòu)常見故障及技術(shù)改造研究; 一種新型乳化液在八鋼冷軋的應(yīng)用; 提高煤礦供電安全可靠性的研究; 基于PLC風(fēng)力發(fā)電控制系統(tǒng)的設(shè)計(jì)技術(shù)研究; 某特大型國有能源企業(yè)災(zāi)備及業(yè)務(wù)連續(xù)性體系淺析; 基于云計(jì)算在交通運(yùn)輸數(shù)據(jù)中心的實(shí)現(xiàn)與應(yīng)用

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于時域?yàn)V波多頻段MMSE的語音增強(qiáng)研究