国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的語音增強算法研究

2021-03-31 09:02王金超
微型電腦應(yīng)用 2021年3期
關(guān)鍵詞:頻點語音噪聲

王金超

(上海大學 通信與信息工程學院, 上海 200444)

0 引言

隨著智能設(shè)備的發(fā)展,人機交互是必不可少的,語音質(zhì)量則是提高產(chǎn)品質(zhì)量與體驗的重要組成。語音增強是提升所有語音處理質(zhì)量的基礎(chǔ),同時也是一大難點。傳統(tǒng)信號處理方法沒法應(yīng)對自然界復(fù)雜多變的噪聲,為了應(yīng)對不同的情景算法中也有許多需要調(diào)整的細節(jié),需要大量的實驗與人力,有的方法可能還會引入音樂噪聲降低語音質(zhì)量[1]。

神經(jīng)網(wǎng)絡(luò)模型非常適合處理非線性擬合問題[2]。實際上語音增強可以看作是含噪語音到純凈語音的一種變換,完全可以利用神經(jīng)網(wǎng)絡(luò)強大的擬合能力對其進行處理。

1 特征提取

1.1 數(shù)據(jù)預(yù)處理

語音信號包括幅度與相位兩部分。信號相位通常會被歸一化于-π到π之間,相位譜具有雜亂無章、難以預(yù)測的特點[3],因此本文只對語音信號的能量譜進行預(yù)測和估計。對語音信號做短時傅里葉變換(STFT),如式(1)。

(1)

式中,z(t)表示語音時域信號;g(t)表示窗函數(shù)。

STFT包含以下步驟:對原始語音信號分幀、加窗[4];窗函數(shù)采用漢寧窗,兩窗之間有50%重疊;最后對每一幀信號做快速傅里葉變換(FFT),如圖1所示。

圖1 STFT流程

STFT(t,f)是一個二維復(fù)數(shù),其中,t表示時間軸;f表示頻率軸,對復(fù)數(shù)取模就可以得到信號的能量譜稱為語譜圖,如圖2所示。

圖2 語譜圖

1.2 輸入與輸出

語音信號能量幅度的動態(tài)范圍很大,不利于神經(jīng)網(wǎng)絡(luò)學習,需計算每個時頻點對數(shù)能量譜以縮小動態(tài)范圍,且對數(shù)能量譜更符合人類聽覺感知[5]。對數(shù)能量譜計算,如式(2)。

LogSpec(t,f)=ln(|STFT(t,f)|)

(2)

考慮到語音信號具有嚴格時間聯(lián)系,本文將若干幀作為一個組合窗輸入模型,假設(shè)窗長是2τ+1,則模型的實際輸入向量Vn,如式(3)。

Vn=[Xn-τ,…,Xn-1,Xn,Xn+1,…,Xn+τ]

(3)

Xn=[LogSpecstd(n,1),LogSpecstd(n,2),…,

LogSpecstd(n,k)]

式中,k表示FFT點數(shù)。

DM會產(chǎn)生過平滑問題[6]。因此本文預(yù)測IRM:一個0到1內(nèi)的小數(shù)作為當前時頻點增益[7]。語音重構(gòu),如式(4)。

Re(t,f)IRM=O(t,f)·|STFT(t,f)|·angle(STFT(t,f))

(4)

式中,O(t,f)表示模型每個時頻點的輸出。

1.3 算法流程

算法流程,如圖3所示。

圖3 算法流程圖

算法共包含兩個部分:訓(xùn)練階段使模型具有擬合干凈能量譜的能力;測試階段利用訓(xùn)練好的模型對測試語音進行處理。數(shù)據(jù)預(yù)處理模塊的作用是分離語音的能量譜與相位譜,在訓(xùn)練階段相位譜將被棄置,在測試階段相位譜將被用于語音信號重構(gòu)[8]。

2 語音增強模型

2.1 深度神經(jīng)網(wǎng)絡(luò)(DNN)模型

DNN模型結(jié)構(gòu)圖,如圖4所示。

圖4 DNN模型結(jié)構(gòu)圖

DNN模型使用最基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[9],由1個輸入層、3個隱藏層和1個輸出層構(gòu)成。輸入層為一窗語音信號;3個隱藏層每個都有2 048個神經(jīng)元,使用的激活函數(shù)為Relu函數(shù);最終輸出是語音窗中間一幀所對應(yīng)的標簽,是十一幀預(yù)測一幀的結(jié)構(gòu)。

2.2 卷積循環(huán)網(wǎng)絡(luò)模型

CRN[10]可以更好利用語譜圖中各個時頻點的空間信息做出預(yù)測,通過十一幀預(yù)測十一幀,大大提高了模型運行效率。模型結(jié)構(gòu),如圖5所示。

圖5 CRN模型結(jié)構(gòu)圖

采用編解碼器形式。首先通過多層級聯(lián)卷積層對輸入特征編碼壓縮,壓縮后特征包含高維特征,考慮語音信號時序關(guān)聯(lián)性,中間層采用長短時記憶單元。最后通過反卷積層將高維特征解碼得到IRM??紤]到含噪語音與純凈語音特征比較接近,且在編碼過程中可能損失細節(jié)特征,因此采用了級聯(lián)的結(jié)構(gòu)將低維特征與高維特征堆疊以彌補細節(jié)。

3 數(shù)據(jù)分析

3.1 模型對比

本文使用TIMIT數(shù)據(jù)集[11]作為純凈語音,訓(xùn)練語音4 600條,測試語音1 000條。選用訓(xùn)練噪聲為中科大NOISE115[12],測試噪聲為NOISEX-92。語音與噪聲隨機混合得到訓(xùn)練語音共98小時,測試語音共2小時。評價指標為主觀語音質(zhì)量評估(PESQ)[13]。本文還與RNNoise[14]進行對比,所有最優(yōu)結(jié)果都已用粗體標識,如表1所示。

表1 模型對比評分表

從表中我們可以看到,在所有SNR下,CRN模型效果都優(yōu)于RNNoise。在SNR較低情況下,DNN模型效果優(yōu)于CRN模型,隨著SNR逐漸提高,CRN的效果也越來越好。每組SNR下最好的增強結(jié)果平均可以使原始含噪語音的PESQ評分提高0.553分。

DNN模型與CRN模型均采用Keras和Tensorflow[15]庫搭建,DNN一次只預(yù)測一個樣本,CRN一次預(yù)測十一個樣本。模型參數(shù)量與運行時間,如表2所示。

表2 目標對比評分表

3.2 目標對比

比較DM方法與IRM方法之間的差異,如表3所示。

表3 目標對比評分表

可以看到在所有情況下IRM的效果都優(yōu)于DM,且SNR越高,差距越大。這主要是由于IRM可以對原始能量譜作最大程度保留。DM雖然可以對噪聲做更好的抑制,但重新生成的能量譜會存在一定程度的失真。在高SNR下,含噪語音本身就非常接近干凈語音,此時DM會使得PESQ評分降低。

3.3 噪聲對比

數(shù)據(jù)中出現(xiàn)15 db含噪語音平均SNR高于10 db含噪語音。出現(xiàn)的原因:不同噪聲種類對語音PESQ評分產(chǎn)生的影響是不同的。將TIMIT中的TEST_DR1_FAKS0_SA1.WAV語音以10 db信噪比與NOISEX92中的各個噪聲合成,計算其PESQ值,如表4所示。

表4 不同噪聲10 db下PESQ值

由表4可知,不同噪聲種類對PESQ的影響差別較大。白噪聲、粉噪聲等全頻率噪聲對語音質(zhì)量影響較大;機槍噪聲的脈沖型噪聲對語音質(zhì)量影響較小。

4 總結(jié)

本文研究了基于神經(jīng)網(wǎng)絡(luò)的語音增強算法,利用神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)了含噪能量譜到干凈能量譜的非線性映射,使用了兩種不同的網(wǎng)絡(luò)模型比較并與目前較為先進的模型RNNoise進行了對比試驗,平均提高PESQ評分0.55分,效果明顯。研究兩種不同的回歸目標的特點和其對模型帶來的影響,實驗證明IRM是語音增強問題上更好的選擇。

猜你喜歡
頻點語音噪聲
基于變鄰域粒子群的短波頻率選擇算法
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
LTE系統(tǒng)下D2D功能高層協(xié)議探析
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
對方正在輸入……
一種高速跳頻圖案的高效同步方法
控制噪聲有妙法
一種基于白噪聲響應(yīng)的隨機載荷譜識別方法