国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自適應(yīng)門限融合策略的語音去噪算法

2024-07-17 00:00:00薛蕓師晨康白靜趙建星汪思斌
無線電工程 2024年4期
關(guān)鍵詞:濾波器

摘 要:針對(duì)單個(gè)語音去噪算法在去噪過程中關(guān)注點(diǎn)較為單一,而多個(gè)語音去噪算法在融合時(shí)存在細(xì)節(jié)信息被削弱、融合效果不理想的問題,提出一種多個(gè)語音去噪算法下的自適應(yīng)門限融合策略,將帶噪信號(hào)分別經(jīng)過3 種不同的去噪算法得到3 個(gè)去噪信號(hào);根據(jù)自適應(yīng)門限值以幀為單位進(jìn)行幀篩選,得到自適應(yīng)門限融合策略下的去噪信號(hào);為提高識(shí)別效果,采用倒譜提升器對(duì)Gammatone 頻率倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficient,GFCC) 進(jìn)行改進(jìn),并聯(lián)合支持向量機(jī)進(jìn)行噪聲環(huán)境下的語音識(shí)別。實(shí)驗(yàn)結(jié)果表明,在5、10、15、20 dB 四種信噪比下,通過該融合策略所得到的去噪信號(hào)與目前主流的順序融合及多級(jí)融合方式相比,在語音識(shí)別率方面平均提高3. 6% ,融合倒譜提升器的GFCC 特征相比于GFCC 特征平均提高了2. 2% 。

關(guān)鍵詞:語音去噪;自適應(yīng)門限融合;帶噪語音;幀篩選;Gammatone 濾波器

中圖分類號(hào):TN912. 35 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3106(2024)04-1026-08

0 引言

語音去噪是指當(dāng)語音信號(hào)被噪聲干擾后,降低帶噪語音信號(hào)中的噪聲,恢復(fù)純凈語音的技術(shù)[1]。語音去噪主要采用頻域處理方法,其中基于短時(shí)譜估計(jì)的語音去噪方法應(yīng)用最為廣泛,主要有譜減法[2]、維納濾波法[3]等,但這些技術(shù)在處理復(fù)雜環(huán)境下的語音信號(hào)時(shí),往往容易出現(xiàn)語音失真、殘留大量音樂噪聲等現(xiàn)象。多個(gè)語音去噪算法的融合可以將關(guān)注點(diǎn)不同的多個(gè)去噪算法進(jìn)行優(yōu)勢(shì)互補(bǔ),可以對(duì)帶噪語音信號(hào)進(jìn)行有效處理,因此成為語音去噪方向的研究熱點(diǎn)[4]。Yang 等[5]采用改進(jìn)譜減法對(duì)含噪語音信號(hào)進(jìn)行去噪,然后對(duì)處理后的信號(hào)進(jìn)行改進(jìn)閾值小波變換進(jìn)行語音去噪,與傳統(tǒng)的譜減法相比,融合閾值小波變換后的去噪算法,不僅仍具有譜減法處理速度快的優(yōu)勢(shì),而且能夠有效抑制單一譜減法產(chǎn)生的音樂噪聲,但是其融合方式為順序連接,語音信號(hào)的細(xì)節(jié)信息容易被忽略。Thimmaraja等[6]從編碼和增強(qiáng)語音數(shù)據(jù)的角度出發(fā),提出了一種結(jié)合線性預(yù)測(cè)編碼(Linear Predictive Coding,LPC)和語音活動(dòng)檢測(cè)(SSVoice Activity Detection,SSVAD)方法的譜減法,其結(jié)合方式為將帶噪語音數(shù)據(jù)作為SSVAD 算法的輸入,SSVAD 的輸出作為LPC 編碼器的輸入,但LPC 估計(jì)量對(duì)量化噪聲具有很高的敏感性,不適用于泛化。Mourad 等[7]提出了平穩(wěn)仿生小波變換(Stationary Bionic Wavelet Transform,SBWT)與幅度平方譜的最大后驗(yàn)估計(jì)量(MSSMaximum A Posteriori,MSSMAP)的語音去噪算法,該方法集成了SBWT 的信號(hào)重建優(yōu)勢(shì)及MSSMAP 的降噪和提升清晰度的特點(diǎn),去噪后的信號(hào)不會(huì)造成相當(dāng)大的失真和音樂背景噪聲,其融合方式采用多級(jí)融合。Xue 等[8]提出了一種基于改進(jìn)小波閾值和最小均方算法(Least Mean Square,LMS)自適應(yīng)噪聲消除的語音去噪算法,利用LMS 得到高信噪比的語音信號(hào),再利用小波分析進(jìn)行去噪重構(gòu),但該去噪算法會(huì)造成原始信號(hào)失真。

通過以上分析,提出在多個(gè)語音去噪算法下的自適應(yīng)門限融合策略來改善去噪算法融合的局限性。首先,文中采用3 個(gè)語音去噪算法,分別為對(duì)數(shù)譜幅度估計(jì)算法、小波閾值去噪算法與維納濾波算法,對(duì)帶噪信號(hào)進(jìn)行去噪處理,得到3 個(gè)去噪信號(hào);其次,以幀為單位截取去噪信號(hào)的幀分量并進(jìn)行歸一化處理,同時(shí)設(shè)立一個(gè)門限值用于對(duì)3 個(gè)去噪信號(hào)進(jìn)行幀篩選,在一幀信號(hào)中,若有一個(gè)及以上去噪信號(hào)的幀分量處于門限值以下,則該幀信號(hào)選取三者中值最小的信號(hào),若3 個(gè)幀分量都大于門限值,則該幀信號(hào)選取三者中值最大的信號(hào),門限值根據(jù)信噪比的不同而變換,最終輸出自適應(yīng)門限融合策略下的去噪信號(hào),該融合方法可較全面地結(jié)合語音信息,提高語音質(zhì)量;另一方面,在提取Gammatone 頻率倒譜系數(shù)(Grammatone Frequency Cepstrum Coefficient,GFCC)特征時(shí),由于離散余弦變換(DiscreteCosine Transform,DCT)會(huì)使大部分有效數(shù)據(jù)聚集在低頻區(qū),從而降低識(shí)別效果,因此引入倒譜提升器來提升語音識(shí)別模型的性能,最后通過設(shè)計(jì)實(shí)驗(yàn),驗(yàn)證該方法的有效性。

1 自適應(yīng)門限融合策略下的語音去噪算法

1. 1 對(duì)數(shù)譜幅度估計(jì)算法

假設(shè)帶噪語音信號(hào)為y (n)由純凈語音信號(hào)s(n)與噪聲信號(hào)d(n)相加而成,由于語音信號(hào)具有短時(shí)平穩(wěn)特性[9],對(duì)帶噪語音信號(hào)進(jìn)行短時(shí)傅里葉變換及幅度譜估計(jì)后,得到:

Yk,m(ω) = Sk,m(ω)+ D(ω), (1)

式中:Yk,m(ω)、Sk,m(ω)分別表示y(n)、s(n)第m 幀的短時(shí)幅度譜,D(ω)表示d(n)的短時(shí)幅度譜。

采用后驗(yàn)信噪比的方法進(jìn)行降噪,有:

γk,m = |Yk,m(ω) |2 /| D(ω)| 2 , (2)

式中:γk,m 為帶噪信號(hào)y(n)與噪聲信號(hào)d(n)的后驗(yàn)信噪比。

為抑制音樂噪聲,提高去噪效果,引入先驗(yàn)信噪比,并采用判別引導(dǎo)法[10]進(jìn)行估計(jì),可得:

式中:ξk,m 表示先驗(yàn)信噪比,為純凈語音信號(hào)在頻域中的信噪比;λd(k,m-1)表示噪聲頻域中第k 個(gè)頻譜分量,第m-1 幀的方差;a 表示權(quán)重因子。

線性幅度譜的計(jì)算在數(shù)學(xué)上易于處理,但應(yīng)用在聽覺上效果并不理想[11],故采用對(duì)數(shù)幅度譜估計(jì)對(duì)帶噪語音信號(hào)進(jìn)行處理,采用對(duì)數(shù)最小均方誤差(Minimum Mean Squared Error,MMSE)估計(jì)器得到增益函數(shù):

1. 2 小波去噪算法

1. 2. 1 小波變換

小波變換是信號(hào)處理中的一種分析方法,解決了傅里葉變換在時(shí)頻域變化中對(duì)局部關(guān)注較少、對(duì)非平穩(wěn)信號(hào)處理效果不理想的問題,其通過采用長(zhǎng)度有限、不斷衰減的小波基實(shí)現(xiàn),當(dāng)小波進(jìn)行平移伸縮后與信號(hào)波形出現(xiàn)重合時(shí),既可得到信號(hào)的頻率成分,也可明確信號(hào)在時(shí)域的位置信息,所以小波在時(shí)頻域具有表達(dá)信號(hào)局部特征的特點(diǎn)[12],具體計(jì)算流程如下。

小波變換是將基本小波函數(shù)φ(t)做位移τ 后,在不同尺度a 下,與待分析信號(hào)f(t)做內(nèi)積,即:

1. 2. 2 小波閾值去噪算法

小波閾值去噪的基本原理:根據(jù)噪聲與信號(hào)在不同頻帶上的小波分解系數(shù)具有不同強(qiáng)度分布的特點(diǎn),采用小波對(duì)信號(hào)進(jìn)行三級(jí)分解,并計(jì)算噪聲閾值,即可得到小波分解系數(shù),之后根據(jù)頻帶與強(qiáng)度篩除噪聲對(duì)應(yīng)的小波系數(shù),對(duì)去除噪聲后的語音信號(hào)進(jìn)行小波重構(gòu),可得到去噪語音。具體計(jì)算流程如下。

假設(shè)s(t)表示帶噪信號(hào),f(t)表示原始信號(hào),n(t)表示噪聲信號(hào):

s(t) = f(t)+ n(t)。(10)

由于語音信號(hào)具有短時(shí)平穩(wěn)特性,而噪聲信號(hào)S 通常表現(xiàn)出高頻特性,因此選定一種小波,經(jīng)過三級(jí)分解,分解出D1 、D2 、D3 三個(gè)高頻分量及一個(gè)A3低頻分量:

S = A3 + D1 + D2 + D3 。(11)

在分解后的信號(hào)中,純凈語音對(duì)應(yīng)的系數(shù)很大,而噪聲對(duì)應(yīng)的系數(shù)很小,因此采用連續(xù)性更好的軟閾值函數(shù)對(duì)分解信號(hào)進(jìn)行處理,如式(12)所示,設(shè)定一個(gè)閾值thr,若輸入信號(hào)w 的絕對(duì)值大于閾值thr,則令其絕對(duì)值減去閾值,保留信號(hào),反之則視為噪聲,將其置為零。

對(duì)處理完的小波系數(shù)進(jìn)行反變換,即可重構(gòu)出去噪的語音信號(hào),小波去噪算法的流程如圖1 所示。

1. 3 維納濾波算法

在語音去噪方向中,維納濾波算法能夠在帶噪信號(hào)中將純凈語音信號(hào)提取出來,由于語音信號(hào)具有短時(shí)平穩(wěn)特性,而維納濾波又是一種在處理平穩(wěn)隨機(jī)信號(hào)的均方誤差方面具有很大優(yōu)勢(shì)的濾波器,維納濾波在提出之時(shí)并沒有給出具體的濾波器,而是通過計(jì)算LMS 來計(jì)算得到去噪后的信號(hào)。維納濾波算法流程如圖2 所示。

圖2 中,x(n)為輸入語音信號(hào),當(dāng)信號(hào)通過線性時(shí)不變?yōu)V波器后得到輸出信號(hào)d^ (n),d(n)為理論計(jì)算的輸出值,e(n)為實(shí)際輸出與理論輸出的誤差,維納濾波的目的是將這個(gè)誤差最小化,其中線性時(shí)不變?yōu)V波器通常采用FIR 濾波器,得到的輸出信號(hào)如下:

式中:{hk }為FIR 濾波器系數(shù),M 為系數(shù)個(gè)數(shù)。需要計(jì)算濾波器系數(shù){hk}以最小化估計(jì)誤差e(n):

e(n) = d(n)-d ^ (n)。(14)

估計(jì)誤差e(n)的均方值通常被用作最小化判斷依據(jù),最優(yōu)濾波器系數(shù){hk }通??梢栽跁r(shí)域或頻域進(jìn)一步計(jì)算。

2 基于自適應(yīng)門限融合策略的帶噪語音識(shí)別

2. 1 自適應(yīng)門限融合策略

由于單個(gè)語音去噪算法對(duì)帶噪語音信號(hào)進(jìn)行去噪時(shí)關(guān)注點(diǎn)較為單一,而多個(gè)語音去噪算法的融合可以從多個(gè)角度對(duì)帶噪信號(hào)進(jìn)行去噪處理,但是傳統(tǒng)的順序融合、多級(jí)融合等,在融合時(shí)存在細(xì)節(jié)信息被削弱、融合效果不理想的問題,因此考慮到多種語音去噪算法的優(yōu)勢(shì),提出一種自適應(yīng)門限融合策略。

首先,對(duì)數(shù)譜幅度估計(jì)算法在處理帶噪信號(hào)時(shí),具有信號(hào)失真度小、去噪效果好的特點(diǎn);小波閾值去噪算法在低信噪比下去噪效果較好,去噪后的語音識(shí)別率較高,特別針對(duì)時(shí)變及突變信號(hào)去噪效果明顯,且在非平穩(wěn)信號(hào)和提取信號(hào)局部特征方面具有良好的表現(xiàn);維納濾波算法在處理平穩(wěn)隨機(jī)信號(hào)的均方誤差方面具有很大優(yōu)勢(shì)。為充分結(jié)合三者的優(yōu)勢(shì),采用自適應(yīng)門限融合策略對(duì)三者進(jìn)行融合,流程如圖3 所示。

自適應(yīng)門限融合策略的具體實(shí)現(xiàn)方法如下:

設(shè)帶噪語音信號(hào)長(zhǎng)度為N 幀,則對(duì)數(shù)譜幅度估計(jì)算法、小波閾值去噪算法和維納濾波算法第k 幀的輸出分別為Slm(k)、Swl(k)和Swn(k),為更好地結(jié)合三者的特性,首先進(jìn)行幀歸一化操作,便于后續(xù)計(jì)算,歸一化如式(15)所示:

式(15)僅介紹了對(duì)數(shù)譜幅度估計(jì)算法的歸一化方法,其余2 種方法同理。

針對(duì)同一幀去噪信號(hào),對(duì)3 個(gè)去噪算法的輸出進(jìn)行幀篩選,并引入自適應(yīng)門限閾值δ。

針對(duì)自適應(yīng)門限融合算法的第k 幀信號(hào)Y(k),若Slm(k)、Swl(k)和Swn(k)有一個(gè)信號(hào)小于門限閾值δ 時(shí),則取三者中的最小值,目的是選取三者中對(duì)噪聲抑制效果更好的幀信號(hào);其余情況,則取三者中的最大值,目的是最大限度地保留純凈語音信號(hào)。自適應(yīng)門限融合策略示意如圖4 所示。

圖4 中最左側(cè)的語音信號(hào)為帶噪聲的N 幀語音信號(hào),經(jīng)過3 種去噪算法后,得到3 個(gè)N 幀去噪信號(hào),自適應(yīng)門限融合策略對(duì)三者進(jìn)行歸一化及幀篩選,并根據(jù)閾值的大小進(jìn)行決策融合后,得到N 幀去噪信號(hào)。由于這些信號(hào)是經(jīng)過3 種去噪算法的幀信號(hào)進(jìn)行交叉結(jié)合后的結(jié)果,因此可以考慮到多種去噪算法的優(yōu)勢(shì),使不同的去噪算法能夠充分結(jié)合,提高去噪效果。該策略也可針對(duì)不同的信噪比改變不同去噪算法得到的幀信號(hào)在N 幀信號(hào)中的占比,比如,當(dāng)信噪比較低時(shí),N 幀信號(hào)中小波去噪算法得到的幀信號(hào)占多數(shù)。

2. 2 融合倒譜提升器的改進(jìn)GFCC 語音特征提取

帶噪語音信號(hào)進(jìn)行去噪處理后,需要提取語音特征再進(jìn)行語音識(shí)別。Gammatone 濾波器是一組模擬耳蝸頻率[13]分解特性的濾波器模型,當(dāng)外界的聲音進(jìn)入人耳的基底膜后,將根據(jù)頻率進(jìn)行分解并產(chǎn)生行波振動(dòng),從而刺激聽覺細(xì)胞[14],通過該濾波器組所提取出的GFCC 語音特征參數(shù)在頻域中與人耳聽覺特性較為符合[15],由于傳統(tǒng)GFCC 語音特征的有效數(shù)據(jù)大部分都集中在低頻區(qū),因此引入倒譜提升器進(jìn)行改進(jìn),融合倒譜提升器的改進(jìn)GFCC 語音特征提取算法如下:

① 預(yù)加重。由于語音高頻信號(hào)儲(chǔ)存能量較少,因此需要進(jìn)行預(yù)加重處理,預(yù)加重函數(shù)如下所示:

y(n) = x(n)- αx(n - 1), (17)

式中:預(yù)加重系數(shù)α 取0. 95。

② 分幀、加窗。將語音信號(hào)按照幀長(zhǎng)25 ms,幀移15 ms 的標(biāo)準(zhǔn)分成若干幀信號(hào),上下幀之間的重復(fù)結(jié)構(gòu)有助于提升幀與幀之間的連貫性。

將語音信號(hào)分幀后,為避免頻譜泄露,需要為每一幀信號(hào)代入窗函數(shù),采用漢明窗函數(shù),如下:

③ 快速傅里葉變換(Fast Fourier Transform,FFT)。對(duì)信號(hào)進(jìn)行時(shí)頻域變換,對(duì)加窗后的信號(hào)進(jìn)行FFT,并計(jì)算功率譜S(i)。

④ Gammtone 濾波器組。將信號(hào)功率譜通過Gammatone 濾波器組[16]進(jìn)行濾波處理,濾波器組的時(shí)域表達(dá)式如下:

式中:c 為濾波器系數(shù),n 為濾波器階數(shù),b 為時(shí)間衰減系數(shù),f0 為中心頻率, 為濾波器相位,h(t)為濾波器組的輸出。

⑤ 對(duì)數(shù)變換。為增強(qiáng)Gammatone 濾波器組的抗干擾能力,將信號(hào)進(jìn)一步采用對(duì)數(shù)變換,得到一組對(duì)數(shù)譜D(i),用于提升非線性特性

⑥ DCT。為了去除信號(hào)相關(guān)性及降維[17],需對(duì)信號(hào)進(jìn)行DCT:

式中:N 為Gammatone 濾波器組的個(gè)數(shù),M 為特征維度。

⑦ 倒譜提升器。由于大部分信號(hào)數(shù)據(jù)集中聚集在DCT 變化后的低頻區(qū),為提升高頻DCT 系數(shù)的大小,采用倒譜提升器K(i):

式中:L 為升倒譜系數(shù),一般?。玻?。

⑧ 融合倒譜提升器的GFCC 語音特征。將離散余弦變換與倒譜提升器相乘即可得到融合倒譜提升器的GFCC 語音特征參數(shù):

GFCC(i) = DCT(i)K(i),i = 1,2,…,13。(22)

最后,GFCC 將作為支持向量機(jī)的輸入進(jìn)行語音識(shí)別,GFCC 語音特征參數(shù)算法流程如圖5 所示。

3 仿真實(shí)驗(yàn)與結(jié)果分析

3. 1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證所提出算法的有效性,采用針對(duì)非特定人的UASpeech 數(shù)據(jù)庫,選?。?650 條純凈語音,實(shí)驗(yàn)將純凈語音在不同信噪比(5、10、15、20 dB)下的發(fā)音作為語音數(shù)據(jù),組成6 600 條語音數(shù)據(jù),其中6 000 條語音作為訓(xùn)練集數(shù)據(jù),600 條語音作為測(cè)試集數(shù)據(jù)。

3. 2 仿真實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)首先采用2 種去噪算法進(jìn)行實(shí)驗(yàn),以驗(yàn)證自適應(yīng)門限融合策略在2 種算法下是否有效。帶噪語音信號(hào)經(jīng)對(duì)數(shù)譜幅度估計(jì)算法及小波去噪算法進(jìn)行去噪后,采用自適應(yīng)門限融合策略,得到去噪后的語音信號(hào);其次采用支持向量機(jī)作為語音識(shí)別模型,并提取融合倒譜提升器的GFCC 語音特征參數(shù)作為支持向量機(jī)的輸入,進(jìn)行噪聲環(huán)境下的語音識(shí)別實(shí)驗(yàn);最后,在5、10、15、20 dB 四種不同的信噪比下設(shè)計(jì)5 組試驗(yàn)來驗(yàn)證自適應(yīng)門限融合策略在語音去噪及語音識(shí)別中的優(yōu)越性。

實(shí)驗(yàn)一:為確定自適應(yīng)門限融合策略中門限值的大小,根據(jù)4 種不同的信噪比(5、10、15、20 dB)來確定不同的門限值,實(shí)驗(yàn)采用語音識(shí)別率作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如圖6 所示。

從圖6(a)可以看出,當(dāng)信噪比為5 dB、門限值為0. 086 時(shí),語音識(shí)別率達(dá)到87. 5% ;從圖6(b)可以看出,當(dāng)信噪比為10 dB、門限值為0. 034 5 ~0. 036 時(shí),語音識(shí)別率達(dá)到88. 8% ;從圖6(c)可以看出,當(dāng)信噪比為15 dB、門限值為0. 007 6 時(shí),語音識(shí)別率達(dá)到91. 3% ;從圖6(d)可以看出,當(dāng)信噪比為20 dB、門限值為0. 005 時(shí),語音識(shí)別率達(dá)到91. 5% 。分析數(shù)據(jù)可得,隨著信噪比的提高,噪聲功率不斷衰減,門限值也隨之降低,語音識(shí)別率不斷提升。

實(shí)驗(yàn)二:為確定GFCC 特征及融合倒譜提升器的GFCC 特征對(duì)語音識(shí)別模型識(shí)別效果的影響,實(shí)驗(yàn)將從4 種不同的信噪比(5、10、15、20 dB)下展開實(shí)驗(yàn),門限值分別取實(shí)驗(yàn)一中得到的最優(yōu)門限值,并采用語音識(shí)別率作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表1 所示。

由表1 可得,在5、10、15、20 dB 四種不同的信噪比下,融合倒譜提升器的GFCC 特征相比于GFCC特征在語音識(shí)別率上分別提升了3. 69% 、1. 83% 、1. 77% 和1. 50% ,主要原因是DCT 會(huì)使大部分有效數(shù)據(jù)聚集在低頻區(qū),而倒譜提升器可以提升高頻DCT 系數(shù)的大小。為更直觀地表明倒譜提升器帶來的變化,GFCC 特征及融合倒譜提升器的GFCC特征頻譜如圖7 所示。

經(jīng)過倒譜提升器的作用后,高頻部分的系數(shù)大小得到提升,對(duì)應(yīng)到圖中顯示為特征維度大的地方,亮度被提高、低維的有效信息被擴(kuò)散至高維,從而使語音識(shí)別模型可以更充分地提?。牵疲茫?的有效特征。

實(shí)驗(yàn)三:為實(shí)現(xiàn)門限值跟隨信噪比變換的自適應(yīng)策略,實(shí)驗(yàn)三將根據(jù)實(shí)驗(yàn)一中5、10、15、20 dB 四種信噪比及相應(yīng)的門限值數(shù)據(jù)進(jìn)行非線性曲線擬合,擬合后的自適應(yīng)函數(shù)如下:

y = 4. 84 × 10 -4 x2 - 17. 51 × 10 -3 x + 16. 15 × 10 -2 , (20)

式中:x 為信噪比,y 為門限值。為驗(yàn)證自適應(yīng)函數(shù)的有效性,假設(shè)信噪比為8 dB,則相應(yīng)的門限值通過理論計(jì)算為0. 052,其實(shí)驗(yàn)結(jié)果如表2 所示。

由表2 可得,門限值的取值間隔為0. 002,在不同門限值下,識(shí)別率不同。當(dāng)門限值為0. 052 時(shí),識(shí)別率為最高的88. 13% ,這與8 dB 信噪比下的理論門限值一致,進(jìn)一步證明了自適應(yīng)函數(shù)的有效性。

實(shí)驗(yàn)四:為驗(yàn)證自適應(yīng)門限融合策略的有效性,將帶噪信號(hào)分別通過對(duì)數(shù)幅度譜估計(jì)算法、小波去噪算法、Yang 等[5] 所采用的順序融合方法及Mourad 等[7]所采用的多級(jí)融合方法進(jìn)行識(shí)別率比較試驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。

由表3 可得,在4 種不同的信噪比環(huán)境下,對(duì)數(shù)譜幅度估計(jì)算法的去噪效果普遍比小波去噪算法要好,順序融合方法在一定程度上能夠提升識(shí)別率,但在5 dB 及15 dB 的情況下出現(xiàn)了識(shí)別率下降的現(xiàn)象,說明順序融合方式對(duì)識(shí)別率的提升存在一定的局限性。多級(jí)融合方法在4 種信噪比的環(huán)境下都出現(xiàn)了識(shí)別率下降的現(xiàn)象,說明多級(jí)融合方式對(duì)去噪效果產(chǎn)生了負(fù)影響,而針對(duì)自適應(yīng)門限融合策略,從整體上看,無論信噪比如何變化,文中提出的融合策略識(shí)別率最高,相比其他算法,識(shí)別率最大可提升7. 4% ,因此結(jié)合針對(duì)不同信噪比所變化的門限融合策略可以構(gòu)造更好的語音去噪算法。

實(shí)驗(yàn)五:為驗(yàn)證多個(gè)去噪算法是否適用于自適應(yīng)門限融合策略,實(shí)驗(yàn)采用3 種語音去噪算法,分別為維納濾波法[18]、對(duì)數(shù)譜幅度估計(jì)法及小波去噪法,將這3 種方法分別采用傳統(tǒng)的順序融合、多級(jí)融合及自適應(yīng)門限融合方法在5、10、15、20 dB 四種信噪比下進(jìn)行噪聲環(huán)境下的語音識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。

由表4 的實(shí)驗(yàn)結(jié)果可得,相比于2 種語音去噪算法,在3 種語音去噪算法下,順序融合方式分別在5、10、20 dB 的噪聲環(huán)境下,都出現(xiàn)了識(shí)別率下降的現(xiàn)象,多級(jí)融合方式在一定程度上也有所提高,自適應(yīng)門限融合策略算法,在4 種信噪比環(huán)境下語音識(shí)別準(zhǔn)確率提升最多,識(shí)別效果最好。

4 結(jié)束語

為充分結(jié)合不同去噪算法的優(yōu)勢(shì),提出一種自適應(yīng)門限融合策略下的語音去噪融合算法,首先采用多種語音去噪算法分別對(duì)帶噪信號(hào)進(jìn)行去噪及幀歸一化對(duì)齊處理,將對(duì)齊后的幀信號(hào)根據(jù)自適應(yīng)門限值進(jìn)行幀篩選處理,以充分結(jié)合不同去噪算法的優(yōu)勢(shì);其次采用倒譜提升器,改善傳統(tǒng)GFCC 特征存在的有效數(shù)據(jù)聚集在低頻區(qū)的問題,從而提升識(shí)別效果;最后通過支持向量機(jī)進(jìn)行噪聲環(huán)境下的語音識(shí)別。實(shí)驗(yàn)結(jié)果表明,自適應(yīng)門限融合算法在不同信噪比下,能夠有效結(jié)合多種去噪算法的特性,且融合倒譜提升器的GFCC 特征能夠有效提升語音識(shí)別效果。

參考文獻(xiàn)

[1] DAS N,CHAKRABORTY S,CHAKI J,et al. Fundamentals,Present and Future Perspectives of Speech Enhancement [J]. International Journal of Speech Technology,2021,24(1):883-901.

[2] 白靜,史燕燕,薛 蕓,等. 融合非線性冪函數(shù)和譜減法的CFCC 特征提?。郏剩荩?西安電子科技大學(xué)學(xué)報(bào),2019,46(1):86-92.

[3] NUHA H H,ABSA A A. Noise Reduction and Speech Enhancement Using Wiener Filter[C]∥2022 InternationalConference on Data Science and Its Applications (ICoDSA). Bandung:IEEE,2022:177-180.

[4] 楊海紅,王琳娟. 強(qiáng)混響及噪聲相關(guān)背景下說話人跟蹤方法[J]. 無線電工程,2021,51 (9):963-970.

[5] YANG Y,LIU P P,ZHOU H L,et al. A Speech Enhancement Algorithm combining Spectral Subtraction andWavelet Transform [C]∥ 2021 IEEE 4th InternationalConference on Automation,Electronics and Electrical Engineering (AUTEEE). Shenyang:IEEE,2021:268-273.

[6] THIMMARAJA Y G,NAGARAJA B G,JAYANNA H S.Speech Enhancement and Encoding by Combining SSVAD and LPC[C]∥2019 4th International Conference onElectrical,Electronics,Communication,Computer Technologies and Optimization Techniques (ICEECCOT). Mysuru:IEEE,2019:151-157.

[7] MOURAD T. Speech Enhancement Based on StationaryBionic Wavelet Transform and Maximum a Posterior Estimator of Magnitudesquared Spectrum [J]. InternationalJournal of Speech Technology,2017,20:75-88.

[8] XUE X S,JIANG D Z,HE Z H,et al. An Improved Unsupervised Singlechannel Speech Separation Algorithm forProcessing Speech Sensor Signals[J]. Wireless Communications and Mobile Computing,2021,2021(170):1-13.

[9] 程艷芬,陳篧鑫,陳逸靈,等. 嵌入注意力機(jī)制并結(jié)合層級(jí)上下文的語音情感識(shí)別[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào),2019,51(11):100-107.

[10] HOGLUND N,NORDHOLM S. Improved a Priori SNREstimation with Application in LogMMSE Speech Estimation[C]∥2009 IEEE Workshop on Applications of SignalProcessing to Audio & Acoustics. New Paltz:IEEE,2009:189-192.

[11] FENG X Y,LI N,HE Z W,et al. DNNbased Linear Prediction Residual Enhancement for Speech Dereverberation[C]∥2021 AsiaPacific Signal and Information ProcessingAssociation Annual Summit and Conference (APSIPAASC). Tokyo:IEEE,2021:541-545.

[12] OSADCHIY A,KAMENEV A,SAHAROV V,et al. SignalProcessing Algorithm Based on Discrete WaveletTransform[J]. Designs,2021,5(3):41.

[13] 柏梁澤,高勇. 結(jié)合卷積平滑耳蝸?zhàn)V和深度網(wǎng)絡(luò)的語音增強(qiáng)技術(shù)[J]. 無線電工程,2020,50(12):1055-1062.

[14] 姜順明,王智錳. 采用聽覺傳感策略的聲品質(zhì)主動(dòng)控制[J]. 機(jī)械工程學(xué)報(bào),2019,55(23):147-153.

[15] DUA M,AGGARWAL R K,BISWAS. GFCC Based Discriminatively Trained Noise Robust Continuous ASRSystem for Hindi Language[J]. Journal of Ambient Intelligence and Humanized Computing,2019,10 (6 ):2301-2314.

[16] 余琳,姜囡. 基于Gammatone 濾波器的混合特征語音情感識(shí)別[J]. 光電技術(shù)應(yīng)用,2020,35(3):50-58.

[17] ALGHABBAN J M,ALHABOOBI A,NASSAR Y S. QP“DCT and Wavelet Transfer (HAAR,DB)”QuantizationImplementation in the Frequency Domain [J ]. TurkishJournal of Computer and Mathematics Education (TURCOMAT),2021,12(12):152-158.

[18] MANAMPERI W,SAMARASINGHE P N,ABHAYAPALAT D,et al. GMM Based Multistage Wiener Filtering forLow SNR Speech Enhancement [C]∥2022 InternationalWorkshop on Acoustic Signal Enhancement (IWAENC).Bamberg:IEEE,2022:1-5.

作者簡(jiǎn)介

薛珮 蕓 女,(1990—),博士,講師。主要研究方向:語音信號(hào)處理、病理語音識(shí)別、語音可視化與人工智能等。

師晨康 男,(1999—),碩士研究生。主要研究方向:語音信號(hào)處理。

白 靜 女,(1965—),博士,教授。主要研究方向:音頻與視頻技術(shù)、語音可視化、嵌入式系統(tǒng)和數(shù)據(jù)挖掘等。

趙建星 男,(1994—),碩士研究生。主要研究方向:語音信號(hào)處理。

汪思斌 男,(1999—),碩士研究生。主要研究方向:語音信號(hào)處理。

基金項(xiàng)目:山西省應(yīng)用基礎(chǔ)研究計(jì)劃項(xiàng)目(201901D111094);山西省基礎(chǔ)研究計(jì)劃(20210302124544)

猜你喜歡
濾波器
基于無擾濾波器和AED-ADT的無擾切換控制
濾波器對(duì)無線網(wǎng)絡(luò)中干擾問題的作用探討
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
開關(guān)電源EMI濾波器的應(yīng)用方法探討
電子制作(2018年16期)2018-09-26 03:26:50
45000kHz基頻晶體濾波器
電子制作(2017年20期)2017-04-26 06:57:35
基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
基于SystemView的匹配濾波器設(shè)計(jì)與仿真
截?cái)嗟淖赃m應(yīng)容積粒子濾波器
基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
LCL濾波器在6kV級(jí)聯(lián)STATCOM中的應(yīng)用
金山区| 成都市| 常山县| 台前县| 涡阳县| 肇源县| 哈巴河县| 华坪县| 土默特左旗| 奉贤区| 钦州市| 富锦市| 波密县| 搜索| 新建县| 平昌县| 称多县| 邮箱| 军事| 英吉沙县| 长岭县| 原平市| 吴桥县| 额敏县| 贡山| 元氏县| 布拖县| 昌邑市| 抚松县| 和田县| 宣恩县| 正镶白旗| 简阳市| 斗六市| 和平县| 松桃| 方城县| 丘北县| 双江| 阿巴嘎旗| 怀仁县|