国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字語音降噪系統(tǒng)實(shí)現(xiàn)研究

2023-10-17 05:04:18張昊宇朱泳翔
關(guān)鍵詞:梅爾端點(diǎn)門限

宋 飛,范 焜,張昊宇,朱泳翔

(西安航空學(xué)院 電子工程學(xué)院,西安 710077)

0 引言

語音是人們進(jìn)行信息交換的最直接的手段,然而在各類通信交流場景中,語音信號(hào)又很容易受到各種噪聲的干擾。尤其在短波語音通信場景中,各種復(fù)雜而強(qiáng)大的電磁干擾往往會(huì)產(chǎn)生大幅度的背景噪聲,會(huì)使通信語音質(zhì)量明顯下降。這種情況在短波通信中普遍存在,輕則可使通信雙方無法識(shí)別語音,重則可對(duì)接收人員聽力帶來損害,因此研究效果良好且易于實(shí)現(xiàn)的語音降噪技術(shù)具有重要的現(xiàn)實(shí)意義。

語音降噪技術(shù)在生產(chǎn)和生活中具有廣泛的應(yīng)用,研究人員對(duì)其進(jìn)行了深入研究。王濤[1]針對(duì)傳統(tǒng)的頻譜減法算法的噪聲估計(jì)部分進(jìn)行改進(jìn),使用了基于語音檢測(cè)的噪聲估計(jì)算法對(duì)噪聲進(jìn)行有效估計(jì)。并使用基于最小均方算法的自適應(yīng)加權(quán)平均濾波器有效降低了語音噪聲。

孫端[2]采用小波變換理論對(duì)帶噪語音進(jìn)行降噪處理,既可克服短時(shí)傅立葉變換窗口大小不隨頻率變化的缺點(diǎn),又可提供隨頻率改變的時(shí)頻窗口。孫端[2]對(duì)比了使用不同閾值小波變換的降噪效果,驗(yàn)證了小波降噪方法在語音信號(hào)降噪中的可行性。

聶欣欣[3]研究使用麥克風(fēng)陣列結(jié)構(gòu),應(yīng)用最小二乘法(RLS)進(jìn)行語音降噪,并對(duì)降噪效果的影響因素進(jìn)行了研究。

方健[4]將卷積神經(jīng)網(wǎng)絡(luò)噪聲識(shí)別器和堆疊自動(dòng)編碼器相結(jié)合,利用噪聲識(shí)別器的識(shí)別結(jié)果,自主選擇自動(dòng)編碼器的模型,最終實(shí)現(xiàn)了噪聲自適應(yīng)的堆疊自動(dòng)編碼器語音降噪算法。

趙鼎[5]將子空間的思想與深度學(xué)習(xí)方法相結(jié)合,提出了基于子空間投影的時(shí)域語音降噪網(wǎng)絡(luò),在編碼器和解碼器之間添加了基于自注意力的投影模塊,能夠?qū)⑶度胂蛄糠謩e投影到兩個(gè)正交的子空間內(nèi),得到相互正交的語音向量和噪聲向量,進(jìn)而極大程度地將語音信息與噪聲信息分離。

上述這些常用的降噪方法針對(duì)常見的噪音干擾具有一定效果,實(shí)驗(yàn)普遍是高于-5 dB的帶噪語音,但對(duì)于信噪比較小,噪音幅度完全淹沒語音幅度的短波電臺(tái)應(yīng)用場景,前述研究工作中沒有提及。研究表明,基于神經(jīng)網(wǎng)絡(luò)的語音降噪方法對(duì)噪聲的自動(dòng)識(shí)別和提升降噪效果有一定幫助,但選擇適合人耳語音的損失函數(shù)比較困難,且深度神經(jīng)網(wǎng)絡(luò)需要的計(jì)算資源較多,過于復(fù)雜的算法應(yīng)用于實(shí)現(xiàn)環(huán)節(jié)難度較高。

短波電臺(tái)接收端接收到的帶噪語音進(jìn)行語音降噪應(yīng)用場景下噪聲的幅度往往完全淹沒語音,使用常規(guī)方法很難達(dá)到有效降低噪音干擾的效果。這要求對(duì)帶噪語音進(jìn)行濾波處理,改善語音質(zhì)量,提高聽者的舒適度和可懂度。此外,在實(shí)際應(yīng)用中需要在可移動(dòng)的短波電臺(tái)中實(shí)現(xiàn)算法,因此對(duì)算法的復(fù)雜度也有一定的制約。

基于前述分析,本文探索解決短波電臺(tái)接收端噪聲污染問題,從接收端的帶噪語音中提取盡可能純凈的語音,在有效降低單音和白噪聲干擾的同時(shí)進(jìn)行語音增強(qiáng),提高通信質(zhì)量及聽者舒適度,效果要求盡可能的使語音自然度和清晰度好,可懂度高,殘留“音樂噪聲”少。

1 語音降噪方法設(shè)計(jì)

經(jīng)比較分析,語音降噪首先采用基于梅爾倒譜系數(shù)(MFCC)的時(shí)域倒譜算法進(jìn)行語音分段識(shí)別處理,后采用譜減降噪算法進(jìn)行語音降噪,再進(jìn)行濾波處理,整體算法流程如圖1所示。

圖1 整體算法流程圖

1.1 基于梅爾倒譜系數(shù)的語音端點(diǎn)檢測(cè)

梅爾倒譜系數(shù)是在語音信號(hào)處理中常用的語音特征。研究者發(fā)現(xiàn)人類的聽覺靈敏度在可聽范圍內(nèi)是隨聲波的不同頻率而變化的,低頻的靈敏度高于高頻的。由此設(shè)計(jì)一組帶通濾波器,其在低頻部分較稀疏,在高頻部分較稠密,輸入語音信號(hào)經(jīng)過此濾波器組處理后,其強(qiáng)度可作為該信號(hào)的基本特征。這種特征的優(yōu)點(diǎn)是能夠較好地匹配人類聽覺特性,具有良好的魯棒性,對(duì)低信噪比語音信號(hào)具有較好的識(shí)別性。

語音端點(diǎn)檢測(cè)是語音降噪系統(tǒng)中的一個(gè)重要環(huán)節(jié),主要任務(wù)是將帶噪語音分成兩部分:語音部分和噪音部分。這樣方便后續(xù)對(duì)語音部分進(jìn)行降噪,對(duì)噪音部分更新底噪,減少語音處理的數(shù)據(jù)量[6]。

端點(diǎn)檢測(cè)的誤差會(huì)直接導(dǎo)致語音識(shí)別的錯(cuò)誤判別,進(jìn)而對(duì)后續(xù)降噪產(chǎn)生不良影響。在高信噪比情況下,正確地確定語音的端點(diǎn)并不困難。然而,對(duì)于一些低信噪比場景下,常規(guī)的端點(diǎn)檢測(cè)方法,如基于能量的端點(diǎn)檢測(cè)方法等,不能有效地工作。由于基于梅爾倒譜系數(shù)的語音特征對(duì)高噪聲環(huán)境具有更好的魯棒性,本文利用其來檢測(cè)語音端點(diǎn),圖2所示為MFCC特征向量獲取流程圖。

圖2 MFCC特征向量獲取流程圖

1.1.1 語音信號(hào)預(yù)處理

語音信號(hào)預(yù)處理模塊包括三個(gè)部分:預(yù)加重、分幀、加窗。

(1)預(yù)加重。預(yù)加重部分的作用是通過對(duì)高頻語音的補(bǔ)償,從而使語音信號(hào)的頻譜更加平坦化,進(jìn)而能夠一定程度消除發(fā)聲過程中聲帶和嘴唇摩擦效應(yīng)。

輸入信號(hào)s(n)先進(jìn)行高通濾波處理,有

H(z)=1-a*(z-1)

(1)

式中:H(z)為z域?yàn)V波器函數(shù);a為常數(shù),介于0.9和1.0之間;z為z域自變量。

預(yù)加重后的信號(hào)s2(n),其時(shí)域表達(dá)式為

s2(n)=s(n)-a*s(n-1)

(2)

(2)分幀。語音信號(hào)具有短時(shí)平穩(wěn)特性,可進(jìn)行分幀處理,以降低處理難度。通常設(shè)置一幀信號(hào)有N個(gè)采樣點(diǎn)(通常取256),持續(xù)時(shí)間約為26 ms。并在兩幀之間設(shè)置一部分重疊區(qū)域,假設(shè)有M個(gè)采樣點(diǎn),其值一般約為N的1/3。一般語音信號(hào)的采樣頻率為8 kHz,可知,分幀后對(duì)應(yīng)一幀的時(shí)長是32 ms。

(3)加窗。分幀后,需要用窗函數(shù)卷積每一幀信號(hào),以降低頻譜泄漏的影響。假設(shè)分幀后的語音信號(hào)為s3(n),n=0,1,…,N-1,N為幀數(shù),使用漢明窗W(n)

W(n,a)=(1-a)-a*cos[2πN/(N-1)]

(3)

式(3)中n的取值范圍為[0,N-1]。選擇不同的a值可得到不同的漢明窗,一般取a=0.46。

卷積后的信號(hào)為

s′(n)=s(n)*W(n)

(4)

1.1.2 頻域變換及能量求取

(1)FFT。由于語音信號(hào)和噪聲信號(hào)很難從時(shí)域角度區(qū)分其信號(hào)特性,故常將其轉(zhuǎn)換為頻域加以區(qū)分。由此,對(duì)上一步分幀加窗處理后的信號(hào),經(jīng)過快速傅里葉變換得到其頻域表達(dá)式

(5)

式中:s′(n)為語音信號(hào)輸入;N為FFT變換的點(diǎn)數(shù)。

(2)頻譜能量。對(duì)傅里葉變換后的語音信號(hào)求解其頻譜能量。

1.1.3 Mel濾波

將上述譜線能量通過一組三角形濾波器組以平滑頻譜,消除諧波的影響,突顯語音的共振峰,與此同時(shí)還可減少數(shù)據(jù)量。

設(shè)這組含M個(gè)三角形濾波器,中心頻率為f(m),M通常取20~26。隨著m取值增大各f(m)的間隔也隨之變寬,其頻率響應(yīng)定義為

(6)

同時(shí)需要注意這組三角形濾波器組在梅爾頻率上是平均分布的,梅爾頻率和一般頻率的關(guān)系式如下

Mel(f)=2 595log10(1+f/700)

(7)

計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量為

(8)

1.1.4 離散余弦轉(zhuǎn)換

信號(hào)處理中,離散余弦轉(zhuǎn)換(Discrete Cosine Transform, DCT)常用于有損數(shù)據(jù)壓縮。語音信號(hào)經(jīng)過DCT處理后能量大多集中在低頻部分。

將上述對(duì)數(shù)能量SE(m)進(jìn)行DCT處理后,可求出L階的梅爾倒譜參數(shù)。不同的梅爾濾波器是交集相關(guān)的,使用DCT變換可去掉這些相關(guān)性。離散余弦轉(zhuǎn)換公式如下

(9)

式中:L為MFCC系數(shù)階數(shù);M為三角濾波器個(gè)數(shù)。

1.1.5 差量倒頻譜特征

要獲得語音信號(hào)各幀之間的動(dòng)態(tài)信息,就需要加上差量倒頻譜特征,以顯示倒頻譜對(duì)時(shí)間的變化??梢杂卯?dāng)前幀的前后幾幀的信息來計(jì)算一階差量倒頻譜特征

(10)

上式得到的dt是差量特征,計(jì)算第t幀需要t-P到t+P的系數(shù)(P通常取2)。若對(duì)一階差量的結(jié)果再使用上述公式就可得到二階差量倒頻譜特征,這樣總共可得到3×12=36維的特征。取一階和二階差分特征,再加入每幀的對(duì)數(shù)能量作為特征,共可得到MFCC特征向量為3×13=39維。

1.2 倒譜距離雙門限檢測(cè)

梅爾倒譜特征作為語音信號(hào)特征具有很好的魯棒性,在噪聲強(qiáng)度很高的情況下,對(duì)于語音幀和非語音幀的區(qū)分,使用其他信號(hào)特征很難進(jìn)行,因此采用上述計(jì)算出的梅爾倒譜特征進(jìn)行語音幀的端點(diǎn)檢測(cè)。

信號(hào)復(fù)倒譜定義為信號(hào)能量譜密度函數(shù)S(ω)的對(duì)數(shù)的傅里葉級(jí)數(shù),其可表示式為

(11)

式中cn為實(shí)數(shù),通常稱為倒譜系數(shù),且

(12)

對(duì)于一對(duì)譜密度函數(shù)S(ω)與S′(ω),根據(jù)Parseval定理,倒譜距離表示對(duì)數(shù)譜的均方距離

(13)

信號(hào)譜的差異可以以倒譜距離作為衡量標(biāo)準(zhǔn)。先假定開始幾幀是背景噪聲,可計(jì)算出其倒譜距離矢量,利用其平均值可近似估計(jì)出背景噪聲的倒譜距離矢量。之后的當(dāng)前幀若被認(rèn)為是非語音幀,則背景噪聲倒譜距離矢量可按下式進(jìn)行更新

(14)

若被認(rèn)為是語音幀,則正常計(jì)算語音信號(hào)的倒譜距離矢量。

計(jì)算中對(duì)于式(13)表示的倒譜距離可進(jìn)行近似計(jì)算,如式(15)所示

(15)

采用雙門限法進(jìn)行語音幀端點(diǎn)檢測(cè)。先為倒譜距離設(shè)置較低和較高兩個(gè)門限,較低門限用于檢測(cè)信號(hào)的初步變化;較高門限用于最終確認(rèn)信號(hào)的變化。假如信號(hào)超過了低門限,并不能確認(rèn)是語音的開始,有可能是隨機(jī)噪聲超過了低門限。只有當(dāng)信號(hào)超過了高門限,并且在之后一段時(shí)間內(nèi)一直在低門限上方,才能表明語音信號(hào)開始。低于高門限時(shí)可能是擾動(dòng)所引起的,未必是語音結(jié)束,只有低于低門限且持續(xù)一段時(shí)間內(nèi)低于高門限,才能表明語音信號(hào)結(jié)束。語音端點(diǎn)檢測(cè)的準(zhǔn)確性和敏感度受這兩個(gè)門限的影響很大:若設(shè)定過高,則會(huì)導(dǎo)致漏檢率上升;若設(shè)定過低,則會(huì)使誤檢率上升。在實(shí)際應(yīng)用中,需根據(jù)具體數(shù)據(jù)和應(yīng)用場景進(jìn)行的參數(shù)調(diào)整。

1.3 譜減法降噪

經(jīng)典的語音降噪算法為譜減法,具有簡單易實(shí)現(xiàn),計(jì)算量小的優(yōu)點(diǎn),在實(shí)際中應(yīng)用廣泛。依據(jù)人類語音的短時(shí)平穩(wěn)特性,以及常見加性噪聲頻譜,近似替代含噪語音幀中的噪聲頻譜,再利用帶噪語音的頻譜減去這個(gè)底噪頻譜,從而達(dá)到降噪功能。

使用譜減法進(jìn)行語音降噪處理,先根據(jù)之前階段已找到的各語音段端點(diǎn),對(duì)噪音段進(jìn)行消去并更新底噪水平,對(duì)語音段消除噪聲的影響。之后再進(jìn)行平滑處理。人耳對(duì)語音的感知主要來源于語音幅度譜,對(duì)語音相位譜的感知并不敏感,因此在后續(xù)計(jì)算中可使用譜減前的含噪語音的相位譜近似代替譜減后的語音相位譜,進(jìn)而可計(jì)算得到降噪處理后的時(shí)域語音信號(hào)。

1.4 濾波器濾除雜音

使用濾波法進(jìn)一步濾除消噪后語音信號(hào)中的雜音。由于譜減法的缺點(diǎn)是存在對(duì)負(fù)數(shù)域的非線性處理及對(duì)噪聲譜的估計(jì)存在的偏差,處理后往往會(huì)產(chǎn)生“音樂噪聲”。為削弱這種附加的噪聲,方便后續(xù)嵌入式的實(shí)現(xiàn),采用車比雪夫低通濾波器對(duì)低頻語音段進(jìn)行濾波處理,可明顯降低這種噪聲的影響。此外,對(duì)于系統(tǒng)中存在的工頻等其他頻率的干擾,為便于后續(xù)嵌入式實(shí)現(xiàn),采用凱澤窗高通濾波器進(jìn)行濾波,只保留需要頻段的語音分量,可明顯消除這類噪聲的影響。

2 實(shí)驗(yàn)分析

選用從某型短波電臺(tái)接收端實(shí)際接收到的真實(shí)含噪語音作為處理信號(hào)。設(shè)置其采樣率為8 kHz,采用一段典型背景下的接收帶噪語音進(jìn)行語音降噪和濾波處理,原始語音信號(hào)波形如圖3所示。

圖3 原始語音信號(hào)波形

由圖3可以看出,噪音幅度較大,已完全覆蓋了語音的幅度。這種情況下,采用常規(guī)語音識(shí)別方法難以區(qū)分出語音和噪音。

原始語音信號(hào)經(jīng)過前述的基于梅爾倒譜距離的語音端點(diǎn)檢測(cè)處理后,依據(jù)設(shè)置的雙門限劃分出了各自的語音段和噪音段,結(jié)果如圖4所示。

圖4 基于Mel倒譜距離的雙門限端點(diǎn)檢測(cè)

圖4中黑色曲線為倒譜距離軌跡,橫向黑色直線為設(shè)置的較高門限T1,橫向綠色虛線為設(shè)置的較低門限T2,豎向紅色直線為判斷的語音段起始點(diǎn),豎向藍(lán)色虛線為判斷的語音段結(jié)束點(diǎn)。由圖4可明顯看出,使用本文提出的方法處理后語音段和噪音段的劃分非常明顯,這有利于后續(xù)的降噪處理。

采用前述的譜減法降噪算法處理后,得出降噪后的語音信號(hào)如圖5所示。由圖5可見,經(jīng)譜減法降噪處理后,帶噪語音的語音信號(hào)得到了增強(qiáng),同時(shí)噪音信號(hào)得到了抑制。

圖5 譜減降噪后的波形

采用前述的濾波器進(jìn)行濾波處理,前述設(shè)計(jì)的低通濾波器幅頻響應(yīng)如圖6所示。

圖6 低通濾波器幅頻響應(yīng)曲線

采用高通濾波器幅頻特性曲線如圖7所示。

圖7 高通濾波器幅頻響應(yīng)曲線

對(duì)帶噪語音段進(jìn)行濾波處理后的波形如圖8所示。

圖8 進(jìn)行濾波處理后的波形

由圖8可見,對(duì)所選擇的真實(shí)帶噪語音段經(jīng)語音降噪系統(tǒng)處理后可有效進(jìn)行語音段分解,語音信號(hào)得到加強(qiáng),白噪聲和“音樂噪聲”信號(hào)得到抑制,輸出語音清晰,可懂度高,噪聲明顯減少,能夠滿足語音降噪的功能要求。

為進(jìn)行定性實(shí)驗(yàn)分析,采用上述Mel分段-譜減法對(duì)開源帶噪語音數(shù)據(jù)進(jìn)行降噪處理,并將所得結(jié)果與標(biāo)準(zhǔn)譜減算法進(jìn)行比較。

評(píng)價(jià)指標(biāo)選擇語音處理中較常用的語音質(zhì)量感知評(píng)價(jià)(PESQ)指標(biāo),該指標(biāo)是國際電信聯(lián)盟認(rèn)定的客觀語音質(zhì)量評(píng)估指標(biāo),得分位于-0.5到4.5,越高代表語音質(zhì)量越高[7]。

開源含噪語音數(shù)據(jù)選擇的是中文語音庫THCHS-30,其由清華大學(xué)語音與語言技術(shù)中心制作。其干凈語音由單麥克風(fēng)錄制,并且可選擇附加強(qiáng)度可控的三種典型噪聲:餐廳噪聲、汽車噪聲或白噪聲。設(shè)置采樣精度為16 bit、采樣率為16 kHz。

本文選擇該語音庫中具體代表性的語音段并附加白噪聲,控制信噪比分別為-5、0、5、10和15 dB,通過下采樣達(dá)到8 kHz采樣率,分別采用標(biāo)準(zhǔn)譜減法和Mel分段-譜減法兩種方法進(jìn)行降噪處理,結(jié)果如表1所示。

表1 不同信噪比下不同算法的PESQ結(jié)果

由表1可知,帶噪語音的信噪比從-5 dB到15 dB變化時(shí),經(jīng)Mel分段-譜減方法進(jìn)行降噪處理的PESQ得分相較于標(biāo)準(zhǔn)譜減法降噪分別提高了0.36、0.24、0.49、0.28和0.29,相較于未處理語音更是提高了0.45、0.60、0.51、0.58和0.49。由此可看出,本文所提出的基于Mel分段-譜減降噪算法在降噪性能上優(yōu)于標(biāo)準(zhǔn)譜減算法。

3 結(jié)論

針對(duì)短波語音通信場景,基于梅爾倒譜距離的語音端點(diǎn)檢測(cè)與譜減法降噪和有效的濾波器濾波相結(jié)合研究了數(shù)字語音降噪系統(tǒng)設(shè)計(jì)方案,并通過實(shí)驗(yàn)方法對(duì)帶噪語音進(jìn)行降噪處理,并與常用的標(biāo)準(zhǔn)譜減法進(jìn)行對(duì)比。結(jié)果表明,本文提出的Mel分段-譜減法能夠高效的實(shí)現(xiàn)對(duì)強(qiáng)噪聲短波電臺(tái)接收語音的有效降噪功能,輸出語音清晰,可懂度高,同時(shí)又具有算法簡單等優(yōu)點(diǎn)。

猜你喜歡
梅爾端點(diǎn)門限
非特征端點(diǎn)條件下PM函數(shù)的迭代根
基于梅爾頻譜分離和LSCNet的聲學(xué)場景分類方法
基于規(guī)則的HEV邏輯門限控制策略
地方債對(duì)經(jīng)濟(jì)增長的門限效應(yīng)及地區(qū)差異研究
中國西部(2021年4期)2021-11-04 08:57:32
隨機(jī)失效門限下指數(shù)退化軌道模型的分析與應(yīng)用
不等式求解過程中端點(diǎn)的確定
女詩人梅爾詩集《十二背后》三人談
參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
生產(chǎn)性服務(wù)業(yè)集聚與工業(yè)集聚的非線性效應(yīng)——基于門限回歸模型的分析
湖湘論壇(2015年3期)2015-12-01 04:20:17
志丹县| 望都县| 诸暨市| 乌拉特中旗| 徐闻县| 青冈县| 嘉荫县| 漾濞| 蓬安县| 赤水市| 新民市| 慈利县| 长阳| 电白县| 离岛区| 闵行区| 洪江市| 南木林县| 运城市| 册亨县| 平乐县| 盐亭县| 都兰县| 紫云| 隆尧县| 报价| 留坝县| 罗田县| 铜陵市| 海淀区| 镇原县| 永德县| 罗源县| 景泰县| 巴东县| 集安市| 安宁市| 和硕县| 大兴区| 满洲里市| 葫芦岛市|