基于RNN 濾波的廚房環(huán)境語音降噪技術(shù)研究

2023-11-01 06:52:02孫穎楷鐘益明

日用電器 2023年9期

孫穎楷鐘益明

（廣東萬和新電氣股份有限公司佛山 528000）

引言

隨著智能家居以及大模型的快速發(fā)展，語音識別在家庭環(huán)境中的應(yīng)用越來越廣泛，然而，這些應(yīng)用常常受到家庭環(huán)境中各種背景噪音的干擾，包括人聲、電視聲音、家電噪音等。這些噪音對語音識別的精度造成了一定影響。

針對上述問題，一系列的降噪方法被提出，包括經(jīng)典的噪音抑制方法和人工智能算法。傳統(tǒng)的語音增強(qiáng)方法主要包括頻譜消減，Wiener 濾波器，以及小波變換等濾波技術(shù)，Boll 等提出的頻譜消減方法通過估計噪聲頻譜來抑制噪聲，這是一種典型的頻域方法[1]。Zhenli 等提出采用分?jǐn)?shù)Fourier 變換對噪聲語音進(jìn)行濾波[2]。Seok等提出在小波域內(nèi)消減噪聲分量的語音增強(qiáng)方法[3]。這些方法在相對靜態(tài)和簡單的噪聲環(huán)境下能夠達(dá)到一定的增強(qiáng)效果，但是在復(fù)雜和非靜態(tài)的環(huán)境中，其效果會大打折扣，主要是這類方法通常依賴于事先獲得的噪聲信息和統(tǒng)計特征，而實際環(huán)境中的噪聲往往復(fù)雜多變，難以準(zhǔn)確建模和估計。另外，基于濾波的方法也面臨的是噪聲和語音譜重疊嚴(yán)重的情況，濾波操作難以完全區(qū)分噪聲和語音，導(dǎo)致語音質(zhì)量損傷。

近年來,神經(jīng)網(wǎng)絡(luò)在語音增強(qiáng)領(lǐng)域展示出強(qiáng)大的建模能力，許多研究工作采用卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）進(jìn)行語音增強(qiáng)。Pandey 等提出了基于CNN 框架來進(jìn)行時域語音增強(qiáng)[4,5]。另一類方法關(guān)注訓(xùn)練數(shù)據(jù)的獲取，鑒于清晰語音數(shù)據(jù)往往難以獲取，Mimura 等人提出了基于多目標(biāo)學(xué)習(xí)的降噪自動編碼器和DNN 語音模型的聯(lián)合優(yōu)化方法[6]。Fujimura 等人提出了不依賴清晰語音的“噪聲目標(biāo)”訓(xùn)練策略，使用增強(qiáng)前和增強(qiáng)后的語音作為模型輸入和輸出來實現(xiàn)基于DNN 的語音增強(qiáng)訓(xùn)練[7]。其中，RNN 由于其出色的時間序列處理能力和較低的計算需求，逐漸引起了研究者的關(guān)注，一些初步的研究顯示，其在噪音抑制任務(wù)上具有一定的潛力，如Strake 等人提出將LSTM 用于噪聲抑制，然后使用CNN 進(jìn)行語音復(fù)原的方法[8]。

雖然CNN、RNN、DNN 等人工智能算法表現(xiàn)出強(qiáng)大的建模能力，能夠更好地處理復(fù)雜的噪聲環(huán)境，但也存在一些挑戰(zhàn)，例如模型的復(fù)雜性、計算資源的需求，以及對大量標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。RNN 模型在家庭廚房環(huán)境噪音抑制上的應(yīng)用和優(yōu)化，尤其是對不同種類和強(qiáng)度噪音的處理，還缺乏深入的研究。本文旨在通過對RNN模型優(yōu)化方面的研究，探索RNN 等算法在實際廚房環(huán)境中噪音處理的應(yīng)用，在兼顧計算資源及語音識別度的同時，提高其噪音抑制性能。

1 RNN 網(wǎng)絡(luò)模型建立

傳統(tǒng)的處理算法中，譜減法基于頻譜域的操作，通過計算清晰語音和噪聲的頻譜差，得到去噪后的語音。這種方法對于穩(wěn)態(tài)噪聲處理效果顯著，但在處理非靜態(tài)噪聲，尤其是背景噪聲復(fù)雜、變化劇烈的廚房等環(huán)境，效果有限。Wiener 濾波器基于最小均方誤差原理，提供了一種優(yōu)化的線性濾波方法。然而，這種方法假設(shè)噪聲為高斯白噪聲，并且需要知道噪聲和信號的功率譜密度，這在實際應(yīng)用中往往很難獲取，使得它在處理復(fù)雜噪聲環(huán)境中的效果受限。

相較于上述傳統(tǒng)技術(shù)，近年來，由于深度學(xué)習(xí)算法的巨大成功，現(xiàn)在趨向于用深度神經(jīng)網(wǎng)絡(luò)來解決整個問題，這種被稱為端到端的模型，已應(yīng)用于算力豐富的語音識別和語音合成解決方案。其中比較典型的是RNN 網(wǎng)絡(luò)，由于其對語音等序列數(shù)據(jù)的處理能力，顯示出了更好的適應(yīng)性和效果，是其能夠處理變化性強(qiáng)的噪聲環(huán)境，已經(jīng)被成功應(yīng)用于語音增強(qiáng)和噪聲抑制中[11]。這主要歸功于RNN 的網(wǎng)絡(luò)結(jié)構(gòu)，能夠捕捉長期的時間序列信息，從而使模型具有很好的動態(tài)適應(yīng)性，這在廚房環(huán)境下尤其重要，因為這種環(huán)境的噪聲往往具有高度的動態(tài)性和非靜態(tài)特性，比如洗衣機(jī)、煙機(jī)、洗碗機(jī)、烤箱等的運轉(zhuǎn)聲音、馬路的嘈雜聲等等。

RNN 網(wǎng)絡(luò)，主要分為LSTM 網(wǎng)絡(luò)和門控循環(huán)單元（GRU）網(wǎng)絡(luò)，都是RNN 的變種，均可用來處理序列數(shù)據(jù)，如語音和文本等。它們之間的主要差別在于網(wǎng)絡(luò)結(jié)構(gòu)和更新狀態(tài)的方式。而GRU 模型，其主要優(yōu)點和改進(jìn)之處有以下幾點：其一，更簡單的模型結(jié)構(gòu)，GRU 只有兩個門（更新門和重置門），而LSTM 有三個門（輸入門、遺忘門和輸出門），這使得GRU 的結(jié)構(gòu)相對簡單，參數(shù)數(shù)量也較少，從而減少了模型的復(fù)雜性；其二，更快的訓(xùn)練速度，由于其結(jié)構(gòu)相對簡單且參數(shù)較少，GRU通常能夠比LSTM 更快地進(jìn)行訓(xùn)練，在處理大規(guī)模數(shù)據(jù)時，這種優(yōu)勢尤其明顯；其三，減少梯度消失問題，雖然LSTM 和GRU 都設(shè)計來解決RNN 的梯度消失問題，但由于GRU 直接讓隱藏狀態(tài)與新的記憶拼接，在一定程度上進(jìn)一步減少梯度消失的問題?；谝陨蠋c，本文選擇GRU 來構(gòu)建RNN 網(wǎng)絡(luò)，RNN 網(wǎng)絡(luò)單元以及GRU網(wǎng)絡(luò)單元結(jié)構(gòu)如圖1 所示[9]。

圖1 RNN 及GRU 網(wǎng)絡(luò)單元結(jié)構(gòu)圖

本文的出發(fā)點是結(jié)合神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)處理方式的優(yōu)點，訓(xùn)練RNN 神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)音頻信號的時間相關(guān)性和局部模式，以減少噪音的影響并恢復(fù)原始音頻的清晰度，基于此可以對實時語音用訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行前端降噪處理，而具體的語音識別則由語音識別模塊去執(zhí)行，因此方案的側(cè)重點是在降噪的同時如何保持語音的可識別度。

在具體實施方案上，考慮到RNN 模型的復(fù)雜度，RNN 神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)降噪處理，將采集的語音信號經(jīng)MFCC 計算后輸入RNN 網(wǎng)絡(luò)，由RNN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練，識別語音和噪音的特征，建立網(wǎng)絡(luò)模型結(jié)構(gòu)參數(shù)。訓(xùn)練結(jié)束后，實時含噪語音信號輸入RNN 模型，經(jīng)處理后輸出降噪后的語音信號。

處理步驟中，梅爾頻率倒譜系數(shù)MFCC（Mel Frequency Cepstral Coefficients）是一種廣泛應(yīng)用于語音識別和音頻處理領(lǐng)域的特征提取技術(shù)[10]。MFCC 模擬了人耳在接收聲音時的特性，能夠有效地提取語音信號中的關(guān)鍵信息，其關(guān)鍵處理步驟包括預(yù)處理、分幀、加窗、FFT、Mel 濾波器組以及倒譜分析?；赗NN 模型的語音降噪處理示意框圖如圖2 所示。

圖2 RNN 網(wǎng)絡(luò)噪音信號處理框圖

2 RNN 網(wǎng)絡(luò)模型降噪流程

根據(jù)圖2 所示RNN 網(wǎng)絡(luò)噪音信號處理框圖，建立具體處理流程，如下所示。

1）數(shù)據(jù)準(zhǔn)備。收集一組包含噪音的音頻文件作為訓(xùn)練數(shù)據(jù)集，文件包含訓(xùn)練數(shù)據(jù)需要的家庭廚房環(huán)境下語音控制信號和環(huán)境噪音的各種情況。在此階段，為了增加數(shù)據(jù)多樣性和模型的魯棒性，可以應(yīng)用一些數(shù)據(jù)增強(qiáng)技術(shù)，如隨機(jī)添加噪音、改變音頻音量等，進(jìn)一步豐富樣本集；

2）預(yù)處理。處理步驟包括去除靜音區(qū)域，應(yīng)用窗函數(shù)將語音文件分割成較小的幀，減少后續(xù)階段的計算量，更方便對信號進(jìn)行分析和處理；

3）提取特征。使用梅爾頻率倒譜系數(shù)（MFCC）來有效提取語音信號的頻域信息；

4）訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。使用門控循環(huán)單元（GRU）構(gòu)建多層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，目標(biāo)是學(xué)習(xí)從輸入特征MFCC 到輸出增益的映射，用于區(qū)分語音和噪音，從而進(jìn)行有效的濾波后處理；

5）評估和優(yōu)化。訓(xùn)練結(jié)束時需要評估濾波效果，并根據(jù)評估結(jié)果進(jìn)行優(yōu)化。評估方法包括主觀聽感評價和客觀質(zhì)量指標(biāo)（如信噪比、PESQ、STOI 等）。在此基礎(chǔ)上進(jìn)行包括調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化訓(xùn)練參數(shù)、增強(qiáng)訓(xùn)練數(shù)據(jù)等的優(yōu)化處理；

6）濾波處理。使用訓(xùn)練好的模型對新的含噪音音頻文件進(jìn)行預(yù)測，輸入噪音音頻數(shù)據(jù)到模型中，模型將輸出降噪后的音頻數(shù)據(jù)。

3 預(yù)測結(jié)果及分析

為驗證RNN 語音降噪模型的性能，在語音訓(xùn)練集上，考慮到樣本的豐富性，采用微軟語音庫MS-SNSD 以及廚房實測語音組成訓(xùn)練樣本，采樣頻率16 kHz，采樣深度為16 位，訓(xùn)練樣本經(jīng)MFCC 處理后，以13 個MFCC分量，以及前10 個MFCC 特征的第一倒數(shù)和第二導(dǎo)數(shù)，共同組成33個語音識別特征量輸入GRU網(wǎng)絡(luò)進(jìn)行訓(xùn)練，網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 RNN 降噪網(wǎng)絡(luò)結(jié)構(gòu)圖

為進(jìn)一步比對RNN 處理效果，對測試樣本分別采用譜減法、維納濾波以及RNN 模型進(jìn)行濾波，結(jié)果如圖4所示。

圖4 濾波方法處理波形圖

在完成濾波后，對濾波結(jié)果以PESQ、SNR、SegSNR、STOI 指標(biāo)分別進(jìn)行計算，結(jié)果如表1 所示。

表1 不同濾波算法性能評價結(jié)果

在評價指標(biāo)中，SNR（Signal-to-Noise Ratio），是一個廣泛用于信號處理領(lǐng)域的評價指標(biāo)，用于衡量信號的強(qiáng)度與噪聲的強(qiáng)度之間的比值，SNR 值越高，表示信號質(zhì)量越好。根據(jù)結(jié)果，譜減法濾波器的SNR 最高，說明其在整體信號強(qiáng)度和噪聲強(qiáng)度的比例上做得最好。

而SeqSNR（Segmental Signal-to-Noise Ratio），這也是一個衡量信號與噪聲比例的指標(biāo)，但它是在較短的時間段內(nèi)計算SNR，然后取平均值，這能更好地反映人耳對噪聲的感知。根據(jù)結(jié)果，譜減法濾波器的SeqSNR 也是最高的，說明在短時間內(nèi)，譜減法濾波器做得最好。

PESQ（Perceptual Evaluation of Speech Quality）是一個基于人耳聽覺特性的音頻質(zhì)量評價指標(biāo)，越高的PESQ得分代表越好的音質(zhì)。根據(jù)結(jié)果，RNN 方法的PESQ 分?jǐn)?shù)最高，意味著在人耳的感知上，RNN 降噪方法給出了最好的音質(zhì)。

STOI（Short Time Objective Intelligibility）是一個評價語音清晰度的指標(biāo)，衡量的是語音內(nèi)容能否被理解，值越高，代表語音的可理解性越好。根據(jù)結(jié)果，RNN 方法的STOI 得分最高，意味著RNN 方法對于語音的可理解性做出了最好的貢獻(xiàn)。

綜合以上指標(biāo)值，可以看到這三種方法中，沒有哪一種算法在所有指標(biāo)上都表現(xiàn)最好。RNN 方法在人耳感知上（PESQ 和STOI）表現(xiàn)最好，但在信噪比（SNR 和SeqSNR）上卻較差。而譜減法濾波器在信噪比上表現(xiàn)最好，但在人耳感知上表現(xiàn)較差。這正說明在降噪方法方面，RNN 濾波算法更關(guān)心的是語音的可理解性，以方便后續(xù)的語音識別模塊進(jìn)行處理，達(dá)到了本文中方案的設(shè)計要求。

4 結(jié)語

本文結(jié)合傳統(tǒng)降噪方法和機(jī)器學(xué)習(xí)算法所構(gòu)建的RNN 濾波模型，綜合了深度學(xué)習(xí)和傳統(tǒng)信號處理的優(yōu)點，從處理結(jié)果來看，有較高的可行性和效果。但在實際應(yīng)用中，由于家庭廚房環(huán)境的復(fù)雜性，還有進(jìn)一步調(diào)整和優(yōu)化的空間，例如選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整訓(xùn)練參數(shù)、處理實時性等，這都是接下來需要進(jìn)一步研究和探索的方向。另外，自注意力機(jī)制（Self-Attention）在處理序列數(shù)據(jù)上，尤其是在處理語音信號等長序列數(shù)據(jù)上，有很大的優(yōu)勢，未來可以嘗試在RNN 濾波模型中引入自注意力機(jī)制，更好地捕捉序列的特征來改善模型的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于RNN 濾波的廚房環(huán)境語音降噪技術(shù)研究

引言

1 RNN 網(wǎng)絡(luò)模型建立

2 RNN 網(wǎng)絡(luò)模型降噪流程

3 預(yù)測結(jié)果及分析

4 結(jié)語