孫穎楷 鐘益明
(廣東萬和新電氣股份有限公司 佛山 528000)
隨著智能家居以及大模型的快速發(fā)展,語音識別在家庭環(huán)境中的應(yīng)用越來越廣泛,然而,這些應(yīng)用常常受到家庭環(huán)境中各種背景噪音的干擾,包括人聲、電視聲音、家電噪音等。這些噪音對語音識別的精度造成了一定影響。
針對上述問題,一系列的降噪方法被提出,包括經(jīng)典的噪音抑制方法和人工智能算法。傳統(tǒng)的語音增強(qiáng)方法主要包括頻譜消減,Wiener 濾波器,以及小波變換等濾波技術(shù),Boll 等提出的頻譜消減方法通過估計噪聲頻譜來抑制噪聲,這是一種典型的頻域方法[1]。Zhenli 等提出采用分?jǐn)?shù)Fourier 變換對噪聲語音進(jìn)行濾波[2]。Seok等提出在小波域內(nèi)消減噪聲分量的語音增強(qiáng)方法[3]。這些方法在相對靜態(tài)和簡單的噪聲環(huán)境下能夠達(dá)到一定的增強(qiáng)效果,但是在復(fù)雜和非靜態(tài)的環(huán)境中,其效果會大打折扣,主要是這類方法通常依賴于事先獲得的噪聲信息和統(tǒng)計特征,而實際環(huán)境中的噪聲往往復(fù)雜多變,難以準(zhǔn)確建模和估計。另外,基于濾波的方法也面臨的是噪聲和語音譜重疊嚴(yán)重的情況,濾波操作難以完全區(qū)分噪聲和語音,導(dǎo)致語音質(zhì)量損傷。
近年來,神經(jīng)網(wǎng)絡(luò)在語音增強(qiáng)領(lǐng)域展示出強(qiáng)大的建模能力,許多研究工作采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行語音增強(qiáng)。Pandey 等提出了基于CNN 框架來進(jìn)行時域語音增強(qiáng)[4,5]。另一類方法關(guān)注訓(xùn)練數(shù)據(jù)的獲取,鑒于清晰語音數(shù)據(jù)往往難以獲取,Mimura 等人提出了基于多目標(biāo)學(xué)習(xí)的降噪自動編碼器和DNN 語音模型的聯(lián)合優(yōu)化方法[6]。Fujimura 等人提出了不依賴清晰語音的“噪聲目標(biāo)”訓(xùn)練策略,使用增強(qiáng)前和增強(qiáng)后的語音作為模型輸入和輸出來實現(xiàn)基于DNN 的語音增強(qiáng)訓(xùn)練[7]。其中,RNN 由于其出色的時間序列處理能力和較低的計算需求,逐漸引起了研究者的關(guān)注,一些初步的研究顯示,其在噪音抑制任務(wù)上具有一定的潛力,如Strake 等人提出將LSTM 用于噪聲抑制,然后使用CNN 進(jìn)行語音復(fù)原的方法[8]。
雖然CNN、RNN、DNN 等人工智能算法表現(xiàn)出強(qiáng)大的建模能力,能夠更好地處理復(fù)雜的噪聲環(huán)境,但也存在一些挑戰(zhàn),例如模型的復(fù)雜性、計算資源的需求,以及對大量標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。RNN 模型在家庭廚房環(huán)境噪音抑制上的應(yīng)用和優(yōu)化,尤其是對不同種類和強(qiáng)度噪音的處理,還缺乏深入的研究。本文旨在通過對RNN模型優(yōu)化方面的研究,探索RNN 等算法在實際廚房環(huán)境中噪音處理的應(yīng)用,在兼顧計算資源及語音識別度的同時,提高其噪音抑制性能。
傳統(tǒng)的處理算法中,譜減法基于頻譜域的操作,通過計算清晰語音和噪聲的頻譜差,得到去噪后的語音。這種方法對于穩(wěn)態(tài)噪聲處理效果顯著,但在處理非靜態(tài)噪聲,尤其是背景噪聲復(fù)雜、變化劇烈的廚房等環(huán)境,效果有限。Wiener 濾波器基于最小均方誤差原理,提供了一種優(yōu)化的線性濾波方法。然而,這種方法假設(shè)噪聲為高斯白噪聲,并且需要知道噪聲和信號的功率譜密度,這在實際應(yīng)用中往往很難獲取,使得它在處理復(fù)雜噪聲環(huán)境中的效果受限。
相較于上述傳統(tǒng)技術(shù),近年來,由于深度學(xué)習(xí)算法的巨大成功,現(xiàn)在趨向于用深度神經(jīng)網(wǎng)絡(luò)來解決整個問題,這種被稱為端到端的模型,已應(yīng)用于算力豐富的語音識別和語音合成解決方案。其中比較典型的是RNN 網(wǎng)絡(luò),由于其對語音等序列數(shù)據(jù)的處理能力,顯示出了更好的適應(yīng)性和效果,是其能夠處理變化性強(qiáng)的噪聲環(huán)境,已經(jīng)被成功應(yīng)用于語音增強(qiáng)和噪聲抑制中[11]。這主要歸功于RNN 的網(wǎng)絡(luò)結(jié)構(gòu),能夠捕捉長期的時間序列信息,從而使模型具有很好的動態(tài)適應(yīng)性,這在廚房環(huán)境下尤其重要,因為這種環(huán)境的噪聲往往具有高度的動態(tài)性和非靜態(tài)特性,比如洗衣機(jī)、煙機(jī)、洗碗機(jī)、烤箱等的運轉(zhuǎn)聲音、馬路的嘈雜聲等等。
RNN 網(wǎng)絡(luò),主要分為LSTM 網(wǎng)絡(luò)和門控循環(huán)單元(GRU)網(wǎng)絡(luò),都是RNN 的變種,均可用來處理序列數(shù)據(jù),如語音和文本等。它們之間的主要差別在于網(wǎng)絡(luò)結(jié)構(gòu)和更新狀態(tài)的方式。而GRU 模型,其主要優(yōu)點和改進(jìn)之處有以下幾點:其一,更簡單的模型結(jié)構(gòu),GRU 只有兩個門(更新門和重置門),而LSTM 有三個門(輸入門、遺忘門和輸出門),這使得GRU 的結(jié)構(gòu)相對簡單,參數(shù)數(shù)量也較少,從而減少了模型的復(fù)雜性;其二,更快的訓(xùn)練速度,由于其結(jié)構(gòu)相對簡單且參數(shù)較少,GRU通常能夠比LSTM 更快地進(jìn)行訓(xùn)練,在處理大規(guī)模數(shù)據(jù)時,這種優(yōu)勢尤其明顯;其三,減少梯度消失問題,雖然LSTM 和GRU 都設(shè)計來解決RNN 的梯度消失問題,但由于GRU 直接讓隱藏狀態(tài)與新的記憶拼接,在一定程度上進(jìn)一步減少梯度消失的問題?;谝陨蠋c,本文選擇GRU 來構(gòu)建RNN 網(wǎng)絡(luò),RNN 網(wǎng)絡(luò)單元以及GRU網(wǎng)絡(luò)單元結(jié)構(gòu)如圖1 所示[9]。
圖1 RNN 及GRU 網(wǎng)絡(luò)單元結(jié)構(gòu)圖
本文的出發(fā)點是結(jié)合神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)處理方式的優(yōu)點,訓(xùn)練RNN 神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)音頻信號的時間相關(guān)性和局部模式,以減少噪音的影響并恢復(fù)原始音頻的清晰度,基于此可以對實時語音用訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行前端降噪處理,而具體的語音識別則由語音識別模塊去執(zhí)行,因此方案的側(cè)重點是在降噪的同時如何保持語音的可識別度。
在具體實施方案上,考慮到RNN 模型的復(fù)雜度,RNN 神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)降噪處理,將采集的語音信號經(jīng)MFCC 計算后輸入RNN 網(wǎng)絡(luò),由RNN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,識別語音和噪音的特征,建立網(wǎng)絡(luò)模型結(jié)構(gòu)參數(shù)。訓(xùn)練結(jié)束后,實時含噪語音信號輸入RNN 模型,經(jīng)處理后輸出降噪后的語音信號。
處理步驟中,梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficients)是一種廣泛應(yīng)用于語音識別和音頻處理領(lǐng)域的特征提取技術(shù)[10]。MFCC 模擬了人耳在接收聲音時的特性,能夠有效地提取語音信號中的關(guān)鍵信息,其關(guān)鍵處理步驟包括預(yù)處理、分幀、加窗、FFT、Mel 濾波器組以及倒譜分析?;赗NN 模型的語音降噪處理示意框圖如圖2 所示。
圖2 RNN 網(wǎng)絡(luò)噪音信號處理框圖
根據(jù)圖2 所示RNN 網(wǎng)絡(luò)噪音信號處理框圖,建立具體處理流程,如下所示。
1)數(shù)據(jù)準(zhǔn)備。收集一組包含噪音的音頻文件作為訓(xùn)練數(shù)據(jù)集,文件包含訓(xùn)練數(shù)據(jù)需要的家庭廚房環(huán)境下語音控制信號和環(huán)境噪音的各種情況。在此階段,為了增加數(shù)據(jù)多樣性和模型的魯棒性,可以應(yīng)用一些數(shù)據(jù)增強(qiáng)技術(shù),如隨機(jī)添加噪音、改變音頻音量等,進(jìn)一步豐富樣本集;
2)預(yù)處理。處理步驟包括去除靜音區(qū)域,應(yīng)用窗函數(shù)將語音文件分割成較小的幀,減少后續(xù)階段的計算量,更方便對信號進(jìn)行分析和處理;
3) 提取特征。使用梅爾頻率倒譜系數(shù)(MFCC)來有效提取語音信號的頻域信息;
4) 訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。使用門控循環(huán)單元(GRU)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,目標(biāo)是學(xué)習(xí)從輸入特征MFCC 到輸出增益的映射,用于區(qū)分語音和噪音,從而進(jìn)行有效的濾波后處理;
5) 評估和優(yōu)化。訓(xùn)練結(jié)束時需要評估濾波效果,并根據(jù)評估結(jié)果進(jìn)行優(yōu)化。評估方法包括主觀聽感評價和客觀質(zhì)量指標(biāo)(如信噪比、PESQ、STOI 等)。在此基礎(chǔ)上進(jìn)行包括調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化訓(xùn)練參數(shù)、增強(qiáng)訓(xùn)練數(shù)據(jù)等的優(yōu)化處理;
6) 濾波處理。使用訓(xùn)練好的模型對新的含噪音音頻文件進(jìn)行預(yù)測,輸入噪音音頻數(shù)據(jù)到模型中,模型將輸出降噪后的音頻數(shù)據(jù)。
為驗證RNN 語音降噪模型的性能,在語音訓(xùn)練集上,考慮到樣本的豐富性,采用微軟語音庫MS-SNSD 以及廚房實測語音組成訓(xùn)練樣本,采樣頻率16 kHz,采樣深度為16 位,訓(xùn)練樣本經(jīng)MFCC 處理后,以13 個MFCC分量,以及前10 個MFCC 特征的第一倒數(shù)和第二導(dǎo)數(shù),共同組成33個語音識別特征量輸入GRU網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 RNN 降噪網(wǎng)絡(luò)結(jié)構(gòu)圖
為進(jìn)一步比對RNN 處理效果,對測試樣本分別采用譜減法、維納濾波以及RNN 模型進(jìn)行濾波,結(jié)果如圖4所示。
圖4 濾波方法處理波形圖
在完成濾波后,對濾波結(jié)果以PESQ、SNR、SegSNR、STOI 指標(biāo)分別進(jìn)行計算,結(jié)果如表1 所示。
表1 不同濾波算法性能評價結(jié)果
在評價指標(biāo)中,SNR(Signal-to-Noise Ratio),是一個廣泛用于信號處理領(lǐng)域的評價指標(biāo),用于衡量信號的強(qiáng)度與噪聲的強(qiáng)度之間的比值,SNR 值越高,表示信號質(zhì)量越好。根據(jù)結(jié)果,譜減法濾波器的SNR 最高,說明其在整體信號強(qiáng)度和噪聲強(qiáng)度的比例上做得最好。
而SeqSNR(Segmental Signal-to-Noise Ratio),這也是一個衡量信號與噪聲比例的指標(biāo),但它是在較短的時間段內(nèi)計算SNR,然后取平均值,這能更好地反映人耳對噪聲的感知。根據(jù)結(jié)果,譜減法濾波器的SeqSNR 也是最高的,說明在短時間內(nèi),譜減法濾波器做得最好。
PESQ(Perceptual Evaluation of Speech Quality)是一個基于人耳聽覺特性的音頻質(zhì)量評價指標(biāo),越高的PESQ得分代表越好的音質(zhì)。根據(jù)結(jié)果,RNN 方法的PESQ 分?jǐn)?shù)最高,意味著在人耳的感知上,RNN 降噪方法給出了最好的音質(zhì)。
STOI(Short Time Objective Intelligibility)是一個評價語音清晰度的指標(biāo),衡量的是語音內(nèi)容能否被理解,值越高,代表語音的可理解性越好。根據(jù)結(jié)果,RNN 方法的STOI 得分最高,意味著RNN 方法對于語音的可理解性做出了最好的貢獻(xiàn)。
綜合以上指標(biāo)值,可以看到這三種方法中,沒有哪一種算法在所有指標(biāo)上都表現(xiàn)最好。RNN 方法在人耳感知上(PESQ 和STOI)表現(xiàn)最好,但在信噪比(SNR 和SeqSNR)上卻較差。而譜減法濾波器在信噪比上表現(xiàn)最好,但在人耳感知上表現(xiàn)較差。這正說明在降噪方法方面,RNN 濾波算法更關(guān)心的是語音的可理解性,以方便后續(xù)的語音識別模塊進(jìn)行處理,達(dá)到了本文中方案的設(shè)計要求。
本文結(jié)合傳統(tǒng)降噪方法和機(jī)器學(xué)習(xí)算法所構(gòu)建的RNN 濾波模型,綜合了深度學(xué)習(xí)和傳統(tǒng)信號處理的優(yōu)點,從處理結(jié)果來看,有較高的可行性和效果。但在實際應(yīng)用中,由于家庭廚房環(huán)境的復(fù)雜性,還有進(jìn)一步調(diào)整和優(yōu)化的空間,例如選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整訓(xùn)練參數(shù)、處理實時性等,這都是接下來需要進(jìn)一步研究和探索的方向。另外,自注意力機(jī)制(Self-Attention)在處理序列數(shù)據(jù)上,尤其是在處理語音信號等長序列數(shù)據(jù)上,有很大的優(yōu)勢,未來可以嘗試在RNN 濾波模型中引入自注意力機(jī)制,更好地捕捉序列的特征來改善模型的性能。