国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RNN 濾波的廚房環(huán)境語音降噪技術(shù)研究

2023-11-01 06:52:02孫穎楷鐘益明
日用電器 2023年9期
關(guān)鍵詞:噪音濾波語音

孫穎楷 鐘益明

(廣東萬和新電氣股份有限公司 佛山 528000)

引言

隨著智能家居以及大模型的快速發(fā)展,語音識別在家庭環(huán)境中的應(yīng)用越來越廣泛,然而,這些應(yīng)用常常受到家庭環(huán)境中各種背景噪音的干擾,包括人聲、電視聲音、家電噪音等。這些噪音對語音識別的精度造成了一定影響。

針對上述問題,一系列的降噪方法被提出,包括經(jīng)典的噪音抑制方法和人工智能算法。傳統(tǒng)的語音增強(qiáng)方法主要包括頻譜消減,Wiener 濾波器,以及小波變換等濾波技術(shù),Boll 等提出的頻譜消減方法通過估計噪聲頻譜來抑制噪聲,這是一種典型的頻域方法[1]。Zhenli 等提出采用分?jǐn)?shù)Fourier 變換對噪聲語音進(jìn)行濾波[2]。Seok等提出在小波域內(nèi)消減噪聲分量的語音增強(qiáng)方法[3]。這些方法在相對靜態(tài)和簡單的噪聲環(huán)境下能夠達(dá)到一定的增強(qiáng)效果,但是在復(fù)雜和非靜態(tài)的環(huán)境中,其效果會大打折扣,主要是這類方法通常依賴于事先獲得的噪聲信息和統(tǒng)計特征,而實際環(huán)境中的噪聲往往復(fù)雜多變,難以準(zhǔn)確建模和估計。另外,基于濾波的方法也面臨的是噪聲和語音譜重疊嚴(yán)重的情況,濾波操作難以完全區(qū)分噪聲和語音,導(dǎo)致語音質(zhì)量損傷。

近年來,神經(jīng)網(wǎng)絡(luò)在語音增強(qiáng)領(lǐng)域展示出強(qiáng)大的建模能力,許多研究工作采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)行語音增強(qiáng)。Pandey 等提出了基于CNN 框架來進(jìn)行時域語音增強(qiáng)[4,5]。另一類方法關(guān)注訓(xùn)練數(shù)據(jù)的獲取,鑒于清晰語音數(shù)據(jù)往往難以獲取,Mimura 等人提出了基于多目標(biāo)學(xué)習(xí)的降噪自動編碼器和DNN 語音模型的聯(lián)合優(yōu)化方法[6]。Fujimura 等人提出了不依賴清晰語音的“噪聲目標(biāo)”訓(xùn)練策略,使用增強(qiáng)前和增強(qiáng)后的語音作為模型輸入和輸出來實現(xiàn)基于DNN 的語音增強(qiáng)訓(xùn)練[7]。其中,RNN 由于其出色的時間序列處理能力和較低的計算需求,逐漸引起了研究者的關(guān)注,一些初步的研究顯示,其在噪音抑制任務(wù)上具有一定的潛力,如Strake 等人提出將LSTM 用于噪聲抑制,然后使用CNN 進(jìn)行語音復(fù)原的方法[8]。

雖然CNN、RNN、DNN 等人工智能算法表現(xiàn)出強(qiáng)大的建模能力,能夠更好地處理復(fù)雜的噪聲環(huán)境,但也存在一些挑戰(zhàn),例如模型的復(fù)雜性、計算資源的需求,以及對大量標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。RNN 模型在家庭廚房環(huán)境噪音抑制上的應(yīng)用和優(yōu)化,尤其是對不同種類和強(qiáng)度噪音的處理,還缺乏深入的研究。本文旨在通過對RNN模型優(yōu)化方面的研究,探索RNN 等算法在實際廚房環(huán)境中噪音處理的應(yīng)用,在兼顧計算資源及語音識別度的同時,提高其噪音抑制性能。

1 RNN 網(wǎng)絡(luò)模型建立

傳統(tǒng)的處理算法中,譜減法基于頻譜域的操作,通過計算清晰語音和噪聲的頻譜差,得到去噪后的語音。這種方法對于穩(wěn)態(tài)噪聲處理效果顯著,但在處理非靜態(tài)噪聲,尤其是背景噪聲復(fù)雜、變化劇烈的廚房等環(huán)境,效果有限。Wiener 濾波器基于最小均方誤差原理,提供了一種優(yōu)化的線性濾波方法。然而,這種方法假設(shè)噪聲為高斯白噪聲,并且需要知道噪聲和信號的功率譜密度,這在實際應(yīng)用中往往很難獲取,使得它在處理復(fù)雜噪聲環(huán)境中的效果受限。

相較于上述傳統(tǒng)技術(shù),近年來,由于深度學(xué)習(xí)算法的巨大成功,現(xiàn)在趨向于用深度神經(jīng)網(wǎng)絡(luò)來解決整個問題,這種被稱為端到端的模型,已應(yīng)用于算力豐富的語音識別和語音合成解決方案。其中比較典型的是RNN 網(wǎng)絡(luò),由于其對語音等序列數(shù)據(jù)的處理能力,顯示出了更好的適應(yīng)性和效果,是其能夠處理變化性強(qiáng)的噪聲環(huán)境,已經(jīng)被成功應(yīng)用于語音增強(qiáng)和噪聲抑制中[11]。這主要歸功于RNN 的網(wǎng)絡(luò)結(jié)構(gòu),能夠捕捉長期的時間序列信息,從而使模型具有很好的動態(tài)適應(yīng)性,這在廚房環(huán)境下尤其重要,因為這種環(huán)境的噪聲往往具有高度的動態(tài)性和非靜態(tài)特性,比如洗衣機(jī)、煙機(jī)、洗碗機(jī)、烤箱等的運轉(zhuǎn)聲音、馬路的嘈雜聲等等。

RNN 網(wǎng)絡(luò),主要分為LSTM 網(wǎng)絡(luò)和門控循環(huán)單元(GRU)網(wǎng)絡(luò),都是RNN 的變種,均可用來處理序列數(shù)據(jù),如語音和文本等。它們之間的主要差別在于網(wǎng)絡(luò)結(jié)構(gòu)和更新狀態(tài)的方式。而GRU 模型,其主要優(yōu)點和改進(jìn)之處有以下幾點:其一,更簡單的模型結(jié)構(gòu),GRU 只有兩個門(更新門和重置門),而LSTM 有三個門(輸入門、遺忘門和輸出門),這使得GRU 的結(jié)構(gòu)相對簡單,參數(shù)數(shù)量也較少,從而減少了模型的復(fù)雜性;其二,更快的訓(xùn)練速度,由于其結(jié)構(gòu)相對簡單且參數(shù)較少,GRU通常能夠比LSTM 更快地進(jìn)行訓(xùn)練,在處理大規(guī)模數(shù)據(jù)時,這種優(yōu)勢尤其明顯;其三,減少梯度消失問題,雖然LSTM 和GRU 都設(shè)計來解決RNN 的梯度消失問題,但由于GRU 直接讓隱藏狀態(tài)與新的記憶拼接,在一定程度上進(jìn)一步減少梯度消失的問題?;谝陨蠋c,本文選擇GRU 來構(gòu)建RNN 網(wǎng)絡(luò),RNN 網(wǎng)絡(luò)單元以及GRU網(wǎng)絡(luò)單元結(jié)構(gòu)如圖1 所示[9]。

圖1 RNN 及GRU 網(wǎng)絡(luò)單元結(jié)構(gòu)圖

本文的出發(fā)點是結(jié)合神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)處理方式的優(yōu)點,訓(xùn)練RNN 神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)音頻信號的時間相關(guān)性和局部模式,以減少噪音的影響并恢復(fù)原始音頻的清晰度,基于此可以對實時語音用訓(xùn)練后的網(wǎng)絡(luò)模型進(jìn)行前端降噪處理,而具體的語音識別則由語音識別模塊去執(zhí)行,因此方案的側(cè)重點是在降噪的同時如何保持語音的可識別度。

在具體實施方案上,考慮到RNN 模型的復(fù)雜度,RNN 神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)降噪處理,將采集的語音信號經(jīng)MFCC 計算后輸入RNN 網(wǎng)絡(luò),由RNN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練,識別語音和噪音的特征,建立網(wǎng)絡(luò)模型結(jié)構(gòu)參數(shù)。訓(xùn)練結(jié)束后,實時含噪語音信號輸入RNN 模型,經(jīng)處理后輸出降噪后的語音信號。

處理步驟中,梅爾頻率倒譜系數(shù)MFCC(Mel Frequency Cepstral Coefficients)是一種廣泛應(yīng)用于語音識別和音頻處理領(lǐng)域的特征提取技術(shù)[10]。MFCC 模擬了人耳在接收聲音時的特性,能夠有效地提取語音信號中的關(guān)鍵信息,其關(guān)鍵處理步驟包括預(yù)處理、分幀、加窗、FFT、Mel 濾波器組以及倒譜分析?;赗NN 模型的語音降噪處理示意框圖如圖2 所示。

圖2 RNN 網(wǎng)絡(luò)噪音信號處理框圖

2 RNN 網(wǎng)絡(luò)模型降噪流程

根據(jù)圖2 所示RNN 網(wǎng)絡(luò)噪音信號處理框圖,建立具體處理流程,如下所示。

1)數(shù)據(jù)準(zhǔn)備。收集一組包含噪音的音頻文件作為訓(xùn)練數(shù)據(jù)集,文件包含訓(xùn)練數(shù)據(jù)需要的家庭廚房環(huán)境下語音控制信號和環(huán)境噪音的各種情況。在此階段,為了增加數(shù)據(jù)多樣性和模型的魯棒性,可以應(yīng)用一些數(shù)據(jù)增強(qiáng)技術(shù),如隨機(jī)添加噪音、改變音頻音量等,進(jìn)一步豐富樣本集;

2)預(yù)處理。處理步驟包括去除靜音區(qū)域,應(yīng)用窗函數(shù)將語音文件分割成較小的幀,減少后續(xù)階段的計算量,更方便對信號進(jìn)行分析和處理;

3) 提取特征。使用梅爾頻率倒譜系數(shù)(MFCC)來有效提取語音信號的頻域信息;

4) 訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。使用門控循環(huán)單元(GRU)構(gòu)建多層神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,目標(biāo)是學(xué)習(xí)從輸入特征MFCC 到輸出增益的映射,用于區(qū)分語音和噪音,從而進(jìn)行有效的濾波后處理;

5) 評估和優(yōu)化。訓(xùn)練結(jié)束時需要評估濾波效果,并根據(jù)評估結(jié)果進(jìn)行優(yōu)化。評估方法包括主觀聽感評價和客觀質(zhì)量指標(biāo)(如信噪比、PESQ、STOI 等)。在此基礎(chǔ)上進(jìn)行包括調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化訓(xùn)練參數(shù)、增強(qiáng)訓(xùn)練數(shù)據(jù)等的優(yōu)化處理;

6) 濾波處理。使用訓(xùn)練好的模型對新的含噪音音頻文件進(jìn)行預(yù)測,輸入噪音音頻數(shù)據(jù)到模型中,模型將輸出降噪后的音頻數(shù)據(jù)。

3 預(yù)測結(jié)果及分析

為驗證RNN 語音降噪模型的性能,在語音訓(xùn)練集上,考慮到樣本的豐富性,采用微軟語音庫MS-SNSD 以及廚房實測語音組成訓(xùn)練樣本,采樣頻率16 kHz,采樣深度為16 位,訓(xùn)練樣本經(jīng)MFCC 處理后,以13 個MFCC分量,以及前10 個MFCC 特征的第一倒數(shù)和第二導(dǎo)數(shù),共同組成33個語音識別特征量輸入GRU網(wǎng)絡(luò)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

圖3 RNN 降噪網(wǎng)絡(luò)結(jié)構(gòu)圖

為進(jìn)一步比對RNN 處理效果,對測試樣本分別采用譜減法、維納濾波以及RNN 模型進(jìn)行濾波,結(jié)果如圖4所示。

圖4 濾波方法處理波形圖

在完成濾波后,對濾波結(jié)果以PESQ、SNR、SegSNR、STOI 指標(biāo)分別進(jìn)行計算,結(jié)果如表1 所示。

表1 不同濾波算法性能評價結(jié)果

在評價指標(biāo)中,SNR(Signal-to-Noise Ratio),是一個廣泛用于信號處理領(lǐng)域的評價指標(biāo),用于衡量信號的強(qiáng)度與噪聲的強(qiáng)度之間的比值,SNR 值越高,表示信號質(zhì)量越好。根據(jù)結(jié)果,譜減法濾波器的SNR 最高,說明其在整體信號強(qiáng)度和噪聲強(qiáng)度的比例上做得最好。

而SeqSNR(Segmental Signal-to-Noise Ratio),這也是一個衡量信號與噪聲比例的指標(biāo),但它是在較短的時間段內(nèi)計算SNR,然后取平均值,這能更好地反映人耳對噪聲的感知。根據(jù)結(jié)果,譜減法濾波器的SeqSNR 也是最高的,說明在短時間內(nèi),譜減法濾波器做得最好。

PESQ(Perceptual Evaluation of Speech Quality)是一個基于人耳聽覺特性的音頻質(zhì)量評價指標(biāo),越高的PESQ得分代表越好的音質(zhì)。根據(jù)結(jié)果,RNN 方法的PESQ 分?jǐn)?shù)最高,意味著在人耳的感知上,RNN 降噪方法給出了最好的音質(zhì)。

STOI(Short Time Objective Intelligibility)是一個評價語音清晰度的指標(biāo),衡量的是語音內(nèi)容能否被理解,值越高,代表語音的可理解性越好。根據(jù)結(jié)果,RNN 方法的STOI 得分最高,意味著RNN 方法對于語音的可理解性做出了最好的貢獻(xiàn)。

綜合以上指標(biāo)值,可以看到這三種方法中,沒有哪一種算法在所有指標(biāo)上都表現(xiàn)最好。RNN 方法在人耳感知上(PESQ 和STOI)表現(xiàn)最好,但在信噪比(SNR 和SeqSNR)上卻較差。而譜減法濾波器在信噪比上表現(xiàn)最好,但在人耳感知上表現(xiàn)較差。這正說明在降噪方法方面,RNN 濾波算法更關(guān)心的是語音的可理解性,以方便后續(xù)的語音識別模塊進(jìn)行處理,達(dá)到了本文中方案的設(shè)計要求。

4 結(jié)語

本文結(jié)合傳統(tǒng)降噪方法和機(jī)器學(xué)習(xí)算法所構(gòu)建的RNN 濾波模型,綜合了深度學(xué)習(xí)和傳統(tǒng)信號處理的優(yōu)點,從處理結(jié)果來看,有較高的可行性和效果。但在實際應(yīng)用中,由于家庭廚房環(huán)境的復(fù)雜性,還有進(jìn)一步調(diào)整和優(yōu)化的空間,例如選擇合適的網(wǎng)絡(luò)結(jié)構(gòu)、調(diào)整訓(xùn)練參數(shù)、處理實時性等,這都是接下來需要進(jìn)一步研究和探索的方向。另外,自注意力機(jī)制(Self-Attention)在處理序列數(shù)據(jù)上,尤其是在處理語音信號等長序列數(shù)據(jù)上,有很大的優(yōu)勢,未來可以嘗試在RNN 濾波模型中引入自注意力機(jī)制,更好地捕捉序列的特征來改善模型的性能。

猜你喜歡
噪音濾波語音
噪音,總是有噪音!
無法逃避的噪音
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
噪音的小把戲
白噪音的三種用法
Coco薇(2017年9期)2017-09-07 22:09:28
RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
基于線性正則變換的 LMS 自適應(yīng)濾波
遙測遙控(2015年2期)2015-04-23 08:15:18
东乡族自治县| 杨浦区| 嘉荫县| 申扎县| 西平县| 通城县| 通道| 任丘市| 彝良县| 盐津县| 曲水县| 遵义市| 雷山县| 黔江区| 沧州市| 新津县| 宁化县| 本溪| 康定县| 巴林右旗| 怀宁县| 巍山| 漳平市| 高淳县| 丁青县| 汉沽区| 巢湖市| 象州县| 同江市| 滕州市| 工布江达县| 凤台县| 宣汉县| 青海省| 望谟县| 峨眉山市| 兴化市| 勃利县| 治多县| 响水县| 陇川县|