曹麗靜
(河北經(jīng)貿(mào)大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050061)
隨著通信技術(shù)的發(fā)展,語(yǔ)音的使用方便了人們的交流,但是在交流過(guò)程中噪音是影響語(yǔ)音通訊質(zhì)量的一大因素,過(guò)多噪音的存在會(huì)大大降低語(yǔ)音識(shí)別的準(zhǔn)確率。為了提高語(yǔ)音通訊的質(zhì)量,通過(guò)語(yǔ)音增強(qiáng)技術(shù)從帶噪聲信號(hào)中提取純凈語(yǔ)音變得尤其重要,通過(guò)該技術(shù)可以提高語(yǔ)音的質(zhì)量,使用戶(hù)獲得更高的滿(mǎn)意度。
王路露等人[3]把倒譜特征參數(shù)加入到傳統(tǒng)譜減法中對(duì)譜減法進(jìn)行改進(jìn),實(shí)現(xiàn)了較好的語(yǔ)音增強(qiáng)效果。張青等人[4]把多窗估計(jì)和維納濾波算法相結(jié)合,實(shí)現(xiàn)了抑制噪聲、增強(qiáng)語(yǔ)音的目的。盧炳乾等人[5]結(jié)合小波變換和變步長(zhǎng)LMS自適應(yīng)濾波,讓LMS算法實(shí)現(xiàn)了變換域內(nèi)收斂速度和穩(wěn)態(tài)誤差的統(tǒng)一。張麗艷等人[6]將麥克風(fēng)陣列與奇異值分解相結(jié)合對(duì)語(yǔ)音進(jìn)行增強(qiáng),實(shí)現(xiàn)了較好的語(yǔ)音增強(qiáng)效果。閆姝等人[7]結(jié)合適用于噪聲相干的廣義旁瓣抵消的自適應(yīng)濾波算法和適用于噪聲非相干的維納濾波算法,對(duì)以麥克風(fēng)陣列為基礎(chǔ)的語(yǔ)音增強(qiáng)算法進(jìn)行完善,得到較好的語(yǔ)音去噪效果。
蔣茂松等人[8]在以非負(fù)矩陣為基礎(chǔ)的語(yǔ)音增強(qiáng)算法中加入稀疏正則項(xiàng),并把噪聲項(xiàng)和稀疏約束項(xiàng)加入到目標(biāo)函數(shù)的正則項(xiàng)中,實(shí)現(xiàn)了增強(qiáng)語(yǔ)音的目的。李艷生等人[9]利用心理聲學(xué)掩蔽特性,并且利用不同頻率位采用不同掩蔽值的方式來(lái)建立自適應(yīng)感知掩蔽增益函數(shù),并采用語(yǔ)音存在概率來(lái)感知增益修正,解決了以非負(fù)矩陣為基礎(chǔ)的算法中存在的噪聲殘留問(wèn)題。許春冬等人[10]針對(duì)當(dāng)前基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)算法中忽略語(yǔ)音相位作用的問(wèn)題,提出了一種自動(dòng)編碼生成對(duì)抗網(wǎng)絡(luò)的模型,模型采用自動(dòng)編碼器、判別器和一個(gè)可以區(qū)分純凈語(yǔ)音和帶噪語(yǔ)音的二元分類(lèi)器來(lái)構(gòu)成目標(biāo)函數(shù)的方式,有效解決了生成對(duì)抗網(wǎng)絡(luò)存在的梯度消失和模式坍塌問(wèn)題。李如瑋等人[11]提出一種以從四個(gè)不同分辨率的耳蝸中提取多分辨率聽(tīng)覺(jué)倒譜系數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,以跟蹤噪聲變化構(gòu)建的自適應(yīng)掩蔽閾值作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo),最后,將估計(jì)的自適應(yīng)掩蔽閾值用于對(duì)含噪語(yǔ)音進(jìn)行增強(qiáng)的模型。與對(duì)比算法相比,該算法不僅對(duì)噪聲具有更強(qiáng)的魯棒性,而且抑制了更多的背景噪聲,進(jìn)一步提高了增強(qiáng)語(yǔ)音的質(zhì)量和可懂度。
本文闡述了基于數(shù)字信號(hào)處理方法和機(jī)器學(xué)習(xí)方法中的語(yǔ)音增強(qiáng)算法的原理,并總結(jié)了幾種常用增強(qiáng)算法的優(yōu)缺點(diǎn)和適用領(lǐng)域。
傳統(tǒng)數(shù)字信號(hào)處理的語(yǔ)音增強(qiáng)算法可以分為單通道和麥克風(fēng)陣列兩種,其中單通道語(yǔ)音增強(qiáng)算法包括譜減法、維納濾波法、以統(tǒng)計(jì)模型為基礎(chǔ)的方法、自適應(yīng)濾波的方法、以子空間為基礎(chǔ)的方法、以小波變換為基礎(chǔ)的方法。
圖1 譜減法原理圖
1.1.1 譜減法
設(shè)帶噪語(yǔ)音中的噪聲是加性的,并把噪聲的譜估計(jì)值從原始信號(hào)的譜估計(jì)值中減去是譜減法的基本思路。圖1所示即為傳統(tǒng)譜減法的原理圖。
原理圖中y(m)=s(m)+n(m),其中s(m)是純凈的語(yǔ)音信號(hào),n(m)是假設(shè)的加性噪聲。
分別對(duì)y(m),s(m)和n(m)做傅里葉變換,即得到對(duì)應(yīng)的Y(ω),S(ω)和N(ω),因?yàn)樽V減法假設(shè)噪聲為加性噪聲,因此語(yǔ)音信號(hào)和噪聲信號(hào)相互獨(dú)立,所以變換以后的信號(hào)滿(mǎn)足等式:|Y(ω)2|=|S(ω)|2+|N(ω)|2。
譜減法的原理易于理解,計(jì)算量不大并且其性能也比較穩(wěn)定,因此是語(yǔ)音信號(hào)處理中常用的一種方法。然而在噪聲環(huán)境較為復(fù)雜的情況下,會(huì)出現(xiàn)“音樂(lè)噪聲”。
程塨等人[12]通過(guò)利用臨界帶特征矢量距離進(jìn)行端點(diǎn)檢測(cè),利用低、高兩個(gè)頻區(qū)的語(yǔ)音特性進(jìn)行系數(shù)調(diào)節(jié),實(shí)現(xiàn)了過(guò)濾背景噪聲,增強(qiáng)語(yǔ)音的目的。
嚴(yán)思偉等人[13]在譜減法中加入連續(xù)噪聲譜估計(jì),利用不間斷更新噪聲譜的方式進(jìn)行語(yǔ)音的端點(diǎn)確定和噪聲位置確定,然后進(jìn)行功率譜過(guò)減及半波整流,最后平滑處理時(shí)利用的是維納濾波的方法。該方法可以消除把含有噪聲的背景去除,并有效濾除“音樂(lè)噪聲”,得到的語(yǔ)音具有較好的可懂度和清晰度。
鄭成詩(shī)等人[14]提出了一種基于噪聲譜特性的譜減法(NPSD-SS),該方法利用周期圖估計(jì)來(lái)解決了譜減法存在的復(fù)雜背景噪聲下,噪聲無(wú)法全部去除的問(wèn)題,提高語(yǔ)音增強(qiáng)效果的同時(shí)也沒(méi)有增加過(guò)多的運(yùn)算量。
1.1.2 維納濾波法
維納濾波算法的基本原理如下:
設(shè)y(m)表示帶噪語(yǔ)音信號(hào)且滿(mǎn)足:y(m)=s(m)+n(m),其中s(m)代表不含有噪聲的純凈信號(hào),n(m)是原始信號(hào)中的加性噪聲。
當(dāng)s(m)和n(m)不相關(guān)且隨機(jī)過(guò)程平穩(wěn)的條件下,對(duì)y(m)=s(m)+n(m)進(jìn)行離散傅里葉變換,得到式(1):
Y(m,k)=S(m,k)+N(m,k)
(1)
得到式(1)后,設(shè)維納濾波的頻域響應(yīng)函數(shù)為H(m,k),得到信號(hào)最佳估計(jì)s′(m)的傅里葉變換為S′(m,k),如式(2)所示:
S′(m,k)=H(m,k)·Y(m,k)
(2)
最后按照最小均方誤差的思想使得輸出信號(hào)s′(m)盡可能接近原始信號(hào)。
復(fù)雜噪聲環(huán)境下,傳統(tǒng)語(yǔ)音增強(qiáng)算法存在增強(qiáng)后語(yǔ)音質(zhì)量一般,且“音樂(lè)噪聲”仍然存在的問(wèn)題,董胡等人[15]針對(duì)此問(wèn)題,在自適應(yīng)濾波算法中加入小波包變換對(duì)信號(hào)頻譜進(jìn)行劃分,并通過(guò)自適應(yīng)濾波的方式對(duì)不同尺度的小波包系數(shù)進(jìn)行濾波。實(shí)驗(yàn)證明,與傳統(tǒng)算法相比,該算法不僅可以保存語(yǔ)音的譜特征,還可以提高含噪語(yǔ)音的質(zhì)量。
奚吉等人[16]針對(duì)維納濾波算法存在噪聲譜估計(jì)偏差大的不足,將多通道思想和維納濾波算法相結(jié)合,通過(guò)結(jié)合包絡(luò)估計(jì)達(dá)到抑制殘留噪聲,提高了語(yǔ)音的可懂度。
郭利華等人[17]針對(duì)維納濾波算法忽略信噪比的估計(jì)誤差和不同的語(yǔ)音幅度譜畸變對(duì)語(yǔ)音可懂度有重要影響的不足,利用先驗(yàn)信噪比和增益函數(shù)來(lái)判定信噪比估計(jì)誤差和語(yǔ)音畸變區(qū)域的方式對(duì)維納濾波算法進(jìn)行改進(jìn),從而提高語(yǔ)音可懂度。
1.1.3 基于統(tǒng)計(jì)模型的方法
利用統(tǒng)計(jì)模型進(jìn)行語(yǔ)音增強(qiáng)的算法計(jì)算量小,應(yīng)用廣泛。王海艷[18]提出了一種用超高斯混合模型建立模型并用EM算法對(duì)超高斯混合模型中的參數(shù)進(jìn)行估計(jì)的算法,實(shí)現(xiàn)了改善能量較小處語(yǔ)音性能的目的。
1.1.4 自適應(yīng)濾波的方法
自適應(yīng)濾波器采用的濾波思想是首先確定一個(gè)約束條件,在約束條件下實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的最優(yōu)估計(jì)。最陡下降法、最小均方誤差算法(LMS)、遞推最小二乘法(RLS)等是常用的算法。由于LMS算法在運(yùn)算、實(shí)現(xiàn)和穩(wěn)健性方面表現(xiàn)良好,是自適應(yīng)濾波技術(shù)的首選算法[19]。LMS算法的基本迭代過(guò)程如下[20]:
y(k)=XT(k)×W(k)
e(k)=v(k)-y(k)
W(k+1)=W(k)+2×μ×e(k)×X(k)
其中,X(k)=[x(k),x(k-1),…,x(k-M+1)]T為M階濾波器在k時(shí)刻的參考輸入,y(k)為濾波器的估計(jì)輸出,W(k)=[w(k),w(k-1),…w(k-M+1)]T對(duì)應(yīng)濾波器權(quán)系數(shù)矢量,μ為步長(zhǎng)因子。
汪成曦等人[21]用自相關(guān)誤差與前一步長(zhǎng)因子來(lái)更新迭代下一步長(zhǎng)因子的方式對(duì)基于變步長(zhǎng)的LMS算法進(jìn)行完善,為使用固定步長(zhǎng)最小均方算法的雷達(dá)雜波自適應(yīng)濾波器系統(tǒng)存在的收斂速度與收斂精度不匹配的問(wèn)題提供了解決方案,且達(dá)到較快的收斂速度和較小的失調(diào)的效果。
1.1.5 基于子空間的方法
以子空間為基礎(chǔ)的語(yǔ)音增強(qiáng)算法的原理是把含有噪聲的原始信號(hào)分解為兩個(gè)正交的語(yǔ)音信號(hào)和噪聲信號(hào),同時(shí)將噪聲信號(hào)置零使其從語(yǔ)音信號(hào)中濾除,從而得到純凈的語(yǔ)音信號(hào)。該算法可以減少信號(hào)失真程度和殘留噪聲,從信號(hào)失真和降噪程序兩個(gè)方面來(lái)調(diào)節(jié)增強(qiáng)語(yǔ)音的質(zhì)量[22]。
目前多數(shù)語(yǔ)音增強(qiáng)算法存在只使用最小均方誤差來(lái)限制語(yǔ)音的畸變,卻忽略了不同區(qū)域語(yǔ)音畸變對(duì)可懂度的影響的問(wèn)題,針對(duì)這一問(wèn)題,劉鵬等人[23]通過(guò)語(yǔ)音畸變區(qū)域是用先驗(yàn)信噪比和增益矩陣來(lái)確定的,幅度譜限制是通過(guò)改變?cè)鲆婢仃囅拗频姆绞綄?duì)子空間語(yǔ)音增強(qiáng)算法進(jìn)行完善,實(shí)現(xiàn)了提高語(yǔ)音可懂度的目的。
1.1.6 基于小波分析的方法
以小波分析為基礎(chǔ)的語(yǔ)音去噪是通過(guò)對(duì)語(yǔ)音進(jìn)行小波變換處理,并通過(guò)小波重構(gòu)的思想達(dá)到去噪目的,原理圖如圖2所示。
王彪等人[24]利用小波分析方法解決了閾值函數(shù)中存在的問(wèn)題,通過(guò)構(gòu)造任意階可導(dǎo)的新閾值函數(shù)的方式提高了語(yǔ)音質(zhì)量。
劉艷等人[25]針對(duì)小波去噪算法分離出的信號(hào)存在不是原始信號(hào)的最佳估計(jì)的問(wèn)題,提出了一種利用子帶熵端點(diǎn)檢測(cè)的去噪算法,通過(guò)預(yù)處理、計(jì)算噪聲標(biāo)準(zhǔn)方差、子帶譜熵端點(diǎn)檢測(cè)的流程提取純凈語(yǔ)音,達(dá)到去噪的目的。
按照一定的拓?fù)浣Y(jié)構(gòu)將麥克風(fēng)組成一個(gè)陣列,利用空間域的信息,對(duì)來(lái)自不同空間方位的信息進(jìn)行濾波處理是以麥克風(fēng)陣列為基礎(chǔ)的語(yǔ)音增強(qiáng)算法的基本原理。
王義圓等人[26]提出將干擾抑制與麥克風(fēng)陣列結(jié)合的算法,該算法創(chuàng)新之處是在波束形成之后增加了系數(shù)加權(quán),系數(shù)加權(quán)可以有效濾除干擾信號(hào),從而進(jìn)一步消除干擾信號(hào),然后利用空頻聯(lián)合處理進(jìn)行語(yǔ)音增強(qiáng)。通過(guò)仿真實(shí)驗(yàn)證明,系數(shù)加權(quán)后對(duì)于干擾的抑制具有更好的效果。
吳海彬等人[27]通過(guò)對(duì)噪聲主導(dǎo)的固有模態(tài)函數(shù)分量增加小波閾值去噪的處理,從而將改進(jìn)經(jīng)驗(yàn)?zāi)B(tài)分解與以自適應(yīng)波束為基礎(chǔ)的語(yǔ)音增強(qiáng)算法聯(lián)系起來(lái),實(shí)現(xiàn)了減少噪聲污染的目的。
以機(jī)器學(xué)習(xí)為基礎(chǔ)的語(yǔ)音增強(qiáng)算法分為以隱馬爾可夫模型為基礎(chǔ)的語(yǔ)音增強(qiáng)算法、以非負(fù)矩陣分解為基礎(chǔ)的語(yǔ)音增強(qiáng)算法和以深度學(xué)習(xí)為基礎(chǔ)的語(yǔ)音增強(qiáng)算法。
以隱馬爾可夫模型為基礎(chǔ)的語(yǔ)音增強(qiáng)算法分兩個(gè)階段實(shí)現(xiàn):訓(xùn)練和識(shí)別,訓(xùn)練階段完成對(duì)輸入信號(hào)進(jìn)行特征提取并通過(guò)矢量化的方式對(duì)其進(jìn)行符號(hào)化的操作,從而訓(xùn)練得到隱馬爾可夫模型;在識(shí)別階段,利用訓(xùn)練好的模型進(jìn)行識(shí)別,并通過(guò)比較概率大小的方式確定識(shí)別結(jié)果。
以非負(fù)矩陣分解為基礎(chǔ)的語(yǔ)音增強(qiáng)算法是將原始語(yǔ)音信號(hào)輸入矩陣分解為兩個(gè)非負(fù)矩陣,然后以純凈信號(hào)和噪聲信號(hào)的信號(hào)譜為激活系數(shù)來(lái)建模并與基向量進(jìn)行線性組合實(shí)現(xiàn)增強(qiáng)語(yǔ)音的目的。
隋璐瑛等人[31]采用非負(fù)矩陣分解算法把噪聲字典矩陣和噪聲頻譜從原始語(yǔ)音中提取出來(lái),以該字典矩陣為先驗(yàn)信息,通過(guò)聯(lián)合噪聲字典矩陣和推導(dǎo)得到相應(yīng)的迭代公式對(duì)語(yǔ)音字典矩陣和語(yǔ)音編碼矩陣進(jìn)行估計(jì)來(lái)重構(gòu)增強(qiáng)語(yǔ)音,達(dá)到語(yǔ)音增強(qiáng)的目的。
時(shí)文華等人[32]針對(duì)以非負(fù)矩陣分解為基礎(chǔ)的語(yǔ)音增強(qiáng)方法在低信噪比部分和無(wú)結(jié)構(gòu)特征的清音部分會(huì)引入失真這一問(wèn)題,通過(guò)結(jié)合語(yǔ)音信號(hào)在時(shí)頻域呈現(xiàn)的稀疏特性和深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音增強(qiáng)應(yīng)用中表現(xiàn)出的具有重構(gòu)特性的譜,找到了一種聯(lián)合稀疏非負(fù)矩陣分解和深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,結(jié)合維納濾波算法和深度學(xué)習(xí)的方法實(shí)現(xiàn)了語(yǔ)音增強(qiáng)的目的。
王波等人[33]利用引入平滑矩陣調(diào)節(jié)字典矩陣和系數(shù)矩陣稀疏性的方式來(lái)構(gòu)造以非平滑矩陣為基礎(chǔ)的非負(fù)矩陣分解算法,通過(guò)利用該方法對(duì)聯(lián)合字典矩陣下的投影系數(shù)進(jìn)行更新,達(dá)到抑制噪聲的目的。
Y.Wang等人[37-38]利用DNN對(duì)理想二值掩碼和理想比率掩碼兩種不同的目標(biāo)進(jìn)行估計(jì),通過(guò)實(shí)驗(yàn)證明基于DNN的掩碼估計(jì)方法可以明顯提高語(yǔ)音增強(qiáng)性能。
Y.Xu等人[39-40]通過(guò)DNN來(lái)對(duì)純凈語(yǔ)音對(duì)數(shù)譜和含噪語(yǔ)音對(duì)數(shù)功率譜之間存在的非線性關(guān)系進(jìn)行建模,提高了低信噪比下語(yǔ)音增強(qiáng)性能。
袁文浩等人[41]利用卷積門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)解決了單獨(dú)使用卷積神經(jīng)網(wǎng)絡(luò)難以對(duì)含噪語(yǔ)音中的長(zhǎng)期依賴(lài)關(guān)系進(jìn)行建模的問(wèn)題。通過(guò)將CNN分別與LSTM,GRU兩種門(mén)控循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)了語(yǔ)音增強(qiáng)的目的。
徐思穎等人[42]針對(duì)訓(xùn)練與測(cè)試數(shù)據(jù)之間的失配問(wèn)題,通過(guò)將正則化的思想應(yīng)用于深度神經(jīng)網(wǎng)絡(luò)中來(lái)對(duì)語(yǔ)音進(jìn)行增強(qiáng),實(shí)現(xiàn)了提高語(yǔ)音增強(qiáng)系統(tǒng)在不匹配噪聲環(huán)境下魯棒性的目的。
王雁等人將語(yǔ)音的MFCC和LPMS兩種特征同時(shí)作為網(wǎng)絡(luò)的輸入,通過(guò)特征結(jié)合的方法提高的深度信念網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)效果。
常用語(yǔ)音增強(qiáng)算法的優(yōu)缺點(diǎn)如表1所示。
表1 常用語(yǔ)音增強(qiáng)算法的優(yōu)缺點(diǎn)
科技的進(jìn)步與發(fā)展,給人們的生活帶來(lái)了方便,但是也提出了更高的要求。在手機(jī)通話(huà)、語(yǔ)音聊天等應(yīng)用中,如果通話(huà)者處于嘈雜的馬路或者熱鬧的火車(chē)上,對(duì)方就不能很好的接收信號(hào),從而影響通話(huà)質(zhì)量,此時(shí)通過(guò)語(yǔ)音增強(qiáng)技術(shù)就可以有效地提高通話(huà)質(zhì)量和效率。在國(guó)防安全領(lǐng)域,其聲學(xué)環(huán)境與普通場(chǎng)景相比,噪聲更為復(fù)雜,因此如何從巨大的發(fā)動(dòng)機(jī)轟隆聲中識(shí)別指揮員的口令等變得尤其重要,引入語(yǔ)音增強(qiáng)技術(shù),可以盡可能增強(qiáng)目標(biāo)語(yǔ)音,從而確保戰(zhàn)士接收到準(zhǔn)確的指揮口令,從而作出準(zhǔn)確的反應(yīng)。
本文闡述了基于數(shù)字信號(hào)處理和基于機(jī)器學(xué)習(xí)的幾種語(yǔ)音增強(qiáng)技術(shù),同時(shí)分析了幾種常用語(yǔ)音增強(qiáng)技術(shù)的優(yōu)缺點(diǎn)。在實(shí)際應(yīng)用中,通過(guò)完善算法或者結(jié)合幾種算法的方式可以達(dá)到比較好的語(yǔ)音增強(qiáng)效果,但是由于噪聲的存在,算法仍然存在不足?;贒NN、RNN等語(yǔ)音降噪算法雖然取得了不錯(cuò)的降噪效果,但是我們應(yīng)該關(guān)注傳統(tǒng)方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理等操作,并結(jié)合深度學(xué)習(xí)的思想 ,實(shí)現(xiàn)進(jìn)一步完善語(yǔ)音增強(qiáng)技術(shù)的目的。