鄭展恒 曾慶寧
摘? 要: 為了研究和提高語音增強的效果,針對語音信號的非平穩(wěn)性,根據(jù)卡爾曼濾波能處理非平穩(wěn)信號,其是以最小均方誤差為估計的最優(yōu)準則,提出一種改進的卡爾曼濾波語音增強算法。該方法首先在改進譜減法和人耳掩蔽效應增強的基礎上,利用語音信號的生成模型,通過線性預測系數(shù)組成狀態(tài)轉移矩陣,采用基于聽覺掩蔽效應改進的譜減法估計語音和噪聲的AR參數(shù),該分析改進后的參數(shù)更加準確并提供給卡爾曼增強算法,最終實現(xiàn)卡爾曼濾波的語音增強。仿真實驗表明,在不同信噪比下該算法均有效地實現(xiàn)了語音增強,去噪效果較好,提高了語音質量。
關鍵詞: 語音增強; AR參數(shù)估計; 聽覺掩蔽; 基本譜減法; 狀態(tài)轉移矩陣; 仿真結果分析
中圖分類號: TN912.35?34? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)21?0027?04
Research and improvement of speech enhancement algorithms
ZHENG Zhanheng1, 2, ZENG Qingning2
(1. MOE Key Laboratory of Cognitive Radio and Information Processing, Guilin 541004, China;
2. School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: In view of the non?stationary of speech signals, an improved speech enhancement algorithm based on Kalman filtering, which can process non?stationary signals according to the optimal criterion of minimum mean square error estimation, is proposed to study and improve the effects of speech enhancement. In this method, a speech signal generation model is used to build the state transition matrix by linear prediction coefficients on the basis of improving spectral subtraction and enhancing human ear masking effect, and then the AR parameters of speech and noise are estimated by the improved spectral subtraction based on the auditory masking effect. It is found in the analysis that the improved parameters are more accurate and can be provided for the Kalman enhancement algorithm to achieve the speech enhancement based on the Kalman filtering. The simulation results show that the proposed algorithm has a good denoising effect, and can effectively enhance the speech and improve the speech quality at different SNR.
Keywords: speech enhancement; AR parameter estimation; auditory masking; basic spectral subtraction; state?transition matrix; simulation result analysis
0? 引? 言
近年來,現(xiàn)代科技的不斷發(fā)展以及AI的不斷突破和進步,語音處理的相關技術與應用更加廣泛地深入到人們的日常生活與科技生產中,語音信號處理以及語音增強算法在這些方面的應用越來越廣泛,人們更加重視語音增強算法的研究和實際應用。
對語音信號進行增強就是要改善語音信號質量,盡可能減少噪聲影響,提高語音可懂度,及對語音信號后續(xù)做進一步處理。當前具有代表性的語音增強方法有:譜減法[1?3]、維納濾波[4]、麥克風陣列[5?6]、人耳掩蔽效應[1]、卡爾曼濾波法等增強算法[5?11]。卡爾曼濾波起初由匈牙利人Rudolf Emil Kalman提出用于控制方面,因其具有處理非平穩(wěn)信號的能力,符合語音的特性,后來許多學者陸續(xù)對其開展算法研究。
實際的處理中,若對模型參數(shù)在含噪語音中估計,會帶來較大誤差,本文先對基本譜減法進行研究,采用基于人耳掩蔽效應的譜減法先對其做預處理,以獲得接近純凈的語音,為卡爾曼濾波提供所需的AR參數(shù)。采用人耳掩蔽效應與譜減法相結合能有效對語音去噪且不失真,將其作為預處理方法最終能夠取得較好的增強效果。
1? 語音增強算法分析與實現(xiàn)
1.1? 基本譜減法及改進算法
S.Boll假設噪聲信號是平穩(wěn)的或變化緩慢的加性噪聲,且在語音信號和噪聲信號不相關的前提下提出譜減法,假定噪聲是平穩(wěn)的,人耳對相位信息不敏感,將含噪語音的相位作為處理后語音的相位,根據(jù)處理后的幅度和相位進行IFFT變換,得到增強后的時域信號。
設含噪語音為[y(n)],純凈語音為[s(n)],平穩(wěn)加性高斯白噪聲為[d(n)],有:
[y(n)=s(n)+d(n),? ?0≤n≤N-1] (1)
由傅里葉變換和純凈語音與含噪語音不相關,有:
[EY(k)2=ES(k)2+ED(k)2] (2)
選取適當幀長語音信號為短時平穩(wěn)過程后:
[Y(k)2=S(k)2+λn(k)] (3)
式中[λn(k)]為[D(k)2]的統(tǒng)計平均,這樣就得到基本譜減法求出原始語音信號的估計值[S(k)]。
實際上,噪聲的幀功率譜在譜減聽覺上形成殘留噪聲;語音信號頻譜中殘存的寬帶噪聲從聽覺方面發(fā)揮著掩蔽純音噪聲的功能。基于這些因素的考慮,對基本譜減法進行改進,有:
[S(k)2=maxY(k)2-α*λn(k),β*λn(k),? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?α>1,β?1] (4)
1.2? 基于人耳掩蔽效應的語音增強
人耳聽覺只能感受到一定聲壓和頻率范圍的聲音,并不能感受所有頻率和所有聲強的聲音,研究人耳特性對語音增強有著十分重要的作用,這個特性就是聽覺掩蔽效應,是心理聲學現(xiàn)象,它由人耳對聲音的頻率分辨機制決定的。據(jù)聲學手冊的定義:掩蔽是一個聲音的聽閾因另一個聲音的存在而上升的現(xiàn)象,掩蔽大小就是聽閾上升的分貝數(shù)。
現(xiàn)在針對實際情況,研究建立在噪聲環(huán)境下的語音壓縮聽覺模型,即采用一個建立在Bark關鍵頻率段基礎上常用的音頻信號聽覺掩蔽模型——Johnston模型,按照臨界帶寬劃分信號頻域。在Bark頻域中各個臨界帶間的間隔,要考慮到掩蔽音的純音特性即掩蔽音信號是偏純音的還是偏噪聲的,進一步得到掩蔽閾值偏移量,并最終求出擴展前掩蔽閾值,將計算出的掩蔽閾值與人耳聽力絕對閾值比較得到最終的掩蔽閾值。
實際中在所有頻段和語音幀內采取固定的譜減系數(shù)語音增強的效果并不理想,現(xiàn)在在人耳掩蔽效應模型的基礎上進行譜減,對不同頻段和不同的語音幀動態(tài)調整譜減系數(shù)。基于譜減的聽覺掩蔽增強算法原理圖如圖1所示。
這種方法是利用人耳掩蔽效應直接對傳統(tǒng)的增強方法進行改進:
1) 對輸入的含噪語音進行分幀和加窗、FFT,對其做譜分析;
2) 端點檢測后通過基本譜減增強法對含噪信號初步估計;
3) 對建立的聽覺掩蔽模型求出具體的掩蔽閾值;
4) 進一步得到信號每一幀的動態(tài)譜減參數(shù);
5) 通過對動態(tài)譜減參數(shù)自適應的調節(jié),實現(xiàn)對含噪信號參數(shù)的調節(jié);
6) 引入相位信息后,對頻域增強處理后的信號作IFFT變換等,求出增強后的時域語音信號。
1.3? 基于卡爾曼濾波的語音增強
現(xiàn)實中的噪聲大都是非平穩(wěn)的,因而研究非平穩(wěn)噪聲狀態(tài)下的語音增強具有重要意義。
卡爾曼濾波在語音去噪已有許多研究應用,其結合語音生成模型,用信號的線性預測系數(shù)作為狀態(tài)轉移矩陣,增強后語音中殘留的音樂噪聲減少,語音自然度提高,其模型參數(shù)估計的準確與否直接影響增強語音的質量??柭鼮V波算法在語音信號去噪方面的應用研究較多,主要歸功于其處理數(shù)據(jù)和計算算法實現(xiàn)等較為方便。
卡爾曼濾波器的主要過程有兩個,分別是預估和校正。預估就是根據(jù)時間更新方程建立對當前狀態(tài)的先驗估計,方便構造下一狀態(tài)的先驗估計值;校正即是反饋過程,根據(jù)更新方程預估的先驗估計值和當前測量值對現(xiàn)狀態(tài)分析,改進后驗估計值。
對含噪語音信號的計算式為:
[y(k)=s(k)+n(k)] (5)
式中:[s(k)]為純凈語音;[n(k)]為與[s(k)]不相關的背景噪聲。純凈語音[s(k)]在短時間段內認為是平穩(wěn)的,其[p]階AR預測方程為:
[s(k)=i=1pai(k)s(k-i)+u(k)] (6)
進一步得到系統(tǒng)的狀態(tài)空間方程為:
[S(k)=FS(k-1)+Gu(k)y(k)=HS(k)+n(k)] (7)
式中:[S(k)]是[k]時刻的系統(tǒng)狀態(tài),即語音實際值;[F]是LPC系數(shù)構成的狀態(tài)轉移矩陣;[y(k)]是[k]時刻的測量值;[n(k)]和[u(k)]分別為測量噪聲和過程噪聲,均值始終為零,且其方差分別為[δ2n]和[δ2u]的不相關白噪聲;[H]和[G]分別為觀測向量和輸入向量。
[H=GT=0,0,…,0,11×p] (8)
[S(k)=s(k-p+1),s(k-p+2),…,s(k)T]? (9)
[F=010…0001…0?????000…1apap-1ap-2…a1p×p] (10)
分幀后的語音信號在假設初始條件值后,通過卡爾曼濾波遞推求出相應的結果:
[S(00)=0,P(00)=0S(kk-1)=FS(k-1k-1)P(kk-1)=FP(k-1k-1)FT+δ2uGGTK(k)=P(kk-1)HTHP(kk-1)HT+δ2n-1S(kk)=S(kk-1)+K(k)y(k)-HS(kk-1)P(kk)=I-K(k)HP(kk-1)]
迭代計算后最終得出增強后的語音信號在[k]時刻的最佳估值:
[S(k)=HS(kk)] (11)
2? 實驗仿真結果與分析
根據(jù)前文分析研究的增強算法,分別進行實驗仿真,算法測試所用語音信號是在實驗室安靜環(huán)境下錄制的,將錄制的語音信號作為原始純凈語音,其采樣率為8 kHz,幀長為1 024,幀移是512,選取的窗函數(shù)為海明窗,求解掩蔽閾值的臨界頻帶數(shù)為24,采用高斯白噪聲作為背景噪聲。
首先是基本譜減法的語音增強,其仿真測試結果如圖2所示(0 dB時)。
通過圖2的仿真結果發(fā)現(xiàn),基本譜減法增強效果不是很明顯,增強后的語音仍保留了大量噪聲。試聽發(fā)現(xiàn)有流水噪聲伴隨語音,有時或掩蓋原來的語音,聽覺效果較差。
下面對改進譜減法和基于人耳掩蔽效應的譜減法進行仿真,測試結果如圖3所示。
從圖3所示的實驗結果得出:被0 dB白噪聲污染的信號,基于掩蔽效應算法的增強結果圖相比傳統(tǒng)譜減法增強結果圖更接近原始的語音信號波形圖。試聽表明:新算法語音增強后的噪聲減少較為明顯,音樂噪聲相比基本譜減法不怎么突出,語音信號質量改善很大,基于人耳掩蔽的語音增強算法在去除音樂噪聲方面效果更好,但是噪聲濾除仍不太理想。觀察去噪后的信噪比可以發(fā)現(xiàn):基于人耳掩蔽效應的譜減法相比基本譜減法信噪比非但沒增加反而有些減少。流水噪聲雖沒那么明顯,但聽音測試發(fā)現(xiàn)局部的噪聲有些許增強,特別是在低信噪比時測定效果較差。
因此基于以上情況,現(xiàn)在將譜減法作為預處理,為使得去噪后語音效果更好,這里對預處理得到的語音進行卡爾曼濾波增強,仿真結果如圖4所示。
從圖4的仿真結果看出,利用改進卡爾曼濾波算法去噪后,語音質量比上述幾種增強算法都有所提高。其語音波形比改進譜減法和基于人耳掩蔽效應的譜減法得到的波形更加飽滿,寂靜段噪聲的幅度也有明顯減小。試聽發(fā)現(xiàn)基本不存在流水噪聲,這主要歸功于人耳掩蔽,它使流水噪聲沒那么明顯,其次,歸功于卡爾曼濾波以最小均方誤差為估計的最優(yōu)準則,去噪實驗效果好。
綜上,實驗分別對采用不同的高斯白噪聲,運用前文的幾種語音增強算法分別求出相應的輸出信噪比,具體結果如表1所示。
從表1列出的測試結果可以看出,在不同信噪比的情況下,改進后的卡爾曼濾波語音增強算法較其他幾種算法效果好。
3? 結? 語
本文主要研究了語音信號增強的幾種算法,及噪聲的產生機理,對語音信號進行預處理得到初步去噪后的語音,為卡爾曼濾波算法提供較準確的AR參數(shù),利用Matlab R2014a編程對增強算法進行實驗測試,所用語音信號為實驗室安靜環(huán)境下錄制。實驗結果和數(shù)據(jù)表明,用基于人耳掩蔽效應的譜減法對含噪語音作預處理,然后通過卡爾曼濾波可以取得更好的效果,流水噪聲得到較好的抑制,增強后語音聽起來較為舒適。
注:本文通訊作者為曾慶寧。
參考文獻
[1] PALIWAL K, W?JCICKI K, SCHWERIN B. Single?channel speech enhancement using spectral subtraction in the short?time modulation domain [J]. Speech communication, 2010, 52(5): 450?475.
[2] ZHANG Yi, ZHAO Yunxin. Real and imaginary modulation spectral subtraction for speech enhancement [J]. Speech communication, 2013, 55(4): 509?522.
[3] 蔡文堅,王輔忠,張慧春,等.基于隨機共振的微弱語音譜減降噪方法[J].計算機工程與設計,2018,39(2):499?502.
[4] 王群,曾慶寧,鄭展恒,等.低信噪比環(huán)境下的麥克風陣列語音識別算法研究[J].科學技術與工程,2017,17(31):101?107.
[5] 毛維,曾慶寧,龍超.基于雙微陣列的語音增強算法[J].計算機工程與設計,2018,39(8):2490?2494.
[6] 馬金龍,曾慶寧,龍超,等.多噪聲環(huán)境下可懂度提升的助聽器語音增強[J].計算機工程與設計,2016,37(8):2160?2164.
[7] 章旭景,李輝,陸偉.基于子帶卡爾曼濾波的語音增強方法[J].信號處理,2009,25(9):1474?1478.
[8] 黃小平,王巖.卡爾曼濾波原理及應用[M].北京:電子工業(yè)出版社,2015:30?76.
[9] 馬麗麗,張曼,陳金廣,等.有色噪聲條件下的高斯和卡爾曼濾波算法[J].計算機工程與設計,2015,36(10):2856?2859.
[10] 亓賀,張雪英,武奕峰.頻域內的卡爾曼濾波語音增強算法[J].電聲技術,2011,35(10):55?58.
[11] 張勇,劉軼.非平穩(wěn)噪聲環(huán)境下結合聽覺掩蔽的語音增強[J].計算機工程與設計,2015,36(5):1279?1284.
[12] CHEN Jingdong, BENESTY J, HUANG Yiteng, et al. New insights into the noise reduction Wiener filter [J]. IEEE tran?sactions on audio, speech, and language processing, 2006, 14(4): 1218?1234.
作者簡介:鄭展恒(1978—),男,碩士,高級實驗師,研究方向為信號處理。
曾慶寧(1963—),男,博士,教授,碩導,主要研究方向為信號處理及語音、圖像等。