牛莉莉,徐 巖
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
一種基于維納濾波的改進去混響方法*
牛莉莉,徐 巖
(蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070)
針對混響對語音信號不同頻率成分的影響各不相同的特點,對前人提出的基于維納濾波的去混響方法作了改進。參照人耳的聽覺感知特性,引進一組Gammatone聽覺濾波器,完成對混響語音的分頻帶處理,從而在各個子帶中獨立地去混響,體現(xiàn)了語音頻帶信息的差異性。對該方法進行實驗仿真,分別運用一些主客觀的評價指標(biāo)對實驗結(jié)果進行評價和分析。結(jié)果表明,與復(fù)倒譜域濾波、維納濾波方法相比,該方法取得了更好的去混響效果。
Gammatone聽覺濾波器組;去混響;維納濾波;評價指標(biāo)
在相對封閉的空間里,當(dāng)說話人使用電話、手機等時,如果距麥克風(fēng)的位置較遠,則會存在混響現(xiàn)象,從而使聲音音質(zhì)降低、含糊不清,嚴重影響人耳的聽覺效果[1]。所以,尋求有效可行的方法實現(xiàn)去混響是一項重要的課題。
本文對前人提出的基于維納濾波的去混響算法作了改進[2],參照人耳的聽覺感知特性,引進一組Gammatone聽覺濾波器,介紹了基于Gammatone聽覺濾波器組和維納濾波的去混響算法。主要工作包括:首先,利用常規(guī)通話起始音的特點,提出預(yù)存起始純凈語音,基于維納濾波原理,通過反卷積運算估計出房間沖擊響應(yīng);其次,針對混響對語音各個頻率成分的影響各不相同的特點,利用Gammatone聽覺濾波器組將語音分解成各個子帶信號,在子帶中分別利用第一步得到房間沖激響應(yīng);再次,獲得其逆系統(tǒng)的沖激響應(yīng),將此估計值作為初始值,設(shè)計相應(yīng)的濾波器實現(xiàn)去混響;最后,將各子帶信號合成,進而重組純凈語音[3]。利用Gammatone聽覺濾波器組完成子帶的分解過程與聽覺感知模型相對應(yīng),即在子帶中各自實現(xiàn)去混響,各個頻帶中的特征信息被較完整地保留,最終重構(gòu)的語音信號能取得較好的聽覺效果。
人耳由內(nèi)耳、中耳和外耳組成。耳蝸位于內(nèi)耳中,可以將接收到的機械振動轉(zhuǎn)換為神經(jīng)沖動,由聽神經(jīng)傳到大腦。然而,完成這一系列作用的神經(jīng)末梢及感受細胞等,就在耳蝸的基底膜上。
在人耳聽覺感知形成過程中,基底膜對聲音的動態(tài)響應(yīng)影響很大。首先,它有頻率選擇能力。當(dāng)輸入較高頻率的純音時,基底膜底部接近幅度最大的位置;當(dāng)輸入較低頻率的純音時,基底膜頂部出現(xiàn)幅度最大的位置。其次,它有頻譜分析能力。當(dāng)復(fù)合音輸入時,不同的頻率分量對應(yīng)著不同位置,不同的聲音強度對應(yīng)著不同幅度,這樣就把復(fù)合音中的不同頻率分量和對應(yīng)的幅度分離開,實現(xiàn)對聲音強度和頻率的編碼。
由上可知,聲音在基底膜各個位置上的響應(yīng)過程等同于一次濾波,通過創(chuàng)建聽覺濾波器的數(shù)學(xué)模型可以近似實現(xiàn)這一響應(yīng)過程。常用的有Gammatone濾波器、Roex函數(shù)濾波器、共振濾波器以及Gammachirp濾波器。Roex函數(shù)濾波器和共振濾波器都存在一些缺陷。前者具有較為復(fù)雜的沖激響應(yīng)函數(shù),實現(xiàn)起來較為困難;而后者則不能很好地展現(xiàn)出基底膜的主動機制特性和非線性;Gammachirp濾波器則比較復(fù)雜,通常由Gammatone濾波器和一個無限沖激響應(yīng)濾波器組成。由于Gammatone濾波器的沖激響應(yīng)函數(shù)需要少量的參數(shù),實現(xiàn)方便,同時能夠較好地模擬人耳聽覺特性,因此本文采用Gammatone濾波器作為聽覺濾波器[4]。
Gammatone濾波器沖激響應(yīng)函數(shù)的時域表達式:
式中,參數(shù)n為濾波器階數(shù),B為增益,fc為中心頻率,U(t)為單位階躍函數(shù),Φ為初始相位。為了簡化模型,本文取Φ=0,n=4。參數(shù)ERB(fc)表示Gammatone濾波器的等效矩形帶寬,ERB(fc)和中心頻率fc的關(guān)系是:
心理聲學(xué)研究表明,人耳對聲音的聽覺感知以臨界頻帶為基準(zhǔn),等同于一組不等帶寬的子帶濾波器完成語音從頻域到臨界頻帶域的轉(zhuǎn)換。因此,通常濾波器的中心頻率是和臨界頻帶的中心頻率相對應(yīng)的。在人耳聽閾范圍內(nèi)對應(yīng)著26個頻帶,已知采樣率就能得出濾波器個數(shù)。實驗中取采樣率為16 kHz,則最大頻率為8 kHz。查看人耳臨界頻帶表,可得出其對應(yīng)的頻帶范圍為7 000~9 500 kHz。因此,本文需要22個濾波器。Gammatone濾波器可以模擬出耳蝸的濾波特性,通過濾波器的幅頻響應(yīng)特性就可以直觀地體現(xiàn)出來。圖1給出了0~8 kHz頻率范圍內(nèi),濾波器個數(shù)為22個不同中心頻率下的幅度響應(yīng)曲線。
圖1 Gammatone濾波器的幅頻響應(yīng)曲線
從幅頻響應(yīng)圖中可以看出,Gammatone濾波器有以下頻域特性:最大幅度出現(xiàn)在中心頻率處的,即相應(yīng)的濾波器;不同中心頻率的濾波器有著不同的帶寬,其兩側(cè)邊沿都較陡,說明Gammatone濾波器的頻率選擇性比較好,所有的特征都與基底膜的濾波特性相對應(yīng)。
已知t時刻的輸入混響語音信號xt,設(shè)計一個濾波器(濾波因子)ht,使濾波器的實際輸出yt= xt* ht與期望輸出(純凈語音信號st)的誤差在任何時刻都盡可能小。用每個時刻誤差的平方和最小反映總誤差最小:
求濾波因子ht,使式(4)誤差平方和達到最小,可得:
式(5)中,ht為濾波因子ht的起始點;(m+1)為濾波因子的長度(維納濾波器的階數(shù)M);rxx為xt的自相關(guān)函數(shù);rsx為st和xt的互相關(guān)函數(shù)。式(5)稱為托布里茲方程,有較快遞推解法[5]。
張德會等針對移動語音通信,利用上述維納濾波算法[2],提出一種通過反卷積運算來進行語音去混響的方法。他的基本思路是利用人們?nèi)粘_M行語音通話時,總是習(xí)慣以“hi”“喂”等開始,將在混響較輕或者無混響環(huán)境下的通話起始音,如“hi”“喂”等作為純凈語音預(yù)存起來。在混響環(huán)境下通話時,還以“hi”“喂”等作為開始,這樣便有同樣語音的混響信號,通過維納濾波反卷積運算就可以獲得混響環(huán)境下的房間沖擊響應(yīng);接著,當(dāng)說話人發(fā)出其他聲音時,就利用已求得的房間沖擊響應(yīng),對其他語音經(jīng)過反卷積運算進行去混響。系統(tǒng)框圖如圖2所示。
圖2 混響消減系統(tǒng)
人耳的聽閾范圍涵蓋了語音所有的頻率分量,利用一組Gammatone濾波器完成子帶的分解,就可以將各個頻率成分分離開來,從而在不同的子帶中獨立地去混響,體現(xiàn)出混響語音對頻帶影響的差異性,以進一步提高去混響的效果。具體的實現(xiàn)過程如下:查看人耳臨界頻帶表,選擇相應(yīng)濾波器的中心頻率,根據(jù)選出的Gammatone濾波器的沖激響應(yīng),計算其中心頻率對應(yīng)的濾波器傳輸函數(shù),得到其頻率響應(yīng),將混響語音通過這樣一組濾波器完成濾波,最后從頻域轉(zhuǎn)換到時域,得到保留有不同頻帶信息的子帶信號。
子帶信號的分解是本文方法實現(xiàn)的預(yù)處理過程,接下來的任務(wù)便是去混響。結(jié)合第二部分敘述的內(nèi)容,采用基于維納濾波的方法來實現(xiàn)這一過程。即通過維納濾波反卷積運算,得到混響環(huán)境下的房間沖擊響應(yīng);然后,在已劃分好的各個子帶,利用已經(jīng)得到的房間沖擊響應(yīng),對各個子帶語音經(jīng)過反卷積運算進行去混響;最后,將各個子帶的輸出語音合成,得到去混響后的語音。整個過程的實現(xiàn)框圖如圖3所示。
圖3 本文方法的實現(xiàn)過程
4.1實驗結(jié)果
本文實驗取標(biāo)準(zhǔn)語音庫中某段語音作為純凈原始語音,語音的長度為3 s,采樣頻率為16 kHz,量化位數(shù)為16 bit。在適度混響環(huán)境下,分別采用本文方法、復(fù)倒譜域濾波方法和基于維納濾波的方法實現(xiàn)混響消減。實驗得到相應(yīng)的語音時域波形圖,如圖4所示。
圖4 不同方法得到的語音時域波形
從時域波形圖可以看出,通過復(fù)倒譜域濾波方法得到的語音時域波形與混響語音很接近,表明去混響效果不理想,也說明單一的復(fù)倒譜方法去混響效果較差[6-7]。本文方法相比基于維納濾波的方法,在適度混響條件下得到的結(jié)果更好,時域波形與純凈語音更為接近,表明去混響效果較好。
4.2語音去混響的主客觀評價
評測混響消減的效果可從主客觀兩方面分別進行評測[8]。實驗中采用的主觀評測指標(biāo)有:自然度、去混響度;客觀評測指標(biāo)有:線性預(yù)測倒譜系數(shù)(LPCC)的失真測度、Mel頻率倒譜系數(shù)(MPCC)的失真測度。
4.2.1主觀評價
(1)語音的自然度
語音自然度指聽起來語音內(nèi)容是不是可懂,整個銜接是不是流暢,即主要衡量去混響后的語音是否出現(xiàn)失真,主觀上可分為優(yōu)、良、中、差四個等級。實驗中,邀請30人在相對安靜的室內(nèi)對幾種去混響方法得到的語音進行反復(fù)評價,得到各種方法的自然度評價結(jié)果。
(2)語音的去混響度
語音去混響度指從主觀聽覺方面來感受混響消減的程度。同自然度類似,它在主觀上也可分為優(yōu)、良、中、差四個等級。同樣,實驗中邀請30人在相對安靜的室內(nèi)對幾種去混響方法得到的語音進行反復(fù)評價,得到各種方法的去混響度的評價結(jié)果。
4.2.2客觀評價
(1)線性預(yù)測倒譜系數(shù)的失真測度
線性預(yù)測倒譜系數(shù)的失真測度是基于語音線性預(yù)測分析提出的一種頻域評測參數(shù),能清晰地說明人耳對頻率分辨的非均勻性、感知響度和聲音強度之間的非線性關(guān)系。
(2)Mel頻率倒譜系數(shù)的失真測度
Mel頻率倒譜系數(shù)是一種以短時傅立葉變換為基礎(chǔ)的譜包絡(luò)參數(shù),不依附全極點語音生成模型的設(shè)定,在噪聲和混響環(huán)境下有著更好的魯棒性。
在適度混響環(huán)境下,各種方法的去混響度、自然度評價結(jié)果及各自計算得到的線性預(yù)測倒譜系數(shù)的失真測度值、Mel頻率倒譜系數(shù)的失真測度值如表1所示。
根據(jù)表1,從主觀評測指標(biāo)可以看出,比之另外兩種方法,本文方法處理后的語音更為清晰、自然可懂度也要好些,說明去混響效果比較好。同時,從客觀評測指標(biāo)來看,另外兩種方法得到的失真測度值較大,即得到的去混響語音相比原始語音出現(xiàn)了較大的失真,而本文方法得到的失真測度值較小且相對穩(wěn)定,進一步表明本文方法得到的語音失真較小,質(zhì)量較高。
表1 三種去混響仿真實驗的主客觀評測
語音去混響的研究有著重要的理論價值和應(yīng)用價值。它是語音增強的重要組成部分,同時作為語音合成、語音識別等的預(yù)處理過程,對提升室內(nèi)語音通信的質(zhì)量具有非常重要的作用。此外,語音去混響的研究在其他許多聲學(xué)領(lǐng)域的應(yīng)用前景也非常廣闊。
本文針對基于維納濾波的語音去混響的方法作了改進,依據(jù)人耳的聽覺感知特性,引進一組Gammatone聽覺濾波器,介紹了基于Gammatone聽覺濾波器組和維納濾波的去混響方法,綜合人耳聽覺感知特性和混響的頻譜特性,利用一組Gammatone聽覺濾波器,完成對混響語音的分頻帶處理,從而在各個子帶中獨立地去混響,體現(xiàn)了語音頻帶信息的差異性。接著,對幾種去混響方法進行仿真實驗,分別采用相應(yīng)的主客觀評價指標(biāo)對得到的去混響語音進行評價和分析。結(jié)果表明,比之另外兩種方法,本文方法取得了更好的去混響效果。
[1] 趙紅,李雙田.改進的多級線性預(yù)測晚期混響抑制算法[J].信號處理,2014,30(06):674-682. ZHAO Hong,LI Shuang-tian.Improved Late Reverberation Suppression Algorithm Using Multiple-step Linear Prediction[J].Journal of Signal Processing,2014, 30(06):674-682.
[2] 張德會,陳光冶.一種基于維納濾波去除語音通信中混響的方法[J].上海交通大學(xué)學(xué)報,2009,43(06):949-952. ZHANG De-hui,CHEN Guang-ye.A Means based on Wiener Filtering for Dereverberation in Speech Communication[J].Journal of Shanghai Jiaotong University,2009,43(06):949-952.
[3] Hikichi T,Delcroix M,Miyoshi M.Inverse Filtering for Speech Dereverberation Less Sensitive to Noise and Room Transfer Function Fluctuations[J].EURASIP Journal on Applied Signal Processing,2007,2007(01): 62-62.
[4] Kumar K,Singh R,Raj B,et al.Gammatone Sub-band Magnitude-domain Dereverberation for ASR[C].IEEE International Conference on Acoustics,Speech and Signal Processing,2011:4604-4607.
[5] Yasuraoka N,Yoshioka T,Nakatani R,et al.Music Dereverberation Using Harmonic Structure Source Model and Wiener Filter[J].ICASSP,2010:53.
[6] Rotili R,Cifani S,Principi E,et a1.A Robust Terativee Inverse Filtering Approch for Speech Dereverberation in Presence of Disturbances[J].IEEE,2008:28.
[7] 廖啟鵬,孔榮.基于最小相位分解的語音去混響[J].通信技術(shù),2011,44(06):78-82. LIAO Qi-peng,KONG Rong.Dereverberation based on Minimum Phase Decomposition[J].Communications Technology,2011,44(06):78-82.
[8] 易克初,田斌,付強.語音信號處理[M].北京:國防工業(yè)出版社,2000:83-118. YI Ke-chu,TIAN Bin,FU Qiang.Speech Signal Processing[M].Beijing:National Defence Industry Press,2000:83-118.
牛莉莉(1991—),女,碩士研究生,主要研究方向為語音信號處理;
徐 巖(1963—),男,碩士,教授,主要研究方向為語音信號處理、自適應(yīng)信號處理。
A Modified Method based on Wiener Filtering for Dereverberation
NIU Li-li, XU Yan
(School of Electronic and Information Engineering , Lanzhou Jiaotong University, Lanzhou Gansu 730070, China)
In order to resolve the different effects on different frequency components of speech signal by reverberation, the formerly proposed dereverberation method based on wiener filtering is modified. According to the human auditory perception characteristics, the Gammatone auditory filters are introduced, thus to implement the sub-band processing of reverberation speech and independent dereverberation in various sub-bands, and this reflects the difference of speech frequency band information.Both the subjective and objective evaluation indexes are applied to evaluating analyzing the consequences of experimental simulation. The method described in the paper,as compared with complex cepstrum domain filtering and Wiener filtering, could gain much better dereverberation effect.
Gammatone auditory filters; dereverberation; Wiener filtering;evaluation indicator
Research of speech signal enhancement technology based on the safety and protection system of Labrang Monastery in south of Gansu
TN912
A
1002-0802(2016)-08-01001-05
10.3969/j.issn.1002-0802.2016.08.009
2016-04-21;
2016-07-22
date:2016-04-21;Revised date:2016-07-22
基于甘南拉卜楞寺安全防范系統(tǒng)的語音信號增強技術(shù)研究