寧礦鳳,王景芳
湖南涉外經濟學院 信息科學與工程學院,長沙 410205
壓縮感知分組分離語音增強
寧礦鳳,王景芳
湖南涉外經濟學院 信息科學與工程學院,長沙 410205
語音是非平穩(wěn)、時變的信號。通過語音傳遞信息是人類最重要、最常用的信息交換形式之一。通常,研究者們是在語音信號相對純凈的條件下,對信號進行各種處理。但現實生活中的語音不可避免地要受到周圍環(huán)境噪聲的影響。這些噪聲的存在會嚴重影響語音信號的質量與可懂度。在這種實際需要的推動下,早在20世紀60年代,語音增強這個課題作為語音信號處理的一個重要分支就已經引起了人們的注意;20世紀70年代曾形成了一個研究高潮,并取得了一些基礎性成果。目前,語音增強[1]方法主要有譜減法、Weiner濾波、Kalman濾波,以及相繼發(fā)展起來的子空間增強、小波變換和這些增強方法的各種改進算法。
語音增強是語音處理的一項重要技術,在語音識別、語音編碼、語音合成等領域中有著廣泛的應用。語音增強的目的是從帶噪語音中提取盡可能純凈的原始語音。但由于噪聲信號都是隨機產生的,完全消噪幾乎不可能。因此,實際語音增強的目標主要有:提高語音清晰度,改善語音質量;提高語音可懂度[2],方便聽者理解。
傳統的奈奎斯特采樣定理要求采樣率不小于信號最高頻率的兩倍,隨著信號處理技術的發(fā)展和被處理數據量的激增,這種采樣方法已遠遠不能跟上高速信號處理的要求。2006年,Donoho等提出了壓縮感知(Compressed Sensing,CS)理論[3-5],對于具有稀疏性的信號,可以利用其稀疏特性,以少于信號采樣點的點數就可以近似恢復原信號。這一理論大大推動了信號處理理論的進程,具有廣闊的應用前景。目前,壓縮感知理論在壓縮成像、模擬信息轉換、生物傳感、信號檢測與分類、無線傳感器網絡、數據通信和地球物理數據分析等領域都有很好的應用[6]。
壓縮感知理論同樣可以應用于語音信號。語音信號在某些變換域上具有稀疏性,如所熟知的傅里葉變換(FFT)、DCT變換與小波變換等,但是,目前關于語音信號處理的壓縮感知研究并不多,尚屬于起步階段。Griffin等在多通道語音信號處理中應用了CS理論[7],Giacobello等將CS理論應用于語音編碼[8],Sreenivas和Kleijn認為[9]CS在語音信號中的應用尚未開發(fā),關于語音信號稀疏域和稀疏度的研究也不夠深人,而且,由于基本的CS計算運算量非常大,重構語音信號的感知特性如何和計算量的大小也是實際應用中需要著重考慮的問題。在國內,南京郵電大學的楊震等[10-17]將CS理論與語音信號相結合,開展了關于觀測矩陣、稀疏變換矩陣、語音端點檢測、說話人識別系統抗噪等方面的研究。這些都表明CS理論與語音信號處理技術相結合具有廣闊的研究前景。
語音信號作為一種特殊的信號,如何利用語音信號自身的特點,尋找能更好地對語音信號進行稀疏化的變換方法,以得到更高的信噪比,正是本文將要研究的內容。本文研究了一種壓縮感知分組分離語音增強方法,這項研究把信號去噪與稀疏性信號重構結合起來,經過多種噪聲環(huán)境測試效果良好。
2.1 壓縮感知表述
壓縮感知理論主要思想是:假設一長度為N的信號x在某個正交基或緊框架Ψ上的系數是稀疏的(即只有少數的非零系數),若把其系數投影到另一個與變換基Ψ不相關的觀測基Φ∶M×N,M<<N上,得到觀測集合 y∶M×1。那么信號x可以憑借這些觀測值通過求解一優(yōu)化問題而精確恢復。CS理論框架如圖1所示。
CS理論是一種新的在采樣的同時實現壓縮目的理論框架,它的壓縮采樣過程如圖1所示。首先,如果信號 x∈RN在某個正交基或緊框架Ψ上是可壓縮的,求出變換系數θ=ΨTx,θ是x的等價或逼近的稀疏表示;第二步,設計一個平穩(wěn)的、與變換基Ψ不相關的M×N維的觀測矩陣Φ,將θ投影到M維空間,得到觀測集合y=Φθ=ΦΨTx,該過程也可以表示為信號x通過矩陣ACS進行非自適應觀測:y=ACSx(其中ACS=ΦΨT),ACS稱為CS信息算子[5];最后,利用下面的優(yōu)化問題求解x的精確或近似逼近x^:
求得的向量x^在基Ψ上的表示最稀疏。
CS理論主要涉及以下幾個方面的內容:(1)對于信號x∈RN,如何找到某個正交基或緊框架Ψ,使其在Ψ上是可壓縮的,即信號的稀疏表示問題。(2)如何設計一個平穩(wěn)的、與變換基Ψ不相關的M×N維的觀測矩陣Φ,保證稀疏向量θ從N降維到M時重要信息不遭破壞,即信號低速采樣問題。(3)如何設計快速重構算法,從一個非常少的線性觀測Y=ACSX中恢復信號,即信號重構問題。
在信號x可壓縮的前提下,求解欠定方程組y=ACSx的問題轉化為最小l0范數式(1)問題,它需要列出X中所有非零項位置的CKN種可能的線性組合。因此,求解式(1)的數值計算極不穩(wěn)定而且是NP難問題。Chen,Donoho和Saunders指出,求解一個更加簡單的l1優(yōu)化問題會產生同等的解(要求Φ和Ψ不相關):
稍微的差別使得問題變成了一個凸優(yōu)化問題,于是可以方便地化簡為線性規(guī)劃。
2.2 含噪信號的恢復問題
在實際的工程應用中,待處理信號一般都不同程度地受到各種噪聲的污染。這時含噪信號不是嚴格的稀疏信號,但是仍屬于可壓縮信號?,F有的壓縮感知理論中,恢復信號的最基本依據是信號在某個變換空間的分解系數是稀疏的,而噪聲的存在則破壞了信號在空間中的稀疏性。在使用優(yōu)化方法恢復信號時,如果對含噪信號采用單一的稀疏性約束原則,則無法有效恢復原始稀疏信號。壓縮感知理論仍然可以采用其他的有效恢復信號方法,主要的不同之處在于恢復過程所使用的優(yōu)化目標函數的不同形式和參數設置,不同的優(yōu)化目標函數使得信號的恢復效果也不盡相同。
在含噪信號的恢復過程中沿用基追蹤(Basis Pursuit,BP)方法中對噪聲的抑制方法,主要針對的是信號中的噪聲分布已知的情況。
當已知信號的稀疏程度(l1范數大小)時,可采用LASSO方法來對信號進行有效恢復[18]:
圖1 CS理論框架
當對信號和噪聲都是未知時,把尋找稀疏解問題歸結為帶約束二次規(guī)劃(BSQP)問題。
(1)含噪信號的恢復問題(5)的分組分離[19]:
式(6)的求解,可化為式(7)迭代,{xt,t=0,1,…},αt>0,?f為梯度。
(5)用 ym(i),sm(i)和dm(i)分別表示第m幀時刻i的帶噪語音、純凈語音和加性噪聲。假設純凈語音信號與噪聲互不相關,有
對上式進行FFT變換,有
其中,Ym(ω),Sm(ω)與Dm(ω)分別表示向量 ym,sm和dm的FFT變換。
在式(6)中,y=Φym,ym為第m幀時域帶噪語音信號,y是壓縮投影信號,A=ΦΨT,所求x為壓縮感知與軟閾值式(9)去噪[20]重構語音頻譜:(ω)=x?(i)= F-1{(ω)}=ΨTx。去噪強弱由初始λ決定,軟閾值去噪理論分析參見文獻[20]。
背景噪聲選自AURORA庫[22]與Noisex-92數據庫[23],純凈語音“The birch canoe slid on the smooth planks.”文件sp01.wav[22],采樣頻率 fs=8 kHz。在語音分幀過程中,幀長取25 ms,即幀長M=0.025 fs=0.025×8 000= 400點,幀移M/2,每幀分16組,每組取2階范數ci(z)=||z||2。
采用信噪比:
來定量地分析算法的去噪效果。客觀上從語音波形、語譜圖、信噪比、分段信噪比(Time-domain segmental SNR(dB),-10<SNRseg<35)、感知語音質量評價[23-26](Perceptual Evaluation of Speech Quality,1<PESQ<4.5)與可懂度fAI[27]提高等幾個方面對本文算法的性能進行了綜合分析。
實驗1選取噪聲源——白噪聲(white)頻率混在語音頻段,本文算法達到了預期效果。圖2為壓縮感知語音增強前后結果對比。
圖2 壓縮感知語音增強前后結果對比
實驗2用本文壓縮感知語音增強,在同語音加載不同噪聲背景:白噪聲(white)、粉色噪聲(pink)、航空噪聲(f16)、工廠噪聲(factory)與人的嘈雜聲(babble)在信噪比SNR=5 dB時比較,波形與語譜圖比較結果見圖3,考查算法的實時跟蹤結果。
圖3 SNR=5 dB下同一語音不同噪聲下語音增強方法的波形與語譜圖比較
本文研究了一種軟閾值分組分離壓縮感知含噪語音增強方法,語音信號的稀疏表達設計為快速傅里葉變換,觀測矩陣設計為一復數矩陣式(11),信號壓縮重構結合二階范數的分組分離逼近稀疏重建(Sparse Reconstruction by Separable Approximation,SpaRSA)方法。實驗表明,本文提出的算法盡管fAI沒得到改善,但含噪信號壓縮重構,信噪比提高幅度較大,PESQ也明顯得到改善,能更有效地抑制背景噪聲。這開創(chuàng)了語音增強方法新的途徑,并為語音稀疏采樣與重構開拓了新視野,有著廣泛的應用前景。
[1]Loizou P C.Speech enhancement:theory and practice[M]. USA:CRC Press,2007.
[2]Loizou P C,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(1):47-56.
[3]Donoho D.Compressed sensing[J].IEEE Trans on Information Theory,2006,52(4):1289-1306.
[4]Baraniuk R G.Compressive sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-121.
[5]Donoho D,Tsaig Y.Extensions of compressed sensing[J]. Signal Processing,2006,86(3).
[6]石光明,劉丹華,高大化,等.壓縮感知理論及其研究進展[J].電子學報,2009,37(5):1070-1081.
[7]Griffin A,Tsakalides P.Compressed sensing of audio signals using multiple sensors[C]//Proc 16th European Signal Processing Conference(EUSIPCO’08),Lausanne,Switzerland,2008.
[8]Giacobello D,Christensen M G,Murthi M N,et al.Retrieving sparse patterns using a compressed sensing framework:applications to speeeh coding based on sparse linear prediction[J].Signal Processing Letters,2010,17(l):103-106.
[9]Sreenivas T V,Kleijn W B.Copressive sensing for sparsely excited speech signal[C]//Proceedings of the 2009 IEEE International Conference on Acoustics,Speech and Signal Processing,Taipei,Taiwan,China,2009:4125-4128.
[10]郭海燕,楊震.基于近似KLT域的語音信號壓縮感知[J].電子與信息學報,2009,31(12):2948-2952.
[11]葉蕾,郭海燕,楊震.基于壓縮感知重構信號的說話人識別系統抗噪方法研究[J].信號處理,2010,26(3):321-326.
[12]Xu T T,Yang Z,Shao X.Novel speech secure communication system based on information hiding and compressed sensing[C]//2009 Fourth International Conference on Systems and Networks Communications(ICSNC 2009),Porto,Portugal,2009:201-206.
[13]孫林慧,楊震.基于壓縮感知的分布式語音壓縮與重構[J].信號處理,2010,26(6):824-829.
[14]葉蕾,孫林慧,楊震.基于壓縮感知觀測序列倒譜距離的語音端點檢測算法[J].信號處理,2011,27(1):67-72.
[15]季云云,楊震.基于自相關觀測的語音信號壓縮感知[J].信號處理,2011,27(2):207-214.
[16]高悅,王改梅,陳硯圃,等.基于差分變換的語音信號壓縮感知[J].信號處理,2011,27(9):1434-1439.
[17]周小星,王安娜,孫紅英,等.基于壓縮感知過程的語音增強[J].清華大學學報:自然科學版,2011,51(9):1234-1238.
[18]Figueiredo M A T,Nowak R D,Wright S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].IEEE Journal of Selected Topics in Signal Processing,2007,1(4):586-597.
[19]Wright S J,Nowak R D,Figueiredo M A T.Sparse reconstruction by separable approximation[J].IEEE Transactions on Signal Processing,2009,57(7):2479-2493.
[20]Donoho D L.De-noising by soft-thresholding[J].IEEE Transactions on Information Theory,1995,41(3).
[21]Grippo L,Sciandrone M.Nonmonotone globalization techniques for the Barzilai-Borwein method[J].Computational Optimization and Applications,2002,32:143-169.
[22]Noizeus:a noisy speech corpus for evaluation of speech enhancementalgorithms[EB/OL].[2013-07-03].http://www. utdallas.edu/~loizou/speech/noizeus/.
[23]Spib noise data[EB/OL].[2013-07-03].http://spib.rice.edu/ spib/select_noise.html.
[24]Ma J,Hu Y,Loizou P.Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions[J].Journal of the Acoustical Society of America,2009,125(5):3387-3405.
[25]Hu Y,Loizou P.Evaluation of objective quality measures for speech enhancement[J].IEEE Transactions on Speech and Audio Processing,2008,16(1):229-238.
[26]ITU-T(2000).Perceptual Evaluation of Speech Quality(PESQ):an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs,ITU-T Recommendation P.862[EB/OL].[2013-07-03]. http://www.itu.int/rec/T-REC-P.862/en.
[27]Loizou P,Ma J F.Extending the articulation index to account for non-linear distortions introduced by noisesuppression algorithms[J].The Journal of the Acoustical Society of America,2011,130(2):986-995.
NING Kuangfeng,WANG Jingfang
School of Information Science and Engineering,Hunan International Economics University,Changsha 410205,China
Compressed Sensing(CS)which is a signal sparsity-based sampling method,can effectively extract the information contained in the signal.A new method is designed for noisy speech enhancement based on the grouping separation of compressed sensing.Speech sparse expression is used in discrete Fast Fourier Transform(FFT)domain.The algorithm can implement compression measurement and denoising in noisy speech by the design of the complex domain observation matrix and soft threshold.Sparse Reconstruction by Separable Approximation,SpaRSA algorithm is used to restore the speech signal,to achieve speech enhancement.The experiments show that the denoising signal can be compressed and reconstructed for noise signal compression refactoring.The signal-to-noise ratio can be improved greatly.The background noise can be more effectively suppressed.
speech enhancement;compressed sensing;group-separable;soft threshold;denoising
壓縮感知(Compressive Sensing,CS)是一種基于信號稀疏性的采樣方法,可以有效提取信號中所包含的信息。提出了一種分組分離壓縮感知語音增強新算法。算法利用語音在離散快速傅里葉變換(Fast Fourier Transform,FFT)域下的稀疏性,設計復域觀測矩陣與軟閾值對帶噪語音進行壓縮測量與去噪,通過可分組分離逼近稀疏重建(Sparse Reconstruction by Separable Approximation,SpaRSA)算法恢復語音信號,實現語音增強。實驗表明:該算法對含噪信號壓縮重構,信噪比幅度較大提高,能更有效地抑制背景噪聲。
語音增強;壓縮感知;分組分離;軟閾值;去噪
A
TN912.35
10.3778/j.issn.1002-8331.1309-0040
NING Kuangfeng,WANG Jingfang.Speech enhancement based on group-separable compressed sensing.Computer Engineering and Applications,2014,50(24):204-208.
寧礦鳳(1980—),女,講師,主要研究領域為多媒體技術及應用,語音識別。E-mail:ning_candy@sina.com
2013-09-04
2014-01-20
1002-8331(2014)24-0204-05
CNKI網絡優(yōu)先出版:2014-07-11,http∶//www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1309-0040.html