董嫻 邵玉斌 杜慶治 龍華 馬迪南
摘 要: 針對現(xiàn)有頻譜稀疏化方法在復雜環(huán)境語音增強上性能不佳的問題,提出一種基于主成分分析的迭代頻譜稀疏化方法. 首先,對輸入信號的語譜圖進行二維中值濾波處理,得到行分量頻譜和列分量頻譜;對包含語音主音的行分量頻譜序列進行主成分分析(PCA),以去除噪聲部分并保留主要語音結(jié)構(gòu);然后聯(lián)合列分量頻譜序列和縮放因子進行混合重構(gòu)原信號,并采用動態(tài)縮放因子實現(xiàn)對列分量頻譜噪聲的有效控制. 在此基礎上,利用稀疏化對噪聲的抑制作用,對頻譜進行多次稀疏化,以減弱噪聲. 實驗結(jié)果表明,該方法增強了不同類型噪聲下語音的信噪比,包括White、Pink、Babble、Volvo 和Factory 等五種噪聲,輸入信噪比為15 dB,所提方法的信噪比分別提升了13. 89 dB,11. 97 dB,5. 65 dB,5. 26 dB 和4. 73 dB,該方法在其他信噪比下也能有效地抑制噪聲和保留有效特征信息,并減少因背景噪聲引起的語音失真.
關鍵詞: 語音增強; 多維度頻譜分析; 譜稀疏化; 主成分分析
中圖分類號: TN912. 3 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 033007
1 引言
在自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng)中,語音增強是一個必不可少的過程,語音信號處理在其中發(fā)揮著重要作用. 語音增強是指對被污染的語音信號進行處理,減少噪聲的干擾,改善噪聲環(huán)境下的語音質(zhì)量,從而增強語音的可懂度和主觀聽覺質(zhì)量[1]. 對于聽覺受損的人群來說,語音增強技術旨在提升人工耳蝸在噪聲環(huán)境中的語音清晰度,以解決困擾多數(shù)聽障人群聽不清的難題[2]. 為了提高語音識別系統(tǒng)在噪聲環(huán)境下的性能,通常在時域或頻域上進行處理,以抑制語音失真和引入的人工噪聲. 譜減法[3]、基于統(tǒng)計模型的語音增強算法[4]和信號子空間算法[5]等等都是廣泛使用的幾種經(jīng)典語音增強算法.
在語音增強算法中,基于短時譜估計的增強算法[6]因其效率高、計算簡單且易于處理而被廣泛使用,比如用含噪信號的頻譜減去估計的噪聲頻譜來得到純凈的語音頻譜的譜減法. 該方法易于實現(xiàn)的同時大大削弱了信號中的噪聲,但是存在一個明顯的缺點就是譜減法的有效性很大程度上依賴于準確的噪聲估計,噪聲的隨機性增加了噪聲估計的困難,大多數(shù)情況下當噪聲估計的不夠準確,就會引發(fā)“音樂噪聲”和失真等問題. 有關統(tǒng)計模型的方法是將語音增強納入基于最優(yōu)準則的統(tǒng)計假設估計問題,比如維納濾波[7]、最小均方誤差方法和最大后驗方法. 一般假設語音信號和噪聲信號是統(tǒng)計獨立的,且分別服從特定的分布,而統(tǒng)計模型的難點在于模型參數(shù)的魯棒估計;信號子空間算法是一種基于語音信號子空間和噪聲子空間正交假設的方法,然而在短時情況下從信號子空間中估計純凈語音信號是非常不精確的[8]. 最近提出的多項式矩陣特征值分解算法(PolynomialMatrix Eigenvalue Decomposition, PEVD)[9]不依賴于信號假設和噪聲估計,在信號失真較小的情況下顯著提高了可懂度和降噪效果,然而,該方法在非平穩(wěn)噪聲環(huán)境下無法適應聲學場景的變化.基于迭代約束非負矩陣分解(Iterative ConstrainedNon-negative Matrix Factorization, ICNMF)[10]的語音增強方法解決了非平穩(wěn)噪聲環(huán)境下語音增強性能不佳的問題. 通過調(diào)整噪聲和語音的基向量權(quán)重最小化維納濾波器估計誤差,顯著提高語音的質(zhì)量和可懂度,由于需要提供對語音和噪聲樣本必要統(tǒng)計的精確估計,算法運行時間較長且計算成本較大. 基于壓縮感知矩陣的主列群正交化(Dominant Columns Group Orthogonalization ofthe Sensing Matrix, DCGOSM)[11]語音增強方法通過計算噪聲和語音樣本的列貢獻,對感知矩陣中的語音主導列向量進行迭代加速信號重構(gòu)大大減少語音恢復時間,有效避免噪聲分量,從而在重構(gòu)信號中降低了噪聲.
本文針對復雜環(huán)境下語音信號的質(zhì)量和清晰度容易受到噪聲的污染,且難以從噪聲中提取有用的語音信號等問題提出了一種提高語音質(zhì)量的頻譜稀疏化語音增強方法. 該方法首先對語音信號的語譜圖進行二維中值濾波分析,獲取包含語音主要結(jié)構(gòu)的行分量頻譜和列分量頻譜,然后把基于主成分分析(Principal Component Analysis,PCA)的低秩近似應用于行分量頻譜的連續(xù)譜分量. 稀疏化的目的在于強調(diào)頻譜結(jié)構(gòu)中的重要譜分量,例如包含來自元音的諧波結(jié)構(gòu)和靠近共振峰區(qū)域的主要諧波,并去除頻譜中不太突出的部分,使得背景噪聲和一些更細微的諧波被衰減. 而清音的結(jié)構(gòu)與噪聲類似,在時頻域中沒有明顯的差異,對清音的增強難度較大,因此本文僅對濁音部分采用稀疏化的方法進行增強處理. 實驗結(jié)果表明,本文算法在多種噪聲環(huán)境下的噪聲消除性能優(yōu)于其他語音增強方法的性能,并且不依賴于噪聲的估計和原始語音的先驗知識.
本文在第2 節(jié)將介紹語音信號多維頻譜中值濾波分離行分量和列分量的原理、主成分分析,討論頻譜稀疏化對噪聲的抑制作用以及在此基礎上提出的多次迭代稀疏化方法的有效性;第3 節(jié)解釋語音增強算法輸出的語音質(zhì)量以及噪聲的評估方法;第4 節(jié)是對所提算法的實驗總結(jié)以及仿真結(jié)果分析.
2 基于PCA 的頻譜稀疏化方法
2. 1 多維度頻譜分析
輸入信號x ( t ) 經(jīng)過采樣并分幀后,由短時傅里葉變換