吳 春,梁正友
(廣西大學(xué)計算機(jī)與電子信息學(xué)院,廣西 南寧 530004)
雙說話人語音分離是在單聲道的情況下,對包含2個說話人語音中的目標(biāo)語音進(jìn)行分離。考慮到2個語音信號高度重疊在一段混合語音中,這將是一個非常有難度的任務(wù)。盡管這是一項艱巨的任務(wù),但是人類在這種情況下有選擇性地聽取其中一個人的說話卻顯示出令人難以置信的能力。這種聽覺現(xiàn)象被Bregman稱之為聽覺場景分析模型[1],主要分為分解和組合2個過程。在分解過程中,到達(dá)人耳的混合聲音信號被分解為一組獨(dú)立的單元,稱為時頻單元。初始信號是在時域和頻域上的觀測量,并且是多個聲源信號的混合,而分解過程將混合信號變換到一個可以區(qū)分出混合信號中各個分量的變換域中[2];在組合過程中通過有選擇性地分離時頻單元形成各個聲源的聽覺流。在組合過程中包含同時組合和序列組合,同時組合是將同時存在的不同頻率范圍的聲音分量組合在一起,序列組合則是將一串聲音分量按時間先后組合到一個或者多個聲音流中。本文主要研究如何在序列組合中通過聚類的方法完成對聲音分量的組合。
目前對雙說話人語音分離的研究在序列組合過程中主要通過基于訓(xùn)練的語音模型。在Shao和Wang[3]的研究中,通過高斯混合模型(GMM),在序列組合中通過最大化說話人識別得分獲得一切可能的分組和語音對來完成分離。另一個基于訓(xùn)練模型的方法通過隱馬爾科夫模型(HMM)和自動語音識別識別完成語音分離[4]。最新的語音識別中基于訓(xùn)練的方法中所使用的模型有HMMs、GMMs,例如文獻(xiàn)[5-6]。目前基于訓(xùn)練模型的分離方法,當(dāng)訓(xùn)練樣本與被分離的語音信號類似時,可以達(dá)到令人滿意的分離。然而,這種情況在實際應(yīng)用中往往不現(xiàn)實。
在本文中,提出一種基于聚類的語音分離方法來處理雙說話人語音分離。這種方法與基于訓(xùn)練模型的方法相比,在序列組合階段不需要對語音數(shù)據(jù)集進(jìn)行訓(xùn)練獲取先驗知識,而是采用特征提取和計算的聚類方法完成語音流分離。實際結(jié)果表明,該方法與基于訓(xùn)練模型的方法相比具有更好的語音分離效果。
系統(tǒng)遵循計算聽覺場景模型的2個過程:分解和組合。分解階段將語音信號分解為時頻單元(T-F),組合階段則有選擇性地形成對應(yīng)說話人的語音流。系統(tǒng)首先通過外圍處理模塊將語音信號分解成時頻單元,然后通過多基音跟蹤算法形成語音的基音段和相應(yīng)的二值掩碼,接著提取混合語音的倒譜特征,最后利用特征進(jìn)行聚類。在聚類中,通過搜索一個目標(biāo)分類函數(shù)使類間散布矩陣和類內(nèi)散布矩陣的跡有最大值,系統(tǒng)模型如圖1所示。
圖1 系統(tǒng)流程圖
外圍處理和特征提取是語音分離過程中對混合信號的分解階段。通過外圍處理的時頻分解,輸入的時域信號被轉(zhuǎn)化為時頻域的表現(xiàn)形式。再通過特征提取,得到輸入信號在時頻域的特征,為后繼的聚類和語音分離提供輸入。
在外圍處理階段,基于人耳的聽覺感知機(jī)制,系統(tǒng)采用128個gammatone濾波器組成的濾波器組對輸入聲音信號進(jìn)行帶通濾波,濾波器的中心頻率以等矩形帶寬的方式分布在80Hz到5000Hz之間。然后,采用交疊分段方法,以20ms為幀長、10ms為幀移,對每一個頻率通道的濾波相應(yīng)做時域分幀處理,得到輸入信號的時頻域表示[7]。接著對128個濾波通道的輸出在時間維上降低采樣至100Hz并通過立方根操作壓縮降低采樣后的輸出,得到gammatone特征單元(GF 單元)[8]。
提取特征階段先應(yīng)用多基音跟蹤算法[9]對輸入信號進(jìn)行處理。通過基音跟蹤和時頻單元標(biāo)記,得到輸入信號的基音軌跡和對應(yīng)的同時語音流。其中,同時語音流用二值掩碼表示,即對理想二值掩碼(IBM)[10]的估計值。在理想二值掩碼中,1代表對應(yīng)時頻單元被標(biāo)記,0則相反。為了在序列組合階段通過聚類完成語音分離,需要提取語音信號gammatone頻率倒譜系數(shù)(GFCC)[8]。首先,通過二值掩碼和對應(yīng)的同時語音流過濾GF單元,獲得被1標(biāo)記的單元并將沒有被標(biāo)記的單元移除。然后,依次處理每一幀,將獲得的被1標(biāo)記的單元通過離散余弦變換操作轉(zhuǎn)換成GFCC單元,最終形成語音信號的GFCC特征矩陣。
在雙說話人語音分離中,系統(tǒng)將序列組合過程視為一個聚類過程,即將同時流聚集成2個說話人的語音流。在聚類中通過一個目標(biāo)函數(shù)來評價不同聚類可能性的優(yōu)劣,具有最高目標(biāo)函數(shù)得分的聚類就是最終的結(jié)果。
本文中,聚類的目標(biāo)函數(shù)是基于類內(nèi)和類間距離的比率[11],即:
其中,g代表一種假設(shè)的分類向量,SB(g)和SW(g)分別表示類內(nèi)散布矩陣和類間散布矩陣,它們的計算公式分別為:
其中,x代表GFCC特征矩陣,Ck(g)代表假設(shè)的分類向量g中第k維分量,Nk(g)和mk(g)分表代表分類向量g中第k維分量的GFCC特征矩陣的元素個數(shù)及均值,m代表GFCC特征矩陣的均值,T為矩陣的轉(zhuǎn)置操作。
在給定目標(biāo)函數(shù)的情況下,聚類可以轉(zhuǎn)為一個求最優(yōu)解的問題,即求一個分類向量使得目標(biāo)函數(shù)O(g)有最大值。要尋找一個最優(yōu)解,可以通過窮舉的方法,當(dāng)輸入的語音信號長度較短時可以得到一個不錯的結(jié)果。但是對于較長的語音信號,可以使用基于剪枝搜索方法[12]。
系統(tǒng)開始先隨機(jī)挑選同時語音流中2個單位,分配到2個類別中。然后對未被挑選的同時語音流中單位進(jìn)行排序,排序的規(guī)則為按照它們第一幀的先后次序,接著將它們一個一個的組合。對于同時語音流中的每個單位,先假設(shè)它的分配值(0或1),并且僅僅根據(jù)目標(biāo)函數(shù)的分值保持w條具有較高分值的路徑。在處理完同時語音流最后一個單元后,選擇使目標(biāo)函數(shù)具有最高分值的路徑為解決方案。通過實驗,可以發(fā)現(xiàn)w=8是一個好的權(quán)值,在速度和性能方面可以得到一個不錯的結(jié)果。
為了方便比較,系統(tǒng)使用SSC語音數(shù)據(jù)集[13]中的雙說話人混合語音進(jìn)行測試。SSC語音數(shù)據(jù)集包含34個不同人的語音,每段語音材料存在一個目標(biāo)語音以及另一個不同的說話人的語音,每段語音信號的信噪比有-6dB、0dB、6dB三種情況。隨機(jī)挑選50個雙說話人混合語音材料分別在-6dB、0dB、6dB三種信噪比條件下進(jìn)行測試,并且所有語音材料的采樣頻率為16kHz。
本文通過衡量系統(tǒng)在分離多說話人語音時信噪比(SNR)的提升程度來評價系統(tǒng)的分離性能。信噪比提升由經(jīng)過系統(tǒng)分離得到的輸出語音材料的信噪比減去輸入材料的信噪比得到。輸出語音材料的信噪比計算公式為:
其中,SI[n]和 SE[n]分別代表從理想二值掩模和評估的二值掩模重新合成的語音材料。
本文將系統(tǒng)的分離性能與分離中基于訓(xùn)練的背景模型(BM)[14]進(jìn)行比較。在BM模型中,通過訓(xùn)練SSC數(shù)據(jù)集中語音材料,將每個說話人模擬成64維的GMM模型,并且將SSC數(shù)據(jù)集中34個說話人語音分為2部分,隨機(jī)挑選10人作為目標(biāo)語音,剩余24人為干擾語音,從而形成目標(biāo)語音的先驗知識,使得系統(tǒng)對于目標(biāo)語音更為熟悉。在分離中,BM模型與本文的方法都是先完成同時組合,但是在序列組合中BM方法通過最大化語音識別得分形成目標(biāo)語音,本文則通過聚類完成分類。為了得到系統(tǒng)的最佳分離性能,筆者測試了在進(jìn)行搜索時,w在不同值下的分離性能。
表1 不同混合信噪比和剪枝過程不同w值下SNR提升(dB)
分解結(jié)果的比較如表1所示,“BM”列表示基于訓(xùn)練的背景模型的方法的分離性能,“Proposed”列表示本文提出的方法,w值表示剪枝過程中保留枝數(shù)不同所得到的分離性能。由表中結(jié)果可知本文提出的方法在3種SNR條件和不同w值下的分離的性能都比BM方法要好,尤其在混合語音材料SNR越高,分離的性能就越好。這得益于基于聚類的序列組合方式在SNR較高或越高時,提取混合語音材料特征的差異就越明顯使得分離效果更好。另外,從表1中可知當(dāng)剪枝過程中保留枝數(shù)為8時,比較適合本文的搜索方法,得到的分離性能優(yōu)于其他w值。
基于計算機(jī)聽覺場景模型,本文提出一種基于聚類的雙說話人混合語音分離方法。該方法引用計算聽覺場景分析模型的分離與組合過程,與基于訓(xùn)練的語音分離模型相比,在序列組合階段采用聚類的方法,不需要訓(xùn)練過程以及被分離混合語音材料的先驗知識,通過提取特征以及基于剪枝的搜索方法完成語音分離。實驗結(jié)果表明,與基于訓(xùn)練的語音分離模型相比,該方法不僅所需要的前提條件更少,在分離性能上也有所提升,為雙說話人的語音分離提供了一種新的思路。
[1]Bregman A S.Auditory Scene Analysis:The Perceptual Organization of Sound[M].MIT press,1994.
[2]吳鎮(zhèn)揚(yáng),張子喻,李想,等.聽覺場景分析的研究進(jìn)展[J].電路與系統(tǒng)學(xué)報,2001,6(2):68-73.
[3]Shao Y,Wang D L.Model-based sequential organization in cochannel speech[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(1):289-298.
[4]Barker J,Coy A,Ma N,et al.Recent advances in speech fragment decoding techniques[C]//Proceedings of Interspeech.2006:85-88.
[5]Hershey J R,Rennie S J,Olsen P A,et al.Super-human multi-talker speech recognition:A graphical modeling approach[J].Computer Speech & Language,2010,24(1):45-66.
[6]Weiss R J,Ellis D P W.Speech separation using speakeradapted eigenvoice speech models[J].Computer Speech& Language,2010,24(1):16-29.
[7]Wang Deliang,Guy J Brown.Computational Auditory Scene Analysis:Principles,Algorithms,and Applications[M].Wiley-IEEE Press,2006.
[8]Shao Y.Sequential Organization in Computational Auditory Scene Analysis[D].The Ohio State University,2007.
[9]Jin Z,Wang D L.Reverberant speech segregation based on multipitch tracking and classification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(8):2328-2337.
[10]Narayanan A,Wang D L.Robust speech recognition from binary masks[J].The Journal of the Acoustical Society of America,2010,128(5):EL217-EL222.
[11]Xu R,Wunsch D.Clustering[M].Wiley Press,2008.
[12]Shukla Shubhendu S,Vijay J.Applicability of artificial intelligence in different fields of life[J].International Journal of Scientific Engineering and Research,2013,1(1):28-35.
[13]Cooke M,Lee T.Speech Separation Challenge[DB/OL].http://staffwww.dcs.shef.ac.uk/people/M.Cooke/SpeechSeparationChallenge.htm,2006-11-11.
[14]Shao Y,Wang D L.Sequential organization of speech in computational auditory scene analysis[J].Speech Communication,2009,51(8):657-667.