周琳,趙一良,朱竑諭,湯一彬
基于雙耳語音分離和丟失數(shù)據(jù)技術(shù)的魯棒語音識別算法
周琳1,趙一良1,朱竑諭1,湯一彬2
(1. 東南大學(xué)信息與工程學(xué)院水聲信號處理教育部重點實驗室,江蘇南京 210096;2. 河海大學(xué)物聯(lián)網(wǎng)學(xué)院,江蘇常州 213022)
魯棒語音識別技術(shù)在人機(jī)交互、智能家居、語音翻譯系統(tǒng)等方面有重要應(yīng)用。為了提高在噪聲和語音干擾等復(fù)雜聲學(xué)環(huán)境下的語音識別性能,基于人耳聽覺系統(tǒng)的掩蔽效應(yīng)和雞尾酒效應(yīng),利用不同聲源的空間方位,提出了基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的魯棒語音識別算法。該算法首先根據(jù)目標(biāo)語音的空間方位信息,在雙耳聲信號的等效矩形帶寬(Equivalent Rectangular Bandwidth, ERB)子帶內(nèi)進(jìn)行混合語音信號的分離,從而得到目標(biāo)語音的數(shù)據(jù)流。針對分離后目標(biāo)語音在頻域存在頻譜數(shù)據(jù)丟失的問題,利用丟失數(shù)據(jù)技術(shù)修正基于隱馬爾科夫模型的概率計算,再進(jìn)行語音識別。仿真實驗表明,由于雙耳聲源分離方法得到的目標(biāo)語音數(shù)據(jù)去除了噪聲和干擾的影響,所提出的算法顯著提高了復(fù)雜聲學(xué)環(huán)境下的語音識別性能。
空間聽覺;雙耳聲源分離;丟失數(shù)據(jù)技術(shù);誤識率
魯棒語音信號處理研究認(rèn)為,實際應(yīng)用環(huán)境和模型訓(xùn)練環(huán)境的不匹配是造成了識別系統(tǒng)性能下降的主要原因,因此盡可能減小訓(xùn)練環(huán)境和測試環(huán)境的失配,是當(dāng)前魯棒語音信號處理系統(tǒng)的主要研究方向,常用的方法包括魯棒特征參數(shù)提取、特征補(bǔ)償和模型自適應(yīng)等。
人耳聽覺系統(tǒng)在實際嘈雜環(huán)境下的感知能力是非常強(qiáng)的,BREGMAN[1]結(jié)合心理和生理聲學(xué)研究,分析人耳聽覺系統(tǒng)的雞尾酒效應(yīng),指出人耳聽覺感知過程可以分為兩個階段:第一,聲學(xué)信號的切分(segmentation)過程,第二,屬于同一聲源的感知成分的組合(grouping)過程,從而形成不同聲源連貫的數(shù)據(jù)流(coherent stream)。也就是說聽覺系統(tǒng)的感知過程,實際上是聽覺場景中不同聲源信號的重組織過程,混合聲信號中屬于同一聲源的分量組織到同一個數(shù)據(jù)流中,得到各個聲源對應(yīng)的數(shù)據(jù)流,使得人耳聽覺系統(tǒng)可以區(qū)分不同的聲源。由此可見,包含目標(biāo)聲源、噪聲和干擾的混合聲信號分離和重構(gòu)是聽覺系統(tǒng)聲學(xué)感知和理解的基礎(chǔ),也為語音信號和聲學(xué)信號的魯棒性研究提供了新的方向,因此我們從混合語音分離的角度來研究語音識別系統(tǒng)的魯棒性。
目前常用的語音分離方法包括:基于基函數(shù)的分離方法、基于模型的分離方法和基于計算聽覺場景分析(Computational Auditory Scene Analysis, CASA)的方法?;谀P秃突诨瘮?shù)的方法,在實際語音分離中的性能下降都是由于訓(xùn)練環(huán)境和測試環(huán)境的不匹配導(dǎo)致的。而基于CASA的語音分離是根據(jù)聽覺系統(tǒng)對聲學(xué)事件的重組織過程實現(xiàn)不同聲源的分離[2],目前認(rèn)為在CASA框架下,引入基于丟失、不可靠聲學(xué)信息的分類,可以規(guī)避訓(xùn)練和測試環(huán)境的不匹配問題。通過對混合信號的時頻單元(Time-Frequency, TF)估計理想二進(jìn)制掩蔽(Ideal Binary Mask, IBM),將其作為各個源信號的標(biāo)識位,從而形成各個聲源對應(yīng)的時頻單元,不僅可以解決欠定語音分離問題,還可以大幅提高噪聲環(huán)境下分離語音的信噪比、可懂度和識別率,因此基于CASA估計IBM已經(jīng)成為CASA的主要目標(biāo)。
CASA的難點是提取具有感知區(qū)分性的分離特征參數(shù)用于估計IBM,常用的分離特征參數(shù)包括:基音周期、幅度調(diào)制(Amplitude Modulation, AM)、幅度調(diào)制譜(Amplitude Modulation Spectrogram, AMS)、Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)[3]等。但是以上分離特征參數(shù)存在明顯不足,首先在噪聲環(huán)境下,基音周期估計的準(zhǔn)確性受到影響,同時基音周期和說話人、說話內(nèi)容關(guān)系密切,因此僅僅依賴于基音、諧波分量來切分和組合感知單元,會嚴(yán)重影響分離的效果。其次,基音周期、諧波可以用于濁音段的分離,但由于語音信號中的清音成分沒有諧波結(jié)構(gòu),且能量較小,更容易受到干擾,因此目前的CASA不具備分離清音的能力。
針對當(dāng)前CASA的不足,本文對基于空間方位感知的雙耳語音分離進(jìn)行研究,是基于以下考慮:首先,人耳聽覺系統(tǒng)的雙側(cè)聽覺神經(jīng)系統(tǒng)能夠分析和整合同側(cè)、對側(cè)聲信號,根據(jù)雙耳聲信號,人耳可以檢測最多5個聲源信號;其次聲源的空間方位信息與語音信號內(nèi)容、說話人無關(guān),即使待分離的源信號基音、諧波特征與訓(xùn)練數(shù)據(jù)不同,也能依據(jù)方位信息進(jìn)行有效分離。
基于方位信息的語音分離具有以上優(yōu)勢,目前有不少該方向的研究工作。YAO等[4]將雙耳聲源定位和盲源分離方法相結(jié)合,用于包含語音和噪聲的混合雙耳聲信號的語音分離。ANDRESA等[5]則在線性約束最小方差框架下實現(xiàn)雙耳聲信號的波束成形。ZOHOURIAN等[6]則利用耳間時間差(Inter-aural Time Difference, ITD)、耳間強(qiáng)度差(Inter-aural Level Differences, ILD)特征參數(shù),基于最小均方誤差(Minimum Mean Squared Error, MMSE)準(zhǔn)則進(jìn)行雙耳聲源定位,在此基礎(chǔ)上,利用雙耳廣義旁瓣抵消器(Generalized Sidelobe Canceller, GSC)波束形成方法用于分離目標(biāo)說話人語音?;诓ㄊ纬傻牟蛔憔褪沁@些方法沒有充分利用雙耳的空間特征信息。MUROTA等[7]針對這一問題,提出了對左、右耳聲信號利用不同的統(tǒng)計模型進(jìn)行建模,再基于最小均方誤差譜幅度估計(Minimum Mean Square Error-Short Time Spectral Amplitude, MMSE STSA)對混合語音進(jìn)行分離。
除了基于波束成形的語音分離,基于模式識別的雙耳語音分離也是主要的研究方向。KIM等[8]基于ITD、ILD的方差對頻點的掩蔽值進(jìn)行估計,基于頻點進(jìn)行目標(biāo)聲源的分離。由于基于頻點的分離方法,容易受到噪聲和混響的干擾,會導(dǎo)致頻點分類的錯誤。HARDING等[9]在聽覺分析濾波器Gammatone子帶內(nèi)利用ITD和ILD參數(shù),基于直方圖的概率模型實現(xiàn)子帶分離。但要求測試聲源的角度設(shè)置,與訓(xùn)練過程保持一致,否則會造成聲源分類的誤判。KERONEN等[10]、ALINAGHI等[11]利用高斯混合模型(Gaussian Mixed Model, GMM)對混合矢量(Mixing Vector, MV)、ITD、ILD進(jìn)行建模,用于解決TF單元的分類問題,但混響對該類算法性能的影響較大。WANG等[12]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)引入到語音分離中,將雙耳語音分離看成有監(jiān)督的學(xué)習(xí)問題,并將空間特征線索從ITD、ILD擴(kuò)展為雙耳互相關(guān)函數(shù)(Cross Correlation Function, CCF)和波束成形后的頻譜特征參數(shù)[13],用于訓(xùn)練DNN。JIANG等[14]同時提取雙耳和單耳特征用于訓(xùn)練每一個頻帶的DNN網(wǎng)絡(luò),從而進(jìn)行二值分類。YU等[15]則利用DNN對TF單元的雙耳特征線索進(jìn)行建模,并利用雙耳房間脈沖響應(yīng)(Binaural Room Impulse Responses, BRIR)與單聲源信號的卷積結(jié)果作為訓(xùn)練樣本,這樣DNN對混響環(huán)境下的雙耳特征線索進(jìn)行建模,但如果訓(xùn)練階段使用的BRIR與測試的BRIR不匹配,會造成分離語音質(zhì)量的下降。
基于GMM、DNN等模型的ITD、ILD子帶分離中,訓(xùn)練和測試需要設(shè)置一致的目標(biāo)聲源、干擾聲源方位,這一條件限制了算法的應(yīng)用場合。針對這一不足,本文提出在Gammatone子帶內(nèi)基于雙耳聲信號的相似度實現(xiàn)子帶的分離,在此基礎(chǔ)上,利用丟失數(shù)據(jù)技術(shù)實現(xiàn)分離后目標(biāo)語音數(shù)據(jù)流的識別。本文利用Gammtone濾波器組首先對雙耳混合聲信號進(jìn)行子帶分析,在子帶內(nèi)通過雙耳空間特征參數(shù)ITD、ILD,基于雙耳間聲道的相似度,實現(xiàn)子帶目標(biāo)聲源的掩蔽值計算,從而得到了目標(biāo)聲源的數(shù)據(jù)流。分離后的目標(biāo)聲源流在丟失數(shù)據(jù)(missing data)技術(shù)框架下進(jìn)行丟失頻譜的估計和重建,用于語音識別。本文算法基于耳間聲信號的相似度進(jìn)行目標(biāo)聲源分離,避免了對目標(biāo)聲源、干擾聲源方位角度的限制,同時本文僅利用雙耳空間特征進(jìn)行目標(biāo)聲源分離時,當(dāng)目標(biāo)聲源、干擾聲源為語音信號時,也可以實現(xiàn)準(zhǔn)確的語音分離和識別。針對不同類型、不同方位的噪聲環(huán)境下的仿真實驗表明,本文算法的識別性能均有明顯提升。
本文提出的基于雙耳語音分離和丟失數(shù)據(jù)技術(shù)的語音識別算法結(jié)構(gòu)如圖1所示。針對雙耳聲信號,算法包括訓(xùn)練和測試兩部分。測試階段,雙耳聲信號經(jīng)過Gammtone濾波后,根據(jù)目標(biāo)語音的方位角,在每個子帶內(nèi)計算掩蔽值,用于混合雙耳聲信號的分離,得到目標(biāo)語音的數(shù)據(jù)流后,通過丟失數(shù)據(jù)技術(shù)進(jìn)行目標(biāo)語音識別。
圖1 基于雙耳聲源分離和丟失數(shù)據(jù)的語音識別算法結(jié)構(gòu)框圖
根據(jù)圖1的算法結(jié)構(gòu),訓(xùn)練階段利用頭相關(guān)脈沖響應(yīng)函數(shù)(Head Related Impulse Response, HRIR)與單聲道白噪聲信號進(jìn)行卷積,得到[-90°, 90°]方位角范圍內(nèi)間隔為5°的方向性雙耳聲信號,這里-90°表示正左方,0°表示正前方,90°表示正右方。訓(xùn)練時采用的方向性雙耳聲信號只包含特定方位的單個聲源,用于建立每個方位角對應(yīng)的ITD和ILD數(shù)據(jù)庫,其中ITD定義為雙耳聲信號互相關(guān)函數(shù)最大值對應(yīng)的延遲:
由于語音信號在頻域具有良好的稀疏性,并且人耳聽覺系統(tǒng)具有掩蔽效應(yīng),我們將不同聲源信號的頻點離散正交性[16]擴(kuò)展到子帶正交性,即用表示第個聲源、第個子帶信號的傅里葉變換,則在第個子帶內(nèi),不同聲源的聲信號滿足:
根據(jù)子帶正交性條件,在任意一個子帶內(nèi),至多只有一個聲源信號占主導(dǎo)。以右耳信號為例,子帶內(nèi)的混合信號可做近似為
對第個聲源建立二值掩碼:
由于本文利用Gammtone濾波組對雙耳聲信號進(jìn)行子帶劃分,得到目標(biāo)語音對應(yīng)各個Gammtone子帶的頻域信號,因此選擇基于Gammtone子帶頻譜的RateMap參數(shù)作為HMM語音識別的特征參數(shù),RateMap定義為每個子帶信號1(,)的均值組成的向量。
基于HMM的語音識別利用GMM模型對每個狀態(tài)的RateMap參數(shù)進(jìn)行建模,假設(shè)GMM包含個高斯分量,協(xié)方差矩陣為對角陣,則某一狀態(tài)下RateMap的概率密度函數(shù)表示為
由于RateMap特征參數(shù)存在丟失的問題,直接利用丟失數(shù)據(jù)技術(shù)[17]對式(10)進(jìn)行修正,其中邊緣概率方法直接忽略丟失的特征參數(shù),則式(10)可改寫為
根據(jù)Bayes準(zhǔn)則:
其中:
將式(13)代入到式(12),得到:
整體而言,本文算法利用Gammtone濾波器,對包含干擾信號的混合雙耳聲信號進(jìn)行子帶分析,在頻域上根據(jù)目標(biāo)語音的方位信息,基于式(9),獲取目標(biāo)語音的子帶數(shù)據(jù)。根據(jù)目標(biāo)語音的子帶信號,計算對應(yīng)的RateMap參數(shù),并針對RateMap存在特征參數(shù)丟失的情況,根據(jù)式(11)對HMM的概率計算進(jìn)行修正,或者利用式(15)對丟失特征進(jìn)行估計,再通過常規(guī)的HMM方法進(jìn)行識別,得到最終的識別結(jié)果。
基于HMM的孤立詞識別系統(tǒng),本節(jié)詳細(xì)分析基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的魯棒語音識別系統(tǒng)性能。本文選擇TIMIT語音庫[18]中的21個單詞作為孤立詞,將每個孤立詞的144個樣本用于訓(xùn)練,71個樣本用于測試,這樣共有3 024個樣本用于訓(xùn)練,1 491個樣本用于測試。樣本采樣率為16 kHz,Gammatone濾波器組通道數(shù)為64,對應(yīng)的中心頻率取值范圍為50~8 000 Hz,濾波器的階數(shù)取4。每個孤立詞的RateMap參數(shù)采用對應(yīng)的HMM模型,狀態(tài)數(shù)為10,每個狀態(tài)包含8個高斯分量。
由于本文算法是基于混合聲信號中不同聲源的空間方位,實現(xiàn)目標(biāo)語音的分離,因此需要得到不同空間方位的雙耳聲信號,這里通過將單聲道的源信號和對應(yīng)方位的HRIR進(jìn)行卷積,得到對應(yīng)方位的左、右耳雙耳聲信號,生成過程如圖2所示。
圖2 方向性雙耳聲信號生成過程
基于HMM的孤立詞識別系統(tǒng)對方位角為0°的目標(biāo)語音進(jìn)行識別,這樣測試聲信號的特征參數(shù)包含了0°方位角的空間信息。相對應(yīng)的,圖1中訓(xùn)練階段,HMM模型集采用的同樣是方位角為0°的訓(xùn)練樣本。
本節(jié)的仿真實驗主要分為兩部分,首先分析干擾聲源為噪聲信號時,本文基于雙耳聲源分離和數(shù)據(jù)丟失的語音識別系統(tǒng)性能,采用NoiseX92[19]中的白噪聲、工廠噪聲和粉紅噪聲。其次分析干擾聲源為語音信號時,本文所提算法的性能,干擾語音選擇了CHAINS Speech Corpus[20]語音庫SOLO中的一段女聲語音。測試時按不同的信噪比將測試樣本集中的目標(biāo)語音與干擾噪聲、干擾語音進(jìn)行混合,信噪比(Signal Noise Ratio, SNR)取0、5、10、15、20 dB。兩類仿真測試過程中,目標(biāo)語音的方位角均為0°,干擾噪聲、干擾語音的方位角分別設(shè)置為30°、60°、90°,目標(biāo)語音和干擾信號的方位角分布如圖3所示。
圖3 目標(biāo)語音與干擾聲源的方位示意圖
由于丟失數(shù)據(jù)技術(shù)分為基于邊緣概率的方法和基于數(shù)據(jù)估計的方法,因此本文分別對基于雙耳聲源分離和邊緣概率的孤立詞識別算法、基于雙耳聲源分離和數(shù)據(jù)估計的孤立詞識別算法性能進(jìn)行分析,采用誤識率(Word Error Rate, WER)作為識別系統(tǒng)性能指標(biāo)。同時我們?yōu)榱丝紤]系統(tǒng)性能的上限,給出子帶分離的理想掩蔽值(也稱為理想掩膜)。理想掩蔽值直接根據(jù)每個Gammatone子帶內(nèi)的目標(biāo)語音和干擾聲源的能量,計算對應(yīng)的信噪比獲得局部判決值(Local Criterion, LC),通過設(shè)定LC閾值對每個子帶進(jìn)行目標(biāo)語音的分類:
我們將基于MFCC系數(shù)和HMM模型的識別系統(tǒng)作為基線系統(tǒng),因此本文比較三種識別算法的性能:基線系統(tǒng)、基于雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的識別系統(tǒng)、基于理想掩蔽值的雙耳聲源分離和丟失數(shù)據(jù)技術(shù)的識別系統(tǒng)。
首先給出干擾分別為白噪聲、粉紅噪聲和工廠噪聲時,不同信噪比(Signal Noise Ratio, SNR)時,不同識別算法的誤識率結(jié)果,如圖4~6所示。針對每一類噪聲,圖示自上而下分別表示噪聲在30°、60°、90°的誤識率WER比較結(jié)果。
首先根據(jù)圖4~6的仿真結(jié)果,不同類型噪聲條件下,本文算法的WER均低于基線系統(tǒng)。同時,信噪比越低,本文算法的性能改善越明顯,這是由于信噪比越低,基線系統(tǒng)的語音特征參數(shù)受到的噪聲干擾越嚴(yán)重,而本文算法利用方位信息分離出的目標(biāo)語音數(shù)據(jù),受到噪聲的干擾明顯減少。
(a) 干擾噪聲位于30°
(b) 干擾噪聲位于60°
(c) 干擾噪聲位于90°
其次,對于同一類型的噪聲,目標(biāo)語音與干擾噪聲的空間方位相隔越大,即干擾噪聲的方位從30°變化到60°、90°時,本文算法的性能改善越明顯。這是由于目標(biāo)語音和干擾噪聲的空間方位間隔越大,各個子帶內(nèi),不同方位聲源的雙耳聲信號ITD、ILD的差異性逐步增加,從而提高了子帶分類的正確率,進(jìn)而改善了目標(biāo)語音數(shù)據(jù)流的識別率。
再者,不管是基于理想的掩蔽值,還是基于估計的掩蔽值,掩蔽值分離后的目標(biāo)語音采用邊緣化概率方法和采用數(shù)據(jù)估計方法,進(jìn)行孤立詞識別時的誤識率基本一致。相比較而言,邊緣化算法略優(yōu)于數(shù)據(jù)估計算法的識別性能,這是由于邊緣概率算法避免利用單一估計值來表示不可靠分量,相反,它只考慮丟失特征參數(shù)的分布,而數(shù)據(jù)估計技術(shù)更依賴于特征參數(shù)的統(tǒng)計概率分布而不是數(shù)據(jù)的可靠性,其優(yōu)勢在于可以得到完整的語音特征向量,從而可以采用常規(guī)的識別算法。
在干擾為噪聲時,基于理想掩蔽值的孤立詞識別性能要優(yōu)于基于估計掩蔽值的識別性能。這是由于理想掩蔽值對目標(biāo)語音子帶的判決更加準(zhǔn)確,分離后的目標(biāo)語音數(shù)據(jù)流基本只包含目標(biāo)語音成分,因此理想掩蔽值對應(yīng)的識別系統(tǒng)性能可以作為基于空間分離的識別系統(tǒng)上限。根據(jù)圖4~6,本文算法的識別性能和基于理想掩蔽值的識別系統(tǒng)性能存在一定的差距,根據(jù)我們目前的研究發(fā)現(xiàn),當(dāng)混合雙耳聲信號中包含了兩個以上的聲源時,ITD、ILD的聯(lián)合分布與單聲源的ITD、ILD分布有較大的差異,混合雙耳聲信號僅僅利用歐式距離進(jìn)行分離,其子帶分類的準(zhǔn)確性受到限制。因此提高混合雙耳聲信號中子帶分類的正確率,可以顯著提高后端識別系統(tǒng)的性能,即基于雙耳聲源分離和丟失數(shù)據(jù)的孤立詞識別系統(tǒng)性能還有較大的提升空間。
(a) 干擾噪聲位于30°
(b) 干擾噪聲位于60°
(c) 干擾噪聲位于90°
(a) 干擾噪聲位于30°
(b) 干擾噪聲位于60°
(c) 干擾噪聲位于90°
目前常用的魯棒語音識別算法如特征補(bǔ)償、模型自適應(yīng)等,對提取的純凈語音特征參數(shù)采用HMM、GMM等進(jìn)行建模,測試環(huán)境中的噪聲影響了HMM、GMM等模型參數(shù)分布,例如概率模型的均值向量和協(xié)方差矩陣,通常采用線性方法對噪聲干擾后的模型參數(shù)分布進(jìn)行預(yù)測。但當(dāng)干擾為語音信號時,例如有兩個或者多個說話人時,由于干擾語音的特征參數(shù)與目標(biāo)語音的特征參數(shù)分布相似度高,那么干擾語音對目標(biāo)語音特征參數(shù)模型的影響就不能簡單地利用線性模型來模擬,因此常規(guī)的魯棒語音識別算法對干擾語音的魯棒性較弱。本文所提算法從空間分離的角度,在空間域進(jìn)行混合雙耳聲信號的分離,不同聲源的區(qū)分特征更為明顯,因此本文進(jìn)一步分析在干擾為語音時,不同算法的識別性能差異。
同樣,目標(biāo)說話人的方位固定在方位0°,另一說話人的方位為30°、60°和90°,語音干擾的信干比取值范圍與噪聲的信噪比取值方位相同,不同算法的誤識率結(jié)果如圖7所示。
根據(jù)圖7結(jié)果,相對于圖4~6的識別結(jié)果,在干擾語音條件下,基線系統(tǒng)的誤識率要遠(yuǎn)遠(yuǎn)高于在噪聲環(huán)境下的誤識率,這是由于在相同的信噪比下,由于語音干擾和目標(biāo)語音特征參數(shù)的相似度較高,從而無法從混合語音信號中提取有效的目標(biāo)語音信號特征參數(shù)。而本文算法利用不同聲源的空間方位,在空間域?qū)崿F(xiàn)不同說話人語音信號的分離,因此本文算法相對于基線系統(tǒng)的性能提高,在語音干擾環(huán)境下,要比噪聲環(huán)境下的性能改善明顯。同時根據(jù)圖7,語音干擾和目標(biāo)語音的角度分隔越大,則本文算法的性能提高越明顯。
(a) 干擾噪聲位于30°
(b) 干擾噪聲位于60°
(c) 干擾噪聲位于90°
同時,在相同的信噪比下,語音干擾條件下的本文算法識別性能不如在噪聲環(huán)境下的性能。特別的,理想掩蔽值對應(yīng)的識別系統(tǒng)性能在低信噪比下的性能不如圖4~6在噪聲干擾下的識別性能,這并不是由于理想掩蔽值不能實現(xiàn)正確的目標(biāo)聲源分離,而是由于式(16)、(17)在進(jìn)行子帶分類時,是基于式(3)給出的兩個聲源信號在子帶內(nèi)的正交性,根據(jù)子帶內(nèi)目標(biāo)語音和干擾語音的能量比實現(xiàn)分類的,這實際上是從聽覺系統(tǒng)的感知機(jī)制得到的結(jié)論,即在一個臨界頻帶內(nèi),人耳聽覺系統(tǒng)由于掩蔽效應(yīng),只能感知一個聲源信號,但該子帶內(nèi)實際包含兩個或者兩個以上聲源信號。這樣子帶分類后,雖然某一子帶歸為目標(biāo)語音,但該子帶內(nèi)實際上也包含了干擾語音成分,并且干擾語音對該子帶內(nèi)占主導(dǎo)的目標(biāo)語音的影響,比噪聲對目標(biāo)語音的影響大。因此如果要進(jìn)一步提高基于空間分離的識別系統(tǒng)在干擾語音下的識別性能,不能簡單的利用式(5)計算二進(jìn)制掩蔽值,用于目標(biāo)聲源、干擾聲源的分離,而是可以采用軟判決值的方法用于子帶內(nèi)目標(biāo)語音的分離,這也是我們下一步研究的方向。
本文基于人耳聽覺系統(tǒng)的掩蔽效應(yīng)和雞尾酒效應(yīng),利用不同聲源信號的空間方位進(jìn)行語音信號的分離,實現(xiàn)目標(biāo)語音的數(shù)據(jù)重構(gòu),再基于丟失數(shù)據(jù)技術(shù),進(jìn)行語音識別,從而提高了語音識別系統(tǒng)的魯棒性。在不同噪聲環(huán)境、不同空間方位條件下的仿真實驗結(jié)果表明,本文算法顯著提高了識別系統(tǒng)的性能。
同時本文研究表明,基于空間分離和丟失數(shù)據(jù)的識別算法性能取決于子帶分類的準(zhǔn)確性,如果要提高目標(biāo)語音分離的正確率,需要從兩個方面入手,其一是子帶分類的方法,目前課題組正在進(jìn)行基于深度神經(jīng)網(wǎng)絡(luò)的子帶分離算法研究,初步的仿真結(jié)果表明了該方法的有效性;其二需要對式(3)的感知正交性進(jìn)行建模,不使用二進(jìn)制進(jìn)行子帶的硬判決方法,而是利用軟判決的方法實現(xiàn)子帶的分類,從而能夠準(zhǔn)確地重構(gòu)目標(biāo)語音的數(shù)據(jù)流,這也是我們目前正在開展的研究工作。
[1] BREGMAN S. Auditory scene analysis: The perceptual organization of sound[M]. Cambridge, MA,US: The MIT Press, 1994.
[2] WANG D L, BROWN G. Computational auditory scene analysis: Principles, algorithms, and applications[M]. New York: Hoboken NJ: Wiley & IEEE Press, 2006.
[3] WANG Y, HAN K, WANG D L. Exploring monaural features for classification-based speech segregation[J]. IEEE Transactions on Audio, Speech and Language Processing, 2013, 21(2): 270-279.
[4] YAO J, XIANG Y, QIAN S, et al. Noise source separation of diesel engine by combining binaural sound localization method and blind source separation method[J]. Mechanical Systems & Signal Processing, 2017, 96: 303-320.
[5] KOUTROUVELIS A I, HENDRIKS R C, HEUSDENS R, et al. Relaxed Binaural LCMV Beamforming[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(1): 137-152.
[6] ZOHOURIAN M, MARTIN R. Binaural speaker localization and separation based on a joint ITD/ILD model and head movement tracking[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Shanghai, China, 2016: 430-434.
[7] MUROTA Y, KITAMURA D, KOYAMA S, et al. Statistical modeling of binaural signal and its application to binaural source separation[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Queensland, Australia, 2015: 494-498.
[8] KIM Y I, AN S J, KIL R M. Zero-crossing based binaural mask estimation for missing data speech recognition[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Toulouse, France, 2006: 89-92.
[9] HARDING S, BARKER J, BROWN G J. Mask estimation for missing data speech recognition based on statistics of binaural interaction[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(1): 58-67.
[10] KERONEN S, KALLASJOKI H, REMES U. Mask estimation and imputation methods for missing data speech recognition in a multisource reverberant environment[J]. Computer Speech & Language, 2013, 27(3): 798-819.
[11] ALINAGHI A, JACKSON P J B, LIU Q, et al. Joint mixing vector and binaural model based stereo source separation[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2014, 22(9): 1434-1448.
[12] WANG Y, WANG D L. Towards scaling up classification-based speech separation[J]. IEEE Trans. Audio, Speech, Lang. Process. 2013, 21(7): 1381-1390.
[13] ZHANG X, WANG D L. Deep Learning Based Binaural Speech Separation in Reverberant Environments[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(5): 1075-1084.
[14] JIANG Y, WANG D, LIU R, et al. Binaural classification for reverberant speech segregation using deep neural networks[J]. IEEE/ACM Trans. Audio, Speech, Lang. Process. 2014, 22(12): 2112-2121.
[15] YU Y, WANG W, HAN P. Localization based stereo speech source separation using probabilistic time-frequency masking and deep neural networks[J]. EURASIP J. Audio Speech Music Proc. 2016(1): 1-18.
[16] JOURJINE A, RICKARD S, YILMAZ O. Blind separation of disjoint orthogonal signals: Demixing n sources from 2 mixtures[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, Istanbul Turkey, 2000: 2985-2988.
[17] COOKE M, GREEN P, JOSIFOVSKI L, et al. Robust automatic speech recognition with missing and unreliable acoustic data[J]. Speech Communication, 2001, 34(3): 267-285.
[18] FISHER W, DODDINGTON G, and GOUDIE-MARSHALL K. The DARPA speech recognition research database: Specifications and status[C]//DARPA Speech Recognition Workshop, Palo Alto, CA, 1986: 93-99.
[19] VARGA A, STEENEKEN H, TOMLINSON M, et al. The NOISEX-92 study on the effect of additive noise on automatic speech recognition[R]. Speech Research Unit, Defense Research Agency, Malvern, UK, 1992.
[20] CUMMINS F, GRIMALDI M, LEONARD T, et al. The chains speech corpus: Characterizing individual speakers[C]//11thInternational Conference Speech and Computer, St. Petersburg, Russia, 2006: 1-6.
Robust speech recognition algorithm based on binaural speech separation and missing data technique
ZHOU Lin1, ZHAO Yi-liang1, ZHU Hong-yu1, TANG Yi-bin2
(1. Key Laboratory of Underwater Acoustic Signal Processing of Ministry of Education, School of Information Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China; 2. College of Internet of Things Engineering, Hohai University, Changzhou 213022, Jiangsu, China)
Robust speech recognition has an important application in human-computer interaction, smart home, voice translation system and so on. In order to improve the speech recognition performance in complex acoustic environment with noise and speech interference, a robust speech recognition algorithm based on binaural speech separation and missing data technique is proposed in this paper. First, according to the azimuth of the target sound source, the algorithm separates the mixed data in the sub-bands of equivalent rectangular bandwidth (ERB), and obtains the data flow of the target sound source. Then, in order to solve the problem that the target source loses spectral data in some ERB sub-bands, the probability calculation based on hidden Markov model is modified by using the missing data technique, and finally the reconstructed spectrum data is utilized for speech recognition. The simulation results show that the proposed algorithm can improve the performance of speech recognition in complex acoustic environment, because the influence of noise and interference on the target sound source data is neglected after binaural speech separation.
spatial hearing; binaural speech separation; missing data technique.; speech recognition; word error rate (WER)
H107
A
1000-3630(2019)-05-0545-09
10.16300/j.cnki.1000-3630.2019.05.011
2018-09-14;
2018-10-19
國家自然科學(xué)基金(61571106、61501169、61201345)、中央高?;究蒲袠I(yè)務(wù)費(fèi)專項資金(2242013K30010)
周琳(1978-), 女, 江蘇鎮(zhèn)江人, 副教授, 研究方向為語音、聲學(xué)信號處理。
周琳,E-mail: Linzhou@seu.edu.cn