呂 勇,吳鎮(zhèn)揚(yáng)
(東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
基于矢量泰勒級數(shù)的魯棒語音識別
呂 勇,吳鎮(zhèn)揚(yáng)
(東南大學(xué)信息科學(xué)與工程學(xué)院,南京 210096)
矢量泰勒級數(shù)是一種有效的抗噪聲魯棒語音識別算法.然而在對數(shù)譜域,美爾濾波器組的不同通道之間有較強(qiáng)的相關(guān)性,因而難以從含噪語音中準(zhǔn)確估計(jì)噪聲的方差.提出了一種基于矢量泰勒級數(shù)的倒譜域特征補(bǔ)償算法.該算法在倒譜域,用一個(gè)高斯混合模型描述語音倒譜特征的分布,通過矢量泰勒級數(shù)從含噪語音中估計(jì)噪聲的均值和方差.實(shí)驗(yàn)結(jié)果表明,此算法能明顯提高語音識別系統(tǒng)的性能,優(yōu)于基于矢量泰勒級數(shù)的對數(shù)譜域特征補(bǔ)償算法.
特征補(bǔ)償;矢量泰勒級數(shù);噪聲估計(jì);魯棒語音識別
在實(shí)際應(yīng)用中,由于訓(xùn)練環(huán)境和測試環(huán)境的失配,語音識別系統(tǒng)的性能可能會急劇惡化.通??梢詮奶卣饔騕1-6]和模型域[7-8]2個(gè)方面減小環(huán)境失配對語音識別系統(tǒng)的影響.特征域方法對語音特征進(jìn)行歸整,提取抗噪能力強(qiáng)的特征參數(shù)[1]或?qū)υ肼暛h(huán)境下提取的特征向量進(jìn)行補(bǔ)償,盡可能將其恢復(fù)成純凈語音特征向量[2-6].模型域方法根據(jù)測試環(huán)境下的少量自適應(yīng)數(shù)據(jù)[7]或靜音段得到的噪聲信息[8],調(diào)整聲學(xué)模型的參數(shù),使之與測試環(huán)境下的特征向量相匹配.
相對于模型域方法,特征補(bǔ)償具有計(jì)算量小,處理時(shí)變噪聲能力強(qiáng)的優(yōu)點(diǎn),因此在噪聲補(bǔ)償中得到了廣泛應(yīng)用.基于模型的特征補(bǔ)償算法最初由Erell等[2]和 Acero[3]提出,在訓(xùn)練階段,用一個(gè)高斯混合模型(Gaussian mixture model,GMM)描述純凈語音特征的分布;在識別階段,首先根據(jù)噪聲參數(shù)調(diào)整 GMM的均值和方差,使之與測試環(huán)境匹配,然后根據(jù)含噪特征向量的后驗(yàn)概率,用最小均方誤差(minimum mean squared error,MMSE)方法估計(jì)純凈語音的特征參數(shù).為了從含噪語音中獲得噪聲參數(shù)的閉式解,Moreno等[9-10]在對數(shù)譜域用矢量泰勒級數(shù)(vector Taylor series,VTS)逼近純凈語音與含噪語音之間的非線性關(guān)系.然而,在對數(shù)譜域,美爾濾波器組的不同通道之間有較強(qiáng)的相關(guān)性,因而噪聲協(xié)方差矩陣的非對角元素較大,難以忽略.而且,盡管已經(jīng)用一階VTS近似非線性失配函數(shù),輔助函數(shù)關(guān)于噪聲方差的導(dǎo)數(shù)仍然是非線性的,沒有閉式解.因此,Moreno[10]僅估計(jì)噪聲的均值,在估計(jì)含噪語音GMM的方差時(shí)忽略噪聲的方差.這不僅會帶來誤差,而且有可能導(dǎo)致矩陣奇異.Kim 等[11]提出了一種基于逐幀(frameby-frame)噪聲估計(jì)的 VTS方法,對 GMM 的每個(gè)高斯單元分別估計(jì)噪聲的均值和方差,再加權(quán)平均,得到最終的噪聲參數(shù).逐幀噪聲估計(jì)的計(jì)算量非常大,大約是批處理(Batch)噪聲估計(jì)[10]的 N倍(N為當(dāng)前單詞發(fā)音的幀數(shù))[12].且逐幀噪聲估計(jì)的結(jié)果不如批處理噪聲估計(jì)準(zhǔn)確[12].因此在 VTS算法中噪聲一般都用批處理方式估計(jì)[13-14],即對每個(gè)單詞發(fā)音,合并所有高斯單元的全部數(shù)據(jù),估計(jì)同一組噪聲參數(shù)(均值和方差).在文獻(xiàn)[13-14]中,噪聲的方差通過牛頓法估計(jì),即在每次迭代中將輔助函數(shù)的導(dǎo)數(shù)近似為線性函數(shù).牛頓法不僅需要較多的迭代次數(shù)(相對于閉式解),而且因?yàn)橐?jì)算輔助函數(shù)的二階偏導(dǎo)數(shù),計(jì)算量很大,不利于系統(tǒng)的實(shí)時(shí)實(shí)現(xiàn).
筆者提出了一種基于矢量泰勒級數(shù)的倒譜域特征補(bǔ)償算法.該算法在倒譜域,用一個(gè)高斯混合模型描述語音倒譜特征的分布,通過矢量泰勒級數(shù)方法從含噪語音中估計(jì)噪聲的均值和方差.該算法不僅調(diào)整GMM的均值向量,而且從含噪語音中估計(jì)加性噪聲的方差,從而更新GMM的協(xié)方差矩陣.在倒譜域,特征向量不同維數(shù)之間的相關(guān)性較小,因而可以將語音模型和噪聲模型的方差近似為對角矩陣.根據(jù)這一假設(shè),本文采用基于期望最大(expectation-maximization,EM)算法[15]的噪聲方差估計(jì)方法.該算法可以看成是對數(shù)譜域VTS特征補(bǔ)償算法[10]的一種推廣.
式中:ux,m和 Sx,m分別表示純凈語音GMM第m個(gè)高斯單元的均值向量和協(xié)方差矩陣;un和 Sn分別表示加性噪聲的均值和方差;un0是 un上一次迭代得到的初值;I表示單位矩陣;diag( )表示以括號中的向量為對角元素,生成對角矩陣.文獻(xiàn)[10]只考慮噪聲的均值 un,忽略了方差 Sn.因而,含噪語音協(xié)方差矩陣 Sy,m僅僅通過式(3)右邊第 1項(xiàng)估計(jì).當(dāng)接近單位矩陣I時(shí),忽略第 2項(xiàng),有可能導(dǎo)致矩陣奇異.
直接在倒譜域估計(jì)純凈語音特征參數(shù),用一個(gè)GMM描述純凈語音倒譜特征x的分布
式中:cm、μx,m和Σx,m分別表示第m個(gè)高斯單元的混合系數(shù)、均值向量和協(xié)方差矩陣;d表示倒譜特征的維數(shù);M表示混合數(shù).
通過離散余弦變換(discrete cosine transform,DCT),將式(1)變換到倒譜域,即
在式(3)兩邊同時(shí)左乘DCT矩陣C,右乘C的轉(zhuǎn)置矩陣TC ,可得
通常假設(shè)噪聲只影響GMM的均值和方差,不影響混合系數(shù).在用式(7)和式(10)更新 GMM 的均值和方差前,必須先估計(jì)未知參數(shù)μn和Σn.
噪聲參數(shù)μn和Σn通過EM算法[15]和最大似然準(zhǔn)則,從含噪語音中估計(jì).EM算法的輔助函數(shù)定義為
式(19)表示對當(dāng)前幀的前K幀和后K幀進(jìn)行差分,K為常數(shù),本文設(shè)置為4.
用 TIMIT語音庫評估所提算法的性能.該語音庫中的兩句對話被拆分為21個(gè)單詞,用于孤立詞語音識別.訓(xùn)練集包括144個(gè)說話人,共3,024個(gè)單詞樣本;測試集包括71個(gè)說話人,共1,491個(gè)單詞樣本.測試樣本在不同信噪比下與噪聲混合產(chǎn)生測試數(shù)據(jù)..3種噪聲,White、Pink與Factory,來自NOISEX-92 噪聲庫.
TIMIT的 16,kHz語音,通過低通濾波器降采樣到 8,kHz.在美爾頻域,將位于 64,Hz~4,kHz的有效頻帶分為 20個(gè)等寬通道.每幀數(shù)據(jù)長 16,ms,幀移為8,ms.每幀的特征向量包括13個(gè)倒譜系數(shù)(包括0階系數(shù))及其一階差分系數(shù).每個(gè)單詞用一個(gè) 6狀態(tài)左右結(jié)構(gòu)隱馬爾可夫模型(hidden Markov model,HMM)建模,每個(gè)狀態(tài)有 4個(gè)高斯單元.用于特征補(bǔ)償?shù)牡棺V域GMM和對數(shù)譜域GMM均包括400個(gè)高斯單元.HMM和GMM高斯單元的方差均設(shè)為對角矩陣.在 EM 算法的第 1次迭代中,噪聲的初始均值μ0n和初始方差Σ0n(對應(yīng)σ0n)分別設(shè)置為零向量和單位矩陣.
表 1是 3種噪聲(White、Pink和 Factory)環(huán)境下,不同信噪比時(shí)原 VTS算法[5]和本文算法的誤識率.本文算法包括算法 1和算法 2,算法 1只更新GMM 的均值;算法 2同時(shí)更新均值和方差.從表 1可以看出,本文算法 1優(yōu)于原 VTS算法.這是因?yàn)椋棺V域 GMM 和對數(shù)譜域 GMM 均用對角協(xié)方差矩陣,以減小計(jì)算量;而倒譜系數(shù)之間的相關(guān)性比對數(shù)譜系數(shù)小得多,因此在倒譜域,用對角協(xié)方差矩陣代替滿矩陣描述語音特征的分布,導(dǎo)致的誤差更小.
表1 3種噪聲環(huán)境下不同信噪比時(shí)的誤識率Tab.1 Word error rates with different signal-to-noise ratios for three types of testing noise %
表 1同時(shí)表明,相對于本文算法 1,本文算法 2有更低的單詞誤識率,尤其在低信噪比時(shí),性能提高更為明顯.這充分說明了本文提出的方差自適應(yīng)算法的有效性.比如,0,dB時(shí),White、Pink和 Factory噪聲環(huán)境下,本文算法 2相對于本文算法 1,識別率分別提高了 7.8%、10.1%和 6.3%.式(8)表明,信噪比越低,含噪語音協(xié)方差矩陣與純凈語音協(xié)方差矩陣之間的偏差就越大.因此,低信噪比時(shí),有必要調(diào)整GMM的協(xié)方差矩陣.
圖 1為不同信噪比時(shí),原 VTS算法和本文算法在3種噪聲(White,Pink和 Factory)環(huán)境下的平均誤識率.由圖1可知,在各種信噪比環(huán)境下,本文算法2的平均誤識率最低.在 0,dB、5,dB、10,dB、15,dB 和20,dB信噪比環(huán)境下,本文算法 2相對于原 VTS算法,絕對誤識率分別下降了12.1%、9.9%、4.0%、1.1%和0.8%,相對誤識率分別下降了25.1%、34.8%、26.5%、12.9%和12.0%.
圖 1 原 VTS算法和本文算法在 3種測試噪聲環(huán)境下的平均誤識率Fig.1 Averaged word error rates of original VTS algo-Fig. 1 rithm and proposed algorithms for three types Fig. 1 of testing noise
在計(jì)算復(fù)雜度方面,本文算法相對于對數(shù)譜域VTS特征補(bǔ)償算法[10],計(jì)算量有所增加.因?yàn)橥ㄟ^式(9)得到的Um不再是對角矩陣,且本文算法增加了噪聲方差估計(jì)過程.但本文算法的噪聲方差估計(jì)是閉式解,其計(jì)算量比牛頓法要小得多.相對于目前數(shù)字信號處理器件(digital signal processor,DSP)的性能,本文算法增加的計(jì)算量是可以接受的.
本文提出了一種基于矢量泰勒級數(shù)的倒譜域特征補(bǔ)償算法.該算法在訓(xùn)練階段,用一個(gè)高斯混合模型描述語音倒譜特征的分布;在識別階段,首先根據(jù)噪聲參數(shù)調(diào)整GMM的均值和方差,使之與測試環(huán)境匹配,然后根據(jù)含噪特征向量的后驗(yàn)概率,用 MMSE方法估計(jì)純凈語音特征參數(shù).含噪語音和純凈語音模型參數(shù)之間的非線性關(guān)系用一階矢量泰勒級數(shù)近似,噪聲參數(shù)通過 EM 算法和最大似然準(zhǔn)則從含噪語音中估計(jì).該算法可以看成是原對數(shù)譜域 VTS特征補(bǔ)償算法的一種推廣.實(shí)驗(yàn)結(jié)果表明,本文算法對提高語音識別系統(tǒng)的噪聲魯棒性非常有效,能明顯提高語音識別系統(tǒng)的識別性能,優(yōu)于原VTS算法.
[1]Atal B. Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification[J].Journal of the Acoustical Society of America,1974,55(6):1304-1312.
[2]Erell A,Weintraub M. Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech[J].IEEE Trans on Speech and Audio Processing,1993,1(1):68-76.
[3]Acero A.Acoustical and Environmental Robustness in Automatic Speech Recognition[M]. Norwell:Kluwer Academic Publisher,1993.
[4]Sasou A,Asano F,Nakamura S,et al. HMM-based noiserobust feature compensation[J].Speech Communication,2006,48(9):1100-1111.
[5]Kim W,Hansen J H L. Feature compensation in the cepstral domain employing model combination[J].Speech Communication,2009,51(2):83-96.
[6]呂 勇,吳鎮(zhèn)揚(yáng). 基于隱馬爾可夫模型與并行模型組合的特征補(bǔ)償算法[J]. 東南大學(xué)學(xué)報(bào):自然科學(xué)版,2009,39(5):889-893.
Lü Yong,Wu Zhenyang. Feature compensation algorithm based on hidden Markov model and parallel model combination[J].Journal of Southeast University:Natural Science Edition,2009,39(5):889-893(in Chinese).
[7]Lü Yong,Wu Zhenyang. Maximum likelihood model adaptation using piecewise linear transformation for robust speech recognition[C]//IEEE International Sympo-sium on Consumer Electronics.Kyoto,Japan,2009:608-610.
[8]Gales M J F. Model-Based Techniques for Noise Robust Speech Recognition[D]. Cambridge: Cambridge University,1995.
[9]Moreno P J,Raj B,Stern R M. A vector Taylor series approach for environment-independent speech recognition[C]//IEEE Int Conf on Acoustics,Speech,and Signal Processing. Atlanta,USA,1996:733-736.
[10]Moreno P J. Speech Recognition in Noisy Environments[D]. Pittsburgh: Carnegie Mellon University, 1996.
[11]Kim D Y,Un C K,Kim N S. Speech recognition in noisy environments using first-order vector Taylor series[J].Speech Communication,1998,24(1):39-49.
[12]Li J,Deng L,Yu D,et al. High-performance HMM adaptation with joint compensation of additive and convolutive distortions via vector Taylor series [C]//IEEE Workshop on Automatic Speech Recognition and Understanding. Antwerp,Belgium,2007:65-70.
[13]Liao H,Gales M J F. Adaptive training with joint uncertainty decoding for robust recognition of noisy data[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing. Honolulu,USA,2007,4:389-392.
[14]Li J,Deng L,Yu D,et al. A unified framework of HMM adaptation with joint compensation of additive and convolutive distortions[J].Computer Speech and Language,2009,23(3):389-405.
[15]Dempster A,Laird N,Rubin D. Maximum likelihood from incomplete data via the EM algorithm[J].Journal of the Royal Statistical Society,1977,39(1):1-38.
Robust Speech Recognition Based on Vector Taylor Series
Lü Yong,WU Zhen-yang
(School of Information Science and Engineering,Southeast University,Nanjing 210096,China)
The vector Taylor series(VTS)expansion is an effective approach to noise robust speech recognition. However,in the log-spectral domain,there exist the strong correlations among the different channels of Mel filter bank and thus it is difficult to estimate the noise variance from noisy speech proposes. A feature compensation algorithm in the cepstral domain based on vector Taylor series was proposed. In this algorithm,the distribution of speech cepstral features was represented by a Gaussian mixture model(GMM),and the mean and variance of noise were estimated from noisy speech by the VTS approximation. The experimental results show that the proposed algorithm can significantly improve the performance of speech recognition system,and outperforms the VTS-based feature compensation method in the log-spectral domain.
feature compensation;vector Taylor series;noise estimation;robust speech recognition
TN912.34
A
0493-2137(2011)03-0261-05
2009-11-27;
2010-04-08.
國家自然科學(xué)基金資助項(xiàng)目(60971098).
呂 勇(1979— ),男,博士研究生,lynetwork@gmail.com.
吳鎮(zhèn)揚(yáng),zhenyang@seu.edu.cn.