周麗紅, 雷金輝
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
目前,語音識別技術(shù)作為信息社會朝著智能化和自動化方向發(fā)展的關(guān)鍵技術(shù)之一,具有重要的研究意義和實(shí)用價(jià)值。經(jīng)過近50年的艱苦探索和研究,語音識別技術(shù)研究獲得了極大的發(fā)展,其中,有些比較成熟的技術(shù)已經(jīng)逐步應(yīng)用于日常生活中。但總體來說,語音識別在研究和實(shí)用化方而的難度還比較大。由于每個人發(fā)出的語音中均包含有各自的語音信號特征,語音信號也具有和其他信號共有的一些特征參數(shù),比如周期、頻率、能量等[1]。
為了更直觀地對這些擁有共同特征參數(shù)的不同說話者進(jìn)行語音識別,本文采用了增強(qiáng)實(shí)現(xiàn)(augmented reality,AR)參數(shù)模型雙譜估計(jì)計(jì)算語音信號的雙譜。利用雙譜進(jìn)行語音信息的分析與研究,語音信息特征可以在雙譜圖上得以體現(xiàn),使得語音信息特征的研究更加直觀,對于語音辨識具有一定效果。
本文使用Windows附件的錄音機(jī)程序驅(qū)動聲片采集、播放和簡單語音信號處理[2]。語音錄音在相對安靜的環(huán)境中進(jìn)行,不摻雜外來噪音,實(shí)驗(yàn)人員均在語速和緩、心情平穩(wěn)下錄制語音。為了清晰地闡明對語音信號進(jìn)行頻譜分析,實(shí)驗(yàn)對象直接錄制一段語音,并保存為.WAV格式文件,供MATLAB相關(guān)函數(shù)直接讀取、寫入或播放。最后使用MATLAB讀取錄制的語音文件的數(shù)據(jù)進(jìn)行處理、加工。
如表1,本文設(shè)置了不同地域、不同性別以及不同語言類型3個變量,共采集了4次語音數(shù)據(jù),參與人年齡在18~20歲之間,共有80人參與錄制語音,本文選取16個雙譜圖特征明顯者進(jìn)行圖譜分析。
在語音信息特征分析中,將語音信號看作白噪聲激勵線性時不變系統(tǒng)的結(jié)果,如圖1所示。
表1 4次實(shí)驗(yàn)采集表
圖1 系統(tǒng)模型
設(shè)輸出{y(t)}為零均值的k階平穩(wěn)隨機(jī)過程,則k階累積量ck,y(τ1,…,τk-1)定義為[3]
ck,y(τ1,…,τk-1)=cum{y(t),y(t+τ1),…,y(t+τk-1)}
(1)
根據(jù)由Bartlett,Brilinger和Rosenblatt推導(dǎo)出的BBR公式,對于穩(wěn)定的線性系統(tǒng)H(z),設(shè)驅(qū)動信號a(t)為獨(dú)立同分布的非高斯白噪聲時,考慮因果關(guān)系的非最小相位系統(tǒng),則輸出y(t)的累積量函數(shù)為
h(t+τ3)
(2)
式中k為累積量的階數(shù);τ為滯后量;h(t)為系統(tǒng)的單位脈沖響應(yīng)函數(shù)。
聲帶振動的氣流激勵聲道之后產(chǎn)生出語音,輸出的隨機(jī)信號中含有系統(tǒng)的豐富動態(tài)信息,可以建立AR模型
(3)
式中α(i),i=1,2,…,p為自回歸系數(shù);p為自回模型的階數(shù)。
根據(jù)定義,隨機(jī)量y(t)的雙譜為3階矩的二維傅里葉(Fourier)變換三階譜。雙譜不僅能夠提取信號的幅值信息,而且能反映系統(tǒng)的相位信息,二次非線性相位耦合信息[4]。設(shè)高階累積量ck,y(τ1,…,τk-1)絕對可和
(4)
則k階累積量譜定義為k階累積量的k-1維Fourier變換,即
τk-1)·exp[-j(ω1τ1+ω2τ2+…+ωk-1τk-1)]
=γa,kH(ω1)H(ω2)…H(ωk-1)
H*[ω1+ω2+…+ωk-1]
(5)
式中ω為頻率;H(ω)為系統(tǒng)的傳遞函數(shù);H*(ω)為H(ω)的共軛函數(shù);Sy,k(ω1,ω2,…,ωk-1)為k階譜,亦稱為k階累積量譜。當(dāng)k=2,3,4時,分別為功率譜P(ω)、雙譜B(ω1,ω2)和三譜T(ω1,ω2,ω3)。因此,雙譜可以表示為[5~7]
B(ω1,ω2)=γ3aH(ω1)H(ω2)H*(ω1+ω2)
(6)
圖2為實(shí)驗(yàn)一中男女生的雙譜圖,4人均為云南省昆明市人。從男生的雙譜圖可以看出,2人的雙譜圖均存在非常明顯的譜峰,且譜峰較為清晰,圖像比較集中,譜峰幅值層次非常清楚,主要集中在對角區(qū)域,即(50,50)和(200,200)附近,而另外一個對角線區(qū)域卻未出現(xiàn)明顯的譜峰,中間部分亦無較為明顯的譜峰,其譜峰底部較為細(xì)小。從女生的雙譜圖可以看出,雙譜圖底部均較為粗大,波峰個數(shù)較多,較雜,圖形更為紊亂,且除了一個對角線上出現(xiàn)較為明顯的譜峰外,另一對角線上(50,200)和(200,50)處也出現(xiàn)了非常明顯的譜峰。另外,其譜峰覆蓋頻率較廣,幾乎覆蓋整個圖譜區(qū)域。
圖2 男女生的語音雙譜圖
圖3 不同語言類型語音雙譜圖
圖3為具有不同語言類型人的雙譜圖,2人均為云南省昆明人,且均為男生。普通話時的雙譜圖可以看出,雙譜圖譜峰明顯,底部較細(xì)小,且譜峰層次清晰,較為有序。譜峰主要集中在(50,50)和(200,200)附近,除對角線出現(xiàn)明顯譜峰外,其余各處也出現(xiàn)少許譜峰,但并不明顯。07#和08#圖為講方言時的相應(yīng)雙譜圖,其圖形紊亂,譜峰較多,底部粗大,譜峰覆蓋頻率面積廣,與第一組中的雙譜圖差異明顯。
圖4 不同地域人講普通話時的語音雙譜圖
圖4為4位不同地域人講普通話時的語音雙譜圖,均為男生。可以看出,4人的語音雙譜圖差別較大。
圖5為兩種性別、不同語言(方言)、不同地域人的語音雙譜圖,4人語音雙譜圖中,13#圖4中大的譜峰較少,底部也很細(xì)小,14#圖譜峰頻率覆蓋面均很大,出現(xiàn)很多譜峰,且相對雜亂,15#圖的譜峰底部較粗,16#圖的峰值主要集中在(125,125)附近,即雙譜圖中心位置,16#圖較15#圖譜峰寬很多。
圖5 不同性別與語言(方言)及地域的語音雙譜圖
從上述實(shí)驗(yàn)可以看出:
1)實(shí)驗(yàn)一中2個男生的語音雙譜圖較為相似,但男女生的2組語音雙譜圖差別明顯。故從實(shí)驗(yàn)一2組圖可以看出男生和女生的語音可以由雙譜圖很容易區(qū)分。實(shí)驗(yàn)二中不同語言類型人的兩組圖語音雙譜圖差別較大。實(shí)驗(yàn)三與實(shí)驗(yàn)四中具有各自特征人的雙譜圖亦較易辨別。
2)由本實(shí)驗(yàn)采集的數(shù)據(jù)情況看,每個人的語音雙譜圖與其性別、語言和地域相關(guān),不同之處越多,其雙譜圖越容易區(qū)分。
3)雙譜圖更直觀地表達(dá)了峰值所對應(yīng)的頻率位置,清晰表明個人語音雙譜圖的特征。雙譜圖可以有效辨別每人的語音特色,進(jìn)一步驗(yàn)證了雙譜圖在語音分析領(lǐng)域的重要作用。
通過雙譜圖中體現(xiàn)的信息進(jìn)行分析,可以辨識圖譜中的語音特征。由于能夠影響語音雙譜圖的因素很多,語音中的任何一個部分都會引起雙譜圖的變化,對于語音特征辨識的判斷比較復(fù)雜。因此,語音的識別仍有待于進(jìn)一步的研究。
語音雙譜圖之所以有很大不同,是因?yàn)槭芨鞣矫嬉蛩氐挠绊懀煌蛩卦蕉?,雙譜圖差別越明顯。不論何種語音,因素不同,譜峰位置也不同,這是由于頻率成分以及各頻率分量之間發(fā)生二次相位耦合的情況不同而反映出的必然結(jié)果。因此,從雙譜三維圖形上的特征頻率處表現(xiàn)出的幅值特性上能有效地區(qū)別不同說話人的類型,方法能大幅提高語音辨別的準(zhǔn)確性,且對語音變化很敏感,對處理語音信號有一定效果,為語音辨識提供了一種可供選擇的方法。
[1] 張 節(jié).語音信號的預(yù)處理和特征提取技術(shù)[J].電腦知識與技術(shù),2009,22(5):6280-6282.
[2] 趙淑敏.基于MATLAB實(shí)現(xiàn)對語音信號分析[J].信息通信,2010(4):15-17.
[3] 張賢達(dá).時間序列分析[M].北京:清華大學(xué)出版社,1996:4.
[4] 蔣雨燕.基于高階累積量AR模型參數(shù)的液壓閥故障識別[D].廈門:廈門大學(xué),2009.
[5] 張賢達(dá).現(xiàn)代信號處理[M].北京,清華大學(xué)出社,1995:90-93,274-280.
[6] Raghuveer M R.Time-domain approaches to quadratic phase coupling estimation [J].IEEE Transaction on Automatic Control,1990,35(1):48-56.
[7] Collis W B,White P R,Hammond J K.Higher-order spectra:The bispectrum and trispectrum[J].Mechanical Systems and Signal Processing,1998,12(3):375-394.