雙譜圖在語音分析中的應(yīng)用

2018-01-27 01:41周麗紅雷金輝

傳感器與微系統(tǒng) 2018年2期

周麗紅, 雷金輝

(昆明理工大學(xué) 信息工程與自動化學(xué)院，云南昆明 650500)

0 引言

目前，語音識別技術(shù)作為信息社會朝著智能化和自動化方向發(fā)展的關(guān)鍵技術(shù)之一，具有重要的研究意義和實(shí)用價(jià)值。經(jīng)過近50年的艱苦探索和研究，語音識別技術(shù)研究獲得了極大的發(fā)展，其中,有些比較成熟的技術(shù)已經(jīng)逐步應(yīng)用于日常生活中。但總體來說，語音識別在研究和實(shí)用化方而的難度還比較大。由于每個人發(fā)出的語音中均包含有各自的語音信號特征，語音信號也具有和其他信號共有的一些特征參數(shù)，比如周期、頻率、能量等[1]。

為了更直觀地對這些擁有共同特征參數(shù)的不同說話者進(jìn)行語音識別，本文采用了增強(qiáng)實(shí)現(xiàn)(augmented reality,AR)參數(shù)模型雙譜估計(jì)計(jì)算語音信號的雙譜。利用雙譜進(jìn)行語音信息的分析與研究，語音信息特征可以在雙譜圖上得以體現(xiàn)，使得語音信息特征的研究更加直觀，對于語音辨識具有一定效果。

1 數(shù)據(jù)采集

本文使用Windows附件的錄音機(jī)程序驅(qū)動聲片采集、播放和簡單語音信號處理[2]。語音錄音在相對安靜的環(huán)境中進(jìn)行，不摻雜外來噪音，實(shí)驗(yàn)人員均在語速和緩、心情平穩(wěn)下錄制語音。為了清晰地闡明對語音信號進(jìn)行頻譜分析，實(shí)驗(yàn)對象直接錄制一段語音，并保存為.WAV格式文件，供MATLAB相關(guān)函數(shù)直接讀取、寫入或播放。最后使用MATLAB讀取錄制的語音文件的數(shù)據(jù)進(jìn)行處理、加工。

如表1，本文設(shè)置了不同地域、不同性別以及不同語言類型3個變量，共采集了4次語音數(shù)據(jù)，參與人年齡在18～20歲之間，共有80人參與錄制語音，本文選取16個雙譜圖特征明顯者進(jìn)行圖譜分析。

2 AR模型與雙譜原理

在語音信息特征分析中，將語音信號看作白噪聲激勵線性時不變系統(tǒng)的結(jié)果，如圖1所示。

表1 4次實(shí)驗(yàn)采集表

圖1 系統(tǒng)模型

設(shè)輸出{y(t)}為零均值的k階平穩(wěn)隨機(jī)過程，則k階累積量ck,y(τ1,…,τk-1)定義為[3]

ck,y(τ1,…,τk-1)=cum{y(t),y(t+τ1),…,y(t+τk-1)}

(1)

根據(jù)由Bartlett,Brilinger和Rosenblatt推導(dǎo)出的BBR公式，對于穩(wěn)定的線性系統(tǒng)H(z)，設(shè)驅(qū)動信號a(t)為獨(dú)立同分布的非高斯白噪聲時，考慮因果關(guān)系的非最小相位系統(tǒng)，則輸出y(t)的累積量函數(shù)為

h(t+τ3)

(2)

式中k為累積量的階數(shù)；τ為滯后量；h(t)為系統(tǒng)的單位脈沖響應(yīng)函數(shù)。

聲帶振動的氣流激勵聲道之后產(chǎn)生出語音,輸出的隨機(jī)信號中含有系統(tǒng)的豐富動態(tài)信息，可以建立AR模型

(3)

式中α(i),i=1,2,…,p為自回歸系數(shù)；p為自回模型的階數(shù)。

根據(jù)定義，隨機(jī)量y(t)的雙譜為3階矩的二維傅里葉(Fourier)變換三階譜。雙譜不僅能夠提取信號的幅值信息，而且能反映系統(tǒng)的相位信息，二次非線性相位耦合信息[4]。設(shè)高階累積量ck，y(τ1，…，τk-1)絕對可和

(4)

則k階累積量譜定義為k階累積量的k-1維Fourier變換，即

τk-1)·exp[-j(ω1τ1+ω2τ2+…+ωk-1τk-1)]

=γa,kH(ω1)H(ω2)…H(ωk-1)

H*[ω1+ω2+…+ωk-1]

(5)

式中ω為頻率；H(ω)為系統(tǒng)的傳遞函數(shù)；H*(ω)為H(ω)的共軛函數(shù)；Sy,k(ω1,ω2,…,ωk-1)為k階譜，亦稱為k階累積量譜。當(dāng)k=2，3，4時，分別為功率譜P(ω)、雙譜B(ω1,ω2)和三譜T(ω1,ω2,ω3)。因此，雙譜可以表示為[5～7]

B(ω1,ω2)=γ3aH(ω1)H(ω2)H*(ω1+ω2)

(6)

3 實(shí)驗(yàn)數(shù)據(jù)分析

圖2為實(shí)驗(yàn)一中男女生的雙譜圖，4人均為云南省昆明市人。從男生的雙譜圖可以看出，2人的雙譜圖均存在非常明顯的譜峰，且譜峰較為清晰，圖像比較集中，譜峰幅值層次非常清楚，主要集中在對角區(qū)域，即(50，50)和(200，200)附近，而另外一個對角線區(qū)域卻未出現(xiàn)明顯的譜峰，中間部分亦無較為明顯的譜峰，其譜峰底部較為細(xì)小。從女生的雙譜圖可以看出，雙譜圖底部均較為粗大，波峰個數(shù)較多，較雜，圖形更為紊亂，且除了一個對角線上出現(xiàn)較為明顯的譜峰外，另一對角線上(50，200)和(200，50)處也出現(xiàn)了非常明顯的譜峰。另外，其譜峰覆蓋頻率較廣，幾乎覆蓋整個圖譜區(qū)域。

圖2 男女生的語音雙譜圖

圖3 不同語言類型語音雙譜圖

圖3為具有不同語言類型人的雙譜圖，2人均為云南省昆明人，且均為男生。普通話時的雙譜圖可以看出，雙譜圖譜峰明顯，底部較細(xì)小，且譜峰層次清晰，較為有序。譜峰主要集中在(50，50)和(200，200)附近，除對角線出現(xiàn)明顯譜峰外，其余各處也出現(xiàn)少許譜峰，但并不明顯。07#和08#圖為講方言時的相應(yīng)雙譜圖，其圖形紊亂，譜峰較多，底部粗大，譜峰覆蓋頻率面積廣，與第一組中的雙譜圖差異明顯。

圖4 不同地域人講普通話時的語音雙譜圖

圖4為4位不同地域人講普通話時的語音雙譜圖，均為男生。可以看出，4人的語音雙譜圖差別較大。

圖5為兩種性別、不同語言(方言)、不同地域人的語音雙譜圖，4人語音雙譜圖中，13#圖4中大的譜峰較少，底部也很細(xì)小，14#圖譜峰頻率覆蓋面均很大，出現(xiàn)很多譜峰，且相對雜亂，15#圖的譜峰底部較粗，16#圖的峰值主要集中在(125,125)附近，即雙譜圖中心位置，16#圖較15#圖譜峰寬很多。

圖5 不同性別與語言(方言)及地域的語音雙譜圖

從上述實(shí)驗(yàn)可以看出:

1)實(shí)驗(yàn)一中2個男生的語音雙譜圖較為相似，但男女生的2組語音雙譜圖差別明顯。故從實(shí)驗(yàn)一2組圖可以看出男生和女生的語音可以由雙譜圖很容易區(qū)分。實(shí)驗(yàn)二中不同語言類型人的兩組圖語音雙譜圖差別較大。實(shí)驗(yàn)三與實(shí)驗(yàn)四中具有各自特征人的雙譜圖亦較易辨別。

2)由本實(shí)驗(yàn)采集的數(shù)據(jù)情況看，每個人的語音雙譜圖與其性別、語言和地域相關(guān)，不同之處越多，其雙譜圖越容易區(qū)分。

3)雙譜圖更直觀地表達(dá)了峰值所對應(yīng)的頻率位置，清晰表明個人語音雙譜圖的特征。雙譜圖可以有效辨別每人的語音特色，進(jìn)一步驗(yàn)證了雙譜圖在語音分析領(lǐng)域的重要作用。

通過雙譜圖中體現(xiàn)的信息進(jìn)行分析，可以辨識圖譜中的語音特征。由于能夠影響語音雙譜圖的因素很多，語音中的任何一個部分都會引起雙譜圖的變化，對于語音特征辨識的判斷比較復(fù)雜。因此，語音的識別仍有待于進(jìn)一步的研究。

4 結(jié) 論

語音雙譜圖之所以有很大不同，是因?yàn)槭芨鞣矫嬉蛩氐挠绊懀煌蛩卦蕉?，雙譜圖差別越明顯。不論何種語音，因素不同，譜峰位置也不同，這是由于頻率成分以及各頻率分量之間發(fā)生二次相位耦合的情況不同而反映出的必然結(jié)果。因此，從雙譜三維圖形上的特征頻率處表現(xiàn)出的幅值特性上能有效地區(qū)別不同說話人的類型，方法能大幅提高語音辨別的準(zhǔn)確性，且對語音變化很敏感，對處理語音信號有一定效果，為語音辨識提供了一種可供選擇的方法。

[1] 張節(jié).語音信號的預(yù)處理和特征提取技術(shù)[J].電腦知識與技術(shù),2009,22(5)：6280-6282.

[2] 趙淑敏.基于MATLAB實(shí)現(xiàn)對語音信號分析[J].信息通信,2010(4):15-17.

[3] 張賢達(dá).時間序列分析[M].北京:清華大學(xué)出版社,1996:4.

[4] 蔣雨燕.基于高階累積量AR模型參數(shù)的液壓閥故障識別[D].廈門:廈門大學(xué),2009.

[5] 張賢達(dá).現(xiàn)代信號處理[M].北京,清華大學(xué)出社,1995:90-93,274-280.

[6] Raghuveer M R.Time-domain approaches to quadratic phase coupling estimation [J].IEEE Transaction on Automatic Control,1990,35(1):48-56.

[7] Collis W B,White P R,Hammond J K.Higher-order spectra:The bispectrum and trispectrum[J].Mechanical Systems and Signal Processing,1998,12(3):375-394.