梅二召 范景峰
摘? 要: 為了進(jìn)一步提取語(yǔ)音信號(hào)中的特征信息,采用一種耦合雙譜運(yùn)算的分析方法。在雙譜運(yùn)算中,由于復(fù)數(shù)三階累積量的定義方式不同,所包含的耦合信息成分也不同。因此,根據(jù)復(fù)數(shù)三階累積量的不同定義方式,對(duì)實(shí)數(shù)域內(nèi)不容易區(qū)分的語(yǔ)音信號(hào)進(jìn)行復(fù)數(shù)域內(nèi)雙譜及其對(duì)角切片分析。實(shí)驗(yàn)結(jié)果表明,根據(jù)復(fù)數(shù)三階累積量的不同定義進(jìn)行的雙譜及其對(duì)角切片譜分析,能夠區(qū)分出實(shí)數(shù)域內(nèi)不易區(qū)分出的語(yǔ)音信號(hào),而且由于在不同定義下所包含的耦合信息不同,雙譜及其對(duì)角切片分析結(jié)果也不同。
關(guān)鍵詞: 語(yǔ)音信號(hào)分析;耦合;復(fù)雙譜運(yùn)算;雙譜對(duì)角切片;復(fù)數(shù)三階累積量
中圖分類(lèi)號(hào): TP391.1? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.09.003
本文著錄格式:梅二召,范景峰. 耦合雙譜運(yùn)算在語(yǔ)音信號(hào)分析中的應(yīng)用[J]. 軟件,2020,41(09):0912+25
【Abstract】: In order to further extract the characteristic information of speech signal, one method of analysis coupled bispectrum operations was proposed. In the bispectrum operations, the complex forms with different definitions of three-order cumulants included different coupling information of signals. Thus, this paper used the complex bispectrum and its diagonal slice to analyze the speech signal which is difficult to distinguish in the real number field depending the complex forms with different definitions of three-order cumulants. The experiment results show that using the complex bispectrum and its diagonal slice can distinguish the speech signal which is difficult to distinguish in the real domain depending the complex forms with different definitions of three-order cumulants, and the complex bispectrum and its diagonal slice analysis results are different since the forms with different definitions included different coupling information of signal.
【Key words】: Speech signal analysis; Coupling; Complex bispectrum operation; Bispectrum diagonal slices; Complex third-order cumulants
0? 引言
語(yǔ)音信號(hào)通常被認(rèn)為是一個(gè)受準(zhǔn)周期脈沖或隨機(jī)噪聲源激勵(lì)的線性系統(tǒng)輸出,輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵(lì)源頻譜的乘積[1-2]。文獻(xiàn)[3]指出,在短時(shí)間內(nèi),語(yǔ)音信號(hào)模型近似與如圖1所示的平穩(wěn)隨機(jī)過(guò)程的自回歸(AR)模型。在圖1中,語(yǔ)音信號(hào)y(n)是由均值為零的高斯白噪聲e(n)激勵(lì)線性時(shí)不變系統(tǒng)A(Z)產(chǎn)生的,v(n)和e(n)統(tǒng)計(jì)獨(dú)立的加性高斯白噪聲,線性時(shí)不變系統(tǒng)的傳輸函數(shù)A(Z)是最小相位的。利用高階累積量可以自動(dòng)抑制高斯背景噪聲(有色或白色)的影響,將高階譜分析技術(shù)應(yīng)用于語(yǔ)音編碼中以提高其抗噪聲的性能。劉福星、何選森在三階累積量的語(yǔ)音激活檢測(cè)方法中指出,在電子與通信系統(tǒng)中,傳輸信號(hào)的噪聲都可以看作是加性的高斯隨機(jī)過(guò)程,而高斯隨機(jī)過(guò)程的三階累積量為零,通信系統(tǒng)中傳輸?shù)恼Z(yǔ)音信號(hào)一般是非高斯信號(hào)[4]。因此,采用三階累積量的方法可以區(qū)分語(yǔ)音信號(hào)和噪聲信號(hào)。
根據(jù)語(yǔ)音產(chǎn)生的機(jī)理,其中存在著非線性相位耦合現(xiàn)象。M.R.Raughveer和國(guó)內(nèi)學(xué)者張嚴(yán)、王樹(shù)勛等人對(duì)耦合信息在復(fù)數(shù)高階累積量計(jì)算中產(chǎn)生的影響進(jìn)行深入研究,明確給出不同定義方式下耦合信號(hào)在三階累積量和及其對(duì)角切片中所占成分的計(jì)算公式[6-8]。吳文兵等人把復(fù)三階累積量耦合性質(zhì)應(yīng)用在機(jī)械故障診斷結(jié)果中,得出影響故障診斷結(jié)果的不是譜的形式,而是其中包含的不同的耦合信息[9]。因此,利用高階累計(jì)量能夠有效地抑制高斯噪聲,把耦合雙譜運(yùn)算應(yīng)用到語(yǔ)音信號(hào)分析中,來(lái)實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的特征提取。
1? 復(fù)數(shù)三階累積量
在信號(hào)處理和系統(tǒng)理論中,很多信號(hào)都可被看作是白噪聲激勵(lì)一個(gè)線性時(shí)不變系統(tǒng)的結(jié)果。設(shè)輸出為零均值的k階平穩(wěn)隨機(jī)過(guò)程,則k階累積量定義為[10,11]:
當(dāng)k=3時(shí),稱(chēng)為三階累積量;當(dāng)時(shí),稱(chēng)為三階累積量對(duì)角對(duì)角切片。雙譜為三階累積量的二維傅里葉變換,雙譜對(duì)角切片即為三階累積量對(duì)角切片的一維傅里葉變換。
當(dāng)為復(fù)數(shù)信號(hào),且,其中時(shí),根據(jù)文獻(xiàn)[8]可知,復(fù)數(shù)信號(hào)三階累積量根據(jù)其各項(xiàng)取共軛與否有8種定義方式。本文選取其中3種定義方式進(jìn)行分析及應(yīng)用與語(yǔ)音信號(hào)處理中。
式中為的共軛復(fù)數(shù),而本文中使用的復(fù)數(shù)信號(hào)是由采樣語(yǔ)音信號(hào)進(jìn)行Hilbert變換得到的。由文獻(xiàn)[8]可以知道,當(dāng)諧波分量是由諧波分量和通過(guò)二次相位耦合而成的,即時(shí),為耦合信號(hào)。根據(jù)上述三種定義方式,按照定義一下的三階累積量和三階累積量對(duì)角切片都為零。定義二和定義三方式下的三階累積量和三階累積量對(duì)角切片分別為:
由三階累積量和三階累積量對(duì)角切片可以看出,按照定義一下的雙譜及其對(duì)角切片譜中不含耦合信息成分;定義二下的三階累積量中只包含諧波分量和,因此所對(duì)應(yīng)的雙譜中也只含有和信息,而式(6)中只含有耦合而成的諧波分量,其對(duì)應(yīng)的雙譜對(duì)角切片中也只含有;定義三下的三階累積量中包含所有的諧波分量,其雙譜中也保留了各次諧波分量,而式(8)中僅含有諧波分量和,所對(duì)應(yīng)的雙譜對(duì)角切片中也只含有諧波分量和。
2? 數(shù)據(jù)采集
實(shí)驗(yàn)數(shù)據(jù)采集是基于LabVIEW的聲卡語(yǔ)音信號(hào)采集系統(tǒng)實(shí)現(xiàn)的。在LabVIEW環(huán)境中對(duì)聲卡進(jìn)行編程,可實(shí)現(xiàn)對(duì)聲卡參數(shù)的自由設(shè)定,同時(shí)利用LabVIEW軟件的圖形化編程優(yōu)點(diǎn),可實(shí)現(xiàn)界面風(fēng)格與傳統(tǒng)儀器相似的效果[12-15]。當(dāng)語(yǔ)音信號(hào)輸入時(shí),語(yǔ)音信號(hào)首先經(jīng)過(guò)信號(hào)調(diào)理電路,調(diào)理電路的作用主要包括信號(hào)的放大、濾波、隔離和線性化處理,以使其能夠被聲卡正確的識(shí)別。利用PC機(jī)聲卡的麥克風(fēng)輸入或線路輸入作為信號(hào)的輸入端口,將獲取到的模擬音頻信號(hào)經(jīng)過(guò)左右兩個(gè)通道和A/D轉(zhuǎn)換后送入計(jì)算機(jī),通過(guò)LabVIEW編寫(xiě)的采集程序進(jìn)行各種處理和保存,其系統(tǒng)框圖如圖2所示。
根據(jù)使用計(jì)算機(jī)聲卡的實(shí)際特性,將聲卡設(shè)置為雙通道、44.1 kHz采樣頻率、16位采樣比特?cái)?shù)、手動(dòng)采集,以保證采樣時(shí)的干擾較小、波形穩(wěn)定。虛擬示波器主要是對(duì)聲卡采集音頻信號(hào)的時(shí)域?qū)崟r(shí)顯示,后面板程序使用while循環(huán)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)顯示和數(shù)據(jù)實(shí)時(shí)存儲(chǔ),后面板程序設(shè)計(jì)如圖3所示。
實(shí)驗(yàn)采集過(guò)程是在相對(duì)安靜的環(huán)境中進(jìn)行,不摻雜外來(lái)噪音,實(shí)驗(yàn)人員均在語(yǔ)速和緩、心情平穩(wěn)下錄制包含96個(gè)字的同一段話,在LabVIEW中通過(guò)設(shè)置保存路徑選擇保存的位置,保存格式為WAV文件。使用LabVIEW還有一個(gè)優(yōu)點(diǎn)就是可以通過(guò)通過(guò)Mathscript節(jié)點(diǎn)調(diào)用MATLAB程序,從而實(shí)現(xiàn)語(yǔ)音信號(hào)的后續(xù)處理。
3? 實(shí)驗(yàn)數(shù)據(jù)分析
為研究耦合信息在復(fù)數(shù)三階累積量中對(duì)信號(hào)識(shí)別的影響,對(duì)采集到的80組數(shù)據(jù)進(jìn)行實(shí)數(shù)和復(fù)數(shù)域內(nèi)分別進(jìn)行雙譜及其對(duì)角切線譜分析,并且在復(fù)數(shù)域內(nèi)通過(guò)改變?nèi)A累計(jì)量定義形式來(lái)觀察不同定義形式下,耦合信息對(duì)雙譜及其對(duì)角切線譜的影響。從實(shí)數(shù)和復(fù)數(shù)域內(nèi)雙譜及其對(duì)角切線譜圖歸納總結(jié),從中選取圖4至圖6進(jìn)行分析。
圖4中選取的是在實(shí)數(shù)域內(nèi)男生和女生語(yǔ)音信號(hào)進(jìn)行雙譜及其對(duì)角切片譜分析結(jié)果圖,圖4中01、02和05、06是男生語(yǔ)音信號(hào)的雙譜圖及其對(duì)角切片圖,03、04和07、08是女生語(yǔ)音信號(hào)的雙譜圖及其對(duì)角切片圖。對(duì)比圖01(a)和02(a)男生雙譜圖可以看出,圖01(a)男生語(yǔ)音雙譜圖中有6個(gè)峰值較高的譜峰,而雙譜圖下部有較多小的譜峰,且譜峰表現(xiàn)的較為尖細(xì);圖02(a)中只是出現(xiàn)2個(gè)峰值較高的譜峰,而雙譜圖下部出現(xiàn)的譜峰較低,且譜峰表現(xiàn)的較為粗大。與其對(duì)應(yīng)的雙譜對(duì)角切片圖中亦可明顯區(qū)分出兩個(gè)男生語(yǔ)音信號(hào)的雙譜對(duì)角切片圖的差異。對(duì)比圖03和圖04亦可發(fā)現(xiàn)兩個(gè)女生語(yǔ)音信號(hào)的雙譜及其對(duì)角切片圖有明顯區(qū)別。而綜合比較01、02、03和04中兩名男生和兩名女生語(yǔ)音信號(hào)雙譜圖及其對(duì)角切片圖可以發(fā)現(xiàn)男生語(yǔ)音信號(hào)雙譜圖譜峰分布較為寬廣,女生語(yǔ)音信號(hào)雙譜圖譜峰分布較為集中。
對(duì)比圖05和06可以看到,兩個(gè)雙譜圖中都有6個(gè)峰值突出的譜峰,且6個(gè)譜峰分布位置較為接近,從其對(duì)應(yīng)的對(duì)角切片譜中亦可看到兩個(gè)主峰位置都分布在85Hz附近。對(duì)比圖07和08亦可看到兩女生語(yǔ)音信號(hào)的雙譜及其對(duì)角切片譜也是比較接近。而綜合比較05、06、07和08中兩名男生和兩名女生的雙譜及其對(duì)角切片譜圖亦是較為接近的,從整體上表現(xiàn)的特征不夠明顯。因此,對(duì)這類(lèi)語(yǔ)音信號(hào),通過(guò)Hilbert變換,再根據(jù)三階累計(jì)量的不同定義形式對(duì)其進(jìn)行雙譜及其對(duì)角切片譜再分析。
圖5、圖6和圖7是與圖4中05、06、07和08相對(duì)應(yīng)的復(fù)數(shù)域內(nèi)按照三階累計(jì)量的定義一、定義二和定義三方式下男生和女生語(yǔ)音信號(hào)雙譜及其對(duì)角切片切線譜圖。從圖5的雙譜及其對(duì)角切片譜圖中可以看出,圖09譜峰較多且較為尖細(xì),其對(duì)應(yīng)的對(duì)角切片譜主峰位置在195 Hz處;圖10中的有一個(gè)峰值最高的主峰,雙譜圖下部的譜峰較為粗大,與其對(duì)應(yīng)的對(duì)角切片譜中的主峰位置在185 Hz處;圖11中的雙譜圖有3個(gè)峰值較高的譜峰,其對(duì)角切片譜中主峰位置在175 Hz處;圖12中的雙譜圖較為簡(jiǎn)單只有一個(gè)突出的主峰,且其主峰在對(duì)角切片圖中位置為155 Hz處。綜合圖5中的兩名男生和兩名女生的雙譜及其對(duì)角切片譜較實(shí)數(shù)域內(nèi)雙譜圖更加簡(jiǎn)潔且譜峰更加清晰。
從圖6中的語(yǔ)音信號(hào)雙譜及其對(duì)角切線譜中亦可清晰地區(qū)分出這兩名男生及女生的語(yǔ)音信號(hào)的各自特點(diǎn)。對(duì)比圖5中按照三階累積量定義一下的語(yǔ)音信號(hào)雙譜及其對(duì)角切片譜圖可以看出,三階累積量在定義一方式下耦合信號(hào)的三階累積量為零,而定義二方式下含有耦合信息的和成分。從整體上來(lái)說(shuō),圖6雙譜圖表現(xiàn)的更加集中,而對(duì)角切片圖中主峰頻率值整體上都有所減小。
圖7中按照三階累積量定義三方式下的雙譜及其對(duì)角切片譜圖中可以明確區(qū)分出各自語(yǔ)音信號(hào)的特點(diǎn)。對(duì)比圖5的雙譜圖,雙譜圖也是較為集中,其對(duì)角切片譜中沒(méi)有像圖6中表現(xiàn)的主峰頻率值整體減小的現(xiàn)象,但對(duì)角切片譜圖之間區(qū)別亦是較為清晰。
4? 結(jié)論
根據(jù)實(shí)驗(yàn)數(shù)據(jù)分析,可以看出有些語(yǔ)音信號(hào)在實(shí)數(shù)域內(nèi)就已經(jīng)很容易區(qū)分,對(duì)這些信號(hào)而言,在實(shí)數(shù)域內(nèi)進(jìn)行雙譜及其對(duì)角切片譜分析就能達(dá)到信號(hào)識(shí)別的目的。但有些語(yǔ)音信號(hào)在實(shí)數(shù)域內(nèi)的信號(hào)雙譜及其對(duì)角切片譜圖表現(xiàn)的較為相近,不容易區(qū)分,為了對(duì)這類(lèi)信號(hào)進(jìn)行識(shí)別,對(duì)該類(lèi)信號(hào)進(jìn)行Hilbert變換,對(duì)其在復(fù)數(shù)域內(nèi)進(jìn)一步分析。由于復(fù)數(shù)域內(nèi)三階累積量的定義方式不同,信號(hào)中的耦合信息在雙譜及其對(duì)角切片譜圖中的所占的成分不同,對(duì)此本文選取三種典型的定義方式進(jìn)行語(yǔ)音信號(hào)的分析,而三種定義方式下的三階累積量所生成的雙譜及其對(duì)角切片譜圖都能清晰地區(qū)分出在實(shí)數(shù)域內(nèi)不易區(qū)分的語(yǔ)音信號(hào),而不同之處就在于由于不同定義方式下耦合信息在信號(hào)進(jìn)行三階累積量計(jì)算中所占的比重不同,使其雙譜圖中的譜峰分布及其譜峰大小有所區(qū)別,但整體而言,復(fù)數(shù)域內(nèi)的雙譜圖表現(xiàn)的更加簡(jiǎn)潔,譜峰分布更加集中,而其對(duì)角切片圖中的主峰亦是更加明確。因此,在復(fù)數(shù)域內(nèi)采用三階累積量的不同定義方式對(duì)語(yǔ)音信號(hào)進(jìn)行分析,可以實(shí)現(xiàn)實(shí)數(shù)域內(nèi)較難區(qū)分的語(yǔ)音信號(hào)在復(fù)數(shù)域內(nèi)進(jìn)行區(qū)分。
參考文獻(xiàn)
[1]劉星燕, 賈磊, 薛君彥. 淺談張家口 121 語(yǔ)音答詢系統(tǒng)幾個(gè)常見(jiàn)問(wèn)題的處理[J]. 軟件, 2018, 39(1): 180-182.
[2]王愛(ài)蕓. 語(yǔ)音識(shí)別技術(shù)在智能家居中的應(yīng)用[J]. 軟件, 2015, 36(7): 104-107.
[3]姚文冰, 姚天任, 韓濤. 高階譜分析在抗噪語(yǔ)音編碼中的應(yīng)用[J]. 華中科技大學(xué)學(xué)報(bào), 2001, 29(9): 60-62.
劉福星, 何選森. 三階累積量的語(yǔ)音激活檢測(cè)方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(17): 137-139.
[4]陳亮, 張雄偉. 語(yǔ)音信號(hào)非線性特征的研究[J]. 解放軍理工大學(xué)學(xué)報(bào), 2000, 1(2): 11-17.
[5]M R Raughveer. Time-domain approaches to quadratic phase coupling estimation Automatic Control[G]. 1990. AC 35: 48-56.
[6]張嚴(yán), 王樹(shù)勛, 李生紅. 二次相位耦合的11/2維譜分析[J]. 電子學(xué)報(bào), 1996, 64(04): 109-112.
[7]張嚴(yán), 王樹(shù)勛. 非線性相位耦合的切片譜分析方法[J]. 電子學(xué)報(bào), 1998, 26(10): 104-109.
[8]吳文兵, 梅二召, 歐陽(yáng)鑫, 李川. 基于復(fù)數(shù)信號(hào)的三階累積量微分性質(zhì)研究及應(yīng)用[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2015(08): 1073-1079.
[9]W. B. Collis, P. R. White, J. K. Hammond. Higher-order Spectra: the Bispectum and Trispectrum[J]. Mechanical Systems and Signal Processing, 1998, 12(3): 375-394.
[10]Dusan Kocur, Radoslav Stanko. Order Bispectrum: a New Tool for Reciprocated Machine Condition Monitoring[J]. Mech anical Systems and Signal Processing, 2000, 14(6), 871-890.
[11]皮祖成, 陳文, 戴善溪. 基于LabVIEW面向?qū)ο蟮脑囓?chē)臺(tái)實(shí)驗(yàn)控制軟件設(shè)計(jì)[J]. 軟件, 2016, 37(08): 104-110.
[12]胡武揚(yáng), 段富海, 董科銳. 基于LabVIEW 的舵機(jī)自動(dòng)加載測(cè)試系統(tǒng)軟件設(shè)計(jì)[J]. 軟件, 2015, 36(5): 24-29.
[13]陳志. 基于LabVIEW的插值校驗(yàn)電路脈沖輸出的程序設(shè)計(jì)[J]. 軟件, 2018, 39(10): 64-67.
[14]李岳, 韓賓, 魯云. 基于聲卡和LabVIEW的聲音信號(hào)EMD時(shí)頻分析系統(tǒng)[J]. 微型機(jī)與應(yīng)用, 2016, 07: 73-75+78.