梅二召 范景峰
摘 ?要: 為了進(jìn)一步提取語音信號中的特征信息,采用一種耦合雙譜運(yùn)算的分析方法。在雙譜運(yùn)算中,由于復(fù)數(shù)三階累積量的定義方式不同,所包含的耦合信息成分也不同。因此,根據(jù)復(fù)數(shù)三階累積量的不同定義方式,對實(shí)數(shù)域內(nèi)不容易區(qū)分的語音信號進(jìn)行復(fù)數(shù)域內(nèi)雙譜及其對角切片分析。實(shí)驗(yàn)結(jié)果表明,根據(jù)復(fù)數(shù)三階累積量的不同定義進(jìn)行的雙譜及其對角切片譜分析,能夠區(qū)分出實(shí)數(shù)域內(nèi)不易區(qū)分出的語音信號,而且由于在不同定義下所包含的耦合信息不同,雙譜及其對角切片分析結(jié)果也不同。
關(guān)鍵詞: 語音信號分析;耦合;復(fù)雙譜運(yùn)算;雙譜對角切片;復(fù)數(shù)三階累積量
中圖分類號: TP391.1 ???文獻(xiàn)標(biāo)識碼: A ???DOI:10.3969/j.issn.1003-6970.2020.09.003
本文著錄格式:梅二召,范景峰. 耦合雙譜運(yùn)算在語音信號分析中的應(yīng)用[J]. 軟件,2020,41(09):0912+25
【Abstract】: In order to further extract the characteristic information of speech signal, one method of analysis coupled bispectrum operations was proposed. In the bispectrum operations, the complex forms with different definitions of three-order cumulants included different coupling information of signals. Thus, this paper used the complex bispectrum and its diagonal slice to analyze the speech signal which is difficult to distinguish in the real number field depending the complex forms with different definitions of three-order cumulants. The experiment results show that using the complex bispectrum and its diagonal slice can distinguish the speech signal which is difficult to distinguish in the real domain depending the complex forms with different definitions of three-order cumulants, and the complex bispectrum and its diagonal slice analysis results are different since the forms with different definitions included different coupling information of signal.
【Key words】: Speech signal analysis; Coupling; Complex bispectrum operation; Bispectrum diagonal slices; Complex third-order cumulants
0 ?引言
語音信號通常被認(rèn)為是一個受準(zhǔn)周期脈沖或隨機(jī)噪聲源激勵的線性系統(tǒng)輸出,輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵源頻譜的乘積[1-2]。文獻(xiàn)[3]指出,在短時間內(nèi),語音信號模型近似與如圖1所示的平穩(wěn)隨機(jī)過程的自回歸(AR)模型。在圖1中,語音信號y(n)是由均值為零的高斯白噪聲e(n)激勵線性時不變系統(tǒng)A(Z)產(chǎn)生的,v(n)和e(n)統(tǒng)計(jì)獨(dú)立的加性高斯白噪聲,線性時不變系統(tǒng)的傳輸函數(shù)A(Z)是最小相位的。利用高階累積量可以自動抑制高斯背景噪聲(有色或白色)的影響,將高階譜分析技術(shù)應(yīng)用于語音編碼中以提高其抗噪聲的性能。劉福星、何選森在三階累積量的語音激活檢測方法中指出,在電子與通信系統(tǒng)中,傳輸信號的噪聲都可以看作是加性的高斯隨機(jī)過程,而高斯隨機(jī)過程的三階累積量為零,通信系統(tǒng)中傳輸?shù)恼Z音信號一般是非高斯信號[4]。因此,采用三階累積量的方法可以區(qū)分語音信號和噪聲信號。
根據(jù)語音產(chǎn)生的機(jī)理,其中存在著非線性相位耦合現(xiàn)象。M.R.Raughveer和國內(nèi)學(xué)者張嚴(yán)、王樹勛等人
對耦合信息在復(fù)數(shù)高階累積量計(jì)算中產(chǎn)生的影響進(jìn)行深入研究,明確給出不同定義方式下耦合信號在三階累積量和及其對角切片中所占成分的計(jì)算公式[6-8]。吳文兵等人把復(fù)三階累積量耦合性質(zhì)應(yīng)用在機(jī)械故障診斷結(jié)果中,得出影響故障診斷結(jié)果的不是譜的形式,而是其中包含的不同的耦合信息[9]。因此,利用高階累計(jì)量能夠有效地抑制高斯噪聲,把耦合雙譜運(yùn)算應(yīng)用到語音信號分析中,來實(shí)現(xiàn)對語音信號的特征提取。
1 ?復(fù)數(shù)三階累積量
在信號處理和系統(tǒng)理論中,很多信號都可被看作是白噪聲激勵一個線性時不變系統(tǒng)的結(jié)果。設(shè)輸出為零均值的k階平穩(wěn)隨機(jī)過程,則k階累積量定義為[10,11]:
由三階累積量和三階累積量對角切片可以看出,按照定義一下的雙譜及其對角切片譜中不含耦合信息成分;定義二下的三階累積量中只包含諧波分量和,因此所對應(yīng)的雙譜中也只含有和信息,而式(6)中只含有耦合而成的諧波分量,其對應(yīng)的雙譜對角切片中也只含有;定義三下的三階累積量中包含所有的諧波分量,其雙譜中也保留了各次諧波分量,而式(8)中僅含有諧波分量和,所對應(yīng)的雙譜對角切片中也只含有諧波分量和。
2 ?數(shù)據(jù)采集
實(shí)驗(yàn)數(shù)據(jù)采集是基于LabVIEW的聲卡語音信號采集系統(tǒng)實(shí)現(xiàn)的。在LabVIEW環(huán)境中對聲卡進(jìn)行編程,可實(shí)現(xiàn)對聲卡參數(shù)的自由設(shè)定,同時利用LabVIEW軟件的圖形化編程優(yōu)點(diǎn),可實(shí)現(xiàn)界面風(fēng)格與傳統(tǒng)儀器相似的效果[12-15]。當(dāng)語音信號輸入時,語音信號首先經(jīng)過信號調(diào)理電路,調(diào)理電路的作用主要包括信號的放大、濾波、隔離和線性化處理,以使其能夠被聲卡正確的識別。利用PC機(jī)聲卡的麥克風(fēng)輸入或線路輸入作為信號的輸入端口,將獲取到的模擬音頻信號經(jīng)過左右兩個通道和A/D轉(zhuǎn)換后送入計(jì)算機(jī),通過LabVIEW編寫的采集程序進(jìn)行各種處理和保存,其系統(tǒng)框圖如圖2所示。
根據(jù)使用計(jì)算機(jī)聲卡的實(shí)際特性,將聲卡設(shè)置為雙通道、44.1 kHz采樣頻率、16位采樣比特?cái)?shù)、手動采集,以保證采樣時的干擾較小、波形穩(wěn)定。虛擬示波器主要是對聲卡采集音頻信號的時域?qū)崟r顯示,后面板程序使用while循環(huán)結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)實(shí)時顯示和數(shù)據(jù)實(shí)時存儲,后面板程序設(shè)計(jì)如圖3所示。
實(shí)驗(yàn)采集過程是在相對安靜的環(huán)境中進(jìn)行,不摻雜外來噪音,實(shí)驗(yàn)人員均在語速和緩、心情平穩(wěn)下錄制包含96個字的同一段話,在LabVIEW中通過設(shè)置保存路徑選擇保存的位置,保存格式為WAV文件。使用LabVIEW還有一個優(yōu)點(diǎn)就是可以通過通過Mathscript節(jié)點(diǎn)調(diào)用MATLAB程序,從而實(shí)現(xiàn)語音信號的后續(xù)處理。
3 ?實(shí)驗(yàn)數(shù)據(jù)分析
為研究耦合信息在復(fù)數(shù)三階累積量中對信號識別的影響,對采集到的80組數(shù)據(jù)進(jìn)行實(shí)數(shù)和復(fù)數(shù)域內(nèi)分別進(jìn)行雙譜及其對角切線譜分析,并且在復(fù)數(shù)域內(nèi)通過改變?nèi)A累計(jì)量定義形式來觀察不同定義形式下,耦合信息對雙譜及其對角切線譜的影響。從實(shí)數(shù)和復(fù)數(shù)域內(nèi)雙譜及其對角切線譜圖歸納總結(jié),從中選取圖4至圖6進(jìn)行分析。
圖4中選取的是在實(shí)數(shù)域內(nèi)男生和女生語音信號進(jìn)行雙譜及其對角切片譜分析結(jié)果圖,圖4中01、02和05、06是男生語音信號的雙譜圖及其對角切片圖,03、04和07、08是女生語音信號的雙譜圖及其對角切片圖。對比圖01(a)和02(a)男生雙譜圖可以看出,圖01(a)男生語音雙譜圖中有6個峰值較高的譜峰,而雙譜圖下部有較多小的譜峰,且譜峰表現(xiàn)的較為尖細(xì);圖02(a)中只是出現(xiàn)2個峰值較高的譜峰,而雙譜圖下部出現(xiàn)的譜峰較低,且譜峰表現(xiàn)的較為粗大。與其對應(yīng)的雙譜對角切片圖中亦可明顯區(qū)分出兩個男生語音信號的雙譜對角切片圖的差異。對比圖03和圖04亦可發(fā)現(xiàn)兩個女生語音信號的雙譜及其對角切片圖有明顯區(qū)別。而綜合比較01、02、03和04中兩名男生和兩名女生語音信號雙譜圖及其對角切片圖可以發(fā)現(xiàn)男生語音信號雙譜圖譜峰分布較為寬廣,女生語音信號雙譜圖譜峰分布較為集中。
對比圖05和06可以看到,兩個雙譜圖中都有6個峰值突出的譜峰,且6個譜峰分布位置較為接近,從其對應(yīng)的對角切片譜中亦可看到兩個主峰位置都分布在85Hz附近。對比圖07和08亦可看到兩女生語音信號的雙譜及其對角切片譜也是比較接近。而綜合比較05、06、07和08中兩名男生和兩名女生的雙譜及其對角切片譜圖亦是較為接近的,從整體上表現(xiàn)的特征不夠明顯。因此,對這類語音信號,通過Hilbert變換,再根據(jù)三階累計(jì)量的不同定義形式對其進(jìn)行雙譜及其對角切片譜再分析。
圖5、圖6和圖7是與圖4中05、06、07和08相對應(yīng)的復(fù)數(shù)域內(nèi)按照三階累計(jì)量的定義一、定義二和定義三方式下男生和女生語音信號雙譜及其對角切片切線譜圖。從圖5的雙譜及其對角切片譜圖中可以看出,圖09譜峰較多且較為尖細(xì),其對應(yīng)的對角切片譜主峰位置在195 Hz處;圖10中的有一個峰值最高的主峰,雙譜圖下部的譜峰較為粗大,與其對應(yīng)的對角切片譜中的主峰位置在185 Hz處;圖11中的雙譜圖有3個峰值較高的譜峰,其對角切片譜中主峰位置在175?Hz處;圖12中的雙譜圖較為簡單只有一個突出的主峰,且其主峰在對角切片圖中位置為155 Hz處。綜合圖5中的兩名男生和兩名女生的雙譜及其對角切片譜較實(shí)數(shù)域內(nèi)雙譜圖更加簡潔且譜峰更加清晰。
從圖6中的語音信號雙譜及其對角切線譜中亦可清晰地區(qū)分出這兩名男生及女生的語音信號的各自特點(diǎn)。對比圖5中按照三階累積量定義一下的語音信號雙譜及其對角切片譜圖可以看出,三階累積量在定義一方式下耦合信號的三階累積量為零,而定義二方式下含有耦合信息的和成分。從整體上來說,圖6雙譜圖表現(xiàn)的更加集中,而對角切片圖中主峰頻率值整體上都有所減小。
圖7中按照三階累積量定義三方式下的雙譜及其對角切片譜圖中可以明確區(qū)分出各自語音信號的特點(diǎn)。對比圖5的雙譜圖,雙譜圖也是較為集中,其對角切片譜中沒有像圖6中表現(xiàn)的主峰頻率值整體減小的現(xiàn)象,但對角切片譜圖之間區(qū)別亦是較為清晰。
4 ?結(jié)論
根據(jù)實(shí)驗(yàn)數(shù)據(jù)分析,可以看出有些語音信號在實(shí)數(shù)域內(nèi)就已經(jīng)很容易區(qū)分,對這些信號而言,在實(shí)數(shù)域內(nèi)進(jìn)行雙譜及其對角切片譜分析就能達(dá)到信號識別的目的。但有些語音信號在實(shí)數(shù)域內(nèi)的信號雙譜及其對角切片譜圖表現(xiàn)的較為相近,不容易區(qū)分,為了對這類信號進(jìn)行識別,對該類信號進(jìn)行Hilbert變換,對其在復(fù)數(shù)域內(nèi)進(jìn)一步分析。由于復(fù)數(shù)域內(nèi)三階累積量的定義方式不同,信號中的耦合信息在雙譜及其對角切片譜圖中的所占的成分不同,對此本文選取三種典型的定義方式進(jìn)行語音信號的分析,而三種定義方式下的三階累積量所生成的雙譜及其對角切片譜圖都能清晰地區(qū)分出在實(shí)數(shù)域內(nèi)不易區(qū)分的語音信號,而不同之處就在于由于不同定義方式下耦合信息在信號進(jìn)行三階累積量計(jì)算中所占的比重不同,使其雙譜圖中的譜峰分布及其譜峰大小有所區(qū)別,但整體而言,復(fù)數(shù)域內(nèi)的雙譜圖表現(xiàn)的更加簡潔,譜峰分布更加集中,而其對角切片圖中的主峰亦是更加明確。因此,在復(fù)數(shù)域內(nèi)采用三階累積量的不同定義方式對語音信號進(jìn)行分析,可以實(shí)現(xiàn)實(shí)數(shù)域內(nèi)較難區(qū)分的語音信號在復(fù)數(shù)域內(nèi)進(jìn)行區(qū)分。
參考文獻(xiàn)
[1]劉星燕, 賈磊, 薛君彥. 淺談張家口 121 語音答詢系統(tǒng)幾個常見問題的處理[J]. 軟件, 2018, 39(1): 180-182.
[2]王愛蕓. 語音識別技術(shù)在智能家居中的應(yīng)用[J]. 軟件, 2015, 36(7): 104-107.
[3]姚文冰, 姚天任, 韓濤. 高階譜分析在抗噪語音編碼中的應(yīng)用[J]. 華中科技大學(xué)學(xué)報(bào), 2001, 29(9): 60-62.
劉福星, 何選森. 三階累積量的語音激活檢測方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 47(17): 137-139.
[4]陳亮, 張雄偉. 語音信號非線性特征的研究[J]. 解放軍理工大學(xué)學(xué)報(bào), 2000, 1(2): 11-17.
[5]M R Raughveer. Time-domain approaches to quadratic phase coupling estimation Automatic Control[G]. 1990. AC 35: 48-56.
[6]張嚴(yán), 王樹勛, 李生紅. 二次相位耦合的11/2維譜分析[J]. 電子學(xué)報(bào), 1996, 64(04): 109-112.
[7]張嚴(yán), 王樹勛. 非線性相位耦合的切片譜分析方法[J]. 電子學(xué)報(bào), 1998, 26(10): 104-109.
[8]吳文兵, 梅二召, 歐陽鑫, 李川. 基于復(fù)數(shù)信號的三階累積量微分性質(zhì)研究及應(yīng)用[J]. 哈爾濱工程大學(xué)學(xué)報(bào), 2015(08): 1073-1079.
[9]W. B. Collis, P. R. White, J. K. Hammond. Higher-order Spectra: the Bispectum and Trispectrum[J]. Mechanical Systems and Signal Processing, 1998, 12(3): 375-394.
[10]Dusan Kocur, Radoslav Stanko. Order Bispectrum: a New Tool for Reciprocated Machine Condition Monitoring[J]. Mech anical Systems and Signal Processing, 2000, 14(6), 871-890.
[11]皮祖成, 陳文, 戴善溪. 基于LabVIEW面向?qū)ο蟮脑囓嚺_實(shí)驗(yàn)控制軟件設(shè)計(jì)[J]. 軟件, 2016, 37(08): 104-110.
[12]胡武揚(yáng), 段富海, 董科銳. 基于LabVIEW 的舵機(jī)自動加載測試系統(tǒng)軟件設(shè)計(jì)[J]. 軟件, 2015, 36(5): 24-29.
[13]陳志. 基于LabVIEW的插值校驗(yàn)電路脈沖輸出的程序設(shè)計(jì)[J]. 軟件, 2018, 39(10): 64-67.
[14]李岳, 韓賓, 魯云. 基于聲卡和LabVIEW的聲音信號EMD時頻分析系統(tǒng)[J]. 微型機(jī)與應(yīng)用, 2016, 07: 73-75+78.