賈 亮,尹 伊,楊慧超(沈陽航空航天大學(xué) 電子信息工程學(xué)院,沈陽 110136)
遞歸分析在帶噪語音端點(diǎn)檢測中的應(yīng)用
賈 亮,尹 伊,楊慧超
(沈陽航空航天大學(xué) 電子信息工程學(xué)院,沈陽 110136)
噪聲環(huán)境下語音端點(diǎn)檢測的難度會(huì)大大提高,遞歸分析是一種非線性動(dòng)力學(xué)分析方法,可以更好地表示語音特征,應(yīng)用消除趨勢項(xiàng)的遞歸分析法對帶噪語音進(jìn)行分析,實(shí)現(xiàn)帶噪語音的起止點(diǎn)檢測。通過對比傳統(tǒng)的譜熵端點(diǎn)檢測法,針對在信噪比為0dB與-5dB的語音信號(hào)進(jìn)行仿真,結(jié)果表明,遞歸分析端點(diǎn)檢測法能更好地分割語音段與噪聲段。
譜熵;遞歸度;端點(diǎn)檢測;帶噪語音
端點(diǎn)檢測在語音合成與識(shí)別領(lǐng)域中具有重要作用,端點(diǎn)檢測可以把語音段部分進(jìn)行定位,找出某一個(gè)需要的語音段的起始點(diǎn)和終止點(diǎn),從而為下一步的工作做好準(zhǔn)備。由于噪聲的影響,端點(diǎn)檢測依舊是當(dāng)今熱點(diǎn)難點(diǎn)話題,傳統(tǒng)的端點(diǎn)檢測包括譜熵檢測、倒譜距離檢測、雙門限檢測等,為了提高低信噪比下性能以及對檢測效果的要求越來越高,隨即更多針對不同情形下端點(diǎn)檢測的算法與觀點(diǎn)被提出。
20世紀(jì)80年代,Eckmann等提出了在二維空間圖形上觀察時(shí)間序列遞歸性,并針對二維空間遞歸性在m維相空間上的軌道進(jìn)行研究,表明各個(gè)時(shí)刻的遞歸現(xiàn)象可以通過二維方陣用黑點(diǎn)或者白點(diǎn)表示。這種表示方法被稱作遞歸圖(RecurrencePlot,即RP)。為了量化遞歸圖中表現(xiàn)出來的系統(tǒng)遞歸現(xiàn)象,Zbilut等提出了定量遞歸分析(Recur-rence Quantification Analysis,即RQA)來描述系統(tǒng)不同的動(dòng)力學(xué)行為[1]。
遞歸算法是基于一種非線性動(dòng)力學(xué)分析方法,相空間重構(gòu)為其來源根基,反應(yīng)的是復(fù)原后的混沌吸引子所具有的某種規(guī)律,揭示時(shí)間序列的內(nèi)部結(jié)構(gòu)[2-3]。在端點(diǎn)檢測中語音段與非語音段的軌跡狀態(tài)的特征大不相同,是闡明時(shí)間序列周期性、混沌性以及非平穩(wěn)性的一個(gè)重要方法[4]。
由于噪聲的影響端點(diǎn)檢測的精度大大下降,本文提出了基于語音信號(hào)非線性動(dòng)力學(xué)特性遞歸分析方法。首先擬合消除趨勢項(xiàng)函數(shù),降低干擾與誤差,再利用遞歸度區(qū)分語音段和非語音段,通過對比傳統(tǒng)的譜熵法與遞歸分析法,表明遞歸分析的端點(diǎn)檢測法有很好的效果,可利用遞歸法來實(shí)現(xiàn)語音的端點(diǎn)檢測。
遞歸圖[5]較適用于短時(shí)帶噪語音的端點(diǎn)檢測分析,可更好檢驗(yàn)語音時(shí)間序列的平穩(wěn)性、內(nèi)在相似性,進(jìn)而區(qū)分語音的語音段與非語音段。遞歸圖法最初由Eckmann等人于1987年提出,主要應(yīng)用于對非線性動(dòng)力系統(tǒng)的研究[6-8]。現(xiàn)在,遞歸圖已經(jīng)成功地應(yīng)用到多個(gè)領(lǐng)域,如信號(hào)分析、腦心電圖分析以及故障分析等諸多領(lǐng)域。定量遞歸分析[9](recurrence quantification analysis,RQA)是基于遞歸圖中的水平線及垂直線以及對角線等分布對系統(tǒng)進(jìn)行分析,從而獲得動(dòng)力學(xué)系統(tǒng)的定量信息[10-12],可以描述語音的端點(diǎn)檢測。
遞歸圖采用圖形映射方式來表現(xiàn)信號(hào)中所存在的結(jié)構(gòu)在正常情況下得到一組帶噪的語音信號(hào),其序列就包含了非線性特征。它反應(yīng)了動(dòng)力系統(tǒng)中產(chǎn)生的時(shí)間序列的所有可能時(shí)間尺度上的自相關(guān)[12]。因此,遞歸圖可以被認(rèn)為揭示了語音信號(hào)中全局相關(guān)結(jié)構(gòu)的。遞歸圖利用相空間重構(gòu)的思想將時(shí)間序列進(jìn)行重構(gòu)。選擇適合的延遲時(shí)間Δt與嵌入維數(shù)m重構(gòu)動(dòng)力學(xué)向量Xk=(x(k),x(k+Δt),…,x(k+(m-1)Δt)),(k=1,2,…,N) ,即把語音的時(shí)間序列重構(gòu)成m維的相空間軌跡,從動(dòng)力學(xué)系統(tǒng)角度上實(shí)現(xiàn)了在高維空間恢復(fù)吸引子[13],引入符號(hào)函數(shù)。
(1)
計(jì)算相空間行列向量Xi、Xj距離為
(2)
計(jì)算遞歸值,得到矩陣的圖形表示為
Ri,j=H(ε-Si,j),(i,j=1,2,…,N)
(3)
ε為臨界距離,將所求得Ri,j值映射到二維圖中,如圖1所示。
圖1 語音信號(hào)遞歸圖
當(dāng)矩陣中任意兩個(gè)矢量間的距離Si,j≤ε時(shí),意味著坐標(biāo)(i,j)取值為1,遞歸圖(i,j) 位置上表示為黑點(diǎn),相反為0則在遞歸圖(i,j)位置上表示為白點(diǎn)。黑點(diǎn)與白點(diǎn)所組成的二維遞歸圖可以清晰地描述各個(gè)狀態(tài)之間的遞歸關(guān)系,其實(shí)質(zhì)是用二維圖形來展示高維相空間中軌跡隨時(shí)間的演化情況圖形結(jié)構(gòu),主要由孤立點(diǎn)、對角線、水平線以及垂直線等組成[13]。整個(gè)遞歸圖表現(xiàn)了語音信號(hào)語音段與非語音段的全局系統(tǒng)。
遞歸圖中黑白點(diǎn)的分布反應(yīng)帶噪語音信號(hào)中語音段與非語音段的內(nèi)在相似結(jié)構(gòu)。由于語音信號(hào)的動(dòng)力學(xué)差異,語音段在遞歸圖中黑點(diǎn)的比例往往比非語音的段小,可以將遞歸率作為區(qū)分語音段和非語音段的一種方法。定量遞歸分析結(jié)果表明:語音信號(hào)中較高的遞歸率[4]意味著較強(qiáng)的周期性嵌入,遞歸率公式如式所示:
(4)
其中N為遞歸圖上的節(jié)點(diǎn)數(shù),RRl反應(yīng)了相空間相點(diǎn)密集程度。
本文引入另一種描述語音端點(diǎn)檢測的方法遞歸圖的熵[14]。不難發(fā)現(xiàn)隨著多種線長度的變化語音信號(hào)的遞歸圖中,熵值也會(huì)產(chǎn)生較大變化。用來描述信號(hào)遞歸圖的復(fù)雜程度,結(jié)構(gòu)愈復(fù)雜熵值就愈高,遞歸圖中變量是線的長度。若所有線長度都為同一值則熵為0,語音熵計(jì)算公式為
(5)
其中,p(l)表示語音信號(hào)遞歸圖中對角線分布的概率密度。定量遞歸分析表明:語音信號(hào)的確定性越強(qiáng),RQA中的確定率與熵值就越大,如圖2、圖3所示。
圖2 信噪比為20 dB的遞歸圖
圖3 信噪比為10 dB的遞歸圖
隨著噪聲強(qiáng)度的增大,遞歸圖中時(shí)間序列受噪聲影響越大,遞歸圖中對角線越短,此時(shí)熵值越混亂,展現(xiàn)了語音信號(hào)在帶噪情況下的全局系統(tǒng)。
(6)
其中k=1,2,…,n,定義誤差項(xiàng)為最小,即:
(7)
令誤差項(xiàng)為最小即:
(8)
最終擬合趨勢項(xiàng)為
(9)
語音信號(hào)中通常m=1~3,語音信號(hào)偏差值如表1所示。
表1 語音信號(hào)偏離基線值
本文在MATLAB環(huán)境下,對短時(shí)語音加入信噪比為0 dB與-5 dB的高斯白噪聲,首先對短時(shí)帶噪語音序列做消除趨勢項(xiàng)處理,降低趨勢項(xiàng)誤差,使遞歸計(jì)算更加精準(zhǔn)。并對語音序列做遞歸分析,采用簡單的回避嵌入理論的方案[10],設(shè)定m=1,τ=1 ,臨界距離直接選取語音序列標(biāo)準(zhǔn)差使ε=s。對比低信噪比下語音信號(hào)做遞歸分析,與傳統(tǒng)譜熵法端點(diǎn)檢測進(jìn)行比較,結(jié)果如下所示。
圖4 較純凈語音下遞歸與譜熵端點(diǎn)檢測對比
圖5 0 dB噪聲下下遞歸與譜熵端點(diǎn)檢測對比
圖6 -5 dB噪聲下下遞歸與譜熵端點(diǎn)檢測對比
圖4中較純凈的語音下語音段與噪聲段的分界十分明顯,遞歸法與譜熵法均有很好的區(qū)分語音段與噪聲段效果。
圖5與圖6中均加入了低信噪比高斯白噪聲,噪聲使原始語音的語音段變得難以區(qū)分,其中前60幀與后20幀為非語音段,60幀至130幀為語音段。圖5 (c)與圖6(c)中由于噪聲的加入使譜熵值高于圖1(c)中較純凈語音,且區(qū)分噪聲與語音程度有所下降,反映了低信噪比下語音的無序性,信噪比越低圖形越散亂,語音起止點(diǎn)難以判斷。圖5(b)與圖6(b)中由于加噪后語音段較低信噪比的噪聲信號(hào)有更大的周期性與規(guī)律性,利用加噪后產(chǎn)生的語音序列時(shí)間尺度上的自相關(guān)性質(zhì)。利用相空間重構(gòu)方法將語音序列進(jìn)行重構(gòu),相空間距離的變化導(dǎo)致遞歸值隨之改變,且均在語音起點(diǎn)第60幀與語音結(jié)束的第130幀與非語音段有明顯界限。遞歸分析的端點(diǎn)檢測具有更好的穩(wěn)定性,全面地反應(yīng)了語音段與非語音段的區(qū)別,檢測的準(zhǔn)確率優(yōu)于傳統(tǒng)的譜熵法。
語音信號(hào)存在不確定性,利用最小二乘擬合趨勢項(xiàng)擬合信號(hào)減小系統(tǒng)所帶來的誤差,語音信號(hào)序列應(yīng)用非線性動(dòng)力學(xué)的方法將其映射在二維遞歸圖中,語音序列在遞歸圖上的表現(xiàn)出一定規(guī)律,再利用遞歸分析的方法分析表示這一規(guī)律,利用這種性質(zhì)將其運(yùn)用于短時(shí)帶噪語音的端點(diǎn)檢測中,在信噪比為0dB與-5dB條件下,對比傳統(tǒng)譜熵端點(diǎn)檢測法,可以明顯地看出,遞歸度端點(diǎn)檢測具有更好的效果,但不難發(fā)現(xiàn)遞歸算法的計(jì)算量很大,為此,需要進(jìn)一步努力探索新模型。
[1] 郭興明,李傳鵬,盧德林.定量遞歸分析和近似熵在心音分類識(shí)別中的應(yīng)用[J].數(shù)據(jù)采集與處理,2013,28(5):559-564.
[2] 潘玉榮,賈朝勇.基于遞歸圖的電價(jià)信號(hào)復(fù)雜度描述[J].洛陽師范學(xué)院學(xué)報(bào),2013,32(2):11-15.
[3] 王景芳,許慧燕.基于遞歸分析的基音檢測新方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(13):125-129.
[4] 閆潤強(qiáng),祖漪清,朱貽盛.遞歸趨勢分析在漢語語音聲韻母切分中的應(yīng)用研究[J].信號(hào)處理,2007,23(4):521-525.
[5] JR W C,ZBILUT J P.Dynamical assessment of physiological systems and states using recurrence plot strategies[J].Journal of Applied Physiology,1994,76(2):965-73.
[6] 楊照芳.心跳間期和皮膚電信號(hào)中的情感響應(yīng)模式研究[D].重慶:西南大學(xué),2015.
[7] 陳靜.艦船輻射噪聲的混沌特征提取方法研究[D].西安:西北工業(yè)大學(xué),2006.
[8] 史玲娜.基于道路交通的相空間重構(gòu)[J].重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,25(6):112-115.
[9] THIEL M,ROMANO M C,KURTHS J,et al.Influence of observational noise on the recurrence quantification analysis[J].Physica D Nonlinear Phenomena,2002,171(3):138-152.
[10]惠曉威,李坤.動(dòng)力學(xué)特征分析在語音端點(diǎn)檢測中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2013(12):299-302.
[11]袁昌松,雷敏,朱向陽.基于定量分析方法的動(dòng)作表面肌電信號(hào)分析[J].生物物理學(xué)報(bào),2006,22(2):139-143.
[12]李紅巖.認(rèn)知無線電系統(tǒng)中頻譜可預(yù)測性的遞歸定量分析[J].電訊技術(shù),2015,55(2):124-128.
[13]金寧德,陳萬鵬.混沌遞歸分析在油水兩相流流型識(shí)別中的應(yīng)用[J].化工學(xué)報(bào),2006,57(2):274-280.
[14]郭潔,陳祥獻(xiàn),黃海.交叉遞歸圖在變壓器鐵芯壓緊力變化檢測中的應(yīng)用[J].高電壓技術(shù),2010,36(11):2731-2738.
[15]宋知用.MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:101-103.
Endpointdetectionofnoisyspeechbasedonrecursiveanalysis
JIA Liang,YIN Yi,YANG Hui-chao
(College of Electronic and Information Engineering,Shenyang Aerospace University,Shenyang 110136,China)
In this paper,the recursive analysis method is used to analyze the noisy speech.It is a nonlinear dynamic analysis method and can better represent the voice features.The recursive analysis method that can eliminate the trend item is applied to the analysis of the noisy speech,which can detect the start and end of the noisy speech.The speech signals at SNR 0dB and-5dB are simulated.The results show that the recursive analysis based endpoint detection method can better segment the speech and noise comparing to the traditional spectral entropy endpoint detection method.
spectral entropy;recursive degree;endpoint detection;noisy speech
2017-07-10
賈 亮(1971-),男,遼寧大石橋人,副教授,主要研究方向:信號(hào)與信息處理,E-mail:jiayw@ sina.com。
2095-1248(2017)06-0083-04
TN912.3
A
10.3969/j.issn.2095-1248.2017.06.014
劉劃 英文審校:齊義文)