賈 亮 ,尹 伊,楊慧超
(沈陽航空航天大學 電子信息工程學院,沈陽 110136)
基于分形維數(shù)的帶噪語音端點檢測
賈 亮 ,尹 伊,楊慧超
(沈陽航空航天大學 電子信息工程學院,沈陽 110136)
噪聲環(huán)境下語音端點檢測的難度會大大提高,應(yīng)用分形維數(shù)法對帶噪語音進行了分析,利用分形的性質(zhì),可以更好地分析語音特性,根據(jù)分形維數(shù)的不同可以實現(xiàn)語音段與噪音段的分割,實現(xiàn)帶噪語音的起止點檢測。通過對比分形維數(shù)的端點檢測法與傳統(tǒng)的譜熵端點檢測法,針對在信噪比為0dB與5dB的語音信號進行仿真,結(jié)果表明,分形維數(shù)的方法能更好地分割語音段與噪聲段。
分形維數(shù);語音端點檢測;譜熵;帶噪語音
端點檢測可以把語音段部分進行定位,找出某一個需要的語音段的起始點和終止點從而為下一步的工作做好準備[1]。傳統(tǒng)的端點檢測包括譜熵檢測、倒譜距離檢測、雙門限檢測等,在傳統(tǒng)的端點檢測方法中最常用的是雙門限端點檢測與譜熵端點檢測法。然而這些方法存在一些缺點,如在較純凈的語音狀態(tài)下傳統(tǒng)的端點檢測方法均有很好的效果,但是在低信噪比條件下,傳統(tǒng)的端點檢測方法由于受到噪聲的影響難以區(qū)分語音段與噪聲段。隨著信息技術(shù)的迅猛發(fā)展,對檢測效果的要求越來越高[2],隨即也有更多針對不同情形下端點檢測的算法與觀點被提出。
針對傳統(tǒng)算法的不足,本文提出了一種新的改進的端點檢測方法,在語言信號分析中,非線性因素往往會被忽略,而語言信號就是復(fù)雜的非線性隨機過程。人的發(fā)聲過程存在混沌機制[3],由此我們可以利用這種混沌機制來對語音進行分段,進而進行相應(yīng)處理提取有用信息。本文所采用的方法就是分形理論[4-6]。分形理論中,分形維數(shù)法對于端點檢測有很好的效果,但是由于分形計算中計算量很大,而端點檢測的前提就是提高精度并提高速率,針對此算法的不足,本文提出了一種新的方法,改進點到擬合直線的閾值來提高端點檢測精度,并與傳統(tǒng)的譜熵法比較,提高檢測精度。
1.1 分形定義
分形是于1973年由曼德布羅特首先提出來的,意為破碎的、不規(guī)則的。分形的主要理念就是利用自身局部與自身整體的自相似性[6]。傳統(tǒng)的歐氏幾何與分形幾何之間存在相輔相成聯(lián)系的,通過觀察可以得出,歐氏幾何是建立在公理之上的邏輯體系,其研究的是在旋轉(zhuǎn)、平移、對稱變換下各種不變的量[7],如角度、長度、面積、體積,其適用范圍主要是人造的物體;而分形由遞歸、迭代生成,主要適用于自然界中形態(tài)復(fù)雜的物體,分形幾何用集合與整體的眼光看待分形中的點、線、面。在歐式幾何空間中,利用直線、平面、立方體等來形容一維、二維、三維,通常人們視維數(shù)為整數(shù)。而分形幾何中的維數(shù),卻包含了分數(shù)維在內(nèi),也就是說維數(shù)往往不會是整數(shù),這也就是分形維名稱的來源。
1.2 分形性質(zhì)
分形具有三大重要性質(zhì):
(1)標度不變性:分形上整體與部分的任何區(qū)域都具有標度不變性,無論放大縮小任何倍數(shù),它的形態(tài)、復(fù)雜度、不規(guī)則性都不發(fā)生變化。所有自相似性的系統(tǒng),必須滿足標度不變性[8-9]。經(jīng)典的koch曲線具有嚴格自相似的有規(guī)則分形,無論放大或縮小它的幾何性質(zhì)都保持不變。
(2)自相似性:分形上整體與部分的任何區(qū)域都具有自相似性,無論從空間尺度還是時間尺度來看,它都具有很強的自相似性,表現(xiàn)為系統(tǒng)或結(jié)構(gòu)的局域與整體類似,具有嚴格自相似性的形體稱為有規(guī)分形,而只是在統(tǒng)計意義下的自相似性的分形則稱為無規(guī)分形[8-9]。自相似性是分形的靈魂,它使得分形的任何一個片段都包含了整個分形的信息,其結(jié)構(gòu)不隨尺度的變化而變化。
(3)分形維數(shù):分形維數(shù)是集合尺度變化下的不變量,是非線性系統(tǒng)中通過自身形成無限精細的有序結(jié)構(gòu),一般它的分數(shù)維大于它的拓撲維數(shù),分形與混沌關(guān)系十分密切。分形的生成機制,可以由非常簡單的遞歸、迭代等方法產(chǎn)生并定義[10]。若用單位長度為r的基本圖形去近似復(fù)雜圖形,若近似復(fù)雜圖形所用基本圖形總數(shù)滿足N(r)∝r-D,則D即為維數(shù)?;诖?正確可靠地估計出分維數(shù)具有十分重大的意義。常用的維數(shù)計算包括關(guān)聯(lián)維數(shù)、Hausdorff維數(shù)、拓撲維數(shù)、信息維數(shù)等[8]。
由于語音段與噪聲段波形的不規(guī)則性,對不規(guī)則度的測度即分維值變化明顯,在語音段中每一個音素都有因自身的相似性而呈現(xiàn)出相對穩(wěn)定的分維值。在語音段與噪聲段的變化中的分維數(shù)值會有差異,而分維趨勢會產(chǎn)生突變[5],根據(jù)分維數(shù)值的不同可以實現(xiàn)語音段與噪聲段分割,從而完成語音的端點檢測。
2.1 格分維
分形維數(shù)是信號最主要的特征參數(shù),語音信號通常可以看作是由一維直線延拓成的彎曲的二維線段[10-13],因此語音曲線具有分形性,隨著時間的變化,若把直線看成一維,面看成二維,則語音曲線位于一維與二維之間。本文采用的為格分維,對于語音信號x(i),用尺度為r的單元覆蓋,形成區(qū)域F。格分維計算公式為
(1)
式(1)中DB為分形維數(shù)值,N(F)為尺度為r的網(wǎng)格覆蓋區(qū)域F所需要的最小正方形個數(shù),F(xiàn)將分割為尺度為r的單元,確定r變化滿足Nr∝r-D,本文引用最小二乘趨勢擬合[9]來求解DB,首先確定i個尺度,令
xi=ln(ri)
(2)
yi=lnN(ri)
(3)
設(shè)由多點擬合出的直線為
y=ax+b
(4)
式(4)中斜率a即為維數(shù)DB,定義誤差項
(5)
若使E為最小值,則要滿足
(6)
則a、b、DB分別為
(7)
(8)
DB=
(9)
2.2 設(shè)定點到擬合直線閾值
通過以上運算,我們可以將離散信息擬合為一條直線,但若存在少量信息點離直線較遠,這樣會降低直線擬合的精準度,也會大大降低檢測速度,所以可以設(shè)定一個距離閾值來舍棄離目標較遠的點。具體方法是在N+1幀語音中,對于分割后的點(x0,y0),判定其是否為所需要的點。
(1)前N幀趨勢擬合直線yn=axn+b。
(2)設(shè)目標點為(x0,y0)。
(4)得出目標點到擬合直線的距離,設(shè)定閾值T,若d>T,此點不在范圍內(nèi)。若d 本文通過MATLAB環(huán)境對語音信號進行分形維數(shù)的端點檢測,并對比了傳統(tǒng)的譜熵法端點檢測。在較純凈的語音基礎(chǔ)上加入高斯白噪聲,噪聲分別為0 bB與5 dB。在經(jīng)過了分幀處理之后,就可以對每一幀語音信號的短時特征進行分析。在分形維數(shù)端點檢測上首先將語音信號歸一化為x(t),再將歸一化的信號用尺度為r的網(wǎng)格劃分,變換r的尺度,計算lnN(r)、ln(r-1) ,再利用最小二乘擬合直線,前N幀趨勢擬合到直線yn=axn+b,設(shè)定N+1 幀點到直線距離閾值,大于閾值則舍棄此點從而減少噪聲與突變的影響。設(shè)定相對的門限值,完成語音段與噪聲段跳變的切割,從而得到DB。分析結(jié)果如圖1、圖2、圖3所示。 圖1 較純凈語音下分形維數(shù)與譜熵端點檢測對比 圖2 5 dB噪聲下下分形維數(shù)與譜熵端點檢測對比 圖1中較純凈的語音下語音段與噪聲段的分界十分明顯,分形維數(shù)法與譜熵法均有很好的效果對區(qū)分語音段與噪聲段。 圖2與圖3中均加入了低信噪比高斯白噪聲,噪聲使原始語音的語音段變得難以區(qū)分,圖2中信噪比5dB前70幀與后20幀為噪聲段,70幀至160幀為語音段。圖2 (c)中由于噪聲的加入使譜熵值高于圖1(c)中純凈語音噪聲段與語音段,且區(qū)分噪聲與語音程度有所下降。圖2(b)中由于加噪后語音段較低信噪比的噪聲信號有更大的周期性與規(guī)律性,隨之分形維數(shù)會有更大差異,噪聲段與語音段的分形維數(shù)會有很大的不同。圖3中加入0dB的噪聲,在低信噪比條件下,語音段與噪聲段的分界逐漸變得模糊,圖3(c)中由于低信噪比噪聲熵值變得更大,更為混亂,難以區(qū)分語音段與噪聲段。圖3(b)中分形維數(shù)有更好的穩(wěn)定性,全面地反映了語音段與噪聲段的特性,檢測的準確率高于傳統(tǒng)的譜熵法。 圖3 0 dB噪聲下下分形維數(shù)與譜熵端點檢測對比 由于語音段與噪聲段的分維值不同,可以在低信噪比條件下通過對比發(fā)現(xiàn)譜熵端點檢測在較純凈語音下準確分析出語音段和非語音段,但加入低信噪比的高斯白噪聲后,對于已無法清晰區(qū)分的語音段與噪聲段,分形維數(shù)檢測的準確率高于傳統(tǒng)的譜熵法。 對帶噪語音的語音段與噪聲段的分割中,由于語音信號是一個復(fù)雜的非線性過程,其中存在著產(chǎn)生混沌的機制,語音信號在一定尺度下的局部與整體之間具有統(tǒng)計自相似性與標度不變性。這種性質(zhì)表明可以用分形維數(shù)法更好地分析語音特性。本文應(yīng)用格分維的方法對帶噪語音進行分析,并改進了格分維中的最小二乘法來提高檢測精度與速率,根據(jù)分形維數(shù)值的不同可以實現(xiàn)語音段與噪聲段的分割。如圖1、2、3所示由于自身相關(guān)性語音段與噪聲段呈現(xiàn)出相對穩(wěn)定的分形維數(shù)值,不同的語音段與噪聲段有不同的尺度標注,不用段的分形維數(shù)值有很大差異性,從而使分維趨勢產(chǎn)生較大變化。而傳統(tǒng)的譜熵法隨著噪聲的增強其熵值的混亂程度增大,使語音段與噪音段的分界越來越難分清,難以達到想要的結(jié)果。 語音信號所具有的分形特征是將分形理論引入語音信號分形分析的基礎(chǔ)。在低信噪比情況下分析端點檢測存在一定難度,本文通過對比傳統(tǒng)的譜熵法發(fā)現(xiàn)在低信噪比的條件下,分形維數(shù)端點檢測具有更好的效果。 [1] 張恒,周萍.車載環(huán)境下語音端點檢測的研究[J].微型機與應(yīng)用,2017(5):21-23. [2] 費珍福,王樹勛,何凱.分形理論在語音信號端點檢測及增強中的應(yīng)用[J].吉林大學學報(信息科學版),2005,23(2):139-142. [3] 陳彥輝,謝維信.隨機分形信號參數(shù)的分數(shù)差分估計[J].電子與信息學報,2001,23(1):9-15. [4] 劉悅,王曉婷.短時頻域分形端點檢測算法[J].微電子學與計算機,2015 (9):81-84. [5] 柯世杰,岳振軍.分形理論在語音信號處理中的應(yīng)電腦知識技術(shù)[J].2009,5(7):1719-1721. [6] 軒詩宇.分形理論在語音信號處理中的應(yīng)用探析[J].電子技術(shù)與軟件工程,2016(9):61-61. [7] 黃湘松,趙春暉,劉柏森.噪聲背景下連續(xù)語音信號分割的一種新方法[C].2008全國博士生學術(shù)論壇.北京,2008. [8] 周璐璐,鄧江洪.一種機器人智能語音識別算法研究[J].計算機測量與控制,2014,22(10):3267-3269. [9] 張振紅.基于分形維數(shù)的語音端點檢測算法研究[D].太原:太原理工大學,2008. [10]MAMIDISETTY KRANTHI K,DUAN MINLAN,SASTRY SHIVAKUMAR,et al.Multipath dissemination in regular mesh topologies[J].IEEE Transactions on Parallel and Distributed Systems,2009,20(8):1188-1201. [11]黃湘松,趙春暉,劉柏森.噪聲背景下連續(xù)語音信號分割的一種新方法[C].2008全國博士生學術(shù)論壇——電氣工程,成都,2008:2094-2100. [12]喻勝,閆波,陳光.一種提取噪聲中正弦信號的總體最小二乘法[J].電子測量與儀器學報,2000,14(2):6-10. [13]宋知用.MATLAB在語音信號分析與合成中的應(yīng)用[M].北京:北京航空航天大學出版社,2013:101-103. [14]陳亞勇.MATLAB信號處理詳解[M].北京:人民郵電出版社,2001:104-107. [15]劉浩,韓晶.MATLAB R2012a完全自學一本通[M].北京:電子工業(yè)出版社,2013:284-285. Endpointdetectionofnoisyspeechbasedonfractaldimension JIA Liang,YIN Yi,YANG Hui-chao (College of Electronic and Information Engineering,Shenyang Aerospace University,Shenyang 110136,China) The difficulty of speech endpoint detection in noisy environment will be greatly improved,The application of fractal method to analyze the noisy speech using fractal properties,can better analyze the speech characteristics,according to the different fractal dimension can realize the speech and noise segment,realize noisy speech starting and ending point detection.The spectral entropy endpoint detection method of endpoint detection method compared with the traditional fractal dimension,according to the simulation,0 dB and 5dB than the speech signal noise.The results show that the method of fractal dimension can better segmentation of speech and noise. fractal dimension;speech endpoint detection;spectrum entropy;noisy speech 2017-07-10 賈 亮(1971-),男,遼寧大石橋人,副教授,主要研究方向:信號分析與處理,E-mail:jialiang@sau.edu.cn。 2095-1248(2017)05-0063-05 TN912.3 A 10.3969/j.issn.2095-1248.2017.05.009 (責任編輯:劉劃 英文審校:齊義文)3 噪聲下的語音端點檢測
4 結(jié)論