成新民 蔣天發(fā) 李祖欣
(湖州師范學(xué)院信息與工程學(xué)院1) 湖州 313000) (中南民族大學(xué)計(jì)算機(jī)科學(xué)學(xué)院2) 武漢 430073)
基音的檢測(cè)提取一直是一個(gè)被廣泛研究的課題,并提出了各種各樣的基音檢測(cè)算法.然而由于濁音信號(hào)的周期性表征極其復(fù)雜,無論采用哪一種基音檢測(cè)算法都可能產(chǎn)生基音檢測(cè)錯(cuò)誤,加之噪音干擾,使求得的基音周期軌跡中有一個(gè)或幾個(gè)基音周期估值偏離了正常軌跡(通常是偏離到正常值的2倍或1/2),這種偏離點(diǎn)稱為“野點(diǎn)”.這些脈沖噪聲類似于圖像中的椒鹽噪聲,故可以采取平滑技術(shù)加以糾正.
目前比較常用的基音平滑方法主要有中值濾波算法和線性平滑算法以及它們的組合.它們有一個(gè)共同的缺點(diǎn)是在糾正輸入信號(hào)中不平滑處樣點(diǎn)值的同時(shí),也使附近各樣點(diǎn)的值做了修改,從而使信號(hào)產(chǎn)生了失真.形態(tài)學(xué)濾波器作為一種非線性濾波器近年來在數(shù)字信號(hào)處理領(lǐng)域獲得了廣泛應(yīng)用,它基于信號(hào)的幾何特征,利用預(yù)先定義的結(jié)構(gòu)元素(相當(dāng)于濾波窗)對(duì)信號(hào)進(jìn)行匹配,以達(dá)到提取信號(hào),抑制噪聲的目的.形態(tài)學(xué)濾波在圖像處理領(lǐng)域已經(jīng)獲得了很好的效果.由于基音周期軌跡中的野點(diǎn)類似于圖像中的椒鹽噪聲,并聯(lián)想到形態(tài)學(xué)濾波能在有效抑制脈沖噪聲的同時(shí)較好地保持信號(hào)的細(xì)節(jié),因此將形態(tài)學(xué)方法用于基音周期軌跡的平滑是可行的[1-2].本文就是利用了形態(tài)學(xué)的概念和方法對(duì)基音軌跡進(jìn)行平滑濾波,在濾波窗口的選取方面進(jìn)行了一些研究,并針對(duì)形態(tài)學(xué)濾波的特點(diǎn)提出了改進(jìn),使算法的精確性進(jìn)一步提高,復(fù)雜性大大降低.
數(shù)學(xué)形態(tài)學(xué)是以集合論為基礎(chǔ)的一種研究方法,它是一種非線性變換.其基本思想是:利用一個(gè)稱為結(jié)構(gòu)元素的“探針”的移動(dòng)來收集對(duì)象的信息.采用不同的結(jié)構(gòu)元素,可以提取出不同的形狀特征,所有的形態(tài)學(xué)處理都是基于填放結(jié)構(gòu)元素的概念.形態(tài)變換一般分為二值形態(tài)變換和多值(灰度)形態(tài)變換.本文只限于討論一維離散情況下的多值形態(tài)變換.其基本運(yùn)算包括腐蝕、膨脹、形態(tài)開和形態(tài)閉.
對(duì)于定義在整數(shù)集D上的離散函數(shù)f(n),它關(guān)于結(jié)構(gòu)函數(shù)g(n)的基本形態(tài)變換定義為:
由此不難看出,離散形式的膨脹和腐蝕運(yùn)算實(shí)際上等價(jià)于離散函數(shù)在結(jié)構(gòu)元素(相當(dāng)于滑動(dòng)濾波窗口)中的最大和最小值濾波.開運(yùn)算和閉運(yùn)算對(duì)信號(hào)作用產(chǎn)生的效果不同.開運(yùn)算可以抑制信號(hào)中的峰值〔正脈沖〕噪聲,而閉運(yùn)算可以抑制信號(hào)中的低谷(負(fù)脈沖)噪聲.為了同時(shí)去除信號(hào)正、負(fù)兩種脈沖噪聲,通??梢圆捎眯螒B(tài)開、閉運(yùn)算的級(jí)聯(lián)組合形式.
結(jié)構(gòu)元素的選取是形態(tài)學(xué)濾波的關(guān)鍵,其形狀和大小直接決定了形態(tài)運(yùn)算的效果.所選的結(jié)構(gòu)元素必須既能夠有效地抑制噪聲,又不損壞信號(hào)的細(xì)節(jié).而選擇結(jié)構(gòu)元素并沒有確定的規(guī)則和定律,通常要根據(jù)信號(hào)的幾何形態(tài)和變化特征進(jìn)行選擇.幾種常用的結(jié)構(gòu)元素如圖1所示.
圖1 幾種常用的結(jié)構(gòu)元素
對(duì)于直線段,無疑圖1a)所示的平結(jié)構(gòu)元素是最合適的,但是它對(duì)于曲線段卻通常會(huì)引入一些階梯狀變化[3],破壞了原始圖像的幾何性狀;圖1b)所示的星形結(jié)構(gòu)元素通常適合于曲線段,而在直線段部分則會(huì)引起一些波動(dòng);圖1c)所示的圓盤形結(jié)構(gòu)元素是一種折衷.考慮到語音信號(hào)的基音軌跡的特點(diǎn):在短時(shí)間內(nèi)變化比較緩慢,基音軌跡大部分區(qū)域比較平滑,但是在某一部分又有可能出現(xiàn)連續(xù)的錯(cuò)誤點(diǎn)和隨機(jī)誤差,即出現(xiàn)較寬的脈沖噪聲,因此本文采用了如圖2所示的結(jié)構(gòu)元素.
圖2 本文采用的結(jié)構(gòu)元素
開運(yùn)算可以抑制正脈沖,閉運(yùn)算可以抑制負(fù)脈沖,開-閉,閉-開的級(jí)聯(lián)形式運(yùn)算雖然可以同時(shí)濾除信號(hào)的正、負(fù)脈沖噪聲,但是存在統(tǒng)計(jì)偏移現(xiàn)象.這是由開運(yùn)算的收縮性和閉運(yùn)算的擴(kuò)展性造成的,結(jié)果導(dǎo)致開-閉濾波器的輸出幅度偏小,而閉-開濾波器的輸出幅度偏大.雖然取兩者的平均可以消除統(tǒng)計(jì)偏移現(xiàn)象[4-5],但是計(jì)算量和復(fù)雜性勢(shì)必很大,因?yàn)閷?duì)信號(hào)中的每一個(gè)樣點(diǎn)都進(jìn)行了數(shù)次開、閉運(yùn)算,而且多次形態(tài)學(xué)運(yùn)算的微小變形累加的結(jié)果,仍然會(huì)造成信號(hào)一定程度上的失真.本文提出的算法是對(duì)基本的形態(tài)運(yùn)算加入一些改進(jìn),使得形態(tài)學(xué)的腐蝕和膨脹操作僅作用于那些“野點(diǎn)”,從根本上消除了統(tǒng)計(jì)偏移現(xiàn)象,并使算法的復(fù)雜性和計(jì)算量大大降低,精確性卻得到提高.
腐蝕和膨脹運(yùn)算實(shí)際上是離散函數(shù)在滑動(dòng)窗口中的極值運(yùn)算,這是引起開運(yùn)算的收縮性和閉運(yùn)算的擴(kuò)展性以及開-閉、閉-開的統(tǒng)計(jì)偏移的根本原因.可以做這樣一種改進(jìn):將每次極值運(yùn)算得到的值作為一個(gè)參考值,而不是直接取代被考察的樣點(diǎn)的值,將樣點(diǎn)值與這個(gè)參考值之差與一個(gè)閾值相比較,如果差值大于這個(gè)閾值,則認(rèn)為被考察的樣點(diǎn)是一個(gè)野點(diǎn),用參考值取代之,否則保留樣點(diǎn)的值不變.即對(duì)于腐蝕操作,如果
則
式中:閾值T可以取為對(duì)于膨脹操作,如果
這樣,對(duì)于一個(gè)相同的結(jié)構(gòu)元素,經(jīng)過一次改進(jìn)的開運(yùn)算,正脈沖被消除了,經(jīng)過一次改進(jìn)的閉運(yùn)算,負(fù)脈沖被消除了,而那些不是野點(diǎn)的樣點(diǎn)值被原封不動(dòng)的保存了下來.于是整個(gè)基音軌跡的平滑過程簡(jiǎn)化為只需要一次開運(yùn)算和一次閉運(yùn)算.
實(shí)驗(yàn)中選擇時(shí)長(zhǎng)各約3~6s的男、女、童音三段語音,分別采用自相關(guān)函數(shù)(ACF)法、平均幅度差函數(shù)(AMDF)法和倒譜(CEP)法對(duì)三段語音進(jìn)行基音檢測(cè)[6-7].然后用本文提出的基音軌跡平滑算法對(duì)基音軌跡進(jìn)行平滑,并與采用5點(diǎn)中值濾波得到的平滑結(jié)果進(jìn)行比較.考慮到基音軌跡中相鄰幀的頻率之差一般不超過10Hz,而隔幀之間的頻率差不超過20Hz,因此將本算法中的閾值取為20Hz,并采用前面提到的結(jié)構(gòu)元素進(jìn)行了實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表1所列.
表1 三段語音的基音軌跡平滑前后的檢測(cè)誤差幀數(shù)
然后選用一段男聲的漢語普通話發(fā)音作為實(shí)驗(yàn)材料,實(shí)驗(yàn)過程框圖如圖3所示.漢語“你知道這件事”的原始語音信號(hào)的時(shí)域波形如圖4所示.先用自相關(guān)法進(jìn)行基音檢測(cè)得到圖5所示的基音軌跡,然后用本文提出的基音軌跡平滑算法對(duì)基音軌跡進(jìn)行平滑得到圖6所示的實(shí)驗(yàn)結(jié)果,同時(shí)采用5點(diǎn)中值濾波得到的圖7所示的平滑結(jié)果.
同樣地,對(duì)一段較長(zhǎng)的漢語普通話“你們看那只新天鵝……”進(jìn)行試驗(yàn),得到如圖8~11所示的結(jié)果.
圖3 實(shí)驗(yàn)過程框圖
圖4 漢語“你知道這件事”原始語音信號(hào)的時(shí)域波形
圖5 漢語“你知道這件事”未經(jīng)平滑的基音軌跡
圖6 漢語“你知道這件事”經(jīng)過本文方法平滑的基音軌跡
圖7 漢語“你知道這件事”經(jīng)過5點(diǎn)中值濾波平滑的基音軌跡
圖8 漢語“你們看那只新天鵝……”原始語音信號(hào)的時(shí)域波形
圖9 漢語“你們看那只新天鵝……”未經(jīng)平滑的基音軌跡
圖10 漢語“你們看那只新天鵝……”經(jīng)過本文方法平滑的基音軌跡
通過實(shí)驗(yàn)得到波形,將經(jīng)本文方法平滑的基音軌跡與經(jīng)過5點(diǎn)中值濾波平滑的基音軌跡進(jìn)行比較.可以看出,采用本文提出的方法能夠有效地濾除倍頻和半頻噪聲,同時(shí)還較好地保持了信號(hào)的細(xì)節(jié),而且對(duì)于連續(xù)的錯(cuò)誤點(diǎn)和隨機(jī)誤差點(diǎn)具有更好的平滑效果.
圖11 漢語“你們看那只新天鵝……”經(jīng)過5點(diǎn)中值濾波平滑的基音軌跡
形態(tài)學(xué)濾波是一種非線性濾波方法,原理簡(jiǎn)單,而且其本身固有的并行性使得運(yùn)算簡(jiǎn)單,速度較快.基于對(duì)象幾何特征的特點(diǎn)決定了形態(tài)學(xué)方法對(duì)濾除脈沖噪聲非常有效,無論在二維的圖像處理領(lǐng)域還是用于處理一維信號(hào)的“野點(diǎn)”.通過選取不同形狀和大小的結(jié)構(gòu)元素,可以實(shí)現(xiàn)不同的平滑效果.傳統(tǒng)的中值濾波平滑是一種強(qiáng)制性平滑,可能平滑掉信號(hào)中的某些固有突變,破壞信號(hào)的細(xì)節(jié)特征,形態(tài)學(xué)運(yùn)算實(shí)際上是極值運(yùn)算,也可能存在這個(gè)問題.而本文提出的方法則有效地解決了這個(gè)問題.
[1]江太輝.一種改進(jìn)的語音基頻輪廓提取算法[J].五邑大學(xué)學(xué)報(bào),2002,16(2):27-33.
[2]郭景峰,申光憲,鄭繩楦,等.數(shù)學(xué)形態(tài)學(xué)在數(shù)字濾波中的應(yīng)用研究[J].機(jī)械工程學(xué)報(bào),2002,38(10):144-147.
[3]趙曉群,王光艷.漢語語音基音軌跡的形態(tài)學(xué)濾波和平滑[J].信號(hào)處理,2003,19(4):354-357.
[4]王鈞銘,趙 力.一種基于數(shù)學(xué)形態(tài)學(xué)的車牌圖像分割方法[J].電視技術(shù),2007,31(10):84-86.
[5]陳 燕,譚玉敏,宋新山,等.基于遙感圖像的地學(xué)信息單元特征提取與識(shí)別[J].武漢理工大學(xué)學(xué)報(bào):交通科學(xué)與工程版,2008,32(6):1021-1024.
[6]Yu P T,Some representation properties of stack filters[J].IEEE Transactions on Signal Processing,1992,40(9):2261-2266.
[7]Gonzalo R A.Statistical threshold decomposition for recursive and no recursive median filters[J].IEEE Transactions on Information theory,1986,32(2):243-253.