方臻成
【摘要】 在語音信號處理中,端點檢測是十分重要的一項內(nèi)容。端點檢測,可以在有噪聲的背景中確定語音信號的起始點和終止點,為后續(xù)處理做必要的準(zhǔn)備。而由于背景噪聲的存在,光從波形上判斷始終點會有一定困難。本文針對端點檢測,介紹短時能量法與過零率法兩種方法,并對這兩種方法進行討論。
【關(guān)鍵詞】 語音信號處理 端點檢測
一、背景
在錄制語音時,除了將說話人的語音錄進計算機外,還不可避免地將外界噪聲也錄入計算機。因此,在說話者沒有說話的時候,也會有信號出現(xiàn)在錄制好的文件中。在這種情況下,就給判斷語音信號從哪開始,在哪結(jié)束帶來困難。在這種情況下,對信號進行端點檢測,來判斷語音的始點與終點是有必要的。下面介紹的是兩種常用方法:短時能量法與過零率法。
二、語音的分類
從發(fā)音特點來分,語音可以分成很多種。最基本的兩種是元音與輔音。當(dāng)我們發(fā)元音時,聲帶發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,如漢語拼音的a、o、e。當(dāng)我們發(fā)輔音時,呼出的聲流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻,與發(fā)聲器官發(fā)生摩擦從而發(fā)出聲音,如漢語拼音的s、t。
三、短時能量法
將語音信號數(shù)字化后,信號x(n)短時能量定義如下:
其中w(n)是窗函數(shù)。由于語音信號的短時能量一般會比噪聲的要大,因此可以通過短時能量對語音信號的起點與終點進行判斷。
四、短時過零率法
如果將時間作為橫軸,聲音的振幅作為縱軸,那么就可以在坐標(biāo)上記錄聲音的波形圖。過零率就是單位時間內(nèi)波形穿越時間軸的次數(shù)。一般來說,噪聲都是頻率高,振幅小的信號,因此噪聲的過零率極高。為了屏蔽噪聲的過零率,我們設(shè)置一個閾值。比如說,假設(shè)噪聲的幅度一般不超過a(a是一個比較小的數(shù)),那么我們就把正負a作為一個閾值,只有波形穿越了正負a這一區(qū)間,才算一次穿越橫軸。這樣,噪聲就在正負a區(qū)間震動,并不會提高過零率。這樣,就可以通過過零率判斷語音的始終點。信號{x(n)}的短時平均過零率定義為:
其中sgn是符號函數(shù):
五、兩種方法的比較
錄取“一、二、三”三個字節(jié)的音頻,將音頻數(shù)字化后進行分幀,幀長為160點。以160點為幀長,80為幀移,分別計算其短時能量與過零率。圖1由上至下三個圖分別是語音數(shù)字化后的波形圖、短時能量與過零率。
在三個圖中,用豎線劃分出來的部分就是元音部分。從這三個圖中可以看到,對于元音,不管用短時能量還是過零率,都能較好地看出元音地起點與終點。但對于輔音,情況就有點復(fù)雜。以音節(jié)“三”為例,“三”包含一個輔音“s”和一個元音“an”,從圖中可看出,發(fā)“s”時,語音的短時能量非常低,而過零率卻非常高,這證明,輔音的幅度很?。ǖ仍胍舸螅?,而輔音的頻率比元音大得多。因此,如果光用短時能量,很難判斷出輔音的出現(xiàn)。而對元音方面,雖然用兩種方法都能判斷元音的始終點,但從音節(jié)“三”看出,元音的過零率比輔音要低,因此光靠過零率來識別元音,會有誤差。
因此,從圖1可知,輔音過零率高而短時能量小,元音過零率低而短時能量大。光靠一種方法來判斷語音的始終會有誤差的,應(yīng)該將兩者結(jié)合起來看??偟膩碚f,在噪聲比較小的時候,用短時能量判斷會比較準(zhǔn)確,而在噪聲比較大時,用過零率來判斷會比較準(zhǔn)確。
參 考 文 獻
[1] 趙力. 語音信號處理[M].機械工業(yè)出版社