陳航 伍子嘉 彭勇 宋威
摘 ?要:在語音信號處理中,端點(diǎn)檢測是語音處理的一個重要部分?,F(xiàn)提出一種基于分形維數(shù)和語音幀自相關(guān)函數(shù)絕對值均值的雙門限端點(diǎn)檢測方法。根據(jù)語音信號和噪聲信號分形維的不同,以及噪聲信號與語音信號自相關(guān)函數(shù)的特點(diǎn)進(jìn)行語音端點(diǎn)檢測,并通過MATLAB仿真進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,該方法在5 dB噪聲環(huán)境下能較好地判斷語音信號的起止點(diǎn)。
關(guān)鍵詞:端點(diǎn)檢測;分形維數(shù);自相關(guān)函數(shù)絕對值均值
中圖分類號:TN92 ? 文獻(xiàn)標(biāo)志碼:A文章編號:2096-4706(2021)21-0108-04
Abstract: In speech signal processing, endpoint detection is an important part of speech processing. In this paper, a dual-threshold endpoint detection method based on the fractal dimension and the absolute mean value of the speech frame autocorrelation function is proposed. According to the different fractal dimensions of speech signal and noise signal and the characteristics of autocorrelation function of noise signal and speech signal, the speech endpoint is detected and verified by MATLAB simulation. Experimental results show that this method can better judge the start and end points of speech signals in 5 dB noise environment.
Keywords: endpoint detection; fractal dimension; absolute mean value of autocorrelation function
0 ?引 ?言
語音端點(diǎn)檢測是語音識別中的一個重要部分,用于準(zhǔn)確地判斷含有噪聲語音信號的起止點(diǎn)[1]。隨著機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的發(fā)展,語音識別也越來越受到人們的重視,語音識別中端點(diǎn)檢測是極其重要的一環(huán),端點(diǎn)檢測的正確率會直接影響到后續(xù)語音識別的準(zhǔn)確率。研究表明,即使是在十分安靜的環(huán)境下,語音識別也不可能百分之百準(zhǔn)確,語音檢測系統(tǒng)中超過一半以上的錯誤可能來自端點(diǎn)檢測[2]。因此,對端點(diǎn)檢測的研究具有十分重要的意義。傳統(tǒng)的語音檢測方法主要是基于短時能量和短時過零率的雙門限檢測方法,雙門限法對含有白噪聲語音的檢測效果很好。然而,現(xiàn)實(shí)世界中的噪聲是復(fù)雜多變的,致使雙門限法有時候也難以達(dá)到預(yù)期的效果[3],為此許多學(xué)者對其進(jìn)行了改進(jìn)。薛勝堯[4]出于提高識別率的目的,提出一種通過調(diào)整閾值個數(shù),引入語音結(jié)束最小長度的方法對其進(jìn)行改進(jìn)。鄧艷容等[5]提出先利用譜減法去噪,然后采用雙門限法進(jìn)行判斷。朱利春[6]等提出基于LMS自適應(yīng)濾波進(jìn)行判斷的方法。專家們所提的這些方法都取得了較好的效果。除了雙門限法之外,后來學(xué)者們又提出了譜距離法、MCCF倒譜距離法、譜熵法等方法以及先降噪再進(jìn)行端點(diǎn)檢測的聯(lián)合方法,也都取得了較好的效果[7]。
本文基于短時能量與短時過零率的雙門限思想,提出一種新的檢測方法,即結(jié)合分形維數(shù)與自相關(guān)函數(shù)絕對值均值來對語音信號進(jìn)行端點(diǎn)檢測。通過對信號進(jìn)行預(yù)加重及分幀加窗處理,計(jì)算每一幀數(shù)據(jù)的分形維數(shù)和自相關(guān)函數(shù)絕對值均值。通過設(shè)置合理的門限進(jìn)行判斷,達(dá)到對語音端點(diǎn)檢測的目的。
1 ?分形維數(shù)與自相關(guān)函數(shù)
1.1 ?分形維數(shù)
空氣動力學(xué)的研究發(fā)現(xiàn),語音信號是一種非線性信號,具有混沌的特性[8]。分形是描述混沌特性的一種重要手段,而分形維數(shù)則是分形的一個重要特征。因此,我們可以用分形維數(shù)來描述語音信號。語音分形維數(shù)常用的計(jì)算方法有Katz方法、Higuchi方法、Petrosian方法和Maragos方法[9],本文采用Katz方法進(jìn)行計(jì)算。
將語音信號看成一系列的點(diǎn),在坐標(biāo)系中用(x,y)的形式表示出來,x代表示采樣點(diǎn)且單調(diào)遞增,y表示對應(yīng)的幅值。那么語音信號的分形維數(shù)就可以用式(1)來計(jì)算:
式(2)中,wlen表示一幀語音信號的長度,xi(j+1)和xi(j)表示第i幀數(shù)據(jù)的第j+1和第j個點(diǎn)對應(yīng)的橫坐標(biāo)。yi(j+1)和yi(j)則表示第i幀數(shù)據(jù)的第j+1和第j個點(diǎn)的幅值,式(3)中xi(1)表示第i幀數(shù)據(jù)的第一個點(diǎn)的橫坐標(biāo),yi(1)表示第i幀數(shù)據(jù)的第一個點(diǎn)的幅值,其他變量與式(2)中的含義相同。式(4)中變量含義與式(1)中相同。
通過以上表達(dá)式,我們就可以計(jì)算含噪聲語音信號的每一幀數(shù)據(jù)的分形維數(shù),由表達(dá)式可知,影響分形維數(shù)的主要因素就是信號的幅值,而含有噪聲的語音信號所對應(yīng)的幅值往往大于單獨(dú)的噪聲信號的幅值,所以可以得出,含有噪聲的語音信號的分形維數(shù)一般大于單獨(dú)的噪聲信號。圖1給出了10 dB信噪比下分形維數(shù)分布圖。
由圖1可知,語音信號的分形維數(shù)一般大于噪聲信號的分形維數(shù),特別是語音幅度較大時,分形維數(shù)的幅值會相應(yīng)地更大;語音幅值較小時,對應(yīng)的分形維數(shù)也相對較小,閾值選取不當(dāng)容易造成誤判。
1.2 ?自相關(guān)函數(shù)
自相關(guān)又稱序列相關(guān),它描述的是一個信號本身在不同時刻的互相關(guān)。在信號處理中,常常被用來找出一系列數(shù)據(jù)中重復(fù)的模式(比如被噪聲淹沒的周期信號),也可以用來識別淹沒于信號的諧波頻率中的基頻信號。它的函數(shù)定義可以由(5)表示:
式(6)相較于式(5)在形式上多了一個下標(biāo)i,下標(biāo)i表表示第i幀數(shù)幀據(jù),其他變量與式(5)中的含義相同。
自相關(guān)函數(shù)是偶函數(shù),左右對稱。噪聲信號的自相關(guān)函數(shù)與語音信號的自相關(guān)函數(shù)有著明顯的區(qū)別,噪聲信號的自相關(guān)函數(shù)值呈現(xiàn)無規(guī)則狀態(tài),在中間點(diǎn)達(dá)到最大值[10],且最大值較小,兩側(cè)的自相關(guān)函數(shù)值迅速地衰減為0。而含有噪聲語音信號的自相關(guān)函數(shù)則不同,在短時間內(nèi)可以看作是平穩(wěn)信號,語音信號的自相關(guān)函數(shù)值在中間點(diǎn)達(dá)到最大值,且最大值較大,語音信號兩側(cè)的自相關(guān)函數(shù)值呈現(xiàn)一定的周期性且緩慢地衰減為0。因此通過二者的特性計(jì)算得到含噪聲語音信號的自相關(guān)函數(shù)絕對值均值,由此得出噪聲階段的自相關(guān)函數(shù)絕對值均值小于語音信號階段的自相關(guān)函數(shù)絕對值均值。圖2給出了在信噪比為10 dB時語音信號的自相關(guān)函數(shù)絕對值均值分布圖。
由圖2可以看出,在沒有語音信號的時間段,自相關(guān)函數(shù)絕對值均值幾乎為0,而有語音信號的時間段,自相關(guān)函數(shù)絕對值均值明顯大于0。
2 ?端點(diǎn)檢測
2.1 ?清音與濁音
語音信號分為有聲段和無聲段,無聲段就是噪音,有聲段分為清音和濁音,濁音是我們所需要的承載信息的部分,由聲帶振動發(fā)出,而清音是由空氣進(jìn)入口腔后發(fā)生摩擦或者爆破產(chǎn)生的。分形維數(shù)可以很好地區(qū)分語音信號的濁音部分和噪聲信號,也能區(qū)分濁音信號和清音信號,但是分形維數(shù)容易受噪聲干擾,自相關(guān)函數(shù)則能摒除噪聲干擾,但是自相關(guān)函數(shù)絕對值均值的判斷方法對清音信號判斷有所不足,所以二者結(jié)合能實(shí)現(xiàn)優(yōu)勢互補(bǔ)。
2.2 ?判斷方法
本文所采用的判別方法與傳統(tǒng)判別方法一樣,為分形維數(shù)F和自相關(guān)函數(shù)絕對值均值Z各設(shè)兩個閾值,分別為FL、FH和ZL、ZH。然后對兩者進(jìn)行判斷。
若之前是靜音區(qū),那么當(dāng)F大于FL并且Z大于ZL時,進(jìn)行預(yù)測,推斷信號可能進(jìn)入語音區(qū),后續(xù)繼續(xù)檢測,一旦出現(xiàn)F大于FH并且Z大于ZH的情形,則意味著信號進(jìn)入語音區(qū),若是中途出現(xiàn)F小于FL或者Z小于ZL的情形,那么就否定之前的預(yù)測,回歸到靜音區(qū)的判定。
若之前是語音區(qū),后續(xù)如果出現(xiàn)F小于FH或者Z小于ZH的情形,可以假設(shè)語音即將結(jié)束,如果后面出現(xiàn)F小于FL或者Z小于ZL的情形,那么就認(rèn)為語音區(qū)結(jié)束。
3 ?實(shí)驗(yàn)驗(yàn)證
在計(jì)算分形維數(shù)和自相關(guān)函數(shù)之前,需要對語音信號進(jìn)行預(yù)處理。語音信號的預(yù)處理分為預(yù)加重和加窗分幀處理兩部分。預(yù)加重的目的是為了提升高頻部分,加重之后會使得信號的頻譜變得更加平坦,那么在低頻到高頻的整個頻段中就可以使用同樣的信噪比來求解頻譜,方便后續(xù)的頻譜分析和聲道參數(shù)分析。加窗分幀處理使用漢明窗,采用交疊分幀方式進(jìn)行處理,這樣能使得分幀后的數(shù)據(jù)具有連續(xù)性,過渡更加自然。這里采用ZOIZEUS數(shù)據(jù)庫語音信號進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)的采集頻率為8 000 Hz,因?yàn)檎Z音在10 ms到36 ms之間被認(rèn)為是平穩(wěn)的,所以我們以200個數(shù)據(jù)點(diǎn)為一幀數(shù)據(jù)信號(即以25 ms為一幀數(shù)據(jù)),步長為80個數(shù)據(jù)點(diǎn)(10 ms)。取5 dB street、airport環(huán)境下的含噪聲語音信號進(jìn)行實(shí)驗(yàn),并將本文算法結(jié)果與傳統(tǒng)雙門限法的結(jié)果進(jìn)行對比,得到的實(shí)驗(yàn)結(jié)果如圖3所示。
從圖中可以看出,5 dB噪聲下,無論是airport還是street環(huán)境下,語音信號的過零率均已受到噪聲的嚴(yán)重影響,語音信號與純噪聲部分的過零率不再出現(xiàn)陡峭的下降趨勢,而是下降過程變得相對平緩,甚至反而升高,此時已經(jīng)失去了在高信噪比時噪聲信號過零率遠(yuǎn)大于語音信號過零率的特點(diǎn),所以在檢測中,檢測結(jié)果會出現(xiàn)偏差甚至是錯誤。本文未曾在途中標(biāo)出檢測結(jié)果,因?yàn)檫^零率已經(jīng)產(chǎn)生明顯偏差,不可能得到正確的檢測結(jié)果。而本文的方法中,分形維數(shù)和自相關(guān)函數(shù)絕對值均值兩個因素受噪聲的影響都相對較小,各自的特性不曾發(fā)生明顯改變,所以在二者的相互作用下,依舊能獲得較為準(zhǔn)確的檢測結(jié)果。
4 ?結(jié) ?論
根據(jù)語音存在混沌的特性,引入了分形維的概念。根據(jù)語音信號和噪聲信號自相關(guān)函數(shù)的區(qū)別,引入了自相關(guān)函數(shù)絕對值均值。通過對語音信號進(jìn)行分幀預(yù)處理,計(jì)算各個語音幀的分形維數(shù)與自相關(guān)函數(shù)絕對值均值,然后將分形維數(shù)與自相關(guān)函數(shù)絕對值均值結(jié)合起來,基于傳統(tǒng)的雙門限思想,對分形維數(shù)與自相關(guān)函數(shù)絕對值均值設(shè)置合適的閾值,對語音的端點(diǎn)進(jìn)行檢測。實(shí)驗(yàn)表明本文方法能夠有效避免噪聲干擾,準(zhǔn)確地判斷出語音的起止點(diǎn),也能判斷出語音的清音部分。通過與傳統(tǒng)雙門限檢測方法的對比,展現(xiàn)出基于短時能量與短時過零率的傳統(tǒng)雙門限檢測方法的不足,表明了本文方法的效果優(yōu)于傳統(tǒng)的檢測方法。當(dāng)然本文方法也有許多有待改進(jìn)的地方。本文不曾對漢語語音進(jìn)行測試,對于漢語中語音結(jié)構(gòu)復(fù)雜的端點(diǎn)檢測有待后續(xù)進(jìn)一步深入研究,同時,本文方法未與信號降噪等方法相結(jié)合,對于先通過降噪算法進(jìn)行語音降噪處理然后再采用本文方法判斷端點(diǎn)的聯(lián)合效果也有待進(jìn)一步研究。
參考文獻(xiàn):
[1] 陳錫鍛.一種雙門限語音端點(diǎn)檢測算法 [J].浙江工貿(mào)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2021,21(2):43-46.
[2] 沈蓉.智能門禁系統(tǒng)聲紋識別中端點(diǎn)檢測算法研究 [D].西安:西安科技大學(xué),2015.
[3] 吳邊,王忠,劉興濤.強(qiáng)背景噪聲下語音端點(diǎn)檢測的算法研究 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47(33):137-139.
[4] 薛勝堯.基于改進(jìn)型雙門限語音端點(diǎn)檢測算法的研究 [J].電子設(shè)計(jì)工程,2015,23(4):78-81.
[5] 鄧艷容,景新幸,楊海燕,等.語音端點(diǎn)檢測研究 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(6):240-243.
[6] 朱春利,李昕.基于LMS減噪與改進(jìn)的雙門限語音端點(diǎn)檢測方法 [J].系統(tǒng)仿真學(xué)報(bào),2017,29(9):1950-1960+1967.
[7] 夏令祥.低信噪比環(huán)境下語音端點(diǎn)檢測方法的研究 [D].徐州:中國礦業(yè)大學(xué),2019.
[8] HAGHANI S K,AHADI S M. Robust voice activity detection using feature combination [C]//2013 21st Iranian Conference on Electrical Engineering (ICEE).Mashhad:IEEE,2013:1-5.
[9] 劉煒杰,安桐,張濤.基于Katz維數(shù)的改進(jìn)譜減算法 [J].信息與控制,2021,50(6):677-684.
[10] 崔東東,張恒璟,程鵬飛.一種自相關(guān)函數(shù)絕對值均值變點(diǎn)的去噪方法 [J].測繪科學(xué),2019,44(12):42-49.
作者簡介:陳航(1998—),男,漢族,湖北孝感人,碩士研究生在讀,主要研究方向:數(shù)字信號處理;伍子嘉(1997—),男,漢族,江蘇揚(yáng)州人,碩士研究生在讀,主要研究方向:機(jī)器視覺與深度學(xué)習(xí);彭勇(1967—),男,漢族,江蘇無錫人,副教授,碩士,主要研究方向:嵌入式軟件與設(shè)計(jì);宋偉(1981—),湖北恩施人,教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、自然語言處理。