張金榜,尹冬梅(.武警警官學(xué)院 信息工程系,四川 成都 603;.武警江蘇省總隊 通信站修理所,江蘇 南京 009)
基于統(tǒng)計模型的語音激活檢測算法改進
張金榜1,尹冬梅2
(1.武警警官學(xué)院信息工程系,四川成都610213;2.武警江蘇省總隊通信站修理所,江蘇南京210019)
語音激活檢測技術(shù)是應(yīng)用于語音偵聽領(lǐng)域降低節(jié)點能耗的關(guān)鍵技術(shù)之一,其核心是語音激活檢測算法。針對基于統(tǒng)計模型的語音激活檢測算法僅采用當(dāng)前語音幀的參數(shù)來判斷有無語音信號而帶來的誤檢率高的問題,提出用相鄰語音幀邏輯與運算的方法對其進行改進。試驗表明:改進后的算法在誤檢率上明顯低于改進前,提高了語音信號檢測的準(zhǔn)確性,有效地降低了節(jié)點能耗。
統(tǒng)計模型;語音激活檢測;檢測算法
語音激活檢測技術(shù)是利用語音激活檢測算法,僅當(dāng)檢測到語音信號時激活節(jié)點,使之從休眠狀態(tài)轉(zhuǎn)換到工作狀態(tài),其余時間處于休眠狀態(tài),是降低節(jié)點能耗的關(guān)鍵技術(shù)之一。基于統(tǒng)計模型的語音激活檢測算法,通過選取特征參數(shù)建立統(tǒng)計分布模型,根據(jù)當(dāng)前幀的信息計算出模型中的未知參數(shù),得出判決準(zhǔn)則,并據(jù)此判斷有無語音信號[1]。其優(yōu)點是能夠適應(yīng)時變噪聲的特點,在復(fù)雜環(huán)境下,檢測的準(zhǔn)確率較高[2-4]。但只根據(jù)當(dāng)前語音幀的參數(shù)來判斷有無語音信號具有一定的局限性,極易出現(xiàn)誤判的情況。因此,對基于統(tǒng)計模型的語音激活檢測算法加以改進來降低誤檢率,對語音偵聽領(lǐng)域具有十分重要的意義。
1.1算法的基本步驟
基于統(tǒng)計模型的語音激活檢測算法[2-3,5]以貝葉斯定理和似然比檢驗為基礎(chǔ),檢驗過程分提出假設(shè)、分析參數(shù)和檢驗判決三步。
1.1.1提出假設(shè)
待測音信號X有兩種假設(shè):一是只有噪聲N存在,則原假設(shè)H0為真,判定未檢測到語音;二是語音S與噪聲N同時存在(S與N互不相關(guān)),則備選假設(shè)H1為真,判定檢測到語音,可以描述為:
判定存在語音信號。
1.1.2分析參數(shù)
首先要根據(jù)其頻率特征進行周期性采樣,使波形參數(shù)由連續(xù)時間序列變?yōu)殡x散時間序列。然后根據(jù)采樣信號的振幅絕對值描繪直方圖,計算概率密度表達式,將模擬的語音信號用數(shù)字參數(shù)表示出來[1]。第t幀加噪信號、純語音信號和噪聲信號的離散傅里葉變換系數(shù)如下。在X(t)、S(t)、N(t)中,第k個譜分量的系數(shù)分別為Xk、Sk和Nk。用Xk(R)和Xk(I)分別表示離散傅里葉變換系數(shù)Xk的實部和虛部,假設(shè)每個DFT系數(shù)的實部和虛部都服從拉普拉斯概率密度函數(shù),如果其實部和虛部的方差相同,則Xk(R)和Xk(I)的概率密度分布如式(6)和式(7)所示。其中,σx是指Xk方差的平方根。因為Xk的實部和虛部近似獨立,其方差可以看作相等,則Xk的概率密度函數(shù)可以表示為[1,6]:其中,λs,k和λn,k分別代表Sk和Nk的方差。
1.1.3檢驗判決
圖1 概率密度函數(shù)
1.2算法的流程
基于統(tǒng)計模型的語音激活檢測算法流程如圖2所示。
圖2 基于統(tǒng)計模型語音激活檢測算法流程
2.1改進的思想
算法的改進參照邏輯與運算的思想,真值表如表1所示。在基于統(tǒng)計模型算法的基礎(chǔ)上:(1)如果第k幀(k為大于等于1的正整數(shù))信號檢測判定結(jié)果是“0”,第k-1幀信號輸出結(jié)果是“0”,那么經(jīng)過與運算的結(jié)果是“0”,表示無語音信號;(2)如果第k幀信號檢測判定結(jié)果是“0”,第k-1幀信號檢測判定結(jié)果是“1”,與運算后的結(jié)果是“0”,同樣判斷無語音信號;(3)如果第k幀信號檢測判定的結(jié)果是“1”,第k-1幀信號檢測判定結(jié)果是“0”,那么經(jīng)過與運算的結(jié)果還是“0”,依然判為無語音信號;(4)只有兩次檢測的結(jié)果均為“1”,與運算后的結(jié)果才是“1”,才能證明有語音信號存在。只有當(dāng)前幀信號的判決結(jié)果是“1”時,才有可能判斷有語音信號存在。所以為簡便判決,只在當(dāng)前幀判決結(jié)果為“1”時執(zhí)行與運算。
表1 相鄰幀邏輯與運算真值表
2.2改進算法的流程
改進算法的工作原理是將一段語音信號采樣分幀處理后,對第k幀信號依據(jù)上節(jié)的檢測激活算法完成檢驗判決,將結(jié)果存于寄存器,若結(jié)果為“0”,返回繼續(xù)完成后續(xù)幀的檢驗;若結(jié)果為“1”,與上一幀信號進行與運算,根據(jù)運算結(jié)果完成最后判決。改進后的算法流程如圖3所示。
圖3 改進后的算法流程
3.1試驗步驟和結(jié)果
語音信號的檢測仿真選用MATLAB平臺。仿真主要完成不同噪聲環(huán)境下基于統(tǒng)計模型的語音激活檢測算法(用算法1表示)和其改進算法(用算法2表示)誤檢率的測試。
試驗步驟如下:(1)在較為安靜的環(huán)境下錄制一段長約6s的語音片段作為原始樣本,保存為.wav格式;(2)將語音原始樣本分別與車輛噪聲和人群噪聲混合;(3)將混合信號在信噪比0~20dB之間應(yīng)用兩種檢測算法進行仿真,得出誤判率。試驗結(jié)果如圖4、圖5所示。
圖4 車輛噪聲環(huán)境兩種算法的誤檢率對比
圖5 人群噪聲環(huán)境兩種算法的誤檢率對比
3.2試驗結(jié)果分析
在車輛噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而增加,這是由于車輛噪聲和語音信號的差異性導(dǎo)致信噪比增加時算法的正確率和錯誤率同時增加,而錯誤率的增長幅度大于正確率的增長幅度。在人群噪聲環(huán)境下,算法的誤檢率隨信噪比的增加而減少。
在兩種噪聲環(huán)境且信噪比相同的情況下,改進后的算法在語音信號的誤檢率上均明顯低于改進前的誤檢率,提高了語音信號檢測的準(zhǔn)確性;而語音激活檢測技術(shù)是當(dāng)且僅當(dāng)檢測到語音信號時,才激活語音偵聽節(jié)點從休眠狀態(tài)轉(zhuǎn)換為工作狀態(tài),因此改進后的算法降低了節(jié)點能耗,延長了節(jié)點的生命周期。
改進的基于統(tǒng)計模型的語音激活檢測算法是通過相鄰幀邏輯與的方法來實現(xiàn)的。試驗結(jié)果表明:算法改進后,語音信號的誤檢率明顯低于改進之前,降低了節(jié)點能耗,延長了節(jié)點壽命,適用于便攜式語音檢測裝置中。
[1]彭利華.高噪聲環(huán)境下語音激活檢測技術(shù)的研究[D].武漢:華中科技大學(xué),2007.
[2]SOHN J S,SUNG W Y.A voice activity detector employing soft decision based noise spectrum adaptation[C].Proceeding of the IEEE Speech Coding Workshop,1998:365-368.
[3]CHO Y D,KONDOZ A.Analysis and improvement of a statisticalmodel-based voice activity detector[J].IEEE Signal Processing Letters,2001,8(10):276-278.
[4]戴啟軍,卞正中,陳硯圃,等.基于統(tǒng)計模型實現(xiàn)語音信號有聲/無聲檢測的研究[J].西安交通大學(xué)學(xué)報,2002,36(8):839-846.
[5]EPHRAIM Y,MALAH D.Speech enhancement using a minimummean-square error short-time spectral amplitude estimator[J].IEEE Transactions on Acoust Speech and Signal Processing,1984,32(6):1109-1121.
[6]景占榮,羊彥.信號檢測與估計[M].北京:化學(xué)工業(yè)出版社,2004.
An improved voice activity detection algorithm of the statistical model-based
Zhang Jinbang1,Yin Dongmei2
(1.Department of Information Engineering,Officers College of CAPF,Chengdu 610213,China;2.Machine Shop of Traffic Station,Jiangsu Team of CAPF,Nanjing 210019,China)
Voice activity detection algorithm is the core of voice activity detection technique,which is one of key techniques to reduce power of the voice interception node in voice detection field.An improved voice activity detection algorithm of the statistical model-based is proposed aiming at the problem of high inaccurate estimation for adopting the current voice frame to estimate voice occur or not only.It has been improved by the operation of logic‘a(chǎn)nd’between the border upon voice frame.The emulational result shows that the improved algorithm has reduced inaccurate estimation ration than the unimproved and improved the accuracy,which can reduce the power effectively.
statistical model;voice activity detection;detection algorithm
TP274+.4
A
1674-7720(2015)12-0014-03
2015-0-0)
張金榜(1986-),通信作者,男,碩士,主要研究方向:信息處理、電子技術(shù)應(yīng)用。E-mail:zhangjinbang12315@163.com。
尹冬梅(1986-),女,本科,主要研究方向:通信指揮。