徐保民+李文婧
摘 要:在綜合分析聲音端點(diǎn)檢測(cè)技術(shù)的基礎(chǔ)上,針對(duì)公共場(chǎng)所異常聲音的特點(diǎn),提出一種綜合短時(shí)優(yōu)化過(guò)零率和短時(shí)TEO對(duì)數(shù)能量自適應(yīng)端點(diǎn)檢測(cè)方法,以及特征數(shù)據(jù)的模糊歸一化方法,在此基礎(chǔ)上引入背景噪聲動(dòng)態(tài)建模、前后端延時(shí)確認(rèn)、閾值動(dòng)態(tài)更新機(jī)制,進(jìn)行異常聲音端點(diǎn)檢測(cè)。Matlab仿真實(shí)驗(yàn)表明,該方法能較好地適應(yīng)低信噪比背景噪聲變化的公共場(chǎng)所環(huán)境,具有較好的檢出率和較低的誤報(bào)率。
關(guān)鍵詞:異常聲音;端點(diǎn)檢測(cè);自適應(yīng);模糊歸一化
DOIDOI:10.11907/rjdk.171236
中圖分類號(hào):TP306
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):1672-7800(2017)008-0001-04
0 引言
隨著語(yǔ)音處理技術(shù)的發(fā)展,異常聲音的感知已逐步引入到公共場(chǎng)所來(lái)感知異常事件發(fā)生,而異常聲音端點(diǎn)檢測(cè)是進(jìn)行異常聲音感知的重要環(huán)節(jié)。與語(yǔ)音端點(diǎn)檢測(cè)類似,異常聲音端點(diǎn)檢測(cè)屬于二類分類的問(wèn)題。語(yǔ)音端點(diǎn)檢測(cè)技術(shù)作為語(yǔ)音識(shí)別的基礎(chǔ)環(huán)節(jié),近幾年相關(guān)學(xué)者展開(kāi)了深入研究,其檢測(cè)方法大致分為時(shí)域參數(shù)法、頻域參數(shù)法、模型檢測(cè)法等,其中時(shí)域特征主要包括短時(shí)過(guò)零率、短時(shí)能量等,而頻域特征主要包括Mel倒譜系數(shù)等[1-2]。為了更好地提高語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確度,有學(xué)者提出利用語(yǔ)音長(zhǎng)時(shí)信息提高檢測(cè)準(zhǔn)確度[3-4]。針對(duì)低信噪比環(huán)境,文獻(xiàn)[5]中提出了一種通過(guò)優(yōu)化、綜合短時(shí)能量和短時(shí)過(guò)零率的方法實(shí)現(xiàn)不同信噪比下的語(yǔ)音端點(diǎn)檢測(cè);文獻(xiàn)[6]提出了一種綜合短時(shí)對(duì)數(shù)能量和Mel能量的方法來(lái)適應(yīng)不同的信噪比環(huán)境;文獻(xiàn)[7]通過(guò)綜合短時(shí)TEO能量和Mel倒譜距離的方式進(jìn)行了端點(diǎn)檢測(cè)。以上方法由于利用了不同語(yǔ)音特征的互補(bǔ)性,進(jìn)而有效提高了算法適應(yīng)不同信噪比的能力。
然而,公共場(chǎng)所出現(xiàn)的異常聲音與平常說(shuō)話人的語(yǔ)音有所區(qū)別,例如其頻帶較窄,聲音往往開(kāi)始時(shí)響度較大,以后逐漸消退。另外,公共場(chǎng)所的背景噪聲較大,并且背景噪聲隨時(shí)間變化較大,即它是一種低信噪比的背景噪聲變化環(huán)境,與普通語(yǔ)音識(shí)別環(huán)境有所區(qū)別。因此,直接采用語(yǔ)音端點(diǎn)檢測(cè)方法來(lái)實(shí)現(xiàn)對(duì)異常聲音端點(diǎn)的檢測(cè)難以得到理想效果。文獻(xiàn)[8]針對(duì)公共場(chǎng)所異常聲音的端點(diǎn)檢測(cè)提出了一種使用非線性中值濾波器有選擇地放大聲音能量序列中的沖擊信號(hào),然后根據(jù)放大后的信號(hào)能量變化情況,獲得異常聲音的端點(diǎn)。然而僅僅利用能量信息在低信噪比環(huán)境中檢測(cè)異常聲音的端點(diǎn)難于獲取較高的準(zhǔn)確度。文獻(xiàn)[9]在Mel倒譜系數(shù)的基礎(chǔ)上進(jìn)行了異常聲音識(shí)別。文獻(xiàn)[10]引入了Mel倒譜系數(shù)與短時(shí)能量相混合的方法,并通過(guò)GMM模型對(duì)異常聲音進(jìn)行識(shí)別,然而在信噪比較低的環(huán)境下,Mel倒譜系數(shù)對(duì)異常聲音與背景噪聲的區(qū)別度不大,這勢(shì)必影響端點(diǎn)檢測(cè)的準(zhǔn)確度。
本文提出一種綜合短時(shí)優(yōu)化過(guò)零率和短時(shí)TEO對(duì)數(shù)能量的自適應(yīng)端點(diǎn)檢測(cè)方法。對(duì)不同的特征數(shù)據(jù),首先進(jìn)行模糊歸一化,然后引入背景噪聲動(dòng)態(tài)建模、前后端延時(shí)確認(rèn)和閾值動(dòng)態(tài)更新機(jī)制進(jìn)行端點(diǎn)檢測(cè)。
1 異常聲音特征提取
在實(shí)際環(huán)境中,由于受諸多因素影響,數(shù)字化后的聲音信號(hào)頻率和振幅特性復(fù)雜,信號(hào)采樣值隨時(shí)間的變化而劇烈波動(dòng),因此不具有時(shí)間平穩(wěn)性,也難以進(jìn)行特征描述。然而,聲音信號(hào)往往在10~30ms內(nèi)是相對(duì)平穩(wěn)的,因此聲音信號(hào)的處理可以通過(guò)分幀以獲取短時(shí)較為平穩(wěn)的特征描述,并以此為基礎(chǔ)進(jìn)行后續(xù)處理。為了實(shí)現(xiàn)對(duì)異常聲音特征的描述,本文對(duì)輸入的聲音信號(hào)首先以20ms左右為間隔進(jìn)行信號(hào)幀劃分,在此基礎(chǔ)上進(jìn)行幀特征提取,主要包括優(yōu)化過(guò)零率和TEO對(duì)數(shù)能量。
1.1 過(guò)零率優(yōu)化
過(guò)零率(Zero Crossing Rate, ZCR)描述了信號(hào)幀中信號(hào)采樣點(diǎn)符號(hào)改變的次數(shù),它反映了信號(hào)波動(dòng)情況,在固定時(shí)間信號(hào)幀中,過(guò)零率大則意味著信號(hào)變化快速,其頻率也相應(yīng)大。實(shí)驗(yàn)分析表明,在信噪比較高的環(huán)境中,過(guò)零率可以有效區(qū)分異常聲音和背景噪聲。然而在信噪比較低的環(huán)境中,過(guò)零率容易被噪聲影響,甚至淹沒(méi)。為此,在文獻(xiàn)[5]研究的基礎(chǔ)上,給出了一種優(yōu)化的過(guò)零率計(jì)算方法,第i幀的優(yōu)化過(guò)零率計(jì)算如下:
ZRC(i)=∑nm=1[TP(S,X(i,m)-Tup)+TN(S,X(i,m)-Tdown)](1)
其中,TP(S, x)為正數(shù)判定函數(shù),即當(dāng)S=0,且x為正數(shù)時(shí)將S設(shè)置為1,并返回1;否則,不改變S的值,并返回0。TN (S, x)為負(fù)數(shù)判定函數(shù),即當(dāng)S=1,且x為負(fù)數(shù)時(shí)將S設(shè)置為0,并返回1;否則,不改變S的值,并返回0;Tup和Tdown為上下閾值,X(i,m)為第i幀的第m個(gè)語(yǔ)音信號(hào)值。
為了更好地減少背景噪聲對(duì)所提取的過(guò)零率特征值的影響,上下閾值的確定方法如下:
Tup=X+ασ
Tdown=X-ασ(2)
其中,X為背景噪聲段信號(hào)的均值,而σ為背景噪聲段信號(hào)的標(biāo)準(zhǔn)差,α為閾值系數(shù)。
1.2 TEO對(duì)數(shù)能量
作為一種能夠很好地表征信號(hào)的共振峰信息,能在抑制背景噪聲中消除零均值噪聲,起到信號(hào)增強(qiáng)作用的TEO在文獻(xiàn)[7]中被用來(lái)檢測(cè)語(yǔ)音端點(diǎn),并且綜合了Mel倒譜系數(shù)和TEO能量來(lái)進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)。然而,筆者通過(guò)對(duì)大量異常聲音素材的實(shí)驗(yàn)分析發(fā)現(xiàn),TEO能量信息在描述異常聲音特征方面較TEO對(duì)數(shù)能量相對(duì)較弱,在異常聲音處理中TEO對(duì)數(shù)能量將能獲取較為準(zhǔn)確的端點(diǎn)檢測(cè),為此本文引入了TEO對(duì)數(shù)能量作為異常聲音特征之一。根據(jù)文獻(xiàn)[11],對(duì)于離散信號(hào),TEO變換的公式可描述如式(3)所示。
φ(x(t))=x(t)2-x(t-1)*x(t+1)(3)
其中,x(t)為t時(shí)刻的信號(hào)值,ψ(x(t))為t時(shí)刻TEO變換后的信號(hào)值。在此基礎(chǔ)上對(duì)于第i幀的TEO對(duì)數(shù)能量LE(i)的計(jì)算公式如式(4)所示。
LE(i) = log(E(i) + a)-log(a)endprint
E(i) = ∑Lt = (i-1)*L + 12i (x(t))(4)
其中,i為幀序號(hào),L為幀長(zhǎng),因此,E(i)便是為第i幀的短時(shí)TEO能量,而a為常數(shù),可以取值為1。
2 特征值模糊歸一化
由于優(yōu)化過(guò)零率和TEO對(duì)數(shù)能量具有不同的量綱和取值范圍,同時(shí)為了進(jìn)一步減少背景噪聲的影響,筆者提出了一種特征值模糊歸一化方法,其歸一化計(jì)算公式如式(5)所示。
FD(i)=sng(F(i)-Fbg)*min{F(i)-Fbgβσbg,1}β=FuzzyRules(noiseI)Fbg=(1-α)Fbg+αF(i)(ifF(i)-Fbg<γ)(5)
式(5)中,sng(x)為符號(hào)函數(shù),當(dāng)x<0時(shí),返回-1,否則返回1; F(i)為第i個(gè)特征數(shù)據(jù)值;Fbg為背景噪聲段該特征數(shù)據(jù)均值;σbg為背景噪聲段該特征數(shù)據(jù)標(biāo)準(zhǔn)差;β為依據(jù)背景噪聲大小noiseI,由預(yù)設(shè)的模糊規(guī)則FuzzyRules確定的歸一化系數(shù),α為背景更新系數(shù),γ為背景更新閾值。因此,歸一化以后的特征值反映了不同背景噪聲強(qiáng)度下特征數(shù)據(jù)的偏離程度。在此基礎(chǔ)上,第i幀特征描述FFD(i)的計(jì)算如式(6)所示。
FFD(i)=NZCR(i)*NLE(i)(6)
其中,NZCR(i)為由式(5)歸一化后的優(yōu)化過(guò)零率,NLE(i)為由式(5)歸一化后的TEO對(duì)數(shù)能量。
圖1從上到下分別顯示了未混合噪聲的異常聲音波形、按0db混合白噪聲后的異常聲音波形以及混合噪聲后異常聲音的以0為基準(zhǔn)的過(guò)零率、TEO、Mel倒譜距離、歸一化后的優(yōu)化過(guò)零率和歸一化后的對(duì)數(shù)TEO能量。不難看出,本文提出的模糊歸一化方法能較好地提高特征數(shù)據(jù)反映異常聲音的特征狀態(tài)的能力,并且可以較好地克服背景噪聲的影響。
3 異常聲音端點(diǎn)檢測(cè)
由于公共場(chǎng)所是一種低信噪比且背景噪聲隨機(jī)變化的環(huán)境,同時(shí),公共場(chǎng)所所出現(xiàn)的異常聲音往往具有開(kāi)始時(shí)響度較大,以后逐漸消退的明顯特征。為此,筆者引入背景噪聲動(dòng)態(tài)建模更新機(jī)制,并在此基礎(chǔ)上引入自適應(yīng)前后閾值的端點(diǎn)檢測(cè)方法,其中前端閾值用于檢測(cè)異常聲音起始點(diǎn),而后端閾值用于檢測(cè)結(jié)束點(diǎn)。為了使端點(diǎn)檢測(cè)更加準(zhǔn)確,對(duì)于雙閾值引入了動(dòng)態(tài)更新機(jī)制,以及端點(diǎn)延時(shí)確認(rèn)機(jī)制,整個(gè)端點(diǎn)檢測(cè)算法描述如下:
(1)Initialize N、K0、K1、K2, and α、β;//初始化前后端點(diǎn)延時(shí)確認(rèn)幀數(shù)N,背景噪聲、閾值更新系數(shù)K0、K1、K2,前端閾值系數(shù)α和后端閾值系數(shù)β。
(2)FFDbg=mean(FFD1-10),F(xiàn)Si= FFDi-FFDbg;//將前10幀的特征向量平均值作為背景噪聲初始值FFDbg,求前10幀幀特征向量與FFDbg的差值FSi。
(3)T= mean(FS1-10),D= std(FS1-10);//求前10幀與背景噪聲FFDbg差值的平均值T,以及前10幀與背景噪聲FFDbg差值的標(biāo)準(zhǔn)差D。
(4)TH1=T+α*D,TH2=T+β*D;//初始化前端閾值TH1,后端閾值TH2。
(5)S =0;//對(duì)狀態(tài)變量S初始化,對(duì)于第11幀以后的每一幀重復(fù)如下操作。
FSi= FFDi-FFDbg;//求幀差stf=0; //后端點(diǎn)標(biāo)志置0if (S==0) and (FSi>TH1) then S=1;elseif (S>0) and (S 4 實(shí)驗(yàn)分析 4.1 實(shí)驗(yàn)方法 為了驗(yàn)證本文算法的有效性,在Matlab軟件環(huán)境下對(duì)本文端點(diǎn)檢測(cè)算法進(jìn)行仿真實(shí)驗(yàn)。其中異常聲音素材主要來(lái)自互聯(lián)網(wǎng),包括槍聲、爆炸聲、打碎玻璃的聲音、狗叫聲、鞭炮聲等,采樣頻率為11 025Hz;噪聲素材來(lái)自NOISEX-92噪聲數(shù)據(jù)庫(kù),包括白噪聲(white)、粉紅噪聲(pink)、工廠噪聲(factory)和飛機(jī)噪聲(f16)。噪聲數(shù)據(jù)分別與待測(cè)試的異常聲音數(shù)據(jù)按信噪比-5db、0db、5db、10db和20db進(jìn)行混合生成帶噪聲數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試。 4.2 實(shí)驗(yàn)結(jié)果評(píng)價(jià)方法 對(duì)于實(shí)驗(yàn)結(jié)果的比較評(píng)價(jià),不少文獻(xiàn)都是通過(guò)與手動(dòng)標(biāo)記的分段結(jié)果進(jìn)行比較,然而筆者認(rèn)為這種比較方式可操作性不足,因?yàn)闄z測(cè)出來(lái)的異常聲音段不可能完全與所標(biāo)注的起止點(diǎn)完全吻合,當(dāng)有差異時(shí)如何量化評(píng)價(jià)?本文引入了如下評(píng)判方式:首先,對(duì)沒(méi)有添加任何噪聲的測(cè)試異常聲音數(shù)據(jù)使用本文中的優(yōu)化過(guò)零率進(jìn)行檢測(cè),將檢測(cè)出來(lái)的異常聲音段作為參考標(biāo)準(zhǔn);然后,用需要比較的方法對(duì)混合不同噪聲的該異常聲音數(shù)據(jù)進(jìn)行檢測(cè);最后,對(duì)檢測(cè)結(jié)果分別用公式(7)和公式(8)計(jì)算其檢出率和誤報(bào)率。 檢出率=∑(PS0∩PS)∑PS0*100(7) 誤報(bào)率=∑(PS0∩PS)∑PS*100(8) 在式(7)和(8)中,PS0為對(duì)沒(méi)有添加任何噪聲的待測(cè)異常聲音數(shù)據(jù)使用本文中的優(yōu)化過(guò)零率進(jìn)行檢測(cè)所檢測(cè)出來(lái)的異常聲音段點(diǎn)標(biāo)記集合,在該集合中是異常聲音段的點(diǎn)標(biāo)記為1,否則標(biāo)記為0;PS為需用比較的方法對(duì)添加不同噪聲的異常聲音數(shù)據(jù)進(jìn)行檢測(cè)所檢測(cè)出來(lái)的異常聲音段點(diǎn)標(biāo)記集合,同樣,在該集合中是異常聲音段的點(diǎn)標(biāo)記為1,否則標(biāo)記為0。
4.3 實(shí)驗(yàn)結(jié)果分析
圖2為混合不同噪聲后鞭炮聲檢測(cè)結(jié)果。不難看出,即使在-5db和0db的低信噪比下,本文方法仍有較好的檢出率和較低的誤報(bào)率。
為了更進(jìn)一步證明本文方法的有效性,首先選擇了10段不同的待測(cè)試異常聲音數(shù)據(jù)(包括槍聲、爆炸聲、打碎玻璃的聲音、狗叫聲、鞭炮聲等),按信噪比-5db、0db、5db、10db和20db分別與白噪聲(white)、粉紅噪聲(pink)、工廠噪聲(factory)和飛機(jī)噪聲(f16)進(jìn)行混合,生成50段帶不同信噪比噪聲異常數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試,然后分別用歸一化優(yōu)化過(guò)零率、歸一化對(duì)數(shù)TEO和本文方法進(jìn)行測(cè)試,結(jié)果如圖3所示,不難看出,雖然利用歸一化對(duì)數(shù)TEO檢測(cè)能有較好的檢出率,然而其誤報(bào)率也較高。而本文方法在不同的信噪比下都有較好的檢出率和較低的誤報(bào)率。
5 結(jié)語(yǔ)
公共場(chǎng)所異常聲音的檢測(cè)對(duì)于感知公共場(chǎng)所異常事件的發(fā)生有重要作用,而異常聲音的端點(diǎn)檢測(cè)是實(shí)現(xiàn)異常聲音檢測(cè)的重要環(huán)節(jié),在綜合分析語(yǔ)音端點(diǎn)檢測(cè)技術(shù)的基礎(chǔ)上,結(jié)合公共場(chǎng)所異常聲音的特點(diǎn),提出了一種自適應(yīng)的端點(diǎn)檢測(cè)方法,該方法首先綜合了短時(shí)優(yōu)化過(guò)零率和短時(shí)TEO對(duì)數(shù)能量作為特征向量,并提出了一種特征數(shù)據(jù)模糊歸一化方法對(duì)其進(jìn)行歸一化。在此基礎(chǔ)上引入背景噪聲動(dòng)態(tài)建模、檢測(cè)閾值動(dòng)態(tài)更新和前端端點(diǎn)延時(shí)確認(rèn)機(jī)制進(jìn)行端點(diǎn)檢測(cè),通過(guò)對(duì)混合不同噪聲不同信噪比的聲音實(shí)驗(yàn)表明,算法能較好地適應(yīng)低信噪比下背景噪聲變化的檢測(cè)環(huán)境,具有較好的檢出率和較低的誤報(bào)率。
參考文獻(xiàn):
[1] YANG X, TAN B, DING J,et al. Comparative study on voice activity detection algorithm[C]. 2010 International Conference on Electrical and Control Engineering (ICECE),2010:599-602.
[2] FANG Z, GUOLIANG Z, ZHANJIANG S. Comparison of different implementations of MFCC[J]. 計(jì)算機(jī)科學(xué)技術(shù)學(xué)報(bào):英文版,2001, 16(6):582-589.
[3] 趙歡,馮璐,陳佐,等,基于動(dòng)態(tài)特性的D-LTSV語(yǔ)音端點(diǎn)檢測(cè)方法[J],計(jì)算機(jī)工程,2014,40(12):277-281.
[4] 陳振鋒,吳蔚瀾,等,基于Mel倒譜特征順序統(tǒng)計(jì)濾波的語(yǔ)音端點(diǎn)檢測(cè)算法[J],中國(guó)科學(xué)院大學(xué)學(xué)報(bào),2014,31(4):524-529.
[5] 孫戰(zhàn)先,儲(chǔ)飛黃,王 江,一種自適應(yīng)語(yǔ)音端點(diǎn)檢測(cè)算法[J],計(jì)算機(jī)工程與應(yīng)用,2014,50(1):206-210.
[6] 王曉華,屈雷,基于時(shí)頻參數(shù)融合的自適應(yīng)語(yǔ)音端點(diǎn)檢測(cè)算法[J],計(jì)算機(jī)工程與應(yīng)用,2015,51(20):203-207.
[7] 王茂蓉,周萍,景新幸,楊青,基于Mel-TEO的帶噪語(yǔ)音端點(diǎn)檢測(cè)算法[J].微電子學(xué)與計(jì)算機(jī),2016,33(4):46-49.
[8] ALAIN DUFAUX,LAURENT BESACIER,MICHAEL ANSORGE.Automatic sound detection and recognition for noisy environment[C].European Signal Processing Conference, Finland, 2000:1033-1036.
[9] 欒少文,龔衛(wèi)國(guó).公共場(chǎng)所典型異常聲音的特征提取[J].計(jì)算機(jī)工程,2010,36(7):208-210.
[10] 呂霄云,王宏霞.基于MFCC和短時(shí)能量混合的異常聲音識(shí)別算法[J].計(jì)算機(jī)應(yīng)用,2010,30(3):797-798.
[11] KAISER J F. On a simple algorithm to calculate the energy of a signal[C]. IEEE International Conference on Acoustic, Speech and Signal Processing, Albuquerque,NM:IEEE,1990:381-384.endprint