羅思洋,龍 華,邵玉斌,杜慶治
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
語音信號(hào)中的語音段是由清音段和濁音段構(gòu)成的[9],只有同時(shí)兼顧語音段中清音與濁音的追蹤能力,并且提升端點(diǎn)檢測(cè)方法在不同信噪比和不同噪聲環(huán)境下的魯棒性,才能進(jìn)一步提升端點(diǎn)檢測(cè)方法的性能.結(jié)合上述分析,本文提出了一種多特征融合的語音端點(diǎn)檢測(cè)方法.通過研究發(fā)現(xiàn),Gammatone頻率倒譜系數(shù)的第一維系數(shù)GFCC0在噪聲環(huán)境下對(duì)語音段中的清音和濁音都有較好的追蹤能力,子帶譜熵特征對(duì)語音段中的濁音追蹤能力較好,而結(jié)合MFCC 系數(shù)和Fisher 線性判別的投影特征[10]對(duì)語音段中的清音有較好的追蹤能力.因此考慮將GFCC0作為多特征融合的首要特征,結(jié)合子帶譜熵特征和投影特征進(jìn)一步提升對(duì)語音段的追蹤能力,通過自適應(yīng)加權(quán)融合的方法得到用于端點(diǎn)檢測(cè)的融合特征.仿真實(shí)驗(yàn)證明,本文方法在-5~5 dB信噪比的white 噪聲和-5~15 dB 信噪比的babble、
噪聲環(huán)境下的語音端點(diǎn)檢測(cè)就是從帶有背景噪聲的語音信號(hào)中區(qū)分出語音段和噪聲段,從而提高語音信號(hào)的利用率[1].隨著智能語音技術(shù)的發(fā)展,語音端點(diǎn)檢測(cè)已經(jīng)廣泛應(yīng)用到了語音識(shí)別、語音增強(qiáng)和音頻分類技術(shù)的前端.例如端點(diǎn)檢測(cè)可以簡(jiǎn)化語音識(shí)別過程中的冗余數(shù)據(jù),加快語音識(shí)別系統(tǒng)的速度[2].
在漫長(zhǎng)的發(fā)展歷程中出現(xiàn)了上百種語音端點(diǎn)檢測(cè)方法,可以將這些方法歸結(jié)為基于模式識(shí)別和基于特征的方法[3].基于模式識(shí)別的方法主要有Zhang 等[4]提出的結(jié)合深度置信網(wǎng)絡(luò)和10 類語音特征的端點(diǎn)檢測(cè)方法,Thomas 等[5]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的端點(diǎn)檢測(cè)方法.這類方法使用語音信號(hào)的特征構(gòu)建訓(xùn)練數(shù)據(jù),通過大量訓(xùn)練達(dá)到區(qū)分語音段和噪聲段的目的,訓(xùn)練過程需要大量數(shù)據(jù),導(dǎo)致計(jì)算量較大,難以保證端點(diǎn)檢測(cè)的實(shí)時(shí)性.基于特征的方法主要通過特征的提取和閾值的設(shè)定實(shí)現(xiàn)端點(diǎn)檢測(cè),常用的特征包括短時(shí)能量、譜熵[6]、子帶譜熵[7]等.但是單一特征對(duì)噪聲的魯棒性較差,因此多特征融合的端點(diǎn)檢測(cè)方法越來越受到關(guān)注.hfchannel、factory1、m109、pink、volvo噪聲環(huán)境下具有比3 種對(duì)比算法更高的端點(diǎn)檢測(cè)準(zhǔn)確率,特別是在volvo 噪聲環(huán)境下的端點(diǎn)檢測(cè)準(zhǔn)確率可以達(dá)到94.5%以上.
特征提取是語音端點(diǎn)檢測(cè)的關(guān)鍵問題.在基于特征的方法中,選擇合理的特征融合構(gòu)造適合端點(diǎn)檢測(cè)的新特征,可以彌補(bǔ)單一特征對(duì)語音段追蹤能力不足及噪聲環(huán)境下魯棒性較差的問題,有效提升端點(diǎn)檢測(cè)的準(zhǔn)確率.
1.1 子帶譜熵特征提取子帶譜熵特征是Wu 等[7]在譜熵特征的基礎(chǔ)上改進(jìn)得到的,相比于譜熵,子帶譜熵的優(yōu)點(diǎn)在于對(duì)每幀信號(hào)劃分子帶后減小了噪聲對(duì)譜線幅值的影響.語音信號(hào)分幀后,對(duì)第i幀信號(hào)進(jìn)行快速傅里葉變換得到Xi(k),該幀信號(hào)第k條譜線頻率分量fk的能量譜Ei(k) 表示為
若每幀信號(hào)劃分為Nb個(gè)子帶,每個(gè)子帶包含4 條譜線,那么第x個(gè)子帶的能量為
Jia 等[11]在公式(3)的基礎(chǔ)上引入了一個(gè)正常量K,計(jì)算得到新的子帶能量概率為
1.2 MFCC 特征提取MFCC 特征作為語音信號(hào)處理最常用的特征之一,已被廣泛應(yīng)用于語音端點(diǎn)檢測(cè)任務(wù)[12].MFCC 特征的提取是基于Mel 濾波器實(shí)現(xiàn)的,首先需要對(duì)語音信號(hào)進(jìn)行預(yù)處理(包括預(yù)加重、分幀和加窗),然后對(duì)每幀信號(hào)進(jìn)行快速傅里葉變換得到Xi(k),接著對(duì)Xi(k) 取平方后得到譜線能量Ei(k),Ei(k) 的表達(dá)式同公式(1).將每幀信號(hào)的譜線能量通過Mel 濾波器組,即使用譜線能量與Mel 濾波器的頻率響應(yīng)相乘,表達(dá)式如下:
其中,Hm(k)為Mel 濾波器頻率響應(yīng),M為濾波器個(gè)數(shù),m為濾波器的序號(hào).將通過Mel 濾波器的能量取對(duì)數(shù)后進(jìn)行離散余弦變換,可以計(jì)算得到MFCC 特征為
其中,M(i,n) 表示第i幀信息的第n維MFCC 特征.本文在提取MFCC 特征時(shí),僅提取MFCC 系數(shù),不提取MFCC 差分系數(shù),所以信號(hào)首尾各兩幀數(shù)據(jù)不用舍棄,最終得到每一幀信號(hào)的l維MFCC 特征記為Mi∈Rl×1,i表示幀序號(hào),l表示所提MFCC特征的總維數(shù).由于MFCC 特征通常取12 維及以上[13],在特征融合時(shí)參數(shù)量過多,并且該參數(shù)易受噪聲影響.因此本文方法不將MFCC 特征直接用于特征融合,而是將該特征與Fisher 線性判別法相結(jié)合[10],提取對(duì)于端點(diǎn)檢測(cè)任務(wù)更為有效的投影特征.
1.3 投影特征提取投影特征的提取是基于語音信號(hào)的MFCC 特征和Fisher 線性判別法實(shí)現(xiàn)的[10].本文在測(cè)試數(shù)據(jù)隨機(jī)外截取一段清音段作為清音樣本,分幀后得到N1幀信號(hào),提取每幀清音樣本的l維MFCC 特征記為Qi∈Rl×1,其中i表示幀序號(hào)即1≤i≤N1.對(duì)待提取投影特征的語音信號(hào),取前N2幀作為噪聲樣本,提取每幀噪聲樣本的l維MFCC 特征記為Zi∈Rl×1,其中,1≤i≤N2.所提特征的均值向量為
其中,u1表示清音樣本MFCC 特征的均值向量,u2表示噪聲樣本MFCC 特征的均值向量,u0表示u1和u2合并后的均值向量.設(shè)定一個(gè)與所提MFCC 特征維數(shù)相同的投影向量w,則可定義類間散度為
投影的目的在于使特征中SSW值最小,且SSB值最大[10,14].對(duì)語音信號(hào)分幀后,提取每一幀信號(hào)的l維MFCC 特征Mi,根據(jù)最佳方向投影后得到投影特征
1.4 GFCC0 特征提取相比于MFCC 特征,語音信號(hào)的GFCC 特征具有更好的抗噪性能[15].文獻(xiàn)[3]將MFCC 的第一維系數(shù)MFCC0用于語音端點(diǎn)檢測(cè),取得了不錯(cuò)的效果.但通過研究發(fā)現(xiàn),GFCC的第一維系數(shù)GFCC0具有比MFCC0更強(qiáng)的抗噪性能和語音追蹤能力,特別是可以同時(shí)兼顧到語音段中濁音和清音的追蹤,因此本文將GFCC0特征引入到端點(diǎn)檢測(cè)任務(wù)中.圖1(a)為一段純凈語音信號(hào)的歸一化幅值;圖1(b)為該段語音信號(hào)的清濁音標(biāo)注結(jié)果,其中噪聲段標(biāo)注為0,語音段中的濁音標(biāo)注為2,清音標(biāo)注為1;圖1(c)為該段語音信號(hào)的歸一化MFCC0特征曲線,根據(jù)語音信號(hào)波形將該信號(hào)前10 幀視為純?cè)肼晭?,虛線為前10 幀信號(hào)MFCC0特征的平均值,將虛線作為MFCC0參考線;圖1(d)為該段語音信號(hào)的歸一化GFCC0特征曲線,虛線為前10 幀信號(hào)GFCC0特征的平均值,將虛線作為GFCC0參考線.從圖中可以看出,信號(hào)濁音段的MFCC0特征高于MFCC0參考線,而清音段的MFCC0特征卻低于MFCC0參考線,該特征難以同時(shí)兼顧語音段中濁音和清音的追蹤,同時(shí)部分噪聲段的MFCC0特征也高于MFCC0參考線,上述兩方面都會(huì)影響到MFCC0特征對(duì)語音段的追蹤能力;而信號(hào)濁音段和清音段的GFCC0特征均高于GFCC0參考線,所以GFCC0特征可以同時(shí)兼顧到語音段中濁音和清音的追蹤,同時(shí)信號(hào)噪聲段的GFCC0特征在GFCC0參考線附近.因此在端點(diǎn)檢測(cè)任務(wù)中GFCC0對(duì)語音段的追蹤能力強(qiáng)于MFCC0.
圖1 語音信號(hào)GFCC0 和MFCC0 特征對(duì)比Fig.1 Comparison of GFCC0 and MFCC0 of speech signal
GFCC 特征的提取是基于Gammatone 濾波器組實(shí)現(xiàn)的.與MFCC 特征提取相同的是,在GFCC特征提取前需要對(duì)語音信號(hào)進(jìn)行預(yù)處理,得到譜線能量Ei(k).與MFCC 特征提取不同的是,在GFCC特征提取過程中,譜線能量通過濾波器后不再使用對(duì)數(shù)壓縮的方式,而是采用指數(shù)壓縮的方式
其中Hm(k)為Gammatone 濾波器頻率響應(yīng),M為濾波器個(gè)數(shù),m為濾波器的序號(hào),a為指數(shù)壓縮值,本文取指數(shù)壓縮后的能量經(jīng)過離散余弦變換后得到GFCC 特征:
其中G(i,n) 表示第i幀信息的第n維GFCC 特征.通過式(19)計(jì)算得到每一幀信號(hào)的GFCC 特征,取該特征的第一維系數(shù)就可以得到特征融合所需的新 特征GFCC0,記為Gi.
特征提取得到語音信號(hào)的子帶譜熵特征Hi、GFCC0特征Gi和投影特征ri后,還需要對(duì)3 類特征自適應(yīng)加權(quán)融合,多特征融合旨在得到對(duì)語音段追 蹤能力更強(qiáng)的融合特征.
2.1 多特征融合多特征融合前,首先對(duì)語音信號(hào)的3 類特征進(jìn)行對(duì)比分析.圖2 所示為一段語音信號(hào)的特征對(duì)比圖,其中圖2(c)為中值濾波平滑處理后的子帶譜熵特征值Hi;圖2(d)為平滑處理后的投影特征值ri;圖2(e)為歸一化GFCC0特征值Gi.
圖2 語音信號(hào)特征對(duì)比Fig.2 Comparison of speech signal features
端點(diǎn)檢測(cè)目的在于區(qū)分出語音信號(hào)中的語音段和噪聲段,其中語音段是由濁音段和清音段共同構(gòu)成的.在多特征融合前,結(jié)合圖2 對(duì)3 類特征的特點(diǎn)進(jìn)行分析:①濁音段的子帶譜熵特征遠(yuǎn)小于噪聲段,但是清音段和噪聲段的子帶譜熵特征卻很接近,因此子帶譜熵特征可以有效區(qū)分語音信號(hào)中的濁音段和噪聲段;②清音段的投影特征大于噪聲段的投影特征,而濁音段和噪聲段的投影特征卻很接近,因此投影特征主要針對(duì)的是清音段和噪聲段的區(qū)分;③從語音信號(hào)的歸一化GFCC0特征可以看出,濁音段和清音段的GFCC0特征大于噪聲段的GFCC0特征,圖1(d)中與參考線的對(duì)比更加突出了該特點(diǎn),因此GFCC0特征可以同時(shí)兼顧語音段中濁音和清音的追蹤.同時(shí)GFCC 特征具有較好的抗噪性能[15],通過實(shí)驗(yàn)發(fā)現(xiàn)GFCC0特征在噪聲環(huán)境下對(duì)語音段中的濁音和清音同樣具有較好的追蹤能力.因此考慮加權(quán)融合這3 類特征,得到適用于端點(diǎn)檢測(cè)的新特征.多特征融合的流程如圖3 所示.
圖3 多特征融合流程圖Fig.3 Flow chart of multi-feature fusion
特征預(yù)處理首先使用中值濾波分別對(duì)3 類特征進(jìn)行平滑處理,然后對(duì)3 類特征的幅度平移調(diào)整后取絕對(duì)值,計(jì)算方法如下:
投影特征的預(yù)處理還包含數(shù)據(jù)的歸一化,歸一化投影特征如下:
權(quán)重系數(shù)的求解是基于3 種特征平移調(diào)整后的平均值自適應(yīng)計(jì)算得到的,權(quán)重系數(shù)的計(jì)算如下:
其中,α1表示特征融合時(shí)子帶譜熵的權(quán)重系數(shù),α2表示特征融合時(shí)GFCC0的權(quán)重系數(shù),α3表示特征融合時(shí)投影特征的權(quán)重系數(shù).得到自適應(yīng)估計(jì)的參數(shù)權(quán)重后,進(jìn)行特征融合:
其中表示預(yù)處理后的子帶譜熵特征,表示預(yù)處理后的GFCC0特征,表示預(yù)處理后的投影特征.對(duì)式(24)結(jié)果歸一化后得到端點(diǎn)檢測(cè)的融合特征值為
圖4 所示為純凈語音和帶噪語音(含SNR=5dB 的pink 噪聲)波形及其融合特征值.
圖4 語音信號(hào)的融合特征Fig.4 Fusion features of speech signal
將圖4(c)與圖2 對(duì)比可以看出,多特征融合將3 類特征的優(yōu)點(diǎn)相結(jié)合,得到對(duì)語音追蹤能力更強(qiáng)的融合特征,其中語音段的融合特征往往大于噪聲段的融合特征,體現(xiàn)了融合特征對(duì)語音段的追蹤能力.在5 dB 信噪比的pink 噪聲環(huán)境下,語音段的融合特征同樣大于噪聲段的融合特征,體現(xiàn)了融合特征的抗噪性能.
2.2 自適應(yīng)門限估計(jì)與端點(diǎn)檢測(cè)本文針對(duì)多種噪聲環(huán)境下的語音信號(hào)進(jìn)行端點(diǎn)檢測(cè),在得到用于端點(diǎn)檢測(cè)的融合特征后,首先使用模糊C 均值聚類法對(duì)每一條語音的門限值進(jìn)行自適應(yīng)估計(jì),然后通過雙門限法實(shí)現(xiàn)語音信號(hào)的端點(diǎn)檢測(cè).模糊C均值聚類的損失函數(shù)如下[16]:
其中,xi為樣本,i為樣本序號(hào),N為樣本總數(shù),mj為聚類中心,j為聚類中心序號(hào),C為聚類中心的總數(shù),b>1為模糊常數(shù),μj(xi) 為隸屬度函數(shù),同時(shí)滿足
目標(biāo)是使式(26)最小,通過求mj和μj(xi) 的偏導(dǎo)數(shù)并令偏導(dǎo)數(shù)為0,可得
妊娠期高血壓是一種常見的妊娠期疾病類型,會(huì)對(duì)孕婦及胎兒產(chǎn)生極大的影響,容易導(dǎo)致胎兒宮內(nèi)窘迫和產(chǎn)后出血等多種不良后果[4]。臨床對(duì)妊娠期高血壓產(chǎn)婦進(jìn)行剖宮產(chǎn)術(shù)治療之后,存在一定的產(chǎn)后出血風(fēng)險(xiǎn),嚴(yán)重威脅產(chǎn)婦健康和安全。為此,臨床需要積極做好相應(yīng)的預(yù)防措施[5]。
其中,本文使用的樣本xi是語音信號(hào)的融合特征,樣本序列i是輸入語音的幀序號(hào),樣本總數(shù)N是輸入語音的總幀數(shù).j=1,2,···,C表示聚類中心的序號(hào),本文針對(duì)噪聲環(huán)境下的語音端點(diǎn)檢測(cè),實(shí)質(zhì)上是使用融合特征實(shí)現(xiàn)語音幀和噪聲幀的二分類,因此聚類中心個(gè)數(shù)取C=2.
自適應(yīng)門限估計(jì)和端點(diǎn)檢測(cè)的步驟如下:
步驟1根據(jù)式(25)計(jì)算語音信號(hào)的融合特征;
步驟2設(shè)定聚類中心個(gè)數(shù)C=2,計(jì)算得到融合特征的自適應(yīng)聚類中心 {m11,m12},其中
其中,Th為雙門限的高門限值,Tl為低門限值,β1和 β2為經(jīng)驗(yàn)常數(shù);
步驟4根據(jù)自適應(yīng)聚類中心與 β1、β2,結(jié)合式(31)自適應(yīng)估計(jì)雙門限法的門限值,得到端點(diǎn)檢測(cè)的結(jié)果.
實(shí)驗(yàn)的純凈語音數(shù)據(jù)來自TIMIT 數(shù)據(jù)庫(kù),噪聲數(shù)據(jù)來自NOISEX-92 數(shù)據(jù)庫(kù).從TIMIT 數(shù)據(jù)庫(kù)中隨機(jī)選取男女說話人各50 條純凈語音,并在這100 條純凈語音外隨機(jī)截取一段0.11 s 的清音段作為清音樣本.為了驗(yàn)證算法在多種噪聲環(huán)境下的性能,將純凈語音分別與NOISEX-92 數(shù)據(jù)庫(kù)中的white、babble、hfchannel、factory1、m109、pink 和volvo7 種噪聲按照-5、0、5、10、15 dB 的信噪比合成帶噪語音.合成的3 500 條帶噪語音作為實(shí)驗(yàn)的測(cè)試數(shù)據(jù),均統(tǒng)一為8 kHz 采樣率、16 bit 量化精度的單聲道音頻文件.
在實(shí)驗(yàn)前使用傳統(tǒng)雙門限法對(duì)純凈語音進(jìn)行標(biāo)記,并對(duì)傳統(tǒng)雙門限法標(biāo)記錯(cuò)誤的幀進(jìn)行人工修正,以修正后的標(biāo)記結(jié)果作為本次實(shí)驗(yàn)仿真的參考標(biāo)準(zhǔn).由于語音信號(hào)在10~30 ms 內(nèi)具有短時(shí)平穩(wěn)性,所以實(shí)驗(yàn)仿真取幀長(zhǎng)16 ms(128 個(gè)采樣點(diǎn)),幀移8 ms(64 個(gè)采樣點(diǎn)).本文在提取子帶譜熵時(shí)引入的正常量K=0.5;在構(gòu)造投影特征時(shí)提取的MFCC 特征維數(shù)l=12,提取的噪聲樣本長(zhǎng)度為N2=10幀;β1和β2的設(shè)定流程如圖5 所示,即隨機(jī)設(shè)定 β1和β2的初始值,根據(jù)目標(biāo)分類準(zhǔn)確率迭代調(diào)整,直至獲得滿足目標(biāo)分類準(zhǔn)確率的值作為最終取值,得到
圖5 β1和β2 設(shè)定流程圖Fig.5 Flow chart of β1 and β2 setting
在端點(diǎn)檢測(cè)過程中,會(huì)出現(xiàn)語音幀的漏檢和噪聲幀的誤檢,綜合考慮后使用語音端點(diǎn)檢測(cè)的準(zhǔn)確率作為最終評(píng)價(jià)指標(biāo),定義如下[3]:
其中,L1表示語音幀漏檢為噪聲幀的幀數(shù),L2表示噪聲幀誤檢為語音幀的幀數(shù),L表示語音信號(hào)的總幀數(shù).
為了驗(yàn)證本文算法的性能,選取傳統(tǒng)算法中結(jié)合短時(shí)能量與過零率的傳統(tǒng)雙門限法和子帶譜熵法作為對(duì)比算法,此外還使用了文獻(xiàn)[3]中基于譜熵梅爾積的端點(diǎn)檢測(cè)算法作為對(duì)比算法.合成的3 500 條帶噪語音分別使用本文算法和3 種對(duì)比算法進(jìn)行端點(diǎn)檢測(cè),并使用公式(32)計(jì)算準(zhǔn)確率.
3.2 實(shí)驗(yàn)結(jié)果分析圖6~8 分別展示了本文方法在volvo 噪聲(SNR=-5 dB)、white 噪聲(SNR=0 dB)和factory1 噪聲(SNR=5 dB)環(huán)境下的端點(diǎn)檢測(cè)結(jié)果.圖6~8 中的子圖(c)為實(shí)驗(yàn)前標(biāo)注的語音端點(diǎn)檢測(cè)結(jié)果的參考標(biāo)準(zhǔn),語音段(包含濁音段和清音段)標(biāo)注為1,噪聲段標(biāo)注為0;圖6~8 中的子圖(a)和(d)均標(biāo)注了本文方法的檢測(cè)結(jié)果,其中子圖(d)為本文方法在融合特征值上的檢測(cè)結(jié)果,豎實(shí)線處表示語音段開始,豎虛線處表示語音段結(jié)束.通過對(duì)比本文方法的檢測(cè)結(jié)果和標(biāo)注的參考標(biāo)準(zhǔn)可以看出,本文提出的融合特征可以區(qū)分出帶噪語音信號(hào)的語音段和噪聲段,將該特征應(yīng)用到端點(diǎn)檢測(cè)任務(wù)中可以較好的找到語音段的開始位置和結(jié)束位置.
圖6 volvo 噪聲環(huán)境下的檢測(cè)結(jié)果(SNR=-5 dB)Fig.6 Detection results in volvo noise environment (SNR=-5 dB)
圖7 white 噪聲環(huán)境下的檢測(cè)結(jié)果(SNR=0 dB)Fig.7 Detection results in white noise environment (SNR=0 dB)
根據(jù)式(32)計(jì)算得到本文算法和3 種對(duì)比算法在不同噪聲和不同信噪比環(huán)境下的語音端點(diǎn)檢測(cè)準(zhǔn)確率.本文將準(zhǔn)確率低于50%的端點(diǎn)檢測(cè)定義為失效,最終結(jié)果如表1 所示.
從表1 可知,在進(jìn)行實(shí)驗(yàn)仿真的7 種噪聲環(huán)境下,傳統(tǒng)雙門限法在信噪比低于0 dB 時(shí)檢測(cè)準(zhǔn)確率往往不足50%,造成檢測(cè)方法的失效;當(dāng)信噪比達(dá)到10 dB 后,傳統(tǒng)雙門限法性能得以提升,隨著信噪比的增加,準(zhǔn)確率也逐漸增加.造成傳統(tǒng)雙門限法在低信噪比環(huán)境下準(zhǔn)確率較低的原因是,低信噪比環(huán)境下語音信號(hào)的過零率會(huì)增大,而過零率作為實(shí)現(xiàn)傳統(tǒng)雙門限法的主要特征,會(huì)影響到雙門限法的第二級(jí)判決,從而影響到端點(diǎn)檢測(cè)的準(zhǔn)確率.基于子帶譜熵的語音端點(diǎn)檢測(cè)方法在-5 dB 信噪比環(huán)境下可以達(dá)到55%以上的準(zhǔn)確率,不會(huì)出現(xiàn)端點(diǎn)檢測(cè)的失效;檢測(cè)準(zhǔn)確率同樣會(huì)隨著信噪比的增加而增加,但是在10 dB 和15 dB 信噪比下的表現(xiàn)不如雙門限法.子帶譜熵法的實(shí)驗(yàn)結(jié)果體現(xiàn)了單一特征往往難以在噪聲環(huán)境下達(dá)到令人滿意的檢測(cè)效果,因此多特征融合的方法成為了近年來語音端點(diǎn)檢測(cè)的研究重點(diǎn).相比于傳統(tǒng)雙門限法和子帶譜熵法,文獻(xiàn)[3]中結(jié)合譜熵特征和MFCC0的方法在低信噪比環(huán)境下取得了更好的端點(diǎn)檢測(cè)效果,并且在10 dB 和15 dB 的white 噪聲環(huán)境下取得了最高的端點(diǎn)檢測(cè)準(zhǔn)確率.通過實(shí)驗(yàn)發(fā)現(xiàn),在10 dB和15 dB 的white 噪聲環(huán)境下,本文所提的融合特征在端點(diǎn)檢測(cè)時(shí)出現(xiàn)了比文獻(xiàn)[3]方法更多的誤檢幀數(shù),導(dǎo)致準(zhǔn)確率略低于文獻(xiàn)[3]的方法.但是本文提出的多特征融合的端點(diǎn)檢測(cè)方法比文獻(xiàn)[3]所提方法具有更好的抗噪性能,在信噪比為-5、0和5 dB 的white 噪聲環(huán)境下取得了比文獻(xiàn)[3]方法更高的端點(diǎn)檢測(cè)準(zhǔn)確率;同時(shí)本文提出的多特征融合的端點(diǎn)檢測(cè)方法在babble、hfchannel、factory1、m109、pink 和volvo 6 種噪聲的不同信噪比環(huán)境下,都取得了比3 種對(duì)比算法更好的端點(diǎn)檢測(cè)效果.
表1 不同方法端點(diǎn)檢測(cè)準(zhǔn)確率對(duì)比Tab.1 Comparison of detection accuracy of different methods %
本文將GFCC0特征應(yīng)用到語音端點(diǎn)檢測(cè)任務(wù)中,將該特征與子帶譜熵特征、投影特征自適應(yīng)融合構(gòu)造適用于端點(diǎn)檢測(cè)的新特征,然后使用模糊C 均值聚類算法自適應(yīng)估計(jì)門限閾值,最后通過雙門限法實(shí)現(xiàn)端點(diǎn)檢測(cè).相比于3 種對(duì)比算法,本文提出的端點(diǎn)檢測(cè)方法在多種噪聲的不同信噪比環(huán)境下均提升了端點(diǎn)檢測(cè)的準(zhǔn)確率.這主要?dú)w功于本文方法使用對(duì)語音段追蹤能力較強(qiáng)的3 種特征自適應(yīng)融合,進(jìn)一步提升了對(duì)語音段的追蹤能力.在未來工作中,需要繼續(xù)對(duì)多特征融合的方法和門限估計(jì)的方法進(jìn)行研究,減少語音幀的漏檢和噪聲幀的誤檢,進(jìn)一步提升語音端點(diǎn)檢測(cè)的準(zhǔn)確率.