張 恒,周 萍
(桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541000)
車載環(huán)境下語音端點(diǎn)檢測的研究*
張 恒,周 萍
(桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541000)
語音端點(diǎn)檢測直接決定了語音識(shí)別的精度和速度。車載環(huán)境是一個(gè)非常復(fù)雜的環(huán)境,信噪比(SNR)有可能出現(xiàn)很低的情況,對(duì)于傳統(tǒng)的時(shí)域端點(diǎn)檢測方法來說,在這種環(huán)境下的端點(diǎn)檢測效果很差,而雙門限在高信噪比條件下,端點(diǎn)檢測的效果非常好,識(shí)別率很高,這就使得提高車載環(huán)境下語音SNR非常關(guān)鍵。文章提出采用改進(jìn)的小波去噪和改進(jìn)的雙門限方法進(jìn)行端點(diǎn)檢測。實(shí)驗(yàn)結(jié)果表明,綜合改進(jìn)小波去噪和改進(jìn)雙門限的方法雖然有一定量的信號(hào)失真,但失真在可接受范圍之內(nèi),并且在不增大運(yùn)算量的情況下端點(diǎn)檢測的效果比傳統(tǒng)的雙門限效果要好,表明了本文算法的有效性。
車載環(huán)境;小波去噪;雙門限;端點(diǎn)檢測
隨著語音識(shí)別技術(shù)的研究和發(fā)展,應(yīng)用語音技術(shù)開發(fā)的產(chǎn)品已涉及到人們生活的多個(gè)方面,有聲控電話交換、語音撥號(hào)系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)等,促進(jìn)了整個(gè)社會(huì)經(jīng)濟(jì)的發(fā)展,在未來也將帶來社會(huì)科技的變革。目前,語音識(shí)別技術(shù)已經(jīng)應(yīng)用在很多玩具車上,很多廠商也正在加快速度研究車載語音系統(tǒng)。經(jīng)過幾十年來人們對(duì)語音識(shí)別技術(shù)的探索和研究,語音識(shí)別技術(shù)以及用于開發(fā)語音的硬件設(shè)備都在不斷地改進(jìn)更新,語音識(shí)別產(chǎn)品已經(jīng)逐步從實(shí)驗(yàn)室走向工廠,各廠商已經(jīng)推出各種系統(tǒng)的汽車產(chǎn)品。
語音端點(diǎn)檢測在語音信號(hào)處理中是一個(gè)極其重要的環(huán)節(jié),它決定了后面的處理結(jié)果,比如對(duì)語音信號(hào)的特征提取、模式匹配時(shí)的正確率。車載環(huán)境下的語音噪聲非常復(fù)雜,車內(nèi)發(fā)動(dòng)機(jī)聲音、輪胎與路面之間的摩擦聲、空氣擾動(dòng)、窗外嘈雜聲等[1],使得信噪比降低。在低信噪比的條件下,使用傳統(tǒng)的雙門限端點(diǎn)檢測方法,會(huì)大大降低識(shí)別率,雙門限在信噪比較高時(shí)有非常好的效果,而使用頻率或其他模式匹配的檢測方法會(huì)增加其運(yùn)算量,不利于車載環(huán)境下的實(shí)時(shí)性要求,因此本文提出一種基于改進(jìn)的小波降噪和改進(jìn)的基于短時(shí)能量與過零率雙門限端點(diǎn)檢測的方法,最大限度地還原語音有效信號(hào),為之后的特征提取和模式匹配提供良好的資源。
小波去噪在處理非平穩(wěn)信號(hào)上有很大的優(yōu)勢,其中關(guān)鍵的步驟是閾值的選取,這對(duì)于去噪的效果影響較大。
1.1 小波變換
小波變換(Wavelet Transform,WT)是近幾十年發(fā)展起來的一種新的數(shù)學(xué)分析方法,特別是近十幾年,在很多領(lǐng)域都有廣泛的應(yīng)用。小波變換的實(shí)質(zhì)是由一個(gè)低通濾波器和一系列帶通濾波器組成。它是短時(shí)傅里葉變換(STFT)的變化形式,繼承和發(fā)展了局部化的思想,具有多頻率分析、能夠聚焦到信號(hào)的細(xì)節(jié),被稱作是“數(shù)學(xué)顯微鏡”[2]。小波變換能隨信號(hào)頻率的改變而調(diào)整分析窗口大小,具有一定的自適應(yīng)性,能夠解決很多Fourier不能解決的問題,特別是在非平穩(wěn)信號(hào)中,小波變換的優(yōu)勢更加突顯。
1.2 小波去噪原理
基于小波變換的優(yōu)勢,小波去噪成為小波變換重要的應(yīng)用之一。去噪的方法主要有:模具極大值檢測法、相關(guān)性去噪、閾值法、平移不變量小波去噪法[3]。其中閾值法運(yùn)用較為廣泛,其算法運(yùn)算量低,易于實(shí)現(xiàn),且效果很好。本文主要基于改進(jìn)的閾值法進(jìn)行去噪。小波去噪分為3個(gè)過程,其步驟可總結(jié)為[4]:(1)小波分解;(2)閾值處理;(3)小波重構(gòu)。
小波閾值去噪主要有軟閾值和硬閾值法,它們都具有自己的優(yōu)缺點(diǎn),通常采用兩者結(jié)合的方式對(duì)小波系數(shù)進(jìn)行估計(jì)。軟閾值和硬閾值法是1994年由Donoho在小波變換的基礎(chǔ)上提出的[5]。下面分別介紹它們以及本文改進(jìn)的閾值法。
(1)硬閾值法和軟閾值法
硬閾值,當(dāng)小于等于閾值時(shí)將小波系數(shù)置零,當(dāng)大于閾值時(shí)保持小波系數(shù)不變,其閾值函數(shù)如式(1):
(1)
軟閾值,當(dāng)小于等于閾值時(shí)將小波系數(shù)置零,當(dāng)大于閾值時(shí)對(duì)小波系數(shù)閾值進(jìn)行收縮處理,其閾值函數(shù)如式(2)[6]:
(2)
對(duì)于上面的軟、硬閾值,要根據(jù)具體的噪聲環(huán)境而做出選擇,因此其閾值法具有一定的局限性,不能很好地適用于強(qiáng)噪聲或復(fù)雜噪聲環(huán)境下?;谏厦骈撝岛瘮?shù)的缺陷,本文提出了以下改進(jìn)的閾值法,使其能運(yùn)用到車載環(huán)境中。
(2)本文改進(jìn)的閾值法
為了克服閾值法的缺點(diǎn),本文采用如下的閾值函數(shù)進(jìn)行去噪:
(3)
由于雙門限算法簡單可行、復(fù)雜程度低、運(yùn)算量小、實(shí)時(shí)性較好等,很多學(xué)者或科研人員在其上改進(jìn)各種算法。
2.1 雙門限算法原理
語音信號(hào)一般可分為無聲段(靜音段)、清音段、濁音段,由于他們的能量是有一定區(qū)別的,顯然濁音段能量大于清音段,清音段大于無聲段,但在實(shí)際檢測過程中,由于噪聲以及清音段本身能量較低的特點(diǎn),使得無聲段與清音段難以區(qū)分[7],所以還有一種信號(hào)特征用于其檢測,即短時(shí)過零率。短時(shí)過零率表示信號(hào)穿過橫坐標(biāo)(零電平)的次數(shù)。短時(shí)能量和短時(shí)過零率函數(shù)定義分別為式(4)、式(5):
(4)
(5)
對(duì)于上面式(4)和式(5),x(m)為語音信號(hào),En為能量,h(n-m)為相關(guān)的濾波器,Zn為過零率。
2.2 本文改進(jìn)的雙門限算法
語音開始和結(jié)尾對(duì)于端點(diǎn)檢測至關(guān)重要,因?yàn)殚撝档脑O(shè)定要通過靜音段確定,而為了增強(qiáng)檢測的適應(yīng)性,應(yīng)根據(jù)具體的噪聲環(huán)境確定能量閾值,而不能單一運(yùn)用一個(gè)閾值到所有的信噪比環(huán)境下。通常需要通過能量的最大值max和最小值min來確定一個(gè)閾值,即采用一種折中的方法選取閾值。參考文獻(xiàn)[7]采用的是當(dāng)能量的最大值max比上能量的最小值min小于33.33時(shí),閾值下限ITL設(shè)置為0.03max+0.97min,反之ITL設(shè)置為4min;閾值上限ITU設(shè)置為4ITL[8]。
由于低信噪比環(huán)境下以上雙門限算法有一定局限性,端點(diǎn)檢測的效果很差,通過大量的采集數(shù)據(jù)和實(shí)驗(yàn),本文得出如下的改進(jìn)門限法。設(shè)置能量閾值的上、下限如式(6)所示:
(6)
IMM為前15幀的能量幅值的平均值。
通過前面改進(jìn)的小波去噪方法提高了信噪比,使得端點(diǎn)檢測識(shí)別率提高,這樣在車載壞境下的特征提取和模式匹配準(zhǔn)確度會(huì)提高。下面給出實(shí)驗(yàn)結(jié)果。
通過多次采集不同車載環(huán)境下的噪聲,采用sym8小波,分解層數(shù)為5時(shí)效果比較明顯。圖1給出了改進(jìn)小波去噪效果,分別在-5 db、0 db、5 db時(shí)的去噪效果比較,其橫坐標(biāo)為語音的采樣點(diǎn)數(shù),縱坐標(biāo)為語音信號(hào)幅度值。表1是幾種不同噪聲環(huán)境下輸出的SNR和MSE。從表1中可以得出在低信噪比的環(huán)境下小波去噪發(fā)揮了它的優(yōu)勢。
通過小波去噪后,得到了更好的語音資源,此時(shí)將去噪后的語音進(jìn)行端點(diǎn)檢測會(huì)得到更好的效果[9],表2列出了不同信噪比情況下幾種不同環(huán)境下車載語音端點(diǎn)檢測結(jié)果,從中可以看出,“我到北京去”這段語音相比于傳統(tǒng)的雙門限,去噪以及改進(jìn)后的雙門限檢測效果更好,其檢測率高于傳統(tǒng)雙門限檢測率,且沒有增加算法的運(yùn)算量,使實(shí)時(shí)性得到保障。
從圖1和表1數(shù)據(jù)分析,小波去噪在車載強(qiáng)噪音環(huán)境下效果較為明顯,改進(jìn)的雙門限檢測方法也具有一定適應(yīng)性,能夠在車載多變的噪聲環(huán)境下進(jìn)行檢測。從表1可以看出,在車載高SNR條件下,檢測效果有明顯的提升;在低SNR下,雖然檢測效果有所下降,但相比于傳統(tǒng)的檢測效果還是有所提升。通過信噪比SNR和均方誤差MSE衡量語音去噪的效果,從表中可以看到降噪明顯。通過表2的對(duì)比看出,端點(diǎn)檢測率提高了,表明語音檢測的有效性。
對(duì)于車載環(huán)境下,噪聲是比較大、比較復(fù)雜的,低SNR會(huì)使傳統(tǒng)雙門限檢測方法的識(shí)別率大大降低[10],對(duì)于這一缺點(diǎn),本文首先采用了改進(jìn)小波去噪算法提高車載環(huán)境下的SNR,再使用改進(jìn)的雙門限算法進(jìn)行端點(diǎn)檢測。從實(shí)驗(yàn)結(jié)果來看,失真不影響檢測效率,且提高了檢測率,證明本文算法切實(shí)可行。
[1] 馬龍華,郝燕玲.車載環(huán)境下語音識(shí)別方法研究[D].哈爾濱:哈爾濱工程大學(xué),2009.
[2] 吳勇,吳傳生.基于小波去噪研究方法[D].武漢:武漢理工大學(xué),2007.
[3] 金寶龍,李輝,趙乃杰,等.一種新的小波閾值去噪算法[J].彈箭與制導(dǎo)學(xué)報(bào),2011,31(1):167-169.
[4] 趙廣超,肖斌,國闖,等.小波分析理論與圖像降噪處理[J].微型機(jī)與應(yīng)用.2011,30(19): 35-37.
[5] 段永剛,馬立元,李永軍,等.基于小波分析的改進(jìn)軟閾值去噪算法[J].科學(xué)技術(shù)與工程,2010,10(23):5755-5658.
[6] 楊岳飛,劉輝,譚檢平.帶噪語音信號(hào)小波去噪算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(14):211-213.
[7] 陳東鈺,周萍.基于雙門限算法的語音端點(diǎn)檢測和聲韻母分離研究[J].桂林電子科技大學(xué)學(xué)報(bào),2011,31(6):481-482.
[8] 劉慶升,徐霄鵬,黃文浩.一種語音端點(diǎn)檢測的探究[J].計(jì)算機(jī)工程,2003,29(3):120-121.
[9] 魯遠(yuǎn)耀,周妮,肖珂,等.強(qiáng)噪音環(huán)境下改進(jìn)的語音端點(diǎn)檢測算法[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1386-1390.
[10] 劉華平,李昕,徐柏齡,等.語音信號(hào)端點(diǎn)檢測方法綜述及展望[J].計(jì)算機(jī)應(yīng)用研究,2008,25(8):2278-2283.
Research on speech endpoint detection under on-board environment
Zhang Heng, Zhou Ping
(Shcool of Electronic Engineering and Automation, Guilin University of Electronic Technology,Guilin 541004, China)
The endpoint detection is an important part in signal processing. Endpoint detection directly determines the accuracy and speed of the voice recognition. Car environment is a very complex environment, the signal-to-noise ratio of the signal possibility is very low, for the traditional time domain endpoint detection method, in this environment the endpoint detection effect is very poor. The double door limit under the condition of high SNR, endpoint detection effect is very good, the recognition rate is very high, this makes the prompt on-board environment voice SNR is critical. In this paper, the improved wavelet denoising and the improved double threshold algorithm is adopted for endpoint detection. The experimental results show that the integrated method of wavelet denoising and double threshold though there is a certain amount of signal distortion, the distortion in the range of acceptable, and in the case of not increase the computational complexity, the endpoint detection effect is better than traditional double threshold effect, which show the effectiveness of the algorithm in this paper.
on-board environment; wavelet denoising; dual-threshold; endpoint dectect
廣西研究生教育創(chuàng)新計(jì)劃資助項(xiàng)目(YCSZ2015152)
TN912.34
A
10.19358/j.issn.1674- 7720.2017.05.007
張恒,周萍.車載環(huán)境下語音端點(diǎn)檢測的研究[J].微型機(jī)與應(yīng)用,2017,36(5):21-23.
2016-12-01)
張恒(1991-),通信作者,男,碩士研究生,主要研究方向:語音識(shí)別、車載語音。E-mail:282078547@qq.com。
周萍(1961-),女,碩士,教授,主要研究方向:語音識(shí)別、智能控制。