卓嘎 邊巴旺堆 姜軍
摘要:語音端點檢測是語音處理分析過程中的重要環(huán)節(jié)之一,該文介紹了語音端點檢測的兩個傳統(tǒng)算法即短時平均能量和短時過零率,并將這兩種算法結(jié)合起來進行藏語語音進行端點檢測。運用Matlab編程和仿真驗證了雙門限判斷法在藏語語音端點檢測中的準確性。這種方法降低了藏語語音處理的時間、提高了處理的質(zhì)量、可用來進行一些藏語語音識別的特征參數(shù)的提取。
關(guān)鍵詞: 藏語語音;短時平均能量;短時過零率;雙門限;端點檢測
中圖分類號:TN912 文獻標識碼:A 文章編號:1009-3044(2014)31-7466-04
Abstract: Tibetan speech endpoint detection is an important part of Tibetan speech signal processing. This article introduced two traditional endpoint detection methods which including the short-term average energy and short-term zero rate algorithm and tested Tibetan speech endpoint detection by combing these two algorithm. It verified correctness of dual threshold method for the implementation of Tibetan speech endpoint detection。This method reduces the processing time and improve the quality for Tibetan speech Tibetan Speech Endpoint Detection。It can be used to extract some of the characteristics of Tibetan speech recognition parameters.
Key words: Tibetan speech;short-term average energy;short-term zero cross rate;dual threshold; endpoint detection
隨著藏文信息技術(shù)的飛速發(fā)展,藏語語音分析、語音合成和語音識別的應(yīng)用領(lǐng)域也越來越廣泛,而語音端點檢測是語音處理分析過程中的一個重要環(huán)節(jié)。在語音信號處理過程中,經(jīng)常需要從各種語音數(shù)據(jù)中采集真正有用的語音數(shù)據(jù),而精確地找出語音信號的起始點和終止點是語音處理的關(guān)鍵環(huán)節(jié)[1],好的端點檢測方法在語音識別過程中不僅能夠節(jié)省信號處理的時間而且能有效提高處理的質(zhì)量[2]。語音識別的基本方法是先區(qū)分有聲段和無聲段,然后根據(jù)語音的一些特征參數(shù)對有聲段進行進一步處理[3]。但發(fā)音過程中,在有聲段和無聲段的前后還包含一些附帶信息如呼吸產(chǎn)生的雜音、弱摩擦音、弱爆破音、鼻音等等[4],這些因素增加了語音端點檢測的難度,影響了語音識別的處理時間降低了語音處理的質(zhì)量.在語音處理過程中,特別是在語音識別系統(tǒng)中大部分的識別錯誤是在端點檢測環(huán)節(jié)中產(chǎn)生,并直接影響處理模塊其它功能的正常工作[5]。此外,有效的端點檢測在語音增強算法和語音編碼中也具有重要作用。該文采用語音端點檢測常用的算法,即短時能量檢測和短時過零率相結(jié)合的雙門限算法[6]并結(jié)合Matlab強大的編程和仿真功能對藏語語音進行端點檢測的驗證,并分析這種算法對藏語語音端點檢測影響。
1 短時平均能量
4.2 數(shù)據(jù)分析
本程序前面所述的雙門限端點檢測思路先經(jīng)過反復(fù)測試定出了三個門限值t1,t2,和t3,并用循環(huán)功能進行左右搜索,找出語音段、語音段的起止點,相應(yīng)輸出的波形和標注的短點如圖1(b)和圖1(c)所示。在研究過程中對30個藏文輔音字母用上面的Matlab代碼進行了端點檢測,因篇幅有限只給出了第九個輔音字母語音的端點檢測結(jié)果。由于濁音語音能量集中在較低的頻率,而大多數(shù)輕音語音能量集中在較高的頻率上,因此只用短時過零率也能檢測出部分藏文字母語音的端點,但是,有些藏語的音位于濁音和輕音的重疊區(qū)域,因此采用雙門限判斷才能準確檢測出字母語音的起止點。
5 結(jié)束語
本文采用雙門限判斷原理進行Matlab的編程和分析,該方法在無噪聲環(huán)境下能夠很好地檢測藏語字母語音的端點;在藏語語音處理過程中,能夠減少處理時間、抑制無聲段的噪聲干擾,并提高語音處理的質(zhì)量;此外,在一些藏語語音識別中可用來提取輕音、濁音等特征參數(shù)。
參考文獻:
[1] 張震宇.基于Matlab的語音端點檢測實驗研究[J].浙江科技學(xué)院學(xué)報,2007(3):197-201.
[2] 韓立華,王博,段淑鳳. 語音端點檢測技術(shù)研究進展[J].計算機應(yīng)用研究,2010(4):1220-1226.
[3] 陳擁權(quán),張羽.語音信號處理技術(shù)及其應(yīng)用前景分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(2):58-59.
[4] 董胡.倒譜距離和短時能量的語音端點檢測方法研究[J].計算機技術(shù)與發(fā)展,2014(7):1-5.
[5] 張寧,顧明亮,朱俊梅,等.語音活動檢測對方言辨識系統(tǒng)的影響研究[J].計算機技術(shù)與發(fā)展,2012,22(11):76-79.
[6] 路青起,白燕燕. 基于雙門限兩級判決的語音端點檢測方法[J].電子科技,2012(1):13-19.
[7] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010.
[8] 武光利,戴玉剛,馬寧. 基于短時平均幅度和短時平均過零率的藏語語音端點檢測研究[J].,福建電腦,2007(3):116-122.
[9] 韓紀慶,張磊,鄭鐵然. 語音信號處理[M].2版.北京:清華大學(xué)出版社 2013.
[10] 劉琦.基于短時能量特征的語音端點檢測技術(shù)研究[J].信息系統(tǒng)工程,2014(2):145.
[11] 王路露,夏旭,馮璐,等.基于頻譜方差和譜減法的語音端點檢測新算法[J].計算機工程與應(yīng)用,2014(8):1-4.
[12] 張君昌,胡海濤,崔力.融合Burg譜估計與信號變化率測度的語音端點檢測[J].西安電子科技大學(xué)學(xué)報, 2014(3):209-214.