国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進(jìn)的基于Viterbi的語音切分算法*

2015-03-25 05:16:15李歡歡王金明尹海明徐志軍張開禮
通信技術(shù) 2015年9期
關(guān)鍵詞:極小值語音閾值

李歡歡,王金明,尹海明,徐志軍,孔 磊,張開禮

(1.解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007;2.西安通信學(xué)院 信息服務(wù)系,陜西 西安 710000)

一種改進(jìn)的基于Viterbi的語音切分算法*

李歡歡1,王金明1,尹海明1,徐志軍1,孔 磊2,張開禮1

(1.解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007;2.西安通信學(xué)院 信息服務(wù)系,陜西 西安 710000)

主要針對(duì)文本提示型說話人識(shí)別中語音切分高精確度要求的問題,在利用Viterbi算法的語音切分基礎(chǔ)上,提出了向后平滑搜索多幀能量極小值的語音切分方法。該算法首先對(duì)0~9的每個(gè)數(shù)字建立模型,然后利用Viterbi算法對(duì)隨機(jī)數(shù)字串進(jìn)行切分得到初始切分點(diǎn),最后利用搜索多幀能量極小值的方法更新原始切分點(diǎn)。實(shí)驗(yàn)表明,相比于傳統(tǒng)的切分算法,在誤差范圍小于20 ms之內(nèi),改進(jìn)算法的切分準(zhǔn)確率由82.1%提高到88%。

語音切分;Viterbi;多幀能量極小值

0 引 言

在文本提示型的說話人識(shí)別系統(tǒng)中,為防止冒認(rèn)者攻擊,系統(tǒng)采用0~9的隨機(jī)數(shù)字作為密碼,在用戶讀入該序列語音后,需判斷用戶是否讀入正確的密碼,因此需對(duì)連續(xù)語音進(jìn)行精確切分,從而判斷每個(gè)切分單元的內(nèi)容。而在實(shí)際應(yīng)用中,由于每個(gè)人的發(fā)音方式不同,很可能會(huì)出現(xiàn)兩個(gè)字之間幾乎無停頓的情況(以下稱為有連讀)。

傳統(tǒng)的語音切分算法[1]通常只根據(jù)幀幅度、幀能量或短時(shí)過零率等篩選出有聲幀用于訓(xùn)練和識(shí)別,對(duì)語音切分的精確度并沒有太高的要求。目前主流的語音切分算法主要是以音節(jié)、音素以及聲韻母模型[2]作為基本單元對(duì)連續(xù)語音進(jìn)行切分,并在此基礎(chǔ)上進(jìn)行改進(jìn),如文獻(xiàn)[3]將各種基元聲學(xué)模型復(fù)合并進(jìn)行了對(duì)比,一方面在識(shí)別過程中同時(shí)使用兩種模型,另一方面在識(shí)別過程中避開造成低識(shí)別率的模型,實(shí)驗(yàn)表明,聲韻母模型的識(shí)別性能高于音素模型;文獻(xiàn)[4]采用了新的特征提取方法,其切分準(zhǔn)確度比利用傳統(tǒng)的MFCC得到很大提升;文獻(xiàn)[5]利用邊界規(guī)整和系統(tǒng)融合的方法使語音切分的準(zhǔn)確度得到很大提升。然而,上述語音切分方法更適合用于大詞匯量的語音切分,對(duì)于本文中小詞匯量的語音切分,將聲韻母模型作為基元的切分會(huì)增加算法的復(fù)雜度。

本文將0~9中的每個(gè)數(shù)字作為基元模型[6],采用改進(jìn)的基于Viterbi的語音切分算法,即在Viterbi切分語音的基礎(chǔ)上增加了向后平滑搜索多幀能量極小值的方法,既降低了算法復(fù)雜度,又使得切分結(jié)果更加準(zhǔn)確。

1 傳統(tǒng)的語音切分算法

語音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),其產(chǎn)生過程與發(fā)聲器官的運(yùn)動(dòng)密切相關(guān)。在5~50 ms的范圍內(nèi),語音頻譜特性和物理特征參數(shù)基本保持不變。因此,對(duì)語音信號(hào)進(jìn)行短時(shí)處理也可有效地反映語音信息。傳統(tǒng)語音切分常用的參數(shù)有幀幅度M、幀能量E、幀過零率Z等,其公式如下:

(1)

(2)

(3)

式中,En、Mn和Zn分別是第n幀的能量、幅度和過零率。L為一幀語音中采樣點(diǎn)數(shù)目,Sl為第l個(gè)采樣點(diǎn)值。

傳統(tǒng)的語音切分方法利用幀幅度的上限閾值MH、下限閾值ML和短時(shí)過零率下限ZL對(duì)連續(xù)語音切分,如圖1所示,N1為語音起始幀,N5為語音終止幀。

圖1 傳統(tǒng)的語音切分方法示意

其中,閾值計(jì)算方法有很多種,如基于統(tǒng)計(jì)均值的、基于幀幅度統(tǒng)計(jì)閾值的、基于幀參數(shù)歸一化和基于幀信噪比統(tǒng)計(jì)閾值的方法等,最基本的是用統(tǒng)計(jì)均值的方法得到。但傳統(tǒng)的語音切分算法不能適應(yīng)聲音能量的變化,尤其在閾值選取不準(zhǔn)確的情況下,容易出現(xiàn)誤切,如MH定得過高可能會(huì)將能量較低的語音切掉或者當(dāng)語音存在噪聲時(shí)會(huì)將噪聲誤認(rèn)為語音而切進(jìn)來。

2 改進(jìn)的基于Viterbi語音切分算法

基于統(tǒng)計(jì)的HMM(Hidden Markov Model)[7-8]算法是目前最為成功的一種語音識(shí)別模型和算法。由于語音信號(hào)的時(shí)序性特點(diǎn),故在語音信號(hào)處理中通常采用從左至右的HMM模型來描述其中狀態(tài)的變化。在切分?jǐn)?shù)字串語音之前,首先利用大量說話人的語音對(duì)每個(gè)數(shù)字建立HMM模型,然后根據(jù)該數(shù)字串和每個(gè)數(shù)字的單個(gè)HMM模型建立一個(gè)復(fù)合HMM模型,最后利用Viterbi算法對(duì)隨機(jī)數(shù)字串語音進(jìn)行切分。

2.1 Viterbi算法

求取Q*的一般過程為:

初始化:

δ1(i)=πibi(o1),1≤i≤N

(4)

φ1(i)=0,1≤i≤N

(5)

遞歸:

(6)

(7)

結(jié)束:

(8)

(9)

回溯,求得Q*

(10)

通過以上4步就可以求出一組觀察值的最佳狀態(tài)序列,而觀察值所屬的狀態(tài)總數(shù)和HMM模型的狀態(tài)數(shù)是一樣的。上述所說的模型需要經(jīng)過大量語音數(shù)據(jù)訓(xùn)練得到,訓(xùn)練方法采用Baum-Welch算法[9]。

2.2 Viterbi語音切分算法及其改進(jìn)

采用基于Viterbi語音切分的方法可以有效地應(yīng)用于文本提示型說話人識(shí)別系統(tǒng),但由于前一個(gè)字尾音和后一個(gè)字氣流音的影響,可能會(huì)導(dǎo)致切分不準(zhǔn)確,從而影響系統(tǒng)在判斷文本內(nèi)容時(shí)的準(zhǔn)確性。本文在基于Viterbi切分方法的基礎(chǔ)上提出向后平滑搜索多幀能量極小值的方法,以進(jìn)一步提高語音切分的準(zhǔn)確度。

本文主要討論用于文本提示型的話者認(rèn)證系統(tǒng)的語音切分算法,需要切分的是隨機(jī)數(shù)字串。首先分別為0~9的每個(gè)數(shù)字訓(xùn)練單個(gè)HMM模型,然后根據(jù)密碼中數(shù)字串的順序建立復(fù)合HMM模型,作為利用Viterbi算法進(jìn)行語音切分時(shí)的參考模型。在輸入一段包含隨機(jī)密碼的語音后,對(duì)該段語音分幀并進(jìn)行特征參數(shù)提取,將提取出的特征參數(shù)與復(fù)合HMM模型作比較,最后得到特征序列所對(duì)應(yīng)的最佳狀態(tài)序列,從而確定每個(gè)字所包含的特征區(qū)域。由于密碼中隨機(jī)數(shù)字個(gè)數(shù)已知,每個(gè)數(shù)字一般由6~8個(gè)狀態(tài)數(shù)組成,進(jìn)而得知復(fù)合HMM的混合狀態(tài)數(shù)。在劃分單個(gè)字的特征區(qū)域時(shí),根據(jù)每幀所屬的狀態(tài)將每個(gè)字所包含的特征區(qū)域劃分開。假設(shè)每個(gè)數(shù)字由6個(gè)狀態(tài)數(shù)組成,密碼由3個(gè)數(shù)字組成,其切分過程如圖2所示。

圖2 基于Viterbi的語音切分算法示意

由以上描述可知,由于每個(gè)數(shù)字都有其對(duì)應(yīng)的狀態(tài)數(shù),因此無論語音是否連讀以及聲音能量變化是否很大,Viterbi算法均可將連續(xù)語音切分開。本文在Viterbi算法的基礎(chǔ)上進(jìn)行了改進(jìn),該方法的主要原理是通過Viterbi切分得到相鄰字間的切分點(diǎn),然后在相鄰切分點(diǎn)中以若干幀為單位求多幀能量和,尋找多幀能量極小值點(diǎn),并將其作為新的切分點(diǎn)。改進(jìn)的語音切分算法具體步驟如下:

(1)利用大量語音訓(xùn)練得到每個(gè)數(shù)字的HMM模型;

(2)通過Viterbi算法將輸入語音特征與已訓(xùn)練好的模型相比對(duì),得到一個(gè)最佳輸出狀態(tài)序列,已知每個(gè)數(shù)字所包含的狀態(tài)數(shù),從而得到語音中每相鄰兩字的切分點(diǎn)并存儲(chǔ)起來,記為N;

(3)將語音分幀,根據(jù)式(1)求得幀能量,其中,幀長(zhǎng)與幀移應(yīng)與第(2)步中計(jì)算特征時(shí)保持一致;

(4)依次選取第(2)步中相鄰的兩個(gè)切分點(diǎn)Ni-1和Ni,并分別作為區(qū)間的起始點(diǎn)與終止點(diǎn)。在每個(gè)區(qū)間內(nèi),每十幀的能量相加,并向后移動(dòng)一幀進(jìn)行搜索,找出第一個(gè)幀能量和開始增大的點(diǎn),并將此點(diǎn)作為新的切分點(diǎn)Mi。若在此區(qū)間內(nèi)多幀能量和一直減小,則將新的切分點(diǎn)設(shè)為該區(qū)間的起始點(diǎn);

(5)重復(fù)上述步驟,直到將利用Viterbi得到的原切分點(diǎn)取完。

3 實(shí)驗(yàn)分析

3.1 仿真圖分析

本文所研究的語音切分算法需要對(duì)隨機(jī)數(shù)字串進(jìn)行精確切分,即使用戶語速較快出現(xiàn)相鄰兩字間隔很小的情況下,也要將每個(gè)字的特征精確劃分出來。該實(shí)驗(yàn)仿真的前提是輸入語音相同,且分為有連讀和無連讀兩種,密碼均為“6-3-4-9-8-3-5-2”,通過仿真對(duì)比分析文中所提各種方法的切分效果。

圖3、圖4、圖5均為語音無連讀情況下的切分效果圖,圖6、圖7、圖8均為語音有連讀情況下的切分效果圖。對(duì)比前后兩組圖可以看出,3種切分算法對(duì)于無連讀的連續(xù)語音切分效果相對(duì)于有連讀的切分效果較好。

圖3、圖6為傳統(tǒng)的語音切分算法切分結(jié)果,圖3是用戶逐字讀出密碼后的切分圖,圖6是用戶將“3-5”連讀后的切分圖。兩圖相比較,很明顯圖6中的連讀數(shù)字沒有切分開(即連讀的“3-5”部分),可以看出傳統(tǒng)的切分方法對(duì)于逐字讀出密碼的切分效果更好,卻不能切分連讀的數(shù)字,尤其是連讀兩個(gè)重復(fù)的數(shù)字時(shí)(讀重復(fù)數(shù)字時(shí)語音的音高、音調(diào)等沒有發(fā)生轉(zhuǎn)變)。

圖3 傳統(tǒng)的基于幀幅度閾值的語音切分(無連讀)

圖4 基于Viterbi算法的語音切分(無連讀)

圖5 改進(jìn)的基于Viterbi算法的語音切分(無連讀)

圖4和圖7分別為基于Viterbi的語音切分算法切分無連讀和有連讀連續(xù)語音的效果圖。該方法能夠?qū)⑦B讀的數(shù)字切分開,但其仍存在切分不準(zhǔn)確的情況,如圖7所示,這樣很容易導(dǎo)致屬于前一個(gè)字的特征序列被劃分為第二個(gè)字的特征區(qū)域,從而混淆第二個(gè)字整體的語音特征,使得在最后判斷數(shù)字內(nèi)容時(shí)出現(xiàn)差錯(cuò)。

圖5和圖8是本文提出的改進(jìn)的算法切分效果圖,對(duì)于無連讀的語音,其切分結(jié)果已比較準(zhǔn)確,如圖5所示。由圖8可以看出,改進(jìn)的算法能將連讀的連續(xù)語音切分開,且相對(duì)于圖7所用的切分方法,改進(jìn)的算法切分得更加準(zhǔn)確。

圖6 傳統(tǒng)的基于幀幅度閾值的語音切分(有連讀)

圖7 基于Viterbi算法的語音切分(有連讀)

圖8 改進(jìn)的基于Viterbi算法的語音切分(有連讀)

3.2 實(shí)驗(yàn)數(shù)據(jù)分析

實(shí)驗(yàn)中,通常定義語音切分的切分誤差為人工標(biāo)注的切分點(diǎn)與自動(dòng)切分的切分點(diǎn)之間的距離。設(shè)人工標(biāo)注的切分位置為T,而自動(dòng)切分系統(tǒng)的切分位置為t,則切分誤差為:ε=|T-t|。在比較不同的切分方法性能時(shí),可以從切分的平均誤差和切分誤差小于一定門限(比較典型的門限可以取20 ms、40 ms、60 ms等)的切分點(diǎn)所占的比例進(jìn)行分析。

本實(shí)驗(yàn)采用的語音材料為安靜環(huán)境下錄制的干凈語音,采樣頻率為8 kHz,采樣精度為16 bit。訓(xùn)練語音是數(shù)字0~9每個(gè)數(shù)字100遍的語音,其中男女聲各50遍,用來訓(xùn)練單個(gè)字的HMM模型以及切分語音,每個(gè)數(shù)字包含8個(gè)狀態(tài),每個(gè)狀態(tài)由4個(gè)高斯混合模型組成。測(cè)試數(shù)據(jù)是由一個(gè)人隨機(jī)讀取的10段語音,在誤差范圍為20 ms內(nèi),其切分準(zhǔn)確率如表1所示。

表1 3種方法的準(zhǔn)確率對(duì)比

由表1可以看出,使用改進(jìn)算法切分連續(xù)語音的準(zhǔn)確率相比于傳統(tǒng)切分算法提升了7.9%。

4 結(jié) 語

本文針對(duì)文本提示型說話人識(shí)別系統(tǒng)對(duì)語音切分高精確度要求的問題,在Viterbi切分語音的基礎(chǔ)上增加了向后平滑搜索多幀能量極小值的方法,一定程度上彌補(bǔ)了Viterbi切分算法的不足。在誤差范圍小于20 ms之內(nèi),相比于傳統(tǒng)切分算法和Viterbi切分算法,改進(jìn)算法的切分準(zhǔn)確率得到很大的提升。另外,在訓(xùn)練HMM模型時(shí),訓(xùn)練數(shù)據(jù)量大小、狀態(tài)數(shù)以及高斯混合數(shù)的選擇也同樣影響其切分準(zhǔn)確率。

[1] 何致遠(yuǎn),胡起秀,徐光祐.說話人識(shí)別中語音切分算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2003(06):55-58. HE Zhi-yuan, HU Qi-xiu, XU Guang-you. Research on Speech Segmentation Algorithm in Speaker Recognition[J]. Computer Engineering and Applications. 2003(06):55-58.

[2] 梁維謙,原道德,丁玉國(guó).大詞表孤立詞語音識(shí)別的快速搜索算法[J].清華大學(xué)學(xué)報(bào),2011,51(01):101-104. LIANG Wei-qian, YUAN Dao-de, DING Yu-guo. Fast Search Algorithm for Large Vocabulary Isolated-Word Speech Recognition[J]. Tsinghua Univ(Sci & Tech), 2011, 51(01): 101-104.

[3] 張輝,杜利民.漢語連續(xù)語音識(shí)別中不同基元聲學(xué)模型的復(fù)合[J].電子與信息學(xué)報(bào),2006,28(11):2045-2049.

ZHANG Hui, DU Li-min. Combination of Acoustic Models Trained from Different Unit Sets for Chinese Continuous Speech Recognition[J]. Journal of Electronics & Information Technology.2006,28(11):2045-2049.

[4] Tryfou G, Pellin M, Omologo M. Time-Frequency Reassigned Cepstral Coefficients for Phone-Level Speech Segmentation[C].2014 Proceedings of the 22nd European Signal Processing Conference.2014:2060-2064.

[5] Stolcke A, Ryant N, Mitra V, YUAN Jia-hong.Highly Accurate Phonetic Segmentation Using Boundary Correction Models and System Fusion[C].2014 IEEE International Conference on Acoustics, Speech and Signal Processing.2014:5552-5556.

[6] 呂偉辰,洪青陽(yáng),王勝等.基于Viterbi-GMM的文本提示型說話人識(shí)別系統(tǒng)[C].第十二屆全國(guó)人機(jī)語音通訊學(xué)術(shù)會(huì)議,2013. LV Wei-chen, HONG Qing-yang, WANG Sheng,et al. Text-Prompted Speaker Recognition System based on Viterbi-GMM[C].NCMMSC′2013.

[7] Iosif Mporas, Alexandros Lazaridis, Todor Ganchev, Nikos Fakotakis. Using Hybrid HMM-based Speech Segmentation to Improve Synthetic Speech Quality[C]. In Proceedings of the 13th Pan-Hellenic Conference on Informatics, PCI 2009:118-122.

[8] 胡克,康世胤,郝軍.中文HMM參數(shù)化語音合成系統(tǒng)構(gòu)建[J].通信技術(shù),2012,45(08):101-103,108. HU Ke, KANG Shi-yin, HAO Jun. HMM-based Mandarin Speech Synthesis System[J].Communications Technology. 2012,45(08):101-103,108.

[9] Sainath, Tara N, Kanevsky, Dimitri, et,al. Broad Phonetic Class Recognition in a Hidden Markov Model Frame Work Using Extended Baum Welch Transformations[C]. 2007 IEEE Workshop on Automatic Speech Recognition and Understanding, 2007:pp.305-311.

An Improved Speech Segmentation Algorithm based on Viterbi

LI Huan-huan1, WANG Jin-ming1, YIN Hai-ming1, XU Zhi-jun1, KONG Lei2, ZHANG Kai-li1

(1.College of Communication Engineering, PLA University of Science & Technology,Nanjing Jiangsu 210007,China; 2. Department of Information Service in Xi′an Communication Institute,Xi′an Shaanxi 710000,China)

An improved algorithm for speech segmentation is proposed to improve the segmentation accuracy in text-prompted speaker recognition. This method, based on Viterbi algorithm, implements speech segmentation by backward smooth searching of minimum frame energy. Firstly, the models for numbers from 0 to 9 are trained individually, then the segmentation points are acquired by using Viterbi algorithm to segment a series of random numbers, and finally the segmentation points are updated by smooth searching of minimum frame energy. Experimental results show that this proposed algorithm could achieve an improvement of from 82.1% to 88% in segmentation accuracy within the error range of 20ms, as compared with the traditional algorithm.

speech segmentation; Viterbi; minimum frame energy

2015-04-05;

2015-07-27 Received date:2015-04-05;Revised date:2015-07-27

中興通訊產(chǎn)學(xué)研合作研究項(xiàng)目(No.CON1307160001)

Foundation Item:Industry-University-Research Cooperation Projects of ZTE(No.CON1307160001)

TN912

A

1002-0802(2015)09-1027-05

李歡歡(1990—),女,碩士研究生,主要研究方向?yàn)槲谋鞠嚓P(guān)的說話人識(shí)別;

王金明(1972—),男,博士,副教授,主要研究方向?yàn)槁暭y識(shí)別,通信輻射源識(shí)別;

尹海明(1990—),男,碩士研究生,主要研究方向?yàn)槁暭y識(shí)別;

徐志軍(1963—),男,博士,教授,主要研究方向?yàn)镋DA與ASIC設(shè)計(jì),智能儀器與自動(dòng)測(cè)試技術(shù);

孔 磊(1988—),男,助教,主要研究方向?yàn)槁暭y識(shí)別;

張開禮(1989—),男,碩士研究生,主要研究方向?yàn)殡娐放c系統(tǒng)設(shè)計(jì)。

10.3969/j.issn.1002-0802.2015.09.010

猜你喜歡
極小值語音閾值
一道抽象函數(shù)題的解法思考與改編*
構(gòu)造可導(dǎo)解析函數(shù)常見類型例析*
小波閾值去噪在深小孔鉆削聲發(fā)射信號(hào)處理中的應(yīng)用
魔力語音
基于MATLAB的語音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
基于自適應(yīng)閾值和連通域的隧道裂縫提取
對(duì)方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
極小值原理及應(yīng)用
比值遙感蝕變信息提取及閾值確定(插圖)
河北遙感(2017年2期)2017-08-07 14:49:00
清涧县| 利川市| 呼图壁县| 醴陵市| 武胜县| 霞浦县| 大厂| 当涂县| 右玉县| 安远县| 攀枝花市| 平陆县| 哈尔滨市| 通江县| 竹北市| 渝北区| 安塞县| 鄯善县| 卢龙县| 藁城市| 乡宁县| 棋牌| 武胜县| 祁门县| 博野县| 甘泉县| 资源县| 大洼县| 大连市| 承德县| 玉林市| 渑池县| 松溪县| 页游| 武平县| 昌都县| 赤峰市| 淮北市| 乌兰察布市| 晴隆县| 那曲县|