鐘明輝
摘 要:漢語語音識別研究中,識別單元的選取是很重要的。該文提出一種基于聲韻母分割的,以韻母為基本識別單元的大詞匯量孤立詞的語音識別方法,并與以漢語詞為基本識別單元的語音識別方法進行比較識別實驗。結(jié)果表明,基于韻母為基本識別單元的語音識別性能優(yōu)于以漢語詞為基本識別單元的語音識別方法。
關(guān)鍵詞:識別單元 聲韻母分割 大詞匯量 漢語詞
中圖分類號:TN912.34 文獻標識碼:A 文章編號:1674-098X(2014)06(c)-0249-01
語音識別是近年來十分活躍的一個研究領(lǐng)域。在不遠的將來,語音識別技術(shù)有可能作為一種重要的人機交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標等輸入設(shè)備,在個人計算機上進行文字錄入和操作控制。按可識別詞匯的多少分,語音識別可分為小詞匯量語音識別和大詞匯量語音識別。兩種語音識別系統(tǒng)所采用的處理方法也不完全一樣。小詞匯量語音識別基本都是以漢語詞為基本識別單元,而大詞匯量語音識別則多以音素為基本識別單元。該文中,我們主要的研究對象是大詞匯量漢語語音識別問題。所以,這里的音素是指漢語的音素,它與英語的音素有比較大的區(qū)別。因此,在漢語音素分割處理方面也有不同于通常對英語音素的處理方法。該文介紹了一種基于漢語聲韻母分割的,以韻母為識別單元的語音識別方法。
1 漢語語音的聲韻母分割
漢語普通話是以字為單位的。從聲學(xué)角度看,漢語中一個字就對應(yīng)一個音節(jié)。因此,音節(jié)是漢語語音識別中最自然的識別單位。目前,漢語語音識別逐漸向大詞匯量連續(xù)語音識別的方向發(fā)展,音節(jié)作為識別單元已經(jīng)慢慢被取代。這是因為當詞匯量增大時,不可能要求在進行語音數(shù)據(jù)訓(xùn)練中每個音節(jié)重復(fù)出現(xiàn)很多次,以得到可靠的結(jié)果,那么如何合理地選取語音識別單元,并建立相應(yīng)的聲學(xué)模型,是漢語語音識別的關(guān)鍵。因此,必須選取比音節(jié)更小的單元(音素)作為訓(xùn)練和識別的基本語音識別單元。
1.1 漢語音節(jié)的結(jié)構(gòu)
按照我國傳統(tǒng)音素分類方法,漢語的一個字節(jié)可以看成是由聲母和韻母拼合而成,即聲—韻母結(jié)構(gòu)是漢語音節(jié)結(jié)構(gòu)的顯著特點。該結(jié)構(gòu)構(gòu)成使得漢語音節(jié)的聲學(xué)單元組合具有一定的規(guī)律性,在這種結(jié)構(gòu)中漢語音節(jié)的過渡音體現(xiàn)了音節(jié)的一種過渡性質(zhì)。即在過渡階段的起始段保留了較多的聲母特性而韻母特性較少;在過渡音末段則保留的聲母特性較少而包含較多的韻母特性。其中,核心目標值是絕大多數(shù)音節(jié)的核心部分,具有典型的頻譜模式。也即本文提出的基于聲韻母分割的以韻母為識別單元的識別方法的理論依據(jù)。因此,將音節(jié)劃分成聲韻母音素作為識別單元是符合漢語特點的。
1.2 漢語的波形特征
漢語的每一個字都是一個單音節(jié)字。每個單音節(jié)又都是由聲母和韻母拼音而成。每個韻母又由若干個音節(jié)組成有多種聲調(diào)。因此共組成1200多個有調(diào)音節(jié)。從漢語的波形特征上看,聲母部分的變化很快,周期特性不明顯;到了過渡音段,逐漸呈現(xiàn)出周期性,而到了韻母部分,周期特性非常明顯,波形顯得穩(wěn)定而有規(guī)律;最后能量逐漸減少,但依然保持周期性的特征。因此,任何一個漢語音節(jié)(零聲母除外),其波形運動周期性呈現(xiàn)無序-基本有規(guī)律-有規(guī)律。所以只要檢測到語音信號波形的變化,才能夠很好地進行聲韻母的分割了。
2 實驗
本實驗主要是驗證基于聲韻母分割的,以韻母為識別單元的方法對于漢語語音識別的識別率和識別速度的有效性,作者進行了特定人及非特定人的語音識別實驗,并與以漢語詞為基本識別單位的語音識別模型進行比較識別實驗。
2.1 實驗用語音庫
實驗采用了兩組數(shù)字語音庫。(1)特定人的漢語數(shù)字(0~9)語音識別時,每個數(shù)字100次發(fā)音(共1000個樣本),其中30次發(fā)音(共300個樣本)用作訓(xùn)練集,另外70次發(fā)音(共700個樣本)用作測試集;(2)非特定人的漢語數(shù)字(0~9)語音識別時,共10人,5男5女,每人每個數(shù)字10次發(fā)音(共1000個樣本),其中每人每個數(shù)字3次發(fā)音(共300個樣本)用作訓(xùn)練集,另外7次發(fā)音(共700個樣本)用作測試集。
2.2 實驗條件
該實驗在實驗室環(huán)境下完成,采用Cool Edit軟件錄音,數(shù)據(jù)采樣率為16000 Hz,量化精度為16 bits,幀長取32 ms(512點),幀移16 ms,本文將在此環(huán)境下得到的語音視為純凈語音。本實驗是在基于連續(xù)HMM的孤立詞語音識別系統(tǒng)上完成。經(jīng)實驗比較,確定HMM的最佳狀態(tài)數(shù)為4,最佳混合度為3(12階MFCC+12階△MFCC,△表示一階差分)訓(xùn)練模型。
2.3 實驗結(jié)果
見表1。
3 結(jié)語
該文提出了基于聲韻母切割的漢語語音識別方法,對該識別單元在特定人和非特定人在漢語語音識別中的應(yīng)用進行了實驗分析,并與傳統(tǒng)的漢字詞為識別單元的語音識別方法進行了比較。結(jié)果表明,本文提出的基于聲韻母切割的以韻母為識別單元的識別方法,盡管與傳統(tǒng)的基于漢字詞為識別單元的識別率差不多,但是,這種基于音素的識別方法能使識別基元大大減少,從而使運算量和貯存量減少,而訓(xùn)練數(shù)據(jù)量卻能相對增多,使得識別速度得到了大大的提高。因此,這種方法應(yīng)用于大詞匯量的漢語語音識別時,優(yōu)于以漢語詞為識別單元的語音識別方法。
參考文獻
[1] 何強,何英.MATLAB擴展編程[M].北京:清華大學(xué)出版社,2002.
[2] 張靜亞.基于CHMM的高性能連續(xù)數(shù)字語音識別算法[J].常熟理工學(xué)院學(xué)報,2005(3).
[3] 何新,王曉蘭.漢語語音識別中的一種音節(jié)分割方法[J].火力與指揮控制,2004(12).
[4] 王寧,萬旺根.漢語語音音素分割的一種新方法[J].上海大學(xué)學(xué)報(自然科學(xué)版),2002(4).endprint