劉小麗
摘 要:本文通過(guò)對(duì)低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響進(jìn)行分析,從而了解在當(dāng)前語(yǔ)音識(shí)別技術(shù)不斷快速發(fā)展的大背景下,如何能夠更好地提升語(yǔ)音壓縮編碼的水平。低速率語(yǔ)音壓縮編碼會(huì)對(duì)系統(tǒng)的語(yǔ)音識(shí)別產(chǎn)生很大的影響,本文通過(guò)對(duì)三種語(yǔ)音壓縮編碼器進(jìn)行分析,既比較了三者對(duì)語(yǔ)音識(shí)別產(chǎn)生的不同影響,又對(duì)其語(yǔ)音識(shí)別效果進(jìn)行了分析。
關(guān)鍵詞:低速率語(yǔ)音壓縮編碼;語(yǔ)音識(shí)別系統(tǒng);影響
隨著改革開放以來(lái)我國(guó)經(jīng)濟(jì)社會(huì)的不斷快速發(fā)展,語(yǔ)音識(shí)別系統(tǒng)廣泛地運(yùn)用于各個(gè)領(lǐng)域。語(yǔ)音識(shí)別系統(tǒng)隨著多媒體技術(shù)的不斷發(fā)展,既面臨著機(jī)遇同時(shí)也面臨著挑戰(zhàn)。在整個(gè)語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音壓縮編碼占有十分重要的地位,語(yǔ)音壓縮編碼的水平直接決定了語(yǔ)音識(shí)別系統(tǒng)的效果。因此,我們對(duì)目前使用較多的幾種語(yǔ)音壓縮編碼算法進(jìn)行了分析,從而對(duì)低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響有一個(gè)基本的了解。
一、研究背景闡述
通過(guò)對(duì)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行分析,結(jié)果表明:當(dāng)前語(yǔ)音壓縮編碼速率的逐漸下降,會(huì)造成編碼后的語(yǔ)音識(shí)別率有所下降。之所以出現(xiàn)這種情況,主要是由于在低速率條件下,單位時(shí)間內(nèi)所能描述的語(yǔ)音信息量會(huì)有所減少,因而必然會(huì)導(dǎo)致語(yǔ)音質(zhì)量下降以及語(yǔ)音形式失真。
想要提升編碼效率,降低編碼速率,唯一能夠采用的就是參數(shù)編碼方式。一些相關(guān)領(lǐng)域的研究人員對(duì)無(wú)線通信環(huán)境下的中低速率語(yǔ)音編碼進(jìn)行研究,結(jié)果是:如果采用低速率語(yǔ)音壓縮編碼(如2.4kbps),那么其合成出的聲音不會(huì)影響接受者的理解,但是會(huì)造成一些信息的流失。因此,在低速率語(yǔ)音壓縮編碼的條件下,其合成語(yǔ)音能否被語(yǔ)音識(shí)別系統(tǒng)理解,既是一個(gè)亟需解決的問(wèn)題,同時(shí)也是一項(xiàng)重要的研究項(xiàng)目。
二、低速率語(yǔ)音編碼算法分析
(一)LPC-10算法
通常來(lái)說(shuō),在2.4kbps速率的情況下,能夠?qū)Ρ硎鲂畔⒘康恼Z(yǔ)音信號(hào)十分有限,因而想要做到準(zhǔn)確描述語(yǔ)音波形,難度很大?;谶@種情況,目前語(yǔ)音壓縮編碼采用較多的是分幀提取參數(shù)法。
對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),首先要對(duì)其進(jìn)行參數(shù)的提取,即將語(yǔ)音信號(hào)分為若干幀提取參數(shù),之后通過(guò)對(duì)提取參數(shù)和模型進(jìn)行對(duì)比,從而確定識(shí)別結(jié)果。對(duì)于不同的語(yǔ)音編碼來(lái)說(shuō),提取的參數(shù)也是不同的,但是有一點(diǎn)是相同的,即所提取的參數(shù)通常都是由兩大部分構(gòu)成的,即聲道參數(shù)和激勵(lì)參數(shù)。
對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),編碼好壞的判斷標(biāo)準(zhǔn)主要是聲音的還原程度。即通過(guò)對(duì)語(yǔ)言信號(hào)進(jìn)行壓縮編碼,從而生產(chǎn)出合成語(yǔ)音,而且合成語(yǔ)音要盡量做到高保真。因此,以下主要通過(guò)對(duì)各種低速率語(yǔ)音壓縮編碼器進(jìn)行分析,來(lái)確定各種技術(shù)可能對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生的影響。
要分析低速率語(yǔ)音壓縮編碼,就必須要提到一種使用十分廣泛的語(yǔ)音壓縮編碼算法——LPC-10算法,LPC-10算法在上個(gè)世紀(jì)70年代就已經(jīng)作為美國(guó)語(yǔ)音編碼的標(biāo)準(zhǔn)而被廣泛采用了。LPC-10算法原理并不復(fù)雜,簡(jiǎn)單來(lái)說(shuō),就是將線性預(yù)測(cè)系數(shù)當(dāng)作聲道的模型、將周期脈沖當(dāng)作濁音的激勵(lì)信號(hào)、將白噪聲當(dāng)作清音的激勵(lì)信號(hào)。從LPC-10算法的原理能夠看出,對(duì)于LPC-10算法來(lái)說(shuō),參數(shù)的提取十分重要,只有做到對(duì)參數(shù)的準(zhǔn)確提取,才能保證合成之后語(yǔ)音的質(zhì)量。
LPC-10算法的優(yōu)勢(shì)在于其合成之后語(yǔ)音的質(zhì)量比較高,但是,LPC-10算法也有一個(gè)較為顯著的缺點(diǎn),主要是由于其固有模型決定的。LPC-10算法的固有模型——二元激勵(lì)模型會(huì)對(duì)語(yǔ)音的自然度產(chǎn)生很大的影響。
除此之外,LPC-10算法雖然適用的范圍較廣,但是由于其聲道模型為全極點(diǎn)模型,因此對(duì)于一些特殊的語(yǔ)音信號(hào)并不適用,例如一些鼻音、擦音等等語(yǔ)音信號(hào)則并不適用于LPC-10算法。而且,在實(shí)際的低速率壓縮編碼過(guò)程中,LPC-10算法采用的是10階的預(yù)測(cè)系數(shù),導(dǎo)致其對(duì)語(yǔ)音譜的描述不夠精確。
(二)MELP算法
MELP算法以LPC-10算法為基礎(chǔ),不同于LPC-10算法的是:MELP算法引入了諸如:混合激勵(lì)、非周期脈沖、自適應(yīng)譜增強(qiáng)、脈沖擴(kuò)散、傅里葉系數(shù)等等新的特點(diǎn)。在這些新特點(diǎn)中,最為重要的就是“混合激勵(lì)”?;旌霞?lì),簡(jiǎn)單來(lái)說(shuō)就是通過(guò)對(duì)語(yǔ)言進(jìn)行分類,從而將其分為五個(gè)固定頻帶,然后分別對(duì)各個(gè)頻帶進(jìn)行清濁音的判別,最后根據(jù)判別結(jié)果,進(jìn)行語(yǔ)音合成,將各頻帶合成之后的語(yǔ)音進(jìn)行相加,從而得到重建語(yǔ)音。
MELP算法相對(duì)LPC—10算法來(lái)說(shuō),由于其混合激勵(lì)的特點(diǎn),在語(yǔ)音的自然度方面有了很大的提升,而且提升了合成語(yǔ)音的聽覺質(zhì)量。除此之外,在聲道參數(shù)方面,MELP算法采用的是線譜對(duì)(LSP)參數(shù),相比LPC—10算法來(lái)說(shuō),既代替了原有的線性預(yù)測(cè)系數(shù),又提高了低速率語(yǔ)音壓縮編碼的效率。雖然線譜對(duì)(LSP)參數(shù)和線性預(yù)測(cè)參數(shù)兩者本質(zhì)上相同,但線譜對(duì)(LSP)參數(shù)更具穩(wěn)定性和量化性能。而且MELP算法相比LPC—10算法來(lái)說(shuō),在聽覺效果方面取得了很大的改善,MELP算法在美國(guó)已經(jīng)相關(guān)機(jī)構(gòu)的認(rèn)可。
(三)IMBE算法
與MELP算法不同的是,IMBE算法并非建立在LPC—10算法的基礎(chǔ)之上,而是一個(gè)完全不同于LPC—10算法的模型。具體而言,IMBE算法是通過(guò)對(duì)編碼語(yǔ)音進(jìn)行分帶,然后進(jìn)行語(yǔ)音清濁的判別,從而將白噪聲當(dāng)作清音的激勵(lì)信號(hào)、將基音周期脈沖當(dāng)作濁音的激勵(lì)信號(hào),最后將各個(gè)分帶的激勵(lì)信號(hào)相加,從而得到全帶的激勵(lì)信號(hào)。
在低速率語(yǔ)音壓縮編碼IMBE算法中,可以將聲道參數(shù)當(dāng)作各個(gè)頻帶分量的相對(duì)幅度以及相位,那么合成語(yǔ)音的頻譜即各個(gè)頻帶的頻域與激勵(lì)信號(hào)譜相乘的結(jié)果。之所以IMBE算法不同于MELP算法,主要就是在編碼語(yǔ)音的分帶上。相比MELP算法實(shí)行的固定分帶,IMBE算法能夠做到更加貼近實(shí)際語(yǔ)音。與此同時(shí),IMBE算法在參數(shù)的提取方面,采用的算法與合成分析法較為類似,因此能夠做到在低速率的情況下,合成出清晰明確的語(yǔ)音。
以上分析的三種方法都屬于低速率的語(yǔ)音壓縮編碼算法,總體來(lái)說(shuō),三種算法均能生產(chǎn)出較為清晰準(zhǔn)確的語(yǔ)音。由于三種算法各具特點(diǎn),因此在實(shí)際的低速率語(yǔ)音壓縮編碼過(guò)程中,語(yǔ)音損失的情況各不相同,而且合成出的語(yǔ)音效果也各不相同。因此,必然會(huì)對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生不同的影響。值得注意的是:各個(gè)低速率語(yǔ)音壓縮編碼算法自身并無(wú)太大的優(yōu)劣之分,三種算法各具特色。因此,應(yīng)該根據(jù)語(yǔ)音識(shí)別系統(tǒng)自身的特點(diǎn)來(lái)選擇合適的低速率語(yǔ)音壓縮編碼算法。
三、語(yǔ)音識(shí)別系統(tǒng)的選擇方案
想要分析低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響,不僅要對(duì)各種語(yǔ)音壓縮編碼有所了解,而且要對(duì)各種語(yǔ)音識(shí)別系統(tǒng)進(jìn)行研究。
語(yǔ)音識(shí)別系統(tǒng)的分類方式較多,以識(shí)別對(duì)象為標(biāo)準(zhǔn)進(jìn)行分類,可以分為孤立詞、連接詞以及連續(xù)語(yǔ)音識(shí)別,對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),以上幾種對(duì)象的識(shí)別難度依次增加;以說(shuō)話人為標(biāo)準(zhǔn)進(jìn)行分類,可以分為特定人以及非特定人語(yǔ)音識(shí)別,對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),非特定人的難度高于特定人。
為了分析研究低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響,通常會(huì)選用難度較高的非特定人連接詞語(yǔ)音識(shí)別系統(tǒng)以及特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行實(shí)驗(yàn)。在進(jìn)行連接詞語(yǔ)音識(shí)別系統(tǒng)實(shí)驗(yàn)時(shí),將需要識(shí)別的語(yǔ)音設(shè)定為0~9長(zhǎng)度不固定的數(shù)字串。
對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),識(shí)別單元的選擇十分重要。例如,每一個(gè)漢字均對(duì)應(yīng)一個(gè)單獨(dú)的音節(jié),而且該單獨(dú)音節(jié)由聲母和韻母組成。而且因?yàn)槁暷甘菃为?dú)的音素,所以其既可以是清音,又可以是濁音。韻母通常由一到三個(gè)音素組成,所以其一般都是濁音。
如果某語(yǔ)音識(shí)別系統(tǒng)選擇了較小的識(shí)別單元,那么其所需的碼本尺寸則會(huì)比較小,而且整個(gè)識(shí)別系統(tǒng)的計(jì)算量也會(huì)較低;與此同時(shí),由于較小的識(shí)別單元存在著不穩(wěn)定的特性,因此其在不同的語(yǔ)音環(huán)境中變化較大,從而影響了語(yǔ)音的清晰性以及語(yǔ)音識(shí)別的準(zhǔn)確性。
如果某語(yǔ)音識(shí)別系統(tǒng)選擇了較大的識(shí)別單元,那么其語(yǔ)音識(shí)別的準(zhǔn)確性則會(huì)相應(yīng)的有所提高,但是對(duì)于存儲(chǔ)單元以及計(jì)算量的需求也會(huì)相應(yīng)的有所增加。因此,在實(shí)際的語(yǔ)音識(shí)別系統(tǒng)應(yīng)用中,通常會(huì)選擇大小較為適中的識(shí)別單元,如音節(jié)和半音節(jié)。因此,本次實(shí)驗(yàn)將半音節(jié)作為識(shí)別單元。
除此之外,對(duì)于同一語(yǔ)音來(lái)說(shuō),編碼前后采用的語(yǔ)音識(shí)別系統(tǒng)也是不同的。采用不同矢量的語(yǔ)音識(shí)別系統(tǒng),對(duì)于原始語(yǔ)音來(lái)說(shuō),其精度的差距不會(huì)很大。但是對(duì)于編碼之后的語(yǔ)音來(lái)說(shuō),采用不同矢量的語(yǔ)音識(shí)別系統(tǒng),其精度的差距很可能非常懸殊。因此,在具體的實(shí)驗(yàn)環(huán)節(jié)當(dāng)中,可以采用兩種不同特征矢量的語(yǔ)音識(shí)別系統(tǒng),從而對(duì)低速率壓縮編碼語(yǔ)音進(jìn)行識(shí)別。
四、實(shí)驗(yàn)結(jié)果
在低速率語(yǔ)音壓縮編碼實(shí)驗(yàn)中,通過(guò)采用目前較為先進(jìn)的HTK工具,從而建立起一個(gè)實(shí)驗(yàn)用語(yǔ)音識(shí)別系統(tǒng)。在模型設(shè)計(jì)方面,本次實(shí)驗(yàn)采用的是無(wú)跨越的、從左到右的、連續(xù)隱含的馬爾可夫模型,該模型包含五種狀態(tài)。
以上闡述的三種算法,都屬于低速率語(yǔ)音壓縮編碼算法,也就是以22.5ms為一幀的算法。通過(guò)在實(shí)驗(yàn)過(guò)程中進(jìn)行改進(jìn),利用LSP矢量來(lái)代替LPC參數(shù),從而實(shí)現(xiàn)了矢量量化。除此之外,各幀LSP矢量使用34bit進(jìn)行量化,實(shí)驗(yàn)結(jié)果顯示:使用34bit對(duì)LSP矢量進(jìn)行量化,其量化效果要明顯好于使用25bit量化的MELP算法和使用34bit量化的LPC參數(shù)。
與此同時(shí),為了研究各低速率語(yǔ)音壓縮編碼算法相比其他算法的優(yōu)勢(shì),本次實(shí)驗(yàn)還采用了G.729算法,通過(guò)對(duì)8kbps條件下的G.729算法進(jìn)行分析研究,從而了解其對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生的影響。
五、深層次內(nèi)容分析
通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,我們了解到:具有不同特征的矢量以及不同的語(yǔ)音編碼算法,在同等的低速率(2.4kbps)條件下,所得的語(yǔ)音識(shí)別結(jié)果存在著相當(dāng)大的差異。對(duì)于幾種低速率語(yǔ)音壓縮編碼算法來(lái)說(shuō),較為常見的LPC算法,其主要適用于以LPC倒譜矢量為語(yǔ)音識(shí)別的特征矢量;而對(duì)于IMBE算法而言,其主要適用于以臨界帶倒譜矢量為語(yǔ)音識(shí)別的特征矢量。
結(jié)束語(yǔ)
對(duì)于實(shí)際的語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō),低速率語(yǔ)音壓縮編碼的選擇應(yīng)該根據(jù)語(yǔ)音識(shí)別系統(tǒng)的實(shí)際情況,具體問(wèn)題具體分析。而且也可以根據(jù)語(yǔ)音識(shí)別系統(tǒng)的具體情況,對(duì)低速率語(yǔ)音壓縮編碼算法進(jìn)行適當(dāng)?shù)拇钆洌瑥亩嵘麄€(gè)語(yǔ)音識(shí)別系統(tǒng)的性能。
與此同時(shí),還應(yīng)該對(duì)相關(guān)的特征矢量進(jìn)行分析,結(jié)合特征矢量的特點(diǎn)選擇合適的語(yǔ)音編碼算法。除此之外,如果某語(yǔ)音識(shí)別系統(tǒng)對(duì)低速率語(yǔ)音編碼算法存在著特殊要求,那么應(yīng)該對(duì)相關(guān)的特征矢量進(jìn)行適當(dāng)?shù)恼{(diào)整,從而取得更好的語(yǔ)音識(shí)別效果。(作者單位:武漢紡織大學(xué))
參考文獻(xiàn):
[1] 祖漪清.漢語(yǔ)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)的語(yǔ)料設(shè)計(jì)[J].聲學(xué)學(xué)報(bào),1999(24).
[2] Hong Kook Kim,Richard V Cox.A Bitstream-based Front-endforWireless Speech Recognition on IS-136 Communications Sys-tem[J].IEEE Transactions on Speech and Audio Processing,2001(05).
[3] R Salami,C Laflamme,J Adoul,et al.Design and Description ofCS-ACELP:AToll Quality 8kbpsSpeech Coder[J].IEEETrans-actions on Speech and Audio Processing,1998(02).