研究分析低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響

2014-03-20 22:54:58劉小麗

商 2014年40期

關(guān)鍵詞：影響

劉小麗

摘要：本文通過(guò)對(duì)低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響進(jìn)行分析，從而了解在當(dāng)前語(yǔ)音識(shí)別技術(shù)不斷快速發(fā)展的大背景下，如何能夠更好地提升語(yǔ)音壓縮編碼的水平。低速率語(yǔ)音壓縮編碼會(huì)對(duì)系統(tǒng)的語(yǔ)音識(shí)別產(chǎn)生很大的影響，本文通過(guò)對(duì)三種語(yǔ)音壓縮編碼器進(jìn)行分析，既比較了三者對(duì)語(yǔ)音識(shí)別產(chǎn)生的不同影響，又對(duì)其語(yǔ)音識(shí)別效果進(jìn)行了分析。

關(guān)鍵詞：低速率語(yǔ)音壓縮編碼；語(yǔ)音識(shí)別系統(tǒng)；影響

隨著改革開放以來(lái)我國(guó)經(jīng)濟(jì)社會(huì)的不斷快速發(fā)展，語(yǔ)音識(shí)別系統(tǒng)廣泛地運(yùn)用于各個(gè)領(lǐng)域。語(yǔ)音識(shí)別系統(tǒng)隨著多媒體技術(shù)的不斷發(fā)展，既面臨著機(jī)遇同時(shí)也面臨著挑戰(zhàn)。在整個(gè)語(yǔ)音識(shí)別系統(tǒng)中，語(yǔ)音壓縮編碼占有十分重要的地位，語(yǔ)音壓縮編碼的水平直接決定了語(yǔ)音識(shí)別系統(tǒng)的效果。因此，我們對(duì)目前使用較多的幾種語(yǔ)音壓縮編碼算法進(jìn)行了分析，從而對(duì)低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響有一個(gè)基本的了解。

一、研究背景闡述

通過(guò)對(duì)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行分析，結(jié)果表明：當(dāng)前語(yǔ)音壓縮編碼速率的逐漸下降，會(huì)造成編碼后的語(yǔ)音識(shí)別率有所下降。之所以出現(xiàn)這種情況，主要是由于在低速率條件下，單位時(shí)間內(nèi)所能描述的語(yǔ)音信息量會(huì)有所減少，因而必然會(huì)導(dǎo)致語(yǔ)音質(zhì)量下降以及語(yǔ)音形式失真。

想要提升編碼效率，降低編碼速率，唯一能夠采用的就是參數(shù)編碼方式。一些相關(guān)領(lǐng)域的研究人員對(duì)無(wú)線通信環(huán)境下的中低速率語(yǔ)音編碼進(jìn)行研究，結(jié)果是：如果采用低速率語(yǔ)音壓縮編碼（如2.4kbps），那么其合成出的聲音不會(huì)影響接受者的理解，但是會(huì)造成一些信息的流失。因此，在低速率語(yǔ)音壓縮編碼的條件下，其合成語(yǔ)音能否被語(yǔ)音識(shí)別系統(tǒng)理解，既是一個(gè)亟需解決的問(wèn)題，同時(shí)也是一項(xiàng)重要的研究項(xiàng)目。

二、低速率語(yǔ)音編碼算法分析

（一）LPC-10算法

通常來(lái)說(shuō)，在2.4kbps速率的情況下，能夠?qū)Ρ硎鲂畔⒘康恼Z(yǔ)音信號(hào)十分有限，因而想要做到準(zhǔn)確描述語(yǔ)音波形，難度很大?；谶@種情況，目前語(yǔ)音壓縮編碼采用較多的是分幀提取參數(shù)法。

對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，首先要對(duì)其進(jìn)行參數(shù)的提取，即將語(yǔ)音信號(hào)分為若干幀提取參數(shù)，之后通過(guò)對(duì)提取參數(shù)和模型進(jìn)行對(duì)比，從而確定識(shí)別結(jié)果。對(duì)于不同的語(yǔ)音編碼來(lái)說(shuō)，提取的參數(shù)也是不同的，但是有一點(diǎn)是相同的，即所提取的參數(shù)通常都是由兩大部分構(gòu)成的，即聲道參數(shù)和激勵(lì)參數(shù)。

對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，編碼好壞的判斷標(biāo)準(zhǔn)主要是聲音的還原程度。即通過(guò)對(duì)語(yǔ)言信號(hào)進(jìn)行壓縮編碼，從而生產(chǎn)出合成語(yǔ)音，而且合成語(yǔ)音要盡量做到高保真。因此，以下主要通過(guò)對(duì)各種低速率語(yǔ)音壓縮編碼器進(jìn)行分析，來(lái)確定各種技術(shù)可能對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生的影響。

要分析低速率語(yǔ)音壓縮編碼，就必須要提到一種使用十分廣泛的語(yǔ)音壓縮編碼算法——LPC-10算法，LPC-10算法在上個(gè)世紀(jì)70年代就已經(jīng)作為美國(guó)語(yǔ)音編碼的標(biāo)準(zhǔn)而被廣泛采用了。LPC-10算法原理并不復(fù)雜，簡(jiǎn)單來(lái)說(shuō)，就是將線性預(yù)測(cè)系數(shù)當(dāng)作聲道的模型、將周期脈沖當(dāng)作濁音的激勵(lì)信號(hào)、將白噪聲當(dāng)作清音的激勵(lì)信號(hào)。從LPC-10算法的原理能夠看出，對(duì)于LPC-10算法來(lái)說(shuō)，參數(shù)的提取十分重要，只有做到對(duì)參數(shù)的準(zhǔn)確提取，才能保證合成之后語(yǔ)音的質(zhì)量。

LPC-10算法的優(yōu)勢(shì)在于其合成之后語(yǔ)音的質(zhì)量比較高，但是，LPC-10算法也有一個(gè)較為顯著的缺點(diǎn)，主要是由于其固有模型決定的。LPC-10算法的固有模型——二元激勵(lì)模型會(huì)對(duì)語(yǔ)音的自然度產(chǎn)生很大的影響。

除此之外，LPC-10算法雖然適用的范圍較廣，但是由于其聲道模型為全極點(diǎn)模型，因此對(duì)于一些特殊的語(yǔ)音信號(hào)并不適用，例如一些鼻音、擦音等等語(yǔ)音信號(hào)則并不適用于LPC-10算法。而且，在實(shí)際的低速率壓縮編碼過(guò)程中，LPC-10算法采用的是10階的預(yù)測(cè)系數(shù)，導(dǎo)致其對(duì)語(yǔ)音譜的描述不夠精確。

（二）MELP算法

MELP算法以LPC-10算法為基礎(chǔ)，不同于LPC-10算法的是：MELP算法引入了諸如：混合激勵(lì)、非周期脈沖、自適應(yīng)譜增強(qiáng)、脈沖擴(kuò)散、傅里葉系數(shù)等等新的特點(diǎn)。在這些新特點(diǎn)中，最為重要的就是“混合激勵(lì)”?；旌霞?lì)，簡(jiǎn)單來(lái)說(shuō)就是通過(guò)對(duì)語(yǔ)言進(jìn)行分類，從而將其分為五個(gè)固定頻帶，然后分別對(duì)各個(gè)頻帶進(jìn)行清濁音的判別，最后根據(jù)判別結(jié)果，進(jìn)行語(yǔ)音合成，將各頻帶合成之后的語(yǔ)音進(jìn)行相加，從而得到重建語(yǔ)音。

MELP算法相對(duì)LPC—10算法來(lái)說(shuō)，由于其混合激勵(lì)的特點(diǎn)，在語(yǔ)音的自然度方面有了很大的提升，而且提升了合成語(yǔ)音的聽覺質(zhì)量。除此之外，在聲道參數(shù)方面，MELP算法采用的是線譜對(duì)（LSP）參數(shù)，相比LPC—10算法來(lái)說(shuō)，既代替了原有的線性預(yù)測(cè)系數(shù)，又提高了低速率語(yǔ)音壓縮編碼的效率。雖然線譜對(duì)（LSP）參數(shù)和線性預(yù)測(cè)參數(shù)兩者本質(zhì)上相同，但線譜對(duì)（LSP）參數(shù)更具穩(wěn)定性和量化性能。而且MELP算法相比LPC—10算法來(lái)說(shuō)，在聽覺效果方面取得了很大的改善，MELP算法在美國(guó)已經(jīng)相關(guān)機(jī)構(gòu)的認(rèn)可。

（三）IMBE算法

與MELP算法不同的是，IMBE算法并非建立在LPC—10算法的基礎(chǔ)之上，而是一個(gè)完全不同于LPC—10算法的模型。具體而言，IMBE算法是通過(guò)對(duì)編碼語(yǔ)音進(jìn)行分帶，然后進(jìn)行語(yǔ)音清濁的判別，從而將白噪聲當(dāng)作清音的激勵(lì)信號(hào)、將基音周期脈沖當(dāng)作濁音的激勵(lì)信號(hào)，最后將各個(gè)分帶的激勵(lì)信號(hào)相加，從而得到全帶的激勵(lì)信號(hào)。

在低速率語(yǔ)音壓縮編碼IMBE算法中，可以將聲道參數(shù)當(dāng)作各個(gè)頻帶分量的相對(duì)幅度以及相位，那么合成語(yǔ)音的頻譜即各個(gè)頻帶的頻域與激勵(lì)信號(hào)譜相乘的結(jié)果。之所以IMBE算法不同于MELP算法，主要就是在編碼語(yǔ)音的分帶上。相比MELP算法實(shí)行的固定分帶，IMBE算法能夠做到更加貼近實(shí)際語(yǔ)音。與此同時(shí)，IMBE算法在參數(shù)的提取方面，采用的算法與合成分析法較為類似，因此能夠做到在低速率的情況下，合成出清晰明確的語(yǔ)音。

以上分析的三種方法都屬于低速率的語(yǔ)音壓縮編碼算法，總體來(lái)說(shuō)，三種算法均能生產(chǎn)出較為清晰準(zhǔn)確的語(yǔ)音。由于三種算法各具特點(diǎn)，因此在實(shí)際的低速率語(yǔ)音壓縮編碼過(guò)程中，語(yǔ)音損失的情況各不相同，而且合成出的語(yǔ)音效果也各不相同。因此，必然會(huì)對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生不同的影響。值得注意的是：各個(gè)低速率語(yǔ)音壓縮編碼算法自身并無(wú)太大的優(yōu)劣之分，三種算法各具特色。因此，應(yīng)該根據(jù)語(yǔ)音識(shí)別系統(tǒng)自身的特點(diǎn)來(lái)選擇合適的低速率語(yǔ)音壓縮編碼算法。

三、語(yǔ)音識(shí)別系統(tǒng)的選擇方案

想要分析低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響，不僅要對(duì)各種語(yǔ)音壓縮編碼有所了解，而且要對(duì)各種語(yǔ)音識(shí)別系統(tǒng)進(jìn)行研究。

語(yǔ)音識(shí)別系統(tǒng)的分類方式較多，以識(shí)別對(duì)象為標(biāo)準(zhǔn)進(jìn)行分類，可以分為孤立詞、連接詞以及連續(xù)語(yǔ)音識(shí)別，對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，以上幾種對(duì)象的識(shí)別難度依次增加；以說(shuō)話人為標(biāo)準(zhǔn)進(jìn)行分類，可以分為特定人以及非特定人語(yǔ)音識(shí)別，對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，非特定人的難度高于特定人。

為了分析研究低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響，通常會(huì)選用難度較高的非特定人連接詞語(yǔ)音識(shí)別系統(tǒng)以及特定人連續(xù)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行實(shí)驗(yàn)。在進(jìn)行連接詞語(yǔ)音識(shí)別系統(tǒng)實(shí)驗(yàn)時(shí)，將需要識(shí)別的語(yǔ)音設(shè)定為0～9長(zhǎng)度不固定的數(shù)字串。

對(duì)于語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，識(shí)別單元的選擇十分重要。例如，每一個(gè)漢字均對(duì)應(yīng)一個(gè)單獨(dú)的音節(jié)，而且該單獨(dú)音節(jié)由聲母和韻母組成。而且因?yàn)槁暷甘菃为?dú)的音素，所以其既可以是清音，又可以是濁音。韻母通常由一到三個(gè)音素組成，所以其一般都是濁音。

如果某語(yǔ)音識(shí)別系統(tǒng)選擇了較小的識(shí)別單元，那么其所需的碼本尺寸則會(huì)比較小，而且整個(gè)識(shí)別系統(tǒng)的計(jì)算量也會(huì)較低；與此同時(shí)，由于較小的識(shí)別單元存在著不穩(wěn)定的特性，因此其在不同的語(yǔ)音環(huán)境中變化較大，從而影響了語(yǔ)音的清晰性以及語(yǔ)音識(shí)別的準(zhǔn)確性。

如果某語(yǔ)音識(shí)別系統(tǒng)選擇了較大的識(shí)別單元，那么其語(yǔ)音識(shí)別的準(zhǔn)確性則會(huì)相應(yīng)的有所提高，但是對(duì)于存儲(chǔ)單元以及計(jì)算量的需求也會(huì)相應(yīng)的有所增加。因此，在實(shí)際的語(yǔ)音識(shí)別系統(tǒng)應(yīng)用中，通常會(huì)選擇大小較為適中的識(shí)別單元，如音節(jié)和半音節(jié)。因此，本次實(shí)驗(yàn)將半音節(jié)作為識(shí)別單元。

除此之外，對(duì)于同一語(yǔ)音來(lái)說(shuō)，編碼前后采用的語(yǔ)音識(shí)別系統(tǒng)也是不同的。采用不同矢量的語(yǔ)音識(shí)別系統(tǒng)，對(duì)于原始語(yǔ)音來(lái)說(shuō)，其精度的差距不會(huì)很大。但是對(duì)于編碼之后的語(yǔ)音來(lái)說(shuō)，采用不同矢量的語(yǔ)音識(shí)別系統(tǒng)，其精度的差距很可能非常懸殊。因此，在具體的實(shí)驗(yàn)環(huán)節(jié)當(dāng)中，可以采用兩種不同特征矢量的語(yǔ)音識(shí)別系統(tǒng)，從而對(duì)低速率壓縮編碼語(yǔ)音進(jìn)行識(shí)別。

四、實(shí)驗(yàn)結(jié)果

在低速率語(yǔ)音壓縮編碼實(shí)驗(yàn)中，通過(guò)采用目前較為先進(jìn)的HTK工具，從而建立起一個(gè)實(shí)驗(yàn)用語(yǔ)音識(shí)別系統(tǒng)。在模型設(shè)計(jì)方面，本次實(shí)驗(yàn)采用的是無(wú)跨越的、從左到右的、連續(xù)隱含的馬爾可夫模型，該模型包含五種狀態(tài)。

以上闡述的三種算法，都屬于低速率語(yǔ)音壓縮編碼算法，也就是以22.5ms為一幀的算法。通過(guò)在實(shí)驗(yàn)過(guò)程中進(jìn)行改進(jìn)，利用LSP矢量來(lái)代替LPC參數(shù)，從而實(shí)現(xiàn)了矢量量化。除此之外，各幀LSP矢量使用34bit進(jìn)行量化，實(shí)驗(yàn)結(jié)果顯示：使用34bit對(duì)LSP矢量進(jìn)行量化，其量化效果要明顯好于使用25bit量化的MELP算法和使用34bit量化的LPC參數(shù)。

與此同時(shí)，為了研究各低速率語(yǔ)音壓縮編碼算法相比其他算法的優(yōu)勢(shì)，本次實(shí)驗(yàn)還采用了G.729算法，通過(guò)對(duì)8kbps條件下的G.729算法進(jìn)行分析研究，從而了解其對(duì)語(yǔ)音識(shí)別系統(tǒng)產(chǎn)生的影響。

五、深層次內(nèi)容分析

通過(guò)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析，我們了解到：具有不同特征的矢量以及不同的語(yǔ)音編碼算法，在同等的低速率（2.4kbps）條件下，所得的語(yǔ)音識(shí)別結(jié)果存在著相當(dāng)大的差異。對(duì)于幾種低速率語(yǔ)音壓縮編碼算法來(lái)說(shuō)，較為常見的LPC算法，其主要適用于以LPC倒譜矢量為語(yǔ)音識(shí)別的特征矢量；而對(duì)于IMBE算法而言，其主要適用于以臨界帶倒譜矢量為語(yǔ)音識(shí)別的特征矢量。

結(jié)束語(yǔ)

對(duì)于實(shí)際的語(yǔ)音識(shí)別系統(tǒng)來(lái)說(shuō)，低速率語(yǔ)音壓縮編碼的選擇應(yīng)該根據(jù)語(yǔ)音識(shí)別系統(tǒng)的實(shí)際情況，具體問(wèn)題具體分析。而且也可以根據(jù)語(yǔ)音識(shí)別系統(tǒng)的具體情況，對(duì)低速率語(yǔ)音壓縮編碼算法進(jìn)行適當(dāng)?shù)拇钆洌瑥亩嵘麄€(gè)語(yǔ)音識(shí)別系統(tǒng)的性能。

與此同時(shí)，還應(yīng)該對(duì)相關(guān)的特征矢量進(jìn)行分析，結(jié)合特征矢量的特點(diǎn)選擇合適的語(yǔ)音編碼算法。除此之外，如果某語(yǔ)音識(shí)別系統(tǒng)對(duì)低速率語(yǔ)音編碼算法存在著特殊要求，那么應(yīng)該對(duì)相關(guān)的特征矢量進(jìn)行適當(dāng)?shù)恼{(diào)整，從而取得更好的語(yǔ)音識(shí)別效果。（作者單位：武漢紡織大學(xué)）

參考文獻(xiàn)：

[1] 祖漪清.漢語(yǔ)連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)的語(yǔ)料設(shè)計(jì)[J].聲學(xué)學(xué)報(bào)，1999（24）.

[2] Hong Kook Kim，Richard V Cox.A Bitstream-based Front-endforWireless Speech Recognition on IS-136 Communications Sys-tem[J].IEEE Transactions on Speech and Audio Processing，2001（05）.

[3] R Salami，C Laflamme，J Adoul，et al.Design and Description ofCS-ACELP：AToll Quality 8kbpsSpeech Coder[J].IEEETrans-actions on Speech and Audio Processing，1998（02）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

研究分析低速率語(yǔ)音壓縮編碼對(duì)語(yǔ)音識(shí)別系統(tǒng)的影響