李峰泉,蘇培華
(西安外事學(xué)院工學(xué)院,陜西西安,710077)
近年來(lái),人工神經(jīng)網(wǎng)絡(luò)的研究有了飛速發(fā)展,語(yǔ)音信號(hào)處理的各項(xiàng)課題是促進(jìn)其發(fā)展的重要?jiǎng)恿χ?,同時(shí),它的很多研究成果也體現(xiàn)在有關(guān)語(yǔ)音的各項(xiàng)應(yīng)用之中。目前,世界上涌現(xiàn)了其它一些新研究課題,諸如模糊理論、混沌理論和小波(Wavelet)信號(hào)處理等,也都能夠在語(yǔ)音信號(hào)處理的研究中找到用武之地。
語(yǔ)音信號(hào)數(shù)字處理涉及一系列前沿科研課題,是目前發(fā)展最迅速的信息科學(xué)研究諸領(lǐng)域中的一個(gè)。正如其他數(shù)字處理研究課題,語(yǔ)音處理的研究涉及三方面互相密切配合的任務(wù)和課題,這就是,應(yīng)用、算法(包括基礎(chǔ)理論和軟件)和硬件系統(tǒng),三者缺一不可。
語(yǔ)音識(shí)別的起步較晚,大規(guī)模的研究開(kāi)始于70年代初期,近年來(lái)已取得了長(zhǎng)足的進(jìn)展。它可以用于人機(jī)直接對(duì)話、語(yǔ)音打字機(jī)以及兩種語(yǔ)言之間的直接通信等一系列重要場(chǎng)合。語(yǔ)音合成是人機(jī)對(duì)話的另一個(gè)重要環(huán)節(jié),讓機(jī)器將文本語(yǔ)言轉(zhuǎn)換成具有人聲特點(diǎn)、抑揚(yáng)頓錯(cuò)、自然流利的口頭語(yǔ)言絕非易事,這一研究課題也正日益受到重視。其它一些重要的應(yīng)用領(lǐng)域還包括語(yǔ)音增強(qiáng)和說(shuō)話人識(shí)別及確認(rèn)等。
語(yǔ)音識(shí)別模型起始于用戶(hù)創(chuàng)建的語(yǔ)音信號(hào),以完成一個(gè)給定任務(wù)。遵循任務(wù)的語(yǔ)法、語(yǔ)義、語(yǔ)用,將輸入信號(hào)分解成一系列單詞。根據(jù)初步處理結(jié)果,使用動(dòng)態(tài)知識(shí)表述的高級(jí)處理來(lái)修正語(yǔ)法、語(yǔ)義、語(yǔ)用,使其成為有意義的詞句。用這種方法將不合理的推理或結(jié)論刪去,以減小被誤解的概率。高級(jí)處理框的回饋限制了用戶(hù)的有效語(yǔ)音的搜索范圍,從而減少了識(shí)別模型的復(fù)雜度。識(shí)別系統(tǒng)以語(yǔ)音形式響應(yīng)用戶(hù),從而使系統(tǒng)可以即時(shí)響應(yīng)用戶(hù)。
語(yǔ)音識(shí)別系統(tǒng)的基本任務(wù)是準(zhǔn)確地識(shí)別、理解講話的內(nèi)容,是對(duì)語(yǔ)音共性的識(shí)別。
以所要識(shí)別的單位來(lái)分,有孤立詞識(shí)別、音素識(shí)別、音節(jié)識(shí)別、單句識(shí)別、連續(xù)語(yǔ)言識(shí)別和理解。語(yǔ)音理解是在語(yǔ)音識(shí)別的基礎(chǔ)上,用語(yǔ)言學(xué)知識(shí)來(lái)推斷語(yǔ)音的含義。語(yǔ)音理解系統(tǒng)是更高一級(jí)的語(yǔ)音識(shí)別系統(tǒng)。這類(lèi)語(yǔ)音識(shí)別的發(fā)展情況是先從最原始的單音節(jié)識(shí)別,到限定數(shù)量的單詞識(shí)別,再到對(duì)內(nèi)容進(jìn)行某種程度限制的會(huì)話識(shí)別。其模型示意圖如圖1所示。
圖1 通用語(yǔ)音識(shí)別系統(tǒng)模型
通用DSP芯片的出現(xiàn)及其性能價(jià)格比的迅速提高為各種使用化語(yǔ)音信號(hào)處理系統(tǒng)的實(shí)現(xiàn)鋪平了道路。美國(guó)TI公司在80年代中期研制出的第一代DSP芯片TMS32010和TMS32020完成一次乘/累加運(yùn)算(16位、定點(diǎn))需要200ns,第二代DSP芯片TMS320C25完成一次乘/累加(32位、浮點(diǎn))運(yùn)算只需要50ns,且片內(nèi)的ROM和RAM和片外可擴(kuò)充的RAM容量都大大增加。此外,美國(guó)AT&T公司研制出的DSP-16C和DSP-32C,美國(guó)AD公司研制出的ADSP21010和ADSP21020等芯片系列與上述TI公司的第二代和第三代DSP芯片大致處在相似的水平上。第三代DSP芯片及更高一代的DSP芯片的出現(xiàn)將使語(yǔ)音信號(hào)數(shù)字處理技術(shù)的發(fā)展和實(shí)用化登上一更高的新臺(tái)階。
一些采用計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)研制成的系統(tǒng)已投入使用。如航空查詢(xún)和購(gòu)票服務(wù)系統(tǒng),用于顧客和航空公司的計(jì)算機(jī)之間關(guān)于機(jī)票查詢(xún)及記帳購(gòu)票的服務(wù)。再如日本新干線火車(chē)預(yù)約座位系統(tǒng),它叫作VoiceQ-A系統(tǒng)(語(yǔ)音問(wèn)答系統(tǒng))。它在問(wèn)訊時(shí)進(jìn)行會(huì)話識(shí)別,而在回答時(shí)進(jìn)行語(yǔ)音合成輸出。又如瑞典的語(yǔ)音識(shí)別系統(tǒng),它已被瑞典Ericsson公司用來(lái)裝備內(nèi)部快呼通訊網(wǎng),使用這種系統(tǒng)打電話時(shí),人們不必再撥號(hào)或按數(shù)字鍵,只需說(shuō)出受話人的姓名便可以接通了。這個(gè)系統(tǒng)比日本東芝公司的語(yǔ)音撥號(hào)電話機(jī)更為先進(jìn)。后者僅能識(shí)別數(shù)字,而前者能識(shí)別相當(dāng)數(shù)量的詞或詞組。采用語(yǔ)音識(shí)別的產(chǎn)品還有聲控打字機(jī)、聲控?cái)z影機(jī)、聲控卡拉OK機(jī)等。
在我國(guó),語(yǔ)音技術(shù)的研究起步較晚,投入的研究單位和人員也比較少。語(yǔ)音技術(shù)的產(chǎn)品較少,技術(shù)性能也比較差,功能比較簡(jiǎn)單,應(yīng)用領(lǐng)域也比較少。
在進(jìn)行語(yǔ)音識(shí)別之前,必須先了解語(yǔ)音的生理學(xué)過(guò)程、語(yǔ)音基礎(chǔ)知識(shí)及有關(guān)的聲學(xué)基礎(chǔ)知識(shí)有助于作出正確的語(yǔ)音分析,有助于提高語(yǔ)音的識(shí)別率。
根據(jù)上面的描述,本文采用如下算法分析了特征表征聲音的效果,并提出了有效的索引算法,可以滿(mǎn)足查詢(xún)的需要。具體原理如圖2所示。
圖2 非特定人語(yǔ)音識(shí)別系統(tǒng)原理圖
語(yǔ)音信號(hào)的特征抽取的成功與否直接影響語(yǔ)音識(shí)別的效果。目前這項(xiàng)工作多由計(jì)算機(jī)完成。計(jì)算機(jī)語(yǔ)音分析(語(yǔ)音特征抽取)是計(jì)算機(jī)語(yǔ)音處理的一個(gè)重要內(nèi)容,也是計(jì)算機(jī)語(yǔ)音合成及語(yǔ)音識(shí)別的基礎(chǔ)。計(jì)算機(jī)合成的語(yǔ)音音質(zhì)的好壞、計(jì)算機(jī)語(yǔ)言識(shí)別率的高低,都取決于計(jì)算機(jī)分析工作質(zhì)量的好壞。語(yǔ)音分析有時(shí)域分析、頻譜分析和語(yǔ)譜分析三種方法。這三種方法分別由一種圖形來(lái)表示。時(shí)域分析用時(shí)域波形圖,頻譜分析用頻譜圖,語(yǔ)譜分析用語(yǔ)譜圖。常用的語(yǔ)音分析方法有由于頻譜分析方法獲得的特征相對(duì)比較穩(wěn)定,分析數(shù)據(jù)又不需要特殊的儀器,是語(yǔ)音分析方法中較好的選擇。
傳統(tǒng)的數(shù)據(jù)庫(kù)索引技術(shù)是基于關(guān)鍵字字段的算術(shù)運(yùn)算:大小比較和包含關(guān)系運(yùn)算。索引的構(gòu)造主要是利用傳遞性將記錄排序,然后劃分為不同的區(qū)間,區(qū)間再劃分為子區(qū)間,層層下去構(gòu)造出一棵索引樹(shù)。然而,多媒體的特征都是多維的,記錄間是一種相似關(guān)系,這種關(guān)系運(yùn)算只具有自反性、對(duì)稱(chēng)性,卻沒(méi)有傳遞性。這主要是由于多維引起的。因此,傳統(tǒng)的構(gòu)造索引樹(shù)的方法不再適用。
聲音索引主要解決查找的正確性問(wèn)題。單詞內(nèi)容的最后判定是根據(jù)所獲得的相似結(jié)果集得到的。索引的算法要能保證查找的結(jié)果是有效和有用的。索引的查找速度也是索引性能的一個(gè)重要指標(biāo)。對(duì)于數(shù)據(jù)庫(kù)而言,索引的最終目的就是加快查找的速度。和已有的算法相比選用基于SOM和統(tǒng)計(jì)檢驗(yàn)的算法是一種方便的選擇。
幾乎在所有的聲音識(shí)別中,作為識(shí)別判定的基礎(chǔ),都采用了輸入聲音和標(biāo)準(zhǔn)圖案的短時(shí)頻譜間的距離或相似度。在聲音識(shí)別中,為了使兩個(gè)矢量x,y的距離尺度d(x,y)有效,希望其具有如下性質(zhì):
根據(jù)數(shù)學(xué)定義,d(x,y)表示距離,則 d(x,y)必須滿(mǎn)足三角不等式。但在聲音識(shí)別中,這一項(xiàng)要求并非是必須的。
即使同一個(gè)人發(fā)同一個(gè)單詞,其發(fā)音長(zhǎng)度也會(huì)發(fā)生變化,而且按非線形伸縮。為此在識(shí)別單詞的階段,對(duì)應(yīng)標(biāo)準(zhǔn)和輸入聲音的相同音素之間,都需要對(duì)時(shí)間軸進(jìn)行按非線形伸縮的時(shí)間歸一化(DTW:dynamic time warping)處理,具體方法可采用動(dòng)態(tài)程序設(shè)計(jì)法(DP:dynamic programming)。最先在聲音的時(shí)間歸一化問(wèn)題上使用DP法的是蘇聯(lián)的Slutsker、Vintsyuk、Velichko和Zagoruyko等人,日本的迫江、千葉等人幾乎在同一時(shí)期發(fā)表了類(lèi)似的論文。其后,這種方法對(duì)聲音識(shí)別產(chǎn)生了很大影響,成為重要技術(shù)之一。
運(yùn)用基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法的非特定人語(yǔ)音識(shí)別系統(tǒng)AudioHouse已經(jīng)初步實(shí)現(xiàn)。該系統(tǒng)集合了聲音采樣、特征抽取、索引處理、語(yǔ)音識(shí)別及一些處理輔助工具等模塊。
聲音采樣模塊是方便說(shuō)話人錄制指定采樣單詞語(yǔ)音的工具。特征抽取模塊集合了LPC、倒譜、Gabor濾波等特征抽取方法。用戶(hù)可根據(jù)需要選擇相應(yīng)特征。索引處理是系統(tǒng)的核心算法所在。它提供了基于SOM和統(tǒng)計(jì)檢驗(yàn)的索引算法,以及加權(quán)二重索引算法。語(yǔ)音識(shí)別模塊是計(jì)算索引算法查詢(xún)出的相似聲音文件的加權(quán)相似度,對(duì)查詢(xún)樣本作出最終判斷。
通過(guò)測(cè)試可以發(fā)現(xiàn),倒譜系數(shù)可以較好的描述發(fā)音單詞的特征;Gabor濾波法可以較好的刻畫(huà)說(shuō)話人的韻律特征;LPC系數(shù)對(duì)單詞和說(shuō)話人的識(shí)別效果均為中上,而且其特征抽取速度最快。單個(gè)數(shù)字所含信息量較少,彼此發(fā)音差距也比較大,所以比較容易識(shí)別。單詞的變化比較多,混淆的概率比較大。實(shí)驗(yàn)證明,當(dāng)被識(shí)別的單詞有所減少的時(shí)候,單詞的識(shí)別率會(huì)有所提高。進(jìn)一步研究漢語(yǔ)的語(yǔ)音特征會(huì)有助于提高單詞的識(shí)別率。