3 智能語音接口技術(shù)智能接口,又稱人機(jī)接口,所追求的是使人和計(jì)算機(jī)在信息交互時(shí)能夠像人和人之間通信一樣方便、自然。在智能通信終端上建立一種擬人化的、和諧的人機(jī)交互環(huán)境,也是智能接口追求的一個(gè)重要目標(biāo)。智能接口技術(shù)除涉及人工智能和計(jì)算機(jī)科學(xué)外,同信號(hào)處理、電子技術(shù)、語言學(xué)、認(rèn)知科學(xué),乃至現(xiàn)代心理學(xué)、神經(jīng)生理學(xué)等都有密切的關(guān)系。目前主要研究課題有多媒體與虛擬現(xiàn)實(shí)、語音識(shí)別和合成、文字識(shí)別、計(jì)算機(jī)視覺和圖像識(shí)別、自然語言處理、自動(dòng)摘要及機(jī)器翻譯等等。其中尤以涉及漢語和漢字的智能接口技術(shù)和應(yīng)用,對(duì)中國(guó)信息化、智能終端的發(fā)展有重要的意義。在國(guó)家863智能計(jì)算機(jī)研究領(lǐng)域也受到特別的重視。由于語音是人類最自然的通信手段,人們信息交互有60%是通過語音通信來完成的,因此目前通信終端的主體也基于語音通信。
3.1 語音識(shí)別
讓機(jī)器聽懂人說的話,服從命令,為人類服務(wù),這就是語音識(shí)別技術(shù)。實(shí)現(xiàn)語音識(shí)別是人類多年的夢(mèng)想, 但是由于其技術(shù)上的復(fù)雜性,以及我們每個(gè)人的口音不同、發(fā)音方式不同,使得機(jī)器識(shí)別語音變得深不可測(cè)。隨著近代計(jì)算機(jī)技術(shù)的迅速發(fā)展,在20世紀(jì)最后年代里,語音識(shí)別終于取得了一系列重要的突破,開始走出實(shí)驗(yàn)室,為人們服務(wù)。今天漢語語音識(shí)別已經(jīng)突破了連續(xù)語音、 大詞匯、非特定人識(shí)別的難關(guān),成功地解決了漢語同音字、口音復(fù)雜等問題,實(shí)現(xiàn)了中文聽寫機(jī),初步解決了中文輸入難的問題。
3.1.1 語音識(shí)別技術(shù)簡(jiǎn)介
語音識(shí)別是對(duì)智能通信終端最有影響的技術(shù)之一。早期的語音識(shí)別是采用“模板法”來實(shí)現(xiàn)的,如圖2所示。即對(duì)每一個(gè)識(shí)別基元(字或詞)的語音波形數(shù)
據(jù),通過一定的信號(hào)處理方法提取其特征矢量構(gòu)成特定的矢量有序集稱之為“模板”(之所以要提取特征矢量,一是為了減少語音數(shù)據(jù)的存儲(chǔ)量,二是為了通過某種變換盡可能抽取出能代表一個(gè)語音單元特征的信息)。在識(shí)別時(shí)把待識(shí)別的語音同樣提取特征矢量后分別與所有模板相比較,在一定的失真度準(zhǔn)則下,選擇失真最小的模板序列輸出,作為識(shí)別結(jié)果。
這里有3個(gè)主要問題:一是“模板”的可變性,這是由語音信號(hào)本身具有的巨大可變性造成的。同一個(gè)字、同一句話,在不同條件(發(fā)音人、發(fā)音人的心理生理特征、環(huán)境等)下發(fā)音時(shí),其波形是不相同的,甚至相差甚遠(yuǎn),因而直接由語音波形提取的“模板”也是不同的,這就使得匹配時(shí)失去了“準(zhǔn)繩”,目標(biāo)不明。如果采用不同條件下的多個(gè)模板同時(shí)存儲(chǔ)和匹配的方法,又會(huì)使存儲(chǔ)量和計(jì)算量不可預(yù)料地惡性膨脹,這在大詞匯量、非特定人識(shí)別的情況下更為突出;二是單元組合規(guī)則利用的“困難性”,在需要利用詞法、句法知識(shí)的連續(xù)語音識(shí)別中,“模板法”往往顯得無能為力;三是訓(xùn)練的“困難性”,這也主要體現(xiàn)在連續(xù)語音識(shí)別時(shí)提取模板必須事先劃分基元上,這就大大增加了人工的工作量,同時(shí)也沒有有效地改進(jìn)“模板”方法,即保證模板的代表性隨著訓(xùn)練量的增加而增大。上述所有問題決定了“模板法”只能在小詞匯量、特定人、非連續(xù)語音識(shí)別上比較有效,而無法滿足人們對(duì)大詞匯量、非特定人、連續(xù)語音識(shí)別的需要。
現(xiàn)代語音識(shí)別則采取統(tǒng)計(jì)識(shí)別的方法,識(shí)別流程如圖3所示。
信號(hào)處理
包括端點(diǎn)檢測(cè)和特征提取。端點(diǎn)檢測(cè)是指從輸入語音流中區(qū)分靜音和語音,這是一個(gè)兩類分類器問題,一般采用語音信號(hào)的能量和過零率等時(shí)域特征作為分類的參數(shù);特征提取是指從語音數(shù)據(jù)提取出有效特征。語音的短時(shí)頻譜特征能精確描述語音發(fā)音過程中的聲道變化,常用的有線性預(yù)測(cè)倒譜系數(shù)(LPC)和MEL頻率倒譜系數(shù)(MFCC),實(shí)驗(yàn)證明MFCC系數(shù)比LPC倒譜系數(shù)更符合人耳的聽覺特性,特別是在有噪聲和頻譜失真的情況下,能更準(zhǔn)確地描述語音模型,得到更高的識(shí)別率。MFCC系數(shù)主要反映語音的靜態(tài)特征,語音信號(hào)的動(dòng)態(tài)特征可以用靜態(tài)特征的一階差分譜和二階差分譜來描述。這些動(dòng)態(tài)信息和靜態(tài)信息相互補(bǔ)充,能很大程度地提高系統(tǒng)的識(shí)別性能。語音的短時(shí)歸一化能量也能一定程度地提高識(shí)別率。整個(gè)語音特征一般用MFCC參數(shù)、MFCC差分系數(shù)、歸一化能量系數(shù)及其差分系數(shù)構(gòu)成。由于語音信號(hào)的短時(shí)平穩(wěn)性,特征參數(shù)都是按幀提取的,幀長(zhǎng)取10ms左右。
聲學(xué)模型
隱馬爾科夫模型(HMM)是目前最成熟、最有效的語音識(shí)別模型。HMM從左到右的狀態(tài)轉(zhuǎn)移模型能很好地描述語音發(fā)音特性。語音信號(hào)是一個(gè)非平穩(wěn)的隨機(jī)過程,但它具有明顯的短時(shí)平穩(wěn)特性,而HMM模型從本質(zhì)上將最適宜描述這類時(shí)變信號(hào),其中的“狀態(tài)”描述了聲學(xué)特性相對(duì)穩(wěn)定的語音段,而狀態(tài)轉(zhuǎn)移規(guī)律則描述了語音信號(hào)的時(shí)變過程,其中狀態(tài)序列的隱含,避免了一系列人為分割語音信號(hào)的復(fù)雜過程,而且使模型中的狀態(tài)與實(shí)際產(chǎn)生語音的發(fā)音機(jī)理相脫離,使得模型對(duì)語音信號(hào)的描述過程完全可以通過算法來自動(dòng)完成。狀態(tài)與語音特征矢量之間的對(duì)應(yīng)使用概率分布表征,稱為輸出概率。按照輸出概率分類,HMM模型又可分為不同的類型。
所有模型的參數(shù)均通過使用Baum-Welch算法從大量實(shí)際的語音訓(xùn)練和數(shù)據(jù)訓(xùn)練獲得。聲學(xué)模型基本單元可以選擇任意一種語音單元。對(duì)漢語來說,可以選擇音素、聲韻母、音節(jié)、詞語作為模型單元。對(duì)不同的識(shí)別系統(tǒng)應(yīng)該選擇適合的單元,選擇模型單元應(yīng)滿足下面3個(gè)原則:精確性、可訓(xùn)練性和可擴(kuò)展性。
一般小詞匯量識(shí)別系統(tǒng)可以選擇詞為單元,保證精確性又具有可訓(xùn)練性;而大詞匯量連續(xù)語音識(shí)別系統(tǒng)則應(yīng)采用更小的聲韻母或音素為單元,才能保證可訓(xùn)練性和可擴(kuò)展性。
語言模型
聲學(xué)模型在識(shí)別系統(tǒng)中的功能是對(duì)語音的識(shí)別(聲學(xué)層面上),而識(shí)別音對(duì)應(yīng)的漢字涉及對(duì)語法的識(shí)別(語言學(xué)層面上),這就需要語言模型。目前的語言模型大體分為兩類:一類是基于語法定義的語言模型,另一類是基于統(tǒng)計(jì)的語言模型?;谡Z法定義的語言模型將識(shí)別器的可識(shí)別結(jié)果用一個(gè)有限語法網(wǎng)絡(luò)表示,優(yōu)點(diǎn)是識(shí)別搜索路徑空間確定,識(shí)別率較高,缺點(diǎn)是語法嚴(yán)格,說話者不能自由組織語言,否則系統(tǒng)不予識(shí)別。所以這種語言模型適用于命令識(shí)別和簡(jiǎn)單對(duì)話系統(tǒng)。由于統(tǒng)計(jì)語言模型的魯棒性強(qiáng),大部分識(shí)別系統(tǒng)采用統(tǒng)計(jì)語言模型。
識(shí)別算法
在基于HMM框架的連續(xù)語音識(shí)別中,識(shí)別過程是從識(shí)別網(wǎng)絡(luò)中搜索出最佳路徑的過程。HMM模型中最基本的構(gòu)成單位是聲學(xué)模型中的狀態(tài)以及狀態(tài)之間的轉(zhuǎn)移弧。這樣,從狀態(tài)出發(fā)逐層擴(kuò)大至聲學(xué)模型單元,再組成詞、句。每一個(gè)句子是包括許多狀態(tài)的復(fù)雜狀態(tài)圖。對(duì)于特定的詞表和句法,所有可能出現(xiàn)的句子構(gòu)成了一個(gè)更大的狀態(tài)圖(或稱為狀態(tài)空間)。 語音識(shí)別過程就是要根據(jù)一個(gè)輸入語音特征矢量序列來確定一個(gè)最可能的句子。這就需要在此大狀態(tài)圖中搜索一條路徑,根據(jù)聲學(xué)模型和語言模型,該路徑產(chǎn)生上述特征矢量序列的概率為最大,由路徑就能確定句子中的每一個(gè)詞。這一搜索過程運(yùn)算量極大,在大詞匯識(shí)別情況下全搜索幾乎是不可能的,一般采用次最優(yōu)的方法,例如幀同步Viterbi光束搜索算法。
HMM在理論上具有完整的數(shù)學(xué)定義,有一系列有效的計(jì)算方法,包括一整套完善的最大似然參數(shù)估計(jì)法和有效的解碼算法,使得HMM的訓(xùn)練和識(shí)別過程都可以完全自動(dòng)地進(jìn)行,也避免了在連續(xù)語音識(shí)別中對(duì)語音流的精確預(yù)分割;此外,HMM在系統(tǒng)建模上也非常靈活,可以自由地改變模型的結(jié)構(gòu)、類型和大小,大到句子,小到音素和音子均可用不同狀態(tài)樹和拓?fù)浣Y(jié)構(gòu)的HMM來建模,也可把整個(gè)系統(tǒng)納入一個(gè)統(tǒng)一的“HMM框架”中進(jìn)行識(shí)別輸出。所有這些優(yōu)點(diǎn)使得HMM成為最有效的識(shí)別方法,成為目前在語音識(shí)別中占統(tǒng)治地位的主流方法。HMM幾乎覆蓋了語音識(shí)別的所有領(lǐng)域,從連續(xù)語音到孤立詞,從特定人到非特定人,從大詞匯量到小詞匯量以及聲調(diào)識(shí)別、說話人識(shí)別等等。
上面介紹的是完整的連續(xù)語音識(shí)別系統(tǒng)。在有些小型智能通信終端中,如電話機(jī)、手機(jī)、手提電腦、PDA等,語音識(shí)別主要用于識(shí)別數(shù)字串、姓名或簡(jiǎn)單命令,那么系統(tǒng)可以簡(jiǎn)化。
隨著網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,電子商務(wù)也正在日漸流行。人們只需要坐在家中,通過向智能終端發(fā)布命令就可以實(shí)現(xiàn)網(wǎng)上購(gòu)物。語音識(shí)別技術(shù)和電子商務(wù)的結(jié)合,將創(chuàng)造一種全新的交易方式。
隨著個(gè)人、移動(dòng)通信的需要,通信終端正日趨小型化。各種掌上設(shè)備正進(jìn)入人們的生活和工作,如手機(jī)、商務(wù)通、個(gè)人助理等。設(shè)想在這么小的終端設(shè)備上,鍵盤和顯示屏愈來愈小,甚至沒有鍵盤或只有簡(jiǎn)單的數(shù)字鍵,輸入輸出及各種操作都會(huì)變得異常困難。顯然用語音方式操作是解決這類問題的最理想手段。其方便與自如是其他手段無法相比的。
3.1.2 語音識(shí)別的發(fā)展方向
智能通信的需求反過來又對(duì)語音識(shí)別技術(shù)提出了更高的要求。
電話語音識(shí)別
在高速數(shù)據(jù)信道和便攜數(shù)據(jù)終端普及以前,我們最先利用的還是遍布在各個(gè)角落的傳統(tǒng)語音電話信道和一般意義而言的電話終端,這就意味著需要識(shí)別經(jīng)過整個(gè)電話信道而產(chǎn)生了某種畸變的語音信號(hào)。打電話時(shí)用戶可能會(huì)處于各種嘈雜的環(huán)境,噪聲背景下的語音識(shí)別也是要解決的問題。電話語音識(shí)別具有最迫切的市場(chǎng)需求,目前已成為國(guó)內(nèi)外研究和開發(fā)的重點(diǎn)。
語音識(shí)別的魯棒性
各種噪聲、特別是移動(dòng)電話所產(chǎn)生的編碼和信道噪聲是對(duì)識(shí)別原始語音信號(hào)的一大干擾,特別是此類干擾的發(fā)生很隨機(jī),因此,需要一種能對(duì)各種環(huán)境、信道噪聲加以過濾或在識(shí)別過程中加以糾正的技術(shù)。由于服務(wù)建立在電話或其它移動(dòng)通信終端基礎(chǔ)上,用戶群非常隨機(jī),特別是中國(guó)幅員遼闊,各地口音差異很大,因此需要建立普適度更高的模型或?qū)Σ煌谝裟軌蜃詣?dòng)適應(yīng),使系統(tǒng)具有較強(qiáng)的魯棒性。
口語語音識(shí)別
當(dāng)電話語音識(shí)別技術(shù)用于實(shí)現(xiàn)電話查詢、自動(dòng)接線以及一些專門業(yè)務(wù)如旅游信息服務(wù)等的操作時(shí),電話語音識(shí)別的難度還包括對(duì)冗余信息的處理,因?yàn)槿藗兊娜粘?谡Z多數(shù)是比較自由的,會(huì)出現(xiàn)省略、重復(fù)等不符合語法的句子,或“哼、哈”等沒有特定意義的語音。這些給語音識(shí)別帶來了更大的挑戰(zhàn)。
多語種語音識(shí)別
網(wǎng)絡(luò)時(shí)代必然會(huì)涉及多種語言,例如語音識(shí)別用于大都市電話查詢服務(wù)時(shí),用戶可能使用漢語普通話、廣東話,或者英語進(jìn)行查詢,要求識(shí)別系統(tǒng)有多語種識(shí)別的能力。但是不同的語言有自己獨(dú)特的一套發(fā)音和文法,漢語就是一種聲調(diào)語言,有多音字問題,有自己獨(dú)特的語法問題等。用一個(gè)系統(tǒng)要識(shí)別不同的語種并非易事。
分布式語音識(shí)別
一方面,信道噪聲限制了語音識(shí)別的應(yīng)用;另一方面,現(xiàn)有便攜終端的計(jì)算存儲(chǔ)能力還不足以實(shí)現(xiàn)本地的連續(xù)語音識(shí)別。在此基礎(chǔ)上,分布式語音識(shí)別應(yīng)運(yùn)而生,其思想是在客戶終端上做語音信號(hào)參數(shù)提取的工作,而只將參數(shù)傳送到服務(wù)器端作進(jìn)一步的識(shí)別。這種方案不僅解決了上述的問題,還有占用帶寬窄、綜合成本低等優(yōu)點(diǎn),但其前提是提取的參數(shù)必須標(biāo)準(zhǔn)化。
3.2 語音合成
語音合成技術(shù)是使電腦或通信終端具有類似于人一樣的說話能力,是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要競(jìng)爭(zhēng)領(lǐng)域。和語音識(shí)別相比,語音合成的技術(shù)相對(duì)說來要成熟一些,是最有希望首先在智能通信終端中得到普遍應(yīng)用并形成帶動(dòng)的一項(xiàng)關(guān)鍵技術(shù)。
3.2.1 語音合成技術(shù)簡(jiǎn)介
按照智能化程度的不同層次,語音合成也可分成3個(gè)層次:從文字到語音的合成(Text-To-Speech);從概念到語音的合成(Concept-To-Speech);從意向到語音的合成(Intention-To-Speech)。這3個(gè)層次反映了人類大腦中形成說話內(nèi)容的不同過程,涉及人類大腦的高級(jí)神經(jīng)活動(dòng)。不難想象,即使是按規(guī)則的文字到語音合成(TTS)也已經(jīng)是相當(dāng)困難的任務(wù)。為了合成出高質(zhì)量的語音,除了依賴于各種規(guī)則,包括語義學(xué)、詞匯、語音學(xué)規(guī)則外,還必須對(duì)文字的內(nèi)容有很好的理解,這將涉及自然語言理解的問題。圖4顯示了一個(gè)文語轉(zhuǎn)換系統(tǒng)示意圖。
文語轉(zhuǎn)換過程主要由兩部分組成,先是通過文本分析將文字序列轉(zhuǎn)換成音韻序列,再由語音合成器生成語音波形輸出。
文本分析
旨在確定文本中哪些是詞,哪些是短語、句子;每個(gè)字應(yīng)該發(fā)什么音,怎么發(fā),即它的音高、時(shí)長(zhǎng)、輕重以及和誰連的比較緊、應(yīng)停頓多少等韻律特征,一般由以下幾個(gè)環(huán)節(jié)組成:
(1)文本預(yù)處理,包括分句、字符集轉(zhuǎn)換、特殊符號(hào)處理等,特殊符號(hào)處理是指對(duì)于文本中出現(xiàn)的除漢字以外的其它字符,如何給出其正確的發(fā)音信息(如拼音、節(jié)奏、詞性等)。例如數(shù)字、英文字母、計(jì)量符號(hào)的處理等。
(2)分詞。漢語由于字和字之間沒有明確分隔,缺乏形態(tài)上的分詞標(biāo)志,給正確的切分帶來很大的難度,比如“人民生活水平”,其中“民生”“活水”也都是詞。即使借助于詞典,歧義也不可避免。在分詞階段附帶要解決的其它問題還包括像未登錄詞處理、多音字處理等等。因此如何做到正確的切分,非常重要。
(3)韻律分析,給出層次信息,字在句子中不同的位置,不同詞性引起的節(jié)奏變化,不同的上下文環(huán)境產(chǎn)生的聲調(diào)、音長(zhǎng)、音強(qiáng)的變化等等。漢語是聲調(diào)語言,韻律還有辨意的功能,因此韻律分析的正確與否對(duì)合成語音的自然度有重要的影響。
文本分析涉及語言學(xué)處理、自然語言理解,以及一整套有效的韻律控制規(guī)則。傳統(tǒng)的文本分析主要是基于規(guī)則的實(shí)現(xiàn)方法。但近年來隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)發(fā)掘技術(shù)的發(fā)展,也出現(xiàn)了基于數(shù)據(jù)驅(qū)動(dòng)技術(shù)的文本分析方法。例如采用決策樹或神經(jīng)網(wǎng)絡(luò)方法,從大量的數(shù)據(jù)中通過訓(xùn)練得到韻律模型,而后應(yīng)用于韻律生成。
語音合成器
目前最流行的語音合成器是采用基音同步的重疊相加(PSOLA)方法來實(shí)現(xiàn)波形拼接(這里指的基音或基頻是語音韻律特征中的音高或聲調(diào)的物理表現(xiàn)參數(shù),基頻曲線變化直接導(dǎo)致聲調(diào)變化)。PSOLA算法的基本思想是以語音信號(hào)的基音周期為分析對(duì)象,在基音同步的基礎(chǔ)上對(duì)信號(hào)的聲調(diào)和時(shí)長(zhǎng)進(jìn)行修改。PSOLA算法的提出,使語音合成向?qū)嵱没~出了重大的一步。
然而通過信號(hào)處理的方法調(diào)整韻律特性終究會(huì)對(duì)音色有一定的損傷。即使是PSOLA算法,當(dāng)韻律修正的范圍變大時(shí),音色也會(huì)有明顯的下降。在90年代中期,在漢語語音合成中又提出了一種基于“聽感量化”波形拼接方法。其出發(fā)點(diǎn)就是語音合成時(shí)盡量少動(dòng)用合成器來調(diào)整韻律參數(shù)。在這個(gè)方法中,將實(shí)際語流中音節(jié)千變?nèi)f化的音變情況進(jìn)行聽感上的量化歸并,預(yù)先在音庫(kù)中存放著所有漢語音節(jié)的“聽感量化單元”。合成時(shí)根據(jù)前端給出的音韻信息由基元調(diào)用規(guī)則選出當(dāng)前語言環(huán)境下各個(gè)音節(jié)所對(duì)應(yīng)的“聽感量化”單元;然后直接將所得“聽感量化”單元拼接在一起(最多進(jìn)行簡(jiǎn)單的能量調(diào)整和停延控制),便獲得了相應(yīng)于輸入文本的連續(xù)語音輸出。
由于“聽感量化”單元從原始發(fā)音中直接截取,避免了用語音合成器調(diào)整參數(shù)時(shí)對(duì)音質(zhì)的損害,保證了合成系統(tǒng)具有接近自然發(fā)音的音質(zhì)。采用該方法實(shí)現(xiàn)的文語合成系統(tǒng),其自然度達(dá)到了用戶可以接受的程度。
TTS是現(xiàn)階段比較成熟,并能為用戶所接受的語音合成技術(shù),有著重要的應(yīng)用市場(chǎng)。當(dāng)用戶通過電話或手機(jī)從公共或?qū)S玫臄?shù)據(jù)庫(kù)中查詢信息時(shí),只有TTS技術(shù)自動(dòng)實(shí)時(shí)生成語音才是最有效的方式。
裝備TTS技術(shù)的終端能夠?qū)崟r(shí)地將任意的數(shù)據(jù)文本轉(zhuǎn)換成語音輸出,使得數(shù)據(jù)通信和語音通信在終端一級(jí)上實(shí)現(xiàn)了交融,使得隨時(shí)隨地接受因特網(wǎng)上的信息有了可能。短消息服務(wù)、電子郵件等多數(shù)以文本方式提供的信息,可以用語音的方式輸出,給終端用戶帶來極大的方便。(待續(xù))
(收稿日期:2001-06-12)
作者簡(jiǎn)介
王仁華,中國(guó)科學(xué)技術(shù)大學(xué)電子工程與信息科學(xué)系教授,博士生導(dǎo)師。中國(guó)通信學(xué)會(huì)會(huì)士、理事,中國(guó)科大訊飛信息科技有限公司董事長(zhǎng)。主要從事數(shù)字信號(hào)處理、語音通信、多媒體通信等方面的研究。