于大海 孫建民
摘要 語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù),其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語言通信。語音作為一個(gè)交叉學(xué)科,具有深遠(yuǎn)的研究價(jià)值,近50年的研究發(fā)展,語音識(shí)別技術(shù)已經(jīng)有了極大的發(fā)展。本文介紹了語音識(shí)別技術(shù)的基本原理和應(yīng)用,并且對(duì)語音識(shí)別技術(shù)的發(fā)展趨勢進(jìn)行了展望。
關(guān)鍵詞 語音識(shí)別;應(yīng)用;發(fā)展
中圖分類號(hào) TN912.34 文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 1674-6708(2009)08-0022-02
0 引言
語音是人類互相之間進(jìn)行交流時(shí)使用最多、最自然、最基本、最重要的信息載體。在高度信息化的今天,語音處理的一系列技術(shù)及其應(yīng)用已經(jīng)成為信息社會(huì)不可缺少的組成部分。語音的產(chǎn)生是一個(gè)復(fù)雜的過程,包括心理和生理等方面的一系列因素。當(dāng)人們需要通過語音表達(dá)某種信息時(shí),首先是這種信息以某種抽象的形式表現(xiàn)在說話人的大腦里,然后轉(zhuǎn)換為一組神經(jīng)信號(hào),這些神經(jīng)信號(hào)作用于發(fā)聲器官,從而產(chǎn)生攜帶信息的語音信號(hào)。
1 語音識(shí)別的研究歷史及現(xiàn)狀
在國外語音識(shí)別的研究工作可以追溯到上世紀(jì)50年代。1952年AT&T貝爾實(shí)驗(yàn)室的Audry系統(tǒng)是第一個(gè)可以識(shí)別十個(gè)英文數(shù)字的語音識(shí)別系統(tǒng)。
上世紀(jì)60年代末70年代初出現(xiàn)了語音識(shí)別方面幾種基本思想,其中重要成果是提出了信號(hào)線性預(yù)測編碼(LPC)技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),有效的解決了語音信號(hào)特征提取和不等長語音匹配問題,同時(shí),還提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
上世紀(jì)80年代語音識(shí)別研究進(jìn)一步走向深入,其顯著特征是隱馬爾可夫模型(HMM)和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識(shí)別中的成功應(yīng)用。上世紀(jì)90年代,在計(jì)算機(jī)技術(shù)、電信應(yīng)用等領(lǐng)域飛速發(fā)展的帶動(dòng)下,迫切的要求語音識(shí)別系統(tǒng)從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用。具代表性的是IBM的Via Voice和Dragon公司的Dragon Dictate系統(tǒng),這些語音識(shí)別系統(tǒng)具有說話人自適應(yīng)能力,新用戶不需要對(duì)全部詞匯進(jìn)行訓(xùn)練便可在使用中不斷提高識(shí)別率[1]。
國內(nèi)在語音識(shí)別研究上也投入了很大的精力,中科院的自動(dòng)化所、聲學(xué)所以及清華大學(xué)等科研機(jī)構(gòu)和高校都在從事語音識(shí)別領(lǐng)域的研究和開發(fā)。國家863智能計(jì)算機(jī)專家組為語音識(shí)別技術(shù)研究專門立項(xiàng),我國語音識(shí)別技術(shù)的研究水平已經(jīng)基本上與國外同步。
2 語音識(shí)別系統(tǒng)的分類
目前,語音識(shí)別的系統(tǒng)分類有孤立語音和連續(xù)語音識(shí)別系統(tǒng),特定人和非特定人語音識(shí)別系統(tǒng),大詞匯量和小詞匯量語音識(shí)別系統(tǒng),嵌入式/服務(wù)器模式等。
2.1 孤立語音和連續(xù)語音識(shí)別系統(tǒng)
自然的語音,只在句尾或是文字需要加標(biāo)點(diǎn)的地方必須間斷,其它的部分可以連續(xù)不斷地發(fā)音。以前的語音識(shí)別系統(tǒng),幾乎都是以單字或單詞為單位的孤立語音識(shí)別系統(tǒng),但隨著近年來的研究和發(fā)展,連續(xù)語音識(shí)別技術(shù)漸趨成熟,這個(gè)最自然的說話方式,將成為語音識(shí)別系統(tǒng)的主流。
2.2 特定人和非特定人語音識(shí)別系統(tǒng)
特定人和非特定人語音識(shí)別系統(tǒng)是按照聲學(xué)模型建立的方式來劃分。特定人系統(tǒng)是指系統(tǒng)在使用前必須由用戶輸入大量的發(fā)音數(shù)據(jù),并對(duì)其進(jìn)行訓(xùn)練。非特定人系統(tǒng)則試圖達(dá)到在系統(tǒng)構(gòu)建成功之后,用戶不需要事先輸入大量的訓(xùn)練數(shù)據(jù),即可使用的目的。
2.3 大詞匯量和小詞匯量語音識(shí)別系統(tǒng)
在語音識(shí)別技術(shù)的發(fā)展過程中,詞匯量也正是從少到多不斷積累的,隨著詞匯量的增大,對(duì)系統(tǒng)各方面的要求也越來越高,該系統(tǒng)的成本也越來越高了。語音識(shí)別系統(tǒng)只是要為你在開車的時(shí)候利用語音進(jìn)行電話撥號(hào),那它只要能聽懂十個(gè)數(shù)字就可以了,屬于小詞匯量語音識(shí)別系統(tǒng)。如果它是為你自動(dòng)訂飛機(jī)票,那么它就應(yīng)該還會(huì)認(rèn)識(shí)地名、時(shí)間等字和詞,這屬于中等詞匯量語音識(shí)別系統(tǒng)。如果它是為一個(gè)記者把口述的一篇報(bào)告轉(zhuǎn)換成為文字,那它的詞匯量就必須很大才能勝任這樣的工作,這屬于大詞匯量語音識(shí)別系統(tǒng)[2]。
2.4 嵌入式/服務(wù)器模式
嵌入式是將語言識(shí)別軟件及模型寫在設(shè)備(如手機(jī))的存儲(chǔ)器里,識(shí)別過程在終端完成。在服務(wù)器模式,終端只負(fù)責(zé)收集和傳導(dǎo)語音信號(hào),由服務(wù)器負(fù)責(zé)完成識(shí)別。因此,對(duì)于大規(guī)模、多用戶和有大量識(shí)別需求的系統(tǒng),服務(wù)器模式提供了有效的方式。同時(shí)服務(wù)器方式對(duì)最終用戶的知識(shí)需求甚少,系統(tǒng)的更新、升級(jí)和管理方便、有效,可由運(yùn)營商負(fù)責(zé),而嵌入式則在很大程度上受終端設(shè)備資源所限。
3 語音識(shí)別的幾種基本方法
當(dāng)今語音識(shí)別技術(shù)的主流算法,主要有傳統(tǒng)的基于動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)算法、基于非參數(shù)模型的矢量量化(VectorQuantization,VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(Hidden Markov Models,HMM)的方法和基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,, ANN)等語音識(shí)別方法[3]。
4 語音識(shí)別系統(tǒng)的結(jié)構(gòu)[4]
語音系統(tǒng)基本構(gòu)造,如圖1所示,系統(tǒng)可以分為前端處理和后端處理。前端處理包括語音的錄入、處理、特征值的提取,后端是個(gè)夸數(shù)據(jù)庫的搜索過程,,分為訓(xùn)練和識(shí)別。訓(xùn)練是對(duì)所建的模型進(jìn)行評(píng)估、匹配、優(yōu)化,獲得模型參數(shù)。識(shí)別是一個(gè)專用的搜索數(shù)據(jù)庫,獲取前端數(shù)值后,在聲學(xué)模型、一個(gè)語言模型和一個(gè)字典。聲學(xué)模型表示一種語言的發(fā)音聲音,可以通過訓(xùn)練來識(shí)別特定用戶的語音模型和發(fā)音環(huán)境的特征。語言模型是對(duì)語料庫單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則??傮w上說,語音識(shí)別是一個(gè)模式識(shí)別匹配的過程,在這個(gè)過程中,計(jì)算機(jī)首先要根據(jù)人的語音特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板。然后,在識(shí)別過程中,計(jì)算機(jī)根據(jù)語音識(shí)別的整體模型,將計(jì)算機(jī)中已經(jīng)存有的語音模板與輸入語音信號(hào)的特征進(jìn)行比較,并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板。最后通過查表和判決算法給出識(shí)別結(jié)果。顯然識(shí)別結(jié)果與語音特征的選擇、語音模型和語言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。
5 語音識(shí)別尚未解決的問題及值得研究的方向
5.1 就算法模型方面而言,需要有進(jìn)一步的突破。
聲學(xué)模型和語言模型是聽寫識(shí)別的基礎(chǔ)。目前,使用的語言模型只是一種概率模型,還沒有用到以語言學(xué)為基礎(chǔ)的文法模型,而要使計(jì)算機(jī)確實(shí)理解人類的語言,就必須在這一點(diǎn)上取得進(jìn)展。
5.2 語音識(shí)別的自適應(yīng)性也有待進(jìn)一步改進(jìn)
同一個(gè)音節(jié)或單詞的語音不僅隨著講話者的不同而變化,而且對(duì)同一個(gè)講話者在不同場合、不同上下文環(huán)境中也會(huì)發(fā)生變化,這意味著對(duì)語言模型的進(jìn)一步改進(jìn)。
5.3 語音識(shí)別技術(shù)還需要能排除各種環(huán)境因素的影響
對(duì)語音識(shí)別效果影響最大的就是環(huán)境雜音或噪音。要在嘈雜環(huán)境中使用語音識(shí)別技術(shù)必須有特殊的抗噪麥克風(fēng)才能進(jìn)行,這對(duì)多數(shù)用戶來說是不現(xiàn)實(shí)的。在公共場合,對(duì)于語音識(shí)別技術(shù)能清除環(huán)境嗓音并從中獲取所需要的特定聲音,是一項(xiàng)艱巨的任務(wù)。
參考文獻(xiàn)
[1]柳春.語音識(shí)別技術(shù)研究進(jìn)展[J].甘肅科技2008,24(9):41-43.
[2]朱淑鑫,謝忠紅.淺談?wù)Z音識(shí)別技術(shù)的應(yīng)用及發(fā)展[J].長春理工大學(xué)學(xué)報(bào)(高教版),2009,4(2):64-65.
[3]趙力.語音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
[4]崔文迪,黃關(guān)維.語音識(shí)別綜述[J].福建電腦,2008,(1):28-29.
福建省積極推進(jìn)科普惠農(nóng)服務(wù)站建設(shè)
近日,福建省科協(xié)和省財(cái)政廳聯(lián)合下發(fā)了《關(guān)于加強(qiáng)福建省科普惠農(nóng)服務(wù)站建設(shè)的意見》(以下簡稱《意見》),旨在更好地調(diào)動(dòng)福建省社會(huì)力量實(shí)施《全民科學(xué)素質(zhì)行動(dòng)計(jì)劃綱要》,強(qiáng)化農(nóng)村科普基層組織建設(shè),提升科協(xié)的農(nóng)村科普服務(wù)能力和水平,逐步完善并延伸農(nóng)村科普服務(wù)鏈,促進(jìn)海峽西岸經(jīng)濟(jì)區(qū)社會(huì)主義新農(nóng)村建設(shè)。
《意見》 指出,福建省科協(xié)系統(tǒng)和財(cái)政部門將通力協(xié)作、密切配合,本著“科協(xié)統(tǒng)籌、財(cái)政支持、基層建站;立足科普、服務(wù)農(nóng)民;集成資源、形成合力;因地制宜、多方探索” 的原則,力爭在2010年底前,推動(dòng)全省獲得國家級(jí)和省級(jí)科普惠農(nóng)興村計(jì)劃表彰獎(jiǎng)勵(lì)的單位和個(gè)人建成科普惠農(nóng)服務(wù)站,并帶動(dòng)有條件的專業(yè)技術(shù)協(xié)會(huì)、專業(yè)合作組織和行政村等建設(shè)科普惠農(nóng)服務(wù)站,形成覆蓋全省的科普工作組織網(wǎng)絡(luò)。
《意見》中詳細(xì)規(guī)定了科普惠農(nóng)服務(wù)站的場地、設(shè)施、標(biāo)牌、隊(duì)伍、制度、載體等標(biāo)準(zhǔn),明確了“科協(xié)組織主要負(fù)責(zé)科普惠農(nóng)服務(wù)站的建設(shè)、運(yùn)行和管理,財(cái)政部門主要負(fù)責(zé)為科普惠農(nóng)服務(wù)站的建設(shè)和運(yùn)行提供資金和項(xiàng)目支持”的工作機(jī)制和各級(jí)科協(xié)組織的任務(wù)和職責(zé)。
《意見》要求縣級(jí)科協(xié)組織必須建設(shè)科普惠農(nóng)服務(wù)總站,選聘各科普惠農(nóng)服務(wù)站負(fù)責(zé)人,鼓勵(lì)在地方特色產(chǎn)業(yè)中建設(shè)科普惠農(nóng)服務(wù)站,積極指導(dǎo)和支持科普惠農(nóng)服務(wù)站的建設(shè)和管理,努力形成覆蓋面廣、運(yùn)轉(zhuǎn)流暢、聯(lián)系緊密、長效運(yùn)作的科普惠農(nóng)服務(wù)站建設(shè)機(jī)制。