關(guān)于語音識別的研究

2017-01-17 20:59周萌

東方教育 2016年8期

周萌

摘要：計(jì)算機(jī)出現(xiàn)和發(fā)展，為很多領(lǐng)域帶來發(fā)展可能。在此之前，模式識別信號處理技術(shù)和聲學(xué)等，僅能夠獨(dú)立研究和使用。而計(jì)算機(jī)不僅提供了融合平臺，也使其得以交互，創(chuàng)造更加出色的功能。本文所研究的語音識別技術(shù)，便是通過上述學(xué)科實(shí)現(xiàn)。語音識別技術(shù)，主要應(yīng)用在醫(yī)學(xué)、交通、軍事，工業(yè)生產(chǎn)等領(lǐng)域。特別是近年來技術(shù)成本降低，民用市場不斷擴(kuò)大，這也對語言識別技術(shù)的要求，有了進(jìn)一步的提升。因此，本文對語音識別進(jìn)行研究，借助其發(fā)展趨勢和技術(shù)結(jié)構(gòu)的闡述，幫助讀者認(rèn)識該技術(shù)。同時(shí)希望借助本文的研究，為相關(guān)研究者提供一定的理論借鑒。

關(guān)鍵詞：語音識別；研究趨勢

一、語音識別技術(shù)簡介

語言是人類的基本功能，也是展現(xiàn)思維、進(jìn)行溝通的重要載體。而語音，是由人類人體天賦轉(zhuǎn)化下，所形成一種表達(dá)方式。在科學(xué)視野中，這種天賦的轉(zhuǎn)化，被稱之聲學(xué)表現(xiàn)。然而，不可否認(rèn)的是，雖然語音僅作為一種“天賦表象”，卻是人類目前最為有效的交流手段。

二、語音識別技術(shù)的發(fā)展歷史

科技引入到聲音的聲學(xué)研究，在人類歷史上發(fā)起較晚，始于上世紀(jì)50年代，研究人員才致力于聲學(xué)和語音學(xué)的基本概念。第一次實(shí)現(xiàn)研究突破是在1952年，學(xué)者AT& T Bell在其實(shí)驗(yàn)室，進(jìn)行了一組當(dāng)前視野來看，并不復(fù)雜的實(shí)驗(yàn)工作。但最終實(shí)現(xiàn)了一個(gè)單一發(fā)音人，孤立發(fā)音10個(gè)英文數(shù)字的語音識別系統(tǒng)，方法主要是度量每個(gè)數(shù)字的元音音段的共振峰；1956年，RCA Lab 基于Bell的人的研究基礎(chǔ)，尋求另一個(gè)方向的實(shí)踐研究工作，力求識別單一發(fā)音的10個(gè)不同的音節(jié)，同樣采用了度量共振峰的方法；1959年，組織University College的研究學(xué)者，以譜分析和模板匹配的方式，借助構(gòu)建音素識別器的理念，實(shí)現(xiàn)了識別4個(gè)元音和9個(gè)輔音；1962年，東京大學(xué)相關(guān)研究部門，對音素識別器的硬件進(jìn)行實(shí)踐性研究工作。以過零率方法分離語音信號的不同部分的識別方式，成為目前較為理想的研究手段之一；1963年，日本NEC Lab對數(shù)字進(jìn)行語音識別技術(shù)進(jìn)行嘗試，并獲得了相對可靠的研究成果。并創(chuàng)造NEC研究語音識別的模板，由此開創(chuàng)了語音識別技術(shù)的新領(lǐng)域。值得注意的是，在近四十年來，語音識別技術(shù)并未出現(xiàn)質(zhì)的突破。但是，上述內(nèi)容60年代所進(jìn)行的研究，卻成為了支撐人類語言識別技術(shù)近半個(gè)世紀(jì)的基礎(chǔ)。而其最為重要的貢獻(xiàn)，便是通過理論深度研究，于1969年提出時(shí)間歸正法。

三、語音識別技術(shù)的應(yīng)用及前景

隨著聲學(xué)研究的發(fā)展，語音識別技術(shù)已然具備了應(yīng)用的基礎(chǔ)。從現(xiàn)狀來看，中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于98%，對特定人語音識別系統(tǒng)就更高。隨著科學(xué)技術(shù)的發(fā)展，集成電路的應(yīng)用，幫助以往過度復(fù)雜的識別體系，能在更小的空間的內(nèi)實(shí)現(xiàn)。從在西方經(jīng)濟(jì)發(fā)達(dá)國家來看，大量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。包括手機(jī)等移動(dòng)電子設(shè)備，多配備了相對完善的語音機(jī)制。并且盲人所使用的電子設(shè)備中的語音識別系統(tǒng)，已經(jīng)達(dá)到了以往的軍用標(biāo)準(zhǔn)。用戶將借助移動(dòng)通訊網(wǎng)絡(luò)，以語音識別的口語對話系統(tǒng)，完成日常生活中，如訂購票務(wù)、酒店等事宜。據(jù)調(diào)查統(tǒng)計(jì)結(jié)果，目前85%以上的使用者，對語音識別信息查詢服務(wù)系統(tǒng)的功能性、準(zhǔn)確性表示滿意。由此，也可以進(jìn)行預(yù)測：在未來的十年內(nèi)，語音識別系統(tǒng)的應(yīng)用范圍將逐漸擴(kuò)大，而基于各類語言、需求的產(chǎn)品涌現(xiàn)，或借助市場調(diào)節(jié)機(jī)制，有效降低此類系統(tǒng)的應(yīng)用成本。由此更進(jìn)一步滿足各類語音需求。但是，以當(dāng)前的技術(shù)來看，語音識別系統(tǒng)的局現(xiàn)性，或?qū)⒊蔀樽璧K其發(fā)展的根本原因。

四、語音識別技術(shù)的系統(tǒng)結(jié)構(gòu)

不可否認(rèn)，語音識別系統(tǒng)是復(fù)雜的。但是，在人類漫長研究中，不斷的歸納和總結(jié)，最終找到可以大范圍區(qū)分的“節(jié)點(diǎn)”。由此，幫助語言識別系統(tǒng)的構(gòu)成更加清晰化。從相關(guān)研究發(fā)現(xiàn)，一個(gè)完整的基于統(tǒng)計(jì)的語音識別系統(tǒng)可大致分為兩個(gè)部分：

1、語音信號預(yù)處理與特征提取

語音識別的基本工作特征，在于識別單元的選擇，這也是能否獲得識別結(jié)果的重要基礎(chǔ)。然而，對于單元的選擇，需要合理的區(qū)分各個(gè)要素，包括單詞（句）、音節(jié)和音素三種。在選擇適合的要素后，才能夠進(jìn)行后續(xù)的識別工作。

單詞（句）單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng)，但不太適合大詞匯系統(tǒng)，原因在于模型庫太龐大，訓(xùn)練模型任務(wù)繁重，模型匹配算法復(fù)雜。故此，看似簡單識別通道，卻因?yàn)閺?fù)雜性降低了時(shí)效，最終導(dǎo)致難以準(zhǔn)確的完成識別任務(wù)。

音節(jié)單元是基于我國語言特征，所提出的特殊識別要素。由于漢語言與英語等拉丁語系語種的差異性。我國發(fā)展語音識別技術(shù)，或難以借助他國成熟經(jīng)驗(yàn)。但是，由于漢語音節(jié)總數(shù)為1300余個(gè)，其中包括408個(gè)無調(diào)音節(jié)，對比于大量多音節(jié)的拉丁語系，漢語言基礎(chǔ)上的音節(jié)單元要素識別，將具備更高的時(shí)效性。這也是我國語音識別技術(shù)能夠“后發(fā)制人”的關(guān)鍵。

音素的識別，主要借助線性預(yù)測（LP）實(shí)現(xiàn)。LP分析技術(shù)是目前應(yīng)用廣泛的特征參數(shù)提取技術(shù)，許多成功的應(yīng)用系統(tǒng)都采用基于LP技術(shù)提取的倒譜參數(shù)。但線性預(yù)測模型為純數(shù)學(xué)模型，未考慮人類聽覺系統(tǒng)對語言的處理特點(diǎn)。

2、聲學(xué)模型與模式處理

作為語音識別系統(tǒng)的第二個(gè)模塊，也是其重要的基底模塊。聲學(xué)模型主要用于搭建聲音體系，并借助特征算法，幫助后續(xù)的模式處理，對語音進(jìn)行深度識別。而模式處理的重要性，在于保證識別結(jié)果的準(zhǔn)確。通常對語音模型的處理，在理論和數(shù)據(jù)參數(shù)上，已經(jīng)具備良好的基礎(chǔ)。但是，在識別方面，卻一直難以達(dá)成成效。這也是模式處理能力不足所帶來的主要困境。從基本理論層面來看，聲學(xué)模型作為語音識別系統(tǒng)底層模型，其關(guān)鍵性不言而喻。而聲學(xué)模型存在的意義，在于提供計(jì)算語言的特征矢量序列，以及合理區(qū)分每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計(jì)和語言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元體積對語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率，以及靈活性有較大影響。

五、語音識別技術(shù)的發(fā)展障礙

1、技術(shù)智能化不足。例如，同一說話者在不同語態(tài)時(shí)，語音信息有所差異；即使同一說話者以相同方式說話時(shí)，其語音模式也受長期時(shí)間變化的影響。

2、缺乏模糊語音處理能力。說話者在講話時(shí)，不同的語詞可能聽起來很相似。

3、無法兼顧發(fā)音變化。單詞或單詞的一部分在發(fā)音過程中其音量、音調(diào)、重音和發(fā)音速度可能不同，使得測試模式和標(biāo)準(zhǔn)模型不匹配。

4、無法消除環(huán)境音響。為了提升語音識別技術(shù)的準(zhǔn)確性，必須提升其收納聲音的范圍。而這樣的選擇，無疑會放大環(huán)境因素的影響。原因在于語音識別系統(tǒng)的聲音基礎(chǔ)，是在相對安靜的環(huán)境中創(chuàng)造。所以，無法應(yīng)對自然環(huán)境中的噪聲和干擾。而且，在采用抗干擾模式下，語言識別和接受能力又會大幅度下降。這也讓技術(shù)遇到兩難的選擇。

參考文獻(xiàn)：

[1] 施超群，陳堅(jiān)剛.淺析語音識別原理[J].浙江工商職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2011（03）：94-96.

[2] 韓紀(jì)慶，張磊，鄭軼然.語音信號處理（第二版）[M].北京：清華大學(xué)出版社，2013.

[3] 陳永彬.語音信號處理[M].上海：上海交通大學(xué)出版社，1991.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)于語音識別的研究