国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自動(dòng)語(yǔ)音識(shí)別:從幻想到現(xiàn)實(shí)

2013-04-29 00:44:03辛妍
新經(jīng)濟(jì)導(dǎo)刊 2013年7期
關(guān)鍵詞:語(yǔ)音自動(dòng)系統(tǒng)

辛妍

您是否曾經(jīng)夢(mèng)想有一天能用自己的聲音控制你的房子、汽車,甚至機(jī)器人管家?自動(dòng)語(yǔ)音識(shí)別曾經(jīng)只是科幻小說(shuō)中的概念,而現(xiàn)在它是信息和通信技術(shù)的一個(gè)重要組成部分,越來(lái)越成為我們?nèi)粘I畹闹髁?。?dāng)您讓您的iPhone“呼叫Tom”的時(shí)候,你就在使用自動(dòng)語(yǔ)音識(shí)別。

簡(jiǎn)單地說(shuō),自動(dòng)語(yǔ)音識(shí)別(ASR)是一種讓計(jì)算機(jī)識(shí)別語(yǔ)音,并將它轉(zhuǎn)換為書(shū)面文本的技術(shù),是語(yǔ)音科學(xué)與工程發(fā)展最快的領(lǐng)域之一。作為新一代的計(jì)算技術(shù),它是人機(jī)交互領(lǐng)域繼文本到語(yǔ)音轉(zhuǎn)換(TTS)和支持交互式語(yǔ)音響應(yīng)(IVR)系統(tǒng)之后的又一個(gè)重大創(chuàng)新。自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的目標(biāo)是準(zhǔn)確、有效地將語(yǔ)音信號(hào)轉(zhuǎn)換成文本,并且不受說(shuō)話者、環(huán)境或者是使用的設(shè)備(即麥克風(fēng))的限制。

語(yǔ)音識(shí)別技術(shù)最初是為殘疾人設(shè)計(jì)的,它可以幫助那些肌肉骨骼殘疾人士實(shí)現(xiàn)計(jì)算機(jī)上的最大生產(chǎn)力。雖然自動(dòng)語(yǔ)音識(shí)別是一項(xiàng)幾十年前就開(kāi)始開(kāi)發(fā)的技術(shù),但直到Apple的虛擬個(gè)人助理SiriTM和IBM的WatsonTM的商業(yè)成功才真正展示了這一領(lǐng)域的重大突破。事實(shí)上,當(dāng)2011年底Apple推出新一代的iPhone Siri語(yǔ)音識(shí)別軟件時(shí),在某種意義上意味著這個(gè)具有幾十年歷史的舊技術(shù)對(duì)普通消費(fèi)者來(lái)說(shuō)已經(jīng)足夠好了。

全球語(yǔ)音識(shí)別市場(chǎng)的主導(dǎo)者是總部設(shè)在美國(guó)的Nuance Communications,其軟件被認(rèn)為是Siri的動(dòng)力, 而它的大多數(shù)技術(shù)依賴于將語(yǔ)音轉(zhuǎn)換為計(jì)算機(jī)可以理解的文本。Nuance的語(yǔ)音解決方案支持多達(dá)50種不同的語(yǔ)言,并且維護(hù)著世界上最大的語(yǔ)音數(shù)據(jù)圖書(shū)館之一;有近三分之二的財(cái)富100強(qiáng)公司依靠Nuance的解決方案;Nuance的解決方案已經(jīng)應(yīng)用到超過(guò)50億部手機(jī)和7千萬(wàn)輛汽車上。在醫(yī)療方面,僅在美國(guó)就有超過(guò)3千家醫(yī)院使用Nuance的醫(yī)療保健解決方案,超過(guò)15萬(wàn)的醫(yī)生和護(hù)理人員使用Nuance的Dragon Medical系統(tǒng)。

自動(dòng)語(yǔ)音識(shí)別的發(fā)展

最早嘗試設(shè)計(jì)機(jī)器自動(dòng)語(yǔ)音識(shí)別系統(tǒng)是在20世紀(jì)50年代,但以失敗告終。第一次成功的語(yǔ)音識(shí)別成果產(chǎn)生在20世紀(jì)70年代,當(dāng)時(shí)一般的模式匹配技術(shù)被推出。由于應(yīng)用擴(kuò)展有限,基于統(tǒng)計(jì)方法的自動(dòng)語(yǔ)音識(shí)別技術(shù)也在同一時(shí)期開(kāi)始開(kāi)發(fā)。如今,統(tǒng)計(jì)技術(shù)在自動(dòng)語(yǔ)音識(shí)別應(yīng)用中盛行,常見(jiàn)的語(yǔ)音識(shí)別系統(tǒng)可以識(shí)別數(shù)千字。

在20世紀(jì)90年代初,計(jì)算機(jī)語(yǔ)音識(shí)別技術(shù)出現(xiàn)了巨大的市場(chǎng)機(jī)會(huì)。但當(dāng)時(shí)這些產(chǎn)品的早期版本笨重且很難使用,而且不得不做出妥協(xié):它們或者被“調(diào)整”為要依賴于一個(gè)特定的說(shuō)話者,或者是只有小詞匯量,或者是用一種非常程式化、僵化的語(yǔ)法。然而,在計(jì)算機(jī)行業(yè)中沒(méi)有什么可以長(zhǎng)期保持不變。20世紀(jì)90年代末期,出現(xiàn)了全新的商業(yè)語(yǔ)音識(shí)別軟件包,它們比上一代產(chǎn)品更容易使用,也更有效。

自動(dòng)語(yǔ)音識(shí)別研究的“神圣目標(biāo)”是讓計(jì)算機(jī)實(shí)時(shí)地以100%的準(zhǔn)確度識(shí)別任何一個(gè)人說(shuō)的話,并且不受詞匯量、噪音、說(shuō)話者特征和口音、或者說(shuō)話渠道的影響。盡管在這一領(lǐng)域的研究已經(jīng)有幾十年了,但大于90%的準(zhǔn)確率只有在某種程度的制約下才能實(shí)現(xiàn)。例如對(duì)通過(guò)使用麥克風(fēng)(小詞匯量,無(wú)噪音)的連續(xù)數(shù)字的識(shí)別準(zhǔn)確率可以達(dá)到99%以上;如果系統(tǒng)被訓(xùn)練學(xué)習(xí)某個(gè)說(shuō)話者的聲音,那么在可用的商用系統(tǒng)中較大的詞匯也同樣能被處理,只是準(zhǔn)確率會(huì)下降到90%~95%;而不同說(shuō)話者不同渠道的大詞匯量語(yǔ)音識(shí)別的準(zhǔn)確率不超過(guò)87%,并且處理時(shí)間是實(shí)時(shí)的數(shù)百倍。自動(dòng)語(yǔ)音識(shí)別的性能可能受許多因素的影響,包括技術(shù)設(shè)計(jì)、語(yǔ)音輸入的類型和質(zhì)量、周邊環(huán)境和用戶特征等。當(dāng)有更多的數(shù)據(jù)時(shí),自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的性能可以更好,因?yàn)檫@樣統(tǒng)計(jì)模型就可以建立在更大的基礎(chǔ)上。Google的自動(dòng)語(yǔ)音識(shí)別系統(tǒng)性能好的原因是它們存儲(chǔ)了每個(gè)鍵入或說(shuō)到Google中的搜索詞,并基于搜索的共性來(lái)確定概率。

自動(dòng)語(yǔ)音識(shí)別的應(yīng)用

過(guò)去十年目睹了語(yǔ)音識(shí)別技術(shù)的顯著改善,高性能算法與系統(tǒng)都已可用,使得自動(dòng)語(yǔ)音識(shí)別的應(yīng)用越來(lái)越廣泛。IT主流使得采用自動(dòng)語(yǔ)音識(shí)別在全球商業(yè)中變得更為關(guān)鍵,尤其是近年來(lái)互聯(lián)網(wǎng)協(xié)議(VoIP)平臺(tái)的擴(kuò)散刺激了企業(yè)對(duì)語(yǔ)音識(shí)別技術(shù)的采用。以支持應(yīng)用程序開(kāi)始,語(yǔ)音識(shí)別解決方案已經(jīng)演變成滲透包括航空公司、銀行、倉(cāng)儲(chǔ)、庫(kù)存管理和安全券商等多個(gè)行業(yè)的核心應(yīng)用程序,并已經(jīng)成為差異化服務(wù)和建立客戶關(guān)系的工具。甚至醫(yī)療中心、醫(yī)院、制藥公司和其他醫(yī)療保健行業(yè)參與者也紛紛采用自助語(yǔ)音解決方案,因?yàn)檫@不僅能降低運(yùn)營(yíng)成本,同時(shí)也提高了客戶的隱私度。

消費(fèi)者對(duì)自動(dòng)語(yǔ)音識(shí)別技術(shù)的應(yīng)用程序范圍從基本的依靠語(yǔ)音啟動(dòng)的報(bào)警系統(tǒng)和手機(jī)上的語(yǔ)音撥號(hào),到智能手機(jī)應(yīng)用中的語(yǔ)音股票報(bào)價(jià)和基于語(yǔ)音的電子郵件,以及更多的有針對(duì)性的解決方案,如互動(dòng)娛樂(lè)和語(yǔ)音身份驗(yàn)證等。同時(shí),自動(dòng)語(yǔ)音識(shí)別也是汽車導(dǎo)航、遠(yuǎn)程信息處理系統(tǒng)和信息跟蹤等的重要組成部分。隨著對(duì)支持語(yǔ)言學(xué)習(xí)的創(chuàng)新應(yīng)用的需求日益增加,使用自動(dòng)語(yǔ)音識(shí)別技術(shù)的計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)(CALL)系統(tǒng)也越來(lái)越受關(guān)注。

語(yǔ)音自動(dòng)轉(zhuǎn)化為文本 我們都聽(tīng)過(guò)像Apple的Siri一類的可以自動(dòng)識(shí)別我們說(shuō)什么的系統(tǒng),并想知道我們能否使用這種“自動(dòng)語(yǔ)音識(shí)別”技術(shù)來(lái)替代手工轉(zhuǎn)錄口述內(nèi)容的繁瑣過(guò)程。

自動(dòng)語(yǔ)音識(shí)別的一個(gè)流行應(yīng)用是語(yǔ)音自動(dòng)轉(zhuǎn)錄為文本,比如將講話轉(zhuǎn)錄成手機(jī)短信、自動(dòng)數(shù)據(jù)輸入、直接語(yǔ)音輸入和制備結(jié)構(gòu)化文檔等。日本議會(huì)的轉(zhuǎn)錄系統(tǒng)就使用了自動(dòng)語(yǔ)音識(shí)別。在這種應(yīng)用下,聲音用電子方式被轉(zhuǎn)換成文本,并創(chuàng)建會(huì)議記錄或者報(bào)告草稿等。然后會(huì)議記錄或者報(bào)告草稿被格式化,編輯修正翻譯、標(biāo)點(diǎn)或語(yǔ)法中的錯(cuò)誤,并且檢查一致性和任何可能的錯(cuò)誤。在有標(biāo)準(zhǔn)化術(shù)語(yǔ)的領(lǐng)域工作的轉(zhuǎn)錄員——比如放射學(xué)或病理學(xué)領(lǐng)域中——更有可能會(huì)遇到語(yǔ)音識(shí)別技術(shù)。在醫(yī)療界,醫(yī)療轉(zhuǎn)錄機(jī)可以聽(tīng)醫(yī)生和其他專業(yè)醫(yī)療保健人員的錄音,并把它們轉(zhuǎn)錄到醫(yī)療報(bào)告、信件和其他行政材料中。這一應(yīng)用具有提高工作輸出效率并改善訪問(wèn)和控制各種計(jì)算機(jī)應(yīng)用的潛力。通過(guò)使用語(yǔ)音輸入,自動(dòng)語(yǔ)音識(shí)別應(yīng)用程序繞過(guò)或盡量減少傳統(tǒng)的手動(dòng)輸入方法(例如鍵盤(pán)、鼠標(biāo)),因此也使它成為有嚴(yán)重的肢體或神經(jīng)運(yùn)動(dòng)障礙人士的一種替代輸入法。

同聲傳譯 目前同聲傳譯設(shè)備雖然尚未完善,但達(dá)到基本上可用的要求卻是指日可待。2012年夏天,倫敦發(fā)明家Will Powell展示了一個(gè)進(jìn)行英語(yǔ)和西班牙語(yǔ)即時(shí)互譯的系統(tǒng)。對(duì)話雙方都戴著與手機(jī)相連的耳機(jī),而他們佩帶的特制的眼鏡可以像字幕一樣把翻譯的文字顯示出來(lái)。這款即時(shí)互譯系統(tǒng)在只要有手機(jī)信號(hào)的地方就能工作,但目前此系統(tǒng)需要耳機(jī)、云服務(wù)和筆記本電腦的支持,也就意味著它目前還只能是個(gè)設(shè)計(jì)原型。

2012年11月,日本最大的移動(dòng)電話運(yùn)營(yíng)商N(yùn)TT DoCoMo推出了一項(xiàng)可以將電話中的日語(yǔ)與英語(yǔ)、中文或韓語(yǔ)互譯的服務(wù)。通話的每一方都連續(xù)說(shuō)話,然后該公司的計(jì)算機(jī)在幾秒鐘內(nèi)將聽(tīng)到的內(nèi)容翻譯到所要求的語(yǔ)言,并將結(jié)果視情況適當(dāng)?shù)赜媚新暬蚺曒敵觥?/p>

在同聲傳譯領(lǐng)域最誘人的成果可能來(lái)自Microsoft。2012年10月,當(dāng)該公司的首席研究官Rick Rashid出席天津的一個(gè)會(huì)議時(shí),他的英語(yǔ)演講現(xiàn)場(chǎng)就被翻譯成了普通話,先是以字幕的形式顯示在大屏幕上,接著以電腦合成的聲音讀出。最引人注目的是,Rashid先生的中文版演講與他的英文版演講具有相同的語(yǔ)氣和音調(diào)。Microsoft認(rèn)為,如果以說(shuō)話者自己的聲音傳遞譯文,聽(tīng)眾對(duì)錯(cuò)誤的容忍度會(huì)提高,比如Rashid先生演講的即時(shí)中文翻譯雖然偶有錯(cuò)誤,但仍收到熱烈的掌聲。

自動(dòng)語(yǔ)音翻譯技術(shù)和智能手機(jī)中的應(yīng)用目前可用的視頻和音頻數(shù)據(jù)量正在以指數(shù)級(jí)飛速增長(zhǎng),遠(yuǎn)遠(yuǎn)超過(guò)了人工翻譯的承受力。當(dāng)人工翻譯不可行時(shí),自動(dòng)語(yǔ)音翻譯可以發(fā)揮重要的作用,它不僅讓通信成為可能,而且可以幫助從海量的數(shù)據(jù)中找出重要信息。自動(dòng)語(yǔ)音識(shí)別和機(jī)器翻譯能讓會(huì)議跨越國(guó)界和語(yǔ)言地高效舉行。

不僅是技術(shù)的進(jìn)步支持自動(dòng)語(yǔ)音識(shí)別的采用,商業(yè)趨勢(shì)也如此。在各個(gè)行業(yè)中,對(duì)最新移動(dòng)技術(shù)的需求與日俱增。為順應(yīng)這一趨勢(shì),許多語(yǔ)音翻譯技術(shù)都可以裝在智能手機(jī)應(yīng)用或平板電腦上使用。

不可否認(rèn),基于互聯(lián)網(wǎng)的解決方案有巨大的優(yōu)勢(shì),因?yàn)楫?dāng)人們說(shuō)話時(shí)他們的數(shù)據(jù)可以被收集和分析,而識(shí)別準(zhǔn)確率的一個(gè)主要因素是訓(xùn)練聲學(xué)模型的數(shù)據(jù)量。越多的人對(duì)Google Search和Siri說(shuō)話,這些系統(tǒng)的性能就會(huì)越好。但是如果一個(gè)系統(tǒng)只能聯(lián)網(wǎng)使用,那旅行者的使用就會(huì)受限。而英國(guó)的一家叫Nouvaris的公司于2012年開(kāi)發(fā)的Nova Search不需要連接到互聯(lián)網(wǎng)就能使用。因此,當(dāng)沒(méi)有3G或無(wú)線網(wǎng)信號(hào)時(shí),你仍然能讓智能手機(jī)或計(jì)算機(jī)通過(guò)數(shù)據(jù)庫(kù)進(jìn)行搜索或回答問(wèn)題。而當(dāng)如果有互聯(lián)網(wǎng)連接時(shí),該技術(shù)可以在幾秒鐘之內(nèi)就從龐大的數(shù)據(jù)庫(kù)中完成篩選,到目前為止,它已對(duì)高達(dá)2.45億條的列表起作用。由于是在智能手機(jī)上而不是互聯(lián)網(wǎng)上解碼語(yǔ)音,Nova Search可以更快速地完成語(yǔ)音指令的數(shù)據(jù)庫(kù)搜索。

Google和Siri基本上是將語(yǔ)音轉(zhuǎn)換為單詞流輸入到網(wǎng)絡(luò)搜索或人工智能口譯員。而Nova Search不同是因?yàn)樗苯佑谜Z(yǔ)音輸入搜索自定義數(shù)據(jù)庫(kù),它會(huì)產(chǎn)生拼音符號(hào)流,并將其用在一個(gè)非??斓囊勋@得專利的搜索技術(shù)中。通過(guò)使用以拼音為基礎(chǔ)的方法,該軟件可以一次搜索整個(gè)詞組,而不是只搜索個(gè)別單詞。雖然該軟件仍然是在搜索互聯(lián)網(wǎng)時(shí)最有用,但能在本地使用設(shè)備的語(yǔ)音識(shí)別功能仍具有一些關(guān)鍵的優(yōu)勢(shì),因?yàn)樾枰l(fā)送的數(shù)據(jù)大大減少,而且很快,要知道語(yǔ)音是一種非常昂貴的信號(hào)發(fā)送。該軟件的應(yīng)用包括對(duì)智能手機(jī)或電腦說(shuō)出目的地,然后它會(huì)幫你找到公共交通路線等。

語(yǔ)音識(shí)別驗(yàn)證 在興起的所有類型的生物特征識(shí)別應(yīng)用中,基于語(yǔ)音的身份驗(yàn)證是用戶排斥較小的安全驗(yàn)證,它是一種非接觸式、非侵入式且易于使用的方法。使用說(shuō)話人的語(yǔ)音進(jìn)行驗(yàn)證可以有許多應(yīng)用。例如,當(dāng)倉(cāng)庫(kù)中員工在工作中走來(lái)走去時(shí),可以給他們配備可穿戴/便攜式語(yǔ)音數(shù)據(jù)收集系統(tǒng)使其進(jìn)入倉(cāng)庫(kù);可以對(duì)因酒后駕車而定罪的罪犯方便地進(jìn)行遠(yuǎn)程酒精測(cè)試。結(jié)合移動(dòng)定位系統(tǒng),語(yǔ)音驗(yàn)證還可以用于跟蹤保安人員,以確保他們自己在正常巡邏,而不是讓他們的朋友在幫他們巡邏。另外,語(yǔ)音驗(yàn)證也可作為多安全系統(tǒng)用來(lái)控制過(guò)境。比如在Montana州的Scobey,氣溫有時(shí)會(huì)降至零度以下,于是大多數(shù)其他形式的生物識(shí)別技術(shù)不再可行,而語(yǔ)音驗(yàn)證裝置卻可以照常工作。

在金融方面,語(yǔ)音驗(yàn)證也開(kāi)始有了應(yīng)用。Nuance公司2013年5月的調(diào)查數(shù)據(jù)顯示,有85%的人對(duì)當(dāng)前的身份驗(yàn)證方法不滿,因?yàn)橐卿浀姐y行帳戶、旅行網(wǎng)站或其他個(gè)人帳戶時(shí),必須要記住許多個(gè)人識(shí)別碼、密碼、安全問(wèn)題及其答案;數(shù)據(jù)還顯示,如果能有相同高的安全級(jí)別的話,90%的人希望能使用語(yǔ)音識(shí)別解決方案來(lái)代替?zhèn)鹘y(tǒng)的身份驗(yàn)證方法,因?yàn)檎Z(yǔ)音識(shí)別技術(shù)可以通過(guò)每個(gè)人獨(dú)特的聲音來(lái)標(biāo)識(shí)他,從而消除了要記住和鍵入密碼、個(gè)人識(shí)別碼的麻煩,讓身份驗(yàn)證過(guò)程變得快速而簡(jiǎn)單。

2013年5月,Barclays財(cái)富投資管理部署了Nuance的Free Speech語(yǔ)音識(shí)別方案,成為第一家在呼叫中心將被動(dòng)的語(yǔ)音識(shí)別技術(shù)部署為主要客戶驗(yàn)證手段的金融服務(wù)公司。自推出以來(lái),超過(guò)84%的Barclays客戶已在Nuance語(yǔ)音生物識(shí)別技術(shù)解決方案中注冊(cè),其中有95%的人第一次使用時(shí)就成功驗(yàn)證了身份。更妙的是,客戶與聯(lián)系中心的經(jīng)驗(yàn)反饋也有所改進(jìn),93%的客戶對(duì)新的身份驗(yàn)證系統(tǒng)就速度、易用性和安全性的評(píng)分至少為90分。Nuance的語(yǔ)音生物識(shí)別技術(shù)讓象Barclays銀行這樣的組織通過(guò)更直觀、更透明的認(rèn)證方式重新定義它們的客戶服務(wù)經(jīng)驗(yàn),減輕了客戶和服務(wù)代理的負(fù)擔(dān)。

汽車上的應(yīng)用 技術(shù)的發(fā)展一日千里,這極大影響了現(xiàn)代汽車中的駕駛員界面。先進(jìn)的駕駛員輔助系統(tǒng)、自動(dòng)泊車制動(dòng)系統(tǒng)和無(wú)鑰匙點(diǎn)火等創(chuàng)新從根本上改變了駕駛員界面的構(gòu)成。這些新的舒適性、信息和娛樂(lè)系統(tǒng)要求駕駛員處置大量的按鈕、旋鈕和屏幕,并且這一需求還在不斷增加。移動(dòng)智能手機(jī)和平板電腦也被越來(lái)越多地納入汽車中,以滿足駕駛員在行車中對(duì)連接和新服務(wù)的需求。對(duì)駕駛員來(lái)說(shuō),這顯然帶來(lái)了駕駛干擾和信息超載的風(fēng)險(xiǎn),尤其是這些主要車輛控制還只是冰山一角。而最有前景的解決方案似乎是語(yǔ)音控制,并且這早已是汽車行業(yè)的愿望。2013年現(xiàn)代的下一代汽車將有自然語(yǔ)言的語(yǔ)音啟動(dòng)電話撥號(hào)、消息聽(tīng)寫(xiě)、目的地輸入等,并能在車內(nèi)或在線音樂(lè)服務(wù)中搜索音樂(lè)。然而需要認(rèn)識(shí)到的是,即使有語(yǔ)音控制,駕駛員分神的風(fēng)險(xiǎn)依然存在。

自動(dòng)語(yǔ)音識(shí)別的其他應(yīng)用 移動(dòng)廣告是數(shù)字廣告中增長(zhǎng)最快的領(lǐng)域之一。根據(jù)eMarketer的數(shù)據(jù),2012年全球移動(dòng)廣告支出達(dá)84.1億美元,是2011年的40億美元的兩倍以上,并且預(yù)計(jì)到2013年達(dá)到近370億美元。作為創(chuàng)新性的新的移動(dòng)廣告格式,語(yǔ)音廣告是游戲規(guī)則改變者,它可以讓人們與他們喜歡的品牌有動(dòng)人有趣的雙向?qū)υ?,品牌可以通過(guò)讓消費(fèi)者在廣告中暢所欲言而令其對(duì)品牌產(chǎn)生持久的印象。在以前,從來(lái)沒(méi)有一個(gè)品牌能夠有超過(guò)10億用戶的個(gè)人對(duì)話,而這正是品牌一直渴求的與公眾的親密關(guān)系。目前Nuance VoiceAds已經(jīng)完全可以做到這一點(diǎn)。

2013年,松下新的高清智能電視SMARTVIERA采用Nuance配備的Dragon TV系統(tǒng),人們可以坐著通過(guò)語(yǔ)音來(lái)查找內(nèi)容、搜索網(wǎng)頁(yè)、控制音量等, 創(chuàng)造了更多的互動(dòng)和智能電視體驗(yàn)。

另一個(gè)更為有趣的應(yīng)用發(fā)生在俄羅斯,該國(guó)最大的零售銀行聯(lián)邦儲(chǔ)蓄銀行(Sber bank)開(kāi)發(fā)了一種使用語(yǔ)音識(shí)別來(lái)測(cè)謊的自動(dòng)提款機(jī)。該機(jī)器通過(guò)將客戶對(duì)一些問(wèn)題的反應(yīng)與一個(gè)記錄審訊中說(shuō)謊人的數(shù)據(jù)庫(kù)比較,從而確定客戶是否說(shuō)謊。

自動(dòng)語(yǔ)音識(shí)別的未來(lái)

除了從事自動(dòng)語(yǔ)音識(shí)別的研究和開(kāi)發(fā)的科學(xué)家和技術(shù)人員,大多數(shù)人考慮自動(dòng)語(yǔ)音識(shí)別時(shí)低估了它的復(fù)雜性。它不僅是自動(dòng)的文本到語(yǔ)音,復(fù)雜的識(shí)別任務(wù)的一個(gè)必要條件是自動(dòng)語(yǔ)音識(shí)別需要有大的數(shù)據(jù)容量和存儲(chǔ)器的快速計(jì)算機(jī),并且需要語(yǔ)音科學(xué)家、語(yǔ)言學(xué)家、計(jì)算機(jī)科學(xué)家、數(shù)學(xué)家和工程師的參與。這些參與者應(yīng)用神經(jīng)網(wǎng)絡(luò)、心理聲學(xué)、語(yǔ)言學(xué)、言語(yǔ)感知、人工智能、聲學(xué)語(yǔ)音學(xué)等領(lǐng)域的知識(shí),為實(shí)現(xiàn)人類和機(jī)器之間的自然會(huì)話這一最終目標(biāo)共同努力。

過(guò)去三十多年來(lái),語(yǔ)音識(shí)別研究的特點(diǎn)是小改進(jìn)的穩(wěn)步積累。由于語(yǔ)音識(shí)別性能的提高和更快計(jì)算機(jī)的可用,商業(yè)研究和其他學(xué)術(shù)研究繼續(xù)把重點(diǎn)放在日益難以解決的問(wèn)題上。其中一個(gè)關(guān)鍵領(lǐng)域是提高語(yǔ)音識(shí)別性能的強(qiáng)健耐用性,這不僅是指抗噪音方面,也包括在所有可能導(dǎo)致性能大幅下降的情況下的強(qiáng)健耐用性。另一個(gè)關(guān)鍵領(lǐng)域關(guān)注的是一個(gè)機(jī)會(huì),而不是一個(gè)問(wèn)題,因?yàn)檫@項(xiàng)研究嘗試?yán)迷S多應(yīng)用中的大量高達(dá)數(shù)百萬(wàn)小時(shí)的可用語(yǔ)音數(shù)據(jù)。如果靠人來(lái)把這些語(yǔ)音轉(zhuǎn)錄成文本,成本相當(dāng)高昂,因此研究關(guān)注的是開(kāi)發(fā)一種新的機(jī)器學(xué)習(xí)的方法,使之能有效地利用大量未標(biāo)記的數(shù)據(jù)。還有一個(gè)研究領(lǐng)域是更好地理解人的能力,并使用這種理解來(lái)提高機(jī)器識(shí)別性能。

自動(dòng)語(yǔ)音識(shí)別產(chǎn)品將會(huì)不斷完善,并被更多地使用。雖然在鍵盤(pán)上打字相對(duì)容易,但很難有人可以像說(shuō)話一樣快速準(zhǔn)確地鍵入文字?;谖覀兩畹默F(xiàn)代世界里時(shí)間是最重要的這一事實(shí),自動(dòng)語(yǔ)音識(shí)別將幫助人類提高生產(chǎn)力,讓我們能夠更容易更迅速地運(yùn)行搜索查詢、撰寫(xiě)重要文檔和管理我們的日常生活。此外,企業(yè)還將能在沒(méi)有互聯(lián)網(wǎng)連接時(shí)隨時(shí)使用相應(yīng)的應(yīng)用程序,而目前在旅行時(shí)這些應(yīng)用并不總是可用的。

下一代的移動(dòng)語(yǔ)音翻譯應(yīng)用將會(huì)針對(duì)特定的行業(yè)量身定制,這種特定的環(huán)境或目的假定可以提高準(zhǔn)確性。1993年,自動(dòng)語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率只有10%,到1995年大概為48%,而2001年系統(tǒng)的準(zhǔn)確率可達(dá)80%以上?;谧詣?dòng)語(yǔ)音識(shí)別系統(tǒng)準(zhǔn)確性的不斷提高,加之人類自身聽(tīng)語(yǔ)音演講時(shí)準(zhǔn)確率可達(dá)96%這一事實(shí),相信在不久的將來(lái),語(yǔ)音識(shí)別設(shè)備就能以比我們自己還要高的準(zhǔn)確度來(lái)抄寫(xiě)我們的語(yǔ)言。

猜你喜歡
語(yǔ)音自動(dòng)系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
自動(dòng)捕盜機(jī)
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
海林市| 广丰县| 兴安县| 邻水| 铜梁县| 靖安县| 东丰县| 成安县| 台湾省| 饶平县| 武强县| 广州市| 大埔区| 来安县| 阿坝县| 南宫市| 偏关县| 扶绥县| 临湘市| 寻乌县| 建平县| 溧阳市| 嘉义市| 腾冲县| 安国市| 富源县| 武隆县| 苍南县| 台北县| 卢氏县| 古交市| 莱州市| 阳高县| 博爱县| 呼玛县| 茌平县| 龙陵县| 黎城县| 偃师市| 金乡县| 甘孜县|