楊玄章
智能購物助理,對(duì)著它說你想買什么,它就能運(yùn)用語音識(shí)別軟件記錄下來,并分好類。當(dāng)你去購物前打印出來即可
就在十幾年以前,基于人工智能的語音識(shí)別和合成還僅是科幻電影的元素。那個(gè)時(shí)候,人們認(rèn)為“能和人類對(duì)話”、“替人類講話”等技術(shù)還有很長(zhǎng)的路要走。
2014年,在英國(guó)雷丁大學(xué)舉辦的圖靈測(cè)試競(jìng)賽上,人類設(shè)計(jì)的機(jī)器問答對(duì)話系統(tǒng)首次通過了著名的“圖靈測(cè)試”。圖靈測(cè)試是由計(jì)算科學(xué)領(lǐng)域的大師阿蘭·圖靈在1950年提出的,他認(rèn)為如果設(shè)備能在5分鐘內(nèi)答由人類測(cè)試者提出的一系列問題,且其超過30%的回答讓測(cè)試者認(rèn)為是人類所答,則可以認(rèn)為這個(gè)設(shè)備具備人工智能。64年后的這次測(cè)試中,俄羅斯人維西羅夫的人工智能軟件“尤金”成功地讓測(cè)試者在33%的情況下認(rèn)為是在與人類對(duì)話。
這之后智能語言的發(fā)展就一發(fā)不可收拾了,成為各個(gè)國(guó)家科學(xué)家和業(yè)內(nèi)領(lǐng)先企業(yè)的重要突破口。
很快,以科大訊飛為代表的語音識(shí)別的精度提高到了95%以上。
微軟研究院的系統(tǒng)可以達(dá)到與人類相同的對(duì)話水準(zhǔn),實(shí)現(xiàn)了歷史性的突破。從谷歌大腦(Google Brain)項(xiàng)目中脫穎而出的谷歌翻譯,已經(jīng)接近人類筆譯的水平。
就在2016年10月,微軟又宣布,其語音識(shí)別系統(tǒng)的詞錯(cuò)率降低到5.9%,這已經(jīng)相當(dāng)于人類專業(yè)速錄員的水平。這意味著,計(jì)算機(jī)第一次在對(duì)話中的詞匯識(shí)別上做到跟人類一樣好。
現(xiàn)如今,在智能語音技術(shù)上,各個(gè)公司的目標(biāo)已經(jīng)定位在“超越人類水平”,請(qǐng)注意:不是超越人類設(shè)計(jì)制造的智能設(shè)備或者程序,而是超越人類本身。
一個(gè)古老的方向
語音技術(shù)一直是考驗(yàn)計(jì)算機(jī)智能水平最重要的一塊“試金石”之一。在眾多的計(jì)算科學(xué)子學(xué)科里,語音技術(shù)應(yīng)該算是最古老的方向之一了。教科書里普遍把智能語音技術(shù)的最早實(shí)質(zhì)性實(shí)踐定位在1952年貝爾實(shí)驗(yàn)室設(shè)計(jì)實(shí)現(xiàn)的Audrey系統(tǒng)上,這是一次里程碑式的突破,計(jì)算機(jī)歷史上第一次正確識(shí)別出了十個(gè)阿拉伯?dāng)?shù)字的讀音及含義。
不過事實(shí)上,與智能語音技術(shù)相關(guān)的工作早在一個(gè)世紀(jì)前就開始了。1877年,愛迪生發(fā)明了留聲機(jī),可以把聲音記錄和重放。這個(gè)看似簡(jiǎn)單的發(fā)明其實(shí)奠定了語音相關(guān)研究的基礎(chǔ)。因?yàn)橹挥腥藗兛梢哉_記錄和播放聲音,才有可能去研究它。
1936年,貝爾實(shí)驗(yàn)室的工程師們?cè)O(shè)計(jì)實(shí)現(xiàn)了Voder系統(tǒng),這是人類第一個(gè)電子聲音合成系統(tǒng),自此開創(chuàng)了一個(gè)新的學(xué)科。1952年,貝爾實(shí)驗(yàn)室的Audrey也利用了Voder,這樣他們才既可以聽懂十個(gè)阿拉伯?dāng)?shù)字,又可以“說出”十個(gè)阿拉伯?dāng)?shù)字,這樣一個(gè)完整的機(jī)器對(duì)話系統(tǒng)算是有了雛形。
有了這樣的開局,人們都看到了希望,各大公司和大學(xué)等機(jī)構(gòu)投入巨資去研究語音識(shí)別技術(shù)。1962年,IBM的“鞋盒子”(Shoebox system)可以聽懂16個(gè)英文單詞;1971年,美國(guó)DARPA(美國(guó)國(guó)防部下屬的研發(fā)機(jī)構(gòu))資助的項(xiàng)目組演示了可以識(shí)別1000個(gè)單詞的技術(shù),緊接著卡耐基梅隆大學(xué)的Harpy系統(tǒng)就能聽懂1000多個(gè)單詞了。雖然這個(gè)早期階段被業(yè)內(nèi)人士稱為僅是“baby talk”,但是他們的積極嘗試給以后語音技術(shù)大發(fā)展奠定了重要的理論及實(shí)踐基礎(chǔ)。
上世紀(jì)八十年代開始,由于引入了一個(gè)隱藏馬爾科夫模型(Hidden Markov Model HMM),這個(gè)領(lǐng)域產(chǎn)生了質(zhì)的飛躍,語音識(shí)別的準(zhǔn)確度和合成的精度都大幅提升。這個(gè)模型的發(fā)明人就是大名鼎鼎的數(shù)學(xué)家雷昂納德鮑姆,他也是華爾街量化交易的奠基人之一。有了這一利器,語音技術(shù)的發(fā)展一發(fā)不可收拾,各種越來越智能的語音系統(tǒng)層出不窮,可以商用的系統(tǒng)也開始進(jìn)入家庭(如Julie娃娃),走進(jìn)個(gè)人電腦(如微軟office語音識(shí)別系統(tǒng)),手機(jī)(如蘋果的Siri)和互聯(lián)網(wǎng)(如谷歌的voice search)。這一階段是智能語音技術(shù)發(fā)展的“飛躍時(shí)期”,語音識(shí)別和合成技術(shù)真正走向?qū)嵱?,并在全社?huì)的各個(gè)角落開花結(jié)果。
然而,智能語音領(lǐng)域的專家和開拓者一直有一個(gè)夢(mèng)想, 就是創(chuàng)造出真正可以和人類對(duì)話的人工智能系統(tǒng)。就這樣,故事回到了本文開頭時(shí)提到的2014年圖靈測(cè)試競(jìng)賽。不過,“尤金”的成功仍只是個(gè)開頭,這個(gè)領(lǐng)域在近兩年進(jìn)入了真正的黃金時(shí)代。隨著深度學(xué)習(xí)的引入,機(jī)器可以更加深入地學(xué)習(xí)并理解語音;配以更高性能CPU和GPU的智能終端和機(jī)器人們,可以更高速地處理語音,理解更深層次的語義;高速網(wǎng)絡(luò)、云計(jì)算和大數(shù)據(jù)的支持使得人們可以讓機(jī)器進(jìn)行更大規(guī)模的統(tǒng)計(jì)訓(xùn)練,學(xué)習(xí)海量的語素,更有效地理解和還原各種人類語言的含義……
在2016 BOT大數(shù)據(jù)應(yīng)用大賽上,闖進(jìn)決賽的11個(gè)機(jī)器人項(xiàng)目無一例外地展現(xiàn)了成熟且強(qiáng)大的智能語音能力,這些應(yīng)用范圍非常廣,涵蓋了購物、招聘、法律、旅游、教育、保健、客服、投資等多個(gè)領(lǐng)域,著實(shí)讓人眼前一亮。如智能購車顧問,它將購車過程中的所有知識(shí)和大家的需求都納入了學(xué)習(xí)的范圍,結(jié)合互聯(lián)網(wǎng)海量的汽車評(píng)論,在對(duì)話中通過了解用戶的屬性、需求、說話方式來推測(cè)適合用戶的車。還有的將機(jī)器人對(duì)話應(yīng)用在人力資源領(lǐng)域,以后使用這種技術(shù)的公司就不用安排寶貴的人力去做首輪面試了,支持智能語音能力的機(jī)器人就可以勝任了。
也就在前不久,美國(guó)《華盛頓郵報(bào)》報(bào)道了一個(gè)出人意料的新職業(yè):機(jī)器人作家。報(bào)道認(rèn)為電腦已經(jīng)具備學(xué)習(xí)和理解人類語言中深層次東西的能力,因此具備了成為詩人、劇作家、小說家的潛質(zhì)。就在今年的里約奧運(yùn)會(huì)上,這家報(bào)紙就把這個(gè)新“記者”邀請(qǐng)到報(bào)道團(tuán)隊(duì)中,它的名字叫“Heliograf”。在里約奧運(yùn)會(huì)上,一些初級(jí)的報(bào)道內(nèi)容(比如說獎(jiǎng)牌榜、比賽時(shí)間、新媒體互動(dòng)等)全部是這個(gè)“新入行”的記者完成的。
2016年,白宮在Facebook上為總統(tǒng)奧巴馬“聘請(qǐng)”了一位機(jī)器人,用以增強(qiáng)總統(tǒng)與普通民眾之間的交流。要知道美國(guó)總統(tǒng)是個(gè)很忙的職業(yè),但是在Facebook上,每天有數(shù)以十萬計(jì)的民眾給他留言,希望得到一個(gè)回復(fù)。這時(shí)候,聊天機(jī)器人就有用武之地了。這個(gè)“總統(tǒng)發(fā)言人”可以從大量的留言中歸類篩選出最有人氣的問題發(fā)給總統(tǒng)。在奧巴馬回復(fù)之后,機(jī)器人又可以把這些回復(fù)變換成合適的句式和語氣回復(fù)給廣大的網(wǎng)友。
可以預(yù)見到,在不久的將來,智能語音技術(shù)將催生更多的創(chuàng)新,迸發(fā)出更大的能量。
數(shù)字語音技術(shù)圖譜
用起來簡(jiǎn)單的智能語音技術(shù)并不簡(jiǎn)單,在端到端的應(yīng)用中,需要多種技術(shù)來支持。
首先,要“聽得懂”?;镜恼Z音識(shí)別過程中,首先會(huì)利用移動(dòng)窗口函數(shù)將一段連續(xù)的語音波形切開成一小段一小段,每小段稱為一幀。分幀之后,需要對(duì)每一個(gè)小段進(jìn)行波形變換,根據(jù)人耳的生理特性進(jìn)行特征提取,將這些表面上雜亂無章的內(nèi)容變成具有不同特征的多維向量,從而組成不同的狀態(tài),這一步是語音識(shí)別中最難的地方。解決這個(gè)問題最成熟的方法就是運(yùn)用隱藏馬爾可夫模型(HMM),將各個(gè)幀最合理地組成狀態(tài)再把狀態(tài)組合成因素,最后將因素組合成單詞。
其次,要“傳得開”。由于要?jiǎng)佑么罅康暮笈_(tái)資源進(jìn)行模型訓(xùn)練、語音分解和語義理解,語音的壓縮和傳輸技術(shù)也是必不可少的一環(huán)。隨著各種高保真立體聲的語音壓縮技術(shù)的引入,在各種應(yīng)用中參與交流的各方都可以接收到高質(zhì)量的話音。
再者,要“答得出”。在正確識(shí)別出語音的基本語素,同時(shí)能保證高質(zhì)量的傳輸后,需要人工智能技術(shù)來弄懂這里面的深刻含義,并給出正確合理的答案。自然語言處理(NLP)是這個(gè)領(lǐng)域最核心的技術(shù),同時(shí)也是一個(gè)非常廣博的技術(shù)方向,其中包括詞類標(biāo)注、詞法分析、句法分析、篇章分析、情感分析等多個(gè)技術(shù)。早期的NLP受到計(jì)算能力的限制,往往采用一些基本的機(jī)器學(xué)習(xí)算法來進(jìn)行分類、理解和整理,精度不是很高,只能滿足特定場(chǎng)景的應(yīng)用。隨著計(jì)算能力的提升,網(wǎng)絡(luò)質(zhì)量的提高以及大數(shù)據(jù)技術(shù)的引入,人們可以采用更復(fù)雜的深度學(xué)習(xí)來進(jìn)行這項(xiàng)工作。
最后,要“說得出”。在智能語音技術(shù)中,數(shù)字語音合成這個(gè)領(lǐng)域最早產(chǎn)生大規(guī)模的應(yīng)用。在機(jī)場(chǎng)、火車站、智能手機(jī)、導(dǎo)航、商場(chǎng)等多個(gè)領(lǐng)域,文字轉(zhuǎn)語音(Text-To-Speech, TTS)都發(fā)揮著巨大的作用。后來,TTS系統(tǒng)不僅可以自動(dòng)合成語音,還能根據(jù)現(xiàn)場(chǎng)環(huán)境、情感和語境來變換語速和語調(diào),還能模擬特定人物的語音,“志玲姐姐”就在某導(dǎo)航軟件中通過TTS技術(shù)展現(xiàn)出來。如今,機(jī)器人可以利用這項(xiàng)技術(shù)可以不費(fèi)吹灰之力將自然語言處理的結(jié)果展現(xiàn)出來,惟妙惟肖,生動(dòng)可人。
責(zé)任編輯:方丹敏
人機(jī)語音交互,使人與機(jī)器之間溝通變得像人與人溝通一樣簡(jiǎn)單。讓機(jī)器說話,用的是語音合成技術(shù);讓機(jī)器聽懂人說話,用的是語音識(shí)別技術(shù)
父親,