牛祿青
蘋果手機語音助手Siri的亮相,在全球掀起智能語音產(chǎn)業(yè)的發(fā)展熱潮,這是人機交互革命,抑或又一輪投資泡沫?為了深入了解智能語音技術和產(chǎn)業(yè)的發(fā)展背景、市場潛力、未來趨勢以及中國的機遇與挑戰(zhàn)等相關問題,本刊記者專訪了清華大學電子工程系副教授、多媒體信號與智能信息處理實驗室主任吳及。
前所未有的高度
《新經(jīng)濟導刊》:語音技術自上世紀50年代就出現(xiàn)了,為何最近兩年才開始火爆,是與蘋果的語音助手Siri推出有關嗎?
吳及:清華大學電子工程系多媒體信號與智能信息處理實驗室的前身,是由王作英教授1987年創(chuàng)建的語音識別技術實驗室。這個實驗室是國內(nèi)語音識別領域最有影響的研究團隊之一,到現(xiàn)在快三十年了。我的博士生導師王作英教授是我國語音識別技術領域的開拓者之一,當時在第一批國家863計劃中就對“語音翻譯”進行了立項,王老師是這個項目的負責人。從那時候起,我們一直在研究語音識別技術,親眼見證了語音技術的起起伏伏,猶如過山車一樣。
如果把應用前景展示給企業(yè)和用戶,他們會很興奮,希望馬上開發(fā)和應用語音識別技術,產(chǎn)業(yè)界也會以很大的熱情投入進來,隨后發(fā)現(xiàn)這種技術比想象的難很多,短期內(nèi)應用的可能性不大,于是就冷卻了。
這樣的起伏歷史上發(fā)生過好幾次了,上世紀70年代到80年代是一個高峰期。這時語音識別技術有很大提高,許多企業(yè)涌入,例如IBM、蘋果等,后來大部分企業(yè)都放棄了,包括蘋果,只有科研院所和少數(shù)企業(yè)還在繼續(xù)研究。上世紀90年代后期到2000年前后,又是一個高峰期,最典型的是IBM開發(fā)出聽寫機引擎Viavoice,漢王是這款產(chǎn)品的國內(nèi)代理,并結(jié)合手寫識別技術推出了漢王聽寫大師,雖然紅火了一陣,但大家在電腦上還是習慣于用鍵盤而不是語音輸入,接著又歸于沉寂。
這次的興起與過去不太一樣,超過以往任何一次的高度,商業(yè)化應用的規(guī)模、普通民眾的接受和認可程度,都遠遠超過了以往。不可否認,蘋果的Siri對語音識別技術的推廣起到了推波助瀾作用,刮起了智能語音風。但我認為,這輪熱潮是從Google開始的。2008年,Google在美國推出英文語音搜索服務Voice Search,剛開始用戶通過免費411電話,就可以獲取搜索結(jié)果。2009年,Google在全球范圍正式發(fā)布了谷歌中文語音搜索。
2010年,中國的科大訊飛發(fā)布了語音云平臺??拼笥嶏w之所以推出語音云,正是因為看到了互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,對智能語音產(chǎn)業(yè)的帶動已經(jīng)表現(xiàn)出來了。2011年,蘋果在iPhone4S的發(fā)布會上推出了Siri語音助手。2012年,科大訊飛又發(fā)布了第二代語音云,名為“訊飛語點”的中文語音助手可以用中文進行應答。很快,蘋果也推出中文版Siri。
從2012年開始,語音市場迅速升溫,國內(nèi)的互聯(lián)網(wǎng)企業(yè)開始涉足,例如百度、騰訊、搜狗,還涌現(xiàn)了許多創(chuàng)業(yè)公司,智能360、云知聲等。
我認為,智能語音已經(jīng)進入到產(chǎn)業(yè)化層面,最近5年的產(chǎn)業(yè)發(fā)展速度超過了過去50年,并且跟以往主要靠技術推動有很大差異。
最近幾年,智能語音產(chǎn)業(yè)之所以有突破性發(fā)展,有幾個因素起到了關鍵作用:一是移動互聯(lián)網(wǎng)的發(fā)展,使手機成為重要的客戶端?,F(xiàn)在手機數(shù)量已經(jīng)遠遠超過PC和筆記本,導致越來越多的交互行為通過手機來完成。蘋果ios、安卓等智能手機操作系統(tǒng)推出后,手機應用和手機交互逐漸增多,但在手機上靠傳統(tǒng)的鍵盤輸入很不方便,手寫又太慢,而使用語音輸入很方便,這樣用戶的需求就被激發(fā)了。
二是云計算的發(fā)展。以前語音識別講兩頭,一方面看電信領域能否應用,另一方面盡量挖掘手機的資源潛力,但手機的計算資源和存儲資源很有限?,F(xiàn)在隨著移動互聯(lián)網(wǎng)和云計算的發(fā)展,語音識別不需要在本機做了,可以在云端做。這樣資源條件大為放松,對語音識別引擎不需要非常嚴格的限制了。此外,用戶的語音數(shù)據(jù)可以存放在云端,就能有大量的真實數(shù)據(jù)用于模型訓練,語音識別性能得到了迅速地提高,識別率可以達到85%~90%以上,這就達到了用戶使用的最低門檻。有了服務端以后,數(shù)據(jù)形成了循環(huán),計算資源的要求放松,這是智能語音產(chǎn)業(yè)發(fā)展的重要條件。
三是語音識別技術一直在進步,最近十年也不斷有新的突破,例如聲學模型的鑒別力訓練和近年來非常熱的深度神經(jīng)網(wǎng)絡。
《新經(jīng)濟導刊》:語音技術包括語音合成、語音識別、語義理解、知識圖譜等子技術,為何把語音識別稱作智能語音行業(yè)的“皇冠”?
吳及:這是把交互的環(huán)節(jié)拆解了,好比甲乙兩臺設備對話,甲說話就是語音合成,把文字轉(zhuǎn)化成聲音,乙聽到后轉(zhuǎn)化成內(nèi)容就是語音識別,真正理解了聽到的內(nèi)容就是語義理解,然后乙再進行應答,又是語音合成,這樣循環(huán)往復。
語音合成技術相對容易,成熟最早,比如打電話查詢考試分數(shù);而語音識別技術難度大,雖然過去性能一直在提高,但距離推廣應用總有一段距離?,F(xiàn)在國內(nèi)外企業(yè)的語音識別準確率,在某些應用領域超過了90%,比如語音搜索、語音輸入、語音提醒等,但在有些領域還達不到。
知識圖譜是把人的知識結(jié)構(gòu)化、關聯(lián)化。比如劉德華是歌手,有哪些特點、愛好等,把更多相關知識呈現(xiàn)給用戶。
《新經(jīng)濟導刊》:最近聽說一個很流行的IT概念“深度神經(jīng)網(wǎng)絡”(Deep Neural Network, DNN),這和語音識別有什么關系呢?
吳及:神經(jīng)網(wǎng)絡也是一個有幾十年歷史的技術了,包括一個輸入層和一個輸出層,當中有很多隱層(不是外部直接可見)。以往方法只能訓練出比較少的層次,更深的層次,訓練算法做不好,數(shù)學證明,層次越多,描述能力越強。最近三至五年,深度神經(jīng)網(wǎng)絡的訓練方法有了突破,深度神經(jīng)網(wǎng)絡的理論和應用問題有了迅速的發(fā)展。于是大家紛紛研究深度神經(jīng)網(wǎng)絡,最重要的應用成果之一就是語音識別,這既提高了語音識別的性能,也證明了深度神經(jīng)網(wǎng)絡的價值。所以,這個技術現(xiàn)在很火,學者采用深度神經(jīng)網(wǎng)絡來研究包括語音識別在內(nèi)的許多問題。
2006年,加拿大多倫多大學教授Hinton提出了深度神經(jīng)網(wǎng)絡的學習算法,使得多層神經(jīng)網(wǎng)絡的有效訓練成為可能,這就是所謂的DNN。
微軟雷德蒙德研究院的研究員鄧力敏銳地捕捉到了神經(jīng)網(wǎng)絡技術的這一突破性的進展,就把Hinton請到微軟,討論如何把深度神經(jīng)網(wǎng)絡應用到語音識別技術上。2011年8月份,微軟亞洲研究院發(fā)表了一篇學術論文,闡述在這方面取得的成果,通過引入DNN使得在特定語料庫上的語音識別準確率得到了大幅提高,性能的相對改善約為30%。
從這以后,越來越多的企業(yè)和研究機構(gòu)都對深度神經(jīng)網(wǎng)絡進行研究、開發(fā)和應用。深度學習是一個更寬泛的概念,主要指如何把深度神經(jīng)網(wǎng)絡學得更好、更快,并能在不同場合更好地應用。
市場應用前景巨大
《新經(jīng)濟導刊》:語音識別技術在移動互聯(lián)網(wǎng)、智能電視、車載終端、教育、玩具等方面已經(jīng)有所應用,您對該技術的發(fā)展趨勢怎么看?哪些領域會最先成為爆發(fā)點?
吳及:智能語音技術的發(fā)展趨勢包括兩個層面,一是在線應用(B2C),與語音工具實時對話,例如普通用戶拿手機語音命令控制、咨詢問題、搜索、獲取信息等;可以讓語音玩具背詩、唱歌、翻跟頭等;打客服電話獲得某項服務,比如自動語音查詢余額等。在線應用主要解決兩個問題:方便性和有效性。
二是離線應用(B2B),離線應用是通過與數(shù)據(jù)挖掘技術的結(jié)合,能夠從海量數(shù)據(jù)中發(fā)現(xiàn)知識、規(guī)律,為人們解決問題提供征兆、趨勢和思路。語音數(shù)據(jù)也是大數(shù)據(jù),比如呼叫中心,每天的電話數(shù)據(jù)非常驚人,中國移動的一個省級呼叫中心,一天的數(shù)據(jù)就有上萬小時。還有電視、廣播、互聯(lián)網(wǎng)等媒體上的語音數(shù)據(jù)太多了。這些數(shù)據(jù)如果不能被有效處理,就無法被應用,只能被閑置,實際上可以利用語音識別技術將這些數(shù)據(jù)轉(zhuǎn)化成文字等符號性表示,然后再被挖掘、檢索和利用。
離線應用比在線應用確定性更強,語音交互的在線應用需要和其它的交互方式競爭,而離線應用由于面向海量數(shù)據(jù),只能選擇語音識別技術,使用人工轉(zhuǎn)寫,時間和人力成本都太高了。在線應用更貼近老百姓,離線應用服務于企業(yè)。
在線應用領域,最先被接受和爆發(fā)的是最有價值的、應用條件最好的、企業(yè)愿意投入更大精力去優(yōu)化的、用戶群更大的垂直領域,比如短信、搜索、查詢(天氣預報、航班、火車、音樂、電影)。離線應用由于沒有可替代性,也一定會發(fā)展起來。
我們實驗室已經(jīng)在做離線應用了,與科大訊飛有合作,我們負責離線技術研發(fā),科大訊飛負責應用系統(tǒng)開發(fā)和產(chǎn)業(yè)推廣。很多運營商已經(jīng)使用我們的技術,語音識別準確率達到了80%以上。今年會在中國移動的一些分公司進行推廣。
離線應用有兩方面價值,一是監(jiān)控客服質(zhì)量,提高企業(yè)服務水平。實際還可以推廣到金融、保險等領域。二是語音分析,通過語音識別和數(shù)據(jù)挖掘技術,可以更全面地了解實際情況,比如哪些業(yè)務最受歡迎或最不受歡迎,哪些業(yè)務出現(xiàn)了問題等等。
信息技術是滲透性的,它可以改變所有產(chǎn)業(yè)的形態(tài),語音技術也是如此。隨著工作和生活節(jié)奏的加快,人們需要隨時隨地獲取信息和知識,提高效率,語音交互提供一種最為方便快捷的手段。
目前語音市場規(guī)模還不大,但這個領域的想象空間非常大。如果所有手機、電視、汽車、教育、呼叫中心變成語音智能化,每一個細分領域都將是上千億。五年之內(nèi),智能語音技術產(chǎn)業(yè)將會有一個很大的發(fā)展。
躋身主流交互方式
《新經(jīng)濟導刊》:現(xiàn)在的語音識別技術完全可以支持產(chǎn)業(yè)化應用嗎?
吳及:人機交互的可選方式很多,除了語音輸入,還可以選擇手寫輸入、鍵盤輸入等?,F(xiàn)在市場上的語音產(chǎn)品只能支持普通話和帶口音的普通話,逐步支持個別方言,大部分的方言還不行。從性能上來講,語音識別技術的對手是人,老百姓容易對語音技術有過高的期望,要能像人一樣聽懂別人說的話,這是十分困難的。
目前,語音技術并沒有成熟到像賣手機一樣可以普及推廣,需要根據(jù)不同場景和應用對語音識別引擎、數(shù)據(jù)、技術進行針對性優(yōu)化,才能讓用戶接受。這也是語音識別技術大范圍推廣的瓶頸。如果想讓語音識別技術非常成熟,需要一個長期的過程,語音識別和語義理解,實際上已經(jīng)屬于人工智能的范疇了。
當然,針對不同領域,可以開發(fā)相應的語音識別引擎和私有云,這里面就蘊藏著巨大商機,但要選擇用戶規(guī)模大的領域。
《新經(jīng)濟導刊》:我體驗了一下已推向市場的語音助手產(chǎn)品,有些情況下還是聽不懂我說的話?
吳及:語音識別只是解決了一個問題,把語音變成了文字,但通常還需要對識別內(nèi)容進行理解,即語義理解,這就非常難了。所以語音工具有時候還不錯,有時候很傻,有時候極其愚蠢。人的智能不是目前的機器所能達到的,說話的場合、語氣、手勢、表情等都會影響內(nèi)容的表達效果。如果僅靠聲音識別就丟失了很多信息,而且還會存在表達歧義、知識背景等問題,所以,通暢無阻的語音識別技術太難了。我雖然說它逐步成熟,但也是在有限場合和范圍得到應用,至少在短期內(nèi)不要期望它能適用于任何場景。
《新經(jīng)濟導刊》:對于智能語音技術的興起,現(xiàn)在業(yè)內(nèi)有兩種聲音,有人認為這是一次人機交互革命,還有人認為又是一輪投資泡沫。您怎么看?
吳及:每一種新技術的興起,總會有不同聲音,有人可能很興奮,有人可能會質(zhì)疑它。我們在語音領域時間較長,相對平靜一些,但我們覺得,這次要超過以往的高度,而且確實在一些領域?qū)崿F(xiàn)了比較成功的商業(yè)化應用。是否能成為特別重要的入口,還存在不確定因素。在若干種交互方式同時發(fā)展、都能起作用的情況下,成為惟一的交互方式,不太容易,因為有些場合不適合語音交互,而且技術上也會有一定限制。未來最可能的還是混合的交互方式,成為主流交互方式之一,不同的場景,不同的用戶需要,不同的用戶習慣,都會造成選擇交互方式的多元化。
人類對未來的預測和展望實際上是被人類創(chuàng)造出來的,如果人們越來越覺得語音交互重要,那語音技術就會逐漸趨于成熟,并被廣泛應用?,F(xiàn)在幾乎所有互聯(lián)網(wǎng)廠商都把語音作為非常重要的入口之一,因為它具有方便快捷的優(yōu)勢,而且在車載、行走等移動環(huán)境下,優(yōu)勢更明顯。通過技術上的不斷優(yōu)化和完善,我相信語音交互會成為人機交互的重要組成部分,快則一兩年,慢則三五年。人和語音供應鏈是個相互適應的過程,技術不斷在發(fā)展,用戶也在逐步被熏陶和教育,到一個點就平衡了。
產(chǎn)業(yè)格局:一專多大?
《新經(jīng)濟導刊》:如何判斷一家公司的語音識別技術水平?有人說,關鍵看是否推出了語音云平臺。請談一下您的看法?
吳及:實踐是檢驗真理的惟一標準,衡量一家公司的語音識別技術水平,首先要看它的語音識別準確率。要想達到85%以上的語音識別準確率,必須掌握主流的語音識別技術。
實際上,語音識別技術是一個復雜的系統(tǒng),包括信號處理的前端、特征提取、特征的后處理、模型訓練、解碼等許多環(huán)節(jié),后來又加入高鑒別性模型訓練和深度神經(jīng)網(wǎng)絡。
語音識別技術包括兩個層面,一是研發(fā)語音識別系統(tǒng)的能力,語音信號輸入后處理成文字的速度和準確率;二是云架構(gòu),是具備提供大規(guī)模語音識別服務能力的基礎,要求識別服務是否能同時響應成千上萬人的需求。云平臺需要對大規(guī)模的服務器集群進行建設、維護和管理,這也是語音企業(yè)的核心競爭力之一。
《新經(jīng)濟導刊》:清華大學是智能語音研究比較早的機構(gòu)之一,請介紹一下國內(nèi)智能語音的學術格局和產(chǎn)業(yè)格局?
吳及:國內(nèi)從事智能語音研究的高校和科研機構(gòu)比較多,其中研究時間較早、具有自己的語音識別系統(tǒng)、綜合實力較強的單位有清華大學、中國科學技術大學、中科院自動化所、中科院聲學所,此外北京大學、北京郵電大學、北京理工大學等也具備一定實力。
從國際上看,智能語音產(chǎn)業(yè)表現(xiàn)為一專多大,即一個專業(yè)公司Nuance和幾個大的IT公司,Google、微軟、IBM、蘋果等。目前,國內(nèi)的產(chǎn)業(yè)格局也基本相似,一個專業(yè)公司科大訊飛,其他幾個互聯(lián)網(wǎng)公司,如百度、騰訊、搜狗等,阿里巴巴和360可能也會逐步加入進來。
除中國以外,國外的語音技術企業(yè)基本都被Nuance收購了,誰做得好,Nuance就把它收購。這與語音技術的特點有關系,語音技術投資大,應用面很寬,但單位價值不高,它不是一個暴利的行業(yè),所以一定要形成規(guī)模優(yōu)勢,而小公司的生存和發(fā)展就相對困難,國際上語音專業(yè)公司已經(jīng)是Nuance一家獨大。
Google、微軟、IBM、蘋果雖然也做智能語音技術,但它們不指望語音業(yè)務本身帶來收入,而是與它的生態(tài)系統(tǒng)建設息息相關。比如成為入口,吸引更多用戶,主要靠其他業(yè)務獲得收益。
如果不是中國語言和文化的特殊性,有可能全世界都是一專多大的格局。Nuance進入中國,需要解決的問題很多,比如文化融合、語言、技術工程師的支持等。即使Nuance中文識別做得很好,一旦涉及到具體應用就很吃力。
科大訊飛與Nuance雖然都是專業(yè)的語音技術公司,但有所差別。由于國外的互聯(lián)網(wǎng)企業(yè)實力很強,Nuance的定位就是提供語音技術服務,它的主要收入渠道是醫(yī)療、律師、運營商,此外還為手機廠商如蘋果、車載等提供語音技術服務。
國內(nèi)的互聯(lián)網(wǎng)企業(yè)進入語音技術領域要晚一些,但也在加大投入??拼笥嶏w的發(fā)展目標也不是單純的技術提供商,希望通過推出語音云打造自己的語音技術應用平臺,從而構(gòu)建自己的生態(tài)系統(tǒng)。
百度專注于互聯(lián)網(wǎng)模式下的語音技術,是國內(nèi)互聯(lián)網(wǎng)企業(yè)做得最早的,引進國內(nèi)外人才,充分發(fā)揮自身優(yōu)勢,時機抓得很好,進步非常明顯。
需要引起重視的是,智能語音行業(yè)人才缺乏,很多企業(yè)在專業(yè)人才招聘時都遇到了很大的困難。清華大學、中國科技大學、中科院自動化所、中科院聲學所的學生一畢業(yè),馬上被搶走了。頂尖人才那就更稀缺了。
構(gòu)建語音生態(tài)系統(tǒng)
《新經(jīng)濟導刊》:智能語音行業(yè)具有很高的技術壁壘,面對國際巨頭的強勢,國內(nèi)一些公司也在加大語音識別產(chǎn)品的研發(fā)和推廣,與國外企業(yè)相比,中國企業(yè)有哪些優(yōu)勢和劣勢?如何縮小差距?
吳及:中國企業(yè)最大的優(yōu)勢就是語言,中文讓中國的互聯(lián)網(wǎng)、文化產(chǎn)業(yè)等具有很大發(fā)展?jié)摿?。中國企業(yè)經(jīng)常談國際化,如果是新加坡、以色列的企業(yè)就不會有國際化的問題,它一誕生就必須是國際化,因為靠本土市場不足以支撐其發(fā)展。中國的企業(yè)普遍存在國際化問題,因為國內(nèi)外的市場差異比較大,同時中國的市場足夠大,不需要走出去同樣可以獲得生存和發(fā)展。語言和文化的壁壘有時候無法逾越,這也是國內(nèi)的互聯(lián)網(wǎng)企業(yè)雖然技術和商業(yè)模式上并不比國外企業(yè)先進,但依然活得很好,能夠與國外企業(yè)抗衡的一個基本因素。
中國市場環(huán)境的成熟化方面,比美國還是有差距的。國內(nèi)企業(yè)在構(gòu)建自己的生態(tài)系統(tǒng)、文化創(chuàng)新、商業(yè)化運作、發(fā)展模式創(chuàng)新等需要加強。國內(nèi)的科研院所和企業(yè)在語音識別技術上與國際先進水平差距不大,在互聯(lián)網(wǎng)環(huán)境下技術跟進很快,在漢語語音技術上還有自身的優(yōu)勢,是一個很有發(fā)展前景的產(chǎn)業(yè)。工信部副部長楊學山曾表示,智能語音是中國為數(shù)不多的具有自主知識產(chǎn)權又能達到國際先進水平的產(chǎn)業(yè)。
國際上移動互聯(lián)網(wǎng)領域應用最成功的企業(yè)是Google和蘋果,蘋果用iPhone終端打造了一個生態(tài)系統(tǒng),而Google用安卓操作系統(tǒng)打造了一個生態(tài)系統(tǒng)。這些頂級企業(yè)具有很強的創(chuàng)新能力,蘋果重新構(gòu)建了手機,Google重新定義了開放的手機操作系統(tǒng)。國內(nèi)企業(yè)目前還是有差距的,這與國內(nèi)企業(yè)的競爭實力、創(chuàng)新能力和市場環(huán)境有關系。當然,也有不少企業(yè)開始了這方面的努力,例如百度、騰訊、科大訊飛等。
《新經(jīng)濟導刊》:您認為中國推進智能語音產(chǎn)業(yè)化,需要解決哪些問題?
吳及:中國人口眾多,市場容量大,有很好的機會。只有加快智能語音產(chǎn)業(yè)發(fā)展,才能避免受制于人。國家要支持企業(yè)建立語音生態(tài)系統(tǒng),但要把握好力度和分寸。美國政府對語音技術和語音產(chǎn)業(yè)的支持力度很大,從簡單的任務做起,航空、銀行數(shù)據(jù)的識別,華爾街日報數(shù)據(jù)的采集和識別,逐步走向難度更大,更接近真實場景的任務。如電話語音識別、語音翻譯等,剛開始是純技術研究,逐步轉(zhuǎn)向?qū)嶋H應用,比如不同語言的互譯,可以應用于情報收集和軍事安全需要。
所謂生態(tài)系統(tǒng),是指所有事情非某個人或某個企業(yè)包辦,既有企業(yè)提供基礎平臺服務,又有大量二次開發(fā)產(chǎn)生自己的價值。如果蘋果和安卓上沒有那么多應用,蘋果和安卓平臺也沒有那么大價值。
同樣,如果有越來越多的企業(yè)去做語音應用和進行二次開發(fā),用戶就會享有更多更好的語音產(chǎn)品和體驗。這樣平臺企業(yè)也會做大做強,整個語音生態(tài)系統(tǒng)就形成了,國內(nèi)語音產(chǎn)業(yè)抵御風險的能力就提高了。除了移動互聯(lián)網(wǎng)的平臺,還應該推動教育、電視等智能化平臺的建設。
諾基亞手機的質(zhì)量和用戶體驗一直得到用戶贊許,很早推出基于Symbian的智能手機,但由于沒有建立起良性的生態(tài)系統(tǒng),沒有開發(fā)商做應用,也丟掉了用戶,因此在移動互聯(lián)網(wǎng)時代很快落伍了。如果國內(nèi)企業(yè)不能建立起自己有生命力的語音生態(tài)系統(tǒng),國外企業(yè)遲早會喧賓奪主搶占地盤。