牛祿青
從十九世紀(jì)末的打孔卡和紙帶輸入,到盛行了數(shù)十年的鍵盤(pán)鼠標(biāo),再到現(xiàn)在流行的觸摸輸入,人機(jī)交互正在變得更直觀、自然和人性化。近幾年,隨著語(yǔ)音識(shí)別技術(shù)的快速發(fā)展,智能語(yǔ)音正成為新的人機(jī)交互方式。
“以前我們說(shuō)鼠標(biāo)加水泥等于新經(jīng)濟(jì)加傳統(tǒng)經(jīng)濟(jì),現(xiàn)在鼠標(biāo)已經(jīng)不是新經(jīng)濟(jì),手機(jī)的輸入方式已經(jīng)是手勢(shì)、語(yǔ)音甚至圖像?!卑俣菴EO李彥宏說(shuō),去年一年語(yǔ)音識(shí)別的準(zhǔn)確率提升比此前15年提升的總和還要多。智能手機(jī)的普及也使得這方面的需求大大激發(fā)。
2011年10月4日,iPhone4S對(duì)外發(fā)布,讓用戶感到新奇的是,智能語(yǔ)音助手Siri被成功植入iPhone4S之中。Siri的橫空出世,在全球引發(fā)了語(yǔ)音熱潮,各類語(yǔ)音助手幾乎成為智能手機(jī)的必備應(yīng)用。
相比早期的語(yǔ)音控制系統(tǒng),Siri將iPhone變成了一個(gè)智能機(jī)器人,用戶對(duì)著手機(jī)說(shuō)話,不僅可以讓手機(jī)讀短信和撥號(hào),甚至能夠查詢天氣、餐廳位置、航班等以往不可想象的功能。在Siri身上,人們看到了語(yǔ)音成為手機(jī)實(shí)用交互方式的可能,而不像以前只能通過(guò)鍵盤(pán)或手寫(xiě)輸入文字來(lái)傳遞信息。
除了手機(jī)內(nèi)自帶的語(yǔ)音助手,不少第三方語(yǔ)音助手應(yīng)用也如雨后春筍般涌現(xiàn),譬如訊飛語(yǔ)點(diǎn)、百度語(yǔ)音助手、搜狗語(yǔ)音助手、蟲(chóng)洞語(yǔ)音助手、智能360語(yǔ)音助手等。這些語(yǔ)音助手的功能也越來(lái)越強(qiáng),不僅可以通過(guò)語(yǔ)音搜索內(nèi)容、查詢信息,還可以聊天解悶、講故事、唱歌。
最近中關(guān)村在線手機(jī)事業(yè)部針對(duì)手機(jī)語(yǔ)音功能現(xiàn)狀進(jìn)行了一項(xiàng)調(diào)查,結(jié)果顯示,67.68%的受訪者表示使用過(guò)語(yǔ)音助手軟件,這足以證明手機(jī)語(yǔ)音助手類應(yīng)用的市場(chǎng)熱度。
不單單是手機(jī),語(yǔ)音技術(shù)也逐步應(yīng)用于PC、平板電腦、家電、車(chē)載、玩具、手表、眼鏡等智能終端,以及教育、電信、金融、保險(xiǎn)、客服等領(lǐng)域。在2013年英特爾信息技術(shù)峰會(huì)(IDF)上,英特爾“感知計(jì)算”概念的提出,意在建立起一個(gè)新的人機(jī)交互框架,掀起“重塑PC”的革命,而語(yǔ)音識(shí)別就是感知計(jì)算的一部分。
實(shí)際上,“聽(tīng)話”的瀏覽器離我們并不遙遠(yuǎn)。Google Chrome瀏覽器已經(jīng)開(kāi)始嘗試支持聲控命令,或許要不了多久,我們就能通過(guò)聲控瀏覽器完成瀏覽網(wǎng)頁(yè)、發(fā)送郵件等。比如,你可以通過(guò)“暗一點(diǎn)”“亮一點(diǎn)”“字體大一號(hào)”等語(yǔ)音命令來(lái)控制瀏覽器。
結(jié)合地圖系統(tǒng)和智能語(yǔ)音識(shí)別的打車(chē)軟件一經(jīng)面世便得到消費(fèi)者的廣泛關(guān)注。曾在北上廣風(fēng)靡的打車(chē)叫車(chē)軟件“嘀嘀打車(chē)”,前不久正式進(jìn)入武漢運(yùn)營(yíng)。據(jù)了解,“嘀嘀打車(chē)”軟件在武漢市場(chǎng)試運(yùn)行的14天時(shí)間里,召車(chē)成功率達(dá)88%,遠(yuǎn)遠(yuǎn)超過(guò)武漢官方叫車(chē)平臺(tái)“電召”的48.5%。
4月10日~12日,第一屆中國(guó)電子信息博覽會(huì)在深圳舉行。由工業(yè)和信息化部指導(dǎo),19家單位聯(lián)合發(fā)起成立的中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟組團(tuán)參展,將神奇的智能語(yǔ)音體驗(yàn)帶到了現(xiàn)場(chǎng),全面展示了智能語(yǔ)音技術(shù)在移動(dòng)互聯(lián)網(wǎng)、教育、智能電視、車(chē)載終端、玩具等方面的新產(chǎn)品、新應(yīng)用。
清華大學(xué)吳及副教授表示,通過(guò)技術(shù)上的不斷優(yōu)化和完善,快則一兩年,慢則三五年,語(yǔ)音識(shí)別技術(shù)會(huì)成為人機(jī)交互的重要組成部分。未來(lái)最可能還是混合的交互方式,語(yǔ)音成為主流交互方式之一,因?yàn)椴煌膱?chǎng)景、用戶需要和用戶習(xí)慣,都會(huì)造成選擇交互方式的多元化。
智能語(yǔ)音爆發(fā)
世界銀行去年發(fā)布報(bào)告稱,全球手機(jī)數(shù)量已經(jīng)從2000年不到10億部,增長(zhǎng)到現(xiàn)在的60億部,其中近50億部都在發(fā)展中國(guó)家。世界銀行估計(jì),到2015年,世界上將有人口75億,而手機(jī)將達(dá)到近90億部。
市場(chǎng)調(diào)查機(jī)構(gòu)策略分析公司Strategy Analytics公布的調(diào)查結(jié)果顯示,自智能手機(jī)1996年面世以來(lái),截至2012年第三季度,全球智能手機(jī)用戶數(shù)量突破10億部。也就是說(shuō),現(xiàn)在全球七分之一的人擁有某種智能手機(jī)。Strategy Analytics預(yù)測(cè),全球智能手機(jī)用戶數(shù)量最遲將于2015年突破20億大關(guān),2013年,僅僅Android用戶就將超過(guò)10億人。這是因?yàn)橹悄苁謾C(jī)市場(chǎng)還存在著巨大的增長(zhǎng)潛力,尤其是在中國(guó)、印度和非洲國(guó)家市場(chǎng)。
艾媒咨詢(iiMedia Research)分析認(rèn)為,隨著智能手機(jī)價(jià)格平民化以及運(yùn)營(yíng)商、渠道商、手機(jī)廠商對(duì)智能手機(jī)市場(chǎng)不遺余力地推廣,使得使用智能手機(jī)開(kāi)始成為一種大眾潮流,大批非智能手機(jī)用戶轉(zhuǎn)化為智能手機(jī)用戶。預(yù)計(jì)到2013年年底,中國(guó)市場(chǎng)智能手機(jī)用戶規(guī)模將突破5億。
在智能手機(jī)市場(chǎng),以智能語(yǔ)音技術(shù)軟件應(yīng)用平均收入為5元/臺(tái)計(jì)算,2013年中國(guó)智能語(yǔ)音市場(chǎng)應(yīng)用規(guī)??蛇_(dá)25億元,2015年全球智能語(yǔ)音市場(chǎng)應(yīng)用規(guī)??蛇_(dá)100億元。
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心CNNIC調(diào)查顯示,截至 2012 年 12 月底,我國(guó)手機(jī)網(wǎng)民達(dá)到 4.2 億戶,占網(wǎng)民比例由上年的 69.3% 升至 74.5%。目前中國(guó)已經(jīng)成為繼美國(guó)之后全球第二大移動(dòng)應(yīng)用市場(chǎng),擁有 50 多家應(yīng)用商店,最大的應(yīng)用平臺(tái)中應(yīng)用數(shù)量已經(jīng)達(dá)到 70 多萬(wàn),下載量超過(guò) 90 億次。
借助開(kāi)放平臺(tái)和應(yīng)用商店模式的助推,移動(dòng)互聯(lián)網(wǎng)分布在音樂(lè)、電商、游戲、搜索等領(lǐng)域的產(chǎn)業(yè)價(jià)值趨于明顯。2012年,iOS 平臺(tái)上共有超過(guò)73萬(wàn)款應(yīng)用上線,中國(guó)移動(dòng)MM平臺(tái)上應(yīng)用接近15萬(wàn)。
另外,2012年微信用戶數(shù)突破2億,對(duì)傳統(tǒng)的話音、短信業(yè)務(wù)形成強(qiáng)烈沖擊。據(jù)估計(jì),到2015年我國(guó)移動(dòng)互聯(lián)網(wǎng)市場(chǎng)規(guī)模將達(dá)到4296億元,活躍用戶將超過(guò)8億。
近幾年,移動(dòng)互聯(lián)網(wǎng)的大規(guī)模爆發(fā),作為主要載體的智能手機(jī)在鍵盤(pán)輸入和手寫(xiě)輸入方面非常不方便,這為語(yǔ)音識(shí)別技術(shù)的應(yīng)用提供了巨大空間。
一款由云知聲研發(fā)的微信語(yǔ)音輸入插件,只需對(duì)著手機(jī)說(shuō)話就可以快速發(fā)短信了,每分鐘可以輸入100字。自今年2月推出后,以精準(zhǔn)的識(shí)別性能和全新的交互體驗(yàn),受到廣大用戶的追捧,發(fā)布一周即登頂App Store首位,使用該應(yīng)用軟件的用戶接近100萬(wàn),開(kāi)啟三十次以上的每天有幾萬(wàn)人。
云知聲創(chuàng)始人兼CEO梁家恩表示,語(yǔ)言是人類交流中最重要、最自然的方式,所以語(yǔ)音技術(shù)的普及將引起人機(jī)交互方面最深刻的革命。這是一種更高效的人機(jī)交互方式,極大地提高了效率,同時(shí)降低了用戶信息獲取的難度和門(mén)檻。最直接的例子是,我想跟朋友說(shuō)今晚約會(huì)地點(diǎn)。傳統(tǒng)的手機(jī)交互方式是,需要點(diǎn)擊手機(jī)菜單,選擇新建信息,輸入聯(lián)系人,手指輸入文字內(nèi)容,發(fā)送……而通過(guò)語(yǔ)音助手,我們只需按下Home鍵或者線控上的按鍵,然后直接說(shuō)“發(fā)短信給xx,今晚我們?cè)趚xx見(jiàn)面”即可。
在車(chē)載環(huán)境下,用戶的注意力主要集中在于駕駛,人與車(chē)的交互必須在不影響駕駛的前提條件下進(jìn)行,而語(yǔ)音識(shí)別技術(shù)提供了安全便捷的交互方式,用戶只需動(dòng)口,就可以滿足在行車(chē)過(guò)程中的相關(guān)需求。說(shuō)出“想回家”,汽車(chē)會(huì)根據(jù)你家的位置設(shè)定好最佳路線,并開(kāi)始導(dǎo)航。說(shuō)出“加油站”,幾公里范圍內(nèi)的加油站將逐一由車(chē)載語(yǔ)音系統(tǒng)播報(bào)出來(lái)。
2013年配備語(yǔ)音交互的汽車(chē)出貨量將達(dá)到300萬(wàn)輛,技術(shù)授權(quán)30~50元/輛,技術(shù)授權(quán)年度市場(chǎng)容量將超過(guò)1億,預(yù)計(jì)到2016年配備語(yǔ)音交互的汽車(chē)出貨量將達(dá)到1500萬(wàn)輛,存量接近3000萬(wàn)輛;車(chē)載增值服務(wù)滲透率逐步提高到30%~35%,年度市場(chǎng)容量將達(dá)到10億。
無(wú)論是Google已推廣上市的“Google Glass”,還是百度正在研制的“Baidu Eye”,都將語(yǔ)音操控作為人機(jī)溝通的重要手段,拍照、打電話、錄像,你只需說(shuō)出你的需求,它就在你眼前展現(xiàn)出想要的結(jié)果。智能眼鏡、智能手環(huán)、智能手表、智能項(xiàng)鏈,這些物聯(lián)網(wǎng)時(shí)代的智能化設(shè)備,最大限度地利用了語(yǔ)音控制技術(shù),它將讓未來(lái)的生活變得如夢(mèng)如幻。
很多小朋友想擁有一個(gè)會(huì)說(shuō)話的玩具,就像喜劇電影《泰迪熊》里面的TED一樣。如今,市場(chǎng)上已經(jīng)出現(xiàn)了智能語(yǔ)音玩具,按照預(yù)定程序執(zhí)行人的語(yǔ)音指令,如背詩(shī)、唱歌、翻跟頭、跳舞等。
發(fā)端于上世紀(jì)50年代的語(yǔ)音技術(shù),經(jīng)歷了多次潮起潮落,這次是真正的變革,還是又一輪泡沫?吳及告訴記者,“這次的興起與過(guò)去不太一樣,超過(guò)以往任何一次的高度,商業(yè)化應(yīng)用的規(guī)模,普通民眾的接受和認(rèn)可程度,都遠(yuǎn)遠(yuǎn)超過(guò)了以往?!?/p>
對(duì)于語(yǔ)音產(chǎn)業(yè)爆發(fā)的原因,吳及有著自己的思考:一是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,使手機(jī)成為重要的客戶端,現(xiàn)在手機(jī)數(shù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)PC和筆記本,導(dǎo)致越來(lái)越多的交互行為通過(guò)手機(jī)來(lái)完成。蘋(píng)果ios、安卓等智能手機(jī)操作系統(tǒng)推出后,手機(jī)應(yīng)用和手機(jī)交互逐漸增多,但在手機(jī)上靠傳統(tǒng)的鍵盤(pán)輸入很不方便,手寫(xiě)又太慢,而使用語(yǔ)音輸入很方便,這樣用戶的需求就被激發(fā)了。
二是隨著移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的發(fā)展,語(yǔ)音識(shí)別不需要在本機(jī)做了,可以在云端做。這樣資源條件大為放松,對(duì)語(yǔ)音識(shí)別引擎不需要非常嚴(yán)格地限制了。此外,用戶的語(yǔ)音數(shù)據(jù)可以存放在云端,就能有大量的真實(shí)數(shù)據(jù)用于模型訓(xùn)練,語(yǔ)音識(shí)別性能得到了迅速地提高,識(shí)別率可以達(dá)到85%~90%以上,這就達(dá)到了用戶使用的最低門(mén)檻。
三是語(yǔ)音識(shí)別技術(shù)一直在進(jìn)步,最近十年也不斷有新的突破,例如聲學(xué)模型的鑒別力訓(xùn)練和近年來(lái)非常熱的深度神經(jīng)網(wǎng)絡(luò)。
爭(zhēng)搶語(yǔ)音電視
引入語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)的智能語(yǔ)音電視不僅能聽(tīng)懂用戶說(shuō)話并作出反應(yīng),而且還能說(shuō)話。用戶憑借語(yǔ)音指令可以輕松完成音量調(diào)節(jié)、換臺(tái)操作、電視節(jié)目查詢、網(wǎng)絡(luò)瀏覽搜索、文字輸入等服務(wù),還可以提供天氣、股票、航班、熱點(diǎn)新聞等信息,讓用戶“所說(shuō)即所得”。
5月7日,樂(lè)視超級(jí)電視在五棵松萬(wàn)事達(dá)中心全球首發(fā),吸引了眾多與會(huì)者參與。與之前其他的電視類產(chǎn)品不同,樂(lè)視超級(jí)電視集硬件、軟件和內(nèi)容完美結(jié)合,是一款真正意義上的互聯(lián)網(wǎng)電視,同時(shí)具有超高的性價(jià)比。
在電視、上網(wǎng)功能完美結(jié)合的同時(shí),樂(lè)視還集成了目前最先進(jìn)的智能語(yǔ)音交互技術(shù),用戶通過(guò)帶有麥克風(fēng)的遙控器,就可以輕松自然地實(shí)現(xiàn)操控、輸入、搜索等功能。而該項(xiàng)技術(shù)由云知聲提供。從現(xiàn)場(chǎng)的演示效果來(lái)看,語(yǔ)音識(shí)別準(zhǔn)確度和識(shí)別效率方面都具有很高的水準(zhǔn)。
在樂(lè)視網(wǎng)董事長(zhǎng)兼CEO賈躍亭看來(lái),“‘超級(jí)電視是這個(gè)星球上有史以來(lái)最強(qiáng)大的硬件怪獸?!辟Z躍亭的底氣來(lái)自于其合作伙伴,聯(lián)合全球最頂尖面板供應(yīng)商夏普、全球最頂尖的智能芯片商美國(guó)高通公司、全球最頂尖硬件制造商富士康和播控平臺(tái)合作方CNTV;而更大的底氣則是“超級(jí)電視”的高性價(jià)比,60英寸X60是超級(jí)電視的旗艦型產(chǎn)品,售價(jià)僅6999元,要比市場(chǎng)上的價(jià)格便宜一半多,同時(shí)推出的普及型產(chǎn)品S40售價(jià)1999元。
樂(lè)視推出的超級(jí)電視是否能如其所言“顛覆”傳統(tǒng)電視呢?業(yè)內(nèi)都在拭目以待。作為互聯(lián)網(wǎng)企業(yè)敢于殺入目前似乎固若金湯的電視行業(yè),這也說(shuō)明智能電視已成為互聯(lián)網(wǎng)企業(yè)覬覦的獵物。不只是樂(lè)視,阿里巴巴、PPTV、小米等也推出了機(jī)頂盒產(chǎn)品,而在此布局更早的谷歌、蘋(píng)果早已“襲擊”了電視。
為了適應(yīng)智能交互方式的發(fā)展潮流,早在去年,國(guó)內(nèi)六大電視廠商長(zhǎng)虹、海信、康佳、海爾、TCL、創(chuàng)維等企業(yè)紛紛推出可以語(yǔ)音控制的智能電視。為了在智能電視市場(chǎng)先人一步,2012年2月16日,就在大家都還沉寂在新年余味的時(shí)候,長(zhǎng)虹聯(lián)合語(yǔ)音技術(shù)公司科大訊飛率先發(fā)布30多款Ciri語(yǔ)音智能電視新品,最高售價(jià)近7000元。隨后,其他彩電企業(yè)也迅速跟進(jìn),推出具有語(yǔ)音識(shí)別功能的智能電視或云電視。
需要注意的是,國(guó)內(nèi)彩電企業(yè)在半導(dǎo)體、智能語(yǔ)音等方面都缺乏技術(shù)儲(chǔ)備,只能拉入第三方語(yǔ)音企業(yè)作為外援提供技術(shù)支持。業(yè)內(nèi)人士認(rèn)為,進(jìn)行語(yǔ)音技術(shù)和人員儲(chǔ)備是彩電企業(yè)的當(dāng)務(wù)之急。
而科大訊飛的盈利模式也有許多尷尬。眾彩電廠商和科大訊飛均是“一錘子買(mǎi)賣(mài)”,即一次性購(gòu)買(mǎi)語(yǔ)音軟件或芯片,前者推出的所有應(yīng)用皆為免費(fèi),只是智能產(chǎn)品本身的售價(jià)有一定幅度提高。
據(jù)預(yù)測(cè),2013年智能電視出貨量將達(dá)到1500萬(wàn)臺(tái),2016年智能電視出貨總量將超過(guò)4000萬(wàn)臺(tái),智能電視存量將超過(guò)1億,年度市場(chǎng)規(guī)模將超過(guò)13億。未來(lái),在每個(gè)家庭網(wǎng)絡(luò)上的電器設(shè)備,都可以被人們的語(yǔ)音控制。
語(yǔ)音數(shù)據(jù)金礦
智能語(yǔ)音技術(shù)應(yīng)用非常廣泛,不單單是前面提到的手機(jī)、電視、玩具、汽車(chē)等領(lǐng)域,也包括即將興起的智能客服、智能訂單、智能營(yíng)銷等智能語(yǔ)音服務(wù)。
隨著互聯(lián)網(wǎng)的發(fā)展,許多企業(yè)客服放到互聯(lián)網(wǎng)上了,比如QQ、微信、旺旺,現(xiàn)在都是鍵盤(pán)交互,以后可以通過(guò)語(yǔ)音交互,減少人工客服成本。這些與語(yǔ)音工具進(jìn)行實(shí)時(shí)對(duì)話的應(yīng)用,屬于在線應(yīng)用(B2C)。
另一個(gè)非常重要的應(yīng)用領(lǐng)域是離線應(yīng)用(B2B)。離線應(yīng)用是通過(guò)與大數(shù)據(jù)技術(shù)的結(jié)合,對(duì)海量語(yǔ)音數(shù)據(jù)進(jìn)行處理、挖掘和分析,開(kāi)發(fā)和利用其中的價(jià)值。
語(yǔ)音數(shù)據(jù)也是大數(shù)據(jù),比如呼叫中心,每天的電話數(shù)據(jù)非常驚人,隨著中國(guó)人口紅利的消失,呼叫中心的智能化日益迫切。據(jù) Ascent Group 2010年IVR研究報(bào)告,2016年電信、金融、電力等重點(diǎn)行業(yè)呼叫中心市場(chǎng)規(guī)模預(yù)計(jì)達(dá)到30萬(wàn)線以上。此外,中國(guó)移動(dòng)的一個(gè)省級(jí)呼叫中心,一天的數(shù)據(jù)就有上萬(wàn)小時(shí);還有電視、廣播、互聯(lián)網(wǎng)等媒體上大量的語(yǔ)音數(shù)據(jù)。
“這些數(shù)據(jù)如果不能被有效處理,就無(wú)法被應(yīng)用,只能被閑置,實(shí)際上可以利用語(yǔ)音識(shí)別技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化成文字等符號(hào)性表示,然后再被挖掘、檢索和利用?!眳羌罢f(shuō)。
他進(jìn)一步指出,離線應(yīng)用比在線應(yīng)用確定性更強(qiáng),由于面向海量數(shù)據(jù),只能選擇語(yǔ)音識(shí)別技術(shù),使用人工轉(zhuǎn)寫(xiě),時(shí)間和人力成本太高了。
據(jù)了解,清華大學(xué)電子工程系多媒體信號(hào)與智能信息處理實(shí)驗(yàn)室已經(jīng)在與科大訊飛合作,研究、開(kāi)發(fā)、應(yīng)用離線技術(shù),語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到了80%以上。今年將在中國(guó)移動(dòng)的一些分公司進(jìn)行推廣。
離線應(yīng)用有兩方面價(jià)值,一是監(jiān)控客服質(zhì)量,提高企業(yè)服務(wù)水平。二是語(yǔ)音分析,通過(guò)語(yǔ)音識(shí)別和數(shù)據(jù)挖掘技術(shù),可以更全面地了解實(shí)際情況,從而幫助決策層和管理層進(jìn)行科學(xué)研判和趨勢(shì)預(yù)測(cè)。
此外,公共安全和政府等行業(yè)客戶對(duì)信息資源的深入開(kāi)發(fā)利用也有著迫切的需要,并對(duì)基于文本及語(yǔ)音分析處理、數(shù)據(jù)挖掘等技術(shù)的海量信息智能分析與處理軟件平臺(tái)的開(kāi)發(fā)有著明確需求。具體應(yīng)用是,從大量錄音數(shù)據(jù)中自動(dòng)快速找出指定關(guān)鍵字的語(yǔ)音,從而得到公安或其他政府部門(mén)需要的信息,用于做出及時(shí)正確判斷和決策。據(jù)不完全統(tǒng)計(jì),此項(xiàng)應(yīng)用在政府部門(mén)的市場(chǎng)總量將在6億元以上,但此項(xiàng)業(yè)務(wù)的門(mén)檻和公關(guān)成本很高。
誰(shuí)主沉???
幾年前,語(yǔ)音行業(yè)不景氣,從事語(yǔ)音技術(shù)研究的多以學(xué)術(shù)界為主,這使得國(guó)內(nèi)的語(yǔ)音核心技術(shù)一直掌握在清華大學(xué)、中科院聲學(xué)所、中科院自動(dòng)化所、中國(guó)科技大學(xué)等幾家單位,同時(shí)也導(dǎo)致語(yǔ)音行業(yè)的人才很稀缺。
從2008年開(kāi)始,伴隨移動(dòng)互聯(lián)網(wǎng)的大發(fā)展,語(yǔ)音識(shí)別產(chǎn)業(yè)才真正興起。谷歌于2008年在美國(guó)發(fā)布了英文語(yǔ)音搜索服務(wù)Voice Search,應(yīng)用于Android、諾基亞S60、黑莓、iPhone等多個(gè)系列的手機(jī)。2009年,Google在全球范圍正式發(fā)布了谷歌中文語(yǔ)音搜索。
2009年蘋(píng)果收購(gòu)Siri,并于2012年推出中文版Siri,大受用戶歡迎,掀起智能語(yǔ)音熱潮。
在中國(guó),最早從事語(yǔ)音識(shí)別產(chǎn)業(yè)化應(yīng)用的企業(yè)是科大訊飛(1999年成立)、捷通華聲(2000年成立),這兩家企業(yè)剛開(kāi)始都專注于語(yǔ)音合成技術(shù)的研發(fā)(把文字轉(zhuǎn)化成聲音,比如機(jī)場(chǎng)、火車(chē)站聽(tīng)到的播報(bào))。2008年科大訊飛成為上市公司后,開(kāi)始研發(fā)語(yǔ)音識(shí)別技術(shù)。2010年發(fā)布了語(yǔ)音云平臺(tái),宣告移動(dòng)互聯(lián)網(wǎng)語(yǔ)音聽(tīng)寫(xiě)時(shí)代到來(lái)。
作為語(yǔ)音行業(yè)的龍頭企業(yè),短短幾年時(shí)間,科大訊飛的市值從2008年剛上市的34億,已經(jīng)增長(zhǎng)到超過(guò)200億,讓人瞠目結(jié)舌。目前,科大訊飛是中國(guó)最大的智能語(yǔ)音技術(shù)提供商,也是我國(guó)惟一以語(yǔ)音技術(shù)為產(chǎn)業(yè)化方向的“國(guó)家863計(jì)劃成果產(chǎn)業(yè)化基地”。
依托于中科院聲學(xué)所的捷通華聲,成立時(shí)間基本和科大訊飛相當(dāng),在之前相當(dāng)長(zhǎng)一段時(shí)間內(nèi),也和科大訊飛旗鼓相當(dāng),但最終的結(jié)果是科大訊飛發(fā)展起來(lái)并成功上市,而它則相對(duì)平淡。
近年來(lái),科大訊飛攻城略地,繼牽手中移動(dòng)、中聯(lián)通后,5月27日發(fā)布公告稱,已與中國(guó)電信簽訂三年期的戰(zhàn)略協(xié)議,共同推進(jìn)智能語(yǔ)音產(chǎn)業(yè)。科大訊飛官網(wǎng)顯示,其智能語(yǔ)音技術(shù)占有中文語(yǔ)音技術(shù)市場(chǎng)70%以上份額。
有觀點(diǎn)認(rèn)為,盡管牽手三大運(yùn)營(yíng)商,但科大訊飛仍前景難料。在與中移動(dòng)合作后,雙方至今未推出“殺手級(jí)”業(yè)務(wù)。雙方合作的“靈犀”語(yǔ)音助手將被融合到飛信中,但在微信的沖擊下,飛信的前景渺茫。電信分析師付亮稱,牽手科大訊飛,不會(huì)解決微信對(duì)運(yùn)營(yíng)商的沖擊,因?yàn)榭拼笥嶏w的模式跟微信相似。
Google語(yǔ)音搜索和蘋(píng)果Siri的成功,也讓國(guó)內(nèi)語(yǔ)音市場(chǎng)迅速升溫,國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)紛紛涉足。例如百度、騰訊、搜狗、阿里,還涌現(xiàn)了許多創(chuàng)業(yè)公司:云知聲、靈聲科技、智能360、蟲(chóng)洞、蘇州思必馳、普強(qiáng)信息等。
國(guó)內(nèi)語(yǔ)音產(chǎn)業(yè)分為兩類,一類是獨(dú)立的語(yǔ)音公司,以科大訊飛、云知聲、靈聲科技為代表;一類是互聯(lián)網(wǎng)巨頭公司,以百度、騰訊、搜狗為代表。
“智能語(yǔ)音已經(jīng)進(jìn)入到產(chǎn)業(yè)化層面,最近5年的產(chǎn)業(yè)發(fā)展速度超過(guò)了過(guò)去50年,并且跟以往主要靠技術(shù)推動(dòng)有很大差異?!眳羌罢f(shuō)。
眾所周知,智能語(yǔ)音行業(yè)的技術(shù)門(mén)檻非常高,特別是語(yǔ)音識(shí)別技術(shù),被成為“皇冠”。衡量一家語(yǔ)音公司的技術(shù)水平如何,首先要看它是否能提供高性能的語(yǔ)音識(shí)別產(chǎn)品,其次要看是否發(fā)布了語(yǔ)音云平臺(tái)。
國(guó)內(nèi)互聯(lián)網(wǎng)公司里,百度做得最早也最好,2010年就成立了語(yǔ)音部門(mén),并招兵買(mǎi)馬引進(jìn)國(guó)內(nèi)外人才,專注于互聯(lián)網(wǎng)模式下的語(yǔ)音識(shí)別技術(shù),并號(hào)稱是國(guó)內(nèi)首個(gè)把深度神經(jīng)網(wǎng)絡(luò)技術(shù)(DNN)運(yùn)用到語(yǔ)音識(shí)別產(chǎn)品的公司。李彥宏今年三月接受采訪時(shí)說(shuō),現(xiàn)在語(yǔ)音識(shí)別的準(zhǔn)確率能做到92%,兩三年內(nèi)可以做到98%。
騰訊和阿里的語(yǔ)音技術(shù)雖然還欠火候,但這兩個(gè)公司有微信、QQ和淘寶旺旺,擁有相當(dāng)大的用戶群,這些用戶群對(duì)語(yǔ)音技術(shù)需求旺盛,市場(chǎng)潛力很大。
獨(dú)立的語(yǔ)音公司中,科大訊飛目前是“龍頭老大”,但也面臨幾家新銳公司的圍追堵截。特別是云知聲,沖擊力和競(jìng)爭(zhēng)力極強(qiáng),剛成立一年,語(yǔ)音技術(shù)已經(jīng)可以和訊飛相媲美,語(yǔ)音識(shí)別準(zhǔn)確率達(dá)到94%以上,僅用九個(gè)月就對(duì)外發(fā)布了語(yǔ)音云,并且向所有開(kāi)發(fā)者提供完全開(kāi)放、永久免費(fèi)的語(yǔ)音識(shí)別服務(wù),讓業(yè)界直呼“黑馬”來(lái)了,但發(fā)展平臺(tái)與訊飛差距較大,商用上也不及訊飛多年的積累。
吳及表示,從國(guó)際上看,智能語(yǔ)音產(chǎn)業(yè)表現(xiàn)為一專多大,即一個(gè)專業(yè)公司Nuance和幾個(gè)大的IT公司,Google、微軟、IBM、蘋(píng)果等。目前,國(guó)內(nèi)的產(chǎn)業(yè)格局也基本相似,一個(gè)專業(yè)公司科大訊飛,其他幾個(gè)互聯(lián)網(wǎng)公司,如百度、騰訊、搜狗等。
占領(lǐng)制高點(diǎn)
隨著國(guó)內(nèi)手機(jī)和平板銷量的爆炸式增長(zhǎng),國(guó)外企業(yè)開(kāi)始覬覦這片市場(chǎng),紛紛進(jìn)駐國(guó)內(nèi)。海通證券研報(bào)指出,盡管目前智能語(yǔ)音產(chǎn)業(yè)規(guī)模較小,但在未來(lái)5年內(nèi)行業(yè)年復(fù)合增長(zhǎng)率有望超過(guò)25%。
背后支撐蘋(píng)果Siri語(yǔ)音識(shí)別技術(shù)、占據(jù)全球2/3市場(chǎng)份額的國(guó)際語(yǔ)音服務(wù)巨頭Nuance,正在拓展中國(guó)語(yǔ)音市場(chǎng)。據(jù)媒體報(bào)道,日前,Nuance與開(kāi)心網(wǎng)正在就未來(lái)的“戰(zhàn)略級(jí)產(chǎn)品”進(jìn)行深入探討。作為全球語(yǔ)音識(shí)別技術(shù)的領(lǐng)軍企業(yè),Nuance觸角由醫(yī)療、電信廣泛延伸至汽車(chē)、手機(jī)以及互聯(lián)網(wǎng)領(lǐng)域。此前,該公司在中國(guó)的合作對(duì)象為比亞迪和中興通訊。
另一家語(yǔ)音識(shí)別技術(shù)公司Audience也看到了中國(guó)語(yǔ)音市場(chǎng)的機(jī)會(huì),與國(guó)內(nèi)十幾家品牌手機(jī)廠商展開(kāi)語(yǔ)音方面的合作,并且和中國(guó)移動(dòng)公司建立相關(guān)的語(yǔ)音研究實(shí)驗(yàn)室。此外,谷歌、蘋(píng)果、微軟、IBM等巨頭也開(kāi)始積極布局,先后推出了各自的智能語(yǔ)音服務(wù)。
為了迎戰(zhàn)國(guó)外巨頭,推動(dòng)民族智能語(yǔ)音產(chǎn)業(yè)發(fā)展,2012年8月1日,由科大訊飛、聯(lián)想、華為、中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信、清華大學(xué)等19家單位聯(lián)合發(fā)起的中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟正式成立。
工信部副部長(zhǎng)楊學(xué)山在會(huì)議上說(shuō),“語(yǔ)音產(chǎn)業(yè)再過(guò)若干年,一定是千億元、萬(wàn)億元的產(chǎn)業(yè)鏈。我們必須加快發(fā)展,否則很可能在五年以后,我們?cè)僖淮伪粍?dòng)追隨。”
2000年之前,智能語(yǔ)音市場(chǎng)被國(guó)外廠商壟斷。之后,國(guó)內(nèi)廠商迎頭趕上,經(jīng)過(guò)10多年的發(fā)展,在技術(shù)上已經(jīng)可以和國(guó)外廠商分庭抗禮。但國(guó)外廠商在產(chǎn)業(yè)鏈整合、市場(chǎng)推廣等方面,均優(yōu)于國(guó)內(nèi)企業(yè),在競(jìng)爭(zhēng)中占有一定優(yōu)勢(shì)。
科大訊飛董事長(zhǎng)劉慶峰表示,“蘋(píng)果擁有結(jié)合緊密的軟硬件和成熟的產(chǎn)業(yè)鏈,谷歌擁有開(kāi)放的安卓系統(tǒng),微軟擁有幾乎是壟斷的操作系統(tǒng)。這些優(yōu)勢(shì)國(guó)內(nèi)廠商都不具備,因此在與這些巨頭競(jìng)爭(zhēng)時(shí),就需要國(guó)內(nèi)企業(yè)聯(lián)合起來(lái),整合產(chǎn)業(yè)鏈上下游資源?!?/p>
微軟把人機(jī)界面從跳動(dòng)指令轉(zhuǎn)變成圖形界面,維持了20年的IT霸主地位。蘋(píng)果和Google把鍵盤(pán)變成了觸摸界面,稱雄當(dāng)今IT世界。如果有聲控技術(shù)的話,我們還會(huì)用觸控界面嗎?
楊學(xué)山指出,再過(guò)五年,聲控將可能是最主要的人機(jī)交互方式。未來(lái)產(chǎn)業(yè)的發(fā)展,從終端到生態(tài)環(huán)境、商業(yè)模式,都將發(fā)生重大的變化。從技術(shù)、產(chǎn)業(yè)和國(guó)家競(jìng)爭(zhēng)力等各個(gè)方面來(lái)講,語(yǔ)音產(chǎn)業(yè)的發(fā)展都是當(dāng)務(wù)之急,只有努力發(fā)展,我們?cè)谙乱淮畔⒓夹g(shù)產(chǎn)業(yè)應(yīng)用發(fā)展中才能擁有主導(dǎo)權(quán)。語(yǔ)音產(chǎn)業(yè)發(fā)展基于寬帶網(wǎng)絡(luò),要和終端、應(yīng)用和用戶相結(jié)合。
“只有加快智能語(yǔ)音產(chǎn)業(yè)發(fā)展,才能避免受制于人。”吳及同樣認(rèn)為,國(guó)家要支持企業(yè)建立語(yǔ)音生態(tài)系統(tǒng),但要把握好力度和分寸。如果國(guó)內(nèi)企業(yè)不能建立起自己有生命力的語(yǔ)音生態(tài)系統(tǒng),國(guó)外企業(yè)遲早會(huì)喧賓奪主搶占地盤(pán)。諾基亞的衰落就是典型案例。
吳及進(jìn)一步指出,如果有越來(lái)越多的企業(yè)去做語(yǔ)音應(yīng)用和進(jìn)行二次開(kāi)發(fā),用戶就會(huì)享有更多更好的語(yǔ)音產(chǎn)品和體驗(yàn),這樣平臺(tái)企業(yè)也會(huì)做大做強(qiáng),整個(gè)語(yǔ)音生態(tài)系統(tǒng)就形成了,國(guó)內(nèi)語(yǔ)音產(chǎn)業(yè)抵御風(fēng)險(xiǎn)的能力就提高了。
在5月30日召開(kāi)的第十屆國(guó)際軟件博覽會(huì)上,工信部軟件服務(wù)業(yè)司司長(zhǎng)陳偉表示,將把智能語(yǔ)音技術(shù)和產(chǎn)業(yè)推進(jìn)作為今年乃至未來(lái)三到五年的一個(gè)重點(diǎn)。據(jù)美國(guó)權(quán)威咨詢機(jī)構(gòu)Gartner發(fā)布的2012新興技術(shù)成熟周期報(bào)告顯示,語(yǔ)音識(shí)別技術(shù)可能在2~5年內(nèi)成熟。