賀文
智能音箱未必會(huì)成為入口,但語音交互一定是下一個(gè)流量入口。
這個(gè)生態(tài)鏈非常復(fù)雜,需要有資源有積累才能玩轉(zhuǎn)。迅雷創(chuàng)始人程浩最近撰文《創(chuàng)業(yè)公司做智能音箱是九死一生》,他分享了這樣一個(gè)觀點(diǎn):在智能音箱語音交互這件事上,巨頭有著創(chuàng)業(yè)公司無可比擬的競爭優(yōu)勢,數(shù)據(jù)、內(nèi)容和生態(tài)體系。
尤其是當(dāng)巨頭選擇“開放”策略之后。比如百度DuerOS、阿里AliGenie、騰訊的叮當(dāng)和小微,都已經(jīng)選擇了做開放平臺(tái)。他們?yōu)橛布S商提供對(duì)話式人工智能系統(tǒng)、Skills以及內(nèi)容的一站式服務(wù)。巨頭們都想做智能硬件AI時(shí)代的“安卓系統(tǒng)”。最惹眼的當(dāng)屬百度,它剛剛宣布,百度將永久免費(fèi)開放語音識(shí)別、語音合成和語音喚醒三大語音技術(shù)接口。
樂觀者認(rèn)為,語音交互目前是一個(gè)封閉生態(tài),而一人之力難成大事,對(duì)一家單打獨(dú)斗的企業(yè)也是一樣。行業(yè)起步,場景逐漸放開,個(gè)性化需求呈現(xiàn)指數(shù)級(jí)增長,要想打破瓶頸和天花板,勢必要開放,要合作。同時(shí),競爭本就殘酷,所有的語音公司沒有那一項(xiàng)技術(shù)是“你們能做我們做不了”的,尤其是在技術(shù)、資源、資本兼具的巨頭面前,大家無非都是跟時(shí)間賽跑。
讓BAT的優(yōu)勢資產(chǎn)“梅開二度”
巨頭下重注在語音賽道,目標(biāo)是切入未來更大的人工智能(AI)市場,因?yàn)橛布澈蟮恼Z音平臺(tái)有機(jī)會(huì)成為智能物聯(lián)網(wǎng)時(shí)代的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。
人工智能時(shí)代靠的不只是技術(shù),海量數(shù)據(jù)、暴力計(jì)算和大數(shù)據(jù)的豐滿度是重要的競爭優(yōu)勢,也正是互聯(lián)網(wǎng)巨頭的優(yōu)勢領(lǐng)域。百度高舉“免費(fèi)”大旗,用意很明顯,一是走技術(shù)營銷路線,二是希望獲得足夠的運(yùn)用場景來積累更豐富的語音語料數(shù)據(jù)。
對(duì)所有國內(nèi)語音企業(yè)來說,百度是繞不過去的。“All In AI”的百度希望借人工智能這個(gè)“新風(fēng)口”,重回中國互聯(lián)網(wǎng)行業(yè)之巔,因?yàn)樵赑C和移動(dòng)互聯(lián)網(wǎng)時(shí)代百度借由搜索主業(yè)所沉淀的大量的產(chǎn)品、技術(shù)、數(shù)據(jù)等等資產(chǎn),都將有可能在AI時(shí)代被充分地激活。
語音交互是2017百度世界大會(huì)上一條隱形的技術(shù)主線。除了李彥宏當(dāng)天演示的手機(jī)百度TTS(從文本到語音)功能,足夠搶鏡的智能音箱Raven H,以及“幕后”百度對(duì)話式人工智能操作系統(tǒng)DuerOS2.0,百度度秘事業(yè)部總經(jīng)理景鯤還在大會(huì)上宣布了DuerOS2.0正式對(duì)業(yè)界開放。
DuerOS是百度度秘事業(yè)部研發(fā)的對(duì)話式人工智能操作系統(tǒng),搭載DuerOS的設(shè)備可讓用戶以自然語言對(duì)話的交互方式,實(shí)現(xiàn)影音娛樂、信息查詢、生活服務(wù)、出行路況等10大類目的100多項(xiàng)功能等操作。同時(shí),借助云端大腦,DuerOS可以不斷學(xué)習(xí)進(jìn)化,越變?cè)健奥斆鳌薄?/p>
景鯤是DuerOS語音交互平臺(tái)的總負(fù)責(zé)人,直接向百度集團(tuán)總裁兼COO陸奇匯報(bào)。2017年2月,百度對(duì)外公布了兩個(gè)重要消息:一是度秘團(tuán)隊(duì)升級(jí)為度秘事業(yè)部,一是收購渡鴉團(tuán)隊(duì)。兩條業(yè)務(wù)線都是向陸奇匯報(bào)工作。有媒體解讀,百度“這種軟硬融合的戰(zhàn)略選擇是極其正確的”,作為國內(nèi)對(duì)人工智能投入力度最大的公司,百度終于在人工智能這個(gè)大方向上走在了對(duì)的路。
DuerOS開放平臺(tái),從2017年7月百度AI開發(fā)者大會(huì)發(fā)布,到2.0版本亮相之間的四個(gè)多月時(shí)間里,加速迭代,合作伙伴已新增130余家、落地硬件解決方案超過20個(gè)、每月新增5款以上搭載DuerOS的設(shè)備。目前,DuerOS的對(duì)話能力已經(jīng)應(yīng)用到手機(jī)、電視、音箱等智能家居、智能穿戴和車載場景中。
外界說Raven H“漂亮得不像百度的產(chǎn)品”,李彥宏卻認(rèn)為它很“百度”,意在更加聰明的對(duì)話能力“背后有百度這么多年做搜索的積累,無論是人工智能的技術(shù),還是相關(guān)的數(shù)據(jù),以及背后的知識(shí)圖譜”。依托百度在語音語義技術(shù)上的優(yōu)勢,DuerOS的野心是打造成人工智能時(shí)代的“安卓系統(tǒng)”。
C端和智能硬件一直是百度短板,過去幾年,百度在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域頻頻布局失誤,已經(jīng)錯(cuò)失了移動(dòng)互聯(lián)網(wǎng)的紅利期。借由包括語音交互在內(nèi)的AI技術(shù),并且通過輸出技術(shù)性產(chǎn)品和服務(wù),占領(lǐng)更多的終端,是百度現(xiàn)在迫切想做到的。
騰訊在語音賽道上的布局,則延續(xù)了它內(nèi)部孵化創(chuàng)新所特有的“賽馬”機(jī)制。依據(jù)公開信息,騰訊目前有4個(gè)部分在做語音交互的平臺(tái)性產(chǎn)品,騰訊叮當(dāng)、騰訊云小微(騰訊在2017年6月份正式推出的智能語音開放平臺(tái))、騰訊AI Lab和騰訊的微信開放平臺(tái)。
最近嶄露頭角的,是在2017年11月騰訊全球伙伴大會(huì)上正式亮相的騰訊叮當(dāng)。這是一款智能助手系統(tǒng),提供高質(zhì)、完整、開放的人工智能服務(wù),幫助終端硬件設(shè)備快速獲得聽覺和視覺的交互能力。叮當(dāng)專注于探索場景化的人機(jī)智能交互,騰訊在其中整合了信息服務(wù)、內(nèi)容服務(wù)、生活服務(wù)和各種硬件的連接服務(wù)。與百度阿里不同的是,騰訊的優(yōu)勢是在音樂、閱讀、視頻、新聞、動(dòng)漫、體育等泛娛樂領(lǐng)域擁有大量優(yōu)質(zhì)內(nèi)容和應(yīng)用資源,這些恰恰是通過語音這種工具完成信息搜索、服務(wù)達(dá)成所必不可少的。
在AI時(shí)代,阿里給語音企業(yè)的印象是,“又有技術(shù),又能做C端,還能突破?!弊罱鼪]參加烏鎮(zhèn)飯局的馬云,在上海某個(gè)地鐵站,用阿里iDST(Institute of Data Science & Technologies,數(shù)據(jù)科學(xué)與技術(shù)研究院)的語音技術(shù),動(dòng)動(dòng)嘴就買了張地鐵票,還沒說喚醒詞。
阿里iDST語音團(tuán)隊(duì)負(fù)責(zé)人鄢志杰對(duì)外介紹,地鐵智能購票系統(tǒng)所用的多模態(tài)交互就是阿里巴巴iDST團(tuán)隊(duì)對(duì)下一代人機(jī)交互可能性的一種嘗試——把計(jì)算機(jī)視覺技術(shù)融合到語音識(shí)別技術(shù)中,攻克嘈雜環(huán)境下的遠(yuǎn)講降噪問題,這樣一來,你只要走近機(jī)器,不需要喚醒,它就會(huì)自動(dòng)與你發(fā)生交互。
對(duì)生態(tài)的渴求
對(duì)于思必馳這樣的專注于智能設(shè)備領(lǐng)域的語音技術(shù)服務(wù)商,像科大訊飛這樣的老牌智能語音公司一下子氣氛緊張起來,可預(yù)想的直接影響是,像BAT、京東、小米這些可能的、曾經(jīng)的客戶,轉(zhuǎn)身伙伴秒變對(duì)手,似乎 AI一來,語音行業(yè)的洗牌在即。
“現(xiàn)在只要是干語音這行的,不管你是做市場的還是干技術(shù)的,不管你什么職位,大公司聞?dòng)嵕蜁?huì)過來挖人,不設(shè)崗位、不設(shè)工資,一切面聊。”有語音行業(yè)的人士透露,語音領(lǐng)域的人才在國內(nèi)一下子變得奇貨可居。
把對(duì)話鏈條的所有環(huán)節(jié)聚合到一起再開放給開發(fā)者,這樣的語音對(duì)話全鏈路平臺(tái),現(xiàn)在國內(nèi)主要有三股勢力在做:一是互聯(lián)網(wǎng)公司如百度DuerOS,一是專注于語音領(lǐng)域的老牌技術(shù)公司科大訊飛的訊飛開放平臺(tái),一是思必馳今年9月推出的DUI 開放平臺(tái)。
DUI平并不是思必馳的首款開放平臺(tái)。2013年9月,思必馳發(fā)布了國內(nèi)首款對(duì)話平臺(tái)“思必馳對(duì)話工場”,開放底層的ASR、TTS、NLU等SDK接口,把語音對(duì)話能力搭建在平臺(tái)上,賦能給移動(dòng)互聯(lián)網(wǎng)的開發(fā)者。
但那時(shí),移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)還在中場,整個(gè)物聯(lián)網(wǎng)大產(chǎn)業(yè)還在非常早的早期,不像現(xiàn)有爆品、產(chǎn)品的這般普及度,整個(gè)產(chǎn)業(yè)鏈的成熟度、人工智能的成熟度、落地速度和質(zhì)量也遠(yuǎn)不及今天。那時(shí)的思必馳,面向的是相對(duì)弱的需求,是“拿著錘子找釘子”。
2015年,基于對(duì)軟硬件的探索,思必馳推出AIOS對(duì)話操作系統(tǒng),賦能更多智能硬件合作伙伴。伴隨著物聯(lián)網(wǎng)端的速度更新加快,產(chǎn)品更加個(gè)性化,需求更加差異化,今年思必馳推出DUI開放平臺(tái)。
同時(shí),語音交互領(lǐng)域的競爭環(huán)境也在迅速變化,攜技術(shù)、資源、資本優(yōu)勢的互聯(lián)網(wǎng)大公司相繼涌入這個(gè)領(lǐng)域,語音技術(shù)服務(wù)商所倚重的面向B端企業(yè)的項(xiàng)目制產(chǎn)品模式和盈利模式,在與互聯(lián)網(wǎng)公司的平臺(tái)制規(guī)模化較量時(shí),優(yōu)劣對(duì)比越來越明顯。
開放和平臺(tái),已是競爭大勢所趨。尚在創(chuàng)業(yè)階段的公司做平臺(tái),“為與不為”變得相當(dāng)重要。
思必馳CEO高始興表示,思必馳通過DUI平臺(tái)開放核心語音技術(shù),愿意將DUI全鏈路的每個(gè)環(huán)節(jié)都開放,數(shù)據(jù)接口開放,硬件模組也開放,在這方面,思必馳已與海知智能、聲智科技建立了合作關(guān)系,比如在AI技能、文本分析、硬件模組接口等更加細(xì)分的技術(shù)層面,開發(fā)者既可以使用思必馳的語音技術(shù),也可以用行業(yè)伙伴的技術(shù)。
在思必馳首席科學(xué)家俞凱看來,目前國內(nèi)提供語音交互技能的公司大體上有兩種不同的思路。一是提供封閉的解決方案,所有的東西都包攬優(yōu)化;二是像思必馳DUI這樣的思路,開放,形成生態(tài)圈,有博弈的過程,但是多贏博弈的過程,在生態(tài)圈上大家互相體諒。
思必馳對(duì)AI領(lǐng)域的關(guān)注,也開始從聚焦人工智能物聯(lián)網(wǎng)上下游產(chǎn)業(yè)鏈,到關(guān)注傳統(tǒng)行業(yè),例如擴(kuò)展到了教育、醫(yī)療等。在元禾資本、富士康、清華控股等LP的支持下,思必馳于2016年?duì)款^成立了馳星創(chuàng)投,截止目前,已成功投資、孵化了七家企業(yè)。
原阿里iDST語音團(tuán)隊(duì)負(fù)責(zé)人初敏博士加入思必馳,也是今年下半年語音交互領(lǐng)域的一大新聞。由初敏牽頭,思必馳北京研發(fā)院正式成立,并將在一年之內(nèi)組建從基礎(chǔ)研究到應(yīng)用落地的研發(fā)團(tuán)隊(duì),為思必馳拓展新的業(yè)務(wù)路線,比如面向企業(yè)端的“智能服務(wù)”。
在通往平臺(tái)的路上,競爭已來。