石海威
“你是屌絲嗎?”
“如果我是屌絲,你一定是猥瑣大叔。”
“才不是,我是高富帥?!?/p>
“你是高腐衰?!?/p>
這段對話來自百度語音助手與韓國Simsimi公司聯(lián)手推出的“小黃雞”,你可以與它對話、提問,并下達(dá)指令,“小黃雞”自上線起就被視為“宅男解悶利器”。事實(shí)上,國內(nèi)與“小黃雞”類似的語音助手還有很多。
2011年Siri的出現(xiàn)讓語音技術(shù)滲透進(jìn)人們的生活,也將語音識別帶入了新紀(jì)元。此前,“人機(jī)交互”一直只是個(gè)虛擬概念。這里所說的語音技術(shù),主要是指將語音轉(zhuǎn)換為文字,嚴(yán)格意義上的語音技術(shù)還包括語義分析和信息集成,即如何分析并滿足用戶需求,從邏輯上看是層層遞進(jìn)的關(guān)系。
這種特性決定了語音識別產(chǎn)業(yè)鏈分工相對明確。國內(nèi)的語音識別領(lǐng)域,科大訊飛、云知聲是提供底層服務(wù)的代表者,在此基礎(chǔ)上衍生出的各類語音助手則更專注于語義分析和信息集成,也更貼近用戶真實(shí)的生活場景。其中,已經(jīng)在深交所上市的科大訊飛是產(chǎn)業(yè)鏈的龍頭。2008年5月12日,科大訊飛上市第一天就被炒到30.31元,比12.66元的發(fā)行價(jià)翻了一倍還多。目前,國內(nèi)許多語音助手都采用了科大訊飛的技術(shù)。
不過,Siri的火爆并沒有帶來國內(nèi)市場的繁榮。蟲洞語音助手創(chuàng)始人余志晨回憶,2011年產(chǎn)品上線后,眼見社交應(yīng)用火了一撥又一撥,語音助手卻始終不溫不火。經(jīng)過反思,余志晨認(rèn)為語音產(chǎn)品本身的形態(tài)決定了它不是一個(gè)爆發(fā)性的產(chǎn)品,用戶的使用習(xí)慣需要從零培養(yǎng)。
很快,中國開發(fā)者們改良了語音技術(shù)。與Siri枯燥的對話相比,國內(nèi)語音助手做得更生機(jī)勃勃,用戶可以用語音操控手機(jī)(如打電話、發(fā)短信)、查詢信息(天氣、交通、預(yù)訂餐館),以及語音問答(與機(jī)器對話、相互調(diào)侃)等等。這看上去與搜索引擎的功能類似,不過語音助手最實(shí)際的意義在于解放了用戶的雙手。其中的典型代表有智能360、蟲洞語音助手、快說等小型團(tuán)隊(duì)的作品,也不乏百度、搜狗等巨頭推出的產(chǎn)品。
未來,語音識別成為手機(jī)的基礎(chǔ)功能已無異議,每部手機(jī)都將配有一個(gè)語音識別模塊,通過這一模塊可以隨時(shí)調(diào)用任何功能和應(yīng)用,就如同現(xiàn)在的GPS一樣。對于開發(fā)者而言,單純開發(fā)語音技術(shù)很難賺到錢,基于語音輸入的應(yīng)用服務(wù),才是最具想象力的領(lǐng)域。
從戰(zhàn)略角度分析,科大訊飛、百度等大公司都希望將語音輸入變得集成化、一體化,以最終形成語音服務(wù)的閉環(huán)。短期來看,產(chǎn)業(yè)閉環(huán)會(huì)使服務(wù)效率提高,實(shí)現(xiàn)無縫對接。然而長遠(yuǎn)來看,集成化、一體化的服務(wù)也讓巨頭頗顯為難。2012年搜狗立項(xiàng)做語音助手時(shí)曾希望覆蓋全產(chǎn)業(yè),打通從語音識別到信息集成的通路。不過很快,搜狗就放棄了自己開發(fā)語音識別技術(shù),轉(zhuǎn)而與云知聲、科大訊飛進(jìn)行合作。
眼下,各家語音助手都有短板。以搜狗為例,后端龐大的資料庫使其在資源整合上擁有絕對優(yōu)勢,但前端的語音識別技術(shù)則相對薄弱,即便組建專門的研發(fā)團(tuán)隊(duì),在識別準(zhǔn)確度上也無法與科大訊飛、云知聲等積累了十幾年經(jīng)驗(yàn)的專業(yè)團(tuán)隊(duì)相比。語音識別的技術(shù)門檻相當(dāng)高,后臺(tái)支撐需要靠經(jīng)年累月的數(shù)據(jù)積累。這些依靠算法、爬蟲獲得的信息,短時(shí)間內(nèi)難以獲得,且價(jià)值呈逐年遞漲趨勢。
據(jù)《創(chuàng)業(yè)家》記者了解,在過去兩年,市面上常見的語音助手類應(yīng)用普遍獲得了金額不菲的融資,動(dòng)輒百萬美元級別。盡管如此,語音助手們的盈利模式依然不清晰。相比較而言,Siri更像是一種功能,國內(nèi)的語音助手們才是一款產(chǎn)品。蘋果并不依靠Siri賺錢,但國內(nèi)開發(fā)者們則不同,無論是技術(shù)層面還是產(chǎn)品創(chuàng)新層面,每一個(gè)環(huán)節(jié)都還有巨大的提升空間。以智能360、蟲洞為代表的語音助手都已擁有幾百萬用戶,但還遠(yuǎn)沒達(dá)到盈利的臨界點(diǎn)。
值得關(guān)注的是,微信語音的出現(xiàn)改變了用戶的行為習(xí)慣,用戶開始敢于在公共場合與手機(jī)對話,并逐漸形成了基于互聯(lián)網(wǎng)的語音習(xí)慣。這個(gè)習(xí)慣一旦成熟,也將有利于語音助手的普及,提高用戶的接納度。
對于偏語義分析和數(shù)據(jù)挖掘的團(tuán)隊(duì),早期第一位的還是用戶體驗(yàn)。如果只做通用型的語音助手,恐怕難以做精,切入垂直領(lǐng)域是個(gè)不錯(cuò)的選擇,如旅游、酒店、機(jī)票預(yù)訂等。切準(zhǔn)細(xì)分場景更有助于這些應(yīng)用快速獲得用戶、實(shí)現(xiàn)商業(yè)化,當(dāng)用戶積累到一定數(shù)量后,也有做競價(jià)排名和內(nèi)容推薦的可能?,F(xiàn)在,已經(jīng)有語音助手切入細(xì)分領(lǐng)域?qū)崿F(xiàn)差異化競爭。從今年下半年起,這種趨勢將會(huì)愈發(fā)明顯。
挑戰(zhàn)語音識別
云知聲近期的頻頻亮相令其頗受關(guān)注。5月7日,樂視超級電視發(fā)布,集成了云知聲的語音交互技術(shù)。外界評價(jià)稱,“從現(xiàn)場演示效果看,識別準(zhǔn)確度和識別效率方面都具有很高的水準(zhǔn)?!?/p>
除了樂視超級電視,云知聲的合作方還有搜狗語音助手和錘子ROM。云知聲借助自己的本地語音識別、云端語音識別,以及語義分析等技術(shù)為它們提供服務(wù)。
創(chuàng)始人梁家恩表示,語音識別看上去只是將語音轉(zhuǎn)換成文字這么簡單,但其實(shí)需要非常深厚的技術(shù)積累。梁家恩2001年從中科大畢業(yè)后,進(jìn)入國內(nèi)語音技術(shù)的搖籃—中科院自動(dòng)化所深造了五年。在這期間,他多次參與國家重點(diǎn)項(xiàng)目的研發(fā),從語音識別的基礎(chǔ)技術(shù)到工程實(shí)踐,積累了豐富的經(jīng)驗(yàn)。在完成博士階段學(xué)習(xí)后,他作為語音識別技術(shù)團(tuán)隊(duì)的帶頭人繼續(xù)在自動(dòng)化所工作了五年。
梁家恩與科大訊飛創(chuàng)始人劉慶峰師出同門,都畢業(yè)于中國科學(xué)技術(shù)大學(xué)。梁家恩記得很清楚,當(dāng)年科大訊飛拿到第一筆錢的時(shí)候他還在讀本科。2008年中科大五十周年校慶時(shí),劉慶峰作為創(chuàng)業(yè)明星被校友們津津樂道。那時(shí)梁家恩并沒料到,自己會(huì)創(chuàng)辦一家與科大訊飛在技術(shù)上被相提并論的公司。
2011年,隨著Siri的爆發(fā)和人工智能技術(shù)的進(jìn)步,梁家恩覺得創(chuàng)業(yè)時(shí)機(jī)已經(jīng)成熟,于是聚合了一批兄弟,成立了云知聲。目前,除了語音識別技術(shù)外,云知聲另一項(xiàng)核心技術(shù)是云計(jì)算平臺(tái)技術(shù)。其中,公有云針對普通開發(fā)者,用標(biāo)準(zhǔn)化服務(wù)解決技術(shù)問題,并采取免費(fèi)策略;私有云主要針對企業(yè)客戶,可根據(jù)企業(yè)的特殊需要提供定制化的SDK和接口調(diào)用。
雖然語音識別已成為巨頭們卡位的關(guān)鍵領(lǐng)域,但梁家恩并不擔(dān)心自己公司的技術(shù)實(shí)力,他本人在語音領(lǐng)域積累了十幾年的研究經(jīng)驗(yàn)。眼下,他的擔(dān)憂主要在于技術(shù)型創(chuàng)業(yè)公司如何實(shí)現(xiàn)商業(yè)化。
科大訊飛很大一部分收入來自傳統(tǒng)行業(yè),比如教育市場,而梁家恩設(shè)想云知聲未來的收入將更多偏向互聯(lián)網(wǎng)?,F(xiàn)階段,云知聲沒有切入垂直化的產(chǎn)品,而是專心做平臺(tái),讓開發(fā)者基于云知聲的技術(shù)去做個(gè)性化的產(chǎn)品。梁家恩認(rèn)為,互聯(lián)網(wǎng)的廣告平臺(tái)、游戲平臺(tái)都能賺錢,語音識別將是下一個(gè)盈利平臺(tái)。
智能360的前身語音360是一款通話錄音軟件。當(dāng)年語音360做得有聲有色,就是否要延伸產(chǎn)品線做語音助手,性格趨于保守的CEO何永與聯(lián)合創(chuàng)始人李傳豐有過一些爭論。直到2011年Siri爆紅,何永無法再繼續(xù)淡定下去,他決定做一款像Siri一樣的語音助手。
何永畢業(yè)于中科院,后就職于上海九城。他了解語音識別的相關(guān)算法,早期的產(chǎn)品代碼也由他親自操刀。很快,智能360作為國內(nèi)第一批語音助手之一,在2012年1月上線。
盡管智能360的客戶端推出較早,但也和科大訊飛面臨一樣的困擾,就是信息集成環(huán)節(jié)的薄弱。然而,何永很快找到了突破點(diǎn)—與第三方合作?,F(xiàn)在,智能360語義解析平臺(tái)可以直接接入第三方的服務(wù),無論用戶要預(yù)訂機(jī)票酒店還是看新聞,都能在這個(gè)平臺(tái)中找到相應(yīng)的服務(wù)。這種合作不但減輕了團(tuán)隊(duì)自身壓力,也提高了內(nèi)容質(zhì)量。何永表示,智能360未來不會(huì)再涉足服務(wù)開發(fā),只專注做好語義解析這件事。
目前,智能360已基于語音語義模塊引入了四五十種服務(wù),涵蓋生活的方方面面,包括智能聊天、備忘、通話短信、查詢美食、詢問路線等多種功能。智能360語音識別技術(shù)由Google、科大訊飛提供,語義識別技術(shù)則是自主研發(fā)。
和同行一樣,智能360的盈利模式還未清晰。何永認(rèn)為,語音智能和人工智能的結(jié)合將不僅僅在手機(jī)上,在其它領(lǐng)域,比如家居和車載行業(yè),也同樣具備可觀的市場,真正清楚的賺錢模式,可能在三到五年后才比較成熟。
語音識別的核心在于人機(jī)交互,如果某一天用戶的任何問題都能通過人機(jī)交互獲得答案,那么即便是擁有海量信息的搜索引擎也將完全失去價(jià)值。何永判斷,語音識別的真正臨界點(diǎn)可能會(huì)在三五年之后到來,眼下正是跑馬圈地的好時(shí)候。
智能360的用戶量已經(jīng)接近800萬,日活躍度達(dá)到6%。何永透露,用戶一旦形成規(guī)模,便可以考慮為一些第三方網(wǎng)站,如大眾點(diǎn)評、去哪兒帶去一些流量,在此基礎(chǔ)上分成。智能360已獲得A輪融資,這個(gè)過程中,不乏巨頭有過收購意向,都被何永拒絕了。智能360計(jì)劃2014年啟動(dòng)B輪融資,預(yù)計(jì)融資3000萬元,將主要用于研發(fā)和渠道投入。
專注人工智能
俞志晨早年在中國軟件與技術(shù)服務(wù)公司負(fù)責(zé)嵌入式設(shè)備的翻譯系統(tǒng)研發(fā)。2009年8月,他離職創(chuàng)業(yè)。俞志晨將自己的產(chǎn)品取名“蟲洞”,就是希望實(shí)現(xiàn)用戶與信息之間的“瞬間連接”。一年后,蟲洞客戶端(Java版)誕生,這也是蟲洞語音助手的前身?!跋x洞”本是愛因斯坦提出的猜想,它可以實(shí)現(xiàn)宇宙遙遠(yuǎn)區(qū)域的瞬間連接,通俗地講就是“時(shí)空隧道”。2010年俞志晨注冊成立“北京光年無限科技公司”,2011年Siri面世后,他開始將產(chǎn)品由客戶端向語音助手轉(zhuǎn)型。從最初的機(jī)器翻譯,到之后的語音文本轉(zhuǎn)換,再到Siri的出現(xiàn),俞志晨趕上了人工智能的每一個(gè)節(jié)點(diǎn)。
蟲洞的主要功能是生活服務(wù),如交通、天氣查詢,休閑娛樂、智能聊天等。俞志晨也和所有用戶面臨一樣的困擾:眼下語音識別和人工智能的準(zhǔn)確度還有待提高。此外,大多數(shù)中國用戶羞于在人前表達(dá)。不過,語音識別和搜索技術(shù)平均每三個(gè)月就有一次大的突破。蟲洞內(nèi)部統(tǒng)計(jì)顯示,用戶正在逐漸接受語音助手,截至2013年5月,蟲洞有效注冊用戶已達(dá)750萬,日活躍度為8%。
俞志晨對《創(chuàng)業(yè)家》記者透露,蟲洞在語音識別上也使用了科大訊飛的技術(shù),與其他同類產(chǎn)品相比,其優(yōu)勢在于數(shù)據(jù)庫更全面。蟲洞數(shù)據(jù)庫的信息來源主要依賴于各個(gè)細(xì)分領(lǐng)域的專業(yè)網(wǎng)站,同時(shí)后臺(tái)也開放了API 端口,便于與其他數(shù)據(jù)源互通有無,從而更好地匹配用戶答案。經(jīng)過四年的前期數(shù)據(jù)積累,蟲洞現(xiàn)在的問答知識庫已經(jīng)非常龐大。
對于未來的戰(zhàn)略方向,俞志晨思考得很清晰,蟲洞只專注語義分析與內(nèi)容整合,堅(jiān)決不碰語音識別。俞志晨認(rèn)為,一家創(chuàng)業(yè)公司是沒有足夠的人力去支撐全線開發(fā)的,而且語音識別未來會(huì)成為基礎(chǔ)性輸入模塊,會(huì)衍生出很多語音應(yīng)用服務(wù),因此要特別重視產(chǎn)品的應(yīng)用屬性。
蟲洞未來也會(huì)通過搜索推薦等方式獲取一定收入,比如為用戶推薦一款游戲來從中抽成,但俞志晨表示這種清楚直接又可量化的收入,不會(huì)成為語音助手核心的商業(yè)模式。目前,蟲洞開始有計(jì)劃地切入垂直領(lǐng)域,也在做一些語音互動(dòng)領(lǐng)域的個(gè)性化及社交化嘗試。不可忽視的是,眼下想切入這一領(lǐng)域的巨頭們在整合資源方面優(yōu)勢巨大,比如巨頭自身擁有點(diǎn)評、地圖等業(yè)務(wù),各部門間可以做到無縫對接。對于蟲洞這種創(chuàng)業(yè)公司來說,目前內(nèi)容層面還只能與第三方合作。
“語音助手產(chǎn)品如果是選好角度切入,單點(diǎn)突破,其實(shí)想象空間非常大?!庇嶂境空J(rèn)為,與那些曇花一現(xiàn)的移動(dòng)互聯(lián)網(wǎng)產(chǎn)品不同,語音類應(yīng)用的價(jià)值呈逐年遞增的趨勢,且技術(shù)門檻會(huì)越來越高。
盯緊垂直市場
在創(chuàng)立快說之前,邢獻(xiàn)杰曾做過兒童玩具的語音輸入研發(fā),之后加入IBM負(fù)責(zé)語音技術(shù)研究。2011年,邢獻(xiàn)杰從IBM離職創(chuàng)業(yè),快說是他的第一款產(chǎn)品。2013年4月,快說發(fā)布了最新版本。此前,快說與其它同類語音助手功能類似,包括可做持續(xù)性對話,能清晰地分析用戶需求、解答用戶問題,并為用戶執(zhí)行任務(wù),如打電話、發(fā)短信、記備忘、訂酒店等。在新版本中,快說增加了休眠喚醒和支持藍(lán)牙耳機(jī)兩項(xiàng)新功能,使其與對手實(shí)現(xiàn)了差異化。
這兩種功能的直接受益者是司機(jī)人群。司機(jī)可以通過藍(lán)牙耳機(jī)啟動(dòng)快說,語音撥號,同時(shí)也能識別來電人姓名。此外,快說還支持直接在百度地圖客戶端聲控啟用其語音導(dǎo)航功能,對于駕車者很實(shí)用。
據(jù)介紹,快說目前的語音識別準(zhǔn)確度可達(dá)90%。邢獻(xiàn)杰坦言,初創(chuàng)團(tuán)隊(duì)想覆蓋整個(gè)語音產(chǎn)業(yè)鏈顯然是不現(xiàn)實(shí)的。2012年產(chǎn)品剛上線時(shí),因?yàn)椴捎昧俗灾餮邪l(fā)的語音識別系統(tǒng),快說準(zhǔn)確度率不高。此后,快說選擇和科大訊飛合作,準(zhǔn)確度提升很多,自己的團(tuán)隊(duì)也能專心做好內(nèi)容。
2013年,快說開放了微信公眾平臺(tái)?!艾F(xiàn)在微信公眾賬號無法即時(shí)和用戶聊天或者互動(dòng)回答,我們提供了一個(gè)自動(dòng)化問答服務(wù),形成語義微信集合?!毙汐I(xiàn)杰說,這實(shí)際上是為微信提供了人機(jī)對話引擎,也可稱作“微信機(jī)器人”,用戶可以直接與其調(diào)侃互動(dòng)。目前“微信機(jī)器人”已率先和“招商銀行”公眾賬號展開合作。
邢獻(xiàn)杰起初希望依靠本地生活服務(wù)來獲取收入,因此2012年5月產(chǎn)品上線后不久,便與百度地圖、大眾點(diǎn)評、去哪兒等第三方網(wǎng)站展開合作。盡管2012年公司尚未有收入,但未來語音助手將會(huì)成為信息獲取入口??煺f不排除做競價(jià)排名的可能,當(dāng)用戶積累到足夠多時(shí),也可以做個(gè)性化推薦。
截至2013年4月,快說的用戶量已超過200萬。現(xiàn)在,快說選擇切入駕駛情境,也是出于做垂直市場的考慮,這也許是其未來主要的收入來源。