華薇薇
兩年前,剛剛成立的創(chuàng)業(yè)公司芋頭科技在參加一次活動時(shí)表示,未來其最大的競爭對手將是Google。當(dāng)時(shí),在場的人都笑了。
無論體量還是技術(shù)實(shí)力,這家創(chuàng)業(yè)公司都遠(yuǎn)遠(yuǎn)稱不上是Google的對手。芋頭科技的言論,顯示出了它的野心—當(dāng)然,狂妄了點(diǎn)。
其主要產(chǎn)品是一款語音助手硬件,名字叫若琪(Rokid)。今年4月,芋頭科技賣出了首批500臺Rokid機(jī)器人,每臺價(jià)格超過5000元,在天貓和京東上,Rokid機(jī)器人第一天的銷量就達(dá)300臺。
芋頭科技的CEO Daniel Wong認(rèn)為,語音助理硬件是一個(gè)理想的家庭物聯(lián)網(wǎng)入口,它比手機(jī)更加簡單,對外唯一的接口就是人類的語音。Rokid繞開了第三方App終端,通過Wi-Fi就可以控制第三方設(shè)備和服務(wù)提供商,它像是一個(gè)信息處理中心?!澳憧梢詫λf,‘若琪,我想聽搖滾或是‘若琪,明天天氣怎么樣,還可以接入外賣、叫車服務(wù)等,它就像是一個(gè)家庭智能管家。”Wong對《第一財(cái)經(jīng)周刊》說。
這是一種新的交互方式。盡管早在2014年,蘋果的語音助手Siri已經(jīng)面市,但用戶使用它的心態(tài)更趨于娛樂,也就是說,即便它答非所問,我們?nèi)匀豢梢暂p松接受這種失誤。
如今的情況發(fā)生了一些變化。過去一年,硅谷技術(shù)巨頭的一系列動作都在傳遞一個(gè)信號:未來幾年內(nèi),人工智能就會無所不在。而語音技術(shù)是其中一個(gè)突破口,計(jì)算機(jī)對語音識別的正確率從2010年的70%,提高到了2016年的90%。亞馬遜兼有語音助手功能的無線音箱Echo,售價(jià)199美元,去年售出了400萬臺。5月20日,在人工智能技術(shù)上占據(jù)領(lǐng)先位置的Google也正式推出了語音助手硬件Google Home。
“我們有一個(gè)隱約的邊界一直沒有被撕開,這個(gè)邊界就是我們的意識、情感、創(chuàng)造力。而現(xiàn)在,這個(gè)邊界正在被撕開,人工智能就像一個(gè)潘多拉盒子,人們的生活會變得更美好還是更糟糕,作為早期的探索者,你需要思考這一邊界在哪里?!庇箢^科技的聯(lián)合創(chuàng)始人祝銘明對《第一財(cái)經(jīng)周刊》說。
Wong在自己的職業(yè)生涯中接觸過不少技術(shù)高管,但留著絡(luò)腮胡、戴著黑框眼鏡的祝銘明有點(diǎn)與眾不同。這位畢業(yè)于加州大學(xué)伯克利分校的人工智能技術(shù)博士,曾是阿里巴巴集團(tuán)M工作室的負(fù)責(zé)人,這個(gè)工作室涵蓋了阿里巴巴的大部分技術(shù)類研發(fā),比如識別技術(shù)。
美國華裔Wong和祝銘明第一次見面是在阿里巴巴和三星的一次合作洽談會上,當(dāng)時(shí),Wong是三星電子中國區(qū)副總裁,穿著摩托車服、總是迫不及待地要分享想法的祝銘明,給他留下了很深的印象。
還沒開始Rokid項(xiàng)目之前,祝銘明曾花了一段時(shí)間研究人和機(jī)器交互中的平衡問題,在他看來,這一點(diǎn)對產(chǎn)品的設(shè)計(jì)理念很重要。他問了很多人這樣一個(gè)問題:如果一輛無人駕駛汽車正在路上高速行駛,突然路上出現(xiàn)兩個(gè)騎自行車的人,騎手A戴著頭盔和護(hù)甲,而騎手B什么都沒有戴,這輛車必須要撞一個(gè)人的話,請問它應(yīng)該撞誰?
答案對于祝銘明來說并不重要,他想知道的是,當(dāng)人工智能機(jī)器人出現(xiàn)在身邊時(shí),人們到底愿不愿意把有主動意識的人類的命運(yùn)交付給機(jī)器人去做決定。
而這也是一個(gè)關(guān)于人和機(jī)器人交互的邊界線的問題,祝銘明把他的答案投射到了Rokid的產(chǎn)品設(shè)計(jì)中。Rokid是一款機(jī)器人,但并不能四處走動,它的外觀像是一個(gè)有著圓潤弧度、頂部帶光的飛碟。祝銘明認(rèn)為,用戶和它溝通時(shí),它需要有透光的色彩變化,正如人類在交流時(shí)產(chǎn)生的表情變化。
但要讓這種概念落地成產(chǎn)品并不容易。首先是透光的問題,理想情況是,即便在沒有交互的情況下,Rokid的外觀也可以呈現(xiàn)出白色的暖光,圖像會從內(nèi)部投射到圓弧形外殼上,“這需要在前蓋材料的透光度和顯示圖像的清晰度之間找到一個(gè)完美平衡?!盬ong說,他在2015年春節(jié)之前加入了芋頭科技。
芋頭科技當(dāng)時(shí)獲得了線性資本的200萬美元天使輪投資,這能幫助團(tuán)隊(duì)更快地推進(jìn)這一項(xiàng)目。2014年下半年,公司找到一家日本材料廠商,后者調(diào)試了20多次,終于解決了前蓋的材料問題,這讓團(tuán)隊(duì)在當(dāng)年年底生產(chǎn)出了第一個(gè)樣品。
不過,這個(gè)設(shè)計(jì)在兩個(gè)月之后就遭到否決。Rokid團(tuán)隊(duì)在十幾個(gè)城市開展了一次早期用戶調(diào)研。用戶反映,Rokid的尺寸放在床頭柜上顯得太大,放在客廳的桌子上又太小,上下部分的比例也不協(xié)調(diào)。
在收集完這些針對細(xì)節(jié)的反饋之后,祝銘明推翻了之前的設(shè)計(jì)方案,同時(shí),他開始完成一些關(guān)鍵任務(wù)—開發(fā)自己的語音庫,并在硅谷設(shè)立一個(gè)新的研究室,以便盡早搶奪人才資源。
這一決定實(shí)際上意味著很多不確定性。人工智能產(chǎn)品主要以語音控制為主,對于一個(gè)創(chuàng)業(yè)團(tuán)隊(duì)來說,最容易的介入方案就是直接采用第三方語音開源軟件,實(shí)現(xiàn)硬件產(chǎn)品的快速落地。但這一辦法不太適合Rokid。最大的問題在于,第三方語音技術(shù)只能解決一米之內(nèi)的近場識別,但遠(yuǎn)場聲控一般在10米之內(nèi),周邊任何細(xì)微的雜音都會對準(zhǔn)確度造成影響。
而Rokid團(tuán)隊(duì)成立時(shí),中國幾乎沒有團(tuán)隊(duì)在開發(fā)基于遠(yuǎn)場語音識別的智能家居設(shè)備。一旦開發(fā)遠(yuǎn)場識別技術(shù),就意味著軟件算法、語音模型都要和硬件捆綁在一起,因?yàn)橛布?nèi)置的麥克風(fēng)的設(shè)計(jì)屬于前端設(shè)計(jì),必須要做降噪處理。
祝銘明決定,Rokid要采用自己的中英文語音方案,所有的語音素材需在特殊搭建的房間內(nèi)錄制,并在10米距離內(nèi)實(shí)現(xiàn)準(zhǔn)確的語意理解。接下來,團(tuán)隊(duì)還要針對中文交流做一系列本土化調(diào)整,比如,將喚醒設(shè)備的三音節(jié)語音“Hi,若琪”直接變成“若琪”。最后,Rokid的遠(yuǎn)場聲控準(zhǔn)確度一定要達(dá)到90%以上。
現(xiàn)在看來,自建語音庫的確是一個(gè)頗為明智的決策。第三方技術(shù)往往只提供算法,無法進(jìn)一步優(yōu)化,而自建語音庫可以持續(xù)調(diào)整,并讓結(jié)果的準(zhǔn)確度不斷提升?!白鳛橄M(fèi)者產(chǎn)品,不可能10句話中只有8句話能聽懂,用戶會覺得這個(gè)產(chǎn)品不行?!盬ong說。
2016年年初,Rokid獲得了國際消費(fèi)電子展(CES)的創(chuàng)新大獎。3個(gè)月后,Google Home發(fā)布。后者可以看作是一張連接了Google的搜索、郵箱、視頻、日歷等一系列服務(wù)的人工智能網(wǎng)絡(luò),讓Google能更容易地掌握用戶的各類實(shí)時(shí)動態(tài)信息—你搜索過什么、去過哪里、買過什么,在此基礎(chǔ)上,向用戶推送更為精準(zhǔn)的消息。
目前,Rokid已與喜馬拉雅FM、網(wǎng)易新聞等達(dá)成合作,但它顯然還無法建立像Google那樣由大量內(nèi)容或內(nèi)容服務(wù)商構(gòu)成的生態(tài)系統(tǒng)。Rokid需要足夠多的后臺數(shù)據(jù),才能更聰明地去深度學(xué)習(xí)。而服務(wù)商們愿不愿意與之合作,某種程度上取決于Rokid平臺的規(guī)模。
核心的問題可能仍然會回歸到銷售上。Rokid團(tuán)隊(duì)的下一步是快速擴(kuò)充產(chǎn)品線,第一批Rokid是試探早期用戶反應(yīng)的高端產(chǎn)品,接下來,Rokid團(tuán)隊(duì)會推出不同價(jià)位的產(chǎn)品。
和Google競爭,這還是個(gè)有點(diǎn)遠(yuǎn)的目標(biāo)。