賀文
語音作為人機(jī)交互的重要方式,要能夠形成一個(gè)閉環(huán)
——信息搜索,服務(wù)獲取,任務(wù)達(dá)成。
除了調(diào)侃解悶,語音作為人與智能設(shè)備的交互方式之一,現(xiàn)在能做什么?
思必馳創(chuàng)始人、CEO高始興拿起手機(jī),沒有直接解鎖屏幕,而是按下一個(gè)語音鍵說,“給浩然發(fā)短信”,一秒鐘左右,手機(jī)里傳來溫柔女聲“短信內(nèi)容寫什么”,“告訴他我已經(jīng)到北京了,明天會(huì)到深圳,我們見個(gè)面,幫我訂機(jī)票”。
原本我們發(fā)短信或者打電話,都得先解屏手機(jī),再點(diǎn)擊“短信”或撥號(hào),數(shù)個(gè)步驟后才能完成,而思必馳提供的這個(gè)針對(duì)智能硬件的解屏語音產(chǎn)品,即便設(shè)備沒有可觸摸的屏,發(fā)短信/打電話也相當(dāng)便捷。
“你再想想,未來搜索會(huì)怎么‘搜?”高始興很有興趣采訪先從這個(gè)話題開始。在他看來,會(huì)影響到未來搜索的主要因素有幾個(gè):
一是整個(gè)硬件時(shí)代的迭代,從PC互聯(lián)網(wǎng)到智能手機(jī)移動(dòng)互聯(lián)網(wǎng),再到智能硬件的物聯(lián)網(wǎng),硬件端已經(jīng)發(fā)生了翻天覆地的變化;相應(yīng)地,人機(jī)交互的媒介也變化巨大,從鍵盤、鼠標(biāo),到觸屏,再到語音、手勢(shì)、虹膜等;在這樣的大背景下,未來用戶的搜索會(huì)越發(fā)的場(chǎng)景化,搜索的目的從傳統(tǒng)的信息查詢,轉(zhuǎn)變?yōu)榉?wù)的獲取、任務(wù)的完成。
思必馳希望能夠?qū)崿F(xiàn)的是,語音作為人機(jī)交互的重要方式,要能夠形成一個(gè)閉環(huán)一一信息搜索,服務(wù)獲取,任務(wù)達(dá)成。
裝上“大腦”
高始興相信,搜索再往下走,特別在智能硬件端、在物聯(lián)網(wǎng)上,語音交互一定是核心人機(jī)交互手段之一?!罢Z音是唯一能傳遞復(fù)雜信息的交互手段,人臉、虹膜、手勢(shì),現(xiàn)在來看還只能夠作為身份驗(yàn)證,或者做一個(gè)簡單的搜索,要輸入復(fù)雜的信息一定是通過語音。”
在感知智能時(shí)代,語音交互更多的是簡單的語音識(shí)別,加自然語言理解,能夠?qū)崿F(xiàn)簡單的搜索和控制;在認(rèn)知智能時(shí)代,人機(jī)交互時(shí)機(jī)器更懂用戶,懂用戶的歷史、懂用戶的上下文,而且機(jī)器聽不懂可以去問,允許用戶打斷,允許用戶糾正,機(jī)器既有耳朵又有嘴巴更有大腦。這些是在感知智能時(shí)代做不到的。高始興和思必馳團(tuán)隊(duì)認(rèn)為,在垂直領(lǐng)域里面,機(jī)器的認(rèn)知智能應(yīng)該能做到,聽不懂會(huì)問、知道怎么問、問什么,核心目的是幫用戶快速地完成任務(wù),這是人機(jī)對(duì)話的下一個(gè)階段,也是思必馳要做到的事情。
高始興介紹,思必馳現(xiàn)在主要做兩款產(chǎn)品:
——是AIOS(AlSpeech Operating System)人機(jī)對(duì)話的智能操作系統(tǒng),把思必馳全面的語音技術(shù)整合到操作系統(tǒng)里,把人機(jī)對(duì)話邏輯整合進(jìn)去,把后端服務(wù)比如高德導(dǎo)航、音樂、天氣、聊天等服務(wù)整合進(jìn)去,基于現(xiàn)在主流的操作系統(tǒng),開發(fā)者(智能硬件方向上的合作伙伴)基于思必馳AIOS的標(biāo)準(zhǔn)化接口再做相應(yīng)開發(fā),讓智能硬件產(chǎn)品能說會(huì)道,擁有了人機(jī)交互的能力;
一是核心硬件模組的研發(fā),比如智能芯片、麥克風(fēng)陣列,這樣能配合思必馳的AIOS軟件,因?yàn)橛行﹫?chǎng)景里的語音交互需要硬件的配合,才能讓交互的體驗(yàn)、交互的效率更好。比如聲源定位,就需要環(huán)形麥克風(fēng)陣列這樣的硬件支持。
去年10月,蘋果收購了一家英國軟件創(chuàng)業(yè)公司VocallQ,加強(qiáng)Siri語音助手服務(wù)。高始興稱其為“全球做人機(jī)對(duì)話最棒的公司”。而該創(chuàng)業(yè)公司的創(chuàng)始人之一俞凱,就是高始興創(chuàng)業(yè)思必馳的搭檔。
“蘋果為什么要收購它,為了加強(qiáng)對(duì)話。未來通過語音和智能硬件物聯(lián)網(wǎng)之間進(jìn)行人機(jī)交互的體驗(yàn),就應(yīng)該像在智能手機(jī)上一樣?!备呤寂d說,不恰當(dāng)?shù)匕阎悄苡布锫?lián)網(wǎng)的爆發(fā)類比做智能手機(jī),手機(jī)在功能機(jī)時(shí)只是通信的工具,打電話發(fā)短信,交互非常難,但是在智能機(jī)時(shí)代,觸摸交互非常爽,在智能手機(jī)上可以聽音樂看視頻可以購物,能夠承載豐富的場(chǎng)景,更多的服務(wù)涉及到生活的方方面面,“人機(jī)能夠?qū)υ捚饋恚菍?shí)現(xiàn)這種美妙體驗(yàn)的第一步”。
力出一孔
語音交互技術(shù)不可能一蹴而就地去到那美麗新世界。
高始興認(rèn)為,語音交互技術(shù)的發(fā)展需要經(jīng)歷:基礎(chǔ)的語音技術(shù)的提升,比如語音識(shí)別技術(shù)如何能夠解決降噪、遠(yuǎn)場(chǎng)等問題,在場(chǎng)景化里的語音技術(shù)還需要提升,如何更準(zhǔn)確地聲源定位,做到更好的回聲消除等;全面的語音技術(shù)的應(yīng)用,人性化的語音合成比如名人的聲音、家人的聲音,基于語音的情緒識(shí)別等,讓人機(jī)的語音交互更加友好;多模態(tài)的交互技術(shù)的結(jié)合,比如如何結(jié)合人臉識(shí)別、虹膜識(shí)別、手勢(shì)識(shí)別等。
這三個(gè)語音交互技術(shù)的發(fā)展方向,思必馳都在做,不敢也不能對(duì)任一個(gè)方向有所放松,這是智能硬件物聯(lián)網(wǎng)時(shí)代,實(shí)現(xiàn)真正具有認(rèn)知能力的人機(jī)交互界面所必須具備的。
對(duì)于思必馳這樣的創(chuàng)業(yè)公司來說,它的專注體現(xiàn)在,專注于智能硬件的語音交互,主要是針對(duì)車載、智能家居、機(jī)器人等智能硬件產(chǎn)品做垂直領(lǐng)域下的對(duì)話式交互。思必馳已于2015年10月和12月,相繼推出針對(duì)車載產(chǎn)品的AIOSFor Car智能對(duì)話操作系統(tǒng)和針對(duì)機(jī)器人的環(huán)形“6+1”遠(yuǎn)場(chǎng)麥克風(fēng)陣列。思必馳的合作代表型案例包括小米藍(lán)牙語音體感遙控器、海爾馨廚冰箱、樂橙“小樂”機(jī)器人、捷渡中國“遠(yuǎn)界”智能后視鏡等。
一個(gè)創(chuàng)業(yè)公司要成功必須要專注,力出一孔。高始興介紹,劍橋商學(xué)院管理學(xué)碩士畢業(yè)后,曾從事過基于語音技術(shù)的漢語語音糾正、英語語音測(cè)試等方向的創(chuàng)業(yè),也就是之前的思必馳。2014年把教育事業(yè)部分拆出去,成立了“馳聲科技”,2015年被網(wǎng)龍全資收購。2014年全面轉(zhuǎn)型之后,思必馳將精力和資源主要放在智能硬件領(lǐng)域的語音交互技術(shù)方面。
在車載、智能家居、機(jī)器人三個(gè)智能硬件方向上,是均勻著墨,還是看市場(chǎng)成熟速度?高始興認(rèn)為,從底層技術(shù)上,這些語音交互技術(shù)的應(yīng)用場(chǎng)景有很多共同的問題要解決,當(dāng)然在不同場(chǎng)景里應(yīng)用是有差異化,產(chǎn)品化速度和市場(chǎng)成熟速度也會(huì)不太一樣,車載市場(chǎng)會(huì)更快成熟一些,智能家居次之,機(jī)器人未來市場(chǎng)很大但是現(xiàn)在落地比較難。
高始興相當(dāng)推崇亞馬遜的智能音箱Echo,亞馬遜視為“家中的智能語音中心”型產(chǎn)品,其戰(zhàn)略重要性堪比Kindle。高推崇Echo,一方面是其語音交互技術(shù)已經(jīng)做得很棒;二是它已經(jīng)打通了服務(wù),能做一些人機(jī)對(duì)話;三是它已經(jīng)初步構(gòu)成了一些交易閉環(huán),已經(jīng)可以聲紋支付。今年亞馬遜在美國超級(jí)碗大賽期間的廣告,主角就是Echo。
高始興和思必馳團(tuán)隊(duì)想做的,就是,讓中國一個(gè)個(gè)智能硬件設(shè)備,都能成為Echo,給每一款智能硬件裝上耳朵嘴巴和大腦。而現(xiàn)在,是剛剛開始。