劉曉芳
網(wǎng)上流行一段視頻,一位來(lái)自德國(guó)柏林的牛人在他的車?yán)锇惭b了26個(gè)不同廠家的語(yǔ)音導(dǎo)航儀,掛滿了整個(gè)擋風(fēng)玻璃前面。每當(dāng)駛?cè)胍粋€(gè)新的路口時(shí),26個(gè)導(dǎo)航儀播放道路信息的聲音此起彼伏,場(chǎng)面壯觀。車主似乎很享受這種狀態(tài),但是,看視頻的人們卻開始抓狂。
有人猜測(cè)這位牛人可能是位超級(jí)路癡,隨時(shí)隨刻害怕找不著北??扇绻媸锹钒V,26個(gè)語(yǔ)音導(dǎo)航儀同時(shí)播報(bào),他怎能分辨孰對(duì)孰錯(cuò)。語(yǔ)音導(dǎo)航才是問(wèn)題所在。隨著人類語(yǔ)音識(shí)別技術(shù)取得重大進(jìn)展,人工智能的應(yīng)用不僅可以幫助“識(shí)別聲音”,還會(huì)根據(jù)上下文、人類歷史以及能夠理解一般人類語(yǔ)言地去分析,并在多數(shù)情況下領(lǐng)會(huì)你的意思。雖然如此,語(yǔ)義的識(shí)別,自然的會(huì)話,仍是目前為止語(yǔ)音導(dǎo)航尚未真正克服的一大硬傷。
人機(jī)交互經(jīng)歷了鍵盤、鼠標(biāo)、觸控感應(yīng)三個(gè)技術(shù)發(fā)展階段,三者均已成為成熟的應(yīng)用,而語(yǔ)音交互卻似乎仍然讓我們無(wú)可適從,語(yǔ)音導(dǎo)航到底要把我們帶向哪里?
人工智能不智能
陸凌濤的辦公桌上擺放著各式各樣的手機(jī),都是各個(gè)品牌最新款的,有的時(shí)候,鈴聲響起,他需翻弄一陣才能找出是哪個(gè)手機(jī)在響,如果幾個(gè)電話一起響,就更熱鬧了,僅從表面來(lái)看,與那位德國(guó)人懸掛26個(gè)導(dǎo)航儀的場(chǎng)景甚至不相上下。
陸凌濤所在的車音網(wǎng)是做語(yǔ)音導(dǎo)航行業(yè)的,語(yǔ)音技術(shù)的復(fù)雜以及行業(yè)環(huán)境的龐雜多變,使得他必須習(xí)慣同時(shí)應(yīng)付和處理多個(gè)任務(wù)和多種事態(tài)。他的煙癮極大,后來(lái)他開始在辦公室里熏藏香,經(jīng)常在煙霧繚繞中,他一個(gè)人會(huì)長(zhǎng)時(shí)間地埋頭把玩桌上的這些手機(jī),反復(fù)地調(diào)出其中的各式語(yǔ)音應(yīng)用,仔細(xì)地對(duì)比和分析。
是“白天,鵝在洗澡”,還是“白天鵝在洗澡”,這樣的問(wèn)題,在現(xiàn)實(shí)環(huán)境中,人們只需要根據(jù)上下語(yǔ)境,就能輕易分辨,然而,機(jī)器卻沒(méi)有這樣的能力。這也是絕大多數(shù)語(yǔ)音導(dǎo)航所必須要面臨的一道攻堅(jiān)。
“今天北京的天氣如何?”,陸凌濤說(shuō),這樣的問(wèn)題,當(dāng)前市面上大部分語(yǔ)音導(dǎo)航系統(tǒng)都能準(zhǔn)確回答,但是,如果再追問(wèn)一句,“那上海呢?”,其中的絕大多數(shù)就會(huì)立即“傻眼”。因?yàn)閲?guó)內(nèi)所有的語(yǔ)音識(shí)別技術(shù)在做機(jī)器訓(xùn)練的時(shí)候,每句話一定要符合特定的語(yǔ)法,最好要有主謂賓,機(jī)器只有在捕捉到明確的“興趣點(diǎn)”時(shí),才能激活系統(tǒng),然后按預(yù)設(shè)的程序進(jìn)入后臺(tái)語(yǔ)料庫(kù)的云端搜索。
“那上海呢?”,在機(jī)器現(xiàn)有的“思維”里,屬于沒(méi)頭沒(méi)腦的一句話,要依靠上下文才能識(shí)別具體語(yǔ)義,這根本不在它的“認(rèn)知”范圍之內(nèi)??墒沁@樣的對(duì)話,在人與人之間再自然不過(guò)。
目前,在全球商用的語(yǔ)音識(shí)別產(chǎn)品中,蘋果的Siri被認(rèn)為將來(lái)有可能最早觸摸到語(yǔ)音人工智能圣杯,你說(shuō)的話,可以不包括會(huì)用到的應(yīng)用程序名稱,甚至可以和想表達(dá)的意思在字面上毫不相干,Siri仍然能夠理解。如果是Siri遇到“步行范圍內(nèi)有沒(méi)有什么頂尖的意大利餐館,那墨西哥的呢?”,這種情況下Siri會(huì)將問(wèn)題連同上文的“頂尖的餐館”和“步行范圍”一道進(jìn)行理解。
事實(shí)上,在Siri推出中文版之前,福特汽車更早就已經(jīng)在其SYNC導(dǎo)航系統(tǒng)中應(yīng)用了中文語(yǔ)音識(shí)別技術(shù),巧合的是,Siri與SYNC的供應(yīng)商都來(lái)自于目前全球最大的語(yǔ)音技術(shù)公司Nuance??梢哉f(shuō),“在Siri之前,就已經(jīng)有了SYNC”,提到這點(diǎn),福特歐洲、亞太及非洲區(qū)連接總監(jiān)潘浦力難掩他的興奮。
與此同時(shí),潘浦力一點(diǎn)也不避談中文語(yǔ)音識(shí)別所遇到的問(wèn)題。中文語(yǔ)言環(huán)境相對(duì)其他語(yǔ)種更為復(fù)雜,首先幾十種方言就是一大難題。近幾年來(lái),福特一直在跟Nuance密切合作,由福特在中國(guó)各個(gè)省市收錄盡可能多的方言,編輯和匯集成一個(gè)語(yǔ)庫(kù),同時(shí)把這些信息傳送給Nuance,后者則負(fù)責(zé)對(duì)機(jī)器進(jìn)行語(yǔ)音訓(xùn)練。這項(xiàng)工作效果卓著,目前最新的一代SYNC系統(tǒng)已經(jīng)可以識(shí)別帶國(guó)內(nèi)多個(gè)地區(qū)口音的普通話,還可識(shí)別近150條語(yǔ)音指令,進(jìn)行關(guān)鍵詞語(yǔ)音搜索等。不過(guò),中文語(yǔ)音導(dǎo)航真正的難點(diǎn)并不在方言識(shí)別,而在于中文里“一字多音”,“一字多義”及語(yǔ)法復(fù)雜,導(dǎo)致語(yǔ)詞和語(yǔ)境的變化更是層出不窮。
一些“果粉”普遍表示,Siri中文語(yǔ)句斷句比較生澀,對(duì)中文的多音字不能區(qū)分,另外很多語(yǔ)句沒(méi)有對(duì)接到英文版中的知識(shí)問(wèn)答系統(tǒng)。 “Siri的語(yǔ)義判斷就像本科生自己寫的if else一樣”一位網(wǎng)友在試用過(guò)后這樣下的結(jié)語(yǔ)。
圍剿Siri
其實(shí)所有的軟件應(yīng)用最終都是由一組組命令行構(gòu)成的,但是,沒(méi)有一種應(yīng)用像語(yǔ)音交互那么復(fù)雜,尤其是當(dāng)它與汽車結(jié)合到一起,要考慮進(jìn)來(lái)的因素就更多。難怪很多用戶在使用了現(xiàn)有的語(yǔ)音導(dǎo)航產(chǎn)品后表示不感冒,甚至抓狂、火大。
雖然中文版Siri本身還存在各種各樣的問(wèn)題,Siri在中文語(yǔ)言環(huán)境中表現(xiàn)得也不是那么“犀利”,但是,很多企業(yè)甚至還在它尚未面世之時(shí),就已經(jīng)把它視作第一大競(jìng)爭(zhēng)對(duì)手。
作為國(guó)內(nèi)語(yǔ)音技術(shù)中的佼佼者,科大訊飛認(rèn)為本土作戰(zhàn),可以直接逆轉(zhuǎn)語(yǔ)言優(yōu)勢(shì)。就在蘋果推出Siri中文版之前,科大訊飛巧妙抓住時(shí)機(jī)搶先三個(gè)月推出了“訊飛語(yǔ)點(diǎn)”,這被認(rèn)為是“中國(guó)版Siri”對(duì) Siri形成的一次“點(diǎn)射”。隨后科大訊飛副總裁江濤在微博上發(fā)聲,“我們知道Siri的語(yǔ)音技術(shù)是誰(shuí)提供的,目前訊飛在與這家公司的中文產(chǎn)品競(jìng)爭(zhēng)中,基本上占有顯著優(yōu)勢(shì)?!?/p>
科大訊飛聲稱已經(jīng)采集大量的方言數(shù)據(jù),不僅可以將帶方言的普通話的一次性識(shí)別正確率提高到90%左右,而且可以支持四川話、河南話、湖南話、東北話等幾乎全部的主流方言。同時(shí),也在致力于更開放性語(yǔ)音對(duì)話的研發(fā),使其更接近自然語(yǔ)言的表述方式,比如,“上海冷不冷”,“幫我查一查西直門附近有沒(méi)有好的火鍋店”等等??拼笥嶏w應(yīng)用于汽車領(lǐng)域最有名的就是榮威的InkarNet語(yǔ)音導(dǎo)航系統(tǒng)。
對(duì)于Siri與科大訊飛的強(qiáng)勢(shì),車音網(wǎng)表現(xiàn)得要“默默無(wú)聞”一些。不過(guò),身為車音網(wǎng)副總經(jīng)理的陸凌濤卻不這么看,“車音網(wǎng)也可以識(shí)別多種方言”,對(duì)帶方言的普通話識(shí)別率與科大訊飛不相上下,“車音網(wǎng)還整合了超過(guò)1600萬(wàn)個(gè)興趣點(diǎn)信息”,只要會(huì)話里包含了某個(gè)興趣點(diǎn),不管如何表達(dá),機(jī)器都能識(shí)別,這也是車音網(wǎng)下一步正在重點(diǎn)推進(jìn)的語(yǔ)音搜索研發(fā)方向。
陸凌濤手中還有一張對(duì)陣Siri的關(guān)鍵王牌,就是在與運(yùn)營(yíng)商及各大車企呼叫中心的云端語(yǔ)控市場(chǎng),車音網(wǎng)占有絕對(duì)優(yōu)勢(shì),他甚至放言,要很快搶占該市場(chǎng)80%以上的占有率。此前,蘋果曾宣布了未來(lái)會(huì)展開合作的9大國(guó)際車企,其中有多家承諾將在未來(lái)12個(gè)月內(nèi)整合Eyes Free Siri功能。陸凌濤認(rèn)為,至少?gòu)哪壳皝?lái)看,這根本構(gòu)不成威脅,因?yàn)樘O果與車企在國(guó)外的合作模式“根本不可能照搬進(jìn)國(guó)內(nèi)”,因?yàn)檫@是兩個(gè)不同的環(huán)境,同時(shí),衍生的產(chǎn)業(yè)鏈生態(tài)環(huán)境也大為不同。
而汽車企業(yè)這邊也確實(shí)表現(xiàn)的態(tài)度曖昧,主要因?yàn)榇蟛糠周嚻蠖家呀?jīng)在自有語(yǔ)音導(dǎo)航領(lǐng)域投入了相當(dāng)大的開發(fā)費(fèi)用,比如,寶馬的相關(guān)前期投入巨大,寶馬的“語(yǔ)音控制系統(tǒng)”最多可識(shí)別500個(gè)預(yù)設(shè)詞條,可操控電話、空調(diào)、導(dǎo)航和音響系統(tǒng)等功能。免提麥克風(fēng)既可收音,還可以過(guò)濾掉背景噪音,但是,這項(xiàng)技術(shù)只在寶馬少數(shù)幾款高端車上才能見(jiàn)到。另外,從今年開始,寶馬在中國(guó)真正大范圍推廣的是其人工呼叫中心的服務(wù),這又是一筆高投入,可見(jiàn)在有限的預(yù)期內(nèi),至少在中國(guó)還看不到寶馬要將SIR整合進(jìn)來(lái)的跡象。
即使沒(méi)有投入,人工語(yǔ)音呼叫中心臺(tái)的維護(hù)費(fèi)用也十分高昂,選擇與蘋果合作,就意味著很多方面的工作要“從頭再來(lái)”。通用的安吉星車載系統(tǒng)與豐田的G-BOOK智能副駕系統(tǒng)都可以進(jìn)行語(yǔ)音導(dǎo)航,但是,二者都是通過(guò)后臺(tái)的人工呼叫中心來(lái)完成。人工服務(wù)更能靈活識(shí)別用戶的語(yǔ)言,但服務(wù)成本高昂。也正是看到這點(diǎn),最近兩家企業(yè)呼叫中心都開始計(jì)劃在后臺(tái)引入云端的語(yǔ)控導(dǎo)航技術(shù)。不過(guò),據(jù)內(nèi)部消息,他們的合作伙伴均為中國(guó)企業(yè)。
目前,只有福特主要還是以語(yǔ)音導(dǎo)航為主,但是,福特的殺手锏在于,服務(wù)免費(fèi),升級(jí)方便,可擴(kuò)展性強(qiáng),而且它本身所用的技術(shù),根本不需要與蘋果合作。
語(yǔ)音技術(shù)企業(yè)的本土路線,車企的實(shí)用主義,使得在中國(guó)整個(gè)汽車產(chǎn)業(yè)鏈對(duì)Siri形成一個(gè)隱形的包圍圈,Siri要突圍只能另辟蹊徑了。
“語(yǔ)音超市”
與此同時(shí),語(yǔ)音導(dǎo)航領(lǐng)域的競(jìng)爭(zhēng),其實(shí)也已經(jīng)變成了產(chǎn)業(yè)鏈的競(jìng)爭(zhēng),在這個(gè)的鏈條當(dāng)中,語(yǔ)音技術(shù)、語(yǔ)義搜索、資源庫(kù)、運(yùn)營(yíng)平臺(tái)、應(yīng)用開發(fā)者平臺(tái)和消費(fèi)者的粘性,一個(gè)都不能少。
Siri的終極優(yōu)勢(shì)有二,前端的語(yǔ)音識(shí)別以及語(yǔ)音合成技術(shù)是關(guān)鍵,而重點(diǎn)更在后臺(tái),它集成了網(wǎng)頁(yè)搜索、知識(shí)計(jì)算、資料庫(kù)、問(wèn)答推薦等各種技術(shù)和應(yīng)用。但是,要形成后臺(tái)的聚合力,有一個(gè)必須的前提條件,就是它所搜索的應(yīng)用網(wǎng)頁(yè)和社會(huì)化問(wèn)答社區(qū)都能提供開放的API接口。在國(guó)外大部分網(wǎng)站接口是開放的,可在中國(guó)開放的很少,這就意味著蘋果Siri要想在國(guó)內(nèi)有大發(fā)展,必須一家一家網(wǎng)站去談,一個(gè)一個(gè)應(yīng)用商去打通關(guān)系,否則,Siri在中國(guó)就是一支折翼的鷹。
谷歌、微軟、IBM等公司也都有不俗的語(yǔ)音技術(shù)實(shí)力,卻始終在中國(guó)沒(méi)有取得突破性進(jìn)展,他們欠缺正是一個(gè)可以集合各種應(yīng)用與中國(guó)消費(fèi)者產(chǎn)生廣泛聯(lián)系的運(yùn)營(yíng)平臺(tái)。
陸凌濤雖然進(jìn)入語(yǔ)音導(dǎo)航行業(yè)時(shí)間不長(zhǎng),但是,他日常大部分時(shí)間都花在與不同企業(yè)談合作商,深知這其中的平淡曲折。他做了一個(gè)形象的比喻,“國(guó)外的網(wǎng)站好比日本的地鐵,日本所有的地鐵下面都是通的,每一個(gè)站點(diǎn)都可以通向地下商場(chǎng),而商場(chǎng)與商場(chǎng)之間也是互通的,四通八達(dá),下雨的時(shí)候,可以根本不用走地上?!倍谥袊?guó),網(wǎng)站與網(wǎng)站之間都是被堵著的。從這里到那里,經(jīng)常要繞過(guò)許多彎道。
比如,你要想知道某個(gè)地方怎么走,最好去問(wèn)高德、凱立德等地圖服務(wù)提供商,而且兩家企業(yè)都已經(jīng)在開發(fā)自己的能結(jié)合LBS位置點(diǎn)查詢的聲控導(dǎo)航;而如果要聽(tīng)在線音樂(lè),就需要去豆瓣和百度談。也就是說(shuō),每一項(xiàng)具體應(yīng)用都要去找一個(gè)垂直領(lǐng)域的服務(wù)提供商,而且最好能把每個(gè)垂直領(lǐng)域的幾家行業(yè)老大同時(shí)搞定,否則,就有可能讓你的消費(fèi)者能聽(tīng)到這首歌卻聽(tīng)不到那首歌,或者能找到這個(gè)地方,卻找不到那個(gè)地方。
而在這些方面,無(wú)論是科大訊飛還是車音網(wǎng)都有優(yōu)勢(shì)。車音網(wǎng)目前國(guó)內(nèi)的合作伙伴數(shù)量正處在一個(gè)大幅攀升的時(shí)候,科大訊飛則更不用說(shuō),據(jù)其公開的數(shù)據(jù)稱,目前已經(jīng)有將近3000家合作伙伴,使用“語(yǔ)音云”的最終消費(fèi)者已經(jīng)超過(guò)了3300萬(wàn)。
對(duì)于這種情況,雖然陸凌濤也認(rèn)為有很多不合理的地方,但是,這就是中國(guó)語(yǔ)音導(dǎo)航市場(chǎng)的現(xiàn)狀,“國(guó)內(nèi)產(chǎn)業(yè)鏈正在以自己的方式聚合和演變,它是一種新的利益鏈關(guān)系”,而Siri的加入會(huì)加劇行業(yè)的演變。
現(xiàn)在,語(yǔ)音系統(tǒng)實(shí)際還是作為一個(gè)獨(dú)立APP存在的,多數(shù)的語(yǔ)音系統(tǒng)頂多只能實(shí)現(xiàn)進(jìn)入某項(xiàng)功能,不能實(shí)現(xiàn)很多細(xì)微的操作,很難把語(yǔ)音和背后的整個(gè)系統(tǒng)高度整合在一起。未來(lái)真正的語(yǔ)音平臺(tái)就是一個(gè)操作界面,現(xiàn)在所有的獨(dú)立APP應(yīng)用都將向后退到后臺(tái)的云端,這才是真正的“語(yǔ)音超市”概念。
從鍵盤到鼠標(biāo),再?gòu)氖髽?biāo)到觸控技術(shù),人機(jī)交互技術(shù)的發(fā)展,讓我們不斷獲得新的應(yīng)用平臺(tái)。誰(shuí)能盡可能多地接入與移動(dòng)互聯(lián)網(wǎng)相關(guān)的開發(fā)商和服務(wù)商,誰(shuí)就能打造一個(gè)消費(fèi)者的“語(yǔ)音超市”,而在語(yǔ)音超市的背后,實(shí)際上是未來(lái)“語(yǔ)音操作系統(tǒng)”或“語(yǔ)音門戶”之爭(zhēng)。語(yǔ)音導(dǎo)航的歸宿或許也就在此處。