畢夫
用不著為發(fā)短信不會碼字而發(fā)愁,也用不著獨處時無人聊天而郁悶,更用不著駕駛時在顯示屏上查詢路線圖而手忙腳亂,只要一個簡單的口令,語音助手就可為你送上貼心而滿意的服務,幫你找到需要求解的答案。不僅如此,只要你愿意,這種我們根本看不見的小天使總會跟隨與陪伴在自己的身邊,并帶來意想不到的愉悅體驗,點綴出生活與工作的更多樂趣。
貼心的無形助手
“賈維斯,幫我把那個鉗子拿一下”
“賈維斯,房間衛(wèi)生如何?”
“賈維斯,幫下分析一下這個物質(zhì)”
……
以上口令就是Facebook總裁扎克伯格仿照電影《鋼鐵俠》里的智能管家賈維斯向自己家中的語音助手“賈維斯”管家發(fā)出的口令,而且這個管家從叫醒主人到調(diào)節(jié)室溫,從識別來客到參與家庭娛樂,但凡能想到的場景,幾乎無所不能。語音助手正在慢慢地走進我們的生活。
作為一場新技術革命的成果,互聯(lián)網(wǎng)最大的普世價值就是實現(xiàn)了人機交互,然而,依賴于手指與屏幕的傳統(tǒng)交互方式不僅因動作遲緩而帶來效率低下,并且也缺乏來自機方的主動反應與交流,同時更將盲人等群體以及反映遲鈍的老年人群和文盲人群排斥在外;另外,雖然尚未成熟的圖像識別交互方式讓交互的界面變得生動起來,可冷冰冰的畫面仍然未能釋放出可以滿足人類情感訴求的元素。但是,建立在人工智能(AI)基礎之上的語音交互在實現(xiàn)“去手指”與“去屏幕”并大大提高人機交互效率的同時,更能讓機器主動地讀懂人類以及人類的世界,從而讓人類獲得前所未有的極致體驗。借助于語音交互的場景,人類只要發(fā)出簡單的口令,語音助手就能快捷地適配出主人所需要的服務,甚至還可以與人類進行著輕松聊天與情感交流,這種自然度、方便性的交互方式所惠及的人群顯然要比指屏互動方式廣泛得多。據(jù)Gartner預測,到2018年,30%的人機交互將通過自然語言完成。
互聯(lián)網(wǎng)女皇瑪麗·米克爾曾在《互聯(lián)網(wǎng)趨勢》報告中指出,人機語音交互的核心在于自然語言識別及處理技術,如果語音識別準確率從95%上升到99%后,語音交互將迅速普及,甚至將改變現(xiàn)有的游戲規(guī)則?,F(xiàn)在看來,這種技術正在走向成熟,其中最重要的支撐力量就是人工智能。可以說語音助手被喚醒、聽明白、會說話的過程實對應著的就是是機器學習(深度神經(jīng)網(wǎng)絡)過程,借助于AI,語音助手不僅能夠聽懂與理解人類發(fā)出的口令,而且可以進行深度學習與進步,拓展出主題口令之外更多的東西,因此,語音交互的背后體現(xiàn)的就是人工智能對于用戶體驗上的識別與滿足能力。
除了AI這一核心技術支撐外,大數(shù)據(jù)技術之下的信息集納與匯總能力、云計算技術之下的精算能力,物聯(lián)網(wǎng)技術之下的擇配能力等都從不同角度對對語音交互形成了重要的撐托;而據(jù)麻省理工學院(MIT)的最新研究報告,基于現(xiàn)有手機分給語音識別的電量高達1瓦特的壓力,MIT已開發(fā)出語音識別電耗僅為0.2-10毫瓦的芯片,語音交互的終端續(xù)航能力由此大大提高。另外,伴隨著智能手機、穿戴工具等硬件設備的普及,加之微信等各種社交工具對消費者習慣的培養(yǎng)與引導,語音助手由此贏得了十分廣闊的落地空間。一個屬于智能語音交互的時代也正在迅速開啟。
“四大天王”的天下
提及語音助手,很多人便會想起6年前蘋果基于 Nuance 的技術推出的Siri,而且Siri已經(jīng)內(nèi)置在了iphone手機以及奧迪等多款中高檔車的車載系統(tǒng)中,但是,那時的Siri還只是一個小學生,不僅反應慢,而且差錯率高,更談不上交互過程中的服務延展,因此,包括無數(shù)“果粉”在內(nèi),使用Siri進行交互的屈指可數(shù)。但是,從三年前開始,蘋果便為Siri 置換了“大腦”,也就是說將原本比較粗糙的技術換成了機器學習機制,讓它具備了人工智能特性,這也可以看做是蘋果在部署人工智能領域的一步最重要的棋子。也正是憑借著先發(fā)優(yōu)勢與升級導航,Siri作為語音交互的元老至今還保存著青春般的本色。
不過,現(xiàn)在的語音交互市場已經(jīng)不是Siri的獨步天下,與其并列甚至大有后來居上氣勢的還有谷歌的Assistant、亞馬遜的Alexa與微軟的Cortana,以此為基礎,“四大天王”也在各自門下開發(fā)與設置出了場景豐富的智能生態(tài)系統(tǒng)。不過,姜還是老的辣。目前Siri會說36個國家的21種語言,甚至在蘋果即將推出的 iOS 10.3 版本中, Siri 還會說上海話;略遜一籌,Cortana會說13個國家的8種語言,但Assistant僅會說4種語言,而Alexa只能說英語和德語。
當然,掌握與運用交互語言的種類也只是衡量一個語音助手競爭優(yōu)劣的一個方面,除此之外應當還有更多的維度:一是應用場景的功能,保羅功能的數(shù)量、功能的適配性與精確性;二是語義的識別能力,包括識別度的高低與錯誤率的高低;三是交互界面的豐富度,包括界面的動感性、色彩搭配度以及主題音樂的撐托度;四是語音交互與體驗深度,包括語音的全程流暢度、上下問題的延伸能力;五是知識庫的構建,包括知識庫的規(guī)模、響應的顆粒度;六是應用能力的整合,包括第三方的應用者的數(shù)量、功能衍生數(shù)量以及參與者的變現(xiàn)程等。
按照以上綜合標準,著名的語音分析創(chuàng)業(yè)公司VoiceLabs對“四大天王”進行了系統(tǒng)性的比較檢測,并在《2017語音報告》中發(fā)布了如下結(jié)果:在信息功能方面,Siri的表現(xiàn)最為優(yōu)秀,包括功能覆蓋廣度以及語音全流程交互深度都要強于對手,這得益于iphone手機內(nèi)置的短息功能的整合與打通;在新聞話題方面,Assistant不僅能保持其精品化的特征,還整合了大量的第三方新聞媒體作為信息源,很好的提升了用戶體驗;在基礎知識問題的解決方面,Alexa對應的知識庫最為廣泛,能夠識別不同領域的基礎知識問題,并精準搜索給出答案,這與亞馬遜在基礎知識庫搭建上下了較重的功夫直接有關;在非指向性的生活服務方面,Cortana的表現(xiàn)較為突出,這應當?shù)靡嬗贐ing搜索的功能??吹贸觯八拇筇焱酢遍T下的語音助手各自的獨門絕技,深厚的底蘊還是來源于它們的傳統(tǒng)看家本領。
值得注意的是,“四大天王”之外還游離著一些野戰(zhàn)勁旅。據(jù)悉,三星總共斥資10億美元用于發(fā)展人工智能,而且在收購了Siri之父創(chuàng)立的Viv公司之后,三星已經(jīng)開發(fā)出名為Bixby的智能語音助手,并已經(jīng)配置在了最新Galaxy S8之中,同時Bixby支持8種語言。另外,IBM日前對外宣布,公司已經(jīng)打造出一個專注于網(wǎng)絡安全的語音助手AI,該AI名為“Project Hayvn”,它能夠用于維持用戶網(wǎng)絡環(huán)境的信息安全,每天對成千上萬個安全威脅進行梳理,并且篩選出重要的警報信息與用戶交流,提醒用戶注意,保證家庭或者公司的網(wǎng)絡安全。
巨頭們的暗戰(zhàn)
根據(jù)中國工業(yè)和信息化部電子科技信息情報研究所數(shù)據(jù)顯示,2017年全球智能語音產(chǎn)業(yè)規(guī)模將達112.4億美元,復合年均增長率達35.1%。正是看到了如此巨大的商機,巨頭們擺開了搶占市場的強勢陣容,在紛紛進行產(chǎn)品迭代創(chuàng)新的同時,將火力重點集中在了硬件載體與智能設備入口之上。
汽車是語音助手最易爆發(fā)的消費場景,這不僅是因為許多國家的交通法規(guī)不允許在駕車時打電話,而且還由于汽車的封閉環(huán)境能夠給駕駛員帶來最人性化的交互體驗,在確保駕駛安全的同時,語音助手用最自然的語言提供打電話、導航、音樂、周邊查詢、車輛控制等全程周到的脫屏服務。截止目前,Siri已經(jīng)整合進奧迪、寶馬、克萊斯勒等全球九家知名汽車中,Assistant配置在了起亞、雪佛蘭、斯柯達等汽車品牌之上,而就在日前,Alexa與福特、大眾、現(xiàn)代和沃爾沃等簽署了戰(zhàn)略合作協(xié)議,大有奮起直追之勢。
智能家居成為了語音助手落地的另一個火熱終端,且在這一領域亞馬遜與谷歌已經(jīng)打得死去活來。據(jù)悉,在亞馬遜推出了Alexa支持下的智能音箱Echo一年之后,谷歌推出了搭載Assistant的智能音箱Home,二者除了具備家電啟動與關閉、視頻點播等功能外,還能進行網(wǎng)購服務,尤其是Echo,亞馬遜已經(jīng)為其添設了Voice ID的最新功能,該功能可通過聲波紋辨別出主人的聲音,繼而精準地提供所需服務。只要家庭成員可以在Echo設置一個統(tǒng)一賬號,發(fā)出口令不需要進行個人帳號的手動切換,就可以同時分享Echo流暢無縫的服務。當然,無論是Echo還是 Home,如此賣力地深耕智能家居系統(tǒng),無疑就是希望自己能夠成為整個智能家居生態(tài)的中樞。
攻占智能家居市場的同時,智能手機等其他終端更是科技巨頭們分發(fā)語音助手更為廣闊的載體,而這方面當然最主要的就是Siri與Assistant以及二者分別搭載的iOS系統(tǒng)與Android系統(tǒng)之間展開的對決。據(jù)悉,除了從 iPhone 4S到如今的 iPhone 7裝配了功能等級不同的Siri之外,蘋果的 Mac與iPad設備至今均支持Siri。不過與Siri相比,在進入谷歌自有品牌手機Pixel之中的同時,Assistant前不久也空降到LG推出的最新款智能手機G6的身上,而且谷歌已經(jīng)公告,Assistant還將配置到今后6.0或者7.0的所有 Android系統(tǒng)中。不僅如此,由于第三方語音助手不能整合到iOS平臺,谷歌已針對性地開發(fā)了多款應用,未來可能登陸iPhone和iPad等非谷歌設備中。與蘋果與谷歌相比,亞馬遜雖因沒有自己的智能手機而顯得有點英雄氣短,但卻拉來了聯(lián)想與華為兩大重量級合作伙伴。據(jù)悉,未來Alexa將會整合到摩托羅拉更多手機中,同時華為已經(jīng)宣布將在美國發(fā)售的Mate9智能手機上使用Alexa。
語音助手的功能也直接決定著其市場競爭力,因此,向第三方開放平臺系統(tǒng)就成為科技巨頭的一致性行動。據(jù)悉,在Siri平臺上,開發(fā)者可以基于 Siri 提供的智能功能打造自己的 APP,而且用戶僅憑語音就能直接與APP互動,進而獲取相應的服務。而在Cortana平臺上,微軟推出了Skills Kit 和Devices SDK等開發(fā)工具,重點幫助 OEM 和 ODM 廠商輕松打造第三方智能物聯(lián)網(wǎng)設備以及相關的應用程序。另外,由于向群體完全開放,Alexa如今的技能增加到了一萬種,這一數(shù)字在今年1月還是7000種,去年年初只有 130 種;受到影響,僅Echo的用戶目前就達到820萬,年底可以遞增到 1000 萬。
值得指出的是,由于智能語音技術的研發(fā)周期長、投入大,同時智能語音對人工智能實力以及生態(tài)系統(tǒng)廣度的要求高,因此最終產(chǎn)品的落地遠非一個獨立廠商所能全部勝任,基于此,蘋果先后吃進了VocalIQ、Turi和RealFace等眾多人工智能領域的創(chuàng)新企業(yè),微軟也在前不久收購了拿大人工智能初創(chuàng)企業(yè)Maluuba,而且谷歌先前掏出4億英鎊的真金白銀收購DeepMind近乎路人皆知;至于亞馬遜,從吸收了語音辨別公司Nuance開始,就一直沒有停止資本并購的腳步,直至將Yap和Evi等語音技術初創(chuàng)公司悉數(shù)裝入囊中。
中國企業(yè)新方陣
由于技術上目前并不足以支持開發(fā)出自我語音交互工具,或者說因為本土交互產(chǎn)品的質(zhì)量不穩(wěn)定,我國絕大多數(shù)的智能終端產(chǎn)品企業(yè)都像華為和聯(lián)想那樣只能選擇與“四大天王”的合作,不過,這并不等于中國企業(yè)未能邁出自我探索的步伐。作為全球與國內(nèi)領先的手機設備廠商,華為已經(jīng)成立了一個由100名工程師組成的專業(yè)團隊,主攻智能語音,目標事基于Assistant與Alexa以及Bixby都還無法在中國使用的現(xiàn)實,力爭搶占國內(nèi)智能手機語音交互中文市場的更多空白。
BAT被認為是在語音交互市場最具研發(fā)實力與產(chǎn)品推送能力的國內(nèi)企業(yè)陣容,其中百度的布局輪廓最為清晰,功力積累也最為深厚。由于在圖像和語音核心部位占有寬敞的入口,百度如今不僅成為了與谷歌、微軟、Facebook相并列的全球四大人工智能巨頭,而且在《麻省理工科技評論》公布的2016年十大突破技術中,百度憑借語音交互技術登上了榜單。不僅如此,百度語音已經(jīng)與海爾、小米、Letv、聯(lián)想、中興、比亞迪、索尼、網(wǎng)易游戲、特斯拉建立起了合作關系,足以體現(xiàn)出百度語音在國內(nèi)市場具備的影響力。
基于軟硬結(jié)合的人工智能產(chǎn)品這一全新的戰(zhàn)略方向,百度請到了全球科技界享有盛譽的杰出管理人才陸奇出任擔任集團總裁兼首席運營官,而在上任不久,陸奇并親自操盤完成了對渡鴉科技的全資收購,標的公司創(chuàng)始人呂騁攜團隊加盟百度,并出任百度智能家居硬件總經(jīng)理。下一步,呂騁團隊的主要任務是推進百度智能硬件業(yè)務,尤其是重點保證語音交互在智能家居領域的落地與拓展,其首先推送的將是智能音箱,并圍繞智能音箱打造智能家庭,同時與第三方廠商合作,實現(xiàn)安防、燈光和窗簾等方面的智能化。另一方面,百度的度秘團隊已升級為度秘事業(yè)部,該事業(yè)部的最重要職能就是推進智能軟件的研發(fā)與升級,與呂騁團隊協(xié)同打造極致創(chuàng)新體驗的語音交互產(chǎn)品。
與百度在智能語音交互領域快行的腳步幾乎同速,國內(nèi)出現(xiàn)了不少聚力趕超的語音交互專業(yè)翹楚。資料顯示,作為中國智能語音和人工智能領軍企業(yè),科大訊飛旗下的訊飛開放平臺已成長為全球最具規(guī)模的智能交互技術服務平臺,該平臺以“云+端”的語音識別和語音合成服務只需簡單幾行代碼集成SDK(軟件開發(fā)工具包)便可讓應用具備智能交互能力,釋放雙手,開啟智能交互,且目前應用輻射到智能電視、可穿戴設備、智能車載以及機器人領域,同時為超過6萬個App提供智能語音交互服務,并吸引了20多萬開發(fā)者的入駐。相關數(shù)據(jù)顯示,科大訊飛已占有中文語音技術70%以上的市場份額,為8.9億終端用戶提供語音及人工智能交互服務。
有著如科大訊飛同樣豐富語音交互基因的思必馳雖然成立不到10年,但已經(jīng)成長為國內(nèi)唯一擁有人機對話技術、國際上極少數(shù)擁有自主產(chǎn)權的中英文綜合語音技術的公司之一。作為目前國內(nèi)唯一專注于智能硬件領域的語音公司,思必馳主要面向智能車載、智能家居和智能機器人三個垂直領域提供自然語言交互解決方案,其中思必馳語音在智能車載后裝市場占據(jù)了60%份額,智能后視鏡領域的市場占比達70%,而在智能HUD(平視顯示器)領域更是高達80%,除此之外,像小米的互聯(lián)網(wǎng)音箱等也采用了思必馳語音技術。
除了科大訊飛與思必馳之外,搜狗在語音交互領域也建樹不凡。據(jù)悉,憑借搜索引擎的優(yōu)勢,搜狗不斷在語音交互領域進行拓展,旗下的語音交互引擎“知音”已經(jīng)應用到了全線產(chǎn)品中,不僅在語音輸入上的準確性上可與科大訊飛相比肩,而且還凸顯出非常明顯的快速識別和糾錯功能,未來“知音”將向著物聯(lián)網(wǎng)、車聯(lián)網(wǎng)和人工智能等方面延伸。
打通最后幾公里
總體上而言,人工智能還只是人類觸碰不久的新領域,繼續(xù)的深耕無疑面臨著更多的技術約束,產(chǎn)品的逐級落地自然就有一個不斷完善的過程。從目前來看,智能語音交互的商用前景值得期待,但要真正激活未來市場并使需求保持提升,仍然需要在門檻高度、服務功能以及親情程度等方面進行深度地結(jié)構性優(yōu)化。
首先是用戶的黏性問題。就像對待任何新生事物那樣,智能語音助手出現(xiàn)后,很多用戶可能會出于好奇心會去體驗一下,但據(jù)VoiceLabs的報告,平均而言,一個語音技能在啟用一周后仍然會被使用的概率只有3%,主要原因是技能啟動的失敗率較高。想要啟用一個技能,首先必須記住它的名字,其次還得準確地說出特定的命令語句,這大大提高了用戶的使用門檻。另外,VoiceLab的報告還顯示,目前最受歡迎的技能種類主要是新聞、游戲、教育、生活方式等幾大類別,而其它數(shù)不清的技能都偏離了用戶的實際需求,大多數(shù)人很可能都沒聽說過,更不要說使用了。以Alexa為例,平臺上雖然擁有超過10000項技能,但只有 31%的應用有超過一條評論,其它基本處于“僵尸狀態(tài)”。
針對以上短板,亞馬遜或谷歌今年將通過類似手機上的推送通知來加強新應用的分發(fā),并試圖解決用戶留存率低的問題,其中亞馬遜已經(jīng)設立了 250 萬美元的 Alexa Prize 獎金,資助 12 支大學團隊,開發(fā)更能讀懂“主人”的智能語音,到時智能助手充分了解“主人”需求后,會主動在合適的時間主動提示合適的應用,由此既可提高用戶的使用價值,還能解決語音應用的分發(fā)留存難題。
其次是語音的豐度問題。由于目前的人工智能技術不可能做到機器自己回答問題,必須得有相應的隊伍去負責更新和維護,而且語音交互支持的越多,它在后臺所需的寫手乃至其他人員也就越多。因此,要讓語音助手表現(xiàn)得隨意自然,還需要更深入的技術開發(fā),并吸收更多的第三方力量進入平臺之中,形成如同三星所言的“讓全世界一起來教育語音助手”的眾星拱月格局;另外,用戶希望從語音助手那里得到的不僅僅是迅速準確的反饋,還有富有個性和感情聲音以及與人類交流時的親切感,因此,豐富語音交互的可視場景、加入更多的人性與繞情元素是語音交互自我完善的重點。不僅如此,作為脫屏化的語音交互平臺,如何在不打開手機或者電腦的情況下搜索各種應用也是語音交互需要解決的問題。
再次是價值的外溢問題。綜合來看,目前進駐語音交互平臺的第三方主要就兩類:一類是企業(yè),立足平臺所開發(fā)出技能對他們來說有很大的營銷價值,而且有助于吸引更多的用戶;另一類則是純粹的愛好者,開發(fā)對他們來說不是一份工作,而是一種樂趣。顯然,這兩類開發(fā)者都不關注技能所帶來的收入多少。但是,要吸引更多第三方或者高級開發(fā)者的加入,平臺公司就必須解決好變現(xiàn)的路徑,也只有這樣,才能為語音交互積蓄與籠絡更深厚的技術與開發(fā)能量。