吳勇毅
“只動嘴不動手”,就可以指揮滿屋子的家電為你服務(wù),這在今天看來仍是科幻片的一幕,因語音技術(shù)的發(fā)展正在一步步成為現(xiàn)實。
阿里巴巴說出“芝麻芝麻,開開門”,寶庫的厚重石門便自動打開了。這個古老的阿拉伯神話,在如今數(shù)字時代語音技術(shù)的幫助下,完全可能成為現(xiàn)實。在多年的技術(shù)積累后,時下語音技術(shù)的春天正“千樹萬樹梨花開”。
當(dāng)前,智能語音應(yīng)用已是移動互聯(lián)領(lǐng)域的絕對熱點之一。除了國外Siri、Google Now、微軟必應(yīng)添加的語音搜索功能外,近一兩年,國內(nèi)市場也陸續(xù)出現(xiàn)百度語音助手、搜狗語音助手、盛大的百靈語音助手、訊飛語點與訊飛語音助手、靈犀助手、蟲洞語音助手、智能360語音助手等語音搜索工具。其中既有國際IT巨頭、互聯(lián)網(wǎng)大佬,也有二三十人的創(chuàng)業(yè)團隊,市場堪稱火爆,愈演愈烈。
智能語音交互技術(shù)日新月異
時下,語音應(yīng)用分為三大技術(shù)環(huán)節(jié):語音識別、語義理解、搜索,每個環(huán)節(jié)的技術(shù)難度系數(shù)都很高。以百度的語音助手為例,用戶對它的需求大致分為三類:第一類是指令性的需求,包括打電話、發(fā)短信、發(fā)微博等。第二類是搜索需求,其中分為垂直搜索需求、通用搜索需求、知識類搜索需求,例如用戶如果希望播放某首歌,就進入百度音樂等垂直搜索;如果是綜合類的搜索需求,就進入百度的搜索引擎;如果是知識類需求,例如問“世界最長的河流是哪個”,語音助手就會進入知識庫給出結(jié)果。第三類是調(diào)侃類的需求,百度有互動性資源,例如“小黃雞”等。
自蘋果iPhone 4S內(nèi)置語音助手Siri以來,語音識別技術(shù)近年來經(jīng)歷了前所未有的繁榮。穿戴式設(shè)備、智能家居和車載設(shè)備的興起,更是將語音識別技術(shù)推到應(yīng)用的臺前。語言的創(chuàng)造原本就是人類歷史的一個拐點,而當(dāng)將語言與科技結(jié)合時,所謂的人機交互的革命史又翻開了新篇章。
可以說,智能語音交互首先改變的是移動互聯(lián)網(wǎng),語音識別在移動終端上的應(yīng)用最為火熱。語音對話機器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應(yīng)用。在國內(nèi),目前除了手機內(nèi)自帶的語音助手,不少第三方語音助手應(yīng)用也如雨后春筍般涌現(xiàn),譬如訊飛語點、百度語音助手、搜狗語音助手、蟲洞語音助手、智能360語音助手等。以iPhone中內(nèi)置的Siri為例,這是一個很炫的功能。用戶以自然語言的方式對智能手機下達指令,而手機根據(jù)用戶語音和用戶當(dāng)前的環(huán)境及上下文對用戶意圖進行理解,并按照用戶意圖執(zhí)行命令。如用戶說“查找附近的閩菜館”,則手機會搜索用戶當(dāng)前所在位置附近的閩菜風(fēng)味餐廳,并將列表顯示出來供用戶選擇查看。
騰訊公司將智能語音整合到手機上網(wǎng)領(lǐng)域,讓打開網(wǎng)頁、控制瀏覽器等功能操作“口語化”。只要你叫一聲“搜狐網(wǎng)”,手機就會自然跳出搜狐網(wǎng)來,用不著用手輸入網(wǎng)址。
很難想象會有用戶通過手機打上五六百字向自己的領(lǐng)導(dǎo)論述某個項目的可行性,這樣的工作通常是在有實體鍵盤的電腦上完成的。語音輸入使得通過手機完成上述行為成為可能。
在未來的物聯(lián)網(wǎng)時代,“說出需求得到落實”的互動模式將進一步延伸,屆時所有的手機、電器等都將擁有“聽”甚至是“說”的能力,語音控制將成為構(gòu)建智慧城市的重要手段,人們美好的生活將再次“傳為佳話”。用戶躺在沙發(fā)上,對著手機就可給各種電器下達命令,電器就能自動完成操作,隨著物聯(lián)網(wǎng)的發(fā)展成熟,這種看似奇幻的情景正愈來愈廣泛地變?yōu)楝F(xiàn)實。
而未來,借助語音識別技術(shù),可實現(xiàn)“只動嘴不動手”的智能化支付,更能讓用戶體驗到高速便捷。比如,消費者可對著手機發(fā)出命令——“請轉(zhuǎn)賬500元到××賬戶”,手機就能幫助消費者輕松實現(xiàn)口述化轉(zhuǎn)賬、付款。
近日,去哪兒攜手百度,在其App加入語音功能,用戶只需要對著手機說話,即可完成旅游出行搜索和預(yù)訂、支付。該功能是去哪兒旅行與百度語音共同打造的智能語音產(chǎn)品,標志著百度和去哪兒在語音技術(shù)領(lǐng)域再上一層樓,“只動嘴不動手”的智能化,讓用戶“說去哪兒就去哪兒”,“想付多少錢就付多少錢”。
去哪兒無線高級產(chǎn)品總監(jiān)楊昌樂表示,他非??春弥悄苷Z音的未來發(fā)展前景,智能語音最終必然會成為手機端的一個重要輸入手段,并且會對現(xiàn)今的使用環(huán)境、支付環(huán)境造成很大的沖擊。尤其多交互語音技術(shù)的出現(xiàn),完全令用戶有不同于以往的使用感受。未來去哪兒希望能夠打造出僅依靠語音技術(shù)即可完成各種操作的App產(chǎn)品,將手指輸入和語音輸入并行提供給用戶。
而目前國內(nèi)最大的獨立第三方支付平臺支付寶,也已逐步針對全國手機用戶推出獨創(chuàng)的語音支付方式。此舉將令國內(nèi)數(shù)億手機用戶有機會通過手機終端隨時隨地完成語音支付行為。
一項公開調(diào)查的數(shù)據(jù)顯示,除了通常網(wǎng)上購物之外,40%的消費者會選擇電視購物,34%的消費者會選擇目錄購物,在這些人中,65%的消費者表示愿意在一定條件下使用語音支付進行付款。語音支付“錢景”十分誘人。
基于這種高智能化的技術(shù)進化,Enfodesk易觀智庫研究發(fā)現(xiàn),語音必將成為日后移動互聯(lián)網(wǎng)的最重要入口之一。手機和PC相比有著先天的操作和視覺劣勢(手機屏幕面積小、操作輸入繁瑣),而語音輸入無疑是比較好的替代輸入方式之一,它使得操作者開始逐步擺脫雙手與機器的操控交流,讓手機成為更智能化、更人性化、更通用的工具。Enfodesk易觀智庫調(diào)查數(shù)據(jù)顯示,到2015年全球智能語音交互技術(shù)市場將達到600多億美元,未來三年年復(fù)合平均增長率高達15%以上。
無縫語音交互境界還有多難
不過,有些業(yè)界專家認為,語音應(yīng)用能否成為下一個移動應(yīng)用重要入口,還要經(jīng)過技術(shù)和市場的雙重考驗。無論是類似蘋果的“大?!?,還是口碑相傳的智能360,目前均尚未帶動語音成為移動互聯(lián)的入口,迎接語音技術(shù)全面春暖花開的春天還要克服一些難關(guān)。
雖然蘋果、谷歌、百度等這些巨頭紛紛以非常認真的態(tài)度投入語音應(yīng)用,語音用戶市場還是發(fā)展不太快,離達到流量變現(xiàn)的程度還有一段距離。而目前國內(nèi)手機語音搜索市場雖然已具備一定的用戶需求與初步的技術(shù)積累,但仍處在市場導(dǎo)入期階段。
近年來語音技術(shù)門檻逐漸降低,但不可否認的是,語音技術(shù)在人機交互中仍有一些尷尬局面。比如語音識別的正確率,其在實際應(yīng)用中依然不夠“聽話”。一些專家認為,中國地域遼闊,光方言就有成百上千種,而且即便是同一種方言被不同的人說出來發(fā)音上也會有差距。機器系統(tǒng)哪怕采樣再全,識別率也不會太理想。比起其他語種,中文的識別難度會更高。在中文中,同樣的一句話,在不同的語境中,具備了不同的含義,識別難度會更大,甚至同一句話的不同語氣,其表達意思也不同,這就讓語音技術(shù)難以識別其準確意義,甚至可能“失之毫厘,謬以千里”。
有業(yè)內(nèi)人士坦承說,語音識別的遺憾是再努力也做不到百分之百。這或是整體語音技術(shù)應(yīng)用中的一個最大痛點。不過,業(yè)界專家對此進行反駁,任何事物沒有所謂百分之百完美,語音識別準確率達到90%以上就算成功,不能吹毛求疵。
還有,為了調(diào)用語音、語義庫,以更加精準地理解用戶的意思,目前不少語音技術(shù)服務(wù)商的做法是將用戶所說的語音上傳到服務(wù)器,由服務(wù)器進行識別,但這對服務(wù)商網(wǎng)絡(luò)的速度、服務(wù)器的處理能力、數(shù)據(jù)庫等提出了很高的要求與很大的挑戰(zhàn)。
因此,從某些技術(shù)上講,未來要達到無縫的語音交互境界,難度還是相當(dāng)大的。
除了技術(shù)方面的攔路虎,語音應(yīng)用還面臨商業(yè)模式、生態(tài)圈建設(shè)的重大難題。從桌面時代轉(zhuǎn)變到移動時代,全新的語音搜索和語音助手也需要新的商業(yè)模式。而這中間的環(huán)節(jié)涉及很多不同領(lǐng)域的技術(shù)服務(wù)商和開發(fā)者,需要將所有的生態(tài)鏈打通,覆蓋用戶體驗的完整路徑。因為要涉及所有的上下游環(huán)節(jié),每項語音產(chǎn)品就需要和很多服務(wù)商、開發(fā)者合作、協(xié)調(diào),市場鏈條的高度復(fù)雜性非常明顯。這就觸及商業(yè)利益如何合理分配的問題。比如科大訊飛只做語音識別、自然語言理解這些入口層的技術(shù),后端的服務(wù)常就轉(zhuǎn)給擅長處理該需求的合作伙伴來做。
不過,新興技術(shù)總要經(jīng)歷不斷完善的過程,蒸汽機經(jīng)多次改良才帶來了大規(guī)模工業(yè)化,語音技術(shù)或也如此,其根本的優(yōu)勢注定它將會把人類帶入一個移動生態(tài)的新時代,它終會爆發(fā),迎來春天的!
(編輯:寇尚偉 358902172@qq.com)