倪偉杰
核心提示:隨著移動互聯(lián)網(wǎng)和人工智能的發(fā)展,人機交互方式將向智能語音交互方式發(fā)展。在未來,我們將用聲音控制一切。
電影《她》中,主人公西奧多的工作是寫信,坐在電腦前,對著電腦口述信件內(nèi)容,屏幕上就會即時顯示文字內(nèi)容。下班后,西奧多通過向手機發(fā)布語音指令來聽音樂、讀電子郵件和瀏覽新聞。
西奧多最近才離了婚,他的寂寞是手機無法理解的,直到他遇上世界上首個人工智能操作系統(tǒng)OS1。OS1給自己取了個名字叫薩曼莎。西奧多在與薩曼莎的聊天中,找到了快樂,也成就了一段奇異的人機情緣。
以前,我們與機器的交互,典型如操作手機,從最初的按鍵盤按鈕到現(xiàn)在觸摸手機屏幕,主要靠動手實現(xiàn)。隨著我們使用手機場景的不斷豐富,與電影中所展示的一樣,我們與手機通過語音交互的方式正在逐步流行。
電影《她》被歸為科幻片。如果說西奧多通過語音控制手機播放音樂、瀏覽新聞多多少少有現(xiàn)實的影子的話,那么人工智能薩曼莎則是科幻。但是技術(shù)又不甘心只讓我們生活在幻想中。技術(shù)的創(chuàng)新力量就在于將科幻變?yōu)楝F(xiàn)實。得益于技術(shù)進步,在萬物互聯(lián)的未來,我們與機器打交道,很可能是“動口”不“動手”。我們將用聲音控制一切。
“耳”與“腦”
要讓機器聽懂我們說的話并能與我們說話交流,這就需要給機器裝上“耳朵”、“大腦”和“嘴巴”。
機器的“耳朵”作為語音傳輸?shù)耐ǖ?,能夠識別我們說話的聲音、語種和內(nèi)容,并將它們翻譯為文本,這里主要涉及到語音識別技術(shù)。
“耳朵”聽到文本內(nèi)容后,機器“大腦”開始發(fā)揮作用,對文本的文法、背景知識和語義進行邏輯分析,使機器真正理解我們說的究竟是什么意思。在這里,語義分析技術(shù)大顯神威。
理解了我們所說的內(nèi)容,機器就要用“嘴巴”說話,對我們的訴求進行反饋,將任意的文字轉(zhuǎn)化為自然流暢的語音。這就是語音合成技術(shù)。
未來確保我們能用聲音控制一切的智能語音技術(shù),主要就包括上述三種子技術(shù)。
在北京光年無限科技有限公司CEO俞志晨看來,語音識別和語義分析是最重要的智能語音技術(shù)。俞志晨和他的創(chuàng)業(yè)團隊于2013年推出的“蟲洞語音助手”,就專長于語義分析。不要覺著“蟲洞”這個名字很科幻,就以為語音助手提供的都是些玄而又玄的服務(wù),其實它專注于為我們的日常生活服務(wù),問天氣、找飯館,信手拈來,很接地氣。
《支點》記者曾經(jīng)與中國智能機器人第一品牌——小i機器人有過一次交流,其中有一段對話如下:
記者:你覺得人工智能會毀滅人類嗎?
小i機器人:我會的東西可多了,沒必要一一闡述了吧。
在記者看來,小i機器人并沒有理解這個問題,許多智能語音產(chǎn)品在語義分析方面普遍做得不好。
俞志晨解釋說:“這個問題對小i機器人來說太冷門了。就好像一個科學(xué)家向一個普通人問一個高深的科學(xué)問題,而普通人無法理解一樣?!辈贿^小i機器人在通信、金融等細分行業(yè)領(lǐng)域有著較為完備的知識庫,理解能力會較好。
“說到底,語義分析主要基于算法和知識庫,優(yōu)化算法和知識庫建設(shè)將會提高語義分析能力?!庇嶂境繉Α吨c》記者說。
對機器來說,除了有冷門問題的語義挑戰(zhàn),還有方言和環(huán)境噪音的困擾。中國各地的方言很多,如果使用環(huán)境比較嘈雜,都會影響到語音識別的準確度?!霸诹己玫沫h(huán)境下,用普通話與機器對話,許多語音產(chǎn)品的識別率能在90%以上。而在噪音和方言環(huán)境中,識別準確率只能達到60%-70%?!庇嶂境繉嵲拰嵳f。
另外,電影《她》中普通手機與人工智能薩曼莎,在智能層次上有一定差距。薩曼莎可主動與西奧多進行對話交流,而普通手機必須在西奧多發(fā)出語音指令以后才會進行交互。在交互方式上,現(xiàn)在的很多智能語音產(chǎn)品還無法像薩曼莎一樣主動與用戶交互。
聲控時代即將來臨
盡管智能語音技術(shù)門檻很高,但隨著Siri的出現(xiàn),智能語音市場呈現(xiàn)出一番熱火朝天的景象,互聯(lián)網(wǎng)科技巨頭和創(chuàng)業(yè)公司紛紛入局智能語音。
目前語音識別市場相對成熟,這得益于傳統(tǒng)老牌語音識別企業(yè)多年來的技術(shù)積累。比如為Siri提供語音技術(shù)支持的美國Nuance公司,占據(jù)著全球語音識別市場80%的份額。Nuance的語音識別引擎能識別大約60種語言和方言,可合成39種語言。全球上億部智能手機、車載導(dǎo)航系統(tǒng)以及呼叫中心,都使用了Nuance的語音技術(shù)。
如果說Nuance是國際上的語音識別大佬,那么科大訊飛則在國內(nèi)語音識別市場上占據(jù)了頭把交椅。成立于1999年的科大訊飛,十幾年來一直專注于語音識別技術(shù)研發(fā)。據(jù)其官網(wǎng)稱,其在國內(nèi)電信、金融、能源、交通等行業(yè)內(nèi)的份額占到了80%以上。比如已經(jīng)合并的滴滴和快的所使用的語音技術(shù),就是由科大訊飛提供的。目前在國內(nèi)還有云知聲、中科信利和盛大等公司提供語音識別技術(shù)。
與智能語音中的“耳”相比,“腦”還有很大的發(fā)展?jié)摿?。智能語音的“腦”產(chǎn)品主要是像Siri一樣的人工智能,它們像私人助手一般,能夠聽懂我們說的話,從而為我們的生活提供便利。在國外私人語音助手市場上,蘋果的Siri、微軟的Cortana和谷歌的Google Now,形成三足鼎立的局面。
Siri剛推出的時候,并沒有中文語音服務(wù),這就給了中國企業(yè)入局的機會,各種中國版Siri紛至沓來。百度、搜狗和科大訊飛分別推出了自己的語音助手產(chǎn)品,也有像蟲洞語音助手、出門問問、小i機器人和智能360這樣的創(chuàng)業(yè)型公司推出的語音產(chǎn)品。
智能語音的熱潮,是跟移動互聯(lián)網(wǎng)的發(fā)展相適應(yīng)的。在移動互聯(lián)網(wǎng)時代,新出現(xiàn)的各種場景化應(yīng)用讓以前的人機交互方式變得有些落伍,而語音作為最為自然的交互方式,則恰好滿足了新的場景化應(yīng)用需求。
如今我們使用最多的移動終端是智能手機,與PC相比,手機屏幕較小,用手輸入較為不便,而語音輸入則更為便捷和自然。比如,駕駛汽車時,用手來操作手機既不方便又很危險,而語音操作則顯得方便而又安全。
中興通訊的終端事業(yè)部CEO曾學(xué)忠就認為,移動終端的下一個革命就是聲控革命。他說:“三年前我們還很難想象人們拿著手機對著微信吼,而現(xiàn)在的手機語音與三年前的微信語音一樣,在未來也會成為隨處可見的場景,聲控時代即將來臨。”
語音或是移動搜索的最好形式
當(dāng)Siri剛開始出現(xiàn)的時候,許多人都是抱著娛樂的態(tài)度使用Siri,時不時會調(diào)戲Siri一番,比如對Siri說:“我愛你!”Siri也很狡猾:“希望你不要對其他手機也這么說。”
但如果只把Siri當(dāng)作無聊時的陪聊工具,那就太掉價了,畢竟Siri是響當(dāng)當(dāng)?shù)娜斯ぶ悄?。正是得益于人工智能的發(fā)展,智能語音技術(shù)已經(jīng)應(yīng)用于我們生活中的各種場景,為我們服務(wù)。蟲洞語音助手正朝著這個方向發(fā)展。
2012年3月,俞志晨和他的團隊發(fā)布了蟲洞語音助手,他的愿景就是讓它成為用戶的私人助手,滿足生活的各種需求,查詢天氣、票務(wù)等各種有用信息。最初,蟲洞語音助手以手機應(yīng)用的形式出現(xiàn),使手機變身為智能機器人。隨后,蟲洞語音助手向車載系統(tǒng)、智能家居和可穿戴設(shè)備等方向遷移,使它的應(yīng)用范圍更加廣泛。
“蟲洞語音助手主要專注于為用戶的生活服務(wù),現(xiàn)在也已應(yīng)用到了車載系統(tǒng)和智能家居上,比如我們跟海爾的智能家居就有合作?!庇嶂境繉Α吨c》記者說。
因為在人機交互的語義分析領(lǐng)域深耕,俞志晨和他的團隊在去年又推出了人機交互引擎服務(wù)平臺——圖靈機器人,其他的開發(fā)者可在圖靈機器人的基礎(chǔ)上做二次開發(fā)。開發(fā)者基于圖靈機器人,在微博、微信、客服、智能硬件等領(lǐng)域搭建個性化的智能機器人。目前有超過30000名開發(fā)者入駐圖靈機器人,形成了人工智能的良好生態(tài)。
出門問問CEO李志飛和他的團隊,正在向著智能語音搜索方向發(fā)力。這位專注于機器翻譯的前谷歌科學(xué)家,繼承了谷歌的創(chuàng)新基因,回國后打造了中國版的Google Now——出門問問。在出門問問的微信公眾號上,用戶可以與它語音交流。比如問:“附近的咖啡館在哪里?”出門問問就會給用戶一個咖啡館列表。跟Siri不一樣,出門問問專注于為用戶提供生活服務(wù)信息搜索,而不會跟用戶閑聊。
李志飛認為智能語音搜索代表著移動互聯(lián)網(wǎng)的發(fā)展方向。在PC時代,用戶習(xí)慣了對著鍵盤和屏幕文字搜索關(guān)鍵詞尋找需要的信息,地點是固定的,搜索內(nèi)容傾向于緊急性需求(工作、學(xué)習(xí)、醫(yī)療)和消遣性需求(影視、音樂、小說);而在移動互聯(lián)網(wǎng)時代,用戶通常會在不同地點對著方寸之間的小屏幕進行搜索,更傾向于搜索美食、地標、旅游等LBS資源信息。
“移動設(shè)備的小型、移動、便攜和功能性,以及更偏重生活和娛樂的需求,讓用戶傾向于更加直接、快速、簡潔的搜索方式,文字搜索已經(jīng)無法滿足用戶的需求,語音交互作為一種非常方便、自然的表達,是移動搜索的最好形式。”李志飛在給《支點》記者的書面回復(fù)中強調(diào)。
人工智能能否超越人類
盡管智能語音市場潛力無限,各種語音技術(shù)產(chǎn)品和服務(wù)琳瑯滿目,但我們使用這些服務(wù)時,總覺得它們還沒有像薩曼莎一樣聰明。福布斯資深記者Elise Ackerman就生活中的一些需求向Siri和Google Now尋求幫助時發(fā)現(xiàn),這些智能語音在實際生活當(dāng)中的表現(xiàn)差強人意。當(dāng)她向語音助手詢問最近的加油站時,Siri為她介紹了很遠的加油站,而Google Now則為她介紹了其他一個州的加油站,它們誰都不知道在Elise Ackerman家的拐角處就有一家加油站。
智能語音技術(shù)作為人工智能的一部分,目前仍具有很大的技術(shù)發(fā)展空間。我們之所以覺得現(xiàn)在的語音產(chǎn)品不夠聰明,也許是因為人工智能的“奇點”還沒有到來。未來學(xué)家雷·庫茲韋爾有關(guān)人工智能的“奇點理論”,無疑給人工智能界注入了一劑強心劑。按照庫茲韋爾的理論,到2045年,“奇點”來臨,人工智能將超越人類智能水平。
面對來勢洶洶的人工智能,埃隆·馬斯克、斯蒂芬·霍金和比爾·蓋茨等紛紛發(fā)出了警告,讓我們警惕人工智能這一人類的終結(jié)者。馬斯克曾經(jīng)這樣“黑”人工智能:“我們需要萬分警惕人工智能,它們比核武器更加危險?!?/p>
在俞志晨看來,馬斯克對人工智能的言論太過悲觀,而人工智能的所謂“奇點”在短期內(nèi)是不會來臨的,現(xiàn)階段讓人工智能像人類智能一樣仍舊很困難。對此,李志飛更直截了當(dāng)?shù)卣f:“奇點不會降臨,人類不會滅絕?!?/p>
我們所說的人工智能也是分等級的。簡單的智能包括聽覺、視覺、觸覺等感知能力,高級的智能包括思考、情感、創(chuàng)造性等等。目前的人工智能技術(shù)還停留在初級階段。
未來人工智能技術(shù)會獲得長足進步,但離真正意義上的人類智能還有很大差距,沒有必要過于擔(dān)憂。計算機的優(yōu)勢在于強大的存儲和高速的運算能力。在某些特定任務(wù)上,人工智能已經(jīng)超越人類,但在大多數(shù)方面,尤其是需要創(chuàng)造性的工作方面,計算機遠不及人類。(支點雜志2015年4月刊)