未來，聲音將控制一切

2015-04-20 19:15:50倪偉杰

支點 2015年4期

關(guān)鍵詞：助手語義語音

倪偉杰

核心提示：隨著移動互聯(lián)網(wǎng)和人工智能的發(fā)展，人機交互方式將向智能語音交互方式發(fā)展。在未來，我們將用聲音控制一切。

電影《她》中，主人公西奧多的工作是寫信，坐在電腦前，對著電腦口述信件內(nèi)容，屏幕上就會即時顯示文字內(nèi)容。下班后，西奧多通過向手機發(fā)布語音指令來聽音樂、讀電子郵件和瀏覽新聞。

西奧多最近才離了婚，他的寂寞是手機無法理解的，直到他遇上世界上首個人工智能操作系統(tǒng)OS1。OS1給自己取了個名字叫薩曼莎。西奧多在與薩曼莎的聊天中，找到了快樂，也成就了一段奇異的人機情緣。

以前，我們與機器的交互，典型如操作手機，從最初的按鍵盤按鈕到現(xiàn)在觸摸手機屏幕，主要靠動手實現(xiàn)。隨著我們使用手機場景的不斷豐富，與電影中所展示的一樣，我們與手機通過語音交互的方式正在逐步流行。

電影《她》被歸為科幻片。如果說西奧多通過語音控制手機播放音樂、瀏覽新聞多多少少有現(xiàn)實的影子的話，那么人工智能薩曼莎則是科幻。但是技術(shù)又不甘心只讓我們生活在幻想中。技術(shù)的創(chuàng)新力量就在于將科幻變?yōu)楝F(xiàn)實。得益于技術(shù)進步，在萬物互聯(lián)的未來，我們與機器打交道，很可能是“動口”不“動手”。我們將用聲音控制一切。

“耳”與“腦”

要讓機器聽懂我們說的話并能與我們說話交流，這就需要給機器裝上“耳朵”、“大腦”和“嘴巴”。

機器的“耳朵”作為語音傳輸?shù)耐ǖ?，能夠識別我們說話的聲音、語種和內(nèi)容，并將它們翻譯為文本，這里主要涉及到語音識別技術(shù)。

“耳朵”聽到文本內(nèi)容后，機器“大腦”開始發(fā)揮作用，對文本的文法、背景知識和語義進行邏輯分析，使機器真正理解我們說的究竟是什么意思。在這里，語義分析技術(shù)大顯神威。

理解了我們所說的內(nèi)容，機器就要用“嘴巴”說話，對我們的訴求進行反饋，將任意的文字轉(zhuǎn)化為自然流暢的語音。這就是語音合成技術(shù)。

未來確保我們能用聲音控制一切的智能語音技術(shù)，主要就包括上述三種子技術(shù)。

在北京光年無限科技有限公司CEO俞志晨看來，語音識別和語義分析是最重要的智能語音技術(shù)。俞志晨和他的創(chuàng)業(yè)團隊于2013年推出的“蟲洞語音助手”，就專長于語義分析。不要覺著“蟲洞”這個名字很科幻，就以為語音助手提供的都是些玄而又玄的服務(wù)，其實它專注于為我們的日常生活服務(wù)，問天氣、找飯館，信手拈來，很接地氣。

《支點》記者曾經(jīng)與中國智能機器人第一品牌——小i機器人有過一次交流，其中有一段對話如下：

記者：你覺得人工智能會毀滅人類嗎？

小i機器人：我會的東西可多了，沒必要一一闡述了吧。

在記者看來，小i機器人并沒有理解這個問題，許多智能語音產(chǎn)品在語義分析方面普遍做得不好。

俞志晨解釋說：“這個問題對小i機器人來說太冷門了。就好像一個科學(xué)家向一個普通人問一個高深的科學(xué)問題，而普通人無法理解一樣?！辈贿^小i機器人在通信、金融等細分行業(yè)領(lǐng)域有著較為完備的知識庫，理解能力會較好。

“說到底，語義分析主要基于算法和知識庫，優(yōu)化算法和知識庫建設(shè)將會提高語義分析能力?！庇嶂境繉Α吨c》記者說。

對機器來說，除了有冷門問題的語義挑戰(zhàn)，還有方言和環(huán)境噪音的困擾。中國各地的方言很多，如果使用環(huán)境比較嘈雜，都會影響到語音識別的準確度?！霸诹己玫沫h(huán)境下，用普通話與機器對話，許多語音產(chǎn)品的識別率能在90%以上。而在噪音和方言環(huán)境中，識別準確率只能達到60%-70%?！庇嶂境繉嵲拰嵳f。

另外，電影《她》中普通手機與人工智能薩曼莎，在智能層次上有一定差距。薩曼莎可主動與西奧多進行對話交流，而普通手機必須在西奧多發(fā)出語音指令以后才會進行交互。在交互方式上，現(xiàn)在的很多智能語音產(chǎn)品還無法像薩曼莎一樣主動與用戶交互。

聲控時代即將來臨

盡管智能語音技術(shù)門檻很高，但隨著Siri的出現(xiàn)，智能語音市場呈現(xiàn)出一番熱火朝天的景象，互聯(lián)網(wǎng)科技巨頭和創(chuàng)業(yè)公司紛紛入局智能語音。

目前語音識別市場相對成熟，這得益于傳統(tǒng)老牌語音識別企業(yè)多年來的技術(shù)積累。比如為Siri提供語音技術(shù)支持的美國Nuance公司，占據(jù)著全球語音識別市場80%的份額。Nuance的語音識別引擎能識別大約60種語言和方言，可合成39種語言。全球上億部智能手機、車載導(dǎo)航系統(tǒng)以及呼叫中心，都使用了Nuance的語音技術(shù)。

如果說Nuance是國際上的語音識別大佬，那么科大訊飛則在國內(nèi)語音識別市場上占據(jù)了頭把交椅。成立于1999年的科大訊飛，十幾年來一直專注于語音識別技術(shù)研發(fā)。據(jù)其官網(wǎng)稱，其在國內(nèi)電信、金融、能源、交通等行業(yè)內(nèi)的份額占到了80%以上。比如已經(jīng)合并的滴滴和快的所使用的語音技術(shù)，就是由科大訊飛提供的。目前在國內(nèi)還有云知聲、中科信利和盛大等公司提供語音識別技術(shù)。

與智能語音中的“耳”相比，“腦”還有很大的發(fā)展?jié)摿?。智能語音的“腦”產(chǎn)品主要是像Siri一樣的人工智能，它們像私人助手一般，能夠聽懂我們說的話，從而為我們的生活提供便利。在國外私人語音助手市場上，蘋果的Siri、微軟的Cortana和谷歌的Google Now，形成三足鼎立的局面。

Siri剛推出的時候，并沒有中文語音服務(wù)，這就給了中國企業(yè)入局的機會，各種中國版Siri紛至沓來。百度、搜狗和科大訊飛分別推出了自己的語音助手產(chǎn)品，也有像蟲洞語音助手、出門問問、小i機器人和智能360這樣的創(chuàng)業(yè)型公司推出的語音產(chǎn)品。

智能語音的熱潮，是跟移動互聯(lián)網(wǎng)的發(fā)展相適應(yīng)的。在移動互聯(lián)網(wǎng)時代，新出現(xiàn)的各種場景化應(yīng)用讓以前的人機交互方式變得有些落伍，而語音作為最為自然的交互方式，則恰好滿足了新的場景化應(yīng)用需求。

如今我們使用最多的移動終端是智能手機，與PC相比，手機屏幕較小，用手輸入較為不便，而語音輸入則更為便捷和自然。比如，駕駛汽車時，用手來操作手機既不方便又很危險，而語音操作則顯得方便而又安全。

中興通訊的終端事業(yè)部CEO曾學(xué)忠就認為，移動終端的下一個革命就是聲控革命。他說：“三年前我們還很難想象人們拿著手機對著微信吼，而現(xiàn)在的手機語音與三年前的微信語音一樣，在未來也會成為隨處可見的場景，聲控時代即將來臨。”

語音或是移動搜索的最好形式

當(dāng)Siri剛開始出現(xiàn)的時候，許多人都是抱著娛樂的態(tài)度使用Siri，時不時會調(diào)戲Siri一番，比如對Siri說：“我愛你！”Siri也很狡猾：“希望你不要對其他手機也這么說。”

但如果只把Siri當(dāng)作無聊時的陪聊工具，那就太掉價了，畢竟Siri是響當(dāng)當(dāng)?shù)娜斯ぶ悄?。正是得益于人工智能的發(fā)展，智能語音技術(shù)已經(jīng)應(yīng)用于我們生活中的各種場景，為我們服務(wù)。蟲洞語音助手正朝著這個方向發(fā)展。

2012年3月，俞志晨和他的團隊發(fā)布了蟲洞語音助手，他的愿景就是讓它成為用戶的私人助手，滿足生活的各種需求，查詢天氣、票務(wù)等各種有用信息。最初，蟲洞語音助手以手機應(yīng)用的形式出現(xiàn)，使手機變身為智能機器人。隨后，蟲洞語音助手向車載系統(tǒng)、智能家居和可穿戴設(shè)備等方向遷移，使它的應(yīng)用范圍更加廣泛。

“蟲洞語音助手主要專注于為用戶的生活服務(wù)，現(xiàn)在也已應(yīng)用到了車載系統(tǒng)和智能家居上，比如我們跟海爾的智能家居就有合作?！庇嶂境繉Α吨c》記者說。

因為在人機交互的語義分析領(lǐng)域深耕，俞志晨和他的團隊在去年又推出了人機交互引擎服務(wù)平臺——圖靈機器人，其他的開發(fā)者可在圖靈機器人的基礎(chǔ)上做二次開發(fā)。開發(fā)者基于圖靈機器人，在微博、微信、客服、智能硬件等領(lǐng)域搭建個性化的智能機器人。目前有超過30000名開發(fā)者入駐圖靈機器人，形成了人工智能的良好生態(tài)。

出門問問CEO李志飛和他的團隊，正在向著智能語音搜索方向發(fā)力。這位專注于機器翻譯的前谷歌科學(xué)家，繼承了谷歌的創(chuàng)新基因，回國后打造了中國版的Google Now——出門問問。在出門問問的微信公眾號上，用戶可以與它語音交流。比如問：“附近的咖啡館在哪里？”出門問問就會給用戶一個咖啡館列表。跟Siri不一樣，出門問問專注于為用戶提供生活服務(wù)信息搜索，而不會跟用戶閑聊。

李志飛認為智能語音搜索代表著移動互聯(lián)網(wǎng)的發(fā)展方向。在PC時代，用戶習(xí)慣了對著鍵盤和屏幕文字搜索關(guān)鍵詞尋找需要的信息，地點是固定的，搜索內(nèi)容傾向于緊急性需求（工作、學(xué)習(xí)、醫(yī)療）和消遣性需求（影視、音樂、小說）；而在移動互聯(lián)網(wǎng)時代，用戶通常會在不同地點對著方寸之間的小屏幕進行搜索，更傾向于搜索美食、地標、旅游等LBS資源信息。

“移動設(shè)備的小型、移動、便攜和功能性，以及更偏重生活和娛樂的需求，讓用戶傾向于更加直接、快速、簡潔的搜索方式，文字搜索已經(jīng)無法滿足用戶的需求，語音交互作為一種非常方便、自然的表達，是移動搜索的最好形式。”李志飛在給《支點》記者的書面回復(fù)中強調(diào)。

人工智能能否超越人類

盡管智能語音市場潛力無限，各種語音技術(shù)產(chǎn)品和服務(wù)琳瑯滿目，但我們使用這些服務(wù)時，總覺得它們還沒有像薩曼莎一樣聰明。福布斯資深記者Elise Ackerman就生活中的一些需求向Siri和Google Now尋求幫助時發(fā)現(xiàn)，這些智能語音在實際生活當(dāng)中的表現(xiàn)差強人意。當(dāng)她向語音助手詢問最近的加油站時，Siri為她介紹了很遠的加油站，而Google Now則為她介紹了其他一個州的加油站，它們誰都不知道在Elise Ackerman家的拐角處就有一家加油站。

智能語音技術(shù)作為人工智能的一部分，目前仍具有很大的技術(shù)發(fā)展空間。我們之所以覺得現(xiàn)在的語音產(chǎn)品不夠聰明，也許是因為人工智能的“奇點”還沒有到來。未來學(xué)家雷·庫茲韋爾有關(guān)人工智能的“奇點理論”，無疑給人工智能界注入了一劑強心劑。按照庫茲韋爾的理論，到2045年，“奇點”來臨，人工智能將超越人類智能水平。

面對來勢洶洶的人工智能，埃隆·馬斯克、斯蒂芬·霍金和比爾·蓋茨等紛紛發(fā)出了警告，讓我們警惕人工智能這一人類的終結(jié)者。馬斯克曾經(jīng)這樣“黑”人工智能：“我們需要萬分警惕人工智能，它們比核武器更加危險?！?/p>

在俞志晨看來，馬斯克對人工智能的言論太過悲觀，而人工智能的所謂“奇點”在短期內(nèi)是不會來臨的，現(xiàn)階段讓人工智能像人類智能一樣仍舊很困難。對此，李志飛更直截了當(dāng)?shù)卣f：“奇點不會降臨，人類不會滅絕?！?/p>

我們所說的人工智能也是分等級的。簡單的智能包括聽覺、視覺、觸覺等感知能力，高級的智能包括思考、情感、創(chuàng)造性等等。目前的人工智能技術(shù)還停留在初級階段。

未來人工智能技術(shù)會獲得長足進步，但離真正意義上的人類智能還有很大差距，沒有必要過于擔(dān)憂。計算機的優(yōu)勢在于強大的存儲和高速的運算能力。在某些特定任務(wù)上，人工智能已經(jīng)超越人類，但在大多數(shù)方面，尤其是需要創(chuàng)造性的工作方面，計算機遠不及人類。（支點雜志2015年4月刊）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

未來，聲音將控制一切

未來，聲音將控制一切