作為一個見證者,我非常慶幸自己親歷了波瀾壯闊的互聯(lián)網(wǎng)時代、大數(shù)據(jù)時代、人工智能時代,深切感受到了接踵而至的技術(shù)浪潮是如何改變我們的工作和生活,如果未來有閑暇時間追根溯源,那一定是非常美好的事情。
作為一個出版人,我也非常高興能夠遇到《智能語音時代》這樣一部優(yōu)秀的科技人文作品,對于這本深入淺出、充滿趣味、又可能引領(lǐng)一個新的時代到來的科普著作,能夠先睹為快,實在是一件賞心悅目的事情。
對于智能語音時代的到來,我們大部分人已經(jīng)多多少少有了一些直接或間接的感受。比如我們手機上的Siri或者其他語音軟件,這曾是蘋果(iPhone)手機最令人矚目的新功能之一;又比如我們經(jīng)常在用的語音導航軟件里傳出的林志玲的“娃娃音”,還有“微軟小冰”展現(xiàn)自己詩歌“別才”的詩集《陽光失了玻璃窗》;當然,還有電子雞、旅行青蛙這樣風行一時的電子寵物。
對我來說最新的例子是,春節(jié)購買了一只小米AI音箱(“小愛同學”)作為禮物送給父母;“小愛同學”的乖巧能干,可著實把他們驚呆了。“小愛同學”為他們做的第一件事是播放花鼓戲《瀏陽河》,這是現(xiàn)代技術(shù)與古老文化碰撞出的新奇快樂。
與我們直接的生活經(jīng)驗不同,被稱為美國鬼才科普作家的本書作者詹姆斯.維爾和斯(JamesVlahos),給我們帶來了對語音技術(shù)這樣一個蔚為大觀的科技發(fā)展趨勢的深入洞察。作為智能語音領(lǐng)域的開山之作,作者確實出手不凡,他把智能語音技術(shù)、應用與產(chǎn)業(yè)的討論引向了難得的高度,非常清晰地給我們展現(xiàn)了智能語音時代的新場景。
詹姆斯.維爾和斯是一位長期追蹤研究語音計算技術(shù)、語音人工智能的專題記者,30多年來,他零距離地見證和細致地觀察了這一領(lǐng)域的研究進展,曾與這一領(lǐng)域中的許多杰出人物直接對話,本書中的許多觀點就是來自于他的第一手訪談資料的提煉。
更難能可貴的是,本書作者還是這一領(lǐng)域的深度涉獵者和親身參與者。他從十幾歲起就對人與機器的對話產(chǎn)生濃厚興趣,并曾嘗試用BASIC語言開發(fā)了自己的文本對話游戲(雖然只能運行寥寥幾步),他還開發(fā)出了以自己父親為藍本的語音機器人程序,讓自己的父親實現(xiàn)了“初步”的“永生”。
因此本書不管是觀察與思考的深度和廣度、身心體驗的直接和豐富,還是研究資料的廣泛和詳實等各個方面都令人欽佩,也讓人感到解渴和過癮。讀這樣一本書,從實用的角度說,花費的時間有更高的性價比,它能讓我們真切地瞭望到一個新的產(chǎn)業(yè)生態(tài)的發(fā)展趨勢,啟發(fā)我們從經(jīng)濟、社會和文化等角度來思考語音計算技術(shù)和語音人工智能已經(jīng)或即將帶來的影響。
翻開這本書,你首先就會被作者這樣的話語所吸引:每十年左右,人與技術(shù)的互動方式就會有一個根本性的轉(zhuǎn)變。數(shù)十億美元的財富會恭候那些定義了新的時代范式的公司,而落伍者將破產(chǎn)倒閉。在計算機的大型機時代,IBM是主宰者,微軟是桌面時代的王者,谷歌靠搜索引領(lǐng)了互聯(lián)網(wǎng)時代,蘋果和臉書則在移動互聯(lián)網(wǎng)時代一飛沖天。
最近的一次范式轉(zhuǎn)換正在進行中。
最新的平臺之戰(zhàn)已經(jīng)打響。
最新的技術(shù)顛覆正在發(fā)生,無論是其規(guī)模還是其重要性,都可能是世人前所未見的。
我們正在邁入智能語音時代。
語音打破了一些世界上最有價值的公司的商業(yè)模式,為新的應用創(chuàng)造了機會。語音把人工智能的控制權(quán)直接放在了用戶的手中。科幻作品中很久之前就預言過的關(guān)系模式,在這樣的關(guān)系模式中,擬人化的人工智能成為我們的助手、看門人、預言者和朋友。
作者這樣言之鑿鑿,顯然并非空穴來風。了解作者的思考邏輯,把握這樣一個大趨勢,并以此指導我們的工作和生活,必然有利于我們做出更多正確的選擇。書中提到,當Siri 在2010年剛剛開發(fā)出來時,先知先覺的蘋果公司前CEO喬布斯曾經(jīng)連續(xù)17天每天給開發(fā)者之一的吉特勞斯打電話,有時甚至深更半夜也打,終于把Siri收入蘋果公司囊中。
遠見從來都是人類最寶貴的品質(zhì)和資產(chǎn)之一,作為智能語音領(lǐng)域的第一本書,這也可以視為一本“遠見之書”。
除了具有經(jīng)濟性含義的遠見,本書還非常重視這項新技術(shù)對人類精神和感性世界的影響,甚至他也把自己和自己的家庭帶入了與語音人工智能的互動過程中,這大大增強了本書的故事性。本書有文采、有溫度、有趣味,展卷在手,沒有同類書的枯燥和沉重,反而有一種引人入勝、不忍釋卷之感。
正如作者在書中所言:智能語音時代的到來是人類歷史的轉(zhuǎn)折,因為運用語音是我們?nèi)祟愡@個物種的特質(zhì)——這一能力把我們和其他物種區(qū)分開來。我們的內(nèi)部意識中心不在肺部的空氣里,也不在血管里的血液中,而是在我們大腦的語言區(qū)里。語言調(diào)整著我們的關(guān)系。它能塑造思想、表達感受、溝通需求。它能發(fā)起變革、挽救生命、激起愛恨情仇。它把我們所知道的一切體現(xiàn)和記錄下來。
不管語言是由人說出來,還是由機器說出來,尤其是當“你應我答”的模式出現(xiàn),在人與人之間,人與機器之間,交談就絕不只是一種純粹依靠邏輯展開的過程。語言永遠不是脫離內(nèi)容的外殼,人都會被語言影響或打動。作者在書中討論的種種事例和情境,都讓我們領(lǐng)悟到人和機器之間的語言交流對我們的情感世界帶來的影響和改變,未來,我們與無處不在的機器構(gòu)成的世界,將是一個前所未見的更加豐富多彩的感性世界。在云時代,“只要簡單地加上一個麥克風和一個Wi-Fi 芯片,任何裝置都能實現(xiàn)語音驅(qū)動。從浴室的水龍頭到孩子玩的布娃娃,任何裝置都能利用分布在全球的幾千臺計算機所提供的計算能力?!边@幾乎意味著“萬物能言”的童話世界真的實現(xiàn)了。
基于這樣的前景,作者指出:當語音機器人同時作為工具和準生命進入我們的生活時,它們模糊了兩者的界限。它們模糊了隱私、自主權(quán)和親密感的界限。它們模糊了人際關(guān)系與數(shù)字關(guān)系、現(xiàn)實與虛擬、生和死之間的界限。
可以想象當這種種界線模糊之后,在我們的生活中將會發(fā)生多少故事。這些故事肯定不會沿著單一的模式進行,必定會有更多“人機情未了”式的故事發(fā)生。
除上述簡單提到的精彩之外,還值得一提的是本書中充滿濃厚的中國元素,從另外一個側(cè)面拉近了中國讀者與這一話題的距離。
作者在書中用很大篇幅討論了亞馬遜主辦的亞歷克莎獎競賽,他這樣介紹在比賽中拔得頭籌的華盛頓大學團隊,“這個社交機器人的優(yōu)勢似乎來自該團隊28歲的學生領(lǐng)袖郝方(Hao Fang)的個性。郝方來自中國南方的宜春市,他活力四射、性格開朗。他和他的團隊成員希望讓他們的社交機器人的評審用戶也能感到快樂。”正是這位郝方同學帶領(lǐng)的團隊所開發(fā)出的社交機器人創(chuàng)造了交談長度20分鐘的記錄。
“當華盛頓大學團隊上臺后,普拉薩德把那份令人滿意的獎品發(fā)給了他們——一張金額達50萬美元的巨額獎券式支票。郝方大笑著拿過支票,對著鏡頭豎起了大拇指?!?/p>
此情此景也讓我們?yōu)檫@位郝方同學高興。
在由10萬個問題組成的斯坦福問答數(shù)據(jù)集(Stanford Question Answer Dataset)測試中,真人平均能答對82%的問題。微軟、阿里巴巴在2018年1月公布,它們所開發(fā)的系統(tǒng)得分和普通人得分一樣高,這成了當時的頭條新聞。
另外,還有在微軟負責ZO聊天機器人項目的王穎,以及大家所熟悉的微信,都是書中屢屢提及的對象。這些中國元素讓我們看到,我們與這一項劃時代科技突破的關(guān)系從來沒有像今天這樣接近過。這令我們感到自豪,也讓我們與本書的主題多了一些千絲萬縷的關(guān)系。更何況,我們的人工智能領(lǐng)域的標桿企業(yè)——科大訊飛,經(jīng)過在智能語音領(lǐng)域的務(wù)實堅持和勇敢探索,已經(jīng)成為全球智能語音產(chǎn)業(yè)的主力軍和技術(shù)領(lǐng)先者。
作為一項具有重大顛覆性的技術(shù),語音計算技術(shù)和語音人工智能帶來的影響是非常深廣的,難以給出一個簡單判斷。作者對語音人工智能的認識非常深刻,他指出:“從魚鉤到火星探測器,我們一直在制造工具。雖然我們制造出非常多有用的東西,但它們在任何更深層次上都不像我們?nèi)祟愖约?。使用語言是我們?nèi)祟愡@個物種真正與眾不同的地方。語言把我們聯(lián)結(jié)起來。因此,教機器掌握語言不同于通過編程讓它們學會進行衍生品交易、做手術(shù)、進行海底航行或其他任何事情。我們正在與其共享人類的核心特征。”
對這樣一份科技“大禮包”,人類難以做到敬謝不敏?!笆澜鐟摀肀дZ音計算技術(shù)所創(chuàng)造的充滿希望的人文精神,人類必然會這樣選擇,也只能如此選擇?!?/p>
我們應該看到,“像歷史上其他給人帶來便利的新技術(shù)一樣,語音人工智能也可能需要我們付出代價。我們可能在智力活動上變得更加消極,我們將更少自主地尋找答案。尋找答案是一種激發(fā)好奇心、激發(fā)思考的探索。有了人工智能,答案會來找我們。與打開龍頭放水相比,從井里費力地打水明顯過時了,而費力地尋找答案也正變得過時?!?/p>
這顯然可以視為其消極的一面,但人類從未因為其消極的一面而排斥過任何一項能夠帶來巨大便利性的新技術(shù)。
因此,作者又向我們指出:如果應對得當,語音人工智能有可能成為我們發(fā)明的最“自然”的技術(shù)。認為人工智能只是冷冰冰的算法,這是一種誤解。我們可以將自己最好的價值觀和同理心注入其中。我們可以讓它變得聰明、令人愉快、精靈古怪,并且善解人意。有了智能語音技術(shù),我們最終可以制造出不那么陌生、更像我們的機器。
未來已來,一場智能語音科技大秀的帷幕正在拉開。隨著5G時代的到來,包括智能語音在內(nèi)的人工智能技術(shù),一定會讓世界更美好。
(本文是為電子工業(yè)出版社《智能語音時代》一書撰寫的前言。)