陳賽
AlphaGo的勝利昭示了未來幾年人工智能很可能會以超出我們想象的速度發(fā)展。我們對李世石的感同身受,恐怕就是因為多少嗅到了其中危險與刺激的氣息。
關(guān)于這場萬眾矚目的世紀(jì)大戰(zhàn),賽前最大的懸念,也是構(gòu)成比賽最大的魅力之一就是,賽前沒有人、連谷歌DeepMind的工程師都不知道AlphaGo的棋力到了什么水平。即使比賽之后,人們?nèi)匀桓悴磺宄嗀lphaGo的棋力到底到了什么水平,以及它能夠達(dá)到什么水平。
當(dāng)棋盤上的局面越來越讓人困惑時,媒體觀戰(zhàn)室里的很多記者都放棄了,開始掏出手機(jī),互相傳看各種段子。我的手機(jī)上就收到這么一個段子:“賽后,李世石惱羞成怒,不顧管理人員的阻攔,瘋狂地拆開了AlphaGo以泄憤,一看,臥槽,柯潔藏在里面。”
其實,這個段子有個典故。18世紀(jì)歐洲一位發(fā)明家號稱發(fā)明了一種具有人類智能的機(jī)器人,能夠跟人下國際象棋,并且真的帶著這個機(jī)器人橫掃歐洲的各位象棋大師。一位不信邪的國王下令拆掉這臺機(jī)器,結(jié)果發(fā)現(xiàn)里頭真的藏著一個土耳其象棋大師。于是這臺機(jī)器,或者說這位土耳其人Turk,就被稱為Mechanical Turk。
這個段子擊中了我們這些觀戰(zhàn)者最大的困惑,機(jī)器到底聰明到了什么程度?
人工智能公司DeepMind聯(lián)合創(chuàng)始人德米斯·哈薩比斯
兩年前,一個叫Eugene Goostman的聊天機(jī)器人號稱成功騙過了圖靈測試三分之一的評委。但Eugene Goostman之所以能通過圖靈測試,并非它真的會“思考”,而是借助于一些聰明的花招和詭計——它假裝自己是一個13歲的男孩,詭稱英語是自己的第二語言,以此解釋語言中的不一致;當(dāng)無法給出直接答案時,就通過虛張聲勢或裝瘋賣傻來轉(zhuǎn)換話題。事實上,這在圖靈測試的歷史上已經(jīng)成了某種慣例:圖靈測試所測的與其說是機(jī)器思考的能力,不如說是扯謊的能力。
作為自然語言處理領(lǐng)域達(dá)到最高水平的機(jī)器,IBM的沃森在2011年的Jeopardy游戲(Jeopardy是美國出名的電視問答游戲,問的問題涉及大量比喻、笑話、謎語)中擊敗了所有的人類對手,而且它的知識不是工程師手動編程灌輸給它,而是自己通過閱讀獲得的。沃森每秒可以處理500GB的數(shù)據(jù),相當(dāng)于1秒閱讀100萬本書,但很可惜的是,沃森并不理解它所閱讀的內(nèi)容的任何含義。
2012年,“谷歌大腦”——一個由1.6萬臺計算機(jī)組成的網(wǎng)絡(luò)系統(tǒng),在隨機(jī)分析了1000萬條YouTube視頻之后,終于“認(rèn)識”了貓是什么樣的動物。這個機(jī)器被認(rèn)為是當(dāng)下人工智能領(lǐng)域(“深度學(xué)習(xí)”)一個里程碑式的進(jìn)步,因為它是憑借自己的力量發(fā)現(xiàn)了貓的概念,沒人告訴它貓是什么。據(jù)稱他們是在控制論層面模擬了人類大腦視覺皮層的運作方式——神經(jīng)學(xué)家認(rèn)為,可能存在一種名為“祖母神經(jīng)元”的細(xì)胞,當(dāng)人被反復(fù)“訓(xùn)練”去識別某一張人臉時,這種細(xì)胞便會被激活。但這個網(wǎng)絡(luò)與人類的視覺皮層相比仍然很渺小,后者的神經(jīng)元和突觸數(shù)量比該網(wǎng)絡(luò)多100萬倍。更重要的是,谷歌的這個“貓偵察機(jī)”雖然號稱識別準(zhǔn)確率達(dá)到81%,但“一旦將樣本量擴(kuò)大到2萬個類別,得分瞬間會跌至15.8%”。
與圖靈測試、自然語言一樣,棋類游戲也是測試人工智能進(jìn)展水平的小白鼠。事實上,人類歷史上第一個下棋程序就是阿蘭·圖靈寫的。圖靈是“人工智能”概念的發(fā)明者。60年前,他寫了一段程序,可以讓機(jī)器下棋,因為當(dāng)時計算機(jī)還沒有被發(fā)明出來,所以他親自充當(dāng)人肉CPU來執(zhí)行這段程序,每下一步都要花掉30分鐘。只有一局棋被記錄下來,圖靈的“紙機(jī)器”輸給了他的同事。
那么,谷歌這次如此大張旗鼓地召開人機(jī)大戰(zhàn),要展示的到底是一種什么樣的智慧?
在首爾最豪華的四季酒店里,一墻之隔的兩個會議室同時播放比賽的現(xiàn)場投影,一個以英文解說,一個以韓文解說——韓國來了200多家媒體,韓國一共5000萬人口,圍棋愛好者就有800萬人。
每個記者眼前都有一臺筆記本,手里臥著一個手機(jī),房間的正前方是一張大屏幕,棋盤上的黑棋與白棋正在激烈地交鋒……
被包圍在機(jī)器之中的人類啊。
空氣很熱,我喝了太多的咖啡,手有點發(fā)抖,心跳得厲害。
來韓國之前,我跟一位圍棋業(yè)余五段的朋友請教,他教我說:“你把棋子看成是兩軍對戰(zhàn)就是了?!闭麄€圍棋都是關(guān)于控制、關(guān)于勢力范圍。
他一直耐心地在微信上跟我直播解釋:
“現(xiàn)在白棋要求戰(zhàn)了,要分?jǐn)嗪谄濉!?/p>
“太亂了,現(xiàn)在到底是誰包圍誰?”
“形式會轉(zhuǎn)化的,包圍別人的,也會被別人包圍。隨著局部向更大的范圍演化,整個棋盤的別的看似無關(guān)的棋子都會參與到戰(zhàn)斗中來?!?/p>
“現(xiàn)在戰(zhàn)火已經(jīng)燒到了全盤?!?/p>
……
但是,我的注意力不斷地被一些不相干的細(xì)節(jié)牽走,比如整場比賽中,兩位解說員都稱AlphaGo為“他”,而不是“它”。李世石剛出場的時候向那個看不見摸不著的對手——不知疲倦亦無憂懼的AlphaGo君鞠了一個躬,表情有點怪;他抿了一口水,落下了第一顆黑棋;不對,他有5分鐘沒有落棋了;他以手捂嘴,有時候你覺得他幾乎要睡著了;他的座位空了,估計是上廁所去了;他看上去似乎松了一口氣;他開始表現(xiàn)出明顯的挫折感,把手舉到腦后……
記憶中最為意味深遠(yuǎn)的一幕是在第二局,AlphaGo在下第37手棋時,突然從右下角的戰(zhàn)役中離開,跑到右上側(cè)開闊的疆域作戰(zhàn)。當(dāng)時現(xiàn)場解說員邁克·雷蒙(西方唯一的圍棋九段職業(yè)棋手)吃了一驚,說:“這一招很怪?!绷硪粋€顯然水平比較差的解說員附和著笑了一下,不經(jīng)意地說:“也許是機(jī)器又犯傻了?!?
但李世石看到此棋一落,突然一言不發(fā),面無表情地出去了,回來以后喝了一口咖啡,陷入了漫長的15分鐘的沉思。
1997年,當(dāng)時IBM的“深藍(lán)”打敗國際象棋大師卡斯帕羅夫的時候,也有過這么一個類似的瞬間??ㄋ古亮_夫在漫長的20分鐘沉思之后,他相信自己正在面對一個具有直覺力的機(jī)器。“機(jī)器拒絕走向一個具有決定性短期優(yōu)勢的位置?!痹谒囊黄貞浳恼吕?,他這樣寫道,“它呈現(xiàn)了一種與人類非常相似的對危險的敏感?!睂λ麃碚f,機(jī)器似乎在“體驗”這盤棋,而不是在“計算”這盤棋。
與卡斯帕羅夫一樣,李世石在賽前宣稱自己將以5∶0全勝。他相信下圍棋這件事情里面有一些東西是機(jī)器不可能模擬的。作為人類代表,他發(fā)誓要守護(hù)圍棋之美。
但事實上,從第二局開始形勢已經(jīng)發(fā)生了驚人的逆轉(zhuǎn)。在此之前,是AlphaGo挑戰(zhàn)李世石,但在此之后,已經(jīng)是李世石在挑戰(zhàn)AlphaGo了。韓國的報紙上已經(jīng)開始稱AlphaGo為“阿爾法十段”。在韓國,圍棋九段與中國古代的一品一樣,稱為“入神”,十段差不多就是“神”的意思了。
10秒鐘后,AlphaGo下的那一顆看似與之前的棋子毫無關(guān)聯(lián)的黑棋,奇跡般地以燕尾之勢與它之前的18顆黑子相聯(lián)合。在圍棋職業(yè)棋手們事后的不斷回味中,AlphaGo的這步棋(黑37)被人嘆為“神之一手”,其中似乎包含了無窮無盡的計算、判斷與預(yù)謀,現(xiàn)場解說員甚至稱其有“吳清源”之風(fēng)。
“沒有任何一個人類棋手會那樣下棋,它打破了所有的規(guī)則?!痹谫惡蟮牟稍L中,作為現(xiàn)場裁判的樊麾告訴我,“但那是一步無比美麗的棋?!?/p>
除了李世石之外,樊麾是唯一一個曾經(jīng)與AlphaGo交過手的人類棋手。在去年10月份的一次秘密對決中,他以0∶5敗給AlphaGo。而在樊麾之前,AlphaGo以壓倒性的優(yōu)勢戰(zhàn)勝了兩個當(dāng)時最好的圍棋程序——法國的“瘋石”(Crazy Stone)和日本的“禪”(Zen)(1負(fù)494勝)。
與李世石對決的AlphaGo已經(jīng)升級到第18個版本。很顯然,它的棋藝與5個月前相比已經(jīng)不可同日而語。九段的人類高手遇到十段的非人類,李世石內(nèi)心的震動全都寫在臉上——眉頭緊鎖,身體不自覺地來自擺動,手指不停地敲擊桌面,一只手抖到幾乎難以夾起一枚白棋。
正是這種瘋狂的進(jìn)化速度令人心生懼意。從樊麾到李世石,對人類來說可能是一輩子都無法跨越的鴻溝,而AlphaGo只花了5個月時間。這讓人忍不住聯(lián)想起雷·庫茲韋爾那個關(guān)于“奇點”的瘋狂預(yù)言——在不久的將來,我們會制造出比我們更聰明的機(jī)器,它們再造出比它們自己更聰明的機(jī)器,如此這般,整個世界朝著我們無法預(yù)計的巨型超智能的方向狂奔……
就在兩天前,當(dāng)DeepMind的聯(lián)合創(chuàng)始人德米斯·哈薩比斯在賽前的記者招待會上提到AlphaGo擁有類似于人類棋手的“直覺”時,還沒有多少人真正相信。事實上,沒有多少人真的關(guān)心AlphaGo是個什么東西,哈薩比斯做演講的時候,前排韓國媒體所有的閃光燈都對著李世石和他的妻女不??駫?。完全沒有大戰(zhàn)前劍拔弩張的氣氛。絕大部分人都覺得,只是一場好玩的比賽罷了。機(jī)器在圍棋上戰(zhàn)勝像李世石這樣的人類高手,至少還有10年時間,因為以圍棋的復(fù)雜性,絕對不是一種可以靠計算蠻力解決的智力游戲。
當(dāng)年IBM的“深藍(lán)”打敗著名的卡斯帕羅夫,就是完全憑借計算的蠻力。每走一步棋,“深藍(lán)”都能思考對手的棋著、自己的回應(yīng)及對手的回應(yīng)……如此達(dá)到6個來回甚至更多。運用快速評估函數(shù),它能為每一種可能的棋盤局勢計算出分?jǐn)?shù),然后選擇能帶來最高分?jǐn)?shù)的棋步。它最多能在一秒鐘之內(nèi)評估3.3億個棋盤局勢,而卡斯帕羅夫在下每一步棋前最多只能評估幾十個。
與國際象棋相比,圍棋的復(fù)雜度又以指數(shù)級增長——對于一個19×19的圍棋棋盤而言,一共有361個位置,而每個位置可以單獨放置黑棋、白棋或者留空,理論上所有的可能組合是3361種,其下法的組合超過170位數(shù)。就像DeepMind的創(chuàng)始人哈薩比斯一次次向并不熟悉圍棋的西方媒體強(qiáng)調(diào)的:“棋盤上排列組合的可能性超過了宇宙中的原子數(shù)量?!笔裁礃拥臋C(jī)器能承擔(dān)如此龐大的數(shù)據(jù)運算量呢?
作為一種令人敬畏的美妙游戲,圍棋的魅力之一就在于,千變?nèi)f化的棋盤空間很多時候沒有標(biāo)準(zhǔn)答案,局面的好與壞、厚與薄、領(lǐng)先和落后,連職業(yè)高手也常常難以判斷。那么,AlphaGo又是如何在無窮無盡的可能性中進(jìn)行選擇,并下出這種完全不按棋理出招,卻又妙不可言的招數(shù)的呢?
據(jù)說人類棋手對弈的時候,勝負(fù)之間往往取決于一種類似“直覺”的東西:當(dāng)被問到為何這樣落子的時候,大師們通常的回答是“感覺如此”。也就是說,他們不是靠邏輯判斷,而是憑多年的經(jīng)驗和瞬間的感覺,只評估幾個到十幾個比較有希望的行棋方案。
這是人類演繹與推理的方式。我們并不是單純理性的動物,情緒、情感和直覺在我們做決策的過程中起到了重要的作用。自然選擇在構(gòu)建我們的大腦時,沒有勞神將所有無意識的情緒情感過程轉(zhuǎn)換成為新的明晰的有意識的控制系統(tǒng)。所以,我們的思考過程需要情緒情感,正是情緒情感讓我們理解那些不能直接理解的東西。也正因為如此,哪怕是學(xué)齡前孩童也都十分擅長于以富有新意的方式,創(chuàng)造出嶄新的、打破常規(guī)的概念和假設(shè),然后再加以檢驗。
而當(dāng)哈薩比斯談?wù)揂lphaGo的“直覺”時,他談?wù)摰钠鋵嵤且粋€叫“價值網(wǎng)絡(luò)”(value net)的算法。正是這個算法在幫助AlphaGo評估落子后的局面與最終勝負(fù)的概率關(guān)系,判斷局面是否處于優(yōu)勢,優(yōu)勢多大。但AlphaGo的厲害之處在于,這個算法并不是程序員事先編寫的,而是AlphaGo通過不斷的訓(xùn)練和研究自己摸索出來的。可以說,AlphaGo是圍棋幾千年歷史上唯一一個將“直覺”量化的棋手。
在賽前的記者招待會上,哈薩比斯曾經(jīng)詳細(xì)介紹了AlphaGo是怎么一步步學(xué)圍棋的。AlphaGo的設(shè)計最獨特之處就在于訓(xùn)練了兩套深度神經(jīng)網(wǎng)絡(luò)——分別用于深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)。
從根本上來說,深度學(xué)習(xí)模擬的是人的識別模式的能力。它依賴深度神經(jīng)網(wǎng)絡(luò),從原始數(shù)據(jù)中逐層過濾出有意義的模式(pattern)。比如你給神經(jīng)網(wǎng)絡(luò)輸入足夠多貓的照片,它就能辨認(rèn)一只貓;你給它輸入足夠多人類對話,它就能像人類一樣交談;你給它輸入10萬盤人類圍棋高手的棋譜,它就能差不多學(xué)會下圍棋。哈薩比斯說自己從來沒有跟AlphaGo下過圍棋,因為沒有意義,AlphaGo從一開始就已經(jīng)超過了他的業(yè)余一段水平。
當(dāng)然,這只是開始。在搭建了一個可以下圍棋的神經(jīng)網(wǎng)絡(luò)之后,工程師們開始讓它自己跟自己對局。AlphaGo每天跟自己(不同的分身)下上幾十萬盤,在不斷的試錯中自我完善、自我進(jìn)化,并累積3000萬手的數(shù)據(jù)庫。這個系統(tǒng)叫“強(qiáng)化學(xué)習(xí)”,靈感源自動物大腦中的神經(jīng)遞質(zhì)多巴胺獎勵系統(tǒng)。在這個算法里,機(jī)器得到的唯一的指示就是要贏,就像一只未經(jīng)訓(xùn)練的小狗,先被編程好去尋找獎勵,但并不指點它怎么得到獎勵。它的第一步是隨機(jī)的,對游戲的邏輯一無所知。但通過哪些能得分、哪些不能得分,它逐漸建立起得分的原理。
“強(qiáng)化學(xué)習(xí)”算法給了AlphaGo一個唯一的強(qiáng)烈動機(jī)——贏。所以,它總是在不斷地計算勝率,它下的每一步都是在試圖最大化勝率——它只在乎自己贏,甚至不在乎贏多少。
正是這兩個系統(tǒng)的組合,訓(xùn)練出了一個可以戰(zhàn)勝樊麾的AlphaGo。在樊麾之后,AlphaGo繼續(xù)不斷地自己跟自己對決。此時產(chǎn)生的數(shù)據(jù)不僅質(zhì)量很高,而且很多都是機(jī)器自己琢磨出來的下法,或者說,非人類的下法。正是大量高質(zhì)量的自學(xué)數(shù)據(jù),構(gòu)成了一個強(qiáng)大的價值評判網(wǎng)絡(luò),可以預(yù)測棋盤上不同的分布會帶來什么不同的結(jié)果。像不像《黑客帝國》里,尼奧進(jìn)到一間屋子,看到屏幕上有無數(shù)代的尼奧在練武?
就在第一場賽事之前,杰夫·迪恩(Jeff Dean),谷歌深度學(xué)習(xí)團(tuán)隊的老大專門召開了一次記者見面會,提到深度學(xué)習(xí)技術(shù)已經(jīng)在谷歌產(chǎn)品中得到大量的應(yīng)用,從照片搜索、語音搜索、搜索排行以及醫(yī)療機(jī)器人的研發(fā)。
事后回想,這實在是比AlphaGo更大的故事。
我問他從機(jī)器學(xué)習(xí)到機(jī)器理解,到底還有多遠(yuǎn)。
他說:“如果5年前,你告訴我,給一個機(jī)器可以輸入一張照片,得到這樣一句解說,我會覺得不可思議。”
他指的是谷歌的圖像搜索,給它一張小女孩抱泰迪熊的照片,它會給出這樣的描述:“小孩抱著毛絨玩具的近景照片?!?/p>
“雖然不完美,不像人類的理解那么復(fù)雜,但它能辨別圖像里的內(nèi)容,也了解上下文的意思,這至少是一定程度的理解。與人類的學(xué)習(xí)并非沒有相似之處——你觀察周圍的世界,發(fā)現(xiàn)小小的細(xì)微之處與以往的經(jīng)驗不一樣,并且能夠總結(jié)出來?!?h3>恐怖谷理論
4個多小時里,AlphaGo已經(jīng)從一個抽象的概念變得越來越具體,每個人都能強(qiáng)烈感覺到它的存在。尤其是隨著棋局進(jìn)入后半盤,李世石的常規(guī)時間告罄,進(jìn)入讀秒階段。媒體觀戰(zhàn)室里的絕大部分人已經(jīng)完全看不懂棋盤上的變化,連現(xiàn)場解說員也無法判斷局勢,但緊張的氣氛卻滲透到每一個人的骨子里——機(jī)器思考的時間越來越長,而李世石可以思考的時間越來越短(每次不能超過60秒),我們看著他的臉由不安轉(zhuǎn)成焦躁,從焦躁到沮喪,從沮喪到憤怒,從憤怒到絕望到幾欲崩潰,又以最大的自制力勉強(qiáng)恢復(fù)鎮(zhèn)靜,重新一子一子落下,分分鐘都是煎熬,每一分煎熬都讓人對機(jī)器的“無情”生出不平之意。
當(dāng)世最偉大的圍棋手,那么桀驁不馴的一個人,如今看上去卻如此無力和脆弱!
心智運動,比如象棋和圍棋,需要高度集中的精神。在人類對弈的棋局上,交戰(zhàn)雙方彼此的呼吸、表情、汗水、氣味……很小的事情會對勝負(fù)產(chǎn)生非常微妙的影響。圍棋固然是沖突,是廝殺,是人性中潛在的攻擊欲,但也是不完美的人類彼此試探、彼此惺惺相惜的心理藝術(shù)。甚至有時候,為了給后世留下名局,交戰(zhàn)雙方不再是對手,而是合作者。
與肉體凡胎不同,機(jī)器不知疲倦,沒有恐懼,既不驕傲自滿,也不會情緒失控,因此能不間斷地保持前后一致的優(yōu)勢。5個月前0∶5輸給AlphaGo的樊麾在采訪時把它形容為一堵“墻”——“就是它不動,你對它施展任何壓力它都會反彈給你,你對它施加的所有力量,你對它所有的辱罵也好,對它所有的微笑也好,最后全反饋到你自己身上,這是我對AlphaGo的感覺?!?/p>
終于,連現(xiàn)場解說員都看不下去了:“干脆把電源拔了吧。這個家伙是靠網(wǎng)絡(luò)連著的吧?誰有剪刀就行?!?/p>
是的,AlphaGo的確由網(wǎng)絡(luò)接入谷歌遍布全球的數(shù)據(jù)中心,但一把剪刀恐怕剪不斷它的網(wǎng)線——在比賽之前,谷歌已經(jīng)在四季酒店接入了自己的光纖網(wǎng)絡(luò),以確保不會斷網(wǎng)。
但是,我仍然對自己內(nèi)心受煎熬的程度感到吃驚。為什么一場我看不懂的圍棋賽會對我產(chǎn)生如此大的沖擊?為什么李世石的情緒會如此感染我?僅僅是不平嗎?
在那個瞬息萬變的棋盤上,作為過去10年公認(rèn)的全球最優(yōu)秀的圍棋手,李世石不僅在代表人類與機(jī)器進(jìn)行一場智力上的對決,而且也在代表我們第一次“探訪”一個全新的世界——一個機(jī)器智慧與人類智慧共存,甚至在某些層面超出人類控制的世界。人類曾經(jīng)在小說與電影中無數(shù)次想象過這個世界,其中有憧憬,也有噩夢,但從沒想過它會來得這么快。
在賽前的全球記者發(fā)布會上,李世石曾經(jīng)表示,自己之所以接受AlphaGo的挑戰(zhàn),是因為“好奇心”——唯一滿足這種好奇心的方法就是親自跟它對弈一場。如今,他在棋盤上感受到的所有好奇、焦慮、困惑、不安、沮喪甚至狂喜——如現(xiàn)場評論員邁克·雷蒙所說:“面對千古未見的棋局,在某一瞬間,也許他體會了某種狂喜。”將來我們恐怕也都會一一體會到。
人對于機(jī)器,抱著一種多么奇怪的感情啊。我記得《萬古》雜志上有一篇文章說,人類之所以要發(fā)明人工智能,其實是一種皮格馬利翁情結(jié)——我們想要創(chuàng)造一個永遠(yuǎn)不會辜負(fù)我們、永不背叛我們、永遠(yuǎn)忠實于我們的愛人。所以有人開玩笑說,如果AlphaGo真的聰明的話,今天就應(yīng)該輸一場。
但是,AlphaGo沒有輸。在第三場失利之后,李世石在記者招待會上說:“我想我應(yīng)該先道歉,我本該取得更好的結(jié)果,下出更好的棋,但很抱歉沒能滿足很多人的期待。輸了這些比賽,我覺得很無力。”
他此刻的謙卑令人動容,尤其鑒于他曾經(jīng)是那么狂傲不羈的一個人。而他的無力感則感染了現(xiàn)場每一個人,沉重的空氣如烏云壓頂。
在此之前,我們恐怕從來沒有把“人工智能”這件事情當(dāng)真過。是的,機(jī)器曾經(jīng)在很多智力游戲上打敗過人類,跳棋、國際象棋、拼字游戲、智力問答(jeopardy)……但一直以來,在一切創(chuàng)造性領(lǐng)域,機(jī)器的智慧與人類相比仍然不值一提。給Goolge Translate輸入1萬億而不是100億個雙語文本,也不可能達(dá)到人類譯者的水平。同樣,交談、閱讀、寫作、設(shè)計,或任何一個你寧愿人而不是機(jī)器來做的領(lǐng)域都是如此。但是,AlphaGo這一次是在人類最引以為自豪、代表著人類某種最高智慧形式的圍棋上打敗了人類!想象一下,一個會像巴赫一樣作曲的機(jī)器人,一個像莎士比亞一樣寫作的機(jī)器人?
計算機(jī)科學(xué)界有一個“恐怖谷理論”,是一個關(guān)于人類對機(jī)器人和非人類物體的感覺的假設(shè)——當(dāng)機(jī)器人在外表、動作上與人類非常相似,但又沒有達(dá)到完全相似時,我們會產(chǎn)生一種恐怖甚至惡心的感覺。這一理論在動畫、僵尸甚至假肢方面都得到了驗證。
對于這種假設(shè)有很多理論解釋,比如日本科學(xué)家伊藤穰一(曾任麻省理工學(xué)院媒體實驗室主任)認(rèn)為這與人類對自我特殊性的認(rèn)知有關(guān),即某種存在性的“自我”(ego)。而我們之所以會進(jìn)化出這樣一套“自我”,多少是一種自我欺騙的方式,是為了讓每個人都能在進(jìn)化動力的系數(shù)之內(nèi)工作和生活。而當(dāng)機(jī)器在這個系統(tǒng)中變得越來越重要時,我們對自我特殊性的認(rèn)知會進(jìn)一步顯示出荒謬性。
我不斷地在腦海里想象,對于李世石來說,AlphaGo到底是一個什么樣的存在呢?
首戰(zhàn)失利以后,曾經(jīng)有記者問他這個問題,當(dāng)時他很不高興地回避了。但現(xiàn)在,恐怕全世界很多人都在思考同一個問題。AlphaGo到底是什么呢?沒有人知道它的段位,沒有人知道它的風(fēng)格,沒有人知道它下一步會怎么下,當(dāng)它下了錯棋的時候,它知道自己錯了嗎?當(dāng)它知道自己下了一招無比完美的棋時,它知道自己有多完美嗎?當(dāng)它用兵懈怠的時候,是因為悲觀,還是認(rèn)為勝率高?它通過所謂“深度學(xué)習(xí)”與“強(qiáng)化學(xué)習(xí)”訓(xùn)練出來的“直覺”到底是一種什么樣的“直覺”?日本圍棋大師說:“棋道一百,我只知七?!盇lphaGo會最終成為圍棋的上帝,窮盡無限的可能性嗎?
對于這些問題,連創(chuàng)造它的谷歌DeepMind的工程師也無法回答。他們創(chuàng)造了它,但現(xiàn)在只能靜靜地站在一邊,像其他人一樣看著它的表現(xiàn)。在三天的觀賽期間,德米斯·哈薩比斯不止一次對AlphaGo的精妙棋法表示“驚奇”(surprised)。他的“驚奇”可以從兩個方面來解讀:
一方面,AlphaGo的學(xué)習(xí)與決策能力如此之高,意味著它可以為人類所用,幫助人類棋手在圍棋上達(dá)到更高的境界,開拓出更多的可能性,甚至勝任更多人類智力所不及的任務(wù),如哈薩比斯所說,“一切需要在龐大數(shù)據(jù)中尋找結(jié)構(gòu)與洞見的任務(wù)”,比如氣候變化、藥物研發(fā)、金融系統(tǒng)、疾病診斷……哈薩比斯曾經(jīng)在歐洲粒子物理研究所(CERN)做過演講,發(fā)現(xiàn)那里的科學(xué)家在抱怨大量的數(shù)據(jù)無法處理,如果AlphaGo的技術(shù)可以用來尋找“上帝粒子”,那將是一件多酷的事情?
但另一方面,哈薩比斯的“驚奇”也暗示了AlphaGo在某種程度上不在它的創(chuàng)造者的控制之內(nèi)。這樣的失控在棋盤之上固然無關(guān)緊要,但一旦應(yīng)用到現(xiàn)實世界,必然會引發(fā)道德與倫理上的問題。比如,當(dāng)AlphaGo的未來版本為我們開車、診斷疾病甚至防止犯罪時,我們應(yīng)該給它們多大的權(quán)限?我們應(yīng)該如何在如此復(fù)雜的人工智能里嵌入人類控制?出于失控的風(fēng)險考慮,是否有一些人工智能從一開始就不應(yīng)該被發(fā)明出來?
“AlphaGo知道AlphaGo在下圍棋嗎?”在賽前針對國際媒體的一次小型專訪中,是哈薩比斯自己扔出了這個問題,然后他又笑著回答說:“不,當(dāng)然不?!?/p>
是的,AlphaGo只是一個很會下圍棋的強(qiáng)大機(jī)器而已。它沒有意識,不會思考,也并不真正理解自己下的每一步棋到底意味著什么,更不理解棋局隱喻的哲理。但它的確是一個強(qiáng)大的學(xué)習(xí)機(jī)器。不過,它最強(qiáng)大的地方不在于能在單項的學(xué)習(xí)任務(wù)上擊敗人類高手,而是它能學(xué)會不同的任務(wù),而之前大多數(shù)擊敗了人類的機(jī)器都只擅長一種游戲。
“人工智能的夢想是讓機(jī)器變得聰明。”他說,“今天大部分的所謂人工智能都是預(yù)先給一個機(jī)器編程。就像‘深藍(lán),你給它下棋所需的所有的知識和規(guī)則,如何開局、如何走子、如何終局,但‘深藍(lán)本身的智力在哪里?相比之下,我們給AlphaGo所編程的,是一種學(xué)習(xí)如何學(xué)習(xí)的能力。這是更強(qiáng)大的學(xué)習(xí)能力,也是生物系統(tǒng)學(xué)習(xí)的方式?!?/p>
事實上,在用于破解圍棋之前,DeepMind的幕后團(tuán)隊已經(jīng)用類似的技術(shù)搭建了一個會玩很多種不同經(jīng)典雅達(dá)利視頻游戲(比如Pong、Breakout以及Space Invaders)的系統(tǒng)。在有些案例中,這些系統(tǒng)不僅比職業(yè)玩家還出色,它們還會以天馬行空的方式玩游戲,沒有人類玩家會或者可以這么玩。
當(dāng)然,比起雅達(dá)利視頻游戲的那套系統(tǒng),AlphaGo已經(jīng)有了意義不小的進(jìn)化——它擁有了“計劃”的能力。也就是他之前所說的“直覺”,全局觀的能力,而雅達(dá)利視頻游戲只需要應(yīng)對當(dāng)下就好了。
既然我們能在機(jī)器的神經(jīng)網(wǎng)絡(luò)中注入“直覺”,是否還有別的呢?視覺?
長期記憶?工作記憶?
在不久的將來,AlphaGo的技術(shù)還有可能會用來破解《星際爭霸》。這也是最近幾天媒體觀戰(zhàn)室里熱議的話題。
為什么是《星際爭霸》?
在Verge的一篇獨家專訪里,哈薩比斯是這么說的:“策略游戲需要一種不完全信息世界中的高水平策略能力。相比之下,圍棋的一切都顯示在棋盤上,對計算機(jī)來說反而簡單?!?
“癌癥、氣候變遷、能源、基因組學(xué)、宏觀經(jīng)濟(jì)學(xué)、金融系統(tǒng)、物理學(xué)等,太多我們想掌握的系統(tǒng)知識正變得極其復(fù)雜。如此巨大的信息量讓最聰明的人窮其一生也無法完全掌握。那么,我們?nèi)绾尾拍軓娜绱她嫶蟮臄?shù)據(jù)量中篩選出正確的見解呢?而一種通用人工智能思維的方式則是自動將非結(jié)構(gòu)化信息轉(zhuǎn)換為可使用知識的過程。我們所研究的東西可能是針對任何問題的元解決方法(meta-solution)?!?/p>
在這場轟轟烈烈的人機(jī)大戰(zhàn)中,德米斯·哈薩比斯原本是一個隱形的主角。但隨著AlphaGo連勝三局,他的照片開始陸續(xù)登上各大媒體的頭條,先是韓國,然后是英國、美國、中國……
“我從小就是一個內(nèi)向、愛思考的孩子?!痹谄渲幸黄貙懼?,他這樣說道,“我總是想把事情琢磨清楚。我總是想著我的腦子是怎么想出這一步的、思考到底是怎么回事?!?/p>
有人問他:為什么要放棄國際象棋?
他解釋說,他對自己的人生有更大的計劃和野心。他想要攻克人類的“智力”難題。他認(rèn)為,學(xué)習(xí)和通用(general)是人類智力最根本的特征。他想發(fā)明一種“通用人工智能”(General AI)——不是一點點教機(jī)器如何理解語言、識別人臉,而是利用機(jī)器學(xué)習(xí)與神經(jīng)學(xué)的原理,教機(jī)器像人類一樣學(xué)習(xí),像人類一樣做決策,能自然應(yīng)付一切不可預(yù)知的情況。
“在現(xiàn)實世界中,意外總會發(fā)生?!彼f,“這是為什么我們還沒有掃地機(jī)器人的原因。因為每次情況都不一樣。房子有什么干凈、有什么臟亂,機(jī)器人需要學(xué)習(xí)怎么在不同的情況下靈活應(yīng)變?!?/p>
“但是,對機(jī)器來說,所有的任務(wù)都可以以同樣的方式習(xí)得嗎?”我問他。
“為什么不呢?”他說,“你的大腦作為一個系統(tǒng),本身就是一個通用學(xué)習(xí)機(jī)器,你學(xué)開車、學(xué)很多種語言、使用計算機(jī)、駕駛宇宙飛船,雖然可能有很多個算法或程序,但使用的是同樣一套系統(tǒng)?!?/p>
哈薩比斯除了是一位天才的程序員之外,還是一位神經(jīng)學(xué)家。2005年,他在倫敦大學(xué)進(jìn)修神經(jīng)學(xué)博士學(xué)位,專攻海馬體,這是一塊支持記憶和空間導(dǎo)向的大腦部分,且目前所知甚少。“我挑的這些腦領(lǐng)域和腦功能,都是目前對其沒有優(yōu)秀運算法則應(yīng)對的區(qū)域?!?/p>
這將是一個長達(dá)數(shù)十年的,攻克通用人工智能的“阿波羅登月計劃”。AlphaGo只是他的“登月計劃”的一小步而已。
這個登月計劃讓我想起人工智能的開創(chuàng)者之一馬文·明斯基。1950年他在普林斯頓大學(xué)的博士論文中就提出要搭建一個“學(xué)習(xí)機(jī)器”,以模擬大腦的神經(jīng)網(wǎng)絡(luò)。他甚至說,只要給他5個優(yōu)秀的程序員,就能在3~5年的時間里實現(xiàn)這一目標(biāo)。
近半個世紀(jì)以后,他在一本名為《情感機(jī)器》(Emotional Machine)的書中再次提出構(gòu)建一個智能機(jī)器的計劃,能夠在不同的思維方式間切換。
在《情感機(jī)器》里,他這樣寫道:“人類是一種獨特的足智多謀的動物,因為他能夠用多種方式去處理任何事情。比如:當(dāng)你在思考某一事物時,你可能以語言表達(dá)的方式去思考,也可能以邏輯術(shù)語的方式去思考,或者是圖表、圖像,甚至是某種結(jié)構(gòu)的方式。如果一種方式行不通,你可以迅速轉(zhuǎn)換到其他方式,這就是為什么我們在處理各種情況時都能運用自如的原因。”
與馬文·明斯基一樣,哈薩比斯也相信,隨著時間的推移,這些能自己學(xué)習(xí),而且能學(xué)習(xí)多種任務(wù)的機(jī)器,解決問題的能力會越來越強(qiáng),有可能最終通向一個人類思維層面的人工智能。但是,這樣的機(jī)器對人類來說到底意味著什么?無論我們舉杯慶祝AlphaGo,還是李世石所代表的智慧,都應(yīng)該認(rèn)真考慮這個問題。