李名清
不論這是一場程序測試賽,還是一場營銷宣傳秀,由谷歌掀起的人工智能熱潮或許會在公眾視野中消退,但在產(chǎn)業(yè)界與科技界,這股大潮才剛剛開始
AlphaGo與李世石“人機(jī)大戰(zhàn)”現(xiàn)場
隨著李世石投子認(rèn)輸,谷歌的阿爾法圍棋(AlphaGo)被韓國棋院破例授予圍棋名譽(yù)職業(yè)九段。至2016年3月15日,這場“人機(jī)大賽”第五局落幕,AlphaGo以4∶1戰(zhàn)勝雄霸棋壇十多年的韓國職業(yè)九段李世石。
AlphaGo在前三局取得連勝,至第四局被人類棋手的“神奇一手”打亂陣腳,輸?shù)粢痪?。第五局種,AlphaGo執(zhí)白,雙方都耗盡各自兩小時常規(guī)時間,李世石用掉兩次讀秒。直到比賽收官階段,雙方一直處于膠著狀態(tài),評論員認(rèn)為他們旗鼓相當(dāng)、交替領(lǐng)先。AlphaGo開局形勢并不占優(yōu),但之后逐漸減小差距,最終險勝。
AlphaGo代表人工智能(Artificial Intelligence,AI)贏下人類頂尖棋手,讓普遍看好李世石5∶0橫掃機(jī)器的圍棋界,從失落中看到AI超越人類的學(xué)習(xí)與計算能力,開始考慮是否重新審視延續(xù)千年的圍棋理論;而希望AI五番棋全勝的科技界,則看到了能獨(dú)自對弈的機(jī)器,在人類的圍追堵截下也會程序“短路”,下出俗手。
通過人機(jī)對戰(zhàn),谷歌第一次讓全球的視野聚焦于人工智能。僅在比賽期間,國內(nèi)就有多家公司相繼推出或宣布研發(fā)人工智能圍棋程序,科技界也在為人工智能配備更好的軟、硬件尋求解決方案,讓裝載上千個CPU的AlphaGo們變得便宜易得,進(jìn)入尋常百姓家。可是,要實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的遷移,科學(xué)界還有很長的路要走。
3月12日,韓國棋手李世石與谷歌圍棋系統(tǒng)AlphaGo對戰(zhàn)第三盤。
中國圍棋職業(yè)九段羅洗河在北京的家中,通過網(wǎng)絡(luò)直播觀看“人機(jī)大戰(zhàn)”。不同于其他圍棋高手,羅洗河會留意AlphaGo程序上的失誤。他曾寫過多年的圍棋電腦程序,但仍對AlphaGo決策系統(tǒng)與學(xué)習(xí)能力感到震驚。
在羅洗河看來,AlphaGo與人類棋手對弈時,雙方下的是不同的兩盤棋。棋手下的圍棋是在構(gòu)思、構(gòu)圖,在進(jìn)攻或者防守;但對于電腦來說,它只有一種勢力范圍的概念,在具體的接觸戰(zhàn)中,是靠有限窮舉來決定步法。
AlphaGo的開發(fā)者,谷歌旗下的DeepMind公司CEO戴密斯在賽前發(fā)布會上稱,AlphaGo的決策系統(tǒng)依賴于自身的價值網(wǎng)絡(luò)與策略網(wǎng)絡(luò):前者評估棋盤位置,后者選擇下棋步法。
AlphaGo在練習(xí)時是自己和自己下棋,它的神經(jīng)網(wǎng)絡(luò)通過一種新的方法訓(xùn)練,會結(jié)合與人類比賽中學(xué)到的技藝。
在學(xué)習(xí)中,AlphaGo“吸收”了超過3000萬種來自圍棋專家的步法,又通過自我對弈,逐漸學(xué)會了如何識別圍棋的格局陣法,找出提高奪冠機(jī)會的移動步法。
戴密斯接受《財經(jīng)》記者采訪時表示,AlphaGo前后共有18個不同的系統(tǒng)版本,而與李世石對戰(zhàn)的系統(tǒng)是第18版本?!拔覀円恢弊屟b載了不同版本的AlphaGo進(jìn)行對戰(zhàn),場面很有意思,你絕對不會看到一個重復(fù)的動作?!?/p>
除了《自然》雜志1月底刊發(fā)的封面文章,與賽前發(fā)布會上的程序介紹,DeepMind沒有透露更多有關(guān)AlphaGo的技術(shù)細(xì)節(jié)。
Facebook人工智能組研究員田淵棟在“知乎”上發(fā)文分析,AlphaGo的兩個網(wǎng)絡(luò)是13層的人工神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)與谷歌圖片搜索引擎識別圖片的結(jié)構(gòu)相似?!斑@些層能夠做分類和邏輯推理,經(jīng)過過濾,13個連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對它們看到的局面進(jìn)行判斷。”
在中國科學(xué)院自動化研究所復(fù)雜系統(tǒng)管理與控制國家重點(diǎn)實(shí)驗室主任王飛躍看來,AlphaGo采用的分布式計算、深度學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、蒙特卡羅樹搜索技術(shù),都是已有的技術(shù),谷歌將其組合起來達(dá)到了驚人效果,“從論文中就能看到,其實(shí)并沒有新‘發(fā)明”。
王飛躍賽前預(yù)測不管誰輸誰贏,五番棋都將是5∶0,最終4∶1的結(jié)果讓他對AlphaGo“刮目相看”,“19年前超級電腦‘深藍(lán)戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫,更像是應(yīng)用數(shù)學(xué)贏了,而這次,實(shí)實(shí)在在是人工智能贏了?!?/p>
同樣是人工打造的“深藍(lán)”,由開發(fā)者從國際象棋大師那里獲得信息、提煉出特定的規(guī)則,本質(zhì)上是由人教會這個機(jī)器去下棋,這更像是一種死記硬背的填鴨式的學(xué)習(xí)方式。王飛躍分析,放在圍棋中,“深藍(lán)”的常規(guī)計算方法就不會奏效了。DeepMind已經(jīng)找到了發(fā)展人工智能的最佳路徑,谷歌研發(fā)團(tuán)隊?wèi)?yīng)該能很快從技術(shù)上找到進(jìn)一步優(yōu)化AlphaGo的解決方案。
“誕生”于1956年的人工智能,已走過一個甲子,經(jīng)歷過多次高潮和低谷。這次讓其火遍全球,接近應(yīng)用的是深度學(xué)習(xí)。
上世紀(jì)五六十年代,人工智能剛提出時比現(xiàn)在還火,可是人類始終找不到有效訓(xùn)練它的方法?!吧疃葘W(xué)習(xí)出來之后成了燎原之勢,人工智能借此取得各種各樣的進(jìn)展?!敝锌圃河嬎慵夹g(shù)研究所研究員史忠植說。
2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton,在《科學(xué)》雜志發(fā)表文章論證了兩個觀點(diǎn):多隱層的神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”來有效克服。
這就是訓(xùn)練機(jī)器的思路,被稱為深度學(xué)習(xí),即借鑒生物的多層神經(jīng)網(wǎng)絡(luò)處理模式所發(fā)展起來的智能處理技術(shù),是最接近人類大腦的智能學(xué)習(xí)方法。
2013年,《麻省理工技術(shù)評論》把“深度學(xué)習(xí)”列入年度十大技術(shù)突破之一。
深度學(xué)習(xí),顯然是更好的算法,能夠處理未標(biāo)記的數(shù)據(jù),其抽象特征的能力與大腦的學(xué)習(xí)過程相似。今天,機(jī)器學(xué)習(xí)算法的改進(jìn),至少可以分析更多種類的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)。
在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,過去采取的方法是程序員耗費(fèi)巨大的精力編寫程序,輸入機(jī)器然后執(zhí)行預(yù)定的功能,而現(xiàn)在有了深度學(xué)習(xí)技術(shù)以后,人類只需要編寫讓機(jī)器深度學(xué)習(xí)的程序,機(jī)器就能夠?qū)崿F(xiàn)在龐大的數(shù)據(jù)積累過程中通過學(xué)習(xí)來實(shí)現(xiàn)智能化操作,并且其水平可以在數(shù)據(jù)增加的過程中不斷得到提升。
深度學(xué)習(xí)在維基百科中被定義為“一組針對具有多層輸入結(jié)構(gòu)模型而設(shè)計的機(jī)器學(xué)習(xí)算法”。其中,具有多層輸入結(jié)構(gòu)的模型主要指深層神經(jīng)網(wǎng)絡(luò),即包含多個隱藏層的人工神經(jīng)網(wǎng)絡(luò)。
可見機(jī)器的深度學(xué)習(xí),主要依賴于模仿人類大腦的人工神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)用硅結(jié)合計算機(jī)模擬人類大腦的神經(jīng)網(wǎng)絡(luò),核心元器件是CPU(中央處理器)與GPU(圖形處理器)。與擁有6層的人腦神經(jīng)網(wǎng)絡(luò)相比,用于深度學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò)常常把層數(shù)做的非常多。AlphaGo的神經(jīng)網(wǎng)絡(luò)有13層,微軟研發(fā)的一款人工智能更是擁有152層之多的神經(jīng)網(wǎng)絡(luò)。
人腦中有上千億的神經(jīng)細(xì)胞,這些神經(jīng)細(xì)胞的形狀就像變壓器和它外部的電線,是由細(xì)胞體以及其外部纖維組成的。它們通過纖維互相連接,傳遞信息,而連接神經(jīng)細(xì)胞的突觸數(shù)量不計其數(shù)。
中科院計算技術(shù)研究所研究員陳云霽接受《財經(jīng)》記者采訪時分析,目前人工神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的數(shù)量最大也只能達(dá)到千萬級別,“與人腦相比,AlphaGo的‘腦只相當(dāng)于人腦的一小塊而已”。
對于計算機(jī),別說上千億的神經(jīng)細(xì)胞,即便是相當(dāng)于千萬級規(guī)模神經(jīng)細(xì)胞的網(wǎng)絡(luò),一般的機(jī)器也處理不過來。谷歌公司研發(fā)了谷歌大腦,為了訓(xùn)練它識別一個貓臉,用1.6萬個CPU核跑了7天才得以實(shí)現(xiàn)。
陳云霽表示,如果要用通用CPU去做出一個人腦規(guī)模的神經(jīng)網(wǎng)絡(luò)來,需要約1600萬個CPU核,“你會發(fā)現(xiàn)每分鐘都有一個壞掉,就算你雇傭工人壞一個換一個,也換不過來”。
谷歌公布的數(shù)據(jù)顯示,與李世石對戰(zhàn)的單機(jī)版AlphaGo,配備有176個GPU和1202個CPU,占用一個機(jī)房并配備大功率的空調(diào),還有一群專家進(jìn)行系統(tǒng)維護(hù)。
盡管如此,愛學(xué)習(xí)、不會疲勞、不看對手臉色的AlphaGo,也“馬失前蹄”了。第四盤比賽中,李世石在第78手的“神奇一挖”,讓機(jī)器“慌了神”,連續(xù)下出近20手讓職業(yè)棋手匪夷所思的棋。
中科院計算技術(shù)研究所副研究員陳天石分析,AlphaGo的失誤與處理器有正相關(guān)的關(guān)系?!坝嬎銠C(jī)的運(yùn)算能力有限,當(dāng)運(yùn)算碰到瓶頸時,機(jī)器就會采用比較弱的決策機(jī)制來下棋,導(dǎo)致一連串失誤發(fā)生。如果底層處理器更強(qiáng)大一些,硬件能力翻倍,就可以避免上述問題?!?/p>
他將人工神經(jīng)網(wǎng)絡(luò)中的硬件與軟件比作碗與水,“只有碗夠大才能裝足夠多的水”,如果人工智能的硬件夠強(qiáng)大,就能執(zhí)行更為復(fù)雜的運(yùn)算,有更強(qiáng)的深度學(xué)習(xí)能力。
未來的人工智能要實(shí)現(xiàn)突破,就需要配備更加高級的人工神經(jīng)網(wǎng)絡(luò),這就要求軟件不斷升級。同時CPU與GPU處理速度要加快上百倍、上千倍,體積要更小、易用性要更高。
2014年,陳云霽、陳天石課題組在國際上提出了首個深度學(xué)習(xí)處理器架構(gòu)——寒武紀(jì),并研發(fā)出寒武紀(jì)的指令集DianNaoYu。DianNaoYu指令直接面對大規(guī)模神經(jīng)細(xì)胞和突觸的處理,一條指令即可完成一組神經(jīng)細(xì)胞的處理,并對神經(jīng)細(xì)胞和突觸數(shù)據(jù)在芯片上的傳輸提供了一系列專門的支持。模擬實(shí)驗表明,采用DianNaoYu指令集的深度學(xué)習(xí)處理器相對于x86指令集的CPU有兩個數(shù)量級的性能提升。
“如果AlphaGo換成寒武紀(jì)架構(gòu)的芯片,芯片數(shù)量可以大幅減少,體積也可以變得更小,易用性更高。”陳云霽判斷,目前來看,人工神經(jīng)網(wǎng)絡(luò)在硬件方面的突破可能會來得快一點(diǎn)?,F(xiàn)在的GPU和CPU不是為了智能處理設(shè)計出來的,它們本質(zhì)上是做加減乘除,而人腦是大自然鬼斧神工幾億年進(jìn)化而來,要把人工神經(jīng)網(wǎng)絡(luò)真正做到“類腦”,還有很長的路要走。
AlphaGo一定程度上征服了圍棋,可谷歌有更大的野心,“我們研究的是面向所有問題的元解決方案,未來的通用人工智能技術(shù),其中一個用途就是將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為可用信息?!?/p>
目前的人工智能技術(shù),在計算機(jī)視覺、語音識別、自然語言處理、音頻識別與生物信息學(xué)等領(lǐng)域都有應(yīng)用。戴密斯在接受《財經(jīng)》記者采訪時稱,AlphaGo代表的人工智能技術(shù)未來將應(yīng)用于醫(yī)療服務(wù)、谷歌電視盒子與手機(jī)之中。谷歌公司已與英國國家醫(yī)療服務(wù)體系(NHS)展開合作,谷歌將為其提供可視化、統(tǒng)計基礎(chǔ)信息的軟件,隨后將更成熟的機(jī)器學(xué)習(xí)技術(shù)運(yùn)用其中。
然而,以上人工智能系統(tǒng)還只是面對一個特定問題進(jìn)行設(shè)計,所能學(xué)習(xí)的也只是單一的行為。AlphaGo向世人展現(xiàn)了強(qiáng)大的學(xué)習(xí)能力與計算能力,可其本身只是一個圍棋對弈程序。
實(shí)際上,人工智能從誕生第一天起就面臨一個問題:理解常識性的知識,并根據(jù)常識知識解決不確定的問題?!澳壳斑€看不到通用人工智能的任何希望,但是針對特定問題,AlphaGo已經(jīng)給出特定的路徑?!蓖躏w躍說。
國內(nèi)職業(yè)棋手通過AlphaGo與李世石的對弈發(fā)現(xiàn),人類棋手要想建立起良好的局面、最終贏得比賽,必須要有勢力范圍的概念,讓棋盤上勢力范圍的構(gòu)成更加復(fù)雜。棋局形勢的復(fù)雜化,能夠迫使AlphaGo需要搜索的空間急劇加大,其短時間內(nèi)的計算精度就會大打折扣。這是看似無所不能的人工智能暴露出的短板。
臺灣大學(xué)醫(yī)學(xué)工程學(xué)研究所人腦實(shí)驗室教授林發(fā)暄對《財經(jīng)》記者分析,“人類受到生物性質(zhì)的限制,無法進(jìn)行快速的訓(xùn)練,但人類的學(xué)習(xí)可以從不同的層面來補(bǔ)強(qiáng),例如,由抽象的規(guī)則與狀態(tài)的描述來增加學(xué)習(xí)的效率。這點(diǎn)人工智能目前尚無直接對應(yīng)的能力?!?/p>
人作為一個生物個體如何在充斥各種刺激、目標(biāo)與狀態(tài)下,能穩(wěn)定地從事“學(xué)習(xí)”來調(diào)整這些連結(jié)關(guān)系,如何產(chǎn)生“意識”,目前科學(xué)界尚不能回答,人工智能在可預(yù)計的未來也無法做到。
“AlphaGo說明了對于清楚定義單一價值的工作,計算機(jī)可以勝任。但我們生活的世界并不是凡事都有清楚且明確價值的世界。這點(diǎn)我想人工智能還要花很長的一段時間才有機(jī)會和我們在其他的生活層次產(chǎn)生對話。”林發(fā)暄表示。
科學(xué)家們也認(rèn)同,要實(shí)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)能力的遷移,最終使其應(yīng)用通用化,科學(xué)界還有很長的路要走。
本刊記者左璇,實(shí)習(xí)生閔敏、侯力嘉對本文亦有貢獻(xiàn)