葉子
所謂人工智能,還是對(duì)人自身的研究,從有自我意識(shí)開(kāi)始,人類(lèi)一直在認(rèn)識(shí)自己,并通過(guò)認(rèn)識(shí)自己讓生活變得更美好。我們能認(rèn)識(shí)到心臟的運(yùn)作機(jī)制,造出心臟起搏器,但這和造出一個(gè)完整的心臟是兩回事,同樣,我們能讓電腦下棋贏了人類(lèi),這和能造出一個(gè)大腦是兩回事。
前不久,谷歌的“阿爾法圍棋”AlphaGo和韓國(guó)九段圍棋手李世石之間的人機(jī)世紀(jì)大戰(zhàn)引起了全世界人民的關(guān)注,AlphaGo最終以4:1取得勝利。雖然很多人都慶幸人類(lèi)并沒(méi)有輸?shù)煤翢o(wú)還手之力,但AlphaGo也有自己的收獲:由于在第四局比賽中輸給了李世石,AlphaGo也有了自己的WHR排名,它以9勝1負(fù)的戰(zhàn)績(jī),積3586分,排名世界第二,僅次于中國(guó)九段棋手柯潔。
此次人機(jī)大戰(zhàn),無(wú)論在圍棋界還是人工智能界,抑或是在普通民眾間,都引發(fā)了軒然大波。但在這場(chǎng)被全球圍觀的人機(jī)大戰(zhàn)中,似乎只有贏家,沒(méi)有輸家。
為什么是圍棋
其實(shí)早在1996年,美國(guó)IBM公司就開(kāi)發(fā)出了一款國(guó)際象棋超級(jí)電腦——“深藍(lán)”,它在正常時(shí)限的比賽中首次擊敗了排名世界第一的棋手。不過(guò),那次的比賽似乎并沒(méi)有引來(lái)多少關(guān)注,而這次人機(jī)圍棋大戰(zhàn)卻成了全球的聚焦點(diǎn),為什么?因?yàn)樗澳懜摇边x擇圍棋!
傳統(tǒng)的計(jì)算機(jī)程序在參與棋類(lèi)游戲時(shí),往往會(huì)使用“暴力計(jì)算”的做法,即為所有可能的步數(shù)建立搜索樹(shù),也就是根據(jù)數(shù)學(xué)和邏輯推理的方法,把每種可能的路徑都走一遍,從中選出最優(yōu)的走法。
而圍棋棋盤(pán)有361個(gè)點(diǎn),走法變化繁多,其他棋類(lèi)游戲望塵莫及。圍棋的“分支因子”無(wú)窮無(wú)盡,19×19格圍棋的精確合法棋局?jǐn)?shù)的所有可能性是一個(gè)171位數(shù)——比宇宙中的原子數(shù)還多。這樣的計(jì)算量,哪怕是巨型計(jì)算機(jī)也要算上許多年。此外,由于圍棋的每顆棋子都相同,沒(méi)有大小的區(qū)分,這就使圍棋的下法中增加了很多“隨機(jī)”的成分,無(wú)法用邏輯推理來(lái)預(yù)測(cè)(譬如在象棋中,不同的棋對(duì)應(yīng)有不同的下法規(guī)則,而圍棋則沒(méi)有這些限制)。因此,進(jìn)入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
AlphaGo是怎么學(xué)圍棋的
那么AlphaGo是怎么學(xué)習(xí)圍棋的?難道還靠“暴力計(jì)算”嗎?答案顯然是否定的。
簡(jiǎn)單來(lái)說(shuō),AlphaGo之所以可以玩轉(zhuǎn)圍棋,主要在于其擁有兩個(gè)大腦——負(fù)責(zé)選擇下一步走法的“策略網(wǎng)絡(luò)”和負(fù)責(zé)預(yù)測(cè)比賽實(shí)時(shí)勝利者的“價(jià)值網(wǎng)絡(luò)”。每走一步,它倆估算一次獲勝方,而不是像“深藍(lán)”那樣一直搜索到比賽結(jié)局,從而減少了運(yùn)算量。兩個(gè)大腦的配合工作,將圍棋巨大無(wú)比的搜索空間壓縮到可以控制的范圍之內(nèi)。
僅僅這樣還不夠,想要戰(zhàn)勝人類(lèi),AlphaGo需要做的第一步就是模仿人類(lèi)。設(shè)計(jì)人員首先讓它“學(xué)習(xí)”了圍棋專(zhuān)業(yè)棋手的3000萬(wàn)步實(shí)例,完成“價(jià)值網(wǎng)絡(luò)”的基礎(chǔ)訓(xùn)練課程。通過(guò)這種經(jīng)驗(yàn)學(xué)習(xí),AlphaGo對(duì)于人類(lèi)圍棋走法的預(yù)測(cè)準(zhǔn)確率就已達(dá)到57%,之后,等待AlphaGo的便是試著超越人類(lèi)。與以往的計(jì)算機(jī)不同,AlphaGo最特別的地方就在于它可以“深度學(xué)習(xí)”——像人類(lèi)大腦一樣自主學(xué)習(xí),不斷提升棋藝。這才是AlphaGo最令人可怕的地方。
簡(jiǎn)單來(lái)說(shuō),AlphaGo可以自己與自己對(duì)弈(目前它已自我對(duì)弈超過(guò)3000萬(wàn)局),在這個(gè)過(guò)程中,它不斷積累著勝負(fù)經(jīng)驗(yàn),還舉一反三,形成它對(duì)圍棋的一種“全局觀”,甚至形成自己對(duì)于圍棋的一種“思考”。
伴隨著自我學(xué)習(xí)的不斷深入和對(duì)弈次數(shù)的不斷增加,AlphaGo會(huì)越來(lái)越少地依賴(lài)過(guò)往的經(jīng)驗(yàn),轉(zhuǎn)而越來(lái)越多地依靠自己的評(píng)價(jià)網(wǎng)絡(luò),帶有創(chuàng)新性地選擇最有利于自己的走法。在圍棋世界里,AlphaGo是學(xué)霸中的學(xué)霸。
人類(lèi)還剩下什么?
本次人機(jī)大戰(zhàn)勝負(fù)已然分明,許多網(wǎng)友開(kāi)始幻想,究竟在什么棋類(lèi)項(xiàng)目上,人類(lèi)能夠有把握戰(zhàn)勝人工智能,或者至少不會(huì)輸?shù)煤軕K。最終的討論結(jié)果是飛行棋——主要依靠運(yùn)氣的游戲。
其實(shí)除了圍棋,人工智能已經(jīng)從各個(gè)方面開(kāi)始挑戰(zhàn)人類(lèi),比如與棋類(lèi)游戲不盡相同的麻將或是牌類(lèi)游戲。在這類(lèi)游戲中,玩家能夠掌握的信息是不完整的,無(wú)法控制諸如對(duì)手的底牌以及下一張來(lái)牌等因素,因此屬于不完全信息博弈,計(jì)算難度成倍上升。不過(guò),日本東京大學(xué)卻開(kāi)發(fā)了一款麻將機(jī)器人——“爆打”?!氨颉焙?AlphaGo一樣,有自我對(duì)弈以及閱讀學(xué)習(xí)人類(lèi)牌譜的能力。從2015年到2016年,“爆打”已經(jīng)打了約13萬(wàn)手牌,平均成績(jī)?cè)诹我陨稀?015年,加拿大研究人員則開(kāi)發(fā)了能夠玩轉(zhuǎn)德州撲克的智能機(jī)器人(僅限于雙人限注模式)。無(wú)論對(duì)手是誰(shuí),這款德州撲克機(jī)器人都能保證至少不輸。
來(lái)自英國(guó)的科學(xué)家比爾·西蒙斯早在十幾年前便開(kāi)發(fā)了“大獎(jiǎng)?wù)禄稹?,這是一款可以應(yīng)用于投資領(lǐng)域的人工智能。當(dāng)年他請(qǐng)來(lái)一位統(tǒng)計(jì)學(xué)大師和一位數(shù)學(xué)家編寫(xiě)模型,然后讓電腦程序完全自主操作?!按螵?jiǎng)?wù)禄稹蓖ㄟ^(guò)對(duì)歷史數(shù)據(jù)的統(tǒng)計(jì),找出金融產(chǎn)品價(jià)格、宏觀經(jīng)濟(jì)、市場(chǎng)指標(biāo)、技術(shù)指標(biāo)等各種指標(biāo)間變化的數(shù)學(xué)關(guān)系,從中發(fā)現(xiàn)市場(chǎng)目前存在的微小獲利機(jī)會(huì),隨后執(zhí)行快速且大規(guī)模的交易。迄今,“大獎(jiǎng)?wù)禄稹比匀槐3种?4%的年化收益率,如果你在20年前向他投資一萬(wàn)元,那么今天它會(huì)回報(bào)給你348萬(wàn),這樣的投資效率完爆投資巨鱷巴菲特和索羅斯。
而在藝術(shù)方面,智能機(jī)器人已經(jīng)創(chuàng)作出既合乎樂(lè)曲規(guī)則又符合人類(lèi)審美的音樂(lè),它們甚至可以創(chuàng)作出具有巴洛克時(shí)期或是古典主義早期風(fēng)格的樂(lè)曲,許多聽(tīng)眾甚至都無(wú)法分辨樂(lè)曲的真正創(chuàng)作者是機(jī)器人還是人類(lèi)。在韓國(guó)《金融新聞》編輯部,有一位特殊的人工智能記者。這位“記者”在得知當(dāng)天的股市數(shù)據(jù)后,能夠在短短0.3秒內(nèi)完成一篇股市行情的新聞報(bào)道,讀者在字里行間同樣無(wú)法發(fā)現(xiàn)人工智能的影子。
說(shuō)來(lái)辛酸,如今還未被人工智能征服的領(lǐng)域恐怕就還剩體育了,它們?cè)诙虝r(shí)間內(nèi)根本無(wú)法在該領(lǐng)域與人類(lèi)對(duì)抗。人體結(jié)構(gòu)的精妙復(fù)雜,肌肉和骨骼的完美配合,讓科學(xué)家都“望人興嘆”。人機(jī)大戰(zhàn)后,很多體育迷開(kāi)始研究,哪些運(yùn)動(dòng)是人工智能還遠(yuǎn)不能戰(zhàn)勝人類(lèi)的“凈土”,結(jié)果排名第一的是足球。從目前的技術(shù)來(lái)看,機(jī)器人的射門(mén)還不錯(cuò),角度精準(zhǔn)且力量十足,但它們想要玩出“圓月彎刀”、“蝎子擺尾”等動(dòng)作,恐怕還為時(shí)尚早。機(jī)器人目前最差的一項(xiàng)技術(shù)就是守門(mén),機(jī)器守門(mén)員的反應(yīng)絕對(duì)比《瘋狂動(dòng)物城》的樹(shù)懶還遲緩。
不過(guò),這并不意味著人工智能不會(huì)在某一天向人類(lèi)運(yùn)動(dòng)員發(fā)起挑戰(zhàn)。或許在不久的將來(lái),人類(lèi)將不得不派出最強(qiáng)11人,去和冷酷的鋼鐵洪流一決雌雄,可能人類(lèi)僅有的一絲驕傲感也會(huì)在那時(shí)蕩然無(wú)存。不過(guò)可以預(yù)見(jiàn),場(chǎng)面一定會(huì)比今日的人機(jī)大戰(zhàn)更為壯觀。