在一場(chǎng)關(guān)乎人與機(jī)器、人工智能乃至人類未來(lái)命運(yùn)的“人機(jī)大戰(zhàn)”中,代表人類出戰(zhàn)的韓國(guó)著名棋手、最近十年世界冠軍頭銜最多者李世石不敵谷歌人工智能系統(tǒng)AlphaGo(阿爾法狗),當(dāng)勝敗塵埃落定時(shí),更多注意力被放到了“AlphaGo靠什么擊敗李世石”這個(gè)問(wèn)題上,相比用窮舉法暴力破解而戰(zhàn)勝卡斯帕羅夫的深藍(lán),擁有自主深度學(xué)習(xí)進(jìn)化的AlphaGo顯然更讓世人震驚。
全球關(guān)注的人機(jī)世紀(jì)之戰(zhàn)
人們總是對(duì)未知領(lǐng)域充滿了好奇與敬畏,從計(jì)算機(jī)誕生之日起,各種有關(guān)人工智能的猜想便從終止過(guò)。人們一方面希望人工智能能夠超越人類智慧,一方面又害怕被科技超越,矛盾的心態(tài)下,每一次以智慧為焦點(diǎn)的人機(jī)對(duì)戰(zhàn)都會(huì)成為市場(chǎng)關(guān)注的焦點(diǎn)。
2016年3月9日至15日,被稱為“世紀(jì)人機(jī)大戰(zhàn)”的韓國(guó)棋手李世石VS谷歌圍棋機(jī)器人AlphaGo的比賽最終以AlphaGo贏得四局落下帷幕,雖然本身關(guān)注和懂得圍棋的人并不多,但這場(chǎng)人機(jī)世紀(jì)大戰(zhàn)卻通過(guò)各種渠道讓全球億萬(wàn)計(jì)的人們知道了—人類智慧被人工智能打敗了!回顧以往的人機(jī)大戰(zhàn),人類并非永恒的勝者,美國(guó)IBM公司的“深藍(lán)”超級(jí)計(jì)算機(jī)以2勝1負(fù)3平戰(zhàn)勝了當(dāng)時(shí)世界排名第一的國(guó)際象棋大師卡斯帕羅夫,但絕大多數(shù)人卻不以為意,除十分接近的勝敗結(jié)果外,深藍(lán)主要是依靠運(yùn)算能力窮舉所有路數(shù)來(lái)選擇最佳策略,它當(dāng)時(shí)可以實(shí)現(xiàn)每秒兩億步的運(yùn)算。很多人覺(jué)得卡斯帕羅夫的落敗與體力有關(guān),深藍(lán)的策略多少有些“無(wú)賴”。
但AlphaGo卻在“深藍(lán)”獲勝十九年后的今天,擁有自主深度學(xué)習(xí)進(jìn)化的AlphaGo以難以讓人爭(zhēng)議的過(guò)程和結(jié)果,在圍棋這一人類智慧競(jìng)技的高地上戰(zhàn)勝了韓國(guó)棋手李世石。
能夠深層學(xué)習(xí)的AlphaGo
“深藍(lán)”之所以能夠有超人的絕佳表現(xiàn),幾乎純粹是靠運(yùn)算能力。依靠存儲(chǔ)的數(shù)百萬(wàn)個(gè)國(guó)際象棋案例,能在眾多可能性中進(jìn)行篩選,從而確定下一步棋的最佳位置。這給人感覺(jué)在用體力玩智慧游戲了,但AlphaGo卻給人們展示了一個(gè)幾乎完全靠自學(xué),并通過(guò)觀察成功與失敗案例來(lái)掌握得勝技巧的系統(tǒng)。谷歌利用大數(shù)據(jù)與深度學(xué)習(xí)的技術(shù)優(yōu)勢(shì)為AlphaGo構(gòu)建了一套策略網(wǎng)絡(luò),機(jī)器通過(guò)深度學(xué)習(xí)能力,模擬人腦的機(jī)制來(lái)學(xué)習(xí)、判斷、決策。即AlphaGo可以從大量的棋譜和對(duì)局中學(xué)習(xí)策略,形成一套落子決策判斷與數(shù)據(jù)解讀的能力體系,讓其在沖殺狀態(tài)下懂得一套試探與引導(dǎo)的能力,最終成功擊敗人類棋手李世石。
人類是惟一能夠?qū)⒅庇X(jué)(隱式的)和符號(hào)(顯式的)知識(shí)結(jié)合起來(lái)的物種,人類具有這樣的雙重能力,將前者轉(zhuǎn)換成后者,然后通過(guò)后者的反饋反過(guò)來(lái)改善前者,這在以往是人類擁有的特殊性和唯一性。但今天,AlphaGo無(wú)縫使用了分層的網(wǎng)絡(luò)(即深度卷積神經(jīng)網(wǎng)絡(luò))進(jìn)行直覺(jué)學(xué)習(xí),強(qiáng)化,評(píng)估和策略,配以強(qiáng)悍的計(jì)算能力,它完全不需要解決任何語(yǔ)義復(fù)雜性并且可從容地從現(xiàn)實(shí)考慮中分離,人的思維模式加上科技的理性結(jié)合,這讓AlphaGo能夠在對(duì)局結(jié)束前30分鐘就向Google技術(shù)分析團(tuán)隊(duì)報(bào)告自己確信必勝。
下一步是理解
沒(méi)有人性弱點(diǎn)的AlphaGo讓我們看到了人工智能神經(jīng)網(wǎng)絡(luò)的前景在于它在不斷縮小機(jī)器和人類之間的差距,而且隨著技術(shù)開(kāi)發(fā)者的跟進(jìn),人工智能將會(huì)對(duì)理解人類語(yǔ)言,揣摩人類情感。
理解人類,這對(duì)于巨頭們的想象空間在于,基于用戶需求的商業(yè)決策會(huì)因此更加精準(zhǔn)。人機(jī)對(duì)戰(zhàn)讓我們看到,推理、判斷、分析問(wèn)題等功能處理之外,識(shí)別人的情感與情緒與對(duì)人的語(yǔ)言理解力將是未來(lái)發(fā)展的高地。
圍棋大戰(zhàn),只能體現(xiàn)出,在封閉規(guī)則的計(jì)算領(lǐng)域,機(jī)器比人類聰明得多,因?yàn)槲覀兊男乃隳芰Ρ旧砼c計(jì)算器相差甚遠(yuǎn);但是思維、對(duì)話、情感等都是不確定的。而前面說(shuō)到,機(jī)器沒(méi)有情緒,只有它懂得了人類的語(yǔ)言,逐漸了解人類表達(dá)的意思甚至是情緒,才意味著人工智能達(dá)到了更高的領(lǐng)地。AlphaGo及其背后的AI領(lǐng)域真的能實(shí)現(xiàn),而這一切都是建立在搜索的原理與算法的未來(lái)改進(jìn)上。
小知識(shí):它不是一條狗
阿爾法圍棋(AlphaGo)是一款圍棋人工智能程序,由位于英國(guó)倫敦的谷歌(Google)旗下DeepMind公司的戴維 西爾弗、艾佳 黃和戴密斯 哈薩比斯與他們的團(tuán)隊(duì)開(kāi)發(fā),這個(gè)程序利用“價(jià)值網(wǎng)絡(luò)”去計(jì)算局面,用“策略網(wǎng)絡(luò)”去選擇下子。2015年10月阿爾法圍棋以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾;2016年3月對(duì)戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石,并以4:1的總比分獲勝。
四位一體的AlphaGo系統(tǒng)
歸根到底,AlphaGo系統(tǒng)目前還是一件科技產(chǎn)物,其本身由走棋網(wǎng)絡(luò)、快速走子、估值網(wǎng)絡(luò)和蒙特卡羅樹(shù)搜索四個(gè)部分組成,正是這四個(gè)部分的協(xié)同與融合,讓AlphaGo擁有能夠?qū)W習(xí)的智慧,最終戰(zhàn)勝李世石。走棋網(wǎng)絡(luò)(Policy Network),給定當(dāng)前局面,預(yù)測(cè)/采樣下一步的走棋。快速走子(Fast rollout),目標(biāo)和1一樣,但在適當(dāng)犧牲走棋質(zhì)量的條件下,速度要比1快1000倍。 估值網(wǎng)絡(luò)(Value Network),給定當(dāng)前局面,估計(jì)是白勝還是黑勝。蒙特卡羅樹(shù)搜索(Monte Carlo Tree Search,MCTS),把以上這三個(gè)部分連起來(lái),形成一個(gè)完整的系統(tǒng)。
讓電腦擁有棋感的走棋網(wǎng)絡(luò)
走棋網(wǎng)絡(luò)把當(dāng)前局面作為輸入,預(yù)測(cè)/采樣下一步的走棋。它的預(yù)測(cè)不只給出最強(qiáng)的一手,而是對(duì)棋盤(pán)上所有可能的下一著給一個(gè)分?jǐn)?shù)。棋盤(pán)上有361個(gè)點(diǎn),它就給出361個(gè)數(shù),好招的分?jǐn)?shù)比壞招要高。以往的科技只是單純基于規(guī)則或者基于局部形狀,利用簡(jiǎn)單的線性分類器訓(xùn)練完成走子,整個(gè)過(guò)程是不可能形成類似人類圍棋選手的棋感。
AlphaGo去利用更高效的、寬度為192的網(wǎng)絡(luò)(正常棋盤(pán)上有361個(gè)點(diǎn),電腦給出361個(gè)數(shù),好招的分?jǐn)?shù)比壞招要高。),下出有最高置信度的落子。這樣的做法一點(diǎn)也沒(méi)有做搜索,但是大局觀非常強(qiáng),不會(huì)陷入局部戰(zhàn)斗中,說(shuō)它建模了“棋感”一點(diǎn)也沒(méi)有錯(cuò)。但是走棋網(wǎng)絡(luò)會(huì)不顧大小無(wú)謂爭(zhēng)劫,會(huì)無(wú)謂脫先,不顧局部死活,對(duì)殺出錯(cuò)等等,更多像是高手憑借“自覺(jué)”在下棋,因而需要加入搜索功能,讓電腦做出有價(jià)值的判斷。
追求效率的快速走子
作為人類智慧競(jìng)技的高地,圍棋用用天文數(shù)字般的局面數(shù),走棋網(wǎng)絡(luò)能讓AlphaGo達(dá)到3毫秒的下子速度,但想要進(jìn)一步提高AlphaGo的“反應(yīng)”及“思考”能力,就需要快速走子系統(tǒng)的幫助了。
利用傳統(tǒng)的局部特征匹配(local pattern matching)加線性回歸(logisticregression)的方法,AlphaGo在吸納了眾多高手對(duì)局之后就具備了用梯度下降法自動(dòng)調(diào)參的能力,從而實(shí)現(xiàn)了2微秒的走子速度和24.2%的走子準(zhǔn)確率。24.2%的意思是說(shuō)它的最好預(yù)測(cè)和圍棋高手的下子有0.242的概率是重合的,相比之下,走棋網(wǎng)絡(luò)在GPU上用2毫秒能達(dá)到57%的準(zhǔn)確率。在AlphaGo有了快速走子之后,不需要走棋網(wǎng)絡(luò)和估值網(wǎng)絡(luò),不借助任何深度學(xué)習(xí)和GPU的幫助,不使用增強(qiáng)學(xué)習(xí),在單機(jī)上就已經(jīng)達(dá)到非常高的水平了。
錦上添花的估值網(wǎng)絡(luò)
估值網(wǎng)絡(luò)對(duì)盤(pán)面的評(píng)估應(yīng)用上同快速走子有些重疊,都是通過(guò)模擬落子得分評(píng)估當(dāng)前及后面布局的優(yōu)劣,但通過(guò)估值網(wǎng)絡(luò)和快速走子的互補(bǔ),在復(fù)雜的死活或?qū)r(shí),也就是進(jìn)行到中盤(pán)階段的時(shí)候,估值網(wǎng)絡(luò)的重要性就會(huì)得到提升。前面提到AlphaGo能夠提前30分鐘知道自己必勝,估值網(wǎng)絡(luò)就起到了很大的作用。
盡量選擇更好的蒙特卡羅樹(shù)搜索
“蒙特卡洛樹(shù)搜索”是一種啟發(fā)式的搜索策略,能夠基于對(duì)搜索空間的隨機(jī)抽樣來(lái)擴(kuò)大搜索樹(shù),從而分析圍棋這類游戲中每一步棋應(yīng)該怎么走才能夠創(chuàng)造最好機(jī)會(huì)。
一位名叫蘇椰的知乎用戶舉了這樣一個(gè)例子,以通俗的語(yǔ)言進(jìn)行了解釋:假如筐里有100個(gè)蘋(píng)果,讓我每次閉眼拿1個(gè),挑出最大的。于是我隨機(jī)拿1個(gè),再隨機(jī)拿1個(gè)跟它比,留下大的,再隨機(jī)拿1個(gè)……我每拿一次,留下的蘋(píng)果都至少不比上次的小。拿的次數(shù)越多,挑出的蘋(píng)果就越大,但我除非拿100次,否則無(wú)法肯定挑出了最大的。這個(gè)挑蘋(píng)果的算法,就屬于蒙特卡羅算法:盡量找好的,但不保證是最好的。
擁有兩個(gè)大腦的AlphaGo
AlphaGo是通過(guò)兩個(gè)不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來(lái)改進(jìn)下棋。這些大腦是多層神經(jīng)網(wǎng)絡(luò)跟那些Google圖片搜索引擎識(shí)別圖片在結(jié)構(gòu)上是相似的。它們從多層啟發(fā)式二維過(guò)濾器開(kāi)始,去處理圍棋棋盤(pán)的定位,就像圖片分類器網(wǎng)絡(luò)處理圖片一樣。經(jīng)過(guò)過(guò)濾,13個(gè)完全連接的神經(jīng)網(wǎng)絡(luò)層產(chǎn)生對(duì)它們看到的局面判斷。這些層能夠做分類和邏輯推理。
AlphaGo的第一個(gè)神經(jīng)網(wǎng)絡(luò)大腦科學(xué)全稱應(yīng)該是“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)”,觀察棋盤(pán)布局企圖找到最佳的下一步。團(tuán)隊(duì)通過(guò)在KGS(網(wǎng)絡(luò)圍棋對(duì)戰(zhàn)平臺(tái))上最強(qiáng)人類對(duì)手,百萬(wàn)級(jí)的對(duì)弈落子去訓(xùn)練大腦。這就是AlphaGo最像人的地方,目標(biāo)是去學(xué)習(xí)那些頂尖高手的妙手。這個(gè)不是為了去下贏,而是去找一個(gè)跟人類高手同樣的下一步落子。AlphaGo這個(gè)大腦的出色之處在于不單要模仿學(xué)習(xí),更要追求速度,不斷模擬計(jì)算圍棋局面變化,最終選擇正確率最高的落子。
價(jià)值評(píng)估則可看做AlphaGo的第二個(gè)大腦,通過(guò)整體局面判斷來(lái)輔助落子選擇器。AlphaGo能夠決定是否通過(guò)特殊變種去深入閱局面和落子,如果局面評(píng)估器說(shuō)這個(gè)特殊變種不行,那么AI就跳過(guò)閱讀在這一條線上的任何更多落子。
深度神經(jīng)網(wǎng)絡(luò)的運(yùn)用
人類在下圍棋時(shí),通常會(huì)經(jīng)歷常識(shí)-棋感-計(jì)算-判斷四個(gè)過(guò)程,AlphaGo的常識(shí)源于其“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)(Policy Network)”帶來(lái)的深層學(xué)習(xí)能力,而棋感和計(jì)算則需要深度神經(jīng)網(wǎng)絡(luò)同蒙特卡洛算法的融合,兩者的融合讓AlphaGo整個(gè)運(yùn)作方式更接近人類。通過(guò)對(duì)比使用蠻力計(jì)算的“深藍(lán)”眼中的國(guó)際象棋落子思路和AlphaGo眼中的圍棋落子思路會(huì)發(fā)現(xiàn),圍棋的復(fù)雜度需要更“聰明”的AI才能完成了。
兩個(gè)大腦加上深度神經(jīng)網(wǎng)絡(luò),AlphaGo以Value networks來(lái)評(píng)估大量的選點(diǎn),而以Policy networks來(lái)選擇落子,并且開(kāi)發(fā)了一種新式算法來(lái)結(jié)合蒙特卡洛算法和以上兩個(gè)神經(jīng)網(wǎng)絡(luò)。在這種結(jié)合下,研究者們結(jié)合參考人類職業(yè)對(duì)局的監(jiān)督式學(xué)習(xí),和AI大量積累自對(duì)弈實(shí)現(xiàn)的深度學(xué)習(xí),來(lái)訓(xùn)練和提高AI的圍棋實(shí)力。
AI的進(jìn)步與期望
圍棋代表了很多人工智能所面臨的困難:具有挑戰(zhàn)性的決策制定任務(wù)、難以破解的查找空間問(wèn)題和優(yōu)化解決方案如此復(fù)雜以至于用一個(gè)策略或價(jià)值函數(shù)幾乎無(wú)法直接得出。通過(guò)將策略和價(jià)值網(wǎng)絡(luò)與樹(shù)搜索結(jié)合起來(lái),AlphaGo終于達(dá)到了專業(yè)圍棋水準(zhǔn),讓我們看到了希望:在其他看起來(lái)無(wú)法完成的領(lǐng)域中,AI也可以達(dá)到人類級(jí)別的表現(xiàn)。
當(dāng)然,這一切都是建立在人類千年來(lái)在圍棋領(lǐng)域積累上的,沒(méi)有積累就不會(huì)圍棋AI的今天。AlphaGo讓世人看到了AI領(lǐng)域的巨大進(jìn)步,但想要真正理解人類和語(yǔ)言,其還有一段很長(zhǎng)的路要走。相比圍棋,人類在生活上的行為習(xí)慣,需要AlphaGo們擁有更出色的學(xué)習(xí)能力以及判斷能力,無(wú)論是存儲(chǔ)容量還是搜索算法,都需要幾何倍數(shù)的遞增,從這個(gè)角度看,現(xiàn)在擔(dān)心AlphaGo們擁有自己的意識(shí)或情感,都太早了一些。
滲透進(jìn)入人們生后的AI
AlphaGo不是DeepMind惟一項(xiàng)目,也不是最大的項(xiàng)目。DeepMind的最終目標(biāo)是智能助手、醫(yī)療和機(jī)器人。另外,盡管AlphaGo只是針對(duì)圍棋開(kāi)發(fā)的系統(tǒng),但其原理可以被應(yīng)用到現(xiàn)實(shí)問(wèn)題中。以醫(yī)療為例,IBM已經(jīng)依靠認(rèn)知學(xué)習(xí)平臺(tái)“Watson”進(jìn)入了醫(yī)療領(lǐng)域,Watson在泰國(guó)和印度的兩家醫(yī)院協(xié)助醫(yī)生診斷乳腺癌、肺癌和結(jié)腸直腸癌。盡管Watson自身不會(huì)診斷疾病,但它能夠找到醫(yī)生應(yīng)該進(jìn)一步認(rèn)真檢查的地方,并提出治療方案。
而無(wú)人駕駛汽車其實(shí)也可以看做具備了身軀的AI,家喻戶曉的特斯拉汽車便使用了基于深度學(xué)習(xí)的現(xiàn)有計(jì)算機(jī)視覺(jué)技術(shù)。當(dāng)然,工業(yè)或者服務(wù)用機(jī)器人都是AI滲透進(jìn)入人們生活的表現(xiàn)。AI公司們正在努力晚上其產(chǎn)品,爭(zhēng)取能夠無(wú)縫進(jìn)入人們生活的各個(gè)領(lǐng)域,當(dāng)AI設(shè)備在可靠性、適應(yīng)性和靈活性等方面都有長(zhǎng)足進(jìn)步時(shí),人們未來(lái)的生活也將變得更美好。
谷歌改變?nèi)祟惖囊靶?/p>
AlphaGo很強(qiáng)大很厲害,但對(duì)于近年來(lái)谷歌的謀劃而言,AlphaGo無(wú)非是其在人工智能領(lǐng)域的小玩具而已。改組Alphabet的谷歌,瘋狂地在全球收購(gòu)各個(gè)尖端前沿領(lǐng)域的頂尖公司,把觸角伸到了生命科學(xué)、人工智能、無(wú)人駕駛、虛擬現(xiàn)實(shí)等等許多的領(lǐng)域。AlphaGo背后的英國(guó)Deepmind公司,只是他們收購(gòu)的許許多多家公司中的一個(gè)而已。
除了傳統(tǒng)Youtube、Gmail和地圖等等互聯(lián)網(wǎng)業(yè)務(wù),生命科學(xué)、人工智能、無(wú)人駕駛、虛擬現(xiàn)實(shí)等新領(lǐng)域其實(shí)谷歌并沒(méi)有賺到什么錢,更多是對(duì)未來(lái)的投資和布局,但今天,AlphaGo的表現(xiàn)已經(jīng)讓我們看到了谷歌的投入回報(bào),再加上眾多具有顛覆性或者劃時(shí)代意義的谷歌黑科技,讓我們清楚看到了谷歌改變?nèi)祟愇磥?lái)的野心。相比之下,國(guó)內(nèi)BAT三大巨頭在技術(shù)積淀和領(lǐng)域格局方面,就顯得有些小氣了。
人工智能的競(jìng)賽
在2010年到2015年期間,企業(yè)對(duì)人工智能創(chuàng)業(yè)公司的投資增長(zhǎng)了15倍。BBC預(yù)測(cè),人工智能市場(chǎng)將繼續(xù)保持高速增長(zhǎng),2020年全球市場(chǎng)規(guī)模將達(dá)到183億美元,約合人民幣1190億元。龐大的數(shù)據(jù)和潛力,足以讓企業(yè)們瘋狂。
在硅谷,截至2015年初就有超過(guò)1700家創(chuàng)業(yè)公司加入人工智能浪潮—這一數(shù)字過(guò)去1年還在不斷增加之中。谷歌、Facebook、亞馬遜等科技巨頭們的巨大投入都推動(dòng)AI整個(gè)領(lǐng)域取得巨大進(jìn)步。圖像識(shí)別、語(yǔ)音識(shí)別已經(jīng)成為蘋(píng)果、微軟、Google、IBM等科技大公司激烈競(jìng)爭(zhēng)的焦點(diǎn),而在醫(yī)療識(shí)別、模擬大腦圖像等細(xì)分領(lǐng)域中,也涌現(xiàn)出不少初創(chuàng)的科技企業(yè)。可以說(shuō),一場(chǎng)席卷全球的AI競(jìng)賽正在展開(kāi),誰(shuí)能讓科技變得更聰明,誰(shuí)就有望在未來(lái)的競(jìng)爭(zhēng)中占據(jù)有利位置。
寫(xiě)在最后:絕非取代
如同第一個(gè)工業(yè)革命中蒸汽機(jī)的出現(xiàn)取代藍(lán)領(lǐng)工作一樣,人類多個(gè)工種被人工智能最終取代也無(wú)法讓人避免。但人工智能能夠更精準(zhǔn)、高效地幫助人們完成工作是肯定的,而人類那具有惟一性的大腦,未來(lái)的定位應(yīng)該在創(chuàng)造!人類大腦和人工智能的合作,一定能共同推動(dòng)整個(gè)人類社會(huì)的進(jìn)步。