国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“阿爾法狗”:下一盤比圍棋更大的棋

2017-02-09 16:14:21李斑子
看世界 2017年3期
關(guān)鍵詞:窮舉棋譜對局

李斑子

自從2016年12月29日在圍棋網(wǎng)絡(luò)對戰(zhàn)平臺現(xiàn)身之后,截至2017年1月4日晚,一個名為“Master”的神秘賬號在與人類圍棋高手的車輪戰(zhàn)中取得了60勝0負1和的戰(zhàn)績,手下敗將不乏柯潔、樸廷桓、古力等世界頂尖名將,甚至在對局中看不到這些頂尖名將有一點點能和Master扳手腕的可能(Master戰(zhàn)績中唯一的和棋還是因為對手陳耀燁在對戰(zhàn)時掉線)。在和古力最后一戰(zhàn)前,Master承認自己就是升級版的“阿爾法狗”(AlphaGo,谷歌旗下DeepMind公司的一款圍棋人工智能)。

人算不如“狗”算

1月3日晚,在接連贏下樸廷桓和元晟溱之后,Master在圍棋網(wǎng)絡(luò)對戰(zhàn)平臺的連勝紀錄達到49場。當晚第50場的對手是“潛伏”,該賬號的持有者被一致認為是世界頭號選手柯潔。根據(jù)最新的世界圍棋排名,柯潔是如今世界棋壇積分排名第一的選手,也是榜單上唯一一名排在“阿爾法狗”之前的棋手。

這場對局在Master的快速攻擊面前,“潛伏”漸漸有些捉襟見肘,最終投子認負。“抬走,下一個?!边@是觀戰(zhàn)的網(wǎng)友們?yōu)橼A棋后的Master設(shè)計的對白。

而在去年“阿爾法狗”對陣李世石的“圍棋人機大戰(zhàn)1.0”之際,柯潔曾表示:“就算它戰(zhàn)勝了李世石,但它贏不了我?!贝撕笏€在微博上放出豪言,“管你是阿法狗還是阿法貓!我柯潔在棋上什么大風大浪沒見過?讓風暴再來得猛烈點吧……”

與之形成鮮明對比的是,2016年的最后一天,正當Master大殺四方之時,柯潔在微博中寫道:“新的風暴即將來襲。我從3月份到現(xiàn)在研究了大半年的棋軟,無數(shù)次的理論、實踐,就是想知道計算機到底強在哪里?昨夜輾轉(zhuǎn)反側(cè),不想竟一夜難眠,人類數(shù)千年的實戰(zhàn)演練進化,計算機卻告訴我們?nèi)祟惾清e的。我覺得,甚至沒有一個人沾到圍棋真理的邊……”

那么問題來了,這只“阿爾法狗”是怎么下棋的?為什么這么強?到底強在哪里?

還記得1997年IBM公司的“深藍”計算機戰(zhàn)勝國際象棋世界冠軍卡斯帕羅夫那次劃時代的“人機大戰(zhàn)”嗎?“深藍”贏得比賽用的就是人類最不屑的辦法——窮舉——把棋盤里可能出現(xiàn)的所有情況都模擬出來,然后對手下的每一步棋都“了然于胸”,再選擇最能贏的走法。就像拿著幾個億去買彩票,所有有可能的組合全部下注,最后中了個500萬。

人工智能能在國際象棋領(lǐng)域這么做,完全是因為國際象棋的所有可能性是10^47,以電腦的“腦力”要列舉這么多種可能性還是夠用的。但要想用一模一樣的辦法稱霸圍棋棋壇,面對圍棋的十九路棋盤,“阿爾法狗”要應(yīng)付的可能性是2x10^170,換成自然數(shù)的形式就是2后邊跟著170個0……要窮舉這么多的棋譜,電腦的“腦力”顯然是不夠用的。要知道,全宇宙的所有原子總數(shù)也不過是10^80個。

但是,窮舉還是要有的,不過要用一種聰明點的辦法縮小窮舉的范圍。人類不是下了幾千年的圍棋嗎?那就先拿3000萬份棋譜來學習一下人類下棋的基本套路。“阿爾法狗”剛開始通過自身的“人工神經(jīng)網(wǎng)絡(luò)”來“深度學習”圍棋時,就是從網(wǎng)絡(luò)圍棋對戰(zhàn)平臺KGS拿來的3000萬份棋譜開始的。不過這顯然是不夠的,所以在繼續(xù)找更多的棋譜的同時“阿爾法狗”還開始了和自己下棋玩——通過學習得來的人類下棋套路來模擬博弈,盡可能地得到更加多的棋譜來學習。

這樣一來,孜孜不倦地學習了數(shù)以千萬計的棋譜“阿爾法狗”就對如何合理地下棋這件事有了自己的豐富經(jīng)驗,這就形成了自己“價值網(wǎng)絡(luò)”——估算每一張棋譜里的每一步棋對最后贏棋有多大幫助,并找出其中的一些規(guī)律——這大概就是人類常說的“棋感”。而再看看人類,一輩子也下不了一萬盤棋,還要記要分析要總結(jié)規(guī)律?想想就心累。

“阿爾法狗”學習了海量棋譜得來的“棋感”用來模仿和預測人類下棋已經(jīng)有很高的把握了,據(jù)“阿爾法狗”團隊2016年的說法,“阿爾法狗” 下圍棋時的落子選擇能正確符合57%的人類高手。就是說有57%的人類高手在面對同樣的棋局時會選擇和“阿爾法狗”一樣的下一步,而不符合人類高手想法的那部分并不意味著“阿爾法狗”是錯的,也更有可能是人類自己犯錯而已。

有了深厚的內(nèi)力加持還是不夠的,“阿爾法狗”還需要在對戰(zhàn)時把自己的積淀用到實處。先前說過,“阿爾法狗”和“深藍”在迎戰(zhàn)人類的方法并沒有什么本質(zhì)上的差別,都是窮舉。雖然現(xiàn)在“阿爾法狗”已經(jīng)懂得有規(guī)律地窮舉了,但是它的運算能力還是不足以窮舉規(guī)律之中的棋局的所有可能走勢,畢竟這個運算量對于計算機來說依然是個天文數(shù)字。

所以,“阿爾法狗”引進了另一個大殺器,蒙特卡洛樹搜索(MCTS)算法。蒙特卡洛算法,是由美國數(shù)學家烏拉姆最早提出,再經(jīng)數(shù)學天才馮·諾伊曼發(fā)展和完善,以賭城蒙特卡洛命名的一種算法。在過于復雜的局面中,人工智能由于硬件缺陷,無法實現(xiàn)窮舉級別的采樣,而蒙特卡洛算法正是在采樣不足的情況下,通過盡可能多次的隨機采樣,一步一步接近最優(yōu)解。舉個簡單例子,有一堆鉆石,每次隨機選一枚,選中更大的就留下。那么經(jīng)過越來越多次隨機選擇,最終留下的那枚鉆石,就必然越來越接近這堆鉆石中最大的。

1997年5月,IBM公司的國際象棋電腦“深藍”打敗國際象棋世界冠軍卡斯帕羅夫

具體到“阿爾法狗”下圍棋這件事上,蒙特卡洛樹搜索算法就是把“阿爾法狗”的“棋感”認為有可能的接下來的棋局都先過一遍(有時是走幾十步之后,有時是走到對局結(jié)束),把對自己不利的都刪除掉,剩下的便是勝率最高的走法,而且是每下一步棋時這么過一遍。

猜你喜歡
窮舉棋譜對局
強調(diào)舉例,提高學生數(shù)學思維的深刻性
馬丁的夢幻象棋之旅之得到棋譜
淺談初中代數(shù)式最值的求解技巧
圍棋棋譜的著作權(quán)問題探析
視聽(2018年11期)2018-04-02 15:52:45
虛擬對局
第29屆歐洲象棋錦標賽對局選評
棋藝(2016年6期)2016-11-14 05:12:03
分布式系統(tǒng)中的一種特殊規(guī)格字符集分片算法
數(shù)獨問題的一種簡單解法
趙國榮先勝呂欽
棋藝(2014年7期)2014-09-09 08:43:54
囚犯與棋譜
建德市| 富锦市| 屯昌县| 金湖县| 台安县| 奉节县| 井冈山市| 邻水| 泽州县| 天峨县| 南昌市| 保山市| 连云港市| 防城港市| 紫阳县| 碌曲县| 昂仁县| 厦门市| 平原县| 噶尔县| 古浪县| 苗栗县| 大名县| 成安县| 台湾省| 论坛| 曲麻莱县| 吴忠市| 大悟县| 马鞍山市| 兴和县| 蒙自县| 盐边县| 禹城市| 和林格尔县| 呼图壁县| 莱西市| 敦煌市| 喀喇| 临西县| 新宾|