10月18日,《自然》雜志網(wǎng)站公布的論文顯示,此前戰(zhàn)勝人類圍棋世界冠軍的電腦程序AlphaGo(阿爾法狗)的開發(fā)團隊又出力作——新程序AlphaGo Zero(阿爾法元)不依靠人類指導和經(jīng)驗,僅憑自身算法強化學習,就以100:0的戰(zhàn)績擊敗了AlphaGo。
對于這個程序,人類的輸入僅僅限于一張棋盤和一副棋子,沒有任何人類數(shù)據(jù)參與?!鞍柗ㄔ敝挥玫搅艘粡埳窠?jīng)網(wǎng)絡,這張網(wǎng)絡經(jīng)過訓練,專門預測程序自身的棋步和棋局的贏家,讓“阿爾法元”在每次自我對弈中進步。
通過3天的訓練——包括近500萬局自我對弈——“阿爾法元”已能超越人類并打敗之前的“阿爾法狗”版本。英國倫敦深度思維公司AlphaGo項目的主要負責人戴維·西爾弗表示,“阿爾法元”遠比“阿爾法狗”強大,它已不再為人類的知識所限,而能夠自行發(fā)現(xiàn)新知識。endprint