AI 玩多人德?lián)涫状螕魯№敿?jí)玩家！150美元成本，實(shí)力可掏空在線(xiàn)撲克公司

2019-08-02 01:55:10李亞山

海外星云 2019年14期

●李亞山

人工智能終于開(kāi)始掌握人性中一些獨(dú)特的能力，并且比它的老師玩得還好。要想在撲克中獲勝，就需要利用這樣一項(xiàng)能力：狡猾。為了獲勝，玩家必須分析對(duì)手如何出牌，然后欺騙他們交出手中的籌碼。當(dāng)然，這種狡詐對(duì)人來(lái)說(shuō)很自然。現(xiàn)在，人工智能程序首次表現(xiàn)出能夠用類(lèi)似的技能來(lái)欺騙人類(lèi)的職業(yè)撲克選手。

近日，臉書(shū)與卡內(nèi)基梅隆大學(xué)合作開(kāi)發(fā)的一款新型人工智能系統(tǒng)Pluribus，在世界上最流行、最廣泛的撲克游戲：六人無(wú)限注德州撲克中擊敗了頂級(jí)人類(lèi)職業(yè)玩家。Pluribus在“5個(gè)AI和1個(gè)人類(lèi)玩家”和“1個(gè) AI和5個(gè)人類(lèi)玩家”兩種模式下都擊敗了職業(yè)玩家。這是人工智能機(jī)器人第一次在超過(guò)兩名玩家 (或兩支隊(duì)伍)的大型基準(zhǔn)游戲中擊敗頂級(jí)專(zhuān)業(yè)人士。此前，人工智能技術(shù)已經(jīng)能夠在只有一個(gè)對(duì)手的情況下打敗人類(lèi)撲克高手。但像Pluribus這樣，在多人同桌的情況下?lián)魯∪祟?lèi)精英玩家，才是關(guān)鍵的里程碑。

德?lián)渲赴l(fā)明人圖奧馬斯·桑德赫爾

Pluribus是通過(guò)基于Libratus的幾項(xiàng)創(chuàng)新，以及圖奧馬斯·桑德赫爾在卡內(nèi)基梅隆大學(xué)研究實(shí)驗(yàn)室開(kāi)發(fā)的其他算法和代碼實(shí)現(xiàn)這一成果的。Libratus是2017年在雙人無(wú)限注德州撲克中擊敗人類(lèi)職業(yè)選手的AI。特別是Pluribus采用了新的在線(xiàn)搜索算法，它可以通過(guò)之前的幾個(gè)步驟就能有效地評(píng)估其下注選項(xiàng)，而不用搜索到游戲結(jié)束。Pluribus還使用了新的更快的自玩算法來(lái)玩包含隱藏信息的游戲。

更讓讓人想不到的是，這些進(jìn)步可以使用很少的處理能力和內(nèi)存——相當(dāng)于不到150美元的云計(jì)算資源——就培訓(xùn)出Pluribus。這個(gè)效率與最近其他人工智能里程碑項(xiàng)目形成了鮮明對(duì)比，它們需要相當(dāng)于數(shù)百萬(wàn)美元的計(jì)算資源來(lái)進(jìn)行培訓(xùn)。這些在撲克游戲中的創(chuàng)新具有十分重要的意義，因?yàn)閮蓚€(gè)人的零和互動(dòng)（一名玩家贏，一名玩家輸）在休閑游戲中很常見(jiàn)，但在現(xiàn)實(shí)生活中卻非常罕見(jiàn)?，F(xiàn)實(shí)世界中，對(duì)有害內(nèi)容采取行動(dòng)，應(yīng)對(duì)網(wǎng)絡(luò)安全挑戰(zhàn)，以及管理在線(xiàn)拍賣(mài)或?qū)Ш搅髁?，通常?huì)涉及多個(gè)參與者還有多重隱藏信息。多玩家交互對(duì)過(guò)去的人工智能技術(shù)提出了嚴(yán)峻的理論和實(shí)踐挑戰(zhàn)。然而，現(xiàn)在的結(jié)果表明，人工智能算法可以在雙人零和游戲之外達(dá)到超凡的表現(xiàn)。

研究人員通過(guò)與一群優(yōu)秀的人類(lèi)專(zhuān)業(yè)人士比賽來(lái)評(píng)估Pluribus。職業(yè)選手包括2000年世界撲克大賽主賽事冠軍 Chris“Jesus”Ferguson，2012年世界撲克大賽主賽事冠軍Greg Merson等。參賽的每一個(gè)選手之前都在撲克牌桌上贏得了超過(guò)100萬(wàn)美元，其中有些人甚至贏得了超過(guò)1000萬(wàn)美元的獎(jiǎng)金。對(duì)戰(zhàn)有兩種形式：五個(gè)職業(yè)玩家和一個(gè)人工智能，一個(gè)職業(yè)玩家和五個(gè)人工智能副本。在每一種形式下，牌桌上都有六名玩家，每一手開(kāi)始都有1萬(wàn)個(gè)籌碼。小盲注是50個(gè)籌碼，大盲注是100個(gè)籌碼。

雖然撲克是一種技巧游戲，但也有很大的運(yùn)氣成分。對(duì)于頂級(jí)專(zhuān)業(yè)人士來(lái)說(shuō)，僅僅因?yàn)檫\(yùn)氣不好，就輸?shù)?萬(wàn)手籌碼是很常見(jiàn)的。為了減少運(yùn)氣的作用，研究人員使用了AIVAT方差減少算法來(lái)評(píng)估結(jié)果。例如，如果機(jī)器人的某一手真的很強(qiáng)，AIVAT將從它的獎(jiǎng)金中減去一個(gè)基線(xiàn)值來(lái)抵消運(yùn)氣成分。

在“5個(gè)職業(yè)玩家和1個(gè)AI”的實(shí)驗(yàn)中，10000手游戲玩了12天。每天從專(zhuān)業(yè)人員中挑選五名志愿者參與。官方將根據(jù)選手的表現(xiàn)分給他們獎(jiǎng)金五萬(wàn)美元，以激勵(lì)他們發(fā)揮出最佳水平。在使用AIVAT后，Pluribus的勝率估計(jì)為每100手5個(gè)大盲注(5 bb/100)，這是以精英人類(lèi)作為對(duì)手的壓倒性勝利(盈利，p 值為 0.021)。如果每個(gè)籌碼都值1美元，Pluribus平均每手贏得5美元的獎(jiǎng)金，并且每小時(shí)可以賺到1000美元。這一結(jié)果超過(guò)了職業(yè)玩家在與職業(yè)和業(yè)余玩家的混合比賽中獲勝的預(yù)期。

在“5個(gè)AI和1個(gè)職業(yè)玩家”的模式下，由三名志愿者參與，每個(gè)人類(lèi)玩家和5個(gè)Pluribus副本玩5000手。Pluribus并沒(méi)有根據(jù)對(duì)手的情況調(diào)整策略，因此AI之間不存在故意勾結(jié)問(wèn)題?？偟膩?lái)說(shuō)，人類(lèi)損失了2.3 bb/100（每100手2.3個(gè)大盲注）。

Pluribus的算法實(shí)在太成功了?！斑@對(duì)撲克社區(qū)來(lái)說(shuō)可能是非常危險(xiǎn)的。”參與開(kāi)發(fā)算法的Facebook研究員Noam Brown說(shuō)。他今年被評(píng)為《麻省理工科技評(píng)論》的35歲以下科技創(chuàng)新者之一?！澳阃ǔ？梢哉页鰧?duì)手的弱點(diǎn)，但沒(méi)有找到（它的）弱點(diǎn)。”游戲中的撲克職業(yè)選手Jason Les說(shuō)：“這個(gè)AI非常強(qiáng)大，你找不到任何可以利用或占便宜的機(jī)會(huì)。”

研究人員擔(dān)心Pluribus可能被用來(lái)掏空在線(xiàn)德州撲克公司的金庫(kù)，因此決定不發(fā)布其代碼。目前，F(xiàn)acebook也沒(méi)有計(jì)劃去應(yīng)用為六人撲克開(kāi)發(fā)的技術(shù)。

六人德州撲克的兩大挑戰(zhàn)

幾十年來(lái)，撲克游戲一直是人工智能領(lǐng)域一個(gè)困難而又重要的挑戰(zhàn)難題。這是因?yàn)閾淇擞螒蛑邪[藏信息，你不知道對(duì)手的牌，想要獲勝需要會(huì)虛張聲勢(shì)以及一些其他策略，而且，這些策略又不同于象棋、圍棋和其他游戲。這也是人工智能技術(shù)在其他游戲中取得突破，卻不能突破撲克的原因，撲克游戲?qū)θ斯ぶ悄芗夹g(shù)有天生的抵抗力。

Lemonade Stand游戲

具體來(lái)說(shuō)，六人德州撲克一直面臨著兩大挑戰(zhàn)。第一大挑戰(zhàn)，德州撲克不只是兩玩家的零和游戲。之前AI突破的所有基準(zhǔn)游戲僅限于那些只有兩名或兩隊(duì)玩家的零和游戲，例如跳棋、象棋、圍棋、雙人撲克、星際爭(zhēng)霸2和Dota 2。在這些情況下，人工智能取得了成功，因?yàn)樗捎昧艘环N稱(chēng)為納什均衡（Nash equilibrium）的策略。在兩名或兩隊(duì)玩家的零和游戲中，精確的納什均衡能做到無(wú)論對(duì)手做什么都不可能輸(例如，剪刀-石頭-布的納什均衡策略是隨機(jī)選取概率相等的石頭、布或剪刀)。

雖然納什均衡在任何游戲中都是存在的，但在3個(gè)或3個(gè)以上對(duì)戰(zhàn)玩家的游戲中，通常不可能有效地計(jì)算出納什均衡。此外，在一場(chǎng)多人參與的游戲中，即使采用精確的納什均衡策略，也有可能失敗。其中一個(gè)例子是Lemonade Stand游戲，每個(gè)玩家同時(shí)在一個(gè)圓環(huán)上取一個(gè)點(diǎn)，并要盡可能地遠(yuǎn)離其他玩家。納什均衡是讓所有玩家在環(huán)上的距離相等，但實(shí)現(xiàn)這一點(diǎn)的方法有無(wú)窮多種。如果每個(gè)玩家獨(dú)立地計(jì)算其中一個(gè)均衡，那么最終不太可能使所有參與者在環(huán)上的距離相等。

在多于兩個(gè)玩家的零和游戲中，納什均衡存在的缺陷，引發(fā)研究人員的思考：在這樣的游戲中，正確的目標(biāo)應(yīng)該是什么？以6人德州撲克為例，研究人員認(rèn)為，目標(biāo)不應(yīng)該是一個(gè)特定的博弈論解決方案，而是創(chuàng)造一個(gè)通過(guò)長(zhǎng)期經(jīng)驗(yàn)戰(zhàn)勝人類(lèi)對(duì)手甚至專(zhuān)業(yè)人士的人工智能。在多于兩玩家的零和游戲中，研究人員用來(lái)構(gòu)造Pluribus的算法不能保證收斂到納什均衡。盡管如此，Pluribus的策略始終能在六人撲克游戲中擊敗精英人類(lèi)撲克專(zhuān)家。

Pluribus和專(zhuān)業(yè)玩家的游戲界面

第二大挑戰(zhàn)，信息隱藏在更復(fù)雜的環(huán)境中。沒(méi)有任何其他游戲能像撲克那樣體現(xiàn)隱藏信息的挑戰(zhàn)，每個(gè)玩家都有其他玩家所缺乏的信息。一個(gè)成功的撲克AI必須對(duì)這些隱藏的信息進(jìn)行推理，并謹(jǐn)慎地平衡其策略，保持自身的不可預(yù)測(cè)，同時(shí)仍然選擇好下一步行動(dòng)。例如，虛張聲勢(shì)有時(shí)可能是有效的，但總是虛張聲勢(shì)就會(huì)被對(duì)手預(yù)測(cè)到手牌，并可能導(dǎo)致?lián)p失很多錢(qián)。因此，有必要謹(jǐn)慎地平衡一個(gè)人虛張聲勢(shì)的概率和他下注的概率。換句話(huà)說(shuō)，在不完全信息博弈游戲中，一個(gè)行為的價(jià)值取決于選擇它的概率和選擇其他行為的概率。

相反，在完全信息游戲中，玩家不需要擔(dān)心如何平衡每一步的概率。例如在國(guó)際象棋中，好棋就是好的，無(wú)論它被選中的概率是多少。之前的撲克游戲機(jī)器人Libratus，通過(guò)將基于 Counterfactual Regret Minimization(CFR)理論完善的自玩算法與精心構(gòu)建的不完全信息游戲搜索過(guò)程相結(jié)合，來(lái)處理像雙人德州撲克游戲中的隱藏信息。然而，在德州撲克中添加額外的玩家會(huì)成倍地增加游戲的復(fù)雜性。這些以前的技術(shù)不能擴(kuò)展到六人德州撲克。如今，Pluribus使用的新技術(shù)可以更好地應(yīng)對(duì)這一挑戰(zhàn)。

Pluribus的培訓(xùn)成本不到150美元

由圖奧馬斯·桑德赫爾和諾姆·布朗開(kāi)發(fā)的計(jì)算機(jī)程序在2017年的比賽中擊敗了四名職業(yè)撲克玩家

Pluribus策略的核心是通過(guò)自我游戲來(lái)計(jì)算的，在這種策略中，人工智能對(duì)抗自己的副本，不使用任何人類(lèi)游戲數(shù)據(jù)作為輸入。人工智能通過(guò)隨機(jī)游戲從零開(kāi)始，并逐漸改進(jìn)。它會(huì)記錄游戲進(jìn)行了哪些操作，以及這些操作上的概率分布，然后在與早期版本的策略對(duì)戰(zhàn)中獲得更好的輸出結(jié)果。在Pluribus中使用的自我游戲版本是迭代Monte Carlo CFR(MCCFR)算法的改進(jìn)版本。

在算法的每次迭代中，MCCFR指定一個(gè)玩家作為“遍歷者”，其當(dāng)前策略在迭代中更新。在迭代開(kāi)始時(shí)，MCCFR基于所有玩家的當(dāng)前策略(最初完全是隨機(jī)的)模擬一手撲克牌。一旦模擬完成，算法會(huì)檢查遍歷器做出的每個(gè)決策，并研究如果選擇其他可用的操作，它會(huì)做得更好還是更差。接下來(lái)，人工智能會(huì)評(píng)估每一個(gè)假設(shè)的決策的價(jià)值，這些決策是按照可用操作做出的，以此類(lèi)推。

在八天時(shí)間內(nèi)，研究人員在64核服務(wù)器上培訓(xùn)了Pluribus的藍(lán)圖策略，所需內(nèi)存不到512GB，而且沒(méi)有使用GPU。按照典型的云計(jì)算的成本估計(jì)，培訓(xùn)成本不到150美元。這與最近的其他人工智能項(xiàng)目突破形成了鮮明對(duì)比，這些突破通常需要花費(fèi)數(shù)百萬(wàn)美元進(jìn)行訓(xùn)練。在玩德州撲克時(shí)，Pluribus運(yùn)行在兩個(gè)CPU上。相比之下，2016年，AlphaGo在與頂級(jí)圍棋專(zhuān)業(yè)人士李世乭的比賽中，使用了1920個(gè)CPU和280個(gè)GPU進(jìn)行實(shí)時(shí)搜索。而且，Pluribus使用不到 128GB的內(nèi)存。Pluribus搜索每手游戲所花費(fèi)的時(shí)間在一秒到33秒之間變化，具體取決于實(shí)際情況。平均而言，Pluribus的速度是典型人類(lèi)職業(yè)選手的兩倍：在六人德州撲克中與自己的副本進(jìn)行比賽時(shí)，時(shí)間為每手20秒。

從撲克游戲到現(xiàn)實(shí)不完全信息博弈的挑戰(zhàn)

此前，人工智能在完全信息的兩玩家零和游戲中取得了一系列引人矚目的成功。但現(xiàn)實(shí)世界中的大多數(shù)戰(zhàn)略互動(dòng)都涉及隱藏的信息，而不是兩方的零和博弈。Pluribus的成功表明，在大規(guī)模、復(fù)雜的多玩家博弈中，盡管缺乏強(qiáng)有力的性能以及理論保證，但精心構(gòu)造的自玩搜索算法仍然可以成功。

Pluribus的不同尋常之處還在于，它的訓(xùn)練和運(yùn)行成本遠(yuǎn)低于近期其他用于基準(zhǔn)游戲的人工智能系統(tǒng)。此前，該領(lǐng)域的一些專(zhuān)家擔(dān)心，未來(lái)的人工智能研究將由擁有數(shù)百萬(wàn)美元計(jì)算資源的大型團(tuán)隊(duì)主導(dǎo)。Pluribus是一個(gè)強(qiáng)有力的證據(jù)，現(xiàn)在有理由相信，只需少量資源的新方法可以推動(dòng)前沿人工智能研究。

盡管Pluribus是為玩撲克而開(kāi)發(fā)的，但其所使用的技術(shù)并不針對(duì)撲克，也不需要開(kāi)發(fā)任何專(zhuān)業(yè)領(lǐng)域知識(shí)。這項(xiàng)研究讓我們對(duì)如何構(gòu)建通用的人工智能有了更好的基礎(chǔ)理解。另外，Pluribus在牌桌上擊敗多個(gè)對(duì)手的技術(shù)可能有助于AI社區(qū)在多種領(lǐng)域開(kāi)發(fā)有效的策略。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI 玩多人德?lián)涫状螕魯№敿?jí)玩家！150美元成本，實(shí)力可掏空在線(xiàn)撲克公司

六人德州撲克的兩大挑戰(zhàn)

Pluribus的培訓(xùn)成本不到150美元

從撲克游戲到現(xiàn)實(shí)不完全信息博弈的挑戰(zhàn)

AI 玩多人德?lián)涫状螕魯№敿?jí)玩家！150美元成本，實(shí)力可掏空在線(xiàn)撲克公司