張新立 張恰元 何麗紅 董婷婷
摘 要 利用演化博弈理論,對參與主體異質(zhì)性條件下的囚徒困境模型進(jìn)行了探討,求出了滿足不同條件下的演化穩(wěn)定策略,并對種群中個體異質(zhì)性對演化穩(wěn)定策略的影響進(jìn)行了分析,得出種群中選擇相同策略的個體異質(zhì)性差異越大,參與個體選擇合作行為作為演化穩(wěn)定策略的可能性就越大.極端地,當(dāng)個體的異質(zhì)性趨向于無窮大時,合作成為唯一的演化穩(wěn)定占優(yōu)策略,為現(xiàn)實(shí)大多數(shù)合作系統(tǒng)中能保持長期的一種合作穩(wěn)定狀態(tài)提供了合理地解釋.
關(guān)鍵詞 博弈論;合作行為;合作演化博弈;囚徒困境;異質(zhì)性
中圖分類號 N949 文獻(xiàn)標(biāo)識碼 A
The Cooperative Evolutionary Game Model
of Prisoners Dilemma under Agent Heterogeneity
ZHANG Xinli, ZHANG Qiayuan, HE Lihong, DONG Tingting
(College of Mathematics, Liaoning Normal University, Dalian, Liaoning 116029, China)
Abstract This paper studied prisoner's dilemma model under agent heterogeneity by evolutionary game theory, solved evolutionary stable strategy under different conditions, and analyzed how the agent heterogeneity affects the evolutionary stable strategy. It points out that the cooperative behavior of evolutionary stable strategy will be increased with the addition of the difference of agent heterogeneity. Extremely, cooperation is the unique dominant strategy when the difference of agent heterogeneity approaches to infinite. It provides reasonable explanation that the most cooperative system can maintain a longterm cooperative stable state in the real world.
Key words game theory; cooperative behavior; cooperative evolutionary game; prisoners dilemma; heterogeneity
1 引 言
合作行為是自然界中最為普遍的現(xiàn)象,從微生物到高級動物,從社會性昆蟲到人類社會.生物之間個體的合作行為,增強(qiáng)了整個種群的生存能力.然而,根據(jù)達(dá)爾文的進(jìn)化論,自然選擇是基于競爭性的,種群中的個體將會自私地最大化自身利益,這顯然不能解釋處處普遍存在的合作行為現(xiàn)象.為了解釋合作行為是如何從自私的個體之間演化產(chǎn)生的,演化博弈論為其提供了一個強(qiáng)有力的數(shù)學(xué)理論框架,囚徒困境則是演化博弈論被廣泛采用研究合作行為的一個最典型范例[1,2].在原始囚徒困境博弈模型中,采用純策略種群中的個體都有兩種選擇:合作(coorperation,C)與背叛(defection,D).D策略個體利用C策略個體,獲得T收益,而C獲得S.雙方都合作則獲得R,都背叛則獲得P(如表1所示),其中T>R>P>S,2R>T+S.在單輪博弈情況下,無論對手采取何種策略,個體的最佳策略總是選擇背叛.然而,在雙方都采取合作策略的情況下,二者總的收益才是最大的,這一現(xiàn)象說明了社會兩難問題的實(shí)質(zhì).解決的方案之一就是Axelrod提出利用迭代囚徒困境來解決合作行為的演化,其中又以Rapoport提出的TitforTat(TFT)策略和Pavlov提出的WinStayLose-Shift (WSLS)策略最為著名[3].姜殿玉等通過引入背叛函數(shù)及其嚴(yán)厲度和參與人的背叛愿意,給出了一種懲罰機(jī)制下一次性n人囚徒困境合作的可能性[4].李棟等人探討了一類具有兩種狀態(tài)名聲機(jī)制條件下的重復(fù)囚徒困境存在合作的可能性,得出有3個馬爾可夫策略時高效的強(qiáng)健完美納什均衡,與好名聲者合作與背叛壞名聲者的策略時最具吸引力的一個策略,此策略促進(jìn)合作成功并能持續(xù)下去[5].王健探討了如何通過承諾在囚徒困境博弈中尋求合作共贏的新局面,并提出重復(fù)博弈下的聲譽(yù)機(jī)制是使承諾可信,促使囚徒困境合作的重要因素[6].廖列法等人針對規(guī)則格子上的節(jié)點(diǎn)的自私行為不能有效抑制問題,提出了一個結(jié)合個體移動和噪聲因素的演化囚徒困境模型,認(rèn)為個體移動和噪聲對囚徒困境的演化博弈的合作行為產(chǎn)生影響[7].
經(jīng) 濟(jì) 數(shù) 學(xué)第 32卷第2期
張新立等:基于參與主體異質(zhì)性條件下囚徒困境合作演化博弈模型研究
表1 種群中參與個體的博弈支付表
盡管上述文獻(xiàn)在研究種群中參與個體的合作行為演化方面取得了重大進(jìn)展,不同程度地提出了解決合作行為的方案與措施,但它們在研究種群中參與個體演化合作博弈的傳統(tǒng)方法通常假設(shè)種群內(nèi)的個體是均勻同質(zhì)的,即種群中的任何個體都是實(shí)力對等的,對其他個體的影響是一樣的,且都以獨(dú)立相同的概率和其他個體相遇并進(jìn)行博弈.然而,這種模型假設(shè)過于理想化,因?yàn)楝F(xiàn)實(shí)種群中博弈雙方的個體實(shí)力時常不對等、具有異質(zhì)性.種群中博弈雙方的異質(zhì)性不僅影響博弈雙方個體的收益,而且也影響相應(yīng)的采取策略,目前關(guān)于這方面的研究還鮮有學(xué)者涉及.基于此,本文把參與主體的異質(zhì)性條件引入到囚徒困境博弈模型中,探討異質(zhì)性條件下囚徒困境博弈中的種群能夠演化出與均勻同質(zhì)性種群不同的一些行為模式,這些行為模式能夠促使異質(zhì)性囚徒困境博弈模型演化出具有很高合作率的群體,從而有效地解釋了為何在現(xiàn)實(shí)中大多數(shù)合作系統(tǒng)中都能觀測到合作方和接收方之間存在長期的合作穩(wěn)定狀態(tài).
2 同質(zhì)性條件下的囚徒困境演化博弈模型
考慮到種群中不同的參與個體可以利用各自對應(yīng)不同的收益表來表示,又因原始囚徒困境中種群中的個體都有兩種選擇純策略:合作與背叛,收益表中的參數(shù)關(guān)系滿足T>R>P>S.為了減少收益表中自由參變量的個數(shù),可以定義種群中個體采取合作行為付出的代價為c,此合作行為使對方獲得收益為b;個體采取背叛策略不付出任何代價,即P=0,也不分發(fā)任何利益給對方,收益表可以簡化為只含兩個參變量b和c的形式,且滿足關(guān)系式b>c>0.由于囚徒困境是對稱博弈,博弈雙方對應(yīng)的收益表A與B有關(guān)系式BT=A.所以博弈雙方具有相同的性質(zhì).下面僅對博弈一方的演化性質(zhì)進(jìn)行討論.
C DC DCDRSTP=CDb-c-cb0.
現(xiàn)在考慮在一個種群中的個體間隨機(jī)配對進(jìn)行博弈.假設(shè)在該種群中,采取C策略的種群比例為x,采取D策略的種群比例為y,x+y=1.由于假設(shè)該種群內(nèi)的個體是同質(zhì)的,實(shí)力對等,所以,不管它采取何種策略,種群個體采取的策略只會影響它的收益.此時采用兩種策略的參與個體的期望收益與種群的平均期望收益分別為
fC=(b-c)x-cy,fD=bx-0y,
φ=xfC+yfD. (1)
于是,一博弈方采取合作策略的復(fù)制子動態(tài)方程為
F(x)=dxdt=x[fC-φ]=
x(1-x)(fC-fD)=-cx(1-x). (2)
根據(jù)該復(fù)制子動態(tài)方程,x=0和x=1為2個穩(wěn)定狀態(tài).依據(jù)微分方程的穩(wěn)定性定理及演化穩(wěn)定策略的性質(zhì),當(dāng)F′(x)<0時,x為演化穩(wěn)定策略.因?yàn)镕′(0)<0,所以,x=0為演化穩(wěn)定策略.其動態(tài)趨勢和穩(wěn)定性的相位圖如圖1所示.也就是說,不論博弈對方如何讓選擇,種群中一方博弈個體的最優(yōu)選擇是背叛,而且是一個占優(yōu)戰(zhàn)略均衡,所以也是演化穩(wěn)定的.種群的所有個體最終由背叛個體組成.
圖1 一方博弈的策略穩(wěn)定性相位圖
3 異質(zhì)性條件下的囚徒困境演化博弈模型
在囚徒困境參與個體博弈過程中,博弈雙方的個體經(jīng)常是異質(zhì)的,雙方實(shí)力不對等,此時博弈雙方的策略選擇和獲得的收益顯然要受雙方異質(zhì)性的影響[8].在此條件下,當(dāng)博弈雙方都選擇背叛時,受到的傷害程度也是不同的,實(shí)力大的一方受到的傷害程度顯然比實(shí)力小的一方要小得多,尤其從長期來看,這種傷害程度對博弈雙方來說都要比實(shí)際顯現(xiàn)的要大;當(dāng)雙方都選擇合作策略時,實(shí)力大的一方所選擇的策略更主動,得到的收益分配顯然比實(shí)力小的一方要高.為此,假設(shè)種群都選擇合作策略的博弈雙方實(shí)力差異為r1;一方選擇合作,另一方選擇背叛的實(shí)力差異為r2;雙方都選擇背叛策略的實(shí)力差異為r3.當(dāng)r1=r2= r3時,囚徒困境顯然變?yōu)橥|(zhì)性的情形.當(dāng)r1,r2,r3不全相等時,種群內(nèi)的參與個體是異質(zhì)的,異質(zhì)性不僅對其采取的策略產(chǎn)生影響,而且對分配的收益也有影響.此時采用兩種策略的參與個體的期望收益與種群的平均期望收益分別為
圖2 兩個內(nèi)點(diǎn)的演化策略穩(wěn)定性相位圖
4 結(jié)束語
種群中的合作行為是自然界中最為普遍存在的規(guī)律,而種群中個體的異質(zhì)性又是常見的.本文利用演化博弈的相關(guān)理論,對個體具有異質(zhì)性的囚徒困境模型進(jìn)行了分析,認(rèn)為盡管種群個體一般都有背叛個體所組成,但是當(dāng)異質(zhì)性滿足一定的條件時,群體中背叛和合作的個體是可以共存的,而且伴隨著選擇相同策略群體異質(zhì)性程度的不斷增加,群體中背叛個體逐漸向合作個體過渡,直至可以達(dá)到群體由完全的合作個體所組成,為自然界中最為普遍出現(xiàn)的合作行為現(xiàn)象提供了有益地詮釋,也為促進(jìn)自然界群體中的有益合作提供了一定決策參考依據(jù).
參考文獻(xiàn)
[1] MAYNARD SMITH. Evolution and the Theory of Games[M]. Cannbridge:Cambridge University Press, Cambridge, 1982.
[2] M A NOWAK. Five rules for the evolution of cooperation[J]. Science, 2006,5805(314): 1560-1563.
[3] R AXELORD. The Evolution of Cooperation [M]. New York: Basic Books,1984.
[4] 姜殿玉,鄭長波,許作銘. 一種懲罰機(jī)制下一次性n人囚徒困境的合作性[J].運(yùn)籌與管理,2011,20(4):96-99.
[5] 李棟,蔣軍利, 唐曉嘉.基于名聲機(jī)制的重復(fù)囚徒困境合作博弈分析[J].計算機(jī)科學(xué),2013,41(4):240-243.
[6] 王健.沖突與合作視角下的承諾及其可信性研究—以囚徒困境博弈為例[J].河南工業(yè)大學(xué)學(xué)報:社會科學(xué)版,2013,9(1):49-53.
[7] 廖列法,孫瑋,劉朝陽. 基于演化博弈研究移動和噪聲對合作的影響[J].物理學(xué)報,2015,64(3):53-56.
[8] C TAYLOR,M A NOWAK. Evolutionary game dynamics with nonuniform interaction rates[J] .Theoretical Population Biology, 2006,69(3): 243-252.