盛津芳,沈玉鵬,王 凱,孫澤軍
(中南大學 計算機學院,長沙 410083)
演化博弈論為研究自私個體之間的合作行為提供了有力的理論框架[1,2],目前在生物學、經(jīng)濟學和計算機科學等諸多學科里有著非常廣泛的應用[3-7].在經(jīng)典博弈論中,參與博弈的個體是完全理性的,個體為了最大化自身利益選擇相應的策略.演化博弈論將經(jīng)典博弈論與生物學中的演化思想相結合,博弈個體是非完全理性的,在多次博弈過程中,通過不斷的學習,來選擇最適合自身的策略.常見的博弈模型有囚徒困境博弈[8,9],雪堆博弈[10]和公共物品博弈[11]等.其中,囚徒困境模型得到了最廣泛的應用,成為了研究合作演化的經(jīng)典模型.
在囚徒困境模型中,對于參與博弈的個體而言,通常背叛是一個比較好的策略,因為不用為其他個體提供收益,并且選擇背叛可以從合作者那里獲得更高的收益.但是合作行為仍然會出現(xiàn).因此,許多機制被提了出來,用來解釋合作產(chǎn)生和維持的原因,比如直接和間接互惠[12-14],遷移[15],懲罰和獎勵[16,17]等等.同時復雜網(wǎng)絡也為描述合作演化上的拓撲結構提供了非常方便的框架,比如方格網(wǎng)絡[18,19],隨機網(wǎng)絡,無標度網(wǎng)絡[20]和小世界網(wǎng)絡[21]等等.在圖論中,節(jié)點表示參與博弈的個體,節(jié)點之間的連邊表示個體之間存在聯(lián)系,每個節(jié)點可以與相連的鄰居發(fā)生博弈.參與博弈的個體可能會有不同的特點,而合作水平受到很多因素的影響.例如以前的研究表明有些個體的某些特點將會對合作水平產(chǎn)生很重大的影響,如名譽[22]、年齡結構[23]、學習能力等等[24].
在大多數(shù)以前的研究中,都認為參與博弈的個體沒有記憶能力.個體在更新自己的策略時,僅根據(jù)當前的情況來決定自己的策略,不考慮過往的經(jīng)驗.但在現(xiàn)實社會中,個體都擁有記憶能力,并且在做決策時過往的經(jīng)驗會有很重要的作用.因此,過往的經(jīng)驗對于當前的博弈會存在一定的影響.除此之外,過往研究中個體在選擇博弈鄰居時往往通過隨機的方式來選擇本次博弈的鄰居,但是在現(xiàn)實社會中個體在進行選擇時往往具有某種偏向性.對于一種給定的情況,個體的不同鄰居對這個個體的吸引力是不同的,因此個體在選擇鄰居進行博弈時應該具有某種偏向性.
文獻[25]研究了基于記憶的雪堆博弈.在每輪博弈時,每個節(jié)點都根據(jù)當前相反的策略去獲得一個對應的虛擬收益,將虛擬收益與現(xiàn)在的實際收益進行比較,然后將能獲得最大收益的策略存入記憶區(qū).每輪迭代結束后,所有節(jié)點根據(jù)自身記憶區(qū)中的過往策略決定選擇合作還是背叛,記憶區(qū)過往策略集合中合作策略越多,節(jié)點選擇合作策略的可能性就越高.但是該文獻忽視了個體以往的記憶對當前博弈鄰居選擇的影響.文獻[26]研究了基于節(jié)點度的偏向選擇對囚徒困境博弈合作水平的影響,他們發(fā)現(xiàn)節(jié)點偏向選擇跟自己度差異較小的鄰居進行博弈時,合作水平被抑制,而當節(jié)點偏向選擇跟自己度數(shù)差異較大的鄰居進行博弈時,合作水平被提高.但該文獻僅根據(jù)網(wǎng)絡拓撲結構來考慮鄰居對當前節(jié)點的吸引力,未考慮到過往經(jīng)驗對個體的影響.
本文提出了一種基于個體記憶及個體過往策略相似度的偏向選擇機制,并研究了該偏向選擇機制對合作水平的影響.特別地,提出了記憶區(qū)長度M和偏向參數(shù)α.在實際生活中,人們的記憶能力是有限制的,記憶區(qū)長度M表示了博弈個體對以往策略記憶的能力,M越大表示博弈個體對以往策略的記憶能力越強.同時在實際生活中存在著“物以類聚人以群分”的現(xiàn)象,由于不同的人有不同的決策風格,比較相似的人會更容易相聚成群.但是也存在有些人更愿意去接近那些與自己做事風格不同的人,因此提出了偏向參數(shù)α,用來表示個體偏向選擇概率與過往策略相似度的相關性.
在經(jīng)典的囚徒困境模型中,兩名博弈對象必須同時決定自己的策略:合作(C)或者背叛(D).如果兩個博弈對象同時選擇合作,那么兩個博弈對象都將獲得收益R.如果兩個博弈對象同時選擇背叛,則兩人都將獲得收益P.如果一個博弈對象選擇合作而另一個博弈對象選擇背叛,選擇背叛的博弈對象將獲得收益T,而選擇合作的博弈對象將獲得收益S.囚徒困境模型要同時滿足T>R>P>S和2R>T+S兩個條件才成立.對應的收益矩陣如下:
CD
本文使用空間囚徒困境博弈模型,在該模型中,每個個體占據(jù)具有周期性邊界條件的L×L方格網(wǎng)絡中的一個格子.并且本文使用弱囚徒困境博弈模型[27],收益參數(shù)設置為R=1,T=b,P=S=0.b的取值范圍為1
CD
初始化時,所有節(jié)點按照相同的概率被初始化為合作者或背叛者.之后所有節(jié)點將按照隨機順序依次更新自己的策略.
在選擇博弈鄰居時,節(jié)點根據(jù)偏向選擇機制選擇鄰居節(jié)點作為本次的博弈對象,節(jié)點i選擇自己的鄰居j作為博弈對象的概率由公式(1)確定:
(1)
其中,Ω表示節(jié)點i的鄰居集合.α表示節(jié)點偏向選擇概率與策略相似度的相關性.由公式(1)可知,當α>0時,節(jié)點偏向于選擇與自己過往策略相似度較大的鄰居,當α進一步增大時,節(jié)點對與自己過往策略相似度較大的鄰居的偏向性會被進一步增強.當α<0時,節(jié)點偏向于選擇與自己過往策略相似度差異較大的鄰居.當α=0時,節(jié)點的所有鄰居對其吸引力相同,節(jié)點相當于隨機選擇鄰居進行博弈,此時記憶區(qū)長度M沒有起作用.S(i,j)用來表示節(jié)點i與節(jié)點j之間的過往策略相似度,S(i,j)定義如公式(2)所示.
(2)
公式(2)中M為記憶區(qū)長度,表示博弈個體的記憶能力強弱程度.當M=0時,表示節(jié)點沒有記憶能力,此時節(jié)點之間無法計算相互之間的過往策略相似度,在選擇博弈鄰居時不具有偏向性,而是隨機選擇鄰居進行博弈.當M>0時,節(jié)點擁有記憶能力.初始化時節(jié)點記憶區(qū)為空,節(jié)點第一次博弈時隨機選擇鄰居進行博弈.當進行一次博弈之后,記憶區(qū)中開始存在過往策略,隨后節(jié)點根據(jù)偏向選擇機制選擇博弈鄰居.當記憶區(qū)中存儲的過往策略數(shù)量達到所設定的記憶區(qū)長度時,之后每次加入新的記憶,都將丟棄距離現(xiàn)在最遠的策略記錄,以此來保證記憶區(qū)長度不超過預先的設定值.在節(jié)點i與節(jié)點j的記憶區(qū)中,如果兩節(jié)點的過往策略的對應位置相同,則Δn(m)=1,否則Δn(m)=0.如當節(jié)點i的記憶區(qū)為(C,D,C),節(jié)點j的記憶區(qū)為(C,D,D),節(jié)點k的記憶區(qū)為(D,C,D)時,節(jié)點i與節(jié)點j的過往策略相似度為2,節(jié)點i與節(jié)點k的過往策略相似度為0.相似度公式表明了節(jié)點之間過往策略的相似程度.
在博弈時,節(jié)點i將自己的策略替換為鄰居j的策略的概率由費米準則[27]確定,費米準則充分考慮了參與博弈的個體不是完全理性的這一特點,同時費米準則體現(xiàn)了一種學習行為.在費米準則中,博弈個體根據(jù)雙方的收益來決定自己是否學習對方的策略.如果對方的收益比較高,則認為對方的策略是一種比較成功的策略,自己將會有較大的概率學習.費米準則如公式(3)所示.
(3)
在本文中,K的取值為0.1,表示參與博弈的個體具有較小程度的不理性行為.當節(jié)點i的收益小于節(jié)點j的收益時,節(jié)點i有較大的概率將自己的策略替換為節(jié)點j的策略,但同時也有較小的概率選擇不理性行為,保持自身策略不變.
每輪博弈由以下3部分組成:
1)節(jié)點根據(jù)偏向選擇機制選擇鄰居;
2)當前更新節(jié)點與被選擇的鄰居分別計算自己的總收益;
3)根據(jù)費米準則更新當前節(jié)點的策略.演化博弈的具體過程如算法1所示.
算法1.演化博弈的具體過程
步驟1.節(jié)點i根據(jù)偏向選擇鄰居j
步驟2.節(jié)點i和鄰居j計算各自的總收益
步驟3.節(jié)點i將當前策略存入記憶區(qū)
步驟4.節(jié)點i以W(si←sj)的概率同步更新自己的策略
算法1中,步驟1根據(jù)公式(1)選擇博弈鄰居.步驟4根據(jù)公式(3)計算節(jié)點i更新策略的概率.
本文使用蒙特卡羅仿真來對演化博弈進行研究,每次實驗均由一系列蒙特卡羅時間步組成.網(wǎng)絡規(guī)模為50×50.并用合作者數(shù)量占所有博弈個體數(shù)量的比例來表示合作水平Fc.為了獲得穩(wěn)定的結果,每次實驗均由5000蒙特卡羅時間步組成,并取最后1000次結果的平均值作為實驗結果.
圖1展示了在不同記憶區(qū)長度M和不同偏向參數(shù)α下合作水平Fc和背叛誘惑b的關系,將Fc作為b的函數(shù).在圖1(a)中,α=-1;在圖1(b)中,α=1;在圖1(c)中,α=4.每張圖中記憶區(qū)長度M均有四種取值.當M=0時,表示個體的記憶區(qū)長度為0,個體沒有記憶能力,此時個體隨機選擇鄰居進行博弈.因此,圖1(a)-圖1(c)中M=0所對應的合作水平曲線基本相同.
圖1 合作水平Fc作為背叛誘惑b的函數(shù)Fig.1 Fraction of cooperators Fc as a function of the temptation to defect b
在圖1(a)中,當α=-1時,M=0對應的合作水平高于其他的幾個M>0對應的合作水平.當M=1時,合作水平達到最低值,之后隨著M的增加,合作水平也對應有所增加,逐漸接近M=0所對應的合作水平,但始終低于M=0所對應的合作水平.可以看出,在選擇博弈對象時,偏向選擇跟圖1 合作水平Fc作為背叛誘惑b的函數(shù)自己過往策略差異較大的鄰居會降低合作水平.雖然隨著記憶區(qū)長度的增加,合作水平會有所提高,但是無論記憶區(qū)長度如何,合作始終受到抑制.在圖1(b)中,M=0所對應的合作水平為最低,M=1所對應的合作水平為最高.當M進一步增大時,如3和10,合作水平開始略微降低,但始終高于M=0所對應的合作水平.
在圖1(c)中,與圖1(b)類似的是當M>0時,合作水平有非常明顯的提高.不同的是,M=1所對應的合作水平并不是最高的,當3時,合作水平有進一步的增加,當M=10時,合作水平開始降低,甚至低于M=1時的合作水平,但始終高于M=0時所對應的合作水平.即,隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢.由此可以得出結論,當個體擁有記憶能力以后,由于偏向選擇機制的影響,當個體偏向于選擇和自己過往策略更相似的鄰居進行博弈時,可以促進合作.同時對比圖1(b)和圖1(c)可以看出,當α增大時,合作水平也有所增加.并且對于不同的α>0,都存在一個記憶區(qū)長度使合作水平達到最大值.
本文根據(jù)現(xiàn)實社會的現(xiàn)象來解釋為什么個體偏向于選擇與自己過往策略比較相似的鄰居進行博弈時能促進合作.當博弈雙方記憶區(qū)的過往策略相似度比較高時,可以認為這兩個個體在某些方面有一些相似性,導致他們在同一時刻容易做出相同的策略,那么博弈雙方當前策略相同的可能性也比較大.因此偏向選擇機制在一定程度上能增加合作者和合作者相遇的概率,降低合作者和背叛者相遇的概率.當合作者和合作者相遇時,雙方都不會轉變?yōu)楸撑颜?仍然能互相提供收益.但是即使背叛者和背叛者相遇,背叛者也不能從背叛者那里獲得任何收益,因此基于過往策略相似度的偏向選擇機制在一定程度上有利于合作者的存活.
圖2 不同背叛誘惑下的策略分布Fig.2 Strategy distribution under different temptation
為了驗證之前的想法,圖2中展示了基于隨機選擇和基于偏向選擇博弈鄰居兩種機制下博弈雙方的策略分布.由當前博弈個體與博弈鄰居雙方的策略組成策略對,共有四種策略對,為別為CC,CD,DC,DD(比如,CC表示本次更新節(jié)點和選擇的博弈居的策略都為合作).在一次仿真后,將會產(chǎn)生許多策略對,圖中展示了在不同背叛誘惑b下,每一種策略對數(shù)量占所有策略對數(shù)量的比例情況.
從圖2(a)和圖2(b)中可以看出,相對于隨機選擇,當個體偏向于選擇與自己過往策略更加相似的鄰居進行博弈時,合作者與合作者相遇的頻率明顯增高,而背叛者和背叛者相遇的頻率明顯下降.可見該偏向選擇機制在很大程度上增大了合作者和合作者相遇的概率,由于合作者和合作者相遇不會產(chǎn)生背叛者,因此偏向選擇與自己過往策略更加相似的鄰居進行博弈時有利于保證合作者的存活,從而提高合作水平.
從圖2(c)和圖2(d)中可以看出,在偏向選擇機制的作用下,合作者和背叛者相遇的頻率總體情況下明顯降低.但是在某些區(qū)間里,如b∈(1.04,1.07)時,基于偏向選擇機制進行博弈時合作者和背叛者相遇的頻率反而略微高于基于隨機選擇策略下合作者和背叛者相遇的頻率.這是由于在演化博弈初始階段,合作水平處于下降的趨勢,因為此時合作者和背叛者以同等概率初始化,合作者均勻分布在方格網(wǎng)絡中,相互之間無法提供收益,這并不利于合作者存活.所以演化博弈初始階段有很多合作者會轉變?yōu)楸撑颜?之后隨著迭代次數(shù)的增加,合作者形成小的合作者社區(qū),相互之間能提供收益,合作者社區(qū)開始向外擴張,直到達到穩(wěn)定狀態(tài).
在b>1.07時,由于背叛誘惑b較大,很快所有節(jié)點都成為了背叛者,因此合作者和背叛者相遇的次數(shù)較少.而在b∈(1.04,1.07)時,考慮個體記憶區(qū)為空時的情況,由于個體之間無法比較過往策略,因此當前博弈個體隨機選擇鄰居進行博弈,此時將會有一部分個體轉變?yōu)楸撑颜?這些轉變?yōu)楸撑颜叩膫€體記憶區(qū)中的過往策略為合作,這反而在一定程度上增加了之后迭代中合作者和背叛者相遇的概率.而在合作者之間形成小的合作者社區(qū)之后,合作者社區(qū)開始向外擴張,有些背叛者以一種較小的概率遇到合作者,此時合作者由于相互之間能提供收益,所以合作者的收益將遠大于背叛者,背叛者將會以一種較高的概率轉變?yōu)楹献髡?但是這些由背叛者轉變的合作者的過往策略會與背叛者更加類似,此時又進一步增大了合作者和背叛者相遇的概率.
總體來說,偏向選擇過往策略更相似的博弈鄰居可以增加合作者和合作者相遇的概率,合作者和合作者相遇不會產(chǎn)生背叛者,同時偏向選擇機制降低合作者和背叛者相遇的概率,這在一定程度上保證了合作者的存活,由此可以提高合作水平.同時還可以看出,基于記憶及過往策略相似度的偏向選擇機制對演化博弈過程產(chǎn)生了影響.
為了更加深入的研究負相關性的偏向選擇對合作的影響,圖3展示了使部分節(jié)點按負相關性偏向選擇鄰居時,合作水平Fc與背叛誘惑b的關系,將Fc作為b的函數(shù),節(jié)點在偏向選擇鄰居時,記憶區(qū)長度M有若干固定取值.使合作者偏向于選擇過往策略差異更大的鄰居,背叛者隨機選擇鄰居,結果如圖3(a)所示.使背叛者偏向于選擇過往策略差異更大的鄰居,合作者隨機選擇鄰居,結果如圖3(b)所示.當博弈節(jié)點按公式(1)以負相關性偏向選擇鄰居時,偏向參數(shù)α的取值均為-1.
在圖3(a)和圖3(b)中,M=0表示個體沒有記憶能力,該曲線為所有節(jié)點隨機選擇鄰居進行博弈時,合作水平Fc和背叛誘惑b之間的關系.
在圖3(a)中,M=0所對應的合作水平曲線最高,M=1所對應的合作水平曲線最低,當M增大時,如圖M=3和M=10所對應的合作水平曲線,合作水平有略微的增加,但總體來說,合作受到抑制.
圖3 負相關性偏向選擇對合作的影響Fig.3 Influence of negative preferential selection on cooperation
在圖3(b)中,M=0所對應的合作水平曲線最低,M=1所對應的合作水平曲線最高,合作受到較大的促進作用,當M進一步增大時,如圖M=3和M=10所對應的合作水平曲線,合作受到的促進作用有略微的減小,但合作仍然受到了促進,合作水平有所提升.
綜合上述討論,可以看出,當節(jié)點偏向選擇過往策略差異更大的鄰居進行博弈時,并不一定會抑制合作.如果僅讓背叛者偏向于選擇過往策略差異較大的鄰居進行博弈,對合作有一定的促進作用.
之前已經(jīng)知道偏向選擇機制對博弈演化過程產(chǎn)生了影響,為了更加清晰地展現(xiàn)博弈的演化過程,圖4展示了演化博弈在不同迭代次數(shù)時,合作水平的快照.其中,b=1.02,黑色表示合作者,白色表示背叛者.初始化時合作者和背叛者被均勻地分散到方格網(wǎng)絡中,即每個節(jié)點有同等的概率成為合作者或者背叛者.圖4(a)-圖4(e)是基于隨機選擇機制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照,圖4(f)-4(j)是基于偏向選擇機制的演化博弈在分別經(jīng)歷了0、10、50、500、5000次迭代后的合作水平快照.
圖4 演化博弈過程快照Fig.4 Snapshot during the evolutionary game process
觀察從圖4(a)-圖4(e)以及從圖4(f)-圖4(j)整個博弈過程中合作者的分布以及數(shù)量情況,可以看出,無論是隨機選擇博弈鄰居,還是偏向選擇博弈鄰居,合作水平都呈現(xiàn)出相同的趨勢,即合作水平首先降低,然后又增加,同時合作者從初始時的分散狀態(tài)慢慢聚集到了一起.這是由于初始化時合作者被均勻分散開,合作者之間不能互相提供收益,由于收益較低,合作者更傾向于學習擁有高收益的背叛者的策略.隨著迭代次數(shù)的增加,合作者逐漸變少,但是有些合作者已經(jīng)形成了合作者社區(qū),這些合作者之間可以互相提供收益,由于合作者相互提供相助而獲得的高收益,使其不僅能抵御外部背叛者的入侵,還使得背叛者開始學習擁有高收益的合作者的策略.因此合作者社區(qū)開始向外擴張,合作水平開始提升.
不同的是,對比圖4(b)和圖4(c),圖4(c)中黑色區(qū)域開始擴大,可見在隨機選擇機制下的演化博弈在t=10時合作水平達到最低,在t=50時合作者社區(qū)已經(jīng)開始向外擴張,合作水平有所提高.而對比圖4(g)和圖4(h),圖4(h)中黑色區(qū)域有進一步的縮小,但是黑色區(qū)域變的更加集中,在圖4(i)中黑色區(qū)域才開始擴張.也就是說,在偏向選擇機制下的演化博弈在t=50時合作水平才達到最低.這對應之前所說的在演化博弈初始階段,由于合作者還沒有形成小的合作者社區(qū),有些合作者容易轉變?yōu)楸撑颜?但其記憶區(qū)中的過往策略與其他的合作者比較相似,此時偏向選擇機制反而增加了合作者和背叛者相遇的概率,由此造成演化博弈初始階段合作者社區(qū)形成的更慢.可以得出結論,基于記憶區(qū)和過往策略相似度的偏向選擇機制會對演化博弈過程造成影響,使得合作者之間需要更長的時間來形成合作者社區(qū).同時可以看出,由于偏向選擇機制的作用,合作水平有明顯的提升.
圖5展示了當偏向參數(shù)α的取值一定時,記憶區(qū)長度M對合作水平Fc的影響,將Fc作為M的函數(shù).兩個圖中α均有若干個取值.圖5(a)中,b=1.01,圖5(b)中,b=1.02.
圖5 合作水平Fc作為記憶區(qū)長度M的函數(shù)Fig.5 Fc as a function of M
當α=0時,個體的所有鄰居被選擇的概率相同,此時的偏向選擇等同于隨機選擇,不同的記憶區(qū)長度并沒有對合作水平造成影響,因此在兩圖中α=0所對應的合作水平不隨著M的變化而變化,幾乎為一條水平的直線.而對于不同的α,當M=0時,個體沒有記憶能力,此時個體也通過隨機的方式選擇鄰居進行博弈,因此兩圖中,當M=0時,不同的α所對應的曲線交于一點.
當α<0時,合作水平在M=0時達到最高,此時節(jié)點隨機選擇鄰居進行博弈.而當M=1時,合作水平達到最低,之后隨著M的增加,合作水平緩慢提高,但始終低于M=0時對應的合作水平.
當α>0時,隨著M的增加,合作水平呈現(xiàn)出先增加后降低的趨勢,存在一個M使得合作水平達到最高值.同時可以看出,對于不同的α,合作水平達到峰值時所對應的M取值是不同的.如圖5(b)中,當α=0時,Fc在M=1處達到最大值,當α=4時,Fc在M=4處達到最大值,當α的取值在合適的范圍內增大時,合作水平達到最大值所對應的M也會相應增大.
但是當α繼續(xù)增大,如圖5(a)和圖5(b)中,α=5所對應的曲線反而比α=4所對應的曲線要低,合作水平有所降低.當α大于一定值時,可以認為此時節(jié)點的偏向選擇不是以更高的概率選擇過往策略更相似的鄰居,而是直接選擇過往策略最相似的鄰居.因此,考慮個體直接選擇與自己過往策略最相似的鄰居時的情況,結果如圖5(a)和圖5(b)中α=+∞所對應的曲線,該曲線處于所有曲線的下方.可以看出,博弈個體直接選擇與自己過往策略最相似的鄰居并不利于提升合作.因此得出結論,在偏向選擇與自己過往策略更相似的前提下,以較小的概率選擇其他鄰居可以提高合作水平.
從圖5可以看出合作水平Fc并不隨著α線性增大,為了進一步查看偏向參數(shù)α對合作水平Fc的影響,圖6展示了當記憶區(qū)長度M的取值一定時,偏向參數(shù)α對合作水平Fc的影響,將Fc作為α的函數(shù).兩個圖中M均有若干個取值.圖6(a)中,b=1.01,圖6(b)中,b=1.02.
圖6 合作水平Fc作為偏向參數(shù)α的函數(shù)Fig.6 Fc as a function of α
當α=0時,節(jié)點隨機選擇鄰居進行博弈,因此兩圖中,不同的曲線在α=0處交于同一點.當M=0時,個體隨機選擇鄰居進行博弈,α沒有起作用,因此兩圖中M=0所對應的合作水平不隨著α的變化而變化,幾乎為一條水平的直線.而當M>0時,α對合作水平產(chǎn)生了影響.當α<0時,M>0所對應的曲線均處于水平線的下方,合作被抑制.而當α>0時,合作水平首先升高又降低.當α的取值在合適的范圍時,如兩圖中α∈(0.6)時,M>0所對應的曲線均處于水平線的上方,該偏向選擇機制可以促進合作.但當α超過一定的范圍時,如兩圖中,M=1,α=7時,合作反而受到抑制.這對應之前所獲得的結論,并不是選擇過往策略相似度最高的鄰居可以促進合作,而是以一種比較高的概率選擇過往策略比較相似的鄰居時,可以促進合作.同時可以看出,對于不同的M>0,合作水平Fc均在α=4時達到最大值.
之前已經(jīng)得出結論,偏向選擇機制對演化博弈過程產(chǎn)生了影響.本文進一步研究了M和α對演化博弈過程的影響,圖7展示了在不同的記憶區(qū)長度M和偏向參數(shù)α下合作水平Fc隨著迭代次數(shù)t的增加而變化的時序圖.圖7(a)中,b=1.02,M=3;圖7(b)中,b=1.02,α=3.在演化博弈過程中,在合作水平達到最小值時,合作者社區(qū)已經(jīng)形成,隨后合作者社區(qū)開始向外擴張,合作水平開始提升.使用Fcmin來表示演化博弈期間合作水平Fc所能達到的最小值.
從圖7(a)可以看出α=1和α=3的Fcmin來對應的t大于α=0的Fcmin對應的t,圖7(b)中M也呈現(xiàn)出了和α相同的規(guī)律,M=1和M=3的Fcmin對應的t大于M=0的Fcmin對應的t.當M=0時,節(jié)點沒有記憶能力,節(jié)點隨機選擇鄰居進行博弈;當α=0時,節(jié)點的不同鄰居對節(jié)點的吸引力相同,節(jié)點也通過隨機的方式選擇鄰居進行博弈.可以得出結論,在演化博弈過程中,節(jié)點偏向于選擇與自己過往策略更相似的鄰居會使合作者社區(qū)形成得更慢.
不同的是,在圖7(a)中,當α從0增加到3時,Fcmin對應的t也顯著增加,且α=1和α=3所對應的Fcmin的值幾乎相等.在圖7(b)中,M=1和M=3時Fcmin對應的t相差很小,且M=1和M=3所對應的Fcmin的值相差很大.也就是說,偏向參數(shù)α對合作者社區(qū)形成所需要的時間有較大的影響,但最終合作者社區(qū)形成時,偏向參數(shù)α并不影響當時的合作水平.而記憶區(qū)長度M與偏向參數(shù)α相反,記憶區(qū)長度M對合作者社區(qū)形成所需要的時間影響較小,但最終合作者社區(qū)形成時,記憶區(qū)長度M對當時的合作水平有較大影響.
圖7 α和M對演化博弈過程的影響Fig.7 Influence of α and M on the evolutionary game process
此外,從圖7(a)和圖7(b)中可以看出,在演化博弈達到穩(wěn)態(tài)時,更大的α或更大的M對應著更大的t,也對應著更大的Fc.并且在圖7(a)中,不同的α對應的Fc相差較大;在圖7(b)中,不同的M對應的Fc相差較小.說明了當記憶區(qū)長度M和偏向參數(shù)α在適當?shù)膮^(qū)間內增加時,演化博弈達到穩(wěn)態(tài)所需要的時間更長,并且最終所能達到的合作水平更高,而偏向參數(shù)α對合作水平的影響要大于記憶區(qū)長度M對合作水平的影響.
本文提出了一種新的基于個體記憶以及個體過往策略相似度的偏向選擇機制,并且使用了囚徒困境博弈模型,在方格網(wǎng)絡上研究了該偏向選擇機制對合作的影響.結果顯示,當偏向參數(shù)α>0且取值在合適的范圍內,即個體偏向選擇過往策略更相似的鄰居進行博弈時,合作水平有非常明顯的提高,而當偏向參數(shù)α<0時,即個體偏向選擇過往策略差異較大的鄰居進行博弈時,合作受到抑制.對于給定的α,存在M使合作水平達到最大值.同時,該偏向選擇機制會增加演化博弈達到穩(wěn)態(tài)所需要的時間.并且α和M對演化博弈過程也有不同的影響.當M一定,α變化時,合作者社區(qū)形成得更慢,但并不影響合作者社區(qū)形成時的合作水平.而當α一定,M變化時,合作者社區(qū)形成所需要的時間相差不多,但當合作者社區(qū)形成時,合作水平會有很大的差別.