国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

零行列式策略在雪堆博弈中的演化?

2018-01-11 03:05:22王俊芳郭進(jìn)利劉瀚沈愛忠
物理學(xué)報 2017年18期
關(guān)鍵詞:行列式穩(wěn)態(tài)收益

王俊芳 郭進(jìn)利 劉瀚 沈愛忠

1)(上海理工大學(xué)管理學(xué)院,上海 200093)

2)(華北水利水電大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,鄭州 450046)

3)(西京學(xué)院商貿(mào)技術(shù)系,西安 710123)

零行列式策略在雪堆博弈中的演化?

王俊芳1)2)郭進(jìn)利1)?劉瀚3)沈愛忠1)

1)(上海理工大學(xué)管理學(xué)院,上海 200093)

2)(華北水利水電大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院,鄭州 450046)

3)(西京學(xué)院商貿(mào)技術(shù)系,西安 710123)

零行列式策略,雪堆博弈,穩(wěn)態(tài)分布,瞬態(tài)收益

1 引 言

博弈論是數(shù)學(xué)的一個分支,它是研究具有競爭與合作現(xiàn)象的理論和方法.20世紀(jì)50年代美國數(shù)學(xué)家Nash[1,2]提出了著名的納什均衡,他指出當(dāng)個體理性與集體理性沖突時,個體追求利己行為而導(dǎo)致的最終結(jié)局是一個“納什均衡”.在納什的影響下,Smith和Price[3]提出了演化博弈,旨在研究具有學(xué)習(xí)能力的有限理性個體以個人利益最大化為目標(biāo)的群體博弈的演化穩(wěn)定策略和演化均衡[4,5]的動態(tài)過程.大量的學(xué)者研究網(wǎng)絡(luò)結(jié)構(gòu)對合作行為的影響,提出異質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)有助于合作的產(chǎn)生[6?12],并從策略角度提出具有記憶的WSLS(win stay,lost shift),TFT(tit-for-tat)、GTFT(generous tit-for-tat)、無記憶的全合作策略和全背叛策略,討論它們在重復(fù)博弈中的演化穩(wěn)定性[13?15]及它們促使合作[16]的演化行為.在眾多的策略中,沒有一個策略可以單方面決定對手收益.Press和Dyson[17]于 2012年首次提出的零行列式策略(zero-determinant strategy)不僅可以單方面設(shè)計對手的收益,還可以采取適當(dāng)?shù)牟呗员WC自己的收益為對方收益的倍數(shù),從而達(dá)到敲詐的目的,所以也稱敲詐策略.其優(yōu)勢受到了眾多學(xué)者的廣泛關(guān)注,人們在重復(fù)囚徒困境模型中集中研究零行列式策略的魯棒性[18]及零行列式策略與WSLS、全合作策略、全背叛策略、TFT策略在群體博弈中的演化穩(wěn)定性[19?23],并賦予節(jié)點(diǎn)不同的特性[23]討論其對演化的影響及如何改變參數(shù)促使合作涌現(xiàn).為提高其演化穩(wěn)定性,文獻(xiàn)[24—26]對零行列式策略提出了慷慨策略等其他子策略.零行列式策略的優(yōu)勢也被擴(kuò)展至多人[27]及連續(xù)策略[28]情形;文獻(xiàn)[29,30]將它們應(yīng)用到公共物品博弈、重復(fù)噪音博弈等領(lǐng)域.

上述一階記憶策略的收益都是基于遍歷的Markov鏈的穩(wěn)態(tài)分布計算的,在實(shí)際生活中,博弈雙方可能更新策略很快,它們之間的轉(zhuǎn)移矩陣也隨之更換很快,導(dǎo)致穩(wěn)態(tài)分布不易通過幾次博弈即可達(dá)成.收益的計算在博弈中是非常重要的,收益的高低決定策略是否被選擇,那么如果前期收益與穩(wěn)態(tài)收益有差別,雙方的期望收益能否直接用穩(wěn)態(tài)期望收益替代?雖然Press和Dyson[17]指出對手不可能通過反復(fù)變換策略,使得穩(wěn)態(tài)分布不能達(dá)到,從而破壞敲詐策略所設(shè)置的兩者收益的線性關(guān)系.但是其前提條件是博弈次數(shù)足夠大,也就是忽略前有限次博弈的影響,從而雙方收益的線性關(guān)系是建立在長時期內(nèi)平均收益之間的關(guān)系,但實(shí)際生活中,如果博弈次數(shù)不是足夠多,討論博弈前期的收益還是有必要的.另外進(jìn)化人與零行列式策略博弈的進(jìn)化結(jié)果都是基于仿真,并沒有理論的支撐.

本文首先論證進(jìn)化人與敲詐策略博弈時的部分進(jìn)化結(jié)果,通過仿真比較各種情況下的進(jìn)化速度并分析演化結(jié)果;著眼于博弈前期與穩(wěn)態(tài)期,給出雪堆博弈中敲詐策略與全合作策略的瞬態(tài)分布、瞬態(tài)收益及相對盈余;其次討論兩時期雙方收益的關(guān)系,實(shí)際敲詐因子的變化趨勢;最后討論敲詐因子對穩(wěn)態(tài)分布和達(dá)到穩(wěn)態(tài)所需博弈次數(shù)的影響.

2 雪堆博弈中的敲詐策略

雪堆模型中,A,B雙方采取合作C與背叛D的支付矩陣如表1所列.

表1 雪堆博弈雙方的支付矩陣Table 1.Payo ffmatrix in snowdrift games.

表1中0

雙方下輪采取合作的概率分別為

則狀態(tài)轉(zhuǎn)移矩陣為

其平穩(wěn)分布為v,由于矩陣P有單位特征根,令M=P?I,則|M|=0,其伴隨陣為M?,若rank(M)=3,則rank(M?)=1,且

這里rank(M)代表矩陣M的秩,則M?的每一行均與vT成比例.不妨設(shè)最后一行為N,由平穩(wěn)分布的定義得

設(shè)M矩陣的最后一列為m,則

所以

其中

將矩陣的最后一列替換為向量SA?xSB,則A,B的穩(wěn)態(tài)期望收益的線性函數(shù)為

即A的收益為B的收益的x倍,當(dāng)x>1時,A達(dá)到敲詐B的目的,稱x為敲詐因子.

3 進(jìn)化人在敲詐策略下的演化

一般情況下,敲詐策略與對手B博弈時,B的收益

記行列式D(p,q,SB)為D1,其余子式為Mij,D(p,q,1)的余子式為則

由于矩陣M與D1的第四列的代數(shù)余子式相同,且M的第四列的代數(shù)余子式均與平穩(wěn)分布vT成比例,所以D1的第四列的代數(shù)余子式與vT成比例,由于vT的各元素為概率,所以同號,也即D1的第四列的代數(shù)余子式同號,所以M44與M14異號.

所以

作為理性的進(jìn)化人B,剛開始博弈時,并不知道采取什么策略會使得自己的收益最大,設(shè)初始策略為全背叛策略,不斷調(diào)整自己的策略q=(q1,q2,q3,q4)使自己的收益得到提高,調(diào)整的(原則是根據(jù)其收益)sB關(guān)于四個變元的梯度的正(負(fù))方向增加(減少)合作的概率.由(12)式知,進(jìn)化人B在雙方背叛的情況下,會持續(xù)增加合作概率,最終調(diào)整為合作策略,對于其他三種情況下合作概率的調(diào)整可參見仿真圖1.設(shè)定參與人B調(diào)整的幅度與該狀態(tài)下的梯度大小成正比.比較四條曲線變化的快慢可知,如果進(jìn)化人初始時刻采取全背叛策略,進(jìn)化人在其背叛狀態(tài)下,下輪馬上轉(zhuǎn)化為合作,其次為敲詐者背叛而進(jìn)化人合作,進(jìn)化速度最慢的為雙方均合作情形,最終四種情形下均進(jìn)化為合作策略.上述結(jié)論是基于進(jìn)化人對零行列式策略不知情,追求自身收益最大化的進(jìn)化結(jié)果;一旦進(jìn)化人掌握了零行列式策略,他可能為了收益繼續(xù)保持合作,也可能效仿對手,也采取零行列式策略,這時雙方就會轉(zhuǎn)化為談判階段,這里不再展開討論.

圖1 (網(wǎng)刊彩色)進(jìn)化人在四種狀態(tài)下的合作概率曲線Fig.1.(color online)Cooperation probability curves of evolutionary in the four states.

其中P為滿足(6)式的敲詐策略.由圖1可知,進(jìn)化人根據(jù)梯度的方向調(diào)整合作的概率確實(shí)能找到使得自身的收益達(dá)到最大的策略——全合作策略,敲詐者A和全合作者B的穩(wěn)定的平均收益為

仿真結(jié)果表明敲詐策略能促使對方合作,但自身并不會完全合作,這樣的策略組合是否為納什均衡呢?

則敲詐策略為

由于

苗木作為人工造林的基礎(chǔ),其質(zhì)量對人工造林的成功起著關(guān)鍵作用。選擇中年樹木作為母樹,可以充分利用其豐富的營養(yǎng)和較短的果期,保證苗木質(zhì)量。在苗期,由于其根系較弱,但生長速率較低。快,所以需要很多水。同時,幼苗對生長環(huán)境也有一定的要求。因此,在育苗時,有關(guān)人員應(yīng)做好監(jiān)督管理工作,充分保證苗木的水肥供應(yīng)。造林用苗木具有不同的成分,不同苗木的生存和生長。因此,針對不同的苗木,應(yīng)采取不同的栽培技術(shù),以保證苗木的存活。

其中X?為全背叛策略,很明顯(P?,Y?)不是該博弈的納什均衡,所以敲詐策略只是一個促使合作的催化劑,但若A堅持敲詐策略,該演化結(jié)果可以持續(xù)下去.

4 零行列式與全合作策略重復(fù)博弈的時變演化

以上所談的雙方收益都是基于n階狀態(tài)轉(zhuǎn)移矩陣達(dá)到穩(wěn)定狀態(tài)下討論的,但是從博弈的初始狀態(tài)至穩(wěn)態(tài)是需要時間的,即需要經(jīng)過數(shù)次博弈才能使得CC,CD,DC,DD四種狀態(tài)的概率趨于穩(wěn)定,然而實(shí)際生活中,人是會不斷學(xué)習(xí)的,如果策略更新很快,博弈者之間的轉(zhuǎn)移矩陣也不斷更換,很難在幾次博弈下就達(dá)到穩(wěn)態(tài),而博弈前期的收益與穩(wěn)態(tài)下的收益是有出入的.下面著眼于博弈前期,討論博弈狀態(tài)的瞬態(tài)分布與瞬態(tài)收益,其更接近生活中的博弈收益,并探求接近穩(wěn)態(tài)需要的博弈次數(shù)n與敲詐因子的關(guān)系,為傳統(tǒng)收益的應(yīng)用提供一個借鑒條件.

4.1 敲詐策略與全合作策略博弈初期和穩(wěn)態(tài)期的狀態(tài)的瞬態(tài)分布及瞬態(tài)收益

敲詐者與全合作者初次博弈時沒有上次的博弈信息可以參考,不妨設(shè)第0次博弈的四種狀態(tài)各占0.25,由全概率公式,初始博弈敲詐者合作的概率

由于對方必合作,所以第一次博弈雙方狀態(tài)的分布

則敲詐者與全合作者的狀態(tài)轉(zhuǎn)移矩陣為

該一階轉(zhuǎn)移矩陣的元素均為正,則該Markov鏈為遍歷的,n步轉(zhuǎn)移矩陣

給定一個初始狀態(tài),經(jīng)過n次博弈,其狀態(tài)分布滿足得

穩(wěn)定狀態(tài)的分布

結(jié)合(14)和(15)式,第n次博弈時雙方受益表示為

由于敲詐因子反映了穩(wěn)態(tài)時期敲詐策略與全合作策略的相對盈余,博弈初期的收益與穩(wěn)態(tài)期不同,記實(shí)際敲詐因子xn為第n次博弈時敲詐策略與全合作策略的相對盈余,則

4.2 博弈的狀態(tài)分布、收益與博弈次數(shù)及敲詐因子的關(guān)系

圖2 (網(wǎng)刊彩色)(a)前四期與穩(wěn)態(tài)情況下雙方合作的概率曲線;(b)前四期與穩(wěn)態(tài)情況下敲詐策略的收益曲線Fig.2.(a)The probability curves of cooperation in the previous four states and steady state;(b)the payo ffcurves of zero-determinant strategy in the previous four states and steady state.

由(14)和(15)式知,雙方收益與敲詐者實(shí)施的策略(p1,p2,p3,p4)中的參數(shù)φ及r無關(guān),但穩(wěn)定狀態(tài)vCC關(guān)于敲詐因子單調(diào)遞減,敲詐因子越大,B的收益越低,A的收益越高.這是因?yàn)?在大的敲詐因子下,敲詐方在明知對方一定合作的情形下,一定會減少合作的概率,而坐享收益,敲詐方就是通過合適的策略使得對方必須合作,再經(jīng)常背叛善良的合作方,而達(dá)到遠(yuǎn)遠(yuǎn)高于對方的收益.

現(xiàn)實(shí)生活中,大的生產(chǎn)商經(jīng)常采取敲詐策略與小的零件供貨商博弈,小的零件商為追求自身利益不得不和生產(chǎn)商合作,生產(chǎn)商不應(yīng)該一味追求高的利潤而一味敲詐對方,當(dāng)被敲詐因子過大時,全合作者利潤過小,達(dá)到底線時,就會采取背叛或放棄與大公司的博弈,而選擇其他對手,這樣都會使得敲詐者的收益受損,所以當(dāng)對方完全合作時,應(yīng)該適當(dāng)降低敲詐,激勵對方,從而達(dá)到共贏的目的.

名義敲詐因子x是敲詐策略擁有者想從合作者處獲得巨額利潤的預(yù)期值.由圖3知,給定r=0.5時,當(dāng)名義敲詐因子小于2.457時,博弈初期,敲詐者與合作者盈余比(實(shí)際敲詐因子)是高于敲詐者的預(yù)期的,經(jīng)過幾次博弈后,逐漸遞減至預(yù)期值;當(dāng)名義敲詐因子高于2.457時,初期的盈余比低于預(yù)期盈余比,并逐漸增加至預(yù)期值;當(dāng)?shù)扔?.457時,整個博弈期不變.

圖3 (網(wǎng)刊彩色)實(shí)際敲詐因子的變化曲線Fig.3.(color online)The curves of real extortion factor.

4.3 趨于穩(wěn)定狀態(tài)所需博弈次數(shù)與敲詐因子的關(guān)系

前面討論了博弈初期的狀態(tài)與博弈次數(shù)及敲詐因子的關(guān)系,穩(wěn)態(tài)分布是一個極限分布,所以考慮博弈結(jié)果無限接近穩(wěn)態(tài)只需要誤差足夠小即可,下面討論在一定誤差范圍內(nèi),接近穩(wěn)態(tài)所需博弈次數(shù)與敲詐因子的關(guān)系.

定理敲詐策略與全合作策略博弈達(dá)到穩(wěn)態(tài)分布所需博弈次數(shù)與敲詐因子成正比.

證明設(shè)當(dāng)Qn?Q?的每個元素的絕對值均小于足夠小的ε時,則狀態(tài)趨于穩(wěn)定,

總之,敲詐因子越大,達(dá)到穩(wěn)定狀態(tài)所需的博弈次數(shù)越多.接近穩(wěn)態(tài)所需博弈次數(shù)與敲詐因子的關(guān)系如圖4(b)所示.

圖4 (網(wǎng)刊彩色)(a)狀態(tài)轉(zhuǎn)移矩陣與其極限的偏差曲線圖;(b)接近穩(wěn)態(tài)所需博弈次數(shù)(ε=1×10?5=0.5)Fig.4.(a)The curves of deviation between transfer matrix and it’s limitation;(b)game times to steady state(ε=1×10?5=0.5).

5 實(shí)例研究

目前我國秋冬季節(jié)環(huán)境污染越來越嚴(yán)重,特別是北方地區(qū),環(huán)境治理刻不容緩,但是環(huán)境治理的成效又受到周邊環(huán)境的影響,目前以地方政府為主體的經(jīng)濟(jì)競爭模式導(dǎo)致地方政府放松對環(huán)境監(jiān)管及治理的行為.因此地方政府對環(huán)境治理的態(tài)度直接影響著自身與周邊地區(qū)的利益,地方政府間的博弈矩陣見表2.

表2 地方政府間污染治理支付矩陣Table 2.Payo ff s of two local governments in pollution management.

該博弈中,如果地方政府1治理,地方政府2的最佳策略為不治理,如果地方政府1不治理,則地方政府2的最佳策略為治理.如果地方政府2更追求經(jīng)濟(jì)效益,而經(jīng)常搭便車,會使得地方政府1不得不必須采取治理策略以保證更大的經(jīng)濟(jì)與生態(tài)的加權(quán)收益.在重復(fù)博弈中,基于這樣的兩主體,地方政府1非常被動,如果政府1采取零行列式策略是可以改變這種困境的.不妨設(shè)敲詐因子x=2,=0.3,在上輪雙方為(治理,治理),(治理,不治理),(不治理,治理),(不治理,不治理)時,政府1下輪采取治理的概率分別為

即可.如果政府2分別采取總不治理(All D)、等概率隨機(jī)選擇治理(Random)、總治理(All C)的策略,雙方的穩(wěn)態(tài)收益及政府2采取總治理策略時雙方的即時收益見表3.

表3 政府1與政府2的即時收益與穩(wěn)態(tài)收益Table 3.The transient incomes of two local governments.

由表3知,在地方政府1的零行列式策略下,地方政府2的最佳策略為全合作,即總是治理污染.因此政府1有效地發(fā)揮了政府2的主觀能動性,保證污染總是被治理,同時自身也是以很大概率承擔(dān)治理污染的責(zé)任,改變了政府2總是搭便車的格局.其次,該策略相對于TFT策略懲罰對手要溫和一些,TFT對手的一次背叛引發(fā)其永久背叛,而零行列式策略遭遇對手背叛時仍能以一定概率合作,這就使得合作局面容易形成;并且實(shí)施零行列式策略者可以保證收益總是高于對手,如果設(shè)定的敲詐因子不是太大的話,前期他的收益要高于并逐漸逼近于穩(wěn)定狀態(tài)的收益.

6 結(jié) 論

1)在雪堆博弈中,論證了進(jìn)化人與零行列式策略博弈時,如果進(jìn)化人采取背叛策略,下輪博弈會很快進(jìn)化為合作策略,并最終進(jìn)化為全合作策略.結(jié)果表明零行列式策略是促使合作的手段,但并非一個均衡的結(jié)果.

2)當(dāng)敲詐因子較小時,敲詐者的收益是逐次降低趨近穩(wěn)態(tài)收益,敲詐者與全合作者相對盈余是高于并逐漸收斂到穩(wěn)定狀態(tài)的相對盈余,敲詐因子過大時,情況截然相反.

3)無論是博弈初期還是穩(wěn)態(tài)期,高的敲詐因子都不利于敲詐者與全合作者雙方相互合作.

[1]Nash J F 1950PNAS36 48

[2]Nash J F 1951Ann.Math.54 286

[3]Smith J M,Price G R 1973Nature246 15

[4]Nowak M,Sigmund K 1990Acta Appl.Math.20 247

[5]Rodriguez I N,Neves A G M 2016J.Math.Biol.73 1665

[6]Xiang H T,Liang S D 2015Acta Phys.Sin.64 018902(in Chinese)[向海濤,梁世東 2015物理學(xué)報 64 018902]

[7]Szabó G,Fáth G 2007Phys.Rep.446 97

[8]Zhang J J,Ning H Y,Yin Z Y,Sun S W,Wang L,Sun J Q,Xia C Y 2012Front.Phys.7 366

[9]Wu Y H,Li X,Zhang Z Z,Rong Z H 2013Chaos Soliton.Fract.56 91

[10]Yang H X,Wang B H 2012J.Univ.Shanghai Sci.Technol.34 166(in Chinese)[楊涵新,汪秉宏 2012上海理工大學(xué)學(xué)報34 166]

[11]Xu B,Li M,Deng R P 2015Physica A424 168

[12]Newth D,Cornforth D 2008Artif.Life Robot.12 329

[13]Nowak M 1990Theor.Popul.Biol.38 93

[14]Lorberbaum J 1994J.Theor.Biol.168 117

[15]Imhof L A,Fudenberg D,Nowak M A 2007J.Theor.Biol.247 574

[16]Yi S D,Baek S K,Choi J K 2017J.Theor.Biol.412 1

[17]Press W H,Dyson F J 2012PNAS109 10409

[18]Chen J,Zinger A 2014J.Theor.Biol.357 46

[19]Adami C,Hintze A 2013Nat.Commun.4 2193

[20]Stewart A J,Plotkin J B 2013PNAS110 15348

[21]Hao D,Rong Z H,Zhou T 2014Chin.Phys.B23 078905

[22]Szolnoki A,Perc M 2014Phys.Rev.E89 022804

[23]Xu B,Lan Y N 2016Chaos Soliton.Fract.87 276

[24]Rong Z H,Zhao Q,Wu Z X,Zhou T,Chi K T 2016Eur.Phys.J.B89 166

[25]Li Y,Xu C,Liu J,Hui M P 2016Int.J.Mod.Phys.C27 306

[26]Liu J,Li Y,Xu C,Hui P M 2015Physica A430 81

[27]Hilbe C,Wu B,Traulsen A,Nowak M A 2014PNAS111 16425

[28]Mcavoy A,Hauert C 2016PNAS113 3573

[29]Pan L M,Hao D,Rong Z H,Zhou T 2015Sci.Rep.5 13096

[30]Hao D,Rong Z H,Zhou T 2015Phys.Rev.E91 052803

Evolution of zero-determinant strategy in iterated snowdrift game?

Wang Jun-Fang1)2)Guo Jin-Li1)?Liu Han3)Shen Ai-Zhong1)

1)(Business School,University of Shanghai Science and Technology,Shanghai 200093,China)
2)(School of Mathematics and Statistics,North China University of Water Resources and Electric Power,Zhengzhou 450046,China)
3)(Trade and Technology Department,Xijing University,Xi’an 710123,China)

17 March 2017;revised manuscript

30 May 2017)

Zero-determinant strategy can set unilaterally or enforce a linear relationship on opponent’s income,thereby achieving the purpose of blackmailing the opponent.So one can extort an unfair share from the opponent.Researchers often pay attention to the steady state and use the scores of the steady state in previous work.However,if the player changes his strategy frequently in daily game,the steady state cannot attain easily.It is necessary to attain the transient income if there is a difference in income between the previous state and the steady state.In addition,what will happen if evolutionary player encounters an extortioner?The evolutionary results cannot be proven,just using the simulations in previous work.Firstly,for the iterated game between extortioner and cooperator,we introduce the transient distribution,the transient income,and the arrival time to steady state by using the Markov chain theory.The results show that the extortioner’s payo ffin the previous state is higher than in the steady state when the extortion factor is small,and the results go into reverse when the extortion factor is large.Furthermore,the larger the extortion factor,the harder the cooperation will be.And the small extortion factor conduces to approaching the steady state earlier.The results provide a method to calculate the dynamic incomes of both sides and give us a time scale of reaching the steady state.Secondly,for the iterated game between extortioner and evolutionary player,we prove that the evolutionary player must evolve into a full cooperation strategy if he and his opponent are both defectors in the initial round.Then,supposing that the evolutionary speed is proportional to the gradient of his payo ff,we simulate the evolutionary paths.It can be found that the evolutionary speeds are greatly different in four initial states.In particular,the evolutionary player changes his strategy into cooperation rapidly if he defects in the initial round.He also gradually evolves into a cooperator if he cooperates in the initial round.That is to say,the evolutionary process relates to his initial behavior,but the result is irrelevant to his behavior.It can be concluded that the zero-determinant strategy acts as a catalyst in promoting cooperation.Finally,we prove that the set of zero-determinant strategy and fully cooperation is not a Nash equilibrium.

zero-determinant strategy,snowdrift game,stationary distribution,transient income

PACS:02.50.Le,87.23.Ge,89.75.Fb,02.50.GaDOI:10.7498/aps.66.180203

*Project supported by the National Natural Science Foundation of China(Grant No.71571119)and the Young Scientists Fund of the National Natural Science Foundation of China(Grant No.11501199).

?Corresponding author.E-mail:phd5816@163.com

(2017年3月17日收到;2017年5月30日收到修改稿)

零行列式策略不僅可以單方面設(shè)置對手收益,而且可以對雙方的收益施加一個線性關(guān)系,從而達(dá)到敲詐對手的目的.本文針對零行列式策略博弈前期與穩(wěn)態(tài)期的收益存在偏差,基于Markov鏈理論給出零行列式策略與全合作策略博弈的瞬態(tài)分布、瞬態(tài)收益及達(dá)到穩(wěn)態(tài)所需時間.發(fā)現(xiàn)在小的敲詐因子下,敲詐者前期收益高于穩(wěn)態(tài)期收益,敲詐因子較大時,情況截然相反,并且敲詐因子越大,越不利于雙方合作,達(dá)到穩(wěn)態(tài)也越慢.這為現(xiàn)實(shí)生活中頻繁更新策略的博弈提供了一種計算實(shí)時收益的方法.此外針對敲詐策略與進(jìn)化人的博弈,論證了雙方均背叛狀態(tài)下,進(jìn)化人下次博弈時一定進(jìn)化為全合作策略.通過對所有狀態(tài)下策略更新過程仿真,發(fā)現(xiàn)進(jìn)化人在四種情況下的進(jìn)化速度有顯著差異,并最終演化為全合作策略,表明零行列式策略是合作產(chǎn)生的催化劑.

10.7498/aps.66.180203

?國家自然科學(xué)基金(批準(zhǔn)號:71571119)和國家自然科學(xué)基金青年科學(xué)基金(批準(zhǔn)號:11501199)資助的課題.

?通信作者.E-mail:phd5816@163.com

猜你喜歡
行列式穩(wěn)態(tài)收益
可變速抽水蓄能機(jī)組穩(wěn)態(tài)運(yùn)行特性研究
碳化硅復(fù)合包殼穩(wěn)態(tài)應(yīng)力與失效概率分析
電廠熱力系統(tǒng)穩(wěn)態(tài)仿真軟件開發(fā)
煤氣與熱力(2021年4期)2021-06-09 06:16:54
螃蟹爬上“網(wǎng)” 收益落進(jìn)兜
行列式解法的探討
元中期歷史劇對社會穩(wěn)態(tài)的皈依與維護(hù)
中華戲曲(2020年1期)2020-02-12 02:28:18
n階行列式算法研究
加項行列式的計算技巧
考試周刊(2016年89期)2016-12-01 12:38:39
2015年理財“6宗最”誰能給你穩(wěn)穩(wěn)的收益
金色年華(2016年1期)2016-02-28 01:38:19
東芝驚爆會計丑聞 憑空捏造1518億日元收益
IT時代周刊(2015年8期)2015-11-11 05:50:38
武夷山市| 大英县| 开封市| 龙里县| 砚山县| 上林县| 枞阳县| 大理市| 中西区| 邵阳市| 札达县| 山东省| 弥渡县| 旬阳县| 万全县| 扶沟县| 安仁县| 美姑县| 普兰县| 蓬溪县| 平江县| 双牌县| 定南县| 微山县| 汉源县| 太白县| 罗山县| 长岭县| 武川县| 榆社县| 镇康县| 延寿县| 张掖市| 璧山县| 侯马市| 开江县| 兴城市| 永川市| 宝应县| 昌吉市| 平阴县|