確定型多局域世界圖中Agent最優(yōu)策略解析

2016-02-17 08:23鄭小京徐緒松

管理科學(xué)學(xué)報(bào) 2016年1期

關(guān)鍵詞：局域微分收益

鄭湛，鄭小京，徐緒松

(1. 武漢紡織大學(xué)，武漢 430073； 2. 哈爾濱商業(yè)大學(xué)，哈爾濱 150076； 3. 武漢大學(xué)，武漢 430072)

確定型多局域世界圖中Agent最優(yōu)策略解析

鄭湛1，鄭小京2*，徐緒松3

(1. 武漢紡織大學(xué)，武漢 430073； 2. 哈爾濱商業(yè)大學(xué)，哈爾濱 150076； 3. 武漢大學(xué)，武漢 430072)

在短的time-scale中，在一個(gè)確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)下，用解析的方法確定復(fù)雜管理系統(tǒng)Agent的最優(yōu)策略.構(gòu)建了一個(gè)確定型多局域世界圖博弈模型，對(duì)確定型多局域世界圖，分兩種情況——局域內(nèi)Agent的合作博弈和局域之間的非合作博弈，討論Agent行為均衡解；并將局域內(nèi)Agent的合作隨機(jī)微分博弈與局域Super-Agent之間的非合作隨機(jī)微分博弈進(jìn)行了耦合.以確定復(fù)雜管理系統(tǒng)Agent的最優(yōu)策略.最后討論了最優(yōu)策略的穩(wěn)定性.

確定型；多局域世界圖； Agent的最優(yōu)策略；隨機(jī)微分博弈

0 引言

21世紀(jì)，復(fù)雜的管理系統(tǒng)普遍存在于現(xiàn)實(shí)生活中，如房地產(chǎn)、供應(yīng)鏈、區(qū)域經(jīng)濟(jì)、金融市場(chǎng)等，這類復(fù)雜管理系統(tǒng)，具有如下特征：1)系統(tǒng)具有一定的拓?fù)浣Y(jié)構(gòu)，人的行為與系統(tǒng)拓?fù)浣Y(jié)構(gòu)共同演化.2)系統(tǒng)由若干個(gè)相互作用的子系統(tǒng)構(gòu)成，每一個(gè)子系統(tǒng)的主體都為了一個(gè)共同的目標(biāo)而進(jìn)行合作，而不同的子系統(tǒng)之間又為了自身利益最大化而競(jìng)爭(zhēng).3)當(dāng)時(shí)間短時(shí)(短的time-scale)，系統(tǒng)中各個(gè)主體間的相互作用發(fā)生在一個(gè)確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)中，在系統(tǒng)中存在著合作與競(jìng)爭(zhēng)兩種情況，經(jīng)過相互作用，系統(tǒng)中的成員都能找到一個(gè)最優(yōu)策略.4)隨著時(shí)間的增長，系統(tǒng)自身的特性在不斷變化，為了提升自身的綜合競(jìng)爭(zhēng)能力以及盈利能力，或與其他主體創(chuàng)建新的關(guān)系，或斷開現(xiàn)有的聯(lián)系.當(dāng)時(shí)間長時(shí)(長的time-scale)，主體的最優(yōu)策略將隨著一個(gè)確定拓?fù)浣Y(jié)構(gòu)到下一個(gè)確定拓?fù)浣Y(jié)構(gòu)不斷發(fā)生變化，沒有一個(gè)確定的最優(yōu)策略，但是，最優(yōu)策略的分布特征可能存在.

鑒于復(fù)雜管理系統(tǒng)的復(fù)雜性，學(xué)者主要采用仿真的方法對(duì)復(fù)雜管理系統(tǒng)中的最優(yōu)策略進(jìn)行探索，分析系統(tǒng)特征以及系統(tǒng)與環(huán)境之間的相互關(guān)系，并獲得了一定的結(jié)論[1-5].由于仿真對(duì)于系統(tǒng)內(nèi)部運(yùn)行機(jī)制的處理，以及規(guī)則的發(fā)現(xiàn)具有一定的局限性，為了解決這一問題，筆者將基于人的行為的復(fù)雜管理系統(tǒng)抽象成多局域世界圖(稱為Super-Agent，其中的決策主體為Agent)，采用隨機(jī)微分博弈，研究系統(tǒng)中Agent的最優(yōu)策略[6-8].本文主要研究具有短的time-scale特征的、確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)下的Agent最優(yōu)策略.長的time-scale特征的、變化系統(tǒng)結(jié)構(gòu)下的Agent最優(yōu)策略的分布特征將在下篇論文中研究.

本文的研究思路是：首先給出預(yù)備知識(shí)，然后對(duì)確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)構(gòu)建一個(gè)確定型多局域世界圖博弈模型，再對(duì)確定型多局域世界圖，分兩種情況——局域內(nèi)Agent的合作博弈和局域之間的非合作博弈，討論Agent行為均衡解，獲得合作博弈的最優(yōu)策略，非合作博弈的Nash均衡策略.并將局域內(nèi)Agent的合作隨機(jī)微分博弈與局域Super-Agent之間的非合作隨機(jī)微分博弈進(jìn)行耦合，即將各個(gè)局域收益進(jìn)行合理分配.最后討論了最優(yōu)策略的穩(wěn)定性.

1 預(yù)備知識(shí)

1.1 定義

圖的子圖Ci∈(C1,C2,…,Cm)被定義為局域(Ci實(shí)際上是一個(gè)隨機(jī)矩陣)[9].如果

2)對(duì)于任意1≤i,j≤s,i≠j,

1.2 假設(shè)

假設(shè)1 假設(shè)基于人的行為的復(fù)雜管理系統(tǒng)由若干個(gè)子系統(tǒng)構(gòu)成，這些子系統(tǒng)稱之為局域.這些局域足夠大，使得每一個(gè)局域中可以容納足夠多數(shù)量的決策主體；同時(shí)，假定這些局域又足夠小，使得有足夠數(shù)量的局域在不斷進(jìn)行交互作用.

假設(shè)2 在一個(gè)短的時(shí)間范圍(time-scale)內(nèi)各個(gè)局域中的Agent之間以合作博弈機(jī)制進(jìn)行相互作用，在追求區(qū)域整體利益最大化的基礎(chǔ)上將收益進(jìn)行合理分配；而對(duì)于不同的、相互聯(lián)系的局域，他們之間按照非合作博弈機(jī)制進(jìn)行相互作用.

對(duì)應(yīng)于確定的拓?fù)浣Y(jié)構(gòu)的Agent合作/非合作博弈，系統(tǒng)的Agent行為有一個(gè)動(dòng)力學(xué)方程，該方程涉及到系統(tǒng)的Agent策略的各個(gè)參數(shù).該方程收斂到穩(wěn)態(tài)狀態(tài)時(shí)的最短時(shí)間為短的time-scale的下確界.

從假設(shè)1-假設(shè)2說明如下兩點(diǎn)：

1)在復(fù)雜管理系統(tǒng)中，有足夠多的主體在相互作用，參與管理組織的運(yùn)作.這一系統(tǒng)由兩個(gè)層次構(gòu)成，上層稱之為Super-Agent(局域)，下層稱之為Agent.每一個(gè)Super-Agent中還有若干個(gè)不同的Agent.

2)同一局域內(nèi)的Agent之間的相互作用關(guān)系是合作博弈，而不同局域之間的相互作用關(guān)系是非合作博弈.局域內(nèi)合作博弈的目的是為了達(dá)到局域內(nèi)Agent行為的協(xié)調(diào)化或同步，從而提高整個(gè)局域的綜合競(jìng)爭(zhēng)能力.而不同局域之間非合作博弈，將使得各個(gè)局域之間產(chǎn)生競(jìng)爭(zhēng)，于是，系統(tǒng)行為之間存在差異，這種差異使得系統(tǒng)不斷的創(chuàng)新.

2 博弈模型：確定型多局域世界圖

本文將確定的拓?fù)浣Y(jié)構(gòu)抽象為一個(gè)確定型多局域世界圖，各個(gè)Agent之間的博弈關(guān)系抽象成一個(gè)多局域世界圖中的隨機(jī)微分博弈模型，通過解析這一模型，確定系統(tǒng)中Agent的最優(yōu)策略.

將復(fù)雜管理系統(tǒng)中Agent相互作用之間的關(guān)系記為圖G，設(shè)圖G由m個(gè)子圖構(gòu)成(這些子圖都應(yīng)該屬于密集圖[10]，在文獻(xiàn)[11]的方法上實(shí)現(xiàn)分割)，子圖i中的第j個(gè)Agent為ji，則各個(gè)Agent之間相互作用的拓?fù)浣Y(jié)構(gòu)為其鄰接矩陣G=(G1,G2,…,Gm).

下面分別討論局域之內(nèi)Agent的合作博弈、局域之間Agent的非合作博弈、以及Agent之間的合作-非合作博弈.

考慮系統(tǒng)中每個(gè)Super-Agent的狀態(tài)約束，得隨機(jī)偏微分方程

(1)

其目標(biāo)方程為

(2)

方程(2)假定了行為的貼現(xiàn)因子函數(shù)為指數(shù)分布，大多數(shù)管理系統(tǒng)都滿足這一特征.

(3)

系統(tǒng)狀態(tài)及其變化為

3 確定型多局域世界圖中Agent行

為均衡解1：局域內(nèi)Agent的合作

博弈

對(duì)于第2節(jié)描述的靜態(tài)復(fù)雜管理系統(tǒng)中Agent之間的博弈，需要確定以下兩個(gè)重點(diǎn)：1)最優(yōu)化每一個(gè)局域的收益；2)對(duì)于任意的局域，需將獲得的最優(yōu)化收益進(jìn)行合理的分配.這兩個(gè)特征將會(huì)使得該復(fù)雜管理系統(tǒng)具有長期持續(xù)的綜合競(jìng)爭(zhēng)能力.

按照第1節(jié)中的假設(shè)，不同的Super-Agent之間的相互作用是非合作隨機(jī)微分博弈驅(qū)動(dòng)，同一局域內(nèi)的Agent之間的相互作用是以合作隨機(jī)微分博弈驅(qū)動(dòng).第3節(jié)和第4節(jié)將針對(duì)這兩種不同的行為進(jìn)行較為深刻的分析.

3.1 子系統(tǒng)的收益最大化

考慮任意一個(gè)局域i的合作隨機(jī)微分博弈，其局域的系統(tǒng)目標(biāo)為

(5)

系統(tǒng)狀態(tài)及其變化為

(6)

子系統(tǒng)收益最大化問題，有兩個(gè)問題需要解決，第一，是確定局域的最優(yōu)策略；第二，是在一個(gè)局域內(nèi)將各個(gè)Agent的利益進(jìn)行公平的分配[10-14].這兩個(gè)問題都是一個(gè)隨機(jī)優(yōu)化問題.不妨記模型(5)-(6)的最優(yōu)控制為Γ[Ni;t0,x0].

定理1給出了局域的最優(yōu)策略，解決了子系統(tǒng)收益最大化問題的第一個(gè)問題.

其邊界條件為

注釋1 1)由于合作隨機(jī)微分博弈模型(5)-(6)的最優(yōu)解非常難獲得，需要將這一博弈分解成兩部分來求解，第一部分就是整個(gè)局域的收益最大化，第二部分就是局域內(nèi)各個(gè)Agent所分配的收益合理.第一步主要描述的是集體理性約束條件，本質(zhì)上就是一個(gè)隨機(jī)微分優(yōu)化問題，定理1將這一問題的最優(yōu)解轉(zhuǎn)換為一個(gè)PDE的解，通過求解這一方程，就可以知道，該局域的最大收益，以及對(duì)應(yīng)的Agent的最優(yōu)策略狀態(tài).

2)所謂的策略，其實(shí)就是各種資源在某一個(gè)時(shí)間點(diǎn)上的最優(yōu)配置，這些資源包括人、資金、商品、信息等等.最優(yōu)策略與時(shí)間有關(guān)系，因此得到的最優(yōu)策略應(yīng)該是一個(gè)多維函數(shù)形成的軌跡.

3)系統(tǒng)收益最優(yōu)，實(shí)際上是整體收益最大，這時(shí)所得到的資源量等于局域內(nèi)所有Agent的資源量的總和，稱之為集中決策.

4)如果一個(gè)經(jīng)濟(jì)或管理組織，需要最小的努力在最大程度上實(shí)現(xiàn)某一目標(biāo)的價(jià)值，這個(gè)組織就需要將自己的資源合理的分配，達(dá)到一個(gè)最優(yōu)結(jié)構(gòu).這一最優(yōu)結(jié)構(gòu)的資源大小可通過定理1計(jì)算.

下面探討第二個(gè)問題.

方程(6)中考慮了Agentji與在同一局域內(nèi)的其他Agent之間的相互作用，這一相互作用依賴于系統(tǒng)的拓?fù)浣Y(jié)構(gòu)，當(dāng)且僅當(dāng)矩陣元素cjiki=1時(shí)，Agentji與Agentki之間的相互作用才能體現(xiàn)出來，才能形成合作關(guān)系，獲得多種合作聯(lián)盟所導(dǎo)致收益公平分配下的最優(yōu)策略.

同理，可以確定局域內(nèi)，Agent之間相互作用而形成的各種聯(lián)盟Ki最優(yōu)收益時(shí)對(duì)應(yīng)的各個(gè)Agent的策略，其對(duì)應(yīng)的方程為

(7)

(8)

模型(7)-(8)，可以得到最優(yōu)策略.

定理2給出了在一確定局域內(nèi)，由于Agent之間相互作用而形成的各種聯(lián)盟Ki最優(yōu)收益時(shí)的最優(yōu)策略，這就解決了子系統(tǒng)收益最大化問題的第二個(gè)問題.

2)每一個(gè)Agent可以參加任意的一個(gè)聯(lián)盟，當(dāng)k=1時(shí)，這一聯(lián)盟只有一個(gè)Agent.在不同的聯(lián)盟中，Agent可以獲得不同的收益，Agent通過綜合比較，確定自己能夠獲得最大收益的條件.當(dāng)然，參加任何一個(gè)聯(lián)盟與別的Agent進(jìn)行合作時(shí)所得到的收益應(yīng)該不低于這些最大收益的平均值.

3)在一個(gè)經(jīng)濟(jì)或管理系統(tǒng)中，局域中的參與者都可以參加任何一個(gè)聯(lián)盟，從而獲得一定的收益.獲得的最大收益、最優(yōu)的策略以及對(duì)應(yīng)的聯(lián)盟，可以通過定理2獲得.與定理1一樣，最優(yōu)策略與時(shí)間相關(guān)，其軌跡是一個(gè)函數(shù).

4)局域中Agent參加聯(lián)盟這一假設(shè)是必要的，描述了一種虛擬的聯(lián)盟形式.通過定理2，可以知道Agent所有可能的收益與策略的集合(局部最優(yōu)條件)所對(duì)應(yīng)的一個(gè)決策(分散決策).

定理2是Agent在局域內(nèi)分配收益時(shí)的基礎(chǔ).

3.2 局域內(nèi)收益的Shapley分配

對(duì)于局域內(nèi)Agent收益的分配，需要達(dá)到公平、合理、公正的效果，為此，提出以下條件：(1)所分配的收益之和必須等于局域最大收益；(2)對(duì)每一個(gè)Agent，參與合作所分配的收益應(yīng)該不小于不參與合作所得到的收益.前者稱作為集體理性，后者稱之為個(gè)體理性.對(duì)局域內(nèi)所有的Agent，他們都在力爭(zhēng)獲得更大的分配收益，從而引發(fā)了合作博弈.因此，合作博弈的關(guān)鍵在于設(shè)計(jì)一種合理的分配機(jī)制，使得每個(gè)Agent感受“合理”.

本文將采用動(dòng)態(tài)Shapley值法[15-21]，對(duì)任意局域內(nèi)的Agent的收益進(jìn)行分配，并確定其對(duì)應(yīng)的策略.下面根據(jù)研究對(duì)象，給出對(duì)應(yīng)的條件.

條件1

滿足下列分配向量的基本屬性：

其中Kiji是{ji}的補(bǔ)集.

ji∈Ni

(9)

(10)

(11)

為了實(shí)現(xiàn)這一構(gòu)造，給出定理3.

定理3Agentji∈Ni在時(shí)間τ∈[t0,T]的暫靜態(tài)分配收益等于

(證明略)

根據(jù)以上分析，得到1)Agentji將自己的收益水平努力提高到gji[s,xji,uji]，且qji(xji)正相關(guān)與收益xji.2)Agent能夠從與其他Agent形成聯(lián)盟的收益函數(shù)中獲得的關(guān)鍵收益將會(huì)導(dǎo)致

L?K?N

其中，KL是L在K中的補(bǔ)集.

定理3給出了Agent的暫靜態(tài)分配收益.為使得收益在Agent中合理分配，定理4將進(jìn)一步給出了滿足條件1的Agent暫靜態(tài)補(bǔ)償收益.

注釋3 1)當(dāng)一個(gè)局域收益達(dá)到最大時(shí)，即定理1得以滿足時(shí)，將使得整個(gè)局域的最大收益在局域內(nèi)各個(gè)Agent中合理分配.

2)對(duì)于任何一個(gè)Agent，進(jìn)入一個(gè)局域并能與其他Agent合作的條件是：參加合作得到的收益不低于獨(dú)立實(shí)現(xiàn)目標(biāo)所得到的收益.這要求每一個(gè)Agent努力發(fā)揮自己的核心競(jìng)爭(zhēng)力，并在定理3設(shè)計(jì)的機(jī)制下，通力合作，從而不僅使得整體的收益最大，而且使得自己的收益大于獨(dú)立運(yùn)營時(shí)得到的收益.體現(xiàn)了合作隨機(jī)微分博弈的意義.

3)與定理1、3.2節(jié)一致，分配到的收益是關(guān)于時(shí)間的一個(gè)映射，也是動(dòng)態(tài)的，并且形成了一個(gè)最優(yōu)分配的軌跡.

定理4Agentji∈Ni在時(shí)間τ∈[t0,T]能夠?qū)е聴l件1的暫靜態(tài)補(bǔ)償收益為

(證明略)

注釋4 定理4描述了當(dāng)系統(tǒng)中各個(gè)Agent的約束有差異的情況，其他的管理方面的解釋與定理3相同.

定理3與4描述了具有同質(zhì)指數(shù)分布這一特征的貼現(xiàn)因子函數(shù)，在系統(tǒng)中、同一局域內(nèi)各個(gè)Agent利益分配及補(bǔ)償?shù)那闆r.

4 確定型多局域世界圖中Agent行為均衡解2：局域之間Agent的非合

作博弈

4.1 非合作博弈下Super-Agent的均衡策略

本文將每一個(gè)局域抽象成為一個(gè)Super-Agent，假設(shè)整個(gè)系統(tǒng)可以分解成m個(gè)局域.按照前面的假設(shè)1-假設(shè)2， Super-Agent之間的相互作用是非合作隨機(jī)微分博弈Γ，本文將構(gòu)造非合作隨機(jī)微分博弈模型.

對(duì)于任意的Super-Agenti，其目標(biāo)可以確定為

i∈M

(12)

對(duì)應(yīng)的約束條件為 dxi(s)=fi[s,xi(s),ui(s)]ds+σi[s,xi(s)]dzi(s)，

(13)

對(duì)于每一個(gè)Super-Agent，他們之間的非合作隨機(jī)微分博弈應(yīng)該存在一個(gè)Nash均衡點(diǎn)，每個(gè)Super-Agent都會(huì)有自己的Nash策略，及其對(duì)應(yīng)的收益.

Vi(T,x)=qi(x),i∈N

(證明略)

4.2 Super-Agent的非合作與Agent的合作

耦合

第3節(jié)和第4.1節(jié)分別給出了局域內(nèi)的Agent合作博弈的最優(yōu)策略，以及Super-Agent非合作博弈的Nash均衡策略.第4.1節(jié)中，各個(gè)Super-Agent達(dá)到均衡狀態(tài)時(shí)的局域獲得的收益是Vi(t,x)∶[t0,T]×Rm→R，其中i∈M.顯然，這一收益并非將某一個(gè)Super-Agent孤立地進(jìn)行優(yōu)化之后獲得的收益，也就是并非Wi(t,x)∶[t0,T]×Rm→R，其中i∈M.但是在第3節(jié)的分析中，Agent的策略及收益來自于Wi(t,x)∶[t0,T]×Rm→R，并非是Vi(t,x)∶[t0,T]×Rm→R，即非合作與合作存在偏差.因此必須糾正這一偏差，稱之為非合作與合作的耦合.

命題1 設(shè)(X,d)是完備尺度空間，(Y,C)是Hausdorff序拓?fù)淇臻g且c0∈intC.設(shè)f∶X→Y是向量值映射且C-有下界.設(shè)對(duì)給定的ε>0和每一個(gè)x∈X，集合

1)f(xε)≤Cf(x0)

定理5 存在使得V(s,x,u)=φ(W(s,x,u))成立的函數(shù)φ(x)，對(duì)于貼現(xiàn)因子函數(shù)滿足同質(zhì)指數(shù)分布的經(jīng)濟(jì)與管理復(fù)雜自適應(yīng)系統(tǒng)，滿足

如果Γ為一個(gè)無限維反饋博弈，則φ(t,x)=exp[-r(t-t0)]x；

如果Γ為一個(gè)有限維反饋博弈，則φ(t,x)=o(exp[-r[t-t0]]xq)，且0

(證明略)

定理5將局域內(nèi)Agent的合作隨機(jī)微分博弈與局域Super-Agent之間的非合作隨機(jī)微分博弈進(jìn)行了耦合.通過耦合便可以直接將局域最優(yōu)化的結(jié)果修訂為局域Super-Agent之間的非合作隨機(jī)微分博弈的Nash均衡解，將其在局域內(nèi)進(jìn)行分配，從而實(shí)現(xiàn)復(fù)雜管理系統(tǒng)(多局域世界圖中合作-非合作博弈為相互作用機(jī)制)Agent的最優(yōu)策略及收益.

注釋5 1)通過定理5，可以知道在合作與非合作隨機(jī)微分博弈混合作用下，系統(tǒng)中任何一個(gè)Agent的策略與對(duì)應(yīng)的最大收益的表達(dá)方式.

2)定理5告訴人們，系統(tǒng)中任意一個(gè)Agent的最優(yōu)策略與最大收益依賴于以下特征：局域內(nèi)合作隨機(jī)微分博弈的收益與策略、實(shí)現(xiàn)目標(biāo)時(shí)的折扣因子、目標(biāo)函數(shù)以及自身資源的動(dòng)力學(xué)方程，也就是任何一個(gè)Agent的最優(yōu)策略與最大收益依賴于自身的特點(diǎn).

3)從管理意義上講，通過調(diào)查可以得到每一個(gè)Agent資源的行為規(guī)則、目標(biāo)函數(shù)以及初始條件，于是可以通過定理1～定理5便可以確定出該Agent的最優(yōu)策略及其最大收益，以指導(dǎo)整個(gè)管理系統(tǒng)的決策.

5 最優(yōu)策略的穩(wěn)定性

隨機(jī)微分博弈是一個(gè)動(dòng)態(tài)博弈，在系統(tǒng)隨著Agent之間的相互作用，以及受外部環(huán)境干擾時(shí)，將會(huì)發(fā)生動(dòng)態(tài)變化，當(dāng)且僅當(dāng)系統(tǒng)中的Agent行為(策略)收斂到一個(gè)比較恒定的值時(shí)，系統(tǒng)趨于穩(wěn)定，行為才能被稱之為“確定”的.這時(shí)只要出現(xiàn)“不和諧”的因素，將會(huì)使得整個(gè)系統(tǒng)發(fā)生相變.

在第3節(jié)和第4節(jié)對(duì)優(yōu)化問題、博弈問題求解的過程中，筆者將其轉(zhuǎn)化為一系列Bellman簇的方程，顯然，這些方程解的收斂性直接決定了博弈解的收斂性，因此，Agent的相互作用經(jīng)過某一段特定長的時(shí)間之后，其策略趨于一個(gè)穩(wěn)定的值.

因?yàn)槭諗刻匦杂擅枋鱿到y(tǒng)特性的Agent行為的約束條件，即狀態(tài)動(dòng)力學(xué)方程所對(duì)應(yīng)的偏隨機(jī)微分方程的收斂特性所決定[24].因此可以將問題轉(zhuǎn)換為對(duì)Agent狀態(tài)動(dòng)力學(xué)方程吸引子的解析.

對(duì)于一個(gè)一般系統(tǒng)

d[x(t)-G(xt)]=f(t,xt)dt+g(t,xt)dW(t)

(14)

定義1 嚴(yán)格正函數(shù)ψ(t)為ψ-函數(shù)，如果滿足ψ(0)=1,ψ(∞)=0，且對(duì)任意t≥-τ，ψ′(t)<0.

(15)

(16)

其中x(t)=x(t,ξ)是方程(14)的解.

引理2 不妨設(shè)存在常數(shù)κ∈(0,1)使得

|G(φ)|≤κ‖φ‖

(17)

對(duì)于所有的φ∈C([-τ,0],Rn).令

t≥0

(18)

下面定義其對(duì)應(yīng)的吸引子.

(19)

(20)

引理3 設(shè)(H)成立，假定存在函數(shù)V(t,x)∈C1,2(R+×Rn,R+),γ(t)∈L1(R+,R+)，u1(x),u2(x)∈C(Rn,R+)及∶[-τ,0]→R+，使得(s)ds=1.同時(shí)存在常數(shù)p≥1和c>0，使得

(21)

對(duì)于所有(t,φ)∈R+×C([-τ,0],Rn).假設(shè)

u(x)=u1(x)-u2(x)≥0，對(duì)所有x∈Rn，有

如果α=0，

(22)

如果α>0，

c|x|p≤V(t,x)

(23)

則ker(u)={x(t)∈Rn∶u(hα(t))=0}≠?，即

(24)

引理3表明hα(t)將以概率1無限次訪問ker(u)的鄰域，也就是說，ker(u)吸引hα(t)無限次，致使一些學(xué)者認(rèn)為ker(u)是hα(t)的弱吸引子.然而，這并不保證hα(t)最終被ker(u)吸引.

(證明略.強(qiáng)收斂性見定理6).

在引理3條件下，假定

(證明略).

以聯(lián)盟Ki?Ni為例描述同質(zhì)指數(shù)分布為貼現(xiàn)因子的對(duì)應(yīng)的方程，具體結(jié)果參見定理1.當(dāng)且僅當(dāng)定理1對(duì)應(yīng)的Bellman方程的解收斂時(shí)，系統(tǒng)內(nèi)Agent的Pareto-Nash最優(yōu)策略才能收斂到其吸引子.下面，確定這三個(gè)系統(tǒng)對(duì)應(yīng)的Lyapunov函數(shù)L(W(t,x)).

(25)

令ψ(t)=exp[-r(t-t0)]，由式(25)知道

(26)

不妨令p=1，φ(t)=x(t)，根據(jù)x(t)的特性，可知

這種情況下，系統(tǒng)最優(yōu)策略的收斂如圖1所示.

這就是說，在最優(yōu)控制綜合函數(shù)的作用下，系統(tǒng)從任意初態(tài)開始，以及遇到任意的擾動(dòng)，它都以最優(yōu)的方式運(yùn)行至終端x(T)，即獲得的最優(yōu)策略能夠收斂于吸引子.

圖1 隨機(jī)擾動(dòng)下系統(tǒng)中Agent最優(yōu)策略的穩(wěn)定性

6 結(jié)束語

本文研究基于人的行為的復(fù)雜管理系統(tǒng).在短的time-scale中，如何確定在一個(gè)確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)下Agent的最優(yōu)策略.提出了一個(gè)確定型多局域世界圖博弈模型，并對(duì)確定型多局域世界圖，分兩種情況討論Agent行為均衡解：(1)局域內(nèi)Agent的合作博弈；(2)局域之間的非合作博弈.分別獲得局域內(nèi)的Agent基于合作博弈的最優(yōu)策略，基于非合作博弈的Nash均衡策略.并將局域內(nèi)Agent的合作隨機(jī)微分博弈與局域Super-agent之間的非合作隨機(jī)微分博弈進(jìn)行了耦合，將收益在局域內(nèi)合理分配.最后討論了最優(yōu)策略的穩(wěn)定性.本文與以往研究不同之處是提出了在短的time-scale中，一個(gè)確定的系統(tǒng)拓?fù)浣Y(jié)構(gòu)下Agent的最優(yōu)策略確定的解析方法.

本文對(duì)在短的time-scale中Agent的最優(yōu)策略進(jìn)行了分析，這只是經(jīng)濟(jì)與管理復(fù)雜自適應(yīng)系統(tǒng)的開端.正如在假設(shè)中提出的那樣，可以看出，本文所研究的經(jīng)濟(jì)與管理復(fù)雜系統(tǒng)是從時(shí)間與空間兩個(gè)維度按照不同粒度對(duì)系統(tǒng)進(jìn)行分割的，即從空間上按照“物以類聚、人以群分”的思想分割成不同的子系統(tǒng)(從大的空間-scale看，小的空間scale被壓縮成一個(gè)個(gè)體)；從時(shí)間上按照系統(tǒng)結(jié)構(gòu)的固定與變化將系統(tǒng)發(fā)展分割成短的time-scale和長的time-scale兩種(從長的time-scale看，短的time-scale被壓縮成一個(gè)時(shí)間點(diǎn)).由于篇幅限制，本文并沒有針對(duì)長time-scale中Agent的最優(yōu)策略演化特征進(jìn)行分析，關(guān)于在長time-scale中變化系統(tǒng)結(jié)構(gòu)下Agent最優(yōu)策略的分布特征，將在后續(xù)的文章中給予翔實(shí)的分析.

[1]Ke Hu, Tao Hu, Yi Tang. Cascade defense via control of the fluxes in complex networks[J]. J. Stat. Phys., 2010, 141: 555-565.

[2]楊孟，傅新楚，吳慶初. 復(fù)雜網(wǎng)絡(luò)上帶傳播媒介SIS模型的全局穩(wěn)定性[J]. 系統(tǒng)工程學(xué)報(bào)， 2010， 25(6)： 767-773. Yang Meng, Fu Xinchu, Wu Qingchu. Global stability of SIS epidemic model with infective medium on complex networks[J]. Journal of Systems Engineering, 2010, 25(6): 767-773. (in Chinese)

[3]Gao Z, Kong D, Gao C. Modeling and control of complex dynamic systems: Applied mathematical aspects[J]. Journal of Applied Mathematics, 2012, 2012(4): 1-18.

[4]Sethna J P. Entropy, Order Parameters, and Complexity[M]. Oxford: Oxford University Press, 2006.

[5]Cao W, Chen G, Chen X. Optimal tracking agent: A new framework of reinforcement learning for multi-agent systems[J]. Concurrency and Computation： Practice and Experience, 2013, 25: 2002-2015.

[6]蔣國銀, 胡斌. 集成博弈和多智能體的人群工作互動(dòng)行為研究[J]. 管理科學(xué)學(xué)報(bào), 2011, 14(2): 29-41. Jiang Guoyin, Hu Bin. Study on interaction between group and work based on game and multi-agent[J]. Journal of Management Sciences in China, 2011, 14(2): 29-41. (in Chinese)

[7]龔日朝. 基于秩依期望效用理論的鷹鴿博弈均衡解分析[J]. 管理科學(xué)學(xué)報(bào)， 2012， 15(9): 35-45. Gong Rizhao. Nash equilibrium of hawk-dove game based on rank-dependent expected utility theory[J]. Journal of Management Sciences in China, 2012, 15(9): 35-45. (in Chinese)

[8]王先甲，全吉，劉偉兵. 有限理性下的演化博弈與合作機(jī)制研究[J]. 系統(tǒng)工程理論與實(shí)踐， 2011， 30(增刊1): 82-93. Wang Xianjia, Quan Ji, Liu Weibing. Study on evolutionary games and cooperation mechanism within the framework of boundedrationality[J]. Systems Engineering: Theory & Practice, 2011, 30(Sup1): 82-93. (in Chinese)

[9]Newman M E J. The structure and function of complex networks[J]. SIAM Review, 2003, 45(2): 167-256.

[10]陶少華，張向群. 復(fù)雜網(wǎng)絡(luò)自相似特征演化模型研究[J]. 計(jì)算機(jī)工程， 2012， 38(1)： 197-199. Tao Shaohua, Zhang Xiangqun. Research on self-similarity characteristic evolution model of complex network[J]. Computer Engineering, 2012, 38(1): 197-199. (in Chinese)

[11]Nepusz T, Negyessy L. Reconstructing cortical networks: Case of directed graphs with high level of reciprocity[M]. In: BelaBollobas, Robert Kozma, DeasoMiklos. Handbook of large-scale random networks. Hungary: Springer. 2008: 325-368.

[12]Cajueiro D O, Andrade R F S. Controlling self-organized criticality in complex networks[J]. The European Physical Journal B, 2010, 77: 291-296.

[13]王龍，伏鋒，陳小杰，等. 復(fù)雜網(wǎng)絡(luò)上的群體決策[J]. 智能系統(tǒng)學(xué)報(bào)， 2008， 3(2)： 95-107. Wang Long, Fu Feng, Chen Xiaojie, et al. Collective decision-making over complex networks[J]. CAAI Transactions on Intelligent Systems, 2008, 3(2): 95-107. (in Chinese)

[14]David Applebaum. Lévy Processes and Stochastic Calculus[M]. Cambridge: Cambridge University Press, 2009.

[15]Alòs E, León J A, Vives J. On the short-time behavior of the implied volatility for jump-diffusion models with stochastic volatility[J]. Finance and Stochastics, 2007, 11(4)： 571-589.

[16]杜曉君，馬大明，張吉. 基于進(jìn)化博弈的專利聯(lián)盟形成研究[J]. 管理科學(xué)， 2010， 23(2)： 38-44. Du Xiaojun, Ma Daming, Zhang Ji. Research on patent pool coalition based on evolutionary geme[J]. Journal of Management Science, 2010, 23(2): 38-44. (in Chinese)

[17]閆安，達(dá)慶利，裴鳳. 多個(gè)企業(yè)同時(shí)博弈的動(dòng)態(tài)古諾模型的長期產(chǎn)量解研究[J]. 管理工程學(xué)報(bào)， 2013， 27(1)： 94-98. Yan An, Da Qingli, Pei Feng. A study on the long-term produce solutions of dynamical model with multi-firms simultaneous-move game[J]. Journal of Industrial Engineering/Engineering Management, 2013, 27(1): 94-98. (in Chinese)

[18]Szikora P. Introduction into the literature of cooperative game theory with special emphasis on dynamic games and the core[J]. Proceedings-11th International Conference on Mangement, Enterprise and Benchmarking (MEB 2013), 2013.

[19]Yan Wu, Jin Yaochu, Liu Xiaoxiong. A directed search strategy for evolutionary dynamic multiobjective optimization[J]. Methodologies And Application, 2015, 19(11): 3221-3235.

[20]Javier Martínez-de-Albéniz F, Rafels C. Cooperative assignment gameswith the inverse Monge property[J]. Discrete Applied Mathematics, 2014: 162(1): 42-50.

[21]Friesz T L. Dynamic optimization and differential games[M]. New York: Springer, 2010.

[22]陳光亞. 優(yōu)化與均衡的等價(jià)性[J]. 系統(tǒng)科學(xué)與數(shù)學(xué)， 2009， 29(11)： 1441-1446. Chen Guangya. Equivalency between optima and equilibria[J]. Journal of Systems Science & Mathematical Sciences， 2009， 29(11)： 1441-1446. (in Chinese)

[23]朱亮，韓定定. 動(dòng)態(tài)復(fù)雜網(wǎng)絡(luò)的同步拓?fù)溲莼痆J]. 計(jì)算機(jī)應(yīng)用， 2012， 32(2): 330-334， 339. Zhu Liang, Han Dingding. Topological evolution on synchronization of dynamic complex networks[J]. Journal of Computer Applications， 2012， 32(2): 330-334， 339. (in Chinese)

[24]Bollobás B. Percolation, Connectivity, Converge and Coloring[M]. In: BélaBollobás, Robert Kozma, PezsóMiklás. Handbook of Large-Scale Random Networks, Hungary: Springer, 2008: 117-142.

[25]Bollobás B, Riordan O. Random graphs and branching process[M]. In: BélaBollobás, Robert Kozma, PezsóMiklás. Handbook of Large-Scale Random Networks. Hungary: Springer, 2008: 15-116.

[26]魏立峰，陳麗. 一類帶松弛控制的Hamilton-Jacobi-Bellman方程的粘性解[J]. 山東大學(xué)學(xué)報(bào)(理學(xué)版)， 2009， 44(12): 1-5. Wei Lifeng, Chen Li. Viscosity solutions of Hamilton-Jacobi-Bellman for the relaxed control[J]. Journal of Shandong University (Natural Science), 2009, 44(12): 1-5.(in Chinese)

[27]Cen Liqun, Dai Weixing, Hu Shigeng. Attraction and stability for neutral stochastic functional differential equations[J]. Wuhan University Journal of Natural Science, 2009, 14(3): 205-209.

[28]Samothrakis S, Lucas S, Runarsson T P, et al. Coevolving game-playing agents: Measuring performance and intransitivities[J]. Evolutionary Computation, IEEE Transactions on, 2013, 17(2): 213-226.

[29]郭英. 隨機(jī)Volterra積分方程相容解的穩(wěn)定性[J]. 應(yīng)用數(shù)學(xué)學(xué)報(bào)， 2011, 3(2): 331-340. Guo Ying. Stability of adapted solutions of stochastic volterraintegro-equations[J]. Acta Athematicae Applicatae Sinica, 2011, 3(2): 331-340. (in Chinese)

Optimal strategies of agents in deterministic multi-local-worlds graph

ZHENGZhan1，ZHENGXiao-jing2*，XUXu-song3

1. Wuhan Textile University, Wuhan 430073, China; 2. Harbin University of Commerce, Harbin 150076, China; 3. Wuhan University, Wuhan 430072, China

In a short time-scale, the optimal strategy of Agent for complex management systems is determined by using the analytic method in a deterministic system topology structure. A game model in the deterministic multi-local-worlds graph is constructed and the equilibrium solutions of Agents behavior are discussed for deterministic Multi-Local-Worlds graphs in two cases, which are the cooperative game between agents in the same local-world and non-cooperative game between agents in different Local-Worlds; The two different solutions with corresponding game models are coupled together to get the optimal strategies of Agents and the stability of the optimal strategy is discussed at the end of paper.

deterministic; multi-local-worlds graph; optimal strategies of agents; stochastic differential game

2014-08-12；

2015-10-28.

國家自然科學(xué)基金資助項(xiàng)目(71503188； 71040001； 70771083).

鄭小京(1975—)，男，陜西白水人，博士，副教授. Email： tkwiloi_75@126.com

F273.6

1007-9807(2016)01-0035-12

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

確定型多局域世界圖中Agent最優(yōu)策略解析

0 引 言

1 預(yù)備知識(shí)

2 博弈模型： 確定型多局域世界圖

3 確定型多局域世界圖中Agent行

4 確定型多局域世界圖中Agent行為 均衡解2： 局域之間Agent的非合

5 最優(yōu)策略的穩(wěn)定性

6 結(jié)束語

0 引言

2 博弈模型：確定型多局域世界圖

4 確定型多局域世界圖中Agent行為均衡解2：局域之間Agent的非合