国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非自治的二人微分博弈*

2014-08-02 07:05:28張芬王源昌雷丹
關鍵詞:鞍點最優(yōu)控制性能指標

張芬, 王源昌, 雷丹

(云南師范大學 數學學院,云南 昆明 650500)

1 引 言

微分博弈可以分為:自治微分博弈、非自治微分博弈、協(xié)調微分博弈、主從微分博弈等.微分博弈策略問題起源于20世紀50年代,由于軍事、政治、經濟等方面的需要才逐漸的將現代控制理論中的一些概念和原理引入到博弈論中.也因此微分博弈的研究越來越受到廣泛的關注.

從微分博弈發(fā)展的角度來分析,不難發(fā)現運籌學中的博弈論和現代控制理論的最優(yōu)控制理論對其發(fā)展有著極大的推進作用.本文主要研究的是非自治微分博弈問題.對于在一個給定區(qū)間內的線性系統(tǒng)以及二次性能支付函數(或非二次性能支付函數),前人已經做了很多相關的研究[1-4].對于線性二次支付函數一般是結合黎卡提方程來給出最優(yōu)策略[5-6],而對于非二次線性支付函數一般是用擬黎卡提方程[7]來給出最優(yōu)策略.在用擬黎卡提方程求解的時候一般是結合閉環(huán)表示定理來給出其最優(yōu)策略的顯示表達式,而本文將通過利用雙方極值原理的方法給出最優(yōu)策略,然后和黎卡提方程相結合.其次本文的主要思路來自于文獻[8-12],尤運程[10]研究的是自治情況下的二人微分博弈,而本文研究的是非自治情況下的二人微分博弈.關于自治和非自治的區(qū)別[2]在后面說明.

通過整理可以知道:線性二次最優(yōu)控制問題是可以解到底的最優(yōu)控制問題;線性非二次最優(yōu)控制問題同樣很重要,但是大多數情況下都只是考慮自治的情況,而本文將考慮非自治情況.給定狀態(tài)方程[1-2]:

(1)

非自治和自治的主要區(qū)別在于狀態(tài)方程(1)中A(·)、B(·)、C(·)是否依賴于時間變量t,如果依賴于則稱其是非自治的,反之稱其是自治的.其中,A(·):[t0,T)→Rn×n,B(·):[t0,T)→Rn×m,C:[t0,T)→Rn×k,y(·)∈C([t0,T];Rn)的解初始狀態(tài)y0∈Rn,初始時間t0∈[0,+∞),而u(t)和v(t)分別是取值于Rm和Rk的函數.將X=L2(t0,T;Rn),Xc=C([t0,T];Rn),U=L2(t0,T;Rk)以及V=L2(t0,T;Rk)定義為所需要的函數空間.任何的{u,v}∈U×V稱為可以執(zhí)行的策略.

其性能指標函數形式如下:

(2)

其中h(·):Rn→R,且h(y(T))定義為C2(Rn)函數,R(t):[t0,T]→Rn×m,且R(t)定義為是m×m的正定矩陣,S:[t0,T]→Rn×k,且S(t)定義為是k×k的負定矩陣.

假設1.1[2]函數A(·),B(·)和C(·)滿足:

且控制區(qū)域U和V都是非空的.

對于式(1)的狀態(tài)方程和式(2)的性能指標函數,其中u∈U,是盡可能使性能指標函數J取極小可能值;對于v∈V,是盡可能地使性能指標函數J取極大可能值,亦即尋求最優(yōu)策略(u*,v*)使:

J(u*,v)≤J(u*,v*)≤J(u,v*)

(3)

如果滿足式(3)鞍點條件的(u*(t),v*(t))存在,則稱(u*(t),v*(t))為二人零和微分博弈問題的最優(yōu)對策,且稱(u*(t),v*(t))∈U×V是J的鞍點[4],對于所有的可行策略u∈U和v∈V.

根據最優(yōu)性能指標函數的定義得:

(4)

所以如果滿足上式的最優(yōu)策略存在[5-6],則稱J*=J(y0,u*,v*)為微分博弈的最優(yōu)指標[5,7-10].

2 用雙方極值原理求解最優(yōu)策略

在狀態(tài)方程(1)和性能指標函數(2)的基礎上,考慮下面的一個微分博弈問題,即將其時間取值于區(qū)間[τ,T]上,并且τ∈[t0,T]中的任意值,用(DGP)τ來重新定義狀態(tài)方程:

(5)

且其性能指標函數為:

(6)

其所要滿足的鞍點條件為:

Jτ(u*(t),v(t))≤Jτ(u*(t),v*(t))≤Jτ(u(t),v*(t))

(7)

現在問題轉化為尋找一對滿足不等式(7)的可行策略{u*,v*}.

假設2.1[10]對于任取的τ∈[t0,T],由(5),(6)和(7)定義的微分博弈問題存在一對鞍點策略.

從微分博弈問題的描述以及最優(yōu)策略的定義不難發(fā)現,微分博弈問題和最優(yōu)控制問題之間是緊密相關的,因此兩者間的處理方式是類似的.所以考慮用解決最優(yōu)控制問題的雙方極值原理(極大極小值原理)[11]來求解線性非二次微分博弈的最優(yōu)策略(u*(t),v*(t))∈U×V.

引進哈密爾頓函數H:

H(y,u,v,φ,t)=〈A(t)y(t)+B(t)u(t)+C(t)v(t),φ〉

(8)

利用雙極值原理,則可以得到如下形式的共軛方程和橫截面條件:

(9)

通過計算可得共軛方程的解如下:

(10)

因為H分別關于u、v是二階連續(xù)可微的,所以分別對H關于u,v求偏微分并且令其等于零,則可以知道最優(yōu)控制策略{u(t)*,v(t)*}應滿足下面的形式,即:

(11)

所以可以得到最優(yōu)策略對{u(t)*,v(t)*}的形式如下:

(12)

根據哈密爾頓函數的表達式可知,由上面所給出的u*(t)使哈密爾頓函數盡可能的取最小值;而v*(t)使哈密爾頓函數盡可能的取最大值,即滿足下面的等式:

(13)

通過利用常數變易公式給出如下形式的狀態(tài)軌跡方程:

(14)

在此將所求得的策略代入性能指標函數,通過計算得到其滿足鞍點條件,最后將滿足鞍點條件的策略{u*(t),v*(t)}代入上面的狀態(tài)軌跡y(t)中,當t∈[τ,T]便得到下式:

(15)

令(15)中的t=T便可以得到下式:

(16)

3 擬黎卡提方程

結合(15)式給出一個非線性代數方程,其形式如下:

(17)

現假設對于(17)式的左邊關于x求導所得到的I+G(T-τ)h''(x)是可逆的,從上式不難發(fā)現當x=y(T;y0,τ)=y(T)時就是方程(17)的一個解,對于每一個τ∈[t0,T],定義一個映射Kτ:Rn→Rn:

Kτ(x)=x+G(T-τ)h'(y(T))

(18)

假設3.1[10]設h是Rn上的解析函數,并且K是一直強制的關于τ,只要‖x‖→∞則‖Kτ(x)‖→∞.

引理3.2[10]在假設5和(17)下,對于每一個τ∈[t0,T],映射Kτ在Rn上是C1微分同胚映射.

引理3.3[12](隱函數的推廣)若:

①映射F(t,y,x)在以點(t0,y0,x(T))為內點的區(qū)間內是一階連續(xù)的可微映射;

②F(t0,y0,x)=0;

③映射F(t,y,x)關于t,y,x的偏導存在并且是線性同胚映射;

④映射Fx(t,y,x)≠0;

則在以點(t0,y0)為內點的領域內存在唯一的連續(xù)隱射f,使得f(T-t0,y0)=x(T)和F(t,y,f(T-t,y0))≡0,并且x=f(T-t,y)在以點(t0,y0)為內點的領域內存在連續(xù)偏導數:ft(T-t,y),fy(T-t,y):

ft(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Ft(t,y,f(T-t,y))

(19)

fy(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Fy(t,y,f(T-t,y))

(20)

證明先證隱映射f的存在性和唯一性.在點(t0,y0)附近存在點(t,y)滿足下式:

F(t,y,x)=Fx(t0,y0,x(T))(x-x(T))+R(t,y,x)

(21)

其中R(t,y,x)-R(t,y,x')=ο‖x-x'‖,并且(t,y,x)和(t,y,x')都取值于(t0,y0,x(T))附近,現在去尋求在點(t0,y0,x(T))附近的F(t,y,x)=0,因此考慮下面的映射:

(22)

其中At和Ay分別是關于(t,y)在(t0,y0)附近的壓縮映射[12],且其映射到在以x(T)為中心的極小范圍內.存在唯一的一個固定點x(T-t,y)關于At(x)和Ay(x),并且關于x是連續(xù)的,所以x(T-t0,y0)=x(T)以及F(t,y,x)=0.因此x(T-t,y)是唯一的一個具有前面四條性質的連續(xù)函數,對于任何其他這樣的函數必須要有一個固定點(At+Ay)x,因此只要令x(T-t,y)=f(T-t,y)便證得隱映射f是存在且唯一的.

再證(19)、(20)式,首先由于f(T-t,y)滿足Lipschitz連續(xù).由假設條件①-④知F(t,y,x)是在點(t0,y0,x(T))附近是一階可微映射,再加上一個‖h‖足夠光滑,則F(t,y,g(T-t,y))=F(t+h,y,g(T-t+h,y))=0關于(t,y,x)在點(t0,y0,x(T))附近成立.因此關于(t,y,g(T-t,y))展開F(t+h,y,g(T-t+h,y))得到:

‖Ft(t,y,f(T-t,y))+Fx(t,y,f(T-t,y))[f(T-t+h,y)-f(T-t,y)]‖

=ο(‖h‖+‖f(T-t+h,y)-f(T-t,y)‖)

(23)

由于Fx(t,y,g(T-t,y))是可逆的并且關于t連續(xù),所以:

‖[Fx(t,y,f(T-t,y)]-1Ft(t,y,f(T-t,y))h+[f(T-t+h,y)-f(T-t,y)]‖

=ο(‖h‖+‖f(T-t+h,y)-f(T-t,y)‖)

(24)

因此存在兩個獨立的變量,一個常數M和另一個h,使得‖f(T-t+h,y)-f(T-t,y)‖≤M‖h‖.現在由(23)、(24)式可知f(T-t,y)是可微的,所以對F(t,y,f(T-t,y))關于t求偏導可得:

Ft(t,y,f(T-t,y))+Fx(t,y,f(T-t,y))ft(T-t,y)=0

(25)

當Fx(t,y,f(T-t,y))≠0時,由(25)得到:

ft(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Ft(t,y,f(T-t,y))

同理可以用上面的方法證得:

fy(T-t,y)=-[Fx(t,y,f(T-t,y))]-1Fy(t,y,f(T-t,y))

證畢.

將方程(17)式中存在的唯一解x寫成是一個關于(t,y)是一階可微的映射H(T-·,·):[t0,T]×Rn→Rn,即

x=H(T-τ,y),τ∈[t0,T],y∈Rn

(26)

由于在(5)式中的τ是任意的,因此將(17)式中τ用t代替.定義下面的映射:

(27)

根據隱映射的條件可知F(t,y,x)是一個確定的隱映射,現在通過利用式(19)和(20)可以求出Ht、Hy,其中DKτ(x)=I+G(T-τ)h″(x)也是可逆的.

(28)

(29)

下面給出擬黎卡提方程[1]:

Pt(t,y)+Py(t,y)A(t)y+A*(t)P(t,y)-Py(t,y)(B(t)R-1(t)B*(t)

+C(t)S-1(t)C*(t))P(t,y)=0

(30)

其中(t,y)∈[0,T]×Rn.

終端條件為:

P(T,y)=h'(y) ,y∈Rn

(31)

(32)

分別對式(32)關于t、y求偏導,然后代入(30)式中,經過計算得到由式(32)所給出的P(t,y)是擬黎卡提方程的解,再由于其證明過程引自文獻[10],所以可知由雙方極值原理給出的策略是唯一的最優(yōu)策略,并且滿足鞍點條件.

4 實例分析

例4.1 考慮下面的微分博弈問題,其狀態(tài)方程為:

(33)

性能指標函數為:

(34)

式中:m為非零常數,r、s均為正常數,且T是固定的.

現在利用雙極值原理來求解線性非二次微分博弈問題(33)、(34)式的最優(yōu)策略{u*(t),v*(t)}.

首先構造哈密爾頓函數H:

(35)

由雙極值原理可得到共軛方程和橫截面條件為:

(36)

共軛方程的解為:

(37)

由(12)式可以得到最優(yōu)策略為:

(38)

將其代入性能指標函數可知,其對應的最優(yōu)性能指標滿足鞍點條件,即:

J(u*(t),v(t))≤J(u*(t),v*(t))≤J(u(t),v*(t))

(39)

故由式(38)所給的策略即為最優(yōu)策略.

5 結 論

根據最優(yōu)控制理論給出了非自治的二人微分博弈的線性系統(tǒng)和性能指標.在線性非二次自治微分博弈問題的基礎上,來考慮線性非二次微分博弈并時變(即非自治)的情況,然后利用雙方極值原理給出非二次微分博弈問題的最優(yōu)策略,最后利用擬黎卡提方程來檢驗所得策略是最優(yōu)策略且滿足鞍點條件.

在現有的非二次微分博弈基礎上,下一步可以考慮用擬黎卡提方程來求解線性二次微分博弈最優(yōu)策略和解決多人博弈的最優(yōu)策略.或者研究更復雜的情況,結合隨機因素來解決線性二次微分博弈或者線性非二次微分博弈.

參 考 文 獻:

[1] 潘立平.無限維線性-非二次最優(yōu)控制問題[J].數學年刊,1997,18(A):93-108.

[2] 雍炯敏,樓紅衛(wèi).最優(yōu)控制理論簡明教程[M].北京:高等教育出版社,2006.

[3] 郭鵬,楊曉琴.博弈論與納什均衡[J].哈爾濱師范大學:自然科學學報,2006,22(4):25-28.

[4] 朱懷念,張成科,孫佩紅,等.鞍點均衡策略在動態(tài)投入產出系統(tǒng)中的應用研究[J].系統(tǒng)科學學報,2013,21(2):94-96.

[5] 姜殿玉,劉廣智.二人零和連續(xù)對策上的判斷與最優(yōu)策略間的關系[J].運籌學學報,2004,8(2):17-23.

[6] 李樹榮,張強,雷陽,等.自由時間最優(yōu)控制問題的一種控制向量參數化方法[J].控制與決策,2011,26(7):1009-1013.

[7] YOU Y C.Quadratic integral games and causal synthesis[J].American Mathematical Society,1999,352(6):2737-2764.

[8] ANTIPIN A.Two-person game with nash equilibrium in optimal control problems[J].Optimal Letters,2012,6(7):1349-1378.

[9]ANTIPIN A.Extra-proximal methods for solving two-person nonzero-sum games[J].Mathematic Programming,sERIAL B,2009,120(1):147-177.

[10]YOU R C.Syntheses of differential games and pseudo-Riccati equations[J].Abstract and Applied Analysis,2002,7(2):61-83.

[11]ARONSSON G.On certain minimax problems and Pontryagin's maximum principle[J].Calculus of Variations,2010,37(1):99-109.

[12]BERGER M S.Nonlinearity and function analysis lectures on nonlinearity problems in mathematical analysis[M].New York:Academic Press,1977.

猜你喜歡
鞍點最優(yōu)控制性能指標
求解無約束函數局部鞍點的數值算法
條件平均場隨機微分方程的最優(yōu)控制問題
瀝青膠結料基本高溫性能指標相關性研究
石油瀝青(2021年1期)2021-04-13 01:31:08
帶跳躍平均場倒向隨機微分方程的線性二次最優(yōu)控制
Timoshenko梁的邊界最優(yōu)控制
含有二階冪零鞍點的雙同宿環(huán)附近的極限環(huán)分支
SKT不變凸非線性規(guī)劃的鞍點特征研究
經濟數學(2017年4期)2018-01-18 17:25:55
儲熱水箱分層性能指標的研究進展
制冷技術(2016年4期)2016-08-21 12:40:30
WebGIS關鍵性能指標測試技術研究
采用最優(yōu)控制無功STATCOM 功率流的解決方案
桓仁| 云林县| 即墨市| 信宜市| 漳平市| 乌海市| 桂平市| 绍兴县| 台东市| 诸城市| 哈巴河县| 滕州市| 井研县| 时尚| 涡阳县| 博爱县| 北海市| 临桂县| 黄冈市| 浦北县| 湟源县| 镇巴县| 德江县| 永善县| 金昌市| 封丘县| 莱阳市| 双鸭山市| 塔河县| 灵石县| 凯里市| 吉林市| 文山县| 九台市| 阳东县| 凤翔县| 盱眙县| 铜鼓县| 蒲江县| 吉隆县| 那坡县|