一種基于無限時(shí)域無模型的在線Q學(xué)習(xí)算法

2022-02-22 05:47代曉清

電光與控制 2022年2期

代曉清，趙旭

(1.成都師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院，成都 611000; 2.南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院，南京 210000)

0 引言

為了結(jié)合最優(yōu)控制與自適應(yīng)控制的優(yōu)點(diǎn)，可以借鑒機(jī)器學(xué)習(xí)中強(qiáng)化學(xué)習(xí)的思想。強(qiáng)化學(xué)習(xí)[1-3]需要自適應(yīng)地處理動(dòng)態(tài)變化的環(huán)境，最優(yōu)控制理論中的近似動(dòng)態(tài)規(guī)劃[4-5]被證明是一個(gè)有效的、以自適應(yīng)方式解決強(qiáng)化學(xué)習(xí)問題的方法。

基于近似動(dòng)態(tài)規(guī)劃的Q學(xué)習(xí)算法是根據(jù)馬爾可夫決策過程而設(shè)計(jì)的一種強(qiáng)化學(xué)習(xí)方法[5]，可被視為一種收斂的最優(yōu)直接自適應(yīng)控制算法。Q學(xué)習(xí)算法的最大優(yōu)點(diǎn)是不需要環(huán)境模型，且對(duì)于任何有限馬爾可夫決策過程，最終都能找到一個(gè)最優(yōu)策略。

現(xiàn)有文獻(xiàn)關(guān)于Q學(xué)習(xí)算法的研究大多基于有限時(shí)域的離散系統(tǒng)[5-7]。文獻(xiàn)[5]對(duì)強(qiáng)化學(xué)習(xí)理論及Q學(xué)習(xí)算法進(jìn)行了詳細(xì)的介紹，并將其應(yīng)用于有限時(shí)域的離散控制系統(tǒng);文獻(xiàn)[6]將強(qiáng)化學(xué)習(xí)應(yīng)用于離散的無人機(jī)航路自主規(guī)劃問題，對(duì)強(qiáng)化學(xué)習(xí)理論在多智能體路徑規(guī)劃中的應(yīng)用進(jìn)行了有益的探索;文獻(xiàn)[7]將Q學(xué)習(xí)算法與網(wǎng)絡(luò)邊緣云策略相結(jié)合，并將其應(yīng)用于高速移動(dòng)的智能網(wǎng)聯(lián)交通系統(tǒng)的研究，實(shí)現(xiàn)了在線決策的優(yōu)化，但系統(tǒng)本質(zhì)上仍為離散系統(tǒng)。

隨著2015年DeepMind團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)理論引入連續(xù)動(dòng)態(tài)系統(tǒng)的研究[1-2]，許多學(xué)者對(duì)此問題的應(yīng)用與拓展進(jìn)行了大量研究[3,8-10]。文獻(xiàn)[8-9]針對(duì)連續(xù)時(shí)間的博弈模型，分別研究了非線性系統(tǒng)的零和博弈及基于博弈理論的交通信號(hào)控制；文獻(xiàn)[3]針對(duì)部分信息已知的連續(xù)系統(tǒng)，基于積分強(qiáng)化學(xué)習(xí)理論研究了線性二次型跟蹤問題。本文在文獻(xiàn)[1-2]的基礎(chǔ)上，將連續(xù)控制系統(tǒng)Q學(xué)習(xí)算法拓展到無限時(shí)域的最優(yōu)控制問題中，通過參數(shù)化的方法將連續(xù)時(shí)間無限時(shí)域最優(yōu)控制問題轉(zhuǎn)化為Q學(xué)習(xí)問題，基于李雅普諾夫穩(wěn)定性分析嚴(yán)格證明了閉環(huán)系統(tǒng)的狀態(tài)是有界的，且收斂于最優(yōu)解。此外，在系統(tǒng)動(dòng)態(tài)完全未知的情況下，采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)一個(gè)Actor/Critic逼近器結(jié)構(gòu)以實(shí)現(xiàn)無限時(shí)域無模型的在線Q學(xué)習(xí)算法，相較于文獻(xiàn)[3]中的假設(shè)，放寬了約束條件。

1 無限時(shí)域最優(yōu)控制問題模型

考慮如下的線性時(shí)不變連續(xù)系統(tǒng)

(1)

式中：x(t)∈Rn，為可測(cè)的狀態(tài)變量;u(t)∈Rm，為控制輸入;A∈Rn×n,B∈Rn×m，分別為系統(tǒng)矩陣和輸入矩陣，在此模型中假設(shè)其具有不確定性或?yàn)槲粗?，同時(shí)假定是(A,B)可控的。

假設(shè)模型的時(shí)域是無限的，控制的目標(biāo)是設(shè)計(jì)控制器使得以下代價(jià)函數(shù)最小[11]

(2)

因此，控制目標(biāo)可以描述為尋找最優(yōu)的控制輸入u*，使得代價(jià)函數(shù)滿足條件J(x(0),u*)≤J(x(0),u)，即，如式(1)所示的系統(tǒng)，對(duì)于任意的輸入u應(yīng)滿足最小值條件

(3)

此時(shí)，最優(yōu)的值函數(shù)V*可以定義為

(4)

且不依賴于系統(tǒng)動(dòng)態(tài)方程的信息。

根據(jù)式(1)系統(tǒng)與式(4)價(jià)值函數(shù)，可定義哈密頓函數(shù)為

(5)

令哈密頓函數(shù)關(guān)于控制輸入的一階偏導(dǎo)數(shù)為0，可求得最優(yōu)控制律為

(6)

由于此系統(tǒng)模型式(1)為線性的，可將最優(yōu)價(jià)值函數(shù)表示為關(guān)于狀態(tài)量的二次型的形式，即

(7)

式中，P∈Rn×n，為對(duì)稱正定矩陣，可通過求解如下的黎卡提方程得到

ATP+PA-PBR-1BTP+M=0

(8)

最優(yōu)控制律式(5)可以表示為

u*(x)=-R-1BTPx?x

(9)

根據(jù)最優(yōu)控制理論[12]，求解式(8)、式(9)需要知道動(dòng)態(tài)系統(tǒng)完整的信息，即系統(tǒng)矩陣A和輸入矩陣B。假設(shè)系統(tǒng)動(dòng)態(tài)完全未知，下面基于無模型描述設(shè)計(jì)無限時(shí)域的在線Q學(xué)習(xí)算法。

2 無模型無限時(shí)域在線Q學(xué)習(xí)算法

2.1 無模型描述

根據(jù)最優(yōu)的值函數(shù)式(7)和哈密頓函數(shù)式(6)，Q函數(shù)Q(x,u):Rn+m→R可以寫成如下形式

(10)

式(10)可以寫成關(guān)于狀態(tài)量和控制輸入的二次型的形式，即

(11)

證明首先將式(9)代入式(10)，進(jìn)一步，因?yàn)镻是黎卡提方程的解，結(jié)合式(8)即可得到Q*(x,u*)=V*(x)。

由于最優(yōu)Q函數(shù)關(guān)于輸入的偏導(dǎo)數(shù)為0，可以得到最優(yōu)控制輸入的無模型描述為

(12)

由于本文主要應(yīng)用Q學(xué)習(xí)算法對(duì)無限時(shí)域的最優(yōu)控制問題進(jìn)行設(shè)計(jì)，因此，對(duì)于時(shí)域無限時(shí)的偏向穩(wěn)定性及折扣期望等問題不進(jìn)行討論，但并不因此影響所設(shè)計(jì)算法的有效性。下面基于本節(jié)的無模型描述進(jìn)行算法設(shè)計(jì)。

2.2 Actor/Critic結(jié)構(gòu)

在Actor/Critic算法中，Critic逼近器用于近似Q函數(shù)式(11)，Actor逼近器用于近似最優(yōu)控制器式(12)。首先將式(11)寫成

(13)

(14)

(15)

根據(jù)積分強(qiáng)化學(xué)習(xí)[9]理論，值函數(shù)式(4)可以寫成貝爾曼方程

(16)

式中，T∈R+，為某一固定時(shí)間間隔。

引理1給出了最優(yōu)值函數(shù)與最優(yōu)Q函數(shù)的等價(jià)性，基于此可以得到方程

(17)

進(jìn)一步定義誤差e∈R，通過設(shè)計(jì)合適的校正律使其最終趨于零。根據(jù)貝爾曼方程式(17)，考慮實(shí)際Q函數(shù)的值，可以得到如下的誤差表達(dá)式

(18)

對(duì)于Actor逼近器，定義相應(yīng)的誤差ea∈R，其表達(dá)式可以寫成

(19)

(20)

(21)

2.3 學(xué)習(xí)算法設(shè)計(jì)

(22)

(23)

式中，αc∈R+，為常值增益，其值大小影響收斂速度。

(24)

式中，αa∈R+，為常值增益，其值大小影響收斂速度。

定義權(quán)重估計(jì)誤差

(25)

其動(dòng)態(tài)方程可以寫成

(26)

式中，

(27)

定理1對(duì)于如式(1)所示的系統(tǒng)，給定Critic逼近器與最優(yōu)控制律分別如式(14)與(15)所示，Critic權(quán)重與Actor權(quán)重校正律分別如式(22)與(24)所示。如果校正增益αc與αa相比足夠大，且滿足

(28)

證明首先定義Lyapunov函數(shù)

(29)

式(29)對(duì)時(shí)間求一階導(dǎo)數(shù)

(30)

將式(26)代入式(30)可得

(31)

(32)

將黎卡提方程式(8)代入T1可得

(33)

對(duì)式(33)應(yīng)用楊氏不等式可得

(34)

由式(22)、式(23)，T2滿足如下性質(zhì)

(35)

對(duì)于T3，借助于楊氏不等式可得

(36)

結(jié)合式(34)～(36)可以得到

(37)

結(jié)合條件式(28)，定理1得證。

3 仿真

為了驗(yàn)證所設(shè)計(jì)的學(xué)習(xí)算法的有效性，考慮如下常用的渦輪增壓發(fā)動(dòng)機(jī)的6階線性系統(tǒng)模型[13]

(38)

系統(tǒng)的狀態(tài)曲線如圖1所示，Critic權(quán)重誤差與Actor權(quán)重誤差曲線分別如圖2與圖3所示。

圖1 系統(tǒng)狀態(tài)曲線Fig.1 State curves of the system

圖3 Actor權(quán)重誤差曲線 of Actor weight error

4 結(jié)論

針對(duì)無限時(shí)域最優(yōu)控制問題設(shè)計(jì)了一種無模型的在線Q學(xué)習(xí)算法，主要結(jié)論如下：

1) 通過將Q函數(shù)寫成狀態(tài)和控制的參數(shù)化形式，連續(xù)線性系統(tǒng)的無限時(shí)域最優(yōu)控制可與無模型Q學(xué)習(xí)問題等價(jià)求解；

2) 采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了一個(gè)Actor/Critic逼近器結(jié)構(gòu)，在保證閉環(huán)漸近穩(wěn)定性和最優(yōu)解收斂的同時(shí)，實(shí)現(xiàn)了在線估計(jì)Q函數(shù)的參數(shù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡