代曉清, 趙 旭
(1.成都師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,成都 611000; 2.南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院,南京 210000)
為了結(jié)合最優(yōu)控制與自適應(yīng)控制的優(yōu)點(diǎn),可以借鑒機(jī)器學(xué)習(xí)中強(qiáng)化學(xué)習(xí)的思想。強(qiáng)化學(xué)習(xí)[1-3]需要自適應(yīng)地處理動(dòng)態(tài)變化的環(huán)境,最優(yōu)控制理論中的近似動(dòng)態(tài)規(guī)劃[4-5]被證明是一個(gè)有效的、以自適應(yīng)方式解決強(qiáng)化學(xué)習(xí)問題的方法。
基于近似動(dòng)態(tài)規(guī)劃的Q學(xué)習(xí)算法是根據(jù)馬爾可夫決策過程而設(shè)計(jì)的一種強(qiáng)化學(xué)習(xí)方法[5],可被視為一種收斂的最優(yōu)直接自適應(yīng)控制算法。Q學(xué)習(xí)算法的最大優(yōu)點(diǎn)是不需要環(huán)境模型,且對(duì)于任何有限馬爾可夫決策過程,最終都能找到一個(gè)最優(yōu)策略。
現(xiàn)有文獻(xiàn)關(guān)于Q學(xué)習(xí)算法的研究大多基于有限時(shí)域的離散系統(tǒng)[5-7]。文獻(xiàn)[5]對(duì)強(qiáng)化學(xué)習(xí)理論及Q學(xué)習(xí)算法進(jìn)行了詳細(xì)的介紹,并將其應(yīng)用于有限時(shí)域的離散控制系統(tǒng);文獻(xiàn)[6]將強(qiáng)化學(xué)習(xí)應(yīng)用于離散的無人機(jī)航路自主規(guī)劃問題,對(duì)強(qiáng)化學(xué)習(xí)理論在多智能體路徑規(guī)劃中的應(yīng)用進(jìn)行了有益的探索;文獻(xiàn)[7]將Q學(xué)習(xí)算法與網(wǎng)絡(luò)邊緣云策略相結(jié)合,并將其應(yīng)用于高速移動(dòng)的智能網(wǎng)聯(lián)交通系統(tǒng)的研究,實(shí)現(xiàn)了在線決策的優(yōu)化,但系統(tǒng)本質(zhì)上仍為離散系統(tǒng)。
隨著2015年DeepMind團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)理論引入連續(xù)動(dòng)態(tài)系統(tǒng)的研究[1-2],許多學(xué)者對(duì)此問題的應(yīng)用與拓展進(jìn)行了大量研究[3,8-10]。文獻(xiàn)[8-9]針對(duì)連續(xù)時(shí)間的博弈模型,分別研究了非線性系統(tǒng)的零和博弈及基于博弈理論的交通信號(hào)控制;文獻(xiàn)[3]針對(duì)部分信息已知的連續(xù)系統(tǒng),基于積分強(qiáng)化學(xué)習(xí)理論研究了線性二次型跟蹤問題。本文在文獻(xiàn)[1-2]的基礎(chǔ)上,將連續(xù)控制系統(tǒng)Q學(xué)習(xí)算法拓展到無限時(shí)域的最優(yōu)控制問題中,通過參數(shù)化的方法將連續(xù)時(shí)間無限時(shí)域最優(yōu)控制問題轉(zhuǎn)化為Q學(xué)習(xí)問題,基于李雅普諾夫穩(wěn)定性分析嚴(yán)格證明了閉環(huán)系統(tǒng)的狀態(tài)是有界的,且收斂于最優(yōu)解。此外,在系統(tǒng)動(dòng)態(tài)完全未知的情況下,采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)一個(gè)Actor/Critic逼近器結(jié)構(gòu)以實(shí)現(xiàn)無限時(shí)域無模型的在線Q學(xué)習(xí)算法,相較于文獻(xiàn)[3]中的假設(shè),放寬了約束條件。
考慮如下的線性時(shí)不變連續(xù)系統(tǒng)
(1)
式中:x(t)∈Rn,為可測(cè)的狀態(tài)變量;u(t)∈Rm,為控制輸入;A∈Rn×n,B∈Rn×m,分別為系統(tǒng)矩陣和輸入矩陣,在此模型中假設(shè)其具有不確定性或?yàn)槲粗?,同時(shí)假定是(A,B)可控的。
假設(shè)模型的時(shí)域是無限的,控制的目標(biāo)是設(shè)計(jì)控制器使得以下代價(jià)函數(shù)最小[11]
(2)
因此,控制目標(biāo)可以描述為尋找最優(yōu)的控制輸入u*,使得代價(jià)函數(shù)滿足條件J(x(0),u*)≤J(x(0),u),即,如式(1)所示的系統(tǒng),對(duì)于任意的輸入u應(yīng)滿足最小值條件
(3)
此時(shí),最優(yōu)的值函數(shù)V*可以定義為
(4)
且不依賴于系統(tǒng)動(dòng)態(tài)方程的信息。
根據(jù)式(1)系統(tǒng)與式(4)價(jià)值函數(shù),可定義哈密頓函數(shù)為
(5)
令哈密頓函數(shù)關(guān)于控制輸入的一階偏導(dǎo)數(shù)為0,可求得最優(yōu)控制律為
(6)
由于此系統(tǒng)模型式(1)為線性的,可將最優(yōu)價(jià)值函數(shù)表示為關(guān)于狀態(tài)量的二次型的形式,即
(7)
式中,P∈Rn×n,為對(duì)稱正定矩陣,可通過求解如下的黎卡提方程得到
ATP+PA-PBR-1BTP+M=0
(8)
最優(yōu)控制律式(5)可以表示為
u*(x)=-R-1BTPx?x
(9)
根據(jù)最優(yōu)控制理論[12],求解式(8)、式(9)需要知道動(dòng)態(tài)系統(tǒng)完整的信息,即系統(tǒng)矩陣A和輸入矩陣B。假設(shè)系統(tǒng)動(dòng)態(tài)完全未知,下面基于無模型描述設(shè)計(jì)無限時(shí)域的在線Q學(xué)習(xí)算法。
根據(jù)最優(yōu)的值函數(shù)式(7)和哈密頓函數(shù)式(6),Q函數(shù)Q(x,u):Rn+m→R可以寫成如下形式
(10)
式(10)可以寫成關(guān)于狀態(tài)量和控制輸入的二次型的形式,即
(11)
證明 首先將式(9)代入式(10),進(jìn)一步,因?yàn)镻是黎卡提方程的解,結(jié)合式(8)即可得到Q*(x,u*)=V*(x)。
由于最優(yōu)Q函數(shù)關(guān)于輸入的偏導(dǎo)數(shù)為0,可以得到最優(yōu)控制輸入的無模型描述為
(12)
由于本文主要應(yīng)用Q學(xué)習(xí)算法對(duì)無限時(shí)域的最優(yōu)控制問題進(jìn)行設(shè)計(jì),因此,對(duì)于時(shí)域無限時(shí)的偏向穩(wěn)定性及折扣期望等問題不進(jìn)行討論,但并不因此影響所設(shè)計(jì)算法的有效性。下面基于本節(jié)的無模型描述進(jìn)行算法設(shè)計(jì)。
在Actor/Critic算法中,Critic逼近器用于近似Q函數(shù)式(11),Actor逼近器用于近似最優(yōu)控制器式(12)。首先將式(11)寫成
(13)
(14)
(15)
根據(jù)積分強(qiáng)化學(xué)習(xí)[9]理論,值函數(shù)式(4)可以寫成貝爾曼方程
(16)
式中,T∈R+,為某一固定時(shí)間間隔。
引理1給出了最優(yōu)值函數(shù)與最優(yōu)Q函數(shù)的等價(jià)性,基于此可以得到方程
(17)
進(jìn)一步定義誤差e∈R,通過設(shè)計(jì)合適的校正律使其最終趨于零。根據(jù)貝爾曼方程式(17),考慮實(shí)際Q函數(shù)的值,可以得到如下的誤差表達(dá)式
(18)
對(duì)于Actor逼近器,定義相應(yīng)的誤差ea∈R,其表達(dá)式可以寫成
(19)
(20)
(21)
(22)
(23)
式中,αc∈R+,為常值增益,其值大小影響收斂速度。
(24)
式中,αa∈R+,為常值增益,其值大小影響收斂速度。
定義權(quán)重估計(jì)誤差
(25)
其動(dòng)態(tài)方程可以寫成
(26)
式中,
(27)
定理1對(duì)于如式(1)所示的系統(tǒng),給定Critic逼近器與最優(yōu)控制律分別如式(14)與(15)所示,Critic權(quán)重與Actor權(quán)重校正律分別如式(22)與(24)所示。如果校正增益αc與αa相比足夠大,且滿足
(28)
證明 首先定義Lyapunov函數(shù)
(29)
式(29)對(duì)時(shí)間求一階導(dǎo)數(shù)
(30)
將式(26)代入式(30)可得
(31)
(32)
將黎卡提方程式(8)代入T1可得
(33)
對(duì)式(33)應(yīng)用楊氏不等式可得
(34)
由式(22)、式(23),T2滿足如下性質(zhì)
(35)
對(duì)于T3,借助于楊氏不等式可得
(36)
結(jié)合式(34)~(36)可以得到
(37)
結(jié)合條件式(28),定理1得證。
為了驗(yàn)證所設(shè)計(jì)的學(xué)習(xí)算法的有效性,考慮如下常用的渦輪增壓發(fā)動(dòng)機(jī)的6階線性系統(tǒng)模型[13]
(38)
系統(tǒng)的狀態(tài)曲線如圖1所示,Critic權(quán)重誤差與Actor權(quán)重誤差曲線分別如圖2與圖3所示。
圖1 系統(tǒng)狀態(tài)曲線Fig.1 State curves of the system
圖3 Actor權(quán)重誤差曲線 of Actor weight error
針對(duì)無限時(shí)域最優(yōu)控制問題設(shè)計(jì)了一種無模型的在線Q學(xué)習(xí)算法,主要結(jié)論如下:
1) 通過將Q函數(shù)寫成狀態(tài)和控制的參數(shù)化形式,連續(xù)線性系統(tǒng)的無限時(shí)域最優(yōu)控制可與無模型Q學(xué)習(xí)問題等價(jià)求解;
2) 采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了一個(gè)Actor/Critic逼近器結(jié)構(gòu),在保證閉環(huán)漸近穩(wěn)定性和最優(yōu)解收斂的同時(shí),實(shí)現(xiàn)了在線估計(jì)Q函數(shù)的參數(shù)。