国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于無限時(shí)域無模型的在線Q學(xué)習(xí)算法

2022-02-22 05:47代曉清
電光與控制 2022年2期
關(guān)鍵詞:最優(yōu)控制時(shí)域動(dòng)態(tài)

代曉清, 趙 旭

(1.成都師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,成都 611000; 2.南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院,南京 210000)

0 引言

為了結(jié)合最優(yōu)控制與自適應(yīng)控制的優(yōu)點(diǎn),可以借鑒機(jī)器學(xué)習(xí)中強(qiáng)化學(xué)習(xí)的思想。強(qiáng)化學(xué)習(xí)[1-3]需要自適應(yīng)地處理動(dòng)態(tài)變化的環(huán)境,最優(yōu)控制理論中的近似動(dòng)態(tài)規(guī)劃[4-5]被證明是一個(gè)有效的、以自適應(yīng)方式解決強(qiáng)化學(xué)習(xí)問題的方法。

基于近似動(dòng)態(tài)規(guī)劃的Q學(xué)習(xí)算法是根據(jù)馬爾可夫決策過程而設(shè)計(jì)的一種強(qiáng)化學(xué)習(xí)方法[5],可被視為一種收斂的最優(yōu)直接自適應(yīng)控制算法。Q學(xué)習(xí)算法的最大優(yōu)點(diǎn)是不需要環(huán)境模型,且對(duì)于任何有限馬爾可夫決策過程,最終都能找到一個(gè)最優(yōu)策略。

現(xiàn)有文獻(xiàn)關(guān)于Q學(xué)習(xí)算法的研究大多基于有限時(shí)域的離散系統(tǒng)[5-7]。文獻(xiàn)[5]對(duì)強(qiáng)化學(xué)習(xí)理論及Q學(xué)習(xí)算法進(jìn)行了詳細(xì)的介紹,并將其應(yīng)用于有限時(shí)域的離散控制系統(tǒng);文獻(xiàn)[6]將強(qiáng)化學(xué)習(xí)應(yīng)用于離散的無人機(jī)航路自主規(guī)劃問題,對(duì)強(qiáng)化學(xué)習(xí)理論在多智能體路徑規(guī)劃中的應(yīng)用進(jìn)行了有益的探索;文獻(xiàn)[7]將Q學(xué)習(xí)算法與網(wǎng)絡(luò)邊緣云策略相結(jié)合,并將其應(yīng)用于高速移動(dòng)的智能網(wǎng)聯(lián)交通系統(tǒng)的研究,實(shí)現(xiàn)了在線決策的優(yōu)化,但系統(tǒng)本質(zhì)上仍為離散系統(tǒng)。

隨著2015年DeepMind團(tuán)隊(duì)將強(qiáng)化學(xué)習(xí)理論引入連續(xù)動(dòng)態(tài)系統(tǒng)的研究[1-2],許多學(xué)者對(duì)此問題的應(yīng)用與拓展進(jìn)行了大量研究[3,8-10]。文獻(xiàn)[8-9]針對(duì)連續(xù)時(shí)間的博弈模型,分別研究了非線性系統(tǒng)的零和博弈及基于博弈理論的交通信號(hào)控制;文獻(xiàn)[3]針對(duì)部分信息已知的連續(xù)系統(tǒng),基于積分強(qiáng)化學(xué)習(xí)理論研究了線性二次型跟蹤問題。本文在文獻(xiàn)[1-2]的基礎(chǔ)上,將連續(xù)控制系統(tǒng)Q學(xué)習(xí)算法拓展到無限時(shí)域的最優(yōu)控制問題中,通過參數(shù)化的方法將連續(xù)時(shí)間無限時(shí)域最優(yōu)控制問題轉(zhuǎn)化為Q學(xué)習(xí)問題,基于李雅普諾夫穩(wěn)定性分析嚴(yán)格證明了閉環(huán)系統(tǒng)的狀態(tài)是有界的,且收斂于最優(yōu)解。此外,在系統(tǒng)動(dòng)態(tài)完全未知的情況下,采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)一個(gè)Actor/Critic逼近器結(jié)構(gòu)以實(shí)現(xiàn)無限時(shí)域無模型的在線Q學(xué)習(xí)算法,相較于文獻(xiàn)[3]中的假設(shè),放寬了約束條件。

1 無限時(shí)域最優(yōu)控制問題模型

考慮如下的線性時(shí)不變連續(xù)系統(tǒng)

(1)

式中:x(t)∈Rn,為可測(cè)的狀態(tài)變量;u(t)∈Rm,為控制輸入;A∈Rn×n,B∈Rn×m,分別為系統(tǒng)矩陣和輸入矩陣,在此模型中假設(shè)其具有不確定性或?yàn)槲粗?,同時(shí)假定是(A,B)可控的。

假設(shè)模型的時(shí)域是無限的,控制的目標(biāo)是設(shè)計(jì)控制器使得以下代價(jià)函數(shù)最小[11]

(2)

因此,控制目標(biāo)可以描述為尋找最優(yōu)的控制輸入u*,使得代價(jià)函數(shù)滿足條件J(x(0),u*)≤J(x(0),u),即,如式(1)所示的系統(tǒng),對(duì)于任意的輸入u應(yīng)滿足最小值條件

(3)

此時(shí),最優(yōu)的值函數(shù)V*可以定義為

(4)

且不依賴于系統(tǒng)動(dòng)態(tài)方程的信息。

根據(jù)式(1)系統(tǒng)與式(4)價(jià)值函數(shù),可定義哈密頓函數(shù)為

(5)

令哈密頓函數(shù)關(guān)于控制輸入的一階偏導(dǎo)數(shù)為0,可求得最優(yōu)控制律為

(6)

由于此系統(tǒng)模型式(1)為線性的,可將最優(yōu)價(jià)值函數(shù)表示為關(guān)于狀態(tài)量的二次型的形式,即

(7)

式中,P∈Rn×n,為對(duì)稱正定矩陣,可通過求解如下的黎卡提方程得到

ATP+PA-PBR-1BTP+M=0

(8)

最優(yōu)控制律式(5)可以表示為

u*(x)=-R-1BTPx?x

(9)

根據(jù)最優(yōu)控制理論[12],求解式(8)、式(9)需要知道動(dòng)態(tài)系統(tǒng)完整的信息,即系統(tǒng)矩陣A和輸入矩陣B。假設(shè)系統(tǒng)動(dòng)態(tài)完全未知,下面基于無模型描述設(shè)計(jì)無限時(shí)域的在線Q學(xué)習(xí)算法。

2 無模型無限時(shí)域在線Q學(xué)習(xí)算法

2.1 無模型描述

根據(jù)最優(yōu)的值函數(shù)式(7)和哈密頓函數(shù)式(6),Q函數(shù)Q(x,u):Rn+m→R可以寫成如下形式

(10)

式(10)可以寫成關(guān)于狀態(tài)量和控制輸入的二次型的形式,即

(11)

證明 首先將式(9)代入式(10),進(jìn)一步,因?yàn)镻是黎卡提方程的解,結(jié)合式(8)即可得到Q*(x,u*)=V*(x)。

由于最優(yōu)Q函數(shù)關(guān)于輸入的偏導(dǎo)數(shù)為0,可以得到最優(yōu)控制輸入的無模型描述為

(12)

由于本文主要應(yīng)用Q學(xué)習(xí)算法對(duì)無限時(shí)域的最優(yōu)控制問題進(jìn)行設(shè)計(jì),因此,對(duì)于時(shí)域無限時(shí)的偏向穩(wěn)定性及折扣期望等問題不進(jìn)行討論,但并不因此影響所設(shè)計(jì)算法的有效性。下面基于本節(jié)的無模型描述進(jìn)行算法設(shè)計(jì)。

2.2 Actor/Critic結(jié)構(gòu)

在Actor/Critic算法中,Critic逼近器用于近似Q函數(shù)式(11),Actor逼近器用于近似最優(yōu)控制器式(12)。首先將式(11)寫成

(13)

(14)

(15)

根據(jù)積分強(qiáng)化學(xué)習(xí)[9]理論,值函數(shù)式(4)可以寫成貝爾曼方程

(16)

式中,T∈R+,為某一固定時(shí)間間隔。

引理1給出了最優(yōu)值函數(shù)與最優(yōu)Q函數(shù)的等價(jià)性,基于此可以得到方程

(17)

進(jìn)一步定義誤差e∈R,通過設(shè)計(jì)合適的校正律使其最終趨于零。根據(jù)貝爾曼方程式(17),考慮實(shí)際Q函數(shù)的值,可以得到如下的誤差表達(dá)式

(18)

對(duì)于Actor逼近器,定義相應(yīng)的誤差ea∈R,其表達(dá)式可以寫成

(19)

(20)

(21)

2.3 學(xué)習(xí)算法設(shè)計(jì)

(22)

(23)

式中,αc∈R+,為常值增益,其值大小影響收斂速度。

(24)

式中,αa∈R+,為常值增益,其值大小影響收斂速度。

定義權(quán)重估計(jì)誤差

(25)

其動(dòng)態(tài)方程可以寫成

(26)

式中,

(27)

定理1對(duì)于如式(1)所示的系統(tǒng),給定Critic逼近器與最優(yōu)控制律分別如式(14)與(15)所示,Critic權(quán)重與Actor權(quán)重校正律分別如式(22)與(24)所示。如果校正增益αc與αa相比足夠大,且滿足

(28)

證明 首先定義Lyapunov函數(shù)

(29)

式(29)對(duì)時(shí)間求一階導(dǎo)數(shù)

(30)

將式(26)代入式(30)可得

(31)

(32)

將黎卡提方程式(8)代入T1可得

(33)

對(duì)式(33)應(yīng)用楊氏不等式可得

(34)

由式(22)、式(23),T2滿足如下性質(zhì)

(35)

對(duì)于T3,借助于楊氏不等式可得

(36)

結(jié)合式(34)~(36)可以得到

(37)

結(jié)合條件式(28),定理1得證。

3 仿真

為了驗(yàn)證所設(shè)計(jì)的學(xué)習(xí)算法的有效性,考慮如下常用的渦輪增壓發(fā)動(dòng)機(jī)的6階線性系統(tǒng)模型[13]

(38)

系統(tǒng)的狀態(tài)曲線如圖1所示,Critic權(quán)重誤差與Actor權(quán)重誤差曲線分別如圖2與圖3所示。

圖1 系統(tǒng)狀態(tài)曲線Fig.1 State curves of the system

圖3 Actor權(quán)重誤差曲線 of Actor weight error

4 結(jié)論

針對(duì)無限時(shí)域最優(yōu)控制問題設(shè)計(jì)了一種無模型的在線Q學(xué)習(xí)算法,主要結(jié)論如下:

1) 通過將Q函數(shù)寫成狀態(tài)和控制的參數(shù)化形式,連續(xù)線性系統(tǒng)的無限時(shí)域最優(yōu)控制可與無模型Q學(xué)習(xí)問題等價(jià)求解;

2) 采用積分強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)了一個(gè)Actor/Critic逼近器結(jié)構(gòu),在保證閉環(huán)漸近穩(wěn)定性和最優(yōu)解收斂的同時(shí),實(shí)現(xiàn)了在線估計(jì)Q函數(shù)的參數(shù)。

猜你喜歡
最優(yōu)控制時(shí)域動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
國(guó)內(nèi)動(dòng)態(tài)
改進(jìn)的浮體運(yùn)動(dòng)響應(yīng)間接時(shí)域計(jì)算方法
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機(jī)最優(yōu)控制
二階微分方程最優(yōu)反饋控制
動(dòng)態(tài)
基于復(fù)雜網(wǎng)絡(luò)理論的作戰(zhàn)計(jì)劃時(shí)域協(xié)同方法研究
網(wǎng)絡(luò)分析儀時(shí)域測(cè)量技術(shù)綜述
基于隨機(jī)最優(yōu)控制的繳費(fèi)確定型養(yǎng)老基金資產(chǎn)配置策略