劉秋麗 李金娜
摘 ?要:針對(duì)離散系統(tǒng)魯棒非策略Q-學(xué)習(xí)算法的研究的必要性進(jìn)行了分析和驗(yàn)證。首先提出了最優(yōu)控制問(wèn)題,然后利用Q-學(xué)習(xí)算法設(shè)計(jì)了基于數(shù)據(jù)驅(qū)動(dòng)的最優(yōu)控制器,并重點(diǎn)分析了非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。最后通過(guò)仿真實(shí)驗(yàn)得出結(jié)論,在不確定環(huán)境下應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。
關(guān)鍵詞:最優(yōu)控制;非策略Q-學(xué)習(xí);離散系統(tǒng);魯棒性
中圖分類(lèi)號(hào):TP181;TP13 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)12-0010-04
Abstract:The necessity of robust non-strategic Q-learning research for discrete systems is analyzed and verified. First,the optimal control problem is proposed,and then the optimal controller based on data driving is designed using Q-learning method,and the focus is on whether the non-strategic Q-learning algorithm is effective in the optimal control problem of uncertain discrete systems. Finally,it is concluded through simulation experiments that a robust non-strategic Q-learning algorithm should be designed in an uncertain environment to ensure the stability of the system.
Keywords:optimal control;non-strategic Q-learning;discrete systems;robustness
0 ?引 ?言
強(qiáng)化學(xué)習(xí)算法是一種通過(guò)與環(huán)境進(jìn)行試錯(cuò)交互尋找能夠帶來(lái)最大累積獎(jiǎng)賞策略的學(xué)習(xí)方法[1]。目前強(qiáng)化學(xué)習(xí)的方法廣泛應(yīng)用于控制領(lǐng)域中,以達(dá)到最優(yōu)控制的效果。強(qiáng)化學(xué)習(xí)分為策略(On-policy)學(xué)習(xí)和非策略(Off-policy)學(xué)習(xí)。如果在學(xué)習(xí)過(guò)程中,動(dòng)作選擇的行為策略和學(xué)習(xí)改進(jìn)的目標(biāo)策略一致,該方法就被稱為策略學(xué)習(xí),否則被稱為非策略學(xué)習(xí)[2]。
Q-學(xué)習(xí)是強(qiáng)化學(xué)習(xí)算法的一種,又稱為動(dòng)作相關(guān)啟發(fā)式動(dòng)態(tài)規(guī)劃(ADHDP),是一種近似動(dòng)態(tài)規(guī)劃(ADP)方案法,它結(jié)合了自適應(yīng)批評(píng)理論[3,4]。Q-學(xué)習(xí)算法的優(yōu)點(diǎn)之一是能夠在不了解環(huán)境的情況下評(píng)估效用和更新控制策略[2,5]。
筆者研究了一些用強(qiáng)化學(xué)習(xí)算法求解線性DT系統(tǒng)的線性二次調(diào)節(jié)問(wèn)題,如貪婪HDP迭代算法[6]和非線性DT系統(tǒng)的迭代自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)[7],還有具有時(shí)滯的非線性系統(tǒng)啟發(fā)式動(dòng)態(tài)規(guī)劃(HDP)[8]和線性系統(tǒng)的輸入和輸出數(shù)據(jù)的策略迭代(PI)和值迭代(VI)[9]算法。然而,上述文獻(xiàn)并沒(méi)有分析和驗(yàn)證魯棒強(qiáng)化學(xué)習(xí)算法研究的必要性,理論上非策略Q-學(xué)習(xí)算法需要考慮系統(tǒng)的魯棒性,否則絕大多數(shù)控制器很難維持系統(tǒng)的穩(wěn)定性。這是本文研究魯棒非策略Q-學(xué)習(xí)問(wèn)題的動(dòng)機(jī)。
1 ?最優(yōu)控制問(wèn)題闡述
以下是對(duì)線性二次調(diào)節(jié)問(wèn)題的非策略Q-學(xué)習(xí)的闡述。
研究目標(biāo):尋找一種最優(yōu)控制率,能夠使式(2)中性能指標(biāo)xk+1越小,并保證式(1)中系統(tǒng)J能夠在不確定的環(huán)境下保持穩(wěn)定。若不考慮不確定性,對(duì)于標(biāo)準(zhǔn)型式(3),可以參考現(xiàn)有文獻(xiàn)[10]來(lái)分析非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。
2 ?非策略Q-學(xué)習(xí)算法設(shè)計(jì)
以下是對(duì)非策略Q-學(xué)習(xí)算法的設(shè)計(jì)。根據(jù)Q-函數(shù)與值函數(shù)之間的關(guān)系,基于非策略Q-函數(shù)的Bellman方程,得到一種非策略Q-函數(shù)學(xué)習(xí)算法。
然后實(shí)現(xiàn)非策略Q-學(xué)習(xí)算法1,經(jīng)過(guò)30次迭代后算法收斂,得到最優(yōu)Q-函數(shù)矩陣H*和最優(yōu)控制器增益K*,結(jié)果同式(16)(17)。
在不考慮不確定性時(shí),即bound=0時(shí),系統(tǒng)狀態(tài)x1和x2都收斂于0,說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較好。具體系統(tǒng)狀態(tài)仿真曲線如圖1所示。
在不考慮不確定性時(shí),即bound=0時(shí),當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為10時(shí),滿足學(xué)習(xí)的H與理論最優(yōu)解的差 <ε、學(xué)習(xí)的K與理論最優(yōu)解的差 ≤ε。仿真結(jié)果中常數(shù)ε(ε>0)趨于0,得到最優(yōu)控制策略。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖2所示。
在考慮不確定性時(shí),取bound=0.4,系統(tǒng)狀態(tài)x1和x2在時(shí)間為20 s后便不再收斂于0,出現(xiàn)了大幅度發(fā)散的狀況,說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較差。具體系統(tǒng)狀態(tài)仿真曲線如圖3所示。
在考慮不確定性時(shí),取bound=0.4,當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為20時(shí),學(xué)習(xí)的H與理論最優(yōu)解的差 和學(xué)習(xí)的K與理論最優(yōu)解的差 ?的結(jié)果不再收斂于0,得到的最優(yōu)控制策略將不能夠使系統(tǒng)保持穩(wěn)定狀態(tài)。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖4所示。
分析得到:在bound≠0時(shí),非策略Q-學(xué)習(xí)算法1考慮了系統(tǒng)的不確定性,并且隨著不確定性ΔAk的增加,系統(tǒng)狀態(tài)穩(wěn)定性受到了一定程度的影響,可見(jiàn)算法1對(duì)不確定性ΔAk的容忍范圍是有限的;如果不確定性ΔAk過(guò)大,系統(tǒng)的穩(wěn)定性將無(wú)法得到保障。
4 ?結(jié) ?論
針對(duì)系統(tǒng)模型參數(shù)未知的離散系統(tǒng),本文重點(diǎn)分析和驗(yàn)證了魯棒非策略Q-算法研究的必要性,提出了最優(yōu)控制問(wèn)題,并且在非策略Q-學(xué)習(xí)算法設(shè)計(jì)過(guò)程中考慮了不確定性。文章通過(guò)仿真實(shí)驗(yàn)得出結(jié)論,在研究不確定環(huán)境下的離散控制系統(tǒng)時(shí),應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。
參考文獻(xiàn):
[1] 劉全,傅啟明,龔聲蓉,等.最小狀態(tài)變?cè)骄?jiǎng)賞的強(qiáng)化學(xué)習(xí)方法 [J].通信學(xué)報(bào),2011,32(1):66-71.
[2] KIUMARSI B,LEWIS F L,MODARES H,et al. Reinforcement Q -learning for optimal tracking control of linear discrete-time systems with unknown dynamics [J]. Automatica,2014,50(4):1167-1175.
[3] WATKINS C J C H. Learning from delayed rewards [D]. Cambridge:University of Cambridge,1989.
[4] MILLER W T,SUTTON R S,WERBOS P J. A Menu of Designs for Reinforcement Learning Over Time [J]. Neural networks for control,1995(3):67-95.
[5] AL-TAMIMI A,LEWIS F L,ABU-KHALAF M. Model-free Q -learning designs for linear discrete-time zero-sum games with application to H-infinity control [J]. Automatica,2006,43(3):473-481.
[6] ZHANG H G,WEI Q L,LUO Y H. A novel infinite-time optimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP iteration algorithm [J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2008,38(4):937-942.
[7] WANG D,LIU D,WEI Q. Adaptive dynamic programming for finite-horizon optimal tracking control of a class of nonlinear systems [C]//中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì).中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)B卷.2011:2450-2455.
[8] ZHANG H G,SONG R Z,WEI Q L,et al. Optimal tracking control for a class of nonlinear discrete-time systems with time delays based on heuristic dynamic programming [J]. IEEE transactions on neural networks,2011,22(12):1851-1862.
[9] KIUMARSI B,LEWIS F L,NAGHIBI-SISTANI M,et al. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data [J]. IEEE transactions on cybernetics,2015,45(12):2770-2779.
[10] 李金娜,尹子軒.基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制 [J].控制與決策,2019,34(11):2343-2349.
[11] LI J N,YUAN D C,DING Z T. Optimal tracking control for discrete-time systems by model-free off-policy Q-learning approach [C]. 2017 11th Asian Control Conference(ASCC),2017:7-12.
作者簡(jiǎn)介:劉秋麗(1997—),女,漢族,河南鄲城人,本科,研究方向:自動(dòng)化;李金娜(1977—),女,漢族,山東單縣人,教授,碩士生導(dǎo)師,博士,研究方向:數(shù)據(jù)驅(qū)動(dòng)控制、運(yùn)行優(yōu)化控制、強(qiáng)化學(xué)習(xí)、網(wǎng)絡(luò)控制。