基于離散非策略Q-學(xué)習(xí)最優(yōu)控制魯棒性研究

2020-11-06 13:54劉秋麗李金娜

現(xiàn)代信息科技 2020年12期

劉秋麗李金娜

摘 ?要：針對(duì)離散系統(tǒng)魯棒非策略Q-學(xué)習(xí)算法的研究的必要性進(jìn)行了分析和驗(yàn)證。首先提出了最優(yōu)控制問(wèn)題，然后利用Q-學(xué)習(xí)算法設(shè)計(jì)了基于數(shù)據(jù)驅(qū)動(dòng)的最優(yōu)控制器，并重點(diǎn)分析了非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。最后通過(guò)仿真實(shí)驗(yàn)得出結(jié)論，在不確定環(huán)境下應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。

關(guān)鍵詞：最優(yōu)控制;非策略Q-學(xué)習(xí);離散系統(tǒng);魯棒性

中圖分類(lèi)號(hào)：TP181;TP13 ? ? ?文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：2096-4706（2020）12-0010-04

Abstract：The necessity of robust non-strategic Q-learning research for discrete systems is analyzed and verified. First，the optimal control problem is proposed，and then the optimal controller based on data driving is designed using Q-learning method，and the focus is on whether the non-strategic Q-learning algorithm is effective in the optimal control problem of uncertain discrete systems. Finally，it is concluded through simulation experiments that a robust non-strategic Q-learning algorithm should be designed in an uncertain environment to ensure the stability of the system.

Keywords：optimal control;non-strategic Q-learning;discrete systems;robustness

0 ?引 ?言

強(qiáng)化學(xué)習(xí)算法是一種通過(guò)與環(huán)境進(jìn)行試錯(cuò)交互尋找能夠帶來(lái)最大累積獎(jiǎng)賞策略的學(xué)習(xí)方法[1]。目前強(qiáng)化學(xué)習(xí)的方法廣泛應(yīng)用于控制領(lǐng)域中，以達(dá)到最優(yōu)控制的效果。強(qiáng)化學(xué)習(xí)分為策略（On-policy）學(xué)習(xí)和非策略（Off-policy）學(xué)習(xí)。如果在學(xué)習(xí)過(guò)程中，動(dòng)作選擇的行為策略和學(xué)習(xí)改進(jìn)的目標(biāo)策略一致，該方法就被稱為策略學(xué)習(xí)，否則被稱為非策略學(xué)習(xí)[2]。

Q-學(xué)習(xí)是強(qiáng)化學(xué)習(xí)算法的一種，又稱為動(dòng)作相關(guān)啟發(fā)式動(dòng)態(tài)規(guī)劃（ADHDP），是一種近似動(dòng)態(tài)規(guī)劃（ADP）方案法，它結(jié)合了自適應(yīng)批評(píng)理論[3，4]。Q-學(xué)習(xí)算法的優(yōu)點(diǎn)之一是能夠在不了解環(huán)境的情況下評(píng)估效用和更新控制策略[2，5]。

筆者研究了一些用強(qiáng)化學(xué)習(xí)算法求解線性DT系統(tǒng)的線性二次調(diào)節(jié)問(wèn)題，如貪婪HDP迭代算法[6]和非線性DT系統(tǒng)的迭代自適應(yīng)動(dòng)態(tài)規(guī)劃（ADP）[7]，還有具有時(shí)滯的非線性系統(tǒng)啟發(fā)式動(dòng)態(tài)規(guī)劃（HDP）[8]和線性系統(tǒng)的輸入和輸出數(shù)據(jù)的策略迭代（PI）和值迭代（VI）[9]算法。然而，上述文獻(xiàn)并沒(méi)有分析和驗(yàn)證魯棒強(qiáng)化學(xué)習(xí)算法研究的必要性，理論上非策略Q-學(xué)習(xí)算法需要考慮系統(tǒng)的魯棒性，否則絕大多數(shù)控制器很難維持系統(tǒng)的穩(wěn)定性。這是本文研究魯棒非策略Q-學(xué)習(xí)問(wèn)題的動(dòng)機(jī)。

1 ?最優(yōu)控制問(wèn)題闡述

以下是對(duì)線性二次調(diào)節(jié)問(wèn)題的非策略Q-學(xué)習(xí)的闡述。

研究目標(biāo)：尋找一種最優(yōu)控制率，能夠使式（2）中性能指標(biāo)xk+1越小，并保證式（1）中系統(tǒng)J能夠在不確定的環(huán)境下保持穩(wěn)定。若不考慮不確定性，對(duì)于標(biāo)準(zhǔn)型式（3），可以參考現(xiàn)有文獻(xiàn)[10]來(lái)分析非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。

2 ?非策略Q-學(xué)習(xí)算法設(shè)計(jì)

以下是對(duì)非策略Q-學(xué)習(xí)算法的設(shè)計(jì)。根據(jù)Q-函數(shù)與值函數(shù)之間的關(guān)系，基于非策略Q-函數(shù)的Bellman方程，得到一種非策略Q-函數(shù)學(xué)習(xí)算法。

然后實(shí)現(xiàn)非策略Q-學(xué)習(xí)算法1，經(jīng)過(guò)30次迭代后算法收斂，得到最優(yōu)Q-函數(shù)矩陣H*和最優(yōu)控制器增益K*，結(jié)果同式（16）（17）。

在不考慮不確定性時(shí)，即bound=0時(shí)，系統(tǒng)狀態(tài)x1和x2都收斂于0，說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較好。具體系統(tǒng)狀態(tài)仿真曲線如圖1所示。

在不考慮不確定性時(shí)，即bound=0時(shí)，當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為10時(shí)，滿足學(xué)習(xí)的H與理論最優(yōu)解的差 <ε、學(xué)習(xí)的K與理論最優(yōu)解的差 ≤ε。仿真結(jié)果中常數(shù)ε（ε>0）趨于0，得到最優(yōu)控制策略。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖2所示。

在考慮不確定性時(shí)，取bound=0.4，系統(tǒng)狀態(tài)x1和x2在時(shí)間為20 s后便不再收斂于0，出現(xiàn)了大幅度發(fā)散的狀況，說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較差。具體系統(tǒng)狀態(tài)仿真曲線如圖3所示。

在考慮不確定性時(shí)，取bound=0.4，當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為20時(shí)，學(xué)習(xí)的H與理論最優(yōu)解的差和學(xué)習(xí)的K與理論最優(yōu)解的差 ?的結(jié)果不再收斂于0，得到的最優(yōu)控制策略將不能夠使系統(tǒng)保持穩(wěn)定狀態(tài)。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖4所示。

分析得到：在bound≠0時(shí)，非策略Q-學(xué)習(xí)算法1考慮了系統(tǒng)的不確定性，并且隨著不確定性ΔAk的增加，系統(tǒng)狀態(tài)穩(wěn)定性受到了一定程度的影響，可見(jiàn)算法1對(duì)不確定性ΔAk的容忍范圍是有限的;如果不確定性ΔAk過(guò)大，系統(tǒng)的穩(wěn)定性將無(wú)法得到保障。

4 ?結(jié) ?論

針對(duì)系統(tǒng)模型參數(shù)未知的離散系統(tǒng)，本文重點(diǎn)分析和驗(yàn)證了魯棒非策略Q-算法研究的必要性，提出了最優(yōu)控制問(wèn)題，并且在非策略Q-學(xué)習(xí)算法設(shè)計(jì)過(guò)程中考慮了不確定性。文章通過(guò)仿真實(shí)驗(yàn)得出結(jié)論，在研究不確定環(huán)境下的離散控制系統(tǒng)時(shí)，應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。

參考文獻(xiàn)：

[1] 劉全，傅啟明，龔聲蓉，等.最小狀態(tài)變?cè)骄?jiǎng)賞的強(qiáng)化學(xué)習(xí)方法 [J].通信學(xué)報(bào)，2011，32（1）：66-71.

[2] KIUMARSI B，LEWIS F L，MODARES H，et al. Reinforcement Q -learning for optimal tracking control of linear discrete-time systems with unknown dynamics [J]. Automatica，2014，50（4）：1167-1175.

[3] WATKINS C J C H. Learning from delayed rewards [D]. Cambridge：University of Cambridge，1989.

[4] MILLER W T，SUTTON R S，WERBOS P J. A Menu of Designs for Reinforcement Learning Over Time [J]. Neural networks for control，1995（3）：67-95.

[5] AL-TAMIMI A，LEWIS F L，ABU-KHALAF M. Model-free Q -learning designs for linear discrete-time zero-sum games with application to H-infinity control [J]. Automatica，2006，43（3）：473-481.

[6] ZHANG H G，WEI Q L，LUO Y H. A novel infinite-time optimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP iteration algorithm [J]. IEEE Transactions on Systems，Man，and Cybernetics，Part B：Cybernetics，2008，38（4）：937-942.

[7] WANG D，LIU D，WEI Q. Adaptive dynamic programming for finite-horizon optimal tracking control of a class of nonlinear systems [C]//中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì).中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)B卷.2011：2450-2455.

[8] ZHANG H G，SONG R Z，WEI Q L，et al. Optimal tracking control for a class of nonlinear discrete-time systems with time delays based on heuristic dynamic programming [J]. IEEE transactions on neural networks，2011，22（12）：1851-1862.

[9] KIUMARSI B，LEWIS F L，NAGHIBI-SISTANI M，et al. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data [J]. IEEE transactions on cybernetics，2015，45（12）：2770-2779.

[10] 李金娜，尹子軒.基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制 [J].控制與決策，2019，34（11）：2343-2349.

[11] LI J N，YUAN D C，DING Z T. Optimal tracking control for discrete-time systems by model-free off-policy Q-learning approach [C]. 2017 11th Asian Control Conference（ASCC），2017：7-12.

作者簡(jiǎn)介：劉秋麗（1997—），女，漢族，河南鄲城人，本科，研究方向：自動(dòng)化;李金娜（1977—），女，漢族，山東單縣人，教授，碩士生導(dǎo)師，博士，研究方向：數(shù)據(jù)驅(qū)動(dòng)控制、運(yùn)行優(yōu)化控制、強(qiáng)化學(xué)習(xí)、網(wǎng)絡(luò)控制。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于離散非策略Q-學(xué)習(xí)最優(yōu)控制魯棒性研究