国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于離散非策略Q-學(xué)習(xí)最優(yōu)控制魯棒性研究

2020-11-06 13:54劉秋麗李金娜
現(xiàn)代信息科技 2020年12期
關(guān)鍵詞:魯棒性學(xué)習(xí)

劉秋麗 李金娜

摘 ?要:針對(duì)離散系統(tǒng)魯棒非策略Q-學(xué)習(xí)算法的研究的必要性進(jìn)行了分析和驗(yàn)證。首先提出了最優(yōu)控制問(wèn)題,然后利用Q-學(xué)習(xí)算法設(shè)計(jì)了基于數(shù)據(jù)驅(qū)動(dòng)的最優(yōu)控制器,并重點(diǎn)分析了非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。最后通過(guò)仿真實(shí)驗(yàn)得出結(jié)論,在不確定環(huán)境下應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。

關(guān)鍵詞:最優(yōu)控制;非策略Q-學(xué)習(xí);離散系統(tǒng);魯棒性

中圖分類(lèi)號(hào):TP181;TP13 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)12-0010-04

Abstract:The necessity of robust non-strategic Q-learning research for discrete systems is analyzed and verified. First,the optimal control problem is proposed,and then the optimal controller based on data driving is designed using Q-learning method,and the focus is on whether the non-strategic Q-learning algorithm is effective in the optimal control problem of uncertain discrete systems. Finally,it is concluded through simulation experiments that a robust non-strategic Q-learning algorithm should be designed in an uncertain environment to ensure the stability of the system.

Keywords:optimal control;non-strategic Q-learning;discrete systems;robustness

0 ?引 ?言

強(qiáng)化學(xué)習(xí)算法是一種通過(guò)與環(huán)境進(jìn)行試錯(cuò)交互尋找能夠帶來(lái)最大累積獎(jiǎng)賞策略的學(xué)習(xí)方法[1]。目前強(qiáng)化學(xué)習(xí)的方法廣泛應(yīng)用于控制領(lǐng)域中,以達(dá)到最優(yōu)控制的效果。強(qiáng)化學(xué)習(xí)分為策略(On-policy)學(xué)習(xí)和非策略(Off-policy)學(xué)習(xí)。如果在學(xué)習(xí)過(guò)程中,動(dòng)作選擇的行為策略和學(xué)習(xí)改進(jìn)的目標(biāo)策略一致,該方法就被稱為策略學(xué)習(xí),否則被稱為非策略學(xué)習(xí)[2]。

Q-學(xué)習(xí)是強(qiáng)化學(xué)習(xí)算法的一種,又稱為動(dòng)作相關(guān)啟發(fā)式動(dòng)態(tài)規(guī)劃(ADHDP),是一種近似動(dòng)態(tài)規(guī)劃(ADP)方案法,它結(jié)合了自適應(yīng)批評(píng)理論[3,4]。Q-學(xué)習(xí)算法的優(yōu)點(diǎn)之一是能夠在不了解環(huán)境的情況下評(píng)估效用和更新控制策略[2,5]。

筆者研究了一些用強(qiáng)化學(xué)習(xí)算法求解線性DT系統(tǒng)的線性二次調(diào)節(jié)問(wèn)題,如貪婪HDP迭代算法[6]和非線性DT系統(tǒng)的迭代自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)[7],還有具有時(shí)滯的非線性系統(tǒng)啟發(fā)式動(dòng)態(tài)規(guī)劃(HDP)[8]和線性系統(tǒng)的輸入和輸出數(shù)據(jù)的策略迭代(PI)和值迭代(VI)[9]算法。然而,上述文獻(xiàn)并沒(méi)有分析和驗(yàn)證魯棒強(qiáng)化學(xué)習(xí)算法研究的必要性,理論上非策略Q-學(xué)習(xí)算法需要考慮系統(tǒng)的魯棒性,否則絕大多數(shù)控制器很難維持系統(tǒng)的穩(wěn)定性。這是本文研究魯棒非策略Q-學(xué)習(xí)問(wèn)題的動(dòng)機(jī)。

1 ?最優(yōu)控制問(wèn)題闡述

以下是對(duì)線性二次調(diào)節(jié)問(wèn)題的非策略Q-學(xué)習(xí)的闡述。

研究目標(biāo):尋找一種最優(yōu)控制率,能夠使式(2)中性能指標(biāo)xk+1越小,并保證式(1)中系統(tǒng)J能夠在不確定的環(huán)境下保持穩(wěn)定。若不考慮不確定性,對(duì)于標(biāo)準(zhǔn)型式(3),可以參考現(xiàn)有文獻(xiàn)[10]來(lái)分析非策略Q-學(xué)習(xí)算法在不確定性離散系統(tǒng)的最優(yōu)控制問(wèn)題中是否有效。

2 ?非策略Q-學(xué)習(xí)算法設(shè)計(jì)

以下是對(duì)非策略Q-學(xué)習(xí)算法的設(shè)計(jì)。根據(jù)Q-函數(shù)與值函數(shù)之間的關(guān)系,基于非策略Q-函數(shù)的Bellman方程,得到一種非策略Q-函數(shù)學(xué)習(xí)算法。

然后實(shí)現(xiàn)非策略Q-學(xué)習(xí)算法1,經(jīng)過(guò)30次迭代后算法收斂,得到最優(yōu)Q-函數(shù)矩陣H*和最優(yōu)控制器增益K*,結(jié)果同式(16)(17)。

在不考慮不確定性時(shí),即bound=0時(shí),系統(tǒng)狀態(tài)x1和x2都收斂于0,說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較好。具體系統(tǒng)狀態(tài)仿真曲線如圖1所示。

在不考慮不確定性時(shí),即bound=0時(shí),當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為10時(shí),滿足學(xué)習(xí)的H與理論最優(yōu)解的差 <ε、學(xué)習(xí)的K與理論最優(yōu)解的差 ≤ε。仿真結(jié)果中常數(shù)ε(ε>0)趨于0,得到最優(yōu)控制策略。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖2所示。

在考慮不確定性時(shí),取bound=0.4,系統(tǒng)狀態(tài)x1和x2在時(shí)間為20 s后便不再收斂于0,出現(xiàn)了大幅度發(fā)散的狀況,說(shuō)明原有的非策略Q-學(xué)習(xí)算法1對(duì)于系統(tǒng)的適應(yīng)性較差。具體系統(tǒng)狀態(tài)仿真曲線如圖3所示。

在考慮不確定性時(shí),取bound=0.4,當(dāng)非策略Q-學(xué)習(xí)算法1迭代次數(shù)為20時(shí),學(xué)習(xí)的H與理論最優(yōu)解的差 和學(xué)習(xí)的K與理論最優(yōu)解的差 ?的結(jié)果不再收斂于0,得到的最優(yōu)控制策略將不能夠使系統(tǒng)保持穩(wěn)定狀態(tài)。具體的學(xué)習(xí)的H和學(xué)習(xí)的K收斂到理論最優(yōu)解的過(guò)程如圖4所示。

分析得到:在bound≠0時(shí),非策略Q-學(xué)習(xí)算法1考慮了系統(tǒng)的不確定性,并且隨著不確定性ΔAk的增加,系統(tǒng)狀態(tài)穩(wěn)定性受到了一定程度的影響,可見(jiàn)算法1對(duì)不確定性ΔAk的容忍范圍是有限的;如果不確定性ΔAk過(guò)大,系統(tǒng)的穩(wěn)定性將無(wú)法得到保障。

4 ?結(jié) ?論

針對(duì)系統(tǒng)模型參數(shù)未知的離散系統(tǒng),本文重點(diǎn)分析和驗(yàn)證了魯棒非策略Q-算法研究的必要性,提出了最優(yōu)控制問(wèn)題,并且在非策略Q-學(xué)習(xí)算法設(shè)計(jì)過(guò)程中考慮了不確定性。文章通過(guò)仿真實(shí)驗(yàn)得出結(jié)論,在研究不確定環(huán)境下的離散控制系統(tǒng)時(shí),應(yīng)該設(shè)計(jì)魯棒非策略Q-學(xué)習(xí)算法以保證系統(tǒng)的穩(wěn)定性。

參考文獻(xiàn):

[1] 劉全,傅啟明,龔聲蓉,等.最小狀態(tài)變?cè)骄?jiǎng)賞的強(qiáng)化學(xué)習(xí)方法 [J].通信學(xué)報(bào),2011,32(1):66-71.

[2] KIUMARSI B,LEWIS F L,MODARES H,et al. Reinforcement Q -learning for optimal tracking control of linear discrete-time systems with unknown dynamics [J]. Automatica,2014,50(4):1167-1175.

[3] WATKINS C J C H. Learning from delayed rewards [D]. Cambridge:University of Cambridge,1989.

[4] MILLER W T,SUTTON R S,WERBOS P J. A Menu of Designs for Reinforcement Learning Over Time [J]. Neural networks for control,1995(3):67-95.

[5] AL-TAMIMI A,LEWIS F L,ABU-KHALAF M. Model-free Q -learning designs for linear discrete-time zero-sum games with application to H-infinity control [J]. Automatica,2006,43(3):473-481.

[6] ZHANG H G,WEI Q L,LUO Y H. A novel infinite-time optimal tracking control scheme for a class of discrete-time nonlinear systems via the greedy HDP iteration algorithm [J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics,2008,38(4):937-942.

[7] WANG D,LIU D,WEI Q. Adaptive dynamic programming for finite-horizon optimal tracking control of a class of nonlinear systems [C]//中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì).中國(guó)自動(dòng)化學(xué)會(huì)控制理論專(zhuān)業(yè)委員會(huì)B卷.2011:2450-2455.

[8] ZHANG H G,SONG R Z,WEI Q L,et al. Optimal tracking control for a class of nonlinear discrete-time systems with time delays based on heuristic dynamic programming [J]. IEEE transactions on neural networks,2011,22(12):1851-1862.

[9] KIUMARSI B,LEWIS F L,NAGHIBI-SISTANI M,et al. Optimal Tracking Control of Unknown Discrete-Time Linear Systems Using Input-Output Measured Data [J]. IEEE transactions on cybernetics,2015,45(12):2770-2779.

[10] 李金娜,尹子軒.基于非策略Q-學(xué)習(xí)的網(wǎng)絡(luò)控制系統(tǒng)最優(yōu)跟蹤控制 [J].控制與決策,2019,34(11):2343-2349.

[11] LI J N,YUAN D C,DING Z T. Optimal tracking control for discrete-time systems by model-free off-policy Q-learning approach [C]. 2017 11th Asian Control Conference(ASCC),2017:7-12.

作者簡(jiǎn)介:劉秋麗(1997—),女,漢族,河南鄲城人,本科,研究方向:自動(dòng)化;李金娜(1977—),女,漢族,山東單縣人,教授,碩士生導(dǎo)師,博士,研究方向:數(shù)據(jù)驅(qū)動(dòng)控制、運(yùn)行優(yōu)化控制、強(qiáng)化學(xué)習(xí)、網(wǎng)絡(luò)控制。

猜你喜歡
魯棒性學(xué)習(xí)
火電廠煙氣脫硝控制系統(tǒng)中的噴氨量?jī)?yōu)化建模與仿真
武漢軌道交通重點(diǎn)車(chē)站識(shí)別及網(wǎng)絡(luò)魯棒性研究
一種基于三維小波變換的魯棒視頻水印方案
電子節(jié)氣門(mén)非線性控制策略
高中生物教學(xué)中學(xué)生主動(dòng)學(xué)習(xí)策略研究
小學(xué)生學(xué)習(xí)與生活分離的社工干預(yù)行動(dòng)項(xiàng)目設(shè)計(jì)
試論在高校“產(chǎn)、學(xué)、研”中發(fā)展現(xiàn)代傳統(tǒng)手工藝文化
一種基于奇異值分解的魯棒水印算法
小學(xué)數(shù)學(xué)學(xué)習(xí)興趣的培養(yǎng)
家庭習(xí)得環(huán)境對(duì)初中學(xué)生英語(yǔ)學(xué)習(xí)的影響研究
德保县| 灌南县| 蕲春县| 南康市| 灵石县| 尼勒克县| 皮山县| 桃源县| 鄂温| 沂水县| 盐池县| 永济市| 凤台县| 尉犁县| 宝坻区| 繁昌县| 增城市| 禄丰县| 瓮安县| 宣汉县| 兴安县| 成武县| 安图县| 镇安县| 柳州市| 牡丹江市| 开鲁县| 绥宁县| 南陵县| 墨脱县| 五常市| 横山县| 龙口市| 易门县| 五原县| 益阳市| 麦盖提县| 长丰县| 沁源县| 满洲里市| 永康市|