任立偉 班曉軍 吳奮 黃顯林
摘?要:針對(duì)二自由度飛行姿態(tài)模擬器的姿態(tài)穩(wěn)定問(wèn)題,依據(jù)強(qiáng)化學(xué)習(xí)中的策略迭代算法設(shè)計(jì)姿態(tài)穩(wěn)定控制器。將策略迭代學(xué)習(xí)算法與多項(xiàng)式TS模糊系統(tǒng)相結(jié)合,對(duì)控制器參數(shù)進(jìn)行學(xué)習(xí)調(diào)整,實(shí)現(xiàn)對(duì)二自由度飛行姿態(tài)模擬器姿態(tài)穩(wěn)定控制性能的優(yōu)化。通過(guò)多項(xiàng)式TS模糊模型對(duì)執(zhí)行器的策略函數(shù)以及評(píng)價(jià)器的值函數(shù)進(jìn)行逼近,建立基于多項(xiàng)式TS模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu),經(jīng)過(guò)策略迭代過(guò)程,學(xué)習(xí)得到最優(yōu)控制器參數(shù),使得值函數(shù)最小。通過(guò)仿真驗(yàn)證,證明了基于多項(xiàng)式TS模糊模型的執(zhí)行器—評(píng)價(jià)器結(jié)構(gòu)的策略迭代算法在飛行器姿態(tài)穩(wěn)定控制方面的有效性。
關(guān)鍵詞:飛行器控制;姿態(tài)穩(wěn)定;強(qiáng)化學(xué)習(xí);策略迭代算法;多項(xiàng)式TS模糊系統(tǒng)
DOI:10.15938/j.emc.2019.11.016
中圖分類(lèi)號(hào):TP?273
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1007-449X(2019)11-0127-08
收稿日期:?2019-03-15
基金項(xiàng)目:國(guó)家自然科學(xué)基金(61304006,61273095)
作者簡(jiǎn)介:任立偉(1989—),女,博士研究生,研究方向?yàn)槟:到y(tǒng)理論;
班曉軍(1978—),男,博士,教授,博士生導(dǎo)師,研究方向?yàn)槟:刂评碚?、魯棒增益調(diào)度控制理論、機(jī)電伺服控制系統(tǒng)等;
吳?奮(1964—),男,博士,教授,研究方向?yàn)轸敯糇儏?shù)控制、切換和混雜控制、非線性控制、先進(jìn)控制技術(shù)的工程應(yīng)用;
黃顯林(1956—),男,博士,教授,博士生導(dǎo)師,研究方向?yàn)檠芯糠较驗(yàn)轱w行器制導(dǎo)、導(dǎo)航與控制、復(fù)雜系統(tǒng)非線性魯棒與自適應(yīng)控制等。
通信作者:班曉軍
Fuzzy?learning?controller?design?of?2DOF?flight?attitude?simulator
REN?Liwei1,?BAN?Xiaojun1,?WU?Fen2,?HUANG?Xianlin1
(1.?Center?for?Control?Theory?and?Guidance?Technology,?Harbin?Institute?of?Technology,?Harbin?150001,?China;
2.Department?of?Mechanical?and?Aerospace?Engineering,?North?Carolina?State?University,Raleigh?27695-7910,USA)
Abstract:
Aiming?at?the?attitude?stabilization?problem?of?twodegreesoffreedom?flight?attitude?simulator,?an?attitude?stabilization?controller?was?designed?based?on?the?policy?iteration?algorithm?in?the?reinforcement?learning.The?policyiteration?learning?algorithm?and?the?polynomial?TS?fuzzy?systems?were?combined?together,?conducting?parameters′?adjustment?of?the?controller,?and?achievingthe?optimization?of?the?attitude?stability?control?performance?of?the?twodegreesoffreedom?flight?attitude?simulator.By?approximating?the?policy?function?of?the?actor?and?the?value?function?of?the?critic?with?the?polynomial?TS?fuzzy?models,?the?actorcritic?structure?based?on?the?polynomial?TS?fuzzy?models?was?established.?Through?the?policy?iteration?process,?the?optimal?parameters?of?the?controller?were?learned?to?minimize?the?value?function.The?simulation?results?show?that?the?policy?iteration?algorithm?based?on?polynomial?TS?fuzzy?models?is?effective?in?controlling?aircraft?attitude?stabilization.
Keywords:aircraft?control;?attitude?stabilization;?reinforcement?learning;?policy?iteration?algorithm;?polynomial?TS?fuzzy?system
0?引?言
旋翼式飛行器因其結(jié)構(gòu)簡(jiǎn)單、成本低廉、使用便利等特點(diǎn),被廣泛應(yīng)用于諸多領(lǐng)域,因此對(duì)其姿態(tài)控制方法的研究是很有必要的。為了有效提高旋翼式飛行器姿態(tài)控制系統(tǒng)的研發(fā)效率并降低研發(fā)成本,旋翼式飛行姿態(tài)模擬器應(yīng)運(yùn)而生。
文獻(xiàn)[1-2]提出了一種適合在實(shí)驗(yàn)室環(huán)境下研究旋翼式微小型飛行器姿態(tài)控制的小型二自由度飛行姿態(tài)模擬器。此套設(shè)備可以方便地改變整個(gè)系統(tǒng)的質(zhì)心位置,從而改變被控對(duì)象動(dòng)力學(xué)方程中的參數(shù),為研究強(qiáng)魯棒性、自適應(yīng)姿態(tài)穩(wěn)定以及大角度姿態(tài)調(diào)整控制問(wèn)題提供了一個(gè)良好的實(shí)驗(yàn)平臺(tái)。該二自由度飛行姿態(tài)模擬器具有自身不穩(wěn)定性、非線性等特性,采用可行又有效的控制策略才能保證其運(yùn)行的穩(wěn)定性。
強(qiáng)化學(xué)習(xí)(reinforcement?learning,RL)是計(jì)算智能領(lǐng)域發(fā)展起來(lái)的一種機(jī)器學(xué)習(xí)方法[3-4],它通過(guò)智能體與環(huán)境的交互進(jìn)行探索,在采取動(dòng)作和環(huán)境的評(píng)價(jià)信息中獲得所需知識(shí),進(jìn)一步指導(dǎo)后續(xù)動(dòng)作,最終得到最優(yōu)的動(dòng)作策略,以適應(yīng)環(huán)境達(dá)到預(yù)期目的。強(qiáng)化學(xué)習(xí)與最優(yōu)控制和自適應(yīng)控制有著密切的聯(lián)系,F(xiàn)rank?L.?Lewis及其團(tuán)隊(duì)在把RL應(yīng)用到控制領(lǐng)域的過(guò)程中做出了大量重要的工作,得到了很多有價(jià)值的理論成果[5-8]。強(qiáng)化學(xué)習(xí)具有對(duì)環(huán)境先驗(yàn)知識(shí)要求低的優(yōu)點(diǎn),其主要學(xué)習(xí)任務(wù)是獲得“狀態(tài)—?jiǎng)幼鳌敝g的映射關(guān)系。函數(shù)逼近的本質(zhì)就是利用某一函數(shù)來(lái)逼近這一映射關(guān)系。對(duì)于控制領(lǐng)域,即強(qiáng)化學(xué)習(xí)不需要對(duì)象模型信息,主要目的是獲取控制策略,上述函數(shù)實(shí)際上就是控制器,對(duì)于參數(shù)化控制器而言,就是在交互過(guò)程中通過(guò)環(huán)境的評(píng)價(jià)信息對(duì)這個(gè)控制器的參數(shù)進(jìn)行優(yōu)化,從而達(dá)到改善控制效果的目的。強(qiáng)化學(xué)習(xí)控制方法目前作為一種基于人工智能的優(yōu)化控制方法,在求解復(fù)雜控制決策問(wèn)題過(guò)程中,極具潛力和優(yōu)勢(shì)[9-13]。
一般所研究的強(qiáng)化學(xué)習(xí)系統(tǒng),其狀態(tài)和動(dòng)作空間都是離散且有限的,值函數(shù)可以用表格表示。而對(duì)于大的狀態(tài)、動(dòng)作空間甚至連續(xù)狀態(tài)、動(dòng)作空間,值函數(shù)的存儲(chǔ)將面臨“維數(shù)災(zāi)難”問(wèn)題。為了解決這個(gè)問(wèn)題,值函數(shù)逼近方法被引入到強(qiáng)化學(xué)習(xí)中,已經(jīng)成為一種有效方法。模糊邏輯推理作為控制理論中的一種重要方法,由于其具有萬(wàn)能逼近的特點(diǎn)而被用于強(qiáng)化學(xué)習(xí)中,用于逼近狀態(tài)值函數(shù)或狀態(tài)動(dòng)作值函數(shù),其中包括因逼近能力以及簡(jiǎn)單結(jié)構(gòu)而被廣泛研究的TakagiSugeno(TS)模糊模型[14-15]。
近些年來(lái),多項(xiàng)式TS模糊模型受到越來(lái)越多的關(guān)注。實(shí)質(zhì)上,多項(xiàng)式TS模糊模型可看作是TS模糊模型的一種推廣。這兩種模型主要區(qū)別在于模糊規(guī)則的后件部分:TS模糊模型后件部分是線性模型,而多項(xiàng)式TS模糊模型后件部分是多項(xiàng)式模型。因此,相比于傳統(tǒng)的TS模糊模型,多項(xiàng)式TS模糊模型可以更好地描述非線性系統(tǒng)。具體來(lái)說(shuō),針對(duì)同一非線性動(dòng)態(tài)系統(tǒng)進(jìn)行描述,前件變量相同的前提下,多項(xiàng)式TS模糊模型能夠顯著減少模糊規(guī)則條數(shù),并且隨著模型前件變量的增加,優(yōu)勢(shì)會(huì)更為突出;或是在相同模糊規(guī)則條數(shù)下,多項(xiàng)式TS模糊模型可以更多地表征非線性系統(tǒng)工作點(diǎn)附近的信息。目前,已有一系列研究針對(duì)多項(xiàng)式TS模糊系統(tǒng)的系統(tǒng)分析與控制展開(kāi)[16-24],取得了很多研究成果。
本文嘗試將強(qiáng)化學(xué)習(xí)中的策略迭代算法與一類(lèi)多項(xiàng)式TS模糊系統(tǒng)[24]相結(jié)合,利用多項(xiàng)式TS模糊模型分別對(duì)執(zhí)行器的策略函數(shù)以及評(píng)價(jià)器的值函數(shù)進(jìn)行逼近,建立基于多項(xiàng)式TS模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu),對(duì)控制器參數(shù)進(jìn)行迭代優(yōu)化。此外,本文將所設(shè)計(jì)的強(qiáng)化學(xué)習(xí)控制方法應(yīng)用于二自由度飛行模擬器的控制系統(tǒng)設(shè)計(jì),優(yōu)化其控制器參數(shù),成功實(shí)現(xiàn)對(duì)二自由度飛行模擬器俯仰角姿態(tài)穩(wěn)定控制性能的優(yōu)化。
1?飛行姿態(tài)模擬器動(dòng)力學(xué)模型
1.1?非線性系統(tǒng)模型
二自由度飛行姿態(tài)模擬器[1-2]的機(jī)械結(jié)構(gòu)主要有基座、U型架、擺動(dòng)臂和螺旋槳等部分,其簡(jiǎn)化結(jié)構(gòu)示意如圖1所示。擺動(dòng)臂兩端各有一個(gè)電機(jī),2個(gè)電機(jī)方向垂直,各裝有一個(gè)螺旋槳,用于驅(qū)動(dòng)擺動(dòng)臂,使其可以繞著基座進(jìn)行俯仰和偏航運(yùn)動(dòng)。F1為俯仰方向螺旋槳升力,垂直擺桿向上;F2為偏航方向螺旋槳升力,垂直指向紙面外。若只考慮俯仰方向運(yùn)動(dòng),則需保持偏航方向靜止。選豎直桿與擺動(dòng)臂的重合位置為運(yùn)動(dòng)坐標(biāo)系原點(diǎn)O,x軸方向?yàn)樗?,z軸方向?yàn)樨Q直,y軸方向通過(guò)右手定則來(lái)確定,并且將y軸方向定為俯仰方向的零位,俯仰角φ逆時(shí)針旋轉(zhuǎn)(圖中向上)為正方向。
依據(jù)機(jī)械結(jié)構(gòu)圖上的受力分析,可以建立飛行姿態(tài)模擬器俯仰方向動(dòng)力學(xué)模型如下:
Jφ··=-kφ·-Mglcosφ+F1L,(1)
式中各變量的物理意義及其具體參數(shù)值如表1所示。
選擇狀態(tài)變量x1=φ,x2=φ·及控制輸入變量u=F1L,即可得到飛行模擬器的仿射非線性模型如下:
x·=f(x)+g(x)u,(2)
其中:x=[x1,x2]T,f(x)=x21J(-kx2-Mglcos(x1)),
g(x)=01J。
1.2?連續(xù)系統(tǒng)的離散化
針對(duì)非線性系統(tǒng)(2),時(shí)間軸上連續(xù)取相同時(shí)間間隔T=tk+1-tk>0,[tk,tk+1)=[kT,(k+1)T)稱(chēng)為采樣間隔,T為采樣周期。本文中每個(gè)采樣間隔內(nèi),輸入信號(hào)被零階保持,即
u(t)≡u(píng)(kT)=u(k),kT≤t<(k+1)T。(3)
采用四階龍格-庫(kù)塔法對(duì)系統(tǒng)(2)進(jìn)行近似離散化,其遞推方程如下(步長(zhǎng)h=T):
x(k+1)=x(k)+h6(K1+2K2+2K3+K4),(4)
其中,
K1=f(x(k))+g(x(k))u(k),
K2=fx(k)+h2K1+gx(k)+h2K1u(k),
K3=fx(k)+h2K2+gx(k)+h2K2u(k),
K4=f(x(k)+hK3)+g(x(k)+hK3)u(k)。
2?強(qiáng)化學(xué)習(xí)策略迭代算法
考慮如下單輸入離散時(shí)間非線性動(dòng)態(tài)系統(tǒng)[7]:
x(k+1)=F(x(k))+G(x(k))u(k),(5)
其中x(k)∈瘙 綆
n表示系統(tǒng)k時(shí)刻的狀態(tài),u(k)∈瘙 綆
表示系統(tǒng)k時(shí)刻的控制輸入。F(x(k))和G(x(k))均為光滑的非線性函數(shù)。
定義回報(bào)函數(shù)r(x(k),u(k))如下:
r(x(k),u(k))=Q(x(k))+uT(k)Ru(k),(6)
其中Q(x(k))和R是正定的。特別地,二次型回報(bào)函數(shù)為
r(x(k),u(k))=xT(k)Qx(k)+uT(k)Ru(k)。(7)
控制目標(biāo)是尋求一個(gè)狀態(tài)空間到控制輸入空間的映射關(guān)系h(·)∶瘙 綆
n→瘙 綆
,即策略
u(k)=h(x(k))。(8)
使得未來(lái)的累積回報(bào)最小,有
Vh(x(k))=∑SymboleB@
i=kγi-kr(x(i),u(i))。(9)
其中,Vh(x(k))表示評(píng)價(jià)策略u(píng)(k)=h(x(k))的值函數(shù);x(i)(k≤i≤∞)表示滿足式(5)和式(8)的狀態(tài);γ∈[0,1]表示折扣因子,如果為0,則價(jià)值只由當(dāng)前回報(bào)決定;如果是1,則所有的后續(xù)回報(bào)和當(dāng)前回報(bào)一視同仁;如果是0到1之間的數(shù)字,即當(dāng)前回報(bào)的權(quán)重比后續(xù)回報(bào)的權(quán)重大。
本文研究的前提在于系統(tǒng)是可鎮(zhèn)定的[7],且存在一個(gè)可行的控制策略u(píng)(k)=h(x(k))使得閉環(huán)系統(tǒng)是漸近穩(wěn)定的。此處,可行的控制策略是指該策略可以使系統(tǒng)鎮(zhèn)定并且產(chǎn)生有界代價(jià)函數(shù)的策略。只有對(duì)于可行的控制策略,值函數(shù)Vh(x(k))的值才有意義。
最優(yōu)策略u(píng)(k)=h*(x(k))使得值函數(shù)(9)最小化,得到最優(yōu)價(jià)值
V*(x(k))=minh(·)(∑SymboleB@
i=kγi-kr(x(i),h(x(i)))),(10)
然而這一優(yōu)化問(wèn)題很難求解。Bellman最優(yōu)原理,作為最優(yōu)控制的一個(gè)奠基石,由其可以得到如下離散時(shí)間HamiltonJacobiBellman(HJB)方程:
V*(x(k))=minh(·)(r(x(k),h(x(k)))+
γV*(x(k+1))),(11)
進(jìn)一步,可得到最優(yōu)策略:
h*(x(k))=argminh(·)(r(x(k),h(x(k)))+
γV*(x(k+1)))。(12)
上述連續(xù)狀態(tài)、動(dòng)作空間下的離散時(shí)間非線性動(dòng)態(tài)系統(tǒng)最優(yōu)控制問(wèn)題可以用強(qiáng)化學(xué)習(xí)方法求解,基本思路分為兩步:首先根據(jù)當(dāng)前的策略u(píng)(k)=h(x(k))估計(jì)值函數(shù)Vh(x(k));然后根據(jù)當(dāng)前估計(jì)的值函數(shù)改進(jìn)策略。基于上述機(jī)制,研究者們提出了很多強(qiáng)化學(xué)習(xí)算法,本文主要基于比較經(jīng)典的策略迭代算法展開(kāi)研究,其具體步驟如下:
1)初始化:選擇任意容許控制策略h0(x(k));
2)策略評(píng)估:利用Bellman方程確定當(dāng)前策略的價(jià)值,即
Vj+1(x(k))=r(x(k),hj(x(k)))+
γVj+1(x(k+1))。(13)
3)策略更新:通過(guò)下式對(duì)策略進(jìn)行更新
hj+1(x(k))=argminh(·)(r(x(k),h(x(k)))+
γVj+1(x(k+1)))。(14)
實(shí)現(xiàn)上述策略迭代算法的經(jīng)典強(qiáng)化學(xué)習(xí)結(jié)構(gòu)為執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu)[7],如圖2所示。其中,評(píng)價(jià)器的任務(wù)是采用Bellman方程(13)對(duì)值函數(shù)進(jìn)行更新,執(zhí)行器的任務(wù)是采用式(14)對(duì)策略進(jìn)行更新。
針對(duì)有限狀態(tài)和動(dòng)作空間,策略迭代可通過(guò)存儲(chǔ)和更新查找表實(shí)現(xiàn)。然而對(duì)于非線性系統(tǒng)(5),狀態(tài)空間和控制輸入空間是連續(xù)及無(wú)限的,此時(shí)使用Bellman方程(13)對(duì)當(dāng)前策略的價(jià)值評(píng)估意味著需要對(duì)所有狀態(tài)x(k)計(jì)算策略hj(x(k))的價(jià)值,即求解該Bellman方程是很困難的。解決該問(wèn)題的關(guān)鍵是通過(guò)函數(shù)逼近器對(duì)值函數(shù)進(jìn)行近似。
3?基于多項(xiàng)式TS模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu)
本節(jié)將通過(guò)多項(xiàng)式TS模糊模型[24]對(duì)執(zhí)行器的策略函數(shù)以及評(píng)價(jià)器的值函數(shù)進(jìn)行逼近,建立基于多項(xiàng)式TS模糊模型的執(zhí)行器—評(píng)價(jià)器結(jié)構(gòu)。
3.1?評(píng)價(jià)器實(shí)現(xiàn)—多項(xiàng)式TS模糊模型近似值函數(shù)
由第2節(jié)可知道,實(shí)現(xiàn)具有無(wú)限狀態(tài)空間動(dòng)態(tài)系統(tǒng)的策略迭代的關(guān)鍵是近似值函數(shù)。本節(jié)將通過(guò)如下式所示的多項(xiàng)式TS模糊模型對(duì)值函數(shù)進(jìn)行近似,其第條規(guī)則如下:
R:?IF?x1(k)?is?M1?AND?x2(k)?is?M2?AND?…?AND?xn(k)?is?Mn,THEN
Vh(x(k))=∑ni=1alixi(k)+∑ni=1∑nj=ibli,jxi(k)xj(k)。(15)
其中:xi(k),i=1,2,…,n為系統(tǒng)在k時(shí)刻的狀態(tài);n為輸入變量的個(gè)數(shù);Mi是前件變量xi(k)的模糊集,μMi(xi(k))表示其隸屬函數(shù);Vh(x(k))為第條模糊規(guī)則輸出;ali和bli,j分別表示后件參數(shù),經(jīng)強(qiáng)化學(xué)習(xí)可得到。此外,
x(k)=[x1(k),x2(k),…,xn(k)]T。
模糊規(guī)則中邏輯“與”運(yùn)算符選擇常用的“代數(shù)乘積”,得到第條規(guī)則的激活度為
μ(x(k))=∏ni=1μMi(xi(k))。(16)
采用一般化的解模糊方法得到解模糊化后的模型輸出,如下:
Vh(x(k))=∑Ωl=1ξ(x(k))Vh(x(k)),(17)
其中:Ω為模糊規(guī)則數(shù)量;ξ(x(k))為模糊權(quán)函數(shù);Vh(x(k))由第條模糊規(guī)則的后件方程式(15)計(jì)算,且
ξ(x(k))=μ(x(k))∑Ωl=1μ(x(k))≥0,(18)
以及
∑Ωl=1ξ(x(k))=1。(19)
此外,在執(zhí)行器—評(píng)價(jià)器結(jié)構(gòu)中,評(píng)價(jià)器接收系統(tǒng)的狀態(tài)變量和式(6)定義的回報(bào)函數(shù),對(duì)強(qiáng)化學(xué)習(xí)的每次學(xué)習(xí)產(chǎn)生評(píng)判,產(chǎn)生如下時(shí)序差分誤差(Temporal?Difference?(TD)?Error):
e(k)=r(x(k),h(x(k)))+
γVh(x(k+1))-Vh(x(k))(20)
以及值函數(shù)估計(jì)。因此,針對(duì)值函數(shù)近似方法,一般可將式(20)作為近似性能指標(biāo)。
3.2?執(zhí)行器實(shí)現(xiàn)—多項(xiàng)式TS模糊控制器
本節(jié)將通過(guò)如下式所示的多項(xiàng)式TS模糊模型[24]對(duì)執(zhí)行器的策略函數(shù)進(jìn)行近似,其第w條規(guī)則如下:
Rw:IF?x1(k)?is?Nw1?AND?x2(k)?is?Nw2?AND?…?AND?xn(k)?is?Nwn,?THEN
uw(x(k))=cw+∑ni=1qwixi(k)+
∑ni=1∑nj=iswi,jxi(k)xj(k),(21)
其中:Nwi是前件變量xi(k)的模糊集;ηNwi(xi(k))表示其隸屬函數(shù);uw(x(k))為第w條模糊規(guī)則輸出;cw、qwi和swi,j分別表示后件參數(shù),經(jīng)強(qiáng)化學(xué)習(xí)可得到。
模糊規(guī)則中邏輯“與”運(yùn)算符選擇常用的“代數(shù)乘積”,得到第w條規(guī)則的激活度為
ηw(x(k))=∏ni=1ηNwi(xi(k))。(22)
采用一般化的解模糊方法得到解模糊化后的模型輸出,如下:
u(x(k))=∑ψw=1ζw(x(k))uw(x(k)),(23)
其中,ψ為模糊規(guī)則數(shù)量,ζw(x(k))為模糊權(quán)函數(shù),uw(x(k))由第w條模糊規(guī)則的后件方程式(21)計(jì)算,且
ζw(x(k))=ηw(x(k))∑ψw=1ηw(x(k))≥0,(24)
以及
∑ψw=1ζw(x(k))=1。(25)
4?仿真研究
利用第3節(jié)中所提出的基于多項(xiàng)式TS模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu)的策略迭代算法,?針對(duì)第1節(jié)中的飛行姿態(tài)模擬器俯仰方向動(dòng)力學(xué)模型進(jìn)行數(shù)值仿真研究。本文的強(qiáng)化學(xué)習(xí)控制算法并不需要對(duì)象模型,仿真中的模型只是用來(lái)模擬學(xué)習(xí)過(guò)程中與智能體進(jìn)行交互的外部環(huán)境,而不直接向智能體提供任何信息??刂颇繕?biāo)為設(shè)計(jì)多項(xiàng)式TS模糊控制器(23),使得給定系統(tǒng)一個(gè)初始角度,在控制器作用下最終可穩(wěn)定到0度,同時(shí)實(shí)現(xiàn)策略最優(yōu)化及值函數(shù)最優(yōu)化。具體為經(jīng)過(guò)策略迭代過(guò)程,學(xué)習(xí)得到最優(yōu)控制器參數(shù),使得值函數(shù)最小。
針對(duì)飛行姿態(tài)模擬器俯仰方向連續(xù)狀態(tài)空間模型(2),選擇離散采樣時(shí)間T=0.005?s,經(jīng)四階龍格-庫(kù)塔法離散化得到其離散狀態(tài)空間模型。
由式(1)和式(2)知,系統(tǒng)穩(wěn)定到0度時(shí),有
u(k)=Mgl,(26)
所以選擇回報(bào)函數(shù)如下:
r(x(k),u(k))=xT(k)Qx(k)+
(u(k)-Mgl)TR(u(k)-Mgl)。(27)
其中,Q=1001,R=1。
選定多項(xiàng)式TS模糊模型(17)對(duì)值函數(shù)進(jìn)行近似,模糊規(guī)則數(shù)為Ω=2,前件變量為x1(k),其第條規(guī)則如下:
R:?IF?x1(k)?is?M1,THEN
Vlh(x(k))=bl1,1x21(k)+bl1,2x1(k)x2(k)+
bl2,2x22(k)。(28)
模糊權(quán)函數(shù)分別選為如下式所示的高斯型(其形狀見(jiàn)圖3)。
ξ1(x1(k))=e-x21(k)0.5,
ξ2(x1(k))=1-ξ1(x1(k))。(29)
選定多項(xiàng)式TS模糊控制器(23)模糊規(guī)則數(shù)ψ=2,前件變量為x1(k),其第w條規(guī)則如下:
Rw:IF?x1(k)?is?Nw1,THEN
uw(x(k))=cw+qw1x1(k)+qw2x2(k)+
sw1,1x21(k)+sw1,2x1(k)x2(k)+
sw2,2x22(k)。(30)
模糊權(quán)函數(shù)分別選為如下高斯型(其形狀同圖3):
ζ1(x1(k))=e-x21(k)0.360?7,
ζ2(x1(k))=1-ζ1(x1(k))。(31)
策略迭代算法中評(píng)價(jià)器和執(zhí)行器的參數(shù)初始值分別如表2和3所示。
初始狀態(tài)為x(0)=[-0.990?20]T,折扣因子γ=1。經(jīng)過(guò)15步迭代得到的收斂策略迭代結(jié)果(即評(píng)價(jià)器和執(zhí)行器參數(shù)收斂值)分別如表4和表5所示。
最優(yōu)策略(其參數(shù)如表5所示)下,系統(tǒng)在初始值為x(0)=[-0.990?20]T時(shí)的狀態(tài)響應(yīng)以及控制輸入分別如圖4和圖5所示。
由式(26)可知,當(dāng)系統(tǒng)穩(wěn)定在0度時(shí),經(jīng)計(jì)算可得控制量u(k)=0.149?9,圖5所得控制量終值結(jié)果與該理論計(jì)算結(jié)果一致。
進(jìn)一步,依據(jù)所得最優(yōu)策略(其參數(shù)如表5所示),改變系統(tǒng)初值為x(0)=[0.710?70]T,可得到該初始狀態(tài)下系統(tǒng)的狀態(tài)響應(yīng)以及控制輸入分別如圖6和圖7所示。
評(píng)價(jià)器參數(shù)收斂過(guò)程以及多項(xiàng)式TS模糊模型近似值函數(shù)所得到的最優(yōu)策略對(duì)應(yīng)的TD誤差分別如下圖8和圖9所示。
從圖4~圖7中可看出,經(jīng)過(guò)迭代學(xué)習(xí)過(guò)程,得到的具有最優(yōu)控制策略參數(shù)的控制器,能夠使得二自由度飛行模擬器的俯仰角和角速度均穩(wěn)定在0度。從圖8和圖9中,可以看到評(píng)價(jià)器參數(shù)收速度較快,且所得到的TD誤差為零,即實(shí)現(xiàn)了值函數(shù)最小化的性能指標(biāo)。該仿真結(jié)果不僅說(shuō)明多項(xiàng)式TS模糊模型近似值函數(shù)是可行的,此外,基于多項(xiàng)式T-S模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)策略迭代算法在二自由度飛行模擬器上的應(yīng)用是成功且有效的。
5?結(jié)?論
本文基于強(qiáng)化學(xué)習(xí)中的策略迭代算法對(duì)一個(gè)自主研制的二自由度飛行姿態(tài)模擬器的姿態(tài)穩(wěn)定問(wèn)題進(jìn)行研究,該模擬器為實(shí)驗(yàn)室環(huán)境下研究旋翼式微小型飛行器姿態(tài)控制提供了一個(gè)很好的平臺(tái)。首次將策略迭代學(xué)習(xí)算法與多項(xiàng)式TS模糊系統(tǒng)相結(jié)合,建立基于多項(xiàng)式TS模糊模型的執(zhí)行器-評(píng)價(jià)器結(jié)構(gòu),對(duì)控制器參數(shù)進(jìn)行學(xué)習(xí)調(diào)整,實(shí)現(xiàn)對(duì)二自由度飛行姿態(tài)模擬器姿態(tài)穩(wěn)定控制性能的優(yōu)化,具有一定的應(yīng)用價(jià)值。實(shí)際上,該算法并不局限于某一策略形式,能夠參數(shù)化表達(dá)的控制策略形式都可以通過(guò)該算法進(jìn)行策略參數(shù)優(yōu)化,實(shí)際應(yīng)用中,可以根據(jù)需要進(jìn)行策略形式選擇。
參?考?文?獻(xiàn):
[1]?趙巖.?二自由度直升機(jī)模擬器控制系統(tǒng)設(shè)計(jì)[D].?哈爾濱:哈爾濱工業(yè)大學(xué),?2013.
[2]?尹航,?楊燁峰,?趙巖,等.?二自由度飛行姿態(tài)模擬器自整定控制器設(shè)計(jì)[J].電機(jī)與控制學(xué)報(bào),2018,22(4):109-116.
YIN?Hang,?YANG?Yefeng,?ZHAO?Yan,?et?al.?Selftuning?controller?design?for?a?2DOF?flight?attitude?simulator?[J].?Electric?Machines?and?Control,?2018,?22(4):109-116.
[3]?SUTTON?R?S,?BARTO?A?G.?Reinforcement?LearningAn?Introduction[M].?Cambridge,?MT:?MIT?Press,?1998.
[4]?Jerry?M.MENDEL.?Adaptive?learning?and?pattern?recognition?systems:?theory?and?applications[M].?Academic?Press,?1970.
[5]?WEI?Q,?LEWIS?F?L,?LIU?D,?et?al.?Discretetime?local?value?iteration?adaptive?dynamic?programming:?Convergence?analysis[J].?IEEE?Transactions?on?Systems?Man?and?Cybernetics:?Systems,?2018,?48(6):?875-891.
[6]?KIUMARSI?B,?LEWIS?F?L,?JIANG?Z?P.?H∞?control?of?linear?discretetime?systems:?Offpolicy?reinforcement?learning[J].?Automatica,?2017,?78(1):?144-152.
[7]?LEWIS?F?L,?VRABIE?D.?Reinforcement?learning?and?adaptive?dynamic?programming?for?feedback?control[J].?IEEE?Circuits?and?Systems?Magazine,?2009,?9(3):?32-50.
[8]?ZHAO?D,?LIU?D,?LEWIS?F?L,?et?al.?Special?issue?on?deep?reinforcement?learning?and?adaptive?dynamic?programming[J].?IEEE?Transactions?on?Neural?Networks?and?Learning?Systems,?2018,?29(6):?2038-2041.
[9]?KHATERAA,?ELNAGAR?A?M,?ELBARDINIM,?et?al.?Adaptive?T–S?fuzzy?controller?using?reinforcement?learning?based?on?Lyapunov?stability[J].?Journal?of?the?Franklin?Institute,?2018,?355(14):?6390-6415.
[10]?XIONG?Y,?HAIBO?H,?QINGLAI?W,?et?al.?Reinforcement?learning?for?robust?adaptive?control?of?partially?unknown?nonlinear?systems?subject?to?unmatched?uncertainties[J].?Information?Sciences,?2018,?463(1):307-322.
[11]?ZHANG?C,?ZOU?W,?CHENG?N,?et?al.?Trajectory?tracking?control?for?rotary?steerable?systems?using?interval?type2?fuzzy?logic?and?reinforcement?learning[J].?Journal?of?the?Franklin?Institute,?2018,?355(2):?803-826.
[12]?ZHU?Y,?ZHAO?D,?YANG?X,et?al.?Policy?iteration?for?H∞?optimal?control?of?polynomial?nonlinear?systems?via?sum?of?squares?programming[J].?IEEE?Transactions?on?Cybernetics,?2018,?48(2):?500-509.
[13]?趙冬斌,?邵坤,?朱圓恒,等.深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J].?控制理論與應(yīng)用,?2016,?33(6):701-717.
ZHAO?Dongbin,?SHAO?Kun,?ZHU?Yuanheng,?et?al.?Review?of?deep?reinforcement?learning?and?discussions?on?the?development?of?computer?go[J].?Control?Theory?&?Applications,?2016,?33(6):701-717.