周國峰,嚴(yán)大衛(wèi),梁 卓
(1.南京航空航天大學(xué) 航空學(xué)院,南京 210016;2.中國運(yùn)載火箭技術(shù)研究院,北京 100076)
以沖壓發(fā)動機(jī)為動力的飛行器因其結(jié)構(gòu)簡單、質(zhì)量輕、推重比大等優(yōu)點,相比于傳統(tǒng)動力飛行器在速度、航程方面具有顯著優(yōu)勢,成為近年來研究熱點。沖壓發(fā)動機(jī)需要在一定速度下才能產(chǎn)生推力,通常由助推器加速至合適的工作速度,然后點火迅速爬升至巡航工作點,其爬升過程既要滿足終端約束又要適應(yīng)外界干擾,同時發(fā)動機(jī)性能也與高度、動壓、攻角等軌跡參數(shù)耦合,使得爬升段成為沖壓發(fā)動機(jī)飛行器軌跡優(yōu)化與跟蹤控制設(shè)計中的難點。
飛行器軌跡優(yōu)化方法通常包括間接法和直接法,其中間接法需要利用變分法或極小值原理,推導(dǎo)過程復(fù)雜,求解帶約束的復(fù)雜軌跡優(yōu)化問題較為困難;直接法通過離散狀態(tài)變量和控制變量,將軌跡優(yōu)化問題轉(zhuǎn)化為非線性規(guī)劃問題,利用非線性規(guī)劃方法進(jìn)行求解,具有收斂半徑大、不需要猜測協(xié)態(tài)變量初值等優(yōu)點,其中偽譜法[1]、粒子群算法[2]、遺傳算法[3]在沖壓發(fā)動機(jī)飛行器軌跡優(yōu)化問題中得到大量應(yīng)用。
在飛行器軌跡跟蹤控制方面,文獻(xiàn)[4]應(yīng)用序列二次規(guī)劃對組合動力高超聲速飛行器上升段進(jìn)行了軌跡優(yōu)化設(shè)計,并利用線性化控制方法實現(xiàn)閉環(huán)穩(wěn)定的軌跡跟蹤控制,文獻(xiàn)[5]針對吸氣式高超聲速飛行器上升段軌跡多約束、非線性的特點,采用粒子群、偽譜法進(jìn)行軌跡優(yōu)化,再利用動態(tài)逆設(shè)計跟蹤制導(dǎo)律,取得了比PID 控制器更好的效果。隨著人工智能的發(fā)展,強(qiáng)化學(xué)習(xí)方法為飛行器軌跡跟蹤控制提供了一種新的解決思路,文獻(xiàn)[6]研究了深度確定性策略梯度算法(DDPG)在升力式再入飛行器軌跡優(yōu)化與制導(dǎo)中的應(yīng)用,文獻(xiàn)[7]針對傳統(tǒng)再入飛行器制導(dǎo)方法對強(qiáng)擾動條件適應(yīng)性不足,難以滿足終端約束的問題,采用DDPG 算法在具有噪聲的環(huán)境中訓(xùn)練,提升抗干擾能力,文獻(xiàn)[8]針對傳統(tǒng)預(yù)測校正算法迭代預(yù)測再入軌跡占用大量計算資源的問題,提出了一種基于actor-critic強(qiáng)化學(xué)習(xí)的跨周期迭代再入飛行器預(yù)測修正制導(dǎo)方法。
本文以沖壓發(fā)動機(jī)飛行器為研究對象,針對爬升段存在初值偏差以及干擾情況下的軌跡優(yōu)化與跟蹤控制問題,利用近端策略優(yōu)化(Proximal Policy Optimization,PPO)[9]強(qiáng)化學(xué)習(xí)算法,將爬升段軌跡優(yōu)化問題轉(zhuǎn)化為基于狀態(tài)給出最優(yōu)動作策略的強(qiáng)化學(xué)習(xí)問題,考慮到在具有隨機(jī)擾動的環(huán)境下進(jìn)行訓(xùn)練難以收斂的問題,采用無干擾環(huán)境訓(xùn)練,通過引入線性擴(kuò)張狀態(tài)觀測器(Linear Extended State Observer,LESO)進(jìn)行干擾觀測和補(bǔ)償?shù)姆椒▉碓鰪?qiáng)其抗干擾能力。
本文研究吸氣式高超聲速飛行器[10]縱向平面內(nèi)運(yùn)動特性。忽略了地球自轉(zhuǎn)與曲率影響,飛行器縱向質(zhì)點動力學(xué)方程為:
式中:V、θ、m、h、α分別表示飛行速度、彈道傾角、質(zhì)量、高度、攻角;D、L分別表示氣動阻力與升力;T、mc、λ分別表示發(fā)動機(jī)推力、燃?xì)饬髁?、空燃比;f1(·)、f2(·)是發(fā)動機(jī)推力、燃?xì)饬髁颗c飛行速度、攻角、高度以及空燃比之間的函數(shù)關(guān)系。
強(qiáng)化學(xué)習(xí)是一種根據(jù)智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)來優(yōu)化智能體行為策略的方法,在智能體與環(huán)境交互過程中會獲得獎勵,它的優(yōu)化目標(biāo)是使得累計獎勵最大。強(qiáng)化學(xué)習(xí)以馬爾科夫決策過程為框架,采用五元組進(jìn)行描述,其中S是狀態(tài)集,A是動作集,P是狀態(tài)轉(zhuǎn)移概率,R是獎勵值,γ為折扣因子。
近端策略優(yōu)化(PPO)算法是Open AI 提出的一種基于Actor-Critic 框架[11]的策略梯度強(qiáng)化學(xué)習(xí)算法,它采用了一個帶有截斷概率比的目標(biāo)函數(shù),通過動態(tài)修改目標(biāo)函數(shù)的截斷概率比,可以避免策略出現(xiàn)大幅度的更新,提升算法的魯棒性和數(shù)據(jù)效率。
PPO 算法的目標(biāo)函數(shù)定義如下:clip(·)為截斷函數(shù),ε為截斷常數(shù),為更
由于沖壓發(fā)動機(jī)飛行器爬升過程中在不同高度、速度下動力學(xué)特性差異較大,具有明顯的非線性時變特征,不能采用指令跟蹤問題的誤差量建模方法來縮減狀態(tài)空間,因此,選取全狀態(tài)量作為狀態(tài)集S=[Vθh m]。
在動作空間選取上,空燃比λ控制發(fā)動機(jī)的推力大小,攻角α控制氣動受力同時也影響發(fā)動機(jī)推力,動作集設(shè)計為A=[αλ],并且滿足αmin<α(t)<αmax,λmin<λ(t)<λmax。
回報函數(shù)的設(shè)計對策略的尋優(yōu)結(jié)果產(chǎn)生重大影響,在給出回報函數(shù)前,先對兩種任務(wù)結(jié)束狀態(tài)做如下定義:
1)任務(wù)完成:當(dāng)飛行器的各狀態(tài)誤差均滿足小于給定容許誤差閾值時刻,爬升段任務(wù)完成,即任務(wù)完成條件為達(dá)到目標(biāo)區(qū)域其中:
2)任務(wù)強(qiáng)制終止:爬升時間大于上限值tmax時任務(wù)終止,即任務(wù)強(qiáng)制終止條件為t>tmax。
從式(2)所述的優(yōu)化任務(wù)出發(fā),回報函數(shù)可設(shè)計為在任務(wù)完成時,給出關(guān)于燃料消耗的獎勵r1。顯然這屬于稀疏獎勵,在訓(xùn)練過程中大量策略難以到達(dá)目標(biāo)區(qū)域,從而無法獲得有效梯度信息,使得訓(xùn)練收斂困難。因此,對于未到達(dá)目標(biāo)區(qū)域的策略賦予與目標(biāo)狀態(tài)相關(guān)的廣義距離獎勵r2,到達(dá)目標(biāo)區(qū)域的策略賦予較大常值獎勵r0,用于引導(dǎo)策略靠近目標(biāo)區(qū)域,回報函數(shù)設(shè)計如下:
其中,tf是終止時刻;a1、a2是獎勵系數(shù),分別表征燃料消耗和終端約束精度在獎勵函數(shù)中的權(quán)重,一般地,a1取值使得r1與r0相當(dāng),a2小于r0,可以獲得較好的訓(xùn)練收斂效果。
最后,為了提升算法對初值偏差的適應(yīng)性,訓(xùn)練中每條軌跡的初值都從初值集合中采樣得到。
由于控制器在理想環(huán)境中訓(xùn)練,當(dāng)環(huán)境存在干擾以及模型參數(shù)不確定性時,控制器的適應(yīng)能力較差。為了提升控制器魯棒性,一種有效的方法是在訓(xùn)練時給環(huán)境增加擾動,使得訓(xùn)練結(jié)果能夠最大程度的克服擾動影響,如行動者-干擾者-評論家(Actor-Disturber-Critic)算法[12]、域隨機(jī)化方法[13]、魯棒對抗強(qiáng)化學(xué)習(xí)[14],但這些方法的樣本復(fù)雜度較高,訓(xùn)練難以收斂。
為了在提升魯棒性的同時不增加訓(xùn)練難度,本文將強(qiáng)化學(xué)習(xí)與線性擴(kuò)張狀態(tài)觀測器(LESO)相結(jié)合,對包含環(huán)境干擾與模型參數(shù)不確定性的總擾動進(jìn)行觀測和補(bǔ)償,從而使得理想環(huán)境下訓(xùn)練的強(qiáng)化學(xué)習(xí)控制器有效工作。
根據(jù)式(1),將環(huán)境擾動與模型不確定性等效為總擾動,將總擾動作為擴(kuò)張狀態(tài)量,則有:
圖1 帶有LESO 的強(qiáng)化學(xué)習(xí)軌跡控制Fig.1 Trajectory control with Reinforcement learning and LESO
式中,g1、g2為訓(xùn)練環(huán)境下的動力學(xué)模型,z1、z2為總擾動,ξ1、ξ2為總擾動微分。
采用線性誤差反饋,構(gòu)建如下線性擴(kuò)張狀態(tài)觀測器:
式中,β11、β12、β21、β22為觀測器的誤差反饋系數(shù)。
考慮狀態(tài)觀測器的穩(wěn)定性,記e1=V-、e2=θ-、e3=z1-、e4=z2-,則有如下觀測誤差方程:
式(9)可寫為:
對于式(9),可通過極點配置求得LESO 的誤差反饋系數(shù),令:
可以解得:
其中,ω0為觀測器帶寬。
在LESO 觀測得到總擾動后,通過實施干擾補(bǔ)償控制量α*、λ*來抵消干擾的影響,計算方程如下:
對式(12)做一階泰勒展開,并舍去高階小量,可得:
將g1,g2代入式(13),考慮α取值較小,取cosα≈1,sinα≈α,展開可得:
從而解得補(bǔ)償控制量為:
采用上述軌跡優(yōu)化控制方法進(jìn)行沖壓發(fā)動機(jī)飛行器的爬升段仿真驗證,主要條件參數(shù)如表1所示。
表1 主要仿真條件參數(shù)Tab.1 Main simulation condition parameters
動作網(wǎng)絡(luò)與評價網(wǎng)絡(luò)均采用3 層全連接網(wǎng)絡(luò),隱層節(jié)點數(shù)為 64,激活函數(shù)為 Relu,采用Stable-Baseline3的PPO框架進(jìn)行訓(xùn)練,算法的主要參數(shù)如表2所示。
表2 主要算法參數(shù)Tab.2 Main algorithm parameters
為了驗證算法中增加狀態(tài)初值采樣對改進(jìn)算法初值敏感性的效果,對是否采用初值采樣訓(xùn)練得到的策略進(jìn)行對比,如圖2所示。從圖2平均獎勵變化曲線可以看出,考慮狀態(tài)初值偏差時訓(xùn)練收斂速度明顯降低,無初值偏差約200 k 步數(shù)收斂,有初值偏差約400 k 步數(shù)收斂;表3、表4列出了狀態(tài)初值拉偏設(shè)置及仿真測試結(jié)果,可以看出增加初值采樣后訓(xùn)練得到的控制器,在不同初值下能滿足終端條件約束,有效降低狀態(tài)初值敏感性。
圖2 平均獎勵變化曲線Fig.2 Average reward curve
表3 狀態(tài)初值拉偏測試工況設(shè)置Tab.3 State initial value deflection test condition configuration
表4 狀態(tài)初值拉偏測試終值誤差Tab.4 Final value error of state initial value deflection test
再驗證算法對環(huán)境干擾的適應(yīng)性,環(huán)境干擾施加方式為:分別為速度系軸向和法向施加正弦干擾ξ、ζ,即:
其中,Ad1、Ad2為干擾幅值,分別取值為2000 N、4000 N;ωd1、ωd2為干擾頻率,分別取值為0.1 rad/s、1 rad/s;φd1、φd2為干擾隨機(jī)初始相位。
圖4 高度曲線Fig.4 Curve of height
圖5 攻角與空燃比曲線(LESO)Fig.5 Curve of angle of attack and air-fuel ratio(LESO)
圖6 攻角與空燃比曲線(無LESO)Fig.6 Curve of angle of attack and air-fuel ratio(no LESO)
圖7 觀測器估計誤差曲線Fig.7 Curve of observer estimation error
圖3-7 給出了干擾作用下的仿真曲線,表5對比了是否采用LESO 的策略在干擾環(huán)境下終端約束滿足情況,可以看出LESO 對干擾的觀測和補(bǔ)償是有效的,終端狀態(tài)約束精度提升了60%以上,實現(xiàn)了在干擾環(huán)境下的高精度軌跡控制。
圖3 速度曲線Fig.3 Curve of speed
表5 干擾環(huán)境下的仿真結(jié)果Tab.5 Simulation results in interference environment
本文針對具有初值偏差與環(huán)境干擾的沖壓發(fā)動機(jī)爬升段軌跡優(yōu)化控制問題,提出了基于強(qiáng)化學(xué)習(xí)和擴(kuò)張狀態(tài)觀測器的控制方法。仿真結(jié)果表明,通過狀態(tài)初值采樣能有效降低初值偏差敏感性,但樣本復(fù)雜度增高,收斂速度變慢;通過對未完成目標(biāo)的樣本施加了終端廣義距離獎勵來引導(dǎo)策略靠近目標(biāo)區(qū)域,可以解決軌跡優(yōu)化獎勵稀疏性問題,有利于提升數(shù)據(jù)效率;將強(qiáng)化學(xué)習(xí)訓(xùn)練得到的控制器與線性擴(kuò)張狀態(tài)觀測器結(jié)合,能在不增加訓(xùn)練難度的情況下有效抑制環(huán)境干擾的影響。