国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的高超聲速飛行器動態(tài)面控制方法*

2023-04-25 13:01:34趙琛鈺朱東方
飛控與探測 2023年1期
關(guān)鍵詞:超聲速飛行器控制器

胥 彪,趙琛鈺,李 爽,朱東方

(1.南京航空航天大學(xué) 航天學(xué)院·南京·211106;2.南京航空航天大學(xué) 空間光電探測與感知工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室·南京·211106;3.上海航天控制技術(shù)研究所·上海·201109)

0 引 言

高超聲速飛行器因具有機(jī)動能力強(qiáng)、飛行距離遠(yuǎn)、生存能力強(qiáng)等多重特點(diǎn),在空間競爭中的重要性愈發(fā)凸顯。在飛行任務(wù)需求不斷提高的背景下,飛行環(huán)境日益復(fù)雜,且高超聲速飛行器自身所具有的強(qiáng)非線性、復(fù)雜耦合效應(yīng)、快速時變特性和較大的不確定性等[1],都對控制系統(tǒng)的設(shè)計提出了更高的要求。

目前,已有大量文獻(xiàn)根據(jù)反步控制、自適應(yīng)控制、魯棒控制和模糊控制等多種控制理論,提出了高超聲速飛行器控制方法。例如,Sun H.等[2]基于干擾觀測器的反步控制方法,提出了在虛擬控制律中引入擾動估計以補(bǔ)償不匹配擾動的策略,設(shè)計了不犧牲標(biāo)稱控制性能的自抗擾控制器。Hu X.等[3]針對高超聲速飛行器的參數(shù)不確定性和未建模動態(tài),利用模糊邏輯系統(tǒng)(Fuzzy Logical System,F(xiàn)LS)對系統(tǒng)進(jìn)行辨識,并設(shè)計了一種具有較高效率的自適應(yīng)模糊控制器。Shou Y.等[4]針對系統(tǒng)動力學(xué)不確定性,利用在線數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)和擾動觀測器構(gòu)造了預(yù)設(shè)時間的Terminal滑??刂破?,實(shí)現(xiàn)了系統(tǒng)在定義時間內(nèi)收斂的效果。Bu X.等[5]針對傳統(tǒng)預(yù)設(shè)性能控制設(shè)計中需要預(yù)先知道初始跟蹤誤差的限制,提出了一種性能函數(shù)以實(shí)現(xiàn)不需要精確初始跟蹤誤差的更加簡潔的控制結(jié)構(gòu)和更低計算負(fù)擔(dān)的控制方法。反步控制憑借其固有的處理系統(tǒng)非線性的能力和閉環(huán)系統(tǒng)的自然穩(wěn)定性而受到廣泛關(guān)注,但是由于在設(shè)計中存在“項(xiàng)爆炸”的問題,使得控制器在設(shè)計時的計算十分復(fù)雜。D.Swaroop等[6]通過在非線性系統(tǒng)中引入一階濾波器代替求導(dǎo)工作,可以克服反步設(shè)計時的計算復(fù)雜問題,并保證了系統(tǒng)跟蹤誤差的有界性。然而,在傳統(tǒng)控制方法中,控制律通常需要設(shè)定固定的結(jié)構(gòu)和參數(shù),而一些自適應(yīng)方法又需要設(shè)計復(fù)雜的自適應(yīng)律,從而加深了控制器的設(shè)計難度。

隨著高超聲速飛行器的快速發(fā)展,對控制系統(tǒng)的智能化要求也不斷提高,這就需要對控制系統(tǒng)各個關(guān)鍵環(huán)節(jié)進(jìn)行智能化的升級改造,使得飛行器具有智能學(xué)習(xí)能力[7-9]。將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是一種通過感知環(huán)境變化,以深度神經(jīng)網(wǎng)絡(luò)構(gòu)建智能體與環(huán)境進(jìn)行交互,并以最大化獎勵為目標(biāo)訓(xùn)練智能體得到最優(yōu)策略的方法。傳統(tǒng)控制方法與先進(jìn)的人工智能的關(guān)系不是簡單的替代關(guān)系,而是應(yīng)該探索一種結(jié)合兩者優(yōu)點(diǎn)的智能控制方法。文獻(xiàn)[10]通過估計值函數(shù),采用基于策略迭代的單網(wǎng)絡(luò)積分型強(qiáng)化學(xué)習(xí)算法,解決了傳統(tǒng)HJB方程難以求解的問題,設(shè)計了收斂速度更快的再入飛行器的自適應(yīng)最優(yōu)控制器。

由T.P. Lillicrap于2016年提出的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[11],是深度強(qiáng)化學(xué)習(xí)中最具代表性的算法之一。確定性策略梯度(Deterministic Policy Gradient,DPG)算法雖然可以處理連續(xù)動作空間的任務(wù),但是無法從高維輸入中學(xué)習(xí)策略[12]。而深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)雖然可以直接進(jìn)行端到端的學(xué)習(xí),卻無法處理離散動作空間的問題[13]。DDPG在DPG的基礎(chǔ)上引入DQN算法的成功經(jīng)驗(yàn),實(shí)現(xiàn)了對高維連續(xù)動作空間強(qiáng)化學(xué)習(xí)問題的求解。文獻(xiàn)[14]就利用DDPG算法,以多數(shù)據(jù)幀的狀態(tài)信息作為智能體的觀察狀態(tài),舵偏角和發(fā)動機(jī)推力指令作為智能體的輸出動作,再經(jīng)過訓(xùn)練后得到了具有泛化性和魯棒性的智能飛行控制器。文獻(xiàn)[15]將DDPG和反步法結(jié)合,在考慮執(zhí)行器約束的情況下使控制律中的參數(shù)調(diào)整得到有效解決。文獻(xiàn)[16]將自抗擾控制算法和強(qiáng)化學(xué)習(xí)結(jié)合,提出了高超聲速飛行器巡航段的智能控制方法。文獻(xiàn)[17]基于深度強(qiáng)化學(xué)習(xí)理論,設(shè)計了導(dǎo)彈攔截問題的制導(dǎo)控制一體化算法。通過強(qiáng)化學(xué)習(xí)算法,使得導(dǎo)彈可以低能耗快速穩(wěn)定地攔截目標(biāo)。文獻(xiàn)[18]在速度子系統(tǒng)設(shè)計中采用強(qiáng)化學(xué)習(xí)算法,設(shè)計了基于神經(jīng)網(wǎng)絡(luò)自適應(yīng)的PID參數(shù)智能調(diào)整方案。

本文設(shè)計了一種用于高超聲速飛行器的姿態(tài)跟蹤智能控制算法,目的是在考慮控制約束和性能最優(yōu)的情況下實(shí)現(xiàn)姿態(tài)跟蹤控制。其核心思想是建立在傳統(tǒng)動態(tài)面控制方法基礎(chǔ)上,使用DRL完成對控制器參數(shù)的智能優(yōu)化,并且在DRL自身訓(xùn)練過程中達(dá)到性能最優(yōu)的要求。當(dāng)系統(tǒng)存在不確定性的情況下,智能控制算法仍能完成姿態(tài)控制。通過引入DRL算法,實(shí)現(xiàn)了在考慮控制量消耗和性能最優(yōu)情況下的控制器參數(shù)智能優(yōu)化。

1 高超聲速飛行器數(shù)學(xué)模型

考慮發(fā)動機(jī)關(guān)機(jī)狀態(tài)下,高超聲速飛行器縱向非線性模型可以表示為如下形式[19]

(1)

式中,彈道傾角γ、攻角α和俯仰角速率ω是描述飛行器縱向姿態(tài)運(yùn)動的3個狀態(tài)變量;V、m和r分別代表了飛行器目前飛行速度、質(zhì)量和距地心的徑向距離;μ為重力常數(shù);I為轉(zhuǎn)動慣量;Δ表示系統(tǒng)不確定項(xiàng)。飛行器的升力L和俯仰力矩M表達(dá)式如下

(2)

式中,ρ為空氣密度;S為參考面積;c為平均氣動弦長。升力系數(shù)CL和俯仰力矩系數(shù)CM的表達(dá)式為

(3)

表1 高超聲速飛行器縱向非線性模型參數(shù)表

結(jié)合實(shí)際情況,考慮升降舵偏轉(zhuǎn)角的幅值約束

-30°≤δ≤30°

(4)

在設(shè)計高超聲速飛行器控制律時,動態(tài)面控制方法的參數(shù)會直接影響控制效果。而傳統(tǒng)方法中,設(shè)計參數(shù)是依靠人工經(jīng)驗(yàn)調(diào)試的。本文采用動態(tài)面控制設(shè)計了控制器結(jié)構(gòu),將控制系數(shù)作為待定量,然后采用強(qiáng)化學(xué)習(xí)方法進(jìn)行智能參數(shù)優(yōu)化。

2 控制器設(shè)計

首先,利用動態(tài)面控制方法[6]分別設(shè)計攻角虛擬控制律、俯仰角速率虛擬控制律和升降舵偏轉(zhuǎn)角控制律。然后,將問題轉(zhuǎn)化到強(qiáng)化學(xué)習(xí)環(huán)境中,轉(zhuǎn)為尋找一個最優(yōu)策略函數(shù)實(shí)現(xiàn)跟蹤性能和控制量最優(yōu)。通過將強(qiáng)化學(xué)習(xí)算法與動態(tài)面控制方法結(jié)合,完成控制器參數(shù)智能優(yōu)化。

2.1 動態(tài)面控制器設(shè)計

2.1.1 攻角虛擬控制律設(shè)計

首先,定義彈道傾角跟蹤誤差S1為

S1=γ-γd

(5)

(6)

對式(6)求導(dǎo)可得

(7)

(8)

其中,k1>0為控制增益。

(9)

(10)

(11)

2.1.2 俯仰角速率虛擬控制律設(shè)計

對攻角跟蹤誤差S2求導(dǎo)得

(12)

此時,設(shè)計虛擬控制律為

(13)

其中,k2>0為控制增益。

(14)

=S3+e3-k2S2

(15)

(16)

2.1.3 升降舵偏轉(zhuǎn)角控制律設(shè)計

(17)

(18)

對俯仰角速率跟蹤誤差S3求導(dǎo)得

(19)

此時,設(shè)計最終的控制律為

(20)

其中,k3>0為控制增益;ρ3>|Δ|是阻尼項(xiàng)系數(shù);ε為任意小的正實(shí)數(shù)。

(21)

對于Lyapunov函數(shù)V=V1+V2+V3,求導(dǎo)得

=a1S1S2+a1S1e2+S2S3+S2e3+

(22)

由式(8)和式(13)推導(dǎo)濾波誤差的導(dǎo)數(shù)為

(23)

由式(23)可知,存在非負(fù)連續(xù)函數(shù)B2、B3,滿足不等式

(24)

(25)

則可得

(26)

假設(shè)V(0)=p,當(dāng)V≤p成立時,考慮緊集

(27)

(28)

其中,χ是足夠大的正數(shù)。故此時Ω1×Ω2也是緊集。由此可知,在V≤p成立時,Bi(i=2,3)在Ω1×Ω2上有最大值,記為Mi。

由于ρ3≥|Δ|,可得

(29)

此時,對式(22)進(jìn)一步處理可得

(30)

故按如下條件設(shè)計控制參數(shù)

(31)

(32)

其中,d≥0為待設(shè)計的正數(shù),此時

(33)

然后將式(33)兩邊同乘以e2dt,再在[0,t]上對其積分得

(34)

故可得閉環(huán)系統(tǒng)狀態(tài)是有界的,并且當(dāng)ε充分小時,可以保證系統(tǒng)跟蹤誤差足夠小。實(shí)際應(yīng)用中,采用人工試錯方式進(jìn)行調(diào)參,在很大程度上依賴于調(diào)試人員的經(jīng)驗(yàn),比較繁瑣。本文采用深度強(qiáng)化學(xué)習(xí)方法設(shè)計控制器參數(shù)的智能優(yōu)化算法,實(shí)現(xiàn)對彈道傾角指令的跟蹤。

2.2 基于深度強(qiáng)化學(xué)習(xí)的高超聲速飛行器控制器參數(shù)優(yōu)化設(shè)計

2.2.1 馬爾可夫決策過程

本文的姿態(tài)控制問題符合馬爾可夫性,即未來狀態(tài)的概率分布僅依賴于當(dāng)前狀態(tài)。按照馬爾可夫決策過程,在時刻t的狀態(tài)值可僅依靠上一時刻t-1的狀態(tài)值由式(1)得到。此時,假設(shè)遵循策略π(S),控制參數(shù)為k=π(S),可以得到下述軌跡

S0,k0,R0,S1,k1,R1,……,St,kt,Rt,……

(35)

其中,Rt為t時刻的獎勵值。St和kt分別為

St=[S1t,S2t,S3t]T,kt=[k1t,k2t,k3t]T

(36)

其中,St為在t時刻的狀態(tài)向量;kt為在t時刻的動作值向量。Sit和kit分別表示在t時刻Si和ki的值,i=1,2,3。問題就轉(zhuǎn)化為了尋找一個最優(yōu)策略π*(S),使得控制過程中的跟蹤誤差和控制量消耗最小。即在采取最優(yōu)策略得到的式(35)的軌跡中,其獎勵值總和最大。

為了衡量策略函數(shù)在給定狀態(tài)時采取動作的優(yōu)劣,定義回報Gt為t時刻開始往后所有獎勵的衰減總和

(37)

其中,γRL為折扣因子。定義狀態(tài)動作值函數(shù)Q(St,kt)為在狀態(tài)St下采取動作kt會收到的回報,由式(37)可得

(38)

這樣當(dāng)前時刻的狀態(tài)動作值函數(shù)就可以由下一時刻的狀態(tài)動作值函數(shù)計算得到。

2.2.2 DDPG控制參數(shù)尋優(yōu)算法

根據(jù)文獻(xiàn)[11],構(gòu)建4個神經(jīng)網(wǎng)絡(luò),且Critic網(wǎng)絡(luò)輸出值為Q(St,kt|θ),θ為該評價網(wǎng)絡(luò)的權(quán)值參數(shù);Critic目標(biāo)網(wǎng)絡(luò)輸出值為Q′(St,kt|θ′),θ′為該目標(biāo)評價網(wǎng)絡(luò)的權(quán)值參數(shù);Actor當(dāng)前網(wǎng)絡(luò)輸出值為π(St|φ),φ為該策略網(wǎng)絡(luò)的權(quán)值參數(shù);Actor目標(biāo)網(wǎng)絡(luò)輸出值為π′(St|φ′),φ′為該目標(biāo)策略網(wǎng)絡(luò)的權(quán)值參數(shù)。

在訓(xùn)練中的探索部分,利用策略網(wǎng)絡(luò)π(St|φ)輸出原始動作值并與噪聲疊加得到kt與環(huán)境交互

kt=π(St|φ)+N

(39)

其中,N為引入的OU噪聲以增強(qiáng)對環(huán)境的探索,然后將與環(huán)境得到的樣本(St,kt,Rt,St+1)存入經(jīng)驗(yàn)回放池D中。在網(wǎng)絡(luò)更新部分,為實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練時要求的樣本無關(guān)性,從經(jīng)驗(yàn)回放池中隨機(jī)取出N個樣本進(jìn)行訓(xùn)練。假設(shè)n=1,2,3,…,N,對隨機(jī)取出的樣本重新編號為(Sn,kn,Rn,Sn+1)。Q(Sn,kn|θ)的目標(biāo)是擬合下列目標(biāo)函數(shù)

yn=Rn+γRLQ′(Sn+1,π′(Sn+1|φ)|θ′)

(40)

此時,損失函數(shù)為最小化均方誤差

(41)

然后,采用梯度下降方法完成對Critic網(wǎng)絡(luò)的更新。

為了使Actor網(wǎng)絡(luò)不斷地向更優(yōu)的策略擬合,則其更新方向需按照使Q(Sn,kn|θ)增大的方向進(jìn)行優(yōu)化。其梯度更新公式為

(42)

其余2個目標(biāo)網(wǎng)絡(luò)則在每個訓(xùn)練回合完成后進(jìn)行軟更新

θ′←τθ+(1-τ)θ′
φ′←τφ+(1-τ)φ′

(43)

其中,τ∈(0,1)為慣性參數(shù)。

整個控制結(jié)構(gòu)如圖1所示。

圖1 高超聲速飛行器智能控制框圖Fig.1 Hypersonic vehicle intelligent control block diagram

綜上所述,基于DDPG的高超聲速飛行器智能優(yōu)化算法訓(xùn)練過程如表2所示。

表2 基于DDPG的高超聲速飛行器智能優(yōu)化算法

3 仿真分析

3.1 DDPG智能體訓(xùn)練

選用飛行參數(shù)[19]為速度V=4590m/s,質(zhì)量m=1.378×105kg,轉(zhuǎn)動慣量I=9.5×106kg·m2,大氣密度ρ=0.0125368kg/m3,平均氣動弦長c=24.4m,參考面積S=335.2m2,地心距r=6.4×106m。式(1)中取Δ=0.01sin(0.2t)rad/s2,其余參數(shù)取ρ3=0.01,ε=0.01,μ=3.936×1014,d=0.5。低通濾波器的時間常數(shù)為τ2=0.01,τ3=0.1。選擇跟蹤目標(biāo)為γd=10sin(0.1t)°。訓(xùn)練中高超聲速飛行器的各變量約束如表3所示。

表3 高超聲速飛行器的狀態(tài)約束

Actor網(wǎng)絡(luò)隱含層中使用三層全連接網(wǎng)絡(luò);Critic網(wǎng)絡(luò)隱含層中同樣使用全連接網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)的輸出層激活函數(shù)采用tanh函數(shù)g1(z),使其輸出位于(-1,1)之間,以此保證控制輸入約束在容許范圍內(nèi),除此之外其余網(wǎng)絡(luò)的激活函數(shù)均選擇使用Relu函數(shù)g2(z)作為激活函數(shù)

(44)

訓(xùn)練的相關(guān)參數(shù)如表4所示。

表4 訓(xùn)練參數(shù)設(shè)置

獎勵函數(shù)的設(shè)置是強(qiáng)化學(xué)習(xí)訓(xùn)練的關(guān)鍵,結(jié)合本文問題,將獎勵函數(shù)R設(shè)計為如下形式

(45)

式中,ks是跟蹤誤差權(quán)重系數(shù),ku是控制量權(quán)重系數(shù);γmax、δmax分別為彈道傾角和升降舵偏轉(zhuǎn)角所設(shè)定的最大值;Ra是獎勵函數(shù)中引入的控制量變化率

(46)

圖2 獎勵曲線Fig.2 Reward curve

由圖2可知,在獎勵函數(shù)未加導(dǎo)數(shù)的情況下,獎勵曲線在第74回合之后獎勵值到達(dá)并保持在終值的5%誤差以內(nèi);而在加入獎勵導(dǎo)數(shù)項(xiàng)之后,獎勵曲線在第25回合就達(dá)到了上述標(biāo)準(zhǔn),并且后者的曲線在前幾個回合內(nèi)的獎勵值更加平穩(wěn)。

3.2 姿態(tài)控制仿真結(jié)果

圖3~圖6所示為標(biāo)稱情況下的控制效果。由圖可以看出,在加入導(dǎo)數(shù)項(xiàng)后,加快訓(xùn)練速度的同時能夠保證控制效果。

圖3 彈道傾角跟蹤曲線Fig.3 Flight path angle tracking curve

圖6 升降舵偏轉(zhuǎn)角變化曲線Fig.6 Elevator curve

為了驗(yàn)證所設(shè)計控制器對參數(shù)不確定性的適應(yīng)能力,對氣動參數(shù)在標(biāo)稱值±50%內(nèi)進(jìn)行拉偏處理,執(zhí)行300次蒙特卡羅仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7和圖8所示。從圖中可以看出,在系統(tǒng)存在不確定性的情況下,控制算法可以適應(yīng)系統(tǒng)不確定性帶來的變化,具有較好的魯棒性。

圖4 攻角變化曲線Fig.4 Attack of angle curve

圖5 俯仰角加速度變化曲線Fig.5 Pitch angle curve

圖7 不確定條件下彈道傾角變換曲線Fig.7 Flight path angle curve under uncertainty

圖8 不確定條件下舵偏角變換曲線Fig.8 Elevator curve under uncertainty

4 結(jié) 論

本文針對高超聲速飛行器姿態(tài)控制問題,設(shè)計了一種基于DRL的動態(tài)面智能優(yōu)化控制算法。通過結(jié)合DRL機(jī)制的尋優(yōu)思想,完成對動態(tài)面控制的參數(shù)智能尋優(yōu),代替了傳統(tǒng)的參數(shù)調(diào)整過程與時間消耗,構(gòu)建出智能控制器。經(jīng)仿真結(jié)果表明,該控制器可以在考慮控制量消耗的情況下實(shí)現(xiàn)高性能的穩(wěn)定跟蹤控制,且在考慮氣動參數(shù)不確定性情況下仍能保持良好的跟蹤效果。

猜你喜歡
超聲速飛行器控制器
高超聲速出版工程
高超聲速飛行器
超聲速旅行
復(fù)雜飛行器的容錯控制
電子制作(2018年2期)2018-04-18 07:13:25
神秘的飛行器
高超聲速大博弈
太空探索(2014年5期)2014-07-12 09:53:28
模糊PID控制器設(shè)計及MATLAB仿真
MOXA RTU控制器ioPAC 5542系列
自動化博覽(2014年9期)2014-02-28 22:33:17
倍福 CX8091嵌入式控制器
自動化博覽(2014年4期)2014-02-28 22:31:15
4V三輸出同步降壓型控制器
偏关县| 登封市| 彝良县| 砀山县| 永修县| 汾阳市| 科技| 团风县| 永和县| 内江市| 阿合奇县| 平远县| 马公市| 饶河县| 桃源县| 定日县| 五家渠市| 逊克县| 黑河市| 龙胜| 聂拉木县| 陆良县| 鄢陵县| 白城市| 沛县| 镇原县| 佛学| 渝北区| 东平县| 同仁县| 沈丘县| 化隆| 年辖:市辖区| 海口市| 淅川县| 车致| 通化县| 始兴县| 县级市| 南川市| 遵义县|