国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種非仿射高超聲速飛行器的智能控制方法*

2021-11-24 02:15馬長(zhǎng)波茹海忠馬廣程夏紅偉
飛控與探測(cè) 2021年4期
關(guān)鍵詞:控制器算法模型

王 冠,馬長(zhǎng)波,茹海忠,馬廣程,夏紅偉

(1.哈爾濱工業(yè)大學(xué) 航天學(xué)院·哈爾濱·150001;2.上海衛(wèi)星工程研究所·上?!?01109)

0 引 言

高超聲速飛行器(Hypersonic Flight Vehicle, HFV)是一類速度不低于馬赫數(shù)5的臨近空間飛行器。與傳統(tǒng)飛行器相比,HFV在速度、飛行包線和突防能力等方面具備明顯的優(yōu)勢(shì)??刂葡到y(tǒng)作為HFV的重要子系統(tǒng),是使其完成既定任務(wù)和安全飛行的重要保障。然而,HFV在飛行過(guò)程中具有快時(shí)變、強(qiáng)非線性、強(qiáng)耦合性等特點(diǎn),這使其控制系統(tǒng)的設(shè)計(jì)成為HFV在實(shí)現(xiàn)工程應(yīng)用時(shí)所面臨的具有巨大挑戰(zhàn)性的核心問(wèn)題之一。

近年來(lái),許多先進(jìn)的控制技術(shù)已被應(yīng)用于HFV控制,如自適應(yīng)控制[1]、滑??刂芠2]、魯棒控制[3]、容錯(cuò)控制[4]、模糊控制[5]、神經(jīng)網(wǎng)絡(luò)控制[6]等,并取得了較好的效果。上述控制研究大都基于仿射模型而設(shè)計(jì)控制器,模型中的氣動(dòng)系數(shù)根據(jù)已知曲線擬合模型進(jìn)行近似。然而,HFV實(shí)際受到的氣動(dòng)力與攻角、控制舵偏角等因素呈非仿射關(guān)系,將其描述為仿射模型,會(huì)造成一定程度的控制精度損失。損失嚴(yán)重時(shí),在某些情況下,將不能正確描述飛行器的氣動(dòng)特性。因此,目前針對(duì)HFV非仿射模型的研究受到了越來(lái)越多的關(guān)注。BU[7]利用神經(jīng)網(wǎng)絡(luò)估計(jì)了未知的非仿射動(dòng)態(tài),設(shè)計(jì)了基于反步法的控制器。WANG等[8]建立了縱向通道的半分解半仿射模型形式,在考慮了執(zhí)行機(jī)構(gòu)死區(qū)的前提下設(shè)計(jì)了預(yù)設(shè)性能控制器。HU等[9]通過(guò)反饋線性化方法設(shè)計(jì)了魯棒自適應(yīng)模糊控制器,利用中值定理處理了氣動(dòng)阻力表達(dá)式中的非仿射形式項(xiàng),進(jìn)而得到了仿射模型。SHEN等[10]針對(duì)非仿射縱向短周期姿態(tài)模型,設(shè)計(jì)了自適應(yīng)滑模模糊控制器,并取得了較好的控制效果。

隨著未來(lái)HFV任務(wù)需求的發(fā)展和控制復(fù)雜度的增大,上述以經(jīng)典控制理論為基礎(chǔ)發(fā)展起來(lái)的控制方法面臨一定的技術(shù)瓶頸[11]。近年來(lái),深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)手段逐漸地受到控制科學(xué)領(lǐng)域研究學(xué)者的關(guān)注,人工智能技術(shù)的飛速發(fā)展為飛行器自主智能飛行的實(shí)現(xiàn)提供了新的可能。早在20世紀(jì)末期,華裔科學(xué)家吳恩達(dá)[12]利用強(qiáng)化學(xué)習(xí)中智能體不斷與環(huán)境進(jìn)行交互的特點(diǎn),對(duì)智能直升機(jī)進(jìn)行了相關(guān)應(yīng)用的研究,利用策略梯度算法對(duì)無(wú)人直升機(jī)懸停進(jìn)行了控制。近幾年興起的深度確定性策略梯度算法(Deep Deterministic Policy Gradient, DDPG)[13]則是深度強(qiáng)化學(xué)習(xí)中具有代表性的算法之一。KOCH等[14]利用強(qiáng)化學(xué)習(xí)訓(xùn)練了四旋翼角速率內(nèi)環(huán)控制器,并獲得了部分性能優(yōu)于PID控制器的效果。本文針對(duì)HFV的非仿射模型,進(jìn)行了基于DDPG算法的飛行控制研究。不同于無(wú)人直升機(jī)和四旋翼,本文的研究對(duì)象HFV是一種非傳統(tǒng)的飛行器,其具有面臨的飛行環(huán)境復(fù)雜、模型非線性程度高、強(qiáng)耦合以及參數(shù)不確定等特點(diǎn),上述特點(diǎn)增加了將機(jī)器學(xué)習(xí)方法直接應(yīng)用于HFV控制中的難度。此外,從目前的技術(shù)途徑來(lái)看,無(wú)論是傳統(tǒng)的最優(yōu)控制,還是深度強(qiáng)化學(xué)習(xí),在飛行器實(shí)時(shí)自主控制方面均存在不足。傳統(tǒng)控制方法與新興人工智能的關(guān)系不是替代關(guān)系,而是應(yīng)該相輔相成。以反步控制為例,其具有算法簡(jiǎn)單易實(shí)現(xiàn)、穩(wěn)定可靠的優(yōu)勢(shì),這都是當(dāng)前智能控制技術(shù)所欠缺的特點(diǎn)。因此,本文研究了基于反步控制框架的智能控制器,將傳統(tǒng)飛行控制與人工智能技術(shù)進(jìn)行了創(chuàng)新結(jié)合,這是實(shí)現(xiàn)智能控制發(fā)展的一個(gè)重要方向,也是解決HFV智能飛行控制的一種可靠思路。

基于以上分析,本文針對(duì)HFV非仿射模型研究了基于強(qiáng)化學(xué)習(xí)的反步控制方法。在本文其余部分,首先給出了HFV的數(shù)學(xué)模型,然后利用反步法的思想,依次設(shè)計(jì)了俯仰角速度虛擬控制指令和升降襟副翼控制律,并借助Lyapunov方法分析了閉環(huán)系統(tǒng)的穩(wěn)定性。在此基礎(chǔ)上,利用DDPG算法,設(shè)計(jì)了針對(duì)反步控制的智能參數(shù)整定和控制律補(bǔ)償方案。最后,通過(guò)仿真實(shí)驗(yàn)對(duì)其控制效果進(jìn)行了驗(yàn)證。

1 數(shù)學(xué)模型和問(wèn)題描述

1.1 HFV縱向通道非線性模型

本文以文獻(xiàn)[15]給出的一類HFV為研究對(duì)象,研究了其縱向非線性模型的控制問(wèn)題。其模型可描述為

(1)

式中,攻角α、俯仰角速率Q和航跡傾角γ是HFV短周期運(yùn)動(dòng)的三個(gè)狀態(tài)變量;Iyy是俯仰通道轉(zhuǎn)動(dòng)慣量;MA和MT分別是由氣動(dòng)力和推力產(chǎn)生的俯仰力矩;Δ是由環(huán)境干擾、模型不確定性等因素造成的額外擾動(dòng)。MA和MT可表示為

(2)

1.2 問(wèn)題描述

本文的研究目標(biāo)為:設(shè)計(jì)升降襟副翼控制律δa和δe,使得攻角α能夠跟蹤給定的參考指令αd。為實(shí)現(xiàn)此目標(biāo),本文以反步法為基礎(chǔ),在考慮外部擾動(dòng)的情況下,以俯仰角速度作為虛擬控制量,設(shè)計(jì)了虛擬控制律,進(jìn)而完成了升降襟副翼控制律的設(shè)計(jì)。由于反步法對(duì)參數(shù)比較敏感,對(duì)其的調(diào)整在很大程度上依賴于控制人員的經(jīng)驗(yàn),通常需要經(jīng)過(guò)反復(fù)的試驗(yàn),才能達(dá)到較好的控制效果。此外,對(duì)于處于復(fù)雜飛行環(huán)境和執(zhí)行復(fù)雜飛行任務(wù)的HFV而言,較多的控制量將導(dǎo)致其參數(shù)整定工作耗時(shí)且繁瑣,往往會(huì)給控制器的設(shè)計(jì)帶來(lái)諸多不便。在反步控制的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)進(jìn)行智能參數(shù)整定和控制律補(bǔ)償,將使俯仰角速度能夠較好地跟蹤俯仰角速度虛擬控制指令,進(jìn)而實(shí)現(xiàn)HFV的飛行控制。

2 控制器設(shè)計(jì)

本節(jié)主要介紹控制器設(shè)計(jì)的具體方案。首先,利用反步法分別設(shè)計(jì)了俯仰角速度虛擬控制律和升降襟副翼控制律;然后,給出了所采用的DDPG算法的原理;最后,將其與反步控制結(jié)合,提出了本文所研究的智能控制器。

2.1 俯仰角速度虛擬控制律設(shè)計(jì)

首先,定義x1=α-αd。根據(jù)式(1)可得

(3)

(4)

式中,H和V為HFV的高度和速度,可由相應(yīng)的傳感器測(cè)量得到。

對(duì)于式(3),設(shè)計(jì)虛擬控制律Qd

(5)

式中,k1為控制增益。定義誤差變量x2=Q-Qd。結(jié)合式(5),可將式(3)寫為

(6)

(7)

2.2 升降襟副翼控制律設(shè)計(jì)

對(duì)于誤差變量x2的動(dòng)態(tài),文獻(xiàn)[11]給出的CD的表達(dá)式包含控制量u的二次項(xiàng)。根據(jù)文獻(xiàn)[11]和式(2),這些分量會(huì)對(duì)攻角和俯仰角速度動(dòng)態(tài)產(chǎn)生一定的影響,其影響隨馬赫數(shù)增加而愈發(fā)明顯,對(duì)其進(jìn)行簡(jiǎn)單忽略并不合理?;诖?,x2的動(dòng)態(tài)可描述為

(8)

式中,未知函數(shù)f(·)是連續(xù)可導(dǎo)的非仿射控制函數(shù),為由氣動(dòng)系數(shù)不準(zhǔn)確和外部干擾所導(dǎo)致的擾動(dòng)項(xiàng)。同時(shí),選定u0(x)作為控制輸入的理想值

(9)

式中,k2>0為控制增益。

假設(shè)|u-f(x1,x2,u,Δ)|

(10)

(11)

式中,σ>0為收斂系數(shù)。

(12)

對(duì)于W=W1+W2的導(dǎo)數(shù)而言

≤0

(13)

因此,在假設(shè)未知函數(shù)有界時(shí),可以通過(guò)以上控制設(shè)計(jì)進(jìn)行實(shí)現(xiàn)。需要指出的是,在上述反步控制器中,控制參數(shù)的值將直接影響控制輸入的大小,進(jìn)而影響到控制的效果。

2.3 基于深度強(qiáng)化學(xué)習(xí)的HFV控制策略

(14)

DDPG算法借鑒了深度Q網(wǎng)絡(luò)算法的優(yōu)秀經(jīng)驗(yàn),將記憶回放單元以(si,ai,ri+1,si+1)的形式存儲(chǔ)為樣本,而后模擬人類大腦的回憶過(guò)程進(jìn)行了采樣學(xué)習(xí)。對(duì)于動(dòng)作價(jià)值網(wǎng)絡(luò)的訓(xùn)練,是要最小化損失函數(shù)

(15)

其中,yi=ri+γfQ(si+1,μ(si+1)|θQ),N為樣本總數(shù)。不同于深度Q網(wǎng)絡(luò)算法直接將策略網(wǎng)絡(luò)的參數(shù)賦值給目標(biāo)網(wǎng)絡(luò),DDPG算法采用的是更加平滑的、類似慣性更新的思想,以進(jìn)行目標(biāo)網(wǎng)絡(luò)的參數(shù)更新。τ為慣性更新率

(16)

以上介紹了DDPG算法的基本原理。下面利用控制器補(bǔ)償?shù)乃枷耄Y(jié)合強(qiáng)化學(xué)習(xí),設(shè)計(jì)了如下控制器

u=u0+uL

(17)

其中,uL為補(bǔ)償指令。所設(shè)計(jì)的智能控制器的結(jié)構(gòu)如圖1所示。

圖1 控制器結(jié)構(gòu)Fig.1 The structure of the controller

至此,本小節(jié)基于反步法的控制律設(shè)計(jì)并結(jié)合DDPG算法原理提出了一種HFV智能控制器。其主要思想為:一方面,利用參數(shù)整定機(jī)制取代耗時(shí)的試錯(cuò)方法,可以根據(jù)當(dāng)前的飛行條件決定關(guān)鍵的控制參數(shù);另一方面,通過(guò)生成合理的補(bǔ)償指令,可實(shí)現(xiàn)對(duì)HFV的安全高效控制。

3 仿真試驗(yàn)及結(jié)果分析

3.1 訓(xùn)練流程

為驗(yàn)證上述方法的有效性,首先需要采用DDPG算法進(jìn)行訓(xùn)練。在本文中,狀態(tài)集選為st=(α,Q,V,H),動(dòng)作集選為αt=(k1,k2,uL)。此外,獎(jiǎng)勵(lì)函數(shù)可設(shè)為如下形式

(18)

其中,kα和kδ是獎(jiǎng)勵(lì)函數(shù)中兩個(gè)目標(biāo)的權(quán)重;αmax和δmax是攻角和舵偏角的上界值,其目的是將不同量級(jí)上的狀態(tài)進(jìn)行歸一化處理。

本文所考慮的訓(xùn)練場(chǎng)景基于表1中HFV的狀態(tài)約束。在每輪訓(xùn)練開始時(shí),智能體根據(jù)系統(tǒng)隨機(jī)產(chǎn)生的初始狀態(tài),不斷地對(duì)外部環(huán)境進(jìn)行試探,并進(jìn)行對(duì)整個(gè)狀態(tài)空間的探索,以找到行動(dòng)值更高的行動(dòng)。

表1 HFV的狀態(tài)約束

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)均采用了全連接結(jié)構(gòu)。其中,Actor網(wǎng)絡(luò)使用了三層神經(jīng)網(wǎng)絡(luò),其輸入為系統(tǒng)的狀態(tài)集st,輸出k1、k2為反步法的控制參數(shù),uL為控制器的補(bǔ)償指令;Critic網(wǎng)絡(luò)使用了兩層神經(jīng)網(wǎng)絡(luò),其輸入為系統(tǒng)的狀態(tài)和動(dòng)作集,輸出為擬合行動(dòng)值Q(s,a)。tanh函數(shù)g1(z)的輸出位于(-1,1)之間,這樣可保證控制輸入約束在一定范圍。因此,本文中Actor網(wǎng)絡(luò)的輸出層采用了tanh函數(shù)。除此之外,其余網(wǎng)絡(luò)均采用了可為神經(jīng)網(wǎng)絡(luò)提供更快處理速度的Relu函數(shù)g2(z)。在所選用的DDPG中,訓(xùn)練的相關(guān)參數(shù)設(shè)置如表2所示。

表2 訓(xùn)練參數(shù)設(shè)置

(19)

在本文中,kα=0.8,kδ=0.2。設(shè)計(jì)算法的仿真時(shí)長(zhǎng)為T=100s,步長(zhǎng)dt=0.2s。因此,在一個(gè)回合訓(xùn)練中有500個(gè)數(shù)據(jù)。通過(guò)訓(xùn)練得到的獎(jiǎng)勵(lì)如圖2所示。由圖2可以看出,累積獎(jiǎng)勵(lì)在300回合左右基本收斂,展現(xiàn)了快速學(xué)習(xí)的過(guò)程。DDPG是采用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)擬合的一類新興的強(qiáng)化學(xué)習(xí)算法,適合解決復(fù)雜大維度應(yīng)用場(chǎng)景問(wèn)題,并已在圍棋AlphaZero算法中得到了技術(shù)驗(yàn)證[16]。需要指出的是,智能控制的實(shí)際應(yīng)用可能存在的缺點(diǎn)包括了由隨機(jī)動(dòng)作探索引發(fā)的學(xué)習(xí)效率低下以及訓(xùn)練樣本的海量需求。本文關(guān)于HFV智能控制的探索工作主要針對(duì)縱向通道的控制問(wèn)題,這極大地簡(jiǎn)化了訓(xùn)練的復(fù)雜程度。

圖2 總回報(bào)獎(jiǎng)勵(lì)曲線Fig.2 Total reward curve

3.2 仿真結(jié)果

針對(duì)式(1)中的HFV動(dòng)力學(xué)模型進(jìn)行了仿真實(shí)驗(yàn)。其中,式(2)所采用的氣動(dòng)參數(shù)可參考文獻(xiàn)[16]。所選取的飛行任務(wù)是HFV在巡航狀態(tài)下,飛行速度設(shè)置為V=3060m/s,飛行高度設(shè)置為h=20000 m,飛行狀態(tài)初始條件為α(0)=2.66°,q(0)=0[(°)·s-1],跟蹤指定的攻角參考軌跡αd(t)=5+2e-0.3t-2.5e-0.05t(°)。

首先,將訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)移植到所提出的控制器中,在當(dāng)前任務(wù)中所產(chǎn)生的控制參數(shù)和補(bǔ)償指令如圖3所示。

(a)控制參數(shù)

(b)控制指令補(bǔ)償圖3 控制參數(shù)和補(bǔ)償指令Fig.3 Control parameters and compensation commands

接下來(lái),將式(10)對(duì)應(yīng)的控制方法(記為對(duì)比方法1)和文獻(xiàn)[7]對(duì)應(yīng)的控制方法(記為對(duì)比方法2)作為對(duì)照,進(jìn)行仿真實(shí)驗(yàn)。圖4分別給出了其攻角、俯仰角速度、升降襟副翼偏轉(zhuǎn)角的狀態(tài)曲線。由仿真結(jié)果可以看出,上述三種方法均可取得較好的攻角跟蹤控制效果。其中,對(duì)比方法2和本文方法的控制效果要優(yōu)于對(duì)比方法1。對(duì)比方法2在控制初始階段會(huì)產(chǎn)生較為明顯的抖振,并且兩種對(duì)比方法的控制效果均依賴于參數(shù)調(diào)整。本文方法能夠在較短的時(shí)間內(nèi)實(shí)現(xiàn)攻角跟蹤,這是由于相比于對(duì)比方法,本文方法經(jīng)強(qiáng)化學(xué)習(xí)而得到的控制參數(shù)是隨系統(tǒng)狀態(tài)可調(diào)整的,且對(duì)控制器具備較好的補(bǔ)償作用。

(a)攻角

(b)俯仰角速度

(c)升降襟副翼偏轉(zhuǎn)角圖4 對(duì)比實(shí)驗(yàn)Fig.4 Comparative simulations

最后,為了驗(yàn)證對(duì)參數(shù)不確定性的適應(yīng)能力,考慮氣動(dòng)參數(shù)在標(biāo)稱值±20%內(nèi)變化,對(duì)該任務(wù)執(zhí)行了600次的蒙特卡洛仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5所示。由圖5可以看出,本文方法具有較好的魯棒性。

(a)攻角

(b)俯仰角速度

(c)升降襟副翼偏轉(zhuǎn)角圖5 蒙特卡洛仿真Fig.5 Monte-Carlo simulations

4 結(jié) 論

本文提出了一種非仿射HFV的智能控制律,HFV智能控制律具有結(jié)構(gòu)簡(jiǎn)單、魯棒性強(qiáng)的特點(diǎn)。在反步法控制器的基礎(chǔ)上,借助DDPG方法,對(duì)控制器進(jìn)行了參數(shù)在線調(diào)整和控制指令補(bǔ)償。該控制器能夠在額外擾動(dòng)和未建模動(dòng)態(tài)的情況下,保證攻角穩(wěn)健地跟蹤期望目標(biāo)。最后,數(shù)值例子驗(yàn)證了所提出方法的有效性。本文主要進(jìn)行了對(duì)HFV智能控制方法的研究探索工作,所提出的方法具有一定的學(xué)術(shù)研究?jī)r(jià)值和工程參考價(jià)值。

猜你喜歡
控制器算法模型
適用于BDS-3 PPP的隨機(jī)模型
三轉(zhuǎn)子式比例控制器設(shè)計(jì)與內(nèi)泄漏分析
南京溧水電子3款控制器產(chǎn)品
自制空間站模型
Travellng thg World Full—time for Rree
基于NFV的分布式SDN控制器節(jié)能機(jī)制
模型小覽(二)
學(xué)習(xí)算法的“三種境界”
算法框圖的補(bǔ)全
算法初步知識(shí)盤點(diǎn)
碌曲县| 两当县| 天水市| 浮梁县| 张掖市| 建始县| 晋中市| 吉隆县| 徐汇区| 读书| 崇义县| 吴川市| 改则县| 乌什县| 南皮县| 迁安市| 法库县| 二连浩特市| 潢川县| 静安区| 曲周县| 陕西省| 崇阳县| 沈阳市| 县级市| 嵊州市| 南华县| 宿州市| 环江| 枝江市| 朝阳区| 含山县| 平凉市| 富锦市| 新蔡县| 华蓥市| 融水| 偃师市| 建平县| 海城市| 临邑县|