国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強化學(xué)習(xí)的火星無人機狀態(tài)約束控制*

2023-09-04 03:02:46田翰文夏元清潘振華王泰祺
航天控制 2023年4期
關(guān)鍵詞:火星約束神經(jīng)網(wǎng)絡(luò)

田翰文,夏元清,潘振華,王泰祺

北京理工大學(xué)自動化學(xué)院,北京 100081

1 概述

作為一種新型的火星探測裝置,火星無人機可以克服火星車和軌道探測器的一些缺陷,為探索火星、開發(fā)火星提供了一條重要的技術(shù)途徑[1]。目前,火星無人機主要包括浮式氣球、固定翼、共軸和轉(zhuǎn)子4種類型:浮式氣球研究較早且功能有限,尚未深入研究,固定翼無人機和轉(zhuǎn)子無人機無法獲得良好的起降環(huán)境,不適合火星飛行。

火星無人機主要扮演2大角色[2]:1)“火星車行駛領(lǐng)航員”。火星無人機在一次飛行中就可完成半徑幾百米范圍的火星地表成像,快速實現(xiàn)周邊地形,精準(zhǔn)領(lǐng)航火星車安全快速行駛[3]。2)“火星車探測效能倍增器”[4]?;鹦菬o人機的飛行速度快,能快速覆蓋并掌握周邊地表形貌和成分特性,發(fā)現(xiàn)并引導(dǎo)火星車快速抵近高價值目標(biāo)[5],又快又準(zhǔn)地實現(xiàn)科學(xué)探測,推動火星車對高價值目標(biāo)探測能力的“倍增”[6]。

苛刻的火星環(huán)境對火星無人機技術(shù)研究具有極大的挑戰(zhàn)[7]。在同軸火星無人機的飛行控制中,由于火星大氣稀薄,無人機旋翼升力隨旋翼轉(zhuǎn)速的變化范圍遠(yuǎn)小于地球環(huán)境,因此火星無人機的飛行位置調(diào)整過程較慢?;鹦秋L(fēng)、沙塵暴等現(xiàn)象會嚴(yán)重影響火星無人機的飛行穩(wěn)定性,這就要求火星無人機能快速適應(yīng)不斷變化的環(huán)境,保證無人機的飛行安全。一旦到達(dá)火星,無人機必須生存下來,并進行操作。沒有任何物理干預(yù)的可能性;因此,火星無人機需要適應(yīng)環(huán)境變化和最大干擾(如空氣密度、溫度、風(fēng)向、地形特征及光照)[8]。而當(dāng)前所用的方法為PID控制,對火星無人機的抗干擾能力以及狀態(tài)約束方面均提升有限,因此控制方法應(yīng)在地球無人機(UAV)控制方法的基礎(chǔ)上考慮抗環(huán)境干擾。

火星無人機在多種約束條件下運行[9],例如由外部環(huán)境條件、系統(tǒng)性能要求或火星無人機安全問題引起的約束[10-11]。目前,基于障礙Lyapunov函數(shù)(或積分障礙Lyapunov函數(shù))的反演控制方法總是涉及到虛擬控制器的可行性條件[12],即虛擬控制器必須滿足一定的預(yù)定約束區(qū)域[13-15],這給相應(yīng)控制方案的設(shè)計和實現(xiàn)帶來了很大的困難[16-17]。針對火星無人機是一個連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種考慮輸入約束的基于積分強化學(xué)習(xí)的最優(yōu)跟蹤控制方法。為了避免對持續(xù)激勵條件的要求,結(jié)合了積分強化學(xué)習(xí)和經(jīng)驗回放技術(shù),并考慮了輸入飽和度。

本文基于六自由度運動方程和牛頓-歐拉動力學(xué)方程,建立了火星無人機的數(shù)學(xué)模型,引入了純粹基于系統(tǒng)狀態(tài)的非線性狀態(tài)相關(guān)函數(shù)。經(jīng)過坐標(biāo)變換,通過采用基于障礙Lyapunov函數(shù)和積分Lyapunov函數(shù)的方法來處理在全狀態(tài)和非對稱約束下的非線性系統(tǒng),并分別對虛擬控制器的可行性進行評估,經(jīng)過評判神經(jīng)網(wǎng)絡(luò)設(shè)計和動作神經(jīng)網(wǎng)絡(luò)設(shè)計,采用積分強化學(xué)習(xí)技術(shù)建立連續(xù)時間系統(tǒng)的Bellman方程誤差。提出了一種考慮輸入約束的基于積分強化學(xué)習(xí)的最優(yōu)跟蹤控制方法,完成了火星共軸無人機的位置控制。

2 火星無人機數(shù)學(xué)模型

火星無人機的嚴(yán)格反饋非線性系統(tǒng)為:

(1)

其中:x1=[x11,x12,x13]T表示無人機的位置,x2=[x21,x22,x23]T表示無人機的速度,ωb=[ωbx,ωby,ωbz]T表示無人機繞x、y、z三軸的角速率,m表示無人機的質(zhì)量,Fb表示無人機在機體坐標(biāo)系下所受到的力。

主要受到以下非對稱約束:

x1i:-K1i

(2)

其中:K1i和K2i是已知的正常數(shù)。

本文的控制目標(biāo)是設(shè)計火星無人機的自適應(yīng)神經(jīng)網(wǎng)絡(luò)魯棒控制器,使得系統(tǒng)y(t)的輸出緊密跟蹤期望軌跡yd(t),并且保證系統(tǒng)最終一致且有界,系統(tǒng)中獲得的任何信號都有界。同時,在沒有虛擬控制器可行性條件的情況下,繼續(xù)保持一個完全的非對稱狀態(tài)約束。

根據(jù)式(1)~(2),可以得出:

(3)

g2(x1,x2)u(t)+k(t)

(4)

其中:g1(x1,x2)=([g(x1,x2)+gT(x1,x2)]/2),g2(x1,x2)=([g(x1,x2)-gT(x1,x2)]/2)。

g(x1,x2)是一個非奇異矩陣,并且這個非奇異矩陣的弗羅比尼烏斯均值是有界的。

火星無人機的跟蹤誤差為:

h=x1-xe

(5)

(6)

3 神經(jīng)網(wǎng)絡(luò)函數(shù)近似

3.1 神經(jīng)網(wǎng)絡(luò)函數(shù)設(shè)計

神經(jīng)網(wǎng)絡(luò)是一種通用逼近器,可用于逼近緊集中的未知函數(shù)。神經(jīng)網(wǎng)絡(luò)具有良好的抗干擾能力,可以有效降低火星環(huán)境下惡劣環(huán)境對無人機的影響。因此,激活函數(shù)一般為徑向基函數(shù)。對于緊集Ω中定義的f(x)∈R3,x∈R3,可以用f(x)個典型線性參數(shù)RBF神經(jīng)網(wǎng)絡(luò)來逼近。

f(x)=W*Tφ(x)+χ(x)

(7)

其中:W*是神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,χ(x)是近似誤差,φ(x)是基函數(shù)向量。

(8)

其中:cri∈R3表示RBF神經(jīng)網(wǎng)絡(luò)中心,σNN表示基函數(shù)的寬度。由于一般的近似性質(zhì),我們可以得到N>0,且如果N>N0,那么χ(x)→0。

3.2 非線性狀態(tài)函數(shù)

本節(jié)將指定一個長期的表示度量,然后通過使用積分強化學(xué)習(xí)技術(shù)來解決這個長期成本。未知的控制方向需要用Nussbaum型函數(shù)求解?;贐arrier Lyapunov函數(shù)的控制技術(shù)通常將狀態(tài)約束問題轉(zhuǎn)化為跟蹤誤差問題,從而對系統(tǒng)的初始狀態(tài)產(chǎn)生更多的約束。此外,大多數(shù)先前的理論通常是在對稱約束的簡單情況下發(fā)展起來的。為了能夠求解非對稱狀態(tài)約束,列出了火星無人機位置狀態(tài)的非線性相關(guān)函數(shù):

(9)

且可以得到:

(10)

對于任何具有狀態(tài)約束的嚴(yán)格反饋系統(tǒng),基于障礙Lyapunov函數(shù)或積分障礙Lyapunov函數(shù)的控制方法都會涉及到所提出的可行性條件。

-K1i<α1i(t)

(11)

其中:α1i(t)代表虛擬控制率。對于虛擬控制律α1,即虛擬控制α′1ivs,雖然依賴于狀態(tài)變量和其他待設(shè)計參數(shù),但要始終保持在相應(yīng)控制方案可行的區(qū)域內(nèi)顯然是不切實際的,因為找到這些參數(shù)很困難,甚至是不可能的。

引理2對?l∈Rq和p>0,L=llT+pIq和λmin(L)=c是正定對稱矩陣,并滿足:

1)當(dāng)l=0,L=pIq是正定的;

2)當(dāng)?l≠0,因為llT的特征值是[1,0,…,0],L的特征值是[p+1,p,…,p],所以L是正定對稱的。

4 控制方向未知的積分強化學(xué)習(xí)

在本節(jié)中,針對具有非對稱狀態(tài)約束的嚴(yán)格反饋非線性系統(tǒng)(火星無人機)提出了一種基于魯棒自適應(yīng)的新型控制方案。該控制器設(shè)計的關(guān)鍵在于,它不直接使用基于坐標(biāo)變換的通用設(shè)計方法z2=x2-α1,也不直接使用基于坐標(biāo)變換的一般DCS方法z2=x2-α2f,其中xi表示系統(tǒng)狀態(tài),α1表示虛擬控制器,α2f是一階濾波器的輸出。

將坐標(biāo)變換設(shè)計如下:

(12)

(13)

(14)

(15)

另外可以得到:

(16)

其有助于進行穩(wěn)定性分析,該方法不需要復(fù)雜的離線約束優(yōu)化程序來獲得最優(yōu)設(shè)計參數(shù)。

4.1 評判神經(jīng)網(wǎng)絡(luò)設(shè)計

定義火星無人機的長期性能指標(biāo)為:

(17)

情形1:zi2(t)>>cpi,zi2(t)≥max{K12,K22},?ξ∈[t-T,t)

情形2:zi2(t)≥cpi,zi2(t)≤min{|K12|,|K22|},?ξ∈[t-T,t)

情形3:zi2(t)

設(shè)計以下公式:

(18)

其中:閾值設(shè)計為cqi>0。式(18)可以不斷提高火星無人機適應(yīng)環(huán)境的能力。

跟蹤誤差僅限于狀態(tài)約束條件:

上述的情形1中zi(t)遠(yuǎn)大于cqi,qz=1代表較差的跟蹤性能。當(dāng)火星無人機受到干擾,系統(tǒng)狀態(tài)越界時,可以利用強化學(xué)習(xí)將系統(tǒng)拉回約束區(qū)域。上述的情形2中zi(t)大于等于cqi,qz=0.3表示具有一般的跟蹤性能,0.3是根據(jù)火星無人機的控制特性進行設(shè)計。上述的情形3中zi(t)小于cqi,qz=0表示具有優(yōu)秀的跟蹤性能。

“1”表示U(t)增加,代表當(dāng)前的控制會導(dǎo)致很大的跟蹤誤差,“0”表示U(t)減小,代表當(dāng)前的控制得到了很好的控制效果。cqi是一個很小的常數(shù),如1,0.1和0.01。我們利用U(t-T)和U(t)之間的關(guān)系,設(shè)置了cqi=0.02,并設(shè)計了連續(xù)時間非線性系統(tǒng)的貝爾曼誤差。

γ-1(U(t)+qc)

(19)

從式(18)可以得出,qc=[qc1,qc2,…,qcn]T,并且

(20)

由式(19)可以發(fā)現(xiàn),U(t)包含了火星無人機中未來系統(tǒng)的信息。無法直接獲得信息的問題很難直接解決,需要特殊的功能設(shè)計和適當(dāng)?shù)脑O(shè)計參數(shù)。通常使用值函數(shù)近似。用臨界RBF神經(jīng)網(wǎng)絡(luò)對其進行逼近

(21)

(22)

U(t-T)可以估計為

(23)

由于xe是先驗已知的,所以可以選擇它為xm。設(shè)計

xm(t)=[x1T(t),sT(t),xeT(t+Te),…,xeT(t+NeTe)]T

Ne是指定的數(shù)字,Te是時間間隔。

因此,時間誤差可以寫為:

(24)

(25)

(26)

4.2 動作神經(jīng)網(wǎng)絡(luò)設(shè)計

針對火星無人機連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種基于積分強化學(xué)習(xí)的狀態(tài)約束神經(jīng)網(wǎng)絡(luò)控制方法。為了估計系統(tǒng)的不確定性,設(shè)計了一種作用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)來估計火星無人機系統(tǒng)的不確定性:

(27)

(28)

定義動作神經(jīng)網(wǎng)絡(luò)的權(quán)值誤差

(29)

(30)

(31)

盡管f(x1,x2)和g(x1,x2)都是未知的,但本文研究了主要的未知控制方向。這意味著g(x1,x2)不會出現(xiàn)在u(t)里。一般來說,用評判RBF神經(jīng)網(wǎng)絡(luò)近似f(x1,x2)是估計火星無人機動力學(xué)不確定性的一種方法。

(32)

(33)

下面進行控制器設(shè)計:

第1步:求得時間的導(dǎo)數(shù):

(34)

(35)

(36)

(37)

通過在式(15)和(17)中對z2和y2的定義,得到:

(38)

(39)

(40)

通過使用楊氏不等式:

(41)

(42)

(43)

(44)

可以得出:

(45)

將式(45)代入式(40)可得:

(46)

(47)

最終給出了虛擬控制律:

(48)

(49)

(50)

(51)

因此:

(52)

最終得出:

(53)

第2步:取z2的導(dǎo)數(shù)作為時間收益率

(54)

選擇李雅普諾夫函數(shù)

(55)

(56)

實際控制律u表示如下:

(57)

(58)

其中:c2,γ2和σ2是正的設(shè)計系數(shù)。

定理1根據(jù)火星無人機的連續(xù)時間系統(tǒng)模型,考慮評判神經(jīng)網(wǎng)絡(luò)和動作神經(jīng)網(wǎng)絡(luò)?;诖嗽O(shè)計的自適應(yīng)積分強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)控制器具有式(27)和式(40)的更新特性,在初始值有界時還具有以下特性:

1)在火星無人機閉環(huán)系統(tǒng)中,任何信號都是半全局均勻且最終有界的;

(59)

同時,設(shè)計了動作神經(jīng)網(wǎng)絡(luò)σn

σn>bφmbφn

(60)

5 仿真驗證與分析

本節(jié)在Matlab/Simulink環(huán)境下進行數(shù)值模擬驗證。在考慮外部干擾和執(zhí)行器死區(qū)特性的情況下,控制目標(biāo)是使火星無人機在100 s內(nèi)達(dá)到所期望的狀態(tài),并給出了火星共軸雙旋翼無人機的仿真結(jié)果。

給定無人機的各項參數(shù)為:火星無人機質(zhì)量為1.8 kg,無人機的姿態(tài)角為[0.2,0.1,1.5]Trad,初始位置為[6.1,6.9,5.1]Tm,預(yù)期位置為[3.1,10,8.03]Tm。

假設(shè)火星無人機的系統(tǒng)干擾上限為1.2×10-3N。設(shè)計的控制器參數(shù)及所期望軌跡Sp表示如下:

(61)

設(shè)計了控制器的積分區(qū)間為T=0.1,γ=0.88,δ=1。同時,狀態(tài)約束的函數(shù)參數(shù)為K11=3,K21=-5,K12=K22=-15。所設(shè)計的位置控制回路的參數(shù)為c1=[0.06,0.06,0.06]T,設(shè)計速度控制回路的參數(shù)為c2=[16,16,16]T。此外,還設(shè)計了一系列強化學(xué)習(xí)評判神經(jīng)網(wǎng)絡(luò)的參數(shù)Γc=0.08,σc=0.16。

最后,將強化學(xué)習(xí)動作網(wǎng)絡(luò)的參數(shù)設(shè)計為Γa=0.01,σa=0.1。

仿真程序運行了400 s,火星無人機的位置如圖1所示,x軸在T=64.1 s后趨于穩(wěn)定,y軸在T=75.8 s后趨于穩(wěn)定,z軸在T=130.8 s后趨于穩(wěn)定,三軸均達(dá)到所需位置。圖2顯示了火星無人機的三軸速度??梢钥闯?當(dāng)T=79.5 s時,y軸和z軸的速度趨于0,當(dāng)T=133.3 s時x軸的速度趨于0,當(dāng)無人機到達(dá)所需位置時,速度將變?yōu)?。

圖1 火星無人機位置變化曲線

圖2 火星無人機速度變化曲線

圖3 評判神經(jīng)網(wǎng)絡(luò)輸出變化曲線

圖4 動作神經(jīng)網(wǎng)絡(luò)輸出變化曲線

控制器u的應(yīng)用程序輸出如圖5所示。在初始階段,對于較大的跟蹤誤差,輸出變化很大,控制器達(dá)到穩(wěn)態(tài)的時間相對較快,在T=97.8 s時達(dá)到。在穩(wěn)態(tài)階段,控制器α1,u的輸出是穩(wěn)定的。因此,控制器的穩(wěn)定性可以通過狀態(tài)有界性來實現(xiàn)。

圖5 控制器u輸出曲線

如果約束條件很小,則這些最優(yōu)設(shè)計參數(shù)將不可用。但在給定的控制條件下,對虛擬控制器α1沒有約束,也不需要使用復(fù)雜的算法來尋找最合適的參數(shù),因此,該方法更有效。

5 結(jié)論

針對共軸雙旋翼火星無人機非線性系統(tǒng)抗干擾能力的問題,提出了一種基于強化學(xué)習(xí)和狀態(tài)約束的連續(xù)時間非線性系統(tǒng)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方法。嚴(yán)格的理論分析表明,閉環(huán)系統(tǒng)是穩(wěn)定的;保證所有閉環(huán)信號一致且最終有界。設(shè)計了一個RBF神經(jīng)網(wǎng)絡(luò)來近似它。利用運動神經(jīng)網(wǎng)絡(luò)逼近未知漂移動力學(xué),求解未知控制方向。通過嚴(yán)格的李雅普諾夫函數(shù)證明,得到了閉環(huán)的穩(wěn)定性和一致極限的有界性。同時,我們將權(quán)重誤差和跟蹤誤差限制在一個緊集,所設(shè)計的算法可以有效地提高火星無人機的環(huán)境適應(yīng)性。采用李亞普諾夫函數(shù)和積分李亞普諾夫函數(shù)方法處理非線性系統(tǒng),避免了將狀態(tài)約束轉(zhuǎn)化為新的誤差邊界和虛擬控制器的可行性條件。仿真實驗和數(shù)據(jù)表明本研究提出的方法可以使火星無人機在惡劣環(huán)境下穩(wěn)定飛行,增強了對環(huán)境的適應(yīng)能力。

猜你喜歡
火星約束神經(jīng)網(wǎng)絡(luò)
玩轉(zhuǎn)火星
海外文摘(2021年7期)2021-08-31 21:33:44
“碳中和”約束下的路徑選擇
約束離散KP方程族的完全Virasoro對稱
火星!火星!
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
適當(dāng)放手能讓孩子更好地自我約束
人生十六七(2015年6期)2015-02-28 13:08:38
基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
不等式約束下AXA*=B的Hermite最小二乘解
库伦旗| 白沙| 洛南县| 漳浦县| 剑河县| 中卫市| 博罗县| 成武县| 阿荣旗| 荃湾区| 松潘县| 保亭| 新乡县| 湾仔区| 陈巴尔虎旗| 民和| 乌兰察布市| 南溪县| 宿松县| 承德县| 徐闻县| 凯里市| 德昌县| 武山县| 松阳县| 井陉县| 丰宁| 腾冲县| 高安市| 莱阳市| 宝坻区| 大英县| 崇阳县| 正蓝旗| 大埔县| 图们市| 泾源县| 凤城市| 遂川县| 新兴县| 正安县|