田翰文,夏元清,潘振華,王泰祺
北京理工大學(xué)自動化學(xué)院,北京 100081
作為一種新型的火星探測裝置,火星無人機可以克服火星車和軌道探測器的一些缺陷,為探索火星、開發(fā)火星提供了一條重要的技術(shù)途徑[1]。目前,火星無人機主要包括浮式氣球、固定翼、共軸和轉(zhuǎn)子4種類型:浮式氣球研究較早且功能有限,尚未深入研究,固定翼無人機和轉(zhuǎn)子無人機無法獲得良好的起降環(huán)境,不適合火星飛行。
火星無人機主要扮演2大角色[2]:1)“火星車行駛領(lǐng)航員”。火星無人機在一次飛行中就可完成半徑幾百米范圍的火星地表成像,快速實現(xiàn)周邊地形,精準(zhǔn)領(lǐng)航火星車安全快速行駛[3]。2)“火星車探測效能倍增器”[4]?;鹦菬o人機的飛行速度快,能快速覆蓋并掌握周邊地表形貌和成分特性,發(fā)現(xiàn)并引導(dǎo)火星車快速抵近高價值目標(biāo)[5],又快又準(zhǔn)地實現(xiàn)科學(xué)探測,推動火星車對高價值目標(biāo)探測能力的“倍增”[6]。
苛刻的火星環(huán)境對火星無人機技術(shù)研究具有極大的挑戰(zhàn)[7]。在同軸火星無人機的飛行控制中,由于火星大氣稀薄,無人機旋翼升力隨旋翼轉(zhuǎn)速的變化范圍遠(yuǎn)小于地球環(huán)境,因此火星無人機的飛行位置調(diào)整過程較慢?;鹦秋L(fēng)、沙塵暴等現(xiàn)象會嚴(yán)重影響火星無人機的飛行穩(wěn)定性,這就要求火星無人機能快速適應(yīng)不斷變化的環(huán)境,保證無人機的飛行安全。一旦到達(dá)火星,無人機必須生存下來,并進行操作。沒有任何物理干預(yù)的可能性;因此,火星無人機需要適應(yīng)環(huán)境變化和最大干擾(如空氣密度、溫度、風(fēng)向、地形特征及光照)[8]。而當(dāng)前所用的方法為PID控制,對火星無人機的抗干擾能力以及狀態(tài)約束方面均提升有限,因此控制方法應(yīng)在地球無人機(UAV)控制方法的基礎(chǔ)上考慮抗環(huán)境干擾。
火星無人機在多種約束條件下運行[9],例如由外部環(huán)境條件、系統(tǒng)性能要求或火星無人機安全問題引起的約束[10-11]。目前,基于障礙Lyapunov函數(shù)(或積分障礙Lyapunov函數(shù))的反演控制方法總是涉及到虛擬控制器的可行性條件[12],即虛擬控制器必須滿足一定的預(yù)定約束區(qū)域[13-15],這給相應(yīng)控制方案的設(shè)計和實現(xiàn)帶來了很大的困難[16-17]。針對火星無人機是一個連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種考慮輸入約束的基于積分強化學(xué)習(xí)的最優(yōu)跟蹤控制方法。為了避免對持續(xù)激勵條件的要求,結(jié)合了積分強化學(xué)習(xí)和經(jīng)驗回放技術(shù),并考慮了輸入飽和度。
本文基于六自由度運動方程和牛頓-歐拉動力學(xué)方程,建立了火星無人機的數(shù)學(xué)模型,引入了純粹基于系統(tǒng)狀態(tài)的非線性狀態(tài)相關(guān)函數(shù)。經(jīng)過坐標(biāo)變換,通過采用基于障礙Lyapunov函數(shù)和積分Lyapunov函數(shù)的方法來處理在全狀態(tài)和非對稱約束下的非線性系統(tǒng),并分別對虛擬控制器的可行性進行評估,經(jīng)過評判神經(jīng)網(wǎng)絡(luò)設(shè)計和動作神經(jīng)網(wǎng)絡(luò)設(shè)計,采用積分強化學(xué)習(xí)技術(shù)建立連續(xù)時間系統(tǒng)的Bellman方程誤差。提出了一種考慮輸入約束的基于積分強化學(xué)習(xí)的最優(yōu)跟蹤控制方法,完成了火星共軸無人機的位置控制。
火星無人機的嚴(yán)格反饋非線性系統(tǒng)為:
(1)
其中:x1=[x11,x12,x13]T表示無人機的位置,x2=[x21,x22,x23]T表示無人機的速度,ωb=[ωbx,ωby,ωbz]T表示無人機繞x、y、z三軸的角速率,m表示無人機的質(zhì)量,Fb表示無人機在機體坐標(biāo)系下所受到的力。
主要受到以下非對稱約束:
x1i:-K1i (2) 其中:K1i和K2i是已知的正常數(shù)。 本文的控制目標(biāo)是設(shè)計火星無人機的自適應(yīng)神經(jīng)網(wǎng)絡(luò)魯棒控制器,使得系統(tǒng)y(t)的輸出緊密跟蹤期望軌跡yd(t),并且保證系統(tǒng)最終一致且有界,系統(tǒng)中獲得的任何信號都有界。同時,在沒有虛擬控制器可行性條件的情況下,繼續(xù)保持一個完全的非對稱狀態(tài)約束。 根據(jù)式(1)~(2),可以得出: (3) g2(x1,x2)u(t)+k(t) (4) 其中:g1(x1,x2)=([g(x1,x2)+gT(x1,x2)]/2),g2(x1,x2)=([g(x1,x2)-gT(x1,x2)]/2)。 g(x1,x2)是一個非奇異矩陣,并且這個非奇異矩陣的弗羅比尼烏斯均值是有界的。 火星無人機的跟蹤誤差為: h=x1-xe (5) (6) 神經(jīng)網(wǎng)絡(luò)是一種通用逼近器,可用于逼近緊集中的未知函數(shù)。神經(jīng)網(wǎng)絡(luò)具有良好的抗干擾能力,可以有效降低火星環(huán)境下惡劣環(huán)境對無人機的影響。因此,激活函數(shù)一般為徑向基函數(shù)。對于緊集Ω中定義的f(x)∈R3,x∈R3,可以用f(x)個典型線性參數(shù)RBF神經(jīng)網(wǎng)絡(luò)來逼近。 f(x)=W*Tφ(x)+χ(x) (7) 其中:W*是神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,χ(x)是近似誤差,φ(x)是基函數(shù)向量。 (8) 其中:cri∈R3表示RBF神經(jīng)網(wǎng)絡(luò)中心,σNN表示基函數(shù)的寬度。由于一般的近似性質(zhì),我們可以得到N>0,且如果N>N0,那么χ(x)→0。 本節(jié)將指定一個長期的表示度量,然后通過使用積分強化學(xué)習(xí)技術(shù)來解決這個長期成本。未知的控制方向需要用Nussbaum型函數(shù)求解?;贐arrier Lyapunov函數(shù)的控制技術(shù)通常將狀態(tài)約束問題轉(zhuǎn)化為跟蹤誤差問題,從而對系統(tǒng)的初始狀態(tài)產(chǎn)生更多的約束。此外,大多數(shù)先前的理論通常是在對稱約束的簡單情況下發(fā)展起來的。為了能夠求解非對稱狀態(tài)約束,列出了火星無人機位置狀態(tài)的非線性相關(guān)函數(shù): (9) 且可以得到: (10) 對于任何具有狀態(tài)約束的嚴(yán)格反饋系統(tǒng),基于障礙Lyapunov函數(shù)或積分障礙Lyapunov函數(shù)的控制方法都會涉及到所提出的可行性條件。 -K1i<α1i(t) (11) 其中:α1i(t)代表虛擬控制率。對于虛擬控制律α1,即虛擬控制α′1ivs,雖然依賴于狀態(tài)變量和其他待設(shè)計參數(shù),但要始終保持在相應(yīng)控制方案可行的區(qū)域內(nèi)顯然是不切實際的,因為找到這些參數(shù)很困難,甚至是不可能的。 引理2對?l∈Rq和p>0,L=llT+pIq和λmin(L)=c是正定對稱矩陣,并滿足: 1)當(dāng)l=0,L=pIq是正定的; 2)當(dāng)?l≠0,因為llT的特征值是[1,0,…,0],L的特征值是[p+1,p,…,p],所以L是正定對稱的。 在本節(jié)中,針對具有非對稱狀態(tài)約束的嚴(yán)格反饋非線性系統(tǒng)(火星無人機)提出了一種基于魯棒自適應(yīng)的新型控制方案。該控制器設(shè)計的關(guān)鍵在于,它不直接使用基于坐標(biāo)變換的通用設(shè)計方法z2=x2-α1,也不直接使用基于坐標(biāo)變換的一般DCS方法z2=x2-α2f,其中xi表示系統(tǒng)狀態(tài),α1表示虛擬控制器,α2f是一階濾波器的輸出。 將坐標(biāo)變換設(shè)計如下: (12) (13) (14) (15) 另外可以得到: (16) 其有助于進行穩(wěn)定性分析,該方法不需要復(fù)雜的離線約束優(yōu)化程序來獲得最優(yōu)設(shè)計參數(shù)。 定義火星無人機的長期性能指標(biāo)為: (17) 情形1:zi2(t)>>cpi,zi2(t)≥max{K12,K22},?ξ∈[t-T,t) 情形2:zi2(t)≥cpi,zi2(t)≤min{|K12|,|K22|},?ξ∈[t-T,t) 情形3:zi2(t) 設(shè)計以下公式: (18) 其中:閾值設(shè)計為cqi>0。式(18)可以不斷提高火星無人機適應(yīng)環(huán)境的能力。 跟蹤誤差僅限于狀態(tài)約束條件: 上述的情形1中zi(t)遠(yuǎn)大于cqi,qz=1代表較差的跟蹤性能。當(dāng)火星無人機受到干擾,系統(tǒng)狀態(tài)越界時,可以利用強化學(xué)習(xí)將系統(tǒng)拉回約束區(qū)域。上述的情形2中zi(t)大于等于cqi,qz=0.3表示具有一般的跟蹤性能,0.3是根據(jù)火星無人機的控制特性進行設(shè)計。上述的情形3中zi(t)小于cqi,qz=0表示具有優(yōu)秀的跟蹤性能。 “1”表示U(t)增加,代表當(dāng)前的控制會導(dǎo)致很大的跟蹤誤差,“0”表示U(t)減小,代表當(dāng)前的控制得到了很好的控制效果。cqi是一個很小的常數(shù),如1,0.1和0.01。我們利用U(t-T)和U(t)之間的關(guān)系,設(shè)置了cqi=0.02,并設(shè)計了連續(xù)時間非線性系統(tǒng)的貝爾曼誤差。 γ-1(U(t)+qc) (19) 從式(18)可以得出,qc=[qc1,qc2,…,qcn]T,并且 (20) 由式(19)可以發(fā)現(xiàn),U(t)包含了火星無人機中未來系統(tǒng)的信息。無法直接獲得信息的問題很難直接解決,需要特殊的功能設(shè)計和適當(dāng)?shù)脑O(shè)計參數(shù)。通常使用值函數(shù)近似。用臨界RBF神經(jīng)網(wǎng)絡(luò)對其進行逼近 (21) (22) U(t-T)可以估計為 (23) 由于xe是先驗已知的,所以可以選擇它為xm。設(shè)計 xm(t)=[x1T(t),sT(t),xeT(t+Te),…,xeT(t+NeTe)]T Ne是指定的數(shù)字,Te是時間間隔。 因此,時間誤差可以寫為: (24) (25) (26) 針對火星無人機連續(xù)時間非線性多輸入多輸出系統(tǒng),提出了一種基于積分強化學(xué)習(xí)的狀態(tài)約束神經(jīng)網(wǎng)絡(luò)控制方法。為了估計系統(tǒng)的不確定性,設(shè)計了一種作用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)來估計火星無人機系統(tǒng)的不確定性: (27) (28) 定義動作神經(jīng)網(wǎng)絡(luò)的權(quán)值誤差 (29) (30) (31) 盡管f(x1,x2)和g(x1,x2)都是未知的,但本文研究了主要的未知控制方向。這意味著g(x1,x2)不會出現(xiàn)在u(t)里。一般來說,用評判RBF神經(jīng)網(wǎng)絡(luò)近似f(x1,x2)是估計火星無人機動力學(xué)不確定性的一種方法。 (32) (33) 下面進行控制器設(shè)計: 第1步:求得時間的導(dǎo)數(shù): (34) (35) (36) (37) 通過在式(15)和(17)中對z2和y2的定義,得到: (38) (39) (40) 通過使用楊氏不等式: (41) (42) (43) (44) 可以得出: (45) 將式(45)代入式(40)可得: (46) (47) 最終給出了虛擬控制律: (48) (49) (50) (51) 因此: (52) 最終得出: (53) 第2步:取z2的導(dǎo)數(shù)作為時間收益率 (54) 選擇李雅普諾夫函數(shù) (55) (56) 實際控制律u表示如下: (57) (58) 其中:c2,γ2和σ2是正的設(shè)計系數(shù)。 定理1根據(jù)火星無人機的連續(xù)時間系統(tǒng)模型,考慮評判神經(jīng)網(wǎng)絡(luò)和動作神經(jīng)網(wǎng)絡(luò)?;诖嗽O(shè)計的自適應(yīng)積分強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)控制器具有式(27)和式(40)的更新特性,在初始值有界時還具有以下特性: 1)在火星無人機閉環(huán)系統(tǒng)中,任何信號都是半全局均勻且最終有界的; (59) 同時,設(shè)計了動作神經(jīng)網(wǎng)絡(luò)σn σn>bφmbφn (60) 本節(jié)在Matlab/Simulink環(huán)境下進行數(shù)值模擬驗證。在考慮外部干擾和執(zhí)行器死區(qū)特性的情況下,控制目標(biāo)是使火星無人機在100 s內(nèi)達(dá)到所期望的狀態(tài),并給出了火星共軸雙旋翼無人機的仿真結(jié)果。 給定無人機的各項參數(shù)為:火星無人機質(zhì)量為1.8 kg,無人機的姿態(tài)角為[0.2,0.1,1.5]Trad,初始位置為[6.1,6.9,5.1]Tm,預(yù)期位置為[3.1,10,8.03]Tm。 假設(shè)火星無人機的系統(tǒng)干擾上限為1.2×10-3N。設(shè)計的控制器參數(shù)及所期望軌跡Sp表示如下: (61) 設(shè)計了控制器的積分區(qū)間為T=0.1,γ=0.88,δ=1。同時,狀態(tài)約束的函數(shù)參數(shù)為K11=3,K21=-5,K12=K22=-15。所設(shè)計的位置控制回路的參數(shù)為c1=[0.06,0.06,0.06]T,設(shè)計速度控制回路的參數(shù)為c2=[16,16,16]T。此外,還設(shè)計了一系列強化學(xué)習(xí)評判神經(jīng)網(wǎng)絡(luò)的參數(shù)Γc=0.08,σc=0.16。 最后,將強化學(xué)習(xí)動作網(wǎng)絡(luò)的參數(shù)設(shè)計為Γa=0.01,σa=0.1。 仿真程序運行了400 s,火星無人機的位置如圖1所示,x軸在T=64.1 s后趨于穩(wěn)定,y軸在T=75.8 s后趨于穩(wěn)定,z軸在T=130.8 s后趨于穩(wěn)定,三軸均達(dá)到所需位置。圖2顯示了火星無人機的三軸速度??梢钥闯?當(dāng)T=79.5 s時,y軸和z軸的速度趨于0,當(dāng)T=133.3 s時x軸的速度趨于0,當(dāng)無人機到達(dá)所需位置時,速度將變?yōu)?。 圖1 火星無人機位置變化曲線 圖2 火星無人機速度變化曲線 圖3 評判神經(jīng)網(wǎng)絡(luò)輸出變化曲線 圖4 動作神經(jīng)網(wǎng)絡(luò)輸出變化曲線 控制器u的應(yīng)用程序輸出如圖5所示。在初始階段,對于較大的跟蹤誤差,輸出變化很大,控制器達(dá)到穩(wěn)態(tài)的時間相對較快,在T=97.8 s時達(dá)到。在穩(wěn)態(tài)階段,控制器α1,u的輸出是穩(wěn)定的。因此,控制器的穩(wěn)定性可以通過狀態(tài)有界性來實現(xiàn)。 圖5 控制器u輸出曲線 如果約束條件很小,則這些最優(yōu)設(shè)計參數(shù)將不可用。但在給定的控制條件下,對虛擬控制器α1沒有約束,也不需要使用復(fù)雜的算法來尋找最合適的參數(shù),因此,該方法更有效。 針對共軸雙旋翼火星無人機非線性系統(tǒng)抗干擾能力的問題,提出了一種基于強化學(xué)習(xí)和狀態(tài)約束的連續(xù)時間非線性系統(tǒng)自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制方法。嚴(yán)格的理論分析表明,閉環(huán)系統(tǒng)是穩(wěn)定的;保證所有閉環(huán)信號一致且最終有界。設(shè)計了一個RBF神經(jīng)網(wǎng)絡(luò)來近似它。利用運動神經(jīng)網(wǎng)絡(luò)逼近未知漂移動力學(xué),求解未知控制方向。通過嚴(yán)格的李雅普諾夫函數(shù)證明,得到了閉環(huán)的穩(wěn)定性和一致極限的有界性。同時,我們將權(quán)重誤差和跟蹤誤差限制在一個緊集,所設(shè)計的算法可以有效地提高火星無人機的環(huán)境適應(yīng)性。采用李亞普諾夫函數(shù)和積分李亞普諾夫函數(shù)方法處理非線性系統(tǒng),避免了將狀態(tài)約束轉(zhuǎn)化為新的誤差邊界和虛擬控制器的可行性條件。仿真實驗和數(shù)據(jù)表明本研究提出的方法可以使火星無人機在惡劣環(huán)境下穩(wěn)定飛行,增強了對環(huán)境的適應(yīng)能力。3 神經(jīng)網(wǎng)絡(luò)函數(shù)近似
3.1 神經(jīng)網(wǎng)絡(luò)函數(shù)設(shè)計
3.2 非線性狀態(tài)函數(shù)
4 控制方向未知的積分強化學(xué)習(xí)
4.1 評判神經(jīng)網(wǎng)絡(luò)設(shè)計
4.2 動作神經(jīng)網(wǎng)絡(luò)設(shè)計
5 仿真驗證與分析
5 結(jié)論