摘 要:
針對飛行器在線航路規(guī)劃問題,提出一種基于深度強化學習(deep reinforcement learning, DRL)的飛行器在線自主決策方法。首先對飛行器運動模型、探測模型進行了說明,然后采用DRL深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法,對飛行器飛行控制策略模型框架進行了構(gòu)建。在此基礎(chǔ)上,提出了一種基于課程學習(curriculum learning, CL)的CL-DDPG算法,將在線航路規(guī)劃任務進行分解,引導飛行器進行目標靠近、威脅規(guī)避、航路尋優(yōu)策略學習,并設(shè)置相應的高斯噪聲幫助飛行器對策略進行探索和優(yōu)化,實現(xiàn)了復雜場景下的飛行器自適應學習和決策控制。仿真實驗證明,CL-DDPG算法能夠有效提升模型的訓練效率,算法模型任務成功率更高,具有優(yōu)秀的泛化性和魯棒性,能夠更好地應用于復雜動態(tài)環(huán)境下的在線航路規(guī)劃任務中。
關(guān)鍵詞:
在線航路規(guī)劃; 深度強化學習; 自主決策; 課程學習; 威脅規(guī)避
中圖分類號:
TJ 765
文獻標志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.28
Online route planning decision-making method of aircraft" in
complex environment
YANG Zhipeng, CHEN Zihao, ZENG Chang, LIN Song*, MAO Jindi, ZHANG Kai
(System Design Institute of Hubei Aerospace Technology Academy, Wuhan 430040, China)
Abstract:
Aiming at the problem of online route planning for aircraft, an online autonomous decision-making method for aircraft based on deep reinforcement learning (DRL) is proposed. Firstly, the maneuvering model and detection model of the aircraft are explained, and then the deep deterministic policy gradient (DDPG) algorithm of DRL is employed to construct the frame of the aircraft policy model. On this basis, a curriculum learning (CL)-DDPG algorithm based on CL is proposed, which decomposes the online route planning task, guides the aircraft to learn the strategies of target approach, threat avoidance, and air route optimization. The corresponding Gaussian noises are set to help the aircraft explore and optimize the strategy. And, the adaptive learning and decision-making control of the aircraft in complex scenarios are realized. Simulation experiments show that the CL-DDPG algorithm can effectively improve the training efficiency of the model. The algorithm model has higher task success rate, excellent generalization and robustness, and can be better applied to online route planning tasks in complex dynamic environments.
Keywords:
online route planning; deep reinforcement learning (DRL); autonomous decision-making; curriculum learning; threat avoidance
0 引 言
飛行器航路規(guī)劃是指為飛行器規(guī)劃出滿足任務需求、飛行器自身特性、外界環(huán)境約束等因素的航路,屬于飛行器任務規(guī)劃系統(tǒng)中的關(guān)鍵一環(huán)[1-3]??紤]到在執(zhí)行射前航路規(guī)劃任務時,需關(guān)注飛行器禁避飛區(qū)、殘骸落區(qū)、景象匹配等環(huán)境約束,飛行器航路計算和規(guī)劃效率面臨巨大的挑戰(zhàn)[4-5]。與此同時,隨著空天防御、電子對抗等技術(shù)的發(fā)展,飛行器在復雜動態(tài)的戰(zhàn)場環(huán)境中面臨各種先進火力打擊、電磁干擾等壓制措施,其射前規(guī)劃的航跡成果可能無法滿足實時戰(zhàn)場環(huán)境約束,大大影響飛行任務的執(zhí)行效率[6-8]。因此,針對復雜多約束場景,提出一種飛行器在線自主航路規(guī)劃方法,提升飛行器臨機決策能力,具有重要意義。
近年來,學者將經(jīng)典A*[9]、蟻群算法[10]、快速搜索隨機樹[11]等路徑規(guī)劃方法用于飛行器航路規(guī)劃研究中,取得了一定的成果。文獻[12]提出一種動態(tài)引導A*算法,引入動態(tài)變化引導點和引導策略,對飛行器航跡規(guī)劃效率進行了優(yōu)化。文獻[13]設(shè)計一種基于改進蟻群算法的無人飛行器路徑規(guī)劃方法,在初始信息素矩陣基礎(chǔ)上,結(jié)合視場機制和逃出策略對搜索策略進行了優(yōu)化,然后利用logistic混沌模型對全局信息素更新方式進行了改進,最終在二維柵格地圖中完成仿真驗證了算法的有效性。這些方法在解決簡單靜態(tài)環(huán)境下的航路規(guī)劃問題,具有較高效率。當飛行場景復雜動態(tài)變化時,需實時對環(huán)境進行建模解算并處理海量數(shù)據(jù),算法難以收斂,大大影響飛行器航路規(guī)劃效率。
隨著人工智能技術(shù)的發(fā)展,深度強化學習(deep reinforcement learning, DRL)以其出色的環(huán)境感知能力和自主決策能力在智能體自主導航和路徑規(guī)劃研究中備受關(guān)注[14-17]。在DRL中,智能體利用神經(jīng)網(wǎng)絡(luò)感知環(huán)境并執(zhí)行動作。進而獲得獎勵或懲罰反饋。通過不斷與環(huán)境交互和自適應學習,最終實現(xiàn)狀態(tài)輸入到動作輸出的有效映射。文獻[18]利用DRL方法對視覺感知和運動控制進行端對端聯(lián)合訓練,實現(xiàn)機器人物品運輸任務中的自主路徑規(guī)劃。文獻[19]通過構(gòu)建目標驅(qū)動的馬爾可夫決策模型,解決DRL算法需要針對不同導航目標重新學習策略的問題;同時,針對性地設(shè)計非稀疏獎勵函數(shù)實現(xiàn)無人飛行器的自主航路規(guī)劃和避障導航。文獻[20]構(gòu)建基于魯棒化深度確定性策略梯度(robust deep deterministic policy gradient, Robust-DDPG)算法的部分觀測馬爾可夫決策模型,用于引導無人飛行器在有限環(huán)境中進行局部障礙感知和規(guī)避,并通過仿真實驗驗證了方法的有效性。
盡管DRL算法在航路規(guī)劃領(lǐng)域取得了一定的成果。然而,現(xiàn)有的研究存在如:模型過于簡化、目標點位置單一、環(huán)境威脅區(qū)域固定等問題,任務場景較為簡單,難以滿足復雜動態(tài)多約束戰(zhàn)場環(huán)境下的飛行器在線航路規(guī)劃需求[21-23]。考慮到飛行器在執(zhí)行任務時,需關(guān)注航跡有效性、飛行安全性、飛行效率等多項飛行器很難在有限的訓練時間內(nèi)完成系統(tǒng)性的任務學習。因此,面對復雜多約束的戰(zhàn)場環(huán)境,引導智能體進行高效學習,實現(xiàn)飛行器自主威脅感知規(guī)避和在線航路規(guī)劃決策,具有重要意義。
本文所進行的在線航路規(guī)劃研究代表了DRL在飛行器決策控制領(lǐng)域中的潛在應用之一。具體地,通過設(shè)計飛行器運動模型和探測模型,完成飛行器模型構(gòu)建;引入深度確定性策略梯度(deep deterministic policy gradient, DDPG)方法,根據(jù)飛行器飛行特性和姿態(tài)控制要求構(gòu)建部分可觀測馬爾可夫決策模型,并針對飛行任務完成獎勵函數(shù)設(shè)計;在此基礎(chǔ)上,提出一種課程學習(curriculum learning CL-DDPG)方法,將飛行器飛行任務分解為目標靠近、威脅規(guī)避、航路尋優(yōu)3個子任務,用以引導飛行器通過CL完成復雜場景下的在線航路規(guī)劃預學習,有效提升訓練效率和模型泛化性能。最后,結(jié)合仿真結(jié)果,驗證了CL-DDPG算法對飛行器在線航路規(guī)劃的有效控制。
1 飛行器模型
1.1 飛行器運動模型
飛行器通過配備動態(tài)三維信息處理、航姿參考系統(tǒng)和全球定位/慣性導航系統(tǒng)(global positioning system-inertial navigation system, GPS-INS)慣性導航等設(shè)備,能夠?qū)崿F(xiàn)精確導航定位和定高飛行[24]。為重點關(guān)注本研究中航路規(guī)劃和在線決策問題,對飛行器機動模型進行簡化,即假設(shè)飛行器保持定高巡航飛行,而不考慮飛行器起飛、著落中的俯仰姿態(tài)變化和飛行過程中的滾轉(zhuǎn)運動。本文在東北天坐標系中,構(gòu)建了四自由度飛行器運動模型,如圖1所示。
4 仿真實驗
4.1 仿真環(huán)境
本章節(jié)的仿真實驗在Windows 10、Python 3.6、Tensorflow 1.14.0環(huán)境下,基于tkinter平臺對飛行器在線航路規(guī)劃模型進行了設(shè)計和訓練。任務場景為100 km×80 km的二維有限區(qū)域,如圖4所示。
其中,紅色點表示飛行器初始位置,藍色點表示目標點位置,深色黑色為威脅區(qū)域,紅色扇形包絡(luò)表示飛行器探測區(qū)域。具體地,設(shè)定任務仿真步長Δt為1 s。訓練過程中,設(shè)定任務中飛行器初始位置為環(huán)境左上角隨機生成,其中x0∈[5,15],y0∈[5,15]。目標位置在xtarget∈[85,95], ytarget∈[65,75]區(qū)域隨機生成,單位為km。設(shè)定飛行器初始航向為目標朝向。
本研究分別在3個子任務場景中進行預訓練,再在威脅區(qū)數(shù)量、位置隨機的未知場景中進行少量訓練。在目標靠近子任務中,設(shè)置障礙物數(shù)量為0;在威脅規(guī)避子任務中,設(shè)置威脅區(qū)數(shù)量為3,半徑為10 km,且兩兩威脅區(qū)邊界間距大于15 km;在航路尋優(yōu)子任務中,設(shè)置威脅區(qū)域為3組,每組兩個,共6個,半徑為10 km,每組內(nèi)兩個威脅區(qū)邊界間距小于5 km,其他參數(shù)如表1所示。
在基于CL-DDPG的在線航路規(guī)劃決策模型中,分別構(gòu)建17×128×64×2、19×128×64×1結(jié)構(gòu)的全連接型動作神經(jīng)網(wǎng)絡(luò)和評價神經(jīng)網(wǎng)絡(luò)。在每一訓練回合中,當飛行器完成任務、發(fā)生碰撞或回合內(nèi)仿真步數(shù)達到最大步數(shù)時,視為該輪訓練結(jié)束,環(huán)境重置并進入新一輪訓練。當經(jīng)驗回放隊列充滿數(shù)據(jù)時,神經(jīng)網(wǎng)絡(luò)模型將基于Adam-Optimizer算法進行更新。初始化動作網(wǎng)絡(luò)學習率和價值網(wǎng)絡(luò)學習率分別為0.01、0.02,設(shè)定其以每回合0.99的衰減率衰減至0.000 1時停止衰減。詳細模型參數(shù)如表2所示。
在基于傳統(tǒng)DDPG算法學習下的飛行器航路規(guī)劃模擬訓練中,大約1 000回合后,飛行器獎勵函數(shù)才開始緩慢上升并逐漸收斂至穩(wěn)定。因此,設(shè)定子課程1、2、3預訓練回合數(shù)分別為200、300、500,通過子CL的方式,將前1 000回合進行子課程劃分。此外,針對CL預訓練,分別設(shè)定各子CL中的高斯噪聲方差和衰減系數(shù),如表3所示。當完成預訓練后,訓練場景更新為威脅區(qū)數(shù)量、位置隨機的復雜未知場景,此時不再采用高斯噪聲對動作進行處理,訓練進行至最大訓練回合后結(jié)束。
4.2 實驗結(jié)果與分析
基于上述實驗場景和參數(shù)設(shè)定,分別基于CL-DDPG和DDPG算法對飛行器在線航路規(guī)劃模型進行訓練,并收集飛行器學習獎勵如圖5所示。
圖5中橫坐標為訓練回合數(shù),縱坐標為每回合內(nèi)飛行器獲得的獎勵值??梢钥闯?,在開始訓練階段,兩種算法所得到的回合獎勵很少。隨著飛行器與環(huán)境交互不斷學習,回合獎勵曲線逐漸上升。訓練至423回合左右時,CL-DDPG曲線開始上升,雖然中間存在一定波動,但在1 054回合時上升至265左右獎勵值,并收斂至穩(wěn)定。而DDPG算法下,獎勵函數(shù)曲線在1 100回合左右才出現(xiàn)明顯上升狀態(tài),最終上升至1 510回合后收斂至穩(wěn)定狀態(tài)。對比可以得出,本文提出的CL-DDPG算法相較DDPG算法在總訓練過程中收斂速度更快,并且在收斂后所獲取的獎勵波動幅度更小,這意味著CL-DDPG算法有效提升了訓練效率,具有更穩(wěn)定的性能優(yōu)勢。
測試過程中,保持飛行器發(fā)射點和目標點位置不變,分別統(tǒng)計100次測試回合下兩種算法在不同威脅區(qū)數(shù)量下的任務成功率,如圖6所示。
可以看出,經(jīng)自適應學習的兩種算法模型都可以有效完成在線航路規(guī)劃任務。隨著環(huán)境的逐漸復雜化,DDPG模型成功率明顯下降,當障礙物數(shù)量為20時,顯著下降至61%,而CL-DDPG算法模型仍可以穩(wěn)定至80%,具有較高的成功率,更能滿足復雜環(huán)境下飛行器飛行任務需求。
為了滿足飛行器發(fā)射區(qū)、目標點可變的任務規(guī)劃需求,本文對仿真任務場景進行了改變,設(shè)定飛行器發(fā)射點、目標點位置隨機生成,設(shè)定起始航向隨機生成,部分測試結(jié)果如圖7所示??梢钥闯觯S著飛行器起始點和目標點的改變,飛行器依然可以規(guī)劃出有效路徑,實現(xiàn)對目標區(qū)域的規(guī)避,有效完成在線航路規(guī)劃任務。其中,航路沒有明顯冒險、繞飛等行為,能夠滿足真實任務場景需求,體現(xiàn)了模型很好的通用性能。
為了驗證模型在復雜動態(tài)場景下的表現(xiàn),本文將測試環(huán)境中威脅區(qū)數(shù)量添加至20,并設(shè)定部分威脅區(qū)能隨機移動,以模擬敵方機動攔截威脅區(qū)域,測試如圖8所示,其中淺黑色區(qū)域為移動威脅區(qū)。
可以看到,隨著測試開始,飛行器持續(xù)向目標進行機動規(guī)劃,并在圖8(a)所示處躲避完第一個威脅區(qū)后重新將航向調(diào)整為目標方向。隨著飛行任務推移,飛行器持續(xù)有效進行自主規(guī)避決策,并在196 s時完成了對移動威脅區(qū)的規(guī)避,這體現(xiàn)了算法有效的泛化性,能夠應用于復雜動態(tài)任務場景中。在307 s時,飛行器從兩個威脅區(qū)域之間尋優(yōu)穿過,這體現(xiàn)了經(jīng)過課程學習和預訓練的飛行器,能夠?qū)?yōu)到較優(yōu)航路解,以滿足任務要求。最終,在仿真進行至389 s時,飛行器有效完成了在線航路規(guī)劃任務。此外,為了分析飛行器在線航路規(guī)劃具體過程,對該次測試下的飛行速度、與目標距離、航向偏差角進行收集展示,如圖9所示??梢钥闯觯蝿臻_始后,飛行器快速加速至最高速度300 m/s并持續(xù)向目標點飛行,與目標點距離逐漸減小。盡管在任務過程中,出現(xiàn)了一些轉(zhuǎn)彎、規(guī)避等行為,但飛行器能夠很好地保持自身姿態(tài),且飛行航向與目標方向偏差角持續(xù)保持在±40°之間,體現(xiàn)了算法在復雜動態(tài)環(huán)境中的良好穩(wěn)定性。復雜動態(tài)未知場景下的飛行器在線路徑規(guī)劃模型泛化性測試如圖10所示。在復雜環(huán)境下,當發(fā)射點、目標點隨機指定時,飛行器都能夠很好地完成在線航路規(guī)劃決策。在此基礎(chǔ)上,當環(huán)境中的威脅區(qū)隨機生成、位置隨機動態(tài)改變時,飛行器都表現(xiàn)出了優(yōu)秀的臨機決策能力,能夠完成有效威脅評估和自主規(guī)避,體現(xiàn)了算法良好的泛化性能。
圖11記錄統(tǒng)計了100個復雜動態(tài)場景中,飛行器在線航路規(guī)劃決策的成功率表現(xiàn)。該測試場景中,發(fā)射點、目標點隨機生成,且初始距離大于50 km,環(huán)境中威脅區(qū)總數(shù)量設(shè)置為15保持不變。圖11中,橫坐標表示為可移動障礙物數(shù)量占比,縱坐標表示任務成功率。
可以看出,相比于DDPG算法,CL-DDPG算法模型成功率明顯更高。當可移動威脅區(qū)占比提高時,CL-DDPG算法模型始終表現(xiàn)出更好的任務完成率,在可移動威脅區(qū)數(shù)量占比60%時依然保持76%成功率,明顯高于DDPG算法模型61%的成功率。這意味著經(jīng)過CL預訓練的飛行器,在復雜動態(tài)未知場景下在線航路規(guī)劃決策的成功率更高,模型魯棒性更好。
同時,表4記錄了圖11測試過程中所有成功回合的仿真時間數(shù)據(jù)??梢钥闯觯唵螆鼍跋?,兩種算法下飛行器航路規(guī)劃總時間無明顯差異,隨著環(huán)境中可移動的威脅區(qū)數(shù)量增多,CL-DDPG算法下飛行器航路規(guī)劃模型展現(xiàn)了更好的適應性,飛行器能夠以較短時間完成在線航路規(guī)劃任務。這體現(xiàn)了經(jīng)過目標靠近、威脅規(guī)避、航路尋優(yōu)的課程學習后,飛行器能夠在航路規(guī)劃任務中制定更為合理的策略,使得飛行器能夠在更短時間內(nèi)到達目標點,提升了任務完成效率。
5 結(jié)束語
本文對復雜環(huán)境下的飛行器航路規(guī)劃問題展開研究,提出一種DRL在線決策方法。針對DRL算法的訓練速率低、泛化性差等問題,提出一種CL預訓練方法,將飛行器在線規(guī)劃任務分解為目標靠近、威脅規(guī)避、航路尋優(yōu)3個子課程,并引導飛行器智能體進行策略探索和學習。仿真結(jié)果表明,提出的一種基于CL-DDPG的飛行器在線航路規(guī)劃決策方法,訓練速率快,在復雜動態(tài)未知場景中表現(xiàn)出了更好的泛化性和魯棒性,具有一定應用價值。未來的工作將構(gòu)建更為精確的飛控模型,以支持飛行器六自由度飛行,推動算法模型在真實的任務場景中進行優(yōu)化部署。
參考文獻
[1] GUI X H, ZHANG J F, PENG Z H. Trajectory clustering for arrival aircraft via new trajectory representation[J]. Journal of Systems Engineering and Electronics, 2021, 32(2): 473-486.
[2] NIKLAS G, TOBIAS B, DIRK N. Deep reinforcement learning with combinatorial actions spaces: an application to prescriptive maintenance[J]. Computers amp; Industrial Engineering, 2023, 179(1): 109165.
[3] WANG X Y, YANG Y P, WANG D, et al. Mission-oriented cooperative 3D path planning for modular solar-powered aircraft with energy optimization[J]. Chinese Journal of Aeronautics, 2022, 35(1): 98-109.
[4] LI B, YANG Z P, CHEN D Q, et al. Maneuvering target tracking of UAV based on MN-DDPG and transfer learning[J]. Defence Technology, 2021, 17(2): 457-466.
[5] LIU C S, ZHANG S J. Novel robust control framework for morphing aircraft[J]. Journal of Systems Engineering and Electronics, 2013, 24(2): 281-287.
[6] OBAJEMU O, MAHFOUF M, MAIYAR L M, et al. Real-time four-dimensional trajectory generation based on gain-sche-duling control and a high-fidelity aircraft model[J]. Engineering, 2021, 7(4): 495-506
[7] 趙巖, 吳建峰, 高育鵬. 基于多智能體導航的高超飛行器信息融合方法[J]. 系統(tǒng)工程與電子技術(shù), 2020, 42(2): 405-413.
ZHAO Y, WU J F, GAO Y P. Information fusion method of hypersonic vehicle based on multi-agent navigation[J]. Systems Engineering and Electronics, 2020, 42(2): 405-413.
[8] 陳宗基, 張汝麟, 張平, 等. 飛行器控制面臨的機遇與挑戰(zhàn)[J]. 自動化學報, 2013, 39(6): 703-710.
CHEN Z J, ZHANG R L, ZHANG P, et al. Flight control: challenges and opportunities[J]. Acta Automatica Sinica, 2013, 39(6): 703-710.
[9] DUCHON F, BABINEC A, KAJAN M, et al. Path planning with modified a star algorithm for a mobile robot[J]. Procedia Engineering, 2014, 96(1): 59-69.
[10] LIU J H, YANG J, LIU H P, et al. An improved ant colony algorithm for robot path planning[J]. Soft Computing, 2017, 21(1): 5829-5839.
[11] LI X Q, QIU L, AZIZ S, et al. Control method of UAV based on RRT* for target tracking in cluttered environment[C]∥Proc.of the 7th International Conference on Power Electronics Systems and Applications-Smart Mobility, Power Transfer amp; Security, 2017.
[12] 楊杰. 具有端點方向約束的快速航跡規(guī)劃方法研究[D]. 武漢: 華中科技大學, 2013.
YANG J. Research on fast route planning method adapted to directional endpoint constraints[D]. Wuhan: Huazhong University of Science and Technology, 2013.
[13] 高科, 宋佳, 艾紹潔, 等. 高超聲速飛行器再入段LQR自抗擾控制方法設(shè)計[J]. 宇航學報, 2020, 41(11): 1418-1423.
GAO K, SONG J, AI S J, et al. LQR active disturbance rejection control method design for hypersonic vehicles in reentry phase[J]. Journal of Astronautics, 2020, 41(11): 1418-1423.
[14] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.
[15] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[EB/OL]. [2023-04-30].http:∥www.arxiv.org/abs/1509.02971.
[16] HUANG C Q, DONG K S, HUANG H Q, et al. Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J]. Journal of Systems Engineering and Electronics, 2018, 29(1): 86-97.
[17] WALKER O, VANEGAS F, GONZALEZ F, et al. A deep reinforcement learning framework for UAV navigation in indoor environments[C]∥Proc.of the IEEE Aerospace Confe-rence, 2019.
[18] LEVINE S, FINN C, DARRELL T, et al. End-to-end training of deep visuomotor policies[J]. The Journal of Machine Learning Research, 2016, 17(1): 1334-1373.
[19] 張運濤. 面向無人機自主避障導航的深度強化學習算法研究[D]. 南京: 東南大學, 2021.
ZHANG Y T. Research on deep reinforcement learning for autonomous obstacle avoidance and navigation of UAV[D]. Nanjing: Southeast University, 2021.
[20] WAN K F, GAO X G, HU Z J, et al. Robust motion control for UAV in dynamic uncertain environments using deep reinforcement learning[J]. Remote Sensing, 2020, 12(4): 640-660.
[21] ZHANG C M, ZHU Y W, YANG L P, et al. An optimal gui-dance method for free-time orbital pursuit-evasion game[J]. Journal of Systems Engineering and Electronics, 2022, 33(6): 1294-1308.
[22] LI Y F, SHI J P, JIANG W, et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm[J]. Defence Technology, 2022, 18(9): 1697-1714.
[23] ZHANG H, JIAO Z X, SHANG Y X, et al. Ground maneuver for front-wheel drive aircraft via deep reinforcement learning[J]. Chinese Journal of Aeronautics, 2021, 34(10): 166-176.
[24] LIU Q, SHI L, SUN L L, et al. Path planning for UAV-mounted mobile edge computing with deep reinforcement learning[J]. IEEE Trans.on Vehicular Technology, 2020, 69(5): 5723-5728.
[25] LI Y H, WANG H L, WU T C, et al. Attitude control for hypersonic reentry vehicles: an efficient deep reinforcement learning method[J]. Applied Soft Computing, 2023, 123(1): 108865.
[26] RUMMERY G A, NIRANJAN M. On-line Q-learning using connectionist systems[D]. Cambridge: University of Cambridge, 1994.
[27] 王冠, 茹海忠, 張大力, 等. 彈性高超聲速飛行器智能控制系統(tǒng)設(shè)計[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(7): 2276-2285.
WANG G, RU H Z, ZHANG D L, et al. Design of intelligent control system for flexible hypersonic vehicle[J]. Systems Engineering and Electronics, 2022, 44(7): 2276-2285.
[28] YANG Q M, ZHU Y, ZHANG J D, et al. UAV air combat autonomous maneuver decision based on DDPG algorithm[C]∥Proc.of the IEEE 15th International Conference on Control and Automation, 2019: 37-42.
[29] NARVEKAR S, SINAPOV J, LEONETTI M, et al. Source task creation for curriculum learning[C]∥Proc.of the ICAAMS 18th International Conference on Autonomous Agents amp; Multiagent Systems, 2016: 566-574.
[30] DU W B, GUO T, CHEN J, et al. Cooperative pursuit of unauthorized UAVs in urban airspace via multi-agent reinforcement learning[J]. Transportation Research Part C: Emerging Technologies, 2021, 128(1): 103-122.
作者簡介
楊志鵬(1995—),男,工程師,碩士,主要研究方向為飛行器任務規(guī)劃。
陳子浩(1995—),男,工程師,碩士,主要研究方向為飛行器航路規(guī)劃。
曾 長(1987—),男,高級工程師,碩士,主要研究方向為飛行器系統(tǒng)總體設(shè)計。
林 松(1986—),男,高級工程師,碩士,主要研究方向為飛行器任務規(guī)劃。
毛金娣(1988—),女,高級工程師,碩士,主要研究方向為飛行器航路規(guī)劃。
張 凱(1990—),男,高級工程師,博士,主要研究方向為飛行器系統(tǒng)總體設(shè)計。