隨著軍事需求的拓展和技術(shù)進步的推動,現(xiàn)代戰(zhàn)爭呈現(xiàn)出明顯的無人化趨勢。作為高效費比、攻防兼?zhèn)涞男卵b備,無人系統(tǒng)將在未來作戰(zhàn)中發(fā)揮越來越重要的作用,承擔(dān)多種作戰(zhàn)任務(wù),不斷創(chuàng)新部隊?wèi)?zhàn)術(shù)和裝備體系。
目前,以無人機為代表的大量多域無人系統(tǒng)已進入部隊服役,無人車、無人艇、無人潛航器也正在被加緊論證和研制,多域無人作戰(zhàn)力量體系正在加速形成。但是,當(dāng)前無人系統(tǒng)存在自主性低,在作戰(zhàn)中嚴重依賴地面人員的指揮控制,快速響應(yīng)、自主決策能力弱等突出問題。同時,各類無人系統(tǒng)之間基本不具備協(xié)同作戰(zhàn)能力,缺乏有效可靠的實時任務(wù)規(guī)劃手段,難以發(fā)揮體系作戰(zhàn)優(yōu)勢。多域無人作戰(zhàn)任務(wù)規(guī)劃研究迫在眉睫。
多智能體強化學(xué)習(xí)概述
作為一種先進機器學(xué)習(xí)技術(shù),強化學(xué)習(xí)在多域無人作戰(zhàn)任務(wù)規(guī)劃中展現(xiàn)出巨大的應(yīng)用潛力。特別是無人機,通過與環(huán)境持續(xù)交互學(xué)習(xí),能夠優(yōu)化自身行為策略,以應(yīng)對復(fù)雜多變的任務(wù)場景。多智能體強化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)是多種智能體運用強化學(xué)習(xí)前沿技術(shù),不斷與環(huán)境交互、不斷試錯來解決多種智能體序列決策問題。它不需要事先知曉外部環(huán)境的物理模型,避免了基于專家經(jīng)驗、繁瑣的人工規(guī)則設(shè)計,具有很強的通用性。目前,DQN、PPO、QMIX、MAAC、A2C、PSRO、PipelinePSRO、MADDPG等多智能體強化學(xué)習(xí)算法相繼問世,并在星際爭霸、谷歌足球等人工智能(AI)游戲中得到成功驗證。多智能體強化學(xué)習(xí)理論的成功應(yīng)用為多域無人作戰(zhàn)任務(wù)規(guī)劃開辟了一條新路徑。
強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)的一個重要分支,其本質(zhì)是智能體在與環(huán)境交互的過程中不斷學(xué)習(xí)策略,以實現(xiàn)最大化回報或特定目標。與監(jiān)督學(xué)習(xí)不同的是,強化學(xué)習(xí)并不指導(dǎo)智能體如何產(chǎn)生正確的動作,只對動作好壞做出評價,并根據(jù)反饋信號修正動作選擇和策略。因此,強化學(xué)習(xí)的回報函數(shù)所需的信息量較少且易于設(shè)計,更適合解決較為復(fù)雜的規(guī)劃與決策問題。
當(dāng)強化學(xué)習(xí)在多個領(lǐng)域的應(yīng)用取得巨大成功后,工程技術(shù)人員將研究目標轉(zhuǎn)向了多智能體領(lǐng)域,并展開大量研究,直接催生了多智能體強化學(xué)習(xí)理論。多智能體強化學(xué)習(xí)是一套解決多個智能體協(xié)同完成任務(wù)的方法集,也是智能體與環(huán)境不斷交互來學(xué)習(xí)最優(yōu)策略的方法,遵循隨機博弈過程。當(dāng)前,隨著多智能體強化學(xué)習(xí)理論的持續(xù)深入發(fā)展,適用不同領(lǐng)域的眾多智能架構(gòu)及算法應(yīng)運而生,并逐步在軍事等領(lǐng)域體現(xiàn)了較高應(yīng)用價值。
多智能體強化學(xué)習(xí)在任務(wù)規(guī)劃中的應(yīng)用
當(dāng)以星際爭霸為代表的實時戰(zhàn)略游戲應(yīng)用多智能體強化學(xué)習(xí)算法時,經(jīng)常采用這種方法:游戲中的雙方作戰(zhàn)單元被抽象為智能體,通過全局設(shè)定,智能體之間建立合作、競爭等關(guān)系,而多智fd778edc55a4afeaa7eaa955ed9454f4能體強化學(xué)習(xí)算法以勝利為目標設(shè)計獎勵函數(shù)。這種方法非常適合在軍事作戰(zhàn)運籌與任務(wù)規(guī)劃領(lǐng)域中應(yīng)用。隨著智能化戰(zhàn)爭時代的到來,聯(lián)合全域作戰(zhàn)、分布式作戰(zhàn)等新作戰(zhàn)樣式將顛覆現(xiàn)有戰(zhàn)爭形態(tài)。未來,觀察—判斷—決策—行動(OODA)作戰(zhàn)環(huán)中的作戰(zhàn)單元正在由有人系統(tǒng)轉(zhuǎn)為無人系統(tǒng)集群,而對抗也從單智能體間的對抗轉(zhuǎn)向了協(xié)同作戰(zhàn)的異構(gòu)智能體集群對抗,感知、認知、行為發(fā)展正在推動未來指控體系邁向新臺階。
OODA作戰(zhàn)環(huán)是美國空軍傳奇人物博伊德提出的一種以觀察、判斷、決策、行動循環(huán)來描述作戰(zhàn)對抗的軍事理論?;趯ψ鲬?zhàn)諸要素的理解與思辨,軍方在軍事對抗中如何從全局、局部、作戰(zhàn)任務(wù)、裝備、技術(shù)等不同主線出發(fā),構(gòu)建能達到作戰(zhàn)目標的OODA作戰(zhàn)環(huán),是不同層級軍事對抗制勝之鑰。從作戰(zhàn)運籌學(xué)的角度出發(fā),作戰(zhàn)任務(wù)作為核心要素,存在于OODA作戰(zhàn)環(huán)構(gòu)建的全過程。本文以O(shè)ODA作戰(zhàn)環(huán)中的子作戰(zhàn)任務(wù)規(guī)劃需求為主線,構(gòu)建OODA作戰(zhàn)環(huán)。
OODA作戰(zhàn)環(huán)中的作戰(zhàn)任務(wù)規(guī)劃包含諸多子任務(wù)規(guī)劃。下面選取威脅預(yù)估、策略制定、路徑規(guī)劃、火力分配四個子任務(wù)規(guī)劃進行簡要分析。
威脅預(yù)估
威脅預(yù)估是判斷環(huán)節(jié)任務(wù)規(guī)劃的重點工作。依據(jù)敵我雙方的兵力部署、裝備性能、敵方攻擊意圖和我方作戰(zhàn)策略,多智能體強化學(xué)習(xí)機制采用定量分析方法對敵方威脅等級進行評估??焖俣嘧兊默F(xiàn)代戰(zhàn)場要求指揮員必須具備更快的超前反應(yīng)能力和更強的作戰(zhàn)指揮能力,從戰(zhàn)場上海量多源信息中實時分析和評估目標威脅等級,從而盡可能提前制定對抗敵方作戰(zhàn)行動的決策,而不是在敵方行動后再做出決策。這種超前決策行動更適合復(fù)雜、多變、突發(fā)性強的未來作戰(zhàn)場景,能發(fā)揮非常重要的作用。提高戰(zhàn)場制勝能力的關(guān)鍵舉措是,己方及時準確評估敵方目標威脅等級,并根據(jù)己方作戰(zhàn)方案和作戰(zhàn)系統(tǒng)性能,提前規(guī)劃科學(xué)合理的火力分配方案,提前制定打擊決策。
策略制定
策略制定是決策環(huán)節(jié)任務(wù)規(guī)劃的核心工作。隨著戰(zhàn)爭向信息化、智能化方向發(fā)展,軍方越來越需要智能規(guī)劃與決策系統(tǒng)來輔助指揮員進行作戰(zhàn)規(guī)劃和指揮。智能規(guī)劃與決策系統(tǒng)消除了人的主觀因素影響,具有自我學(xué)習(xí)、修正、推理和決策能力,顯著提高了作戰(zhàn)任務(wù)規(guī)劃的準確性和實時性,提升了情報分析、輔助決策和指揮控制能力。
美國國防預(yù)研局“深綠”計劃采用計算機仿真技術(shù)與深度強化學(xué)習(xí)技術(shù)來推演不同作戰(zhàn)方案可能產(chǎn)生的結(jié)果,通過預(yù)估敵方行動,智能系統(tǒng)縮短了美軍制訂作戰(zhàn)計劃的時間,輔助指揮員快速做出正確決策。
深腦(DeepMind)公司開發(fā)的強化學(xué)習(xí)決策系統(tǒng)在多種戰(zhàn)略任務(wù)執(zhí)行過程中可以達到與人類匹敵的效果,甚至在某些特定場景下超越了人類智慧,為作戰(zhàn)任務(wù)規(guī)劃提供了解決方案。
路徑規(guī)劃
在行動環(huán)節(jié),作戰(zhàn)單元路徑規(guī)劃是任務(wù)規(guī)劃的基石。路徑規(guī)劃可分為全局路徑規(guī)劃和局部路徑規(guī)劃。與其他路徑規(guī)劃算法相比,強化學(xué)習(xí)具有一個重要優(yōu)勢,它不依賴環(huán)境建模,不需要環(huán)境先驗知識,只需發(fā)出獎勵信號,智能體便采用試錯的方式,與周圍環(huán)境不斷交互,最終找出最優(yōu)策略。強化學(xué)習(xí)方法將傳感器收集的外界環(huán)境數(shù)據(jù)映射到執(zhí)行器,從而使智能體對外界環(huán)境變化做出快速響應(yīng),實現(xiàn)自主路徑規(guī)劃。該方法具有實時、快速和魯棒性強的優(yōu)點。此外,模仿強化學(xué)習(xí)、強化互學(xué)習(xí)以及部分基于模型的強化學(xué)習(xí)方法可以有效利用機理模型等先驗信息,提升采樣樣本的利用效率,從而大大提升規(guī)劃效率與準確率。
火力分配
火力分配是行動環(huán)節(jié)任務(wù)規(guī)劃的最終工作?;谕{預(yù)估和目標排序,己方對裝備打擊敵方目標的方式做出決策。在作戰(zhàn)場景中,敵我雙方裝備具有多樣性、對抗性和不確定性等特征,而矩陣對策法、優(yōu)勢函數(shù)法、優(yōu)化指向向量法等傳統(tǒng)火力分配方法難以快速準確完成最優(yōu)火力分配。智能體利用基于強化學(xué)習(xí)的火力分配方法,能夠感知自身所處的戰(zhàn)場環(huán)境,并通過獎勵反饋,自適應(yīng)外部環(huán)境,從而構(gòu)建更加準確合理的戰(zhàn)場火力分配模型。現(xiàn)有算法將作戰(zhàn)火力分配建模抽象為整數(shù)規(guī)劃問題,并采用中心化或去中心化的傳統(tǒng)優(yōu)化算法進行求解。
綜上分析,以作戰(zhàn)任務(wù)規(guī)劃為主線,戰(zhàn)略、戰(zhàn)術(shù)目標被分解,諸多作戰(zhàn)環(huán)節(jié)中的二級任務(wù)、三級任務(wù)形成邊界模糊、拓展性強的作戰(zhàn)任務(wù)空間。在時空驅(qū)動和事件觸發(fā)下,任務(wù)規(guī)劃方法按照因果邏輯規(guī)則,朝著序列化、柵格化方向發(fā)展,而OODA作戰(zhàn)環(huán)持續(xù)迭代,成為OODA作戰(zhàn)網(wǎng),諸多復(fù)雜作戰(zhàn)體系相應(yīng)出現(xiàn)。多智能體強化學(xué)習(xí)算法可以利用激勵反饋機理、集中式架構(gòu)、分布式架構(gòu)等,完成作戰(zhàn)任務(wù)規(guī)劃中的輔助感知與決策,從而提升體系作戰(zhàn)效能。
總結(jié)
在未來智能化、信息化作戰(zhàn)背景下,軍方將對多域無人作戰(zhàn)體系進行仿真,在任務(wù)規(guī)劃中應(yīng)用多智能體強化學(xué)習(xí)技術(shù)。在指揮控制和情報保障無縫銜接的基礎(chǔ)上,基于最新態(tài)勢和目標,完成超實時仿真分析與效能評估,預(yù)測戰(zhàn)爭走勢,透視戰(zhàn)場未來變化。同時,在作戰(zhàn)過程中,實現(xiàn)作戰(zhàn)資源動態(tài)、靈活配置,不斷優(yōu)化調(diào)整作戰(zhàn)行動方案。