基于深度強(qiáng)化學(xué)習(xí)的作戰(zhàn)實(shí)體智能感知與決策研究

2023-06-27 08:51劉網(wǎng)定張國(guó)寧鄭世明

火力與指揮控制 2023年5期

關(guān)鍵詞：知識(shí)庫(kù)態(tài)勢(shì)戰(zhàn)場(chǎng)

劉網(wǎng)定，張國(guó)寧，鄭世明

（陸軍指揮學(xué)院作戰(zhàn)實(shí)驗(yàn)室，南京 210045）

0 引言

伴隨著前沿智能科技的飛速發(fā)展，越來(lái)越多的無(wú)人裝備、智能技術(shù)應(yīng)用于戰(zhàn)場(chǎng)，智能化戰(zhàn)爭(zhēng)初露端倪?，F(xiàn)有計(jì)算機(jī)輔助決策通常是基于規(guī)則的決策，智能化程度較低，難以適應(yīng)未來(lái)有人/無(wú)人作戰(zhàn)新形勢(shì)的需求，這就需要突破傳統(tǒng)靠固定規(guī)則推理的方法，探求具備自我學(xué)習(xí)和動(dòng)態(tài)分析預(yù)測(cè)能力的方法框架，以求自主而準(zhǔn)確地判斷戰(zhàn)場(chǎng)態(tài)勢(shì)并作出行動(dòng)決策。

從AlphaGo、星際爭(zhēng)霸AI 到AlphaGo Zero，深度強(qiáng)化學(xué)習(xí)技術(shù)在圍棋、游戲、自動(dòng)駕駛、機(jī)器人制造等領(lǐng)域取得不斷進(jìn)展，使得智能感知與決策可以達(dá)到甚至超越人類(lèi)水平，例如AlphaGo 依靠深度學(xué)習(xí)把握了圍棋對(duì)弈的“直覺(jué)”棋感和棋勢(shì)，通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了自我學(xué)習(xí)和優(yōu)化棋招，擊敗了圍棋世界冠軍李世石。深度強(qiáng)化學(xué)習(xí)的機(jī)制與方法［1-5］，借鑒參考了心理學(xué)中的行為主義理論，符合人類(lèi)的分析決策思維方式，這為解決自主感知與決策問(wèn)題提供了一種技術(shù)框架。本文利用深度學(xué)習(xí)挖掘態(tài)勢(shì)數(shù)據(jù)中的隱含特征，全面地抽象到態(tài)勢(shì)感知；再通過(guò)強(qiáng)化學(xué)習(xí)模仿人對(duì)事物的認(rèn)知方式，在無(wú)監(jiān)督的情況下，通過(guò)不斷地試錯(cuò)，達(dá)到對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的累積學(xué)習(xí)，形成正確的戰(zhàn)場(chǎng)認(rèn)知結(jié)論與決策結(jié)果。

1 框架構(gòu)建原理

1.1 強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)

強(qiáng)化學(xué)習(xí)受到人和動(dòng)物學(xué)習(xí)中試錯(cuò)法的啟發(fā)，智能體如何決策（作出行動(dòng)）來(lái)源于環(huán)境的反饋，對(duì)于正確的行動(dòng)，環(huán)境會(huì)給出獎(jiǎng)勵(lì)，對(duì)于錯(cuò)誤的行動(dòng)，環(huán)境會(huì)給出懲罰，智能體根據(jù)環(huán)境的反饋來(lái)調(diào)整自己的決策，通過(guò)與環(huán)境的不斷交互與反饋，最終能夠得到最優(yōu)決策方案。強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)如圖1 所示。

1.2 基于深度強(qiáng)化學(xué)習(xí)的感知與決策原理

深度強(qiáng)化學(xué)習(xí)本質(zhì)是將深度神經(jīng)網(wǎng)絡(luò)融入強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)之中。針對(duì)大規(guī)模狀態(tài)/動(dòng)作空間問(wèn)題（包括連續(xù)狀態(tài)/動(dòng)作空間問(wèn)題），值表形式的值函數(shù)所需要的存儲(chǔ)空間遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)代計(jì)算機(jī)的硬件條件，使得經(jīng)典的強(qiáng)化學(xué)習(xí)算法不再適用。在此情況下，可使用深度神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜環(huán)境狀態(tài)予以分析表示，解決智能體對(duì)環(huán)境狀態(tài)的難以理解問(wèn)題；使用深度神經(jīng)網(wǎng)絡(luò)對(duì)強(qiáng)化學(xué)習(xí)的相關(guān)函數(shù)（例如價(jià)值函數(shù)、動(dòng)作價(jià)值函數(shù)、策略函數(shù)等）進(jìn)行估計(jì)，解決強(qiáng)化學(xué)習(xí)的維度災(zāi)難問(wèn)題。基于深度強(qiáng)化學(xué)習(xí)的感知與決策原理如圖2 所示。

圖2 基于深度強(qiáng)化學(xué)習(xí)的感知與決策原理示意圖Fig.2 Schematic diagram of perception and decision-making principle based on deep reinforcement learning

2 基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架

依據(jù)1.2 中的原理，基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架主要由兩部分組成，一是智能體對(duì)環(huán)境的感知部分，此部分基于深度學(xué)習(xí)構(gòu)建，二是智能體的行動(dòng)優(yōu)化部分，此部分基于強(qiáng)化學(xué)習(xí)（包含深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)）構(gòu)建；同時(shí)，考慮態(tài)勢(shì)數(shù)據(jù)的預(yù)處理與專(zhuān)家知識(shí)的利用。因而，基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架包含態(tài)勢(shì)數(shù)據(jù)預(yù)處理、態(tài)勢(shì)感知、行動(dòng)優(yōu)化和知識(shí)庫(kù)4 個(gè)模塊。預(yù)處理模塊用以對(duì)態(tài)勢(shì)數(shù)據(jù)進(jìn)行清洗、歸一等操作；態(tài)勢(shì)感知模塊由多個(gè)神經(jīng)網(wǎng)絡(luò)融合而成，用以表征戰(zhàn)場(chǎng)態(tài)勢(shì)；行動(dòng)優(yōu)化模塊用以“評(píng)判”智能體的行為；戰(zhàn)場(chǎng)知識(shí)庫(kù)用以“指導(dǎo)”神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建，提高深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率。框架示意圖如下頁(yè)圖3 所示。

圖3 基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架示意圖Fig.3 Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning

2.1 態(tài)勢(shì)數(shù)據(jù)預(yù)處理模塊

戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)一般需進(jìn)行預(yù)處理，以滿足深度強(qiáng)化學(xué)習(xí)算法要求，預(yù)處理方法主要包括檢測(cè)、清洗、集成、歸一化、正則化等，但并非所有的態(tài)勢(shì)數(shù)據(jù)均要通過(guò)所有預(yù)處理操作，需視具體態(tài)勢(shì)數(shù)據(jù)的獲取、來(lái)源、格式等情形而定。例如對(duì)于收集到的傳感器數(shù)據(jù)，由于傳感器狀態(tài)信息的量程并不一致，在將數(shù)據(jù)信息傳入網(wǎng)絡(luò)模型之前，為了提升模型的收斂速度及精度，防止模型出現(xiàn)梯度爆炸，應(yīng)對(duì)傳感器信息數(shù)據(jù)進(jìn)行歸一化處理，統(tǒng)一量程。

2.2 知識(shí)庫(kù)模塊

感知和決策的過(guò)程都需要知識(shí)庫(kù)予以支撐，在知識(shí)庫(kù)的驅(qū)動(dòng)下，感知信息更為精準(zhǔn)，決策依據(jù)更為充分，學(xué)習(xí)的收斂速度會(huì)更快，學(xué)習(xí)的結(jié)果會(huì)更可靠。知識(shí)庫(kù)包括戰(zhàn)場(chǎng)環(huán)境知識(shí)庫(kù)、敵我部署知識(shí)庫(kù)、敵我狀態(tài)知識(shí)庫(kù)以及敵我行動(dòng)知識(shí)庫(kù)等。知識(shí)庫(kù)中的知識(shí)來(lái)源于兩方面：1）直接存入庫(kù)中的軍事領(lǐng)域?qū)＜抑R(shí)，2）通過(guò)不斷學(xué)習(xí)獲得的經(jīng)驗(yàn)知識(shí)。

2.3 基于深度學(xué)習(xí)的態(tài)勢(shì)感知模塊

利用深度神經(jīng)網(wǎng)絡(luò)的表征能力，可挖掘出態(tài)勢(shì)數(shù)據(jù)中包含的特征與關(guān)系，包括戰(zhàn)場(chǎng)上作戰(zhàn)實(shí)體的屬性、狀態(tài)、類(lèi)別、運(yùn)動(dòng)趨勢(shì)，不同作戰(zhàn)實(shí)體間的關(guān)系等，形成態(tài)勢(shì)感知表示［6-8］。由于戰(zhàn)場(chǎng)態(tài)勢(shì)的復(fù)雜性，往往無(wú)法用單個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行表征，因而基于指揮員的思維模式，將感知過(guò)程和目標(biāo)進(jìn)行分層，構(gòu)建面向態(tài)勢(shì)感知的復(fù)合架構(gòu)深度學(xué)習(xí)模型。具體構(gòu)建方法為：

1）通過(guò)對(duì)戰(zhàn)場(chǎng)環(huán)境數(shù)據(jù)的學(xué)習(xí)，建立環(huán)境感知模型；

2）通過(guò)對(duì)戰(zhàn)場(chǎng)上各個(gè)作戰(zhàn)實(shí)體的屬性、狀態(tài)、行動(dòng)趨勢(shì)數(shù)據(jù)的學(xué)習(xí)，建立實(shí)體感知模型；

3）通過(guò)對(duì)不同作戰(zhàn)實(shí)體特定時(shí)間段中時(shí)序狀態(tài)信息的學(xué)習(xí)，構(gòu)建實(shí)體間的關(guān)系判定模型；

4）以實(shí)體感知模型為主體，以實(shí)體間的關(guān)系判定模型為基本聯(lián)系，結(jié)合環(huán)境感知模型，進(jìn)行模型的融合，生成面向態(tài)勢(shì)感知的復(fù)合架構(gòu)深度學(xué)習(xí)模型，如圖4 所示。

圖4 復(fù)合架構(gòu)深度學(xué)習(xí)感知模型示意圖Fig.4 Schematic diagram of composite architecture deep learning perception model

在單個(gè)深度學(xué)習(xí)模型構(gòu)建過(guò)程中，為提高模型的學(xué)習(xí)效率，可采用條件反射法，將強(qiáng)化學(xué)習(xí)的行動(dòng)效果與專(zhuān)家知識(shí)、規(guī)則融入模型當(dāng)中。如下式所示：

其中，wij表示神經(jīng)元j 到神經(jīng)元i 的連接權(quán)；yi、yj為神經(jīng)元的輸出；yj′是基于專(zhuān)家知識(shí)與規(guī)則的輸出，α、β 是表示學(xué)習(xí)速度的常數(shù)。

1）若yi與yj同時(shí)被激活，即yi與yj同時(shí)為正，那么wij將增大，即此時(shí)強(qiáng)化學(xué)習(xí)的行動(dòng)得到正的獎(jiǎng)勵(lì)，正確的態(tài)勢(shì)理解結(jié)果被予以肯定和保留。

2）若yj′ 與yj同時(shí)被激活，即yj′ 與yj同時(shí)為正，那么wij將增大，即此時(shí)態(tài)勢(shì)理解結(jié)論與專(zhuān)家知識(shí)、規(guī)則相一致，正確的態(tài)勢(shì)理解結(jié)果被予以肯定和保留。

3）若yi被激活，而yj處于抑制狀態(tài)，即yi為正yj為負(fù)，那么wij將變小，即此時(shí)強(qiáng)化學(xué)習(xí)的行動(dòng)得到懲罰，錯(cuò)誤的態(tài)勢(shì)理解結(jié)果被予以否定。

4）若yi被激活，而yj′處于抑制狀態(tài)，即yi為正yj′為負(fù)，那么wij將變小，即此時(shí)態(tài)勢(shì)理解結(jié)論與專(zhuān)家知識(shí)、規(guī)則相悖，錯(cuò)誤的態(tài)勢(shì)理解結(jié)果被予以否定。

2.4 基于強(qiáng)化學(xué)習(xí)的行動(dòng)優(yōu)化模塊

利用深度神經(jīng)網(wǎng)絡(luò)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)表征后，并不知道其表征結(jié)果如何、與真實(shí)結(jié)果有多大偏差，利用強(qiáng)化學(xué)習(xí)的行動(dòng)反饋機(jī)制，可通過(guò)智能體的行動(dòng)去驗(yàn)證與調(diào)整表征結(jié)果。在此，從單智能體強(qiáng)化學(xué)習(xí)出發(fā)，借鑒強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的成熟技術(shù)與經(jīng)驗(yàn)［9-10］，構(gòu)建行動(dòng)優(yōu)化Actor-Critic 模型，如圖5所示。

圖5 行動(dòng)優(yōu)化A-C 模型示意圖Fig.5 Schematic diagram of A-C model for action optimization

A-C 模型主要由兩部分組成，一是Actor（執(zhí)行器）部分，即智能體將要采取的策略，另一個(gè)是Critic（評(píng)價(jià)器）部分，即智能體得到的行動(dòng)反饋（值函數(shù)），兩部分分別通過(guò)深度神經(jīng)網(wǎng)絡(luò)表示。模型訓(xùn)練時(shí)，Actor 與Critic 交互更新，Actor 選擇策略，Critic給出評(píng)價(jià)，最終可得最優(yōu)行動(dòng)策略。在戰(zhàn)場(chǎng)環(huán)境中，利用深度強(qiáng)化學(xué)習(xí)進(jìn)行自主感知與決策的單智能體實(shí)體，比如無(wú)人機(jī)、坦克，均為連續(xù)動(dòng)作行動(dòng)，可采用適合連續(xù)動(dòng)作決策的強(qiáng)化學(xué)習(xí)算法，如DDPG算法、A3C 算法等。

在行動(dòng)優(yōu)化模塊中，可采用啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)方法對(duì)知識(shí)庫(kù)進(jìn)行有效利用［11-12］。啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)規(guī)則為：

即當(dāng)s∈S0，或某規(guī)則發(fā)生時(shí)，智能體執(zhí)行動(dòng)作a1，回報(bào)函數(shù)F（s，a，s′）賦值為r，這樣便可刺激在某狀態(tài)集S0或某規(guī)則發(fā)生情況下智能體執(zhí)行動(dòng)作a1。例如，如果（if）敵方作戰(zhàn)單元行動(dòng)速度、力量規(guī)模、裝備類(lèi)型、行動(dòng)方向滿足一定條件，根據(jù)專(zhuān)家知識(shí)，則可判定敵方將要采取何種行動(dòng)，然后（then）智能體采取相應(yīng)的對(duì)策a=a1，回報(bào)函數(shù)F（s，a，s′）=r。

3 案例分析

此部分通過(guò)仿真實(shí)驗(yàn)，結(jié)合具體想定，驗(yàn)證深度強(qiáng)化學(xué)習(xí)在智能感知與決策上的應(yīng)用效果［13］。

3.1 實(shí)驗(yàn)想定

3.1.1 基本情況

紅方對(duì)陣地防御的藍(lán)方實(shí)施進(jìn)攻作戰(zhàn)，其中對(duì)紅方部隊(duì)威脅最大的是藍(lán)方坦克部隊(duì)，為盡快消滅藍(lán)方坦克部隊(duì)，紅方指揮員迅速申請(qǐng)空中火力支援。上級(jí)派出無(wú)人機(jī)突擊力量，依靠自身能力突破藍(lán)方殘余地面防空火力，對(duì)藍(lán)方坦克部隊(duì)實(shí)施攻擊。

3.1.2 紅藍(lán)雙方作戰(zhàn)目標(biāo)

紅方作戰(zhàn)目標(biāo)：利用無(wú)人機(jī)空中優(yōu)勢(shì)，快速突破敵防空，消滅藍(lán)方坦克。

藍(lán)方作戰(zhàn)目標(biāo)：使用防空武器擊落紅方無(wú)人機(jī)，保護(hù)坦克不受其攻擊。

3.1.3 紅藍(lán)雙方兵力

實(shí)驗(yàn)設(shè)定紅方兵力為固定翼無(wú)人機(jī)1 架，藍(lán)方兵力為坦克排1 個(gè)、地空導(dǎo)彈排4 個(gè)，具體如表1所示。

表1 紅藍(lán)雙方兵力Table 1 Forces of red and blue parties

3.2 框架設(shè)定

3.2.1 態(tài)勢(shì)數(shù)據(jù)預(yù)處理模塊

本實(shí)驗(yàn)將紅方無(wú)人機(jī)設(shè)定為智能體。實(shí)驗(yàn)的每輪訓(xùn)練中，初始態(tài)勢(shì)數(shù)據(jù)包括：無(wú)人機(jī)的位置（經(jīng)度、緯度、高度）、朝向、速度、毀傷程度、作戰(zhàn)任務(wù)，地空導(dǎo)彈排的位置（經(jīng)度、緯度）、朝向、速度、毀傷程度、作戰(zhàn)任務(wù)，坦克排的位置（經(jīng)度、緯度）、朝向、速度、毀傷程度、作戰(zhàn)任務(wù)，以及氣象條件數(shù)據(jù)。訓(xùn)練之前，對(duì)戰(zhàn)場(chǎng)環(huán)境中各作戰(zhàn)單元的屬性、狀態(tài)、特征進(jìn)行了編碼，并對(duì)距離數(shù)據(jù)進(jìn)行了歸一化預(yù)處理。

3.2.2 知識(shí)庫(kù)模塊

實(shí)驗(yàn)的模型訓(xùn)練與模擬對(duì)抗主要運(yùn)用合成部隊(duì)層級(jí)知識(shí)庫(kù)，包括紅藍(lán)雙方作戰(zhàn)編成、作戰(zhàn)編組、兵力部署、毀傷程度、作戰(zhàn)行動(dòng)、作戰(zhàn)任務(wù)與規(guī)則。

3.2.3 態(tài)勢(shì)感知模塊

對(duì)于實(shí)際戰(zhàn)場(chǎng)環(huán)境，各作戰(zhàn)單元的類(lèi)型、屬性、狀態(tài)數(shù)據(jù)不可直接獲得，一般需通過(guò)傳感器獲得相關(guān)數(shù)據(jù)。比如，通過(guò)傳感器采集到作戰(zhàn)目標(biāo)圖像，再通過(guò)感知模塊中用于目標(biāo)識(shí)別的深度神經(jīng)網(wǎng)絡(luò)，可初步判別出是何種目標(biāo)。而本實(shí)驗(yàn)是仿真實(shí)驗(yàn)，各作戰(zhàn)實(shí)體的類(lèi)型、屬性等數(shù)據(jù)系統(tǒng)可直接獲得，因而態(tài)勢(shì)感知模塊的神經(jīng)網(wǎng)絡(luò)僅為簡(jiǎn)單線性函數(shù)。

3.2.4 行動(dòng)優(yōu)化模塊

1）算法選擇

此模塊采用強(qiáng)化學(xué)習(xí)的DDPG 算法。DDPG 算法基于Actor-Critic 模型結(jié)構(gòu)，并通過(guò)復(fù)制一個(gè)目標(biāo)網(wǎng)絡(luò)作為原網(wǎng)絡(luò)的逼近對(duì)象進(jìn)行緩慢更新，以保證訓(xùn)練過(guò)程的穩(wěn)定性，如圖6 所示。

圖6 DDPG 算法示意圖Fig.6 Schematic diagram of DDPG algorithm

2）動(dòng)作設(shè)定

強(qiáng)化學(xué)習(xí)模型中智能體無(wú)人機(jī)的動(dòng)作值設(shè)定為“機(jī)動(dòng)”與“開(kāi)火”。執(zhí)行動(dòng)作函數(shù)時(shí)，首先檢查是否進(jìn)入任務(wù)區(qū)，進(jìn)入任務(wù)區(qū)，則檢查是否發(fā)現(xiàn)目標(biāo)，發(fā)現(xiàn)目標(biāo)進(jìn)行自動(dòng)開(kāi)火；沒(méi)有進(jìn)入任務(wù)區(qū)，則設(shè)置無(wú)人機(jī)“機(jī)動(dòng)”。

3）獎(jiǎng)懲設(shè)定

智能體無(wú)人機(jī)的獎(jiǎng)懲設(shè)定為：

b）根據(jù)是否進(jìn)入目標(biāo)區(qū)域設(shè)定回報(bào)Ra：進(jìn)入目標(biāo)區(qū)域，獲得正的獎(jiǎng)勵(lì)，Ra=10；否則，Ra=0。

c）根據(jù)是否發(fā)現(xiàn)打擊目標(biāo)、是否執(zhí)行了打擊任務(wù)設(shè)定回報(bào)Rs：發(fā)現(xiàn)目標(biāo)，獲得正的獎(jiǎng)勵(lì)，Rs=50；擊毀目標(biāo)，獲得更高的獎(jiǎng)勵(lì)，Rs=150；否則，Rs=0。

d）根據(jù)是否被對(duì)方擊中設(shè)定回報(bào)Rf：若被對(duì)方擊中，得到負(fù)的獎(jiǎng)勵(lì)，Rf=-100；否則，Rf=0。

3.3 實(shí)驗(yàn)結(jié)論

訓(xùn)練前，智能體完成任務(wù)的概率基本為0；3 000次訓(xùn)練后，對(duì)20 次仿真實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)，智能體無(wú)人機(jī)成功突防并完成打擊任務(wù)的平均概率提升為51.2%；5 000 次訓(xùn)練后，平均概率提升為88.6%；7 000 次訓(xùn)練后，平均概率提升為93.6%。智能體任務(wù)完成率對(duì)比情況如表2 所示，每個(gè)回合獲得的平均獎(jiǎng)勵(lì)值如圖7 所示。

表2 完成任務(wù)對(duì)比情況表Table 2 Comparison of completed tasks

圖7 智能體獲得的平均獎(jiǎng)勵(lì)值Fig.7 Average reward value obtained by the agent

訓(xùn)練前，智能體無(wú)人機(jī)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)沒(méi)有自主感知能力，不知道打擊目標(biāo)在哪里、如何去尋找，其行動(dòng)顯示無(wú)規(guī)則。訓(xùn)練后，智能體無(wú)人機(jī)能夠掌握對(duì)方地面防空武器威脅情況，能夠自主確定最佳進(jìn)攻路線，使其在飛行航線中威脅最小、生存概率最大，如下頁(yè)圖8 所示。

圖8 訓(xùn)練后的無(wú)人機(jī)自主感知與決策效果圖Fig.8 Effect diagram of autonomous perception and decision-making of UAV after training

4 結(jié)論

深度強(qiáng)化學(xué)習(xí)被認(rèn)為是推進(jìn)機(jī)器自主化與智能化最具潛力的技術(shù)。本文通過(guò)無(wú)人機(jī)突防仿真實(shí)驗(yàn)，展現(xiàn)了深度強(qiáng)化學(xué)習(xí)技術(shù)在作戰(zhàn)實(shí)體智能感知與決策上的應(yīng)用效果。推廣應(yīng)用于無(wú)人裝備，可使其擁有自主感知與決策能力，能夠自主進(jìn)行環(huán)境偵察、路徑規(guī)劃、任務(wù)規(guī)劃等活動(dòng)，自主完成導(dǎo)航、制導(dǎo)、協(xié)調(diào)、目標(biāo)識(shí)別、捕獲、攻擊等任務(wù)，提升無(wú)人裝備的智能水平與應(yīng)用效益。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡