劉網(wǎng)定,張國(guó)寧,鄭世明
(陸軍指揮學(xué)院作戰(zhàn)實(shí)驗(yàn)室,南京 210045)
伴隨著前沿智能科技的飛速發(fā)展,越來(lái)越多的無(wú)人裝備、智能技術(shù)應(yīng)用于戰(zhàn)場(chǎng),智能化戰(zhàn)爭(zhēng)初露端倪?,F(xiàn)有計(jì)算機(jī)輔助決策通常是基于規(guī)則的決策,智能化程度較低,難以適應(yīng)未來(lái)有人/無(wú)人作戰(zhàn)新形勢(shì)的需求,這就需要突破傳統(tǒng)靠固定規(guī)則推理的方法,探求具備自我學(xué)習(xí)和動(dòng)態(tài)分析預(yù)測(cè)能力的方法框架,以求自主而準(zhǔn)確地判斷戰(zhàn)場(chǎng)態(tài)勢(shì)并作出行動(dòng)決策。
從AlphaGo、星際爭(zhēng)霸AI 到AlphaGo Zero,深度強(qiáng)化學(xué)習(xí)技術(shù)在圍棋、游戲、自動(dòng)駕駛、機(jī)器人制造等領(lǐng)域取得不斷進(jìn)展,使得智能感知與決策可以達(dá)到甚至超越人類(lèi)水平,例如AlphaGo 依靠深度學(xué)習(xí)把握了圍棋對(duì)弈的“直覺(jué)”棋感和棋勢(shì),通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了自我學(xué)習(xí)和優(yōu)化棋招,擊敗了圍棋世界冠軍李世石。深度強(qiáng)化學(xué)習(xí)的機(jī)制與方法[1-5],借鑒參考了心理學(xué)中的行為主義理論,符合人類(lèi)的分析決策思維方式,這為解決自主感知與決策問(wèn)題提供了一種技術(shù)框架。本文利用深度學(xué)習(xí)挖掘態(tài)勢(shì)數(shù)據(jù)中的隱含特征,全面地抽象到態(tài)勢(shì)感知;再通過(guò)強(qiáng)化學(xué)習(xí)模仿人對(duì)事物的認(rèn)知方式,在無(wú)監(jiān)督的情況下,通過(guò)不斷地試錯(cuò),達(dá)到對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)的累積學(xué)習(xí),形成正確的戰(zhàn)場(chǎng)認(rèn)知結(jié)論與決策結(jié)果。
強(qiáng)化學(xué)習(xí)受到人和動(dòng)物學(xué)習(xí)中試錯(cuò)法的啟發(fā),智能體如何決策(作出行動(dòng))來(lái)源于環(huán)境的反饋,對(duì)于正確的行動(dòng),環(huán)境會(huì)給出獎(jiǎng)勵(lì),對(duì)于錯(cuò)誤的行動(dòng),環(huán)境會(huì)給出懲罰,智能體根據(jù)環(huán)境的反饋來(lái)調(diào)整自己的決策,通過(guò)與環(huán)境的不斷交互與反饋,最終能夠得到最優(yōu)決策方案。強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)如圖1 所示。
深度強(qiáng)化學(xué)習(xí)本質(zhì)是將深度神經(jīng)網(wǎng)絡(luò)融入強(qiáng)化學(xué)習(xí)基本結(jié)構(gòu)之中。針對(duì)大規(guī)模狀態(tài)/動(dòng)作空間問(wèn)題(包括連續(xù)狀態(tài)/動(dòng)作空間問(wèn)題),值表形式的值函數(shù)所需要的存儲(chǔ)空間遠(yuǎn)遠(yuǎn)超過(guò)了現(xiàn)代計(jì)算機(jī)的硬件條件,使得經(jīng)典的強(qiáng)化學(xué)習(xí)算法不再適用。在此情況下,可使用深度神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜環(huán)境狀態(tài)予以分析表示,解決智能體對(duì)環(huán)境狀態(tài)的難以理解問(wèn)題;使用深度神經(jīng)網(wǎng)絡(luò)對(duì)強(qiáng)化學(xué)習(xí)的相關(guān)函數(shù)(例如價(jià)值函數(shù)、動(dòng)作價(jià)值函數(shù)、策略函數(shù)等)進(jìn)行估計(jì),解決強(qiáng)化學(xué)習(xí)的維度災(zāi)難問(wèn)題。基于深度強(qiáng)化學(xué)習(xí)的感知與決策原理如圖2 所示。
圖2 基于深度強(qiáng)化學(xué)習(xí)的感知與決策原理示意圖Fig.2 Schematic diagram of perception and decision-making principle based on deep reinforcement learning
依據(jù)1.2 中的原理,基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架主要由兩部分組成,一是智能體對(duì)環(huán)境的感知部分,此部分基于深度學(xué)習(xí)構(gòu)建,二是智能體的行動(dòng)優(yōu)化部分,此部分基于強(qiáng)化學(xué)習(xí)(包含深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí))構(gòu)建;同時(shí),考慮態(tài)勢(shì)數(shù)據(jù)的預(yù)處理與專(zhuān)家知識(shí)的利用。因而,基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架包含態(tài)勢(shì)數(shù)據(jù)預(yù)處理、態(tài)勢(shì)感知、行動(dòng)優(yōu)化和知識(shí)庫(kù)4 個(gè)模塊。預(yù)處理模塊用以對(duì)態(tài)勢(shì)數(shù)據(jù)進(jìn)行清洗、歸一等操作;態(tài)勢(shì)感知模塊由多個(gè)神經(jīng)網(wǎng)絡(luò)融合而成,用以表征戰(zhàn)場(chǎng)態(tài)勢(shì);行動(dòng)優(yōu)化模塊用以“評(píng)判”智能體的行為;戰(zhàn)場(chǎng)知識(shí)庫(kù)用以“指導(dǎo)”神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建,提高深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率。框架示意圖如下頁(yè)圖3 所示。
圖3 基于深度強(qiáng)化學(xué)習(xí)的智能感知與決策框架示意圖Fig.3 Schematic diagram of intelligent perception and decision-making framework based on deep reinforcement learning
戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)一般需進(jìn)行預(yù)處理,以滿足深度強(qiáng)化學(xué)習(xí)算法要求,預(yù)處理方法主要包括檢測(cè)、清洗、集成、歸一化、正則化等,但并非所有的態(tài)勢(shì)數(shù)據(jù)均要通過(guò)所有預(yù)處理操作,需視具體態(tài)勢(shì)數(shù)據(jù)的獲取、來(lái)源、格式等情形而定。例如對(duì)于收集到的傳感器數(shù)據(jù),由于傳感器狀態(tài)信息的量程并不一致,在將數(shù)據(jù)信息傳入網(wǎng)絡(luò)模型之前,為了提升模型的收斂速度及精度,防止模型出現(xiàn)梯度爆炸,應(yīng)對(duì)傳感器信息數(shù)據(jù)進(jìn)行歸一化處理,統(tǒng)一量程。
感知和決策的過(guò)程都需要知識(shí)庫(kù)予以支撐,在知識(shí)庫(kù)的驅(qū)動(dòng)下,感知信息更為精準(zhǔn),決策依據(jù)更為充分,學(xué)習(xí)的收斂速度會(huì)更快,學(xué)習(xí)的結(jié)果會(huì)更可靠。知識(shí)庫(kù)包括戰(zhàn)場(chǎng)環(huán)境知識(shí)庫(kù)、敵我部署知識(shí)庫(kù)、敵我狀態(tài)知識(shí)庫(kù)以及敵我行動(dòng)知識(shí)庫(kù)等。知識(shí)庫(kù)中的知識(shí)來(lái)源于兩方面:1)直接存入庫(kù)中的軍事領(lǐng)域?qū)<抑R(shí),2)通過(guò)不斷學(xué)習(xí)獲得的經(jīng)驗(yàn)知識(shí)。
利用深度神經(jīng)網(wǎng)絡(luò)的表征能力,可挖掘出態(tài)勢(shì)數(shù)據(jù)中包含的特征與關(guān)系,包括戰(zhàn)場(chǎng)上作戰(zhàn)實(shí)體的屬性、狀態(tài)、類(lèi)別、運(yùn)動(dòng)趨勢(shì),不同作戰(zhàn)實(shí)體間的關(guān)系等,形成態(tài)勢(shì)感知表示[6-8]。由于戰(zhàn)場(chǎng)態(tài)勢(shì)的復(fù)雜性,往往無(wú)法用單個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行表征,因而基于指揮員的思維模式,將感知過(guò)程和目標(biāo)進(jìn)行分層,構(gòu)建面向態(tài)勢(shì)感知的復(fù)合架構(gòu)深度學(xué)習(xí)模型。具體構(gòu)建方法為:
1)通過(guò)對(duì)戰(zhàn)場(chǎng)環(huán)境數(shù)據(jù)的學(xué)習(xí),建立環(huán)境感知模型;
2)通過(guò)對(duì)戰(zhàn)場(chǎng)上各個(gè)作戰(zhàn)實(shí)體的屬性、狀態(tài)、行動(dòng)趨勢(shì)數(shù)據(jù)的學(xué)習(xí),建立實(shí)體感知模型;
3)通過(guò)對(duì)不同作戰(zhàn)實(shí)體特定時(shí)間段中時(shí)序狀態(tài)信息的學(xué)習(xí),構(gòu)建實(shí)體間的關(guān)系判定模型;
4)以實(shí)體感知模型為主體,以實(shí)體間的關(guān)系判定模型為基本聯(lián)系,結(jié)合環(huán)境感知模型,進(jìn)行模型的融合,生成面向態(tài)勢(shì)感知的復(fù)合架構(gòu)深度學(xué)習(xí)模型,如圖4 所示。
圖4 復(fù)合架構(gòu)深度學(xué)習(xí)感知模型示意圖Fig.4 Schematic diagram of composite architecture deep learning perception model
在單個(gè)深度學(xué)習(xí)模型構(gòu)建過(guò)程中,為提高模型的學(xué)習(xí)效率,可采用條件反射法,將強(qiáng)化學(xué)習(xí)的行動(dòng)效果與專(zhuān)家知識(shí)、規(guī)則融入模型當(dāng)中。如下式所示:
其中,wij表示神經(jīng)元j 到神經(jīng)元i 的連接權(quán);yi、yj為神經(jīng)元的輸出;yj′是基于專(zhuān)家知識(shí)與規(guī)則的輸出,α、β 是表示學(xué)習(xí)速度的常數(shù)。
1)若yi與yj同時(shí)被激活,即yi與yj同時(shí)為正,那么wij將增大,即此時(shí)強(qiáng)化學(xué)習(xí)的行動(dòng)得到正的獎(jiǎng)勵(lì),正確的態(tài)勢(shì)理解結(jié)果被予以肯定和保留。
2)若yj′ 與yj同時(shí)被激活,即yj′ 與yj同時(shí)為正,那么wij將增大,即此時(shí)態(tài)勢(shì)理解結(jié)論與專(zhuān)家知識(shí)、規(guī)則相一致,正確的態(tài)勢(shì)理解結(jié)果被予以肯定和保留。
3)若yi被激活,而yj處于抑制狀態(tài),即yi為正yj為負(fù),那么wij將變小,即此時(shí)強(qiáng)化學(xué)習(xí)的行動(dòng)得到懲罰,錯(cuò)誤的態(tài)勢(shì)理解結(jié)果被予以否定。
4)若yi被激活,而yj′處于抑制狀態(tài),即yi為正yj′為負(fù),那么wij將變小,即此時(shí)態(tài)勢(shì)理解結(jié)論與專(zhuān)家知識(shí)、規(guī)則相悖,錯(cuò)誤的態(tài)勢(shì)理解結(jié)果被予以否定。
利用深度神經(jīng)網(wǎng)絡(luò)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)表征后,并不知道其表征結(jié)果如何、與真實(shí)結(jié)果有多大偏差,利用強(qiáng)化學(xué)習(xí)的行動(dòng)反饋機(jī)制,可通過(guò)智能體的行動(dòng)去驗(yàn)證與調(diào)整表征結(jié)果。在此,從單智能體強(qiáng)化學(xué)習(xí)出發(fā),借鑒強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域的成熟技術(shù)與經(jīng)驗(yàn)[9-10],構(gòu)建行動(dòng)優(yōu)化Actor-Critic 模型,如圖5所示。
圖5 行動(dòng)優(yōu)化A-C 模型示意圖Fig.5 Schematic diagram of A-C model for action optimization
A-C 模型主要由兩部分組成,一是Actor(執(zhí)行器)部分,即智能體將要采取的策略,另一個(gè)是Critic(評(píng)價(jià)器)部分,即智能體得到的行動(dòng)反饋(值函數(shù)),兩部分分別通過(guò)深度神經(jīng)網(wǎng)絡(luò)表示。模型訓(xùn)練時(shí),Actor 與Critic 交互更新,Actor 選擇策略,Critic給出評(píng)價(jià),最終可得最優(yōu)行動(dòng)策略。在戰(zhàn)場(chǎng)環(huán)境中,利用深度強(qiáng)化學(xué)習(xí)進(jìn)行自主感知與決策的單智能體實(shí)體,比如無(wú)人機(jī)、坦克,均為連續(xù)動(dòng)作行動(dòng),可采用適合連續(xù)動(dòng)作決策的強(qiáng)化學(xué)習(xí)算法,如DDPG算法、A3C 算法等。
在行動(dòng)優(yōu)化模塊中,可采用啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)方法對(duì)知識(shí)庫(kù)進(jìn)行有效利用[11-12]。啟發(fā)式回報(bào)函數(shù)設(shè)計(jì)規(guī)則為:
即當(dāng)s∈S0,或某規(guī)則發(fā)生時(shí),智能體執(zhí)行動(dòng)作a1,回報(bào)函數(shù)F(s,a,s′)賦值為r,這樣便可刺激在某狀態(tài)集S0或某規(guī)則發(fā)生情況下智能體執(zhí)行動(dòng)作a1。例如,如果(if)敵方作戰(zhàn)單元行動(dòng)速度、力量規(guī)模、裝備類(lèi)型、行動(dòng)方向滿足一定條件,根據(jù)專(zhuān)家知識(shí),則可判定敵方將要采取何種行動(dòng),然后(then)智能體采取相應(yīng)的對(duì)策a=a1,回報(bào)函數(shù)F(s,a,s′)=r。
此部分通過(guò)仿真實(shí)驗(yàn),結(jié)合具體想定,驗(yàn)證深度強(qiáng)化學(xué)習(xí)在智能感知與決策上的應(yīng)用效果[13]。
3.1.1 基本情況
紅方對(duì)陣地防御的藍(lán)方實(shí)施進(jìn)攻作戰(zhàn),其中對(duì)紅方部隊(duì)威脅最大的是藍(lán)方坦克部隊(duì),為盡快消滅藍(lán)方坦克部隊(duì),紅方指揮員迅速申請(qǐng)空中火力支援。上級(jí)派出無(wú)人機(jī)突擊力量,依靠自身能力突破藍(lán)方殘余地面防空火力,對(duì)藍(lán)方坦克部隊(duì)實(shí)施攻擊。
3.1.2 紅藍(lán)雙方作戰(zhàn)目標(biāo)
紅方作戰(zhàn)目標(biāo):利用無(wú)人機(jī)空中優(yōu)勢(shì),快速突破敵防空,消滅藍(lán)方坦克。
藍(lán)方作戰(zhàn)目標(biāo):使用防空武器擊落紅方無(wú)人機(jī),保護(hù)坦克不受其攻擊。
3.1.3 紅藍(lán)雙方兵力
實(shí)驗(yàn)設(shè)定紅方兵力為固定翼無(wú)人機(jī)1 架,藍(lán)方兵力為坦克排1 個(gè)、地空導(dǎo)彈排4 個(gè),具體如表1所示。
表1 紅藍(lán)雙方兵力Table 1 Forces of red and blue parties
3.2.1 態(tài)勢(shì)數(shù)據(jù)預(yù)處理模塊
本實(shí)驗(yàn)將紅方無(wú)人機(jī)設(shè)定為智能體。實(shí)驗(yàn)的每輪訓(xùn)練中,初始態(tài)勢(shì)數(shù)據(jù)包括:無(wú)人機(jī)的位置(經(jīng)度、緯度、高度)、朝向、速度、毀傷程度、作戰(zhàn)任務(wù),地空導(dǎo)彈排的位置(經(jīng)度、緯度)、朝向、速度、毀傷程度、作戰(zhàn)任務(wù),坦克排的位置(經(jīng)度、緯度)、朝向、速度、毀傷程度、作戰(zhàn)任務(wù),以及氣象條件數(shù)據(jù)。訓(xùn)練之前,對(duì)戰(zhàn)場(chǎng)環(huán)境中各作戰(zhàn)單元的屬性、狀態(tài)、特征進(jìn)行了編碼,并對(duì)距離數(shù)據(jù)進(jìn)行了歸一化預(yù)處理。
3.2.2 知識(shí)庫(kù)模塊
實(shí)驗(yàn)的模型訓(xùn)練與模擬對(duì)抗主要運(yùn)用合成部隊(duì)層級(jí)知識(shí)庫(kù),包括紅藍(lán)雙方作戰(zhàn)編成、作戰(zhàn)編組、兵力部署、毀傷程度、作戰(zhàn)行動(dòng)、作戰(zhàn)任務(wù)與規(guī)則。
3.2.3 態(tài)勢(shì)感知模塊
對(duì)于實(shí)際戰(zhàn)場(chǎng)環(huán)境,各作戰(zhàn)單元的類(lèi)型、屬性、狀態(tài)數(shù)據(jù)不可直接獲得,一般需通過(guò)傳感器獲得相關(guān)數(shù)據(jù)。比如,通過(guò)傳感器采集到作戰(zhàn)目標(biāo)圖像,再通過(guò)感知模塊中用于目標(biāo)識(shí)別的深度神經(jīng)網(wǎng)絡(luò),可初步判別出是何種目標(biāo)。而本實(shí)驗(yàn)是仿真實(shí)驗(yàn),各作戰(zhàn)實(shí)體的類(lèi)型、屬性等數(shù)據(jù)系統(tǒng)可直接獲得,因而態(tài)勢(shì)感知模塊的神經(jīng)網(wǎng)絡(luò)僅為簡(jiǎn)單線性函數(shù)。
3.2.4 行動(dòng)優(yōu)化模塊
1)算法選擇
此模塊采用強(qiáng)化學(xué)習(xí)的DDPG 算法。DDPG 算法基于Actor-Critic 模型結(jié)構(gòu),并通過(guò)復(fù)制一個(gè)目標(biāo)網(wǎng)絡(luò)作為原網(wǎng)絡(luò)的逼近對(duì)象進(jìn)行緩慢更新,以保證訓(xùn)練過(guò)程的穩(wěn)定性,如圖6 所示。
圖6 DDPG 算法示意圖Fig.6 Schematic diagram of DDPG algorithm
2)動(dòng)作設(shè)定
強(qiáng)化學(xué)習(xí)模型中智能體無(wú)人機(jī)的動(dòng)作值設(shè)定為“機(jī)動(dòng)”與“開(kāi)火”。執(zhí)行動(dòng)作函數(shù)時(shí),首先檢查是否進(jìn)入任務(wù)區(qū),進(jìn)入任務(wù)區(qū),則檢查是否發(fā)現(xiàn)目標(biāo),發(fā)現(xiàn)目標(biāo)進(jìn)行自動(dòng)開(kāi)火;沒(méi)有進(jìn)入任務(wù)區(qū),則設(shè)置無(wú)人機(jī)“機(jī)動(dòng)”。
3)獎(jiǎng)懲設(shè)定
智能體無(wú)人機(jī)的獎(jiǎng)懲設(shè)定為:
b)根據(jù)是否進(jìn)入目標(biāo)區(qū)域設(shè)定回報(bào)Ra:進(jìn)入目標(biāo)區(qū)域,獲得正的獎(jiǎng)勵(lì),Ra=10;否則,Ra=0。
c)根據(jù)是否發(fā)現(xiàn)打擊目標(biāo)、是否執(zhí)行了打擊任務(wù)設(shè)定回報(bào)Rs:發(fā)現(xiàn)目標(biāo),獲得正的獎(jiǎng)勵(lì),Rs=50;擊毀目標(biāo),獲得更高的獎(jiǎng)勵(lì),Rs=150;否則,Rs=0。
d)根據(jù)是否被對(duì)方擊中設(shè)定回報(bào)Rf:若被對(duì)方擊中,得到負(fù)的獎(jiǎng)勵(lì),Rf=-100;否則,Rf=0。
訓(xùn)練前,智能體完成任務(wù)的概率基本為0;3 000次訓(xùn)練后,對(duì)20 次仿真實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì),智能體無(wú)人機(jī)成功突防并完成打擊任務(wù)的平均概率提升為51.2%;5 000 次訓(xùn)練后,平均概率提升為88.6%;7 000 次訓(xùn)練后,平均概率提升為93.6%。智能體任務(wù)完成率對(duì)比情況如表2 所示,每個(gè)回合獲得的平均獎(jiǎng)勵(lì)值如圖7 所示。
表2 完成任務(wù)對(duì)比情況表Table 2 Comparison of completed tasks
圖7 智能體獲得的平均獎(jiǎng)勵(lì)值Fig.7 Average reward value obtained by the agent
訓(xùn)練前,智能體無(wú)人機(jī)對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)沒(méi)有自主感知能力,不知道打擊目標(biāo)在哪里、如何去尋找,其行動(dòng)顯示無(wú)規(guī)則。訓(xùn)練后,智能體無(wú)人機(jī)能夠掌握對(duì)方地面防空武器威脅情況,能夠自主確定最佳進(jìn)攻路線,使其在飛行航線中威脅最小、生存概率最大,如下頁(yè)圖8 所示。
圖8 訓(xùn)練后的無(wú)人機(jī)自主感知與決策效果圖Fig.8 Effect diagram of autonomous perception and decision-making of UAV after training
深度強(qiáng)化學(xué)習(xí)被認(rèn)為是推進(jìn)機(jī)器自主化與智能化最具潛力的技術(shù)。本文通過(guò)無(wú)人機(jī)突防仿真實(shí)驗(yàn),展現(xiàn)了深度強(qiáng)化學(xué)習(xí)技術(shù)在作戰(zhàn)實(shí)體智能感知與決策上的應(yīng)用效果。推廣應(yīng)用于無(wú)人裝備,可使其擁有自主感知與決策能力,能夠自主進(jìn)行環(huán)境偵察、路徑規(guī)劃、任務(wù)規(guī)劃等活動(dòng),自主完成導(dǎo)航、制導(dǎo)、協(xié)調(diào)、目標(biāo)識(shí)別、捕獲、攻擊等任務(wù),提升無(wú)人裝備的智能水平與應(yīng)用效益。