付長(zhǎng)軍,鄭偉明,葛 蕾,劉海娟
(中國(guó)電子科技集團(tuán)公司第五十四研究所,河北 石家莊 050081)
現(xiàn)代戰(zhàn)爭(zhēng)的范圍已經(jīng)從陸、海、空、天向網(wǎng)絡(luò)空間、電磁空間拓展,未來的對(duì)抗形式主要表現(xiàn)為陸、海、空、天、電、網(wǎng)六位一體保障條件下的精兵作戰(zhàn)。隨著網(wǎng)絡(luò)空間和電磁空間的加入,戰(zhàn)場(chǎng)的要素和相互制約關(guān)系已經(jīng)遠(yuǎn)超人類合作協(xié)同所能掌控[1]。戰(zhàn)爭(zhēng)的勝負(fù)將不僅僅取決于人員的多少、裝備的數(shù)量,更重要的是作戰(zhàn)雙方對(duì)信息的掌握和應(yīng)用。戰(zhàn)爭(zhēng)勝利的關(guān)鍵將取決于認(rèn)知速度,而認(rèn)知速度的快慢,取決于對(duì)智能技術(shù)的利用程度。在認(rèn)知域,計(jì)算機(jī)的角色將從輔助決策轉(zhuǎn)變?yōu)樽灾鳑Q策。
AlphaGo在機(jī)器模擬人類直覺判斷、自主學(xué)習(xí)等人類行為模擬方面取得的突破,給作戰(zhàn)推演的智能化發(fā)展帶來很多成功經(jīng)驗(yàn)[2]。綜合利用多種機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù),構(gòu)建聯(lián)合作戰(zhàn)指揮兵棋推演環(huán)境,對(duì)新戰(zhàn)法的發(fā)現(xiàn)和武器裝備的檢驗(yàn)具有重大意義。美國(guó)國(guó)防高級(jí)研究計(jì)劃局于2016年啟動(dòng)了頻譜協(xié)同挑戰(zhàn)賽,希望借助挑戰(zhàn)賽的形式,依靠人工智能去發(fā)現(xiàn)和利用頻譜“空隙”和其他可提高頻譜效率的機(jī)會(huì),找到未來全新的通信系統(tǒng)和對(duì)抗模式。國(guó)內(nèi),國(guó)防科技創(chuàng)新特區(qū)從2018年開始舉辦了“先知·兵圣”人機(jī)對(duì)抗挑戰(zhàn)賽,旨在以兵棋推演等作戰(zhàn)模擬對(duì)抗技術(shù)為手段,探索人工智能在作戰(zhàn)決策中的作用。
未來,在認(rèn)知域作戰(zhàn)需求的驅(qū)動(dòng)下,智能輔助成為作戰(zhàn)推演系統(tǒng)升級(jí)換代中一個(gè)不容忽視甚至是需要爭(zhēng)分奪秒去解決的問題。仿真推演作為一種研究戰(zhàn)爭(zhēng)的利器,是體系作戰(zhàn)的重要決策判斷工具,在提高指揮人員謀略水平、輔助作戰(zhàn)決策、進(jìn)行戰(zhàn)術(shù)戰(zhàn)法研究與驗(yàn)證等方面發(fā)揮重要作用,主要形式包括兵棋推演、紅藍(lán)對(duì)抗及人在回來等。如果說認(rèn)知域是未來體系對(duì)抗的主戰(zhàn)場(chǎng),那么作戰(zhàn)仿真就是體系對(duì)抗研究的虛擬戰(zhàn)場(chǎng),而智能推演就是未來體系對(duì)抗的機(jī)關(guān)樞紐。
仿真是構(gòu)造反映實(shí)際系統(tǒng)運(yùn)行行為特性的數(shù)學(xué)模型和物理模型在計(jì)算機(jī)或其他形式的仿真設(shè)備上,復(fù)現(xiàn)真實(shí)系統(tǒng)運(yùn)行的復(fù)雜活動(dòng)[3]。美國(guó)國(guó)防部將仿真定義為“建立系統(tǒng)、過程、現(xiàn)象和環(huán)境的模型,在一段時(shí)間內(nèi)對(duì)模型進(jìn)行操作,應(yīng)用于系統(tǒng)的測(cè)試、分析或訓(xùn)練,系統(tǒng)可以是真實(shí)系統(tǒng)或由模型實(shí)現(xiàn)的真實(shí)和概念系統(tǒng)[4]”。作為系統(tǒng)仿真的一個(gè)重要分支,作戰(zhàn)仿真通過對(duì)作戰(zhàn)平臺(tái)和參戰(zhàn)裝備進(jìn)行模型化,模擬交戰(zhàn)過程中平臺(tái)和裝備的運(yùn)行數(shù)據(jù),對(duì)作戰(zhàn)規(guī)律和技戰(zhàn)法進(jìn)行研究,主要包含體系仿真、戰(zhàn)役仿真、戰(zhàn)術(shù)仿真和技術(shù)仿真4個(gè)層次的內(nèi)容[5]。
20世紀(jì)90年代以來,仿真技術(shù)均作為國(guó)防關(guān)鍵技術(shù)出現(xiàn)在歷年《國(guó)防技術(shù)領(lǐng)域計(jì)劃》中,被視作“軍隊(duì)和經(jīng)費(fèi)效率的倍增器”,美國(guó)軍用仿真計(jì)劃發(fā)展態(tài)勢(shì)如圖1所示。針對(duì)作戰(zhàn)仿真推演中不同仿真平臺(tái)之間的連接問題,美國(guó)于90年代在DIS2.x系列標(biāo)準(zhǔn)和ALSP標(biāo)準(zhǔn)之上形成了分布交互仿真技術(shù),但是該技術(shù)體制在互操作性和重用性等方面顯示出一定的局限和不足。
圖1 美國(guó)軍用仿真計(jì)劃發(fā)展態(tài)勢(shì)Fig.1 Development trend of US military simulation program
1996年,由使命空間概念模型、高層體系結(jié)構(gòu)(High Level Architecture,HLA)和系列數(shù)據(jù)標(biāo)準(zhǔn)組成的體系架構(gòu),成為當(dāng)前交互式仿真的主要標(biāo)準(zhǔn),并為各國(guó)所借鑒[6-7]。HLA通過在底層采用以面向?qū)ο蟪绦蛟O(shè)計(jì)的思想和方法,解決了大規(guī)模復(fù)雜的分布式交互仿真系統(tǒng)中不同種類、不同規(guī)模的仿真系統(tǒng)的互操作、重用和擴(kuò)展等問題[8]。2001年美國(guó)國(guó)防部將非HLA技術(shù)架構(gòu)的仿真項(xiàng)目全部淘汰。
進(jìn)入21世紀(jì)后,實(shí)時(shí)通信數(shù)據(jù)交互逐漸興起,國(guó)際對(duì)象管理組織制定了面向數(shù)據(jù)實(shí)時(shí)通信要求的標(biāo)準(zhǔn)和規(guī)范——數(shù)據(jù)分發(fā)服務(wù)(Data Distribution Service,DDS)[9]。作戰(zhàn)仿真推演系統(tǒng)開始采用以HLA+DDS的開發(fā)與運(yùn)行模式,基于匿名發(fā)布/訂購(gòu)機(jī)制和服務(wù)質(zhì)量策略,DDS規(guī)避了仿真建模領(lǐng)域中的互操作、重用和可組合的問題,達(dá)到“在正確的時(shí)間把正確的數(shù)據(jù)分發(fā)給正確的接收者”的目標(biāo),實(shí)現(xiàn)了基于功能集成的顯式耦合向基于數(shù)據(jù)集成的隱式耦合的轉(zhuǎn)變?,F(xiàn)有的導(dǎo)調(diào)控制軟件中絕大多數(shù)都是基于 HLA 與DDS聯(lián)合開發(fā)實(shí)現(xiàn)的。
針對(duì)作戰(zhàn)試驗(yàn)與訓(xùn)練領(lǐng)域的煙囪式設(shè)計(jì)問題,實(shí)現(xiàn)靶場(chǎng)資源之間的互操作、重用和可組合,2010年美國(guó)國(guó)防部啟動(dòng)了基礎(chǔ)計(jì)劃工程(FI2010),提出試驗(yàn)與訓(xùn)練使能體系結(jié)構(gòu)(TENA),形成匿名發(fā)布/訂購(gòu)數(shù)據(jù)分發(fā)和CORBA分布對(duì)象的概念,采用狀態(tài)分布對(duì)象這種編程抽象,為整個(gè)靶場(chǎng)事件生命周期的數(shù)據(jù)庫信息包括劇情信息和演練期間采集數(shù)據(jù)提供管理和標(biāo)準(zhǔn)化。
HLA,DDS,TENA已經(jīng)成為當(dāng)前軍事仿真推演領(lǐng)域成熟而有力的標(biāo)準(zhǔn)規(guī)范,能夠較好地解決各類仿真需求中面臨的問題。
裝備仿真推演不僅可以指導(dǎo)實(shí)戰(zhàn),還能夠形成從大系統(tǒng)協(xié)同設(shè)計(jì)到仿真驗(yàn)證和試驗(yàn)評(píng)估的閉環(huán),有效支撐軍委總部及各軍兵種用戶方向總體類項(xiàng)目的規(guī)劃、立項(xiàng)論證、研制、試驗(yàn)驗(yàn)證和驗(yàn)收工作,從作戰(zhàn)需求層面牽引專業(yè)技術(shù)發(fā)展。具體的應(yīng)用包括但不限于以下幾個(gè)方面[10-11]:
① 指導(dǎo)實(shí)戰(zhàn):通過作戰(zhàn)仿真,能夠?qū)ρ萘?xí)和真實(shí)交戰(zhàn)過程進(jìn)行復(fù)盤,從而發(fā)現(xiàn)軍事部署和戰(zhàn)斗過程中的問題,從第一次世界大戰(zhàn)開始,作戰(zhàn)仿真就已經(jīng)發(fā)揮了重大作用。
② 戰(zhàn)法發(fā)現(xiàn):通過作戰(zhàn)仿真,發(fā)現(xiàn)新時(shí)代網(wǎng)絡(luò)信息體系下聯(lián)合作戰(zhàn)的新戰(zhàn)法。
③ 軍事訓(xùn)練和軍事教學(xué):19世紀(jì)末,仿真推演在軍事訓(xùn)練中的重要作用已經(jīng)突顯出來。特別是在第一次世界大戰(zhàn)期間,基于兵棋的作戰(zhàn)模擬已經(jīng)作為軍事學(xué)校的教學(xué)內(nèi)容在歐美國(guó)家的軍隊(duì)中推廣。
④ 演示驗(yàn)證:能夠?qū)ξ淦餮b備產(chǎn)品的作戰(zhàn)能力和體系貢獻(xiàn)度進(jìn)行充分演示驗(yàn)證。
⑤ 效能評(píng)估:綜合地形、防御態(tài)勢(shì)、氣候、電磁環(huán)境和機(jī)動(dòng)性等多個(gè)要素,對(duì)武器裝備或技戰(zhàn)法的作戰(zhàn)效能給出客觀評(píng)價(jià)。
⑥ 工程服務(wù):通過作戰(zhàn)仿真及早發(fā)現(xiàn)設(shè)計(jì)中維修、保障等方面的問題,提高工程服務(wù)質(zhì)量。
⑦ 展覽展示:基于戰(zhàn)場(chǎng)環(huán)境實(shí)時(shí)態(tài)勢(shì),顯示參戰(zhàn)各方推演態(tài)勢(shì),極近真實(shí)地體驗(yàn)裝備產(chǎn)品對(duì)聯(lián)合作戰(zhàn)的貢獻(xiàn)程度。
⑧ 交流培訓(xùn):對(duì)裝備使用者和指揮員進(jìn)行培訓(xùn),與用戶、業(yè)內(nèi)人士進(jìn)行交流。降低培訓(xùn)成本,提高培訓(xùn)質(zhì)量,提高學(xué)習(xí)訓(xùn)練的實(shí)操性和互動(dòng)性。
⑨ 商業(yè)應(yīng)用:作戰(zhàn)推演不僅應(yīng)用于軍事領(lǐng)域,還受到軍事愛好者的青睞。馮·萊斯維茨發(fā)明兵棋后不久,就有人把它變成了商品在市場(chǎng)上公開出售。目前市面上仍流行著多種兵棋推演游戲以及基于作戰(zhàn)仿真為理念的策略游戲,如《指揮官:偉大的戰(zhàn)爭(zhēng)(Commander:The Great War)》。
AlphaGo的成功讓人類看到了機(jī)器在認(rèn)知方面的希望,使人們相信機(jī)器智能能夠從輔助決策的角色轉(zhuǎn)變?yōu)樽灾鳑Q策的角色[2,12]。AlphaGo的策略框架充分模擬了人類下棋時(shí)的思維特性。首先,模仿人類下棋時(shí)先對(duì)各種出現(xiàn)情況的全面思考,借鑒另外一個(gè)圍棋機(jī)器人CrazyStone采用的蒙特卡洛樹搜索(MCTS)策略,CrazyStone每一步棋的走棋策略生成方式如算法1所示,對(duì)各種著手方式予以考慮。
算法1:CrazyStone的蒙特卡洛搜索策略給定初始棋局S0,將己方和對(duì)方所有可能落子方法的權(quán)重均設(shè)為1。迭代以下步驟: 1.隨機(jī)地下完一局棋:① 己方從所有可能的落子方法中等概率地隨機(jī)選擇一個(gè)走法a0。落子之后,棋盤狀態(tài)變成S1。② 對(duì)手也從所有可能的落子方法中等概率地隨機(jī)選擇一個(gè)走法,這時(shí)棋盤狀態(tài)變成S2。③ 重復(fù)步驟①和②,直到分出勝負(fù)r,贏了就r記為1,輸了則為0。 2.把剛才那個(gè)落子方法(S0,a0)記下來,將己方該落子方法的權(quán)重提高一些: 新權(quán)重=權(quán)重+r ; 3.按照步驟1和步驟2的方法,針對(duì)棋盤狀態(tài)S1,同樣更新對(duì)手所有可能落子策略的權(quán)重。多次迭代后,有前途的落子方案的權(quán)重會(huì)越來越高,經(jīng)過10萬次迭代后,選擇權(quán)重最大的那個(gè)方案作為最終的走棋策略。
接著對(duì)模仿人類打棋譜,向圍棋高手學(xué)習(xí)的特點(diǎn),通過有監(jiān)督學(xué)習(xí)策略網(wǎng)絡(luò)從圍棋對(duì)戰(zhàn)平臺(tái)上的大量棋譜學(xué)習(xí)出走棋策略Pσ,如算法2所示。
算法2:基于有監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的走子策略 Pσ數(shù)據(jù)準(zhǔn)備:利用圍棋網(wǎng)絡(luò)棋牌室中約16萬左右的對(duì)弈棋局,每一局棋通常會(huì)有200手左右,因此會(huì)形成3 000萬左右的棋局狀態(tài)s和對(duì)應(yīng)的落子a,從而形成同等數(shù)量的標(biāo)注數(shù)據(jù)。學(xué)習(xí):利用圍棋中氣、打劫、眼等概念,對(duì)棋局狀態(tài)s進(jìn)行特征提取,形成19×19×n維的特征向量作為輸入數(shù)據(jù)(n是特征數(shù)量),將361個(gè)落子向量a’作為分類,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),可以得到一個(gè)模擬人類棋手下圍棋的走子策略 Pσ。表現(xiàn):走子策略Pσ的水平與人類業(yè)余6段左右的選手相當(dāng),但棋力不如CrazyStone。速度優(yōu)化:為了將走子策略 Pσ 應(yīng)用到CrazyStone的搜索策略中,需要降低 Pσ的計(jì)算時(shí)間,通過降低棋局狀態(tài)的特征數(shù)量以及卷積神經(jīng)網(wǎng)絡(luò)的層數(shù),可以得到一個(gè)簡(jiǎn)化但快速的走子策略 Pσ_fast,耗時(shí)從3 ms下降到2 μs。
進(jìn)而模仿人類“手下一著子,心想三步棋”的推演模式,借助增強(qiáng)學(xué)習(xí)策略網(wǎng)絡(luò),通過機(jī)器自身博弈進(jìn)化更高級(jí)的走子策略Pρ,如算法3所示。同時(shí),受人類對(duì)圍棋贏面的直覺判斷能力啟發(fā),綜合大量棋局利用價(jià)值判斷網(wǎng)絡(luò)得出贏棋概率V(x),從而綜合利用經(jīng)驗(yàn)和棋感以減少搜索空間,更加逼近最優(yōu)下棋策略,如算法4所示。綜合以上模擬人類思維形成的策略算法,最終形成的下棋策略如算法5所示[13-14]。
算法3:基于自對(duì)弈演化的走子策略 Pρ首先用 Pσ 和 Pσ 進(jìn)行大量的對(duì)弈,所得到的棋譜加入到算法2中的訓(xùn)練集,然后用卷積神經(jīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練出 Pσ_1;然后再讓 Pσ_1和 Pσ_1,然后用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練出Pσ__2;重復(fù)多次可得到 Pσ_n,最后這個(gè)策略稱之為 Pρ。表現(xiàn):Pρ 對(duì) Pσ 的勝率可達(dá)80%,對(duì)CrazyStone的勝率可達(dá)85%。
算法4:贏棋概率V(x)的估算方法贏棋概率 V(x) 通過多層神經(jīng)網(wǎng)絡(luò)從大量棋局的輸贏狀況中獲取,最后一層的目標(biāo)函數(shù)從分類向量改為了贏棋的概率函數(shù) V(x)。所需要的訓(xùn)練集將遠(yuǎn)遠(yuǎn)超過算法3的樣本數(shù)。為此,先用 Pσ 隨機(jī)走L步,然后在L+1步的時(shí)候,從所有可能的落子方法中隨機(jī)選擇一個(gè)走法,然后再用Pρ走完剩余步驟,直到分出勝負(fù)。由于每下一步棋都會(huì)對(duì)應(yīng)一個(gè)棋局,因此可生成足夠豐富的樣本。
算法5:AlphaGo的下棋策略最終策略是在MCTS框架之上融合局面評(píng)估函數(shù)V(s)。在每落一顆棋子之前,重復(fù)以下步驟: 1.先用 Pσ 下L步之后,改用 Pσ_fast把剩下的棋局走完,贏了就r記為1,輸了則為0。 2.同時(shí)調(diào)用V(x),評(píng)估局面的獲勝概率。 3.更新權(quán)重:新權(quán)重=調(diào)整的初始權(quán)重+0.5?r+0.5?V(x);調(diào)整的初始權(quán)重= Pσ賦予的權(quán)重 /(被隨機(jī)到的次數(shù)+1); 4.按照步驟1,2,3,同樣更新對(duì)手落子策略的權(quán)重。多次迭代后,選擇權(quán)重最大的那個(gè)方案作為最終的走棋策略。
從算法上看,AlphaGo雖然利用的是機(jī)器學(xué)習(xí)的一些常規(guī)算法,但是通過巧妙運(yùn)用,讓機(jī)器具備了自我推演和直觀判斷的能力。它的故事遠(yuǎn)沒有結(jié)束,AlphaGo Zero在不利用人類對(duì)弈數(shù)據(jù)的條件下,僅通過自我博弈就打敗了之前所有的AlphaGo版本,這為科學(xué)家破解機(jī)器智能帶來了信心。機(jī)器智能進(jìn)步帶來的將是一場(chǎng)“認(rèn)知的革命”,對(duì)軍事家而言,重新評(píng)估和定位機(jī)器認(rèn)知在未來軍事戰(zhàn)爭(zhēng)中扮演的角色將變得迫切。
在軍事作戰(zhàn)方面,未來單裝的能力將可以充分定義,戰(zhàn)場(chǎng)資源的網(wǎng)絡(luò)化和服務(wù)化能力將會(huì)充分釋放[15],取勝的關(guān)鍵從單裝能力的比拼轉(zhuǎn)化為體系對(duì)抗。聯(lián)合作戰(zhàn)條件下的體系對(duì)抗具有對(duì)象層次多、種類多、關(guān)系復(fù)雜的特點(diǎn),如何在作戰(zhàn)使命指引下快速編排作戰(zhàn)任務(wù)、部署作戰(zhàn)力量、提供條件保障成為勝負(fù)的關(guān)鍵。這種組織調(diào)度和指揮決策難度已經(jīng)遠(yuǎn)非指揮官所能籌謀,決策速度將成為勝負(fù)的關(guān)鍵。如果誰能在機(jī)器智能上取得突破,必將大幅提升決策速度。構(gòu)建支撐機(jī)器博弈的仿真平臺(tái)是探索機(jī)器智能在作戰(zhàn)中潛在應(yīng)用的先決條件,是探索機(jī)器決策在軍事運(yùn)籌中的有效途徑,也為適應(yīng)未來機(jī)器決策條件下武器裝備的能力設(shè)計(jì)提供保障。
為實(shí)現(xiàn)作戰(zhàn)推演智能化,一方面需要加強(qiáng)智能推演方法的研究,還需要利用虛擬化與組裝化等技術(shù)將作戰(zhàn)單元、參試裝備、部署情況等要素進(jìn)行精細(xì)化建模,聯(lián)合各個(gè)裝備研制部門和應(yīng)用部門,構(gòu)建從裝備仿真、系統(tǒng)仿真到作戰(zhàn)仿真不同層級(jí)不同粒度的仿真試驗(yàn)體系。數(shù)字模型的準(zhǔn)確程度會(huì)直接影響到推演結(jié)果的科學(xué)性。仿真推演發(fā)展構(gòu)想如圖2所示。
圖2 仿真推演發(fā)展構(gòu)想Fig.2 Development vision of simulation and deduction
與作戰(zhàn)演訓(xùn)相結(jié)合,通過數(shù)字仿真與部隊(duì)演習(xí)緊密結(jié)合,讓智能作戰(zhàn)推演貼近實(shí)戰(zhàn)。聯(lián)合作戰(zhàn)試驗(yàn)指揮協(xié)調(diào)機(jī)構(gòu)將試驗(yàn)任務(wù)下達(dá)到各個(gè)試驗(yàn)靶場(chǎng),同時(shí)與演習(xí)部隊(duì)建立聯(lián)系,在推演中,通過演習(xí)部隊(duì)紅藍(lán)雙方的投影到導(dǎo)調(diào)中心,導(dǎo)調(diào)中心通過交戰(zhàn)模擬,實(shí)現(xiàn)虛實(shí)、虛虛、實(shí)實(shí)多種對(duì)抗演練方式。借助智能推演算法發(fā)現(xiàn)新戰(zhàn)法和裝備體系的問題,從而為裝備研制部門、采辦機(jī)構(gòu)以及作戰(zhàn)指揮部門提供有力支撐。
AlphaGo對(duì)人類思想最大的沖擊在于:機(jī)器智能在某些領(lǐng)域從經(jīng)驗(yàn)利用、自主創(chuàng)新和知識(shí)學(xué)習(xí)等方面可以做得比人更好。計(jì)算機(jī)可以不再是單純地輔助人決策,而在有些情況下可以替代人決策,提出的不僅僅是建議。在未來高速一體化聯(lián)合作戰(zhàn)行動(dòng)中,人的決策速度根本無法跟上行動(dòng)過程,如果誰能率先讓計(jì)算機(jī)替代人去決策,就能真正地料敵于先,誰就在認(rèn)知域的軍事斗爭(zhēng)中占據(jù)主動(dòng),讓對(duì)手處于步步被動(dòng)之中。作戰(zhàn)仿真推演系統(tǒng)的智能認(rèn)知,是開展作戰(zhàn)態(tài)勢(shì)智能認(rèn)知的必由之路,是應(yīng)對(duì)未來認(rèn)知域作戰(zhàn)的有效途徑。