金 欣,劉松毅
(1.信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,南京電子工程研究所,南京210007;2.中國(guó)衛(wèi)星發(fā)射測(cè)控系統(tǒng)部,北京100011)
在2016年之前,指揮控制工程領(lǐng)域?qū)Πl(fā)展智能化還保持著相對(duì)謹(jǐn)慎的態(tài)度,這多半是與早些年專(zhuān)家系統(tǒng)等傳統(tǒng)AI技術(shù)的興衰有關(guān)。2016年是見(jiàn)證AI邁上新臺(tái)階的一年,繼AlphaGo戰(zhàn)勝人類(lèi)圍棋手之后,Alpha AI再次戰(zhàn)勝人類(lèi)飛行員,讓人們看到了指揮控制智能化的曙光[1-2]。AI改變指揮控制是未來(lái)的發(fā)展趨勢(shì)。
然而戰(zhàn)爭(zhēng)并不像圍棋那么簡(jiǎn)單,現(xiàn)代化戰(zhàn)爭(zhēng)也絕不僅僅是空中格斗那么單一。美軍目前還主要是把智能化定位在無(wú)人機(jī)之類(lèi)的戰(zhàn)術(shù)平臺(tái)上,指揮控制智能化要走的路還很長(zhǎng)。首先遇到的問(wèn)題就是缺乏指揮訓(xùn)練數(shù)據(jù),這為機(jī)器學(xué)習(xí)帶來(lái)了難題。機(jī)器學(xué)習(xí)需要大規(guī)模、高質(zhì)量的樣本數(shù)據(jù)作為基礎(chǔ)。數(shù)據(jù)不夠自然無(wú)法發(fā)展AI,這是一個(gè)“巧婦難為無(wú)米之炊”的問(wèn)題。
本文從AlphaGo和美軍“深綠”、“阿爾法”中得到啟示,提出通過(guò)打造逼真的“模擬戰(zhàn)爭(zhēng)游戲”,積累訓(xùn)練數(shù)據(jù),用于機(jī)器學(xué)習(xí)的思路,它對(duì)提升指揮控制智能化水平,研究指揮控制技術(shù)具有一定的指導(dǎo)意義。
美軍“深綠”計(jì)劃[3-7]于2007年啟動(dòng),2011年因經(jīng)費(fèi)、領(lǐng)導(dǎo)更換等原因被終止。最初主要是用于陸軍領(lǐng)域,受“深藍(lán)”計(jì)算機(jī)戰(zhàn)勝人類(lèi)棋王的影響,故稱“深綠”。其主要目的是動(dòng)態(tài)預(yù)測(cè)戰(zhàn)場(chǎng)的變化趨勢(shì),幫助指揮員提前進(jìn)行思考,判斷是否需要調(diào)整計(jì)劃,并協(xié)助指揮員生成新的替代方案?!吧罹G”的可貴之處,在于采用的是一種基于仿真環(huán)境的實(shí)踐思維,比任何理論模型更有說(shuō)服力。遺憾的是,由于當(dāng)時(shí)AI的技術(shù)發(fā)展水平限制,“深綠”中并沒(méi)有用到機(jī)器學(xué)習(xí)技術(shù),導(dǎo)致實(shí)踐積累的經(jīng)驗(yàn)沒(méi)能轉(zhuǎn)換成知識(shí)。
2016年,AlphaGo戰(zhàn)勝李世石,被認(rèn)為是“認(rèn)知智能”進(jìn)步的里程碑。對(duì)弈知識(shí)通過(guò)深度學(xué)習(xí)自己掌握,具有全局綜合和局部?jī)?yōu)化的平衡能力,甚至發(fā)現(xiàn)人類(lèi)沒(méi)有的圍棋著法,比人更接近“圍棋之神”。2017年,AlphaGo Zero再度刷新紀(jì)錄,憑借強(qiáng)化學(xué)習(xí)的方法,以100∶0完勝李世石版AlphaGo。AlphaGo的制勝之道,在于采用的是一種基于游戲環(huán)境的機(jī)器學(xué)習(xí)思維,在人工智能發(fā)展到當(dāng)下的水平,終于學(xué)有所成。但問(wèn)題是,AlphaGo采用的方法可能無(wú)法照搬到軍事領(lǐng)域,畢竟千差萬(wàn)別,其挑戰(zhàn)星際爭(zhēng)霸也還未獲捷報(bào)。
美國(guó)辛辛那提大學(xué)很早就開(kāi)始研發(fā)AI空戰(zhàn)模擬訓(xùn)練系統(tǒng)。2016年6月,一款名為“阿爾法”的AI軟件,在眾多AI軟件中勝出,并對(duì)戰(zhàn)人類(lèi)頂尖飛行員,獲得了100%的勝利?!鞍柗ā泵鎸?duì)的問(wèn)題比AlphaGo簡(jiǎn)單,屬于“動(dòng)作及簡(jiǎn)單戰(zhàn)術(shù)行為”智能,但通過(guò)對(duì)傳統(tǒng)人工智能方法的有機(jī)結(jié)合,也取得了優(yōu)異的成績(jī)?!鞍柗ā辈捎玫氖且环N基于仿真訓(xùn)練數(shù)據(jù)學(xué)習(xí)的思維,是仿真實(shí)踐和機(jī)器學(xué)習(xí)兩種思維的結(jié)合,頗具參考價(jià)值。
眾所周知,機(jī)器學(xué)習(xí)是從大量數(shù)據(jù)中挖掘隱藏的規(guī)律和模式,對(duì)樣本數(shù)據(jù)的規(guī)模和質(zhì)量有著較高的要求。首先,樣本數(shù)據(jù)的數(shù)量規(guī)模要大,尤其是深度學(xué)習(xí),需要極其龐大的數(shù)據(jù)量支撐,數(shù)據(jù)量小會(huì)嚴(yán)重影響學(xué)習(xí)的效果,導(dǎo)致模型欠擬合。其次,樣本數(shù)據(jù)的質(zhì)量要高,因?yàn)樵肼曇矔?huì)嚴(yán)重影響學(xué)習(xí)的效果。最后,樣本數(shù)據(jù)的覆蓋性要好,對(duì)各種類(lèi)型的樣本都要能夠覆蓋,且數(shù)量相對(duì)均衡,否則容易造成過(guò)擬合。
指揮控制樣本數(shù)據(jù)只能從作戰(zhàn)實(shí)踐中積累,而和平時(shí)期作戰(zhàn)實(shí)踐以軍事演習(xí)訓(xùn)練為主。然而,小規(guī)模作戰(zhàn)演習(xí)較多,大規(guī)模軍事演習(xí)一年也就數(shù)次。采集的數(shù)據(jù)大多未經(jīng)清洗、加工、標(biāo)注、整理,質(zhì)量較低。受安全性、成本等限制,演習(xí)訓(xùn)練的對(duì)抗激烈程度、戰(zhàn)術(shù)靈活程度、裝備使用程度較低。演習(xí)數(shù)據(jù)主要圍繞訓(xùn)練需求產(chǎn)生,無(wú)法根據(jù)機(jī)器學(xué)習(xí)任務(wù)訂制,往往會(huì)出現(xiàn)樣例類(lèi)型較為單一、樣本分布不均衡等問(wèn)題。因此,指揮控制領(lǐng)域目前能夠產(chǎn)生的樣本數(shù)據(jù)難以滿足機(jī)器學(xué)習(xí)所需,成為智能化面臨的一大難題。
分析AlphaGo和美軍的“深綠”、“阿爾法”,發(fā)現(xiàn)它們有一個(gè)共同點(diǎn):都是從基于仿真的實(shí)踐出發(fā),從中汲取經(jīng)驗(yàn)或訓(xùn)練機(jī)器學(xué)習(xí)模型。相比實(shí)兵演習(xí)訓(xùn)練,仿真戰(zhàn)爭(zhēng)游戲具有安全、經(jīng)濟(jì)、高效、可定制等顯著優(yōu)點(diǎn),是培育智能指揮控制的理想環(huán)境。使用這套環(huán)境可以在短時(shí)間內(nèi)積累大量的對(duì)抗樣本數(shù)據(jù),基于這些數(shù)據(jù)可以開(kāi)展多種機(jī)器學(xué)習(xí)研究。
圖1 螺旋式上升的學(xué)習(xí)之路
從目標(biāo)感知數(shù)據(jù)、游戲指令數(shù)據(jù)、結(jié)果統(tǒng)計(jì)數(shù)據(jù)3類(lèi)最常見(jiàn)的數(shù)據(jù)出發(fā),可以學(xué)習(xí)到以下3類(lèi)模型:一是實(shí)體單元的行動(dòng)決策模型,即根據(jù)實(shí)體單元每次執(zhí)行的行動(dòng)和收效反饋不斷學(xué)習(xí)優(yōu)化,知道什么情況下采取什么行動(dòng)能收到好的結(jié)果。二是指揮決策模型,即根據(jù)游戲玩家制定的整體行動(dòng)決策,和一波行動(dòng)執(zhí)行完后取得的階段性成效反饋不斷學(xué)習(xí)優(yōu)化,知道對(duì)什么樣的任務(wù)目標(biāo),制定什么樣的作戰(zhàn)方案,能夠取得好的結(jié)果。三是交戰(zhàn)裁決模型,即根據(jù)玩家的指令和最終結(jié)果統(tǒng)計(jì)數(shù)據(jù),可以學(xué)到在什么樣的戰(zhàn)場(chǎng)環(huán)境下,執(zhí)行什么樣的行動(dòng),能夠產(chǎn)生什么樣的結(jié)果。
建議從戰(zhàn)術(shù)級(jí)開(kāi)始打造戰(zhàn)爭(zhēng)游戲,逐步向戰(zhàn)役級(jí)、戰(zhàn)略級(jí)延伸。一方面,下層的模型比較容易構(gòu)建,越往上層越難。另一方面,上層的模型有可能從下層游戲數(shù)據(jù)中學(xué)習(xí)建立。戰(zhàn)術(shù)級(jí)游戲中,指揮對(duì)象主要是飛機(jī)、坦克、艦船之類(lèi)的平臺(tái),可控行為主要是機(jī)動(dòng)、射擊、躲避攻擊之類(lèi)的戰(zhàn)術(shù)動(dòng)作。這些行為的能力、狀態(tài)主要受武器裝備性能、地理環(huán)境、通信及探測(cè)保障等物理模型制約,比較容易建模。行動(dòng)規(guī)則比較明確,例如受到攻擊時(shí)是否躲避、發(fā)現(xiàn)目標(biāo)時(shí)是否主動(dòng)開(kāi)火等,也比較容易建模。平臺(tái)間的探測(cè)發(fā)現(xiàn)、打擊命中概率等行為的效果,主要受物理模型制約,目前已經(jīng)積累了不少。戰(zhàn)役級(jí)游戲中,指揮對(duì)象主要是戰(zhàn)術(shù)部隊(duì),可控行為主要是戰(zhàn)術(shù)任務(wù),如偵查某個(gè)基地、打擊某個(gè)部隊(duì)等。這個(gè)級(jí)別的行為能力、狀態(tài),以及指揮決策、效果裁決等模型都較為復(fù)雜,難以直接構(gòu)建。但有了大量戰(zhàn)術(shù)級(jí)游戲樣本數(shù)據(jù)之后,就可以嘗試用機(jī)器學(xué)習(xí)的方法建模。到了戰(zhàn)略級(jí)游戲中,指揮對(duì)象為戰(zhàn)役級(jí)部隊(duì),可控行為也是更高層次的任務(wù)類(lèi)型。模型更加復(fù)雜,但同樣可以通過(guò)戰(zhàn)役級(jí)游戲的數(shù)據(jù)學(xué)習(xí)得到。只是這種學(xué)習(xí)過(guò)程更加漫長(zhǎng),需要積累的案例數(shù)據(jù)更多。
我們看到,隨著游戲?qū)蛹?jí)的提高,指揮對(duì)象粒度越粗,行為層次越高,模型越復(fù)雜。但低一級(jí)的游戲數(shù)據(jù)積累到一定程度,高一級(jí)的模型就能夠?qū)W習(xí)得到,指揮對(duì)象就能夠智能化地執(zhí)行任務(wù),高層級(jí)的玩家就不用執(zhí)行太多的“微操作”,從而加快學(xué)習(xí)的速度??偨Y(jié)歸納出來(lái)就是,通過(guò)低層級(jí)的游戲?qū)W習(xí)積累低層級(jí)的智能,用于打造高層級(jí)的游戲,再去學(xué)習(xí)積累高層級(jí)的智能,最終實(shí)現(xiàn)智能水平的螺旋式上升。
系統(tǒng)架構(gòu)設(shè)計(jì)如圖2所示,主要由用戶功能系統(tǒng)、游戲引擎、模型庫(kù)及相關(guān)軟件構(gòu)成。
最底層是模型庫(kù)及相關(guān)軟件。游戲中的仿真模型主要包括環(huán)境模型、實(shí)體模型、決策模型、裁決模型4類(lèi)。環(huán)境模型模擬的是各種戰(zhàn)場(chǎng)環(huán)境及其動(dòng)態(tài)變化過(guò)程。實(shí)體模型模擬的是主戰(zhàn)平臺(tái)、部隊(duì)等各種指揮對(duì)象的狀態(tài)、能力和行動(dòng)過(guò)程。決策模型模擬的是各級(jí)平臺(tái)操控人員、部隊(duì)指揮人員的決策規(guī)則。裁決模型模擬的是實(shí)體行為在實(shí)際環(huán)境下產(chǎn)生的作用效果。模型的逼真度是游戲獲得良好用戶體現(xiàn)的關(guān)鍵。因此,必須預(yù)留模型的開(kāi)發(fā)接口和學(xué)習(xí)工具,支持開(kāi)發(fā)者對(duì)模型的持續(xù)改進(jìn),和基于數(shù)據(jù)的模型學(xué)習(xí)優(yōu)化。
圖2 系統(tǒng)架構(gòu)設(shè)計(jì)
中間層是游戲引擎。引擎的基本功能是導(dǎo)調(diào)控制,依據(jù)劇情想定和用戶操作的驅(qū)動(dòng),按照時(shí)間片輪番調(diào)度各個(gè)仿真模型運(yùn)行。模型之間是有交互的,引擎要負(fù)責(zé)管理模型之間的數(shù)據(jù)通信。不同模型運(yùn)行的時(shí)間步長(zhǎng)會(huì)有所不同,引擎要負(fù)責(zé)相互間的時(shí)間同步。模型仿真的結(jié)果最終要顯示到用戶界面上,引擎負(fù)責(zé)畫(huà)面的渲染。為了支持游戲過(guò)后的分析評(píng)估,引擎還應(yīng)當(dāng)支持游戲中各類(lèi)數(shù)據(jù)的采集和游戲過(guò)程的回放。
最上層是用戶功能系統(tǒng)。首先為游戲設(shè)計(jì)人員提供功能軟件,用于編輯各種游戲想定,包括場(chǎng)景、兵力、事件等。其次為玩家提供戰(zhàn)場(chǎng)態(tài)勢(shì)、我方行動(dòng)計(jì)劃及協(xié)同指揮信息的顯示,以及下達(dá)指揮命令的操作功能。再次為導(dǎo)演人員提供對(duì)游戲過(guò)程及后臺(tái)模型的干預(yù)調(diào)整,和對(duì)游戲過(guò)程及結(jié)果數(shù)據(jù)的各類(lèi)分析評(píng)估功能。
上述很多仿真模型在傳統(tǒng)游戲中已較為成熟,只是逼真度進(jìn)一步提高的問(wèn)題,例如環(huán)境模型、實(shí)體被調(diào)度行為模型、裁決模型等。還有些模型在傳統(tǒng)游戲中沒(méi)有或較弱,例如決策模型,也就是常說(shuō)的游戲AI模型。這些模型現(xiàn)在都做得較為簡(jiǎn)單,主要是為了訓(xùn)練玩家快速上手而設(shè)計(jì)的。AI模型太過(guò)簡(jiǎn)單會(huì)導(dǎo)致對(duì)手看起來(lái)很“笨”,很容易被欺騙或誘導(dǎo)。為了提升游戲的體驗(yàn),吸引玩家的興趣,如何提升游戲AI也是當(dāng)下游戲行業(yè)中的一個(gè)熱點(diǎn)方向。要打造戰(zhàn)爭(zhēng)游戲,AI模型則更加重要。實(shí)際作戰(zhàn)中飛行員、坦克手以及編隊(duì)指揮官的決策模型要復(fù)雜得多。如何逼真地表達(dá)模擬他們的判斷和決策方法,是有待深入研究的。
提到游戲引擎,討論較多的往往是畫(huà)面的渲染效果。對(duì)于戰(zhàn)爭(zhēng)游戲而言,更重要的是引擎對(duì)于訓(xùn)練玩家指揮員或戰(zhàn)法實(shí)驗(yàn)分析等應(yīng)用的支持。從訓(xùn)練玩家指揮員的角度,引擎應(yīng)當(dāng)支持人在回路和人不在回路兩種模式。人不在回路模式就是完全依靠AI模型驅(qū)動(dòng)指揮對(duì)象的行為,玩家只看不操作。人在回路模式一是指玩家負(fù)責(zé)指揮各個(gè)對(duì)象的行為,二是指玩家可以實(shí)時(shí)在線修改實(shí)體的決策模型,使之在后續(xù)游戲過(guò)程中作出不同于之前的自主行為決策。從戰(zhàn)法實(shí)驗(yàn)分析的角度,引擎應(yīng)當(dāng)支持類(lèi)似軟件調(diào)試運(yùn)行模式。把一場(chǎng)游戲完整地玩完是需要耗費(fèi)時(shí)間的。為了實(shí)驗(yàn)戰(zhàn)法戰(zhàn)術(shù),往往會(huì)挑選一個(gè)游戲過(guò)程片段,反復(fù)嘗試用不同的行動(dòng)過(guò)程玩出不同的結(jié)果進(jìn)行對(duì)比。還有可能設(shè)計(jì)一些實(shí)驗(yàn)因子,以批處理的方式自動(dòng)完成大樣本推演實(shí)驗(yàn)。如此等等,隨著實(shí)驗(yàn)分析功能的增加,會(huì)對(duì)引擎提出各種新的要求。
傳統(tǒng)的游戲通常會(huì)提供一些簡(jiǎn)單的統(tǒng)計(jì)分析功能,比如基本的戰(zhàn)果、戰(zhàn)損和完成任務(wù)的時(shí)間、消耗資源和金錢(qián)的數(shù)量等,以及簡(jiǎn)單的回放分析功能。這些功能對(duì)于評(píng)價(jià)一個(gè)玩家的水平和總結(jié)經(jīng)驗(yàn)教訓(xùn)是夠了,但對(duì)于戰(zhàn)法實(shí)驗(yàn)分析和機(jī)器學(xué)習(xí)還遠(yuǎn)遠(yuǎn)不夠。從戰(zhàn)法實(shí)驗(yàn)角度,要對(duì)多次實(shí)驗(yàn)結(jié)果的對(duì)比分析、聚類(lèi)分析、單項(xiàng)/多項(xiàng)指標(biāo)關(guān)聯(lián)統(tǒng)計(jì)分析等。戰(zhàn)法實(shí)驗(yàn)分析的一個(gè)主要方法就是發(fā)現(xiàn)問(wèn)題,為此游戲應(yīng)當(dāng)支持溯因分析?;胤攀且环N基本的溯因分析手段,但只能看到一些表面現(xiàn)象。為了分析本質(zhì)原因,玩家可能會(huì)增加一個(gè)可視窗口,觀察關(guān)鍵狀態(tài)參數(shù)隨著不同游戲過(guò)程變化的差異。為了找出收效最佳的戰(zhàn)法戰(zhàn)術(shù)運(yùn)用方式,需要提供根據(jù)大樣本實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)和挖掘的尋優(yōu)分析。此外,還有一個(gè)關(guān)鍵功能是敏感性分析,即通過(guò)設(shè)計(jì)實(shí)驗(yàn)因子得到多次實(shí)驗(yàn)結(jié)果,用來(lái)分析不同因子變化對(duì)結(jié)果影響的敏感性。
當(dāng)采集積累了大量游戲數(shù)據(jù)之后,模型的學(xué)習(xí)優(yōu)化就成為可能,主要是針對(duì)AI模型。從機(jī)器學(xué)習(xí)的角度,第1步是樣本數(shù)據(jù)的構(gòu)造。針對(duì)每一個(gè)學(xué)習(xí)任務(wù),如何從眾多數(shù)據(jù)中抽取相應(yīng)的輸入-輸出對(duì)作為合適的樣本,如何保證樣本的典型性和覆蓋性,如何劃分訓(xùn)練集和測(cè)試集,選取哪些特征參數(shù)作為輸入,對(duì)輸出的結(jié)果如何打上標(biāo)簽,當(dāng)輸入特征參數(shù)太多以致特征向量維度過(guò)高時(shí)如何降維等,都是樣本數(shù)據(jù)構(gòu)造中需要考慮的問(wèn)題。機(jī)器學(xué)習(xí)的第2步是訓(xùn)練模型的選取和設(shè)計(jì)。機(jī)器學(xué)習(xí)訓(xùn)練模型有很多種,包括決策樹(shù)、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、貝葉斯分類(lèi)器、概率圖、關(guān)聯(lián)規(guī)則等,具體又可以細(xì)分出數(shù)十種。按照天下沒(méi)有免費(fèi)午餐的定律,沒(méi)有一種模型能夠適用于任何樣本集。在某一類(lèi)樣本集上取得較好性能的模型,必然在另一類(lèi)樣本集上性能較差。因此,針對(duì)一個(gè)樣本集,選擇哪種模型,以及模型的細(xì)節(jié)部分如何設(shè)計(jì),都需要結(jié)合實(shí)驗(yàn)不斷分析調(diào)整。機(jī)器學(xué)習(xí)的第3步是模型的訓(xùn)練過(guò)程。在模型的訓(xùn)練過(guò)程中,需要不斷地人工調(diào)整模型參數(shù),以便讓模型更好地去適應(yīng)要學(xué)習(xí)的問(wèn)題。因此,模型參數(shù)調(diào)整也是需要結(jié)合具體問(wèn)題具體研究的。
軍事作戰(zhàn)指揮控制不同于簡(jiǎn)單的棋類(lèi)游戲,除了復(fù)雜性以外,樣本數(shù)據(jù)難以達(dá)到機(jī)器學(xué)習(xí)所需的規(guī)模和質(zhì)量也是一個(gè)關(guān)鍵問(wèn)題。相比實(shí)兵演習(xí)訓(xùn)練,本文提出了一種更加安全、經(jīng)濟(jì)、高效、可靈活訂制的樣本數(shù)據(jù)積累方法,即打造逼真的模擬戰(zhàn)爭(zhēng)游戲,從戰(zhàn)術(shù)級(jí)開(kāi)始向戰(zhàn)役、戰(zhàn)略級(jí)延伸,通過(guò)采集指揮人員游戲過(guò)程中的指令和態(tài)勢(shì)數(shù)據(jù),學(xué)習(xí)訓(xùn)練戰(zhàn)場(chǎng)態(tài)勢(shì)認(rèn)知、指揮決策制定等高層次模型,從而使得指揮控制智能化水平螺旋式上升。圍繞該思路,設(shè)計(jì)了戰(zhàn)爭(zhēng)游戲的系統(tǒng)架構(gòu),梳理了戰(zhàn)爭(zhēng)游戲中的關(guān)鍵技術(shù)。下一步研究將圍繞該思路,選取典型作戰(zhàn)應(yīng)用場(chǎng)景,開(kāi)展具體的游戲設(shè)計(jì)工作,構(gòu)建游戲引擎,開(kāi)展AI模型研究,數(shù)據(jù)采集分析和模型學(xué)習(xí)優(yōu)化實(shí)驗(yàn),驗(yàn)證上述思路的可行性。