司炳山 董志明
(1.陸軍裝甲兵學(xué)院 北京 100071)(2.中國人民解放軍75130部隊 貴港 537100)
隨著無人系統(tǒng)在敘利亞沖突、納卡沖突、俄烏沖突等近幾場局部戰(zhàn)爭中的頻繁亮相,意味著現(xiàn)代戰(zhàn)爭模式已經(jīng)不可逆轉(zhuǎn)地步入了智能化、無人化的時代。世界各國都將無人系統(tǒng)的發(fā)展作為提升未來部隊?wèi)?zhàn)斗力的重要手段。無人系統(tǒng)在戰(zhàn)爭中的應(yīng)用方式層出不窮,無人系統(tǒng)也從最開始的遙控控制單平臺,單功能發(fā)展到現(xiàn)在的集群協(xié)同,綜合性,智能化自主系統(tǒng)。其中自主行為決策技術(shù)的發(fā)展對無人系統(tǒng)應(yīng)用的推動起到了決定性的作用。同時,隨著無人系統(tǒng)在各國各軍兵種中應(yīng)用的不斷深入,對其自主決策能力也不斷提出了更高的要求。
自主決策能力是指無人系統(tǒng)擁有感知、觀察、分析、交流、計劃、制定決策和行動的能力,并能夠完成人類通過人機交互方式布置給它的任務(wù)。自主系統(tǒng)的顯著特征是在未知環(huán)境中的目標導(dǎo)向能力,它能基于一套規(guī)則或約束做出決策,并確定哪些信息對決策是重要的,因此其性能比預(yù)先確定運行方式的系統(tǒng)更優(yōu)越[1]。
美國海軍研究辦公室及空軍研究實驗室(AFRL)為了深入研究無人機作戰(zhàn)運用,便于對無人自主程度進行衡量。定義了10個無人機自主級別(表1)。NASA飛行器系統(tǒng)計劃高空長航時部定義了6個自主等級[1](表2)。可以看出,雖然無人系統(tǒng)的等級劃分方法不同,但隨著無人系統(tǒng)等級的提高,無人系統(tǒng)對自身狀態(tài)和周圍環(huán)境的感知能力在不斷提高,同時無人系統(tǒng)的自主決策權(quán)限也在不斷提高。
表1 10個無人機自主級別
表2 NASA飛行器系統(tǒng)計劃高空長航時部定義了6個自主等級
自主決策方法參考了現(xiàn)代作戰(zhàn)廣泛采用的OODA環(huán)。決策部分是依靠感知單元獲取戰(zhàn)場態(tài)勢信息,然后通過與自身機動和攻擊性能相結(jié)合來確定戰(zhàn)術(shù),自主生成機動指令。同時在此過程當(dāng)中還需要在復(fù)雜戰(zhàn)場環(huán)境下根據(jù)不同的任務(wù)場景實時生成機動指令。當(dāng)前,針對決策問題,國內(nèi)外學(xué)者已經(jīng)取得了豐富的成果,如基于對策的決策方法、基于專家系統(tǒng)的決策方法、基于機器學(xué)習(xí)的決策方法等。
2.1.1 矩陣博弈方法
矩陣博弈法[2]最初是由美國學(xué)者Fred Austin提出,目的是為了解決空戰(zhàn)的機動決策問題,原理是通過建立機動動作庫為備選動作,建立優(yōu)勢函數(shù),通過計算后采用最大-最小值原理進行決策。矩陣博弈方法比較靈活,有較好的拓展性,并且對計算資源的需求較小。但其決策只是考慮當(dāng)前態(tài)勢,決策結(jié)果并不一定是最優(yōu)的。
2.1.2 微分博弈方法
微分博弈法[3]是20世紀50年代由美國數(shù)學(xué)家R.Isaacs提出的,主要用于解決攔截問題。其原理是將空戰(zhàn)過程建立為追逃模型。在實際使用當(dāng)中微分博弈法往往比較復(fù)雜要進行大量簡化才能求解,而且對于條件要求比較嚴苛。并且只能在較為簡單的空戰(zhàn)情形下使用,靈活性和可移植性較差。
專家系統(tǒng)[4]是一個擁有特定領(lǐng)域內(nèi)的大量專業(yè)知識與經(jīng)驗的計算機程序系統(tǒng)。它擁有人類專家的知識水平,并且能夠處理特定領(lǐng)域內(nèi)的專業(yè)問題。專家系統(tǒng)法被較早地應(yīng)用于自主決策領(lǐng)域。美國NASA于1969年開始研發(fā)的AML自適應(yīng)機動邏輯系統(tǒng)[5],以及后續(xù)開發(fā)的Paladin系統(tǒng)能夠基于當(dāng)前空戰(zhàn)態(tài)勢,通過IF-THEN推理方式,可為飛行員提供多種場景的模擬訓(xùn)練。俄羅斯為SU-35戰(zhàn)斗機開發(fā)的“決斗系統(tǒng)”是一種可以向飛行員實時提供作戰(zhàn)建議的專家系統(tǒng)。2016年問世的“阿爾法”空戰(zhàn)系統(tǒng)(Alpha AI)是一種采用遺傳模糊樹方法的專家系統(tǒng),它融合了模糊理論和樹結(jié)構(gòu)的優(yōu)勢,可以高效處理復(fù)雜推理問題。
傳統(tǒng)的專家系統(tǒng)法,它也存在一些不足,它依賴于人類空戰(zhàn)經(jīng)驗,需要耗費大量精力進行建模,并且這種模型的完備性和精確性難以保證;并且難以發(fā)現(xiàn)全新的知識和規(guī)律。
隨著人工智能技術(shù)的興起,機器學(xué)習(xí)成為了其中的關(guān)鍵一環(huán)。機器學(xué)習(xí)方法可以利用、棋局、圖片、視頻、音頻等人類相關(guān)數(shù)據(jù)進行學(xué)習(xí)以及通過自我對抗迭代訓(xùn)練,從而達到甚至超越人類的水平。谷歌deepmind團隊采用注意力機制(Attention Is You Need)、深度 LSTM(LONG SHORT-TERM MEMORY)、指 針 網(wǎng) 絡(luò)(Pointer Networks)以 及ResNet網(wǎng)絡(luò)開發(fā)的AlphaStar達到大師級水平,完勝人類99.8%玩家。同樣,Open AI開發(fā)的Open AI Five在DOTA2大規(guī)模即時策略游戲中戰(zhàn)勝人類冠軍選手。受此影響,將機器學(xué)習(xí)方法應(yīng)用到自主決策中是必然趨勢。經(jīng)過國內(nèi)外眾多學(xué)者的研究與不斷改進,其中的神經(jīng)網(wǎng)絡(luò)、遺傳學(xué)習(xí)、強化學(xué)習(xí)等都有著不俗的表現(xiàn)。
1986年DARPA啟動“飛行員助手(Pilot's Associate Program,PA)”項目[6],以驗證人工智能技術(shù)在航空系統(tǒng)中的應(yīng)用,增強戰(zhàn)斗機的任務(wù)完成能力。PA項目包含了態(tài)勢評估系統(tǒng)、任務(wù)規(guī)劃系統(tǒng)、戰(zhàn)術(shù)規(guī)劃系統(tǒng)、人接口系統(tǒng)、系統(tǒng)狀態(tài)系統(tǒng)等分系統(tǒng)。實現(xiàn)了對戰(zhàn)機的故障診斷監(jiān)控,對任務(wù)的主動規(guī)劃,提供了良好的人機交互環(huán)境,態(tài)勢的演變判斷和評估。以飛行員助手項目為支撐,美軍又相繼啟動了旋翼機飛行員助手(Rotorcraft Pilot's Associate,RPA)項目,自動伙伴(AUTO CREW)項目,并且最終成功運用于下一代戰(zhàn)斗機設(shè)計當(dāng)中。
俄羅斯在su-27戰(zhàn)機上的機載任務(wù)專家系統(tǒng),英國的任務(wù)管理輔助系統(tǒng)(Mission Manager Aid,MMA),認知座艙項目(Cognitive Cockpit Project,COGPIT)等都有類似的功能。
2007年DARPA啟動“深綠(Deep Green)”計劃[7~8],旨在以仿真技術(shù)支撐軍事任務(wù)。深綠包含了三大部分,“指揮員助手”是人機接口系統(tǒng),“閃電戰(zhàn)”是深綠的仿真系統(tǒng),“水晶球”是深綠的控制系統(tǒng)。其中閃電戰(zhàn)系統(tǒng)可以接收各方的行動方案進行仿真,并對各種可能結(jié)果繼續(xù)仿真至分支終點,以此達到對未來戰(zhàn)場態(tài)勢的預(yù)測的目的。水晶球可以獲取真實的戰(zhàn)場態(tài)勢信息并更新系統(tǒng)態(tài)勢,最重要的是對未來的決策節(jié)點進行辨識,并提供決策方案。已達到對指揮員的高效輔助決策作用。深綠系統(tǒng)以創(chuàng)新的系統(tǒng)設(shè)計,將在線仿真決策支持變?yōu)榭赡堋?/p>
美軍2016年正式啟動“指揮官虛擬參謀(Commander's Virtual Staff,CVS)”項目,指揮官虛擬參謀綜合了認知計算技術(shù),可以分析復(fù)雜戰(zhàn)場態(tài)勢,提供個性化作戰(zhàn)規(guī)劃流程,該系統(tǒng)集成了作戰(zhàn)評估,分析預(yù)測、對策建議等模塊,具備智能人機交互環(huán)境。重點是可提供未來態(tài)勢預(yù)測,并且可基于人機協(xié)作方案進行推演評估。指揮官虛擬參謀項目是美軍在深綠項目后推出的又一重大計劃,是美軍指揮決策系統(tǒng)智能化的一大舉措。
2015年美國空軍啟動Alpha智能空戰(zhàn)[9]項目,該項目由Psibernetix公司負責(zé)開發(fā),最終將實現(xiàn)的人工智能飛行員駕駛僚機配合有人駕駛的長機執(zhí)行軍事任務(wù)。并且在2016年的測試當(dāng)中完勝了美國空軍王牌飛行員。該系統(tǒng)采用基于“模糊邏輯”、“遺傳算法”和“專家規(guī)則”的遺傳模糊樹理論,Alpha智能空戰(zhàn)系統(tǒng)成功的將演化計算應(yīng)用在求解連續(xù)實時決策的高維復(fù)雜問題。另外,Alpha智能空戰(zhàn)系統(tǒng)在同等條件下響應(yīng)速度達到了人類飛行員的250倍,其人工智能飛行員的訓(xùn)練平臺在一臺普通的個人電腦上就可以實現(xiàn),并且系統(tǒng)的運行可以在幾十美元的“樹莓派”上進行。Alpha智能空戰(zhàn)系統(tǒng)的初始策略結(jié)構(gòu)依然與依賴人類的先驗知識建模,所以其解空間搜索能力很大程度上受限于人類的設(shè)計。
Skyborg項目是美國空軍重點發(fā)展的“先鋒項目”之一。2019年3月美國空軍研究實驗室發(fā)布了自主無人作戰(zhàn)算法驗證平臺項目(Skyborg),主要用來完成《2018年美國人工智能戰(zhàn)略》和《2019年人工智能倡議》。2021年4月Kratos公司研制的UTAP-22“灰鯖鯊”戰(zhàn)術(shù)無人機首次搭載Skyborg項目的“自主核心系統(tǒng)(ACS)”進行測試,6月,Skyborg團隊在美軍“橙旗”21-2演習(xí)當(dāng)中再次成功測試了搭載ACS的MQ-20“復(fù)仇者”無人機。測試中無人機演示了基礎(chǔ)飛行自主能力。
該項目將由兩個系統(tǒng)組成,一是機載人工智能副駕駛,可以實現(xiàn)與人類飛行員的信息交互。二是可以自主駕駛無人機的人工智能系統(tǒng)。該系統(tǒng)為忠誠僚機項目的推進打下了技術(shù)基礎(chǔ)。該項目集成了一系列人工智能技術(shù),旨在融合無人機自主技術(shù)與開放式架構(gòu),實現(xiàn)無人系統(tǒng)的動態(tài)獨立決策能力。可將其應(yīng)用于“無人僚機”和完全自主型無人戰(zhàn)斗機,實現(xiàn)有人/無人機編隊高效作戰(zhàn)。
DARPA戰(zhàn)略技術(shù)辦公室在2019年5月提出了“空戰(zhàn)演進(ACE)”項目[10]。這是美軍“馬賽克戰(zhàn)”這一新型作戰(zhàn)概念的重要支撐項目。該項目分為三個部分即:模擬環(huán)境研究,無人機飛行試驗,有人-無人協(xié)同飛行試驗。共分為四個技術(shù)領(lǐng)域:1)建立局部行為的作戰(zhàn)自主權(quán);2)建立和校準空戰(zhàn)局部行為信任;3)將信任擴展到全局行為;4)全面建設(shè)空戰(zhàn)實驗基礎(chǔ)設(shè)施。
該項目旨在開發(fā)具有自主開火決策權(quán)限的高級人工智能,實現(xiàn)空中近距離作戰(zhàn)的智能化。通過這一手段,使飛行員的身份從單一的飛機操作員變?yōu)橛腥?無人集群的任務(wù)指揮官。該項目以實現(xiàn)自主能力為重點,彌補了物理自動化作戰(zhàn)系統(tǒng)不足。同時該項目與Skyborg、拒止環(huán)境中的協(xié)同作戰(zhàn)、忠誠僚機等項目有著強烈的相關(guān)性。
“忠誠僚機”[11]這一概念最早由美軍在2013年提出,被人形象地稱之為堂吉訶德的桑丘。2015年由美國空軍研究實驗室(ALRF)正式發(fā)起,該項目的初衷是對F-16戰(zhàn)機進行智能化、無人化的改造后與有人駕駛的五代機進行高地搭配組合。由于F-16造價高昂且不具備隱身性,使得美軍轉(zhuǎn)而開發(fā)具有隱身能力的全新無人機來代替F-16的任務(wù)。隨著無人機技術(shù)的迅猛發(fā)展,目前“忠誠僚機”這一概念也已經(jīng)不是為美軍一家所用,俄羅斯、澳大利亞、法國、英國等均開始著手研發(fā)自己的“忠誠僚機”。比較具有代表性的有美軍的XQ-58A“女武神”無人機,澳大利亞的MQ-28A“幽靈蝙蝠”無人機,法國牽頭的“神經(jīng)元”無人機、“遠程載機”無人機,俄羅斯的S-70“獵人”無人機、“獵戶座”無人機、“雷霆”無人機,英國的“雷神”無人機、“LANCA”無人機。除了美國外,其他國家可能并沒有明確忠誠僚機稱謂,但從其研究的出發(fā)點、功能定位、核心能力上來看基本都具備了典型“忠誠僚機”的特征。
綜合來看目前各國忠誠僚機的主要任務(wù)有:1)在作戰(zhàn)中保護有人機的安全;2)充當(dāng)有人機的彈藥庫,擴展有人機的載荷規(guī)模;3)代替有人機執(zhí)行高風(fēng)險性的任務(wù);4)充當(dāng)空中的信息節(jié)點,擴展體系的作戰(zhàn)能力。忠誠僚機的優(yōu)勢有:1)可以有效避免人員的傷亡;2)大部分無人機作為可消耗產(chǎn)品,成本低廉,甚至低于一枚戰(zhàn)斧導(dǎo)彈的價格;3)裝備了高度自主的人工智能系統(tǒng),具有很強的自主作戰(zhàn)能力;4)無人機融合大量人工智能技術(shù),大大縮短了OODA環(huán)響應(yīng)速度,提高了作戰(zhàn)效能。
2019年10月,通過前期的篩選DARPA選定了8支隊伍參加“阿爾法狗斗(Alpha Dog fight Trials)”項目[10]的最終比賽。DARPA在主要以解決空中纏斗決策問題為出發(fā)點,進行了該項目。該項目同時ACE計劃相關(guān),但又相對獨立于ACE計劃。在2020年8月進行的比賽中,蒼鷺系統(tǒng)(Heron Systems)公司開發(fā)的AI算法“Falco”操縱F-16模擬戰(zhàn)機,擊敗了經(jīng)驗豐富的美國空軍F-16飛行員。隨后,DARPA授予五家機構(gòu)算法開發(fā)合同,旨在該項目的基礎(chǔ)上深入開發(fā)將該算法的應(yīng)用擴展至“2v1”與“2v2”的視距內(nèi)空戰(zhàn)環(huán)境。
此項目中的人工智能飛行員“Falco”,采用了深度強化學(xué)習(xí)的技術(shù),研發(fā)訓(xùn)練時間不足一年。在此期間經(jīng)歷過了至少40億次的仿真訓(xùn)練,在比賽前已經(jīng)相當(dāng)于擁有30年作經(jīng)驗的F-16戰(zhàn)斗機飛行員,在比賽中不僅戰(zhàn)勝了其他參賽隊的人工智能飛行員,還最終完勝了人類頂尖飛行員。其表現(xiàn)令人眼前一亮。
無人機集群[12]以其廉價性、智能性等諸多優(yōu)點。在無人系統(tǒng)中占據(jù)了重要地位。無人系統(tǒng)的自主決策能力的獲得主要有兩種模式:1)權(quán)限更高的系統(tǒng)的賦予;2)依靠無人集群的群體智能。其中第一種方式有人工干預(yù),地面基站干預(yù)或者集群內(nèi)部節(jié)點的干預(yù)等。第二種主要依靠群體智能的涌現(xiàn)性或者是分布式智能。關(guān)于群體智能的涌現(xiàn)性,國內(nèi)外學(xué)者相繼提出了蟻群算法、蜂群算法、狼群算法、魚群算法、粒子群算法等群體智能優(yōu)化算法,并不斷加以改進。典型的自主無人集群有Perdix項目[13]、Gremlins項目、Locust項目、OFFSET 項目等。
通過對自主決策技術(shù)發(fā)展的梳理,可以看出人工智能技術(shù)與自主決策的融合發(fā)展是當(dāng)前的主要研究方向。它深刻影響今后的裝備發(fā)展和技術(shù)創(chuàng)新,以及未來的作戰(zhàn)形態(tài)。
伴隨著武器裝備的不斷發(fā)展和軍事技術(shù)的更新迭代,現(xiàn)代戰(zhàn)爭的作戰(zhàn)樣式也呈現(xiàn)出前所未有的高動態(tài)性和不確定性。傳統(tǒng)的輔助決策技術(shù)加人工決策的模式已經(jīng)無法適應(yīng)現(xiàn)代戰(zhàn)爭“高”、“強”、“快”的節(jié)奏。對于由人工智能和自主決策技術(shù)驅(qū)動的決策專家的需求將愈發(fā)強烈,其相比于人類有限的生理機能和局限的認知水平有著明顯的技術(shù)優(yōu)勢,能夠極大地壓縮OODA循環(huán)周期。這對于未來作戰(zhàn)體系和裝備技術(shù)實現(xiàn)突破性的革新具有重要意義。
隨著時間的發(fā)展,自主決策技術(shù)也正在從傳統(tǒng)的博弈理論、優(yōu)化理論等方法開始和具備自主學(xué)習(xí)能力的人工智能技術(shù)相結(jié)合。傳統(tǒng)技術(shù)往往受限于人類有限的認知與表達,所產(chǎn)生的決策結(jié)果也不盡如人意。而以人工智能技術(shù)為代表的新一代決策技術(shù)如Alpha Go等,已經(jīng)在某些領(lǐng)域?qū)崿F(xiàn)了對人類的超越,而這也將成為今后的一大發(fā)展趨勢。
單個平臺的效能面對復(fù)雜作戰(zhàn)任務(wù)時往往顯得捉襟見肘。并且在單個平臺上的功能集中必將導(dǎo)致平臺經(jīng)濟性的下降,同時降低了體系的抗毀性、魯棒性。美軍“馬賽克戰(zhàn)”就很好地詮釋了這一現(xiàn)象。依靠群體智能就能很好地避免這些問題,同時群體智能有著單平臺所不具備的智能涌現(xiàn)性,能夠?qū)崿F(xiàn)“1+1>2”的顛覆性效果。所以在將來群體智能也必然會成為作戰(zhàn)體系中的關(guān)鍵一環(huán)。
未來作戰(zhàn)的智能自主決策過程是個復(fù)雜的動態(tài)過程,涉及眾多技術(shù)領(lǐng)域。本文對自主決策技術(shù)方法進行了簡要闡述,對具有代表性的項目進行了梳理。對其中的關(guān)鍵技術(shù)和核心問題進行了剖析。并在此基礎(chǔ)上對未來自主決策技術(shù)的發(fā)展進行展望,為未來自主決策技術(shù)的發(fā)展提供了研究思路。