黃長強(qiáng) 唐上欽
“阿法狗”作為谷歌公司開發(fā)的圍棋程序擊敗了圍棋高手李世石,此事件引起了人們對人工智能的極大關(guān)注.“阿法鷹”是指無人作戰(zhàn)飛機(jī)(UCAV),它的發(fā)展趨勢是自主空戰(zhàn),而實(shí)現(xiàn)自主空戰(zhàn)的技術(shù)基礎(chǔ)也是人工智能.所以兩者在發(fā)展并運(yùn)用人工智能這一層面是相通的.UCAV是集探測、識別、跟蹤、決策和作戰(zhàn)功能為一體的先進(jìn)武器系統(tǒng),它的使用將使未來的空戰(zhàn)成為信息和武器融合的對抗.可以說,UCAV必將成為未來空軍的主要作戰(zhàn)力量,并將對未來的空戰(zhàn)理念和作戰(zhàn)模式產(chǎn)生重大影響.
“阿法狗”是人類跟機(jī)器的對抗,也是人腦智能跟人工智能的對抗,實(shí)際上都離不開一個“人”字.而“阿法鷹”,是紅方和藍(lán)方的對抗,是紅方智能和藍(lán)方智能的對抗.“阿法狗”解決的是怎么自主下圍棋,是二維空間內(nèi)的策略選擇問題.而UCAV自主空戰(zhàn)是三維空間內(nèi)策略選擇問題.因此說,UCAV自主空戰(zhàn)相對圍棋來說,更有難度.
“阿法狗”下圍棋,雙方是由圍棋規(guī)則來約束的,并且雙方的棋面形勢是可知的,是完全信息條件下的博弈.而“阿法鷹”敵我雙方空戰(zhàn)無規(guī)則的約束,只有飛機(jī)和武器性能的約束,相互都不想讓對方知道我怎么攻擊,是不完全信息條件下的博弈.這樣發(fā)明了各種戰(zhàn)術(shù)戰(zhàn)法用于處理空戰(zhàn)的復(fù)雜性.例如,眼鏡蛇機(jī)動,就是一種化被動為主動的空戰(zhàn)戰(zhàn)術(shù).
圍棋的走子策略保守估算有10171種可能,那么“阿法狗”怎么贏得了勝利的呢?它依靠深度學(xué)習(xí)技術(shù)和3千億次/s的高速運(yùn)算[1].所以,表面上看是圍棋的對決,其實(shí)后面有大量的人工智能和計算在支撐.對比“阿法狗”下棋走子的可能性,“阿法鷹”作戰(zhàn)策略的可能性更多,因?yàn)榭諔?zhàn)的影響因素更復(fù)雜.
目前已裝備并成功投入實(shí)戰(zhàn)使用的典型UCAV均為對地打擊武器系統(tǒng),典型代表為美國的MQ-1B“捕食者”無人機(jī)系統(tǒng)(見圖1),采用“操控員遠(yuǎn)程操控”作戰(zhàn)模式,必須通過信息傳輸通道在地面操控員操控下,UCAV完成作戰(zhàn)任務(wù)[2].對已有戰(zhàn)例分析,UCAV實(shí)際上對付的是弱敵,打擊對象是恐怖分子,沒有空中截?fù)敉{,不具有有效防空火力威脅或強(qiáng)大的電磁干擾能力,目標(biāo)為恐怖分子、車輛等地面低速或靜止目標(biāo).所以UCAV的飛行速度可以較低,操控員可以很從容地對目標(biāo)進(jìn)行攻擊.
圖1 MQ-1B“捕食者”無人機(jī)
然而“操控員遠(yuǎn)程操控”攻擊模式存在明顯的局限性.1)信息傳輸通道易受干擾和作戰(zhàn)時間上的延遲問題,影響了無人作戰(zhàn)飛機(jī)的作戰(zhàn)效能;2)大量信息匯集到控制中心,操控員實(shí)時處理信息量大,導(dǎo)致操控員負(fù)擔(dān)較重,在復(fù)雜戰(zhàn)術(shù)環(huán)境下這個問題更加嚴(yán)重;3)操控員固有生理因素限制,如估算精度、動作準(zhǔn)確性、反應(yīng)時間等,導(dǎo)致此種UCAV攻擊模式不能充分利用武器系統(tǒng)的全部效能.并且對于未來復(fù)雜作戰(zhàn)環(huán)境下的高動態(tài)制空作戰(zhàn),戰(zhàn)機(jī)稍縱即逝,“操控員遠(yuǎn)程操控”攻擊模式不能滿足未來UCAV空戰(zhàn)需求.
為占領(lǐng)未來軍事科技制高點(diǎn),各軍事強(qiáng)國競相開展制空型無人機(jī)的技術(shù)探索和關(guān)鍵技術(shù)攻關(guān).隨著信息處理、人工智能等技術(shù)和空戰(zhàn)理論的進(jìn)步,自主空戰(zhàn)將是UCAV未來的發(fā)展方向.我們定義自主空戰(zhàn),就是無人作戰(zhàn)飛機(jī)進(jìn)入作戰(zhàn)空域并獲得授權(quán),獨(dú)立完成作戰(zhàn)信息的處理、態(tài)勢評估、威脅估計、攻擊/規(guī)避/干擾決策,武器-目標(biāo)分配,戰(zhàn)術(shù)機(jī)動、進(jìn)入攻擊區(qū)、發(fā)射武器及其作戰(zhàn)效能評估的作戰(zhàn)模式,
美國無人機(jī)發(fā)展路線圖中指出,2020年~2025年要奪取空中優(yōu)勢.無人機(jī)要替代F-15,F-16和海軍戰(zhàn)斗機(jī),到2025年~2030年要實(shí)現(xiàn)打擊和壓制防空系統(tǒng),要替代F-22.并強(qiáng)調(diào)要在智能技術(shù)的基礎(chǔ)上強(qiáng)化UCAV的自主性、綜合性和自適應(yīng)性.因此,UCAV智能自主空戰(zhàn)技術(shù)既可以突破現(xiàn)有攻擊模式下的局限性,也體現(xiàn)了應(yīng)對對手無人化、智能化作戰(zhàn)的需求.
首先分析“阿法狗”是怎么打敗圍棋高手的.有3種辦法,一種辦法根據(jù)棋譜的規(guī)則把可能性進(jìn)行窮舉,10171種可能,要把這10171種可能窮舉需要花費(fèi)世界所有的計算能力一萬年時間,所以這實(shí)際是行不通的.另外一個辦法是看棋手在下棋的時候怎么想的,他下棋的意識是什么,戰(zhàn)略戰(zhàn)術(shù)是什么,最后怎么形成下棋的步驟.相關(guān)研究已經(jīng)表明,對人類意識的研究還處于非常初級的階段,因而,這種方法在近期也是不可行的.第三,學(xué)習(xí)棋手是怎么做的.“阿法狗”通過深度學(xué)習(xí)技術(shù)學(xué)習(xí)了人類三千萬盤棋局,提煉出計算機(jī)能識別的棋譜,然后又自己對弈了三千萬盤棋局.最后達(dá)到可以預(yù)測20步,勝算概率70%,這樣就戰(zhàn)勝了人類圍棋高手.
那么我們的無人作戰(zhàn)飛機(jī)怎么辦?也有3種辦法,一個辦法是在動力學(xué)和運(yùn)動學(xué)規(guī)則制約情況下,窮舉它的可能性.但是,根據(jù)前面的分析,空戰(zhàn)的可能性數(shù)量比圍棋的還多,在現(xiàn)有計算條件下用這種方法不行.第2個辦法是研究有人機(jī)飛行員是怎么想的,飛行員空戰(zhàn)時他的意識是什么,怎么形成的戰(zhàn)略戰(zhàn)術(shù),怎么形成的空戰(zhàn)的動作.這也不行,因?yàn)槿四X太復(fù)雜,現(xiàn)在對人腦意識的研究還很初步,連實(shí)驗(yàn)室白鼠的大腦也只獲得了一些很初步的研究結(jié)果.
那么第3個辦法,研究有人機(jī)飛行員是怎么做的.我們從海量的有人機(jī)飛行數(shù)據(jù)中,獲取、提煉空戰(zhàn)的動作,形成計算機(jī)能識別的空戰(zhàn)動作庫,通過不確定性理論進(jìn)行決策推理,使得勝算達(dá)到70%,這樣形成空戰(zhàn)動作.這個辦法可能可行.
具體的研究思路是,真實(shí)的飛行員通過戰(zhàn)法的研究,通過飛行的訓(xùn)練和模擬訓(xùn)練,形成了空戰(zhàn)經(jīng)驗(yàn),這些空戰(zhàn)經(jīng)驗(yàn)就是UCAV自主空戰(zhàn)的學(xué)習(xí)樣本.通過知識獲取的辦法形成空戰(zhàn)模型與戰(zhàn)術(shù)知識庫,通過知識表示與知識推理,形成思維智能體和行為智能體,從而構(gòu)成無人作戰(zhàn)飛機(jī)的空戰(zhàn)智能體.我們把空戰(zhàn)智能體又稱為虛擬飛行員.從而進(jìn)行UCAV的自主空戰(zhàn).這是實(shí)現(xiàn)無人自主智能空戰(zhàn)的有效途徑.
式(1)中:L為航段長度,為航路1中第i類船舶數(shù)量,艘;為航路2中第j類船舶數(shù)量,艘;為船舶的相對速度,為對遇條件下船舶發(fā)生碰撞事故的概率,其計算為
思維智能體就是具備決策與自主學(xué)習(xí)的能力,完成態(tài)勢評估和威脅估計,根據(jù)作戰(zhàn)條件和武器性能進(jìn)行武器-目標(biāo)分配,進(jìn)行機(jī)動攻擊、規(guī)避、干擾等戰(zhàn)術(shù)決策.行為智能體就是在思維智能體決策基礎(chǔ)上,進(jìn)行綜合控制.通過綜合控制完成探測系統(tǒng)、火控系統(tǒng)、武器系統(tǒng)的管理與控制,實(shí)現(xiàn)目標(biāo)搜索與跟蹤、機(jī)動規(guī)避與攻擊等飛行操控.
因此,空戰(zhàn)智能體是源于有人的,就是從空戰(zhàn)訓(xùn)練海量飛行參數(shù)中提煉飛行作戰(zhàn)經(jīng)驗(yàn),為無人作戰(zhàn)飛機(jī)使用,但是它也是別于有人的,一個是它具有自主學(xué)習(xí)能力,通過機(jī)器學(xué)習(xí)技術(shù),可以添加新的戰(zhàn)術(shù)動作.第二是因?yàn)閁CAV沒有生理和心理的限制,并且機(jī)動能力可以達(dá)到幾十個G的過載,而有人機(jī)的飛行員最多就在5G~8G,這使得空戰(zhàn)智能體也有可能高于有人.
飛行員與虛擬飛行員的能力比較如表1所示:
表1 飛行員與虛擬飛行員能力對比
UCAV智能自主空戰(zhàn)技術(shù)要回答如何構(gòu)建學(xué)習(xí)機(jī)制,如何進(jìn)行決策思維,如何實(shí)現(xiàn)行為控制3個問題.主要有4個方面的關(guān)鍵技術(shù):1)飛行員空戰(zhàn)知識的表示與機(jī)器學(xué)習(xí)機(jī)理研究;2)虛擬飛行員空戰(zhàn)智能決策機(jī)制研究;3)自主空戰(zhàn)軌跡規(guī)劃與火/飛耦合控制原理研究;4)自主空戰(zhàn)科學(xué)試驗(yàn)與驗(yàn)證方法的研究.下面分別進(jìn)行介紹.
1)怎么從海量的數(shù)據(jù)中獲取飛行員空戰(zhàn)知識并以計算機(jī)能理解的形式表示;如何進(jìn)行建模和學(xué)習(xí)是“虛擬飛行員”系統(tǒng)構(gòu)建的關(guān)鍵.通過學(xué)習(xí)優(yōu)秀飛行員的戰(zhàn)術(shù)動作,提煉出一定的戰(zhàn)術(shù)動作庫.
在完備信息情況下,從戰(zhàn)術(shù)動作庫里進(jìn)行檢索,獲取戰(zhàn)術(shù)動作;在不完備信息的條件下,進(jìn)行戰(zhàn)術(shù)規(guī)則的推理.還有空戰(zhàn)閱歷豐富,為各層次知識的獲取提供相應(yīng)的知識和規(guī)則,積累閱歷.飛行員通過不斷的飛行來積累閱歷,虛擬飛行員也可以.
2)虛擬飛行員空戰(zhàn)智能決策機(jī)制的研究,形成思維智能體在空戰(zhàn)過程中實(shí)時對空戰(zhàn)態(tài)勢的變化,進(jìn)行“進(jìn)攻-規(guī)避”角色的智能切換.空戰(zhàn)過程中要通過各種戰(zhàn)術(shù)機(jī)動,來達(dá)到消滅敵人,保護(hù)自己的目的.對于有人機(jī)來說,消滅敵人和保護(hù)自己的比重基本上是50%:50%,但是對UCAV來說不是這樣,90%的目的消滅敵人,10%保護(hù)自己,這個理念在我們作戰(zhàn)指揮的時候發(fā)生了變化.
另外,要實(shí)行空戰(zhàn),必須知道敵人想干什么,所以要從信息中提取事件,進(jìn)行任務(wù)推理,目標(biāo)意圖識別,從而進(jìn)行態(tài)勢評估.通過獲取戰(zhàn)場信息,雙方的平臺和武器信息,目標(biāo)的狀態(tài)和屬性,來進(jìn)行處理,得出敵方的意圖,敵方要打擊的目標(biāo)和敵方對我的威脅等級進(jìn)行評估.有了態(tài)勢評估、威脅評估以及我方的飛機(jī)和機(jī)載武器性能,然后從戰(zhàn)術(shù)動作庫中提取戰(zhàn)術(shù)動作,進(jìn)行戰(zhàn)術(shù)決策.
3)按照決策-規(guī)劃-控制的思路,將自主空戰(zhàn)的過程中劃分成四個層次即:戰(zhàn)術(shù)決策層,行為決策層,行為規(guī)劃層和行為控制層.
4)進(jìn)行自主空戰(zhàn)科學(xué)實(shí)驗(yàn)和驗(yàn)證.通過構(gòu)建自主空戰(zhàn)仿真系統(tǒng),在這個系統(tǒng)上無人機(jī)能跟有人機(jī)對抗,不斷積累空戰(zhàn)經(jīng)驗(yàn),豐富空戰(zhàn)的戰(zhàn)術(shù)動作庫.無人機(jī)跟無人機(jī)對抗,創(chuàng)新一些戰(zhàn)術(shù)戰(zhàn)法.從而達(dá)到對UCAV自主空戰(zhàn)關(guān)鍵技術(shù)進(jìn)行實(shí)驗(yàn)驗(yàn)證.
在計算機(jī)環(huán)境下進(jìn)行模擬仿真驗(yàn)證的基礎(chǔ)上,UCAV智能自主空戰(zhàn)技術(shù)還需要在半實(shí)物和實(shí)物條件下驗(yàn)證其技術(shù)成熟度.下面進(jìn)行簡要介紹.
研制自主空戰(zhàn)原理驗(yàn)證樣機(jī),通過飛行實(shí)驗(yàn)驗(yàn)證虛擬飛行員自主空戰(zhàn)關(guān)鍵理論與方法.現(xiàn)在UCAV作戰(zhàn)都是人在回路中操控進(jìn)行攻擊,通過人在回路中操控一架UCAV與虛擬飛行員控制一架UCAV進(jìn)行空戰(zhàn)對抗.當(dāng)然,空戰(zhàn)對抗需要實(shí)時交互空戰(zhàn)態(tài)勢信息,我們研制的無人機(jī)因?yàn)樾⌒突仍虿痪邆渫耆膽B(tài)勢信息感知能力,我們主要對獲得空戰(zhàn)雙方彼此態(tài)勢以后對目標(biāo)意圖進(jìn)行識別,對目標(biāo)進(jìn)行攻擊這個過程進(jìn)行驗(yàn)證.
影響UCAV空戰(zhàn)的因素主要有空戰(zhàn)的方法、武器的引導(dǎo)方式和UCAV的功能.空戰(zhàn)主要有3種模式:遠(yuǎn)距發(fā)射、中距攔截和近距格斗.遠(yuǎn)距發(fā)射的導(dǎo)引方式是武器鏈導(dǎo)引,UCAV的功能是占位和發(fā)射,它的空戰(zhàn)特征是非敏捷、非精確的,我們定義為自主空戰(zhàn)一級.中距攔截的引導(dǎo)方式是指令導(dǎo)引,UCAV的功能是占位發(fā)射加導(dǎo)引,它的空戰(zhàn)特征是非敏捷和精確,定義為二級.近距格斗采用導(dǎo)彈自尋的方式,UCAV是機(jī)動占位進(jìn)行發(fā)射,它的空戰(zhàn)特征是敏捷和精確,我們把它定義為三級.通過仿真和飛行實(shí)驗(yàn)考核逐級驗(yàn)證UCAV自主空戰(zhàn)的能力.
自主空戰(zhàn)是無人作戰(zhàn)飛機(jī)作戰(zhàn)的發(fā)展趨勢,人工智能方法是實(shí)現(xiàn)自主空戰(zhàn)的有效途徑.通過凝練飛行員的空戰(zhàn)經(jīng)驗(yàn)為無人作戰(zhàn)飛機(jī)自主空戰(zhàn)所用是可行的研究思路.無人作戰(zhàn)飛機(jī),現(xiàn)在還是由人類“纖著繩的風(fēng)箏”,還是由人在回路中進(jìn)行操控的.我們力圖借鑒“阿法狗”的研究思路和理念,讓制空型無人機(jī)成為智能自主的“阿法鷹”,讓我國無人作戰(zhàn)飛機(jī)“鷹擊長空”.