孟光磊,羅元強,梁 宵,徐一民
(1.沈陽航空航天大學(xué),遼寧 沈陽 110136;2.西北工業(yè)大學(xué),陜西 西安 710129)
?
基于動態(tài)貝葉斯網(wǎng)絡(luò)的空戰(zhàn)決策方法
孟光磊1,羅元強1,梁 宵1,徐一民2
(1.沈陽航空航天大學(xué),遼寧 沈陽 110136;2.西北工業(yè)大學(xué),陜西 西安 710129)
針對無人機高強度空戰(zhàn)對抗問題,開展智能決策方法研究。分析了目前無人機空戰(zhàn)決策方法的研究進展,總結(jié)了影響空戰(zhàn)決策方法適用性的主要原因。針對空戰(zhàn)決策的實時性和不依賴飛機運動學(xué)模型的需求,提出了基于DBN的無人機空戰(zhàn)決策模型。綜合分析無人機可以獲得的機載傳感器和情報信息,從中提取出影響無人機機動決策結(jié)果的態(tài)勢因素,依據(jù)各因素間的因果關(guān)系,建立了無人機空戰(zhàn)決策模型的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。闡述了網(wǎng)絡(luò)模型有向弧條件概率表、決策節(jié)點狀態(tài)轉(zhuǎn)移概率的設(shè)計思路。設(shè)計了網(wǎng)絡(luò)決策模型的前向遞歸推理算法,并進行了算法復(fù)雜度分析,分析表明算法時間復(fù)雜度在可接受的范圍內(nèi),能夠滿足工程應(yīng)用的要求。最后,開展典型戰(zhàn)場態(tài)勢下的單機對抗仿真實驗。仿真結(jié)果驗證了決策網(wǎng)絡(luò)的適用性以及推理算法的收斂性和實時性,表明動態(tài)貝葉斯網(wǎng)絡(luò)空戰(zhàn)決策模型提高了無人機機動決策的有效性和靈活性。
無人機;空戰(zhàn)決策方法;DBN;前向遞歸推理算法;概率推理
近年來,無人機在軍事領(lǐng)域的應(yīng)用,受到研究人員較多關(guān)注。目前,學(xué)者們提出了多種應(yīng)用于空戰(zhàn)決策的方法。文獻[1]在假設(shè)飛機運動學(xué)模型已知的基礎(chǔ)上,建立了無人機追逃的微分對策模型,并進行了對抗仿真。文獻[2]開展了基于智能微分對策的自主機動決策方法研究,通過預(yù)測對抗雙方的運動狀態(tài),將雙邊極值問題轉(zhuǎn)化為單邊極值問題, 從而能夠?qū)諔?zhàn)對抗過程中的機動決策進行求解。文獻[3]提出了一種基于評分函數(shù)矩陣的微分對策方法,并將該方法用于解決空戰(zhàn)過程中的機動決策問題?;谖⒎謱Σ咔蠼饪諔?zhàn)決策問題的方法存在一個共同特點,即假設(shè)雙方戰(zhàn)機在博弈環(huán)境中的運動學(xué)模型已知,才能求得戰(zhàn)機運動的優(yōu)化解決方案。文獻[4]提出采用滾動時域方法預(yù)測空戰(zhàn)態(tài)勢在未來一段時間內(nèi)變化,在此基礎(chǔ)上采用最優(yōu)控制方法求解能使無人機獲得最大攻擊優(yōu)勢的控制序列。文獻[5]提出基于MTPM和DPM的多無人機協(xié)同滾動時域決策方法,用于解決多機協(xié)同決策問題。上述滾動時域方法通過預(yù)測敵機運動軌跡,對未來的博弈態(tài)勢進行預(yù)判,作為己方機動決策的依據(jù),是讓無人機在將來一段時間取得空間占位優(yōu)勢的有效策略。提高預(yù)測的準確度是提升這類決策方法有效性的關(guān)鍵。文獻[6-7]在影響圖的理論基礎(chǔ)上進行不確定性空戰(zhàn)機動決策建模,但考慮的因素較少,沒有通過全局態(tài)勢觀測數(shù)據(jù)構(gòu)建決策模型。文獻[8]提出了近似動態(tài)規(guī)劃空戰(zhàn)決策方法,先對空戰(zhàn)對抗結(jié)果進行離線學(xué)習(xí),然后根據(jù)學(xué)習(xí)結(jié)果進行在線決策,解決了空戰(zhàn)決策的實時性問題。上述研究從人工智能角度對空戰(zhàn)過程機動規(guī)劃問題進行了有益的探索,為未來空戰(zhàn)決策系統(tǒng)在工程上的實現(xiàn)提供了理論方面的參考。
戰(zhàn)機飛行員在空戰(zhàn)過程中,通過綜合分析各類傳感器中獲取的戰(zhàn)場信息,通過層級化的邏輯推斷得到關(guān)于戰(zhàn)場態(tài)勢的評判,做出有利于己方的機動決策結(jié)果。本文通過一種模擬飛行員思維方式的新視角解決空戰(zhàn)決策問題,采用動態(tài)貝葉斯網(wǎng)構(gòu)建無人機機動決策模型,使用條件概率描述各個態(tài)勢因素間的因果關(guān)系。仿真結(jié)果表明采用概率關(guān)系描述空戰(zhàn)決策模型,能夠?qū)崿F(xiàn)在不依賴飛機運動學(xué)模型的情況下進行有效的空戰(zhàn)決策,具備較好的實時性和環(huán)境適應(yīng)性,能夠滿足工程應(yīng)用的需求。
動態(tài)貝葉斯網(wǎng)絡(luò)克服了基于規(guī)則的系統(tǒng)在時間依賴表達和計算上的困難,采用概率分布描述因果關(guān)系,具有強大的不確定性問題處理能力。基于貝葉斯網(wǎng)絡(luò)的特點和決策系統(tǒng)應(yīng)用上的優(yōu)勢,建立了基于DBN的單機對抗空戰(zhàn)決策模型。
戰(zhàn)場態(tài)勢信息是空戰(zhàn)決策的依據(jù),綜合分析無人機可以獲得的機載傳感器和情報信息,作為單機對抗決策模型的觀測節(jié)點,其狀態(tài)集定義如表1所示。
表1 觀測節(jié)點狀態(tài)集定義
觀測節(jié)點中ATA 和TAE描述的是無人機和目標間的方位關(guān)系,如圖1所示。
圖1 目標和無人機間的相對幾何關(guān)系
考慮空戰(zhàn)決策的合理性,為減小計算負荷,以紅方無人機位置為坐標原點,對ATA的取值進行離散化,如圖2所示。TAE反映了敵機對我機的探測能力以及相對運動趨勢,是態(tài)勢評估的重要證據(jù)信息,以藍機位置為坐標原點,其取值空間劃分如圖3所示。
圖2 ATA取值空間劃分
圖3 TAE取值空間劃分
提取出對決策起關(guān)鍵作用的環(huán)境特征,作為決策模型網(wǎng)絡(luò)的中間節(jié)點,定義如表2所示。中間節(jié)點作為信息推理的中間層,將觀測節(jié)點與根節(jié)點通過有向弧聯(lián)結(jié)起來,對觀測信息做出響應(yīng)。其中,TB綜合目標方位和高度反映了目標所在的空間區(qū)域;TSD在TB的基礎(chǔ)上又考慮了目標與無人機的距離因素;TSS在TSD的基礎(chǔ)上增加了對于敵我接近速度的考量;EDP結(jié)合目標距離、方位和敵我雷達相對性能對目標探測性能進行評估;TIN反映了對抗過程中雙方的信息態(tài)勢,是對目標探測性能和無人機雷達探測結(jié)果的綜合比較結(jié)果;WS反映了無人機配置導(dǎo)彈相對于目標的射程優(yōu)勢;SDF是綜合態(tài)勢評估結(jié)果,反映了無人機的占位優(yōu)勢和攻擊條件準備情況。SDF評估所用到的集合BS中FR、FL、RS、LS、BR、BL分別表示右前方、左前方、右側(cè)方、左側(cè)方、右后方、左后方;集合ATC中AT、UAT、UAC分別表示具備攻擊條件、暫不具備攻擊條件、無可用彈藥。
表2 中間節(jié)點狀態(tài)集定義
單機對抗決策模型的輸出是無人機選擇執(zhí)行的機動動作, 選取18種飛機典型的基本機動動作為決策節(jié)點的狀態(tài)集,定義如表3所示。
分析空戰(zhàn)決策信息間的因果關(guān)系,建立基于DBN的單機對抗空戰(zhàn)決策模型,如圖4所示。網(wǎng)絡(luò)模型由20個節(jié)點組成,其中包括1個決策節(jié)點,12個觀測節(jié)點以及7個中間節(jié)點。網(wǎng)絡(luò)節(jié)點間通過有向弧聯(lián)結(jié),彼此間的依賴程度由對應(yīng)的條件概率表CPT(Condition Probability Table)決定。DBN網(wǎng)絡(luò)節(jié)點可以在時間上產(chǎn)生相互聯(lián)系,為提高決策結(jié)果的收斂速度,空戰(zhàn)決策網(wǎng)絡(luò)前后兩個時刻的決策節(jié)點通過狀態(tài)轉(zhuǎn)移概率有向弧聯(lián)結(jié),網(wǎng)絡(luò)根據(jù)前一時刻的推理結(jié)果與當前時刻的證據(jù)信息更新決策節(jié)點的概率分布。根據(jù)動態(tài)貝葉斯網(wǎng)絡(luò)的性質(zhì),CPT和狀態(tài)轉(zhuǎn)移概率可以根據(jù)先驗知識設(shè)定,具備使用客觀數(shù)據(jù)進行學(xué)習(xí)的擴展性。為驗證基于DBN的空戰(zhàn)決策網(wǎng)絡(luò)的可行性,本文根據(jù)空戰(zhàn)仿真經(jīng)驗對網(wǎng)絡(luò)參數(shù)進行設(shè)定??諔?zhàn)決策網(wǎng)絡(luò)模型推理過程自底向上,逐層提取戰(zhàn)場特征,網(wǎng)絡(luò)參數(shù)的設(shè)定要保證決策模型有效準確地進行特征提取。每條有向弧的條件概率表對應(yīng)一個條件概率矩陣,矩陣的行列維數(shù)由有向弧父節(jié)點和子節(jié)點的狀態(tài)集維數(shù)確定。條件概率矩陣中每一個元素的取值根據(jù)子節(jié)點各狀態(tài)對父節(jié)點狀態(tài)的影響程度決定。狀態(tài)轉(zhuǎn)移概率矩陣描述了當前機動決策狀態(tài)在下一時刻轉(zhuǎn)移到另一機動決策狀態(tài)的可能性,其概率集中分布在矩陣對角線上,根據(jù)各機動決策狀態(tài)向其它機動決策狀態(tài)轉(zhuǎn)移的可能性進行狀態(tài)轉(zhuǎn)移概率設(shè)定。
表3 決策節(jié)點狀態(tài)集定義
根據(jù)單機對抗決策DBN模型,決策推理可表示為在當前觀測節(jié)點和上一時刻決策結(jié)果條件下求解當前決策節(jié)點的條件概率分布。采用前向遞歸推理算法進行決策模型推理,算法設(shè)計基于如下定理。
圖4 單機對抗空戰(zhàn)決策DBN模型
貝葉斯定理:貝葉斯定理是關(guān)于隨機事件A和B的條件概率,對于隨機事件A和B,在事件B發(fā)生的情況下事件A發(fā)生的概率可表述為
鏈式規(guī)則:鏈式規(guī)則推理是直接利用貝葉斯規(guī)則與鏈中的條件獨立性假設(shè)展開進行推理。例如在鏈式網(wǎng)絡(luò)A→B→C中,根據(jù)鏈式規(guī)則有
2.1 前向遞歸推理算法
單機對抗決策DBN模型為標準HMM(Hidden Markov Model)模型,有濾波、預(yù)測以及平滑三種推理方式,本文采用的是濾波推理,其推理過程為:
P(DRt|e1:t)=αP(et|DRt)·
(1)
其中,α為歸一化因子,et為t時刻從觀測節(jié)點采集的證據(jù)信息集合,DRt為t時刻根節(jié)點取值。算法實現(xiàn)的具體步驟如下。
Step1初始化網(wǎng)絡(luò)節(jié)點的狀態(tài)集維數(shù),加載先驗分布、條件概率分布和狀態(tài)轉(zhuǎn)移概率。設(shè)定網(wǎng)絡(luò)推理周期的迭代次數(shù)為n。Step2根據(jù)鏈式規(guī)則和條件獨立性假設(shè),依據(jù)從觀測節(jié)點采集到的當前證據(jù)信息計算決策節(jié)點分布P(DRt|et)。Step3依據(jù)貝葉斯定理,使用P(DRt|et)計算條件概率分布P(et|DRt)。Step4根據(jù)P(et|DRt)、狀態(tài)轉(zhuǎn)移概率P(DRt|DRt-1)和上一時刻迭代推理結(jié)果P(DRt-1|e1:t-1),由式(1)計算累積證據(jù)信息下的決策節(jié)點概率分布P(DRt|e1:t),完成一次迭代推理。Step5記錄迭代次數(shù),并保存P(DRt|e1:t),以備更新下一時刻決策節(jié)點的推理結(jié)果。Step6判斷是否完成n次遞歸推理,若未完成轉(zhuǎn)至Step2,否則轉(zhuǎn)至Step7。Step7輸出DR節(jié)點中概率最大的機動決策結(jié)果,重置網(wǎng)絡(luò),重復(fù)執(zhí)行Step1到Step7。
對于Step2中P(DRt|et)的計算,根據(jù)鏈式規(guī)則和條件獨立性假設(shè)將全局網(wǎng)絡(luò)展開有:
P(DRt|et)=P(DRt|ATAt,RHt,…,MCt,TSt,SFCt) =P(DRt|ATAt)P(DRt|RHt)P(DRt|TDt)P(DRt|RSPt)P(DRt|TAEt) P(DRt|TDRt)P(DRt|WDt)P(DRt|WRt)P(DRt|MCt)P(DRt|TSt)P(DRt|SFCt)
(2)
式(2)中從各觀測節(jié)點到?jīng)Q策節(jié)點的對應(yīng)鏈路條件概率計算過程相似,以P(DRt|ATAt)計算為例,根據(jù)貝葉斯定理和鏈式規(guī)則,結(jié)合網(wǎng)絡(luò)模型拓撲結(jié)構(gòu)可得:
(3)
將全部觀測節(jié)點到?jīng)Q策節(jié)點的對應(yīng)鏈路條件概率計算結(jié)果代入公式(2),計算得到P(DRt|et)。
(4)
其中P(DRt|et)是Step2的計算結(jié)果。
在執(zhí)行Step 4時,根據(jù)公式(1)使用Step 3計算結(jié)果計算累積證據(jù)信息下的決策節(jié)點概率分布,完成一次迭代推理:
(5)
其中,P(DRt|DRt-1)為狀態(tài)轉(zhuǎn)移概率,P(DRt-1|e1:t-1)是前一時刻的決策推理結(jié)果。
完成Step 5~Step 7,實現(xiàn)n次迭代遞歸推理后,輸出DR節(jié)點中分布概率最大的機動決策結(jié)果。
2.2 算法復(fù)雜度分析
根據(jù)各鏈路推理過程以及網(wǎng)絡(luò)節(jié)點狀態(tài)數(shù)量進行算法復(fù)雜度分析。從各觀測節(jié)點到?jīng)Q策節(jié)點的對應(yīng)鏈路條件概率計算所需的乘法、加法、除法次數(shù)如表4所示。
表4 各條鏈路算法復(fù)雜度
分析算法的復(fù)雜度可知,算法完成一次迭代需要執(zhí)行乘法82512次,加法41256次,除法41256次。當?shù)螖?shù)n取10時,以主頻2.8GHz處理器為例,可以在10ms內(nèi)完成一個決策推理周期計算, 能夠滿足空戰(zhàn)決策的實時性需求。
為驗證單機對抗DBN決策模型的有效性,在高強度空戰(zhàn)態(tài)勢下進行了仿真分析。紅方根據(jù)DBN決策模型的輸出進行自主機動決策,藍方在操縱桿的控制下作任意機動飛行。在仿真過程中,為保證對抗的公平性,并測試決策模型的性能,空戰(zhàn)雙方采用相同動力學(xué)模型仿真,確保雙方機動能力相同。同時假設(shè)雙方信息獲取能力和電子戰(zhàn)能力相同,且具有相同的武器配置,并保證彈藥充足。在這種極限條件情況下驗證機動決策網(wǎng)絡(luò)對高強度空戰(zhàn)環(huán)境的適應(yīng)能力。表5為紅藍雙方的初始狀態(tài)信息。初始狀態(tài)一旦設(shè)定,對抗雙方則進入自由空戰(zhàn),對抗雙方將進入持續(xù)纏斗直到任意一方構(gòu)成攻擊條件。纏斗過程中,載機只有在無可用彈藥的條件下才會退出戰(zhàn)斗,否則將不斷進行機動飛行以構(gòu)成攻擊條件。
表5 初始態(tài)勢信息
圖5為在決策結(jié)果的引導(dǎo)下紅方飛機與藍方飛機的對抗軌跡。紅方飛機在決策信息的引導(dǎo)下依次進行右盤旋急轉(zhuǎn)機動(動作號10)、左轉(zhuǎn)爬升機動(動作號16)以及右轉(zhuǎn)機動(動作號6),成功占據(jù)了藍機后方的有利攻擊位置。圖6為DBN決策模型在每個推理周期輸出的紅方飛機機動動作序號。圖中標記的轉(zhuǎn)折點對應(yīng)的橫坐標是紅機機動動作的切換時刻。
圖5 對抗飛行軌跡
圖6 DBN決策模型輸出
圖7-圖8為圖6中各轉(zhuǎn)折點前后兩個推理周期決策節(jié)點狀態(tài)概率分布輸出,其中一個推理周期進行10次迭代。從圖8中可以看出,在轉(zhuǎn)折點1前決策結(jié)果為10號機動動作(右盤旋急轉(zhuǎn)機動),其對應(yīng)概率隨著迭代進行從0.182遞增收斂到0.9943;隨著態(tài)勢改變決策結(jié)果切換為16號機動動作(右轉(zhuǎn)爬升機動),其概率隨著迭代進行從0.2113遞增收斂到0.9874。轉(zhuǎn)折點2處的決策節(jié)點概率分布結(jié)果(圖8)也表明網(wǎng)絡(luò)在觀測信息的激勵下利用前向遞歸推理算法進行10次迭代后,決策節(jié)點概率向合理的機動決策結(jié)果收斂。
圖7 轉(zhuǎn)折點1概率分布圖
圖8 轉(zhuǎn)折點2概率分布
為了模擬空戰(zhàn)過程中飛行員的決策思維,從人腦思維習(xí)慣角度解決空戰(zhàn)決策問題,實現(xiàn)在不依賴于飛機運動學(xué)模型的條件下進行有效的空戰(zhàn)決策,本文提出了一種基于DBN的空戰(zhàn)決策方法。仿真結(jié)果表明,基于DBN的空戰(zhàn)決策方法使無人機能較好地適應(yīng)戰(zhàn)場環(huán)境,可以引導(dǎo)無人機進行有效的自主決策,提高了無人機機動決策的靈活性和有效性。而且,決策網(wǎng)絡(luò)表現(xiàn)出較快的收斂速度,實時性能夠滿足工程應(yīng)用需求??諔?zhàn)對抗環(huán)境日趨復(fù)雜,尤其在復(fù)雜電磁環(huán)境中,存在諸多干擾,如何保證決策的可靠性、客觀性至關(guān)重要。根據(jù)動態(tài)貝葉斯網(wǎng)絡(luò)的性質(zhì),其網(wǎng)絡(luò)參數(shù)可以根據(jù)先驗知識設(shè)定,也具備使用客觀數(shù)據(jù)進行學(xué)習(xí)的擴展性。未來將研究根據(jù)仿真對抗結(jié)果進行網(wǎng)絡(luò)參數(shù)學(xué)習(xí)
的方法,使得決策模型能夠更好地擬合實際戰(zhàn)場環(huán)境。
[1] 車競,鄭鳳麒. 基于微分對策的追逃對抗仿真[J]. 飛行力學(xué), 2014, 32(4): 372-375.
[2] 鐘友武,楊凌宇,柳嘉潤,等. 基于智能微分對策的自主機動決策方法研究[J]. 飛行力學(xué), 2008, 26(6): 29-33.
[3] Park Hyunju,Lee Byung-Yoon, Tahk Min-Jea. Differential Game Based Air Combat Maneuver Generation Using Scoring Function Matrix [J]. International Journal of Aeronautical and Space Sciences, 2016, 17(2)204-213.
[4] 傅莉,謝福懷,孟光磊. 基于滾動時域的無人機空戰(zhàn)決策專家系統(tǒng)[J]. 北京航空航天大學(xué)學(xué)報, 2015, 41(11):1994-1999.
[5] 沈東,魏瑞軒,祁曉明,等. 基于MTPM和DPM的多無人機協(xié)同廣域目標搜索滾動時域決策[J].自動化學(xué)報,2014, 40(7):1391-1403.
[6] Virtanen K., Raivio T. Modeling pilot’s sequential maneuvering decisions by a multistage influence diagram[J]. Journal of Guidance, Control, and Dynamics,2004, 27(4):665-677.
[7] Zhong Lin., Tong Ming an, Zhong Wei. Sequential maneuvering decisions based on multi-stage influence diagram in air combat [J]. Journal of Systems Engineering and Electronics, 2007, 18(3):551-555.
[8] James S, McGrew, Jonathan P, How. Air-Combat Strategy Using Approximate Dynamic Programming[D]. Journal of Guidance, Control and Dynamics, 2010,33(5): 128-136.
Air Combat Decision-making Method Based on Dynamic Bayesian Network
MENG Guang-lei1, LUO Yuan-qiang1, LIANG Xiao1, XU Yi-min2
(1.Shenyang Aerospace University, Shenyang 110136;(2.Northwestern Polytechnical University, Xi’an 710129, China)
The decision-making method is studied for high-intensity UAV air combat in this paper. The present research progress of the UAV air combat decision method is analyzed. And the main reasons that influence the applicability of the decision method are summarized. For real-time, fault-tolerance, and not relying accurate mathematical model of aircraft requirements, a decision-making model based on DBN is proposed for one-to-one UAV air combat. By synthetically analyzing the information that can be obtained from the airborne sensors and intelligence, the situational factors affecting UAV’s maneuver decisions are extracted and the DBN topology structure is constructed. The design ideas of the directed-arc conditional probability table and decision node state transition probability table of the network model are illustrated. The forward recursive reasoning algorithm for decision-making network model is designed and the algorithm complexity is analyzed. The analysis result indicates that the time and special complexity of the algorithm is acceptable, which could satisfy the requirement of engineering application. Finally, the simulation results verify the practicability of the decision network, and prove the convergence, real-time performance of the reasoning algorithm, the adaptability of network model. The results indicate that Air combat decision model improving the flexibility and validity of the UAV’s maneuver decision.
UAV; air combat decision-making method; DBN; the forward recursive reasoning algorithm; probabilistic inference
2017-03-21
孟光磊(1982-),男,遼寧沈陽人,博士,副教授,研究方向為無人機空戰(zhàn)決策。 羅元強(1992-),男,碩士。 梁 宵(1984-),男,博士,副教授。 徐一民(1996-),男,本科。
1673-3819(2017)03-0049-06
TJ85;E926.391
A
10.3969/j.issn.1673-3819.2017.03.011
修回日期: 2017-04-10