馬 亮,郭力強,張 會,楊 靜,劉 劍
(海軍潛艇學(xué)院,山東 青島,266199)
隨著裝備技術(shù)和軍事應(yīng)用的高速發(fā)展,無人水下航行器(unmanned undersea vehicle,UUV)已經(jīng)成為水下攻防作戰(zhàn)體系中的重要組成部分,正在推動水下作戰(zhàn)形態(tài)由以有人為主導(dǎo)向有人/無人相結(jié)合的方向發(fā)展。從作戰(zhàn)概念看,無人系統(tǒng)集群作戰(zhàn)、跨域協(xié)同作戰(zhàn)[1-2]等新型作戰(zhàn)樣式相繼產(chǎn)生;從作戰(zhàn)任務(wù)看,無人平臺任務(wù)領(lǐng)域開始由保障向主戰(zhàn)擴展;從作戰(zhàn)主體看,無人平臺逐步代替部分有人平臺成為影響戰(zhàn)爭的重要力量[3]。美國智庫在The emerging era in undersea warfare[4]研究報告中指出,未來水下作戰(zhàn)樣式將向潛艇/無人平臺體系化方向發(fā)展,潛艇需要從類似于飛機的前沿戰(zhàn)術(shù)平臺逐步轉(zhuǎn)變?yōu)轭愃朴诤侥傅膮f(xié)同平臺。
無人裝備的自主技術(shù)是當前最具活力的前沿技術(shù)領(lǐng)域,提高決策的智能化程度是UUV 發(fā)展的必然趨勢[5-6]。魚雷攻擊決策是UUV 遂行攻擊任務(wù)的重要環(huán)節(jié),也是無人裝備形成自組織跨域協(xié)同、自主集群對抗等作戰(zhàn)能力的前提和基礎(chǔ)。作為武器化的無人平臺,UUV 的魚雷攻擊決策需要依靠平臺自主完成,對其行為建模與智能決策方法提出一系列新的挑戰(zhàn)和需求。如果仍然沿用有人平臺魚雷攻擊決策的方法,將不能充分發(fā)揮無人平臺的作戰(zhàn)潛能。因此,迫切需要根據(jù)UUV 裝備的作戰(zhàn)運用特點和任務(wù)樣式,著眼水下特殊的戰(zhàn)場環(huán)境,研究能夠滿足其魚雷攻擊決策需求的智能決策方法。
現(xiàn)役的軍用UUV 以大型或超大型為主,如“海神”雙模式UUV、“曼塔”巨型UUV、“虎鯨”超大型UUV 等。該類航行器排水量一般不小于5 t,自持能力超強,自主化程度高,能夠靈活配置傳感器和任務(wù)模塊,具備載荷投送、情報搜集、反水雷、水聲誘騙、警戒監(jiān)視、反潛跟蹤、保障支援和智能打擊等先進作戰(zhàn)能力力[7-8]。
與有人平臺相比,UUV 可利用其作戰(zhàn)范圍廣闊、運用方式靈活、隱蔽滲透能力強、生產(chǎn)成本相對低以及使用風(fēng)險小等特點[9],在水下作戰(zhàn)信息網(wǎng)絡(luò)的支撐下,通過單獨或集群運用、與水下有人平臺的一體化運用,實現(xiàn)對源頭、近海和近岸等重要區(qū)域水下空間的有效控制。
在有人平臺難以到達的源頭海域?qū)Τ龈蹪撏嵤┐驌?。可將多個不同類型的UUV 組成移動式水下無人集群[10],按規(guī)劃航路航渡至對方港口基地附近,由偵察型UUV 編組前出進行態(tài)勢偵察,掌握敵潛艇動向后,將目標信息反饋給指揮型UUV或岸基指揮中心。UUV 編組可通過水聲通信或隱蔽浮起利用衛(wèi)星通信,根據(jù)指揮型UUV 或岸基指揮中心的指令,對目標實施自主多向攻擊。
在潛艇活動密集的近海海域進行隱蔽待機或機動搜索,伺機突襲或引導(dǎo)其他兵力遠程打擊。在已知對方可能機動的重要航道附近,由母艇將多個UUV 預(yù)先部署于航道上的指定陣位點蟄伏待機或機動搜索。UUV 可以在一定深度低速巡航,定期上浮進行定位、傳輸信息和接受指令,也可以按規(guī)劃航路自主進行搜索探測。發(fā)現(xiàn)目標后,可聽令自主攻擊,也可以通過信息傳輸,引導(dǎo)母艇或其他水下兵力實施火力打擊[11]。
在近岸海域與水下固定監(jiān)聽設(shè)備執(zhí)行重要港口基地和航道周邊海域的常態(tài)化警戒任務(wù),增強近岸海域防御作戰(zhàn)能力。敵高性能潛艇和UUV可能長期隱蔽部署于近岸海域,企圖對出港艦艇實施探測搜索和跟蹤。可采用多個UUV 進行長航時的水下自主巡邏,與水下固定監(jiān)聽設(shè)備組成移動式探測網(wǎng)絡(luò),形成具有一定寬度和縱深的威脅拒止區(qū)域,打擊或有效遲滯敵水下兵力,防范其對我實施的偵察和破壞行動,提高近岸海域水下反潛警戒效率。
傳統(tǒng)魚雷攻擊決策包括攻擊方式、雷種和制導(dǎo)方式、射擊陣位和占位方案等內(nèi)容,涉及目標性質(zhì)判斷、戰(zhàn)場態(tài)勢感知、海區(qū)情報獲取以及目標運動要素解算等必要前提[12-13]。通過對UUV 作戰(zhàn)運用特點和反潛任務(wù)樣式分析可知,相比于有人平臺,UUV 在隱蔽性、靈活性以及作戰(zhàn)風(fēng)險方面具有明顯優(yōu)勢,同時在探測能力、攜帶載荷數(shù)量和指揮控制等方面存在差距,使得UUV 魚雷攻擊決策的內(nèi)容和相關(guān)環(huán)節(jié)產(chǎn)生了一些新的變化。
有人平臺通常是依據(jù)戰(zhàn)術(shù)緊迫程度,將魚雷攻擊分為正常攻擊和緊急攻擊2 種情況。一般來講,當判斷目標距離比較近,對本平臺威脅程度較高,則不得不縮短武器發(fā)射準備時間,以降低目標運動要素解算精度為代價,采用緊急攻擊方式,并視情實施機動規(guī)避。相反,如果目標距離較遠或不足以對本艇構(gòu)成威脅時,采用正常攻擊方式,以對目標類型、目標運動態(tài)勢等必要條件進行準確的判斷和觀測,并占領(lǐng)有利發(fā)射陣位進行武器發(fā)射。
對UUV 而言,由于其相對成本低、作戰(zhàn)使用風(fēng)險低,作戰(zhàn)運用樣式以陣地伏擊和機動巡殲為主,在通常情況下目標威脅和戰(zhàn)術(shù)緊迫程度不高,因此在攻擊方式選擇上應(yīng)以正常攻擊方式以主,為達到魚雷攻擊效果做好充分準備。
對于攜帶多種型號魚雷的有人平臺而言,通常是根據(jù)目標性質(zhì)和戰(zhàn)場態(tài)勢研判結(jié)果,綜合分析平臺所裝載魚雷的戰(zhàn)技術(shù)性能、制導(dǎo)方式以及作戰(zhàn)使用方式和條件等因素,對魚雷雷種和制導(dǎo)方式進行選擇。
UUV 體積較小,自身探測能力相對有限,目前的技術(shù)難以實現(xiàn)像有人平臺那樣操控線導(dǎo)魚雷進行射擊。因此,在執(zhí)行對潛攻擊任務(wù)中,應(yīng)以性能高、能夠?qū)嵤┲鞅粍勇?lián)合制導(dǎo)方式的聲自導(dǎo)魚雷作為主要雷種和制導(dǎo)方式的選擇對象,并采取雙雷齊射的方式提升魚雷命中概率。
射擊陣位選擇是魚雷攻擊決策的關(guān)鍵所在。有人平臺射擊陣位的選擇通常受以下3 方面因素約束:一是本平臺占位可行;二是在占領(lǐng)的陣位發(fā)射魚雷命中概率盡可能高;三是占位過程中被發(fā)現(xiàn)概率盡可能低。在敵我態(tài)勢和平臺機動性能一定的條件下,魚雷的射擊可行域、等命中概率曲線以及目標威脅范圍是選擇射擊陣位的重要指標。
由于UUV 隱蔽滲透能力強、防御行動戰(zhàn)術(shù)意義不明顯,無需過多估計本平臺被目標發(fā)現(xiàn)的問題,從而擁有更大的陣位決策空間,甚至可以跟蹤目標實施抵近射擊。在射擊陣位選擇上應(yīng)以取得最高魚雷命中概率為準則,突出復(fù)雜對抗態(tài)勢下的攻擊效果的預(yù)估和射擊方案的優(yōu)化,以保證在指定射擊陣位點魚雷能夠命中目標。
對于優(yōu)選出來的射擊陣位,需要確定平臺占領(lǐng)射擊陣位所采取的速度、航向及時間。通常在本平臺所能采用的速度范圍內(nèi),按一定的間隔計算不同占位速度對應(yīng)的占位航向及所需的占位時間,制成占位方案表[13],或由指控系統(tǒng)計算提供某一指定機動速度。若各方案占位時間差別不大,原則上選擇占位速度較低的方案以保證有人平臺的隱蔽性。
占位機動是一個需要根據(jù)戰(zhàn)場態(tài)勢動態(tài)變化調(diào)整的過程。傳統(tǒng)的占位方案計算方法是由指揮員在指控系統(tǒng)的輔助下,綜合研判態(tài)勢情況進行實時調(diào)整。在水下貧弱的通信環(huán)境下,UUV 無法依靠人機交互實現(xiàn)對占位方案的動態(tài)調(diào)整。因此,在占位方案制定上,需要著重考慮規(guī)劃算法的動態(tài)適應(yīng)能力。
作為無人平臺,UUV 在大多數(shù)情況會布放至未知的水下戰(zhàn)場執(zhí)行作戰(zhàn)任務(wù),這就要求UUV 能夠在復(fù)雜和不確定環(huán)境下,具備自主理解、適應(yīng)環(huán)境以及高效可靠執(zhí)行任務(wù)的能力。相比于空中和地面,海洋環(huán)境更為復(fù)雜多變,遠海和深海海域的戰(zhàn)略性和危險性并存,對無人裝備的自主決策能力提出了更高的要求。因此,為保證UUV 對潛魚雷攻擊決策功能的有效實現(xiàn),還需著重解決以下關(guān)鍵問題。
態(tài)勢感知是UUV 必備能力,然而在未知復(fù)雜的水下戰(zhàn)場,多源信息的觀測和交互存在一定的噪聲和誤差。同時,水下通信具有長時延、低帶寬和弱聯(lián)通的特點,各指揮節(jié)點通信鏈路的傳輸效率低,導(dǎo)致平臺所獲得的信息在數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)尺度和噪聲水平等方面存在著顯著差異。因此,在缺乏人工干預(yù)的情況下,如何從水聲、圖像和溫度等多源異構(gòu)復(fù)雜數(shù)據(jù)中提取特征,實現(xiàn)信息一致性表征和融合,為戰(zhàn)場態(tài)勢感知和后續(xù)目標運動要素解算等環(huán)節(jié)提供必要支持,是影響魚雷攻擊決策能否實現(xiàn)的先決條件和頭等難題。
UUV 對潛魚雷攻擊決策過程是一個典型的動態(tài)、多約束和非線性的復(fù)雜系統(tǒng),受海區(qū)水文條件的不確定性、敵我博弈行為的對抗性和裝備自身性能特點的影響。在這個復(fù)雜系統(tǒng)中,每個實體狀態(tài)和要素的時序演變都會對優(yōu)化結(jié)果產(chǎn)生影響,如目標的散布程度、對抗策略及魚雷的戰(zhàn)技性能等。在預(yù)估魚雷命中概率時,如果仍然沿用傳統(tǒng)的解析法和模擬法[14],那么隨著參數(shù)維度和搜索空間的增加,勢必會出現(xiàn)求解耗時甚至解空間不收斂的情況,需要著重考慮求解算法的靈活性、高效性等方面的問題。
美國國防科學(xué)委員會(Defense Science Board,DSB)在Autonomy[15]報告中指出:自主性的顯著特征是在未知環(huán)境下,能夠以“目標導(dǎo)向”的方式來優(yōu)化自身行為和完成任務(wù)策略。自主性的核心是決策,追求先發(fā)制人的“速度”是關(guān)鍵[16-17]。UUV魚雷攻擊是一個隱蔽突然的任務(wù)行動,發(fā)射平臺需要通過有限的觀測信息,快速精準決策才能達到出奇制勝的目的。目前有人平臺常用的決策方法,如模糊邏輯、范氏推理和貝葉斯網(wǎng)絡(luò)等,其執(zhí)行效率和可信度往往相互制約,難以滿足UUV 對潛突擊任務(wù)對魚雷攻擊決策實時性的要求。
UUV 常用的武器控制模式是半自主或自主模式。在半自主模式下,指揮員在控制回路中,可視情對武器發(fā)射過程進行干預(yù),即“人在回路中”的控制方式。在自主工作模式下,武器發(fā)射都是由裝備自主完成的,指揮員處于控制回路上,僅起到監(jiān)控作用,即“人在回路上”的控制方式[18]。無論是在半自主還是自主模式,與有人平臺“人在回路”和“人在現(xiàn)場”的控制方式相比,對武器發(fā)射的控制能力非常有限。因此,在UUV 魚雷攻擊決策問題上,將權(quán)限交由自主武器系統(tǒng)是一件非常嚴肅的事情,必須要確保自主決策結(jié)果的準確性和可信任性。
綜上所述,為滿足魚雷攻擊決策內(nèi)容的變化和解決影響決策功能實現(xiàn)的關(guān)鍵問題,亟需研究能夠從戰(zhàn)場態(tài)勢變化中自主學(xué)習(xí)的智能決策方法?,F(xiàn)有的魚雷攻擊決策大多依托作戰(zhàn)仿真技術(shù),通過規(guī)則方式建立各種實體的任務(wù)行為模型[19],在仿真結(jié)果的基礎(chǔ)上進行優(yōu)化分析和決策。一方面,以優(yōu)化目標函數(shù)為導(dǎo)向的仿真決策方法對戰(zhàn)場時序數(shù)據(jù)和環(huán)境信息的完備性要求高,在未知復(fù)雜的海域中缺乏動態(tài)調(diào)整決策方案的自主能力。另一方面,這種純粹的條件式判斷方法表示實體行為的能力有限,而且隨著戰(zhàn)場態(tài)勢復(fù)雜度的增加,運算工作量呈指數(shù)倍增長,很難描述實體兵力的復(fù)雜任務(wù)行為,導(dǎo)致模型的可移植性、拓展性和重用性方面存在不足。
機器學(xué)習(xí)為UUV 魚雷攻擊決策問題的解決提供了新的思路。機器學(xué)習(xí)[20]的基本思想是使機器能夠通過學(xué)習(xí)數(shù)據(jù)獲得經(jīng)驗,實現(xiàn)對未知事件的預(yù)測或得出結(jié)果,即模型具備相應(yīng)的泛化能力。其中深度學(xué)習(xí)是以研究人工神經(jīng)網(wǎng)絡(luò)算法為核心的一種機器學(xué)習(xí)方法,通過多層網(wǎng)絡(luò)結(jié)構(gòu)及非線性變換,形成以發(fā)現(xiàn)數(shù)據(jù)分布式特征的高層表示;強化學(xué)習(xí)是一類特定的機器學(xué)習(xí)方法,通過最大化智能體獲得的累計獎勵值,以得到學(xué)習(xí)過程的最優(yōu)策略;深度強化學(xué)習(xí)將深度學(xué)習(xí)與強化學(xué)習(xí)相結(jié)合,綜合利用深度學(xué)習(xí)的特征自提取能力和強化學(xué)習(xí)的序貫決策能力,被認為是當前突破認知智能的代表性機器學(xué)習(xí)方法。目前,以數(shù)據(jù)驅(qū)動為代表的學(xué)習(xí)模式應(yīng)用較為廣泛。在無人機作戰(zhàn)智能決策方面,韓統(tǒng)等[21]和潘耀宗等[22]將強化學(xué)習(xí)應(yīng)用于空戰(zhàn)機動決策,在與外界環(huán)境動態(tài)交互的過程中,采用試錯的方式計算相對較優(yōu)的空戰(zhàn)機動決策序列,取得較好的效果。
針對觀測數(shù)據(jù)不確定性大的問題,可利用深度學(xué)習(xí)特征自提取的能力,采用多通道卷積、長短時記憶網(wǎng)絡(luò)以及注意力機制等數(shù)據(jù)壓縮和預(yù)處理策略,實現(xiàn)多源異構(gòu)數(shù)據(jù)的降維融合與一致性表征處理,為戰(zhàn)術(shù)行為識別與分類提供支持。
針對攻擊決策實時性難保證的問題,可以通過計算機仿真和少量弱標注試驗數(shù)據(jù)遷移的方法,得到基于水下攻防態(tài)勢下的海量樣本數(shù)據(jù),以數(shù)據(jù)學(xué)習(xí)和規(guī)則推演混合驅(qū)動的線下學(xué)習(xí)方法代替基于多實體有限狀態(tài)機搜索[23]的傳統(tǒng)仿真決策方法,以動態(tài)數(shù)據(jù)變化適應(yīng)環(huán)境和任務(wù)變化,從而賦予模型高效決策和線上自學(xué)習(xí)的能力。
針對模型感知交互能力弱的問題,可以通過戰(zhàn)術(shù)規(guī)則知識網(wǎng)絡(luò)轉(zhuǎn)化的方式,構(gòu)建基于“感知—調(diào)整—決策—行動”循環(huán)的強化學(xué)習(xí)多智能體,實現(xiàn)與環(huán)境交互和對抗過程中智能體學(xué)習(xí)能力的增強,為態(tài)勢規(guī)則庫提供漸進式自更新策略,從而賦予UUV 魚雷攻擊決策主動學(xué)習(xí)和自適應(yīng)動態(tài)調(diào)整的能力。
魚雷攻擊智能決策對于水下新質(zhì)力量作戰(zhàn)能力的生成具有重要研究意義。當前,機器學(xué)習(xí)正處于“感知智能”向“認知智能”發(fā)展的階段,雖然在數(shù)據(jù)挖掘、模式識別等領(lǐng)域問題的處理上已經(jīng)相對成熟,但是在知識表達、邏輯推理等方面的SOTA(state of the art)性能尚且難以達到工程應(yīng)用的水平。因此,UUV 魚雷攻擊智能決策需要作戰(zhàn)仿真技術(shù)、啟發(fā)式優(yōu)化算法和機器學(xué)習(xí)技術(shù)共同作用,通過充分發(fā)揮機器學(xué)習(xí)獨有的多模態(tài)數(shù)據(jù)融合及泛化自適應(yīng)能力,以解決上述關(guān)鍵問題,彌補傳統(tǒng)仿真決策方法在動態(tài)性和靈活性方面的不足,共同服務(wù)于裝備指控系統(tǒng)及軟件的開發(fā)。下一步建議從戰(zhàn)術(shù)態(tài)勢識別、有效陣位決策和占位機動規(guī)劃等具體問題出發(fā),選擇適用于智能決策的關(guān)鍵環(huán)節(jié)開展研究,并通過引入先驗知識和任務(wù)行為仿真建模的方法,預(yù)先收縮求解空間,以提高智能學(xué)習(xí)模型的收斂效率,防止出現(xiàn)梯度消失或維度災(zāi)難等問題。