多兵種交戰(zhàn)中作戰(zhàn)指數(shù)迭代計(jì)算方法及收斂性研究

2021-11-18 07:34巫銀花

火力與指揮控制 2021年9期

張昊，巫銀花，吳濤，文韜，朱智

（1.海軍指揮學(xué)院作戰(zhàn)實(shí)驗(yàn)室，南京 210016；2.海軍指揮學(xué)院訓(xùn)練管理系，南京 210016）

0 引言

在多兵種交戰(zhàn)問(wèn)題中，作戰(zhàn)指數(shù)評(píng)估的目標(biāo)是科學(xué)衡量各兵種在作戰(zhàn)過(guò)程中的作用，它是指揮員制定軍事決策方案的重要依據(jù)。各兵種的火力分配策略是軍事決策的重要內(nèi)容，合理的火力分配策略能夠增強(qiáng)兵種戰(zhàn)斗力，從而提高兵種的作戰(zhàn)指數(shù)。因此，作戰(zhàn)指數(shù)是制定火力分配策略的前提，火力分配策略又對(duì)作戰(zhàn)指數(shù)有重要影響，這反映了軍事哲學(xué)中兵種的戰(zhàn)斗力與戰(zhàn)法的辯證關(guān)系。由于兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴(lài)，必須從整體上對(duì)兩者進(jìn)行統(tǒng)一處理。在多兵種蘭徹斯特方程條件下，本文借鑒強(qiáng)化學(xué)習(xí)理論，根據(jù)兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互遞推關(guān)系，采用迭代計(jì)算方法進(jìn)行統(tǒng)一處理，詳細(xì)考察不同更新策略對(duì)迭代收斂速度和穩(wěn)定性的影響。

1 問(wèn)題來(lái)源

對(duì)于大規(guī)模多兵種交戰(zhàn)問(wèn)題，兵種作戰(zhàn)指數(shù)評(píng)估是進(jìn)行軍事決策的重要依據(jù)。目前，研究人員提出了多種作戰(zhàn)指數(shù)評(píng)估方法，包括模糊綜合評(píng)價(jià)方法［1-2］、層次分析方法［3-4］、指數(shù)法［5-6］和概率影響圖方法［7］等。這些方法需要結(jié)合專(zhuān)家的經(jīng)驗(yàn)知識(shí)，采用定性定量相結(jié)合方法進(jìn)行綜合處理，其存在的主要缺點(diǎn)是研究結(jié)果依賴(lài)于相關(guān)專(zhuān)家的能力水平和主觀(guān)判斷，難以科學(xué)衡量結(jié)果的優(yōu)劣。

沙基昌教授強(qiáng)調(diào)作戰(zhàn)問(wèn)題研究應(yīng)基于嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論，提出了基于多兵種交戰(zhàn)蘭徹斯特方程的規(guī)范交戰(zhàn)模式理論，通過(guò)對(duì)作戰(zhàn)指數(shù)和火力分配策略進(jìn)行整體處理，給出了最優(yōu)解的圖論求解方法［8］。規(guī)范交戰(zhàn)模式理論涉及高等數(shù)學(xué)理論，計(jì)算復(fù)雜度高，實(shí)踐應(yīng)用難度較大。

在多兵種交戰(zhàn)中，兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴(lài)，需要有機(jī)結(jié)合起來(lái)進(jìn)行統(tǒng)一處理。兵種的作戰(zhàn)指數(shù)是制定火力分配策略的重要依據(jù)，對(duì)于我方每一型兵種，其火力分配策略的目標(biāo)是尋求對(duì)敵方打擊的最大化，這需要綜合考察該型兵種對(duì)敵方各兵種毀傷能力與作戰(zhàn)指數(shù)的乘積，其中的最大項(xiàng)對(duì)應(yīng)的敵方兵種即為我方的最優(yōu)火力分配目標(biāo)?；鹆Ψ峙洳呗杂帜苡绊懫渥鲬?zhàn)指數(shù)評(píng)估結(jié)果，火力分配策略確定了兵種的打擊目標(biāo)，直接影響該兵種的作戰(zhàn)效果，從而事實(shí)上影響其作戰(zhàn)指數(shù)。

兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴(lài)關(guān)系［8］，類(lèi)似于強(qiáng)化學(xué)習(xí)理論中Q 值和動(dòng)作策略的相互依賴(lài)關(guān)系［9］。在強(qiáng)化學(xué)習(xí)理論中，智能體采取某行為策略與環(huán)境進(jìn)行交互并獲得獎(jiǎng)勵(lì)，然后根據(jù)獎(jiǎng)勵(lì)值大小改進(jìn)智能體行為策略，持續(xù)學(xué)習(xí)以尋求獎(jiǎng)勵(lì)值最大化。Q 學(xué)習(xí)方法［10］是強(qiáng)化學(xué)習(xí)理論的重要方法，對(duì)于智能體的每個(gè)狀態(tài)si，初始化一個(gè)效用值qi，稱(chēng)作Q 值；智能體執(zhí)行某動(dòng)作的回報(bào)定義為該動(dòng)作的直接獎(jiǎng)勵(lì)加上后序狀態(tài)的效用值；智能體優(yōu)先選擇執(zhí)行回報(bào)最大的動(dòng)作，然后利用該回報(bào)值更新原狀態(tài)的Q 值，循環(huán)執(zhí)行直至所有狀態(tài)的Q值收斂。Q 學(xué)習(xí)方法用Q 值描述了智能體在各個(gè)狀態(tài)時(shí)獲取回報(bào)的能力，智能體在各狀態(tài)時(shí)最優(yōu)動(dòng)作策略為選擇回報(bào)最大的動(dòng)作。對(duì)于多兵種交戰(zhàn)問(wèn)題，兵種作戰(zhàn)指數(shù)描述了其在作戰(zhàn)過(guò)程中的作用，兵種的最優(yōu)火力分配策略需要尋求其作戰(zhàn)效果的最大化。通過(guò)類(lèi)比研究可以發(fā)現(xiàn)，多兵種交戰(zhàn)問(wèn)題與強(qiáng)化學(xué)習(xí)理論在概念和原理上有相通之處，借鑒強(qiáng)化學(xué)習(xí)理論相關(guān)成果研究多兵種交戰(zhàn)問(wèn)題，能夠啟發(fā)研究思路。

2 問(wèn)題分析與求解

對(duì)于大規(guī)模多兵種交戰(zhàn)問(wèn)題，蘭徹斯特方程是描述其作戰(zhàn)過(guò)程的基礎(chǔ)數(shù)學(xué)模型：

為了擊敗對(duì)方，提升我方兵種的作戰(zhàn)效果，需要對(duì)各兵種火力分配系數(shù)的取值進(jìn)行優(yōu)化，尋求對(duì)敵方打擊的最大化。由于各方均有多型兵種，不同兵種的價(jià)值是未知的，從而難以統(tǒng)一度量和比較某兵種攻擊對(duì)敵方不同目標(biāo)時(shí)的價(jià)值差異。為統(tǒng)一度量各兵種的價(jià)值，需要對(duì)各型兵種的重要性進(jìn)行加權(quán)比較。

需要注意的是，毀傷系數(shù)矩陣中各列的最大項(xiàng)并不一定是各型兵種的最優(yōu)火力分配目標(biāo)。在某些情況下，為了保護(hù)本方的高價(jià)值兵種，本方的其他兵種往往會(huì)攻擊敵方目標(biāo)中對(duì)我方高價(jià)值兵種威脅較大的兵種，從而體現(xiàn)了本方不同兵種之間的掩護(hù)作用，在某種程度上反映了蘭徹斯特方程模型條件下的多兵種協(xié)同作戰(zhàn)。權(quán)衡“打擊敵方兵種”和“掩護(hù)本文兵種”，是各型兵種火力分配的一個(gè)難題。量化各型兵種在作戰(zhàn)過(guò)程的作用和重要性，是解決上述難題的關(guān)鍵。

各型兵種對(duì)于作戰(zhàn)過(guò)程的作用和重要性，即作戰(zhàn)指數(shù)，是制定火力分配策略的重要依據(jù)。在作戰(zhàn)指數(shù)已知條件下，從某兵種對(duì)敵方目標(biāo)兵種毀傷系數(shù)和目標(biāo)兵種作戰(zhàn)指數(shù)乘積中，選擇出最大的項(xiàng)，即對(duì)應(yīng)最優(yōu)的火力分配目標(biāo)。因此，最優(yōu)火力分配策略依賴(lài)于作戰(zhàn)指數(shù)。

兵種的作戰(zhàn)指數(shù)反映了該兵種對(duì)于作戰(zhàn)過(guò)程的作用和重要性，采取的火力分配策略必然影響該兵種的作戰(zhàn)效能。在火力分配策略已知條件下，某兵種的作戰(zhàn)指數(shù)，應(yīng)正比于其對(duì)敵方目標(biāo)兵種毀傷系數(shù)和目標(biāo)兵種作戰(zhàn)指數(shù)的乘積。因此，兵種的作戰(zhàn)指數(shù)又依賴(lài)于其采取的火力分配策略。

對(duì)于多兵種交戰(zhàn)蘭徹斯特方程，兵種的作戰(zhàn)指數(shù)和火力分配策略是相互依賴(lài)的兩組未知量，難以直接求解。借鑒強(qiáng)化學(xué)習(xí)理論中Q 學(xué)習(xí)方法對(duì)Q 值和行為策略的迭代更新過(guò)程，可采取迭代計(jì)算方法求解各兵種的作戰(zhàn)指數(shù)和火力分配策略。如圖1 所示，作戰(zhàn)指數(shù)迭代計(jì)算方法的基本思想為：首先初始化各兵種作戰(zhàn)指數(shù)取值，然后以最大化打擊敵方作戰(zhàn)指數(shù)為目標(biāo)，制定當(dāng)前各兵種的最優(yōu)火力策略，之后再根據(jù)該火力分配策略對(duì)敵方作戰(zhàn)指數(shù)毀傷程度，重新評(píng)估各兵種的作戰(zhàn)指數(shù)；循環(huán)上述作戰(zhàn)指數(shù)與火力分配策略的相互推算步驟，直至結(jié)果收斂到穩(wěn)定值。

圖1 作戰(zhàn)指數(shù)迭代計(jì)算方法基本思想

基于上述基本思想，作戰(zhàn)指數(shù)迭代計(jì)算方法的主要步驟為：

上述主要步驟中，第6）步的更新率α 取值對(duì)迭代計(jì)算方法的收斂速度和穩(wěn)定性有重要影響，需要進(jìn)一步詳細(xì)考察。

3 收斂性與更新策略

為了提高作戰(zhàn)指數(shù)迭代計(jì)算方法的收斂速度和穩(wěn)定性，需要對(duì)主要步驟中第6）步進(jìn)行適當(dāng)調(diào)整，考察不同更新策略的效果。在整個(gè)迭代計(jì)算過(guò)程中，可采取一種相對(duì)簡(jiǎn)潔的策略，更新率α 始終選取某固定值，考察不同的固定值對(duì)收斂過(guò)程的影響；另一種比較靈活的策略是采取動(dòng)態(tài)更新策略，迭代計(jì)算過(guò)程中動(dòng)態(tài)調(diào)整更新率α 和更新梯度，進(jìn)一步提高作戰(zhàn)指數(shù)的收斂速度和穩(wěn)定性。

3.1 固定更新率

在作戰(zhàn)指數(shù)迭代計(jì)算方法中，固定更新率的不同取值對(duì)作戰(zhàn)指數(shù)迭代過(guò)程有重要影響，下面通過(guò)算例進(jìn)行詳細(xì)考察。

算例1 設(shè)定甲乙方的兵種數(shù)量均為4 個(gè)，其毀傷系數(shù)矩陣為：

毀傷系數(shù)矩陣A 和B 是特殊構(gòu)造的，其中每行的唯一偶數(shù)項(xiàng)對(duì)應(yīng)于理論最優(yōu)火力分配，甲方各兵種作戰(zhàn)指數(shù)理論值分別為0.1、0.2、0.3 和0.4，乙方各兵種作戰(zhàn)指數(shù)理論值分別0.4、0.3、0.2 和0.1。依據(jù)規(guī)范交戰(zhàn)模式理論的圖論求解方法，交戰(zhàn)模式的核心循環(huán)對(duì)應(yīng)于該毀傷系數(shù)矩陣中的偶數(shù)項(xiàng)，進(jìn)而可以推算出各兵種作戰(zhàn)指數(shù)理論值，詳見(jiàn)文獻(xiàn)［8］。后面將利用簡(jiǎn)單直觀(guān)的作戰(zhàn)指數(shù)迭代計(jì)算方法，快速求解各兵種作戰(zhàn)指數(shù)理論值。

算例1 考察了更新率α 不同取值條件下雙方作戰(zhàn)指數(shù)的收斂過(guò)程，如圖2 所示，更新率α 取值分別為0.01、0.1 和0.99，隨著迭代次數(shù)的增加，雙方各兵種的作戰(zhàn)指數(shù)逐步收斂到理論值。算例1 表明，本文提出的方法能夠正確收斂到理論結(jié)果，當(dāng)更新率α 取值較大時(shí)，該方法在迭代初期具有較快的收斂速度，但在迭代后期容易引起振蕩；當(dāng)更新率α 取值較小時(shí)，該方法在迭代初期收斂速度較慢，但在迭代后期的穩(wěn)定性較好。

圖2 更新率α 不同取值時(shí)作戰(zhàn)指數(shù)變化過(guò)程

為了驗(yàn)證算例1 中觀(guān)測(cè)到的現(xiàn)象是否具有普遍性，下面在大規(guī)模多兵種條件交戰(zhàn)下考察作戰(zhàn)指數(shù)的收斂過(guò)程。算例2 中，甲乙方兵種數(shù)量均為100個(gè)，其毀傷系數(shù)矩陣中各元素為區(qū)間［0，1］范圍內(nèi)的隨機(jī)值，共進(jìn)行100 次實(shí)驗(yàn)，考察各方所有兵種作戰(zhàn)指數(shù)的均方誤差變化過(guò)程。算例2 的實(shí)驗(yàn)結(jié)果如圖3 所示，隨著迭代次數(shù)的增加，作戰(zhàn)指數(shù)均方誤差逐步減小并趨近于0，表明提出的方法在大樣本條件下仍然具有良好的收斂性。

圖3 更新率α 不同取值時(shí)作戰(zhàn)指數(shù)均方誤差變化過(guò)程

通過(guò)以上算例可以發(fā)現(xiàn)，本文提出的方法能夠正確收斂到理論值，當(dāng)更新率α 取值較大時(shí)，收斂速度較快，但后期容易振蕩；當(dāng)更新率α 取值較小時(shí)，收斂速度較慢，但后期相對(duì)平穩(wěn)。為了兼顧收斂速度和穩(wěn)定性?xún)蓚€(gè)指標(biāo)，需要考慮動(dòng)態(tài)更新策略。

3.2 動(dòng)態(tài)更新策略

當(dāng)更新率α 取固定值時(shí)，其取值較小時(shí)在迭代運(yùn)算前期收斂速度偏小，其取值較大時(shí)在后期容易發(fā)生振蕩，為了克服以上兩個(gè)缺點(diǎn)，可采取動(dòng)態(tài)更新策略，使得迭代運(yùn)算在前期更新率取值較大，在后期更新率取值較小。下面著重考察兩種動(dòng)態(tài)更新策略，包括更新率指數(shù)遞減方法和動(dòng)量梯度方法。

3.2.1 指數(shù)遞減方法

更新率指數(shù)遞減方法指更新率隨迭代次數(shù)增加以負(fù)指數(shù)函數(shù)的形式減小，其形式為

其中，α（t）表示在第t 步迭代時(shí)的更新率取值，參數(shù)k 表示遞減強(qiáng)度，參數(shù)z0表示終態(tài)更新率。負(fù)指數(shù)函數(shù)α（t）是單調(diào)遞減函數(shù)，當(dāng)t 取值較小時(shí)，其函數(shù)值較大；當(dāng)t 取值較大時(shí)，其函數(shù)值較小。該方法在某種程度上兼顧了更新率α 取值較大和較小時(shí)的優(yōu)點(diǎn)，直覺(jué)上能夠提高迭代運(yùn)算的收斂速度和穩(wěn)定性。

下面繼續(xù)針對(duì)算例1，采取更新率指數(shù)遞減方法進(jìn)行作戰(zhàn)指數(shù)迭代計(jì)算，其結(jié)果如圖4 所示，隨著迭代次數(shù)的增加，作戰(zhàn)指數(shù)振蕩幅度逐漸減小，提高了收斂穩(wěn)定性。當(dāng)終態(tài)更新率z0取值較大時(shí)，作戰(zhàn)指數(shù)振蕩幅度較大；當(dāng)終態(tài)更新率z0取值較小時(shí)，作戰(zhàn)指數(shù)振蕩幅度較??；當(dāng)遞減強(qiáng)度k 取值較大時(shí)，收斂速度相對(duì)較慢，但振蕩幅度較小；當(dāng)遞減強(qiáng)度k 取值較小時(shí)，收斂速度較快，但易產(chǎn)生振蕩。對(duì)于更新率指數(shù)遞減方法，迭代計(jì)算以降低后期收斂速度為代價(jià)來(lái)減少振蕩，提高了收斂穩(wěn)定性。

圖4 更新率指數(shù)遞減時(shí)甲方作戰(zhàn)指數(shù)變化過(guò)程

3.2.2 動(dòng)量梯度方法

動(dòng)量梯度方法［11］能夠在減少振蕩的同時(shí)不降低收斂速度，是一種更為高效的方法。動(dòng)量梯度方法通過(guò)累積歷史梯度來(lái)抵消當(dāng)前梯度的振蕩。如圖5（a）所示，迭代計(jì)算從初始值P 點(diǎn)開(kāi)始，沿折線(xiàn)逐步向終點(diǎn)O 迭代收斂，顯然，其迭代折線(xiàn)沿總體趨勢(shì)線(xiàn)（虛線(xiàn)）上下振蕩，若能消除在總體趨勢(shì)線(xiàn)垂直方向的振蕩，可加快迭代收斂速度和穩(wěn)定性。若當(dāng)前梯度與歷史累積梯度方向近似相反，兩者相加時(shí)相互抵消，從而減小振蕩（圖5（b））；若當(dāng)前梯度與歷史累積梯度方向近似一致，兩者相加時(shí)長(zhǎng)度增加，從而提高收斂速度（圖5（c））。觀(guān)察圖2（b）和圖2（d），可以發(fā)現(xiàn)，當(dāng)兵種作戰(zhàn)指數(shù)振蕩時(shí)，相鄰迭代周期的梯度方向近似相反，當(dāng)前梯度加上歷史累積梯度可抵消當(dāng)前梯度的振蕩；當(dāng)兵種作戰(zhàn)指數(shù)沒(méi)有振蕩時(shí)，相鄰迭代周期的梯度方向近似相同，當(dāng)前梯度加上歷史累積梯度可增加長(zhǎng)度，提高收斂速度。

圖5 動(dòng)量梯度方法

下面繼續(xù)針對(duì)算例1，采取動(dòng)量梯度方法進(jìn)行作戰(zhàn)指數(shù)迭代運(yùn)算，運(yùn)算結(jié)果如下頁(yè)圖6 所示，動(dòng)量梯度方法能夠減小迭代過(guò)程中的振蕩，提高迭代收斂速度和穩(wěn)定性。當(dāng)動(dòng)量強(qiáng)度β 取值較大時(shí)，迭代過(guò)程中易產(chǎn)生較大幅度的長(zhǎng)周期振蕩；當(dāng)動(dòng)量強(qiáng)度β 取值較小時(shí)，振蕩幅度減小甚至消失；當(dāng)更新率α 取值較大時(shí)，振蕩幅度較大，反之，則振蕩幅度較小。動(dòng)量梯度方法中，在迭代運(yùn)算前期，相鄰迭代周期的梯度方向近似一致，兩者相加增大，提高了收斂速度；在迭代運(yùn)算后期，相鄰迭代周期的梯度方向近似相反，兩者抵消減小振蕩，提高了收斂穩(wěn)定性。

圖6 動(dòng)量梯度方法時(shí)甲方作戰(zhàn)指數(shù)變化過(guò)程

3.3 小結(jié)

更新策略能夠影響作戰(zhàn)指數(shù)迭代計(jì)算方法的收斂速度和穩(wěn)定性。對(duì)于固定更新率方法，當(dāng)更新率α 取值較大時(shí)，收斂速度較快但容易振蕩；當(dāng)更新率α 取值較小時(shí)，收斂穩(wěn)定性較好但收斂速度較慢。針對(duì)不同更新率α 取值的優(yōu)缺點(diǎn)，更新率指數(shù)遞減方法通過(guò)動(dòng)態(tài)降低迭代后期的更新率取值，使迭代計(jì)算在前期具有較大的更新率，在后期更新率較小，從而綜合了更新率α 不同取值的優(yōu)點(diǎn)，兼顧了收斂速度和穩(wěn)定性，具有思路簡(jiǎn)單直接的特點(diǎn)。動(dòng)量梯度方法考慮了歷史累積梯度方向與當(dāng)前梯度方向的異同，利用兩者相加時(shí)增強(qiáng)或抵消的性質(zhì)，同時(shí)提高了收斂速度和穩(wěn)定性，具有較好的自適應(yīng)性。

4 結(jié)論

在多兵種交戰(zhàn)問(wèn)題中，評(píng)估各兵種的作戰(zhàn)指數(shù)是進(jìn)行軍事決策的重要依據(jù)。對(duì)于多兵種交戰(zhàn)蘭徹斯特方程，各兵種的作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴(lài)關(guān)系，類(lèi)似于強(qiáng)化學(xué)習(xí)理論中的Q 值和動(dòng)作策略的相互依賴(lài)關(guān)系。本文通過(guò)類(lèi)比研究，利用作戰(zhàn)指數(shù)和火力分配策略的遞推關(guān)系，提出了作戰(zhàn)指數(shù)迭代計(jì)算方法，重點(diǎn)考察了固定更新率、指數(shù)遞減方法和動(dòng)量梯度方法對(duì)迭代過(guò)程的影響，通過(guò)調(diào)節(jié)更新率、遞減強(qiáng)度和動(dòng)量強(qiáng)度等超參數(shù)取值，提高了迭代收斂速度和穩(wěn)定性。實(shí)驗(yàn)表明，提出的方法能夠快速穩(wěn)定收斂到最優(yōu)解，具有簡(jiǎn)單直觀(guān)、便于計(jì)算的優(yōu)點(diǎn)，為軍事理論研究和指揮決策提供有力定量支撐。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡