国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多兵種交戰(zhàn)中作戰(zhàn)指數(shù)迭代計(jì)算方法及收斂性研究

2021-11-18 07:34巫銀花
火力與指揮控制 2021年9期
關(guān)鍵詞:兵種算例動(dòng)量

張 昊,巫銀花,吳 濤,文 韜,朱 智

(1.海軍指揮學(xué)院作戰(zhàn)實(shí)驗(yàn)室,南京 210016;2.海軍指揮學(xué)院訓(xùn)練管理系,南京 210016)

0 引言

在多兵種交戰(zhàn)問(wèn)題中,作戰(zhàn)指數(shù)評(píng)估的目標(biāo)是科學(xué)衡量各兵種在作戰(zhàn)過(guò)程中的作用,它是指揮員制定軍事決策方案的重要依據(jù)。各兵種的火力分配策略是軍事決策的重要內(nèi)容,合理的火力分配策略能夠增強(qiáng)兵種戰(zhàn)斗力,從而提高兵種的作戰(zhàn)指數(shù)。因此,作戰(zhàn)指數(shù)是制定火力分配策略的前提,火力分配策略又對(duì)作戰(zhàn)指數(shù)有重要影響,這反映了軍事哲學(xué)中兵種的戰(zhàn)斗力與戰(zhàn)法的辯證關(guān)系。由于兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴(lài),必須從整體上對(duì)兩者進(jìn)行統(tǒng)一處理。在多兵種蘭徹斯特方程條件下,本文借鑒強(qiáng)化學(xué)習(xí)理論,根據(jù)兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互遞推關(guān)系,采用迭代計(jì)算方法進(jìn)行統(tǒng)一處理,詳細(xì)考察不同更新策略對(duì)迭代收斂速度和穩(wěn)定性的影響。

1 問(wèn)題來(lái)源

對(duì)于大規(guī)模多兵種交戰(zhàn)問(wèn)題,兵種作戰(zhàn)指數(shù)評(píng)估是進(jìn)行軍事決策的重要依據(jù)。目前,研究人員提出了多種作戰(zhàn)指數(shù)評(píng)估方法,包括模糊綜合評(píng)價(jià)方法[1-2]、層次分析方法[3-4]、指數(shù)法[5-6]和概率影響圖方法[7]等。這些方法需要結(jié)合專(zhuān)家的經(jīng)驗(yàn)知識(shí),采用定性定量相結(jié)合方法進(jìn)行綜合處理,其存在的主要缺點(diǎn)是研究結(jié)果依賴(lài)于相關(guān)專(zhuān)家的能力水平和主觀(guān)判斷,難以科學(xué)衡量結(jié)果的優(yōu)劣。

沙基昌教授強(qiáng)調(diào)作戰(zhàn)問(wèn)題研究應(yīng)基于嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論,提出了基于多兵種交戰(zhàn)蘭徹斯特方程的規(guī)范交戰(zhàn)模式理論,通過(guò)對(duì)作戰(zhàn)指數(shù)和火力分配策略進(jìn)行整體處理,給出了最優(yōu)解的圖論求解方法[8]。規(guī)范交戰(zhàn)模式理論涉及高等數(shù)學(xué)理論,計(jì)算復(fù)雜度高,實(shí)踐應(yīng)用難度較大。

在多兵種交戰(zhàn)中,兵種的作戰(zhàn)指數(shù)和火力分配策略之間相互依賴(lài),需要有機(jī)結(jié)合起來(lái)進(jìn)行統(tǒng)一處理。兵種的作戰(zhàn)指數(shù)是制定火力分配策略的重要依據(jù),對(duì)于我方每一型兵種,其火力分配策略的目標(biāo)是尋求對(duì)敵方打擊的最大化,這需要綜合考察該型兵種對(duì)敵方各兵種毀傷能力與作戰(zhàn)指數(shù)的乘積,其中的最大項(xiàng)對(duì)應(yīng)的敵方兵種即為我方的最優(yōu)火力分配目標(biāo)?;鹆Ψ峙洳呗杂帜苡绊懫渥鲬?zhàn)指數(shù)評(píng)估結(jié)果,火力分配策略確定了兵種的打擊目標(biāo),直接影響該兵種的作戰(zhàn)效果,從而事實(shí)上影響其作戰(zhàn)指數(shù)。

兵種作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴(lài)關(guān)系[8],類(lèi)似于強(qiáng)化學(xué)習(xí)理論中Q 值和動(dòng)作策略的相互依賴(lài)關(guān)系[9]。在強(qiáng)化學(xué)習(xí)理論中,智能體采取某行為策略與環(huán)境進(jìn)行交互并獲得獎(jiǎng)勵(lì),然后根據(jù)獎(jiǎng)勵(lì)值大小改進(jìn)智能體行為策略,持續(xù)學(xué)習(xí)以尋求獎(jiǎng)勵(lì)值最大化。Q 學(xué)習(xí)方法[10]是強(qiáng)化學(xué)習(xí)理論的重要方法,對(duì)于智能體的每個(gè)狀態(tài)si,初始化一個(gè)效用值qi,稱(chēng)作Q 值;智能體執(zhí)行某動(dòng)作的回報(bào)定義為該動(dòng)作的直接獎(jiǎng)勵(lì)加上后序狀態(tài)的效用值;智能體優(yōu)先選擇執(zhí)行回報(bào)最大的動(dòng)作,然后利用該回報(bào)值更新原狀態(tài)的Q 值,循環(huán)執(zhí)行直至所有狀態(tài)的Q值收斂。Q 學(xué)習(xí)方法用Q 值描述了智能體在各個(gè)狀態(tài)時(shí)獲取回報(bào)的能力,智能體在各狀態(tài)時(shí)最優(yōu)動(dòng)作策略為選擇回報(bào)最大的動(dòng)作。對(duì)于多兵種交戰(zhàn)問(wèn)題,兵種作戰(zhàn)指數(shù)描述了其在作戰(zhàn)過(guò)程中的作用,兵種的最優(yōu)火力分配策略需要尋求其作戰(zhàn)效果的最大化。通過(guò)類(lèi)比研究可以發(fā)現(xiàn),多兵種交戰(zhàn)問(wèn)題與強(qiáng)化學(xué)習(xí)理論在概念和原理上有相通之處,借鑒強(qiáng)化學(xué)習(xí)理論相關(guān)成果研究多兵種交戰(zhàn)問(wèn)題,能夠啟發(fā)研究思路。

2 問(wèn)題分析與求解

對(duì)于大規(guī)模多兵種交戰(zhàn)問(wèn)題,蘭徹斯特方程是描述其作戰(zhàn)過(guò)程的基礎(chǔ)數(shù)學(xué)模型:

為了擊敗對(duì)方,提升我方兵種的作戰(zhàn)效果,需要對(duì)各兵種火力分配系數(shù)的取值進(jìn)行優(yōu)化,尋求對(duì)敵方打擊的最大化。由于各方均有多型兵種,不同兵種的價(jià)值是未知的,從而難以統(tǒng)一度量和比較某兵種攻擊對(duì)敵方不同目標(biāo)時(shí)的價(jià)值差異。為統(tǒng)一度量各兵種的價(jià)值,需要對(duì)各型兵種的重要性進(jìn)行加權(quán)比較。

需要注意的是,毀傷系數(shù)矩陣中各列的最大項(xiàng)并不一定是各型兵種的最優(yōu)火力分配目標(biāo)。在某些情況下,為了保護(hù)本方的高價(jià)值兵種,本方的其他兵種往往會(huì)攻擊敵方目標(biāo)中對(duì)我方高價(jià)值兵種威脅較大的兵種,從而體現(xiàn)了本方不同兵種之間的掩護(hù)作用,在某種程度上反映了蘭徹斯特方程模型條件下的多兵種協(xié)同作戰(zhàn)。權(quán)衡“打擊敵方兵種”和“掩護(hù)本文兵種”,是各型兵種火力分配的一個(gè)難題。量化各型兵種在作戰(zhàn)過(guò)程的作用和重要性,是解決上述難題的關(guān)鍵。

各型兵種對(duì)于作戰(zhàn)過(guò)程的作用和重要性,即作戰(zhàn)指數(shù),是制定火力分配策略的重要依據(jù)。在作戰(zhàn)指數(shù)已知條件下,從某兵種對(duì)敵方目標(biāo)兵種毀傷系數(shù)和目標(biāo)兵種作戰(zhàn)指數(shù)乘積中,選擇出最大的項(xiàng),即對(duì)應(yīng)最優(yōu)的火力分配目標(biāo)。因此,最優(yōu)火力分配策略依賴(lài)于作戰(zhàn)指數(shù)。

兵種的作戰(zhàn)指數(shù)反映了該兵種對(duì)于作戰(zhàn)過(guò)程的作用和重要性,采取的火力分配策略必然影響該兵種的作戰(zhàn)效能。在火力分配策略已知條件下,某兵種的作戰(zhàn)指數(shù),應(yīng)正比于其對(duì)敵方目標(biāo)兵種毀傷系數(shù)和目標(biāo)兵種作戰(zhàn)指數(shù)的乘積。因此,兵種的作戰(zhàn)指數(shù)又依賴(lài)于其采取的火力分配策略。

對(duì)于多兵種交戰(zhàn)蘭徹斯特方程,兵種的作戰(zhàn)指數(shù)和火力分配策略是相互依賴(lài)的兩組未知量,難以直接求解。借鑒強(qiáng)化學(xué)習(xí)理論中Q 學(xué)習(xí)方法對(duì)Q 值和行為策略的迭代更新過(guò)程,可采取迭代計(jì)算方法求解各兵種的作戰(zhàn)指數(shù)和火力分配策略。如圖1 所示,作戰(zhàn)指數(shù)迭代計(jì)算方法的基本思想為:首先初始化各兵種作戰(zhàn)指數(shù)取值,然后以最大化打擊敵方作戰(zhàn)指數(shù)為目標(biāo),制定當(dāng)前各兵種的最優(yōu)火力策略,之后再根據(jù)該火力分配策略對(duì)敵方作戰(zhàn)指數(shù)毀傷程度,重新評(píng)估各兵種的作戰(zhàn)指數(shù);循環(huán)上述作戰(zhàn)指數(shù)與火力分配策略的相互推算步驟,直至結(jié)果收斂到穩(wěn)定值。

圖1 作戰(zhàn)指數(shù)迭代計(jì)算方法基本思想

基于上述基本思想,作戰(zhàn)指數(shù)迭代計(jì)算方法的主要步驟為:

上述主要步驟中,第6)步的更新率α 取值對(duì)迭代計(jì)算方法的收斂速度和穩(wěn)定性有重要影響,需要進(jìn)一步詳細(xì)考察。

3 收斂性與更新策略

為了提高作戰(zhàn)指數(shù)迭代計(jì)算方法的收斂速度和穩(wěn)定性,需要對(duì)主要步驟中第6)步進(jìn)行適當(dāng)調(diào)整,考察不同更新策略的效果。在整個(gè)迭代計(jì)算過(guò)程中,可采取一種相對(duì)簡(jiǎn)潔的策略,更新率α 始終選取某固定值,考察不同的固定值對(duì)收斂過(guò)程的影響;另一種比較靈活的策略是采取動(dòng)態(tài)更新策略,迭代計(jì)算過(guò)程中動(dòng)態(tài)調(diào)整更新率α 和更新梯度,進(jìn)一步提高作戰(zhàn)指數(shù)的收斂速度和穩(wěn)定性。

3.1 固定更新率

在作戰(zhàn)指數(shù)迭代計(jì)算方法中,固定更新率的不同取值對(duì)作戰(zhàn)指數(shù)迭代過(guò)程有重要影響,下面通過(guò)算例進(jìn)行詳細(xì)考察。

算例1 設(shè)定甲乙方的兵種數(shù)量均為4 個(gè),其毀傷系數(shù)矩陣為:

毀傷系數(shù)矩陣A 和B 是特殊構(gòu)造的,其中每行的唯一偶數(shù)項(xiàng)對(duì)應(yīng)于理論最優(yōu)火力分配,甲方各兵種作戰(zhàn)指數(shù)理論值分別為0.1、0.2、0.3 和0.4,乙方各兵種作戰(zhàn)指數(shù)理論值分別0.4、0.3、0.2 和0.1。依據(jù)規(guī)范交戰(zhàn)模式理論的圖論求解方法,交戰(zhàn)模式的核心循環(huán)對(duì)應(yīng)于該毀傷系數(shù)矩陣中的偶數(shù)項(xiàng),進(jìn)而可以推算出各兵種作戰(zhàn)指數(shù)理論值,詳見(jiàn)文獻(xiàn)[8]。后面將利用簡(jiǎn)單直觀(guān)的作戰(zhàn)指數(shù)迭代計(jì)算方法,快速求解各兵種作戰(zhàn)指數(shù)理論值。

算例1 考察了更新率α 不同取值條件下雙方作戰(zhàn)指數(shù)的收斂過(guò)程,如圖2 所示,更新率α 取值分別為0.01、0.1 和0.99,隨著迭代次數(shù)的增加,雙方各兵種的作戰(zhàn)指數(shù)逐步收斂到理論值。算例1 表明,本文提出的方法能夠正確收斂到理論結(jié)果,當(dāng)更新率α 取值較大時(shí),該方法在迭代初期具有較快的收斂速度,但在迭代后期容易引起振蕩;當(dāng)更新率α 取值較小時(shí),該方法在迭代初期收斂速度較慢,但在迭代后期的穩(wěn)定性較好。

圖2 更新率α 不同取值時(shí)作戰(zhàn)指數(shù)變化過(guò)程

為了驗(yàn)證算例1 中觀(guān)測(cè)到的現(xiàn)象是否具有普遍性,下面在大規(guī)模多兵種條件交戰(zhàn)下考察作戰(zhàn)指數(shù)的收斂過(guò)程。算例2 中,甲乙方兵種數(shù)量均為100個(gè),其毀傷系數(shù)矩陣中各元素為區(qū)間[0,1]范圍內(nèi)的隨機(jī)值,共進(jìn)行100 次實(shí)驗(yàn),考察各方所有兵種作戰(zhàn)指數(shù)的均方誤差變化過(guò)程。算例2 的實(shí)驗(yàn)結(jié)果如圖3 所示,隨著迭代次數(shù)的增加,作戰(zhàn)指數(shù)均方誤差逐步減小并趨近于0,表明提出的方法在大樣本條件下仍然具有良好的收斂性。

圖3 更新率α 不同取值時(shí)作戰(zhàn)指數(shù)均方誤差變化過(guò)程

通過(guò)以上算例可以發(fā)現(xiàn),本文提出的方法能夠正確收斂到理論值,當(dāng)更新率α 取值較大時(shí),收斂速度較快,但后期容易振蕩;當(dāng)更新率α 取值較小時(shí),收斂速度較慢,但后期相對(duì)平穩(wěn)。為了兼顧收斂速度和穩(wěn)定性?xún)蓚€(gè)指標(biāo),需要考慮動(dòng)態(tài)更新策略。

3.2 動(dòng)態(tài)更新策略

當(dāng)更新率α 取固定值時(shí),其取值較小時(shí)在迭代運(yùn)算前期收斂速度偏小,其取值較大時(shí)在后期容易發(fā)生振蕩,為了克服以上兩個(gè)缺點(diǎn),可采取動(dòng)態(tài)更新策略,使得迭代運(yùn)算在前期更新率取值較大,在后期更新率取值較小。下面著重考察兩種動(dòng)態(tài)更新策略,包括更新率指數(shù)遞減方法和動(dòng)量梯度方法。

3.2.1 指數(shù)遞減方法

更新率指數(shù)遞減方法指更新率隨迭代次數(shù)增加以負(fù)指數(shù)函數(shù)的形式減小,其形式為

其中,α(t)表示在第t 步迭代時(shí)的更新率取值,參數(shù)k 表示遞減強(qiáng)度,參數(shù)z0表示終態(tài)更新率。負(fù)指數(shù)函數(shù)α(t)是單調(diào)遞減函數(shù),當(dāng)t 取值較小時(shí),其函數(shù)值較大;當(dāng)t 取值較大時(shí),其函數(shù)值較小。該方法在某種程度上兼顧了更新率α 取值較大和較小時(shí)的優(yōu)點(diǎn),直覺(jué)上能夠提高迭代運(yùn)算的收斂速度和穩(wěn)定性。

下面繼續(xù)針對(duì)算例1,采取更新率指數(shù)遞減方法進(jìn)行作戰(zhàn)指數(shù)迭代計(jì)算,其結(jié)果如圖4 所示,隨著迭代次數(shù)的增加,作戰(zhàn)指數(shù)振蕩幅度逐漸減小,提高了收斂穩(wěn)定性。當(dāng)終態(tài)更新率z0取值較大時(shí),作戰(zhàn)指數(shù)振蕩幅度較大;當(dāng)終態(tài)更新率z0取值較小時(shí),作戰(zhàn)指數(shù)振蕩幅度較??;當(dāng)遞減強(qiáng)度k 取值較大時(shí),收斂速度相對(duì)較慢,但振蕩幅度較小;當(dāng)遞減強(qiáng)度k 取值較小時(shí),收斂速度較快,但易產(chǎn)生振蕩。對(duì)于更新率指數(shù)遞減方法,迭代計(jì)算以降低后期收斂速度為代價(jià)來(lái)減少振蕩,提高了收斂穩(wěn)定性。

圖4 更新率指數(shù)遞減時(shí)甲方作戰(zhàn)指數(shù)變化過(guò)程

3.2.2 動(dòng)量梯度方法

動(dòng)量梯度方法[11]能夠在減少振蕩的同時(shí)不降低收斂速度,是一種更為高效的方法。動(dòng)量梯度方法通過(guò)累積歷史梯度來(lái)抵消當(dāng)前梯度的振蕩。如圖5(a)所示,迭代計(jì)算從初始值P 點(diǎn)開(kāi)始,沿折線(xiàn)逐步向終點(diǎn)O 迭代收斂,顯然,其迭代折線(xiàn)沿總體趨勢(shì)線(xiàn)(虛線(xiàn))上下振蕩,若能消除在總體趨勢(shì)線(xiàn)垂直方向的振蕩,可加快迭代收斂速度和穩(wěn)定性。若當(dāng)前梯度與歷史累積梯度方向近似相反,兩者相加時(shí)相互抵消,從而減小振蕩(圖5(b));若當(dāng)前梯度與歷史累積梯度方向近似一致,兩者相加時(shí)長(zhǎng)度增加,從而提高收斂速度(圖5(c))。觀(guān)察圖2(b)和圖2(d),可以發(fā)現(xiàn),當(dāng)兵種作戰(zhàn)指數(shù)振蕩時(shí),相鄰迭代周期的梯度方向近似相反,當(dāng)前梯度加上歷史累積梯度可抵消當(dāng)前梯度的振蕩;當(dāng)兵種作戰(zhàn)指數(shù)沒(méi)有振蕩時(shí),相鄰迭代周期的梯度方向近似相同,當(dāng)前梯度加上歷史累積梯度可增加長(zhǎng)度,提高收斂速度。

圖5 動(dòng)量梯度方法

下面繼續(xù)針對(duì)算例1,采取動(dòng)量梯度方法進(jìn)行作戰(zhàn)指數(shù)迭代運(yùn)算,運(yùn)算結(jié)果如下頁(yè)圖6 所示,動(dòng)量梯度方法能夠減小迭代過(guò)程中的振蕩,提高迭代收斂速度和穩(wěn)定性。當(dāng)動(dòng)量強(qiáng)度β 取值較大時(shí),迭代過(guò)程中易產(chǎn)生較大幅度的長(zhǎng)周期振蕩;當(dāng)動(dòng)量強(qiáng)度β 取值較小時(shí),振蕩幅度減小甚至消失;當(dāng)更新率α 取值較大時(shí),振蕩幅度較大,反之,則振蕩幅度較小。動(dòng)量梯度方法中,在迭代運(yùn)算前期,相鄰迭代周期的梯度方向近似一致,兩者相加增大,提高了收斂速度;在迭代運(yùn)算后期,相鄰迭代周期的梯度方向近似相反,兩者抵消減小振蕩,提高了收斂穩(wěn)定性。

圖6 動(dòng)量梯度方法時(shí)甲方作戰(zhàn)指數(shù)變化過(guò)程

3.3 小結(jié)

更新策略能夠影響作戰(zhàn)指數(shù)迭代計(jì)算方法的收斂速度和穩(wěn)定性。對(duì)于固定更新率方法,當(dāng)更新率α 取值較大時(shí),收斂速度較快但容易振蕩;當(dāng)更新率α 取值較小時(shí),收斂穩(wěn)定性較好但收斂速度較慢。針對(duì)不同更新率α 取值的優(yōu)缺點(diǎn),更新率指數(shù)遞減方法通過(guò)動(dòng)態(tài)降低迭代后期的更新率取值,使迭代計(jì)算在前期具有較大的更新率,在后期更新率較小,從而綜合了更新率α 不同取值的優(yōu)點(diǎn),兼顧了收斂速度和穩(wěn)定性,具有思路簡(jiǎn)單直接的特點(diǎn)。動(dòng)量梯度方法考慮了歷史累積梯度方向與當(dāng)前梯度方向的異同,利用兩者相加時(shí)增強(qiáng)或抵消的性質(zhì),同時(shí)提高了收斂速度和穩(wěn)定性,具有較好的自適應(yīng)性。

4 結(jié)論

在多兵種交戰(zhàn)問(wèn)題中,評(píng)估各兵種的作戰(zhàn)指數(shù)是進(jìn)行軍事決策的重要依據(jù)。對(duì)于多兵種交戰(zhàn)蘭徹斯特方程,各兵種的作戰(zhàn)指數(shù)和火力分配策略之間的相互依賴(lài)關(guān)系,類(lèi)似于強(qiáng)化學(xué)習(xí)理論中的Q 值和動(dòng)作策略的相互依賴(lài)關(guān)系。本文通過(guò)類(lèi)比研究,利用作戰(zhàn)指數(shù)和火力分配策略的遞推關(guān)系,提出了作戰(zhàn)指數(shù)迭代計(jì)算方法,重點(diǎn)考察了固定更新率、指數(shù)遞減方法和動(dòng)量梯度方法對(duì)迭代過(guò)程的影響,通過(guò)調(diào)節(jié)更新率、遞減強(qiáng)度和動(dòng)量強(qiáng)度等超參數(shù)取值,提高了迭代收斂速度和穩(wěn)定性。實(shí)驗(yàn)表明,提出的方法能夠快速穩(wěn)定收斂到最優(yōu)解,具有簡(jiǎn)單直觀(guān)、便于計(jì)算的優(yōu)點(diǎn),為軍事理論研究和指揮決策提供有力定量支撐。

猜你喜歡
兵種算例動(dòng)量
新中國(guó)兵種巡禮(十六) 戰(zhàn)毒先鋒防化兵
新中國(guó)兵種巡禮(十五) ??招l(wèi)士
應(yīng)用動(dòng)量守恒定律解題之秘訣
原子物理與動(dòng)量、能量的結(jié)合
聚焦動(dòng)量觀(guān)點(diǎn)在電磁感應(yīng)中的應(yīng)用
提高小學(xué)低年級(jí)數(shù)學(xué)計(jì)算能力的方法
論怎樣提高低年級(jí)學(xué)生的計(jì)算能力
試論在小學(xué)數(shù)學(xué)教學(xué)中如何提高學(xué)生的計(jì)算能力
“第二炮兵”屬于軍種,還是兵種
動(dòng)量守恒定律的推廣與應(yīng)用