佘 維, 張人中, 田 釗, 劉 煒, 孔德鋒
(1.鄭州大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院 河南 鄭州 450002; 2.鄭州市區(qū)塊鏈與數(shù)據(jù)智能重點(diǎn)實(shí)驗(yàn)室 河南 鄭州 450002; 3.軍事科學(xué)院國防工程研究院工程防護(hù)研究所 河南 洛陽 471023)
武器毀傷效應(yīng)是現(xiàn)代軍事和作戰(zhàn)研究的基礎(chǔ)性問題。常用的毀傷效應(yīng)預(yù)測(cè)方法包括理論計(jì)算法、計(jì)算機(jī)仿真法、試驗(yàn)法[1-3]。
近年來,支持向量機(jī)[4]、神經(jīng)網(wǎng)絡(luò)[5]等機(jī)器學(xué)習(xí)方法由于計(jì)算效率較高、環(huán)境適應(yīng)性較強(qiáng),已經(jīng)在毀傷效應(yīng)預(yù)測(cè)領(lǐng)域中得到初步應(yīng)用[6-9]。袁輝等提出了基于最小二乘支持向量機(jī)的坑道工程動(dòng)荷段的毀傷仿真實(shí)驗(yàn)訓(xùn)練樣本約簡(jiǎn)模型,其利用粒子群算法選取較優(yōu)的參數(shù),模型具有較好的可行性和分類精度[10]。李建光等針對(duì)彈體對(duì)混凝土材料侵徹深度問題,通過徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)建立了彈體侵徹深度與網(wǎng)絡(luò)輸入量之間的非線性映射關(guān)系[11]。張磊等針對(duì)毀傷實(shí)驗(yàn)數(shù)據(jù)少、不均勻、不連續(xù)、范圍窄等帶來的計(jì)算精度不高的問題,運(yùn)用K-近鄰算法、BP神經(jīng)網(wǎng)絡(luò)建立基于數(shù)據(jù)融合的“三階段”毀傷效應(yīng)計(jì)算模型進(jìn)行毀傷效應(yīng)計(jì)算[12]。
上述基于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的毀傷效應(yīng)預(yù)測(cè)方法存在以下兩個(gè)問題。
1) 缺乏不確定性量化能力,不能描述預(yù)測(cè)值可能的上下限以應(yīng)對(duì)使用過程中存在的決策風(fēng)險(xiǎn)。
2) 使用單值目標(biāo)函數(shù)難以適應(yīng)毀傷效應(yīng)預(yù)測(cè)結(jié)果存在的多峰分布情況。
針對(duì)上述兩個(gè)問題,本文提出一種基于改進(jìn)混合密度網(wǎng)絡(luò)的毀傷效應(yīng)預(yù)測(cè)方法。本文的主要貢獻(xiàn)如下。
1) 通過改進(jìn)混合密度網(wǎng)絡(luò)生成的基于混合分布的概率密度函數(shù)可以反映毀傷效應(yīng)預(yù)測(cè)結(jié)果,并能很好地適應(yīng)毀傷效應(yīng)預(yù)測(cè)中存在的多峰分布情況。
2) 改進(jìn)的混合密度網(wǎng)絡(luò)可以通過所得概率密度函數(shù)量化預(yù)測(cè)結(jié)果的不確定性。經(jīng)過處理后,既可以得到點(diǎn)預(yù)測(cè)結(jié)果,也可以根據(jù)給定置信水平得到相應(yīng)置信區(qū)間。
3) 本文提出的改進(jìn)混合密度網(wǎng)絡(luò)采用魯棒性更好的t分布作為混合分量,降低了離群點(diǎn)和異常點(diǎn)對(duì)模型性能的影響。
混合分布是多個(gè)不同統(tǒng)計(jì)特性的分布函數(shù)(混合分量)的凸組合,從而達(dá)到擬合復(fù)雜分布的效果[13-14]?;旌戏植几怕拭芏群瘮?shù)表示為
(1)
混合密度神經(jīng)網(wǎng)絡(luò)是混合分布模型與前饋神經(jīng)網(wǎng)絡(luò)的結(jié)合,其中前饋神經(jīng)網(wǎng)絡(luò)的輸出被用來確定混合模型的參數(shù)。對(duì)于給定輸入樣本x,輸出目標(biāo)值為y的條件概率密度函數(shù)表示y分布上的不確定性,記為f(y|x)[15-16]。
在混合密度網(wǎng)絡(luò)(mixture density network,MDN)中,通常采用高斯分布作為混合分量,輸出的混合高斯分布表示為
(2)
然而對(duì)于厚尾分布或存在噪聲的數(shù)據(jù)集,基于高斯混合分布的混合密度網(wǎng)絡(luò)存在魯棒性較差的情況。
原始混合密度網(wǎng)絡(luò)輸入是高維的向量,包含兩個(gè)隱含層,輸出是具有多個(gè)分量的混合高斯分布。對(duì)于輸出層的不同類型參數(shù)須采用不同的處理方式,即
(3)
(4)
(5)
混合密度神經(jīng)網(wǎng)絡(luò)使用最大似然法構(gòu)造損失函數(shù),MDN的損失函數(shù)定義為
(6)
T Location-Scale分布是含有尺度參數(shù)和位置參數(shù)的t分布,t Location-Scale分布概率密度函數(shù)表示為
(7)
其中:μ、σ2分別為位置參數(shù)和尺度參數(shù)所對(duì)應(yīng)一般高斯分布的均值和方差;v為t分布的自由度;Γ為gamma函數(shù)。
如圖 1所示,給出了方差為1,均值為0,不同自由度下t Location-Scale分布的不同形狀??梢钥吹絫分布與高斯分布相似,隨著自由度v的增大,分布形態(tài)逐漸接近高斯分布,其極限分布為高斯分布,當(dāng)v>120時(shí),可近似為高斯分布處理。
圖1 不同自由度下t分布形態(tài)Figure 1 The shape of t distribution under different degree of freedom
鑒于混合高斯分布和混合t分布在處理異常值時(shí)表現(xiàn)出的魯棒性差異,混合t分布常常作為混合高斯分布的替代選型而被使用[17]。
本節(jié)提出一種改進(jìn)的t分布混合密度網(wǎng)絡(luò)(t distribution mixture density network, TDMDN),并基于TDMDN提出一種毀傷效應(yīng)預(yù)測(cè)方法,首先對(duì)效應(yīng)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行預(yù)處理,再將處理后的數(shù)據(jù)輸入TDMDN得到混合分布參數(shù),最后根據(jù)混合分布參數(shù)生成概率分布函數(shù),得到點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)結(jié)果。其框架如圖 2所示。
圖2 毀傷效應(yīng)預(yù)測(cè)方法框架Figure 2 Damage effects prediction framework
TDMDN在混合分量類型和網(wǎng)絡(luò)結(jié)構(gòu)兩個(gè)方面對(duì)MDN進(jìn)行了改進(jìn),并采用極大似然法構(gòu)造損失函數(shù)。在混合分量類型的選擇上,TDMDN使用t Location-Scale分布作為混合分量來解決高斯混合密度網(wǎng)絡(luò)中存在的魯棒性問題。對(duì)于有n個(gè)輸出混合分量的TDMDN,有4n個(gè)輸出節(jié)點(diǎn),可以分為π、μ、σ2、v四個(gè)部分,每個(gè)部分有n個(gè)節(jié)點(diǎn),其中π為各個(gè)混合分量的權(quán)重,μ、σ2、v分別對(duì)應(yīng)各個(gè)t Location-Scale分布的分布參數(shù)。對(duì)于π、μ、σ2的處理方式與原始MDN相同,t Location-Scale分布中的自由度v采用
(8)
在網(wǎng)絡(luò)結(jié)構(gòu)方面,TDMDN是由隱含層塊組成的深度結(jié)構(gòu),每個(gè)隱含層塊由多個(gè)全連接層、批歸一化層、激活層組成。其中:全連接層是神經(jīng)網(wǎng)絡(luò)中最常見的層;批處理歸一化層是用來減少初始化的影響,加速網(wǎng)絡(luò)訓(xùn)練;激活層是為模型提供非線性計(jì)算,提高網(wǎng)絡(luò)非線性擬合能力。TDMDN的結(jié)構(gòu)細(xì)節(jié)如圖 3所示。
圖3 TDMDN網(wǎng)絡(luò)結(jié)構(gòu)Figure 3 TDMDN network structure
TDMDN使用最大似然法構(gòu)造損失函數(shù),損失函數(shù)定義為
(9)
基于TDMDN的毀傷效應(yīng)預(yù)測(cè)由以下幾個(gè)步驟組成。
1) 數(shù)據(jù)預(yù)處理。首先對(duì)效應(yīng)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行異常數(shù)據(jù)處理和歸一化處理,得到標(biāo)準(zhǔn)數(shù)據(jù)。
2) TDMDN訓(xùn)練。將處理得到的標(biāo)準(zhǔn)數(shù)據(jù)輸入TDMDN進(jìn)行訓(xùn)練,采用正向傳播和反向傳播得到訓(xùn)練好的TDMDN網(wǎng)絡(luò)。
3) 毀傷效應(yīng)預(yù)測(cè)。將處理得到的標(biāo)準(zhǔn)數(shù)據(jù)輸入訓(xùn)練好的TDMDN,得到毀傷效應(yīng)分布所對(duì)應(yīng)混合分布參數(shù)。根據(jù)混合分布參數(shù)生成毀傷效應(yīng)分布函數(shù),經(jīng)過處理得到點(diǎn)預(yù)測(cè)和區(qū)間預(yù)測(cè)結(jié)果。
2.2.1數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理首先是對(duì)異常數(shù)據(jù)處理,接著進(jìn)行數(shù)據(jù)歸一化處理。
訓(xùn)練數(shù)據(jù)集中如果存在異常數(shù)據(jù),不僅會(huì)降低預(yù)測(cè)成功率,甚至?xí)?dǎo)致預(yù)測(cè)結(jié)果與真實(shí)值的偏差較大。為了保證在輸入模型前數(shù)據(jù)的規(guī)范性和正確性,采用拉伊達(dá)準(zhǔn)則(3σ準(zhǔn)則)來對(duì)效應(yīng)數(shù)據(jù)庫中的樣本集進(jìn)行異常值檢驗(yàn)和剔除。
對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行異常值檢驗(yàn)后,在構(gòu)建毀傷預(yù)測(cè)模型之前,對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,以加快模型的收斂,本文采用線性函數(shù)歸一化方法對(duì)數(shù)據(jù)進(jìn)行歸一化處理。所用公式為
(10)
其中:x為原始數(shù)據(jù);xmin和xmax分別為原始數(shù)據(jù)中的最小值和最大值;y為歸一化后的數(shù)值。
2.2.2TDMDN模型訓(xùn)練 TDMDN模型的訓(xùn)練過程由正向傳播與反向傳播兩部分組成:正向傳播時(shí),樣本以向量形式從輸入層傳入,經(jīng)過隱含層、批歸一化層、激活層的計(jì)算,從輸出層輸出;在反向傳播時(shí),通過公式(9)計(jì)算誤差梯度,然后沿著梯度下降的方向逐層返回,修改每一層神經(jīng)元的權(quán)值和偏置值。當(dāng)誤差減少到可以接受的程度或訓(xùn)練達(dá)到指定的次數(shù)時(shí),訓(xùn)練停止。
由于在模型訓(xùn)練過程中,常常出現(xiàn)梯度爆炸問題,本文針對(duì)梯度爆炸對(duì)損失函數(shù)做了一定改進(jìn)。在文獻(xiàn)[18]中,總結(jié)了MDN出現(xiàn)梯度爆炸問題的常見原因,并指出梯度爆炸問題主要來自兩個(gè)方面。
1) 最大似然估計(jì)值接近0時(shí),損失計(jì)算在取對(duì)數(shù)時(shí)會(huì)出現(xiàn)非常接近于零的值,導(dǎo)致梯度爆炸問題。
2) 自由度過大時(shí),損失計(jì)算會(huì)有一個(gè)較大的指數(shù),導(dǎo)致梯度爆炸問題。
當(dāng)梯度爆炸損失出現(xiàn)時(shí),整個(gè)訓(xùn)練過程就會(huì)失敗。針對(duì)上述原因,在TDMDN的訓(xùn)練過程中,提出以下解決方案:① 采用一個(gè)大于0的小浮點(diǎn)數(shù)與對(duì)數(shù)相加解決情況1);② 采用截?cái)喾ń鉀Q情況2),當(dāng)自由度大于120時(shí),將自由度截?cái)?令其等于120,避免損失計(jì)算中出現(xiàn)極大指數(shù)導(dǎo)致梯度爆炸問題。改進(jìn)后的損失函數(shù)為
(11)
其中:ε為大于0的小浮點(diǎn)數(shù);fk(x)為混合分量的似然,其定義為
(12)
2.2.3毀傷效應(yīng)預(yù)測(cè) 在TDMDN模型訓(xùn)練完成后,采用訓(xùn)練好的TDMDN模型進(jìn)行毀傷效應(yīng)預(yù)測(cè)。給定彈藥參數(shù)、目標(biāo)參數(shù)以及彈目交匯參數(shù),使用TDMDN模型得到毀傷效應(yīng)結(jié)果的概率分布情況。根據(jù)概率分布情況得到點(diǎn)預(yù)測(cè)結(jié)果和區(qū)間預(yù)測(cè)結(jié)果。
點(diǎn)預(yù)測(cè)結(jié)果可由混合分量期望值給出,
(13)
由于混合密度網(wǎng)絡(luò)所得概率分布是一種不規(guī)則分布,很難直接根據(jù)不同置信水平得到區(qū)間預(yù)測(cè)結(jié)果。為了獲得更加可靠有效的區(qū)間,我們按如下方式構(gòu)造預(yù)測(cè)區(qū)間。
1) 考慮到混合權(quán)重過小的混合分量的生成區(qū)間不具參考性,故在生成置信區(qū)間時(shí)選取混合權(quán)重πk(x)>(1/n)的混合分量,n為混合分量個(gè)數(shù)。
2) 對(duì)每個(gè)混合分量按照置信水平取雙側(cè)置信區(qū)間。
3) 將由2)得到的置信區(qū)間取并集得到預(yù)測(cè)區(qū)間。
本文利用文獻(xiàn)[19-20]提出的工程毀傷算法,仿真實(shí)驗(yàn)?zāi)M“某型號(hào)動(dòng)能穿甲彈”,采用五點(diǎn)瞄準(zhǔn)法對(duì)機(jī)槍堡目標(biāo)的破壞過程獲得仿真數(shù)據(jù)集,數(shù)據(jù)如表1所示。本文只展示部分實(shí)驗(yàn)數(shù)據(jù),剩余數(shù)據(jù)用省略號(hào)表示。該數(shù)據(jù)集包含工程長(zhǎng)度、工程寬度、工程高度、鋼板厚度、墻體厚度、覆土厚度、頂蓋厚度、彈藥數(shù)量和入射速度9個(gè)輸入特征,1個(gè)輸出特征為震塌比例。
表1 毀傷仿真實(shí)驗(yàn)訓(xùn)練樣本Table 1 Damage simulation experiment training samples
如圖4所示,為一組確定參數(shù),利用仿真模型進(jìn)行多次仿真,得到目標(biāo)震塌的概率分布直方圖??梢钥吹接捎谀繕?biāo)各部位材質(zhì)、厚度等物理性質(zhì)的不同,對(duì)于多瞄準(zhǔn)點(diǎn)的打擊,其結(jié)果呈現(xiàn)多峰分布的情況。
TDMDN由1個(gè)輸入層、3個(gè)隱含層、4個(gè)批處理歸一化層和1個(gè)輸出層組成,輸入層節(jié)點(diǎn)數(shù)為9,隱藏層節(jié)點(diǎn)數(shù)為84,使用了自適應(yīng)學(xué)習(xí)率優(yōu)化算法AdamW,初始學(xué)習(xí)率為0.001。
對(duì)于點(diǎn)預(yù)測(cè)結(jié)果,我們采用平均絕對(duì)百分比誤差(MAPE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)進(jìn)行評(píng)價(jià)。定義為
對(duì)于概率預(yù)測(cè)結(jié)果,需要評(píng)估獲得的預(yù)測(cè)區(qū)間。首先對(duì)區(qū)間可靠性進(jìn)行評(píng)估,預(yù)測(cè)區(qū)間覆蓋概率(PICP)被廣泛應(yīng)用于評(píng)價(jià)區(qū)間可靠性,定義為
其中:當(dāng)真實(shí)值落入預(yù)測(cè)區(qū)間,即yi∈[Li,Ui]時(shí),ci=1,否則ci=0;Li、Ui分別為預(yù)測(cè)區(qū)間的上界和下界。
狹窄的預(yù)測(cè)區(qū)間往往比寬大的預(yù)測(cè)區(qū)間更有價(jià)值,我們采用歸一化平均寬度指標(biāo)(PINAW)評(píng)價(jià)區(qū)間質(zhì)量,PINAW越小,表示預(yù)測(cè)區(qū)間越窄,預(yù)測(cè)性能越好。定義為
其中:D是基礎(chǔ)目標(biāo)范圍上、下界之間的差值,在本文中為震塌比例的上、下界之間的差值。
為了綜合考慮預(yù)測(cè)區(qū)間的覆蓋率和區(qū)間寬度,采用平均區(qū)間銳度(average interval sharpness,AIS)來評(píng)價(jià)區(qū)間整體質(zhì)量,區(qū)間銳度越大,生成的區(qū)間質(zhì)量越好。第i個(gè)預(yù)測(cè)區(qū)間的區(qū)間銳度S(xi)定義為
其中:a是置信度;AIS的定義為
該部分實(shí)驗(yàn)選擇決策樹、隨機(jī)森林、支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)模型及MDN模型與本文TDMDN模型進(jìn)行點(diǎn)預(yù)測(cè)對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)分別對(duì)各模型進(jìn)行了MAPE、RMSE、MAE評(píng)估,結(jié)果如表2所示,黑體數(shù)據(jù)為最優(yōu)結(jié)果。由表2可知TDMDN采用魯棒性更好的t分布作為混合分量,降低了離群點(diǎn)和異常點(diǎn)對(duì)模型性能的影響,故性能優(yōu)于MDN模型。相較于點(diǎn)預(yù)測(cè)模型中表現(xiàn)最好BP神經(jīng)網(wǎng)絡(luò)模型,TDMDN的MAPE降低了0.67%,RMSE降低了0.02,MAE降低了0.01,這是由于TDMDN使用多個(gè)隱含層塊組成的深度結(jié)構(gòu),具有比BP神經(jīng)網(wǎng)絡(luò)、決策樹、隨機(jī)森林更好的函數(shù)逼近和密度估計(jì)能力。
表2 點(diǎn)預(yù)測(cè)結(jié)果Table 2 Point prediction result
該部分實(shí)驗(yàn)選擇基于隨機(jī)森林的分位數(shù)回歸模型(QRF)、均值方差估計(jì)模型(MVE)、MDN模型與所提TDMDN模型在統(tǒng)一置信度下進(jìn)行對(duì)比實(shí)驗(yàn),置信度設(shè)置為95%。實(shí)驗(yàn)結(jié)果如表3所示,黑體數(shù)據(jù)為最優(yōu)結(jié)果。QRF采用分位數(shù)得到區(qū)間預(yù)測(cè)結(jié)果,而不是根據(jù)具體的分布情況,故其效果不如基于混合密度網(wǎng)絡(luò)的方法。而MVE由于僅采用單個(gè)高斯模型,不符合真實(shí)分布情況,在訓(xùn)練過程中會(huì)試圖通過增大方差來擬合多峰分布,故MVE的PICP僅比TDMDN提高了0.003,但其PINAW和AIS遠(yuǎn)不如其他方法。由于異常值干擾,TDMDN在各個(gè)指標(biāo)上都好于采用高斯核的MDN網(wǎng)絡(luò)。
表3 區(qū)間預(yù)測(cè)結(jié)果Table 3 Interval prediction result
我們?cè)O(shè)定一組固定參數(shù),利用仿真模型進(jìn)行蒙特卡洛模擬,得到目標(biāo)震塌的概率分布直方圖,即輸出震塌比例的真實(shí)分布情況。對(duì)比TDMDN、MDN、MVE三個(gè)概率模型的輸出概率分布對(duì)仿真模型真實(shí)分布的擬合情況。如圖5所示,直方圖為仿真模型進(jìn)行500次模擬得到的結(jié)果,MVE由于僅采用單個(gè)高斯模型,模型很難擬合真實(shí)分布情況,效果最差,由于異常值干擾,與TDMDN相比采用高斯核的MDN網(wǎng)絡(luò)效果較差。TDMDN對(duì)于異常值有很好的魯棒性,由于采用混合分布模型,所以能較好擬合真實(shí)分布情況,效果最好。
圖5 分布擬合情況Figure 5 Distribution fitting results
本文針對(duì)傳統(tǒng)毀傷效應(yīng)預(yù)測(cè)模型缺乏量化不確定性及高斯混合模型存在的魯棒性較差問題,提出了基于改進(jìn)混合密度神經(jīng)網(wǎng)絡(luò)的毀傷效應(yīng)預(yù)測(cè)方法,實(shí)驗(yàn)表明相對(duì)于傳統(tǒng)數(shù)據(jù)挖掘方法,所提出方法更符合毀傷評(píng)估的實(shí)際需要,其生成概率密度曲線基本擬合仿真模型多次蒙特卡洛模擬結(jié)果。與傳統(tǒng)點(diǎn)模型的單值輸出相比,概率預(yù)測(cè)的結(jié)果具有一定的容錯(cuò)率,可以更好地指導(dǎo)作戰(zhàn)籌劃。因此,未來有可能將概率預(yù)測(cè)有效地應(yīng)用于決策問題,將各種決策活動(dòng)轉(zhuǎn)化為概率決策。