譚 哲,龔艷春,楊云濤,冷 坤
(陸軍工程大學(xué)基礎(chǔ)部,江蘇 南京 211101)
激光經(jīng)過大氣傳輸后到達靶目標(biāo)處一定面積內(nèi)的光功率密度分布是衰減效應(yīng)、湍流效應(yīng)和非線性熱暈效應(yīng)共同作用的結(jié)果,與激光的初始狀態(tài)、傳輸路徑上的大氣環(huán)境密切相關(guān)。通過對靶目標(biāo)處的光功率換算,可以得到環(huán)圍功率(PIB)、遠場光斑半徑、衍射極限倍數(shù)等光束質(zhì)量評價因子,以實現(xiàn)對激光大氣傳輸效應(yīng)的評估。對激光大氣傳輸效應(yīng)進行評估研究,根據(jù)分析方法和采用模型的不同,主要有波動光學(xué)模型評估方法、定標(biāo)律模型評估方法和統(tǒng)計分析模型評估方法[1]。波動光學(xué)模型評估方法是基于波動光學(xué)方程,通過多層相位屏方法建立的激光大氣傳輸仿真軟件;定標(biāo)律模型評估方法是將不同的激光系統(tǒng)參數(shù)輸入仿真軟件經(jīng)計算獲得了激光傳輸規(guī)律,而后加入特征參數(shù)進行擬合,得出定標(biāo)公式。統(tǒng)計分析模型評估方法的原理是基于外場設(shè)備時時測量、數(shù)據(jù)統(tǒng)計分析和機器學(xué)習(xí)等技術(shù),研究各類輸入?yún)?shù)對傳輸效應(yīng)的影響。
本文在機器學(xué)習(xí)的基礎(chǔ)上,采用RF算法。RF基于2014年1月煙臺地區(qū)某地實際大氣環(huán)境數(shù)據(jù)[5]、激光發(fā)射參數(shù)以及上述兩類數(shù)據(jù)通過相位屏模型[6]獲取仿真數(shù)據(jù)(包括PIB、遠場光斑半徑、衍射極限倍數(shù)等光束質(zhì)量評價因子,本文選取PIB作研究對象),對PIB進行預(yù)測,并將預(yù)測結(jié)果與相位屏生成的PIB比較,檢驗其擬合能力。同時為了評價模型的準確性和可靠性,分別采用RF、SVM[4]從均方根誤差(ERMS)、平均絕對誤差(EMA)和平均相對誤差(EMR)等方面進行比較,以實現(xiàn)對激光大氣傳輸效應(yīng)的評估。
RF算法是一種基于決策樹的集成算法,它利用Bootstrap重采樣技術(shù),以隨機的模式來構(gòu)建森林,采用Bagging算法有放回的從原始訓(xùn)練集取樣得到多個訓(xùn)練集,而后用每一個訓(xùn)練集進行訓(xùn)練得到相應(yīng)的決策樹模型[7]來組建立“森林”。決策樹通過選擇最優(yōu)特征在樹的每個節(jié)點不停進行分類,直到達到樹成型的停止條件[8]。決策樹的分支結(jié)點所包含的樣本盡可能屬于同一類別,即結(jié)點的“純度”越高。信息增益和Gini是提高樣本“純度”的最佳方式,信息增益使用“信息熵”表征“純度”的高低,數(shù)據(jù)集D的信息熵公式為:
(1)
Ent(d)的值越小,D的“純度”的越高。 表示任意類別樣本 占數(shù)據(jù)集D的概率假定離散屬性A有k個值,用特征A對D進行劃分,D會被劃分為k個部分,此時可用特征A分割結(jié)點的信息增益用Gain(D,A)表示,公式如下:
(2)
數(shù)據(jù)集D的純度還可用基尼指數(shù)來衡量,基尼指數(shù)越小,D的純度越高。公式如下:
(3)
(4)
由于本文處理的是激光發(fā)射參數(shù)、大氣環(huán)境參數(shù)和PIB的關(guān)系,因此采用隨機森林回歸(random forest for regression,RFR)算法。隨機森林回歸[9]模型是通過與隨機向量θ有關(guān)的決策樹構(gòu)成的,模型的預(yù)測結(jié)果是k棵決策樹的{h(X,θi,i=1,2,…,k)}均值。
(5)
式中,fRFR表示RFR模型的結(jié)果。
圖1 隨機森林建模步驟的結(jié)構(gòu)框圖
將模型在測試集上的ERMS、EMA、EMR作為評價模型預(yù)測精度的指標(biāo)。變量值與預(yù)測值的相關(guān)系數(shù)(R)作為模型模擬結(jié)果與實際值的吻合程度的衡量指標(biāo)。ERMS、EMA和EMR的值越小,R的絕對值越接近1,表明模型的預(yù)測效果越好。定義式如下:
(6)
(7)
(8)
(9)
圖2 RFR中數(shù)據(jù)來源
隨機森林模型在構(gòu)建過程中,兩個關(guān)鍵參數(shù)決策樹數(shù)量(n_estimators)和最大的樹深度(max_depth)的選取可采用學(xué)習(xí)曲線法和網(wǎng)格搜索法。具體過程先使n_estimato-rs的值使參數(shù)局部最優(yōu),在前述基礎(chǔ)上再求max_depth的值使參數(shù)局部最優(yōu),通過兩次參數(shù)調(diào)整實現(xiàn)全局最優(yōu)。光束質(zhì)量評價因子PIB預(yù)測模型的最優(yōu)參數(shù)學(xué)習(xí)曲線圖法如圖4所示。
網(wǎng)格搜索法可選用調(diào)參算法(如Grid Search)對n_estimators、max_depth一并搜索,得出n_estimators:79,max_depth:17,模型在測試集上相關(guān)系數(shù)為0.878。對比上述兩種方法,隨機森林模型采用學(xué)習(xí)曲線法可以得到最優(yōu)參數(shù)n_estimators:88,max_depth:12,模型相關(guān)系數(shù)為0.906。
圖5(a)、5(b)給出了RFR的PIB的預(yù)測結(jié)果散點圖,圖中直線表示預(yù)測值與仿真值相等的情況,數(shù)據(jù)點越接近圖中直線,相關(guān)系數(shù)越大,代表自變量對因變量的解釋程度越高。從圖5中結(jié)果可知,PIB模型訓(xùn)練集與測試集的數(shù)據(jù)點基本位于直線上,說明模型的擬合程度較高,預(yù)測誤差較小。測試集平均絕對誤差為0.015 %,平均相對誤差為0.017 %,均方根誤差為0.021 %。通過10次交叉驗證的檢驗分析技術(shù),求得模型均方根誤差均值為0.035 %。因為0.021 %小于0.035 %,在平均均方根誤差范圍內(nèi),即模型構(gòu)建符合要求。
圖5(c)、5(d)中為SVM的PIB預(yù)測結(jié)果散點圖,圖中模型在預(yù)測集上預(yù)測精度為0.901,測試集平均絕對誤差為0.61 %,平均相對誤差為0.53 %,均方根誤差為0.44 %。從圖5(a)、5(b)和圖5(c)、5(d)結(jié)果分析中可知,RFR比SVM的相關(guān)系數(shù)大,且RFR的ERMS、EMA、EMR更低。表明RFR比SVM的預(yù)測精度高,RFR較SVM能更好地擬合自變量和因變量間的回歸關(guān)系。
本文參照2014年1月煙臺地區(qū)相關(guān)數(shù)據(jù)分布結(jié)合隨機采樣方法,通過多層相位屏模型獲取了更接近實際的仿真數(shù)據(jù)。從仿真數(shù)據(jù)出發(fā),基于隨機森林回歸算法構(gòu)建了激光大氣傳輸效應(yīng)評估模型,研究了激光發(fā)射參數(shù)和大氣環(huán)境參數(shù)對PIB的影響。結(jié)果表明:
(1)訓(xùn)練集、測試集的預(yù)測結(jié)果與仿真數(shù)據(jù)的均方根誤差優(yōu)于0.021 %,同時在經(jīng)過交叉驗證所得均方根誤差均值0.035 %范圍內(nèi),模型符合要求。
(2)隨機森林比支持向量機能更好的擬合激光初始功率、能見度、湍流強度、風(fēng)速、溫度、傳輸距離與PIB的多元回歸關(guān)系,擬合程度為0.906。
(3)PIB分別與激光風(fēng)速、溫度、能見度呈弱相關(guān)性,與湍流強度呈中等程度相關(guān)性,與傳輸距離呈強相關(guān)性。
(4)基于隨機森林的輸入變量重要性排序為:傳輸距離>湍流強度>風(fēng)速>溫度>能見度。