陳超
摘 ? 要:針對(duì)氣象條件導(dǎo)致航班延誤難以準(zhǔn)確預(yù)測(cè)的問題,文章提出基于GP-LVM和LS-SVM的航班延誤等級(jí)預(yù)測(cè)算法。通過GP-LVM對(duì)經(jīng)過預(yù)處理的氣象數(shù)據(jù)非線性降維,得到影響航班延誤的顯著變量;對(duì)航班延誤進(jìn)行LS-SVM的延誤等級(jí)預(yù)測(cè)。仿真結(jié)果表明,文章提出的組合預(yù)測(cè)方法相對(duì)于單一SVM模型,能夠提高航班延誤等級(jí)預(yù)測(cè)準(zhǔn)確率。
關(guān)鍵詞:航班延誤;高斯過程隱變量模型;非線性降維;最小二乘支持向量機(jī)
根據(jù)《民航行業(yè)統(tǒng)計(jì)發(fā)展公報(bào)》航班不正常原因統(tǒng)計(jì)分類中,天氣原因占50%左右,復(fù)雜的航空氣象影響著航班正常的運(yùn)行,航班延誤問題逐漸增多成為民航運(yùn)輸業(yè)發(fā)展道路上的阻礙。本文對(duì)樞紐機(jī)場(chǎng)的航班運(yùn)行數(shù)據(jù)進(jìn)行分析計(jì)算,預(yù)測(cè)得出機(jī)場(chǎng)航班延誤等級(jí),給相關(guān)部門調(diào)度運(yùn)行提供依據(jù)。
氣象問題極大地影響了機(jī)場(chǎng)跑道的容量架次標(biāo)準(zhǔn),甚至在惡劣的天氣條件下關(guān)閉跑道,對(duì)航班產(chǎn)生影響的氣象因素較多,將海量數(shù)據(jù)參數(shù)引入預(yù)測(cè)模型,在運(yùn)算中使得模型訓(xùn)練時(shí)間加長(zhǎng)且預(yù)測(cè)結(jié)果出現(xiàn)偏離,降低了模型泛化性能。使用高斯過程隱變量模型(Gaussian Process Latent Variable Model,GP-LVM)降低數(shù)據(jù)的維度,減少模型的運(yùn)算量,得到影響航班進(jìn)離港航班延誤顯著變量數(shù)據(jù)矩陣,結(jié)合最小二乘支持向量機(jī)(Least Square Support Vector Regression,LS-SVM)進(jìn)行航班延誤等級(jí)預(yù)測(cè)研究。
1 ? ?高斯過程隱變量模型
高斯過程隱變量模型[1]用于N個(gè)D維觀測(cè)數(shù)據(jù)Y=[y1,…yn]∈RN×D進(jìn)行降維處理,得到向量在低維空間中信息的有效表示X=[x1,…xn]∈RN×d。模型假定向量各維度上映射fd獨(dú)立,且分布函數(shù)為高斯過程,則:
(1)
因此,參數(shù)向量的似然表示為:
(2)
參數(shù)矩陣表示為數(shù)據(jù)各維度似然乘積:
(3)
其中,K是協(xié)方差函數(shù)矩陣。
從隱空間到高維空間的映射是非線性映射的高斯過程,公式簡(jiǎn)化為:
(4)
2 ? ?最小二乘支持向量機(jī)
LS-SVM算法通過引入約束條件將二次規(guī)劃優(yōu)化轉(zhuǎn)化求解線性方程組的問題,提高運(yùn)算效率,算法對(duì)航班延誤等級(jí)進(jìn)行預(yù)測(cè)過程[2]:xi∈Rn,i=1,…l為輸入訓(xùn)練向量,yi∈Rl,yi∈{-1,1}為輸出量,根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,函數(shù)應(yīng)用的標(biāo)準(zhǔn)形式:
(5)
其中,ω為權(quán)值矢量,γ為懲罰因子,b為偏置量,為空間映射函數(shù)。
求解約束優(yōu)化問題,構(gòu)造拉格朗日等式:
(6)
其中,αi為拉格朗日乘子。
對(duì)上式進(jìn)行求偏導(dǎo)數(shù)優(yōu)化,根據(jù)上述條件得到線性方程組:
(7)
其中,為核函數(shù)矩陣,y和α為向量,I為單位矩陣,化簡(jiǎn)得到LS-SVM函數(shù)為:
(8)
3 ? ?氣象數(shù)據(jù)統(tǒng)計(jì)分析
3.1 ?數(shù)據(jù)預(yù)處理
影響航班正常運(yùn)行的氣象條件有低云、低能見度、強(qiáng)側(cè)風(fēng)、雷暴等,本文氣象數(shù)據(jù)資源來自Metar報(bào)文,從觀測(cè)點(diǎn)對(duì)機(jī)場(chǎng)氣象數(shù)據(jù)的報(bào)告中提取氣象信息,氣象數(shù)據(jù)預(yù)處理包括以下3個(gè)方面:
(1)氣象報(bào)文數(shù)據(jù)收集過程中出現(xiàn)缺失值和異常值,導(dǎo)致統(tǒng)計(jì)數(shù)據(jù)中存在噪聲和異常數(shù)據(jù)。對(duì)不完整缺失信息進(jìn)行擬合補(bǔ)全,對(duì)重復(fù)和不一致的數(shù)據(jù)進(jìn)行清洗。
(2)在氣象屬性構(gòu)造處理中對(duì)不同屬性之間的關(guān)系重新構(gòu)建,對(duì)于文字描述的氣象類別進(jìn)行定量分析,同時(shí)利用離散屬性的取值范圍實(shí)施數(shù)值化統(tǒng)計(jì)[3]。
(3)經(jīng)過屬性構(gòu)造的數(shù)據(jù)在特征選擇之前需要標(biāo)準(zhǔn)化處理。在同一維度上的數(shù)據(jù)每個(gè)樣本的數(shù)值與該樣本平均值的差值,對(duì)樣本的標(biāo)準(zhǔn)差即為歸一化處理,經(jīng)過標(biāo)準(zhǔn)化符合的正態(tài)分布。數(shù)據(jù)歸一化方程:
(9)
3.2 ?數(shù)據(jù)降維處理
經(jīng)過預(yù)處理數(shù)據(jù)量較大嚴(yán)重影響預(yù)測(cè)模型的泛化能力,原因在于多個(gè)變量的氣象因素集合屬于高維數(shù)據(jù)且有著較強(qiáng)的噪聲,導(dǎo)致預(yù)測(cè)結(jié)果較大的誤差,本文引入高斯過程隱變量模型進(jìn)行數(shù)據(jù)降維處理,GP-SVM算法流程如圖1所示,具體步驟如下:(1)經(jīng)過預(yù)處理后的氣象數(shù)據(jù)矩陣為待降維的數(shù)據(jù)。(2)降維模型選取合適核函數(shù)。(3)構(gòu)建高斯過程隱變量模型進(jìn)行參數(shù)優(yōu)化。
4 ? ?數(shù)據(jù)來源及實(shí)驗(yàn)方案
研究對(duì)象選擇某國(guó)際樞紐機(jī)場(chǎng),航班延誤數(shù)據(jù)來自VariFlight網(wǎng)站。氣象數(shù)據(jù)來自收集2017年1—9月報(bào)文數(shù)據(jù),報(bào)文以每30 min一次的頻率記錄,統(tǒng)計(jì)得到共13 104條報(bào)文數(shù)據(jù),每條報(bào)文數(shù)據(jù)包含10項(xiàng)氣象條件,氣象因素經(jīng)過預(yù)處理成為數(shù)值矩陣,部分維度數(shù)據(jù)如圖2所示。
預(yù)處理后的數(shù)據(jù)存在維度較大的問題,在模型預(yù)測(cè)分類過程中可能出現(xiàn)學(xué)習(xí)時(shí)間較長(zhǎng)的現(xiàn)象,甚至導(dǎo)致預(yù)測(cè)結(jié)果,氣象數(shù)據(jù)通過GP-SVM算法降維處理,數(shù)據(jù)變?yōu)?個(gè)維度,降維后的部分維度數(shù)據(jù)分布如圖3所示。
氣象數(shù)據(jù)經(jīng)過降維處理后,結(jié)合航班延誤數(shù)據(jù)將采集到的樣本分為191個(gè)訓(xùn)練集和82個(gè)驗(yàn)證集,將訓(xùn)練集合對(duì)LS-SVM進(jìn)行算法的學(xué)習(xí)和驗(yàn)證可以得到分類預(yù)測(cè)模型,再使用模型對(duì)測(cè)試集進(jìn)行航班延誤等級(jí)預(yù)測(cè)。對(duì)于訓(xùn)練得到LS-SVM模型采用不同的核函數(shù),預(yù)測(cè)分類準(zhǔn)確率會(huì)有所不同,經(jīng)過對(duì)比發(fā)現(xiàn)采用徑向基核函數(shù),模型分類預(yù)測(cè)的準(zhǔn)確率最高,航班延誤等級(jí)測(cè)試結(jié)果如圖4所示。
預(yù)測(cè)結(jié)果表明本文組合模型有著較高的預(yù)測(cè)精度,航班延誤等級(jí)預(yù)測(cè)準(zhǔn)確率較SVM模型提高約7%,各模型航班延誤預(yù)測(cè)情況對(duì)比如表1所示。氣象數(shù)據(jù)經(jīng)過降維處理降低信息的冗余量,縮短模型的訓(xùn)練時(shí)間,提取到矩陣的顯著變量,能夠提高航班延誤預(yù)測(cè)準(zhǔn)確率。
5 ? ?結(jié)語
本文對(duì)航班延誤問題進(jìn)行深入研究分析,發(fā)現(xiàn)引起延誤的氣象因素集合屬于高維數(shù)據(jù),結(jié)合GP-LVM將數(shù)據(jù)矩陣降維處理,解決預(yù)測(cè)過程出現(xiàn)維度災(zāi)難問題。
將降維得到的顯著變量作為向量輸入模型,降低特征之間的冗余性,提高LS-SVM分類對(duì)航班延誤進(jìn)行等級(jí)預(yù)測(cè)精度。
由于氣象因素引起航班延誤甄別可能出現(xiàn)誤差,在本文的延誤等級(jí)預(yù)測(cè)結(jié)果發(fā)現(xiàn),預(yù)測(cè)準(zhǔn)確度較其他類型有所降低,希望后續(xù)有新的方法會(huì)提高準(zhǔn)確率。
[參考文獻(xiàn)]
[1]潘武生,黃玉水.一種基于高斯過程隱變量模型的表情識(shí)別方法[J].計(jì)算機(jī)仿真,2018(3):341-344.
[2]張瑞,李可,宿磊,等.深度稀疏最小二乘支持向量機(jī)故障診斷方法研究[J].振動(dòng)工程學(xué)報(bào),2019(6):1104-1113.
[3]王時(shí)敏.惡劣天氣對(duì)航班延誤影響的初步量化研究[D].南京:南京航空航天大學(xué),2017.
Study on flight delay grade prediction based on GP-LVM and LS-SVM
Chen Chao
(College of Aviation Engineering, Civil Aviation University of China, Tianjin 300300, China)
Abstract:This paper establishes a combined flight delay prediction model based on GP-LVM and LS-SVM according to the difficulty in accurately predicting flight delays due to meteorological conditions. GP-LVM is used to reduce the dimension of preprocessed meteorological data nonlinearly, and the significant variables affecting flight delay are obtained. According to the classification verification results of LS-SVM, the next dimension reduction iteration was carried out. The simulation results showed that, the prediction accuracy of combined prediction method was improved compared with SVM.
Key words:flight delay; Gaussian process latent variable model; nonlinear dimensionality reduction; least square support vector regression