曹衛(wèi)東 張金迪 劉晨宇
摘?要:機場間的延誤時空關(guān)系復(fù)雜,多數(shù)研究只聚焦于時間維相關(guān)性,導(dǎo)致延誤預(yù)測精度不高.提出一種融合多機場時空相關(guān)性的ST-LightGBM模型預(yù)測機場離港航班延誤.首先,構(gòu)建多機場延誤時空圖數(shù)據(jù);然后,通過圖卷積神經(jīng)網(wǎng)絡(luò)提取延誤信息空間特征,同時長短時記憶網(wǎng)絡(luò)對機場各節(jié)點延誤時間序列進行時間特征提取,形成具有時空相關(guān)性的二維特征向量;最后,將時空維特征向量輸入LightGBM實現(xiàn)機場離港航班延誤數(shù)量預(yù)測,在訓(xùn)練過程中引入貝葉斯優(yōu)化算法進行參數(shù)尋優(yōu).結(jié)合真實數(shù)據(jù)實驗,對中國樞紐機場延誤數(shù)據(jù)進行時空維度關(guān)系提取并預(yù)測.結(jié)果表明,本文模型相比于其他基準模型具有較好的預(yù)測準確性.
關(guān)鍵詞:LightGBM;圖卷積神經(jīng)網(wǎng)絡(luò);長短時記憶網(wǎng)絡(luò);時空相關(guān)性;機場延誤預(yù)測
中圖分類號:TP183
文獻標志碼: A
文章編號:2096-398X(2023)04-0166-07
Abstract:The spatio-temporal relationship of delay between airports is complex,and most studies only focus on the correlation of time dimension,which leads to the low accuracy of delay prediction.This paper proposes a ST-LightGBM model that integrates the spatio-temporal correlation of multiple airports to predict airport departure flight delays.Firstly,the spatio-temporal graph data of multi-airport delay is constructed;Then,the spatial features of delay information are extracted by graph convolution neural network,and the temporal features of the delay time series of each node of the airport are extracted by long short term memory network to form a two-dimensional feature vector with spatio-temporal correlation; Finally,input the spatio-temporal feature vector into LightGBM to predict the number of airport departure flight delays,and introduce Bayesian optimization algorithm to optimize parameters in the training process.Combined with the real data experiment,the spatio-temporal dimensions of the delay data of the hub airports in China are extracted and predicted.The results show that this model has better prediction accuracy than other benchmark models.
Key words:LightGBM;Graph Convolution Neural Network(GCN);Long Short Term Memory Network (LSTM);spatio-temporal correlation;airport delay prediction
0?引言
近年來,隨著航空運輸業(yè)的快速發(fā)展,航線網(wǎng)絡(luò)擁堵日益嚴重,由于中國民航交通網(wǎng)具有小世界性[1],源機場航班延誤往往會沿著航線傳播至關(guān)聯(lián)機場,加劇網(wǎng)絡(luò)擁堵狀態(tài)[2],而樞紐機場發(fā)生大面積航班延誤則會造成民航網(wǎng)絡(luò)整體癱瘓,對經(jīng)濟發(fā)展造成極大影響.由于各機場間延誤關(guān)聯(lián)十分復(fù)雜,因此深度挖掘機場間延誤的時空關(guān)聯(lián)性,并對未來時刻航線網(wǎng)絡(luò)節(jié)點延誤狀態(tài)進行準確預(yù)測,對民航發(fā)展有著重大意義.
在機場航班延誤預(yù)測方面,現(xiàn)有研究大多以傳統(tǒng)算法與機器學(xué)習(xí)算法為主.岳仁田等[3]建立了分時段航班起飛延誤的物元可拓模型,并對多機場航班延誤程度進行了預(yù)測;張兆寧等[4]基于O-D場的概念對延誤傳播程度進行了量化,最終建立了延誤傳播的狀態(tài)空間模型;王帝[5]通過多維度標法對機場航班延誤關(guān)聯(lián)性進行了分析,并通過預(yù)測延誤提出了航班時刻優(yōu)化方法.以上傳統(tǒng)算法隨著航班數(shù)據(jù)量及維度的增加導(dǎo)致模型求解時間增加,求解難度上升.而機器學(xué)習(xí)算法則更好的解決了數(shù)據(jù)量大,延誤關(guān)系復(fù)雜導(dǎo)致的求解困難的問題.集成學(xué)習(xí)作為機器學(xué)習(xí)最熱門的研究領(lǐng)域之一,在延遲預(yù)測問題上多有應(yīng)用.A.Anee等[6]和吳仁彪等[7]利用隨機森林算法訓(xùn)練數(shù)據(jù)集并完成機場航班延誤預(yù)測;R.Shi等[8]提出貝葉斯優(yōu)化XGBoost算法的數(shù)據(jù)驅(qū)動模型預(yù)測火車到達延誤;N.L.Kalyani等[9]、唐紅等[10]、羅杰等[11]將XGBoost模型與不同算法結(jié)合使其更好的適用于高維度的復(fù)雜的非線性航班運行數(shù)據(jù);G Ke等[12]在XGBoost的基礎(chǔ)上提出了LightGBM模型,由于LightGBM占用的內(nèi)存更低、訓(xùn)練速度更快,因此在氣象預(yù)測[13]、交通預(yù)測[14]和航班延誤預(yù)測[15-17]等方面廣泛應(yīng)用.何堅等[15]通過LightGBM預(yù)測航班有效中轉(zhuǎn)時間;J.Tao等[16]等采用網(wǎng)格搜索和交叉驗證方法優(yōu)化LightGBM模型參數(shù);丁建立等[17]通過對LightGBM采用貝葉斯調(diào)參完成航班延誤多分類預(yù)測.以上研究都取得了較好的預(yù)測效果,但大多以某一特定機場為研究對象忽略了機場間的相關(guān)性,且都需要大量航班數(shù)據(jù)及天氣數(shù)據(jù)作為模型訓(xùn)練樣本,容易產(chǎn)生維度爆炸問題,并且初步人工特征選擇對模型訓(xùn)練效果影響極大.
集成學(xué)習(xí)類算法在航班延誤預(yù)測方面應(yīng)用廣泛,但大多針對某一機場對航班延誤等級做分類預(yù)測,忽略了關(guān)聯(lián)機場的影響且對航班運行數(shù)據(jù)的時空特征關(guān)系提取仍有提高空間.針對以上問題,本文提出一種融合多機場時空相關(guān)性的時空輕量級梯度提升機模型(Spatio-temporal Light Gradient Boosting Machine,ST-LightGBM)用于機場離港航班延誤數(shù)量預(yù)測.該算法以機場作為節(jié)點,航線作為連接,機場離港航班延誤量的時間序列作為節(jié)點特征構(gòu)建時空延誤圖數(shù)據(jù),將圖數(shù)據(jù)輸入到 ST-LightGBM模型實現(xiàn)機場延誤數(shù)據(jù)的時空特征學(xué)習(xí)并預(yù)測.通過將多機場航班運行數(shù)據(jù)映射為具有時空相關(guān)性的二維特征向量提高了預(yù)測精度.
1?延誤時空圖數(shù)據(jù)構(gòu)建
1.1?數(shù)據(jù)來源
由于延誤多是以樞紐機場作為中心向周邊傳遞影響,因此本文選取中國樞紐機場作為主要研究對象,多機場時空關(guān)聯(lián)網(wǎng)絡(luò)圖如圖1所示.
1.2?數(shù)據(jù)預(yù)處理
原始航班數(shù)據(jù)包含航班號、航司名稱、出發(fā)機場、到達機場、機齡、機型等102個特征,由于特征項維度高且特征值數(shù)據(jù)存在大量重復(fù)和缺失的問題,不僅會導(dǎo)致維度爆炸還會影響預(yù)測結(jié)果的準確性,因此需要對數(shù)據(jù)進行進一步處理.
(1)數(shù)據(jù)清洗
本文選取機場每小時離港航班延誤量作為機場延誤時空關(guān)聯(lián)性的研究對象并進行預(yù)測,因此保留航班號、出發(fā)機場、到達機場、計劃離港時間、實際離港時間等相關(guān)特征項.由于重要特征項缺失特征值會導(dǎo)致整條數(shù)據(jù)無法使用,對不同缺失特征值的特征項處理方法見表1所示.
根據(jù)延誤定義,實際離港時間超過計劃離港時間15分鐘以上的航班定義為離港延誤航班,航班離港延誤時間計算方法如下:
式(1)中:depdelay_time為航班離港延誤時間,atd為實際離港時間,ptd為計劃離崗時間.
將延誤時間超過12 h的數(shù)據(jù)視為異常值,用線性插值法進行修改.
式(2)中:y為插入值,y0為上一時刻延誤時長,y1為下一時刻延誤時長.
(2)數(shù)據(jù)標準化
數(shù)據(jù)標準化可以消除不同指標間的不同量綱,提高模型訓(xùn)練科學(xué)性,在模型訓(xùn)練完后對輸出值需進行反歸一化過程,從而獲得所需要的預(yù)測值.其公式如下:
式(3)中:xmax為指標x最大值,xmin為指標x最小值,xscale為歸一化后的指標x.
1.3?多機場延誤時空圖數(shù)據(jù)
機場航班延誤在空間上多依賴機場間通航航線向四周傳播發(fā)散影響,時間上則與機場歷史延誤數(shù)據(jù)相關(guān),因此目標機場的延誤是關(guān)聯(lián)機場延誤信息與目標機場歷史延誤信息的聚合,目標機場的延誤狀態(tài)受其關(guān)聯(lián)機場及其自身歷史延誤狀態(tài)的影響.因此可將不同時刻的多機場航線網(wǎng)絡(luò)作為不同的圖進行處理,每張圖中的機場作為節(jié)點具有共同的連接關(guān)系及不同的延誤狀態(tài),即不同時刻各機場離港航班延誤量不同.t+1時刻機場節(jié)點的延誤狀態(tài)是聚合t時刻關(guān)聯(lián)機場節(jié)點延誤信息及自身節(jié)點歷史延誤狀態(tài)信息的結(jié)果.根據(jù)有向圖定義Gt=(Vt,Aij,E),Gt是t時刻航線網(wǎng)絡(luò)延誤數(shù)據(jù)圖;Vt為t時刻機場節(jié)點集合,|Vt|代表機場節(jié)點數(shù)量;Aij是帶有權(quán)重的鄰接矩陣,其權(quán)值Wij表示機場i與j間關(guān)聯(lián)強度,反映機場i對機場j的影響度;E是邊集,代表機場間連接性.因此,多機場延誤時空圖數(shù)據(jù)結(jié)構(gòu)可表示為圖2.
2?ST-LightGBM模型
ST-LightGBM是在LightGBM的基礎(chǔ)上增加了對延誤數(shù)據(jù)時空維度的提取,從而通過學(xué)習(xí)時空特征以提高預(yù)測準確性.最后,再使用貝葉斯優(yōu)化對模型調(diào)參,進一步保障了模型精度.
ST-LightGBM前端由圖卷積層和長短時記憶網(wǎng)絡(luò)構(gòu)成,完成對輸入數(shù)據(jù)時空特征的提取,形成具有歷史延誤信息和空間延誤信息的二維時空特征向量;模型后端由貝葉斯優(yōu)化的LightGBM組成,對時空維特征向量進行融合并預(yù)測.ST-LightGBM模型預(yù)測框架如圖3所示.
圖3所示的模型預(yù)測過程大致分為以下5個步驟:
Step1?構(gòu)建時空圖數(shù)據(jù)輸入到ST-LightGBM模型中.
Step2?利用LSTM細胞單元門結(jié)構(gòu)提取延誤數(shù)據(jù)時間特征,通過GCN圖卷積層提取延誤數(shù)據(jù)空間特征.
Step3?將具有時空相關(guān)性的二維特征向量輸入LightGBM中訓(xùn)練模型.
Step4?貝葉斯優(yōu)化,得到預(yù)測精度更高的參數(shù)值.
Step5?獲得下一時刻中時間序列的機場離港航班延誤量預(yù)測值.
2.1?延誤數(shù)據(jù)時間特征提取
從時間維度層面上看,機場航班延誤數(shù)據(jù)是典型的的時序數(shù)據(jù),t時刻機場延誤狀態(tài)受歷史時刻機場延誤狀態(tài)的影響.LSTM采用一種重復(fù)的神經(jīng)網(wǎng)絡(luò)模塊的鏈式形式,可以學(xué)習(xí)時間序列數(shù)據(jù)隱藏的時間相關(guān)性,且通過其獨特的構(gòu)造具有長時記憶的功能,可以避免延誤的長時影響效果丟失.因此選擇LSTM通過對機場信息的時間序列進行信息的提取與保存,提取機場延誤的時間特征,其長短時記憶細胞內(nèi)部由輸入門、遺忘門、輸出門三部分組成,其原理如圖4所示,具體過程如圖5所示.
經(jīng)過LSTM細胞單元后,機場節(jié)點的延誤信息被該機場節(jié)點相鄰時間片信息更新.
延誤數(shù)據(jù)時間特征ut計算公式如下:
式(6)~(11)中:ft是遺忘門的輸出;it為輸入門的輸出;ot為輸出門的輸出.ut-1為長短時記憶細胞的隱層狀態(tài);u′t是當前延誤信息的輸入;σ為sigmod函數(shù);tanh函數(shù)生成候選向量[AKc~]t;w和b為權(quán)重和偏置量.
2.2?延誤數(shù)據(jù)空間特征提取
從空間維度層面看,目標機場延誤狀態(tài)與其關(guān)聯(lián)機場延誤狀態(tài)有關(guān).GCN[18]主要是在圖結(jié)構(gòu)數(shù)據(jù)特征基礎(chǔ)上,采用多層圖卷積層對各機場節(jié)點的延誤信息特征向量進行空間關(guān)聯(lián)性捕捉.一層圖卷積只可以提取一階鄰居機場的信息,為提高機場節(jié)點提取周圍機場節(jié)點信息的能力獲得更抽象的空間特征表達,本文采用兩層圖卷積,具體過程如圖6所示,延誤數(shù)據(jù)空間特征us計算公式如下:
2.3?時空特征融合并預(yù)測
LightGBM模型是對梯度提升決策樹的技術(shù)實現(xiàn),是通過訓(xùn)練若干弱分類器并集成的算法,針對XGBoost在多維數(shù)據(jù)集下計算效果差的問題,LightGBM通過基于Histogram的決策樹算法、單邊梯度采樣、互斥特征捆綁與帶深度限制的Leaf-wise的葉子生長策略等算法提高了其對于多維大數(shù)據(jù)的學(xué)習(xí)能力,具有訓(xùn)練速度快和內(nèi)存占用率低的特點.LightGBM在延誤預(yù)測方面應(yīng)用成熟,因此選用LightGBM融合時空維特征向量并預(yù)測.
LightGBM通過損失函數(shù)的負梯度對提升決策樹進行模型訓(xùn)練,其公式如下:
式(14)~(16)中:fn(u)是延誤預(yù)測值,T(u,θn)是決策樹,θn是決策樹參數(shù),N為決策樹個數(shù),[AKθ^]n為θn的估計值,ut是通過LSTM提取的延誤數(shù)據(jù)的時間特征,us是通過GCN提取的延誤數(shù)據(jù)空間特征.
2.4?貝葉斯優(yōu)化
采用貝葉斯優(yōu)化調(diào)整模型參數(shù),即通過采用高斯過程考慮之前的參數(shù)信息,不斷更新先驗信息,從而更好地調(diào)整最優(yōu)參數(shù),其較網(wǎng)格調(diào)參及隨機調(diào)參,收斂速度更快,效果更好.其具體流程如圖7所示.經(jīng)貝葉斯優(yōu)化后的參數(shù)結(jié)果如表2所示.
3?實驗結(jié)果及分析
3.1?評估指標
本文為回歸預(yù)測模型,因此選取平均絕對誤差(Mean Absolute Error,MAE),均方根誤差(Root Mean Square Error,RMSE),作為模型評價指標,公式如下:
3.2?對比實驗
3.2.1?不同模型對比
為驗證本文模型可靠性,以某一大型樞紐機場預(yù)測結(jié)果為例,將本文模型與RF、XGBoost、LightGBM、ST-RF、ST-?XGBoost五個基準模型做對比,整體預(yù)測性能見表3所示.為更好表示模型間性能區(qū)別,選取某一天繁忙時段,即早8點到晚22點單位小時內(nèi)不同模型的MAE值進行可視化,見圖8所示.為保證結(jié)果的普適性,隨機截取一段時間,將預(yù)測值與真實值擬合效果可視化,圖9為本文模型和真實值的擬合效果圖.
表3顯示了ST-LightGBM模型在各個評價指標方面均優(yōu)于基線模型,MAE指標相比于基準模型均降低超過0.423 2,RMSE指標相比于基準模型均降低超過0.541 4.實驗證明,本文模型具有較好的預(yù)測準確性.分別對比RF與ST-RF、XGBoost與ST-?XGBoost、LightGBM與ST-?LightGBM的評價指標,可以看出添加時空特性的機器學(xué)習(xí)算法ST-RF、ST-XGBoost、ST-LightGBM預(yù)測效果均優(yōu)于其原本的基礎(chǔ)算法,這是因為RF、XGBoost、LightGBM對機場延誤數(shù)據(jù)之間隱含的時空關(guān)系學(xué)習(xí)有限,由此可見,將機場數(shù)據(jù)映射為時空維數(shù)據(jù)是有必要且具有很好的可行性.
圖8為各個模型在繁忙時段不同時刻的MAE值,MAE值能直觀反映模型預(yù)測效果,MAE值越小,代表預(yù)測效果越準確.從圖8可以看出,本文模型的MAE值整體上始終小于其他基準模型,實驗結(jié)果驗證了本文模型有效提升了預(yù)測精度.圖9為本文模型預(yù)測值與真實值的擬合效果圖,從圖9可以看出本文模型預(yù)測結(jié)果與真實值擬合程度較高,能夠很好預(yù)測單位時間內(nèi)機場離港航班延誤量.
綜上所述,本文提出的ST-LightGBM模型能夠很好的將十個機場的高維數(shù)據(jù)映射成時間、空間上的二維數(shù)據(jù)且良好的學(xué)習(xí)機場間的時空相關(guān)性,且預(yù)測結(jié)果精度較高.
3.2.2?高延誤日對比
為比較模型面對突發(fā)情況的預(yù)測性能,選取大型樞紐機場發(fā)生大面積航班延誤的單日航班運行數(shù)據(jù)作為測試集.2018年12月20日該機場離港航班共計321架,離港延誤航班共計239架,機場離港準點率約為26%,該日可視為高延誤日.高延誤日不同模型性能對比見表4所示.
從表4可以看出,在發(fā)生大面積航班延誤時,ST-LightGBM模型相比于其他模型仍能保持較好的預(yù)測性能,添加了時空特性的機器學(xué)習(xí)較其基礎(chǔ)算法對突發(fā)信息更敏感,預(yù)測精度更高.對高延誤日預(yù)測結(jié)果分析,證明了本文模型的有效性且適用于各種延誤情況.
綜上所述,不同情況下的預(yù)測結(jié)果進一步驗證了本文模型具有較強的魯棒性和泛化能力,不僅在正常情況下預(yù)測性能好,在發(fā)生大面積延誤的情況下預(yù)測效果依舊優(yōu)于相關(guān)基準算法.
4?結(jié)論
針對機場間關(guān)系復(fù)雜導(dǎo)致機場延誤預(yù)測精度低的難題,本文提出一種基于延誤時空圖數(shù)據(jù)的融合多機場時空相關(guān)性的ST-LightGBM模型.該模型通過GCN圖卷積層、LSTM細胞單元門結(jié)構(gòu)分別提取機場延誤數(shù)據(jù)的空間特征和時間特征,并將多機場的數(shù)據(jù)映射為具有空間相關(guān)性和時間相關(guān)性的特征向量;然后將具有時空特性的二維特征向量輸入到LightGBM模型并預(yù)測.對中國某大型樞紐機場通過真實航班運行數(shù)據(jù)實驗分析,結(jié)果表明ST-LightGBM可良好的捕捉分析機場間的時空相關(guān)性,相較于RF、XGBoost、LightGBM、ST-RF、ST-?XGBoost,預(yù)測結(jié)果均有不同程度的提升,為民航預(yù)測機場延誤提供了新的可靠的方法.在本文基礎(chǔ)上,下一步考慮將實時天氣因素作為影響因子優(yōu)化模型,提高模型預(yù)測效果.
參考文獻
[1] 張皓瑜.基于復(fù)雜網(wǎng)絡(luò)理論的航班延誤傳播特性研究[D].南京:南京航空航天大學(xué),2018.
[2] Q.Wu,M.Hu,X.Ma,et al.Modeling flight delay propagation in airport and airspace Network[C]//2018 21st International Conference on Intelligent Transportation Systems (ITSC).Maui,Hawaii ,USA:IEEE,2018:3 556-3 561.
[3] 岳仁田,魏子琦.基于物元二次可拓多機場起飛延誤關(guān)聯(lián)性分析及預(yù)測[J].科學(xué)技術(shù)與工程,2014,14(28):298-302.
[4] 張兆寧,王晶華.機場大面積航班延誤傳播的狀態(tài)空間模型[J].科學(xué)技術(shù)與工程,2018,18(31):241-245.
[5] 王?帝.關(guān)聯(lián)機場的航班時刻優(yōu)化研究[D].天津:中國民航大學(xué),2020.
[6] A.Anees ?W.Huang.Flight delay prediction:Data analysis and model development[C]//2021 26th International Conference on Automation and Computing (ICAC).Portsmouth,United Kingdom:IEEE,2021:1-6.
[7] 吳仁彪,李佳怡,屈景怡.融合氣象數(shù)據(jù)的并行化航班延誤預(yù)測模型[J].信號處理,2018,34(5):505-512.
[8] R.Shi,X.Xu.A train arrival delay prediction model using XGBoost and bayesian optimization[C]//2020 IEEE 23rd International Conference on Intelligent Transportation Systems (ITSC).Rhodes,Greece :IEEE,2020:1-6.
[9] N.L.Kalyani,G.Jeshmitha,M.Samanvitha,et al.Machine learning model-based prediction of flight delay[C]//2020 Fourth International Conference on I-SMAC (IoT in Social,Mobile,Analytics and Cloud) (I-SMAC).Coimbatore,India:IEEE,2020:577-581.
[10] 唐?紅,王?棟,宋?博,等.基于非線性賦權(quán)XGBoost算法的航班延誤分類預(yù)測[J].系統(tǒng)仿真學(xué)報,2021,33(9):2 261-2 269.
[11] 羅?杰,侯?霞,楊鴻波,等.基于集成學(xué)習(xí)的離港航班延誤預(yù)測方法[J].計算機工程與設(shè)計,2022,43(4):1 145-1 151.
[12] G Ke,Q Meng,T Finley,et al.Lightgbm:A highly efficient gradient boosting decision tree[C]// 31st Conference on Neural Information Processing Systems (NIPS 2017).Long Beach,CA,USA:Curran Associates Inc,2017:3 146-3 154.
[13] 余東昌,趙文芳,聶?凱,等.基于LightGBM算法的能見度預(yù)測模型[J].計算機應(yīng)用,2021,41(4):1 035-1 041.
[14] 王芳杰,王福建,王雨晨,等.基于LightGBM算法的公交行程時間預(yù)測[J].交通運輸系統(tǒng)工程與信息,2019,19(2):116-121.
[15] 何?堅,果紅艷,卞?磊,等.基于有效中轉(zhuǎn)時間預(yù)測的不正常航班恢復(fù)技術(shù)[J].北京航空航天大學(xué)學(xué)報,2022,48(3):384-393.
[16] J.Tao,H.Man,L.Yanling.Flight delay prediction based on LightGBM[C]// 2021 IEEE 3rd International Conference on Civil Aviation Safety and Information Technology (ICCASIT).Harbin,China:IEEE,2021:1 248-1 251.
[17] 丁建立,孫?玥.基于LightGBM的航班延誤多分類預(yù)測[J].南京航空航天大學(xué)學(xué)報,2021,53(6):847-854.
[18] L.Zhao,C.Zhang,Y.Liu,et al.T-GCN:A temporal graph convolutional network for traffic prediction[J].IEEE Transactions on Intelligent Transportation Systems,2020,21(9):3 848-3 858.
【責任編輯:蔣亞儒】
基金項目:國家自然科學(xué)基金項目(U2033205)
作者簡介:曹衛(wèi)東(1964—),女,天津人,教授,研究方向:數(shù)據(jù)庫與數(shù)據(jù)挖掘、民航信息系統(tǒng)