丁建立 楊錕
摘 要:為破除XGBoost模型的黑盒特性,增強(qiáng)模型的說(shuō)服性,提出一種基于SHAP的可解釋性航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)模型。首先,對(duì)航班歷史數(shù)據(jù)、天氣數(shù)據(jù)進(jìn)行融合,在融合數(shù)據(jù)的基礎(chǔ)上進(jìn)行異常值處理,并利用遞歸特征消除方法進(jìn)行特征選擇;其次,構(gòu)建航班延誤時(shí)長(zhǎng)預(yù)測(cè)模型,利用遺傳算法進(jìn)行參數(shù)調(diào)優(yōu),并與目前常用的模型進(jìn)行對(duì)比;最后,在航班延誤時(shí)長(zhǎng)預(yù)測(cè)的基礎(chǔ)上結(jié)合SHAP模型,從總體特征和特征間的相互關(guān)系2個(gè)角度分析特征的重要程度。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)遺傳算法調(diào)優(yōu)的XGBoost模型預(yù)測(cè)精度更高,其中MAE降低了8.94%,RMSE降低了19.85%,MAPE降低了6.15%,且其模型精度更高。因此,SHAP模型破除了XGBoost模型的黑盒特性,增強(qiáng)了模型的可解釋性,可為降低航班延誤時(shí)長(zhǎng)提供技術(shù)支持。
關(guān)鍵詞:航空運(yùn)輸管理;延誤預(yù)測(cè);極限梯度提升;參數(shù)尋優(yōu);可解釋性;特征選擇
中圖分類號(hào):TP183
文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.7535/hbkd.2023yx03005
收稿日期:2023-02-27;修回日期:2023-05-15;責(zé)任編輯:王淑霞
基金項(xiàng)目:國(guó)家自然科學(xué)民航聯(lián)合重點(diǎn)基金(U2233214,U2033205)
第一作者簡(jiǎn)介:丁建立(1963—),男,河南洛陽(yáng)人,教授,博士,ccf 會(huì)員(17170M),主要從事智能仿生算法、機(jī)器學(xué)習(xí)方面的研究。E-mail:jlding@cauc.edu.cn
Prediction and characteristic analysis of flight arrival delay
DING Jianli,YANG Kun
(Department of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)
Abstract:To break the black box feature of XGBoost model and enhance its persuasiveness, an interpretable flight delay prediction model based on SHAP was proposed. Firstly, based on the fusion of flight history data and weather data, outliers were processed and features were selected by recursive feature elimination method. Secondly, a flight delay duration prediction model was constructed, and genetic algorithm was used for parameter optimization, then it was compared with commonly used models at present. Finally, based on the prediction of flight delay duration and the SHAP model, the importance of features was analyzed from two perspectives: overall features and the interrelationships between the features. The experimental results show that the XGBoost model optimized by genetic algorithm has higher prediction, with a decrease of 8.94% in MAE, 19.85% in RMSE, and 6.15% in MAPE, with higher accuracy compared to other models. The SHAP model can break the black box characteristics of the XGBoost model and enhance its interpretability, which provides some support for reducing flight delay duration.
Keywords:air transport management; delay prediction; limit gradient lifting; parameter optimization; interpretation; feature selection
航班到港延誤是指航班實(shí)際降落時(shí)間比計(jì)劃降落時(shí)間延遲15 min以上的情況。2022年中國(guó)民航局發(fā)布的民航行業(yè)統(tǒng)計(jì)公報(bào)顯示,不正常航班服務(wù)投訴超過(guò)六成。航班到港延誤不僅僅是單點(diǎn)效應(yīng),當(dāng)延誤航班數(shù)量過(guò)大時(shí),還會(huì)對(duì)同個(gè)航班鏈中的后續(xù)其他航班造成影響。因此,利用航班數(shù)據(jù)、天氣數(shù)據(jù)對(duì)航班到港延誤時(shí)長(zhǎng)進(jìn)行預(yù)測(cè),有助于機(jī)場(chǎng)人員及時(shí)優(yōu)化航班的排班,減少航班延誤造成的影響。
高精準(zhǔn)度的航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)一直是國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)。為提升模型預(yù)測(cè)精準(zhǔn)度,研究人員主要從改進(jìn)預(yù)測(cè)模型、提取有效特征、處理不平衡數(shù)據(jù)3個(gè)方面入手。常用的預(yù)測(cè)模型有樸素貝葉斯、支持向量機(jī)(SVM)、隨機(jī)森林等傳統(tǒng)模型[1-5]。民航業(yè)數(shù)字化的發(fā)展促進(jìn)了具有更高預(yù)測(cè)精度的復(fù)雜機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型在民航運(yùn)輸領(lǐng)域中的應(yīng)用。胡皓月[6]采用大數(shù)據(jù)方法建立數(shù)據(jù)模型和預(yù)測(cè)模型并進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)流式學(xué)習(xí)的計(jì)算模式,提高了模型預(yù)測(cè)的精度。王春政等[7]提出基于Agent的機(jī)場(chǎng)網(wǎng)絡(luò)延誤模型,并適應(yīng)性選用貝葉斯估計(jì)等算法建立參數(shù)模型。王丹等[8]通過(guò)分析基分類器間區(qū)別和精準(zhǔn)度的聯(lián)系,利用增量學(xué)習(xí)算法提高了模型學(xué)習(xí)新數(shù)據(jù)的速率和預(yù)測(cè)精度。復(fù)雜模型雖然具有高精度的優(yōu)點(diǎn),但其超參數(shù)過(guò)多且人工調(diào)參困難仍是目前研究者所面臨的問(wèn)題。在提取有效特征方面,MOREIRA等[9]分析影響航班延誤的因素,豐富了數(shù)據(jù)中的天氣特征。REBOLLO等[10]提出能夠表征重要機(jī)場(chǎng)和線路的延遲狀態(tài)的網(wǎng)絡(luò)延遲變量,通過(guò)分析機(jī)場(chǎng)網(wǎng)絡(luò)延遲增添數(shù)據(jù)特征提升預(yù)測(cè)精度。SHI等[11]通過(guò)灰色關(guān)聯(lián)分析提取與飛行相關(guān)的因素,提出了一種改進(jìn)機(jī)器學(xué)習(xí)算法的延誤預(yù)測(cè)模型,并在操作效率、內(nèi)存消耗和預(yù)測(cè)精準(zhǔn)度方面進(jìn)行了驗(yàn)證。上述學(xué)者雖然增添了天氣特征、線路特征,卻忽略了對(duì)飛機(jī)起飛和降落具有重要影響的機(jī)場(chǎng)特征。不平衡數(shù)據(jù)會(huì)對(duì)航班延誤等級(jí)預(yù)測(cè)造成干擾,而過(guò)采樣技術(shù)可對(duì)數(shù)據(jù)進(jìn)行平衡處理,進(jìn)而提升模型預(yù)測(cè)精度[12]。在航班延誤發(fā)生前對(duì)航班到港延誤時(shí)長(zhǎng)進(jìn)行預(yù)測(cè),可通過(guò)優(yōu)化過(guò)站時(shí)間[13]、建立預(yù)警模型[14]、最小化網(wǎng)絡(luò)總傳播延遲[15]等有效手段降低航班延誤造成的影響。
預(yù)測(cè)模型的黑盒特性,阻礙了其在現(xiàn)實(shí)中的應(yīng)用。近些年,學(xué)界開(kāi)始關(guān)注解釋性模型,意圖通過(guò)解釋性模型來(lái)解釋復(fù)雜機(jī)器學(xué)習(xí)模型的預(yù)測(cè)過(guò)程[16-17]。SHAP(shapley additive explanation)模型作為最新的解釋性模型,可以分析不同特征的貢獻(xiàn)程度[18-19]。GUIMARAES等[20]對(duì)中轉(zhuǎn)航班時(shí)旅客錯(cuò)過(guò)登機(jī)的概率進(jìn)行預(yù)測(cè),并使用SHAP模型對(duì)其原因進(jìn)行了分析。ZHANG等[21]和LAMBELHO等[22]使用SHAP模型對(duì)延誤預(yù)測(cè)模型進(jìn)行解釋,但缺乏特征間共同影響對(duì)模型作用的分析和對(duì)單架航班不同特征貢獻(xiàn)的分析。
為提高航班延誤時(shí)長(zhǎng)預(yù)測(cè)模型的可解釋性,本文提出一種基于SHAP的可解釋性航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)模型。
1 基于SHAP的可解釋性航班到港延誤時(shí)長(zhǎng)整體架構(gòu)
整體的架構(gòu)如圖1所示。模型整體分為預(yù)測(cè)和解釋2部分,其中預(yù)測(cè)部分主要使用XGBoost模型進(jìn)行航班延誤時(shí)長(zhǎng)的預(yù)測(cè)利用遺傳算法對(duì)超參數(shù)進(jìn)行調(diào)優(yōu)。將SHAP模型與調(diào)參后的XGBoost預(yù)測(cè)模型相結(jié)合,對(duì)其影響預(yù)測(cè)結(jié)果的特征進(jìn)行分析。詳細(xì)步驟如下。
1)分別對(duì)航班數(shù)據(jù)和天氣數(shù)據(jù)等進(jìn)行預(yù)處理,并以機(jī)場(chǎng)、計(jì)劃離港時(shí)間等為鍵值對(duì)數(shù)據(jù)進(jìn)行融合并利用遞歸特征消除算法進(jìn)行特征選擇,最終生成數(shù)據(jù)集。將數(shù)據(jù)集70%劃分為訓(xùn)練集,30%劃分為測(cè)試集。
2)構(gòu)建基于遺傳算法調(diào)參的XGBoost航班延誤預(yù)測(cè)模型,對(duì)參數(shù)值進(jìn)行編碼處理,選擇恰當(dāng)?shù)倪m應(yīng)度函數(shù),設(shè)定參數(shù)變異的概率,使用輪盤(pán)賭算法選擇更好的參數(shù)。
3)使用訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,在測(cè)試集上測(cè)試模型性能,使模型達(dá)到最優(yōu)狀態(tài)。
4)將SHAP模型與訓(xùn)練好的XGBoost模型融合,計(jì)算不同特征的SHAP值,進(jìn)而就總體特征和特征間共同作用對(duì)模型的影響進(jìn)行分析,并對(duì)單架航班中不同特征的影響進(jìn)行分析。
2 基于SHAP的可解釋性航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)
2.1 數(shù)據(jù)處理和特征轉(zhuǎn)換
將航班數(shù)據(jù)和天氣數(shù)據(jù)以機(jī)場(chǎng)編號(hào)和時(shí)間為核心進(jìn)行關(guān)聯(lián)生成數(shù)據(jù)集。由于數(shù)據(jù)集合并會(huì)產(chǎn)生大量特征缺失的數(shù)據(jù),因此對(duì)特征值缺少20%以上的數(shù)據(jù)直接進(jìn)行刪除處理,并將航班因維修等特殊原因造成延誤的數(shù)據(jù)刪除。將數(shù)據(jù)按機(jī)場(chǎng)進(jìn)行分類,生成不同機(jī)場(chǎng)每小時(shí)的平均滑入時(shí)間和平均滑出時(shí)間,進(jìn)而衡量機(jī)場(chǎng)擁堵情況。“是否取消”這一特征使用0表示航班未取消,對(duì)其缺失值以0進(jìn)行填充。風(fēng)速、干球溫度、相對(duì)濕度等天氣特征受月份影響較大,且對(duì)航班會(huì)產(chǎn)生較大影響,因此使用眾數(shù)值對(duì)其缺失值進(jìn)行填充。當(dāng)前序航班延誤時(shí)長(zhǎng)過(guò)長(zhǎng)時(shí)通常會(huì)取消該架飛機(jī)的后續(xù)航班,因此,對(duì)數(shù)據(jù)集中前序航班的延誤時(shí)間大于300 min的數(shù)據(jù)進(jìn)行剔除。為使模型能夠處理非數(shù)字特征,本文采用Label Encoding法進(jìn)行處理。例如將出發(fā)機(jī)場(chǎng)、目的機(jī)場(chǎng)轉(zhuǎn)換成數(shù)字特征,以方便模型處理。部分特征的箱型圖如圖2所示。
2.2 基于遞歸特征消除的特征選擇
過(guò)多的無(wú)關(guān)特征不僅會(huì)影響模型的訓(xùn)練效果,而且會(huì)增加模型的訓(xùn)練時(shí)間。因此,采用內(nèi)核基于隨機(jī)森林的遞歸特征消除方法進(jìn)行特征選擇。遞歸特征消除即多次利用數(shù)據(jù)進(jìn)行訓(xùn)練,每次訓(xùn)練結(jié)束時(shí),將平均絕對(duì)誤差作為特征篩選的原則,刪除特征重要性較低的特征,再根據(jù)新的特征,選取固定數(shù)量的特征。最終共選取17個(gè)特征,如表1所示。選取部分特征進(jìn)行預(yù)測(cè)的結(jié)果相較于使用全部特征進(jìn)行預(yù)測(cè)的結(jié)果的平均絕對(duì)誤差下降值如圖3表示。
2.3 XGBoost的延誤時(shí)長(zhǎng)預(yù)測(cè)
XGBoost是一種boosting集成學(xué)習(xí)模型,經(jīng)常被用在一些比賽中,且效果顯著。其目標(biāo)函數(shù)如式(1)所示:
式中:Gj=∑i∈Ijgi;Hj=∑i∈Ijhi,Ij={i|q(xi)=j};Ij表示第j個(gè)葉子節(jié)點(diǎn)的集合,gi和hi分別表示以第i個(gè)樣本進(jìn)行分割中損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),T代表當(dāng)前的第t棵樹(shù)模型的葉子結(jié)點(diǎn)數(shù)量,Gj表示葉子結(jié)點(diǎn)j所包含樣本的一階偏導(dǎo)數(shù)累加之和,Hj表示葉子節(jié)點(diǎn)j所包含樣本的二階偏導(dǎo)數(shù)累加之和,λ為設(shè)定的參數(shù)。在確定分裂前目標(biāo)函數(shù)見(jiàn)式(2),分裂后的目標(biāo)函數(shù)見(jiàn)式(3),分裂的收益表示見(jiàn)式(4)。
就XGBoost如何進(jìn)行航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)訓(xùn)練進(jìn)行分析,以隨機(jī)選取的計(jì)劃飛行時(shí)間、前序航班延誤時(shí)間、機(jī)場(chǎng)平均延誤時(shí)間3個(gè)特征說(shuō)明基學(xué)習(xí)器的形成過(guò)程,并將樹(shù)的深度限定為2,Wi表示不同葉子節(jié)點(diǎn)對(duì)應(yīng)預(yù)測(cè)值。XGBoost模型中基處理器結(jié)構(gòu)如圖4所示,模型首先對(duì)飛行時(shí)間特征進(jìn)行排序,并以相鄰飛行時(shí)間特征值的平均值作為分裂點(diǎn),對(duì)所有分裂點(diǎn)計(jì)算分裂的收益值Pgain,選擇分裂收益最大的240 min分裂點(diǎn)進(jìn)行分裂。對(duì)所有非葉子節(jié)點(diǎn)按前序航班延誤時(shí)間、機(jī)場(chǎng)平均時(shí)間特征重復(fù)上述操作進(jìn)行分裂,直到達(dá)到規(guī)定的樹(shù)深度,一個(gè)基學(xué)習(xí)器構(gòu)造完成。
集成學(xué)習(xí)是一種技術(shù)框架,將多個(gè)基學(xué)習(xí)器預(yù)測(cè)結(jié)果加和,最終得到模型的預(yù)測(cè)結(jié)果。結(jié)果如表2所示,其中A,B,…,N分別代表不同基學(xué)習(xí)器的預(yù)測(cè)結(jié)果。
2.4 遺傳算法優(yōu)化參數(shù)
利用遺傳算法尋找最優(yōu)參數(shù),解決了由人工調(diào)參的復(fù)雜性而導(dǎo)致的易陷入局部最優(yōu)解的問(wèn)題。以尋找樹(shù)的最優(yōu)最大深度為例,通過(guò)遺傳算法尋找最優(yōu)參數(shù)的步驟如下。
1)編碼 對(duì)需要調(diào)整的參數(shù)進(jìn)行編碼,采用二進(jìn)制編碼。對(duì)于難以用二進(jìn)制表達(dá)的連續(xù)變量進(jìn)行離散化。對(duì)于取值范圍較小的參數(shù),如決策樹(shù)的最大深度可直接使用3個(gè)二進(jìn)制位進(jìn)行二進(jìn)制編碼,最大深度搜索空間通常在(2,9)共8種取值,如圖5所示。
2)初始化 隨機(jī)選取M個(gè)可行解構(gòu)成一個(gè)初始化種群,并將航班到港延誤時(shí)長(zhǎng)的平均絕對(duì)誤差定義為適應(yīng)度函數(shù)。根據(jù)適應(yīng)度的評(píng)價(jià),對(duì)個(gè)體進(jìn)行計(jì)算和選擇,防止種群退化。
3)選擇 選擇輪盤(pán)賭算法,求得不同染色體與群染色體適應(yīng)度比值,隨機(jī)選擇,比值較高的染色體進(jìn)入下一輪選擇。輪盤(pán)賭選擇法可用如下過(guò)程模擬實(shí)現(xiàn):
計(jì)算出群體中每個(gè)個(gè)體的適應(yīng)度f(wàn)(xi=1,2,…,N),N為群體大?。挥?jì)算不同染色體的適應(yīng)度與種群適應(yīng)度之和的比值,如式(5)所示:
在[0,1]區(qū)間內(nèi)產(chǎn)生1個(gè)均勻分布的偽隨機(jī)數(shù)r;
若r
1),則選擇個(gè)體1,否則,選擇個(gè)體k,使得p(xk-1)
重復(fù)步驟4)和步驟5),共N次。
4)交叉 采用2點(diǎn)交叉方法,在相對(duì)應(yīng)的染色體中,隨機(jī)選擇2個(gè)交叉點(diǎn),交換2個(gè)個(gè)體對(duì)應(yīng)部分,從而完成交叉。
5)變異 設(shè)定變異率(變異概率設(shè)置為0.01),以一定概率更改染色體中1個(gè)二進(jìn)制位。
6)輸出 算法運(yùn)行至最大迭代次數(shù)時(shí),輸出最優(yōu)個(gè)體值。多次運(yùn)行取最優(yōu)結(jié)果建立XGBoost模型。
2.5 SHAP模型的可解釋性
SHAP屬于模型事后解釋的方法,可以對(duì)復(fù)雜機(jī)器學(xué)習(xí)模型進(jìn)行解釋。SHAP值的主要思想是Shapley值,其來(lái)自合作博弈論(coalitional game theory)方法。在進(jìn)行局部解釋時(shí),SHAP的核心是計(jì)算每個(gè)特征變量的Shapley值。Shapley值能夠公平地將貢獻(xiàn)分給訓(xùn)練模型的不同特征,從而得到整體樣本的特征重要性排序和不同特征對(duì)不同樣本的貢獻(xiàn)。Shapley值的計(jì)算方法,見(jiàn)式(6)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)來(lái)源
航班數(shù)據(jù)來(lái)源于美國(guó)交通運(yùn)輸統(tǒng)計(jì)局,選取的數(shù)據(jù)為2022年全年38個(gè)機(jī)場(chǎng)的歷史航班數(shù)據(jù),其中主要包含航班號(hào)、計(jì)劃飛行時(shí)間、飛機(jī)尾部編號(hào)、起飛機(jī)場(chǎng)、目的機(jī)場(chǎng)等共64維數(shù)據(jù)。以每小時(shí)的機(jī)場(chǎng)平均滑入時(shí)間、機(jī)場(chǎng)平均滑出時(shí)間來(lái)表示機(jī)場(chǎng)擁堵數(shù)據(jù)。天氣數(shù)據(jù)來(lái)源于美國(guó)海洋和大氣管理局,選取的數(shù)據(jù)為2022年全年天氣數(shù)據(jù),主要包含干球溫度、露點(diǎn)溫度、風(fēng)速、風(fēng)向等共22維特征。
3.2 模型尋優(yōu)結(jié)果
XGBoost參數(shù)眾多,無(wú)需對(duì)所有參數(shù)進(jìn)行調(diào)優(yōu),只需要對(duì)常用參數(shù)進(jìn)調(diào)整,本文選取4個(gè)常被調(diào)整的超參數(shù)進(jìn)行調(diào)優(yōu),各參數(shù)調(diào)整范n_estimators[0,1 500],learning_rate[0.1,0.64],max_depth[2,9],subsample[0,1.5]。由于使用二進(jìn)制對(duì)超參數(shù)進(jìn)行編碼,因此需要對(duì)連續(xù)變量的超參數(shù)進(jìn)行離散化,對(duì)決策樹(shù)數(shù)量、學(xué)習(xí)率、樣本采樣率分別以10,0.01,0.1的倍數(shù)進(jìn)行調(diào)整。使用遺傳算法以MAE作為適應(yīng)度函數(shù)進(jìn)行全局最優(yōu)參數(shù)搜索,在迭代45輪后找到最優(yōu)解,最終得到一組最優(yōu)參數(shù)[1 165,0.15,8,0.8](見(jiàn)圖6)。
表3展示了遺傳算法優(yōu)化后的模型精度。相較于未進(jìn)行遺傳算法調(diào)優(yōu)的模型,其MAE,RMSE,MAPE分別提升了8.94%,19.85%,6.15%。使用遺傳算法調(diào)優(yōu)后,模型的精度和穩(wěn)定性進(jìn)一步得到了提升。與目前常見(jiàn)的XGBBoost參數(shù)優(yōu)化模型貝葉斯優(yōu)化進(jìn)行對(duì)比,經(jīng)過(guò)遺傳算法優(yōu)化的XGBoost模型在3個(gè)指標(biāo)下表現(xiàn)最好。
3.3 不同模型間對(duì)比分析
將XGBoost與GDBT,Random Forest,LightGBM,BP神經(jīng)網(wǎng)絡(luò),RNN,BiLSTM模型對(duì)比,驗(yàn)證模型精度,結(jié)果如表4所示。其中LightGBM,XGBoost,BiLSTM模型相較于GBDT,Random Forest,BP神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)明顯優(yōu)異,而XGBoost模型與LightGBM模型的MAE,RMSE指標(biāo)接近,經(jīng)計(jì)算可知,其在MAPE方面提升了6.5%,模型更加穩(wěn)定。在RMSE評(píng)價(jià)指標(biāo)下,BiLSTM模型相較于其他模型表現(xiàn)最為優(yōu)異,但XGBoost模型相較于BiLSTM模型在MAE評(píng)價(jià)指標(biāo)下提升了5.34%。綜上,XGBoost模型在3個(gè)評(píng)價(jià)指標(biāo)下對(duì)延誤預(yù)測(cè)能達(dá)到最好擬合狀態(tài)。
3.4 基于SHAP的可解釋性分析
3.4.1 基于SHAP的總體特征重要性分析
圖7整體展示了所有樣本不同特征對(duì)SHAP值的影響,左側(cè)為重要性排名前10的特征名稱,右側(cè)表示不同特征取值大小情況。其中顏色越趨向紅色,特征值越大;顏色越趨向藍(lán)色,特征值越小。圖7中橫坐標(biāo)以0為分割線,大于0的樣本表示對(duì)模型的預(yù)測(cè)起到正向作用,即會(huì)增加航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)的影響;小于0的樣本表示對(duì)模型的預(yù)測(cè)起到負(fù)向作用,即會(huì)降低航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)的影響。
由圖7可知,影響航班到港延誤時(shí)長(zhǎng)最為重要的因素為離港時(shí)間,而其他時(shí)間因素中的航班計(jì)劃執(zhí)行時(shí)間也較為重要。前序航班延誤時(shí)長(zhǎng)的影響位列第2,且前序航班延誤時(shí)長(zhǎng)越大越會(huì)加大航班到港延誤的時(shí)長(zhǎng)。從機(jī)場(chǎng)擁堵情況來(lái)說(shuō),機(jī)場(chǎng)平均滑出時(shí)間對(duì)航班到港延誤時(shí)長(zhǎng)的影響要大于機(jī)場(chǎng)平均滑入時(shí)間,其原因可能是從經(jīng)濟(jì)方面考慮在不違背航班運(yùn)行時(shí)刻表的情況下,塔臺(tái)會(huì)優(yōu)先讓進(jìn)港航班使用跑道,而使離港航班在地面等待。天氣也會(huì)造成航班的延誤,其中離港機(jī)場(chǎng)壓力變化趨勢(shì)、離港機(jī)場(chǎng)相對(duì)濕度、離港機(jī)場(chǎng)風(fēng)向、離港機(jī)場(chǎng)降水量的影響較大,而其他天氣變量的影響程度較小。
3.4.2 基于SHAP的特征共同影響分析
1)離港時(shí)間與機(jī)場(chǎng)平均滑出時(shí)間的影響
離港時(shí)間與機(jī)場(chǎng)平均滑出時(shí)間對(duì)航班到港延誤時(shí)長(zhǎng)的影響如圖8所示。6∶00到12∶00會(huì)加大對(duì)于到港延誤時(shí)間的預(yù)測(cè)值,8∶30到10∶00時(shí)間內(nèi)紅色點(diǎn)明顯較多,說(shuō)明此段時(shí)間間隔內(nèi)機(jī)場(chǎng)平均滑出時(shí)間較大且影響較大。12∶00到17∶00時(shí)間間隔內(nèi),會(huì)先增加航班到港延誤預(yù)測(cè)時(shí)長(zhǎng)然后減少其預(yù)測(cè)值。17∶00到23∶00時(shí)間間隔內(nèi),又會(huì)加大航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)值,且17∶00到21∶00時(shí)間段中,機(jī)場(chǎng)平均滑出時(shí)間影響占比上升,而在23∶00以后,紅色明顯減少,說(shuō)明此時(shí)機(jī)場(chǎng)平均滑出時(shí)間對(duì)預(yù)測(cè)值影響下降。綜上,針對(duì)3個(gè)時(shí)間段內(nèi)由于機(jī)場(chǎng)平均滑出時(shí)間較大而造成的航班到港延誤,航空公司應(yīng)該優(yōu)化航班排班,盡量降低離港時(shí)間和機(jī)場(chǎng)平均滑出時(shí)間對(duì)航班造成的影響。
2)計(jì)劃飛行時(shí)間與距離的影響
航班計(jì)劃飛行時(shí)間與距離對(duì)于航班到港延誤時(shí)長(zhǎng)的影響為非線性影響。如圖9所示,飛行距離越長(zhǎng)航班計(jì)劃飛行時(shí)間也越長(zhǎng)。由圖9可知,當(dāng)航班計(jì)劃飛行時(shí)間在200 min內(nèi)時(shí),SHAP值大于0的點(diǎn)比小于0的點(diǎn)明顯多,因此會(huì)加大航班到港延誤時(shí)長(zhǎng)的預(yù)測(cè)值。而當(dāng)航班計(jì)劃飛行時(shí)間大于200 min時(shí),SHAP值大于0和小于0的數(shù)量大致相等,航班計(jì)劃飛行時(shí)間對(duì)于航班到港延誤時(shí)長(zhǎng)的影響降低。當(dāng)飛行時(shí)間較短時(shí),航空公司基于時(shí)間成本和經(jīng)濟(jì)成本考慮,通常不會(huì)設(shè)定過(guò)長(zhǎng)的緩沖時(shí)間,且基于舒適性的考慮,飛行員也很難在較短時(shí)間內(nèi)采取措施降低航班延誤時(shí)長(zhǎng)。而對(duì)于計(jì)劃飛行時(shí)間大于200 min的航班,由于計(jì)劃飛行時(shí)間較長(zhǎng),航空公司通常會(huì)設(shè)定較大的吸收航班延誤的緩沖時(shí)間,并且在較長(zhǎng)的飛行時(shí)間內(nèi),駕駛員容易在保證乘客舒適性的情況下通過(guò)調(diào)整飛行速度對(duì)延誤進(jìn)行吸收。
3)離港延誤與前序航班延誤的影響
圖10展示了前序航班延誤時(shí)長(zhǎng)(PRIOR_ARR_DELAY)和離港延誤時(shí)長(zhǎng)對(duì)航班到港延誤的影響效果。離港延誤與前序航班延誤時(shí)長(zhǎng)關(guān)系較為密切,當(dāng)離港延誤時(shí)長(zhǎng)大于40 min時(shí),其會(huì)明顯加大對(duì)于延誤時(shí)長(zhǎng)的預(yù)測(cè)值,并且由前序航班延誤造成的離港延誤所占比例明顯上升。其中當(dāng)航班離港延誤時(shí)長(zhǎng)小于40 min時(shí),由前序航班延誤引起的離港延誤所占比重較低,且當(dāng)離港延誤小于0 min時(shí),不會(huì)增加對(duì)航班到港延誤時(shí)長(zhǎng)的預(yù)測(cè)值。
3.4.3 基于SHAP的單架航班到港延誤因素分析
圖11為不同特征對(duì)單個(gè)航班的影響。其中,機(jī)場(chǎng)平均滑出時(shí)間和離港延誤時(shí)間對(duì)模型結(jié)果影響最大。SHAP對(duì)單個(gè)樣本進(jìn)行分析時(shí),左向箭頭與藍(lán)色代表降低航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)值。右向箭頭與紅色代表增加航班到港延誤時(shí)長(zhǎng)的預(yù)測(cè)值,且寬度越寬對(duì)結(jié)果的影響越大。基于已經(jīng)訓(xùn)練好的XGBoost模型,采用SHAP模型對(duì)2022-02-19從紐瓦克自由國(guó)際機(jī)場(chǎng)飛往克利夫蘭霍普金國(guó)際機(jī)場(chǎng)的航班進(jìn)行分析,預(yù)測(cè)的該架航班到港延誤時(shí)間為59 min,而實(shí)際延誤時(shí)間為63 min,誤差為4 min。離港延誤主要受前序航班延誤時(shí)間和機(jī)場(chǎng)平均滑出時(shí)間影響,而圖11表明前序航班延誤時(shí)間對(duì)此次航班影響較小,因此,此次航班延誤的主要原因是機(jī)場(chǎng)擁堵引起的機(jī)場(chǎng)平均滑出時(shí)間較大導(dǎo)致飛機(jī)無(wú)法按時(shí)離港。美國(guó)交通運(yùn)輸統(tǒng)計(jì)局對(duì)此架航班的延誤分析表明,國(guó)家空域系統(tǒng)(NAS)控制造成29 min延誤,承運(yùn)公司控制造成34 min延誤,航空公司和空域控制共同造成離港機(jī)場(chǎng)擁堵,增加了紐瓦克自由國(guó)際機(jī)場(chǎng)的機(jī)場(chǎng)平均滑出時(shí)間。
4 結(jié) 語(yǔ)
為破除預(yù)測(cè)模型的黑盒特性,本文提出了基于SHAP的可解釋性航班到港延誤時(shí)長(zhǎng)預(yù)測(cè)模型。首先,構(gòu)造了基于遺傳算法優(yōu)化的XGBoost航班到港延誤時(shí)長(zhǎng)預(yù)測(cè),通過(guò)使用遞歸特征消除方法進(jìn)行特征選擇,降低無(wú)關(guān)特征對(duì)模型精度的影響,并使用遺傳算法對(duì)XGBoost模型進(jìn)行超參數(shù)尋優(yōu),進(jìn)一步提升了模型的預(yù)測(cè)精度。最后,利用解釋性SHAP模型對(duì)訓(xùn)練好的XGBoost模型進(jìn)行解釋,就整體特征和特征間共同作用對(duì)預(yù)測(cè)結(jié)果的影響進(jìn)行了分析,并對(duì)單架航班到港延誤時(shí)長(zhǎng)的影響因素進(jìn)行闡釋,以期為降低航班延誤時(shí)長(zhǎng)提供解決思路。
本文并未考慮到機(jī)場(chǎng)是否有軍事管制、突發(fā)性機(jī)場(chǎng)封閉等特情信息,這些特征可能會(huì)對(duì)模型預(yù)測(cè)精度產(chǎn)生影響。
在應(yīng)用方法,也僅對(duì)航班延誤預(yù)測(cè)的可解釋性進(jìn)行了分析、而將分析結(jié)果運(yùn)用到航班計(jì)劃設(shè)計(jì)環(huán)節(jié)所涉及到的問(wèn)題還需要進(jìn)一步的研究。
參考文獻(xiàn)/References:
[1] 徐濤,丁建立,顧彬,等.基于增量式排列支持向量機(jī)的機(jī)場(chǎng)航班延誤預(yù)警[J].航空學(xué)報(bào),2009,30(7):1256-1263.
XU Tao,DING Jianli,GU Bin,et al.Forecast warning level of flight delays based on incremental ranking support vector machine[J].Acta Aeronautica et Astronautica Sinica,2009,30(7):1256-1263.
[2] 李頻.基于灰色動(dòng)態(tài)馬爾科夫的航班延誤預(yù)測(cè)[J].上海工程技術(shù)大學(xué)學(xué)報(bào),2014,28(4):333-336.
LI Pin.Flight delays prediction based on grey dynamic markov[J].Journal of Shanghai University of Engineering Science,2014,28(4):333-336.
[3] AHMADBEYGI S,COHN A,GUAN Yihan,et al.Analysis of the potential for delay propagation in passenger airline networks[J].Journal of Air Transport Management,2008,14(5):221-236.
[4] 何洋,朱金福,周秦炎.基于支持向量機(jī)回歸的機(jī)場(chǎng)航班延誤預(yù)測(cè)[J].中國(guó)民航大學(xué)學(xué)報(bào),2018,36(1):30-36.
HE Yang,ZHU Jinfu,ZHOU Qinyan.Airport flight delay prediction based on SVM regression[J].Journal of Civil Aviation University of China,2018,36(1):30-36.
[5] 程華,李艷梅,羅謙,等.基于C4.5決策樹(shù)方法的到港航班延誤預(yù)測(cè)問(wèn)題研究[J].系統(tǒng)工程理論與實(shí)踐,2014,34(sup1):239-247.
CHENG Hua,LI Yanmei,LUO Qian,et al.Study on flight delay with C4.5 decision tree based prediction method[J].Systems Engineering-Theory & Practice,2014,34(sup1):239-247.
[6] 胡皓月.航班延誤預(yù)測(cè)的大數(shù)據(jù)方法研究[D].南京:南京航空航天大學(xué),2017.
HU Haoyue.Research on Prediction of Flights Delay Based on Big Data Methods[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2017.
[7] 王春政,胡明華,楊磊,等.基于Agent模型的機(jī)場(chǎng)網(wǎng)絡(luò)延誤預(yù)測(cè)[J].航空學(xué)報(bào),2021,42(7):445-458.
WANG Chunzheng,HU Minghua,YANG Lei,et al.Airport network delay prediction based on Agent model[J].Acta Aeronautica et Astronautica Sinica,2021,42(7):445-458.
[8] 王丹,王萌,王曉曦,等.用于航班延誤預(yù)測(cè)的集成式增量學(xué)習(xí)算法[J].北京工業(yè)大學(xué)學(xué)報(bào),2020,46(11):1239-1245.
WANG Dan,WANG Meng,WANG Xiaoxi,et al.Ensemble of incremental learning algorithm for flight delay prediction[J].Journal of Beijing University of Technology,2020,46(11):1239-1245.
[9] MOREIRA L,DANTAS C,OLIVEIRA L,et al.On evaluating data preprocessing methods for machine learning models for flight delays[C]//2018 International Joint Conference on Neural Networks (IJCNN).Rio de Janeiro:IEEE,2018:1-8.
[10]REBOLLO J J,BALAKRISHNAN H.Characterization and prediction of air traffic delays[J].Transportation Research Part C:Emerging Technologies,2014,44:231-241.
[11]SHI Tongyu,LAI Jinghan,GU Runping,et al.An improved artificial neural network model for flights delay prediction[J].International Journal of Pattern Recognition and Artificial Intelligence,2021,35(8).DOI: 10.1142/S0218001421590278.
[12]HENRIQUES R,F(xiàn)EITEIRA I.Predictive modelling:Flight delays and associated factors,hartsfield-Jackson Atlanta international airport[J].Procedia Computer Science,2018,138:638-645.
[13]高強(qiáng),周覃,陳欣.基于波及延誤的航班過(guò)站松弛時(shí)間重分配[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,47(10):151-156.
GAO Qiang,ZHOU Qin,CHEN Xin.Redistribution method for slack time of flight based on propagated delay[J].Journal of South China University of Technology(Natural Science Edition),2019,47(10):151-156.
[14]羅鳳娥,張成偉,劉安.基于數(shù)據(jù)挖掘的航班延誤預(yù)警管理分析[J].計(jì)算機(jī)科學(xué),2016,43(z1):542-546.
LUO Fenge,ZHANG Chengwei,LIU An.Flight delays early warning management and analysis based on data mining[J].Computer Science,2016,43(z1):542-546.
[15]DUNBAR M,F(xiàn)ROYLAND G,WU C L.Robust airline schedule planning:Minimizing propagated delay in an integrated routing and crewing framework[J].Transportation Science,2012,46(2):204-216.
[16]胡新宇,陳翔,夏鴻崚,等.移動(dòng)App即時(shí)缺陷預(yù)測(cè)模型的可解釋性方法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(7):2104-2108.
HU Xinyu,CHEN Xiang,XIA Hongleng,et al.Interpretable method of just-in-time defect prediction model for mobile App[J].Application Research of Computers,2022,39(7):2104-2108.
[17]成浩,喻澤成,余波.物理規(guī)律監(jiān)督的RC柱地震破壞模式可解釋機(jī)器學(xué)習(xí)方法[EB/OL].建筑結(jié)構(gòu)學(xué)報(bào). [2023-02-21].https://doi.org/10.14006/j.jzjgxb.2022.0370.
CHENG Hao,YU Zecheng,YU Bo.A physics-supervised interpretable machine learning approach for seismic failure modes prediction of RC columns[EB/OL].Journal of Building Structures. [2023-02-21]. https://doi.org/10.14006/j.jzjgxb.2022.0370.
[18]廖彬,王志寧,李敏,等.融合XGBoost與SHAP模型的足球運(yùn)動(dòng)員身價(jià)預(yù)測(cè)及特征分析方法[J].計(jì)算機(jī)科學(xué),2022,49(12):195-204.
LIAO Bin,WANG Zhining,LI Min,et al.Integrating XGBoost and SHAP model for football player value prediction and characteristic analysis[J].Computer Science,2022,49(12):195-204.
[19]JABEUR S B,MEFTEH-WALI S,VIVIANI J L.Forecasting gold price with the XGBoost algorithm and SHAP interaction values[J].Annals of Operations Research,2021.DOI:10.1007/s10479-021-04187-w.
[20]GUIMARAES M,SOARES C,VENTURA R.Decision support models for predicting and explaining airport passenger connectivity from data[J].IEEE Transactions on Intelligent Transportation Systems,2022, 23(9):16005-16015.
[21]ZHANG Bo,MA Dandan.Flight delay prediciton at an airport using maching learning[C]//2020 5th International Conference on Electromechanical Control Technology and Transportation (ICECTT),Nanchang:IEEE, 2020:557-560.
[22]LAMBELHO M,MITICI M,PICKUP S,et al.Assessing strategic flight schedules at an airport using machine learning-based flight delay and cancellation predictions[J].Journal of Air Transport Management, 2020,82.DOI: 10.1016/j.jairtraman.2019.101737.