羅 杰,侯 霞+,楊鴻波,劉 林,謝 豐
(1.北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院,北京 100101;2.北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192;3.中國(guó)信息安全測(cè)評(píng)中心 系統(tǒng)評(píng)估處,北京 100085)
近年來(lái),隨著客運(yùn)量與航班行程的增加、航空運(yùn)輸需求與交通容量之間矛盾的加深,航班延誤變得更加頻繁。及時(shí)準(zhǔn)確地預(yù)測(cè)航班延誤可以減少運(yùn)輸行程沖突并提高航空公司的服務(wù)質(zhì)量。當(dāng)前,各航空樞紐已存有大量的公共飛行歷史數(shù)據(jù)。通過(guò)模型學(xué)習(xí)這些歷史數(shù)據(jù),可以預(yù)測(cè)航班延誤,幫助機(jī)場(chǎng)發(fā)布延誤狀態(tài)并調(diào)整運(yùn)營(yíng)策略,從而減少由于航班延誤而造成的經(jīng)濟(jì)損失和聲譽(yù)損失。
當(dāng)前國(guó)內(nèi)外已有一些關(guān)于航班延誤預(yù)測(cè)問(wèn)題的研究成果。在預(yù)測(cè)方法上,文獻(xiàn)[1]使用Logistic模型預(yù)測(cè)某一空域航班延誤;文獻(xiàn)[2,3]將前序航班的延誤因素加入研究,使用支持向量機(jī)(SVM)進(jìn)行延誤預(yù)測(cè)。但以上預(yù)測(cè)方法對(duì)數(shù)據(jù)要求較高,在多因素導(dǎo)致的延誤和數(shù)據(jù)量較大的場(chǎng)景下表現(xiàn)欠佳,而基于樹(shù)的模型可以更好地解決這些問(wèn)題[4-9]。文獻(xiàn)[4]使用隨機(jī)森林(RF)與一些傳統(tǒng)機(jī)器學(xué)習(xí)相比得出RF效果最優(yōu)的結(jié)論;文獻(xiàn)[5,6]為了滿足大數(shù)據(jù)量情況下的要求,使用并行式的RF進(jìn)行延誤預(yù)測(cè),提高了預(yù)測(cè)效率;文獻(xiàn)[7-9]使用梯度上升決策樹(shù)(GBDT)進(jìn)一步提高了預(yù)測(cè)效果;文獻(xiàn)[8,9]通過(guò)對(duì)比傳統(tǒng)機(jī)器學(xué)習(xí)算法得到GBDT效果最優(yōu)的結(jié)論。為了突破單一模型預(yù)測(cè)效果的上限,文獻(xiàn)[10-12]采用集成的思想,將多種預(yù)測(cè)器進(jìn)行融合,相比單獨(dú)的預(yù)測(cè)模型效果有所提升。但集成時(shí)并未使用基于樹(shù)的模型,且對(duì)數(shù)據(jù)要求較高。在稀疏數(shù)據(jù)填充、規(guī)范化等步驟需要投入大量精力,多因素間的相互影響也需要提前人為處理。
為了適應(yīng)現(xiàn)實(shí)中更廣泛的數(shù)據(jù),減少數(shù)據(jù)處理的相關(guān)工作,提升多因素導(dǎo)致的航班延誤預(yù)測(cè)效果,本文采取集成學(xué)習(xí)的思想,提出一種將Xgboost模型作為特征篩選及特征轉(zhuǎn)換器,使用Logistic回歸進(jìn)行規(guī)則集權(quán)重學(xué)習(xí)的集成離港航班延誤預(yù)測(cè)模型。
根據(jù)中國(guó)民用航空局2016年發(fā)布的《民航航班正常統(tǒng)計(jì)辦法》中的規(guī)定,進(jìn)、離港實(shí)際時(shí)間晚于計(jì)劃時(shí)間15分鐘(含)的航班被認(rèn)定為延誤,本文給出如下定義。
定義1 離港航班延誤標(biāo)志Ddep用于標(biāo)識(shí)航班離港是否延誤
(1)
其中,RDT代表航班實(shí)際起飛時(shí)間,SDT代表航班計(jì)劃起飛時(shí)間。如果發(fā)生延誤Ddep=1,未延誤Ddep=0。
本文將采用一種集成學(xué)習(xí)方法預(yù)測(cè)Ddep。
定義2 進(jìn)港航班延誤參數(shù)Darr用于描述航班進(jìn)港延誤的狀況
Darr=max{0,RAT-(SAT+15)}
(2)
其中,RAT代表航班實(shí)際到達(dá)機(jī)場(chǎng)時(shí)間,SAT代表航班計(jì)劃到達(dá)機(jī)場(chǎng)的時(shí)間。即,如果發(fā)生延誤Darr為實(shí)際延誤時(shí)間,未延誤Darr=0。
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)自國(guó)內(nèi)某機(jī)場(chǎng)(后稱W)2019年航班數(shù)據(jù)和天氣數(shù)據(jù),包括以W為目的地的航班數(shù)據(jù)與以W為始發(fā)站的數(shù)據(jù)共計(jì)518 915條。每條航班數(shù)據(jù)字段包括航班號(hào)、機(jī)型、始發(fā)站、終點(diǎn)站、航司、計(jì)劃起飛到達(dá)時(shí)間、實(shí)際起飛到達(dá)時(shí)間、W天氣、W起飛的目的站天氣。天氣數(shù)據(jù)包括溫度、可見(jiàn)度、風(fēng)力等。
實(shí)際數(shù)據(jù)會(huì)普遍存在缺失的問(wèn)題,部分缺失值可以通過(guò)均值、眾數(shù)和臨近值等方法進(jìn)行填充。但由于部分?jǐn)?shù)據(jù)含義的特殊性,缺失值難以填充。表1是對(duì)存在數(shù)據(jù)缺失字段的缺失率統(tǒng)計(jì)。
表1 稀疏數(shù)據(jù)缺失率
較大的數(shù)據(jù)缺失率會(huì)導(dǎo)致稀疏數(shù)據(jù),這是現(xiàn)實(shí)航班延誤預(yù)測(cè)任務(wù)中較為常見(jiàn)的問(wèn)題。在大數(shù)據(jù)量下,根據(jù)某些規(guī)則填充較大缺失率的字段會(huì)引入人為規(guī)則,影預(yù)測(cè)模型的實(shí)際性能。而未經(jīng)填充的數(shù)據(jù)則會(huì)對(duì)一些優(yōu)秀且簡(jiǎn)單的算法模型帶來(lái)災(zāi)難性后果。Xgboost模型對(duì)缺失值進(jìn)行了定向分枝,可以正確處理稀疏特征帶來(lái)的影響[13],這啟發(fā)了本文使用Xgboost作為特征轉(zhuǎn)換器的想法。
航空網(wǎng)絡(luò)是一個(gè)復(fù)雜的系統(tǒng),航班的準(zhǔn)點(diǎn)率與機(jī)場(chǎng)狀況、天氣條件、航線狀況以及前序航班延誤情況密切相關(guān),且前序航班的延誤具有傳播性、和累加性,因此航班延誤是一種多因素導(dǎo)致的狀況。以機(jī)場(chǎng)為主體的航班延誤分析如圖1所示。
圖1 航班延誤分析
對(duì)于以機(jī)場(chǎng)為主體的離港航班延誤而言,Ddep是航空網(wǎng)絡(luò)中延誤的累加結(jié)果,可描述為
Darr+DinPort+DoutPort
(3)
其中,n為前序航班途徑機(jī)場(chǎng)主體個(gè)數(shù),Darri、Dinporti、DoutPorti、Ddepi分別為在前序第i個(gè)機(jī)場(chǎng)時(shí)的航班到達(dá)延誤、航班入港延誤、航班出港延誤,Ddep為機(jī)場(chǎng)W的航班出港延誤。
每個(gè)節(jié)點(diǎn)是否延誤都與航空網(wǎng)絡(luò)前序延誤因素有關(guān)。針對(duì)各階段延誤的主要影響因素進(jìn)行分析,得到如表2所示的延誤特征。本文選用這些特征作為Xgboost模型的輸入特征。
表2 延誤特征
本節(jié)提出一種集成模型結(jié)構(gòu):基于Xgboost與Logistic的集成學(xué)習(xí)模型。該模型可以提取隱藏在特征中的深層次信息,同時(shí)完成特征的篩選和非線性變換,提高線性分類器的泛化能力和輸入向量的質(zhì)量,從而提升預(yù)測(cè)效果。
GBDT與Logistic模型融合方法已經(jīng)在眾多領(lǐng)域表現(xiàn)出廣泛且優(yōu)秀的效果。而Xgboost在防止過(guò)擬合、處理稀疏數(shù)據(jù)等方面相較于GBDT擁有較多優(yōu)勢(shì),這使得用Xgboost作為線性回歸模型的特征轉(zhuǎn)換器更有意義。其學(xué)習(xí)模型是基于boosting集成方法,模型為如下的加法模型
(4)
設(shè)F為經(jīng)Xgboost轉(zhuǎn)換后的特征空間,F(xiàn)={f1,f2,…,fs},fi為轉(zhuǎn)換后的某特征向量,s∈[1,N],N為樣本總量。fs={fs1,fs2,…,fsn},n為森林中所有決策樹(shù)葉節(jié)點(diǎn)總數(shù)
(5)
則經(jīng)過(guò)xgboost的中間輸出為
(6)
其中,leaf()為葉函數(shù),它計(jì)算樣本實(shí)例落入的葉節(jié)點(diǎn)的值,即fsn的值。此時(shí)Logistic模型的輸入樣本空間T={(f1,y1),(f2,y2),…,(fN,yN)},其中fi∈F,yi∈{0,1}。
此時(shí)定義一個(gè)可以區(qū)分F的y值的超平面
ωTf+b=0
(7)
其中,ω={ω1,ω2,…,ωn,b},在模型上表示為可以區(qū)分正負(fù)樣本的超平面,在特征方向表示學(xué)習(xí)規(guī)則集的權(quán)重。此時(shí),集成模型表示為式(8),模型結(jié)構(gòu)如圖2所示
圖2 集成預(yù)測(cè)模型
(8)
其中,hω(f;ω)為樣本是否延誤的概率。
控制特征的數(shù)量和去共線性化對(duì)模型表現(xiàn)至關(guān)重要。已知Xgboost通過(guò)計(jì)算特征增益Gain值控制節(jié)點(diǎn)分裂[13]。Gain值越大代表在當(dāng)前節(jié)點(diǎn)以某特征進(jìn)行分裂可以更大地降低模型的損失,說(shuō)明該特征在某一條轉(zhuǎn)換規(guī)則(決策樹(shù))上越重要,其隱藏在范疇特征中的信息越多。定義某特征在所有樹(shù)中Gain值的平均值為特征重要性
(9)
特征重要性反映了該特征在模型中對(duì)預(yù)測(cè)指標(biāo)的支持程度,但無(wú)法直觀反映該特征在所有特征中的重要程度,因此采用特征重要性為依據(jù)進(jìn)行特征篩選,即
(10)
通過(guò)轉(zhuǎn)換輸入特征來(lái)提高線性分類器的性能一般有兩種方式:對(duì)于連續(xù)型特征,可以將特征進(jìn)行“分桶”,并把“分桶”索引作為新的分類特征值,以此實(shí)現(xiàn)非線性變換,但需要對(duì)分桶邊界進(jìn)行學(xué)習(xí);另外一種方式包括構(gòu)建元組輸入特征,對(duì)于分類特征可以采用笛卡爾乘積的方式將分類特征的可能值進(jìn)行組合,對(duì)于連續(xù)特征可以使用k-d樹(shù)進(jìn)行分塊。
Xgboost通過(guò)稀疏數(shù)據(jù)感知分裂算法進(jìn)行節(jié)點(diǎn)分枝,在稀疏、大樣本和高緯度數(shù)據(jù)中表現(xiàn)出許多特有的優(yōu)勢(shì)[13],并且可以通過(guò)森林中每棵樹(shù)根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑進(jìn)行特征轉(zhuǎn)換。使用Xgboost進(jìn)行特征轉(zhuǎn)換是實(shí)現(xiàn)上述非線性變換與元組轉(zhuǎn)換的一種更方便的方法。本文將Xgboost的每棵樹(shù)的路徑作為一個(gè)類別特征的轉(zhuǎn)換規(guī)則,將樣本實(shí)例最終所在的葉節(jié)點(diǎn)的索引作為轉(zhuǎn)換值。每棵樹(shù)的葉節(jié)點(diǎn)的索引值采用one-hot格式進(jìn)行編碼,最終將森林中所有編碼向量進(jìn)行拼接,得到某特征的轉(zhuǎn)換特征。Xgboot轉(zhuǎn)換特征是一種有監(jiān)督的特征編碼,在二元向量上擬合線性分類器本質(zhì)上就是學(xué)習(xí)規(guī)則集的權(quán)重。設(shè)規(guī)則集Z={z1,z2,…,zk},zk為Xgboost森林中每條轉(zhuǎn)換規(guī)則,k為森林中決策樹(shù)的數(shù)量。因此,線性分類器的學(xué)習(xí)過(guò)程就是轉(zhuǎn)換規(guī)則權(quán)重θ的學(xué)習(xí)過(guò)程,即
y=θ0+θ1z1+θ2z2+…+θkzk+ε
(11)
以圖2(集成預(yù)測(cè)模型)為例,森林中共有3棵樹(shù),5個(gè)葉子節(jié)點(diǎn),假設(shè)某樣本實(shí)例分別落在3棵樹(shù)的第1、2和2節(jié)點(diǎn),即fi1=1,fi5=1,fi9=1。則特征向量最終取值為[1,0,0,0,1,0,0,0,1,0],其中fi1、fi2、fi3為第一范疇特征,fi4、fi5、fi6、fi7為第二范疇特征,fi8、fi9、fi10為第三范疇特征。4.2節(jié)驗(yàn)證了該方法的可行性。
集成預(yù)測(cè)主要分為4個(gè)步驟:
(1)經(jīng)過(guò)數(shù)據(jù)預(yù)處理、特征工程的航班數(shù)據(jù)進(jìn)行學(xué)習(xí)訓(xùn)練,得到特征重要度排名;
(2)逐步拋棄得分最低的特征,并使用剩余的特征訓(xùn)練Xgboost,直至模型效果有明顯下降,加入該歩拋棄的特征得到最終航班特征;
(3)將樣本實(shí)例通過(guò)Xgboost進(jìn)行特征轉(zhuǎn)換,得到轉(zhuǎn)換特征向量;
(4)Logistic模型預(yù)測(cè)航班延誤。流程如圖3所示。
圖3 集成預(yù)測(cè)流程
航班運(yùn)營(yíng)案例中,延誤航班(Ddep>15)案例遠(yuǎn)小于準(zhǔn)點(diǎn)航班案例??紤]到非平衡數(shù)據(jù)集對(duì)模型帶來(lái)的影響,在分類前對(duì)數(shù)據(jù)集進(jìn)行平衡采樣。采樣可分為過(guò)采樣和欠采樣。過(guò)采樣會(huì)從現(xiàn)有數(shù)據(jù)集中為少數(shù)類別創(chuàng)建綜合樣本從而平衡類別的分布,而欠采樣技術(shù)則僅考慮多數(shù)類別的子集來(lái)平衡類別的分布。由于欠采樣僅考慮到來(lái)自準(zhǔn)點(diǎn)航班案例的樣本的子集,忽略了拋棄的樣本子集中潛在的重要信息。而對(duì)于負(fù)樣本遠(yuǎn)小于正樣本的數(shù)據(jù)集,僅使用過(guò)采樣通常無(wú)法解決類分布偏斜的數(shù)據(jù)集中存在的其它問(wèn)題[9]。
(12)
通過(guò)對(duì)比Xgboost在不同處理方式的數(shù)據(jù)集上的效果,發(fā)現(xiàn)過(guò)欠采樣與過(guò)采樣的集成處理方法取得了最好效果,對(duì)比結(jié)果見(jiàn)表3。
表3 平衡方法效果對(duì)比
模型評(píng)估指標(biāo)使用準(zhǔn)確度Acc,用以衡量判斷正確的案例占所有案例總數(shù)的百分比,如式(13)所示
(13)
預(yù)測(cè)混淆矩陣見(jiàn)表4。
表4 預(yù)測(cè)混淆矩陣
為了更加貼合航班延誤案例少于正常航班案例的真實(shí)情況,測(cè)試集并沒(méi)有進(jìn)行數(shù)據(jù)平衡處理。此外,模型采用ROC曲線與AUC值作為評(píng)判指標(biāo),以確保結(jié)果的正確性。ROC曲線橫軸為假陽(yáng)性率(FPR),如式(14)所示??v軸為真陽(yáng)性率(TPR),如式(15)所示
(14)
(15)
AUC值為ROC曲線下面積,如式(16)所示
(16)
其中,rankinsi表示將樣本按概率從大到小排列后第i條樣本的序號(hào)。M、N分別代表正負(fù)樣本個(gè)數(shù)。∑insi∈positiveclass表示將正樣本序號(hào)之和。
使用平衡數(shù)據(jù)集上訓(xùn)練得到的Xgboost模型進(jìn)行特征重要度評(píng)估。原始特征見(jiàn)表2,共計(jì)62個(gè)特征。通過(guò)式(10)得到所有特征的重要度后進(jìn)行降序排序,以每輪丟棄末尾一個(gè)特征的步進(jìn),將剩余的特征再次訓(xùn)練Xgboost,直至模型性能出現(xiàn)明顯下降。最終保留了46個(gè)特征,包含整體特征重要度的95.2%,其中前17個(gè)特征包含了整體80%左右的信息。由圖4條形圖可知,離港航班延誤與飛機(jī)起飛前的運(yùn)營(yíng)關(guān)系最大,如旅客登機(jī)流程。該類特征距離起飛時(shí)間最近,可以直觀反映延誤情況。而風(fēng)速作為飛行器起降的一大影響因素緊跟其后,這與航班運(yùn)營(yíng)經(jīng)驗(yàn)相符。前序航班延誤在航空網(wǎng)絡(luò)中的傳播也是一個(gè)重要的支持依據(jù),這與現(xiàn)有研究結(jié)論相符。
圖4 特征重要度排名
Xgboost通過(guò)特征重要度篩選特征后的效果如表5中所示,對(duì)比表3可知,丟棄部分特征后模型準(zhǔn)確度并沒(méi)有發(fā)生下降,而AUC值有所提高。實(shí)際上,減少特征數(shù)量增強(qiáng)了模型的泛化性能和訓(xùn)練速度。至此,得到了可以作為特征轉(zhuǎn)換器的Xgboost模型。
本文做了相關(guān)對(duì)比實(shí)驗(yàn),驗(yàn)證將Xgboost轉(zhuǎn)換特征作為線性模型的輸入可以有效提高線性模型的預(yù)測(cè)性能。該實(shí)驗(yàn)對(duì)比使用了轉(zhuǎn)換特征的Logistic模型與未使用轉(zhuǎn)換特征的Logistic單獨(dú)模型,以及使用單獨(dú)的Xgboost作為對(duì)比參考。對(duì)比結(jié)果見(jiàn)表5,ROC曲線如圖5所示。
由表5與圖5可知,采用Xgboost與Logistic相集成的方法在稀疏航班數(shù)據(jù)集上相比單獨(dú)的Logistic模型與Xgboost(XGB)均有所提升,而單獨(dú)的Logistic(LR)模型表現(xiàn)明顯不佳。
表5 Xgboost特征轉(zhuǎn)換效果
圖5 Xgboost特征轉(zhuǎn)換效果對(duì)比
與當(dāng)前已有研究中機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比,本文集成策略也取得了最好成績(jī)。對(duì)比結(jié)果見(jiàn)表6,ROC曲線如圖6所示。
表6 預(yù)測(cè)結(jié)果對(duì)比
圖6 ROC對(duì)比
由表6與圖6可知,Xgboost與Logistic相集成的預(yù)測(cè)方法在稀疏數(shù)據(jù)集上取得了最高的準(zhǔn)確度與AUC值,這在非平衡樣本結(jié)果中更加有說(shuō)服力。其中,SVM模型耗時(shí)最久,遠(yuǎn)遠(yuǎn)超過(guò)了基于決策樹(shù)的學(xué)習(xí)模型,效果也不盡人意,這也驗(yàn)證了SVM不太適合大樣本下的航班延誤預(yù)測(cè)任務(wù)。
由于基于決策樹(shù)的森林模型都可以按本文方法與線性模型相集成,將上述實(shí)驗(yàn)中表現(xiàn)效果較佳的RF模型和GBDT模型按本文方法分別與Logistic模型進(jìn)行集成,通過(guò)與本文集成預(yù)測(cè)模型進(jìn)行對(duì)比,結(jié)果見(jiàn)表7,ROC曲線如圖7所示。
表7 集成方法預(yù)測(cè)結(jié)果對(duì)比
圖7 集成方法ROC對(duì)比
通過(guò)對(duì)比表6、圖7和表7可以看到,將基于森林的模型作為特征轉(zhuǎn)換器與Logistic相集成的策略可以有效提高單獨(dú)線性預(yù)測(cè)模型的效果,但效果仍不及Xgboost與Logistic相集成的方法。集成策略對(duì)樹(shù)模型的性能也有所提升,集成后的模型將RF預(yù)測(cè)準(zhǔn)確度提升了1.4%,將GBDT預(yù)測(cè)準(zhǔn)確度提升了0.7%,同時(shí)AUC值也沒(méi)有太大損失。GBDT與Xgboost作為特征轉(zhuǎn)換器的集成策略效果明顯優(yōu)于RF集成策略,這與樹(shù)模型的學(xué)習(xí)算法有關(guān)。
本文提出了一種基于Xgboost模型與Logistc模型相集成的離港航班延誤預(yù)測(cè)方法。該集成策略可以有效提高線性分類器在稀疏數(shù)據(jù)集上的預(yù)測(cè)表現(xiàn),相較于基于森林的單獨(dú)模型性能也有所提升。將基于森林的模型作為線性分類器的輸入特征轉(zhuǎn)換器的集成策略還同時(shí)完成了特征非線性轉(zhuǎn)換與篩選,可以有效抑制過(guò)擬合情況的發(fā)生。而特征重要度排名可以為決策提供可解釋依據(jù)。
相比現(xiàn)有研究中的航班延誤預(yù)測(cè)方法,該方法預(yù)測(cè)模型效果更佳、對(duì)數(shù)據(jù)寬容度高、收斂速度快,更適合現(xiàn)實(shí)中離港航班延誤預(yù)測(cè)任務(wù)。在實(shí)際案例中,通過(guò)Xgboost轉(zhuǎn)換特征雖然可以降低數(shù)據(jù)要求,但是無(wú)法完全替代特征工程的環(huán)節(jié)。在新特征的創(chuàng)造上還需對(duì)數(shù)據(jù)本身含義進(jìn)行深究,挖掘出更有價(jià)值的特征。