国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LightGBM算法的機(jī)場(chǎng)聚合離場(chǎng)延誤預(yù)測(cè)

2024-02-06 04:11王笑天
關(guān)鍵詞:離場(chǎng)時(shí)段航班

劉 博,王笑天,徐 晨

(民航中南空管設(shè)備工程(廣州)有限公司,廣州 51000)

0 引言

航班延誤是未來(lái)一段時(shí)間民航業(yè)所面臨的重要挑戰(zhàn)??展芤蛩?、航空公司運(yùn)營(yíng)因素、空域容量供需不平衡等因素都有可能導(dǎo)致航班延誤。航班延誤可明顯影響民航系統(tǒng)的運(yùn)行效率,所造成的經(jīng)濟(jì)損失與社會(huì)影響不容忽視,因此,對(duì)航班延誤進(jìn)行預(yù)測(cè)具有重要意義。

目前,航班延誤預(yù)測(cè)的研究方法主要有基于延誤傳播的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法兩類?;谘诱`傳播的方法側(cè)重于研究航空運(yùn)輸網(wǎng)絡(luò)中的航班延誤傳播現(xiàn)象,并試圖基于該網(wǎng)絡(luò)的潛在機(jī)制來(lái)預(yù)測(cè)航班延誤。Beatty等[1]通過(guò)檢查初始延誤、延誤頻率和航班時(shí)刻表連通性來(lái)研究延誤的傳播。Xu及合作者[2-3]提出使用貝葉斯網(wǎng)絡(luò)對(duì)延誤的產(chǎn)生及機(jī)場(chǎng)緩解延誤的程序進(jìn)行建模。Pyrgiotis等[4]開(kāi)發(fā)排隊(duì)網(wǎng)絡(luò)模型來(lái)研究航班延誤的傳播。

近年來(lái),基于數(shù)據(jù)驅(qū)動(dòng)的方法成為相關(guān)研究的常用方法。該方法采用數(shù)據(jù)挖掘、統(tǒng)計(jì)分析或機(jī)器學(xué)習(xí)技術(shù)直接預(yù)測(cè)航班延誤,不需要探索延誤傳播機(jī)制。數(shù)據(jù)驅(qū)動(dòng)的諸多相關(guān)模型及算法已被用于預(yù)測(cè)航班延誤,其中包括隨機(jī)森林算法、極端隨機(jī)樹(shù)和支持向量機(jī)等。Rebollo等[5]提出了基于網(wǎng)絡(luò)的空中交通延誤預(yù)測(cè)模型,該模型將時(shí)間和空間延誤狀態(tài)作為解釋變量,并使用隨機(jī)森林算法來(lái)預(yù)測(cè)離場(chǎng)延誤。羅赟騫等[6]建立了基于支持向量機(jī)回歸的航班到達(dá)延誤預(yù)測(cè)模型,并發(fā)現(xiàn)了到達(dá)延誤時(shí)間序列具有混沌特性。Khanmohammadi等[7]引入了多級(jí)輸入層人工神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)進(jìn)港航班的延誤。模型中使用了日期(包括月份和星期)、出發(fā)機(jī)場(chǎng)、計(jì)劃起飛時(shí)間和實(shí)際起飛時(shí)間等特征作為輸入變量。Belcastro等[8]使用并行算法預(yù)測(cè)航班進(jìn)港延誤,同時(shí)考慮了航班信息(計(jì)劃起飛和到達(dá)時(shí)間)以及起飛和到達(dá)機(jī)場(chǎng)的天氣條件。徐海文等[9]利用深度神經(jīng)網(wǎng)絡(luò)模型并結(jié)合時(shí)效信息,建立了離場(chǎng)航班延誤預(yù)測(cè)模型。陳昱君等[10]則利用自動(dòng)編碼器改進(jìn)了基本BP神經(jīng)網(wǎng)絡(luò)算法,以進(jìn)行離港航班延誤時(shí)間預(yù)測(cè)。

目前的研究大部分著眼于個(gè)體航班的延誤程度,對(duì)于旅客而言,關(guān)注個(gè)體航班的延誤程度便于對(duì)行程做出預(yù)先規(guī)劃,對(duì)于航司而言,單個(gè)航班的延誤程度對(duì)后續(xù)運(yùn)行的經(jīng)濟(jì)收益、公司信譽(yù)等都會(huì)有重要影響。而對(duì)于空中交通管理者而言,以機(jī)場(chǎng)、機(jī)場(chǎng)對(duì)乃至整個(gè)空中交通系統(tǒng)為統(tǒng)計(jì)對(duì)象的聚合延誤則更容易幫助其了解系統(tǒng)性延誤演化趨勢(shì),以幫助做出科學(xué)決策[11]。

區(qū)別于以往重點(diǎn)將航班個(gè)體作為主體對(duì)象的延誤研究,本文將機(jī)場(chǎng)的航班聚合離場(chǎng)延誤作為預(yù)測(cè)研究的主體,并采用機(jī)器學(xué)習(xí)的方法進(jìn)行分析,以期為空中交通管理者的流量管理決策提供依據(jù)。LightGBM算法是一種高效高性能分布式的基于決策樹(shù)算法的梯度提升框架,可用于排序、分類、回歸等多種機(jī)器學(xué)習(xí)任務(wù)中。本文以機(jī)場(chǎng)為統(tǒng)計(jì)對(duì)象,基于LightGBM算法建立了航班聚合離場(chǎng)延誤預(yù)測(cè)模型,并利用廣州白云機(jī)場(chǎng)(ZGGG)的歷史運(yùn)行數(shù)據(jù),將該模型與其他常用算法模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,驗(yàn)證模型的可靠性和有效性。

1 預(yù)測(cè)指標(biāo)

本文聚焦于機(jī)場(chǎng)航班聚合離場(chǎng)延誤時(shí)間的預(yù)測(cè),是對(duì)延誤持續(xù)時(shí)長(zhǎng)的回歸(定量)預(yù)測(cè),不是對(duì)延誤是否發(fā)生的分類(定性)預(yù)測(cè)。

預(yù)測(cè)指標(biāo)Y為航班聚合離場(chǎng)延誤,即為每個(gè)預(yù)測(cè)時(shí)段內(nèi)機(jī)場(chǎng)所有離場(chǎng)航班的平均延誤時(shí)間。本研究選取1 h為預(yù)測(cè)時(shí)段的時(shí)長(zhǎng),即Y為未來(lái)1小時(shí)內(nèi)該機(jī)場(chǎng)所有離場(chǎng)航班預(yù)計(jì)離場(chǎng)延誤的平均值。為了使預(yù)測(cè)結(jié)果更具直觀性,將每個(gè)航班的離場(chǎng)延誤時(shí)長(zhǎng)定為實(shí)際起飛時(shí)間晚于預(yù)計(jì)起飛時(shí)間的時(shí)長(zhǎng),不考慮航班延誤分類預(yù)測(cè)中定性判定延誤的15 min閾值。

2 數(shù)據(jù)預(yù)處理及特征選取

航班起降數(shù)據(jù)選取2017年3月1日—2018年2月28日廣州白云機(jī)場(chǎng)的歷史運(yùn)行數(shù)據(jù),共494 135條,其中,航班返航、備降及字段缺失嚴(yán)重等數(shù)據(jù)共8 567條,占總量的1.7%左右,這部分?jǐn)?shù)據(jù)直接做刪除處理。

通過(guò)對(duì)選取數(shù)據(jù)的分析處理,結(jié)合以往關(guān)于航班離場(chǎng)延誤的研究,對(duì)一線人員的咨詢,提取出時(shí)間特征、航班計(jì)劃特征及延誤特征3類共14條與機(jī)場(chǎng)延誤相關(guān)的聚合特征,如表1所示。

表1 選取數(shù)據(jù)特征

其中,本時(shí)段累計(jì)需要進(jìn)場(chǎng)/離場(chǎng)航班數(shù),指的是機(jī)場(chǎng)本時(shí)段需滿足進(jìn)場(chǎng)/離場(chǎng)航班的數(shù)量,是本時(shí)段計(jì)劃進(jìn)場(chǎng)/離場(chǎng)航班的數(shù)量與本時(shí)段之前因延誤未完成進(jìn)場(chǎng)/離場(chǎng)航班的數(shù)量之和。前一時(shí)段進(jìn)場(chǎng)/離場(chǎng)航班的延誤數(shù)量,指的是前一時(shí)段實(shí)際進(jìn)/離場(chǎng)時(shí)間減去計(jì)劃進(jìn)/離場(chǎng)時(shí)間不小于15 min的航班數(shù)量。

將收集的數(shù)據(jù)分時(shí)段(1 h),按如上特征進(jìn)行整合,得到結(jié)構(gòu)為8 760×14的特征數(shù)據(jù)集。此外,考慮到機(jī)場(chǎng)00:00—06:00起降航班量較少,故選取06:00—24:00的航班起降數(shù)據(jù)作為樣本,最終得到6 570×14的特征數(shù)據(jù)集。預(yù)測(cè)指標(biāo)為本時(shí)段離場(chǎng)航班的平均延誤時(shí)間,處理得到6 570×1的標(biāo)簽數(shù)據(jù)集。由于各變量的量綱數(shù)據(jù)跨度較大,故對(duì)特征數(shù)據(jù)集及標(biāo)簽數(shù)據(jù)集進(jìn)行歸一化處理,目的是使各特征數(shù)據(jù)處于相同的數(shù)量級(jí),消除它們之間的量綱差異對(duì)預(yù)測(cè)結(jié)果產(chǎn)生的影響。標(biāo)準(zhǔn)化處理公式為

(1)

3 預(yù)測(cè)模型建立

3.1 LightGBM算法原理

LightGBM算法是基于梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)的算法框架,GBDT與目前流行的Xgboost(eXtreme Gradient Boosting)算法相比,訓(xùn)練速度更快,內(nèi)存消耗更低,準(zhǔn)確率更高[12]。LightGBM原理與Xgboost類似,通過(guò)損失函數(shù)的泰勒展開(kāi)式來(lái)近似的表達(dá)殘差,并利用正則化項(xiàng)控制模型的復(fù)雜度

(2)

(3)

LightGBM算法采用leaf-wise節(jié)點(diǎn)分裂策略,只選擇分裂增益最大的結(jié)點(diǎn),從而避免部分結(jié)點(diǎn)增益較小所帶來(lái)的損耗。同時(shí)在選擇增益最大結(jié)點(diǎn)進(jìn)行分裂時(shí),進(jìn)行最大深度的約束,從而防止過(guò)擬合。二叉樹(shù)的分裂增益為

(4)

LightGBM算法采用基于直方圖的排序算法,將特征進(jìn)行離散化處理,可減少占用內(nèi)存,加快模型的訓(xùn)練速度。其基本流程為:將數(shù)據(jù)集中的連續(xù)浮點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),得到寬度為k的直方圖,根據(jù)直方圖各部分的統(tǒng)計(jì)區(qū)間將連續(xù)值離散化為k個(gè)離散值;分別以各離散值為索引遍歷直方圖中的數(shù)據(jù),并累計(jì)統(tǒng)計(jì)量,尋找離散值中的最優(yōu)分割點(diǎn)(圖1)。

圖1 直方圖算法示意圖

3.2 建模方法

基于上述多類聚合特征數(shù)據(jù),將機(jī)場(chǎng)的聚合離場(chǎng)延誤預(yù)測(cè)問(wèn)題轉(zhuǎn)換為數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)回歸預(yù)測(cè)問(wèn)題。根據(jù)LightGBM算法,將表1中的14個(gè)特征數(shù)據(jù)輸入模型,以機(jī)場(chǎng)每小時(shí)的預(yù)計(jì)離場(chǎng)延誤時(shí)間作為標(biāo)簽與預(yù)測(cè)指標(biāo),建立機(jī)場(chǎng)的聚合離場(chǎng)延誤預(yù)測(cè)模型,并對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行測(cè)試與分析。

標(biāo)準(zhǔn)化處理之后所得數(shù)據(jù)用于模型的構(gòu)建,采用10-折交叉驗(yàn)證與網(wǎng)格搜索方法相結(jié)合的方式進(jìn)行模型的訓(xùn)練與調(diào)參工作。建模時(shí)將數(shù)據(jù)集合劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三類。其中,訓(xùn)練集用于訓(xùn)練機(jī)器學(xué)習(xí)模型的參數(shù),驗(yàn)證集用于無(wú)偏的評(píng)估模型性能和調(diào)節(jié)超參數(shù),測(cè)試集用于測(cè)試最終的模型性能。數(shù)據(jù)集劃分如圖2所示:隨機(jī)劃設(shè)20%原始數(shù)據(jù)為測(cè)試集,剩余的數(shù)據(jù)采用10-折交叉驗(yàn)證的方法,90%為訓(xùn)練集,10%為驗(yàn)證集。

圖2 數(shù)據(jù)集劃分方式

在10-折交叉驗(yàn)證的基礎(chǔ)上,利用網(wǎng)格搜索方式進(jìn)行模型的超參數(shù)優(yōu)化。此方法是將各個(gè)參數(shù)取值進(jìn)行排列組合,然后將各組合用于模型訓(xùn)練,并對(duì)模型結(jié)果進(jìn)行評(píng)估的方法,嘗試所有的參數(shù)組合后,最優(yōu)評(píng)估結(jié)果對(duì)應(yīng)的參數(shù)即為最優(yōu)參數(shù)。

4 實(shí)例分析

本研究以廣州白云機(jī)場(chǎng)為例,選取合適的預(yù)測(cè)指標(biāo),評(píng)估所建立模型的預(yù)測(cè)性能。

4.1 指標(biāo)選取

選擇決定系數(shù)(R2)、均方誤差(MSE)和平均絕對(duì)值誤差(MAE)作為評(píng)價(jià)模型預(yù)測(cè)結(jié)果的性能指標(biāo)。決定系數(shù)(R2),又稱擬合優(yōu)度,是對(duì)模型解釋程度的度量,值越大表明自變量對(duì)因變量的解釋程度越高。MSE是估計(jì)值和實(shí)際值之間的偏差的平方和的比率。它可以測(cè)量誤差平方的平均值。MSE值越小表示預(yù)測(cè)精度越高。MAE是絕對(duì)誤差的平均值,可以更好地反映預(yù)測(cè)值誤差的實(shí)際情況。

(5)

(6)

(7)

4.2 預(yù)測(cè)結(jié)果分析

將所收集的廣州白云機(jī)場(chǎng)2017年3月1日—2018年2月28日的歷史航班數(shù)據(jù)經(jīng)預(yù)處理與特征提取,最終得到6 570×14的特征數(shù)據(jù)集與6 570×1的標(biāo)簽數(shù)據(jù)集。根據(jù)圖2進(jìn)行數(shù)據(jù)集的劃分,對(duì)廣州白云機(jī)場(chǎng)的航班聚合離場(chǎng)延誤進(jìn)行回歸預(yù)測(cè)。

根據(jù)網(wǎng)格搜索超參數(shù)優(yōu)化結(jié)果,模型的主要參數(shù)迭代次數(shù)為500次,學(xué)習(xí)率learning_rate為0.1,單棵決策樹(shù)上的葉子數(shù)量num_leaves=27,最大深度max_depth=10,其他參數(shù)均取默認(rèn)參數(shù)。最終預(yù)測(cè)結(jié)果的決定系數(shù)R2值為0.866 7,均方誤差MSE為53.93,平均絕對(duì)值誤差MAE為4.77 min。

預(yù)測(cè)結(jié)果可視化。為保證結(jié)果的可靠性,選取建模中未用到的數(shù)據(jù)進(jìn)行預(yù)測(cè),并對(duì)結(jié)果進(jìn)行可視化分析。選取2018年3月31日的航班數(shù)據(jù),經(jīng)處理后進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如下圖3所示。圖中縱軸表示每個(gè)時(shí)段內(nèi)機(jī)場(chǎng)所有離場(chǎng)航班的平均延誤時(shí)間。由圖3可見(jiàn),預(yù)測(cè)值與實(shí)際值的波動(dòng)走向基本一致,當(dāng)天大部分時(shí)段的預(yù)測(cè)誤差均保持在7 min以內(nèi)。

圖3 2018年3月31日延誤時(shí)間預(yù)測(cè)和實(shí)際結(jié)果

提取在預(yù)測(cè)過(guò)程中不同特征體現(xiàn)出的特征重要度示于圖4。由圖4可知,“本時(shí)段累計(jì)需要離場(chǎng)航班數(shù)”約占總重要特征的20%,占比最大,說(shuō)明機(jī)場(chǎng)的離場(chǎng)航班滯留情況是對(duì)離場(chǎng)延誤影響最大的因素。

圖4 不同特征的重要性

4.3 與其他算法對(duì)比

為進(jìn)一步對(duì)本模型的預(yù)測(cè)性能進(jìn)行評(píng)估,選取較為常用的支持向量機(jī)、隨機(jī)森林、極端隨機(jī)樹(shù)算法進(jìn)行比較,不同算法均按照相同的方法流程進(jìn)行了數(shù)據(jù)處理與建模。各算法在測(cè)試集上的表現(xiàn)如表2所示。由對(duì)比結(jié)果可知,本文算法在決定系數(shù)R2、均方誤差MSE和平均絕對(duì)值誤差MAE三個(gè)指標(biāo)的表現(xiàn)上均是最優(yōu)的,且在保持良好性能的同時(shí),具有更高的運(yùn)行效率。LightGBM算法對(duì)6 570條數(shù)據(jù)進(jìn)行處理,只花費(fèi)了0.76 s時(shí)間,這一速度比支持向量機(jī)算法快17倍,比隨機(jī)森林算法快33倍,比極端隨機(jī)樹(shù)算法快20倍。

表2 不同算法的實(shí)驗(yàn)結(jié)果對(duì)比

5 結(jié)論

本文以機(jī)場(chǎng)為研究對(duì)象,提出了一種預(yù)測(cè)機(jī)場(chǎng)聚合離場(chǎng)延誤的方法,基于時(shí)間特征、飛行計(jì)劃特征和延誤特征三類與機(jī)場(chǎng)相關(guān)的聚合特征建模。結(jié)合實(shí)際航班數(shù)據(jù),基于LightGBM算法進(jìn)行對(duì)延誤時(shí)間進(jìn)行預(yù)測(cè),結(jié)果表明:

(1)在1 h的時(shí)間窗口內(nèi),模型預(yù)測(cè)準(zhǔn)確度可以達(dá)到0.866 7,平均絕對(duì)值誤差僅為4.77 min,且相較于其他算法而言,本文所提模型運(yùn)行效率明顯提升;

(2)預(yù)測(cè)模型從機(jī)場(chǎng)角度預(yù)測(cè)航班的離場(chǎng)延誤,可提醒機(jī)場(chǎng)管理人員、空中交通管制員和乘客有效應(yīng)對(duì)機(jī)場(chǎng)及附近空域系統(tǒng)的擁堵情況。

猜你喜歡
離場(chǎng)時(shí)段航班
全美航班短暫停飛
基于CE-PF算法的艦載機(jī)離場(chǎng)調(diào)度優(yōu)化問(wèn)題
山航紅色定制航班
山航紅色定制航班
山航紅色定制航班
四個(gè)養(yǎng)生黃金時(shí)段,你抓住了嗎
生產(chǎn)、加工和傳播——反轉(zhuǎn)新聞中的離場(chǎng)介入研究
我喜歡我們K歌的那個(gè)晚上,沒(méi)有一個(gè)人離場(chǎng)
離場(chǎng)航空器四維航跡預(yù)測(cè)及不確定性分析
傍晚是交通事故高發(fā)時(shí)段