谷潤(rùn)平,來(lái)靖晗,魏志強(qiáng)
(中國(guó)民航大學(xué)空中交通管理學(xué)院,天津 300300)
隨著航班量不斷增長(zhǎng),其延誤情況愈發(fā)嚴(yán)重,若不及時(shí)分析所潛在的影響因素與規(guī)律,并研究相關(guān)估計(jì)模型以盡可能減小延誤損失,將對(duì)民航業(yè)各方的效益造成不良后果。因此,對(duì)其針對(duì)性的研究是十分必要的,同時(shí),延誤預(yù)測(cè)研究將為民航相關(guān)部門(mén)的航班運(yùn)行決策提供理論參考[1]。
目前,已有多種算法[2-14]進(jìn)行了延誤預(yù)測(cè)的相關(guān)研究。國(guó)外,Kim[2]等研究了容量和需求對(duì)紐約地區(qū)機(jī)場(chǎng)延誤水平的影響;Mukherjee[3]等采用邏輯回歸和決策樹(shù)模型,預(yù)測(cè)機(jī)場(chǎng)地面延誤的發(fā)生;Noboru[4]等利用淺層人工神經(jīng)網(wǎng)絡(luò)(ANN, artificial neural network)對(duì)機(jī)場(chǎng)空域進(jìn)行延誤預(yù)測(cè);Khanmohammadi[6]等引入多級(jí)輸入層神經(jīng)網(wǎng)絡(luò)算法處理航班數(shù)據(jù)中的名義變量,以預(yù)測(cè)延誤;Pyrgiotis等[7]進(jìn)行了近似網(wǎng)絡(luò)延誤建模,并運(yùn)用排隊(duì)論模型進(jìn)行單個(gè)機(jī)場(chǎng)的延誤計(jì)算;Rebollo[8]等利用隨機(jī)森林方法預(yù)測(cè)航班的平均離港延誤;國(guó)內(nèi),徐濤[9]等針對(duì)空運(yùn)需求與機(jī)場(chǎng)容量沖突條件,采用增量式排列支持向量機(jī)算法進(jìn)行延誤預(yù)警;程華[10]等結(jié)合航班數(shù)據(jù)特點(diǎn),構(gòu)建了基于C4.5決策樹(shù)方法的延誤預(yù)測(cè)模型;羅謙[11]等采用構(gòu)建的非線(xiàn)性回歸模型,預(yù)測(cè)了大型樞紐機(jī)場(chǎng)的航班延誤;吳薇薇[12]等運(yùn)用加權(quán)馬爾科夫鏈模型,對(duì)關(guān)鍵機(jī)場(chǎng)的整體延誤狀態(tài)進(jìn)行預(yù)測(cè);吳仁彪[13]等進(jìn)行基于Spark并融合氣象數(shù)據(jù)的并行化航班延誤預(yù)測(cè);張敏[14]運(yùn)用集對(duì)分析的方法,建立了航班延誤預(yù)警模型。
綜上,國(guó)內(nèi)外學(xué)者多以某一具體機(jī)場(chǎng)的延誤問(wèn)題作為研究對(duì)象,且對(duì)延誤特性的統(tǒng)計(jì)量化規(guī)律研究有所欠缺;對(duì)延誤影響參數(shù)的優(yōu)化研究較少,忽視了其預(yù)測(cè)效率和結(jié)構(gòu)優(yōu)化;另外,延誤預(yù)測(cè)建??紤]的影響因素較為局限,多是僅考慮航班時(shí)刻表中的參數(shù)數(shù)據(jù),缺少全面性與系統(tǒng)性,在實(shí)踐應(yīng)用中具有一定限制。近年來(lái),面向大數(shù)據(jù)的深度學(xué)習(xí)方法廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理等方面,其性能明顯優(yōu)于傳統(tǒng)算法[15]。鑒于此,首先利用數(shù)據(jù)處理與統(tǒng)計(jì)方法,全面分析航班延誤影響因素與規(guī)律,之后采用灰色關(guān)聯(lián)算法,進(jìn)行延誤相關(guān)性分析以篩選出關(guān)鍵因素,最終實(shí)現(xiàn)基于灰色GA-BP神經(jīng)網(wǎng)絡(luò)的延誤分析與預(yù)測(cè)建模方法,實(shí)現(xiàn)延誤的高精度估計(jì),為提高航班正常率與運(yùn)行效率提供研究思路,其方法示意圖如圖1。
圖1 航班延誤預(yù)測(cè)建模流程
航班延誤情況可能會(huì)出現(xiàn)明顯的差異性,即具有不同的延誤分布特性與規(guī)律[16,17],將航班延誤定義為實(shí)際起飛/到達(dá)相對(duì)于計(jì)劃起飛/到達(dá)時(shí)間的偏離,正值即為航班延誤時(shí)長(zhǎng)。依據(jù)某航空公司2018全年的航班延誤統(tǒng)計(jì)數(shù)據(jù),運(yùn)用數(shù)據(jù)統(tǒng)計(jì)與處理方法,獲得基于時(shí)空屬性的起飛與到達(dá)延誤統(tǒng)計(jì)分布曲線(xiàn),以進(jìn)行延誤特性分析。
2.1.1 月統(tǒng)計(jì)延誤分布
對(duì)起飛延誤和到達(dá)延誤在全年每個(gè)月中的平均延誤情況進(jìn)行統(tǒng)計(jì),結(jié)果如圖2。每月的延誤水平會(huì)有一定差異,即波動(dòng)性較強(qiáng);全年的延誤水平隨著季節(jié)差異性而變化,其中平均延誤時(shí)長(zhǎng)的分布浮動(dòng)在20~80min之間,且7月份延誤狀況最嚴(yán)重。另外,到達(dá)平均延誤時(shí)間整體大于起飛平均延誤,且變化趨勢(shì)相似。
圖2 月統(tǒng)計(jì)延誤分布
2.1.2 周統(tǒng)計(jì)延誤分布
星期屬性在航班延誤程度上也有一定波動(dòng)性,每日平均延誤時(shí)長(zhǎng)具有一定差異性,每周平均延誤時(shí)長(zhǎng)整體穩(wěn)定在30~70min之間,如圖3。同時(shí),在該條件下,航班到達(dá)延誤平均時(shí)間明顯較起飛延誤平均時(shí)間長(zhǎng)。
圖3 周統(tǒng)計(jì)延誤分布
2.1.3 小時(shí)統(tǒng)計(jì)延誤分布
對(duì)于起飛與到達(dá)延誤水平,兩者變化規(guī)律趨于一致,且各時(shí)段隨著時(shí)間變量都具有明顯的強(qiáng)波動(dòng)性,如圖4。另外,延誤時(shí)長(zhǎng)較高的時(shí)段整體集中在8時(shí)和13時(shí),即為繁忙時(shí)段。
圖4 小時(shí)統(tǒng)計(jì)延誤分布
2.1.4 空間分布統(tǒng)計(jì)分析
由圖5可知,由于不同機(jī)場(chǎng)規(guī)模以及發(fā)展水平等眾多因素的影響,導(dǎo)致不同機(jī)場(chǎng)的延誤水平具有較大差異性。因此,獲取所涉及機(jī)場(chǎng)的規(guī)模數(shù)據(jù)、正常性數(shù)據(jù)及其機(jī)場(chǎng)服務(wù)評(píng)級(jí)作為航班延誤的影響參數(shù)。
圖5 多機(jī)場(chǎng)統(tǒng)計(jì)延誤分布
由上述分布特性分析可知,航班延誤在時(shí)空屬性上具有強(qiáng)烈的關(guān)聯(lián)性。月份、星期和時(shí)段特征可以一定程度上來(lái)表征延誤分布特性及其航班延誤程度,同時(shí)考慮節(jié)假日的差異性,因此將是否節(jié)假日屬性與小時(shí)、星期和月份屬性作為時(shí)間影響參數(shù)。同時(shí),各機(jī)場(chǎng)的起飛延誤和到達(dá)延誤具有明顯相似的變化趨勢(shì),相關(guān)性較強(qiáng),即起飛延誤會(huì)一定程度上影響到達(dá)延誤,是以將起飛延誤作為后續(xù)到達(dá)延誤估計(jì)模型的影響參數(shù)。
據(jù)此,結(jié)合民航航班正常統(tǒng)計(jì)辦法規(guī)定,以航空公司、機(jī)場(chǎng)、天氣和其它四個(gè)維度為出發(fā)點(diǎn),基于航空公司歷史航班運(yùn)行數(shù)據(jù)及獲取的相關(guān)影響參數(shù)數(shù)據(jù),建立航班延誤估計(jì)指標(biāo)體系,如圖6。通過(guò)處理該延誤相關(guān)數(shù)據(jù),具體包括數(shù)據(jù)清洗、定量化及其多維匹配與融合,為后續(xù)延誤預(yù)測(cè)模型的構(gòu)建提供基礎(chǔ)。
圖6 航班延誤估計(jì)參數(shù)指標(biāo)
由上述航班延誤的分布規(guī)律與影響因素分析可知,各參數(shù)都能夠不同程度地反映延誤度,比較容易建立建模數(shù)據(jù)庫(kù)。然而,因獲取的影響因素?cái)?shù)據(jù)具有多樣性的特點(diǎn),且各因素影響下的延誤情況具有一定差異性,與歷史運(yùn)行數(shù)據(jù)進(jìn)行匹配后構(gòu)建的數(shù)據(jù)庫(kù),將會(huì)引入不必要的延誤預(yù)測(cè)誤差。因此,采用灰色關(guān)聯(lián)分析(Grey Relational Analysis,GRA)優(yōu)選參數(shù)建模數(shù)據(jù)庫(kù),依據(jù)關(guān)聯(lián)度大小來(lái)厘定延誤參數(shù)建模數(shù)據(jù)庫(kù)的有效性。
GRA是一種基于關(guān)聯(lián)性分析的多因素量化分析方法,其主要思想是根據(jù)相關(guān)計(jì)算得到影響因子間的灰色關(guān)聯(lián)度,以此衡量各因子與研究對(duì)象的關(guān)聯(lián)與貢獻(xiàn)程度[18]。因子之間具有越為相似的變化態(tài)勢(shì)與程度,則表明其關(guān)聯(lián)性越強(qiáng)?;疑P(guān)聯(lián)建模具體流程如下:
1)確定分析序列
令某航班的到達(dá)延誤時(shí)間(X0)為參考序列,且影響延誤各個(gè)指標(biāo)參數(shù)分別為:航班號(hào)(X1)、機(jī)號(hào)(X2)、機(jī)型(X3)、計(jì)劃起飛(X4)、計(jì)劃到達(dá)(X5)、起飛機(jī)場(chǎng)(X6)、到達(dá)機(jī)場(chǎng)(X7)、航班性質(zhì)(X8)、月份(X9)、星期(X10)、是否節(jié)假日(X11)、飛機(jī)狀態(tài)(X12)、起飛機(jī)場(chǎng)規(guī)模(X13)、到達(dá)機(jī)場(chǎng)規(guī)模(X14)、起飛機(jī)場(chǎng)正常性(X15)、到達(dá)機(jī)場(chǎng)正常性(X16)、起飛機(jī)場(chǎng)評(píng)級(jí)(X17)、到達(dá)機(jī)場(chǎng)評(píng)級(jí)(X18)、天氣狀況(X19)、延誤波及(X20)、流量控制(X21)、軍事活動(dòng)(X22)、空管狀態(tài)(X23)、旅客(X24)、特殊事件(X25)、其它(X26)、起飛延誤(X27)為比較序列。
參考序列X0={X0(k)|k=1,2,…,n}與比較序列Xi={Xi(k)|k=1,2,…,n},(i=1,2,…,n)構(gòu)成的矩陣為
(1)
2)無(wú)量綱化
為了消除各序列數(shù)據(jù)的量綱差異,利用均值化法進(jìn)行延誤數(shù)據(jù)及其相關(guān)影響因子數(shù)據(jù)的處理,公式為
(i=1,2,…,27;k=1,2,…,n)
(2)
3)計(jì)算序列間關(guān)聯(lián)系數(shù)
X0與Xi的關(guān)聯(lián)系數(shù)公式如下
(3)
4)計(jì)算序列間關(guān)聯(lián)度
將各關(guān)聯(lián)系數(shù)ξ0i集中體現(xiàn)在一個(gè)值,即為關(guān)聯(lián)度。其值越大,表明兩者的幾何曲線(xiàn)形狀越接近,相關(guān)性越強(qiáng)。公式如下
(4)
5)序列間關(guān)聯(lián)度排序
對(duì)各比較序列與參考序列的關(guān)聯(lián)度由高到低進(jìn)行排序,得到各影響因素與延誤的相關(guān)性結(jié)果,例如:假設(shè)γ01<γ02,即表示X1與X0更為一致,X1與延誤的相關(guān)程度更高。
優(yōu)化模型的基本思路為:由于BP神經(jīng)網(wǎng)絡(luò)具有易陷入局部極小值等不足,將遺傳算法(Genetic algorithm,GA)作為其優(yōu)化方法,實(shí)現(xiàn)非線(xiàn)性與多維空間的全局尋優(yōu)。首先,將延誤預(yù)測(cè)網(wǎng)絡(luò)的初始權(quán)值與閾值作為其遺傳染色體基因進(jìn)行相關(guān)編碼,完成GA算法的種群初始化;然后,計(jì)算遺傳過(guò)程中的個(gè)體適應(yīng)度,經(jīng)由選擇、交叉和變異算子運(yùn)行,得到高適應(yīng)度的染色體并保留,繼而獲得新種群,直至達(dá)到算法終止條件[19]。
GA-BP網(wǎng)絡(luò)延誤預(yù)測(cè)模型構(gòu)建流程圖如圖7,其優(yōu)化建模的具體實(shí)現(xiàn)步驟如下所示:
(5)
式中:Xi為第i個(gè)數(shù)據(jù)樣本;Xmax為序列中的最大值,Xmin為其最小值。
2)GA參數(shù)設(shè)置及其種群初始化。標(biāo)定遺傳中的種群規(guī)模為80,迭代次數(shù)為200,交叉及變異概率分別為0.6、0.08,并進(jìn)行相關(guān)染色體基因編碼。
3)計(jì)算適應(yīng)度。設(shè)定適應(yīng)度為預(yù)測(cè)值和期望值之間的誤差平方和,公式為
(6)
式中:k為系數(shù);n為輸出個(gè)數(shù);yi為第i個(gè)神經(jīng)節(jié)點(diǎn)的期望值,oi為其實(shí)際值。
4)隨機(jī)性選擇種群個(gè)體,并進(jìn)行交叉和變異,從而生成新染色體,保留優(yōu)化的染色體并遺傳至下一代得到新種群。
5)重復(fù)3)、4)步,當(dāng)適應(yīng)度收斂至迭代次數(shù)時(shí),獲得最優(yōu)染色體,以此作為BP網(wǎng)絡(luò)模型的初始權(quán)值與閾值。
6)設(shè)置BP參數(shù)?;谶z傳進(jìn)化得到的初始權(quán)值與閾值,標(biāo)定延誤預(yù)測(cè)網(wǎng)絡(luò)模型中的學(xué)習(xí)算法為T(mén)rainlm,學(xué)習(xí)率為0.01,訓(xùn)練次數(shù)與目標(biāo)分別為1000和10e-5。
7)將GRA優(yōu)化的延誤影響因子數(shù)據(jù)與到達(dá)延誤時(shí)間數(shù)據(jù)輸入網(wǎng)絡(luò)。輸入層的神經(jīng)節(jié)點(diǎn)獲取延誤影響因子數(shù)據(jù)后,由激活函數(shù)fX計(jì)算得到Y(jié)″,之后輸出到隱含層神經(jīng)節(jié)點(diǎn),并由激活函數(shù)gX計(jì)算得到Y(jié),其運(yùn)行公式為
Y″=fX(WinY′+θin)
(7)
Y=gX(WoutY″+θout)
(8)
式中:Y′、Y″和Y分別為輸入層、隱含層與輸出層;Win和θin分別為輸入層到隱含層之間的權(quán)值與閾值;Wout和θout分別為隱含層至輸出層之間的權(quán)值與閾值;fX為L(zhǎng)ogsig函數(shù),gX為Purelin函數(shù),公式為
(9)
gX=X
(10)
式中:X為輸入樣本數(shù)據(jù)。
8)計(jì)算輸出Y與輸入到達(dá)延誤時(shí)間數(shù)據(jù)間的誤差δ。將δ反饋至前兩層神經(jīng)節(jié)點(diǎn),分別修正每層神經(jīng)節(jié)點(diǎn)的權(quán)值與閾值,并基于新的權(quán)值與閾值對(duì)7)步進(jìn)行循環(huán)運(yùn)算,直至δ小于訓(xùn)練目標(biāo)10e-5。
圖7 GA優(yōu)化BP神經(jīng)網(wǎng)絡(luò)流程圖
根據(jù)獲取的某航空公司2018年1月1日-2018年12月31日全年實(shí)際延誤數(shù)據(jù)及其相關(guān)參數(shù)數(shù)據(jù),由式(1)對(duì)航班到達(dá)延誤及影響因素,取分辨系數(shù)ρ=0.5,根據(jù)式(2)、(3)、(4)計(jì)算關(guān)聯(lián)度,將特征按照關(guān)聯(lián)度由大至小排序,見(jiàn)表1。其中,關(guān)聯(lián)度閾值取0.8,即選擇灰色關(guān)聯(lián)度大于0.8的影響因子為主要影響因子,作為GA-BP網(wǎng)絡(luò)的輸入。
表1 延誤影響因子的灰色關(guān)聯(lián)分析結(jié)果
由表1中的灰色關(guān)聯(lián)度可知,航班號(hào)、機(jī)號(hào)、起飛機(jī)場(chǎng)規(guī)模及到達(dá)機(jī)場(chǎng)規(guī)模4個(gè)因子相比于其它因子而言與到達(dá)延誤的關(guān)聯(lián)度不大,表明該數(shù)據(jù)序列對(duì)到達(dá)延誤時(shí)間的影響能力不足,可作為無(wú)效數(shù)據(jù)點(diǎn)進(jìn)行剔除。最終選取關(guān)聯(lián)度在0.8以上的23個(gè)影響因子作為GA-BP網(wǎng)絡(luò)模型的輸入神經(jīng)元,到達(dá)延誤時(shí)間作為輸出結(jié)果。
利用預(yù)處理后的延誤優(yōu)化參數(shù)數(shù)據(jù)庫(kù),據(jù)經(jīng)驗(yàn)公式并通過(guò)網(wǎng)絡(luò)性能測(cè)試,確定中間層設(shè)置6個(gè)神經(jīng)節(jié)點(diǎn),進(jìn)行灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測(cè)模型構(gòu)建。令網(wǎng)絡(luò)訓(xùn)練集為隨機(jī)選擇的7000個(gè)樣本數(shù)據(jù)集,檢驗(yàn)樣本為其余300個(gè)樣本數(shù)據(jù)集,對(duì)其進(jìn)行網(wǎng)絡(luò)模型的學(xué)習(xí)訓(xùn)練與效能驗(yàn)證對(duì)比。
首先,通過(guò)GA算法優(yōu)化延誤預(yù)測(cè)模型網(wǎng)絡(luò),即獲得該網(wǎng)絡(luò)初始權(quán)值與閾值的最優(yōu)解。隨著代數(shù)增加,適應(yīng)度函數(shù)在遺傳進(jìn)化中的變化曲線(xiàn)如圖8。經(jīng)過(guò)多次迭代,種群個(gè)體的適應(yīng)力得到增強(qiáng),進(jìn)化80代附近時(shí)個(gè)體適應(yīng)度趨于穩(wěn)定。
圖8 GA算法進(jìn)化曲線(xiàn)
該延誤預(yù)測(cè)模型網(wǎng)絡(luò)的訓(xùn)練誤差結(jié)果如圖9,在較少的訓(xùn)練次數(shù)下,達(dá)到最佳驗(yàn)證性能;延誤預(yù)測(cè)與期望的對(duì)比曲線(xiàn)如圖10,由預(yù)測(cè)的擬合曲線(xiàn)可知,灰色GA-BP網(wǎng)絡(luò)模型在航班延誤預(yù)測(cè)應(yīng)用中的擬合程度與預(yù)測(cè)精度較高。
圖9 灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測(cè)訓(xùn)練誤差圖
圖10 預(yù)測(cè)與期望對(duì)比
為了進(jìn)一步評(píng)估此灰色GA-BP網(wǎng)絡(luò)性能的質(zhì)量與優(yōu)化效果,針對(duì)進(jìn)行灰色關(guān)聯(lián)模型篩選的關(guān)鍵因子數(shù)據(jù)和未篩選的原始數(shù)據(jù),分別采用GA-BP網(wǎng)絡(luò)、BP網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)。將不同隨機(jī)數(shù)據(jù)組合分為5組進(jìn)行試驗(yàn),運(yùn)用相同模型參數(shù),選擇絕對(duì)誤差(MAE)以及擬合優(yōu)度(R2)作為模型性能指標(biāo),對(duì)該延誤預(yù)測(cè)模型的模擬和驗(yàn)證結(jié)果進(jìn)行評(píng)價(jià)與對(duì)比,結(jié)果見(jiàn)表2。
表2 模型指標(biāo)評(píng)價(jià)結(jié)果
由表2可知,灰色GA-BP網(wǎng)絡(luò)延誤預(yù)測(cè)模型的擬合優(yōu)度平均值為0.938,且每組均不小于0.8,平均絕對(duì)誤差僅為12.027,與未進(jìn)行GRA與GA優(yōu)化的延誤預(yù)測(cè)網(wǎng)絡(luò)模型相比,該模型性能與精度得到了提高,效果與適用性更好,驗(yàn)證了其延誤估計(jì)的可靠性。
1)依據(jù)航空公司的實(shí)際延誤數(shù)據(jù),對(duì)其延誤分布進(jìn)行了不同條件下的統(tǒng)計(jì)分析,全面、系統(tǒng)地分析了延誤因素的影響,建立了延誤影響指標(biāo)體系,為后續(xù)建模參數(shù)的選擇提供基礎(chǔ)。
2)以灰色關(guān)聯(lián)分析方法進(jìn)行航班延誤相關(guān)性的度量,對(duì)多個(gè)變量指標(biāo)進(jìn)行了定量計(jì)算與篩選,優(yōu)選了延誤影響參數(shù),由此確定23個(gè)主要的決定指標(biāo)參數(shù)作為輸入,后續(xù)模型結(jié)構(gòu)得到簡(jiǎn)化,網(wǎng)絡(luò)訓(xùn)練效率得到提升。
3)灰色GA-BP延誤預(yù)測(cè)模型與優(yōu)化前的網(wǎng)絡(luò)模型相比,平均絕對(duì)誤差至少下降了5%,提升了模型穩(wěn)定性,優(yōu)化了模型性能與精度,可為航班延誤預(yù)估提供支撐,從而有力降低延誤損失。