羅鳳娥, 王 波, 李 娜, 王 洵
(中國(guó)民用航空飛行學(xué)院 空中交通管理學(xué)院, 四川 廣漢 618307)
航班延誤一直是民航運(yùn)輸業(yè)的一大困擾。圖1整理了近十年中國(guó)民航運(yùn)輸業(yè)的航班量和航班正常率數(shù)據(jù)。從統(tǒng)計(jì)圖可看出,近十年的航班量以9.22%的平均增長(zhǎng)率不斷攀升,對(duì)比來(lái)看,航班正常率則不斷下滑。直到2016年中國(guó)民航局對(duì)航班延誤定義做了調(diào)整,配合相關(guān)政策的督促,航班正常率才逐步回升。但這并不能從延誤本身解決問(wèn)題,對(duì)提高空域利用率和運(yùn)行效率沒(méi)有實(shí)質(zhì)性幫助。做好對(duì)航班延誤的提前預(yù)測(cè)是從延誤源頭出發(fā)考慮問(wèn)題,從本質(zhì)上改善航班延誤問(wèn)題且行之有效的一種方法。
圖1 2010—2019年中國(guó)民航運(yùn)輸業(yè)的航班量和航班正常率統(tǒng)計(jì)
航班延誤預(yù)測(cè)研究難點(diǎn)在于數(shù)據(jù)海量、特征復(fù)雜,處理困難。而數(shù)據(jù)挖掘技術(shù)恰在大數(shù)據(jù)以及高維特征問(wèn)題上表現(xiàn)出巨大優(yōu)勢(shì)。因此,本文就數(shù)據(jù)挖掘算法在航班延誤預(yù)測(cè)研究中的應(yīng)用進(jìn)行分類(lèi)總結(jié)。內(nèi)容具體安排如下:第1節(jié)提出數(shù)據(jù)挖掘解決航班延誤預(yù)測(cè)問(wèn)題的一般程序;第2節(jié)對(duì)比分析數(shù)據(jù)挖掘分類(lèi)預(yù)測(cè)算法,以及在該領(lǐng)域的應(yīng)用總結(jié);第3節(jié)就提高預(yù)測(cè)精度關(guān)鍵因素展開(kāi)討論;第4節(jié)結(jié)合當(dāng)前熱點(diǎn)方向進(jìn)行研究展望。
從實(shí)踐角度來(lái)講,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)探索隱藏的、具有潛在價(jià)值的規(guī)律、信息和知識(shí)的過(guò)程[1]。其主要包括預(yù)測(cè)和描述兩大類(lèi)任務(wù)。描述型數(shù)據(jù)挖掘是通過(guò)對(duì)現(xiàn)有數(shù)據(jù)探索,就其特征進(jìn)行呈現(xiàn)[2];預(yù)測(cè)型數(shù)據(jù)挖掘可通過(guò)對(duì)樣本數(shù)據(jù)進(jìn)行關(guān)聯(lián)學(xué)習(xí),產(chǎn)生的預(yù)測(cè)模型能夠?qū)崿F(xiàn)對(duì)未來(lái)的輸入進(jìn)行輸出預(yù)測(cè)。表1給出兩者的對(duì)比和相關(guān)解釋?;跀?shù)據(jù)挖掘的航班延誤預(yù)測(cè)問(wèn)題正是依賴(lài)于預(yù)測(cè)型數(shù)據(jù)挖掘的技術(shù)原理展開(kāi)研究。
表1 數(shù)據(jù)挖掘技術(shù)的兩大類(lèi)別
結(jié)合數(shù)據(jù)挖掘技術(shù),從解決航班延誤實(shí)際問(wèn)題出發(fā),總結(jié)得出明確預(yù)測(cè)目標(biāo)、數(shù)據(jù)收集與處理、特征選擇、模型搭建、模型評(píng)估與應(yīng)用五大分析步驟。圖2為基于數(shù)據(jù)挖掘的航班延誤預(yù)測(cè)一般流程。
圖2 基于數(shù)據(jù)挖掘的航班延誤預(yù)測(cè)研究一般流程
1.2.1 明確預(yù)測(cè)目標(biāo)
根據(jù)研究背景和需求確定挖掘目標(biāo)是開(kāi)展整個(gè)研究的基礎(chǔ),多通過(guò)具體的預(yù)測(cè)指標(biāo)明確具體的研究需求。就航班延誤預(yù)測(cè)研究領(lǐng)域而言,常用的延誤預(yù)測(cè)指標(biāo)有平均航班延誤時(shí)長(zhǎng)、航班延誤率、航班延誤架次、航班延誤旅客人數(shù)等。
1.2.2 數(shù)據(jù)收集與處理
用于航班延誤預(yù)測(cè)研究的數(shù)據(jù)包括航班運(yùn)行數(shù)據(jù)、氣象數(shù)據(jù)、流量管控等相關(guān)數(shù)據(jù)。數(shù)據(jù)收集難度較大,多來(lái)源于航空公司和機(jī)場(chǎng)的各大管理系統(tǒng)、氣象報(bào)文或?qū)μ鞖鈭?bào)告網(wǎng)站的爬蟲(chóng)抓取、以及飛常準(zhǔn)等相關(guān)航班數(shù)據(jù)分析平臺(tái)。
數(shù)據(jù)處理前,通過(guò)對(duì)單個(gè)重要特征進(jìn)行可視化以及多個(gè)特征的相關(guān)性比較,直觀獲悉數(shù)據(jù)特征是否與先驗(yàn)吻合以及把握相關(guān)系數(shù)較大的特征對(duì)關(guān)系,有助于宏觀把握延誤分布,便于數(shù)據(jù)處理。
數(shù)據(jù)預(yù)處理對(duì)維度較大、不完整、有噪音的原始航班信息進(jìn)行初步過(guò)濾和降維處理,包括數(shù)據(jù)篩選、缺失值處理、異常值處理、特征優(yōu)化、數(shù)據(jù)合并等步驟。
1.2.3 特征選擇
針對(duì)高維航班數(shù)據(jù),特征選擇是處理特征關(guān)聯(lián)和簡(jiǎn)化模型的有效手段。最佳相關(guān)特征子集的選取有助于達(dá)到降維、強(qiáng)化模型泛化能力、減少過(guò)擬合發(fā)、增強(qiáng)特征與特征值之間理解等目的。特征選擇可包括產(chǎn)生過(guò)程、評(píng)價(jià)函數(shù)、停止準(zhǔn)則、驗(yàn)證的一般過(guò)程,各步驟通過(guò)彼此關(guān)系連接構(gòu)成特征選擇的基本框架,如圖3所示。
圖3 特征選擇基本框架
1.2.4 模型搭建
預(yù)測(cè)模型搭建是一個(gè)反復(fù)迭代的過(guò)程,最終目的是盡可能降低模型的泛化誤差,提高預(yù)測(cè)精度。將數(shù)據(jù)按合適比例和方法劃分訓(xùn)練集和測(cè)試集,分別用于模型的訓(xùn)練優(yōu)化與驗(yàn)證評(píng)估。結(jié)合研究目標(biāo)和訓(xùn)練集數(shù)據(jù)選擇適合的數(shù)據(jù)挖掘算法反復(fù)迭代優(yōu)化,選取和調(diào)整相應(yīng)參數(shù)建立優(yōu)化后的預(yù)測(cè)模型。
1.2.5 模型評(píng)估與應(yīng)用
通過(guò)相關(guān)指標(biāo)對(duì)模型效果進(jìn)行量化,對(duì)模型精確性、泛化等能力評(píng)估,對(duì)模型反饋調(diào)節(jié),達(dá)到優(yōu)化目的。將最優(yōu)模型推廣至實(shí)際應(yīng)用中,對(duì)航空公司運(yùn)行安全和效率提供些許的幫助和理論支持。
數(shù)據(jù)挖掘功能包括分類(lèi)、預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)分析等多種算法和技術(shù)。下面就貝葉斯網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)5中經(jīng)典算法在航班延誤預(yù)測(cè)中的應(yīng)用做一歸納,并對(duì)比分析各算法特點(diǎn)。
貝葉斯網(wǎng)絡(luò),是一種以概率統(tǒng)計(jì)為基礎(chǔ)的圖形模型,可將依賴(lài)關(guān)系同概率表示相結(jié)合,先驗(yàn)知識(shí)同樣本數(shù)據(jù)相結(jié)合,以圖形方式描述變量概率分布,其結(jié)構(gòu)反映了各變量的因果關(guān)系,是目前不確定信息表達(dá)和推理領(lǐng)域最有效的理論模型之一。
貝葉斯網(wǎng)絡(luò)可以對(duì)不完全、不精確或不確定信息中進(jìn)行推理,也一直是航班延誤預(yù)測(cè)研究中常用的方法之一。文獻(xiàn)[3]基于貝葉斯網(wǎng)絡(luò)搭建延誤預(yù)測(cè)模型,采用多狀態(tài)系統(tǒng)結(jié)構(gòu)建立評(píng)估航班進(jìn)場(chǎng)運(yùn)行狀態(tài)。文獻(xiàn)[4]在傳統(tǒng)貝葉斯網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行改進(jìn),提出高評(píng)分優(yōu)先遺傳模擬退火貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法和基于遺傳禁忌搜索的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,大大提高了貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)的精度。文獻(xiàn)[5]將貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)算法和結(jié)構(gòu)學(xué)習(xí)算法運(yùn)用到維度高、運(yùn)算量大的航班延誤的預(yù)測(cè)領(lǐng)域,基于集成學(xué)習(xí)理論和改進(jìn)后的貝葉斯結(jié)構(gòu)算法提出一種帶有自反饋的航班預(yù)測(cè)集成學(xué)習(xí)系統(tǒng),實(shí)現(xiàn)對(duì)航班延誤較為精準(zhǔn)的預(yù)測(cè)。文獻(xiàn)[6]則將機(jī)場(chǎng)繁忙程度對(duì)波及延誤的影響考慮在內(nèi),構(gòu)建到港延誤對(duì)離港延誤的波及貝葉斯網(wǎng)絡(luò)預(yù)測(cè)模型,更準(zhǔn)確預(yù)估航班延誤波及狀況。文獻(xiàn)[7]運(yùn)用K-means聚類(lèi)方法對(duì)各變量劃分區(qū)間,建立貝葉斯網(wǎng)絡(luò)進(jìn)行航班離港延誤預(yù)測(cè),達(dá)到81.7%的預(yù)測(cè)準(zhǔn)確性。
作為數(shù)據(jù)挖掘技術(shù)中一種監(jiān)督分類(lèi)算法,決策樹(shù)通過(guò)次序、無(wú)規(guī)則數(shù)據(jù)集中的信息熵構(gòu)建分類(lèi)模型,并通過(guò)對(duì)分類(lèi)模型的簡(jiǎn)單查找來(lái)完成對(duì)未知信息的分類(lèi)。常用決策樹(shù)算法有ID3、C4.5、CART和CHAID。這些算法的主要差異在于不同的分裂度量和停機(jī)標(biāo)準(zhǔn)導(dǎo)致不同的屬性選擇傾向。決策樹(shù)在分類(lèi)回歸問(wèn)題上具有良好穩(wěn)定性,但該算法不支持在線學(xué)習(xí),且容易造成過(guò)擬合問(wèn)題的產(chǎn)生。
文獻(xiàn)[8]面向機(jī)場(chǎng)到港航班延誤預(yù)測(cè)問(wèn)題構(gòu)建基于C4.5決策樹(shù)的航班延誤預(yù)測(cè)模型,采用十折交叉法對(duì)模型進(jìn)行正確性檢驗(yàn),模型正確率接近80%,效果優(yōu)于兩種貝葉斯算法??紤]航班延誤因素復(fù)雜多變,文獻(xiàn)[9]提出基于CHAID決策樹(shù)的航班延誤預(yù)測(cè)模型,對(duì)機(jī)場(chǎng)繁忙程度聚類(lèi)分析,精確機(jī)場(chǎng)屬性值,提高預(yù)測(cè)精度。文獻(xiàn)[10]考慮到上游機(jī)場(chǎng)航班延誤對(duì)下游機(jī)場(chǎng)延誤狀態(tài)的影響,量化上游指標(biāo)加入航班延誤特征中,以梯度提升決策樹(shù)GBDT為方法建立航班延誤預(yù)測(cè)模型,結(jié)果表明,較之其他決策樹(shù)算法、RF算法以及SVM分類(lèi)算法,GBDT算法給出了最優(yōu)預(yù)測(cè)性能。
隨機(jī)森林是一個(gè)包含多個(gè)決策樹(shù)的分類(lèi)器,通過(guò)將歷史數(shù)據(jù)隨機(jī)采樣生成多棵相互獨(dú)立的決策樹(shù),然后憑借集成學(xué)習(xí)的思想將多棵樹(shù)集成一起而形成。其隨機(jī)性體現(xiàn)在隨機(jī)選取數(shù)據(jù)與分裂屬性?xún)煞矫妫嵘讼到y(tǒng)的多樣性與分類(lèi)性能,有效避免過(guò)擬合現(xiàn)象的產(chǎn)生。但大量樹(shù)的存在以及預(yù)測(cè)精度的要求導(dǎo)致預(yù)測(cè)速度變得緩慢,不適合處理實(shí)時(shí)性要求高的問(wèn)題。
文獻(xiàn)[11]建立隨機(jī)森林模型預(yù)測(cè)未2~24小時(shí)的離港延誤。文獻(xiàn)[12]利用ATMAP算法對(duì)國(guó)內(nèi)機(jī)場(chǎng)天氣報(bào)文量化處理,對(duì)航班運(yùn)行造成的影響深入分析,建立隨機(jī)森林模型對(duì)航班運(yùn)行預(yù)測(cè)。文獻(xiàn)[13]做好航班到港時(shí)間影響因素的特征篩選工作,構(gòu)建隨機(jī)森林模型面向航班延誤預(yù)測(cè),使用網(wǎng)格搜索和交叉驗(yàn)證法優(yōu)化模型,較之支持向量機(jī)回歸、嶺回歸, 表現(xiàn)出更優(yōu)的預(yù)測(cè)效果。文獻(xiàn)[14]利用數(shù)據(jù)框?qū)庀髷?shù)據(jù)與航班數(shù)據(jù)融合,提出一種利用并行化方式進(jìn)行隨機(jī)森林的特征劃分和樹(shù)的生成,進(jìn)而對(duì)航班延誤進(jìn)行快速預(yù)測(cè)的方法,實(shí)驗(yàn)表明,在Spark并行計(jì)算架構(gòu)上利用并行化隨機(jī)森林算法生成模型克服了海量高維數(shù)據(jù)的計(jì)算難度,模型中氣象數(shù)據(jù)的添加提高了航班延誤預(yù)測(cè)的查全率和正確率。
支持向量機(jī)方法(Support Vector Machines,SVM)是建立在VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的統(tǒng)計(jì)學(xué)分類(lèi)算法。根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。SVM最終轉(zhuǎn)化為求解一個(gè)凸二次規(guī)劃問(wèn)題,在理論上可以得到全局最優(yōu)解,具有很強(qiáng)的泛化能力。
SVR模型能夠通過(guò)一個(gè)非線性映射將主成分映射到高維特征空間,并在此空間進(jìn)行線性回歸,非常適合對(duì)典型的非線性航班延誤問(wèn)題進(jìn)行回歸預(yù)測(cè)。文獻(xiàn)[15]、[16]采用支持向量機(jī)回歸方法分別建立航班延誤預(yù)測(cè)模型,前者通過(guò)Grid-Search與交叉檢驗(yàn)法對(duì)參數(shù)優(yōu)化,后者以差分進(jìn)化算法選擇最優(yōu)模型參數(shù),預(yù)測(cè)性能明顯優(yōu)于單一因素預(yù)測(cè)模型、相關(guān)向量機(jī)預(yù)測(cè)模型。文獻(xiàn)[17]則將支持向量回歸與線性回歸構(gòu)造組合模型,克服傳統(tǒng)單一模型易受隨機(jī)因素影響的問(wèn)題,延誤預(yù)測(cè)精度得到有效提升。文獻(xiàn)[18]提出了一種基于增量式排列支持向量機(jī)算法,有效憑借不斷更新的航班數(shù)據(jù)及時(shí)進(jìn)行航班延誤預(yù)警,并在實(shí)驗(yàn)中取得80%及以上的預(yù)測(cè)準(zhǔn)確率。文獻(xiàn)[19]使用高斯過(guò)程隱變量模型(GP-LVM)與最小二乘支持向量機(jī)(LS-SVM)建立組合模型,對(duì)數(shù)據(jù)進(jìn)行有效的降維處理,避免維度災(zāi)難的發(fā)生的同時(shí)大大提高了延誤等級(jí)的預(yù)測(cè)準(zhǔn)確率。文獻(xiàn)[20]融合先驗(yàn)知識(shí)到支持向量機(jī)模型,增強(qiáng)分類(lèi)面容錯(cuò)能力,最終構(gòu)建出現(xiàn)一個(gè)多級(jí)航班延誤預(yù)警模型,更準(zhǔn)確預(yù)測(cè)未來(lái)延誤狀況。
神經(jīng)網(wǎng)絡(luò)是一種通過(guò)模仿大腦神經(jīng)突觸聯(lián)結(jié),進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。通過(guò)多層神經(jīng)網(wǎng)絡(luò)可實(shí)現(xiàn)無(wú)限逼近真實(shí)對(duì)應(yīng)函數(shù),以此模擬數(shù)據(jù)之間的真實(shí)關(guān)系,是其具有強(qiáng)大預(yù)測(cè)能力的關(guān)鍵。常用于航班延誤預(yù)測(cè)研究的神經(jīng)網(wǎng)絡(luò)算法有:BP神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)。
文獻(xiàn)[21]、[22]、[23]基于機(jī)場(chǎng)視角,分別利用時(shí)空長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)、BP循環(huán)神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)混合模型對(duì)航班延誤進(jìn)行預(yù)測(cè)。文獻(xiàn)[24]分別引入新型多級(jí)輸入層神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)延誤狀況。文獻(xiàn)[25]結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)以及殘差網(wǎng)絡(luò)各自?xún)?yōu)勢(shì),提出了一種基于長(zhǎng)短期記憶與殘差網(wǎng)絡(luò)的航班延誤預(yù)測(cè)模型,大大提高模型特征表達(dá)能力。文獻(xiàn)[26]在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上加入直通通道建立基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的航班延誤預(yù)測(cè)模型,數(shù)據(jù)處理能力顯著增強(qiáng),準(zhǔn)確率達(dá)到92.1%。
在越來(lái)越多的航班歷史數(shù)據(jù)的積累下,數(shù)據(jù)挖掘技術(shù)將注定以其自身優(yōu)勢(shì)提高航班延誤預(yù)測(cè)精度??偨Y(jié)上節(jié)所述的幾項(xiàng)數(shù)據(jù)挖掘經(jīng)典算法,對(duì)比分析歸納得到各算法優(yōu)缺點(diǎn)以及應(yīng)用領(lǐng)域,具體內(nèi)容如表2所示。
表2 數(shù)據(jù)挖掘部分算法的優(yōu)缺點(diǎn)分析以及應(yīng)用領(lǐng)域
航班延誤預(yù)測(cè)研究的意義在于越精準(zhǔn)的預(yù)測(cè)結(jié)果越有助于航空公司與機(jī)場(chǎng)提前決策,做好預(yù)案準(zhǔn)備,為協(xié)調(diào)航班正常運(yùn)行爭(zhēng)取最大時(shí)間,以減少經(jīng)濟(jì)損失。為做到更高效精確的預(yù)測(cè),勢(shì)必要在數(shù)據(jù)處理和算法優(yōu)選兩方面下足功夫,就此展開(kāi)以下討論。
數(shù)據(jù)挖掘算法主要以統(tǒng)計(jì)推理和機(jī)器學(xué)習(xí)為主。傳統(tǒng)的基于統(tǒng)計(jì)推理的數(shù)據(jù)挖掘技術(shù)以概率分析、聚類(lèi)分析、相關(guān)性分析等統(tǒng)計(jì)學(xué)理論為基礎(chǔ)展開(kāi)運(yùn)算,實(shí)現(xiàn)對(duì)數(shù)據(jù)的解析和理解?;跈C(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘技術(shù)則是由數(shù)據(jù)驅(qū)動(dòng),以海量航班數(shù)據(jù)為前提,在學(xué)習(xí)訓(xùn)練中發(fā)現(xiàn)規(guī)律,自動(dòng)尋找并優(yōu)化模型參數(shù),深度挖掘數(shù)據(jù)價(jià)值得到預(yù)測(cè)模型,放在測(cè)試集中進(jìn)行延誤預(yù)測(cè)。從社會(huì)對(duì)數(shù)據(jù)處理的期望來(lái)看,傳統(tǒng)的統(tǒng)計(jì)推理已不能滿(mǎn)足人們對(duì)大規(guī)模數(shù)據(jù)的處理要求。因此,在未來(lái)一段時(shí)間內(nèi),機(jī)器學(xué)習(xí)將憑借先進(jìn)高效的學(xué)習(xí)機(jī)理,成為深入挖掘數(shù)據(jù)潛在價(jià)值的重要手段。特別是,類(lèi)似于航班延誤預(yù)測(cè)研究,所需數(shù)據(jù)量極大,特征之間存在高度非線性或復(fù)雜的相關(guān)性時(shí),機(jī)器學(xué)習(xí)方法往往能夠給出更為顯著的預(yù)測(cè)效果。
除了適當(dāng)?shù)乃惴芴岣哳A(yù)測(cè)精度之外,數(shù)據(jù)處理也尤為關(guān)鍵,并且二者之間存在密不可分的關(guān)系。算法的選往往依據(jù)具體研究?jī)?nèi)容和所收集的數(shù)據(jù)特征而定。尤其對(duì)于機(jī)器學(xué)習(xí)而言,數(shù)據(jù)的優(yōu)劣往往決定著預(yù)測(cè)結(jié)果的精度。由于航班統(tǒng)計(jì)信息極易受到天氣、流控等隨機(jī)因素的影響,收集獲取的原始數(shù)據(jù)勢(shì)必存在許多噪音,對(duì)挖掘隱藏規(guī)律造成極大干擾。因此,做好對(duì)異常數(shù)據(jù)、冗余特征、變量選擇等方面的數(shù)據(jù)處理工作,是實(shí)現(xiàn)數(shù)據(jù)價(jià)值、保證預(yù)測(cè)效果的關(guān)鍵。
目前航班延誤預(yù)測(cè)相關(guān)研究大部分采用單一預(yù)測(cè)模型解決問(wèn)題,往往受到天氣、流量控制等某些隨機(jī)因素的限制,進(jìn)而影響結(jié)果的預(yù)測(cè)精度,造成較大的預(yù)測(cè)誤差,且每種模型都存在一定局限性。因此,選擇合適算法彼此組合、調(diào)整、優(yōu)化,搭建組合預(yù)測(cè)模型以實(shí)現(xiàn)算法間優(yōu)勢(shì)互補(bǔ),定量與定結(jié)合性分析的目的。組合預(yù)測(cè)模型勢(shì)必將在一定程度上完善單一預(yù)測(cè)模型的弊端,提高預(yù)測(cè)精度,減緩航班延誤的發(fā)生。
2017年[27]、2018年[28]、2019年[29]民航行業(yè)發(fā)展統(tǒng)計(jì)報(bào)告顯示,天氣原因在航班不正常原因分類(lèi)統(tǒng)計(jì)中占比高達(dá)51.28%[27]、47.46%[28]、46.49%[29]。由于惡劣天氣的嚴(yán)重程度、發(fā)生區(qū)域和持續(xù)時(shí)長(zhǎng)均具有強(qiáng)烈的不確定性,經(jīng)常導(dǎo)致航班延誤狀況的出現(xiàn)。氣象數(shù)據(jù)獲取和處理較為困難的導(dǎo)致融合氣象數(shù)據(jù)進(jìn)行航班延誤的相關(guān)研究較少。因此,融合氣象數(shù)據(jù)來(lái)研究天氣與航班運(yùn)行之間的關(guān)系有助于提高航班延誤預(yù)測(cè)精確性和穩(wěn)定性,是值得研究的方向。
由于航班數(shù)據(jù)存在高維和傾斜的特點(diǎn),研究過(guò)程中往往會(huì)導(dǎo)致過(guò)擬合問(wèn)題的出現(xiàn),對(duì)預(yù)測(cè)結(jié)果產(chǎn)生嚴(yán)重影響。而稀疏模型可以通過(guò)去除冗余變量簡(jiǎn)化模型,達(dá)到降維效果,有效解決過(guò)擬合問(wèn)題。因此,建立稀疏化航班延誤預(yù)測(cè)模型對(duì)預(yù)測(cè)結(jié)果具有更好解釋作用,有助于提高預(yù)測(cè)精度,值得進(jìn)一步深入研究。
相比于傳統(tǒng)機(jī)器學(xué)習(xí)淺層模型的有限學(xué)習(xí)能力,深度學(xué)習(xí)憑借超強(qiáng)的數(shù)據(jù)抽象與特征表達(dá)能力,深入學(xué)習(xí)數(shù)據(jù)本質(zhì),在數(shù)據(jù)分析和理解方面表現(xiàn)出更顯著的優(yōu)勢(shì)。如今,航空公司、機(jī)場(chǎng)以及民航各大單位已經(jīng)積累了海量航班歷史數(shù)據(jù),基于此,深度學(xué)習(xí)可以表現(xiàn)出更強(qiáng)的學(xué)習(xí)能力,從復(fù)雜的大數(shù)據(jù)內(nèi)部探索和捕獲規(guī)律。因此,深度學(xué)習(xí)與大數(shù)據(jù)的結(jié)合可以對(duì)航班延誤實(shí)現(xiàn)預(yù)測(cè)的更高精度,是研究的重點(diǎn)方向。