摘要:地鐵機場線客流具有高度時變性,受機場航班影響使得精準(zhǔn)的短時客流預(yù)測具有挑戰(zhàn)性。綜合考慮機場航班信息和機場線路歷史客流,構(gòu)建了一種以隨機森林(RF)、LightGBM (light gradient boosting machine)、梯度提升決策樹(GBDT)和邏輯回歸算法作為集成學(xué)習(xí)器,基于疊加(Stacking)集成模型的機場線路短時客流預(yù)測模型。以北京地鐵大興機場線為實例進(jìn)行驗證,并與Informer和長短時記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)兩種基線模型進(jìn)行對比。結(jié)果表明,考慮航班信息和機場線歷史客流的雙通道預(yù)測效果明顯優(yōu)于僅考慮機場線歷史客流的單通道預(yù)測;Stacking模型在各項指標(biāo)中均表現(xiàn)出優(yōu)越的性能,其中,在96步長(24 h)下的預(yù)測效果最好,預(yù)測進(jìn)站客流的平均絕對誤差為7.66,預(yù)測出站客流的平均絕對誤差為4.67;分析航班信息特征對預(yù)測模型的影響,發(fā)現(xiàn)離港航班信息重要性不如到港航班,這與離港旅客提前到達(dá)機場時間差異較大有關(guān)。
關(guān)鍵詞:機場線;短時客流預(yù)測;Stacking集成模型;航班信息
中圖分類號:U121"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號:1002-4026(2024)04-0112-09
開放科學(xué)(資源服務(wù))標(biāo)志碼(OSID):
Study on short-term passenger flow prediction for a subway airport line
based on Stacking ensemble learning
YANG An’an1, HAN Xingyu2, TIAN Kuang1, LIU Zeyuan3, MING Wei1
(1.Beijing Intelligent Transportation Development Center (Beijing Automotive Regulation and Management Service Center),
Beijing 100161, China; 2. Beijing Metro Operation Administration Co., Ltd., Beijing 100068, China;
3. Beijing Jingcheng Metro Co., Ltd., Beijing 100082, China)
Abstract∶The highly dynamic nature of subway airport line passenger flows and their susceptibility to the influence of airport flight schedules present challenges for accurate short-term forecasting of passenger flow. This study integrates airport flight information and historical passenger flow data from airport lines to construct a short-term passenger flow forecasting model based on a stacking ensemble model. The model incorporates random forest (RF), LightGBM (light gradient boosting machine), gradient boosting decision tree (GBDT), and logistic regression algorithms to act as ensemble learners. The proposed model is validated using data from the Beijing Subway Daxing Airport Line and is compared against two baseline models, namely informer and long short-term memory (LSTM) networks. The results indicate that the dual-channel prediction, which considers flight information and historical passenger flows, outperforms the single-channel prediction solely based on historical passenger flows. The results also indicate that the stacking model demonstrates superior performance across all metrics. Particularly, the best prediction performance is achieved at a 96 step (24 h) forecast horizon, with mean absolute error of 7.66 and 4.67 for inbound and outbound passenger flow predictions, respectively. Analysis of the impact of flight information characteristics on the prediction model reveals that departure flight information is of relatively lower importance than that of arrival flights, which is attributed to large differences in advance arrival times for departing passengers.
Key words∶airport line; short-term passenger flow forecasting; Stacking model; flight information
近年來,航空運輸業(yè)的迅猛發(fā)展使我國的機場網(wǎng)絡(luò)規(guī)模不斷擴大。據(jù)統(tǒng)計,截至2021年,我國境內(nèi)運輸機場(不含港澳臺)有248座,全年旅客吞吐量超9億人次[1]。然而,隨之而來的是機場周邊交通壓力的顯著增加,這對機場線的規(guī)劃和運營提出了更高的要求[2]。機場線不僅為乘客提供了從機場到市區(qū)的高效便捷出行方式,還有效減輕了機場周邊道路的交通壓力。然而,機場線客流的高度時變性和受多種因素影響的特點,使得其運營管理面臨一系列挑戰(zhàn),其中最重要的之一就是精確預(yù)測客流。精確的客流預(yù)測可以幫助運營企業(yè)更好地掌握客流變化規(guī)律,優(yōu)化列車發(fā)車間隔,避免高峰時段擁堵,提升乘客的出行體驗,為機場線的高效運營和服務(wù)提供可靠支持。
機場線是一種專門承擔(dān)特定功能的軌道交通線路,其在區(qū)位、功能、客流來源、客流特征和客流影響因素方面與一般軌道線路有著顯著的差異。機場多位于城市外圍,占地面積大,機場線的終點和起點都位于機場的航站樓或航空樞紐附近,以便乘客的無縫連接。機場線的主要功能是為旅客提供從城市中心到機場以及從機場到城市的快速便捷交通服務(wù)。這種單一的功能定位導(dǎo)致機場線的主要客流來源集中在民航旅客和機場工作人員[3]。與一般軌道線路站點客流呈現(xiàn)出的“單峰型”和“雙峰型”特征[4]不同的是,機場線的客流特征不規(guī)律。機場線的高峰小時系數(shù)低于一般站點[5],這主要由于航班的起降時間分布在全日不集中,在航班集中度到達(dá)或離開的時間段反而會產(chǎn)生大量軌道客流[6]。航班的延誤、取消等突發(fā)事件可能導(dǎo)致乘客需要臨時調(diào)整乘坐機場線的計劃,從而對機場線的客流產(chǎn)生影響[7]。
近幾年,基于大數(shù)據(jù)和先進(jìn)的數(shù)學(xué)方法來預(yù)測軌道站點客流量成為趨勢。大數(shù)據(jù)技術(shù)的廣泛應(yīng)用為軌道站點客流量的精準(zhǔn)預(yù)測提供了強有力的支持。通過收集、整合和分析大量的歷史乘客進(jìn)出站數(shù)據(jù),可以揭示客流量的周期性變化、節(jié)假日影響、特定時段的高峰等規(guī)律,為預(yù)測模型的構(gòu)建提供了可靠的依據(jù)[8]。機器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)的應(yīng)用不斷推動著軌道站點客流量預(yù)測的精度和效果的提升。傳統(tǒng)的時間序列模型如ARIMA(autoregressive integrated moving average,自回歸移動平均模型)能夠預(yù)測客流量的趨勢,但難以捕捉非線性關(guān)系和復(fù)雜的影響因素[9]。而機器學(xué)習(xí)模型如支持向量機[10]、長短時記憶網(wǎng)絡(luò)(LSTM)[11]等,具備更強大的擬合能力和學(xué)習(xí)能力,能夠處理大量的歷史數(shù)據(jù),提供更準(zhǔn)確的預(yù)測結(jié)果。然而,機器學(xué)習(xí)模型在訓(xùn)練階段存在過于關(guān)注訓(xùn)練數(shù)據(jù)中的細(xì)節(jié)和噪聲,從而產(chǎn)生過擬合的問題。隨著機器學(xué)習(xí)技術(shù)的發(fā)展,集成學(xué)習(xí)在客流量預(yù)測方面展現(xiàn)了出色的性能[12]。集成學(xué)習(xí)通過將多個基本模型的預(yù)測結(jié)果進(jìn)行結(jié)合,從而提高整體預(yù)測的準(zhǔn)確性和穩(wěn)定性[13]。在預(yù)測軌道站點客流量的場景中,集成學(xué)習(xí)能夠克服單一模型的局限性,更好地適應(yīng)數(shù)據(jù)的多樣性和變化性[14]。
城市軌道交通站點客流預(yù)測研究已經(jīng)較為豐富,但是機場線的客流預(yù)測研究較少,其主要原因是,一般線路的客流影響因素在機場線適用性差,如時間特征(工作日、非工作日)對民航乘客的出行目的的關(guān)聯(lián)度不高[15],反而航班安排、氣象條件、航班延誤、旅客通關(guān)等動態(tài)因素對機場線客流的影響較為顯著[16]。
然而,目前對于機場線客流預(yù)測的研究仍存在不足:(1)集成學(xué)習(xí)方法在機場線短時客流預(yù)測方面的研究較為有限,其預(yù)測效果及精度有待進(jìn)一步驗證;(2)航班信息對預(yù)測精度的影響缺乏深入研究;(3)現(xiàn)有的預(yù)測方法僅聚焦于到港旅客的客流量預(yù)測,缺乏對離港方向客流的準(zhǔn)確預(yù)測。鑒于此,本研究將到離港航班信息納入機場線客流影響因素,對乘坐機場線出入機場的進(jìn)出站雙向客流進(jìn)行預(yù)測。采用基于Stacking的集成學(xué)習(xí)方法對機場線短時客流進(jìn)行預(yù)測,預(yù)測結(jié)果與LSTM、Informer等深度學(xué)習(xí)方法進(jìn)行對比。最后,以大興機場線作為實例,驗證基于Stacking的集成學(xué)習(xí)客流預(yù)測方法的可行性與有效性,并進(jìn)一步挖掘到離港航班信息對預(yù)測結(jié)果的重要性。
1 模型構(gòu)建
1.1 模型架構(gòu)
Stacking算法由Wolpert[17]于1992年提出,被廣泛應(yīng)用于機器學(xué)習(xí)各類應(yīng)用中。Stacking是若干個機器學(xué)習(xí)方法的結(jié)合,其本質(zhì)上是一種分層結(jié)構(gòu),通過生成一系列基學(xué)習(xí)器,再用某種策略將學(xué)習(xí)器組合起來使用。因此為得到性能優(yōu)異的Stacking集成學(xué)習(xí)預(yù)測模型,需要選擇相適應(yīng)的基學(xué)習(xí)器和元學(xué)習(xí)器。
為滿足Stacking對基學(xué)習(xí)器“多且不同”的要求,本研究選取了4個基學(xué)習(xí)器。其中,隨機森林(random forest, RF)[11]和梯度提升決策樹(gradient boosting decision tree, GBDT)[18]是兩種常見的以決策樹模型為基礎(chǔ)的回歸算法,常被用來預(yù)測連續(xù)數(shù)值。極端梯度提升(extreme gradient boosting, XGBoost)[19]是GBDT的改進(jìn)算法,具有更強的計算能力、效率出眾、速度更快、預(yù)測準(zhǔn)確度高的優(yōu)點。
除上述3種以決策樹為基礎(chǔ)的模型算法外,本研究增加K近鄰(K-nearest neighbors, KNN)作為基學(xué)習(xí)器層的模型算法,其精度高、對異常值不敏感、簡單有效。第二層應(yīng)當(dāng)選擇泛化能力較強的模型,能夠?qū)崿F(xiàn)從中歸納并糾正第一層多個基學(xué)習(xí)器對于訓(xùn)練模型的偏值情況,通過對第一層基模型產(chǎn)生的數(shù)據(jù)進(jìn)行二次預(yù)測,進(jìn)一步提高預(yù)測表現(xiàn)。邏輯回歸(logistic regression,LR)算法是一種概率統(tǒng)計模型,為最流行的分類算法,具有容易拓展、解釋力強等優(yōu)點,作為元分類器可以保證模型精確度的同時防止過擬合。因此,本研究將RF、GBDT、XGBoost、KNN 4種算法作為第一層基學(xué)習(xí)器,LR算法為第二層元學(xué)習(xí)器,構(gòu)成基于Stacking的機場線短時客流預(yù)測算法架構(gòu),如圖1所示。
1.2 算法流程
基于Stacking的機場線短時客流預(yù)測模型的目標(biāo)是預(yù)測機場線未來短時進(jìn)出站客流,通過輸入機場線歷史客流與到離港航班數(shù)據(jù)(自變量X)以及機場線預(yù)測客流(因變量Y)構(gòu)建的數(shù)據(jù)集進(jìn)行訓(xùn)練,返回預(yù)測結(jié)果。Stacking訓(xùn)練流程圖如圖2所示,具體流程如下:
(1)將數(shù)據(jù)劃分為原始訓(xùn)練集D和原始測試集V。
(2)引入5折交叉驗證方法訓(xùn)練各個基學(xué)習(xí)器,將原始數(shù)據(jù)集D平均劃分為5個互斥子集,分別為D1,D2,…,D5。然后,分別選擇其中4個子集的并集作為訓(xùn)練集,余下的1個子集作為測試集,構(gòu)造初級學(xué)習(xí)器的訓(xùn)練集和測試集。這樣每個初級學(xué)習(xí)器可獲得5組訓(xùn)練集和測試集,并獲得5個測試結(jié)果S1,S2,…,S5。
(3)生成新訓(xùn)練數(shù)據(jù)集。因本Stacking集成預(yù)測中含4個基學(xué)習(xí)器,都采用這5組訓(xùn)練集和測試集進(jìn)行基學(xué)習(xí)器的訓(xùn)練和測試,則對于第n個基學(xué)習(xí)器,在完成5折交叉驗證后,將有5個預(yù)測結(jié)果,將其按行縱向堆疊,獲得該基學(xué)習(xí)器下樣本數(shù)據(jù)的預(yù)測集Si,n(i=1,2,…,5),同時將這5個預(yù)測結(jié)果平均得S-n(n=1,2,…,4)。在完成4個基學(xué)習(xí)器的訓(xùn)練之后,將每個基學(xué)習(xí)器獲得的預(yù)測集與預(yù)測均值按列拼接,則得到第二層的新的訓(xùn)練集Si,n,與新的測試集S-n。形成第二層元學(xué)習(xí)器的輸入數(shù)據(jù)集。即數(shù)據(jù)集{(S-n,Si,n),i=1,2,…,5;n=1,2,…,4}。
(4)使用元學(xué)習(xí)器LR進(jìn)行二次訓(xùn)練。將通過上一步初級學(xué)習(xí)器訓(xùn)練得到的新訓(xùn)練集與測試集輸入第二層元學(xué)習(xí)器用于次級訓(xùn)練,得到最終機場線客流預(yù)測結(jié)果。
1.3 特征重要性評價方法
為了更好地理解數(shù)據(jù)訓(xùn)練的模型,了解各輸入數(shù)據(jù)(自變量X)對預(yù)測結(jié)果(因變量Y)的影響程度,有必要對自變量開展特征重要性分析。
本研究采用排列重要性(permutation importance)[20]估計每個特征的總體重要性,這些特征重要性得分可以量化當(dāng)一列的值在行間隨機洗牌時預(yù)測性能。這些得分有助于觀察模型整體行為的可解釋性,有助于得到這些特征影響預(yù)測性能的局部解釋。具體步驟如下:
(1)輸入訓(xùn)練集的所有特征數(shù)據(jù)訓(xùn)練得到模型;
(2)選擇其中一個需要分析的特征,將驗證集中的該特征數(shù)據(jù)進(jìn)行打亂(圖3),并保持其他列和目標(biāo)值不變;
(3)計算新的預(yù)測結(jié)果,如果新舊結(jié)果的差異不大說明該特征重要性低,如果新舊結(jié)果差異顯著,說明該特征對模型的影響也是顯著的;
(4)將驗證數(shù)據(jù)集還原,并重復(fù)第2步和第3步,分析其他特征變量。
任何機器學(xué)習(xí)模型都可以使用排列的策略來計算特征重要性。其對于特征重要性的評判取決于該特征被隨機重排后模型表現(xiàn)評分的下降程度。其數(shù)學(xué)表達(dá)式可以表示為:
ij=s-1/K∑Kk=1sk,j,(1)
其中,s是模型在原數(shù)據(jù)集上的性能評分;對于K次重復(fù)實驗中的每一次迭代k,隨機重排列特征j,構(gòu)造一個被污染的數(shù)據(jù)集(重排列后),計算模型在被污染的數(shù)據(jù)上的性能評分sk,j,最后計算得到特征j的重要性分?jǐn)?shù)ij。特征的重要性分?jǐn)?shù)越高,表示其對模型的性能就越重要。比如若特征得分為0.01,表明該特征被隨機打亂時,預(yù)測性能下降0.01。
2 數(shù)據(jù)源
本研究以北京大興國際機場線(以下簡稱大興機場線)短時客流預(yù)測為例進(jìn)行分析。大興機場線全長41.36 km,北起草橋站,途徑大興新城站,南至大興機場站。作為機場線的終點站,大興機場站的站廳和站臺層與大興國際機場換乘大廳直接相連。
本研究選取2022年4月23日—29日15 min粒度的大興機場線進(jìn)出站刷卡數(shù)據(jù)以及大興機場到離港航班信息數(shù)據(jù)。4月25日機場線客流分布如圖4所示,可以看出,草橋站呈現(xiàn)出“雙峰型”的特征,大興新城站呈現(xiàn)出早高峰進(jìn)站量高,晚高峰出站量高的“單峰型”特征,大興機場站呈現(xiàn)出早高峰出站量高而晚高峰進(jìn)站量高的“單峰型”特征,但高峰小時系數(shù)仍處于較低水平[5]。
到離港航班信息數(shù)據(jù)主要字段有:航班號、起飛機場、到達(dá)機場、實際載客量、計劃起飛時間、實際起飛時間、計劃到達(dá)時間、實際到達(dá)時間和登機延誤情況等。通過數(shù)據(jù)統(tǒng)計,可以獲得15 min顆粒度的到、離港旅客人數(shù)和到、離港架次,時間分布如圖5所示。
3 實驗結(jié)果
3.1 預(yù)測結(jié)果分析
本研究實驗環(huán)境為CPU Intel(R) Core(TM) i7-7700 CPU @ 3.60GHz,GPU NVIDIA GeForce GTX 1060 6GB。輸入步長粒度為15 min,預(yù)測步長為1;訓(xùn)練集與測試集的比例為8:2。選取均方誤差(δMSE)和平均絕對誤差(δMAE)對模型的性能進(jìn)行評價。
3.1.1 進(jìn)站客流預(yù)測
大興機場站的進(jìn)站客流主要來源于大興國際機場到達(dá)航班的旅客,因此將機場到達(dá)航班作為機場線客流預(yù)測的重要自變量;同時,大興機場站的進(jìn)站客流也擁有時序流量特征,所以也將歷史進(jìn)站客流作為模型的考慮變量。
將輸入步長設(shè)置為192 (即15 min×192=48 h),模型輸入步長粒度為15 min,預(yù)測步長為1。輸入數(shù)據(jù)類型為機場線歷史進(jìn)站客流數(shù)據(jù)和預(yù)測時段前的到港航班數(shù)量,控制輸入步長為4(1 h)、8(2 h)、12(3 h)、96(24 h)和192(48 h)。
基于Stacking集成學(xué)習(xí)預(yù)測結(jié)果如圖6所示??梢?,輸入步長為96時,預(yù)測誤差最小,其中δMSE=165.10,δMAE=7.66,當(dāng)步長增加到192時預(yù)測誤差反而上升。
集成學(xué)習(xí)的優(yōu)勢在于擁有靈活的特征輸入方式,本研究通過控制輸入不同步長的不同變量,分析得到各特征對模型預(yù)測結(jié)果的影響情況,如圖7所示。
從圖7可以看出,96步長的進(jìn)站客流和到達(dá)航班數(shù),模型的預(yù)測誤差最低;通道數(shù)為2(同時輸入2個特征)時,模型的表現(xiàn)效果優(yōu)于輸入單變量預(yù)測;只輸入進(jìn)站客流特征時,僅輸入前3 h(步長12)的歷史客流模型預(yù)測誤差相對較大,當(dāng)輸入1 d長度的歷史客流有更好的效果;當(dāng)輸入航班到達(dá)數(shù)量時,模型預(yù)測誤差變化相對于進(jìn)站客流單變量較平穩(wěn)。
3.1.2 出站客流預(yù)測
大興機場站的出站客流主要目的是前往大興國際機場乘坐航班離港,而離港航班時段位于預(yù)測時段之后,因此將大興機場站的歷史出站客流和未來離港航班數(shù)據(jù)作為模型的考慮變量,開展預(yù)測分析。
同樣模型輸入步長粒度為15 min,預(yù)測步長為1,輸入數(shù)據(jù)分別為歷史機場線出站客流數(shù)據(jù)和預(yù)測時段以后的離港航班信息,當(dāng)輸入步長分別為4、8、12、96和192,預(yù)測誤差如圖8示。結(jié)果顯示,同樣當(dāng)輸入步長為96時,模型有最好的預(yù)測性能,其中δMSE=54.28,δMAE=4.67,當(dāng)步長繼續(xù)增加到192時預(yù)測性能反而下降。
通過控制兩個變量的步長,對出站客流預(yù)測結(jié)果的影響情況見圖9??梢钥闯?,當(dāng)同時輸入96步長的出站客流和出發(fā)航班數(shù),模型的預(yù)測誤差最低;且當(dāng)通道數(shù)為2(同時輸入2個特征)時,模型的表現(xiàn)效果優(yōu)于輸入單變量預(yù)測;當(dāng)只輸入出站客流特征時,效果優(yōu)于只輸入出發(fā)航班情況。
3.2 模型對比
本研究將基于Stacking集成學(xué)習(xí)的客流預(yù)測模型與LSTM和Informer模型的預(yù)測結(jié)果進(jìn)行對比,驗證模型適用性。LSTM模型設(shè)置三層隱藏層,第一層神經(jīng)元個數(shù)為32,其余層神經(jīng)元個數(shù)為64,學(xué)習(xí)率設(shè)置為0.001,激活函數(shù)均采用relu函數(shù),優(yōu)化器選擇Adam優(yōu)化器。Informer模型設(shè)置2層編碼器和1層解碼器,每個編碼器中包括兩個堆棧層,每個堆棧層包含2個注意力頭。
對于進(jìn)站客流來說,如圖10(a)、10(b)所示,結(jié)合不同步長模型的綜合表現(xiàn),可見基于Stacking集成學(xué)習(xí)預(yù)測效果最好,且預(yù)測誤差穩(wěn)定;其次是Informer模型,步長對模型預(yù)測誤差的影響相對較??;而LSTM在步長為8時候預(yù)測效果最差。對于出站客流來說,如圖10(c)、10(d)所示,仍是基于Stacking的集成學(xué)習(xí)預(yù)測效果最好,且預(yù)測誤差穩(wěn)定;其次是Informer模型;LSTM在步長為8時候預(yù)測效果較差。
3.3 特征重要性分析
將輸入步長設(shè)置為192,通過數(shù)據(jù)集擬合出的預(yù)測模型計算得到最重要的4個特征及其得分見圖11,圖中,HB30表示前30 min的到港航班,GD15表示前15 min的機場線大興機場站進(jìn)站客流數(shù)據(jù),其他表示按此規(guī)律。從圖11(a)中可見,首先預(yù)測時段前30 min和45 min的航班到達(dá)情況對于模型的預(yù)測性能局部影響最大,得分分別為2.09和1.37,認(rèn)為這與航空旅客到達(dá)大興機場后需經(jīng)過30~60 min才到達(dá)大興機場線密切相關(guān)。其次,15 min和1 440 min前的機場線歷史進(jìn)站客流數(shù)據(jù)在一定情況下也能反映當(dāng)前預(yù)測時段的機場線進(jìn)站客流,重要性得分為0.61和0.48,這說明機場線客流雖有別于一般通勤客流的強周期性,其時序特征也具有一定的出行規(guī)律和周期特點。如圖11(b)所示,可以看出區(qū)別于進(jìn)站客流預(yù)測,影響出站客流預(yù)測的主要因素均與歷史軌道客流有關(guān),而與離港航班關(guān)系較弱。影響程度最大的是預(yù)測時段1 440 min以前的出站客流數(shù)據(jù),說明大興機場線路出站客流規(guī)律性較強。從與離港航班的關(guān)系來看,大興機場站的出站客流同離港航班時間關(guān)系相對較弱,可見大興機場旅客提前到達(dá)機場時間差異較大,規(guī)律性不夠顯著。
4 結(jié)論
本研究提出了一種基于Stacking集成學(xué)習(xí)的機場線短時客流預(yù)測方法,模型綜合考慮機場航班信息和歷史流量數(shù)據(jù),對機場線進(jìn)出站雙向客流進(jìn)行了預(yù)測,并與Informer和LSTM預(yù)測結(jié)果進(jìn)行對比,發(fā)現(xiàn)所提出的模型適用于機場線短時客流預(yù)測,且預(yù)測結(jié)果具有更高的精度。具體結(jié)論如下:
(1)綜合考慮機場航班信息和歷史客流的雙通道預(yù)測精度高于僅考慮歷史客流的單通道預(yù)測精度。
(2)Stacking集成學(xué)習(xí)、LSTM、Informer三種模型的預(yù)測結(jié)果對比表明,對于進(jìn)站客流和出站客流預(yù)測,Stacking模型表現(xiàn)出更好的穩(wěn)定性,次之為Informer。
(3)步長對Stacking模型的預(yù)測結(jié)果均具有一定影響。96步長下的預(yù)測效果優(yōu)于4、8、12和192的預(yù)測結(jié)果。
(4)自變量特征重要性分析顯示,歷史客流數(shù)據(jù)與航班信息具有不同的影響。對于進(jìn)站客流預(yù)測來說,預(yù)測時段前30 min和45 min的航班到達(dá)情況對于模型的預(yù)測性能影響最大,其次為歷史進(jìn)站客流;影響出站客流預(yù)測的主要因素均與歷史客流有關(guān),而與離港航班關(guān)系較弱,進(jìn)一步說明大興機場旅客提前到達(dá)機場時間差異較大。
綜上所述,本研究證明了Stacking模型在機場線短時客流預(yù)測方面的實踐價值。在后續(xù)研究中,我們將重點探究使用集成學(xué)習(xí)模型降低誤差的方法,以進(jìn)一步提升機場線客流預(yù)測的準(zhǔn)確性和可靠性。
參考文獻(xiàn):
[1]劉亞寧, 李桂安. 基于乘坐舒適性的城市軌道交通機場線列車立席和座席設(shè)置研究[J]. 鐵道技術(shù)監(jiān)督, 2023, 51(8): 5-9. DOI: 10.3969/j.issn.1006-9178.2023.08.003.
[2]魯放, 周旭, 喬穎麗, 等. 2020年中國軌道交通機場線統(tǒng)計及空軌協(xié)同運營分析[J]. 都市快軌交通, 2020, 33(6): 1-6. DOI: 10.3969/j.issn.1672-6073.2020.06.001.
[3]孫繼營, 楊曉飛, 劉曉慶, 等. 北京地鐵大興機場線客流特征分析與行車組織方案研究[J]. 城市軌道交通研究, 2023, 26(3): 119-124. DOI: 10.16037/j.1007-869x.2023.03.022.
[4]曹秉新, 劉卓, 陳艷艷, 等. 基于時空大數(shù)據(jù)的軌交站域用地功能緊湊度分析[J]. 地理信息世界, 2021, 28(4): 9-15. DOI: 10.3969/j.issn.1672-1586.2021.04.002.
[5]王靜, 張源, 廖唱, 等. 城市軌道交通機場線客流特征分析及建議[J]. 綜合運輸, 2021, 43(6): 22-27.
[6]LIN L, LIU X, LIU X, et al. A prediction model to forecast passenger flow based on flight arrangement in airport terminals[J]. Energy and Built Environment, 2023, 4(6): 680-688. DOI: 10.1016/j.enbenv.2022.06.006.
[7]陸檸馨. 基于顧客感知服務(wù)質(zhì)量的XP航空公司顧客滿意度研究[D]. 昆明: 云南財經(jīng)大學(xué), 2022.
[8]SUN Y S, SHI J G, SCHONFELD P M. Identifying passenger flow characteristics and evaluating travel time reliability by visualizing AFC data: a case study of Shanghai Metro[J]. Public Transport, 2016, 8(3): 341-363. DOI: 10.1007/s12469-016-0137-8.
[9]DING C, CAO X Y, LIU C. How does the station-area built environment influence Metrorail ridership? Using gradient boosting decision trees to identify non-linear thresholds[J]. Journal of Transport Geography, 2019, 77:70-78. DOI: 10.1016/j.jtrangeo.2019.04.011.
[10]郭文. 基于支持向量機的軌道交通短期客流預(yù)測方法研究[D]. 蘇州: 蘇州大學(xué), 2019.
[11]LIN S F, TIAN H Y. Short-term metro passenger flow prediction based on random forest and LSTM[C]//2020 IEEE 4th Information Technology, Networking, Electronic and Automation Control Conference (ITNEC). Chongqing, China: IEEE, 2020: 2520-2526. DOI: 10.1109/ITNEC48623.2020.9084974.
[12]方昇越. 基于XGBoost的地鐵短時客流量預(yù)測研究[D]. 大連: 大連海事大學(xué), 2022.
[13]de CAIGNY A, COUSSEMENT K, de BOCK K W. A new hybrid classification algorithm for customer churn prediction based on logistic regression and decision trees[J]. European Journal of Operational Research, 2018, 269(2): 760-772. DOI: 10.1016/j.ejor.2018.02.009.
[14]XU T P, MA Y, KIM K. Telecom churn prediction system based on ensemble learning using feature grouping[J]. Applied Sciences, 2021, 11(11): 4742. DOI: 10.3390/app11114742.
[15]苗辰, 王萬江. 基于出站旅客出行目的的地鐵站口分析及優(yōu)化:以烏魯木齊地鐵1號線國際機場站為例[J]. 城市建筑, 2020, 17(22): 143-147. DOI: 10.3969/j.issn.1673-0232.2020.22.032.
[16]杜文博, 石婉君, 廖盛時, 等. 基于“時間-特征”協(xié)同注意力的機場快軌客流預(yù)測[J]. 北京航空航天大學(xué)學(xué)報, 2022, 48(9): 1605-1612. DOI: 10.13700/j.bh.1001-5965.2022.0321.
[17]WOLPERT D H. Stacked generalization[J]. Neural Networks, 1992, 5(2): 241-259. DOI: 10.1016/S0893-6080(05)80023-1.
[18]DING C A, WANG D G, MA X L, et al. Predicting short-term subway ridership and prioritizing its influential factors using gradient boosting decision trees[J]. Sustainability, 2016, 8(11): 1100. DOI: 10.3390/su8111100.
[19]WANG K P, WANG P, HUANG Z R, et al. A two-step model for predicting travel demand in expanding subways[J]. IEEE Transactions on Intelligent Transportation Systems, 2022, 23(10): 19534-19543. DOI: 10.1109/TITS.2022.3166669.
[20]朱月凡, 蔣國平, 高輝, 等. 基于特征選擇和數(shù)據(jù)增強的電池荷電狀態(tài)預(yù)測[J]. 計算機系統(tǒng)應(yīng)用, 2023, 32(2): 45-54. DOI: 10.15888/j.cnki.csa.008943.