龍宇, 許浩然, 余華云, 何勇, 徐紅牛
(長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院, 荊州 434023)
鐵路貨運(yùn)是中國(guó)經(jīng)濟(jì)的重要組成部分,為中國(guó)經(jīng)濟(jì)發(fā)展提供了強(qiáng)大的動(dòng)力。特別是在大宗貨物如鋼鐵、金屬礦石、原煤等的運(yùn)輸上,鐵路貨運(yùn)方式占據(jù)了極大的比重。近年來(lái)進(jìn)出口貿(mào)易不斷發(fā)展,同時(shí),在“一帶一路”“公轉(zhuǎn)鐵”等政策的推動(dòng)下,發(fā)展鐵路貨運(yùn)成為中國(guó)經(jīng)濟(jì)轉(zhuǎn)型、實(shí)現(xiàn)綠色發(fā)展的戰(zhàn)略性舉措[1]。因此準(zhǔn)確預(yù)測(cè)鐵路貨運(yùn)量對(duì)規(guī)劃鐵路貨運(yùn)線路、調(diào)整鐵路運(yùn)輸結(jié)構(gòu)、優(yōu)化鐵路貨運(yùn)資源配置等方面具有重要的意義。
目前在鐵路貨運(yùn)量預(yù)測(cè)研究領(lǐng)域,預(yù)測(cè)研究方法可以分為單一預(yù)測(cè)模型和組合預(yù)測(cè)模型。單一預(yù)測(cè)模型可分為時(shí)間序列分析方法和機(jī)器學(xué)習(xí)方法兩類(lèi),時(shí)間序列分析方法有移動(dòng)平均自回歸模型、差分整合移動(dòng)平均自回歸模型、指數(shù)平滑法、季節(jié)指數(shù)預(yù)測(cè)法等;機(jī)器學(xué)習(xí)方法有支持向量機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、灰色預(yù)測(cè)方法、極限梯度提升等。組合預(yù)測(cè)模型可以融合單一模型的優(yōu)勢(shì),提升預(yù)測(cè)精度。常用的組合預(yù)測(cè)方式有誤差修正型組合模型、數(shù)據(jù)預(yù)處理型組合模型、權(quán)重分配性組合模型。
徐莉等[2]提出殘差二次修正的方法,基于GM(1,1)預(yù)測(cè)模型,在對(duì)殘差進(jìn)行一次修正的基礎(chǔ)上,進(jìn)行殘差二次修正,提高了模型預(yù)測(cè)精度。程肇蘭等[3]建立基于長(zhǎng)短時(shí)間記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)的鐵路月貨運(yùn)量和日貨運(yùn)量預(yù)測(cè)模型,結(jié)果表明,同差分整合移動(dòng)平均自回歸模型(autoregressive integrated moving average,ARIMA)模型和BP神經(jīng)網(wǎng)絡(luò)模型相比,LSTM網(wǎng)絡(luò)預(yù)測(cè)效果更優(yōu)。李萬(wàn)等[4]提出基于粒子群算法優(yōu)化的LSTM神經(jīng)網(wǎng)絡(luò)(IPSO-LSTM)預(yù)測(cè)模型,通過(guò)粒子群算法優(yōu)化(improved particle swarm optimization,IPSO)進(jìn)行LSTM網(wǎng)絡(luò)參數(shù)優(yōu)化,驗(yàn)證了該預(yù)測(cè)模型的可行性。Guo等[5]采用遺傳算法搜索廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network,GRNN)的最優(yōu)擴(kuò)散,并將其應(yīng)用于GRNN中進(jìn)行鐵路貨運(yùn)量預(yù)測(cè)。結(jié)果表明,遺傳算法優(yōu)化的GRNN預(yù)測(cè)精度更高。邵夢(mèng)汝等[6]構(gòu)建灰色預(yù)測(cè)模型和BP神經(jīng)網(wǎng)絡(luò)模型組合的灰色-神經(jīng)網(wǎng)絡(luò)組合模型,驗(yàn)證了組合模型能夠提高模型預(yù)測(cè)準(zhǔn)確率。徐玉萍等[7]利用誤差修正法將引入注意力機(jī)制的LSTM模型與乘積季節(jié)模型組合進(jìn)行鐵路貨運(yùn)量預(yù)測(cè),結(jié)果表明組合模型精度高于單一預(yù)測(cè)模型。耿立艷等[8]提出基于果蠅算法(fruit fly optimization algorithm,FOA)優(yōu)化混合核最小二乘支持向量機(jī)(least squares support vector machine,LSSVM)的預(yù)測(cè)方法,提升了計(jì)算速度和預(yù)測(cè)精度,適合進(jìn)行短期預(yù)測(cè)。
可見(jiàn)目前對(duì)于鐵路貨運(yùn)量預(yù)測(cè)已有大量的研究,且研究方法和改進(jìn)方式各有特點(diǎn),上述單一預(yù)測(cè)模型和組合預(yù)測(cè)模型未充分考慮到鐵路貨運(yùn)量序列中體現(xiàn)出的線性特征和非線性特征,同時(shí)在進(jìn)行參數(shù)改進(jìn)時(shí)尋求局部最優(yōu)解可能會(huì)存在模型過(guò)擬合、泛化能力較弱的問(wèn)題。
自回歸移動(dòng)平均模型(ARIMA)能夠較好地?cái)M合預(yù)測(cè)時(shí)間序列中的線性特征,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)能夠?qū)W習(xí)長(zhǎng)期行為,善于處理長(zhǎng)時(shí)間時(shí)間序列預(yù)測(cè)問(wèn)題,且具有較強(qiáng)的非線性特征處理能力[9]。機(jī)器學(xué)習(xí)模型極端梯度提升(extreme gradient boosting, XGBoost)模型通過(guò)添加正則項(xiàng)防止過(guò)度擬合,同時(shí)提高模型泛化能力[10]。
現(xiàn)將ARIMA、LSTM、XGBoost模型組合,提出基于ARIMA-LSTM-XGBoost的加權(quán)組合模型。先使用ARIMA模型擬合序列中的線性特征,再使用LSTM神經(jīng)網(wǎng)絡(luò)校正ARIMA模型預(yù)測(cè)殘差,以此擬合序列中的非線性特征,再與XGBoost模型預(yù)測(cè)結(jié)果結(jié)合,使用誤差倒數(shù)法確定權(quán)重進(jìn)行組合預(yù)測(cè)以減小誤差。最后將組合預(yù)測(cè)模型同單一模型預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,驗(yàn)證組合模型預(yù)測(cè)鐵路貨運(yùn)量的有效性。
差分整合移動(dòng)平均自回歸模型(ARIMA)是自回歸滑動(dòng)平均模型(ARMA)和差分性的結(jié)合[11]。
自回歸滑動(dòng)平均模型ARMA(p,q)模型表達(dá)式為
(1)
式(1)中:Yt為t時(shí)間點(diǎn)時(shí)間序列值;p為自回歸項(xiàng)數(shù);q為滑動(dòng)平均項(xiàng)數(shù);αi為自回歸模型的系數(shù);θi為滑動(dòng)平均模型的系數(shù);εt為白噪聲序列;C為常數(shù)。
ARMA(p,q)模型只能用于預(yù)測(cè)相對(duì)平穩(wěn)的時(shí)間序列數(shù)據(jù),對(duì)于非平穩(wěn)時(shí)間序列需要進(jìn)行d階差分使序列平穩(wěn)后再進(jìn)行處理,由此可以得到ARIMA(p,d,q)模型。
ARIMA模型建立與數(shù)據(jù)預(yù)測(cè)過(guò)程包括以下4個(gè)步驟[12]。
步驟1白噪聲檢驗(yàn)和平穩(wěn)性檢驗(yàn)。
檢驗(yàn)序列是否是白噪聲序列。若序列是白噪聲序列,變量之間沒(méi)有相關(guān)性,無(wú)法提取出數(shù)據(jù)的有效特征。
檢驗(yàn)序列是否具有平穩(wěn)性,若序列不平穩(wěn),須通過(guò)差分運(yùn)算將其轉(zhuǎn)化為平穩(wěn)序列[13]。
步驟2模型參數(shù)選擇。
確定ARIMA(p,d,q)模型中p、d、q3個(gè)參數(shù),參數(shù)d為差分的階數(shù)。繪制自相關(guān)函數(shù)圖像和偏自相關(guān)函數(shù)圖像,通過(guò)觀察圖像,確定參數(shù)p和q可能的取值,再結(jié)合赤池信息準(zhǔn)則(Akaike information criterion,AIC)或貝葉斯信息準(zhǔn)則(Bayesian information criterion,BIC)選擇使模型最優(yōu)的參數(shù)。
步驟3模型檢驗(yàn)。
對(duì)模型殘差序列進(jìn)行白噪聲檢驗(yàn),驗(yàn)證序列是否具有相關(guān)性。同時(shí)檢驗(yàn)殘差序列是否符合正態(tài)分布以驗(yàn)證模型的適用性。
步驟4數(shù)據(jù)預(yù)測(cè)。
根據(jù)數(shù)據(jù)集中歷史數(shù)據(jù)預(yù)測(cè)未來(lái)時(shí)刻數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(regression neural network,RNN)是一種擁有輸入層-隱藏層-輸出層結(jié)構(gòu)的典型神經(jīng)網(wǎng)絡(luò),其隱藏層的輸入不僅包括輸入層的輸入,還包括上一時(shí)刻隱藏層的輸出。這種結(jié)構(gòu)使得RNN不僅會(huì)記憶當(dāng)前時(shí)刻的信息,還會(huì)記憶前面的信息并作為輸入信息參與當(dāng)前運(yùn)算。其在擬合非線性時(shí)間序列時(shí)有良好的性能,但在實(shí)際應(yīng)用中,RNN在解決長(zhǎng)期依賴問(wèn)題時(shí)有所欠缺,在隨時(shí)間反向傳播期間會(huì)存在梯度消失的問(wèn)題。為了解決這個(gè)問(wèn)題,Hochreiter等[14]提出了長(zhǎng)短時(shí)間記憶神經(jīng)網(wǎng)絡(luò)(LSTM)。相對(duì)于RNN,LSTM在其隱藏層中添加了遺忘門(mén)、輸入門(mén)、輸出門(mén)3個(gè)門(mén)層,其隱藏層結(jié)構(gòu)圖如圖1所示。
圖1 LSTM隱藏層結(jié)構(gòu)圖Fig.1 Structure diagram of LSTM hidden layer
遺忘門(mén)決定從上一時(shí)刻細(xì)胞狀態(tài)中丟棄和保留的信息。輸入信息為上一時(shí)刻隱藏層信息ht-1和當(dāng)前時(shí)刻輸入數(shù)據(jù)xt,通過(guò)遺忘門(mén)確定保留的信息范圍,公式為
ft=σ(Wf[ht-1,xt]+bf)
(2)
式(2)中:ft為t時(shí)刻遺忘門(mén)的輸出信息;Wf為遺忘門(mén)權(quán)重系數(shù);bf為遺忘門(mén)偏置系數(shù);σ為sigmoid激活函數(shù)。
it=σ(Wi[ht-1,xt]+bi)
(3)
(4)
式中:it為t時(shí)刻輸入門(mén)的輸出信息;Wi為權(quán)重;bi為輸入門(mén)偏置系數(shù);σ為sigmoid激活函數(shù);bC為細(xì)胞狀態(tài)門(mén)控單元偏置系數(shù)。
將上一時(shí)刻記憶信息Ct-1與遺忘門(mén)輸出ft相乘決定需要丟棄和保留的信息,再加上輸入門(mén)所得的候選記憶信息,得到新的細(xì)胞狀態(tài)Ct,其計(jì)算公式為
(5)
輸出門(mén)根據(jù)輸入值和記憶單元確定當(dāng)前記憶狀態(tài)Ct的輸出信息,將輸入信息先通過(guò)輸出門(mén)確定輸出范圍,再把細(xì)胞狀態(tài)通過(guò)一個(gè)tanh函數(shù)進(jìn)行處理,經(jīng)輸出門(mén)確定輸出信息ht。
ot=σ(Wo[ht-1,xt]+bo)
(6)
ht=ottanh(Ct)
(7)
式中:ot為t時(shí)刻輸出門(mén)的輸出信息;Wo為權(quán)重;bo為輸出門(mén)偏置系數(shù);σ為sigmoid激活函數(shù)。
極端梯度提升模型(XGBoost),是一種基于boosting集成的樹(shù)模型,對(duì)梯度提升決策樹(shù)(gradient boosting decison tree,GBDT) 進(jìn)行優(yōu)化,通過(guò)添加樹(shù)、不斷地進(jìn)行特征分裂生成新樹(shù)的方式,擬合前一棵樹(shù)的預(yù)測(cè)誤差,以此來(lái)提升預(yù)測(cè)精度[15]。
XGBoost模型表達(dá)式為
(8)
XGBoost算法的目標(biāo)函數(shù)為
(9)
(10)
正則項(xiàng)計(jì)算公式為
(11)
式(11)中:γ為控制葉子數(shù)量參數(shù)(懲罰系數(shù));T為葉子節(jié)點(diǎn)數(shù);λ為正則項(xiàng)參數(shù);ωj為第j個(gè)葉子節(jié)點(diǎn)的權(quán)重。
最終目的是找到使目標(biāo)函數(shù)Obj(t)最小的ft。在ft=0處進(jìn)行泰勒二階展開(kāi),得到的目標(biāo)函數(shù)近似于
(12)
結(jié)合式(11)和式(12),可求得最優(yōu)的w和目標(biāo)函數(shù)為
(13)
(14)
為提升模型的預(yù)測(cè)精度和泛化能力,采用基于誤差修正和基于權(quán)重分配的組合方式對(duì)ARIMA模型、LSTM模型、XGBoost模型進(jìn)行組合,組合模型結(jié)構(gòu)圖如圖2所示。
圖2 組合模型結(jié)構(gòu)圖Fig.2 Structure diagram of combination model
1.4.1 基于誤差修正型的組合方式
結(jié)合傳統(tǒng)時(shí)間序列模型和神經(jīng)網(wǎng)絡(luò)模型的優(yōu)點(diǎn),構(gòu)造了一種基于誤差修正型的組合模型ARIMA-LSTM。
(15)
(16)
1.4.2 基于權(quán)重分配型的組合方式
使用誤差倒數(shù)法為模型賦予權(quán)重進(jìn)行加權(quán)組合,使用此方法將誤差較小的模型賦予較大的權(quán)重,可以顯著降低組合模型的總體誤差。
(17)
(18)
(19)
為評(píng)估模型預(yù)測(cè)效果,采用均方誤差(mean square error,MSE)、均方根誤差(root mean squared error,RMSE)、平均絕對(duì)值誤差(mean absolute error,MAE)、平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)作為評(píng)價(jià)指標(biāo),各評(píng)價(jià)指標(biāo)計(jì)算公式如下。
(1)均方誤差MSE。
(20)
(2)均方根誤差RMSE。
(21)
(3)平均絕對(duì)值誤差MAE。
(22)
(4)平均絕對(duì)百分比誤差MAPE。
(23)
從國(guó)家統(tǒng)計(jì)局官網(wǎng)收集2007年1月—2021年12月的全國(guó)鐵路貨運(yùn)量月度數(shù)據(jù)集,每條數(shù)據(jù)包括對(duì)應(yīng)的月份以及鐵路貨運(yùn)量數(shù)值。數(shù)據(jù)如圖3所示。
圖3 2007年1月—2021年12月鐵路貨運(yùn)量時(shí)序圖Fig.3 Sequence diagram of railway freight volume from January 2007 to December 2021
使用ARIMA模型對(duì)鐵路貨運(yùn)量時(shí)間序列數(shù)據(jù)進(jìn)行初步預(yù)測(cè),模型建立步驟如下。
2.2.1 序列特征檢驗(yàn)和模型定階
對(duì)鐵路貨運(yùn)量序列進(jìn)行白噪聲檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量P=4.52×10-29<0.05,說(shuō)明該序列非白噪聲序列。
采用迪基-福勒(augmented Dickey-Fuller test, ADF)檢驗(yàn)方法[18]來(lái)判斷序列是否具有平穩(wěn)性,顯著性水平P=0.836 2>0.05,可見(jiàn)原始序列ADF檢驗(yàn)沒(méi)有通過(guò)顯著性檢驗(yàn),說(shuō)明該序列不平穩(wěn)。
對(duì)該序列做一次差分運(yùn)算,對(duì)一階差分序列進(jìn)行白噪聲檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量P<0.05,可知一階差分序列非白噪聲序列。再對(duì)一階差分序列進(jìn)行ADF檢驗(yàn),顯著性水平P=0.032 3<0.05,通過(guò)顯著性檢驗(yàn),說(shuō)明一階差分序列具有平穩(wěn)性。
通過(guò)以上檢驗(yàn),可知可以對(duì)一階差分序列進(jìn)行建模。
2.2.2 模型參數(shù)選擇
計(jì)算一階差分序列自相關(guān)(auto-correlation function,ACF)系數(shù)和偏相關(guān)(partial auto-correlation function,PACF)系數(shù),自相關(guān)函數(shù)圖和偏相關(guān)函數(shù)圖如圖4所示。
圖4 自相關(guān)函數(shù)、偏自相關(guān)函數(shù)圖Fig.4 Autocorrelation function, partial autocorrelation function diagram
由圖4可知,ACF圖和PACF圖均表現(xiàn)出拖尾性,滿足使用ARIMA算法的條件。
因?yàn)锽IC準(zhǔn)則比AIC準(zhǔn)則擁有更大的懲罰因子,可避免過(guò)擬合現(xiàn)象,故采用BIC準(zhǔn)則來(lái)確定參數(shù)p和q的值。
通過(guò)比較得出,ARIMA(4,1,3)的BIC值最小,說(shuō)明該模型對(duì)數(shù)據(jù)的擬合效果最好。
2.2.3 模型檢驗(yàn)
使用殘差QQ圖和殘差正態(tài)分布直方圖檢驗(yàn)?zāi)P偷倪m用性,殘差檢驗(yàn)結(jié)果如圖5所示??梢?jiàn)散點(diǎn)分布在擬合線附近且殘差滿足正態(tài)分布,說(shuō)明該序列通過(guò)正態(tài)性檢驗(yàn)。
圖5 模型殘差檢驗(yàn)圖Fig.5 Model residual test diagram
再進(jìn)行Durbin-Watson(D-W)檢驗(yàn),其檢驗(yàn)值為2.5,說(shuō)明殘差序列中無(wú)明顯的自相關(guān)性。對(duì)殘差進(jìn)行白噪聲檢驗(yàn),檢驗(yàn)統(tǒng)計(jì)量P>0.05,殘差序列為白噪聲序列,模型已經(jīng)完全提取了原始時(shí)序數(shù)據(jù)中的線性特征,說(shuō)明模型適用于序列的變化趨勢(shì)。
2.2.4 模型預(yù)測(cè)
建立ARIMA(4,1,3)模型后,將數(shù)據(jù)集中前168個(gè)月(即2007年1月—2020年12月)的貨運(yùn)量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),對(duì)后12個(gè)月的貨運(yùn)量進(jìn)行預(yù)測(cè),得到2021年1—12月月度貨運(yùn)量預(yù)測(cè)值。
使用LSTM模型對(duì)ARIMA模型預(yù)測(cè)殘差序列進(jìn)行訓(xùn)練擬合以進(jìn)行誤差修正,模型建立過(guò)程如下。
步驟1數(shù)據(jù)預(yù)處理。將ARIMA模型預(yù)測(cè)的殘差作為輸入數(shù)據(jù),使用最大最小法將其進(jìn)行歸一化以提高模型的訓(xùn)練效果。
步驟2訓(xùn)練模型。將殘差序列中前168條數(shù)據(jù)作為訓(xùn)練集,后12條數(shù)據(jù)作為測(cè)試集,基于Python 3.6平臺(tái),采用Tensorflow框架搭建LSTM網(wǎng)絡(luò),通過(guò)實(shí)驗(yàn),確定步長(zhǎng)time_steps=12,即使用前12個(gè)月的貨運(yùn)量誤差預(yù)測(cè)下個(gè)月貨運(yùn)量誤差,采用單層隱藏層的LSTM網(wǎng)絡(luò),隱藏層神經(jīng)元個(gè)數(shù)為8,學(xué)習(xí)率為0.01,模型迭代次數(shù)為600,訓(xùn)練批次batch_size=64。損失函數(shù)為均方誤差函數(shù)MSE,模型優(yōu)化算法采用Adam,激活函數(shù)采用tanh函數(shù)。
步驟3模型預(yù)測(cè)。將LSTM網(wǎng)絡(luò)輸出數(shù)據(jù)進(jìn)行反歸一化,得到殘差預(yù)測(cè)值。
步驟4ARIMA-LSTM預(yù)測(cè)結(jié)果。將ARIMA模型預(yù)測(cè)值與LSTM網(wǎng)絡(luò)殘差預(yù)測(cè)值疊加,即可得到ARIMA-LSTM模型預(yù)測(cè)結(jié)果。
基于Python 3.6平臺(tái),使用XGBoost包中的XGBRegressor建立XGBoost模型,使用機(jī)器學(xué)習(xí)庫(kù)scikit-learn中的網(wǎng)格搜索(GridSearchCV) 方法對(duì)模型參數(shù)進(jìn)行調(diào)優(yōu)。XGBoost預(yù)測(cè)模型參數(shù)如表1所示。
表1 XGBoost模型參數(shù)Table 1 XGBoost model parameters
建立ARIMA-LSTM預(yù)測(cè)模型和XGBoost模型后,分別對(duì)2021年1—12月鐵路貨運(yùn)量數(shù)據(jù)進(jìn)行預(yù)測(cè),得出兩個(gè)模型的預(yù)測(cè)值和預(yù)測(cè)誤差,再使用誤差倒數(shù)法根據(jù)預(yù)測(cè)誤差對(duì)兩個(gè)模型的預(yù)測(cè)值進(jìn)行加權(quán)組合,得出組合模型的預(yù)測(cè)值。
為驗(yàn)證組合模型的預(yù)測(cè)精度和有效性,將組合模型的預(yù)測(cè)值與ARIMA、ARIMA-LSTM、LSTM、XGBoost 4個(gè)模型的預(yù)測(cè)值以及實(shí)際值進(jìn)行比較。各模型預(yù)測(cè)值與實(shí)際值對(duì)比如圖6所示。各模型逐點(diǎn)誤差對(duì)比圖如圖7所示。各個(gè)模型的評(píng)價(jià)指標(biāo)MAE、RMSE、MAE、MAPE值如表2所示。
表2 各模型評(píng)價(jià)指標(biāo)對(duì)比Table 2 Comparison of evaluation indexes of each model
圖6 各模型預(yù)測(cè)值與實(shí)際值對(duì)比圖Fig.6 Comparison diagram of predicted value and actual value of each model
圖7 各模型逐點(diǎn)誤差對(duì)比圖Fig.7 Comparison diagram of error point by point of each model
由圖6和圖7可知,以上大部分模型預(yù)測(cè)鐵路貨運(yùn)量時(shí)預(yù)測(cè)誤差比較小,有較高的精度。ARIMA模型預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)變化趨勢(shì)大致相同,說(shuō)明該模型較好地提取了序列中體現(xiàn)的線性特征。使用LSTM模型對(duì)ARIMA模型預(yù)測(cè)結(jié)果進(jìn)行誤差修正后,ARIMA-LSTM模型相對(duì)于單一的ARIMA模型和LSTM模型,預(yù)測(cè)精度得到了進(jìn)一步的提升。XGBoost模型能較好地處理回歸預(yù)測(cè)問(wèn)題,整體上預(yù)測(cè)效果較好,但對(duì)個(gè)別數(shù)據(jù)的擬合效果欠佳。
ARIMA-LSTM-XGBoost組合模型能夠充分結(jié)合3個(gè)模型的優(yōu)點(diǎn),彌補(bǔ)單一算法的不足,由圖7可知,組合模型的預(yù)測(cè)誤差同其他對(duì)比模型相比都有所降低。由表3可知,在對(duì)鐵路貨運(yùn)量數(shù)據(jù)進(jìn)行預(yù)測(cè)時(shí),組合模型MSE、RMSE、MAE、MAPE分別為0.011 9、0.109 4、0.068 3、1.775 2%,均低于其他模型對(duì)應(yīng)評(píng)價(jià)指標(biāo)值,可見(jiàn)ARIMA-LSTM-XGBoost組合模型預(yù)測(cè)精度明顯優(yōu)于單一預(yù)測(cè)模型。以平均絕對(duì)百分比誤差MAPE為例,相較于ARIMA、ARIMA-LSTM、XGBoost、LSTM模型,組合預(yù)測(cè)模型MAPE值分別降低了55.96%、 46.56%、60.03%、54.18%,可見(jiàn)組合模型的預(yù)測(cè)誤差相比其他模型顯著降低,預(yù)測(cè)精度和泛化能力得到有效提升。
為提高鐵路貨運(yùn)量的預(yù)測(cè)精度,提升模型預(yù)測(cè)的泛化能力,提出基于ARIMA-LSTM-XGBoost的加權(quán)組合模型,以2007—2020年中國(guó)鐵路貨運(yùn)量數(shù)據(jù)為參考,預(yù)測(cè)2021年鐵路貨運(yùn)量,經(jīng)實(shí)驗(yàn)和對(duì)比分析,得出以下結(jié)論。
(1)與ARIMA、ARIMA-LSTM、XGBoost、LSTM模型相比,基于ARIMA-LSTM-XGBoost的加權(quán)組合模型各項(xiàng)誤差指標(biāo)更小,預(yù)測(cè)精度更高,穩(wěn)定性更強(qiáng)。
(2)使用LSTM網(wǎng)絡(luò)擬合ARIMA模型預(yù)測(cè)殘差序列,能夠充分的提取鐵路貨運(yùn)量時(shí)間序列數(shù)據(jù)中的線性特征和非線性特征,進(jìn)一步提升預(yù)測(cè)擬合精度。
(3)使用誤差倒數(shù)法確定權(quán)重,構(gòu)建基于ARIMA-LSTM-XGBoost的加權(quán)組合模型,能結(jié)合單一模型的優(yōu)勢(shì),相互彌補(bǔ)預(yù)測(cè)誤差,有效提升模型的預(yù)測(cè)精度和泛化能力。
可見(jiàn),基于ARIMA-LSTM-XGBoost的組合預(yù)測(cè)模型相比上述主流預(yù)測(cè)模型具有一定的優(yōu)越性,可為相關(guān)部門(mén)預(yù)測(cè)鐵路貨運(yùn)量提供參考。