胡瑞,文超,3,張夢穎,徐傳玲
(1.西南交通大學綜合交通運輸國家地方聯(lián)合工程實驗室,四川成都610031;2.西南交通大學綜合交通大數(shù)據(jù)應用技術(shù)國家工程實驗室,四川成都610031;3.滑鐵盧大學鐵路研究中心,安大略滑鐵盧N2L 3G1)
智能高鐵將云計算、大數(shù)據(jù)、北斗定位、下一代移動通信、人工智能等先進技術(shù),通過新一代信息技術(shù)與高速鐵路技術(shù)的集成,全面感知、融合處理、主動學習和科學決策,實現(xiàn)高鐵的智能建造、智能裝備和智能運營。智能調(diào)度理論是高速鐵路智能運營的核心基礎理論,“列車晚點傳播問題”和“軌道交通調(diào)度指揮智能化及風險預警”入選由教育部、科技部、中國科學院、國家自然科學基金委員會等聯(lián)合發(fā)起的《10 000個科學難題交通運輸科學卷》[1],說明運營調(diào)度智能化理論是軌道交通運輸組織優(yōu)化亟待解決的難題。
得益于大數(shù)據(jù)技術(shù)的發(fā)展,機器學習方法已經(jīng)在諸多領域的理論研究和運營實踐中凸顯了優(yōu)勢[2]。在數(shù)據(jù)充足的條件下,機器學習模型可以研究列車間更為復雜的作用過程,更深入地解析晚點傳播及恢復過程[3]。文超等[4]認為傳統(tǒng)數(shù)學模型不能有效處理列車運行產(chǎn)生的巨復雜數(shù)據(jù),而機器學習相關(guān)模型適用于處理數(shù)據(jù)驅(qū)動的智能鐵路運營分析。Lulli等[5]以描述大型鐵路路網(wǎng)的態(tài)勢為目標,混合傳統(tǒng)分析和數(shù)據(jù)驅(qū)動模型的描述方法,構(gòu)建了一個動態(tài)鐵路多源數(shù)據(jù)分析系統(tǒng)。孫略添等[6]運用灰色模型對技術(shù)站列車晚點進行預測,再綜合運用馬爾可夫和改進的神經(jīng)網(wǎng)絡模型進行修正和預測,最后將2種方法進行了對比,顯示神經(jīng)網(wǎng)絡模型在大規(guī)模數(shù)據(jù)集情形下預測精度更高。Huang等[7]提出一種基于SVR算法和KF算法的混合模型用于預測列車運行時間,該混合模型結(jié)合了2種算法的特點,做到了更短計算時間下的高準確率預測。解熙等[8]建立以6個絕對指標和5個相對指標的列車晚點事件統(tǒng)計體系,對傳統(tǒng)城市軌道交通晚點評價進行了完善。
目前,相關(guān)研究對鐵路運行數(shù)據(jù)的處理尚不夠精細,沒有充分結(jié)合高速列車調(diào)度實際與機器學習模型運算特點,因此優(yōu)先運用相關(guān)模型對列車數(shù)據(jù)進行分析,對列車數(shù)據(jù)進行篩選,可使其在機器學習模型預測中發(fā)揮更有效的作用。
數(shù)據(jù)來源于中國鐵路廣州局集團有限公司管轄的廣深高鐵,時間跨度為2015年6—12月,共計10萬余條。廣深高速鐵路全長113 km,鐵路下行方向分別是廣州南、慶盛、虎門、光明城、深圳北、福田共6個車站。列車運行數(shù)據(jù)包含高速列車的計劃運行圖和實際運行圖,具體為列車車次、到達車站、實際到達時間、實際出發(fā)時間、圖定到達時間、圖定出發(fā)時間和經(jīng)停股道等。使用的數(shù)據(jù)經(jīng)過預處理和清洗,具體處理對象有數(shù)據(jù)記錄為空值、數(shù)據(jù)記錄錯誤、數(shù)據(jù)存在極端異常值等,經(jīng)過清洗后的數(shù)據(jù)各參數(shù)間不存在數(shù)量級差異。
要詳細了解列車運行數(shù)據(jù)的特征和規(guī)律,對列車運行數(shù)據(jù)進行描述性統(tǒng)計是必要的手段。列車晚點時間作為度量列車運行情況的重要指標也是預測的目標,有必要對其進行詳細分析和挖掘,為下一步建模預測晚點時間做準備。箱線圖是一種常見的數(shù)據(jù)描述方法,常用于表示數(shù)據(jù)量較大且分布跨度較大的數(shù)據(jù)集,將一組數(shù)據(jù)按照由大至小的順序排列,不被納入箱中的數(shù)據(jù)作為數(shù)據(jù)分布的異常值,上邊緣為最大值,然后是上四分位數(shù)值、中間值、下四分位數(shù)和下邊緣。在實際調(diào)度過程中,只有終到時間大于圖定終到時間4 min的列車才統(tǒng)計為晚點列車,廣深高鐵各站到達晚點時間箱線見圖1,其中廣州南站晚點時間為始發(fā)站出發(fā)晚點時間,其余各站為到達晚點時間。
圖1 各站晚點時間箱線
由圖1可知,廣州南站出發(fā)晚點列車數(shù)為784列,平均晚點時間為14.96 min;慶盛站晚點列車數(shù)1 070列,平均晚點時間10.15 min;虎門站晚點列車數(shù)604列,平均晚點時間11.20 min;光明城站晚點列車數(shù)1 259列,平均晚點時間12.95 min;深圳北站晚點列車數(shù)237列,平均晚點時間17.68 min。各站晚點數(shù)據(jù)描述性統(tǒng)計見表1。結(jié)合圖1和表1可知,各站的晚點時間均值都大于第二分位數(shù),這表明各站的晚點時間分布很不均勻,這也是圖1中各站箱線圖繪制的都更接近底部的原因,部分嚴重晚點列車拉高了平均晚點時間。圖1中各站箱線圖上方異常值較多則說明數(shù)據(jù)呈現(xiàn)明顯的右偏態(tài)勢。晚點偏度系數(shù)指標也證實了廣深線所有車站的晚點數(shù)據(jù)分布呈現(xiàn)右偏,廣州南站和深圳北站晚點偏度系數(shù)較低,分別為2.16和1.82,而中間站的晚點偏度系數(shù)均較高。
對列車相關(guān)數(shù)據(jù)進行進一步分析可知,在始發(fā)站廣州南站的始發(fā)列車晚點數(shù)雖不多,但晚點時間偏高,隨著列車在廣州南—慶盛區(qū)間運行,產(chǎn)生了更多的晚點列車,但是晚點時間得到了部分恢復,其中慶盛站—虎門區(qū)間恢復了大量晚點時間較短的列車。這是因為列車在區(qū)間運行中可有效吸收5 min左右的晚點時間,但對于始發(fā)晚點時間大于10 min的列車,往往并不能有效恢復晚點,甚至會產(chǎn)生增晚的情況,導致始發(fā)晚點事件本就嚴重的列車在終到站依舊晚點。從晚點方差指標可以看出全線晚點列車分布都不均勻,列車晚點時間跨度都較大,其中始發(fā)站廣州南站的始發(fā)晚點方差達到了252.11,深圳北站的終到晚點時間方差是236.19,始發(fā)和終到站的晚點時間分布跨度最大。各站的晚點時間峰度指標均大于3,表示廣深線的晚點數(shù)據(jù)分布非常陡。
表1 各站晚點數(shù)據(jù)描述性統(tǒng)計
結(jié)合預處理后的數(shù)據(jù)計算各列車在各站的到達晚點時間、出發(fā)晚點時間、停站時間、實際區(qū)間運行時間、圖定區(qū)間運行時間、列車接續(xù)時間、車站冗余時間、區(qū)間冗余時間共8個列車運行參數(shù)。由于列車運行參數(shù)較多且其數(shù)據(jù)量較大,有必要對參數(shù)進行定量的相關(guān)性分析和數(shù)據(jù)降維處理。
對于多個特征系數(shù)常用皮爾遜相關(guān)系數(shù)(Pearson)去度量特征系數(shù)間的聯(lián)系強度,該系數(shù)計算公式和應用可參考文獻[9]?,F(xiàn)令X1為到達晚點時間,X2為出發(fā)晚點時間,X3為停站時間,X4為實際區(qū)間運行時間,X5為圖定區(qū)間運行時間,X6為列車接續(xù)時間,X7為車站冗余時間,X8為區(qū)間冗余時間,Z為目標值,即下一車站列車到達晚點時間。經(jīng)過計算得到各特征系數(shù)之間與目標值之間的Pearson(見表2)。從表2可知,X1、X2、X3、X4、X7共5個列車運行參數(shù)與目標值的Pearson為正,表明其與列車到下一車站的晚點時間呈現(xiàn)正相關(guān)性,其余特征系數(shù)值X5、X6、X8的Pearson為負,表明其與列車到下一車站的晚點時間呈現(xiàn)負相關(guān)性。
表2 列車運行參數(shù)Pearson
Lasso模型是一種常見的回歸方法,通過壓縮估計構(gòu)建懲罰函數(shù),計算出一個更簡潔的模型。模型的相關(guān)公式和應用可參考文獻[10]。λ取值為5,經(jīng)過計算得到相關(guān)系數(shù)非零的數(shù)量為5個,各參數(shù)相關(guān)系數(shù)分別為0.298 85、0.601 71、0、0.200 85、-0.426 10、0、0、-0.356 77。將Lasso模型計算的參數(shù)系數(shù)與Pearson的結(jié)果進行結(jié)合,得到晚點特征評估表(見表3)。
表3 晚點特征評估
由 表3可 知,X1、X2、X4、X5、X8這5個 參 數(shù) 在Lasso系數(shù)評估中都是不可縮減的一部分,再綜合考慮Pearson相關(guān)系數(shù)和列車運行實際情況,停站時間也是預測列車在下一車站晚點時間的重要因素,而列車接續(xù)時間和車站冗余時間不會因列車晚點而產(chǎn)生時間值上的變化,只是將事件發(fā)生的時間點在時間的水平坐標上平移,因此添加X3停站時間也作為預測晚點時間的參數(shù)。綜上,共有6個參數(shù)被用于預測模型建立。
機器晚點預測是鐵路運營智能化的功能之一,既可一定程度上減輕調(diào)度員的工作壓力,也可為調(diào)度行車指揮命令提供參考,選擇梯度提升決策樹模型進行預測。
GBDT算法是一種集成算法,廣泛應用于工業(yè)界、金融界和各類數(shù)學競賽中[11],由Gradient Boosting算法和Decision Tree算法2部分組成,將2者綜合即為梯度提升決策樹,該集成算法以殘差下降為優(yōu)化方向,不停地將上一個優(yōu)化的輸出作為下一次優(yōu)化的輸入,從而以期達到最優(yōu)值。該模型算法在回歸分析中的表現(xiàn)非常出色,是目前使用度高且具有良好泛化能力的算法。模型具體步驟如下:
(1)假設有訓練集數(shù)據(jù)。(xm,ym)為一組數(shù)據(jù),則訓練集數(shù)據(jù)為:
(2)確定生成數(shù)個數(shù)(迭代數(shù))為N,損失函數(shù)為L(y,f(x)),yi為真實值,c為對應預測值,則設置初始化弱回歸器為:
(3)對迭代次數(shù)n=1,2,3,…,N,設置負梯度為:
運用上式計算回歸樹,得到第n顆回歸樹。其葉子節(jié)點域為Rns,s=1,2,3,???,S,S為回歸樹N的葉子節(jié)點個數(shù),計算S的最優(yōu)擬合值為:
得到S的最優(yōu)解后,從而更新回歸器:
(4)得到最終學習器為:
擬解決的是回歸問題,利用負梯度擬合殘差可實現(xiàn)回歸功能[12]。
要運用GBDT模型進行晚點時間預測,還需要對相關(guān)重要參數(shù)的取值進行研究,將數(shù)據(jù)集劃分為訓練集和測試集,選取總數(shù)據(jù)量的20%作為測試集,訓練集數(shù)據(jù)進行參數(shù)訓練?,F(xiàn)選取了一些主要參數(shù)包括nums學習器的數(shù)量、max_features最大特征數(shù)、subsample采樣比例、max_depth樹的最大深度。
nums是學習器的數(shù)量,即初始學習器的迭代次數(shù),通常取值過小易導致欠擬合,取值過大易導致過擬合,在此默認取值100。nums參數(shù)訓練結(jié)果見圖2,nums參數(shù)隨著取值增加訓練集分數(shù)快速提升,該參數(shù)取值100。
圖2 nums參數(shù)訓練結(jié)果
max_features是最大特征數(shù),劃分子節(jié)點時需考慮的值。max_features參數(shù)訓練結(jié)果見圖3,max_features參數(shù)隨著取值增加測試集分數(shù)波動巨大,當取值大于0.8后較穩(wěn)定,因此該參數(shù)取值1。
圖3 max_features參數(shù)訓練結(jié)果
subsample是采樣比例,即在多少數(shù)據(jù)集上運用決策樹去提升梯度,該值默認比例為100%。subsample參數(shù)訓練結(jié)果見圖4,subsample參數(shù)隨著取值增加,模型測試集分數(shù)波動較大,參數(shù)取值超過0.6后準確度達到了平穩(wěn)且優(yōu)異的狀態(tài),因此該參數(shù)值為1。
圖4 subsample參數(shù)訓練結(jié)果
max_depth是樹的最大深度,決定決策樹生出子樹的深度。max_depth參數(shù)訓練結(jié)果見圖5,max_depth參數(shù)隨著取值增加測試集分數(shù)快速提升,取值10以后準確度非常平穩(wěn),因此該參數(shù)取值17。
圖5 max_depth參數(shù)訓練圖
在確定了主要參數(shù)取值后,運用GBDT模型預測各列車在下一車站的晚點時間,用R2值和平均絕對誤差MAE評價回歸模型,R2值著重評價晚點時間預測準確度,MAE著重評價對各車次晚點時間預測的誤差。
結(jié)果顯示預測準確率較高,晚點列車訓練集數(shù)據(jù)的R2值為0.97,測試集R2值為0.89;晚點列車訓練集數(shù)據(jù)MAE為0.09 min,測試集MAE為0.32 min。同時,設置以機器學習的近鄰算法模型(KNN)為預測方法的對照組,鄰近樣本個數(shù)設置為5,葉子節(jié)點數(shù)量設置為30,則對照組晚點列車測試集數(shù)據(jù)的R2值為0.76,MAE為0.84 min。因此,基于GBDT模型的高速列車晚點時間預測的效果是非常優(yōu)秀的??紤]到測試集數(shù)據(jù)量較大,因此僅顯示測試集部分列車的預測情況,晚點時間預測效果見圖6。
圖6 GBDT模型部分預測結(jié)果對比
繪制圖6時,先繪制表示實際晚點時間的藍色折線,當預測完全一致時,表示預測晚點時間黃色折線將覆蓋藍色折線。結(jié)合模型指標與圖6可知,該模型預測結(jié)果貼近實際,其預測準確度很高,可以為列車晚點預測提供一定輔助作用。
基于高速列車運行實績,通過充分挖掘和分析列車運行數(shù)據(jù),運用皮爾遜相關(guān)系數(shù)分析數(shù)據(jù)的相關(guān)性,運用Lasso模型實現(xiàn)數(shù)據(jù)降維,并進而建立高速列車晚點預測的GBDT機器學習模型,模型測試結(jié)果表明所建立模型能夠很好地預測高速列車晚點。準確預測高速列車的晚點時間,能夠降低調(diào)度工作負荷、提高調(diào)度決策的質(zhì)量,是高速鐵路實現(xiàn)智能調(diào)度的重要環(huán)節(jié)。智能運營是智能高鐵的核心價值體現(xiàn),是智能高鐵研究和實踐必須攻克的難題,其中高速列車晚點預測及列車運行調(diào)整的高鐵調(diào)度是重要內(nèi)容,利用機器學習方法預測高速列車的晚點,將能夠為高鐵調(diào)度智能化提供理論支撐,相關(guān)預測模型可作為高鐵智能調(diào)度決策系統(tǒng)的相應模塊,助力高鐵智能調(diào)度系統(tǒng)開發(fā)。