孟 歌,王洪業(yè),李麗輝,韓慧婷
(中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
科學合理地預測鐵路客流,能夠有效地輔助運營管理人員進行運營決策,以便為旅客提供更好的服務,因此準確對客流進行預測顯得愈發(fā)重要。目前用于客流預測的方法主要包括:專家意見法,時間序列法[1-2],灰色預測法[3-4],支持向量機(SVM)[5],神經(jīng)網(wǎng)絡[6]等。其中鐵路部門常用的方法包括BP 神經(jīng)網(wǎng)絡,支持向量回歸機(SVR)等方法,均處于前沿地位。BP 神經(jīng)網(wǎng)絡操作性較好[7],利于對大量數(shù)據(jù)進行分布式存儲和并行處理,但是收斂速度較慢且容易陷入局部最小值,在原始數(shù)據(jù)量較少且存在噪聲的情況下,預測精度往往不夠理想。支持向量回歸機(SVR)是支持向量機(SVM)在回歸問題上的應用模型[8],它解決了在神經(jīng)網(wǎng)絡方法中無法避免的局部極值問題,具有在小樣本、非線性環(huán)境下優(yōu)越性較好的特點,因此常采用SVR 方法對客流進行預測。
但是由于鐵路客流受多種因素影響,具有高度復雜性,直接對客流數(shù)據(jù)進行預測往往誤差較大,因此本文利用經(jīng)驗模態(tài)分解(EMD ,Empirical Mode Decomposition)方法對客流進行自適應的分解,排除噪聲干擾,根據(jù)分解后產(chǎn)生的固有模態(tài)函數(shù)(IMF ,Intrinsic Mode Function)分別進行預測,建立基于EMD 的SVR 預測模型,降低了模型的復雜度,達到精確預測的目的。
EMD 適用于處理非線性、非平穩(wěn)數(shù)據(jù),能夠自適應的對鐵路客流數(shù)據(jù)進行高速、有效地分解,具有廣闊的應用前景[9]。SVR 方法具有堅實的理論基礎,避開了從歸納到演繹的傳統(tǒng)過程,簡化了回歸問題,在小樣本學習領域有極高的效率和準確率[10]。因此將EMD 方法與SVR 結(jié)合,建立基于EMD 的SVR鐵路客流預測模型,對實際鐵路客流進行預測,以期達到對日客流進行精準預測的目的。
經(jīng)驗模態(tài)分解(EMD)通過局部極值的分解方法,能夠?qū)⒎瞧椒€(wěn)、非線性的信號分解成一系列從高頻到低頻的固有模態(tài)函數(shù)( IMF),它具良好的完備性,近似正交性,和局部自適應性,目前已在網(wǎng)絡控制、電力、機械和醫(yī)學等領域得到了廣泛的應用[11-14],但在鐵路客流預測領域中應用較少。
鐵路部門收集到的客流數(shù)據(jù)可以看做一組單位為時間-人數(shù)的數(shù)據(jù)序列,而EMD 方法的實質(zhì)是以經(jīng)驗為主,通過客流數(shù)據(jù)的特征時間尺度,識別客流數(shù)據(jù)序列中的固有振動模態(tài),然后把它們相應地分解出來。利用EMD 將客流數(shù)據(jù)分解為IMF 需要滿足以下條件:(1) 在整個數(shù)據(jù)區(qū)段內(nèi)極值點的數(shù)目和過零點的數(shù)目相差為1 或相等。(2)在任意數(shù)據(jù)點處局部極大值包絡線和局部極小值包絡線的平均值為0。
對于鐵路客流數(shù)據(jù)X(t),其EMD 方法的具體實現(xiàn)步驟為:
(1)確定原始客流數(shù)據(jù)X(t)中的所有局部極大值和局部極小值,用三次樣條函數(shù)插值法對所有的極大值、極小值分別進行擬合,進而獲得上包絡線Xmax(t)和下包絡線Xmin(t)。
(2)求得上包絡線Xmax(t)和下包絡線Xmin(t)的均值曲線,獲得平均值m1(t),公式為:
(3)將平均值m1(t)從原始客流數(shù)據(jù)X(t)中分離出來,得到第1 個剩余分量h1(t),即:
此時,判斷h1(t)是否滿足IMF 停止條件,滿足即產(chǎn)生第一個IMF 分量,若不滿足,則將h1(t)看作原始數(shù)據(jù),重復j次步驟(1)、(2)、(3),直到得到hj(t)滿足IMF 停止條件,令C1(t)=hj(t),C1(t)即為分解出來的第1 個IMF 分量,記為IMF1。
(4)由于 IMF1 中包含著原始客流數(shù)據(jù)X(t)中頻率最高的部分,將C1(t)從原始客流數(shù)據(jù)X(t)中分離出來,得到殘差r1:
將r1看作原始數(shù)據(jù)重復n次步驟(1)~(4),直到最終的殘差rn變成單調(diào)函數(shù)或是常數(shù)為止。
通過EMD 分解,從原始客流數(shù)據(jù)X(t)中分離出n個IMF 分量和一個殘差rn。因此,原始客流數(shù)據(jù)X(t)表達式為:
SVR 是近年發(fā)展起來的性能優(yōu)越的算法,具有良好的泛化能力,其重要理論基礎是統(tǒng)計學習理論。SVR 的基本思想是通過預測誤差最小化來尋找能較好地接近數(shù)據(jù)點的估計函數(shù),通過非線性映射函數(shù)?:Rn→H將輸入空間的樣本數(shù)據(jù)xi映射到高維特征空間H中,再在此特征空間構造最優(yōu)超平面,進行線性回歸計算,從而得到了原來低維空間里非線性回歸的效果。
設鐵路客流訓練樣本集為(x1,y1),(x2,y2),……,(xN,yN),其中,xi∈Rn,yi∈{-1,1} ,N為客流樣本數(shù),n為客流特征向量的維數(shù)。
在SVR 中,求最優(yōu)超平面轉(zhuǎn)化為求解二次規(guī)劃問題,其中,C為懲罰參數(shù):
式(1)的對偶形式為:
利用二次規(guī)劃方法可以得到SVR 的估計式:
其中,閾值b通過下式求解:
通過EMD 分解,從原始客流數(shù)據(jù)X(t)中分離出n個IMF 分量和一個殘差rn。為排除殘差rn的影響,將分離出的n個IMF 分量作為訓練樣本集,通過SVR 求解得到結(jié)果集。
本文中以鐵路客票系統(tǒng)中的客流數(shù)據(jù)為依據(jù),建立基于EMD 的SVR 預測模型。以北京西至石家莊的OD 日客流為例,取2017 年6 月1 日—2017 年12 月9 日數(shù)據(jù)作為訓練樣本,取2017 年12 月10 日—2017 年12 月27 日數(shù)據(jù)作為測試樣本進行數(shù)值實驗。本文利用MATLAB R2012b 軟件來實現(xiàn)數(shù)值檢驗,基于EMD 的SVR 預測模型參數(shù)選擇方法為人工魚群算法[15]。
通過EMD 方法將原始客流數(shù)據(jù)分解,輸入原始客流數(shù)據(jù)后,自適應的分解為IMF1 ~IMF6 這6 項分量以及1 項殘差r6。EMD 分解結(jié)果,如圖1 所示。
從圖1 可以看出IMF1 的波動頻率最高,IMF2 ~IMF6 逐漸降低,分別分析這6 項IMF 分量與原始客流數(shù)據(jù)的相關性,利用相關系數(shù)和P-value 值進行檢驗,相關性分析結(jié)果,如表2 所示。
表1 部分原始客流數(shù)據(jù)
從表2 中可以看出殘差r6 的相關系數(shù)<0.1,同時p-value 值遠>0.05,而其它IMF 分量的p-value值均<0.05,證明IMF 分量均與原始客流數(shù)據(jù)相關性顯著,而殘值r6 與原始數(shù)據(jù)的相關性不顯著,因此不作為預測輸入數(shù)據(jù)處理。將IMF1 ~IMF6 分別作為輸入數(shù)據(jù)進行SVR 預測,利用魚群算法優(yōu)化參數(shù),將預測結(jié)果合并后得到最終預測結(jié)果,如圖2 所示。為了證明基于EMD 的SVR 優(yōu)于SVR方法,進行對比實驗,采用相同原始客流數(shù)據(jù)進行SVR 預測,結(jié)果,如圖3 所示。同時采用相同原始客流數(shù)據(jù),利用BP 神經(jīng)網(wǎng)絡方法進行預測,結(jié)果如圖4 所示。通過相對誤差作為評價標準,幾種預測方法的結(jié)果與原始客流數(shù)據(jù)的相對誤差、絕對誤差,如表3、表4 所示。
表2 相關性分析表
從表3 和表4 中可以看出,基于EMD 的SVR預測方法誤差明顯小于SVR 方法和PB 神經(jīng)網(wǎng)絡方法,其中基于EMD 的SVR 方法平均相對誤差為13%,而SVR 和PB 神經(jīng)網(wǎng)絡的平均相對誤差分別為22%和25%。證明基于EMD 的SVR 方法能夠有效地對鐵路OD 日客流數(shù)據(jù)進行預測,同時提高預測的準確性。
表3 各種預測方法相對誤差表
表4 各種預測方法絕對誤差表
數(shù)據(jù)實驗結(jié)果表明,基于EMD 的SVR 方法能夠有效地對鐵路客流進行預測,為實際應用中的客流預測問題提供了新的方法。本文對基于EMD 的SVR模型進行構建,并進行學習和訓練,利用OD 日客流對預測模型進行檢驗。通過對SVR、BP 以及基于EMD 的SVR 預測這3 種預測模型進行仿真,結(jié)果表明,本文所建立基于EMD 的SVR 預測模型的預測誤差最小。因此,該預測模型可為鐵路客流的預測提供一定的實用價值。此外,為了更好的提高預測準確性,需要對殘差進行詳細分析,對于殘差的利用將是基于EMD 的SVR 方法下一步要研究的問題。