陳東洋 陳德旺 陳開河
摘 要:隨著地鐵線網(wǎng)規(guī)模的擴大,地鐵客流大數(shù)據(jù)不斷產(chǎn)生并積累,其中包含大量信息。地鐵乘客出行時間是反映地鐵系統(tǒng)運行狀況和乘客滿意度的重要指標。傳統(tǒng)的地鐵乘客出行時間預(yù)測沒有充分利用客流大數(shù)據(jù),因此有進一步提升空間。文章基于地鐵客流大數(shù)據(jù),整理了大量乘客出行屬性和實際出行時間的數(shù)據(jù)集,并采用多種回歸模型建立地鐵乘客出行時間預(yù)測模型。結(jié)果表明:使用徑向基核函數(shù)的支持向量回歸模型預(yù)測效果最好,可較好應(yīng)用于乘客出行時間預(yù)測,為乘客出行規(guī)劃及運營公司調(diào)度提供參考。
關(guān)鍵詞:地鐵;客流;大數(shù)據(jù);支持向量回歸;乘客出行時間
中圖分類號:U231+.92
1 研究背景
地鐵在城市公共交通中發(fā)揮著越來越不可替代的作用,不僅方便了人們的生活,也緩解了城市日益嚴重的交通擁堵現(xiàn)象,是一種高效環(huán)保的可持續(xù)城市公共交通方式[1]。地鐵乘客出行時間的預(yù)測具有重要意義[2],不僅能幫助乘客更好地規(guī)劃行程,而且能夠反映地鐵的運營狀況,為地鐵運行調(diào)度提供數(shù)據(jù)支撐,提高地鐵的運營效率。目前對于乘客出行時間的預(yù)測研究大都集中在公交、汽車或多種交通工具相結(jié)合的方向。
王群[3]結(jié)合卡爾曼濾波方法以及粒子群算法優(yōu)化的支持向量機模型,建立了道路的旅行時間預(yù)測模型。You等[4]結(jié)合地理信息系統(tǒng)(GIS)技術(shù)建立一種混合行程時間預(yù)測模型,用于預(yù)測擁擠道路網(wǎng)絡(luò)中的路段行程時間。林永杰等[5]提出一種基于稀疏出租車全球定位系統(tǒng)(GPS)數(shù)據(jù)的大范圍城市路網(wǎng)出行時間估計方法,利用車輛的時空位置數(shù)據(jù)估算路段速度,進而得到路段旅行時間。沙云飛等[6]提出利用GPS數(shù)據(jù)對路段旅行時間和路段平均速度進行估計的算法,以描述路網(wǎng)的運行狀態(tài)。Zhou等[7]建立地鐵步行時間預(yù)測模型,推導(dǎo)乘客的等待時間和出行時間,為地鐵時刻表管理提供量化依據(jù)。Duan等[8]認為出行時間是旅客最為關(guān)心的問題之一,并使用長短期記憶人工神經(jīng)網(wǎng)絡(luò)(LSTM)模型對出行時間進行預(yù)測。張威威等[9]選擇不同類型的LSTM神經(jīng)網(wǎng)絡(luò)架構(gòu)對道路旅行時間進行預(yù)測。Hinsbergen等[10]將貝葉斯推理理論與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,對出行時間進行預(yù)測。王芳杰等[11]通過分析車輛、道路以及天氣等特征,建立基于LightGBM算法的公交車站點間行程時間預(yù)測模型。陳旭梅等[12]基于GPS數(shù)據(jù),結(jié)合卡爾曼濾波與支持向量機模型,對快速公交系統(tǒng)(BRT)行程時間進行預(yù)測。
本文借助大數(shù)據(jù)分析技術(shù),基于歷史客流大數(shù)據(jù),并采用多種機器學(xué)習(xí)模型,挖掘地鐵乘客出行特征與出行時間之間的關(guān)系,實現(xiàn)對乘客出行時間的預(yù)測,為乘客出行規(guī)劃提供參考,為地鐵運營調(diào)度優(yōu)化提供支撐。
2 數(shù)據(jù)簡介
2.1 數(shù)據(jù)來源
本文采用福州地鐵1號線的實際運營數(shù)據(jù)。福州地鐵1號線于2017年1月6日開通運營,線路總長24.89km,共設(shè)21個站點,全天運營時間為6 : 30—23 : 00,全程用時約45 min。選取2017年的刷卡數(shù)據(jù)作為實驗的數(shù)據(jù)集,為避免節(jié)假日的影響,從工作日以及周末數(shù)據(jù)集中隨機抽取了54萬條刷卡數(shù)據(jù)。
2.2 數(shù)據(jù)處理
原始數(shù)據(jù)中每條記錄包含乘客ID、卡類別、線路ID、進出站口ID、進出站設(shè)備ID、進出站時間、日期、票價等屬性。根據(jù)研究需求,先將數(shù)據(jù)進行預(yù)處理,刪除多余屬性,保留所需屬性。此外,乘客的部分出行屬性需要對原始屬性進行處理后才能得到。通過分析,最終選取日期、進站點、出站點、進站時間、理論運行時間、乘坐距離、發(fā)車間隔、實際出行時間用于乘客出行時間預(yù)測。
在預(yù)處理過程中,對日期以及車站等屬性采取編號的量化方式,將日期替換為1,2,…,7以表示該條記錄屬于星期幾(如“1”表示該條記錄屬于“星期一”);將1 號線的21個站點分別按1,2,3,…,19,20,21編號表示,如表1所示。
同時為便于計算,將乘客的實際出行時間以及發(fā)車間隔等時間單位統(tǒng)一為秒,處理之后的部分數(shù)據(jù)如表2所示。
2.3 大數(shù)據(jù)平臺
地鐵客流大數(shù)據(jù)具有大量、高維、低價值密度等特點,采用常規(guī)的方法手段難以高效準確地進行客流數(shù)據(jù)的處理挖掘和提取數(shù)據(jù)中潛在的應(yīng)用價值。因此本文借助于大數(shù)據(jù)平臺進行客流大數(shù)據(jù)的分析挖掘。
Spark是一個基于內(nèi)存計算的大數(shù)據(jù)處理框架,可以將計算的中間結(jié)果保存在內(nèi)存之中,這種方式避免了頻繁的文件讀取,加快了系統(tǒng)運行,因此適用于需要遞歸、迭代計算的數(shù)據(jù)挖掘算法中。
本文以spark大數(shù)據(jù)平臺為基礎(chǔ),進行客流大數(shù)據(jù)的清洗、處理等,并以此為基礎(chǔ)進行地鐵乘客出行時間預(yù)測模型研究,提高模型的性能、效率。
3 回歸模型
回歸分析是數(shù)據(jù)挖掘的一種重要技術(shù),其研究的是數(shù)據(jù)中自變量(輸入)與因變量(輸出)之間的關(guān)系,是一種預(yù)測性的建模技術(shù)?;貧w分析技術(shù)通常用于數(shù)據(jù)的預(yù)測分析等方面。本文以客流大數(shù)據(jù)為基礎(chǔ),選取多元線性回歸、支持向量回歸等幾種經(jīng)典的回歸分析算法,建立地鐵乘客出行時間預(yù)測模型。
3.1 多元線性回歸模型
3.2 BP神經(jīng)網(wǎng)絡(luò)模型
反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)是目前使用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,由Rumelhart等[14-15]于1986年正式提出。模型網(wǎng)絡(luò)分為輸入層、隱藏層、輸出層3部分,通過輸入的正向傳播以及誤差的反向傳播來綜合調(diào)整模型各個層的連接權(quán)重與閾值,并最終建立合適的模型。
圖1為BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖,該網(wǎng)絡(luò)的輸入層神經(jīng)元、隱藏層神經(jīng)元、輸出層神經(jīng)元個數(shù)分別為d、q、l。其中輸入神經(jīng)元 i 與隱藏神經(jīng)元h 之間的連接權(quán)表示為 vih,隱藏神經(jīng)元 h 與輸出神經(jīng)元 j 之間的連接權(quán)表示為whj。隱藏神經(jīng)元 h 的輸入為 ,輸出神經(jīng)元j
的輸入為 (其中 bh為隱藏神經(jīng)元 h 的輸出)。
BP神經(jīng)網(wǎng)絡(luò)模型在學(xué)習(xí)中需要學(xué)習(xí)的參數(shù)主要是各層之間的連接權(quán)值,以及隱藏層與輸出層的神經(jīng)元閾值,算法的參數(shù)是在不斷的迭代學(xué)習(xí)中進行迭代更新的。
3.3 支持向量機回歸模型
支持向量機(Support Vector Machine,SVM)是一種經(jīng)典的監(jiān)督學(xué)習(xí)模型[16]。通過建立訓(xùn)練集與類別標簽兩者之間存在的關(guān)系模型,從而預(yù)測新數(shù)據(jù)對應(yīng)的類別。而處理回歸模型問題時可以采用支持向量回歸(Support Vector Regression,SVR)模型[17]。
SVR算法能夠較好的解決局部最優(yōu)解問題,而且在樣本容量小時不會產(chǎn)生過擬合現(xiàn)象,相比其他方法有優(yōu)勢。在實際應(yīng)用中,核函數(shù)的選取也是影響SVR算法性能的重要因素,線性核、多項式核以及徑向基核是SVR算法常用的3種核函數(shù),其中徑向基核函數(shù)在各種類型的數(shù)據(jù)中均可以適用,因此應(yīng)用最為廣泛。
3.4 決策樹回歸模型
決策樹是常用的一種分類以及回歸模型,可根據(jù)需要構(gòu)建相應(yīng)的分類樹或回歸樹來解決問題?;貧w樹就是將特征空間劃分成為多個單元,每個單元對應(yīng)一個特定的輸出。算法根據(jù)某一標準來確定每一步的劃分點以及選取劃分點最優(yōu)的閾值,并以此決定樣本在每個步驟所選取的路徑。首先在訓(xùn)練集的輸入中,采用遞歸的方法將所有區(qū)域分為2個相互獨立的子區(qū)域,再確定每個子區(qū)域相應(yīng)的輸出?;貧w樹的構(gòu)建步驟[18]如下。
3.5 算法性能指標
為描述算法結(jié)果的準確性,本文使用4個評價指標來綜合評價實驗結(jié)果,分別為:均方根誤差(Root Mean Square Error,RMSE)、平均相對誤差(Mean Absolute Percentage Error,MAPE)、平均絕對誤差(Mean Absolute Error,MAE)以及決定系數(shù)R2。對于包含n個樣本的數(shù)據(jù)集D ={(,y1),(,y2),…,(,yn)},其中為輸入值 對應(yīng)的預(yù)測值,yi為輸入值 對應(yīng)的真實值,則RMSE、MAPE、MAE以及R2的計算公式如下:
RMSE能夠很好地衡量預(yù)測值和真實值之間的偏差,而MAPE則能夠很好地反映實驗中預(yù)測結(jié)果的準確度,MAE反映了預(yù)測結(jié)果的絕對誤差大小,對于這3個指標,值越小代表預(yù)測效果越好。R2則反映了輸入屬性對輸出屬性的可解釋程度以及該模型的擬合程度的優(yōu)良,R2的取值區(qū)間為[0,1],R2的值越大說明模型對輸入輸出屬性之間關(guān)系的擬合越好。
4 實驗結(jié)果
為使實驗結(jié)果更具有普遍性,本文將數(shù)據(jù)集劃分為4個部分,分別為數(shù)據(jù)集A、B、C、D,各數(shù)據(jù)集的數(shù)據(jù)量分別為4萬、10萬、15萬、25萬條。此外,對每個數(shù)據(jù)集隨機選取75%數(shù)據(jù)作為模型的訓(xùn)練數(shù)據(jù)集,剩余的25%數(shù)據(jù)作為模型的測試數(shù)據(jù)集。
4.1 模型參數(shù)確定
由于部分模型需要根據(jù)實際情況確定模型關(guān)鍵參數(shù),本文選取數(shù)據(jù)量適中的數(shù)據(jù)集C(15萬條)來進行前期的模型參數(shù)選取工作。
BP神經(jīng)網(wǎng)絡(luò)輸入層的神經(jīng)元個數(shù)為數(shù)據(jù)集的輸入屬性的維數(shù),輸出層的神經(jīng)元個數(shù)為數(shù)據(jù)集的輸出屬性的維數(shù)。因此在本文中,最終確定網(wǎng)絡(luò)的輸入神經(jīng)元個數(shù)為7個,輸出神經(jīng)元個數(shù)為1個。同時本文根據(jù)經(jīng)驗公式(15)來進行隱藏神經(jīng)元個數(shù)的確定。
式(15)中,n,l分別為輸入神經(jīng)元個數(shù)、輸出神經(jīng)元個數(shù);α為隨機選取的1到10之間的某個常數(shù);m為隱藏神經(jīng)元個數(shù)。本文最終確定隱藏神經(jīng)元個數(shù)為10個。
模型中損失值隨訓(xùn)練次數(shù)變化情況如圖2所示,訓(xùn)練6次及之后的損失值變化如圖3所示。
損失值在模型訓(xùn)練40次之后趨于穩(wěn)定,因此BP模型的訓(xùn)練次數(shù)確定為40次。
決策樹模型中的關(guān)鍵參數(shù)為樹深,本文使用MAPE與R2作為評價標準確定樹深。模型訓(xùn)練30次,每個樹深的MAPE與R2取值取30次訓(xùn)練的平均值。圖4為MAPE平均值與R2平均值隨樹深增加的變化圖。
模型的MAPE以及R2都在樹深等于8時取最優(yōu)值,此時MAPE = 13.01%,R2 = 0.8943,因此決策樹模型的樹深選取8。
4.2 實驗結(jié)果對比
為使實驗結(jié)果更具有一般性,本文將 4 種模型分別在A、B、C、D 4個數(shù)據(jù)集上進行30次實驗,每個模型的指標取相應(yīng)數(shù)據(jù)集上30次結(jié)果的平均值。其中SVR模型選取線性核、多項式核、徑向基核3種核函數(shù)進行實驗。實驗結(jié)果對比如表3~表6所示。表中RMSE_AVG、MAPE_AVG、MAE_AVG、R2_AVG分別表示各模型在相應(yīng)數(shù)據(jù)集上訓(xùn)練30次的指標平均值,RMSE_MIN、MAPE_MIN、MAE_MIN、R2_MAX分別表示各模型在相應(yīng)數(shù)據(jù)集上訓(xùn)練30次中的最優(yōu)值。
從表3~表6可見,在4個數(shù)據(jù)集的預(yù)測中,4個指標的平均值以及最優(yōu)值表現(xiàn)效果最好的都為基于徑向基核函數(shù)的SVR模型,該模型的穩(wěn)定性以及預(yù)測精度波動均優(yōu)于其他模型。其在4個數(shù)據(jù)集上的MAPE平均值分別為12.92%、12.90%、12.82%、12.88%,相比其他模型的MAPE平均值降低了0.05%~0.36%,而MAPE的最優(yōu)值分別為12.64%、12.74%、12.70%、12.70%,相比其他模型的MAPE最優(yōu)值降低了0.09%~0.36%。
5 結(jié)論
本文主要基于客流大數(shù)據(jù)進行地鐵乘客出行時間預(yù)測模型研究,首先在大數(shù)據(jù)平臺上進行原始客流數(shù)據(jù)的處理,提取所需屬性,構(gòu)建實驗所需數(shù)據(jù)集。并在此基礎(chǔ)上選取多元線性回歸、支持向量回歸、BP神經(jīng)網(wǎng)絡(luò)以及決策樹共4種模型進行實驗。
對比實驗結(jié)果中各個指標,發(fā)現(xiàn)基于徑向基核函數(shù)的SVR模型預(yù)測精度最高,模型的穩(wěn)定性最好,波動最小。其MAPE平均值相比其他模型降低了0.05%~0.36%,MAE平均值為133~135s,這對于乘客來說是完全可以承受的。說明使用徑向基核函數(shù)的SVR模型能夠較好的預(yù)測地鐵乘客的出行時間。
當然,本文考慮的一些因素有很多不足,在數(shù)據(jù)處理時對異常情況可能考慮不全面,對最終結(jié)果產(chǎn)生影響。在屬性選取時也沒有考慮天氣、客流等影響因素。在回歸模型的選取上也只選取了幾種模型進行比較,而且模型的參數(shù)也沒有進一步優(yōu)化,還有很多有待改進的地方,誤差還有進一步縮小的空間。
參考文獻
[1]Yu Xue, Xue Mei, Youran Zhi, et al. Sub-health state identification method of subway door based on time series data mining[J]. Journal of Computer Applications, 2018(3):905-910.
[2]Meilan Jiang, Takayuki Morikawa. Theoretical analysis on the variation of value of travel times avings[J]. Transportation Research, Part A (Policy and Practice),2004,38(8):566-571.
[3]王群. 基于藍牙技術(shù)的城市道路短時旅行時間預(yù)測方法研究[D]. 上海:上海交通大學(xué),2015.
[4]Jinsoo You, Tschangho John Kim. Development and evaluation of a hybrid travel time forecasting model[J]. Transportation Research Part C (Emerging Technologies), 2000(8):231-256.
[5]林永杰,鄒難,朱琳,等. 基于稀疏出租車GPS數(shù)據(jù)的大范圍城市路網(wǎng)旅行時間估計方法,中國,201510203390.7[P]. 2020-07-15. http://d.wanfangdata.com.cn/patent/CN201510203390.7.
[6]沙云飛,曹瑾鑫,史其信. 基于GPS的路段旅行時間和速度估計算法研究[C]//中國智能交通年會,2005.
[7]Yuyang Zhou, Lin Yao, Yi Gong, et al. Time prediction model of subway transfer[J]. Springerplus,2016,5(1):44.
[8]Yanjie Duan, Yisheng Lv, Fei-Yue Wang. Travel time prediction with LSTM neural network[C]//2016 IEEE 19th International Conference on Intelligent Transportation Systems(ITSC),2016.
[9]張威威,李瑞敏,謝中教. 基于深度學(xué)習(xí)的城市道路旅行時間預(yù)測[J]. 系統(tǒng)仿真學(xué)報,2017(10):2309-2315,2322.
[10] Hinsbergen C P I V, Lint J W C V, Zuylen H J V. Bayesian committee of neural networks to predict travel times with confidence intervals[J]. Transportation Research Part C Emerging Technologies,2009,17(5):498-509.
[11] 王芳杰,王福建,王雨晨,等. 基于LightGBM算法的公交行程時間預(yù)測[J]. 交通運輸系統(tǒng)工程與信息,2019,19(2):120-125.
[12] 陳旭梅,龔輝波,王景楠,等. 基于SVM和Kalman濾波的BRT行程時間預(yù)測模型研究[J]. 交通運輸系統(tǒng)工程與信息,2012,12(4):29-34.
[13] 王劭逸. 基于GCV方法的線性回歸模型嶺參數(shù)估計[D]. 安徽合肥:中國科學(xué)技術(shù)大學(xué),2012.
[14] Rumelhart D E, Hinton G E, Williams R J. Learning internal representations by error propagation[M]. Netherlands,Amsterdam: Elsevier Inc,1988.
[15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986,6088(323):33-536.
[16] Chow D K T, Lee T L T. Image approximation and smoothing by support vector regression[C]// International Joint Conference, 2001.
[17] 田英杰. 支持向量回歸機及其應(yīng)用研究[D]. 北京:中國農(nóng)業(yè)大學(xué),2005.
[18] 李航. 統(tǒng)計學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社, 2012.
收稿日期 2020-04-27
責(zé)任編輯 胡姬