朱士光,四兵鋒,崔鴻蒙,薛景文
(北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044)
城市軌道交通站間起訖點(diǎn)(origin destination,OD)客流及其時空分布是制定路網(wǎng)規(guī)劃、運(yùn)營組織的重要依據(jù),把握客流OD時空特征并對其進(jìn)行精準(zhǔn)預(yù)測對于城市軌道交通運(yùn)營管理具有重要意義。根據(jù)客流預(yù)測的時間粒度和周期,城市軌道交通OD客流預(yù)測可分為長期的靜態(tài)OD預(yù)測和短期的動態(tài)OD預(yù)測[1]。前者主要是基于社會經(jīng)濟(jì)因素,對未來路網(wǎng)中的均衡OD客流進(jìn)行預(yù)測,主要用于路網(wǎng)規(guī)劃或宏觀政策的制定;而后者則關(guān)注短時或短期的分時段OD客流的變化規(guī)律,常采用基于數(shù)據(jù)統(tǒng)計的時間序列方法,可得到未來特定時間段的OD客流,主要用于城市軌道交通的客流組織、管控以及行車調(diào)度等。
目前,交通OD客流預(yù)測的數(shù)據(jù)基礎(chǔ)主要有手機(jī)信令數(shù)據(jù)[1-2]、GPS數(shù)據(jù)[3]以及智能交通卡數(shù)據(jù)[4-5]3種類型。由于城市軌道交通系統(tǒng)相對封閉,受外界干擾程度較低,且通過自動售檢票系統(tǒng)(AFC)就可以實(shí)時獲取乘客的進(jìn)站、出站等時空信息。因此,一些學(xué)者基于AFC數(shù)據(jù),對城市軌道交通OD客流預(yù)測進(jìn)行了研究。早期的預(yù)測方法主要是基于歷史數(shù)據(jù)統(tǒng)計分析的集計模型,包括時間序列分析模型[6-7]、卡爾曼濾波模型[8-9]、k近鄰算法模型[10]等。這類方法的優(yōu)點(diǎn)是計算簡單、容易實(shí)現(xiàn),但對于復(fù)雜條件下的OD預(yù)測穩(wěn)定性較差。近年來,基于數(shù)據(jù)學(xué)習(xí)的預(yù)測方法由于具有良好的自適應(yīng)性和較強(qiáng)的數(shù)據(jù)擬合能力,被廣泛地應(yīng)用于復(fù)雜條件下的交通預(yù)測,包括支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型、深度學(xué)習(xí)模型等[11-13]。這類方法雖然預(yù)測效果較為理想,但由于模型本身存在較高的計算復(fù)雜度,很難應(yīng)用于對計算效率要求更高的實(shí)時在線OD預(yù)測。
隨著城市軌道交通網(wǎng)絡(luò)規(guī)模的持續(xù)擴(kuò)大,客流時空分布特征變化愈加復(fù)雜,強(qiáng)調(diào)實(shí)時性的在線OD預(yù)測已經(jīng)逐漸成為城市軌道交通領(lǐng)域的研究熱點(diǎn)。對城市軌道交通客流進(jìn)行在線OD預(yù)測有助于地鐵運(yùn)營組織快速作出反應(yīng),從而提高運(yùn)營效率,尤其是對于早晚高峰時期的階段性客流進(jìn)行在線OD預(yù)測,對地鐵運(yùn)營組織進(jìn)行有效的客流管控和及時的行車調(diào)度具有重要意義。目前在線OD預(yù)測方法主要有兩種[14-16]:一種是基于歷史同期數(shù)據(jù)的集計分析預(yù)測方法,這類方法計算簡單,但預(yù)測精度較差,很難擬合短時OD客流的隨機(jī)波動特征;另外一種是基于乘客個體的預(yù)測方法,這類方法通過對乘客單一個體的OD規(guī)律進(jìn)行分析,有效解決了集計分析方法存在的難以擬合隨機(jī)波動的弊端。但目前的研究大多是針對路網(wǎng)變化、突發(fā)事件等特殊情況下的OD流量預(yù)測,不具備普適性。
當(dāng)乘客刷卡進(jìn)站時,AFC系統(tǒng)可以實(shí)時采集該乘客的進(jìn)站信息,因此在線OD預(yù)測可以轉(zhuǎn)化為已知乘客進(jìn)站時間和地點(diǎn)的出行目的地預(yù)測問題。蔣熙等[17]基于對實(shí)時AFC數(shù)據(jù)的分析,提出了將機(jī)器學(xué)習(xí)與遞歸貝葉斯相結(jié)合的客流OD動態(tài)估計方法;許勝博[18]通過提取乘客的出行特征,提出了一種基于乘客出行習(xí)慣的出行目的地預(yù)測方法。這兩種方法由于未對乘客出行習(xí)慣做更深層次的分析和提取,導(dǎo)致對平峰時段的乘客出行目的地預(yù)測效果較差,且對乘客的隨機(jī)出行敏感度較低。
目前已有的城市軌道交通在線OD預(yù)測方法,在及時性和準(zhǔn)確性兼顧方面仍有待提高。本文通過對大量AFC歷史數(shù)據(jù)的挖掘與分析,從乘客個體OD時空特征角度出發(fā),綜合其歷史刷卡數(shù)據(jù)和實(shí)時進(jìn)站信息,研究與之適用的出行目的地在線預(yù)測方法,為地鐵運(yùn)營組織進(jìn)行在線決策提供參考。
通常,如果某位乘客頻繁在同一時間段乘坐地鐵出行,可認(rèn)為該乘客的出行在該時間段是具有規(guī)律的;如果某位乘客頻繁在同一站間OD出行,可認(rèn)為該乘客的出行在空間上是具有規(guī)律的。基于乘客出行的時間段以及OD站點(diǎn)等信息,本文提出了乘客OD時空特征的概念,即乘客在同一時間段內(nèi)、在同一OD間的出行呈現(xiàn)出具有統(tǒng)計特征的規(guī)律性。例如,某乘客從車站X到車站Y的歷史出行記錄總共有4條,其進(jìn)站時間分別是09:08、08:54、08:49、09:11,則該乘客的OD時空特征可表示為:在08:49—09:11從車站X出發(fā)前往車站Y。乘客的某種OD時空特征可表示如下:
(1)
對于某位具體的乘客來說,乘坐地鐵出行的目的并非是固定的,因此,在該乘客已經(jīng)完成的歷史出行記錄中,可能會存在多種類型的OD時空特征,并構(gòu)成該乘客的OD時空特征矩陣。乘客n的OD時空特征矩陣可表示如下:
(2)
根據(jù)乘客的歷史刷卡記錄,就可挖掘出乘客單一個體的OD出行時空特征。目前,基于智能交通卡數(shù)據(jù)的乘客OD時空特征挖掘方法主要是乘客行程聚類[4],聚類方法主要有層次聚類和非層次聚類兩種類型。由于聚類前乘客的OD時空特征數(shù)量未知,因此需要提前設(shè)定集群數(shù)量和聚類終止條件的層次聚類方法并不適用。在非層次聚類方法中,密度聚類(density-based spatial clustering of application with noise,DBSCAN)算法由于不需要提前設(shè)定集群數(shù)量,也不需要設(shè)定聚類終止條件,而且對于象征乘客無規(guī)律出行的噪聲不敏感,高密度的出行記錄更容易劃分到同一個集群中,因此本文提出了一種基于改進(jìn)DBSCAN算法的乘客OD時空特征提取方法。
DBSCAN算法設(shè)有兩個全局參數(shù):鄰域半徑參數(shù)EPS和鄰域密度閾值MinPts。為了聚類的方便性,需要對原始AFC數(shù)據(jù)進(jìn)行預(yù)處理。首先需要將乘客進(jìn)站時間轉(zhuǎn)換為分鐘格式,并將日期信息去除,從而便于對兩次出行時間的差值進(jìn)行判斷。例如某次出行進(jìn)站時間為2019-11-03的8:30,將其轉(zhuǎn)換為分鐘格式,即8×60+30=510。此外還需要對OD進(jìn)行編碼,為了保證密度聚類過程中不同的OD之間不會互相干擾,每個OD編碼賦值后的間隔應(yīng)大于鄰域半徑參數(shù)EPS。設(shè)乘客n的歷史刷卡記錄集用Vn表示,則有:
(3)
圖1 某乘客OD時空特征Fig.1 OD spatiotemporal characteristics of a passenger
步驟4 轉(zhuǎn)入步驟2,直至所有對象標(biāo)記為visited,轉(zhuǎn)入步驟5;
。
(4)
步驟2 計算累計概率分布函數(shù)Fi
。
(5)
步驟3 生成(0,1)內(nèi)的隨機(jī)數(shù)μ;
(6)
(7)
(8)
圖2 樸素貝葉斯算法流程圖Fig.2 Flow chart of the naive Bayesian algorithm
由于乘客選擇地鐵方式出行受到季節(jié)、氣候等多種因素的影響,因此乘客在不同月份的地鐵出行OD時空特征可能會出現(xiàn)較大差異。根據(jù)對大量AFC歷史數(shù)據(jù)的統(tǒng)計分析發(fā)現(xiàn),乘客個體在一個自然月內(nèi)的OD時空特征是相對穩(wěn)定的。因此,本文選取了南京市軌道交通AFC系統(tǒng)2018-03-01至2018-03-31持一卡通乘客的1685萬條出行記錄作為數(shù)據(jù)學(xué)習(xí)訓(xùn)練樣本集。
在對乘客OD時空特征進(jìn)行提取時,首先需要對DBSCAN算法的兩個全局參數(shù)賦值。一般認(rèn)為,在時間間隔為15 min時,當(dāng)前客流與歷史先驗(yàn)客流之間會存在較強(qiáng)的相關(guān)性。因此本文將DBSCAN算法的鄰域半徑參數(shù)EPS設(shè)為15,并將OD對編碼設(shè)為20的倍數(shù)。即認(rèn)為當(dāng)某乘客的兩次出行記錄的時間間隔為15 min以內(nèi)時,兩次出行在時間上較為集中。由于本文選取的AFC歷史數(shù)據(jù)為4周,故將DBSCAN算法的鄰域密度閾值MinPts的取值設(shè)為4,即認(rèn)為若某乘客在某OD對間平均每周同一時間段出行至少一次,則認(rèn)為該乘客在此時間段為固定規(guī)律出行。表1為提取的部分乘客ID的OD時空特征。
表1 乘客OD時空特征表
本文隨機(jī)選取了南京市軌道交通兩個站點(diǎn)——新街口站和油坊橋站作為樣本數(shù)據(jù)采集點(diǎn),以早高峰9:00—9:15進(jìn)站乘客刷卡記錄作為待預(yù)測樣本集,對其OD進(jìn)行實(shí)時預(yù)測。根據(jù)乘客ID完成待預(yù)測刷卡信息與其OD時空特征矩陣的匹配,匹配結(jié)果顯示待預(yù)測出行乘客的構(gòu)成如下:新街口站在該時間段內(nèi)總共有356位進(jìn)站乘客,其中對應(yīng)唯一OD時空特征的乘客共有67 人,占總體客流的18.8%,另外有7人對應(yīng)2 個OD時空特征,其余282名乘客則無對應(yīng)OD時空特征;油坊橋站在該時間段內(nèi)總共有1075位乘客,其中對應(yīng)唯一OD時空特征的乘客共有420 人,占總體客流的39%,另外有9 人對應(yīng)2個OD時空特征,其余646名乘客無對應(yīng)OD時空特征。
基于上述準(zhǔn)備工作,本文對新街口站和油坊橋站兩個站點(diǎn)在早高峰9:00—9:15時間段內(nèi)的所有持一卡通進(jìn)站乘客進(jìn)行了出行目的地預(yù)測,表2為新街口站的部分進(jìn)站乘客預(yù)測結(jié)果。
表2 新街口站預(yù)測結(jié)果
續(xù)表2
圖3~5為根據(jù)不同OD時空特征的乘客分別采用直接匹配法、蒙特卡羅模擬方法、樸素貝葉斯法(機(jī)器學(xué)習(xí)法)進(jìn)行的預(yù)測分析。如圖3所示,乘客A在9:00左右于新街口站(站點(diǎn)編號為5)或在19:30左右于九龍湖站(站點(diǎn)編號為113)出行時只能匹配到唯一OD時空特征。對于這種情況,本文采用直接匹配法將該OD時空特征的目的地站點(diǎn)直接作為該乘客的出行預(yù)測目的地。對新街口站對應(yīng)唯一OD時空特征的67位進(jìn)站乘客目的地預(yù)測結(jié)果進(jìn)行統(tǒng)計,發(fā)現(xiàn)有64位乘客的目的地預(yù)測都是正確的,準(zhǔn)確率達(dá)到了96%。油坊橋站對應(yīng)的420 位乘客中,有405位乘客的目的地預(yù)測正確,預(yù)測準(zhǔn)確率達(dá)到了97%。
圖3 乘客A的OD時空特征Fig.3 OD spatiotemporal characteristics of passenger A
如圖4所示,乘客B在上午7:00左右于油坊橋站(站點(diǎn)編號為46)出行時可以匹配到2個OD時空特征,其中竹山路站編號為7。對于這種情況,本文采用蒙特卡羅模擬的方法對其進(jìn)行實(shí)驗(yàn),考慮到仿真的隨機(jī)性,本文進(jìn)行了多次重復(fù)實(shí)驗(yàn)。4次仿真預(yù)測乘客目的地的個數(shù)分別為3、2、4、3,預(yù)測的準(zhǔn)確率大概在50%左右。雖然該方法的準(zhǔn)確率較低,但是考慮到這部分乘客占總體客流的比例較低,因此對總體預(yù)測結(jié)果的影響可以忽略不計。
圖4 乘客B的OD時空特征Fig.4 OD spatiotemporal characteristics of passenger B
如圖5示,乘客C在絕大多數(shù)時間段內(nèi)于任何站點(diǎn)出行時,都無法匹配到OD時空特征,圖5中柳州東路站編號為93,南京南站編號為114。對于這種情況,本文采用基于樸素貝葉斯的方法對其進(jìn)行數(shù)據(jù)學(xué)習(xí),對新街口站無對應(yīng)OD規(guī)律的282位進(jìn)站乘客目的地預(yù)測結(jié)果進(jìn)行統(tǒng)計,結(jié)果顯示有221位乘客的目的地預(yù)測都是正確的,準(zhǔn)確率達(dá)到了79%。油坊橋站對應(yīng)的646位乘客中,有541位乘客的目的地預(yù)測正確,預(yù)測準(zhǔn)確率同樣達(dá)到了84%。
圖5 乘客C的OD時空特征Fig.5 OD spatiotemporal characteristics of passenger C
3種方法的詳細(xì)預(yù)測結(jié)果和預(yù)測準(zhǔn)確率如表3所示。根據(jù)統(tǒng)計結(jié)果,新街口站在9:00—9:15所有進(jìn)站乘客的目的地預(yù)測準(zhǔn)確率在81%左右,油坊橋站在該時段所有進(jìn)站乘客的預(yù)測準(zhǔn)確率可以達(dá)到88%??梢钥闯觯褂没贠D時空特征直接匹配的預(yù)測方法準(zhǔn)確度最高,可以達(dá)到96%以上。基于機(jī)器學(xué)習(xí)的樸素貝葉斯方法次之,可以達(dá)到80%左右。而基于蒙特卡羅模擬的預(yù)測方法準(zhǔn)確度最低,但考慮到該部分乘客所占比例較小,因此對總體預(yù)測結(jié)果并無太大影響。
表3 3種預(yù)測方法準(zhǔn)確率統(tǒng)計對比
圖6分別是新街口站和油坊橋站全天各時段的預(yù)測準(zhǔn)確率變化趨勢圖,可以看出,這兩個站點(diǎn)的預(yù)測準(zhǔn)確度在客流早高峰和晚高峰時段要相對高一些。而在平峰運(yùn)營時段(包括周末和節(jié)假日),由于隨機(jī)乘客占總進(jìn)站客流的比例相較早晚高峰時段要更高,因此預(yù)測準(zhǔn)確率也會有所下降,但下降幅度在可接受范圍之內(nèi)。針對平峰運(yùn)營時段以及周末和節(jié)假日預(yù)測準(zhǔn)確率有所下降的現(xiàn)象,本文通過增加樣本數(shù)量集進(jìn)行了重復(fù)實(shí)驗(yàn),結(jié)果顯示通過增加特定時間段的歷史刷卡數(shù)據(jù)樣本數(shù)量,可有效提高預(yù)測準(zhǔn)確度,但同時也會降低計算效率。
圖6 新街口站和油坊橋站全天預(yù)測準(zhǔn)確率趨勢圖Fig.6 The trend chart of all-day prediction accuracy of Xinjiekou and Youfangqiao station
本文通過對大量AFC歷史數(shù)據(jù)的挖掘與分析,從乘客個體角度,提出了一種基于OD時空特征提取的城市軌道交通乘客目的地預(yù)測方法,并以南京市軌道交通AFC刷卡數(shù)據(jù)進(jìn)行了實(shí)例分析,結(jié)果顯示早高峰時段的乘客OD實(shí)時預(yù)測準(zhǔn)確率可以達(dá)到80%以上,且全天預(yù)測精度較為穩(wěn)定,可為地鐵運(yùn)營組織進(jìn)行有效的客流管控和及時的行車調(diào)度提供參考。由于采用的歷史AFC數(shù)據(jù)時間跨度僅為一個月,且未考慮法定節(jié)假日、大型聚會等特殊情況,所提出的方法有待更豐富的數(shù)據(jù)去驗(yàn)證,針對特殊情況下的乘客出行目的地預(yù)測方法還需進(jìn)一步深入研究。