沈永發(fā),鄭 煜,劉輝冉,房志明,張 俊
(1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.中國科學(xué)技術(shù)大學(xué) 火災(zāi)科學(xué)國家重點實驗室,安徽 合肥 230026)
作為公共交通的一種,軌道交通因其準時、高效等特點備受歡迎,已成為我國大、中型城市最主要的出行方式。依據(jù)中國軌道交通協(xié)會發(fā)布的《城市軌道交通2021年度統(tǒng)計和分析報告》,截至2021年底,我國大陸地區(qū)共有50個城市開通城市軌道交通,總里程達到9 206.8 km,在建線路總長度達到6 988.3 km,其中上海市總線路里程達到936.2 km[1]。得益于現(xiàn)代信息技術(shù)的快速發(fā)展,利用自動售、檢票等設(shè)備可以實現(xiàn)出行相關(guān)數(shù)據(jù)的采集。我國大型城市如北京、上海、深圳等,人口密度高、城市功能區(qū)結(jié)構(gòu)復(fù)雜,每天會產(chǎn)生海量的、基于不同出行目的的交通數(shù)據(jù)。此外,為實現(xiàn)高城市交通覆蓋率、滿足不同區(qū)域不同人群的便捷出行,軌道交通的站點數(shù)量多、分布密度高,站點每天采集到的交通信息量也十分豐富。據(jù)統(tǒng)計,上海市1號線一天的交通數(shù)據(jù)量為150萬,單一站點如人民廣場站、莘莊站等的日均交通數(shù)據(jù)量為13萬。目前,對于收集到的軌道交通數(shù)據(jù)的處理大部分還停留在初步的統(tǒng)計分析階段,更深入的機理分析還有所欠缺,海量的軌道交通數(shù)據(jù)并未得到充分利用。筆者基于上海市軌道交通大數(shù)據(jù),結(jié)合交通出行行為理論,反演軌道交通站內(nèi)的交通流變化過程,構(gòu)建數(shù)據(jù)與模型雙重驅(qū)動的軌道交通站內(nèi)客流量預(yù)測方法。
現(xiàn)階段國內(nèi)外對客流變化的研究,根據(jù)研究的方法和出發(fā)點可以分為對單站點客流預(yù)測、對短時OD(origin-destination)客流預(yù)測和全局交通網(wǎng)絡(luò)的流量預(yù)測。
在單個站點客流預(yù)測方面,李明敏等[2]利用修正的ARIMA模型對以徐涇東站為例的展會客流特征的地鐵站點作為研究,并與常規(guī)算法進行對比研究。郭文等[3]利用粒子群優(yōu)化的支持向量機模型對蘇州汾湖路地鐵客流量進行預(yù)測。趙陽陽等[4]利用經(jīng)驗?zāi)B(tài)分解法將時間序列轉(zhuǎn)化為本征模函數(shù)及殘差,再結(jié)合長短時記憶神經(jīng)網(wǎng)路對站點的進(出)站進行預(yù)測。XIA等[5]以北京西直門站為例,利用LSTM NN和CNN模型對節(jié)假日和高峰期客流進行預(yù)測研究。張惠臻等[6]結(jié)合天氣因素和高峰期等因素,利用LSTM和GRU對不同站點進行短時客流預(yù)測。
在短時OD客流預(yù)測方面,現(xiàn)有研究多針對固定OD之間的客流變化。從預(yù)測對象來看,針對軌道交通,BHATTACHARJEE等[7]首次將卡爾曼濾波器應(yīng)用于動態(tài)OD預(yù)測中。LENG等[8]通過概率樹模型從歷史OD信息中學(xué)習(xí)獲得每種OD對出現(xiàn)的概率,根據(jù)實時的起點預(yù)測終點的位置,并累加計算出預(yù)測的OD客流。除了對軌道交通的OD研究,還有大量學(xué)者對公交、出租等OD流量進行研究。LI 等[9]結(jié)合非負矩陣分解(NMF)算法和自回歸(AR)模型,基于北京市出租車 GPS 數(shù)據(jù)來預(yù)測 OD 矩陣。LIU等[10]利用北京公交刷卡數(shù)據(jù),運用卡爾曼濾波預(yù)測公交客流量,并對公交線路的客流量進行分配,以實現(xiàn)對公交線路的OD預(yù)測。另外,手機的信令數(shù)據(jù)也可用于對OD預(yù)測,如孫卓等[11]基于手機信令大數(shù)據(jù),通過數(shù)據(jù)挖掘分析人群的家庭位置、短暫駐留地點和工作地點,以此預(yù)測居民不同時間段的出行OD矩陣。從預(yù)測方法來看,ZHAO等[12]利用小波分解的方法對全天的客流進行分解,以解決客流的混沌特征,根據(jù)分解結(jié)果對不同尺度下的序列進行預(yù)測。蔡昌俊等[13]剔除客流的周期性和趨勢特征,構(gòu)建ARIMA模型進行預(yù)測。CHAN等[14]等利用神經(jīng)網(wǎng)絡(luò)提出了一種適用于小樣本數(shù)據(jù)的城市軌道交通短時預(yù)測模型。
在全局交通網(wǎng)絡(luò)的流量預(yù)測方面,邱世崇等[15]分析交通流空間相關(guān)性,并結(jié)合時間相關(guān)性,利用最小二乘動態(tài)加權(quán)融合算法將利用時間序列數(shù)據(jù)預(yù)測結(jié)果和空間回歸估計預(yù)測結(jié)果進行融合,從而輸出最終結(jié)果。WANG等[16]提出新的數(shù)據(jù)表示結(jié)構(gòu)—超圖,用來模擬高階數(shù)據(jù)之間的關(guān)系,融入了站點間隔、運行時間和車輛數(shù)量等特點,代替現(xiàn)有流量預(yù)測算法中的數(shù)據(jù)建模方法。LV等[17]將路網(wǎng)中的空間、時間、語義關(guān)聯(lián)與各種全局特征聯(lián)合,建立了T-MGCN交通流預(yù)測深度學(xué)習(xí)框架,通過多圖卷積網(wǎng)絡(luò)對關(guān)聯(lián)性進行建模,再利用循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)交通流的動態(tài)模式,以捕獲時間相關(guān)性,最后利用全連接神經(jīng)網(wǎng)絡(luò)融合時空相關(guān)性和全局特征。
以往研究大多集中在對站點進出站客流的預(yù)測,忽略了乘客出行過程中其時空軌跡對中間站點的客流的影響,且這個影響是根據(jù)時間連續(xù)變化的。筆者利用反推演的思維方法,根據(jù)乘客進出站信息反推演出乘客時空軌跡和軌道交通網(wǎng)絡(luò)客流變化過程。從歷史AFC數(shù)據(jù)中挖掘出每個站點的分時段OD客流分布規(guī)律與OD出行時長規(guī)律,并結(jié)合實時AFC數(shù)據(jù)估計當前OD客流分布,對未來每個站點的客流變化進行預(yù)測,建立站內(nèi)客流實時預(yù)測模型,并與實際數(shù)據(jù)進行對比,以證實模型的科學(xué)性和準確性,為后續(xù)的地鐵應(yīng)急管理和疏散提供參考。
結(jié)合軌道交通網(wǎng)格圖分析軌道交通的站內(nèi)客流主要由以下4部分組成:i站點進站客流oi,i站點出站客流Di,i站點未上車客流pi,由i站點的周圍站點流往i站點的客流ui。因此i站點的站內(nèi)總客流Wi可表示為:
Wi=oi-Di+pi+ui
(1)
但是根據(jù)AFC刷卡數(shù)據(jù),可以捕獲到的乘客信息有限,主要包含以下幾個信息:乘客id號、進出站站點、進出站時間、花費金額等,如表1所示。
表1 AFC數(shù)據(jù)樣例
通過原始AFC數(shù)據(jù)可以得到進站客流oi和出站客流Di,但出站客流Di在時間維度存在一定的滯后性,乘客刷卡進入閘機后,只能獲取乘客進站站點和進站時間,無法立刻獲取乘客出站站點和出站時間,這些信息只有當乘客出站后才能獲取,這就為實時監(jiān)測站內(nèi)客流增加了一定的困難,故為了實現(xiàn)對站內(nèi)客流實時監(jiān)測需要對每個站點的客流OD分布進行預(yù)測。筆者通過對歷史AFC數(shù)據(jù)的分析和提取,利用數(shù)據(jù)挖掘的方法提取歷史AFC數(shù)據(jù)中的規(guī)律和特征,結(jié)合軌道交通實時進站數(shù)據(jù)對去向進行預(yù)測,可得乘客出站站點。
乘客特征存在著較多不確定性,并且乘客眾多特征具有離散性,但軌道交通站點數(shù)量固定,特征可挖掘性高,與單一乘客的出行數(shù)據(jù)相比站點的數(shù)據(jù)較豐富,而且當城市軌道交通網(wǎng)絡(luò)足夠完善時,乘客的乘車趨勢在時間和空間維度上具有規(guī)律性和一致性。但車站早晚的客流去向具有較大差別,基于歷史數(shù)據(jù)分時段對不同站點OD客流分布進行挖掘統(tǒng)計,將一個時段視為一個時間粒度t,ta為第a個時間粒度,挖掘每個站點在每個時間粒度t內(nèi)客流選擇終點站的比例。
定義進站量為O(ta),表示時間段ta內(nèi)各個車站的進站客流。
O(ta)=[o1(ta),o2(ta),…,on(ta)]
(2)
式中:oi(ta)表示車站i在時間段ta內(nèi)的進站客流。
定義OD矩陣為E(ta),表示時間段ta內(nèi)各個車站的進站后分別去往不同車站的客流。
(3)
式中:eij(ta)表示在時間段ta內(nèi)從車站i選擇到達車站j的客流。
定義客流去向趨勢矩陣為A(ta),表示在時間段ta內(nèi)各個車站進站乘客去往不同站點的比例。
(4)
根據(jù)上述方法,結(jié)合歷史數(shù)據(jù)可以得到分時段客流趨勢,某站點某時段OD客流分布如圖1所示。從圖1可以看出,每個站點的OD客流分布服從冪律分布規(guī)律,體現(xiàn)重尾效應(yīng),即大部分的客流集中在主要的幾個站點,少部分客流分布在其他站點,且這少部分客流的終點站選擇具有一定的隨機性。同時,相同站點雖然不同日期之間的客流去向趨勢具有一定的差別性,但主要站點具有一致性,故定義重要站點數(shù)量為m,其他為非重要站點,車站i客流趨勢矩陣ci(ta)可簡化為式(5)的形式,其中importantm表示車站i的第m個重點去向車站,others為非重點去向車站。在模擬時,對去往非重點車站的客流采用隨機的方式,對去往重點站的客流根據(jù)歷史數(shù)據(jù)中的比例進行預(yù)測。
圖1 某站點某時段去向趨勢圖
ci(ta)=(important1,important2,…,importantm,others)
(5)
乘客出行時間具有較大不確定性,筆者從歷史數(shù)據(jù)中挖掘不同起點和終點之間出行所需要的時間。
定義時間矩陣T,記錄不同起點和終點所需花費的時間。
(6)
式中:θij表示從起點i到終點j所需要的平均時間。
對歷史AFC數(shù)據(jù)進行預(yù)處理,剔除旅行時間明顯過長和過短的數(shù)據(jù),對乘客的歷史出行取時間算術(shù)平均,可得到出行時間矩陣。
軌道交通網(wǎng)絡(luò)錯綜復(fù)雜,存在較多站內(nèi)換乘情況,所以無法確定式(1)中未上車客流pi和周圍站點流向客流ui。但軌道交通與其他交通不同,具有交通網(wǎng)絡(luò)固定、列車運行速度與時間穩(wěn)定的特點,乘客的出行線路和到達時間具有較強規(guī)律性,故乘客出站站點決定了可能經(jīng)過的中間站點。根據(jù)小節(jié)1.1和1.2的內(nèi)容,可得乘客終點站選擇,再結(jié)合反推演的思維得到站內(nèi)客流的變化?;趯崟rAFC數(shù)據(jù)的站內(nèi)客流預(yù)測流程圖如圖2所示。
圖2 站內(nèi)客流反推演過程設(shè)計
(1)基于時間最短出行路線原則,根據(jù)起訖點預(yù)測乘客出行線路。根據(jù)實時AFC數(shù)據(jù),依照乘客id、進站站點和時間,通過式(5)推算乘客出站站點。進站站點與出站站點之間可能存在多條乘車線路,乘客出行時多選擇時間成本最小的路線,所以以出行時間最短的原則計算乘客乘車路線。具體操作如下:①建立時間成本為權(quán)值的有權(quán)圖代表地鐵網(wǎng)絡(luò);②考慮地鐵換乘時間成本,為換乘站點(同一站點不同線路之間)設(shè)定時間成本權(quán)值;③結(jié)合最短路徑FLOYD[18]算法,得出進站站點與出站站點之間固定線路。
(2)基于乘客出行時間和出行路徑預(yù)測乘客出行的時空軌跡。為了量化乘客出行的時空軌跡,給出以下假設(shè):①乘客按時間成本最小的路徑出行,且全天進出站時間成本一樣,記為Δt;②軌道交通網(wǎng)絡(luò)上所有列車勻速運行;③乘客無等車時間;④列車的負載量無上限;⑤將所有乘客統(tǒng)計分析到各個站點,即使乘客在列車上,也就近原則統(tǒng)計到各個站點。
基于以上假設(shè),將乘客出行時間減去乘客進出站所花費時間Δt,再平均到每個站點(換乘也視為一個站點)得到乘客的出行時空軌跡,即時間段-站點位置。如表2所示,乘客在時間in由Lin進入,經(jīng)過LB+at、LB+(a+1)t等站點,最終在Lout出站。其中B表示軌道交通運行起始時間,in表示乘客進入軌道交通網(wǎng)絡(luò)時間,LB+at表示乘客第B+at時間點所在站點,Lin表示進站站點,Lout表示出站站點。
表2 乘客出行時間軌跡
(3)統(tǒng)計預(yù)測站點內(nèi)人數(shù)變化。①為每個站點設(shè)定一個一維數(shù)組記錄動態(tài)的人數(shù),數(shù)組下標為時刻值,數(shù)組內(nèi)容為每個時刻該站點的人數(shù);②根據(jù)步驟(2)得到的時間段-站點位置結(jié)果,找到相應(yīng)站點的一維數(shù)組,并將相應(yīng)時間段對應(yīng)的下標范圍的數(shù)值加1;③分析統(tǒng)計每個乘客即可得到每個站點內(nèi)動態(tài)人數(shù)變化情況。
結(jié)合基于歷史數(shù)據(jù)的分時段OD、乘客出行時間矩陣及站內(nèi)客流預(yù)測模型,對軌道交通網(wǎng)絡(luò)各站點的站內(nèi)客流進行實時預(yù)測,分析站內(nèi)客流動態(tài)變化,模型算法步驟具體如下:
(1)生成動態(tài)空數(shù)組N,表示每個時間點地鐵網(wǎng)絡(luò)每個站點客流,B表示起始時間,Wi(B+at)表示車站i在B+at時間點站內(nèi)客流,初始值都為0。
(7)
(2)由實時AFC進站數(shù)據(jù),計算時間粒度t內(nèi)車站i累計進站客流,得到進站客流oi(B+at),更新車站i站內(nèi)人數(shù),判斷時間是否到預(yù)設(shè)終點時間,若到則結(jié)束循環(huán)。
(3)根據(jù)t時間粒度內(nèi)去向比例矩陣A(t)獲得車站i的去向趨勢矩陣ai(t),根據(jù)去向比例取出前m個重點站比例,計算出ta時間粒度內(nèi)到達站點j的客流Dj(ta),剩余客流隨機選擇出站站點。
(4)更新乘客數(shù)據(jù)。根據(jù)步驟(3)得到出站站點,再根據(jù)時間矩陣,得到出站時間,補全乘客進站與出站數(shù)據(jù),生成ODdata。
(5)根據(jù)ODdata中的進站與出站數(shù)據(jù),在路徑表中獲取路徑,得到完整的路徑序列。
(6)根據(jù)進出站時間,得到全程時間,根據(jù)步驟(5)中的路徑,將時間平均到路徑序列中站點,得到乘客在每個站點的持續(xù)時間,并在數(shù)組N內(nèi)根據(jù)站點與持續(xù)時間找到對應(yīng)位置加1。
(7)判斷ODdata是否取完,若取完,則輸出N,并轉(zhuǎn)到步驟(2),若未取完轉(zhuǎn)到步驟(5)繼續(xù)。
Wi(ta)=Wi(ta-1)+Di(ta)-oi(ta)
(8)
(9)
(10)
由于站內(nèi)客流無法精準統(tǒng)計,將實際AFC數(shù)據(jù)中記錄的OD數(shù)據(jù)替換ODdata,代入模型計算后,作為實際客流結(jié)果,并將所提模型的預(yù)測結(jié)果與其對比,進行模型驗證。將2015年4月份13個工作日數(shù)據(jù)作為歷史數(shù)據(jù),分析提取分時段OD與乘客出行時間矩陣;重點站個數(shù)取30,即m為30;時間粒度為15 min,即t為15。對上海市2015年4月某日軌道交通網(wǎng)絡(luò)客流進行預(yù)測,并用實際客流對比驗證,選取部分站點展示,如圖3所示。從圖3可以看出,大客流站點(換乘站)真實值曲線與預(yù)測值曲線具有較好的擬合度,在客流數(shù)值維度與實際值相符合,并且在時間維度上的早晚高峰也分別對應(yīng),對小客流站點部分客流峰值具有一致性,但在客流數(shù)值維度具有一定的偏差。
圖3 上海市某日軌道交通網(wǎng)絡(luò)客流預(yù)測結(jié)果
為了衡量預(yù)測模型的效果,選用MAPE作為評價指標,并引用2012年倫敦舉辦的保障乘客疏散研討會中提及的驗證指標ERD(euclidean relative difference)和EPC(euclidean projection coefficient)[19],具體公式如下:
(11)
(12)
(13)
式中:Xi為預(yù)測值;xi為實際值;n為預(yù)測總數(shù);MAPE表示預(yù)測值與真實值的絕對百分比誤差;ERD和EPC表示預(yù)測曲線和真實曲線的擬合度。MAPE與MRD值越接近0,EPC越接近1時,模型越符合實際情況。
基于模型預(yù)測結(jié)果,分早高峰(7:00-11:00)、晚高峰(16:00-20:00)和全天3個階段進行誤差分析,具體結(jié)果如表4所示。由于MAPE指標在數(shù)據(jù)較小時失真,全天只選用ERD和EPC作為評價指標。從表4可以看出,對于大型站點(換乘站點),如南京東路站、人民廣場站,預(yù)測誤差較小,有良好的預(yù)測效果;對于小型站點,如復(fù)興島站,預(yù)測誤差較大,預(yù)測效果一般。因此,基于歷史AFC數(shù)據(jù)進行軌道交通站點客流數(shù)據(jù)進行預(yù)測,對于大型關(guān)鍵站點具有良好的預(yù)測效果。
表4 典型站點預(yù)測誤差
(1)結(jié)合軌道交通網(wǎng)絡(luò)特點,利用歷史數(shù)據(jù)得到具有日期屬性的乘客分時段出行規(guī)律,結(jié)合分時段出行規(guī)律對進站客流OD分布進行估計,再基于出行時間成本最小原則,求出不同起訖點乘客出行路徑,運用反推演思維得到乘客出行時空軌跡,從而構(gòu)建形成軌道交通站內(nèi)客流實時預(yù)測模型,得到軌道交通網(wǎng)絡(luò)中每個站點站內(nèi)客流變化。
(2)基于上海市軌道交通歷史客流數(shù)據(jù),模擬軌道交通實時進站過程,結(jié)合站內(nèi)客流實時預(yù)測模型,對全軌道交通網(wǎng)絡(luò)站點站內(nèi)客流預(yù)測問題進行驗證和對比,結(jié)果表明考慮不同站點分時段客流OD分布規(guī)律和乘客出行軌跡的預(yù)測模型,其對大型站點(換乘站點)的預(yù)測誤差較小,對數(shù)據(jù)量較少、客流變化隨機性較大的小型站點,預(yù)測誤差較大。
(3)筆者未考慮列車的負載量和列車的發(fā)車運營情況,后續(xù)研究可加入列車的實時運行狀態(tài),來提高站內(nèi)客流預(yù)測的準確性。