鄧 偉 袁 軼 蔣善龍
(重慶交通開(kāi)投集團(tuán)科技發(fā)展有限公司,重慶 400700)
學(xué)海泛舟
基于IC卡歷史數(shù)據(jù)的公交客流統(tǒng)計(jì)方法
鄧 偉 袁 軼 蔣善龍
(重慶交通開(kāi)投集團(tuán)科技發(fā)展有限公司,重慶 400700)
隨著公交IC卡的普遍使用,基于公交IC卡數(shù)據(jù)的公交客流統(tǒng)計(jì)方法逐步成為主流的統(tǒng)計(jì)方法。因國(guó)內(nèi)絕大部分城市均采用上車(chē)刷卡的方式,所以需根據(jù)用戶出行規(guī)律進(jìn)行下車(chē)站點(diǎn)的推測(cè)。為降低運(yùn)算復(fù)雜程度,現(xiàn)有的IC卡分析算法多采用基于后續(xù)公交站點(diǎn)吸引權(quán)的概率算法,這種算法既不能判斷單個(gè)乘客的下車(chē)站點(diǎn),對(duì)于總體客流又存在數(shù)據(jù)準(zhǔn)確性問(wèn)題。為此,本文對(duì)于能夠形成出行閉環(huán)的單日多次出行采用傳統(tǒng)方法推測(cè)其下車(chē)地點(diǎn);對(duì)于未形成閉環(huán)的單日出行,則分析相關(guān)單個(gè)乘客歷史類(lèi)似天日的IC卡刷卡數(shù)據(jù),統(tǒng)計(jì)出其最可能的下車(chē)站點(diǎn),進(jìn)而得出總體客流。采用本算法對(duì)重慶市某段時(shí)間的所有IC卡數(shù)據(jù)進(jìn)行處理和統(tǒng)計(jì)后,經(jīng)人工計(jì)數(shù)的數(shù)據(jù)對(duì)比表明:相較于傳統(tǒng)的出行閉環(huán)算法和站點(diǎn)吸引權(quán)算法,本算法對(duì)于公交客流的統(tǒng)計(jì)更加準(zhǔn)確。
交通工程;公交客流統(tǒng)計(jì);出行預(yù)測(cè);IC卡數(shù)據(jù)
隨著公交IC卡的普遍使用,因其數(shù)據(jù)信息量全面、便于計(jì)算機(jī)統(tǒng)計(jì)分析等特點(diǎn),在很多公交應(yīng)用場(chǎng)合逐步替代費(fèi)時(shí)的人工方法以及昂貴的專(zhuān)用設(shè)備統(tǒng)計(jì)方法,成為主流的客流統(tǒng)計(jì)方法。而在中國(guó)多數(shù)城市乘客只在上車(chē)時(shí)刷卡,導(dǎo)致無(wú)法獲得完整的公共交通客流數(shù)據(jù),從而無(wú)法根據(jù)這些基礎(chǔ)數(shù)據(jù)進(jìn)行諸如運(yùn)營(yíng)調(diào)度、線網(wǎng)規(guī)劃等相關(guān)公交決策。為此,學(xué)者們就如何分析IC卡數(shù)據(jù)以獲得下車(chē)站點(diǎn)開(kāi)展了大量研究,主要采用以下兩種方法:
第一種是基于IC卡的刷卡率以及一般通勤出行會(huì)形成“閉環(huán)”的特點(diǎn)(即上班時(shí)的下車(chē)地點(diǎn)往往在其下班時(shí)的上車(chē)地點(diǎn)附近,反之亦然),來(lái)推算其下車(chē)地點(diǎn)。主要研究包括:戴霄等[1,2]提出了基于單條線路的IC卡數(shù)據(jù)分析方法及基于公交IC卡的公交數(shù)據(jù)分析方法;師富民[3]以IC卡數(shù)據(jù)為基礎(chǔ),通過(guò)分析居民公交出行特征,建立了兩站點(diǎn)模式對(duì)下車(chē)站點(diǎn)進(jìn)行推算,構(gòu)造居民公交出行OD矩陣。
第二種是基于不同下車(chē)站點(diǎn)對(duì)于客流的吸引權(quán)值不同來(lái)得出客流的大致走向。主要研究包括:戴霄等[4,5]采用基于站點(diǎn)吸引權(quán)的方法對(duì)公交下車(chē)站點(diǎn)進(jìn)行判斷,Cui[6]基于公交ADC數(shù)據(jù)實(shí)現(xiàn)了OD的推導(dǎo);章威等[7]以居民IC卡刷卡記錄信息和車(chē)輛GPS定位數(shù)據(jù)為基礎(chǔ)對(duì)公交OD進(jìn)行推算。
第一種方法的準(zhǔn)確率比較高,但由于算法比較耗時(shí),過(guò)去在并行計(jì)算等大數(shù)據(jù)分析方式尚未出現(xiàn)時(shí)很少采用。第二種方法存在算法準(zhǔn)確率較差的缺點(diǎn)(不同天日、不同時(shí)段、不同方向、不同用地屬性站點(diǎn)的吸引權(quán)值應(yīng)該不同。比如附近土地使用性質(zhì)為寫(xiě)字樓或辦公區(qū)域的站點(diǎn)在不同高峰時(shí)段上下行的人流不同:早高峰下站人數(shù)多,而晚高峰上站人多),但因其計(jì)算簡(jiǎn)單且速度較快,得到較為廣泛的應(yīng)用。
對(duì)于公交規(guī)劃和運(yùn)營(yíng)而言,客流數(shù)據(jù)準(zhǔn)確率非常重要:比如根據(jù)不同時(shí)段各站點(diǎn)的準(zhǔn)確客流情況可采用多種策略(區(qū)間車(chē)、屯車(chē)、大小車(chē)等)精準(zhǔn)投放運(yùn)力,從而在滿足乘客出行需要的情況下,盡可能地節(jié)約人力和物力。隨著計(jì)算機(jī)處理能力的提高以及并行計(jì)算、大數(shù)據(jù)分析等先進(jìn)計(jì)算模式的應(yīng)用,方法1計(jì)算量大的問(wèn)題可得以克服。對(duì)此我們將另文闡述。
根據(jù)對(duì)重慶市所有IC卡刷卡數(shù)據(jù)的統(tǒng)計(jì),對(duì)于正常的通勤天日,重慶市的刷卡率約為80%(高峰期刷卡率約95%),日刷卡人次超過(guò)500萬(wàn)次,其中能形成閉環(huán)的出行次數(shù)約為70%,單次出行約為8%,其它未形成閉環(huán)的多次出行約為20%,存在錯(cuò)誤以及替人刷卡等情況的刷卡數(shù)據(jù)約為5%。鑒于方法1不能處理的情況(未形成閉環(huán)的出行:?jiǎn)未纬鲂泻推渌葱纬砷]環(huán)的多次出行)占比較大:約30%,為此本文給出相應(yīng)的優(yōu)化算法,對(duì)這部分出行數(shù)據(jù)給出下車(chē)站點(diǎn)的推斷,經(jīng)線路實(shí)測(cè),本算法大大優(yōu)于傳統(tǒng)的閉環(huán)出行算法。
本文算法思想如下:
(1)IC卡數(shù)據(jù)根據(jù)以下天日屬性分類(lèi):異常天氣情況(酷熱、酷寒、暴雨等)、星期情況(工作日、周末)、節(jié)假日情況(國(guó)家法定)、冬夏時(shí)制、學(xué)生寒暑假、特殊天日(如重大事件、學(xué)生開(kāi)學(xué)或放假日等)。取臨近天日數(shù)據(jù)時(shí),需滿足日期屬性相同。
(2)選擇一條線路,對(duì)于當(dāng)日IC卡出行數(shù)據(jù)能形成閉環(huán)的刷卡數(shù)據(jù),將根據(jù)方法1推算每個(gè)乘客的下車(chē)站點(diǎn),進(jìn)而得出線路當(dāng)日各時(shí)段(如一天分為8個(gè)時(shí)段)的OD數(shù)據(jù)。期間需考慮乘客上下班可能不會(huì)乘坐同一線路的車(chē),但回程線路需在出發(fā)站點(diǎn)的一定范圍之內(nèi)(如下午回程的下車(chē)站點(diǎn)應(yīng)在上午出發(fā)站點(diǎn)的2公里范圍內(nèi))。
(3)得出每個(gè)時(shí)段的下車(chē)站點(diǎn)吸引權(quán):根據(jù)(2)中得出的線路OD數(shù)據(jù),得出各時(shí)段線路每個(gè)站點(diǎn)上車(chē)乘客在其后續(xù)下車(chē)各站點(diǎn)的下車(chē)概率。
(4)根據(jù)歷史數(shù)據(jù)推斷下車(chē)站點(diǎn):對(duì)于未形成閉環(huán)的出行,按如下方式處理:
1)單次出行:查找相鄰多天同屬性天日的出行數(shù)據(jù)(如之前的15天),對(duì)起點(diǎn)站相同或在一定范圍內(nèi)、出行方向一致且當(dāng)天形成閉環(huán)或有后續(xù)換乘的線路(即能推算出下行站點(diǎn)的類(lèi)似出行歷史數(shù)據(jù)),得出其可能的下車(chē)站點(diǎn):比如對(duì)于乘客X而言,15天內(nèi)有10天的歷史數(shù)據(jù)能推算出下車(chē)站點(diǎn),其中A站點(diǎn)下車(chē)有8次,B站點(diǎn)下車(chē)2次;那么乘客X的下車(chē)概率為:A站點(diǎn)0.8,B站點(diǎn)0.2。
2)多次出行:對(duì)于多次出行的數(shù)據(jù),需按照換乘判斷條件來(lái)分辨其是否為連續(xù)出行,對(duì)于最后一次非換乘出行,類(lèi)似以上步驟,找出其歷史數(shù)據(jù)中類(lèi)似出行的下車(chē)站點(diǎn),統(tǒng)計(jì)后得出其下車(chē)站點(diǎn)及概率。
3)無(wú)歷史出行數(shù)據(jù)的處理:對(duì)于無(wú)類(lèi)似歷史記錄的出行情況,按照(3)中提到的改進(jìn)吸引權(quán)算法和IC卡上車(chē)時(shí)間段確定其下車(chē)站點(diǎn)及概率。
(5)在步驟(2)中獲得的線路各站點(diǎn)下車(chē)人數(shù)的基礎(chǔ)上,加上步驟(4)中三種未閉環(huán)出行情況獲得下車(chē)人次概率,最后取整獲得整個(gè)線路在此時(shí)段的出行OD。
3.1 預(yù)處理
(1)IC卡刷卡數(shù)據(jù)處理。IC卡中需關(guān)注以下重點(diǎn)字段:卡號(hào)、公交線路編碼、車(chē)輛編碼、刷卡交易時(shí)間。按天日分類(lèi)并存儲(chǔ)刷卡記錄,根據(jù)IC卡卡號(hào)段或線路段等條件切分?jǐn)?shù)據(jù)并將其分發(fā)到各計(jì)算處理節(jié)點(diǎn)上。
(2)線路及車(chē)輛有效數(shù)據(jù)提取。根據(jù)站點(diǎn)GPS位置、公交線路基礎(chǔ)信息等獲得如下表格:
車(chē)輛停留站點(diǎn)時(shí)刻表:日期、車(chē)輛編碼、上下行標(biāo)志、站點(diǎn)序號(hào)、站點(diǎn)名、進(jìn)站時(shí)間、出站時(shí)間、站點(diǎn)緯度、站點(diǎn)經(jīng)度。
3.2 按線路推算下車(chē)站點(diǎn)算法
說(shuō)明:本算法首先根據(jù)上車(chē)刷卡時(shí)間獲得上車(chē)站點(diǎn),然后根據(jù)IC卡換乘記錄或閉環(huán)出行特點(diǎn),獲得下車(chē)站點(diǎn);對(duì)于未閉環(huán)出行,將根據(jù)歷史數(shù)據(jù)或站點(diǎn)吸引權(quán)獲得其下車(chē)站點(diǎn)。
3.2.1 輸入數(shù)據(jù)
(1)根據(jù)線路號(hào),獲取該線路所有車(chē)輛全天的IC卡刷卡記錄,并根據(jù)這些IC卡號(hào),獲得其當(dāng)日乘坐其他線路的刷卡記錄,包括所有換乘記錄。
(2)根據(jù)IC卡記錄,提取關(guān)聯(lián)的所有線路、車(chē)輛信息。
(3)從GPS信息中獲取所有車(chē)輛當(dāng)日的進(jìn)出站時(shí)刻表。
(4)根據(jù)進(jìn)出站記錄中的站點(diǎn)編號(hào),從線路基礎(chǔ)信息數(shù)據(jù)庫(kù)獲取其對(duì)應(yīng)的站點(diǎn)資料,包括名稱(chēng)、上下行方向、經(jīng)緯度坐標(biāo)等。
3.2.2 獲得所有IC卡出行記錄的上下車(chē)站點(diǎn)
獲得該車(chē)的所有IC卡刷卡數(shù)據(jù),對(duì)每個(gè)乘客的刷卡數(shù)據(jù)按時(shí)間排序,然后對(duì)每一個(gè)乘客的數(shù)據(jù)執(zhí)行:
(1)獲得公交車(chē)上車(chē)站點(diǎn)。過(guò)去算法對(duì)上車(chē)站點(diǎn)的獲得是通過(guò)刷卡時(shí)GPS位置與站點(diǎn)經(jīng)緯度比較或時(shí)間聚類(lèi)方式取得,存在一定誤差?,F(xiàn)在車(chē)載智能終端能夠?qū)崿F(xiàn)實(shí)時(shí)報(bào)站功能,且將進(jìn)出站信息上報(bào)到后臺(tái)服務(wù)器,因此根據(jù)乘客所乘車(chē)輛、刷卡時(shí)間、對(duì)應(yīng)車(chē)輛的進(jìn)出站歷史記錄,可得到乘客的上車(chē)站點(diǎn)。
(2)獲得公交車(chē)下車(chē)地點(diǎn)。判斷此乘客該天的刷卡次數(shù):
1)刷卡一次,查找相鄰多天同屬性天日的出行數(shù)據(jù)(如之前的15天),對(duì)起點(diǎn)站相同或在一定范圍內(nèi)、出行方向一致且當(dāng)天形成閉環(huán)或有后續(xù)換乘的線路(即能推算出下行站點(diǎn)的類(lèi)似出行歷史數(shù)據(jù)),得出其可能的下車(chē)站點(diǎn);在沒(méi)有相鄰歷史出行數(shù)據(jù)時(shí),則采用吸引權(quán)算法AttractionWeightStation推測(cè)下車(chē)人次概率。
2)刷卡多次,按時(shí)間先后順序,對(duì)每次刷卡記錄(前次),與后續(xù)相鄰的一次刷卡記錄(后次),做如下判斷:
對(duì)于非最后一次出行,調(diào)用GetNearestBusStation,離符合條件的站點(diǎn),如果存在,則將首次乘車(chē)地點(diǎn)作為最后一次出行的下車(chē)站點(diǎn);該乘客為閉環(huán)出行;如果無(wú)法通過(guò)換乘、閉環(huán)出行判斷下車(chē)站點(diǎn),則通過(guò)歷史出行數(shù)據(jù)推斷下車(chē)站點(diǎn),如果不存在歷史數(shù)據(jù),則采用吸引權(quán)算法AttractionWeightStation推測(cè)下車(chē)站點(diǎn)。
函數(shù):GetNearestBusStation(公交線路編碼,公交站編碼,換乘公交站編碼)
注:獲得公交線路上從指定站點(diǎn)上車(chē),到其他線路換乘站點(diǎn)的可能下車(chē)站點(diǎn)。
根據(jù)公交線路編碼,查詢?cè)摼€路所有上行及下行站點(diǎn)名及其GPS坐標(biāo);獲得與指定上車(chē)站點(diǎn)在同一方向的后續(xù)其他站點(diǎn);比較這些站點(diǎn)與換乘站點(diǎn)的GPS坐標(biāo)距離,獲得直線距離最短的站點(diǎn)名;如果最短距離小于給定的閾值(如1km),則此站點(diǎn)為下車(chē)站點(diǎn),否則不存在換乘關(guān)系。
函數(shù):AccurateAttractionWeight (公交線路編碼,站點(diǎn)編碼,上下行方向,時(shí)段)
注:獲得某站點(diǎn)上車(chē),其后續(xù)站點(diǎn)的下車(chē)概率。
獲得同線路、同方向已分析出上、下車(chē)站點(diǎn)的出行記錄;根據(jù)上車(chē)站點(diǎn)及上下行方向,統(tǒng)計(jì)此上車(chē)站點(diǎn)乘客在后續(xù)站點(diǎn)的下車(chē)人數(shù);每個(gè)后續(xù)站點(diǎn)下車(chē)人數(shù)除以上車(chē)站點(diǎn)的總?cè)藬?shù)即為此下車(chē)站點(diǎn)的下車(chē)概率(也稱(chēng)為吸引權(quán))。
返回:輸入站點(diǎn)的各后續(xù)站點(diǎn)下站的概率數(shù)組。
3.2.3 輸出
將全天劃分為多個(gè)時(shí)段,獲得各時(shí)段中每個(gè)乘客、每條線路及整個(gè)城市的出行OD。
圖1 465線龍湖西苑站上行各時(shí)段客流圖
圖2 465線龍湖西苑站下行各時(shí)段客流圖
圖3 465線各站點(diǎn)客流分布圖
圖4 465線各站點(diǎn)早高峰客流分布圖
圖5 465線全天各站點(diǎn)客流分布圖
重慶每天的IC卡刷卡數(shù)據(jù)約有六百至七百萬(wàn)條。我們將每天的IC卡數(shù)據(jù)按照IC卡號(hào)橫向分割處理后,分別用大數(shù)據(jù)平臺(tái)的計(jì)算節(jié)點(diǎn)進(jìn)行并行處理,對(duì)多條公交線路的客流進(jìn)行了人工實(shí)測(cè)以判斷及改進(jìn)算法的準(zhǔn)確率?,F(xiàn)以其中一條線路465為例,計(jì)算結(jié)果如圖1-圖5。
2016年11月10日,共22161名乘客乘坐465線路車(chē)輛,因乘客經(jīng)465線路換乘或返回時(shí)不一定乘坐此線路車(chē)輛等原因,所以該線路乘客的OD推算將涉及的相關(guān)線路數(shù)約為487條(重慶市內(nèi)共650余條公交線路),共82875條刷卡記錄;采用CPU為4核和內(nèi)存為8G的計(jì)算節(jié)點(diǎn)用時(shí)8分鐘,獲得該線路相關(guān)的所有下車(chē)站點(diǎn);用時(shí)2分鐘,獲得該線路在某日高峰期的所有站點(diǎn)上下行方向的后續(xù)站點(diǎn)吸引權(quán)值。
對(duì)于OD推算算法和效果驗(yàn)證如下:
通過(guò)人工實(shí)際現(xiàn)場(chǎng)調(diào)查,465線路龍湖西苑站點(diǎn)早高峰(7:00-9:00)的上下車(chē)人數(shù)實(shí)測(cè)為:上行上車(chē)347人、下車(chē)104人,下行上車(chē)53人、下車(chē)208人;通過(guò)未優(yōu)化的IC客流算法推算為:上行上車(chē)327人、下車(chē)78人,下行上車(chē)55人、下車(chē)156人;通過(guò)基于歷史客流的IC卡客流算法推算的人數(shù)為:上行下車(chē)91人,下行下車(chē)176人??傻贸鰞蓚€(gè)算法的準(zhǔn)確率分別為75%和85%,新算法效果明顯。
通過(guò)對(duì)以上站點(diǎn)時(shí)間客流圖分析,可得出如下結(jié)論:不同站點(diǎn)在不同時(shí)間段的站點(diǎn)吸引權(quán)不一致且差異較大(如位于CBD的解放碑站早高峰下車(chē)人數(shù)多,其上下車(chē)人數(shù)分別為121人、227人;而晚高峰此站上車(chē)人數(shù)多,上下車(chē)人數(shù)分別為343人、85人),所以現(xiàn)有基于概率的站點(diǎn)吸引權(quán)算法準(zhǔn)確率存在問(wèn)題,而本文基于歷史類(lèi)似天日的OD出行數(shù)據(jù)形成的動(dòng)態(tài)站點(diǎn)吸引權(quán)算法的準(zhǔn)確率與以上客流數(shù)據(jù)相符。
[ 1 ] 戴霄, 陳學(xué)武. 單條公交線路的IC卡數(shù)據(jù)分析處理方法[J].城市交通,2005,3(4):73-76.
[ 2 ] 戴霄, 陳學(xué)武, 李文勇. 公交IC卡信息處理的數(shù)據(jù)挖掘技術(shù)研究[J].交通與計(jì)算機(jī),2006,24(1):40-42.
[ 3 ] 師富民.基于IC卡數(shù)據(jù)的公交OD矩陣構(gòu)造方法研究[D].長(zhǎng)春:吉林大學(xué), 2004.
[ 4 ] 戴霄. 基于公交IC信息的公交數(shù)據(jù)分析方法研究[D].南京:東南大學(xué),2006.
[ 5 ] 徐文遠(yuǎn), 鄧春瑤,劉寶義. 基于公交IC卡數(shù)據(jù)的公交客流統(tǒng)計(jì)方法[J].中國(guó)公路學(xué)報(bào), 2013, 26(5):158-163.
[ 6 ] Cui A. Bus Passenger Origin-Destination Matrix Estimation Using Automated Data Collection Systems[M]. Cambridge: Massachusetts Institute of Technology, 2006.
[ 7 ] 章威, 徐建閩. 基于GPS與IC卡的公交OD量采集方法[J]. 交通與計(jì)算機(jī),2006,24(2):21-23.
Approach on Public Traffic Passenger Flow Statistics Based on Historical IC Data
(Chongqing City Transportation Development & Investment Group, chongqing 400700)
DengWei Yuan Yi Jiang Shanlong
With popularity of public traffic IC cards, passenger flow statistics tends to be based on analysis of IC card data. Most Chinese cities only let passengers swipe cards while they get on buses, so we need estimate their get-off bus stations according to their trip rules. To cut down computational complexity, most of current IC card analysis algorithms are probabilistic algorithms, which fail to deduce each passenger’s get-off bus station in addition to their relatively low data accuracy. Thus, for passengers with trip-closed loop, we apply traditional passenger trip rule to obtain their get-off bus stations; otherwise, we analyze their historical trip data in similar days so as to predict the most probable get-off bus stations. By above method, we can get the total passenger flow of a city. Verified by monthly IC card data of Chongqing, the algorithm can get more accurate passenger flow compared with independent traditional trip-closed loop one and probabilistic ones.
traffic engineering; public traffic passenger flow statistics; traffic prediction; IC data
U491
A