姚遠 陳瑜 雷怡
【摘 要】本文提出了一種利用手機大數(shù)據(jù)進行換乘客流挖掘的方法。本方法考慮了地鐵網(wǎng)絡(luò)的拓撲結(jié)構(gòu),結(jié)合圖論相關(guān)原理,闡釋了地鐵出行路徑的識別算法。最后以上海曹楊路-漕河涇區(qū)段為例,通過志愿者調(diào)查系統(tǒng)進行了換乘數(shù)據(jù)驗證。結(jié)果證明,此方法得出的換乘量與實際換乘量偏差較小。
【關(guān)鍵字】手機大數(shù)據(jù);地鐵換乘客流
中圖分類號: U293.13 文獻標識碼: A 文章編號: 2095-2457(2018)18-0001-002
DOI:10.19694/j.cnki.issn2095-2457.2018.18.001
【Abstract】Therefore,in this paper a method of mining transfer passenger flow base on big data of mobile is presented.It has taken into account topology structure of metro transit network combine with necessary knowledge of graph theory,expounding identification algorithm of trip route in metro network.At last,paper takes the sector between Caoyang Road and Caohejing as an example,verifying transfer data by volunteer investigation system.The results show that the method has a good performance in illustrating the actual transfer passenger flow.
【Key words】Big data of mobile;Metro transfer passenger flow
1 研究背景
無論地鐵人流誘導(dǎo)、應(yīng)急管理還是票務(wù)清分業(yè)務(wù),地鐵換乘客流都是一個及其重要的指標。地鐵運營管理公司廣泛采用自動售票檢票(Automated Fare Collection,AFC),可以獲取出行的起訖點(Origin-Destination,OD),但無法直接獲取出行者在地鐵網(wǎng)的出行路徑。有學(xué)者嘗試用AFC數(shù)據(jù)進行推算,研究思路主要有:(1)最短路徑法,即最短路徑上客流按100%分配。但實際出行者中的路徑選擇并非完全按最短路。(2)建立路徑選擇模型,如Logit模型。(3)設(shè)置路徑阻抗,如出行時間,出行費用等等,進而影響路選擇。(4)將乘客進出站時間與列車到發(fā)時刻進行關(guān)聯(lián),當(dāng)兩者在一定時間范圍內(nèi),則認為該路徑是乘客所選路徑。然而,這些方法均是通過理論推算出來的,因模型而異都有較大的誤差。
另一方面,隨著手機使用的普及和基于個體的手機大數(shù)據(jù)客流挖掘技術(shù)的不斷完善,使用原汁原味的檢測數(shù)據(jù)直接獲取換乘客流成為了可能。本文利用移動通信定位原理,通過分析地鐵系統(tǒng)內(nèi)部的手機大數(shù)據(jù),匹配拓撲路網(wǎng)接口,從而挖掘出關(guān)鍵節(jié)點的換乘量。
2 研究方法
2.1 手機大數(shù)據(jù)與站點線路匹配
2.1.1 線路編碼
為便于計算機的識別和運算,本研究對線路和站點進行了編碼,以表達站點之間的相對位置以及線路之間的換乘關(guān)系。
(1)線路編號:線路編號沿用原軌道交通線路的編號進行,對于非數(shù)字編號的線路以及Y型線路的一支,使用未被占用的線路數(shù)字作為線路編號。
(2)站點編號:按照由西北到東南的總體方向,對站點進行逐一累加編號,例如1號線的第一個站點編號為101,逐次為102,103,……。
(3)換乘站點編號:給所有的換乘站點一個新的“線路”號碼,并逐一給予新的站點號碼。例如1號線的106站點與7號線的717站點為相同站點,因此給予其新的編號1301。在以站點為分析對象時,換乘站點使用統(tǒng)一的換乘站點編號,在以線路為研究對象時,換乘站點使用其所在線路的編號。
2.1.2 站點基站信息匹配
調(diào)查方法是使用工程測試手機,記錄蜂窩小區(qū)識別碼。調(diào)查的位置包括地下站點的站廳、站臺、通道、出入口等空間的地下位置區(qū)的蜂窩小區(qū)編號。
具體調(diào)查的方法是,對每條線路乘坐雙向的列車記錄在行車過程中經(jīng)歷的所有蜂窩小區(qū)。對每個站點,從站臺出發(fā)步行至每個站點的出入口處,記錄所有經(jīng)歷的蜂窩小區(qū)。
按照位置區(qū)編碼與蜂窩小區(qū)編碼構(gòu)成的蜂窩小區(qū)識別碼對地鐵基站地理位置信息進行匹配,匹配站點和線路信息。匹配方案如下:調(diào)查表中未涉及的蜂窩小區(qū)站點編號與線路編號為0。對調(diào)查涉及的所有蜂窩小區(qū),站點列匹配站點編號,換乘站點編號使用“13”開頭的換乘站點專用編號;線路列匹配當(dāng)前位置區(qū)所對應(yīng)的地下線路編號,出入口地面基站的線路列線路編號為0。經(jīng)過該匹配過程樣本數(shù)據(jù)包含以下有效字段:用戶MSID,信令時間,位置區(qū)編碼,小區(qū)編碼,事件原因,經(jīng)度,緯度,站點,線路。因此完整的單條信令記錄Mi=(MSID,time,LAC,cellID,EVENTID,Lo,La,S,L)。
2.2 地鐵出行路徑識別
2.2.1 問題描述
假設(shè)地鐵某段拓撲圖為:有軌交三條線l1、l2和l3,能相互換乘,換乘點分別為b(l1-l2)、f(l2-l3)、d(l1-l3),a為起點,e為終點,a-b-c-d-e為站點序列,均在l1上。
手機用戶在a點進站,e點出站。為簡化說明,設(shè)abcdef即為MAZ又為地鐵站點。
(1)如果在c點留下信令,需要判定該用戶路徑為abcde;
(2)如果在f點留下信令,需要判定該用戶路徑為abfde;
(3)如果該用戶沒有在ae間留下任何信令,則為程序按最短路徑判斷,過濾該條信令。
統(tǒng)計多天(1)和(2)情況下的數(shù)量,給出各路徑的分流比例。
2.2.2 算法
步驟1.在城市整個地鐵拓撲圖中查找最小環(huán),假設(shè)拓撲圖中為bcdf.
步驟2.給出環(huán)中元素(m)中取兩個元素的排列:P (m,2)
b-d:bfd
b-d:bcd
b-c:bfdc
b-c:bc
步驟3.在現(xiàn)有地鐵用戶乘坐路徑中標記有實際信令發(fā)生的站點對于問題描述中的(1),(2)分別為:
(1)[a] b [c] d [e]
(2)[a] b [f] d [e]
其中[]包裹的是實際發(fā)生信令的站點
將該鏈表的子段與排列列表中每條記錄采用貪婪算法進行匹配,若匹配且該記錄的中間節(jié)點有標記,則計入,否則忽略。
步驟4.輸出為:O_station,D_station,[candidate path], vol
每月更新一次,candidate path 用排列中的每條記錄表示。
2.2.3 實現(xiàn)
步驟1.第一階段先手動給出最小環(huán)上的站點對應(yīng)的序列,如M1,M2,…,Mi,…,Mn,錄入metro_diverter.conf,每行一條環(huán)。
步驟2.p.genRideCandidates(…)處標記實際發(fā)生信令的MAZ。對于分流情況存入路徑/${city}/metro_diverter/yyyy/MM/dd。格式為:msid,flagged_path
步驟3.另起一個app,MetroDiverter,從站點基礎(chǔ)表中獲取Station_i到MAZ的關(guān)系(可能為一對多)。目前這條不需要做,metro_diverter.conf直接用MAZ序列測試算法。初始化排列匹配List,元素為RegExp。排列的參考數(shù)據(jù)結(jié)構(gòu)為:
b-d:(b1|b2),(f1|f2),(d1|d2)考慮換乘后為(b1|b2)(,(b1|b2)){0,1},(f1|f2)(,(f1|f2)){0,1},(d1|d2)(,(d1|d2)){0,1}b-d:(b1|b2),c,(d1|d2)
讀取一個月的/${city}/metro_diverter/yyyy/MM數(shù)據(jù),輸出貪婪匹配成功的記錄,路徑/${city}/metro_diverter_stats/yyyy/MM。
格式為:O_station,D_station,vol,candidate_path candidate path中的元素由MAZ換為StationID以增加可讀性。
步驟4.如果結(jié)果可用則,在metro站點間OD中使用各支路比例擴樣。
3 案例情況
由上海嘉定區(qū)、普陀區(qū)前往徐匯區(qū)的漕河涇開發(fā)區(qū)站有兩條線路。
(1)一直乘坐11號線,曹楊路-隆德路-江蘇路-交通大學(xué)-徐家匯,換乘9號線,徐家匯-宜山路-桂林路-漕河涇開發(fā)區(qū)。
(2)乘坐至曹楊路,換乘3、4號線,曹楊路-金沙江路-中山公園-延安西路-虹橋路-宜山路,換乘9號線,宜山路-桂林路-漕河涇開發(fā)區(qū)。
一般來說,大部分乘客會選擇1號線路,但是1號線路客流大,乘坐舒適度差,故有部分乘客還是會選擇2號線路以替代。
4 結(jié)果比對
2017年4月10日-4月23日選取了355位由嘉定去往漕河涇開發(fā)區(qū)的志愿者,利用上海美慧軟件公司自行研發(fā)的手機大數(shù)據(jù)調(diào)查志愿者信息采集系統(tǒng),一方面接收志愿者反饋的實際地鐵出行路徑,一方面以將志愿者標識和手機大數(shù)據(jù)的MSID進行關(guān)聯(lián),依據(jù)上述算法進行路徑識別。
得到結(jié)果如下(單位:人次):
由此可見,由于信號的丟失,在絕對量上的檢測誤差率較大,但在相對的路徑選擇比上,此算法具有較高的識別率。
5 展望
由于手機信令存在著“乒乓切換”現(xiàn)象,所以會出現(xiàn)基站誤檢,生成大量的噪聲數(shù)據(jù),應(yīng)采用合理的預(yù)處理手段進行清洗。同時,可以結(jié)合其他的一些換乘客流檢測手段,如智能視頻、WiFi等,進行數(shù)據(jù)源的補充,取長補短,有機融合,提高地鐵出行換乘客流的識別準確度。
【參考文獻】
[1]蒲一超,尹梅枝,朱瓊斯,許項東,顏奮帆.基于手機數(shù)據(jù)的地鐵線網(wǎng)清分模型驗證與優(yōu)化[J].都市快軌交通,2017,30(04):102-109.