鄒慶茹,趙 鵬,姚向明
(北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京100044)
乘客分類是研究出行者群體相似性行為及規(guī)律的重要方法.既有分類集中在以交通調(diào)查為基礎(chǔ)的主觀屬性分類方面[1-2],如按出行目的、年齡、職業(yè)等.該分類的前提假設(shè)是相似個(gè)體屬性或出行屬性的乘客具有相似出行行為,存在主觀性強(qiáng)和假設(shè)不合理等不足[3].本研究以軌道交通自動(dòng)售檢票數(shù)據(jù)(AFC)為基礎(chǔ),從出行強(qiáng)度、時(shí)間維度、空間維度及卡類型4個(gè)方面構(gòu)建客觀的分類指標(biāo),利用無監(jiān)督聚類算法對(duì)乘客分類,從而提高分類的客觀性.結(jié)合乘客分類結(jié)果,進(jìn)一步對(duì)軌道交通峰前折扣票價(jià)策略下乘客出發(fā)時(shí)間轉(zhuǎn)移彈性進(jìn)行應(yīng)用研究,為交通政策影響及評(píng)價(jià)提供方法支持.
AFC數(shù)據(jù)作為城市交通大數(shù)據(jù)中的重要組成部分,具備海量、持續(xù)、全樣本特征,得以從個(gè)體視角精細(xì)化研究交通行為.Bagchi較早地闡述了AFC數(shù)據(jù)在交通管理中應(yīng)用潛能[4];Pelletier進(jìn)一步對(duì)AFC數(shù)據(jù)的應(yīng)用進(jìn)行了詳細(xì)綜述,其將應(yīng)用劃分為戰(zhàn)略規(guī)劃(如線網(wǎng)規(guī)劃)、戰(zhàn)術(shù)管理(如計(jì)劃編制)和運(yùn)營狀態(tài)評(píng)價(jià)3個(gè)層次[5].在乘客分類或市場細(xì)分方面,Kieu基于密度的DBSCAN(Density-based Spatial Clustering of Applications with Noise)算法將乘客分為通勤乘客、出行起訖點(diǎn)(OD)穩(wěn)定型、出發(fā)時(shí)間穩(wěn)定型及不規(guī)律乘客4類,劃分指標(biāo)為出行起訖點(diǎn)和出發(fā)時(shí)間[6];在Kieu研究基礎(chǔ)上,Venugopal利用OPTICS算法(Ordering Points to Identify the Clustering Structure)對(duì)乘客進(jìn)行聚類,結(jié)果顯示OPTICS算法比DBSCAN算法具有更高的準(zhǔn)確性[7],該研究側(cè)重于聚類算法效率和精度的提升,在分類指標(biāo)方面略顯單一.除AFC數(shù)據(jù)外,基于交易記錄的用戶分類在相關(guān)領(lǐng)域已較為豐富,如Tsai等從購買頻率、消費(fèi)金額、最近購買時(shí)間(RFM)構(gòu)建指標(biāo)對(duì)零售業(yè)顧客進(jìn)行分類[3];張文欣改進(jìn)RFM指標(biāo)對(duì)航空客運(yùn)市場進(jìn)行了細(xì)分研究[8].綜上分析,AFC數(shù)據(jù)挖掘與應(yīng)用吸引了廣大學(xué)者的關(guān)注,但從個(gè)體視角研究乘客出行行為及規(guī)律尚存在很大不足.公交IC卡號(hào)能對(duì)乘客進(jìn)行標(biāo)識(shí),從而通過AFC記錄能夠捕捉單一乘客長期范圍內(nèi)的行為規(guī)律,為乘客出行模式識(shí)別、規(guī)律挖掘、行為變化追蹤等精細(xì)化行為研究帶來新的契機(jī).
在RFM指標(biāo)體系基礎(chǔ)上,結(jié)合軌道交通AFC數(shù)據(jù)可獲取的信息建立更為豐富的乘客分類指標(biāo).指標(biāo)建立時(shí)以其能否表征不同類型乘客出行特征為基本原則.部分學(xué)者嘗試通過AFC記錄的內(nèi)在關(guān)聯(lián)推斷其潛在信息(如出行目的)[9],但為避免推斷誤差造成的影響,構(gòu)建指標(biāo)時(shí)僅考慮AFC記錄包含的直接信息.下面將從出行強(qiáng)度、時(shí)間維度、空間維度及卡類型4個(gè)方面闡述具體指標(biāo).
(1)出行強(qiáng)度.
出行強(qiáng)度刻畫乘客對(duì)軌道交通的利用程度,強(qiáng)度越大表明乘客對(duì)軌道交通忠誠度越高、依賴性越強(qiáng).具體包括:①日均出行次數(shù),刻畫乘客對(duì)軌道交通的日均利用程度;②周均出行天數(shù),刻畫乘客1周內(nèi)對(duì)軌道交通的利用程度;③周均出行天數(shù)標(biāo)準(zhǔn)差,刻畫乘客出行的時(shí)間穩(wěn)定性,一般通勤乘客出行穩(wěn)定性高,而生活類出行波動(dòng)大.
(2)時(shí)間維度.
出發(fā)時(shí)間能在一定程度上反映乘客類型,如通勤乘客首末次出發(fā)時(shí)間一般位于早晚高峰.考慮到周末乘客出行不規(guī)律性,以及末次出發(fā)時(shí)間波動(dòng)較大等因素,僅選取工作日首次出發(fā)時(shí)間作為表征變量.便于變量處理,將出發(fā)時(shí)間轉(zhuǎn)化為分鐘數(shù)(零點(diǎn)為起點(diǎn)).具體包括:①工作日首次出發(fā)時(shí)間,采用連續(xù)時(shí)期內(nèi)乘客首次出發(fā)時(shí)間中位數(shù)表示;②工作日首次出發(fā)時(shí)間標(biāo)準(zhǔn)差,刻畫乘客出發(fā)時(shí)間穩(wěn)定性;③日均活躍時(shí)長,指1日內(nèi)末次出行終止時(shí)間與首次出行起始時(shí)間差值.
前期研究發(fā)現(xiàn)1日內(nèi)單次出行乘客占據(jù)一定比例[10],導(dǎo)致無法判斷乘客是否為首次出行.為此,以中午12:00為分界點(diǎn),在統(tǒng)計(jì)首次出發(fā)時(shí)間時(shí)不考慮晚于該時(shí)間點(diǎn)的出行記錄.從較長連續(xù)時(shí)期來看,乘客每日出行僅為1次的概率較低,因此從統(tǒng)計(jì)角度來看對(duì)結(jié)果精度影響較小.
(3)空間維度.
乘客在出行OD、出行距離方面均呈現(xiàn)一定特征.一般規(guī)律性乘客出行空間穩(wěn)定性強(qiáng).具體包括:①出行OD覆蓋度,指出行OD對(duì)數(shù)與總出行次數(shù)的比值,OD覆蓋度越小,乘客出行空間穩(wěn)定性越高;②平均出行距離,出行距離與出行耗時(shí)、出行費(fèi)用近似成線性關(guān)系(假定按里程計(jì)價(jià)),可用于刻畫乘客的活動(dòng)區(qū)域范圍,本文選用出行耗時(shí)作為出行距離的替代指標(biāo).
(4)卡類型.
卡類型能在一定程度上表征個(gè)體屬性(乘客身份).IC卡常分為儲(chǔ)值卡、學(xué)生卡、紀(jì)念卡、員工卡、臨時(shí)卡(單程卡),以及車站工作卡,考慮到臨時(shí)卡及車站工作卡的特殊性(無法對(duì)應(yīng)固定乘客),該類票卡對(duì)應(yīng)的出行記錄不在范圍之內(nèi).
表1給出乘客分類指標(biāo)的類型、取值范圍等匯總信息.
考慮到聚類樣本量十分龐大,經(jīng)過一系列必選和分析,本研究采用高效的兩步聚類算法來對(duì)乘客進(jìn)行無監(jiān)督客觀分類.以北京市軌道交通乘客為對(duì)象進(jìn)行分析,選取2016年12月連續(xù)1個(gè)月AFC記錄為基礎(chǔ)數(shù)據(jù),計(jì)算每一張IC卡所對(duì)應(yīng)乘客的出行指標(biāo)(表1).為更好地分析1天內(nèi)客流成分,選取2016年12月5日(周一)全天出行乘客為對(duì)象,共計(jì)約295萬人.圖1給出每日IC卡使用數(shù)統(tǒng)計(jì)結(jié)果,1個(gè)月內(nèi)活躍IC卡總數(shù)約為1 249萬張,單日平均活躍IC卡數(shù)約為269萬張.圖2給出12月5日內(nèi)不同出行次數(shù)的客流量統(tǒng)計(jì)結(jié)果.
圖1 IC卡使用數(shù)統(tǒng)計(jì)Fig.1 The number of used IC cards
指標(biāo)篩選有助于縮減運(yùn)算規(guī)模,提高聚類效率.在此,采用特征選擇法對(duì)不同指標(biāo)的重要程度進(jìn)行分析,特征選擇法即從眾多輸入變量中找出對(duì)分類結(jié)果有重要意義的變量.利用SPSS Modeler軟件中的特征選擇模型予以分析,結(jié)果如表2所示.一般特征值大于0.9的變量為重要變量.卡類型及平均出行耗時(shí)對(duì)分類結(jié)果影響較小,因此剔除這兩個(gè)指標(biāo).
圖2 不同出行次數(shù)下乘客比例Fig.2 Percentage of passengers with different trips
兩步聚類算法是在BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)算法基礎(chǔ)上提出的改進(jìn)算法.該算法特點(diǎn)包括:①對(duì)象間相似性采用似然距離測度,對(duì)分類變量和數(shù)值變量均適用;②采用CF樹(Clustering Feature Tree)來提高聚類效率,能夠解決大數(shù)據(jù)集的聚類問題;③能夠根據(jù)Akaik判據(jù)(AIC)或貝葉斯判據(jù)(BIC)自動(dòng)選擇最優(yōu)聚類數(shù).
表2 出行指標(biāo)特征值Table 2 Characteristic value of travel indexes
兩步聚類包含2個(gè)階段:①預(yù)聚類階段,采用CF樹生長的思想,在生成CF樹的同時(shí)預(yù)先聚類密集區(qū)域的數(shù)據(jù)點(diǎn),形成諸多子簇,該過程能夠大幅提高聚類效率,如圖3所示;②聚類階段,以預(yù)聚類階段得到的子簇為對(duì)象,利用凝聚法逐個(gè)合并子簇,直到得到期望的簇?cái)?shù)量.
采用SPSS Modeler軟件對(duì)1日內(nèi)全樣本乘客進(jìn)行聚類.設(shè)定聚類數(shù)范圍為2~15,對(duì)象間相似度采用對(duì)數(shù)似然距離,聚類準(zhǔn)則采用BIC準(zhǔn)則.結(jié)果顯示將乘客分為5類時(shí)效果最佳.不同類型乘客占比如圖4所示,表3給出不同類型乘客的聚類中心點(diǎn).
圖3 CF樹構(gòu)建示意圖Fig.3 The schematic for constructing CF tree
圖4 不同類型乘客占比Fig.4 Percentage of different passenger types
表3 不同類型乘客聚類中心Table 3 The center point for different clustering passengers
為驗(yàn)證聚類結(jié)果穩(wěn)定性,選取連續(xù)5個(gè)工作日為對(duì)象,對(duì)每日內(nèi)乘客進(jìn)行聚類,如表4所示.可以看出每日內(nèi)客流成分趨于一致,驗(yàn)證了聚類結(jié)果具有較強(qiáng)的穩(wěn)定性.
結(jié)合聚類結(jié)果對(duì)不同類型乘客的出行特征進(jìn)行分析,具體出行指標(biāo)分布如圖5所示.
表4 不同工作日聚類結(jié)果對(duì)比Table 4 Comparison of clustering results for different workdays (%)
圖5 不同類型乘客出行指標(biāo)分布Fig.5 The distribution of travel indexes for different passenger groups
(1)第1類乘客出行特征最為鮮明,表現(xiàn)為周均出行天數(shù)大(4.64天)、日均出行次數(shù)約為2次、首次出發(fā)時(shí)間和周均出行天數(shù)穩(wěn)定性高(標(biāo)準(zhǔn)差小),且其占總體客流比例最大(約為32%),結(jié)合軌道交通客流主體為通勤客流,可認(rèn)為該類乘客為標(biāo)準(zhǔn)通勤乘客.
(2)第2類乘客與第1類乘客具有一定相似性,差異在于其日均出行次數(shù)更大(2.25次),周均出行天數(shù)標(biāo)準(zhǔn)差和首次出發(fā)時(shí)間標(biāo)準(zhǔn)差相對(duì)較大(時(shí)間穩(wěn)定性較弱),且其OD覆蓋度較大(出行空間穩(wěn)定性較弱).種種特征表明該類乘客與業(yè)務(wù)型乘客相似,因此,將其定義為彈性通勤乘客(如業(yè)務(wù)性乘客).
(3)第3類乘客與前2類的差異主要在:周均出行天數(shù)小,分布分散,出行時(shí)空穩(wěn)定較弱,但出行OD較為穩(wěn)定.因此,可將其定義為高頻常乘客.
(4)對(duì)比前3類乘客,第4類和第5類乘客具有明顯差異,表現(xiàn)在出行頻次低、時(shí)空不穩(wěn)定;相比而言,第5類乘客的活躍時(shí)間最短,出行OD極不穩(wěn)定,出行頻次很小.因此,可將其視為短期低頻乘客,如旅游乘客、偶爾出行乘客;第4類乘客日均活躍時(shí)間和首次出發(fā)時(shí)間分布均較為分散,出行頻次相比第5類乘客高,但其周均出行天數(shù)仍達(dá)到2.21天,將其定義為生活類乘客.
乘客分類的目的在于從集計(jì)層面分析乘客的共性行為特征.在此,以北京地鐵峰前五折票價(jià)優(yōu)惠為應(yīng)用場景,探求票價(jià)對(duì)乘客出發(fā)時(shí)間的影響.2016年末,北京地鐵對(duì)八通線、昌平線、6號(hào)線共計(jì)24座車站在7:00前進(jìn)站乘客實(shí)施五折票價(jià)優(yōu)惠.考慮到八通線及昌平線在2015年底實(shí)行了峰前七折優(yōu)惠,在此僅對(duì)6號(hào)線首次實(shí)施五折優(yōu)惠的車站進(jìn)行分析,包括北運(yùn)河西、通州北關(guān)、物資學(xué)院路、草房、常營、黃渠、褡褳坡、青年路8座車站.首先,篩選出受影響的目標(biāo)乘客,主要為居住在車站附近的居民,因此以乘客居住區(qū)是否為折扣票價(jià)車站為原則進(jìn)行AFC記錄抽取,居住區(qū)辨識(shí)算法參見文獻(xiàn)[10].該過程可獲取各站本源性交通需求,避免由其他車站到達(dá)該站而返回的客流影響.表5給出各站本源性乘客數(shù)及不同類型乘客的具體信息.
表5 目標(biāo)車站不同類型乘客數(shù)統(tǒng)計(jì)Table 5 The number of passengers in different types of analysis stations
以折扣票價(jià)實(shí)施前后1個(gè)月為分析時(shí)段,對(duì)比乘客首次出發(fā)時(shí)間變化來判斷乘客行為是否改變.折扣票價(jià)會(huì)導(dǎo)致部分乘客在出發(fā)時(shí)間上提前,但并非每次出行均提前.定義轉(zhuǎn)移率來量化乘客出發(fā)時(shí)間轉(zhuǎn)移彈性,計(jì)算公式為
式中:pi為乘客i的出發(fā)時(shí)間轉(zhuǎn)移率為折扣票價(jià)實(shí)施后乘客首次出發(fā)時(shí)間早于7:00的次數(shù),ni為相應(yīng)政策實(shí)施前的次數(shù);Ni和Ni'為分析期內(nèi)對(duì)應(yīng)的總出行次數(shù).
假設(shè)某類乘客集合為I,總?cè)藬?shù)為m,那么該類乘客的平均轉(zhuǎn)移率為
圖6給出各個(gè)目標(biāo)車站不同類型乘客的出發(fā)時(shí)間轉(zhuǎn)移率分析結(jié)果,可以看出:雖然各站客流量及客流結(jié)構(gòu)存在差異,但不同類型乘客的轉(zhuǎn)移率趨于一致,在一定程度上也說明了乘客分類的合理性.圖7給出不同類型乘客的平均轉(zhuǎn)移率,可以看出:①第1類和第2類乘客的轉(zhuǎn)移率較低,表明其受折扣票價(jià)影響小,該類乘客出發(fā)時(shí)間約束較強(qiáng),與實(shí)際情況保持一致;②第5類乘客出發(fā)頻次小,且其出發(fā)時(shí)間分布較廣,其受折扣票價(jià)的影響也較小;③第3類和第4類乘客的首次出發(fā)時(shí)間轉(zhuǎn)移率較大,該類乘客出發(fā)時(shí)間彈性較大,因此受價(jià)格影響明顯.
圖6 各站乘客出發(fā)時(shí)間轉(zhuǎn)移率Fig.6 Departure time transfer rate of each station
圖7 乘客出發(fā)時(shí)間平均轉(zhuǎn)移率Fig.7 Average departure transfer rate
在確定不同類型乘客出發(fā)時(shí)間轉(zhuǎn)移彈性基礎(chǔ)上,可進(jìn)一步對(duì)折扣車站的客流轉(zhuǎn)移效果進(jìn)行測算.另外,還可對(duì)尚未實(shí)施折扣票價(jià)策略車站的客流結(jié)構(gòu)進(jìn)行分析,從而選取潛在轉(zhuǎn)移效果明顯的車站作為下一步策略實(shí)施的對(duì)象.
(1)從乘客“消費(fèi)行為”視角構(gòu)建客觀的乘客分類指標(biāo),并結(jié)合兩步聚類算法對(duì)乘客進(jìn)行分類;以北京市軌道交通連續(xù)1個(gè)月AFC數(shù)據(jù)進(jìn)行實(shí)證分析,結(jié)果顯示,將乘客分為5類時(shí)聚類效果最佳,分類結(jié)果具有良好的穩(wěn)定性;并以北京地鐵折扣票價(jià)策略實(shí)施為場景,分析不同類型乘客的首次出發(fā)時(shí)間轉(zhuǎn)移彈性,為折扣票價(jià)策略的實(shí)施效果評(píng)估及推廣應(yīng)用提供了決策參考.
(2)AFC數(shù)據(jù)是交通系統(tǒng)中的一類重要數(shù)據(jù)源,能夠?yàn)檫\(yùn)營管理提供數(shù)據(jù)支撐,如何深入挖掘其潛在價(jià)值信息具有重要意義,后續(xù)將針對(duì)更長時(shí)間跨度內(nèi)乘客的長期行為變化過程及規(guī)律進(jìn)行深度挖掘.
[1]呂紅霞,王文憲,蒲松,等.基于聚類分析的鐵路出行旅客類別劃分[J].交通運(yùn)輸系統(tǒng)工程與信息,2016,16(1):129-134.[LV H X,WANG W X,PU S,et al.Classification of railway passengers based on cluster analysis[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(1):129-134.]
[2]史峰,鄧連波,霍亮.鐵路旅客乘車選擇行為及其效用[J].中國鐵道科學(xué),2007,28(6):117-121.[SHI F,DENG L B,HUO L.Boarding choice behavior and its utility of railway passengers[J].China Railway Science,2007,28(6):117-121.]
[3]TSAI C Y,CHIU C C.A purchase-based market segmentation methodology[J].Expert Systems with Applications,2004,27(2):265-276.
[4]BAGCHI M,WHITE P R.The potential of public transport smart card data[J].Transportation Policy,2005,12(5):464-474.
[5]PELLETIER M,TRéPANIER M,MORENCY C.Smart card data use in public transit:a literature review[J].Transportation Research Part C: Emerging Technologies.2011,19(4):557-568.
[6]LEM K,BHASKAR A,CHUNG E.Passenger segmentation using smart card data[J].IEEE Transactions on Intelligent Transportation Systems,2015,16(3):1537-1548.
[7]VENUGOPAL S,DIVYA D.Transit passenger segmentation based on the travel patterns mined from smart card data using Optics algorithm[J].International Journal of Advanced Information Science and Technology,2016,5(5):49-56.
[8]張文欣.航空公司常旅客細(xì)分研究[D].南京:南京航空航天大學(xué),2009.[ZHANG W X.Research on frequent flyer segmentation of airlines[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2009.]
[9]ZOU Q,YAO X,ZHAO P,et al.Detecting home location and trip purposes for cardholders by mining smart card transaction data in Beijing subway[J].Transportation,2016:1-26.
[10]姚向明,趙鵬,韓寶明,等.基于售檢票數(shù)據(jù)挖掘的軌道交通乘客居住區(qū)辨識(shí)[J].交通運(yùn)輸系統(tǒng)工程與信息,2016,16(5):233-240.[YAO X M,ZHAO P,HAN B M,et al.Home district identification for urban rail transit travelers by mining automatic fare collection data[J].Journal of Transportation Systems Engineering and Information Technology,2016,16(5):233-240.]