李卓航 張健欽 李泰增 陸 浩 張 安
(1. 北京建筑大學(xué) 測(cè)繪與城市空間信息學(xué)院, 北京 102616;2. 自然資源部城市空間信息重點(diǎn)實(shí)驗(yàn)室, 北京 102616)
交通擁堵是城市發(fā)展普遍面臨的城市病,嚴(yán)重制約城市的可持續(xù)發(fā)展,因此,各個(gè)城市一直以來(lái)大力推動(dòng)公共交通發(fā)展以解決交通擁堵問(wèn)題[1]。近年來(lái)國(guó)內(nèi)外學(xué)者對(duì)于城市公共交通的研究越來(lái)越多。張志熙、陳玲娟等基于公交IC數(shù)據(jù)對(duì)乘客上下車站點(diǎn)進(jìn)行推算[2],劉倩通過(guò)交通需求完成對(duì)公交發(fā)車時(shí)刻的優(yōu)化[3],李軍、鄭培慶、劉耀林等基于公交IC卡數(shù)據(jù)分析通勤特征并構(gòu)建了通勤熵變模型[4-5]。陳曉旭在對(duì)公交客流分析的同時(shí),也對(duì)常規(guī)的公交線路客流進(jìn)行了預(yù)測(cè)[6]。
在公共交通出行的研究中,公交IC卡記錄數(shù)據(jù)作為一種典型的出行大數(shù)據(jù),具有海量性、多樣性、高速性和易變性的特征,相較傳統(tǒng)數(shù)據(jù)采集方法能夠獲取更準(zhǔn)確、實(shí)時(shí)、高效的客流數(shù)據(jù),因此成為了解公共交通出行需求動(dòng)態(tài)變化的重要突破口。然而公交IC卡數(shù)據(jù)量十分龐大,傳統(tǒng)數(shù)據(jù)庫(kù)無(wú)法定時(shí)及時(shí)更新公眾出行的特征實(shí)現(xiàn)動(dòng)態(tài)調(diào)整公交供給, Hadoop分布式技術(shù)具有高可靠性、高擴(kuò)展性、高容錯(cuò)性等優(yōu)點(diǎn),能夠高效準(zhǔn)確的處理大規(guī)模數(shù)據(jù),實(shí)現(xiàn)對(duì)時(shí)空大數(shù)據(jù)的挖掘和分析[7-10]。本文采用Hadoop分布式計(jì)算方法,實(shí)現(xiàn)對(duì)海量公交IC卡數(shù)據(jù)的高效存儲(chǔ)和計(jì)算,并提出一種公交客流綜合評(píng)價(jià)模型,對(duì)公交客流時(shí)空出行特征進(jìn)行對(duì)比分析。
本研究基于2016年9月24日至30日的北京市公交IC卡刷卡數(shù)據(jù)及公交站點(diǎn)數(shù)據(jù),北京每天約產(chǎn)生1 840萬(wàn)條刷卡記錄,傳統(tǒng)的數(shù)據(jù)處理技術(shù)無(wú)法將其進(jìn)行有效的分割和計(jì)算,因此本文通過(guò)搭建Hadoop分布式平臺(tái)對(duì)數(shù)據(jù)進(jìn)行高效的計(jì)算和存儲(chǔ)。Hadoop的框架核心設(shè)計(jì)是分布式文件系統(tǒng)和分布式離線運(yùn)算框架[11-12],公交出行大數(shù)據(jù)處理流程如圖1所示,分布式文件系統(tǒng)(hadoop distributed file system,HDFS)為海量的公交出行大數(shù)據(jù)提供了存儲(chǔ),由主節(jié)點(diǎn)和子節(jié)點(diǎn)構(gòu)成基本元素,在刷卡的過(guò)程中,由于刷卡行為、卡片質(zhì)量、網(wǎng)絡(luò)傳輸?shù)仍?會(huì)造成部分信息錯(cuò)誤或者字段缺失等問(wèn)題[13],因此需要將無(wú)效刷卡數(shù)據(jù)進(jìn)行清洗。本文創(chuàng)建1個(gè)主節(jié)點(diǎn)和7個(gè)子節(jié)點(diǎn),在Map(映射)階段設(shè)置篩選條件,對(duì)近1.3億條北京市一周原始公交刷卡大數(shù)據(jù)展開(kāi)清洗,將上下車刷卡時(shí)間相同和字段缺失的刷卡記錄進(jìn)行清除,處理后有效數(shù)據(jù)為原始數(shù)據(jù)的44%左右。
圖1 公交大數(shù)據(jù)Hadoop分布式處理總體流程圖
在MapReduce階段計(jì)算清洗后的數(shù)據(jù),考慮到現(xiàn)實(shí)生活中乘客從出發(fā)地到達(dá)目的地中間可能需要換乘多條線路的情況,因此本文基于公交IC卡數(shù)據(jù)和公交站點(diǎn)數(shù)據(jù)對(duì)換乘行為進(jìn)行判別,根據(jù)原始刷卡記錄中的上下車序號(hào)和所在線路匹配乘客出行時(shí)間和距離。Map(映射)階段負(fù)責(zé)將數(shù)據(jù)分發(fā)給子節(jié)點(diǎn)進(jìn)行計(jì)算,并生成新的鍵值對(duì),Reduce(規(guī)約)階段負(fù)責(zé)將相同的鍵組進(jìn)行合并按照指定規(guī)則輸出計(jì)算結(jié)果,當(dāng)乘客的出行記錄滿足時(shí)間間隔在30 min以內(nèi),空間間隔在1 km以內(nèi)[14],符合換乘規(guī)則,連接起點(diǎn)、換乘點(diǎn)和終點(diǎn)則構(gòu)成一條出行鏈記錄,數(shù)據(jù)的最終處理如圖2所示。
圖2 一周出行鏈情況概覽
基于處理后的公交出行鏈數(shù)據(jù),分別從時(shí)間維度、空間維度以及客流強(qiáng)度3個(gè)角度分析公交資源供給與客流需求,具體指標(biāo)包括時(shí)間不均衡度、方向不均衡度、斷面客流、斷面客流不均衡度、全天線路滿載率,具體如表1所示。
采用屬性層次模型(attribute hierarchy model,AHM)賦權(quán)法構(gòu)造指標(biāo)間的相對(duì)屬性判定矩陣,設(shè)有n個(gè)元素(指標(biāo))u1,u2…un,對(duì)準(zhǔn)則C,比較ui和uj(i≠j)的相對(duì)重要性μij和μji,μij和μji滿足式(1)。
(1)
式中,μij和μji為ui和uj(i≠j)的相對(duì)重要性。
元素μi和自身的比較是無(wú)意義的。故規(guī)定式(2)。
(2)
令式(3)和式(4)為
表1 公交客流時(shí)空特征量計(jì)算指標(biāo)
屬性判斷矩陣應(yīng)滿足一致性。即對(duì)任何i,當(dāng)Qi非空時(shí)有式(5)。
(5)
按照式(6)計(jì)算第i個(gè)元素權(quán)重ωc(i)為。
(6)
將各個(gè)指標(biāo)進(jìn)行歸一化和同趨勢(shì)化處理,即將各個(gè)指標(biāo)取值范圍調(diào)整為0至1之間,且數(shù)值越高代表指標(biāo)越優(yōu),本文采取倒數(shù)方法將低優(yōu)指標(biāo)高優(yōu)化,并采取如式(7)將各個(gè)指標(biāo)進(jìn)行歸一化處理。xi為未處理前的指標(biāo)值,xave為當(dāng)前指標(biāo)的平均值,xmax當(dāng)前指標(biāo)的最大值,xmin為當(dāng)前指標(biāo)的最小值。
(7)
最后按照式(10)計(jì)算各評(píng)價(jià)對(duì)象與最優(yōu)方案和最劣方案的接近程度Ci,Ci∈[0,1],Ci愈接近于1,表示第i個(gè)評(píng)價(jià)對(duì)象越接近于最優(yōu)水平為
(10)
實(shí)驗(yàn)采用2016年9月24日(周六)至9月30日(周五)公交IC卡數(shù)據(jù),根據(jù)Hadoop分布式計(jì)算換乘量前二十公交站點(diǎn),結(jié)合北京市公交線路空間位置、站點(diǎn)數(shù)量以及公交熱點(diǎn)換乘站點(diǎn)統(tǒng)計(jì)結(jié)果,選取北京市300內(nèi)環(huán)線、快速公交4號(hào)線、96路、339路4條公交線路,如圖3所示。
圖3 研究所采用的公交路線
快速公交4號(hào)線,西起龍泉西公交場(chǎng)站,東至阜成門(mén)站,橫跨門(mén)頭溝、石景山、海淀、西城四區(qū),為跨市區(qū)公交線路。300內(nèi)環(huán)線,沿二環(huán)跨海淀區(qū)、朝陽(yáng)、豐臺(tái)3個(gè)區(qū),首發(fā)站和終點(diǎn)站均為和平東橋,途經(jīng)站六里橋北里、公主墳?zāi)稀⑽鲏魏?、三元橋、亮馬橋和草橋?yàn)楣粺狳c(diǎn)換乘站點(diǎn)。公交96路為豐臺(tái)區(qū)社區(qū)公交之一,北起北京西站,南至?xí)栽略饭粓?chǎng)站,六里橋北里和北京西站均為北京市重要交通樞紐。線路339為短距離公交,兩終點(diǎn)站為王佐和郭莊子公交場(chǎng)站。
基于公交出行鏈數(shù)據(jù),分別計(jì)算4條線路工作日及非工作日的斷面客流、斷面客流不均衡度、時(shí)間不均衡度、方向不均衡度以及全天線路滿載率,并構(gòu)造屬性判斷矩陣,按照式(5)進(jìn)行一致性檢驗(yàn),滿足一致性要求,按照式(6)求得指標(biāo)相對(duì)屬性權(quán)重向量為:(ω1,ω2,ω3,ω4,ω5)=(0.272,0.254,0.153,0.091,0.230),將斷面客流、斷面客流不均衡度、時(shí)間不均衡度、方向不均衡度和全天線路滿載率進(jìn)行同趨勢(shì)化和歸一化。為了更充分利用各指標(biāo)優(yōu)點(diǎn),本文采用基于屬性AHM的Topsis對(duì)各線路進(jìn)行綜合評(píng)價(jià),計(jì)算各線路與最優(yōu)方案的接近程度,并從優(yōu)至劣排序,見(jiàn)表2。
表2 各線路運(yùn)營(yíng)情況評(píng)價(jià)值及從優(yōu)至劣
快速公交4號(hào)線無(wú)論在工作日期間還是非工作日期間,運(yùn)營(yíng)情況均為最優(yōu),其次是300內(nèi)環(huán)線,兩條線路均為跨城區(qū)公交線路,可見(jiàn)公交線路的運(yùn)營(yíng)距離及站點(diǎn)的空間分布是影響客流、運(yùn)力的重要因素??刹捎酶叻迤陂g開(kāi)設(shè)區(qū)間車并減少發(fā)車時(shí)間以緩解工作日期間的通勤壓力。對(duì)于社區(qū)公交且經(jīng)過(guò)重要交通樞紐的公交線路(如96路),客流不均衡程度主要體現(xiàn)在上下行方向方面,因此對(duì)于這些車輛應(yīng)當(dāng)分時(shí)段分方向適當(dāng)增加車輛緩解熱點(diǎn)換乘車站客流壓力。
為了能夠快速實(shí)時(shí)更新公眾出行的特征,動(dòng)態(tài)調(diào)整公交供給,實(shí)驗(yàn)采用瀏覽器/服務(wù)器架構(gòu)(browser/server,B/S),以二維地圖為主要載體,將公交客流特征量計(jì)算結(jié)果以電子地圖,圖表,列表等多種可視化工具與方法,將所有特征量計(jì)算結(jié)果進(jìn)行集成。
本文基于Hadoop分布式技術(shù)實(shí)現(xiàn)對(duì)公交IC卡刷卡大數(shù)據(jù)清洗及處理,解決了傳統(tǒng)數(shù)據(jù)庫(kù)數(shù)據(jù)結(jié)構(gòu)化的特點(diǎn),在保證數(shù)據(jù)多樣性的同時(shí),能夠快速實(shí)時(shí)地進(jìn)行流處理。除此之外,提出一種基于屬性AHM賦權(quán)Topsis綜合評(píng)價(jià)方法,并選取斷面客流、斷面客流不均衡度、時(shí)間不均衡度、方向不均衡度以及全天線路滿載率,建立適用于不同情況下的公交綜合評(píng)價(jià)指標(biāo)模型,并以北京市4條具有代表性的公交線路為例進(jìn)行分析,將公交客流分布信息及特征計(jì)算結(jié)果依托于GIS可視化進(jìn)行分析,針對(duì)工作日與非工作日分別提出對(duì)應(yīng)的線路優(yōu)化措施及建議。相較于傳統(tǒng)的公交客流特征分析,本文針對(duì)不同空間約束下不同性質(zhì)公交的利用率進(jìn)行分析,對(duì)于提高群眾出行效率,改善城市交通擁堵具有重要意義。