唐艷麗,蔣 超,鄭伯紅,李茜銘
(1.中南大學(xué)a.土木工程學(xué)院,b.建筑與藝術(shù)學(xué)院,長沙410075;2.岳陽市規(guī)劃局,湖南岳陽414000)
目前,城市交通的主要解決方案是大力發(fā)展多層次多模式的公共交通,加大常規(guī)公交線網(wǎng)和軌道線網(wǎng)密度.以岳陽市(岳陽樓區(qū)、君山區(qū)和云溪區(qū)范圍)為例,根據(jù)2017年開展的岳陽市綜合交通規(guī)劃調(diào)查獲得的數(shù)據(jù),2017年上半年岳陽市擁有48條公交線路,300 m站點(diǎn)覆蓋率為49%,低于國家要求的50%;500 m站點(diǎn)覆蓋率為91%,滿足國家要求的90%.總體而言,岳陽市公交線網(wǎng)分布疏密不均,核心區(qū)外圍城鄉(xiāng)結(jié)合部存在較多公交覆蓋盲區(qū).因此,作為公交的補(bǔ)充,出租車在居民的常規(guī)出行中扮演著重要角色.
隨著城市建設(shè)的發(fā)展和大數(shù)據(jù)技術(shù)的進(jìn)步,在北京、上海、深圳、杭州等城市已經(jīng)建立了出租車浮動(dòng)車系統(tǒng)[1],即在出租車上安裝GPS設(shè)備,定時(shí)將出租車所處位置、是否載客等實(shí)時(shí)信息傳輸至數(shù)據(jù)庫中.與城市公交車有固定的服務(wù)時(shí)間窗不同,出租車車輛基本全天候作業(yè),可以提供詳細(xì)的實(shí)時(shí)交通路況及居民的出行規(guī)律.
已有根據(jù)出租車軌跡數(shù)據(jù)對(duì)載客出行特征進(jìn)行的研究集中在分析其日均載客時(shí)間、載客里程等指標(biāo)[2];載客出行的時(shí)長分布、距離分布、速度分布特性[3];出租車載客運(yùn)營的空間分布特性,并在空間分布特性的基礎(chǔ)上進(jìn)行聚類分析,尋找片區(qū)之間的關(guān)聯(lián)性[3-4];出租車載客運(yùn)營的時(shí)間分布特性[5],并依據(jù)多個(gè)月份的數(shù)據(jù),對(duì)比不同月份之間出租車載客出行量的異同[6];此外,在GPS軌跡大數(shù)據(jù)處理方法上,利用流行的大數(shù)據(jù)分析平臺(tái)spark,提出分布式軌跡聚類算法和分布式軌跡模式處理算法,提高出租車軌跡大數(shù)據(jù)的處理效率[7].
已有研究一般在出租車GPS軌跡數(shù)據(jù)的基礎(chǔ)上,融合道路網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行相關(guān)的分析,可以得出出租車上下客的熱點(diǎn)分布等信息,但缺少對(duì)不同狀態(tài)下出租車載客出行特征的深層次原因分析.通過融入居民出行調(diào)查、宏觀交通模型等交通分區(qū)相關(guān)數(shù)據(jù),可以分析出租車載客出行特征與分區(qū)用地布局、人口崗位等之間的關(guān)聯(lián).本文以岳陽市為例,在出租車GPS軌跡數(shù)據(jù)的基礎(chǔ)上,融合了綜合交通規(guī)劃的居民出行調(diào)查數(shù)據(jù)和研究期間當(dāng)?shù)氐奶鞖鈹?shù)據(jù),對(duì)出租車載客出行特征進(jìn)行建模分析.
本文的數(shù)據(jù)來源包含3部分:第1部分為2017年5月岳陽市出租車運(yùn)營的GPS數(shù)據(jù)(帶有是否載客記錄功能的約900輛),車輛約每15 s產(chǎn)生1條數(shù)據(jù),每條數(shù)據(jù)的相關(guān)字段如表1所示;第2部分為2017年岳陽市綜合交通規(guī)劃的居民出行調(diào)查數(shù)據(jù),以及建立的宏觀交通模型數(shù)據(jù),主要包括宏觀交通模型中各個(gè)片區(qū)的常住人口、崗位數(shù)、片區(qū)面積等;第3部分為2017年5月岳陽市天氣狀況數(shù)據(jù),為了簡化分析,將每天的天氣根據(jù)是否下雨分為“晴”、“雨”2類.
根據(jù)是否載客將出租車運(yùn)營狀態(tài)分為2類,本文針對(duì)其載客出行狀態(tài)進(jìn)行研究.由于數(shù)據(jù)量較大,常規(guī)計(jì)算機(jī)無法直接處理,因此本文在spark平臺(tái)下進(jìn)行出租車載客出行OD的抽取.抽取過程如下:
Step 1將全部出租車運(yùn)營軌跡數(shù)據(jù)讀入spark,形成1個(gè)RDD.
Step 2以車牌號(hào)為key,其余字段為value,執(zhí)行g(shù)roupByKey,將同一key的數(shù)據(jù)整合到一起.
Step 3將每一個(gè)key對(duì)應(yīng)的數(shù)據(jù)集按照日期時(shí)間升序排列,排序后的數(shù)據(jù)根據(jù)status取值對(duì)時(shí)間相鄰的2條記錄做合并處理,即如果相鄰2條記錄的status取值相同(同為1或者同為0),則合并這2條記錄,新增狀態(tài)開始和結(jié)束時(shí)間,以及對(duì)應(yīng)的開始地點(diǎn)經(jīng)緯度和結(jié)束地點(diǎn)經(jīng)緯度,用來記錄每輛車每次載客開始時(shí)間地點(diǎn)和結(jié)束時(shí)間地點(diǎn),以及空駛的開始和結(jié)束時(shí)間地點(diǎn).
Step 4對(duì)合并后的數(shù)據(jù)集依據(jù)status取值過濾,將status值為1即載客的記錄過濾出來,過濾出的數(shù)據(jù)集即為2017年5月岳陽市出租車載客出行OD.
表1 出租車運(yùn)營GPS數(shù)據(jù)字段描述Table 1 Fields description of taxi GPS data
出租車載客出行OD數(shù)據(jù)集包含表2所示字段.
表2 出租車載客出行OD數(shù)據(jù)字段描述Table 2 Fields description of passengers on board taxi OD data
在獲得出租車載客出行OD后,首先基于日期將天氣數(shù)據(jù)融入;再依據(jù)出租車載客出行的出發(fā)和到達(dá)經(jīng)緯度,將交通分區(qū)數(shù)據(jù)(含分區(qū)面積、人口、崗位分布等信息)融入.融合過程如下:
(1)天氣數(shù)據(jù)融入.
Step 1將天氣簡化為“晴”、“雨”2類,“晴”記為 1,“雨”記為 0.以日期和“晴”、“雨”構(gòu)造天氣字典,例如{20170501:1}表示2017年5月1日當(dāng)天為晴天.
Step 2通過Spark讀取1.2節(jié)中獲得的出租車載客出行OD數(shù)據(jù)集,針對(duì)每條OD數(shù)據(jù)的出發(fā)日期,從天氣字典中獲取當(dāng)天的天氣狀況代碼,在原有數(shù)據(jù)集中新增字段“天氣狀況”,將天氣狀況代碼寫入該字段.
(2)交通分區(qū)數(shù)據(jù)融入.
Step 3將交通分區(qū)shapefile文件讀入Spark集群,針對(duì)每條OD數(shù)據(jù),通過GIS空間分析模型,分析出發(fā)、到達(dá)地對(duì)應(yīng)的交通分區(qū),并將相應(yīng)的面積、人口崗位數(shù)等信息寫入OD數(shù)據(jù)集.
融合后的數(shù)據(jù)集在表2基礎(chǔ)上,新增字段描述如表3所示.
為了研究載客出行總量隨時(shí)間的分布情況,將時(shí)間做離散化處理,即將1天24 h平均劃分為48個(gè)時(shí)段(每個(gè)時(shí)段30 min),記為i,i∈{0,1,2,…,46,47},針對(duì)每次載客出行,以出發(fā)時(shí)間為基準(zhǔn)標(biāo)記每次出行所處的時(shí)段;根據(jù)是否工作日和當(dāng)天天氣(晴、雨)將數(shù)據(jù)集分為4種類型,記為α,α∈{工作日晴天,工作日雨天,周末晴天,周末雨天}.則每種類型的日期在1天不同時(shí)段的出租車載客出行量為
表3 數(shù)據(jù)融合后新增字段描述Table 3 Newly increased fields description of passengers on board taxi OD data
當(dāng)天載客出行總量為
分時(shí)段比例為
圖1為4類日期下分時(shí)段平均載客出行量占當(dāng)天總出行量的比例.
圖1 載客出行量比例時(shí)間分布Fig.1 Temporal distribution of passengers on board trip times
從圖1中可以看出,工作日晴天和雨天在7:30-09:30和19:30-21:00的差異較大,其他時(shí)段出行比例基本一致.工作日7:30-9:30為出行高峰期,工作日雨天該時(shí)段的出租車載客出行量與平峰相近,可能存在因下雨部分彈性出行降低或者采用其他交通工具出行;而工作日雨天的19:30-21:00時(shí)段的載客出行量比例則高于工作日晴天同時(shí)段的載客出行量比例.周末晴天載客出行量比例的峰值出現(xiàn)在13:30-14:30和19:00-21:00;相比之下,周末雨天在9:00-9:30會(huì)出現(xiàn)一個(gè)峰值.
通過對(duì)每次出租車載客出行時(shí)長的分析可知,出行時(shí)長在3~50 min的出行量占99.5%以上,因此主要針對(duì)該出行時(shí)長范圍進(jìn)行分析.
圖2為載客出行時(shí)長的分布情況.4類日期的載客出行量占比隨出行時(shí)長的分布基本相同,因此本文僅針對(duì)“工作日晴天”這類日期分析.從圖2可以發(fā)現(xiàn),載客出行時(shí)長6 min及以上的載客出行量占比曲線與冪函數(shù)曲線相似,因此采用冪函數(shù)進(jìn)行擬合分析.設(shè)冪函數(shù)為P(t)=αtβ,擬合得出α=364.19,β=-1.86,其中t≥6,相應(yīng)的擬合優(yōu)度R2=0.94.而載客出行時(shí)長3、4、5 min的載客出行量占比分別為4.28%,10.90%和11.06%.
圖2 載客出行時(shí)長分布Fig.2 Travel time distribution of passengers on board
結(jié)合2017年岳陽市綜合交通規(guī)劃的宏觀交通模型,以工作日晴天為例,得出岳陽市岳陽樓區(qū)、君山區(qū)和云溪區(qū)3個(gè)行政區(qū)的出租車載客發(fā)生、吸引的空間分布.圖3為出租車載客出行的空間分布,可以發(fā)現(xiàn),大部分出行發(fā)生和吸引點(diǎn)位集中在圖4所示的鐵西片區(qū)、南湖片區(qū)和八字門片區(qū).
圖3 出租車載客出行空間分布Fig.3 Spatial distribution of passengers on board trips
圖4 出租車載客出行高密度區(qū)域Fig.4 High density districts of passengers on board trips
圖5為各片區(qū)出租車載客出行發(fā)生吸引量分布,可以發(fā)現(xiàn),鐵西片區(qū)、南湖片區(qū)和八字門片區(qū)的出租車載客出行量占了全市的約80%.其中,南湖片區(qū)的出租車載客發(fā)生量占全市的60%以上,吸引量也超過了55%.南湖片區(qū)是岳陽市區(qū)的核心區(qū),集中了大量出租車出行需求.
圖5 各片區(qū)出租車載客出行量分布Fig.5 Passengers on board trips ratio of different districts
為了進(jìn)一步探究區(qū)域常住人口數(shù)、崗位數(shù)、區(qū)域面積、工作日與周末、天氣、每天各個(gè)時(shí)段等因素對(duì)出租車載客出行量的影響,本節(jié)分別用多元線性回歸模型和RBF神經(jīng)網(wǎng)絡(luò)模型進(jìn)行回歸分析.自變量包括片區(qū)常住人口數(shù)(X1)、片區(qū)崗位數(shù)(X2)、片區(qū)面積(X3)、是否工作日(X4)、是否晴天(X5)及時(shí)段(X6),因變量為片區(qū)分時(shí)段出租車載客出行量(Y).
由于變量之間量綱不同且取值差異較大,因此在進(jìn)行回歸分析前,先對(duì)變量做min-max標(biāo)準(zhǔn)化處理,即對(duì)每個(gè)變量按式(4)處理.
式中:x*為x標(biāo)準(zhǔn)化之后的值;min(X)為向量X中的最小值;max(X)為向量X中的最大值.
完成數(shù)據(jù)標(biāo)準(zhǔn)化之后,即可進(jìn)行多元線形回歸分析和RBF神經(jīng)網(wǎng)絡(luò)回歸分析.
取置信度為95%,對(duì)Y與X1~X6做多元線性回歸分析.自變量回歸系數(shù)和對(duì)應(yīng)的P值結(jié)果如表4所示.
表4 多元線性回歸結(jié)果Table 4 Results of multiple linear regression
從表4可以發(fā)現(xiàn),在置信度為95%的條件下,常住人口數(shù)與是否工作日2個(gè)變量的P值遠(yuǎn)大于0.05,因此應(yīng)剔除這2個(gè)變量.得到的R2=0.68,表明因變量與其余4個(gè)自變量之間有較強(qiáng)的相關(guān)性.從而可以得出Y與Xi的關(guān)系為
將標(biāo)準(zhǔn)化之后的全部6個(gè)自變量Xi作為輸入,因變量Y作為輸出,使用Matlab自帶的RBF神經(jīng)網(wǎng)絡(luò)工具箱進(jìn)行回歸分析.為了驗(yàn)證模型有效性及防止過擬合,將歸一化后的數(shù)據(jù)集隨機(jī)等分為10份,進(jìn)行10折交叉驗(yàn)證,每次以其余9份數(shù)據(jù)作為RBF神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,剩下的1份作為測試集,計(jì)算測試集的擬合優(yōu)度R2,結(jié)果如圖6所示.
每次的擬合優(yōu)度R2落在0.64~0.81間,平均值為0.72,總體可以認(rèn)為RBF神經(jīng)網(wǎng)絡(luò)模型對(duì)于全部6個(gè)自變量整體回歸效果較好.
根據(jù)3.2節(jié)多元線性回歸分析的結(jié)果,剔除常住人口數(shù)與是否工作日2個(gè)變量,僅考慮4個(gè)自變量,同樣采用RBF神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸分析并做10折交叉驗(yàn)證,結(jié)果如圖7所示.
每次的擬合優(yōu)度R2落在0.69~0.88之間,平均值為0.78,比用全部6個(gè)自變量擬合效果更優(yōu).同時(shí),與多元線性回歸模型相比,RBF神經(jīng)網(wǎng)絡(luò)回歸模型擬合效果更好,且模型穩(wěn)定.
圖6 6個(gè)自變量RBF神經(jīng)網(wǎng)絡(luò)回歸10折交叉驗(yàn)證擬合優(yōu)度Fig.6 R2of 10-fold cross-validation on 6 independent variables RBF neural network regression
圖7 4個(gè)自變量RBF神經(jīng)網(wǎng)絡(luò)回歸10折交叉驗(yàn)證擬合優(yōu)度Fig.7 R2of 10-fold cross-validation on 4 independent variables RBF neural network regression
通過多元線性回歸模型分析,岳陽市各個(gè)片區(qū)出租車載客出行量與片區(qū)崗位數(shù)、片區(qū)面積、天氣狀況及出行時(shí)段有較強(qiáng)的線性相關(guān)性.而從RBF神經(jīng)網(wǎng)絡(luò)回歸分析可知,片區(qū)常住人口數(shù)與是否工作日2個(gè)變量也在一定程度上對(duì)片區(qū)出租車載客出行量產(chǎn)生影響.
本文基于出租車GPS軌跡大數(shù)據(jù)、居民出行調(diào)查數(shù)據(jù)、城市人口土地利用數(shù)據(jù)及天氣數(shù)據(jù),首先對(duì)城市出租車載客出行進(jìn)行了時(shí)空分布研究,得出對(duì)于岳陽市而言,大部分的出租車出行都是集中在城市核心區(qū)的結(jié)論.在此基礎(chǔ)上,分別建立多元線性回歸模型與RBF神經(jīng)網(wǎng)絡(luò)回歸模型對(duì)出租車載客出行量與片區(qū)常住人口數(shù)、崗位數(shù)、片區(qū)面積、是否工作日、是否晴天、時(shí)段之間的關(guān)系進(jìn)行分析,得出崗位數(shù)、片區(qū)面積、是否晴天和時(shí)段與出租車載客出行量之間具有較強(qiáng)的線性相關(guān)性.而RBF神經(jīng)網(wǎng)絡(luò)通過大量數(shù)據(jù)的學(xué)習(xí),擬合的效果比多元線性模型更好.通過10折交叉驗(yàn)證,表明該模型具有較強(qiáng)的可靠性.
本文的不足之處在于1個(gè)月中周末數(shù)據(jù)的樣本量較小,存在一定的偶然性,可能會(huì)對(duì)結(jié)果產(chǎn)生誤差,后續(xù)研究可以增加數(shù)據(jù)量進(jìn)一步分析.此外,在數(shù)據(jù)資源充足的情況下,可進(jìn)一步探索與岳陽城市定位相似的其他城市出租車載客出行特征,尋找其中的異同點(diǎn);同時(shí),可將以岳陽市為代表的一類城市與國內(nèi)大都市(北京、上海等)的出租車載客出行特征進(jìn)行對(duì)比,作為該類城市交通發(fā)展的參考依據(jù).
參考文獻(xiàn):
[1]周洋.基于出租車數(shù)據(jù)的城市居民活動(dòng)空間與網(wǎng)絡(luò)時(shí)空特性研究[D].武漢:武漢大學(xué),2016.[ZHOU Y.Study on human activity space patterns and network spatial temporal characteristics in urban cities using taxi trajectory data[D].Wuhan:Wuhan University,2016.]
[2]呂振華,吳健平,姚申君,等.基于FCD的出租車運(yùn)營特征分析:以上海市為例[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2017(3):133-144.[LV Z H,WU J P,YAO S J,et al.FCD-based analysis of taxi operation characteristics:A case of Shanghai[J].Journal of East China Normal University(Natural Science Edition),2017(3):133-144.]
[3]TANG J J,LIU F,WANG Y H,et al.Uncovering urban human mobility from large scale taxi GPS data[J].Physica A,2015(438):140-153.
[4]TU J F,DUAN Y C.Detecting congestion and detour of taxi trip via GPS data[C].IEEE Second International Conference on Data Science in Cyberspace,2017.
[5]PHIBOONBANAKIT T,HORANONT T.How does taxi driver behavior impact their profit?Discerning the real driving from large scale GPS traces[C].Ubicomp/ISWC’16 Adjunct,Heidelberg,Germany,2016.
[6]FANHAS R,SAPTAWATI G.Discovering frequent origin-destination flow from taxi GPS data[C].IEEE International Conference on Data & Software Engineering,2016.
[7]LIU J,YU X,XU Z,et al.A cloud-based taxi trace mining framework for smart city[J].Software:Practice and Experience,2017(47):1081-1094.
[8]YAO Z G,GENG S G,WANG B Q.Comparison of operational models in taxi industry based on performance assessment[J].Journal of Transportation Systems Engineering and Information Technology,2017,17(3):1-6.