徐志鋒 于歡 何兵
摘 ?要:以深圳市作為研究區(qū)域,利用網(wǎng)格聚類的方法分析居民出行的熱點(diǎn)區(qū)域,首先將深圳市行政區(qū)域圖劃分成200×200米的網(wǎng)格,利用ArcGIS空間連接方法得到每個(gè)網(wǎng)格內(nèi)包含的路段、位置等信息,然后將出租車GPS軌跡點(diǎn)與網(wǎng)格圖進(jìn)行連接,統(tǒng)計(jì)落在每個(gè)網(wǎng)格內(nèi)的出租車GPS軌跡點(diǎn)數(shù)量,按照由高到底的順序輸出為文本數(shù)據(jù),最后利用jieba和wordcloud對熱點(diǎn)區(qū)域進(jìn)行可視化,熱點(diǎn)路段和熱點(diǎn)區(qū)域的劃分可為交通規(guī)劃部門疏導(dǎo)人流、規(guī)劃道路等提供一定的參考。
關(guān)鍵詞:網(wǎng)格聚類;熱點(diǎn)分析;軌跡數(shù)據(jù);時(shí)空分布
中圖分類號(hào):P209 ? ? ? ? ?文獻(xiàn)標(biāo)志碼:A ? ? ? ? 文章編號(hào):2095-2945(2020)01-0050-03
Abstract: This paper takes Shenzhen as the research area, uses grid clustering method to extract taxi spatio-temporal hotspots, divides map of Shenzhen into 200×200 meters grids, uses ArcGIS spatial connection method to get the information of sections and positions contained in each grid, and then connects the points of taxi GPS trajectory with grid map. The number of GPS trajectories in each grid is counted and sorted according to the order of the trajectory points from high to low. The hot spots are visualized by using Jieba participle and wordcloud. The division of hot spots and sections can provide a reference for traffic departments to guide the management of traffic flow.
Keywords: grid clustering; hotspot analysis; trajectory data; spatial and temporal distribution
1 概述
近年來,隨著經(jīng)濟(jì)社會(huì)的快速發(fā)展,居民的出行需求越來越大。出租車作為城市客運(yùn)交通的重要組成部分,具有快捷、舒適、靈活等優(yōu)點(diǎn),依然是城市居民短途出行的最佳方式[1-2],居民的出行行為和城市的功能結(jié)構(gòu)密切相關(guān),利用出租車GPS軌跡數(shù)據(jù),挖掘居民出行的熱點(diǎn)區(qū)域[3],能夠彌補(bǔ)基于土地利用的靜態(tài)城市規(guī)劃對人類日常活動(dòng)考慮不足的弊端,能夠促進(jìn)城市規(guī)劃及管理更加關(guān)注人的行為的制約及能動(dòng)因素,深入了解居民個(gè)性化的服務(wù)需求,從而使城市規(guī)劃更加精細(xì)[4]。出租車車載GPS數(shù)據(jù)準(zhǔn)確地記錄了出租車載客或者空載時(shí)的狀態(tài)信息,具有數(shù)據(jù)可靠、采集高效、數(shù)據(jù)量大等優(yōu)點(diǎn),已經(jīng)成為居民出行研究的主要數(shù)據(jù)源之一。目前大部分學(xué)者采用的是基于密度聚類的方法進(jìn)行時(shí)空熱點(diǎn)分析的,算法需要較大的計(jì)算能力,分析得出的熱點(diǎn)區(qū)域與實(shí)際情況出入較大,為此本文采用一種基于網(wǎng)格劃分聚類的方法進(jìn)行時(shí)空熱點(diǎn)分析,首先將深圳市行政區(qū)域劃分成200×200米的網(wǎng)格,然后統(tǒng)計(jì)網(wǎng)格內(nèi)的GPS軌跡點(diǎn)的數(shù)量,按照降序的方式排序,得到GPS軌跡點(diǎn)數(shù)量最多的區(qū)域,該方法簡單有效,能夠挖掘熱點(diǎn)網(wǎng)格內(nèi)的道路、位置點(diǎn)、交通點(diǎn)等相關(guān)信息,進(jìn)而識(shí)別出居民出行的熱點(diǎn)區(qū)域。
2 研究數(shù)據(jù)
本文選取了2015年5月部分深圳市出租車車載GPS數(shù)據(jù),對深圳市居民出行狀況進(jìn)行研究。共有2015年5月1-3日、5日和7-17日共15天的軌跡數(shù)據(jù),包含了2萬臺(tái)出租車的運(yùn)營數(shù)據(jù),其中工作日的數(shù)據(jù)有8天,節(jié)假日的數(shù)據(jù)有3天,周末的數(shù)據(jù)有4天。原始數(shù)據(jù)的存儲(chǔ)格式為文本,每一天的數(shù)據(jù)被分成了若干部分,需要將這部分?jǐn)?shù)據(jù)進(jìn)行合并,處理的方式為,先將每一天的文本數(shù)據(jù)轉(zhuǎn)換成CSV格式,剔除與本文無關(guān)的字段,然后將轉(zhuǎn)換后的數(shù)據(jù)按天合并,最終得到我們需要的待處理數(shù)據(jù)。經(jīng)過上述步驟的處理后,本文保留了以下的字段的數(shù)據(jù),如表1所示:出租車的車牌號(hào)、記錄點(diǎn)的經(jīng)度、記錄點(diǎn)的緯度、GPS采集數(shù)據(jù)的時(shí)間戳、出租車瞬時(shí)速度、出租車的行駛方向和出租車的載客狀態(tài)等,其中,taxi_id 是出租車車牌號(hào);date_time為采集時(shí)間;speed為瞬時(shí)速度,單位是km/h;direction是出租車行駛方向,是以正東方向?yàn)槠鹗嫉慕嵌确较?,取值范圍?~360;status為載客與否標(biāo)識(shí), “1”為載客狀態(tài)、“0”為空車狀態(tài);lng表示出租車位置經(jīng)度;lat是緯度。
經(jīng)過相關(guān)數(shù)據(jù)處理后,數(shù)據(jù)以csv格式存儲(chǔ),以逗號(hào)為分隔符,數(shù)據(jù)的一行代表了一條GPS軌跡信息,一天約有5000萬條載客軌跡記錄,大小約為7G,15天的GPS軌跡點(diǎn)數(shù)據(jù)量約為100GB左右。數(shù)據(jù)預(yù)處理采用python的大文件處理模塊chunks進(jìn)行分塊處理,目的是加快數(shù)據(jù)處理的速度,得到每臺(tái)出租車一天內(nèi)所有的載客軌跡數(shù)據(jù),最后將預(yù)處理后的數(shù)據(jù)以csv的存儲(chǔ)方式進(jìn)行輸出保存。
3 上下車事件提取
進(jìn)行出租車軌跡數(shù)據(jù)的研究,一個(gè)重要的步驟就是提取出租車上下車點(diǎn),即提取上下車的經(jīng)緯度信息,每提取一次上下車點(diǎn),可以視作為一條載客軌跡信息。數(shù)據(jù)字段中的status代表車輛的行駛狀態(tài),是由一系列數(shù)字0和1組成的。其中0代表空駛狀態(tài),1代表載客狀態(tài)。如圖1所示,車輛狀態(tài)由0變?yōu)?可以視作一次上車事件,該點(diǎn)即為上客點(diǎn);車輛狀態(tài)由1變?yōu)?時(shí)可以看作是一個(gè)下車事件,該點(diǎn)即為下客點(diǎn)。status值連續(xù)為1,即為載客階段;值連續(xù)為0,即為空載階段,如圖2所示,首先對這輛出租車的數(shù)據(jù)按照時(shí)間字段升序排序,然后再將按照小時(shí)進(jìn)行分組,將分組后的狀態(tài)值存放到列表,獲得每個(gè)小時(shí)內(nèi)的所有載客信息(0和1)存放到一個(gè)新表當(dāng)中,判斷列表長度是否大于3,如果是,則將status狀態(tài)連續(xù)為1的數(shù)都放到列表L_1中,狀態(tài)為不連續(xù)1的數(shù)都放到列表L_2當(dāng)中,合并L_1列表,在L_1和L_2中,將每個(gè)小時(shí)內(nèi)存儲(chǔ)的連續(xù)1列表的第一個(gè)1的時(shí)間戳設(shè)為上車點(diǎn),最后一個(gè)1作為下車點(diǎn)。最后分別將代表上下車時(shí)間、經(jīng)緯度的信息存入到新表當(dāng)中。
4 熱點(diǎn)區(qū)域分析
通過上一節(jié)的上下車事件的提取,本文已經(jīng)得到了數(shù)據(jù)中每一天的載客軌跡信息,這些軌跡包括了上車點(diǎn)和下車點(diǎn)的信息,再將深圳市的行政區(qū)域圖按照200*200(米)劃分成規(guī)則網(wǎng)格,然后將深圳市的路網(wǎng)、位置點(diǎn)和交通點(diǎn)與網(wǎng)格分布進(jìn)行空間匹配,得到每個(gè)網(wǎng)格編號(hào)所對應(yīng)的道路、位置點(diǎn)和交通點(diǎn)信息。再按照早高峰、午間高峰、傍晚高峰、晚間高峰四個(gè)出行高峰段,將時(shí)間分成為7:00-9:00、11:00-13:00、17:00-19:00、20:00-22:00,對這些載客軌跡數(shù)據(jù)進(jìn)行切割,然后將這些數(shù)據(jù)與網(wǎng)格數(shù)據(jù)進(jìn)行連接數(shù)據(jù)操作,求出每個(gè)網(wǎng)格的軌跡點(diǎn)總和,再用ArcGIS的點(diǎn)密度分析工具生成GPS軌跡的點(diǎn)密度圖,如圖3所示,可以看出早、午、傍晚、晚高峰居民出行的熱點(diǎn)區(qū)域比較集中,主要分布在:福田區(qū)口岸、寶安機(jī)場、深圳西站、深圳站、羅湖口岸、深圳灣口岸、深圳寶安國際機(jī)場、深圳寶安汽車站、蛇口港、深圳北站等交通樞紐地帶。這些地方主要分布在深圳市的羅湖區(qū)、福田區(qū)、南山區(qū)等人口密集、商業(yè)繁榮的區(qū)域,居民選擇在這些區(qū)域上下車的比例較大,一方面是上下班通勤的主要目的地之一,另一方面也和這些地方擁有眾多的交通樞紐有關(guān)。
接下來以2015年5月2日(節(jié)假日)、2015年5月11日(工作日)的數(shù)據(jù)作為研究對象,統(tǒng)計(jì)位置點(diǎn)、交通點(diǎn)、地鐵點(diǎn)網(wǎng)格內(nèi)出現(xiàn)的次數(shù),然后進(jìn)行文本挖掘,按照詞頻由高到低進(jìn)行排列,用Python的WordCloud庫進(jìn)行詞云可視化,得到節(jié)假日和工作日在早間高峰、午間高峰、傍晚高峰和晚間高峰熱點(diǎn)區(qū)域的變化差異情況。
從圖4(a)中,可以看到節(jié)假日熱點(diǎn)區(qū)域,早高峰階段主要集中在深圳市羅湖小學(xué)、東方廣場、盛世嘉創(chuàng)中心、衛(wèi)檢大院、德興大廈等地方,午間高峰集中在爵士大廈、深房廣場、南方醫(yī)科大學(xué)、深圳市中醫(yī)院、南方證券大廈等地,傍晚和晚間高峰階段較為一致,集中在中旅大廈、百貨廣場大廈西座寫字樓、合作金融大廈、工人文化宮、太陽廣場等地。從圖4(b)中可以看到工作日熱點(diǎn)區(qū)域,早高峰階段主要集中在新洲小學(xué)、湖北大廈、德興大廈、廣東省銀行大廈、聯(lián)華大廈等地,午間高峰集中在南方證券大廈C座,國際商業(yè)大廈東座,南洋大廈、金凱廣場和世界金融中心等地,傍晚高峰集中在新洲小學(xué)、湖北大廈、南方證券大廈C座、深圳國際金融大廈、國際商業(yè)大廈等地,晚高峰主要集中在湖北大廈、新洲小學(xué)、眾孚小學(xué)、皇崗小學(xué)、深圳市婦幼保健院等地。
5 結(jié)束語
本文利用出租車GPS軌跡數(shù)據(jù)進(jìn)行居民出行熱點(diǎn)區(qū)域的挖掘,通過預(yù)處理規(guī)則將異常點(diǎn)剔除,通過OD匹配的算法提取了出租車的上下客點(diǎn),再通過地圖匹配的技術(shù),將GPS軌跡點(diǎn)匹配到了合適的路段上,最后通過規(guī)則網(wǎng)格聚類的方法,統(tǒng)計(jì)網(wǎng)格的GPS軌跡點(diǎn)個(gè)數(shù),從而找到熱點(diǎn)網(wǎng)格所屬的路段、位置點(diǎn)和交通點(diǎn)信息,通過分析,本文得出,深圳市熱點(diǎn)路段主要集中在:春風(fēng)路、濱海大道、濱河大道、深南大道、迎春路、建設(shè)路、友誼路等,熱點(diǎn)區(qū)域集中在:中旅大廈、羅湖小學(xué)、深圳市人民醫(yī)院、東門、太陽廣場、東方廣場、老街、國貿(mào)、赤尾、皇崗口岸、福田口岸、華強(qiáng)北、地王大廈等地,熱點(diǎn)路段和熱點(diǎn)區(qū)域的劃分對于交通規(guī)劃部門疏導(dǎo)人流、規(guī)劃道路等提供一定的參考價(jià)值。
參考文獻(xiàn):
[1]董智青,方志祥,楊喜平,等.深圳市出租車服務(wù)能力時(shí)空分析[J].測繪地理信息,2018,43(2):01-05.
[2]張俊濤,武芳,張浩.利用出租車軌跡數(shù)據(jù)挖掘城市居民出行特征[J].地理與地理信息科學(xué),2015,31(6):104-108.
[3]劉萌,鄔群勇.基于出租車OD數(shù)據(jù)的居民活動(dòng)強(qiáng)度時(shí)空特征研究[J].福州大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,46(2):02-06.
[4]馬云飛.基于出租車軌跡點(diǎn)的居民出行熱點(diǎn)區(qū)域與時(shí)空特征研究:以昆山市為例[D].南京:南京師范大學(xué),2014.