吳文昊 沈梟麒
1武漢大學遙感信息工程學院,湖北 武漢,430079
2中國礦業(yè)大學環(huán)境與測繪學院,江蘇 徐州,221116
感知是智慧城市的基礎(chǔ)[1],居民作為城市生活中的主體,研究其時空行為模式是智慧城市發(fā)展中重要的科學問題。近年來以人為核心的智慧城市理念備受重視,隨著可獲取的時空大數(shù)據(jù)類型越來越豐富,充分利用時空大數(shù)據(jù)進行居民的時空行為模式分析顯得愈發(fā)重要。地鐵刷卡數(shù)據(jù)是一種重要的時空大數(shù)據(jù),目前國內(nèi)外利用地鐵刷卡數(shù)據(jù)開展的居民行為模式研究主要集中在兩個方面:第一,研究公共交通的運營與管理[2,3];第二,居民行為模式挖掘與規(guī)律分析。
本文的研究屬于第二類。在該類研究中,如郭文露等[4]基于出行時間對居民進行分類,研究居民時空動態(tài)特征;Chen等[5]根據(jù)城市密度、雇員密度、出行人數(shù)等數(shù)據(jù),對地鐵站臺進行K-means聚類,挖掘了各站臺呈現(xiàn)出的居民行為特點;孟斌等[6]通過出行彈性測度理論,對居民在不同時段的出行彈性特征進行分析,并進一步對出行彈性空間熱點和出行彈性影響因素進行分析;翁小雄等[7]基于GBDT算法構(gòu)建分類模型,對地鐵通勤人群進行識別;Zhao等[8]通過研究居民出行的常規(guī)典型模式,對異常行為模式進行檢測。
目前對居民行為模式的研究大多對行為的時間持續(xù)性考慮有所欠缺[9]。因此本文基于深圳市連續(xù)34 d的地鐵刷卡數(shù)據(jù),結(jié)合時間興趣區(qū)域挖掘居民行為模式,分析了各類顯著模式在長時間段內(nèi)的變化規(guī)律,以探究居民各類行為模式在起止時間和持續(xù)時長上的特征。
本文研究區(qū)域為深圳市。截止2017年3月,深圳市地鐵共有8條線路開通運營,共計166個站臺。全市地鐵運營線路總長約為300 km,覆蓋深圳市羅湖區(qū)、福田區(qū)、南山區(qū)、寶安區(qū)、龍華區(qū)、龍崗區(qū)6個市轄行政區(qū)。
深圳市地鐵主要使用深圳市公共交通智能卡進行支付。本研究使用2017-01-14—2017-02-16共計34 d的深圳市地鐵刷卡數(shù)據(jù)進行分析。原始刷卡數(shù)據(jù)為流水數(shù)據(jù),包含的主要字段有:卡ID、流水號、交易類型(進站或出站)、交易時間、地鐵線路、站臺名稱等。研究時段內(nèi)的深圳市地鐵刷卡數(shù)據(jù)共有116 321 352條,不同的ID卡號共有6 677 575個。日均刷卡次數(shù)3 421 216條,每張卡的日均刷卡次數(shù)為1.95次。
對原始的地鐵刷卡數(shù)據(jù)的數(shù)據(jù)預處理主要包含3個部分:數(shù)據(jù)缺失值處理、出行數(shù)據(jù)匹配、行為數(shù)據(jù)匹配。
1)數(shù)據(jù)缺失值處理。對于屬性缺失的數(shù)據(jù),在統(tǒng)計觀察數(shù)據(jù)的整體特性后發(fā)現(xiàn)主要是刷卡站臺缺失,于是利用屬性間的潛在關(guān)系對缺失值進行填補。填補的方法為利用所有非缺失數(shù)據(jù)的刷卡站臺得出每個站臺對應(yīng)的后端編號,再利用缺失數(shù)據(jù)的后端編號匹配對應(yīng)的刷卡站臺。
2)出行數(shù)據(jù)匹配。對于流水數(shù)據(jù),需要將進站數(shù)據(jù)與對應(yīng)的出站數(shù)據(jù)進行匹配,形成一條完整的地鐵出行數(shù)據(jù)。匹配方法為提取當天每個ID卡號的數(shù)據(jù),按照刷卡時間和交易類型等屬性進行匹配。
3)行為數(shù)據(jù)匹配。為研究居民的行為模式,本文采用了如下假設(shè):若居民當日存在多次地鐵出行行為,則其從某站臺出站之后和再次從同站臺進站乘車的時間間隔內(nèi),該居民在該站臺范圍內(nèi)進行了某種行為[10]。因此,需要對居民的地鐵出行記錄再次匹配形成居民的行為記錄。匹配方法為提取當天每個ID卡號的地鐵出行數(shù)據(jù),按照出行時間和站臺等屬性進行匹配。
興趣點(points of interests)表示引起人群興趣的地理位置,興趣區(qū)域(area of inte-rests)表示引起人群興趣的一個區(qū)域范圍。將這個概念引申至時間屬性,就是時間興趣區(qū)域[9]。以居民行為的開始時間為x軸,居民行為的結(jié)束時間為y軸,建立二維坐標系。借鑒興趣區(qū)域的概念,在這個坐標系中行為密集的區(qū)域便是人群在時間上感興趣的一個區(qū)域,即時間興趣區(qū)域。
如圖1所示,由于行為的開始時間必然早于行為的結(jié)束時間,故該坐標系中的點都在y=x的上方。對于行為點a,其開始時間為x a,結(jié)束時間為y a,行為的持續(xù)時間為(y a-x a)。而對于密集的時間興趣區(qū)域A和B,顯然行為模式A的開始時間早于B而結(jié)束時間晚于B,且A具有較長的行為持續(xù)時間,B具有較短的行為持續(xù)時間。
圖1 時間興趣區(qū)域Fig.1 Time Area of Interests
因此,通過時間興趣區(qū)域能夠直觀的展示行為在開始時間、結(jié)束時間和持續(xù)時間上的特點。
CLIQUE算法是一種基于密度和網(wǎng)格的聚類算法,也是最經(jīng)典的高維子空間聚類算法之一[11]。其基本思想是將數(shù)據(jù)空間按照一定規(guī)則進行網(wǎng)格劃分,將落入網(wǎng)格單元的樣本數(shù)目作為網(wǎng)格單元的密度,若一個網(wǎng)格單元的密度超過事先設(shè)定好的閾值,則認為該網(wǎng)格單元是稠密的。CLIQUE算法的最終目標是找出所有連通稠密網(wǎng)格單元的最大單元集。其具體步驟為:
1)設(shè)定網(wǎng)格長度d和密度閾值s,對數(shù)據(jù)空間的每一維進行等長的網(wǎng)格劃分,并記錄每個網(wǎng)格單元的密度,找出當前維度子空間中密度大于預設(shè)閾值的網(wǎng)格單元,將其標記為候選稠密網(wǎng)格單元。
2)使用最小描述長度(minimal description length,MDL)剪枝技術(shù)修剪子空間,控制候選稠密網(wǎng)格單元的增長速度。
3)遍歷所有候選稠密網(wǎng)格單元,基于貪心算法找出最大連通網(wǎng)格單元集,得到最終的聚集簇類。
針對缺失數(shù)據(jù)進行缺失值填補后,原始流水數(shù)據(jù)的有效率從67.82%提升至99.99%,僅有一條數(shù)據(jù)無法找到相對應(yīng)的站臺。出行數(shù)據(jù)匹配剔除了無法匹配成出行記錄的流水數(shù)據(jù)。行為數(shù)據(jù)匹配后,最終得到的行為數(shù)據(jù)共有20 070 388條,卡號共4 242 836個,數(shù)據(jù)利用率為69.0%,卡號占原始數(shù)據(jù)的63.5%。深圳市2017年常住人口為1 252.9萬,該數(shù)據(jù)集的用戶數(shù)占常住人口的33.9%,因此基于該數(shù)據(jù)的分析結(jié)果具有一定說服力。表1為居民2017-01-27的部分行為數(shù)據(jù)。
表1 部分居民行為數(shù)據(jù)展示Tab.1 Parts of Residents’Activity Data
對深圳市34 d的居民行為數(shù)據(jù)進行CLIQUE聚類。其中,CLIQUE算法的兩個參數(shù)分別設(shè)置如下。
1)網(wǎng)格長度d=108,其含義為將深圳地鐵的運營時間6:00—24:00時劃分為108份,每個網(wǎng)格長度所涵蓋的時間范圍為10 min。
由于每日的數(shù)據(jù)較多,故隱藏了非聚類點以便更清晰的看出聚類結(jié)果。圖2展示了1月17日(工作日)和1月27日(節(jié)假日)的聚類結(jié)果,圖2中的橫軸為行為開始時間,縱軸為行為結(jié)束時間。從聚類結(jié)果可以看出大致有4類時間興趣區(qū)域,每類時間興趣區(qū)域代表一種顯著行為模式,故對每種時間興趣區(qū)域進行標識以便分析。
圖2 CLIQUE聚類結(jié)果展示Fig.2 Result of CLIQUE Clustering
對34 d的聚類結(jié)果進行分析后發(fā)現(xiàn):
模式1時間興趣區(qū)域的開始時間集中于7:00—11:00時,結(jié)束時間集中于17:00—22:00時,在工作日表現(xiàn)為一種長持續(xù)時長行為模式,在節(jié)假日時表現(xiàn)為中短持續(xù)時長行為模式,故推測其為工作行為模式;
模式2在節(jié)假日出現(xiàn)頻率較高,在工作日較少出現(xiàn),其時間興趣區(qū)域的開始時間在8:00—12:00時,結(jié)束時間在10:00—13:00時,是一種晨午間的中持續(xù)時長行為模式;
模式3時間興趣區(qū)域的開始時間分布于12:00—18:00時,結(jié)束時間分布于12:00—19:00時,在工作日時表現(xiàn)為短持續(xù)時長行為模式,在節(jié)假日表現(xiàn)為中長持續(xù)時長行為模式,因此推測其為下午娛樂行為模式;
模式4時間興趣區(qū)域的開始時間集中在17:00—22:00時,結(jié)束時間集中在19:00—23:00時,在工作日和節(jié)假日均表現(xiàn)為中短持續(xù)時長行為模式,推測其為晚間娛樂行為模式。
4類時間興趣區(qū)域在每天均有不同的表現(xiàn),但每類行為模式的行為開始時間范圍較為固定?;诖耍瑢⑿袨殚_始時間分為6:00—12:00時(早間行為模式,對應(yīng)模式1和模式2),12:00—18:00時(午間行為模式,對應(yīng)模式3),18:00—24:00時(晚間行為模式,對應(yīng)模式4)3個時段,對其時間興趣區(qū)域的變化規(guī)律進行分析,從而進一步探究居民行為模式在起止時間和持續(xù)時長上的特點。
提取CLIQUE聚類結(jié)果中的每一類時間興趣區(qū)域的重心,從而得到該類時間興趣區(qū)域所代表的行為模式的平均行為開始時間和平均行為結(jié)束時間,如圖3~圖5所示。其中點的大小表示該聚類簇內(nèi)點數(shù)的多少,即時間興趣區(qū)域內(nèi)包含行為數(shù)的多少。點越大表明該行為模式在當天越顯著。
圖3 早間行為模式變化規(guī)律分析Fig.3 Analysis of the Change of Residents’Morning Activity Pattern
1)早間行為模式變化分析。圖3展示了早間模式的行為開始時間與行為結(jié)束時間。由圖3可以發(fā)現(xiàn)早間行為模式中有一串顯著的點,其開始時間集中于8:00—9:00時,結(jié)束時間集中于18:00—20:00時,這進一步驗證了聚類結(jié)果分析中對模式1為工作模式的推測。工作模式在正常周末、春節(jié)前一天和非法定假日的元宵節(jié)有略微減少,在春節(jié)期間的前4天消失,后3天略微出現(xiàn)。工作模式的開始時間十分穩(wěn)定的集中于8:00—9:00時,表明了深圳市公司員工的上班時間較為固定;結(jié)束時間在正常工作日集中于19:00時前后,但在正常周末、法定調(diào)休上班的周末、春節(jié)前幾天和元宵節(jié)情人節(jié)均有半小時左右的提前,表明了深圳市絕大多數(shù)公司除春節(jié)放假4 d外幾乎無休加班,但在加班日及節(jié)日的下班時間略微提前,日均上班時間約為10 h。在周末、元宵節(jié)和春節(jié)及其前一周時,檢測到一類顯著異于工作模式的新模式,其開始時間集中于9:00—12:00時,結(jié)束時間則分布于9:00—17:00時,對應(yīng)于聚類結(jié)果分析中的模式2。從春節(jié)前一周的行為可以發(fā)現(xiàn),模式2與模式1并非一類人群的行為。模式1是工作模式,代表上班族的行為,而進行模式2所代表行為的人群提前一周開始進行與春節(jié)相似的行為,因此代表了提前放假人群的行為(如學生、工作強度較低的上班族、退休人群等),故模式2是一種早間的零散娛樂行為模式,該行為的持續(xù)時長為0.25~4 h不等。
2)午間行為模式變化分析。如圖4所示,午間行為模式的開始時間廣泛分布于12:00—18:00時,結(jié)束時間相對集中于14:00—19:00時,在圖4中表現(xiàn)為一天中一連串相對集中的點,對應(yīng)于聚類結(jié)果分析中的模式3??梢园l(fā)現(xiàn)該模式在正常工作日時均無顯著點;在周末、春節(jié)前一周、春節(jié)期間和元宵節(jié)時有顯著點,顯著點開始時間集中于15:00時前后,結(jié)束時間集中于17:00時前后,在春節(jié)前3天 該模式的開始時間有所提前。且該模式的行為持續(xù)時間普遍在2 h左右,驗證了其是午間短期娛樂行為模式的推測,并進一步可以推測該類娛樂行為模式是一種晚飯及晚飯后的休息娛樂行為。注意到從1月31日(新年初三)開始,春節(jié)期間出現(xiàn)了一種結(jié)束時間在22:00時以后的模式,而春節(jié)的前3天沒有。由此推測居民在春節(jié)前期偏好午間的中短娛樂行為,或在家中與家人共度,直到初三才開始與親朋好友相約聚會。
圖4 午間行為模式變化規(guī)律分析Fig.4 Analysis of the Change of Residents’Afternoon Activity Pattern
3)晚間行為模式變化分析。如圖5所示,晚間行為模式的開始時間集中于18:00—19:00時,結(jié)束時間則分布于18:00—22:00時,對應(yīng)于聚類結(jié)果分析中的模式4,是一種開始時間較為固定,結(jié)束時間分布較廣的行為模式。該模式的顯著點較多出現(xiàn)于周末,在元宵節(jié)、情人節(jié)和春節(jié)前一周的工作日也有出現(xiàn),驗證了該模式是晚間娛樂行為模式的推測。而在春節(jié)期間尤其是大年初一前后,該類模式卻驟減至幾乎消失,說明春節(jié)期間晚間出行的人較少。
圖5 晚間行為模式變化規(guī)律分析Fig.5 Analysis of the Change of Residents’Evening Activity Pattern
本文提出了一種基于地鐵刷卡數(shù)據(jù)探究居民行為模式及其在起止時間和持續(xù)時長上特點的方法。該方法利用時間興趣區(qū)域和CLIQUE聚類挖掘出4類顯著的居民行為模,通過對每類行為模式在長時間段內(nèi)的變化進行分析,驗證了之前對每類行為模式類型的推測,揭示了深圳市居民的固定行為模式,為理解居民行為模式提供了一種思路。該方法理論上可拓展應(yīng)用于揭示不同功能區(qū)域之間居民行為模式的常態(tài)和變化,實現(xiàn)對異常行為模式的檢測。