李 瑩,涂志德,劉艷芳,2*,唐名陽(yáng),王楠楠
(1. 武漢大學(xué) 資源與和環(huán)境科學(xué)學(xué)院,湖北 武漢 430079;2. 武漢大學(xué)教育部地理信息系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079)
城市作為一個(gè)復(fù)雜的系統(tǒng),存在著一定的秩序與模式,當(dāng)各種社會(huì)活動(dòng)開(kāi)始聚集,就形成了居民區(qū)、商業(yè)中心等功能區(qū)[1]。城市功能區(qū)不僅承載著社會(huì)經(jīng)濟(jì)發(fā)展的各項(xiàng)職能[2],具有聚集和輻射能力,而且還是城市空間結(jié)構(gòu)的重要體現(xiàn)[3]。識(shí)別城市功能區(qū)的空間分布特征,有利于發(fā)現(xiàn)城市空間特征、優(yōu)化土地利用結(jié)構(gòu)、促進(jìn)資源的有效配置,對(duì)城市規(guī)劃和經(jīng)濟(jì)建設(shè)具有重要意義。
傳統(tǒng)的功能區(qū)識(shí)別主要是基于土地利用數(shù)據(jù)、遙感影像數(shù)據(jù)、實(shí)地調(diào)研、問(wèn)卷調(diào)查、統(tǒng)計(jì)資料以及相關(guān)圖書(shū)資料等,利用統(tǒng)計(jì)分析、計(jì)量模型或歸納演繹等方法進(jìn)行識(shí)別,但這些數(shù)據(jù)和方法只能靜態(tài)模擬城市現(xiàn)象,存在時(shí)效性不高、數(shù)據(jù)量大、成本較高、主觀性較強(qiáng)的缺點(diǎn),缺乏對(duì)居民這一城市空間活動(dòng)主體的考量。隨著大數(shù)據(jù)的發(fā)展,人們更加注重對(duì)居民行為數(shù)據(jù)的采集與分析,進(jìn)而考慮居民活動(dòng)對(duì)城市空間組織和結(jié)構(gòu)的影響[4]。目前,研究者多基于簽到數(shù)據(jù)[5]、手機(jī)基站數(shù)據(jù)[6]、軌跡數(shù)據(jù)[7]、公交刷卡數(shù)據(jù)[8]、騰訊LBS 數(shù)據(jù)[9]、GPS[10-11]等數(shù)據(jù),結(jié)合POI 數(shù)據(jù),采用聚類(lèi)分析、因子分析等方法[12]進(jìn)行功能區(qū)識(shí)別研究。研究單元多采用格網(wǎng)、Delaunay 三角網(wǎng)或OpenStreetMap(OSM)路網(wǎng)數(shù)據(jù)劃分地塊數(shù)據(jù)[13]?,F(xiàn)有研究中多采用聚類(lèi)分析方法對(duì)地理空間數(shù)據(jù)進(jìn)行功能區(qū)識(shí)別[14],但缺乏對(duì)時(shí)間序列地理數(shù)據(jù)的研究[15]。盡管較長(zhǎng)的時(shí)間序列數(shù)據(jù)能表達(dá)出更多的土地利用信息[16];但時(shí)間序列越長(zhǎng),數(shù)據(jù)維度越高,不僅會(huì)引發(fā)數(shù)據(jù)的維數(shù)災(zāi)難,而且很多距離度量會(huì)失效。因此,對(duì)于時(shí)間序列的相似性度量,研究者多采用降維的方法[17],雖然有研究利用動(dòng)態(tài)時(shí)間扭曲(DTW)距離對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行聚類(lèi)[18-19];但不夠深入,并未考慮能分別降低時(shí)間復(fù)雜度和解決不對(duì)稱(chēng)問(wèn)題的LB_Keogh 距離[20]和LB_Hust 距離[21]的適用性。目前鮮有研究探索基于時(shí)間相似性度量的聚類(lèi)算法在識(shí)別功能區(qū)方面的潛力。
本文基于滴滴出租車(chē)訂單數(shù)據(jù),提取了上下車(chē)點(diǎn);再采用OSM 路網(wǎng)數(shù)據(jù),將研究區(qū)劃分為3 185 個(gè)研究單元,并構(gòu)建高維居民出行時(shí)空序列;然后將DTW 距離、泛化的LB_Keogh 距離以及LB_Hust 距離與傳統(tǒng)的歐氏距離進(jìn)行相似度刻畫(huà)比較;最后采用PAM 算法進(jìn)行聚類(lèi)分析,將POI 數(shù)據(jù)作為輔助數(shù)據(jù),進(jìn)而識(shí)別城市功能區(qū),以期為成都市城市規(guī)劃提供決策依據(jù)。
成都市作為四川省省會(huì)城市,位于四川省中部、四川盆地西部,下轄11 個(gè)區(qū)、4 個(gè)縣、代管5 個(gè)縣級(jí)市,即錦江區(qū)、青羊區(qū)、金牛區(qū)、武侯區(qū)、成華區(qū)、龍泉驛區(qū)、青白江區(qū)、新都區(qū)、溫江區(qū)、雙流區(qū)、郫都區(qū)、都江堰市、彭州市、邛崍市、崇州市、簡(jiǎn)陽(yáng)市、金堂縣、大邑縣、蒲江縣和新津縣。成都市不僅具有優(yōu)越的自然資源,還是國(guó)家歷史文化名城,集經(jīng)濟(jì)發(fā)展與歷史底蘊(yùn)于一體,對(duì)促進(jìn)西部城市的發(fā)展具有重要作用。本文選取的研究區(qū)為四川省成都市四環(huán)區(qū)域內(nèi),面積約為541 km2。
1.2.1 滴滴訂單數(shù)據(jù)
原始出租車(chē)數(shù)據(jù)來(lái)源于滴滴出行數(shù)據(jù)(https://gaia.didichuxing.com),時(shí)間為2016 年11 月14 日-11 月20 日,空間范圍為成都市四環(huán)區(qū)域內(nèi),所有軌跡數(shù)據(jù)采集精度為2 ~4 s。每條訂單數(shù)據(jù)包括訂單ID、開(kāi)始計(jì)費(fèi)時(shí)間、結(jié)束計(jì)費(fèi)時(shí)間、上車(chē)位置經(jīng)度、上車(chē)位置緯度、下車(chē)位置經(jīng)度和下車(chē)位置緯度。對(duì)原始數(shù)據(jù)進(jìn)行上下車(chē)坐標(biāo)提取等數(shù)據(jù)清洗后,得到有效訂單數(shù)據(jù)總計(jì)1 628 134 條,數(shù)據(jù)格式如表1所示。
表1 訂單數(shù)據(jù)格式
1.2.2 OSM 路網(wǎng)數(shù)據(jù)
路網(wǎng)數(shù)據(jù)來(lái)源于OSM(表2),范圍為成都市四環(huán)區(qū)域內(nèi),共計(jì)12 442 條道路數(shù)據(jù),其中一級(jí)道路909 條,二級(jí)道路741 條,人行道路1 092 條,非機(jī)動(dòng)車(chē)道、小區(qū)內(nèi)部道路以及未分級(jí)道路9 700 條。提取路網(wǎng)中雙行道道路的中心線,去除過(guò)于細(xì)小的立交橋、轉(zhuǎn)彎道和小區(qū)內(nèi)部人行道后,對(duì)數(shù)據(jù)進(jìn)行拓?fù)錂z查。由于沿道路分布的設(shè)施便于人們生活和工作,且人們的出行也往往以道路為參考,不同等級(jí)的道路將城市分割為不同的土地利用單元[22],因此本文采用真實(shí)路網(wǎng)劃分研究區(qū)域,共計(jì)3 185 個(gè)研究單元,如圖1所示。
圖1 OSM 路網(wǎng)數(shù)據(jù)
1.2.3 POI 數(shù)據(jù)
POI 數(shù)據(jù)從百度地圖API 爬取,共計(jì)541 047 個(gè)POI 點(diǎn)。原始POI 數(shù)據(jù)屬性包括名稱(chēng)、經(jīng)度、緯度、地址、電話和類(lèi)型(表3)。POI 一級(jí)類(lèi)包括美食、酒店、購(gòu)物、生活服務(wù)、麗人、旅游景點(diǎn)、休閑娛樂(lè)、運(yùn)動(dòng)健身、教育培訓(xùn)、文化傳媒、醫(yī)療、汽車(chē)服務(wù)、交通設(shè)施、金融、房地產(chǎn)、公司企業(yè)、政府機(jī)構(gòu)、出入口和自然地物19 個(gè)。為區(qū)分研究單元的主體功能,篩選出對(duì)研究單元影響較大的POI 類(lèi)別[23-24],再對(duì)POI 點(diǎn)進(jìn)行坐標(biāo)轉(zhuǎn)換和范圍篩選,得到POI 分類(lèi)結(jié)果(表4)。
表3 POI 數(shù)據(jù)格式
表4 POI 分類(lèi)表
在基于時(shí)間序列數(shù)據(jù)發(fā)現(xiàn)特征和劃分功能區(qū)的研究中,多采用密度數(shù)據(jù)[22,25-26]。本文首先提取上下車(chē)點(diǎn)以及每個(gè)研究單元(街區(qū))的面積,并計(jì)算街區(qū)密度數(shù)據(jù)[24,27];再提取人流特征。式中,Dpick-up為上車(chē)人數(shù);Ddrop-off為下車(chē)人數(shù);街區(qū)面積的單位為km2;Dactiveness為人口活動(dòng)密度;Dinflow為人口流入密度。
本文基于上述模型,獲取了7 d 內(nèi)共計(jì)168 h 的人口流動(dòng)特征(圖2),考慮到數(shù)據(jù)的有效性以及數(shù)據(jù)計(jì)算的復(fù)雜度,選取人口活動(dòng)密度和人口流入密度特征構(gòu)建了336 維時(shí)間序列表征居民出行特征。
圖2 區(qū)域樣本時(shí)間序列特征
度量時(shí)間序列相似性的方法包括歐氏距離、DTW距離等[28]。與歐氏距離相比,DTW 距離對(duì)時(shí)間序列的突變或異常點(diǎn)不敏感,適用于時(shí)間序列的數(shù)據(jù)度量;相應(yīng)地,其時(shí)間復(fù)雜度比歐氏距離高很多,在數(shù)據(jù)量很大時(shí),將影響計(jì)算效率[29]。為減少DTW 距離的時(shí)間復(fù)雜度和不對(duì)稱(chēng)的問(wèn)題,LB_Keogh[20]、LB_Hust[21]距離相繼被提出。
2.2.1 DTW 距離
時(shí)間序列相似性的度量方法主要分為基于數(shù)據(jù)值度量和基于趨勢(shì)度量?jī)纱箢?lèi),DTW 距離屬于基于趨勢(shì)度量中波譜分析的一類(lèi)[30]。DTW 是進(jìn)行序列匹配的一種方法,最早應(yīng)用于文檔匹配中,允許數(shù)據(jù)在時(shí)間軸上的平移,兩條時(shí)間序列保持形態(tài)相似即可[31]。本文對(duì)每?jī)蓚€(gè)街區(qū)單元的上下車(chē)構(gòu)建時(shí)間序列X={x1,x2,…,xm},Y={y1,y2,…,yn}(m和n表示時(shí)間維度,均為336),并建立時(shí)間序列X、Y的距離矩陣:
X、Y的彎曲路徑為:
彎曲路徑需滿(mǎn)足3 個(gè)條件:
1)有界性。X和Y的彎曲路徑必定從左下角出發(fā),在右上角結(jié)束,即r1=d11,rk=dmn。
2)連續(xù)性。只能與自己相鄰的點(diǎn)對(duì)齊,不能跨越某一點(diǎn)進(jìn)行匹配,即rk=dij,rk-1=di'j'(i-i'≤1)。
3)單調(diào)性。在時(shí)間維上必須保持單調(diào)性,即rk=dij,rk-1=di'j'(i-i'≥0)。
DTW(X,Y)的求取過(guò)程就是尋找最短路徑的過(guò)程,其最終路徑為:
因此,本文定義累加距離作為兩個(gè)序列的相似度,采用動(dòng)態(tài)規(guī)劃的思想來(lái)實(shí)現(xiàn)以下遞歸,則有:
式中,qij為xi與yj之間的DTW 距離。
基于DTW 距離計(jì)算的時(shí)間比較效果良好,但計(jì)算復(fù)雜度與比較的時(shí)間序列長(zhǎng)度成正比,在處理大型數(shù)據(jù)集時(shí),時(shí)間復(fù)雜度很高。
2.2.2 LB_Keogh 距離
由于DTW 距離容易陷入病態(tài)彎曲,Keogh E[20]等將彎曲路徑引入DTW 距離計(jì)算的方法中,于2005 年提出了LB_Keogh 距離。對(duì)于彎曲路徑限制為w的時(shí)間序列的DTW 距離計(jì)算,定義了上界U和下界L。
對(duì)于另一時(shí)間序列Y也有類(lèi)似定義,X的上界函數(shù)U={U1,U2,…,Um},X的下界函數(shù)L={L1,L2,…,Lm},則兩個(gè)時(shí)間序列的距離定義為:
LB_Keogh 距離盡管降低了DTW 距離計(jì)算的時(shí)間復(fù)雜度,但不具有對(duì)稱(chēng)性,因此在與聚類(lèi)算法進(jìn)行結(jié)合時(shí)仍是一個(gè)問(wèn)題。
2.2.3 LB_Hust 距離
LB_Keogh 距離延續(xù)了DTW 距離的非對(duì)稱(chēng)性,不僅增大了記錄間距離計(jì)算的次數(shù),而且在與聚類(lèi)方法結(jié)合時(shí),將影響初始點(diǎn)的選擇,從而影響最終聚類(lèi)結(jié)果。為解決LB_Keogh 距離的非對(duì)稱(chēng)性問(wèn)題,LB_Hust距離于2006 年被提出[21],其核心思想是在時(shí)間窗口2w內(nèi),對(duì)兩個(gè)時(shí)間序列進(jìn)行泛化,求取相應(yīng)的上下界函數(shù),再基于上下界函數(shù)求取距離。對(duì)于時(shí)間序列X、Y, LB_Hust 距離為:
目前的聚類(lèi)方法主要分為基于劃分的方法、基于分層的方法、基于密度的方法、基于網(wǎng)格的方法和基于模型的方法[32]5 大類(lèi)。PAM 算法是圍繞中心點(diǎn)的劃分算法之一,也稱(chēng)為K-中心點(diǎn)算法[33],可對(duì)任何指定的距離度量執(zhí)行集群,能允許靈活定義兩個(gè)元素“接近”的含義[34]。同時(shí),PAM 算法的簇中心點(diǎn)是簇內(nèi)的某個(gè)對(duì)象而不是均值,從而對(duì)噪聲和孤立點(diǎn)更魯棒;在尋找最優(yōu)解方面,利用的是貪婪搜索而不是窮盡搜索,從而提高了計(jì)算速度和精確度。PAM 算法中的損失值定義為數(shù)據(jù)集中所有點(diǎn)到中心點(diǎn)的距離之和?;谙嗨贫染嚯x的PAM 聚類(lèi)算法的具體步驟為:①計(jì)算相似度距離矩陣,確定聚類(lèi)數(shù)量k;②隨機(jī)選取k個(gè)初始聚類(lèi)中心,將其余點(diǎn)根據(jù)相似度劃分至k個(gè)類(lèi)別中,計(jì)算損失值S1;③用非中心點(diǎn)替代中心點(diǎn),重新劃分類(lèi)別,計(jì)算損失值S2,若S2>S1,則不進(jìn)行替換;④直至非中心點(diǎn)代替所有中心點(diǎn)后,計(jì)算所有總代價(jià),其中總代價(jià)最小的聚類(lèi)中心和聚類(lèi)結(jié)果即為最終聚類(lèi)結(jié)果。
對(duì)于聚類(lèi)效果的評(píng)估,在文本聚類(lèi)方面主要包括兩種評(píng)價(jià)標(biāo)準(zhǔn):一種是聚類(lèi)結(jié)果中,團(tuán)內(nèi)越緊密、團(tuán)間越分離越好;另一種是聚類(lèi)結(jié)果與人工的判斷結(jié)果越吻合越好[35]。本文將輪廓系數(shù)[36]作為評(píng)估聚類(lèi)結(jié)果的一種標(biāo)準(zhǔn),比對(duì)各距離聚類(lèi)結(jié)果的相對(duì)好壞。將數(shù)據(jù)集劃分為k個(gè)類(lèi)別,對(duì)于其中的一個(gè)劃分單元i而言:a(i)為i到所有所屬簇中其他點(diǎn)的平均距離,b(i)為i與相鄰最近的簇內(nèi)所有點(diǎn)平均距離的最小值,則輪廓系數(shù)為:
本文采用總體數(shù)據(jù)輪廓系數(shù)的平均值作為最終的輪廓系數(shù)。
本文利用POI 頻率平均密度(FD)來(lái)表示街區(qū)單元特性,但由于各類(lèi)型POI 數(shù)據(jù)的數(shù)量不同,數(shù)量級(jí)引起的差異可能會(huì)掩蓋土地實(shí)際的用途,因此通過(guò)富集指數(shù)進(jìn)行判別[37-38]。FD的計(jì)算公式為:
式中,假設(shè)POI 可被分為k種類(lèi)型,ni為每種POI 在街區(qū)j內(nèi)的數(shù)量;Sj為街區(qū)j的面積;FDij為第i類(lèi)POI在第j個(gè)街區(qū)內(nèi)的密度。
POI 富集指數(shù)的計(jì)算公式為:
式中,Ri,c為第c類(lèi)別中的第i類(lèi)POI 的富集指數(shù);ni,c為第c類(lèi)別中的第i類(lèi)POI 數(shù)量;Nc為第c類(lèi)別中的POI 總數(shù);Ni為所有類(lèi)別中的第i類(lèi)POI 數(shù)量;N為研究區(qū)內(nèi)所有POI 數(shù)量。
本文采用輪廓系數(shù)來(lái)客觀評(píng)價(jià)聚類(lèi)質(zhì)量的好壞,選取的聚類(lèi)數(shù)為2~15 類(lèi),計(jì)算得到4 種距離的輪廓系數(shù),受數(shù)據(jù)維度的影響,整體上的輪廓系數(shù)偏低。如圖3 所示,在聚類(lèi)數(shù)k=2 時(shí),DTW 距離和歐式距離的聚類(lèi)評(píng)分指標(biāo)輪廓系數(shù)最大,超過(guò)0.6;在聚類(lèi)數(shù)k=4,8,14 時(shí),4 種距離的輪廓系數(shù)相差不大;在聚類(lèi)數(shù)k<10 時(shí),歐氏距離的評(píng)分基本小于其他3 種距離,盡管在聚類(lèi)數(shù)k>10 時(shí),歐氏距離的評(píng)分有所上升,但聚類(lèi)結(jié)果仍不如DTW 距離和LB_Keogh 距離。值得注意的是,當(dāng)聚類(lèi)數(shù)2 <k<10 時(shí),聚類(lèi)結(jié)果最好的值大多出現(xiàn)在LB_Hust 距離中,在聚類(lèi)數(shù)k=3 時(shí)達(dá)到最值,之后下降,直至聚類(lèi)數(shù)k=7 時(shí),出現(xiàn)第二個(gè)峰值。為精細(xì)刻畫(huà)各功能區(qū)的不同特征,本文選取k=7時(shí)的基于LB_Hust 距離的聚類(lèi)結(jié)果進(jìn)行功能區(qū)識(shí)別以及人流特征分析。
圖3 不同聚類(lèi)數(shù)下的輪廓系數(shù)評(píng)分圖
另外,本文將基于時(shí)間相似度的PAM 算法與傳統(tǒng)的K-means 算法進(jìn)行了比較,選取聚類(lèi)數(shù)k=7,10 的結(jié)果進(jìn)行可視化(圖4),結(jié)果表明,在聚類(lèi)數(shù)增加的情況下,K-means 算法并沒(méi)有識(shí)別出更多的特征區(qū)域,僅識(shí)別出中心區(qū)域的特征,而基于LB_Hust 的PAM 算法的區(qū)域劃分則具有更好的分布性。
圖4 K-means 聚類(lèi)結(jié)果
為驗(yàn)證結(jié)果的準(zhǔn)確性,本文將聚類(lèi)結(jié)果進(jìn)行空間化展示,隨機(jī)挑選100 個(gè)街區(qū)進(jìn)行精度驗(yàn)證(圖5),結(jié)合遙感影像圖、各種來(lái)源的信息(如新聞、評(píng)論、圖片、廣告等)推斷實(shí)際情況,并與聚類(lèi)結(jié)果進(jìn)行比對(duì),得到各類(lèi)別識(shí)別的準(zhǔn)確度(圖6),識(shí)別準(zhǔn)確度最高達(dá)到86%,平均值超過(guò)70%,表明基于該方法的功能區(qū)識(shí)別具有一定的可行性。
圖5 聚類(lèi)結(jié)果與驗(yàn)證點(diǎn)的空間分布圖
圖6 功能區(qū)識(shí)別吻合度
根據(jù)上述方法劃分得到7 類(lèi)結(jié)果,本文統(tǒng)計(jì)了每個(gè)類(lèi)簇包含的單元個(gè)數(shù)(表5)、POI 的FD和富集指數(shù)(表6),以及各類(lèi)簇的人口活動(dòng)密度(圖7)和人口流入密度(圖8)??傮w來(lái)看,成都市四環(huán)區(qū)域內(nèi)呈從中心區(qū)域向外圍擴(kuò)張發(fā)展的趨勢(shì),以天府廣場(chǎng)為中心呈環(huán)狀向外擴(kuò)散。盡管各功能區(qū)的人流特征不同,但POI的分布密度有相似之處,購(gòu)物類(lèi)、餐飲類(lèi)、交通類(lèi)、商業(yè)類(lèi)名列前茅,表明成都市四環(huán)區(qū)域內(nèi)的購(gòu)物、餐飲業(yè)、交通較為發(fā)達(dá),商業(yè)要素發(fā)展較好,零售業(yè)居多,且生活服務(wù)、醫(yī)院等基本設(shè)施服務(wù)分布較多,較為完善。
C1 是以文化景觀和自然要素為主的功能區(qū),與成都市中心城區(qū)的環(huán)城生態(tài)圈相符。各類(lèi)POI 的FD最低,人口活動(dòng)密度和人口流入密度也最低,人口聚集在9:00-17:00,主要位于城區(qū)外圍,包括一些文化景點(diǎn)、自然景觀為主的公園以及周邊區(qū)域,成都新陣地高爾夫球場(chǎng)、鳳凰山公園、成都植物園、皇恩寺陵園、四川絲綢博物館、香地絲綢生態(tài)公園、明蜀王陵博物館、錦城公園等囊括其中。
C2 是以居住為主的功能區(qū),數(shù)量最多,包括學(xué)校宿舍區(qū)、居住小區(qū)和員工宿舍等。人口活動(dòng)密度在9:00-20:00 較為密集,6:00-20:00 人口流出較多,峰值在7:00、9:00、13:00,居民在這3 個(gè)時(shí)間點(diǎn)乘車(chē)上班;在20:00 之后,人口流入密度達(dá)到正值,在這個(gè)時(shí)間段,居民下班或休閑娛樂(lè)后,回到居住區(qū),包括西南民族大學(xué)學(xué)生公寓、四川師范大學(xué)電影電視學(xué)院、普天小區(qū)、紫薇社區(qū)、藍(lán)天小區(qū)。
C3 主要是以商業(yè)為主、市政居住混合的區(qū)域,交通發(fā)達(dá),位于成都市四環(huán)中心區(qū)域。人口活動(dòng)密度量級(jí)最大,集中在8:00-18:00,極值出現(xiàn)在14:00;人口流入密度在8:00-10:00 為正值,人們?cè)谶@個(gè)時(shí)間點(diǎn)到達(dá)商業(yè)區(qū)辦公。同時(shí),在其周邊還有一些公寓、社區(qū)和職工宿舍,位于中心的人民廣場(chǎng)及其周邊的商業(yè)區(qū)也劃分在內(nèi);成都火車(chē)北站、成都石羊客運(yùn)站、天府廣場(chǎng)、春熙路商圈、天府廣場(chǎng)購(gòu)物中心、四川省版權(quán)局、四川省公務(wù)員局、四川省扶貧和移民工作局等也囊括其中。
C4 與C5 具有相似的特征,但商業(yè)均不及C3 集中,是以居住為主、商業(yè)為輔的區(qū)域,其中商業(yè)以零售業(yè)居多,夾雜著醫(yī)院、大學(xué),位于成都市四環(huán)中心區(qū)域周邊。C4 的規(guī)模大于C5,但都不及C3,C4 偏向金融,而C5 偏向娛樂(lè)生活,兩類(lèi)人口活動(dòng)密度量級(jí)均很大,集中在18:00-21:00;同時(shí),人口流出密度也較大,集中在8:00-16:00,四川省政府采購(gòu)中心、鑫源公寓、憩園公寓、雅典國(guó)際社區(qū)、成都社區(qū)大學(xué)、成都權(quán)健醫(yī)院和幸福商城等囊括其中。
C6 主要是居住、休閑娛樂(lè)的功能中心,人流聚集在8:00-21:00,人口流入密度不高,峰值在9:00-13:00;20:00 之后有人口流入,居民在進(jìn)行休閑娛樂(lè)活動(dòng)后回到居住區(qū);周一至周日人口分布差別不大,包括熊貓生態(tài)公園、魯能精品生活館、東錦城購(gòu)物中心、萬(wàn)科廣場(chǎng)等。
C7 主要是一些人口密度很低的工業(yè)區(qū)域,主要位于中心城區(qū)外圍,人口活動(dòng)密度和人口流入密度均很低,8:00-18:00 的人口活動(dòng)密度相對(duì)集中,13:00左右達(dá)到峰值,人口流入密度與其他類(lèi)不同,包括睿建建筑工程機(jī)械有限責(zé)任公司、蛟龍工業(yè)港高新區(qū)、四川省新洲園藝有限公司、成都直升機(jī)博物館、交通工程駕校訓(xùn)練基地等。
表5 各類(lèi)簇單元個(gè)數(shù)統(tǒng)計(jì)
圖7 各類(lèi)簇人口活動(dòng)密度圖
圖8 各類(lèi)簇人口流入密度圖
表6 功能區(qū)內(nèi)POI 的FD 和富集指數(shù)
本文基于OSM 路網(wǎng)數(shù)據(jù)劃分研究單元,利用出租車(chē)訂單數(shù)據(jù)提取了乘客上下車(chē)的時(shí)間序列,采用DTW距離以及其泛化的LB_Keogh 距離、LB_Hust 距離代替歐氏距離作為相似度,運(yùn)用PAM 聚類(lèi)算法,結(jié)合POI 數(shù)據(jù)進(jìn)行功能區(qū)識(shí)別。結(jié)果表明,在數(shù)據(jù)維度較高、考慮時(shí)間序列上的偏移時(shí),傳統(tǒng)的歐氏距離不再具有優(yōu)勢(shì),采用基于LB_Hust 距離的PAM 算法,結(jié)合POI 數(shù)據(jù)進(jìn)行城市功能區(qū)識(shí)別,能有效識(shí)別城市的空間結(jié)構(gòu),具有可行性。
相較于CHEN Y[22]等提出的方法,本文采用的基于時(shí)間相似度的研究方法在進(jìn)行相似度計(jì)算時(shí),降低了時(shí)間復(fù)雜度,不存在相似度矩陣不對(duì)稱(chēng)的問(wèn)題,當(dāng)數(shù)據(jù)量較大時(shí),優(yōu)勢(shì)更加突出;相較于GAO Q[24]等的研究,細(xì)化了商住混合區(qū)域的特征,并驗(yàn)證了結(jié)果的準(zhǔn)確性。本文驗(yàn)證了利用聚類(lèi)分析對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行功能區(qū)識(shí)別的可行性,但還存在一些問(wèn)題:在數(shù)據(jù)來(lái)源方面,出租車(chē)只能表征一部分有收入人群的出行特征,未來(lái)研究中,可結(jié)合定位數(shù)據(jù)以及其他交通大數(shù)據(jù)進(jìn)行研究;另外,PAM 聚類(lèi)算法受初始點(diǎn)選擇影響較大,由于采取貪婪迭代的思想,在數(shù)據(jù)量較大時(shí),計(jì)算的復(fù)雜度會(huì)更大,而高維數(shù)據(jù)包含大量分布復(fù)雜的噪聲,如何將高維數(shù)據(jù)和聚類(lèi)算法更好地結(jié)合起來(lái),提高穩(wěn)定性,還有待進(jìn)一步研究。