劉俊嶺 丁思博 孫煥良 于 戈 許景科
城市功能區(qū)為城市中具有某種主題功能分布的空間區(qū)域,如由中央商務(wù)區(qū)及其周邊組成的功能區(qū)中包括金融、貿(mào)易、服務(wù)、購物等功能.城市功能區(qū)描述城市空間的使用情況和結(jié)構(gòu),合理的功能區(qū)劃分能用于城市運行規(guī)律發(fā)現(xiàn)、城市功能規(guī)劃和推薦、社會空間差異分析等領(lǐng)域,可有效改進城市資源分配和決策制定[1-2].
隨著基于位置的服務(wù)平臺廣泛普及,平臺獲取大量包含居民時空活動的GPS數(shù)據(jù),這些數(shù)據(jù)可用于發(fā)現(xiàn)空間區(qū)域功能主題,進而劃分城市功能區(qū).功能區(qū)結(jié)構(gòu)可使用功能主題模式表示,主題模式為給定區(qū)域中功能的類別分布.現(xiàn)有基于位置的服務(wù)平臺數(shù)據(jù)進行城市功能區(qū)劃分的方法包括如下3類:1)利用軌跡數(shù)據(jù)變化差異進行區(qū)域劃分[3],僅能完成粗劃分;2)利用興趣點(Point of Interest, POI)分布特征進行區(qū)域劃分[4],可發(fā)現(xiàn)空間功能聚集特征,但對POI數(shù)據(jù)完整性有較高依賴;3)利用主題模型,通過POI類別和軌跡數(shù)據(jù),根據(jù)居民活動規(guī)律進行區(qū)域劃分[1,5-6],通過城市主題分布特征得到區(qū)域劃分.
現(xiàn)有研究中劃分的功能區(qū)為靜態(tài)的,在一定時間段內(nèi)功能區(qū)的表示為單一主題模式,模式不會隨時間而變化.然而,城市居民活動往往具有時間敏感性,同一區(qū)域在其主題功能上會隨時間發(fā)生變化.在給定時間跨度上,功能主題模式為區(qū)域內(nèi)不同時段用戶對于各功能活動傾向的分布規(guī)律.時間敏感的城市功能區(qū)主題模式發(fā)現(xiàn)可實現(xiàn)對城市功能區(qū)的細粒度功能劃分,應(yīng)用于構(gòu)建城市大腦、分時廣告投放、智慧交通管理等方面,如在交通管理中,對不同時段主題差異大的區(qū)域?qū)崿F(xiàn)人員流動規(guī)劃與動態(tài)交通治理等.
由實例可知,功能主題模式抽取任務(wù)應(yīng)同時考慮空間與時間兩種因素,因此對城市空間進行動態(tài)功能區(qū)劃分可看作基于功能主題的時空聚類問題.研究目標是在給定時空范圍內(nèi)得到對空間和時間的合理劃分.
由于功能主題模式具有時間敏感性,從單一的靜態(tài)POI數(shù)據(jù)中無法獲得動態(tài)的主題模式,需要結(jié)合用戶訪問POI的軌跡信息以實現(xiàn).然而現(xiàn)有行為軌跡數(shù)據(jù)較稀疏,存在噪聲,難以直接發(fā)現(xiàn)有效的動態(tài)功能模式.
為了發(fā)現(xiàn)給定時間與空間范圍內(nèi)穩(wěn)定的模式,需要將劃分的子空間進行聚合,如何同時考慮時間與空間維度的模式發(fā)現(xiàn)是一個挑戰(zhàn).本文提出時間敏感的城市功能區(qū)主題模式發(fā)現(xiàn)模型.在時間維度上對主題特征向量進行聚類后得到具有差異性的特征分布矩陣,實現(xiàn)動態(tài)的時段劃分.采用JS散度(Jensen-Shannon Divergence)度量模式,將時間段內(nèi)具有相似分布的功能主題特征進行合并,得到新的時段劃分結(jié)果,對不同周期上的時間段劃分進行對齊再合并,最終得到跨周期的模式時段序列.為了在空間維度上對具有類似特征分布的相鄰區(qū)域進行合并,本文提出鄰域網(wǎng)格聚類算法,基于最近鄰思想對相似子空間特征矩陣進行聚類,生成區(qū)域邊界,完成空間劃分,最終得到具有動態(tài)特征的功能區(qū)劃分結(jié)果.最后,在真實數(shù)據(jù)集上分析本文模型,驗證模型的有效性.
模式指對象活動的一般方式,數(shù)據(jù)中反映的模式通常用于描述用戶的行為規(guī)律.Zhang等[7]提取高校學(xué)生的行為模式特征,分析其行為與課程績效的關(guān)聯(lián)性.在金融領(lǐng)域中,Huang等[8]針對區(qū)塊鏈中模式,提出相似性度量,用于高精度聚類.在Web應(yīng)用中,模式用于發(fā)現(xiàn)用戶的特征、偏好和習慣,Chovanak等[9]將典型重復(fù)的用戶行為特征作為行為模式,實現(xiàn)個性化預(yù)測和推薦等任務(wù).同樣在Web瀏覽行為分析上,Hussain等[10]利用用戶上網(wǎng)行為模式和網(wǎng)絡(luò)軌跡,分析用戶興趣和認知預(yù)測.
時空軌跡數(shù)據(jù)記錄用戶的位置序列,近年來學(xué)者考慮將出行路徑相似的用戶進行聚類,再發(fā)現(xiàn)其共同的行為規(guī)律.部分研究利用主成分分析提取軌跡數(shù)據(jù)中穩(wěn)定的移動模式,用于用戶位置預(yù)測或是靜態(tài)POI對GPS軌跡數(shù)據(jù)的標注,再進行語義判斷[11-12].Cao等[13]提出基于表示學(xué)習的用戶軌跡語義表示系統(tǒng),通過向量的形式表示軌跡數(shù)據(jù)特征.Maiti等[14]針對空間數(shù)據(jù)中提取的行為模式,提出相似性度量及對應(yīng)模式的挖掘方法.
對于多源異構(gòu)的軌跡數(shù)據(jù),經(jīng)過融合集成后往往存在高維度和高稀疏性的問題,無法直接進行模式抽取分析,通常需要進行降維.Xu等[15]總結(jié)大規(guī)模異構(gòu)數(shù)據(jù)處理時經(jīng)典的基于機器學(xué)習的數(shù)據(jù)降維方法及其應(yīng)用.Yan等[16]開發(fā)面向軌跡文本數(shù)據(jù)的特征分析算法,用于提取數(shù)據(jù)中的特征,達到有監(jiān)督或無監(jiān)督的數(shù)據(jù)降維目的.
城市功能區(qū)劃分是通過POI分布或用戶行為發(fā)現(xiàn)具有某種主題功能分布的空間區(qū)域.隨著數(shù)據(jù)獲取途徑的增加及GPS的普及,利用用戶軌跡數(shù)據(jù)進行功能區(qū)劃分成為主要方法.功能區(qū)劃分方法主要分為基于統(tǒng)計學(xué)劃分和基于機器學(xué)習劃分兩種.
基于傳統(tǒng)統(tǒng)計學(xué)方法,Hu等[4]提出利用城市POI數(shù)據(jù)的分布和其功能類型比值等統(tǒng)計特征劃分城市功能區(qū),并分析不同功能區(qū)的空間分布特征.Qi等[3]根據(jù)出租車乘客上下車的時間變化規(guī)律進行區(qū)域功能判斷,使用聚類的方法劃分功能區(qū)域.
機器學(xué)習技術(shù)也被應(yīng)用于城市分析和功能區(qū)劃分.Tao等[17]利用GPS數(shù)據(jù),構(gòu)建四維張量,發(fā)現(xiàn)用戶行為在不同時間的規(guī)律,并進行空間聚類以劃分城市區(qū)域.Papadakis等[18-19]量化空間信息的語義,對地理空間賦予功能屬性,整合至地理信息系統(tǒng)中,進而結(jié)合POI屬性和數(shù)據(jù)驅(qū)動,提出基于隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)的功能區(qū)劃分模型,并評價劃分結(jié)果.在此基礎(chǔ)上,Wang等[6]為了理解多中心城市區(qū)域的空間結(jié)構(gòu),提出基于狄利克雷多項式回歸的模型,利用交通模式和POI數(shù)據(jù)獲取城市單元功能,發(fā)現(xiàn)不同區(qū)域之間的相互關(guān)系及城市的功能分布.Yuan等[1]結(jié)合POI數(shù)據(jù)和出租車軌跡數(shù)據(jù),基于主題的LDA模型提取用戶出行規(guī)律,并分析各功能在不同地理位置的強度.
總之,目前研究大多從空間維度上利用不同方法進行城市功能的劃分并得到功能區(qū).
為了從時空數(shù)據(jù)集中獲取有價值的信息,時空聚類能劃分具有相似時間、空間的數(shù)據(jù)集合,發(fā)現(xiàn)時空要素的發(fā)展規(guī)律和趨勢.
Parente等[20]旨在將具有相似屬性的對象分組到各自的類別中,提出時空排列掃描統(tǒng)計方法,完成時空聚類任務(wù).Paci等[21]提出以狀態(tài)空間為中心的貝葉斯半?yún)?shù)混合模型,完成時間序列的聚類,引入時空變化的混合權(quán)值,設(shè)計基于時空模型的方法,實現(xiàn)時空數(shù)據(jù)中的動態(tài)聚類,預(yù)測時空依賴性.Meliker等[22]利用依賴于時間最近鄰的方法,對用戶居住史進行時空聚類分析,發(fā)現(xiàn)不同類別之間的潛在關(guān)系.
許多時空現(xiàn)象具有順序性和層次性,研究對象具備固定的空間位置和規(guī)則的時間步長.傳統(tǒng)的時空周期模式挖掘并未考慮其內(nèi)在的層次性,Zhang等[23]提出基于Traclus的軌跡聚類算法,補充時空序列,在軌跡數(shù)據(jù)聚類時同時考慮方向、速度等語義時空信息.Pereira等[24]提出時空排列掃描統(tǒng)計量,識別聚類結(jié)果的數(shù)量、位置和時空維度,提高聚類結(jié)果的精確度和魯棒性.
定義1單元功能主題特征 給定單位時間跨度t為時間維度上的最小劃分粒度.空間單元g為空間維度上的最小區(qū)域劃分,表示為g=(α,ft),其中,α為空間單元g的地理坐標,ft為空間單元g內(nèi)主題的概率分布向量,稱為單元g的功能主題特征,其中向量維度表示功能類別,記為ft(i),且
ρ為向量維數(shù).
一個時間段T由多個單位時間跨度t組成,整體空間G可劃分為n個大小相同的空間單元g,表示為
G={g1,g2,…,gn}.
定義2功能主題模式 在給定空間區(qū)域R上,一個時間段T內(nèi)的功能主題分布規(guī)律稱為該時空域的功能主題模式,由功能主題分布向量F表示,記為P(R,T)=F,其中,空間區(qū)域R由多個主題特征相似的相鄰空間單元g組成,在該時空域中概括各空間單元的功能主題特征,獲得功能主題分布向量F.
功能主題模式旨在發(fā)現(xiàn)城市時空演變,挖掘用戶行為習慣規(guī)律,進而劃分城市功能區(qū).
定義3動態(tài)城市功能區(qū)劃分 給定整體空間G與時間段T,根據(jù)功能主題特征對空間區(qū)域和時間段劃分后有?gi?G,對于gi上任意時間跨度ti?T,G內(nèi)兩個空間相鄰的子區(qū)域gi、gj或時間段相鄰的區(qū)域gi(ti)、gi(ti+1),模式相似度大于等于給定閾值θ,即有
sim(P(gi,ti),P(gi,ti+1))≥θ
或
sim(P(gi,t),P(gj,t))≥θ,
則兩區(qū)域可合并,功能主題模式合并結(jié)果為P(R,T′),其中R={gi,gj},T′={ti,ti+1}.
基于功能主題模式P(R,T′)獲得的具有不同時空劃分城市動態(tài)功能區(qū)域是由處于不同時間跨度的時空相鄰的空間單元組成.例如,當時間范圍為[9∶00,11∶00]時,主題分布向量為F,則功能主題模式可表示為P(R,[9∶00,12∶00])=F.
本文提出時間敏感的城市功能區(qū)主題模式發(fā)現(xiàn)模型,流程如圖1所示.模型包括POI訪問數(shù)據(jù)的表示學(xué)習和功能主題模式抽取兩個階段.第一階段融合多源數(shù)據(jù),利用軌跡數(shù)據(jù)標記POI訪問頻率.然后,對空間進行網(wǎng)格劃分,得到空間單元,并實現(xiàn)對空間單元的數(shù)據(jù)嵌入表示學(xué)習,解決數(shù)據(jù)稀疏和噪聲問題.第二階段對嵌入得到的包含潛在特征的低維主題特征向量進行時空聚類,對空間和時間段進行切分重組,對于每個空間單元,得到由其不同時間跨度的單元功能主題特征構(gòu)成的主題特征矩陣,進行區(qū)域空間擴展后得到具有時間敏感的功能主題模式.結(jié)合功能區(qū)評價指標,獲得城市整體空間中隨時間變化的動態(tài)功能區(qū)域劃分.
圖1 本文模型流程圖Fig.1 Flowchart of the proposed model
本文以北京市主城區(qū)作為分析區(qū)域,網(wǎng)格化處理空間區(qū)域,得到多個相同規(guī)格的矩形空間單元.對用戶軌跡數(shù)據(jù)融合并標注北京POI訪問次數(shù)分布情況,標注的方法為基于概率傳播的匹配模型[25-26].統(tǒng)計空間單元中各功能類別POI訪問次數(shù)后獲得單元功能主題特征,其中特征向量的一個維度表示一個主題功能.
由于POI類別的多樣性和軌跡數(shù)據(jù)的稀疏性,單元功能主題特征分布無法準確表示單元空間內(nèi)用戶的活動規(guī)律.為了解決此問題,本文基于自編碼器的表示學(xué)習獲取數(shù)據(jù)的潛在低維特征,用于準確發(fā)現(xiàn)單元內(nèi)部用戶活動規(guī)律.
自動編碼器神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用反向傳播的無監(jiān)督學(xué)習算法[27-28],對于一組未標記的訓(xùn)練樣本集Vn={x1,x2,…,xn},自編碼器不斷學(xué)習函數(shù)h,使得hw,b(x)≈x,調(diào)整權(quán)重項W和偏置項b,使目標輸出值等同輸入,即yi=xi.本文使用增加稀疏懲罰項的自編碼器,目的是找到隱藏層中神經(jīng)元集合s數(shù)據(jù)內(nèi)部的規(guī)律.方法需要對s中部分神經(jīng)元進行抑制,aj(xi)表示隱藏層中當輸入xi時神經(jīng)元j的激活度,可計算該神經(jīng)元在不同輸入下的平均活躍度:
稀疏自編碼器可有效表示高維稀疏的數(shù)據(jù),同時能提升線性可分性.
基于自編碼器的降維模型輸入為空間G內(nèi)標注后的高維行為數(shù)據(jù).為了解決軌跡數(shù)據(jù)稀疏的問題,本文選擇在模型輸入時考慮空間鄰域信息,使單元空間向外擴展,并將其映射至同一矢量空間進行空間維數(shù)壓縮并表示.由于城市功能的高度聚集性,對于擴大范圍后的數(shù)據(jù),降維模型能有效降低數(shù)據(jù)稀疏和噪聲數(shù)據(jù)的影響.整個學(xué)習過程如圖2所示.
圖2 空間單元特征數(shù)據(jù)嵌入表示學(xué)習過程Fig.2 Representation learning process of embedding feature data of spatial units
對于空間單元gi,將其空間鄰域網(wǎng)格區(qū)域gn(n=1,2,…,e)數(shù)據(jù)同gi的主題特征合并為ρ+e×ρ維向量進行輸入.
觀察發(fā)現(xiàn),同空間區(qū)域內(nèi),部分相鄰時間跨度的主題特征具有相似分布,需要將向量的細粒度劃分合并為粗粒度劃分,用于發(fā)現(xiàn)行為規(guī)律.本文提出基于嵌入表示的功能主題模式抽取算法(Thematic Patterns Extraction Based on Embedding, TP2E),將單位時間跨度聚類后對整體區(qū)域進行空間劃分,完成時空聚類后,得到功能主題模式.算法1描述功能主題模式抽取算法的過程,分為時間維度聚類和空間維度擴展兩部分內(nèi)容.
算法1TP2E
輸入時段T內(nèi)的空間G={g1,g2,…,gn}
輸出功能區(qū)主題模式集P
1.初始化F={ },C={ },P={ };
2.將gi同鄰域空間合并后進行表示學(xué)習;
3.for (每個空間單元gi)
4. 獲取gi在T內(nèi)功能主題特征向量表示f;
5.Fi=Temporal_Cluster(gi,f) ;
6. 將主題特征矩陣Fi加入集合F中;
7.end for
8.基于F中時間跨度劃分對空間單元gi聚類,得到
簇C={c1,c2,…,cm};
9.for (每個簇ci)
10.P(R,T′)=Spatial_Extension(F,ci) ;
11.P=P∪P(R,T′);
12.end for
13.returnP
算法1的執(zhí)行過程如下.第1~2行將輸入的時間段T內(nèi)最小空間單元gi的主題特征向量進行嵌入表示.第3~7行調(diào)用算法2實現(xiàn)時間維度的聚類,獲得重劃分時段T內(nèi)gi特征矩陣Fi并加入集合F中.第8~13行對所有空間單元,基于時段劃分,利用K-means聚類后得到簇集合C,調(diào)用算法3在每個簇內(nèi)對gi實現(xiàn)空間擴展,返回區(qū)域劃分R和對應(yīng)時段劃分T′的集合,計算集合內(nèi)對應(yīng)的主題分布向量,并入結(jié)果集P中.
K-means效果較優(yōu),收斂速度較快,對于時段劃分數(shù)據(jù)較契合,能通過誤差平方和(Sum of Squares due to Error, SSE)肘方法確定K值.
算法2為一個時間維度聚類算法,對每個空間單元上的主題特征向量進行聚類.
算法2Temporal_Cluster(gi,f)
1.while(?相鄰時間跨度向量JS(ft,ft+1)≤θ)
2. 合并向量并更新原本跨度為t′=[t,t+1];
3.得到gi在時間段T上的跨度重劃分;
4.計算gi的主題特征向量矩陣Fi;
5.returnFi
算法2執(zhí)行過程如下.第1~2行判斷該單元內(nèi)在時間跨度t內(nèi)的主題向量ft和其相鄰時間點的向量ft+1是否相似,若相似合并兩者,更新時間跨度為t′,迭代合并,直至空間gi上不存在相似主題特征向量.將合并后的主題特征矩陣Fi返回至算法1中.
在空間單元gi上的部分主題特征向量會發(fā)生時間演變.若相鄰時間跨度的兩個特征向量相似,呈穩(wěn)定狀態(tài),需要對向量平均化處理并更新時間跨度.否則表示主題功能結(jié)構(gòu)存在較大差異,不需要合并.算法2最終會輸出各空間單元在新劃分時間段T內(nèi)的低維特征矩陣,用于后續(xù)進行同時考慮時空維度上的區(qū)域空間擴展.
本文選擇基于KL散度演變的JS散度度量時間演變后的兩個功能主題特征之間的相似度,見算法2第1行.JS散度定義如下:
其中pi(i=1,2)表示d維的概率分布向量.
JS散度結(jié)果為[0,1]的常數(shù),對于2個向量完全沒有重疊時的結(jié)果仍有意義,并解決KL散度非對稱的問題,有效應(yīng)對稀疏數(shù)據(jù)中概率為0的情況.
算法3為功能主題模式抽取任務(wù)中的空間擴展過程.本文提出空間擴展算法,進行空間區(qū)域劃分.該算法在具有相同時段劃分的簇內(nèi)尋找最相似的2個相鄰空間單元,記為初始空間N,如圖3(a)所示.陰影區(qū)域作為候選區(qū)域,基于相似度判斷是否合并,不斷進行空間邊界擴張,直至簇內(nèi)剩余空間單元無法合并,且個數(shù)小于給定可忽略值γ(如圖3(b)所示),完成擴展,得到時空劃分集合.可忽略值γ為簇內(nèi)數(shù)據(jù)量過小的單元個數(shù),取值區(qū)間為[0,cnum/2) ,其中cnum表示簇內(nèi)單元總數(shù).算法3具體步驟如下.
算法3Spatial_Extension(F,c)
1.初始化R={ },T′={ };
2.while (c≠?) do
3. 計算簇c內(nèi)相鄰空間單元相似度;
4. for (c內(nèi)空間單元數(shù)可忽略值大于等于γ) do
5. 合并簇c內(nèi)最相似空間單元,記為N;
6. 空間N的橫、縱相鄰區(qū)域加入候選空間集合Nc中;
7. if (Optimized_Merge(Nc,N)≤θ) then
8.N同最相似候選空間合并后更新;
9. 從c內(nèi)移除候選空間單元信息;
10. else
11. 將空間N存入集合R中;
12. 將所在簇的時段劃分存入集合T′中;
13. end if
14. end for
15.return(R,T′)
算法3執(zhí)行過程如下.第4~5行尋找簇內(nèi)某兩個最相似空間,合并主題特征矩陣后記該空間區(qū)域為初始空間N,利用最小距離法確定相似度閾值θ.最小距離法為分類器內(nèi)確定分類閾值的基本方法,求解未知類別向量q到事先已知的各類別中心向量的距離以確定閾值θ.第6行將初始空間N的矩形鄰域作為候選空間并存入集合NC中.第7~13行將候選空間集合同空間N進行相似度計算,選擇最相似的兩個空間合并,更新空間N作為合并結(jié)果,移除簇內(nèi)的空間信息,完成區(qū)域擴展.最后將對應(yīng)空間劃分和時段劃分存入集合R和T′中.
(a)初始空間N擴展 (b)獲得區(qū)域邊界
對于同簇內(nèi)不同空間單元來說,任意2個單元時間段劃分仍有不同,為了更準確地對這種空間單元進行相似性度量,本文提出優(yōu)化合并度量的計算方法,見算法4.
算法4Optimized_Merge(gx,gy)
1.獲取兩個子空間的主題特征矩陣Fx、Fy;
2.在各時間跨度內(nèi)隨機取時間點,加入臨時序列L中;
3.按照序列L中的時間點從Fx、Fy抽取向量,得到臨時對比矩陣F′x、F′y;
4.基于F′x、F′y計算相似度ω;
5.returnω
算法4執(zhí)行過程如下.第1~2行對于兩個相鄰空間單元gx、gy,根據(jù)其不同的時段劃分,在各時間跨度內(nèi)隨機取點,記為臨時序列L.第3~4行對于這兩個相鄰空間分別按照L中的時間點取出對應(yīng)向量,得到兩個規(guī)格相同的概率分布矩陣后,計算余弦相似度.算法4能將具有不同時間跨度的空間進行向量抽樣,基于抽樣結(jié)果進行相似度對比.
相比現(xiàn)有模式發(fā)現(xiàn)算法,TP2E考慮模式時間演變問題.獲取特征矩陣F后,將n個空間單元聚類為k個簇,實現(xiàn)時空聚類的代價為
可表示為O(|F|n2),|F|為特征矩陣F的大小.
實驗數(shù)據(jù)包括地理空間數(shù)據(jù)集和用戶訪問軌跡數(shù)據(jù)集.地理空間數(shù)據(jù)集為北京市187萬條POI數(shù)據(jù),包含地理坐標、地址、所在區(qū)域等屬性.用戶訪問軌跡數(shù)據(jù)來自百度地圖查詢數(shù)據(jù)和摩拜共享單車軌跡數(shù)據(jù)這2個真實數(shù)據(jù)集.
百度地圖查詢與共享單車數(shù)據(jù)集上包含用戶出發(fā)時間、起始位置和終點位置等屬性,數(shù)據(jù)集樣例如表1所示,起始位置由經(jīng)緯度表示.百度地圖查詢數(shù)據(jù)為2017年5月北京市數(shù)據(jù),本文實驗所選區(qū)域涉及用戶數(shù)約72萬個,數(shù)據(jù)量為1 243萬條.摩拜共享單車數(shù)據(jù)為2017年5月北京市單車騎行軌跡數(shù)據(jù),實驗選擇區(qū)域涉及用戶數(shù)約61萬個,數(shù)據(jù)量為321萬條.
表1 實驗數(shù)據(jù)集樣例Table 1 Examples of experimental datasets
本文選擇如下功能區(qū)劃分模型進行實驗對比.
1)BaseDC.基于密度的功能區(qū)劃分算法,確定區(qū)域中的子空間后,計算空間內(nèi)功能頻率密度和功能類別內(nèi)外排序,通過POI密度數(shù)據(jù)發(fā)現(xiàn)城市功能分布特征[2,4].
2)BaseLDA.基于LDA的功能區(qū)劃分算法,在利用LDA提取城市功能結(jié)構(gòu)時,將空間區(qū)域視作文檔,將區(qū)域內(nèi)功能視為主題,而對應(yīng)POI類別視為元數(shù)據(jù),方法類似于文本上下文中的主題抽取.形成三層貝葉斯模型架構(gòu)后,基于LDA模型能使用一個概率分布表示該區(qū)域的功能結(jié)構(gòu),發(fā)現(xiàn)主題關(guān)聯(lián),實現(xiàn)功能區(qū)劃分[1,6,19].
3)TPE.本文提出的無降維的功能主題模式抽取算法,對空間單元數(shù)據(jù)實現(xiàn)時空聚類后獲取主題功能模式,基于主題模式獲取功能區(qū)劃分.
4)TP2E.本文的功能主題模式抽取算法,在完成對空間單元數(shù)據(jù)降維后進行時空聚類,對各空間單元的時間跨度進行重劃分后實現(xiàn)空間擴展,發(fā)現(xiàn)具備時間敏感的功能主題模式,獲取動態(tài)城市功能區(qū)域的劃分.
本文選取北京市朝陽區(qū)作為實驗區(qū)域,空間面積為470.8 km2,需要對空間網(wǎng)格化處理.現(xiàn)有相關(guān)研究將區(qū)域劃分為0.5 km×0.5 km至1 km×1 km的規(guī)則網(wǎng)格[2,4,17],本文選擇將實驗區(qū)域劃分為1 km×1 km的規(guī)則網(wǎng)格,單位時間跨度t為1 h,選取部分區(qū)域展示模型有效性.
圖4為數(shù)據(jù)嵌入模型的損失曲線變化,自編碼器降維模型可有效降維并解決數(shù)據(jù)稀疏問題.
圖4(a)中無處理數(shù)據(jù)在自編碼器降維模型中的損失呈曲線重疊狀態(tài),對于均勻分布的稀疏數(shù)據(jù),驗證損失往往高于訓(xùn)練損失,而且使用數(shù)據(jù)量稀疏的空間單元發(fā)現(xiàn)功能聚集區(qū)域的效果較差,故需要合并單元的空間鄰域.將空間單元與向外一周所有鄰域合并,作為輸入進行降維,損失(如圖4(b)所示)趨于收斂,模型的學(xué)習效果較優(yōu).選擇向外兩周的鄰域空間單元同目標空間單元合并,損失(如圖4(c)所示)存在波動,故選擇第1種數(shù)據(jù)嵌入表示方法.
基于主題模式的功能區(qū)劃分可歸屬為時空聚類任務(wù),因此可利用聚類性能評價指標進行評價.本文選擇兩種典型的聚類評價指標——輪廓系數(shù)(Silhouette Coefficient, SC)和Calinski-Harabasz系數(shù)(CH),并計算SSE,利用SSE肘方法發(fā)現(xiàn)最優(yōu)時間跨度聚類個數(shù)k,完成K-means聚類任務(wù).
(a)無處理數(shù)據(jù)(a)Unprocessed data
數(shù)據(jù)嵌入表示在解決數(shù)據(jù)稀疏的同時提升聚類性能,故TP2E聚類效果具有明顯優(yōu)勢.不同聚類數(shù)量k下的度量值變化如圖5所示.
各模型的最優(yōu)聚類數(shù)量k及對應(yīng)指標值如表2所示.由表可見,基線方法未能解決數(shù)據(jù)稀疏問題,導(dǎo)致無法精準選取特征,不同簇間相似度較高.TP2E增強空間單位對鄰域的相關(guān)性,解決數(shù)據(jù)稀疏問題后,聚類效果具有明顯提升.
(a)CH系數(shù)(a)CH coefficient
表2 各模型的最優(yōu)k值及指標值Table 2 Optimal k value and index value of different models
不同周期的相同時段數(shù)據(jù)合并后的SSE值如圖6所示.針對SSE曲線,通過肘方法取SSE曲線中下降率變緩時的k值,判斷最優(yōu)時間跨度聚類個數(shù),并通過CH系數(shù)和SC系數(shù)驗證后,按照該值對局部區(qū)域的時間進行聚類,獲得不同時間跨度.
圖6 k不同時的SSE值Fig.6 SSE with different k
本文選擇功能頻率密度和比率指數(shù)對劃分城市空間區(qū)進行可視化,用于評價劃分結(jié)果.頻率密度
其中,i=1,2,…,ρ,表示功能類型,ai表示時空單位內(nèi)i類型的數(shù)據(jù)量,Ai表示時間單位內(nèi)i類型的總數(shù).
比率指數(shù)
為類別為i的數(shù)據(jù)在空間單位內(nèi)的頻率密度之比.不同空間內(nèi)各功能比率指數(shù)RA≤40%時,認為是混合功能類區(qū)域.本文利用3.2節(jié)進行功能主題模式的抽取,計算各模式的比率指數(shù),確定各區(qū)域的功能,并以圖形化的方式展示.
各模型的功能區(qū)劃分結(jié)果如圖7所示,圖中顏色區(qū)分不同主題功能.基于主題模式劃分的功能區(qū)在不同時間跨度具有明顯差異.基于密度的功能區(qū)域劃分結(jié)果如圖7(a)所示,在功能空間分布上較分散,無法獲得合適的城市功能區(qū)域.基于LDA的功能區(qū)域劃分結(jié)果如圖7(b)所示,能劃分合適功能區(qū)域,但對于整個時間周期的區(qū)域功能劃分粒度過粗.
TP2E獲得的9時~10時和12時~15時這2個時間跨度內(nèi)的功能區(qū)劃分結(jié)果如圖7(c)、(d)所示,在滿足一定劃分粒度的前提下,仍能劃分較真實的功能區(qū)域.對于同一區(qū)域,圖7(c)中可看出餐飲類和購物類功能區(qū)占比最高,而在圖7(d)中可發(fā)現(xiàn)在其它時間跨度變?yōu)橘徫镱惞δ軈^(qū)占主導(dǎo)地位,即發(fā)生城市功能結(jié)構(gòu)時間演變.這種演變是無法通過現(xiàn)有功能區(qū)劃分方法體現(xiàn)的,而利用功能主題模式發(fā)現(xiàn)的功能區(qū)劃分方法能更好地詮釋這種變化規(guī)律.
(a)BaseDC
針對時間敏感的城市功能區(qū)主題模式發(fā)現(xiàn)問題,本文提出時間敏感的城市功能區(qū)主題模式發(fā)現(xiàn)模型,嵌入用戶軌跡數(shù)據(jù)后,獲取潛在結(jié)構(gòu),劃分不同的時間跨度,并擴展功能空間區(qū)域,抽取功能主題模式,劃分動態(tài)的城市功能區(qū).本文使用北京市的用戶出行軌跡數(shù)據(jù)進行研究,證實本文模型的可行性.相比現(xiàn)有方法,功能主題模式的時空聚類效果更優(yōu),能應(yīng)對數(shù)據(jù)稀疏的情況,并根據(jù)主題分布的時空演變發(fā)現(xiàn)城市用戶活動的時空敏感性,使功能區(qū)劃分結(jié)果更真實.未來的工作可以研究基于動態(tài)功能區(qū)的設(shè)施選址、興趣點推薦等問題.