宋儷婧,朱家正,劉雪杰,陳 靜,缐 凱
(1.北京工業(yè)大學(xué)北京市交通工程重點實驗室,北京100124;2.北京交通發(fā)展研究院,北京100073)
劃分交通小區(qū)是交通預(yù)測和分析中的基礎(chǔ)工作,國內(nèi)外關(guān)于交通小區(qū)劃分的研究很多.文獻(xiàn)[1]提出交通小區(qū)雙層劃分概念和加權(quán)模糊聚類方法,并以海峽西岸經(jīng)濟(jì)區(qū)為例進(jìn)行實例驗證.該研究提出的分層概念和聚類方法對本研究具有重要的啟示,但研究區(qū)域非公交走廊,聚類指標(biāo)仍采用傳統(tǒng)的社會經(jīng)濟(jì)和交通量數(shù)據(jù);文獻(xiàn)[2]提出了改進(jìn)的K-means聚類方法在城市軌道交通事件量化分級中的應(yīng)用;文獻(xiàn)[3-5]分別應(yīng)用不同聚類方法對交通小區(qū)進(jìn)行劃分;文獻(xiàn)[6]應(yīng)用移動網(wǎng)絡(luò)數(shù)據(jù)對交通小區(qū)進(jìn)行劃分;文獻(xiàn)[7]提出K-means 動態(tài)交通小區(qū)劃分,并應(yīng)用于公交服務(wù)水平評價.這些研究大多針對某一區(qū)域,聚類結(jié)果主要應(yīng)用于全交通方式需求預(yù)測和分析中.聚類方法多采用模糊聚類和K-means.聚類指標(biāo)多采用社會經(jīng)濟(jì)數(shù)據(jù).
隨著優(yōu)先發(fā)展公交工作的不斷深入,公交需求預(yù)測和出行特征分析很多都依賴于交通小區(qū)進(jìn)行,而目前基于客運走廊層面的小區(qū)劃分仍然缺少理論基礎(chǔ)和實踐經(jīng)驗.傳統(tǒng)的依據(jù)人口、用地等指標(biāo)聚類劃分交通小區(qū)的方法常用于全方式交通規(guī)劃中,在更為真實反應(yīng)公交實際出行需求方面有待提升.隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,公交實際出行大數(shù)據(jù)可以更真實地反應(yīng)公交乘客實際出行特征和需求.因此,本研究基于公交乘客出行特征選取劃分指標(biāo),研究公交客運走廊交通小區(qū)劃分的理論和方法,劃分結(jié)果作為公交客運走廊交通需求預(yù)測和出行特征分析的基本單元.
公交客運走廊是指在某一地域內(nèi),連接主要客流產(chǎn)生點和吸引點,有一定流向,有大運量的快速公共交通方式,有公交專用道等路權(quán)及設(shè)施保障的乘客運輸?shù)墓歉删€路.公交客運走廊有一定的影響區(qū).通常在公交客運走廊線網(wǎng)優(yōu)化等工作中,需要基于交通小區(qū)對走廊影響區(qū)內(nèi)部產(chǎn)生吸引量以及內(nèi)外交換量進(jìn)行分析,因此需要研究走廊影響區(qū)內(nèi)外的交通小區(qū)劃分方法.
分層次的交通小區(qū)劃分理論,如圖1所示,將公交走廊分為直接影響區(qū)和間接影響區(qū),并依據(jù)不同區(qū)域的不同需求對交通小區(qū)進(jìn)行劃分.由于公交走廊具有明顯的通道性,其周邊一定范圍內(nèi)是走廊客流的主要產(chǎn)生吸引地,稱為走廊直接影響區(qū),是需求分析的重點區(qū)域,應(yīng)對區(qū)域內(nèi)部交通小區(qū)進(jìn)行細(xì)分.本研究基于公交IC卡數(shù)據(jù)獲得的出行鏈數(shù)據(jù),提取直接影響區(qū)內(nèi)部出行量及起訖點,將起訖點作為聚類指標(biāo),通過引入聚類因子確定小區(qū)劃分個數(shù),選取聚類中心,對傳統(tǒng)K-means聚類方法進(jìn)行改進(jìn),有效克服傳統(tǒng)方法隨機選取聚類中心影響劃分精度問題.在此基礎(chǔ)上,依據(jù)公交站點等基礎(chǔ)設(shè)施調(diào)整走廊邊界,有效解決交通小區(qū)與公交站點的對應(yīng)問題.走廊間接影響區(qū)主要用來分析和預(yù)測直接影響區(qū)與外圍主要客流吸引點的交換量,不需要像直接影響內(nèi)交通小區(qū)劃分那樣精細(xì),只需預(yù)測主要交換量和空間分布即可,因此,本研究在北京市既有交通小區(qū)的基礎(chǔ)上(針對多方式劃分的交通小區(qū)),對走廊間接影響區(qū)內(nèi)既有交通小區(qū)進(jìn)行合并處理.指標(biāo)主要考慮人口、用地等因素,合并方法采用可充分考慮既有小區(qū)間的相似性和空間臨接性的兩維圖論方法,使小區(qū)合并更接近實際.依據(jù)合并結(jié)果,仍以公交站點等基礎(chǔ)設(shè)施對劃分小區(qū)邊界進(jìn)行微調(diào)修正,以保證需求預(yù)測和分析結(jié)果更符合實際情況.
圖1 交通小區(qū)分層次劃分理論體系圖Fig.1 Theoretical system of hierarchical TAZ division
交通走廊小區(qū)劃分方法包含直接影響區(qū)內(nèi)小區(qū)細(xì)分和間接影響區(qū)小區(qū)合并兩部分.
K-means聚類算法是一種基于中心的常用聚類方法,每一類都有一個聚類中心,通過不斷迭代,達(dá)到最優(yōu)聚類結(jié)果,最終輸出訓(xùn)練模型.K-means算法在實際應(yīng)用中存在局限:一是受無法事先確定聚類個數(shù)影響聚類精度,二是隨機選取初始聚類中心導(dǎo)致聚類結(jié)果不同.本研究通過引入聚類因子在聚類前確定小區(qū)劃分個數(shù),并初步選取聚類中心,有效克服了傳統(tǒng)K-means聚類隨機選取聚類中心影響劃分精度的問題.
(1)引入聚類因子初步確定交通小區(qū)的個數(shù)及中心.
公交IC卡獲得的出行起訖點數(shù)據(jù)能更精確的反映公交乘客出行特征,本研究綜合考慮區(qū)內(nèi)出行量,區(qū)內(nèi)及區(qū)間距離等因素,定義聚類因子I初步確定交通小區(qū)的個數(shù).聚類因子為各小區(qū)交通的相似性Din與各小區(qū)交通的差異性Dout的比值,即
式中:Din為各交通小區(qū)半徑按出行量的加權(quán)平均值,代表各小區(qū)交通的相似性;Dout為各交通小區(qū)兩兩中心的距離之和,代表各小區(qū)間交通的差異性.
式中:nj為第j個交通小區(qū)內(nèi)起訖點的個數(shù);n為全部起訖點的個數(shù);m為劃分的交通小區(qū)個數(shù);Rj為第j個交通小區(qū)的平均半徑;rij為樣本i到小區(qū)j中心的距離;Lij為小區(qū)i中心到小區(qū)j中心的歐式距離(由于經(jīng)緯度坐標(biāo)對歐式距離的貢獻(xiàn)相同,且用不同小區(qū)中心間的直線距離表示其差異性最為直觀,算法相對簡單,因此選用歐式距離).
基于聚類因子I確定交通小區(qū)個數(shù):同一小區(qū)內(nèi)Din越小,表示交通特征相似性越強;不同小區(qū)間Dout越大,表示交通特征差異性越強.在確定小區(qū)個數(shù)時選擇最小的聚類因子對應(yīng)的交通小區(qū)個數(shù).
具體步驟如下:
Step 1隨機初始化起訖點的隸屬度矩陣U,約束條件為
式中:uij為隸屬度,表示樣本j歸屬于小區(qū)i的隸屬度.
Step 2通過隸屬度矩陣、各起訖點間距離,引入拉格朗日乘數(shù),在式(5)約束條件下,求導(dǎo)計算獲得小區(qū)中心的經(jīng)緯度為
式中:cix為小區(qū)中心的經(jīng)度值;ciy為小區(qū)中心的緯度值;uij為隸屬度;xj為第j個樣本數(shù)據(jù)的經(jīng)度值;yj為第j個樣本數(shù)據(jù)的緯度值.
Step 3基于式(2)~式(4)計算Din和Dout,從而計算I.
Step 4確定交通小區(qū)個數(shù)的待選范圍,得到聚類因子與小區(qū)個數(shù)對應(yīng)關(guān)系圖,確定小區(qū)個數(shù).
Step 5確定小區(qū)個數(shù)后,將該個數(shù)對應(yīng)下的小區(qū)中心位置作為精確劃分的初始中心.
(2)基于K-means聚類精確劃分交通小區(qū).
在2.1節(jié)(1)初步確定小區(qū)個數(shù)后,會產(chǎn)生各小區(qū)交界處出現(xiàn)重疊的聚類結(jié)果問題,K-means聚類可有效克服該問題,因此通過K-means聚類對直接影響區(qū)內(nèi)部交通小區(qū)進(jìn)行細(xì)分,具體步驟如下:
Step 1基于2.1節(jié)(1)結(jié)果,將其獲得的隸屬度矩陣作為精確劃分的隸屬度uij,應(yīng)用其初步劃分的小區(qū)中心計算樣本和簇中心的距離,并取為歐式距離,即
式中:uij為隸屬度;xj為第j個樣本的經(jīng)度值;ci為第i個小區(qū)中心的經(jīng)度值;m為劃分的交通小區(qū)個數(shù).
Step 2采用最大期望算法,在聚類因子的約束條件下進(jìn)行迭代,迭代函數(shù)如式(8)所示.如果迭代函數(shù)相比上一次運算的結(jié)果改變不大,則終止迭代,此次迭代后uij非0 即1,有效克服了過程(1)中各小區(qū)聚類邊界重疊的問題.
式中:uij為隸屬度;xj為第j個樣本數(shù)據(jù);ci表示第i個小區(qū)中心位置.
Step 3聚類完成后,得到所有起訖點在各聚類小區(qū)中的分布,基于ArcGIS平臺生成小區(qū)邊界,并基于公交站點布局、結(jié)合各小區(qū)周邊道路、用地等情況對生成的小區(qū)邊界進(jìn)行調(diào)整,形成聚類結(jié)果精細(xì)劃分的小區(qū)邊界.
由于外圍小區(qū)主要用于體現(xiàn)走廊與外部主要客流吸引點間的交換量,因此聚類指標(biāo)重點考慮主要影響交換量的用地性質(zhì)、人口數(shù)量等因素,同時還要考慮原有小區(qū)之間的相似性和空間連接性.因此本研究采用可體現(xiàn)空間連接性的兩維圖論聚類算法,主要步驟如下:
Step 1獲取需合并小區(qū)i的指標(biāo)向量xi={xi1,xi2,…,xim},n個交通小區(qū)構(gòu)成原始數(shù)據(jù)矩陣[xij]n?m.
Step 2將不同指標(biāo)去除數(shù)據(jù)單位,轉(zhuǎn)化為無量綱值,標(biāo)準(zhǔn)化公式為
式中:xij為小區(qū)i的第j項指標(biāo)值.
Step 3構(gòu)建位置關(guān)系無向加權(quán)圖,計算連接邊的權(quán)值,即相似系數(shù).小區(qū)i和小區(qū)j之間的相似性系數(shù)為
式中:xik為小區(qū)i的第k項指標(biāo)值;xjk為小區(qū)j的第k項指標(biāo)值.
Step 4應(yīng)用兩維圖論聚類算法選擇不同閾值進(jìn)行小區(qū)合并,并用F檢驗法確定最佳閾值,從而確定小區(qū)合并個數(shù)和布局.F統(tǒng)計量為
F統(tǒng)計量服從自由度為s-1、n-s的F分布,由式(11)可知,在一定的顯著性水平下,通過顯著性檢驗且F值越大,說明聚類效果最好.
Step 5基于ArcGIS 平臺,根據(jù)各合并小區(qū)周邊的公交站點、道路和重要分割線等情況對小區(qū)生成的邊界進(jìn)行微調(diào),形成最終合并小區(qū).
本研究采用北京市2018年5月的地面公交和軌道交通IC卡數(shù)據(jù),共3.16億條記錄.剔除異常記錄,剩余3.15億條有效數(shù)據(jù),對應(yīng)約6.4億個起訖點.基于交通調(diào)查中的統(tǒng)計數(shù)據(jù)獲取2006個初始小區(qū)的人口和就業(yè)等數(shù)據(jù).
廣渠路走廊自廣渠門橋至宋梁路,26 km,是北京市中心城連接副中心的一條重要走廊,地鐵1條,地面公交39條.由IC卡獲得的公交乘客出行起訖點(如圖2所示)可知,公交乘客出行起訖點主要分布在廣渠路兩側(cè)5 km 范圍內(nèi),因此本研究將廣渠路走廊的直接影響區(qū)確定為道路兩側(cè)5 km范圍.
圖2 主要出行起訖點Fig.2 Main OD
(1)直接影響區(qū)內(nèi)部交通小區(qū)的細(xì)分.
基于公交IC卡獲得的乘客出行鏈數(shù)據(jù)可得到直接影響區(qū)內(nèi)所有起訖點位置數(shù)據(jù),通過地理信息系統(tǒng)獲得各起訖點間距離,初步確定走廊直接影響區(qū)內(nèi)交通小區(qū)個數(shù)的待選范圍[40,110],得到聚類因子與交通小區(qū)個數(shù)對應(yīng)關(guān)系如圖3所示.
在40個小區(qū)的情況下,聚類因子相對較大;隨著交通小區(qū)個數(shù)增加,聚類因子呈下降趨勢,當(dāng)小區(qū)個數(shù)增至70個時,聚類因子取到極小值;繼續(xù)增加小區(qū)個數(shù),聚類因子無明顯變化,略有增大.因此,初步確定走廊直接影響區(qū)小區(qū)個數(shù)為70個.初步劃分的各交通小區(qū)中心如表1所示.
圖3 聚類因子與小區(qū)個數(shù)對應(yīng)關(guān)系Fig.3 Cluster factors and number of TAZs
表1 初步劃分小區(qū)中心位置Table1 Preliminary division of position of zone center through fuzzy C-means clustering
選定小區(qū)個數(shù)為70,將初始小區(qū)位置作為K-means聚類的初始化參數(shù).通過走廊內(nèi)公交起訖點確定隸屬度矩陣,根據(jù)公交起訖點與各簇中心距離確定歐式距離,通過K-means聚類方法進(jìn)行小區(qū)細(xì)分,結(jié)果如圖4所示,圖中每個點表示一個出行起訖點.
圖4 百子灣路—高碑店路—王四營北路—東四環(huán)路區(qū)域聚類結(jié)果Fig.4 Regional clustering results
(2)間接影響區(qū)交通小區(qū)的合并.
以直接影響區(qū)南部交通小區(qū)為例,根據(jù)統(tǒng)計和交通調(diào)查數(shù)據(jù),獲得各小區(qū)人口、各類用地數(shù)據(jù),形成聚類指標(biāo)表.對指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理后,計算相似性矩陣,將相似性矩陣轉(zhuǎn)換成權(quán)值.依據(jù)各小區(qū)拓?fù)潢P(guān)系,建立支撐樹結(jié)構(gòu).依據(jù)權(quán)值獲取相應(yīng)閾值,順序為:0.001、0.003、0.006、0.007、0.009,形成不同的最小支撐數(shù).從圖5可知,被合并小區(qū)的相似性程度隨閾值增大而增大,被合并的小區(qū)類數(shù)逐漸減小,被合并的小區(qū)增加.當(dāng)閾值取0.009時,所有的小區(qū)被合并成一個,顯然與實際不相符.由小區(qū)拓?fù)潢P(guān)系和經(jīng)驗判斷,當(dāng)閾值大于等于0.007時,被合并的小區(qū)過大,也與實際不相符.因此,初步排除閾值取0.009和0.007兩種情況.在顯著性水平0.05的水平下,通過F檢驗確定最佳閾值,其中閾值為0.001時,F(xiàn)值為11.005,臨界值為3.106;閾值為0.003時,F(xiàn)值為7.283,臨界值為3.197;閾值為0.006時,F(xiàn)值為6.375,臨界值為4.103.F值越大,說明不同類對象之間的差異越大,同類對象之間的差異越小,因此應(yīng)選取F值最大對應(yīng)的閾值,即最佳閾值為0.001,19個小區(qū)被合并為8個,如圖6所示.
依據(jù)上述方法,對廣渠路走廊直接影響區(qū)內(nèi)小區(qū)進(jìn)行細(xì)化,細(xì)化后共70個交通小區(qū).在北京市2 006個小區(qū)的基礎(chǔ)上,對走廊外圍小區(qū)進(jìn)行合并,合并前后的小區(qū)對比如圖7所示,其中圖7(b)為細(xì)化和合并后的小區(qū)結(jié)果.
圖5 不同閾值下聚類結(jié)果Fig.5 Clustering results
圖6 合并小區(qū)示例Fig.6 Illustration of merging old TAZs to new TAZs within indirect influencing area
圖7 廣渠路走廊影響區(qū)域交通小區(qū)劃分前后的對比圖Fig.7 Comparison chart of TAZs clustering results
利用DBI聚類性能評價指標(biāo)判斷改進(jìn)方法的聚類效果,如式(13)所示,DDB越小表示聚類效果越好.結(jié)果如表2所示,說明本研究劃分的交通小區(qū)更適用于公交客運走廊的出行特征分析和需求預(yù)測.
式中:為小區(qū)i的內(nèi)部平均歐式距離;為小區(qū)j的內(nèi)部平均歐式距離為小區(qū)i與小區(qū)j間的歐式距離;m為劃分的小區(qū)個數(shù).
表2 劃分方法驗證Table2 Verification of division methods
本研究基于公交出行大數(shù)據(jù)確定走廊直接影響區(qū)范圍,提出客運交通走廊交通小區(qū)分層次劃分理論以及公交客運走廊直接影響區(qū)和間接影響區(qū)交通小區(qū)劃分方法.其中直接影響區(qū)內(nèi)通過引入聚類因子,應(yīng)用改進(jìn)的K-means聚類方法,有效避免了K-means 需要制定初始聚類參數(shù)而影響聚類精度的問題.依據(jù)走廊間接影響區(qū)的特征提出的兩維圖論聚類法,充分考慮了交通小區(qū)合并的相似性和空間鄰接性.經(jīng)實例驗證,該方法聚類結(jié)果較傳統(tǒng)方法鄰接性更優(yōu),且符合實際應(yīng)用.本研究提出的公交客運走廊分層次交通小區(qū)劃分方法是可行的,經(jīng)DBI聚類性能評價指標(biāo)分析,相比傳統(tǒng)交通小區(qū)劃分方法驗證指標(biāo)值更小,說明在走廊直接影響區(qū)內(nèi)各小區(qū)間相似性更大,外部各小區(qū)間差異性更大,因此特征分析和需求預(yù)測結(jié)果將更加準(zhǔn)確,且分層次的劃分方法更適用于客運走廊層面分析公交運行特征和需求預(yù)測.應(yīng)用該方法劃分的交通小區(qū)可以為走廊公交線網(wǎng)優(yōu)化、公交專用道運行效率評價等工作提供基本分析單元.