李 男,趙國祥,李芷倩,張 敏,高晉紅
(1.河北高速集團(tuán)工程咨詢有限公司,河北 石家莊 050000;2.河北高速公路集團(tuán)有限公司承德分公司,河北 承德 067000;3.長江航道規(guī)劃設(shè)計(jì)研究院,湖北 武漢 430040;4.長安大學(xué)運(yùn)輸工程學(xué)院,陜西 西安 710064)
繞城高速是指環(huán)繞城市修建且被納入國家或地方高速公路網(wǎng)的高速公路,主要解決城市通勤車輛的疏導(dǎo)問題。對于旅游城市,旅游旺季期間的出行量較大,繞城高速也分擔(dān)部分的交通疏解壓力,導(dǎo)致利用繞城高速進(jìn)行出行行為的復(fù)雜性增加。因此,精確識(shí)別車輛通勤及其他出行特征對于提高繞城高速的通行效率尤為重要。
隨著交通信息采集系統(tǒng)的建設(shè)完善,高速公路收費(fèi)流水?dāng)?shù)據(jù)為城市擁堵及其內(nèi)在規(guī)律的分析提供了條件。李樹彬等[1]利用高速公路進(jìn)出口收費(fèi)站數(shù)據(jù),采用仿真手段將動(dòng)態(tài)OD 進(jìn)行網(wǎng)絡(luò)加載,從而產(chǎn)生實(shí)時(shí)的高速公路全路網(wǎng)無縫覆蓋的網(wǎng)絡(luò)狀態(tài)估計(jì)。郭瑞軍等[2]通過高速收費(fèi)流水?dāng)?shù)據(jù)統(tǒng)計(jì)分析高速交通流量的時(shí)變規(guī)律、行程速度分布,分析高速公路的交通流特性。胡繼啟[3]通過分析高速公路交通擁堵和行程延誤時(shí)間之間的關(guān)聯(lián)性,提出了基于行程延誤的高速公路交通擁堵判別與定位算法。楊慶芳等[4]探討了利用高速公路收費(fèi)數(shù)據(jù)作為數(shù)據(jù)依據(jù)進(jìn)行道路狀態(tài)評價(jià)的可行性。魏廣奇等[5]借助K-means++聚類方法識(shí)別高速公路日常通勤的車輛,進(jìn)一步分析通勤車輛的出行時(shí)空分布特征。
綜上,目前對于收費(fèi)數(shù)據(jù)的應(yīng)用主要集中于研究路網(wǎng)運(yùn)行狀態(tài)評價(jià)指標(biāo),研究車輛出行特征較少。同時(shí),城市道路網(wǎng)的規(guī)劃都是從滿足居民日常通勤出行需要的角度出發(fā),而旅游城市中的旅游客流必然對城市日常交通產(chǎn)生一定影響。旅游出行的行為特征區(qū)別于通勤出行,因此有必要運(yùn)用收費(fèi)數(shù)據(jù)對通勤及其他出行行為進(jìn)行識(shí)別、分類研究。
本文以繞城高速收費(fèi)流水?dāng)?shù)據(jù)為基礎(chǔ),提取有明顯通勤及其他特征的車輛,分析其出行時(shí)空分布特征,為優(yōu)化繞城高速收費(fèi)站管理及緩解城市交通系統(tǒng)問題提供方法支撐和相應(yīng)的輔助決策信息。
基于我國京津冀地區(qū)某旅游城市繞城高速公路收費(fèi)交易流水?dāng)?shù)據(jù),重點(diǎn)關(guān)注載客車輛的出行情況,主要分析客車的收費(fèi)數(shù)據(jù),數(shù)據(jù)字段見表1。
表1 高速公路收費(fèi)流水?dāng)?shù)據(jù)格式
通常情況下,缺失值所占比例很小,且樣本數(shù)據(jù)量大,故采用刪除法移除所有含有缺失數(shù)據(jù)的行。將含有異常值的數(shù)據(jù)用平均值進(jìn)行修正。與此同時(shí),從繞城高速收費(fèi)站點(diǎn)的數(shù)據(jù)中分離出工作日的一型客車數(shù)據(jù),以供車輛出行特征識(shí)別。
為有利于分析車輛出行空間分布,進(jìn)行地圖匹配。借助網(wǎng)絡(luò)上的電子地圖數(shù)據(jù)獲取底圖,在此基礎(chǔ)上,使用ArcGIS 繪制電子地圖,其中包括空間地物的地理位置信息和路段、節(jié)點(diǎn)的拓?fù)潢P(guān)系信息。
基于高速公路的通勤車輛屬于城市通勤交通的一種,具有與通勤交通類似的出行行為特征,主要包括以下幾種類型:①出行的時(shí)間與地點(diǎn)相對穩(wěn)定;②工作日早晚高峰基本都有出行;③工作日平峰間基本沒有出行[5];④出行存在往返性[4]。旅游交通的特征與通勤交通部分相同,包括每天首次出行的地點(diǎn)通常固定,且連續(xù)一段時(shí)間內(nèi)均有出行。不同之處在于旅游交通在平峰也可能有出行,時(shí)間相對不固定,地點(diǎn)通常集中在旅游景點(diǎn)周邊。
聚類分析算法不依賴預(yù)先定義類或者帶類標(biāo)記的訓(xùn)練實(shí)力,將相似的對象歸到同一類[6],最經(jīng)典的聚類算法有K-means和模糊C均值算法等;隨機(jī)森林算法是一種有監(jiān)督的集成學(xué)習(xí)分類技術(shù),對于高維數(shù)據(jù),隨機(jī)森林的綜合性能指標(biāo)明顯優(yōu)于其他單分類器[7]。由于數(shù)據(jù)量較大,特征較多,隨機(jī)森林具有良好的泛化性、準(zhǔn)確性,適合用來對聚類分析后的結(jié)果進(jìn)行精度驗(yàn)證。
2.2.1 K-means聚類算法
最佳聚類中心數(shù)的確定通常采用“手肘法”,手肘法的核心指標(biāo)是誤差平方和(SSE)。SSE是所有樣本的聚類誤差,代表了聚類效果的好壞。
基于K-means 算法的不足,提出了改進(jìn),主要有以下方面:①對于初始k 值的確定,先設(shè)置選定月份的總出行天數(shù)、工作日天數(shù)及該月每天的出行車輛數(shù)作為約束條件,再運(yùn)用“手肘法”計(jì)算聚類誤差,可以預(yù)先觀察相對合理的聚類數(shù);②關(guān)于初始聚類中心的選取,采用了基于密度的初始聚類中心選擇方法,其基本思想是針對每一個(gè)特征值,計(jì)算以該特征值為圓心,以α(設(shè)置為該特征值平均數(shù))為半徑的圓中包含其他特征值的個(gè)數(shù),并以此作為該特征值的密度,然后根據(jù)密度排序,選取密度最大的前k 個(gè)特征值作為初始聚類中心;③在聚類的過程中,加入外部約束條件進(jìn)行調(diào)整,得出滿足選定月份總天數(shù)、工作日天數(shù)和早晚高峰時(shí)間段的個(gè)數(shù)等約束條件的最優(yōu)結(jié)果。
2.2.2 聚類變量
提出基于高速公路的出行識(shí)別的特征變量:
①X1,在車輛每天的首次出行中,以最常選擇的起始收費(fèi)站進(jìn)行出行的天數(shù)。
②X2,在工作日車輛全天有出行的天數(shù)總和。
③X3,在工作日平峰時(shí)段(09:00—16:00、18:00—次日07:00)有出行的天數(shù)總和。
④X4,在該月份中車輛出行的連續(xù)天數(shù)總和。
⑤X5,在工作日早高峰時(shí)段(07:00—09:00)或晚高峰時(shí)段(16:00—18:00)有出行的天數(shù)總和。
采用R 軟件中的randomForest 包建立隨機(jī)森林模型[8],首先指定節(jié)點(diǎn)中用于二叉樹的變量個(gè)數(shù),即mtry參數(shù),對mtry 的選擇是逐一嘗試,直到找到比較理想的值;再指定隨機(jī)森林所包含的決策樹數(shù)目,即ntree 參數(shù),對ntree 的選擇則通過圖形判斷模型內(nèi)誤差穩(wěn)定時(shí)的值。由于隨機(jī)森林算法在構(gòu)建每棵樹時(shí),隨機(jī)且有放回地抽取訓(xùn)練集中的數(shù)據(jù),沒有參與的數(shù)據(jù)則是該棵樹的袋外樣本數(shù)據(jù)。該特點(diǎn)允許使用袋外數(shù)據(jù)誤差評估算法的有效性。
在計(jì)算隨機(jī)森林中變量的重要性時(shí),通過隨機(jī)打亂變量并觀察模型的性能變化,可以評估變量的重要性。模型的準(zhǔn)確率或GINI 系數(shù)顯著下降,表示變量的重要性越高。
為驗(yàn)證繞城高速公路車輛出行特征分析方法的可行性,以京津冀地區(qū)某城市作為實(shí)例進(jìn)行分析。該城市繞城高速的東西向路段全線雙向四車道,設(shè)計(jì)速度120 km/h,南北向路段全線雙向六車道,設(shè)計(jì)速度100 km/h,最高限速均為100 km/h。其中共有9 個(gè)收費(fèi)站,從1 到9編號(hào),布局如圖1所示。
圖1 繞城高速布局示意圖
3.1.1 識(shí)別結(jié)果分析
2021 年7 月份的工作日22 天,非工作日9 天,在該城市境內(nèi)出現(xiàn)的客車約27 萬輛,產(chǎn)生了約58 萬條流水?dāng)?shù)據(jù)。對每一輛車Xi生成相應(yīng)的特征向量Fi=[X1,X2,X3,X4,X5],根據(jù)“手肘法”確定最佳聚類中心數(shù)k為3。
采用K-means 算法對車輛的特征矩陣進(jìn)行聚類分析,聚類中心與結(jié)果分布見表2。因聚類分析對噪聲點(diǎn)敏感,可從結(jié)果中看出第1 類數(shù)據(jù)分布較為離散,即為數(shù)據(jù)集中的噪聲點(diǎn),舍棄該類數(shù)據(jù)。提取第2、3類車輛的矩陣特征值,分別繪制概率密度函數(shù)圖,如圖2和圖3所示。
圖2 第2類車輛的概率密度函數(shù)圖
圖3 第3類車輛的概率密度函數(shù)圖
表2 K-means聚類中心與結(jié)果
由圖2 可以看出,在第2 類車輛中,所有車輛的X1主要集中在2天~7天;X2則相對較大,集中在3天~8天;X3比前兩者小,分布在0~5 天;X4更小,基本聚集在0~2天;X5分布與X3接近,集中在0~5 天,均小于8 天。上述特征說明,第2類車輛在一段時(shí)間內(nèi)出行的時(shí)間與地點(diǎn)相對穩(wěn)定,連續(xù)出行天數(shù)較短。此外,工作日與非工作日、早晚高峰與平峰的出行天數(shù)基本都接近,具有明顯的旅游特征,占繞城高速出行車輛比例的8.11%左右。
由圖3 可得,在第3 類車輛中,所有車輛的X1均大于5 天,且主要集中在10 天~20 天;X2相對較大,集中在11 天~21 天;X3比前兩者小,分布在1 天~12 天;X4聚集范圍更小,基本聚集在0~5 天;與X4相比,X5分布則較大,集中在5 天~15 天,但均小于20 天。上述特征說明,第3類車輛出行地點(diǎn)趨于長期穩(wěn)定,工作日早晚高峰基本都有出行,且平峰出行較少,具有明顯的通勤特征,占繞城高速出行車輛比例的1.17%左右。
3.1.2 結(jié)果驗(yàn)證
文中的mtry=2,ntree=400,此時(shí)袋外數(shù)據(jù)誤差為0.09%,模型擬合較好。在本文中,通過模型準(zhǔn)確率和GINI 系數(shù)的數(shù)值判斷影響最為重要的是工作日的出行天數(shù),最不顯著的是連續(xù)出行天數(shù)。
結(jié)果表明運(yùn)用聚類算法分類的誤差較小,其中類別1 的誤差為0.02%,類別2 的誤差為0.55%,類別3 的誤差為2.68%。數(shù)據(jù)表明,工作日出行天數(shù)的多少最能區(qū)分通勤與非通勤交通。
3.2.1 通勤車輛出行空間分布
①早高峰車輛入口與出口情況。
早高峰時(shí)段(07:00—09:00)通勤車輛進(jìn)出繞城高速公路的空間分布如圖4所示。從空間分布來看,早高峰通勤車輛進(jìn)入量較大的收費(fèi)站主要有3 號(hào)和2 號(hào)收費(fèi)站,離開量較大的收費(fèi)站主要集中在3 號(hào)和4 號(hào)收費(fèi)站。可以看出,早高峰時(shí)的通勤車輛集中在該城市東側(cè)的主城區(qū),但也有部分通勤車輛從主城區(qū)流向另一城區(qū),基本是從居住區(qū)域往核心辦公區(qū)行駛,通過繞城高速進(jìn)行接駁,再進(jìn)入城市道路。
圖4 早高峰車輛入口與出口的空間分布
②晚高峰車輛入口與出口情況。
晚高峰時(shí)段(16:00—18:00)通勤車輛進(jìn)出繞城高速公路的空間分布如圖5所示。由圖可知,晚高峰通勤車輛進(jìn)入量較大的收費(fèi)站主要有1 號(hào)和4 號(hào)收費(fèi)站,離開量較大的收費(fèi)站主要集中在3號(hào)收費(fèi)站。總體上,晚高峰通勤車輛流向趨勢與早高峰相反,主要是從辦公區(qū)往居住區(qū)擴(kuò)散。說明主要居住區(qū)位于2 號(hào)和3 號(hào)收費(fèi)站周邊,核心辦公區(qū)位于1 號(hào)和4 號(hào)收費(fèi)站周邊,具有明顯的職住空間分離的特征。
圖5 晚高峰車輛入口與出口的空間分布
③平均到達(dá)里程。
統(tǒng)計(jì)通勤車輛由各個(gè)收費(fèi)站進(jìn)入后的平均到達(dá)里程,如圖6所示。
圖6 繞城高速公路收費(fèi)站平均到達(dá)里程分布
其中,4 號(hào)和5 號(hào)收費(fèi)站的平均到達(dá)里程最大,在20 km~23 km之間,3號(hào)收費(fèi)站的平均到達(dá)里程接近20 km,1 號(hào)、9 號(hào)和7 號(hào)收費(fèi)站的平均到達(dá)里程較小,為15 km~17 km,2號(hào)和8號(hào)收費(fèi)站的平均到達(dá)里程最小。綜上,繞城高速大部分收費(fèi)站的平均到達(dá)里程集中分布在10 km~20 km之間。
3.2.2 旅游車輛出行空間分布
統(tǒng)計(jì)旅游車輛駛離高速公路的收費(fèi)站空間分布情況,如圖7所示。從各收費(fèi)站所處地理位置來看,由于3號(hào)和4號(hào)收費(fèi)站與火車站相近,2號(hào)收費(fèi)站位于主城區(qū),且毗鄰火車站,而1 號(hào)收費(fèi)站也臨近火車站,又是該城市往來機(jī)場的必經(jīng)之路,因此呈現(xiàn)明顯的旅游交通流集中分布的趨勢。
圖7 旅游車輛出口的空間分布
3.2.3 車輛出行時(shí)間分布
①通勤車輛出行時(shí)段占比情況。
統(tǒng)計(jì)工作日每小時(shí)通勤車輛進(jìn)入高速公路收費(fèi)站的比例,如圖8所示。可以得知通勤車輛出行的早晚高峰占比較高,且出行量在圖中呈現(xiàn)雙高峰趨勢,表明該類車輛具有明顯的通勤出行特征。此外,相比晚高峰時(shí)段(16:00—18:00),車輛在早高峰時(shí)段(07:00—09:00)內(nèi)的出行峰值更高,說明通勤車輛更愿意在早高峰使用高速公路通勤出行,可能原因是早高峰的時(shí)間成本高,使得車輛偏向于使用高速公路達(dá)到快速出行的目的。
圖8 通勤車輛每小時(shí)出行量占比分布圖
②旅游車輛出行時(shí)段占比情況。
統(tǒng)計(jì)7 月的每小時(shí)旅游車輛進(jìn)入高速公路收費(fèi)站的比例,如圖9所示??梢钥闯雎糜诬囕v的出行量在圖中呈現(xiàn)雙高峰趨勢,在11:00 附近達(dá)到第一個(gè)峰值,其后有短暫的下降,在18:00左右達(dá)到了第二個(gè)峰值。此外,從6:00 開始,出行量呈正比例穩(wěn)步增長,且在兩個(gè)峰值之間總體保持較高的值。數(shù)據(jù)表明,旅游出行的時(shí)間段基本分布在全天的黃金游玩時(shí)間,且雙高峰的聚集時(shí)間在就餐時(shí)間附近,符合旅游出行的目的。
圖9 旅游車輛每小時(shí)出行量占比分布圖
為驗(yàn)證本文所提出的車輛特征識(shí)別方法的適用性,將分析得到的時(shí)空分布特征應(yīng)用于交通走廊判別方面。交通走廊通常被定義為市域范圍內(nèi)以主干道為載體,集合多種運(yùn)輸方式,具有共同流向的,貫穿城市不同組團(tuán)的交通通道[9]。交通走廊按照研究地域廣度可劃分為3 個(gè)研究層次,即國家或國際交通走廊、區(qū)域交通走廊以及城市交通走廊[10]。本文從城市交通走廊的層次研究,按照功能細(xì)分為通勤走廊和旅游走廊,均采用客運(yùn)量指標(biāo)、空間集聚度指標(biāo)、時(shí)間集聚度指標(biāo)進(jìn)行判定,見表3。
表3 交通走廊分類評價(jià)指標(biāo)
結(jié)合車輛出行特征分布,滿足上述3個(gè)評價(jià)指標(biāo)可有效判別城市客運(yùn)交通走廊。挖掘城市繞城高速上通勤與旅游的快速出行廊道分布,有利于分析大運(yùn)量客運(yùn)交通的線路走向,對引導(dǎo)城市交通發(fā)展有及其重要的意義。
①利用改進(jìn)K-means 聚類方法識(shí)別使用繞城高速公路進(jìn)行通勤與非通勤出行的車輛,進(jìn)行分類提取,再利用隨機(jī)森林算法對分類結(jié)果的準(zhǔn)確性進(jìn)行驗(yàn)證。從通勤出行的角度,挖掘城市通勤快速出行的時(shí)空分布;從旅游出行的角度,分析繞城高速公路疏解旅游車流的運(yùn)行情況。車輛出行特征可運(yùn)用于判定城市繞城高速公路上的客運(yùn)交通走廊,對提升城市交通系統(tǒng)效率具有重要的影響。
②以京津冀地區(qū)某城市為例進(jìn)行實(shí)證分析。通勤車輛的空間分布明顯區(qū)分就業(yè)地和居住地,與土地利用性質(zhì)基本一致;通勤出行的到達(dá)里程較小,主要為短途出行;通勤交通的早晚高峰交通流占比大。旅游交通在空間分布上聚集于火車站、高鐵站以及機(jī)場等客運(yùn)場站附近,高峰時(shí)間處于就餐時(shí)間附近。
③在分析城市通勤與非通勤交通的特征時(shí),側(cè)重于考慮時(shí)空分布特征,在后續(xù)研究中,需進(jìn)一步完善各個(gè)類別車輛在繞城高速上的運(yùn)行狀態(tài)與收費(fèi)情況的構(gòu)建與分析,對優(yōu)化城市交通系統(tǒng)結(jié)構(gòu)有重要作用。