陳 堅,邱智宣,彭 濤,劉柯良,傅志妍,庹永恒
(1. 重慶交通大學 交通運輸學院,重慶 400074;2. 重慶第二師范學院 經(jīng)濟與工商管理學院,重慶 400067; 3. 重慶市公安局 大渡口區(qū)分局交巡警支隊,重慶 400084)
隨著城鎮(zhèn)化的快速推進,城市機動車保有量迅猛增長,交通安全問題也日益突出。近年來,我國道路交通死亡人數(shù)長期居于世界首位,每年有6萬人以上死于道路交通事故,直接財產(chǎn)損失達13億元,交通安全形勢依然嚴峻。因此,從多維視角解析交通事故十分必要。
國內(nèi)外學者圍繞交通安全進行了系統(tǒng)研究。已有研究從事故構(gòu)成要素入手,將人、車、路及自然環(huán)境等方面與事故的關(guān)系進行分析。董傲然等[1]從人、車、路和自然環(huán)境這4個方面出發(fā),構(gòu)建了機動車與行人事故嚴重程度的分析模型;S.KUMAR等[2]考慮了受傷者的性別與年齡、照明條件、道路情況等11個因素,對印度車輛交通事故嚴重程度進行了對比分析。也有學者從區(qū)域視角出發(fā),探索區(qū)域人口經(jīng)濟、土地利用特征及區(qū)域路網(wǎng)特征等因素與交通安全之間的關(guān)系。王雪松等[3]選擇了區(qū)域人口特征、道路及交通特性、路網(wǎng)形態(tài)特征等指標對交通安全進行分析,結(jié)果發(fā)現(xiàn)路網(wǎng)形態(tài)和交通安全顯著相關(guān);P.NAJAF等[4]基于年齡、人口、人均收入等測度,分析了城市形態(tài)特征與交通安全的關(guān)系;潘義勇等[5]考慮了公園、醫(yī)院等建成環(huán)境因素,探索了老年人因事故造成傷害嚴重程度的影響因素。
現(xiàn)有研究僅考慮了部分建成環(huán)境因素對事故的影響,如道路特征[3]、人口密度[4]、土地利用情況[6]等。尚缺少對建成環(huán)境因素系統(tǒng)的考慮及與其它因素的對比,導致難以從城市規(guī)劃本源出發(fā),來規(guī)避交通事故的發(fā)生。筆者基于重慶市某區(qū)交通事故信息,運用機器學習方法,探究建成環(huán)境對交通事故嚴重程度的非線性關(guān)系,得到了變量的重要度。
空間數(shù)據(jù)分析結(jié)果會隨著面積單元定義的不同而發(fā)生變化,其影響主要體現(xiàn)在尺度效應與劃區(qū)效應兩個方面,因此適宜的空間尺度對空間數(shù)據(jù)分析及結(jié)果獲取十分重要。楊文越等[7]對比分析了多尺度建成環(huán)境對居民通勤出行的狀況,發(fā)現(xiàn)不同尺度建成環(huán)境的顯著性為:社區(qū)尺度>社區(qū)邊界1 km緩沖范圍尺度>街道尺度。由于文中研究的對象為事故點,社區(qū)尺度相對狹窄,故筆者選取事故點1 km緩沖區(qū)作為建成環(huán)境的研究單元。
與自然環(huán)境不同,建成環(huán)境是土地利用、城市設計及交通系統(tǒng)等一系列相關(guān)要素的集合。建成環(huán)境的定量測度一直是城市規(guī)劃學的研究熱點,從20世紀80年代開始建成環(huán)境的內(nèi)涵不斷被豐富。R.EWING等[8]將建成環(huán)境歸結(jié)為“3D”維度,包括密度、多樣性和設計,而后在“3D”維度基礎(chǔ)上增加了目的地可達性和到站點距離,形成“5D”維度[9]。
筆者所指的建成環(huán)境測度指標是在“5D”維度基礎(chǔ)上,對建成環(huán)境要素進行重構(gòu),甄選人口密度、土地利用混合度、路網(wǎng)密度、距市中心距離、公交站點密度等11個變量用于度量建成環(huán)境的密度、多樣性、交通設計、可達性及公共交通鄰近度5個維度。建成環(huán)境變量描述見表1,其中密度為點密度,通過計算POI點個數(shù)與研究區(qū)域面積之比得到;多樣性通過土地利用混合度表征[10],計算如式(1);交通設計涵蓋交叉口密度與路網(wǎng)密度;可達性通過計算各研究單元距離城市中心的歐幾里得距離得到;公共交通鄰近度用研究單元內(nèi)的公交站點密度及地鐵站點密度進行度量。
(1)
式中:Li為第i個研究單元的土地利用熵指數(shù);Pij為第i個研究單元內(nèi)第j種POI數(shù)量占總數(shù)的比例;N為POI興趣點個數(shù)。
表1 建成環(huán)境變量
建成環(huán)境數(shù)據(jù)處理主要借助Arc GIS平臺,涉及數(shù)據(jù)包括:街道行政區(qū)數(shù)據(jù)、道路網(wǎng)絡數(shù)據(jù)和POI興趣點數(shù)據(jù)。街道行政區(qū)數(shù)據(jù)以面為單元,用于研究空間范圍的構(gòu)建;道路網(wǎng)絡數(shù)據(jù)包括不同等級的道路線網(wǎng),以測度研究區(qū)域的路網(wǎng)密度;POI興趣點數(shù)據(jù)通過Python中的爬蟲工具在Open Street Map中獲取,用于計算不同研究區(qū)域點密度及可達性。建成環(huán)境數(shù)據(jù)處理流程見圖1。
圖1 建成環(huán)境數(shù)據(jù)的處理過程
交通事故按事故嚴重程度分為輕微事故、一般事故、重大事故和特大事故4類,不同等級事故劃分標準見表2。
表2 事故等級分類
由于事故原始數(shù)據(jù)中只有對事故發(fā)生點的地址描述,沒有經(jīng)緯度數(shù)據(jù),因此需要對事故原始數(shù)據(jù)進行地理編碼。將表示地址的文字在地圖中進行相似性匹配,并在這些表示地址的文字中匹配到相似度最高的文字,最后返回匹配結(jié)果和相應的經(jīng)緯度信息作為最終結(jié)果。田沁等[11]比較了百度、高德、搜狗和騰訊等地圖廠商的地理編碼應用程序編程接口的服務品質(zhì),認為騰訊的地理編碼API整體服務品質(zhì)較好,具有較高的數(shù)據(jù)質(zhì)量和較完備的地址數(shù)據(jù)。故筆者采用騰訊的地理編碼API進行事故發(fā)生點地址到經(jīng)緯度坐標轉(zhuǎn)換。
筆者采用2016—2018年重慶市某區(qū)102 km2范圍內(nèi)的道路交通事故數(shù)據(jù),共計154起,經(jīng)剔除缺失值、地理編碼后,最終確定了126起事故數(shù)據(jù)作為研究對象?;趐ython對事故傷亡情況進行識別并做出統(tǒng)計,不同等級事故統(tǒng)計情況見表3。
表3 事故數(shù)據(jù)統(tǒng)計
將含經(jīng)緯度的事故數(shù)據(jù)導入GIS中,運用核密度分析工具描述事故的空間分布特征。不同等級事故分布情況見圖2,圖2中:顏色越深的地方表示事故數(shù)量越多;從分布情況來看,西部的事故數(shù)量明顯高于東部,特別是靠近北側(cè)的事故數(shù)量最多,同時這3種類型事故均在不同區(qū)域出現(xiàn)了集聚現(xiàn)象。
圖2 事故分布
傳統(tǒng)統(tǒng)計學模型由于變量的度量方式(如單位、數(shù)量級等)的不同,難以體現(xiàn)出各變量對因變量的重要程度。而梯度提升決策樹(gradient boosting decision tree, GBDT)模型具有以下優(yōu)勢:① 沒有預先確定兩個變量之間的結(jié)構(gòu)關(guān)系假設,可以實現(xiàn)數(shù)據(jù)的自我學習;② 可以提供各變量在結(jié)果中相對重要性估計;③ 與回歸模型不同,該模型對建成環(huán)境與交通問題分析中經(jīng)常存在的多重共線性問題不敏感。因此,筆者選擇GBDT模型對建成環(huán)境因素與事故嚴重程度的非線性關(guān)系進行分析。
城市道路交通事故是人、車、路、環(huán)境等諸多因素耦合作用的結(jié)果,因此除了考慮建成環(huán)境因素外,同時將個體行為、道路情況、事故類型和自然環(huán)境因素納入到模型中,其它變量見表4。
表4 其它變量描述與賦值
GBDT是基于Boosting算法的集成決策樹模型,Boosting算法依據(jù)上一次訓練的殘差生成基學習器。GBDT是在Boosting基礎(chǔ)上,沿著殘差減小的梯度方向上建立新的決策樹。GBDT方法的核心目標是不斷減小訓練過程產(chǎn)生的殘差,模型可由式(2)表示[12]。
(2)
(3)
式中:γj、c分別為待估計參數(shù);hj(x)為弱分類器j的估計結(jié)果;J為弱分類器數(shù)量。
GBDT模型求解過程如下[13]:
2)計算第m次迭代的殘差,如式(4):
(4)
3)利用弱分類器hm(x)擬合步驟二中得到的殘差rim;
4)計算估計乘子,如式(5):
(5)
5)根據(jù)得到的γm對Fm(x)進行更新,Fm(x)=Fm-1(x)+γmhm(x);
6)判斷是否達到預先設置的迭代次數(shù)與精度要求,若滿足,則得到最終估計結(jié)果;否則,返回2)。
GBDT模型通過計算所有加法樹的均值,從而得到每個變量對因變量的相對重要程度,如式(6):
(6)
學習率、最大決策樹數(shù)量、樹深度這3個參數(shù)取值決定了GBDT模型的整體效果。GBDT模型中樹的深度不會超過log2(n),其中n為樣本數(shù)量,因此文中樹的深度取7。對學習率、最大決策樹數(shù)量取值進行調(diào)參,探究不同取值對模型得分的影響,從而獲得最優(yōu)參數(shù)值,如圖3。由圖3可看出:有多處位置可取到最大值,最終文中模型的學習率取值0.15,樹的數(shù)量取值82。
圖3 參數(shù)調(diào)整
經(jīng)訓練后的模型擬合效果穩(wěn)定,各變量對交通事故嚴重程度影響的重要度見表5。
表5 變量重要度排序
建成環(huán)境變量中:土地利用混合度、快速路及主干路密度、次干路及支路密度、人口密度及可達性的累計重要度達60.57%。故這5個變量是解釋建成環(huán)境對交通事故嚴重程度影響的主要因素。其中土地利用混合度對交通事故嚴重程度的影響最大,為14.29%;其次是快速路及主干路密度、次干路及支路密度、人口密度和可達性,分別占比12.43%、11.54%、11.35%、10.96%;剩余變量重要度較低,均低于10%,這說明這些變量對交通事故嚴重程度影響較小。道路情況與文獻[14]研究結(jié)果中的道路物理隔離與車道數(shù)對事故嚴重程度不顯著相吻合;事故發(fā)生時間變量與文獻[15]研究結(jié)果中的時間段對事故嚴重程度的重要度較低的結(jié)果一致。土地利用混合度、快速路及主干路密度、次干路及支路密度、人口密度及可達性對交通事故嚴重程度的影響曲線見圖4。
圖4 事故嚴重程度影響曲線
由圖4可知:土地利用混合度在1.72處發(fā)生較大突變,土地利用混合度高的地方,車輛的速度會受到限制,從而導致較低的事故嚴重程度;快速路及主干路密度在2.2 km/km2處發(fā)生較大突變,這表明快速路及主干路密度在超過該閾值后,對事故嚴重程度將產(chǎn)生較大影響,因此快速路及主干路密度在前期規(guī)劃中應考慮安全合理取值;人口密度方面,在約1 600人/km2和19 000人/km2處發(fā)生突變,在該區(qū)間內(nèi)基本對事故嚴重程度影響基本不變,因此人口密度只有達到閾值后對事故嚴重程度的影響才能得到凸顯;次干路及支路密度對事故嚴重程度的影響與快速路及主干路相反,整體上表現(xiàn)出下降的趨勢,因此從交通安全的角度出發(fā),次干路及支路的建設應受到重視。可達性對交通事故的影響呈現(xiàn)出上升的趨勢,最后趨于穩(wěn)定;即隨著距離市中心距離越遠,事故嚴重程度越高,且在超過閾值后基本穩(wěn)定。
筆者基于重慶市某區(qū)的交通事故數(shù)據(jù),運用GBDT模型探索了建成環(huán)境與交通事故嚴重程度的非線性關(guān)系;得到各變量的重要程度排序,同時給出了重要度較高的變量對事故嚴重程度的影響曲線。從研究結(jié)果可看出:① 建成環(huán)境變量在事故嚴重程度方面具有重要作用,其中土地利用混合度、快速路及主干路密度、次干路及支路密度、人口密度及可達性的集體貢獻占比60.57%;② GBDT模型能更加精確地捕獲各變量對事故嚴重程度影響的非線性關(guān)系及閾值效應。