曾令秋,王瑞梅,韓慶文,曾 孜,朱穎祥,張 程
(1.重慶大學(xué)計算機學(xué)院,重慶400044;2.重慶大學(xué)通信工程學(xué)院,重慶400044;3.重慶市第七中學(xué)校,重慶400030)
事故熱點是影響道路通行時間和擁堵狀況的重要因素,其產(chǎn)生原因復(fù)雜,例如,由于地形因素客觀成為事故熱點區(qū)域(南美玻利維亞北永加斯路被稱為“死亡之路”)、由于高車流密度和人流量成為事故熱點區(qū)域的鬧市區(qū)。對駕駛?cè)嘶蜃詣玉{駛決策系統(tǒng)而言,不同成因的事故熱點的決策方案必然不同。因此,從提升道路交通安全的角度來看,需要為駕駛?cè)嘶蜃詣玉{駛決策算法提供與事故熱點相關(guān)的內(nèi)特性信息,即需要發(fā)掘事故熱點成因并以之為依據(jù)提供相關(guān)的控制決策信息。
熱點成因識別是一個歷史數(shù)據(jù)分析問題,即通過分析海量歷史數(shù)據(jù),發(fā)現(xiàn)對象熱點中事故的生成共性因素,并以之為依據(jù)識別熱點成因。目前,中國描述交通事故的數(shù)據(jù)局限于某一城市或某一路段的統(tǒng)計,并沒有公開的權(quán)威數(shù)據(jù)庫可以提供相應(yīng)的數(shù)據(jù)。英國國家數(shù)據(jù)庫STATs19[1]記錄了自1926年起英國發(fā)生的所有交通事故,并通過82個屬性描述單個事故,STATs19是迄今為止英國記錄最詳細、最完整、最可靠的提供道路交通碰撞信息資源的數(shù)據(jù)庫,并被廣泛應(yīng)用于道路交通安全評估。由于該數(shù)據(jù)庫能夠為熱點分析提供充足的事故數(shù)據(jù),本文基于該數(shù)據(jù)庫開展研究。
從STATs19數(shù)據(jù)庫82個屬性變量中發(fā)掘成因因素需要進行降維,本文采用較為經(jīng)典的降維法——主成分分析法實現(xiàn)事故熱點分析。文獻[2]采用主成分分析法評估高速公路交通安全狀況。文獻[3]將主成分分析納入道路交通事故預(yù)測中,消除一些重疊信息,并結(jié)合神經(jīng)網(wǎng)絡(luò)對道路交通事故進行預(yù)測。文獻[4]提出評價區(qū)域交通安全的主成分分析模型,展現(xiàn)了主成分分析法在交通數(shù)據(jù)庫分析中的可行性。以上研究皆基于大區(qū)(如行政區(qū)域)展開,雖然分析結(jié)果能在一定程度上反映對象區(qū)域的特性,但是區(qū)域特性可能包含多個事故熱點,熱點成因也有差異,分析結(jié)果難以體現(xiàn)事故熱點本身的特性,也難以生成針對特定事故熱點的合理控制決策。
熱點識別是成因分析的基礎(chǔ),在文獻[5]前序研究中筆者提出一種基于自然最近鄰聚類的改進算法DTH3N對事故區(qū)域的歷史事故點進行識別,本文將以DTH3N算法識別的事故熱點為對象,探索一種新的事故熱點成因分析方法。
事故熱點指具有某種關(guān)聯(lián)特性的交通事故發(fā)生位置點的集合,即交通事故多發(fā)區(qū)域。區(qū)域內(nèi)的事故成因有內(nèi)在關(guān)聯(lián)性,區(qū)域具有不規(guī)則邊界,區(qū)域的覆蓋范圍與道路本身特征(例如交叉口等)有直接關(guān)系。
熱點是聚類的結(jié)果。聚類就是將需要處理的整個數(shù)據(jù)集劃分成多個不同的類簇,類簇與類簇之間距離或者相異性盡量大,使得類簇內(nèi)部盡量緊湊[6]。常用的聚類算法有:1)基于距離的K-means,K-medoid和Nearese Neighbor Hierarchical Clustering等,這些方法聚合的空間對象是歐氏距離而非網(wǎng)絡(luò)距離,聚合的空間對象形成的區(qū)域形狀受限;2)基于密度的DBSSCAN和KDE等聚類算法,可以發(fā)現(xiàn)任意形狀的簇類,但對閾值的設(shè)置比較敏感,例如半徑閾值和簇密度閾值;3)自然最鄰近聚類算法(3N),克服了以上算法存在的問題,但處理大面積區(qū)域時面臨熱點定位困難的問題[5]。
本文采用文獻[5]中提出的一種基于自然最近鄰聚類的改進算法DTH3N,并結(jié)合具有區(qū)域約束等優(yōu)點的3N聚類方法來識別事故熱點。圖1為多事故點按DTH3N算法聚類生成事故熱點的示例,圖中黑色圓點表示事故點,而多個相連接的事故點構(gòu)成一個事故熱點。
事故熱點成因具有多樣化特征,可歸結(jié)為兩個大類:道路物理成因和社會成因。道路物理成因指導(dǎo)致事故多發(fā)區(qū)域生成的道路因素,例如路況、道路設(shè)計和區(qū)域環(huán)境。社會成因指導(dǎo)致事故多發(fā)區(qū)域生成的社會因素,例如區(qū)域治安條件、人口素質(zhì)和人口密度。
事故熱點成因因素指影響事故發(fā)生的因素,本文根據(jù)STATs19數(shù)據(jù)庫提供的屬性參數(shù)定義5個因素:道路因素X1、行人因素X2、車輛因素X3、環(huán)境因素X4和管制因素 X5(見表1)。
圖1 事故熱點與事故點的關(guān)系Fig.1 Relationship between accident hotspots and accident points
根據(jù)事故熱點成因因素與道路物理成因和社會成因之間的貢獻關(guān)系設(shè)定貢獻權(quán)重,以此為依據(jù)構(gòu)造道路物理成因矩陣CR和社會成因矩陣CS。表1中道路因素X1僅與道路物理成因相關(guān),因此設(shè)置X1對應(yīng)的CR=1。相較于道路特性,區(qū)域的社會因素如犯罪率、人口密度等更容易獲取,因此本文從社會因素入手計算熱點成因貢獻權(quán)重。為了充分表現(xiàn)社會因素與道路事故的關(guān)聯(lián)性,選擇高社會因素區(qū)域和低社會因素區(qū)域進行對比計算,具體方法如下:
1)對比區(qū)域選取。根據(jù)人口密度和犯罪率兩個社會因素,分別選擇高人口密度和高犯罪率、低人口密度和低犯罪率區(qū)域作為對比區(qū)域。
2)典型道路區(qū)域選取。分別從對比區(qū)域內(nèi)篩選高事故發(fā)生率主要道路作為典型道路區(qū)域。
3)分別統(tǒng)計典型道路區(qū)域的 X1,X2,X3,X4,X5對應(yīng)數(shù)據(jù)庫指標(biāo)涉及的總事故數(shù)A。
4)根據(jù)人口密度和犯罪率分別計算選擇區(qū)域的社會因子
表1 事故熱點成因因素Tab.1 Causation factors of accident hotspots
式中:Density(i)為典型道路區(qū)域i的人口密度/(人·km-2);DensityMAX為所有典型道路區(qū)域中人口密度最大值/(人·km-2);Crime(i)是典型道路區(qū)域i的犯罪率;CrimeMAX為所有典型道路區(qū)域中犯罪率最高值。
5)計算兩個典型道路區(qū)域的A比值和Fs比值,獲得社會因素貢獻權(quán)重。其中,A比值為不同區(qū)域中事故數(shù)的比值,即AccNum(i)/AccNum(j);Fs比值為不同區(qū)域社會因子的比值,即Fs(i)/Fs(j)。
在此選擇Islington區(qū)域和Sutton區(qū)域作為對比區(qū)域,根據(jù)公式(1)可得Fs(Islington)=1.91, Fs(Sutton)=0.77。選取Islington的A501道路區(qū)域和Sutton的Green Wrythe Lane道路區(qū)域進行事故數(shù)統(tǒng)計,統(tǒng)計時段為2011—2015年,統(tǒng)計結(jié)果見表2。
表2 典型道路區(qū)域事故數(shù)據(jù)統(tǒng)計Tab.2 Data statistics of accidents in typical road areas
表3 CS值Tab.3CSvalue
表4 事故熱點成因因素貢獻權(quán)重Tab.4 Contributing weight of causation factors at accident hotspots
表5 測試對象區(qū)域人口密度和犯罪率Tab.5 Population density and crime rate in the surveyed areas
社會因素權(quán)重CS表現(xiàn)為社會因子Fs對相關(guān)事故數(shù)的影響程度:
計算得到CS值與本文中實際取值如表3所示,進而可得事故熱點成因因素貢獻權(quán)重(見表4)。
計算事故熱點成因因素是識別熱點成因的關(guān)鍵,計算方法為:
第一步:根據(jù)表1對STATs19屬性參數(shù)進行整合計算,獲得X1,X2,X3,X4,X5。
第二步:計算X1,X2,X3,X4,X5的貢獻率,此處采用主成分分析法獲得,具體過程如下:
1)構(gòu)建原變量矩陣。
利用事故熱點成因因素Xj(j=1,2,…,5)構(gòu)造原變量矩陣;假設(shè)熱點中包含n個事故點,基于此構(gòu)建參數(shù)矩陣
2)構(gòu)建參數(shù)矩陣X的標(biāo)準(zhǔn)歸一化矩陣
式中:為的元素值;X為參數(shù)矩陣Xj中列的平均值;Sj為參數(shù)矩陣X中每一列的方差。
3)構(gòu)建協(xié)方差矩陣
4)獲取協(xié)方差矩陣R的特征值矩陣λ1×5和特征向量矩陣V5×n,對特征值進行排序使得λ1≥λ2≥…≥λ5。各成分與標(biāo)準(zhǔn)歸一化矩陣的線性組合為
式中:Vi為協(xié)方差矩陣R的第i個特征向量;λi為所對應(yīng)的特征值。
5)提取主成分個數(shù)m,計算公式為
圖2 倫敦市各行政區(qū)域人口密度和犯罪率Fig.2 Population density and crime rate in different administrative districts in Lond
表6 測試對象區(qū)域經(jīng)緯度范圍Tab.6 Longitude and latitude range of different surveyed areas
圖3 Islington事故熱點識別聚類結(jié)果Fig.3 Results of accident hotspot clustering in Islington
表7 測試對象區(qū)域事故熱點數(shù)量Tab.7 Number of accident hotspots in the surveyed areas
圖4 各測試對象區(qū)域的Croad和CsocietyFig.4 CroadandCsocietyin different surveyed areas
基于主成分分析,得到主成分特征值矩陣 λ1×m(λ1≥ λ2≥ … ≥λm)所對應(yīng)的主成分特征向量矩陣V5×m。
6)獲取主成分特征值的方差貢獻矩陣
7)構(gòu)建事故熱點事故影響指標(biāo)綜合權(quán)重矩陣
F5×1矩陣相應(yīng)的5個權(quán)重是事故影響參數(shù)X1, X2, X3, X4, X5所對應(yīng)的貢獻率,即參數(shù)變量對事故熱點整體的貢獻率。
第三步:計算事故熱點成因因素。
為了檢驗前文提出方法的有效性,基于STATs19數(shù)據(jù)庫事故歷史數(shù)據(jù)信息進行驗證。首先需要對數(shù)據(jù)進行處理,包括實驗區(qū)域篩選、基于區(qū)域事故點聚類的熱點識別,以及成因因素計算。
文獻[3]闡述了基于道路物理成因和社會成因兩個因素預(yù)測中國道路交通事故發(fā)生的可行性。本文關(guān)注事故熱點的道路物理成因和社會成因,因此,實驗區(qū)域的篩選可采用基于道路因素和基于社會因素兩種模式展開。
基于道路因素的篩選以路況條件作為參照,路況條件不僅與道路本身有關(guān),也與道路地理特性相關(guān),較難獲得準(zhǔn)確的評價參數(shù)。
基于社會因素的篩選以區(qū)域社會因素(如區(qū)域人口密度、犯罪率及受教育程度)作為參照,這類數(shù)據(jù)較易獲得,因此本文選擇基于社會因素的篩選模式。基于STATs19數(shù)據(jù)庫選擇區(qū)域人口密度和犯罪率兩個社會因素進行區(qū)域篩選。圖2為倫敦市32個行政區(qū)域的人口密度和犯罪率分布。
對人口密度和犯罪率進行分析,篩選5個區(qū)域進行實驗測試(見表5)。在5個區(qū)域內(nèi),各選擇一片面積基本相等的測試對象區(qū)域,區(qū)域經(jīng)緯度如表6所示。
以上根據(jù)社會因素篩選獲得的5個測試對象區(qū)域,其道路特性也表現(xiàn)出多樣性,例如Sutton目標(biāo)區(qū)域為山區(qū),而Westminster則為商業(yè)區(qū),滿足實驗的基本條件。
采用DTH3N算法對5個測試對象區(qū)域進行事故熱點聚類識別,Islington聚類結(jié)果如圖3所示,事故點發(fā)生的位置用(X,Y)來表示,X和Y分別為事故發(fā)生點的經(jīng)度和維度抽象后得到的數(shù)值型坐標(biāo),圖中不同顏色代表聚類形成的不同的簇,同一顏色代表同一個簇。
文獻[5]中,對5個測試對象區(qū)域的事故點進行聚類獲取事故熱點,聚類后獲得各測試對象區(qū)域的熱點數(shù)量(見表7)。分析數(shù)據(jù)可知,區(qū)域的人口密度與事故熱點數(shù)量密切相關(guān),由此證明了區(qū)域篩選方法的合理性。
根據(jù)表1定義,從STATs19數(shù)據(jù)庫中篩選相關(guān)屬性參數(shù),累加計算可得道路事故熱點成因綜合權(quán)重指標(biāo)Croad和Csociety。
實驗通過MATLAB對5個測試對象區(qū)域進行事故熱點成因分析,驗證本文提出的基于主成分貢獻度的道路事故熱點成因分析方法在事故熱點評估中的性能。
各測試對象區(qū)域中事故熱點成因綜合權(quán)重指標(biāo)Croad和Csociety如圖4所示??梢钥闯觯琁slington,Hillingdon,Westminster地區(qū)大部分事故熱點Csociety比Croad大,因此駕駛?cè)诵兄吝@些區(qū)域時需更多地注意社會成因?qū)π熊嚨挠绊?;Wandsworth中一小部分事故熱點的Csociety和Croad差距比較明顯,其他部分相差不大,因此在此區(qū)域中行車需要注意社會成因和道路物理成因的影響;而Sutton中所有事故熱點的Croad大于Csociety,因此在此區(qū)域中行車更需注意道路物理成因的影響。
為了更深入地分析各事故熱點成因與其所在區(qū)域道路特性的聯(lián)系,計算分析各測試對象區(qū)域Csociety和Croad的均值及其方差均值(見圖5)??梢钥闯觯簠^(qū)域人口密度相對較高的 Islington,Wandsworth 以及 Westminster,Csociety均值大于Croad均值,但Wandsworth的Csociety和Croad均值差距并不明顯。區(qū)域犯罪率相對較高的Islington和Westminster的Csociety方差均值遠大于Croad方差均值;而區(qū)域犯罪率較低的Wandsworth中Csociety方差均值略大于Croad方差均值。因此,可以宏觀地認為Islington和Westminster中事故熱點的形成主要受到Csociety影響,而Wandworth中事故熱點的形成受Csociety和Croad共同影響。此外,人口密度和犯罪率都相對較低的Sutton,Croad均值及其方差均值都遠遠大于Csociety,可以認為Sutton事故熱點的形成主要受Croad影響;區(qū)域人口密度非常低而高犯罪的Hillingdon事故熱點的形成主要受到Csociety的影響。由圖5b可以看出,Hillingdon事故熱點成因綜合權(quán)重指標(biāo)的方差特性與Islington等高犯罪率區(qū)域類似;圖4中Hillingdon的Csociety值大于Croad。因此可以推斷Hillingdon的Csociety較高是受到較高犯罪率的影響。因此,高犯罪率是測試對象區(qū)域事故熱點形成主要受社會成因影響的主要因素。
圖5 Croad和Csociety均值和方差均值Fig5 Mean and variance mean ofCroadandCsociety
在道路交通安全研究領(lǐng)域,事故熱點成因探究是解決交通安全問題關(guān)鍵的一步。通過運用事故熱點成因因素對事故熱點進行評估,可以有效地指導(dǎo)駕駛行為決策和優(yōu)化交通管制。本文在DTH3N算法識別的事故熱點的基礎(chǔ)上提出事故熱點成因分析方法,對事故熱點進行內(nèi)特性分析,并從倫敦市32個行政區(qū)域中選取5個測試對象區(qū)域驗證方法的有效性。實驗結(jié)果表明,獲取的內(nèi)特性參數(shù)Croad和Csociety能直觀地反映事故熱點形成的影響因素,指導(dǎo)駕駛?cè)诵熊囍懈嗟刈⒁庀鄬ξkU的內(nèi)特性參數(shù)對行車的影響。本文構(gòu)建的兩個熱點成因因素權(quán)重矩陣CR和CS只是一個近似估計值,在未來研究中需進一步修正,同時熱點成因因素還有待進一步完善。
:
[1]Yu Hao,Liu Pan,Chen Jun,et al.Comparative Analysis of the Spatial Analysis Methods for Hotspot Identification[J].Accident Analysis&Prevention,2014,66:80-88.
[2]薛大維,紀(jì)峻嶺,白竹.基于主成分分析法的高速公路交通安全評價[J].黑龍江工程學(xué)院學(xué)報(自然科學(xué)版),2014(2):46-49.Xue Dawei,Ji Junling,Bai Zhu.Study on Traffic Safety Evaluation for Freeway Based on Principal Component Analysis[J].Journal of Heilongjiang Institute of Technology,2014(2):46-49.
[3]Yu Rende,Zhang Qiang,Zhang Xiaohong,et al.Traffic Accidents Forecasting Based on Neural Network and Principal Component Analysis[J].Research JournalofApplied Sciences Engineering&Technology,2013,6(6):1065-1073.
[4]Li Qiangwei.Evaluation Model of Region Traffic Safety Based on Principal Component Analysis[R/OL].2009[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnum ber=5168451.
[5]Han Qingwen,Zhu Yingxiang,Zeng Lingqiu,et al.A Road Hotspots Identification Method Based on Natural Nearest Neighbor Clustering[R/OL].2015[2016-07-10].https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7313189.
[6]黃金龍.基于自然最近鄰的無參聚類算法研究[D].重慶:重慶大學(xué),2014.Huang Jinlong.Study on Non-Parametric Clustering Based on Natural Nearest Neighborhood[D].Chongqing:Chongqing University,2014.