程世達, 王銘鑫, 張 蕊, 王健宇, 郄 堃
(1.北京建筑大學 土木與交通工程學院, 北京 100044;2.倫敦大學學院 土木,環(huán)境與地理工程學院, 倫敦 WC1E6BT)
世界衛(wèi)生組織發(fā)布的《2018年全球道路安全現(xiàn)狀報告》顯示,因道路交通事故,全世界每年死亡約130萬人,受傷2 000~5 000萬人. 道路交通事故是造成人口非正常死亡的一大原因[1]. 而在我國的道路交通中,事故量多發(fā),死亡率高. 隨著交通強國戰(zhàn)略的施行,降低道路交通事故的嚴重性是極其重要的[2].
降低道路交通事故的嚴重性可從事故的嚴重程度致因進行分析[3]. 針對事故數(shù)據(jù)對道路交通事故的嚴重程度進行致因分析是制定交通安全對策的基礎(chǔ),可高效識別出不同地區(qū)發(fā)生的交通事故的關(guān)鍵因素[4-5]. 這些關(guān)鍵因素有利于讓交通管理部門針對不同影響的因素制定相應(yīng)的解決對策,從而減少因交通事故引發(fā)的生命財產(chǎn)損失[6]. 目前的研究中,王希琳等[7-8]使用了多項Logit模型進行事故影響因素層級的排序,這種基于回歸的事故分析方法能較為精準的擬合數(shù)據(jù)間的相關(guān)性. 在數(shù)據(jù)挖掘方面,孫鐵軒[9]利用交通事故的大數(shù)據(jù)普遍分析事故的影響致因,有助于精準定為事故的易發(fā)生因素以及快速鎖定影響事故嚴重程度的主要因素,但是這種方法需要較大的數(shù)據(jù)量進行支撐,因此在面對較少的事故數(shù)據(jù)時適用性較差. 對于大量的交通事故數(shù)據(jù),傳統(tǒng)回歸的方法沒有考慮到交通事故數(shù)據(jù)的時間相關(guān)性,而在熊曉夏等[10]研究中,利用時間序列的預測方法能較為精準地利用時間相關(guān)性分析事故的主要致因. 根據(jù)這些原因,在本文的研究中,引入時間序列的方法對事故數(shù)據(jù)分析進行建模. 另外考慮到事故還存在著空間分布,因此同樣對數(shù)據(jù)的空間關(guān)聯(lián)性進行考慮. 對此選用LSTM模型和2D CNN模型進行其特征提取,集合2種模型的優(yōu)勢構(gòu)建出1種考慮時空相關(guān)性的CNN-LSTM時空卷積模型,利用該模型分析事故嚴重程度與其影響因素之間的關(guān)聯(lián)性,分析事故的主要致因,以提出有針對性的意見,促進事故的管理以及道路安全性的提升.
綜上所述,本文的主要貢獻如下:①針對道路交通事故數(shù)據(jù)的時空特征,構(gòu)建了1種基于CNN-LSTM時空卷積模型的關(guān)聯(lián)性分析方法,通過對事故影響因素進行關(guān)聯(lián)性分析,尋找事故的主要致因;②根據(jù)CNN-LSTM模型分析出的事故主要致因,有針對性的提出提升交通安全,降低事故發(fā)生率的管理建議,促進道路交通安全水平的提升.
本文基于美國的公開交通事故數(shù)據(jù)進行分析,數(shù)據(jù)集代號“US-Accidents”. “US-Accidents”覆蓋美國49個州的車禍數(shù)據(jù). 在此基礎(chǔ)上選擇加利福尼亞州洛杉磯市進行深入研究. 洛杉磯市位于美國加利福尼亞州西南部,是美國第2大城市,并且是美國最擁堵的城市之一,在專注于交通領(lǐng)域的數(shù)據(jù)分析公司 INRIX2022年公布的“世界擁堵城市榜單”中排名美國第6,全年平均擁堵程度達到了41%,尤其在早晚高峰時段和工作日,道路上的交通擁堵情況非常普遍,早高峰擁堵率達到了64%,晚高峰達到了80%. 主要高速公路和主干道經(jīng)常會出現(xiàn)擁堵,導致車輛行駛速度緩慢,交通延誤.
本文所選研究城市為美國加利福尼亞州洛杉磯市,選取2021年洛杉磯市中心區(qū)域的道路交通事故進行研究.
首先將道路交通事故的特性進行梳理,在后續(xù)研究中對比其對交通事故發(fā)生率和嚴重程度的影響情況,選取主要影響因素進行相關(guān)性分析和提出針對性措施. 并且選取分析區(qū)域,進行道路交通事故數(shù)據(jù)的補齊并進行數(shù)據(jù)結(jié)構(gòu)化及預處理.
最后基于對數(shù)據(jù)分析和預處理,選定了包括事故發(fā)生季節(jié)、能見度、體感溫度等因素作為自變量,選定了交通事故持續(xù)時間作為因變量.
以“US Accidents (2016—2021)”數(shù)據(jù)庫中道路交通事故屬性為依據(jù)進行交通事故影響因素劃分,可分為時間因素、環(huán)境因素、位置因素.
1.2.1 時間因素
時間因素是指道路交通事故的發(fā)生時間,根據(jù)全年劃分為季節(jié),根據(jù)1 d內(nèi)時間劃分為白天和黑夜以及是否處于高峰小時. 不同時間因素會對事故產(chǎn)生一定影響.
季節(jié)會影響到晝夜長短、溫度、濕度和出行習慣. 節(jié)假日與非節(jié)假日的區(qū)別會影響道路交通狀況. 高峰小時期間,道路擁堵可能會增加. 白天黑夜會影響道路上的光線條件,也可能對駕駛員的注意力和反應(yīng)速度產(chǎn)生影響.
1.2.2 空間因素
空間因素是指道路交通事故發(fā)生的位置,包括在路網(wǎng)中的位置和在道路橫斷面上的位置,同時也考慮了周邊設(shè)施的情況.
在路網(wǎng)中的位置包括事故發(fā)生位置是否在公路上、交叉口附近、軌道交通附近,這些因素會對事故的性質(zhì)和發(fā)生機理產(chǎn)生影響. 另一方面,事故發(fā)生地點在道路中的位置也很重要,比如事故發(fā)生的車道位置、路側(cè)等. 該位置可提供關(guān)于事故類型和影響因素的重要信息. 此外,發(fā)生地周邊的設(shè)施情況也需要考慮,如是否在交通標識附近、是否位于交通信號燈附近等,這些信息也會對事故發(fā)生時的駕駛員行為產(chǎn)生一定程度的影響.
1.2.3 環(huán)境因素
環(huán)境因素是指道路交通事故發(fā)生時的自然環(huán)境,包括氣溫、濕度、風力、能見度、體感溫度、氣壓以及天氣等外部環(huán)境. 這些因素對事故發(fā)生具有著較大的影響,特別是在極端天氣環(huán)境下,如霧雨雪天氣.
不良或極端天氣可能導致路面濕滑,甚至結(jié)冰. 路面潮濕時,由于天氣條件導致的路面摩擦系數(shù)降低. 另一方面,不良或極端天氣還會影響能見度,使駕駛員視線受阻,導致交通事故的發(fā)生概率增大.
因此,時間、空間、環(huán)境因素均對交通事故具有重要的影響. 了解事故發(fā)生地的時間、空間、環(huán)境等特征因素,有助于分析事故的致因及特點,進而采取相應(yīng)的交通安全措施,提出相應(yīng)的管理建議,以減少事故的發(fā)生和減輕事故造成的后果.
從“US-Accidents”數(shù)據(jù)庫中直接得到的2021年洛杉磯市道路交通事故數(shù)據(jù)中包含有32 768條事故記錄,每條事故都含有47條事故屬性,經(jīng)過分析,發(fā)現(xiàn)數(shù)據(jù)集中存在數(shù)據(jù)異常值、自變量無效等問題,針對這些問題進行事故預處理工作.
經(jīng)過初步分析,數(shù)據(jù)集中存在著異常數(shù)據(jù),包括時間過長“本研究規(guī)定超過24 h”或為負值,體感溫度極高或是極低等異常數(shù)據(jù),我們通過針對各項事故的屬性進行異常檢查,剔除異事故數(shù)據(jù)179條.
另外,因為總數(shù)據(jù)集包含了美國大部分州和城市,本研究僅針對洛杉磯市,故國家、城市、時區(qū)等自變量唯一,將此種自變量進行剔除. 經(jīng)過剔除,原數(shù)據(jù)中的32 768條事故數(shù)據(jù)剩余31 742條,現(xiàn)有數(shù)據(jù)量滿足本研究項目.
在進行特性相關(guān)性分析時,需要對自變量進行適當?shù)膬?yōu)化. 其中部分屬性已經(jīng)以虛擬變量的形式表示,例如白天黑夜等屬性,而對于一些連續(xù)的變量,如風速或是能見度,需要將其轉(zhuǎn)化為分類變量. 根據(jù)以往的研究經(jīng)驗,體感溫度對于交通事故也是會呈現(xiàn)一定的影響,因此可通過使用大氣壓、濕度、氣溫和風速等屬性來計算體感溫度,見式(1). 并將計算的體感溫度作為CNN-LSTM模型的自變量. 而原始數(shù)據(jù)中的大氣壓、濕度、氣溫和風速等特性在分析中選擇舍棄.
AT=1.07T+0.2e-0.65V-2.7
(1)
式中,AT為體感溫度(℃);T為氣溫(℃);e為水汽壓(hPa);V為風速(m/s);RH為相對濕度(%).
通過這樣的轉(zhuǎn)化和選擇,可使得自變量更加符合CNN-LSTM模型的要求,并能更好地捕捉到體感溫度對交通事故的影響. 這樣的分析方法可提供更準確和有用的分析結(jié)果,提升后續(xù)特性分析與提取的精度.
將事故持續(xù)時間定義為因變量Y,將事故嚴重程度的影響因素定義為自變量Xk,影響因素Xk共包含 13項,如表3所示.
2.3.1 因變量選取
本文選取事故的持續(xù)時間作為衡量事故嚴重程度的因變量,而不是采用事故中已經(jīng)劃分的四級事故標準為因變量,由于利用原本的四級事故標準,99.8%的事故為一般事故(具體的劃分結(jié)果如表 1所示),使得因變量設(shè)為原本的四級事故標準很難分析出有效的結(jié)論.
表1 原始數(shù)據(jù)因變量取值定義
選取事故持續(xù)時間作為衡量事故持續(xù)時間作為衡量事故嚴重程度,事故持續(xù)時間具體指的是事故從開始時到事故現(xiàn)場處理結(jié)束并恢復正常通行所消耗的時間,因變量有其優(yōu)點:以此作為因變量,既可反映事故本身的嚴重程度,同時在另一方面也可反映事故對整體交通的影響程度,以此我們對數(shù)據(jù)進行3分類,如表3所示,其分布結(jié)果顯示數(shù)據(jù)量分布均勻.
表2 本研究因變量取值定義及分布情況
在表2的結(jié)果中可看到,根據(jù)事故的持續(xù)時間把事故分成3個等級,而事故數(shù)量的分配呈現(xiàn)出一定的平均分布,不同嚴重程度的事故數(shù)量差異最大不超過15%.
2.3.2 自變量選取
交通事故持續(xù)時間影響因素不同取值定義如表3所示.
表3 事故嚴重程度影響因素不同取值定義
CNN-LSTM模型結(jié)合了CNN在空間特征提取方面的優(yōu)勢和LSTM在時間序列建模方面的優(yōu)勢,能有效地捕捉數(shù)據(jù)序列中的空間和時間相關(guān)性. 這使得它在處理時空數(shù)據(jù)時具有以下優(yōu)點:①多尺度特征學習:該模型結(jié)合了CNN和LSTM的優(yōu)勢,能在不同時間尺度上學習特征. CNN層可學習局部和全局的空間特征,而LSTM層可學習時間序列中的短期和長期依賴關(guān)系. 這種多尺度特征學習可更全面地捕捉數(shù)據(jù)中的有用模式和結(jié)構(gòu); ②參數(shù)共享和減少過擬合:該模型中的卷積層具有參數(shù)共享的特性,這意味著同一卷積核可在整個輸入空間上共享. 這種參數(shù)共享可減少模型的參數(shù)量,降低過擬合的風險,提高模型的泛化能力. 因此我們構(gòu)建的CNN-LSTM模型在特征及圖上的較大優(yōu)勢,能較好的捕捉數(shù)據(jù)之間的相關(guān)性.
為了充分捕捉道路的時空拓撲關(guān)系,并考慮城市道路平均車速的時空相關(guān)性,本文使用CNN-LSTM模型進行預測. 在城市路網(wǎng)中加入構(gòu)建空間特征,并且根據(jù)模型訓練過程能判斷數(shù)據(jù)間的相關(guān)性. 確定2類輸入特征:①路網(wǎng)中發(fā)生事故時,事故的空間分布位置以及事故的發(fā)生時間;②因變量:事故嚴重程度的評價指標數(shù)據(jù);③自變量:影響事故的多項特征. 通過選擇適當?shù)呐看笮?將這3種輸入特征輸入到CNN網(wǎng)絡(luò)中. 經(jīng)過卷積層、池化層和Relu激活函數(shù)的處理后,得到3個(batch size·s)特征矩陣a、b、c. 將這3個特征矩陣整合展平為1個(3·batch size·s)的矩陣,并輸入到LSTM網(wǎng)絡(luò)中. 接下來經(jīng)過3個全連接層,輸出整個路網(wǎng)中事故特性分析結(jié)果RMSE、MAE、R-squared、EVS、MAPE等指標,為了判斷在自變量與因變量之間的影響程度強弱,選擇了RMSE與R-squared來表示. 然后輸出預測值與實際值進行比較,驗證模型的精準度,證明特性強弱的準確性. 通過這樣1個疊加的CNN-LSTM網(wǎng)絡(luò)模型,充分考慮了數(shù)據(jù)的時空相關(guān)性,提升了模型的精準度. 為了更直觀的表達模型的結(jié)構(gòu),Algorithm 1簡單表述了代碼的架構(gòu):
Algorithm 1: CNN-LSTM Algorithm
Input:X:輸入數(shù)據(jù)集,形狀為 [batch_size, num_channels, height, width]y:測試集,形狀為 [batch_size, num_classes]
Output:predictions: 預測結(jié)果,形狀為 [batch_size, num_classes]
1: model = Sequential()
2: for each layer_params in layer_parameters:
3: layer_type = layer_params[0]
4: layer_args = layer_params[1]
5: layer_kwargs = layer_params[2]
6: if layer_type == ‘Conv2D’ the
7: layer= Conv2D(layer_args[0], layer_args[1], activation=layer_args[2], input_shape=(num_channels, height, width))
8: else if r_type == ‘MaxPooling2D’:
9: layer = Flatten()
10: else if layer_type == ‘LSTM’ then
11: layer=LSTM(layer_args[0], activation=layer_args[1])
12: else if layer_type == ‘Dense’ then
13: layer=Dense(layer_args[0], activation=layer_args[1])
14: end if
15: model.add(layer)
16: model.compile(optimizer=optimizer, loss=loss_func, metrics=metrics)
17: predictions = model.predict(X)
在結(jié)果驗證中,根據(jù)所建立的CNN-LSTM模型去對數(shù)據(jù)進行驗證. 首先選取了季節(jié)、工作日、高峰小時等多項因素進行實驗,分析這些特性對事故嚴重程度的影響程度,利用如下指標進行評價.
表4 特性分析指標評價標準
根據(jù)這2項評價指標,多項影響因素相關(guān)性結(jié)果如圖1、2所示.
圖1 事故嚴重程度與13項影響因素相關(guān)性的RMSE
圖2 事故嚴重程度與13項影響因素相關(guān)性的R-squared
本文中所用的CNN-LSTM模型是1種在原有CNN與LSTM模型上進行融合與改進的模型,因此本文中模型的精度還需要進一步驗證. 在本章節(jié)中,引入了XGBoost這模型進行對比驗證,將從XGBoost模型的結(jié)果中區(qū)對比本文CNN-LSTM模型的實驗結(jié)果,進行模型精度的驗證.
XGBoost是1種強大的集成學習算法,用于解決回歸和分類問題. 它是基于梯度提升樹的改進版本,具有高效性和準確性. XGBoost可通過特征的重要性排名來幫助識別最重要的特征. 通過訓練XGBoost模型并檢查特征的重要性分數(shù),可獲得哪些特征對目標變量具有更大的影響力. 這有助于縮小特征空間,減少冗余和不相關(guān)的特征,提高模型的效率和準確性.
在本章節(jié)的實驗中,通過XGBoost模型來進行特征相關(guān)強弱的排序,具體實驗結(jié)果如圖3所示.
圖3 XGBoost實驗結(jié)果
圖3利用XGBoost模型的實驗結(jié)果,從中可看到,在事故影響因素強弱的重要性排序上,與本文所使用的CNN-LSTM模型具有較高的相似性,在能見度、高峰小時、工作日節(jié)假日、停車標線附近、白天黑夜、車站附近這六項最重要的影響因素中,呈現(xiàn)出相同的結(jié)果. 在其他影響程度較小的7項因素中,也產(chǎn)生了較高的相似性. 因此本文所使用的CNN-LSTM模型的精度可達到實際分析的需求.
根據(jù)模型的實驗結(jié)果,可知能見度、高峰小時、工作日節(jié)假日和停車標志附近是事故發(fā)生時,其嚴重程度的主要致因,對此結(jié)果,為了提升城市道路中的安全性,降低事故嚴重程度,提出如下建議:
1)能見度較差,行車的視距會產(chǎn)生明顯的縮短,駕駛員無法明確了解實時路況,如果駕駛員不能正確判斷道路實時狀況,會導致交通事故的發(fā)生率增加,交通事故的影響程度加劇. 類似的結(jié)論發(fā)現(xiàn)在Cai Z等[11-12]普遍認為道路的能見度與事故的發(fā)生概率與嚴重程度有較高的相關(guān)性,這更加印證了本文的觀點. 因而,考慮到能見度主要影響行車的視距,可設(shè)置更加清晰的路面標線和交通標志,以及增強道路的照明設(shè)施,以提升能見度,從根源上降低嚴重事故發(fā)生的可能性.
2)高峰小時會對路段的交通流量產(chǎn)生較大的影響,交通流量增加時,交通擁堵和車輛密度增加意味著車輛之間的安全距離減少,駕駛員的注意力和反應(yīng)時間受到影響,增加了相互之間的碰撞和事故的可能性. Liu J等[13]表明類似的觀點,他們認為對交通流量與速度實施管理控制會對路段的安全性有所改善. 因而考慮到高峰小時所影響的主要因素是交通流量,通過合理的交通流量管理措施,如交通信號燈優(yōu)化、車道限制、交通導向等,以平衡高峰小時的交通流量,減少交通擁堵和事故風險.
3)工作日與節(jié)假日也會對交通流量產(chǎn)生一定的影響,另一方面也會對駕駛?cè)藛T的行為產(chǎn)生一定的影響. 在工作日駕駛員可能會因為通勤時間緊張,出現(xiàn)超速、不遵守交通規(guī)則和駕駛疲勞等不良駕駛行為. 這些行為增加了事故的發(fā)生概率. 同樣的觀點在Chatterjee K等[13]研究中出現(xiàn)過,他們認為通勤時間緊張、駕駛者壓力大以及其他因素可能導致超速、不遵守交通規(guī)則和駕駛疲勞等不良駕駛行為,從而增加事故的發(fā)生概率. 因此為了提升交通安全,可改善道路和交通基礎(chǔ)設(shè)施,提升道路的彈性承載能力,包括增加交通信號燈、改善交叉口和道路標線等,以提高道路的安全性和流暢性,減少駕駛員的通勤壓力.
4)在停車標志附近,駕駛員會因為停車標線的干擾而產(chǎn)生注意力分散等行為,另一方面還會因為停車意圖產(chǎn)生不適當?shù)乃俣茸兓?這些都是對交通安全產(chǎn)生威脅的成因. Skinner N P等[15]研究中同樣表明了這個觀點,對此可加強交通標志的可見性、提供額外的警示標志以及對停車設(shè)施周邊的道路進行重新規(guī)劃,改善停車路徑的合理性,以此來提升交通安全.
本文針對“US Accidents”公開數(shù)據(jù)集中的美國洛杉磯市進行了事故的主要致因分析,利用CNN-LSTM模型進行了交通事故的主要致因分析,發(fā)現(xiàn)能見度、高峰小時、工作日節(jié)假日和停車標志附近是影響事故嚴重程度的主要致因,并對此提出管理建議,改善交通安全.
值得一提的是,洛杉磯市是個人口密集的地區(qū),存在交通流量大以及駕駛行為多樣的問題. 為了提升交通安全,可在道路容量和交叉口信號配時以及利用交通監(jiān)控技術(shù)強化執(zhí)法和交通規(guī)則的違規(guī)執(zhí)行上進行管理,從而在根本上提升交通安全.
在本文的研究中,選用的CNN-LSTM模型進行事故的主要致因分析,但是該模型存在著數(shù)據(jù)的長期依賴以及特征的提取限制等問題. 在后續(xù)的研究中可利用GCN等模型結(jié)合自注意力機制,對事故嚴重程度的影響因素進行全局性關(guān)聯(lián)性判斷,提升對主要事故致因的定位的精準性.