馬新露 樊博 陳詩敖 馬筱櫟 雷小詩
(1.重慶交通大學 交通運輸學院,重慶 400074;2.西南交通大學 交通運輸與物流學院,四川 成都 610031)
我國高速公路正依托各類高新技術(shù)朝著信息化、智慧化的方向發(fā)展,然而相應(yīng)的交通安全管理卻主要沿用一些傳統(tǒng)方法,這顯然無法適應(yīng)現(xiàn)階段以及未來高速公路交通安全管理的需求和可持續(xù)發(fā)展。據(jù)國家統(tǒng)計局發(fā)布的資料顯示[1],2019年年末全國民用汽車保有量為26 150萬輛、全年道路交通事故萬車死亡人數(shù)為1.8人;同時數(shù)據(jù)顯示,2019年我國高速公路總里程已達14.95萬公里。高速公路為國民經(jīng)濟和社會發(fā)展提供了強有力的支撐,預防交通事故對建設(shè)智慧高速公路、保障高速公路安全運行和提升運營效率至關(guān)重要。
由于事故兼具隨機性和偶然性,難以對其作出高度準確的預判,因此研究人員常用“是否存在事故風險”來描述這種不確定性。區(qū)別于傳統(tǒng)事故頻率預測,現(xiàn)有事故風險評估研究根據(jù)預測技術(shù)的不同主要可分為兩大類:一類是將當下時刻的事故空間特征借助圖卷積等技術(shù)作為輸入,再引入交通和道路環(huán)境特征,使用深度學習等方法建模學習交通事故模式并實現(xiàn)事故風險預測[2];另一類以實時交通流數(shù)據(jù)為主要輸入,通過訓練和區(qū)分事故與非事故狀態(tài)下的不同交通流特性來捕捉事故前兆特征,使用分類算法建模區(qū)分事故與非事故,從而實現(xiàn)事故預測[3- 5]。這兩類方法中,前者研究對象多為路網(wǎng),后者多為路段。在第2類研究中,Xu等[6]提取美國高速公路某路段交通流數(shù)據(jù),建立了貝葉斯Logistic回歸模型,識別出了不同道路服務(wù)水平下的事故風險交通流參數(shù)。孫劍等[7]實現(xiàn)了上海市快速路的道路主動風險評估,并對比多種算法模型精度后發(fā)現(xiàn)貝葉斯網(wǎng)絡(luò)模型預測能力最佳。Kwak等[8]將韓國高速公路某干線劃分為基本路段和匝道附近兩種路段類型,以遺傳編程技術(shù)建模,結(jié)果表明,考慮擁堵狀態(tài)和路段類型能有效提升事故風險預測效果。除上述文獻外,建立事故風險評估模型的方法還有遺傳算法[9]、二元概率模型[10]以及病例對照Logistic回歸[3]等。
由于事故樣本遠少于非事故樣本,若要把所有交通流數(shù)據(jù)都作為樣本進行建模則較為復雜,而解決類似非平衡數(shù)據(jù)分類問題時,可通過欠采樣的方式來處理數(shù)據(jù)[3];且既有研究證明[3,9,11],通過抽樣的方式從非事故交通流數(shù)據(jù)中抽取部分樣本來代表非事故交通流狀態(tài)下的交通流特征是可行的,因此這類研究在建模的樣本設(shè)計階段多數(shù)是基于欠采樣思想,即以病例-對照研究方法構(gòu)建實驗樣本[3,6- 8,11- 14]。例如,Hossain等[15]以日本某兩條檢測器分布均勻的路段為研究對象,利用病例-對照研究方法建立實驗樣本集,使用隨機多項式Logistic回歸模型確定事故影響因素,基于期望最大化聚類算法識別出事故風險下的交通流狀態(tài)。Xu等[6]、Kwak等[8]在開展事故風險評估相關(guān)研究時,也均是采用病例-對照研究方法建立實驗樣本集。
在事故風險評估模型中,研究人員將每起事故視作“病例”,然后按一定比例(配對比)抽取非事故數(shù)據(jù)作為“對照”來提取交通流數(shù)據(jù),從而構(gòu)建實驗樣本[3,6- 8,11- 14]。然而在任何交通系統(tǒng)中,事故往往是小概率事件,其時空特征都具有一定的零膨脹性。尤其是在短期分鐘級角度下,與事故相關(guān)的交通流數(shù)據(jù)明顯少于非事故狀態(tài)下的交通流數(shù)據(jù),若從全樣本數(shù)據(jù)中抽取極小部分的非事故數(shù)據(jù)作為對照樣本建模,然后在該抽樣樣本集中評估模型,則容易導致剩余大量未用于建模的交通流特征無法被模型學習,最終導致模型整體預測能力不理想。
為研究交通流特征與事故之間的關(guān)系,本研究建立基于支持向量機的事故風險評估模型;同時,以不同配對比構(gòu)建多個實驗?zāi)P瓦M行實驗,采用受試者工作特征曲線(ROC)下面積AUC值作為模型評價指標,探索不同病例-對照配對比對模型預測能力的影響。
以圖1加州I-880 N高速公路某40.4 km路段為研究對象,檢測站編號為402880至400608。
提取該路段2018年間交通事故數(shù)據(jù)和實時交通流數(shù)據(jù)。其中,提取事故記錄1 389 起,由于本研究探討的是交通流特征與事故間的關(guān)系,因此剔除掉因車輛故障、貨物灑落或信息不完整等事故記錄后,最終用于本研究的事故記錄共873 起;交通流數(shù)據(jù)包括所監(jiān)測斷面的流量、速度和占有率等,由平均鋪設(shè)密度為0.43 km的檢測器組采集而得,檢測器采集頻率為30 s/次。表1示出了研究路段中檢測器組的分布情況。
圖1 本研究實驗路段Fig.1 Experimental segments in this research
表1 檢測器組分布情況Table 1 Distribution of spacing between detector stations
1.2.1 變量分析與構(gòu)建
研究[3- 4,6- 8,11- 14]證明,流量、速度和占有率,以及這3 個參數(shù)在集計時間內(nèi)(通常為5 min)所有檢測數(shù)據(jù)返回值的標準差、變異系數(shù)是影響事故風險的重要因素。其中,流量、速度和占有率通常為集計時間內(nèi)的均值或總和,標準差和變異系數(shù)表示集計時間內(nèi)參數(shù)的相對變異和離散程度;此外,考慮到檢測器組鋪設(shè)密度的不規(guī)則性可能會對觀測交通流參數(shù)變化造成一定的影響,本研究再引入這3個交通流參數(shù)的“變異率”作為新變量,用以描述檢測器組之間不同距離下交通參數(shù)的變化情況,其取值為每個集計時段內(nèi)每相鄰兩組檢測器間的交通流參數(shù)差與其距離的比,其描述了在集計時段內(nèi)單位距離下的交通流參數(shù)的變異和離散程度。
文獻指出,用以描述事故風險的交通流參數(shù)來自事故發(fā)生位置上、下游各2 組檢測器斷面內(nèi),因此將提取事故發(fā)生位置上、下游最近2 組檢測器的交通流數(shù)據(jù),按上游到下游的順序依次對檢測器組命名為Up2、Up1、Dn1和Dn2。然后提取每起事故發(fā)生前20 min[16]上、下游各2組檢測器的交通流數(shù)據(jù),并以5 min[3- 4,7,11- 14]為單位將其集計到4個時間間隔內(nèi)。此時構(gòu)建變量MNα,β,其中,M代表平均值(A)、標準差(S)、變異系數(shù)(C)或變異率(R);N代表流量(V)、速度(S)或占有率(O);α代表檢測器組Up2、Up1、Dn1或Dn2;β代表時間間隔,取值為t1至t4,其中t1離事故發(fā)生時刻最近。例如,變量RODn2,t3代表在某起事故發(fā)生位置下游第2個斷面、在事故發(fā)生前第3個時間間隔內(nèi)參數(shù)占有率的變異率。
綜上,本研究構(gòu)建了共計4 個交通流運行狀態(tài)觀測指標×3個交通流參數(shù)×4個檢測斷面×4個時間片段,即192個交通流變量,所有變量的時空分布情況見圖2。
圖2 交通流變量時空分布Fig.2 Spatio-temporal distribution for traffic flow variables
1.2.2 實驗樣本集構(gòu)建
為在樣本設(shè)計階段有效消除其他混雜因素(時間、地點和道路環(huán)境等)對建模和研究結(jié)果帶來的影響[3,6- 8,11- 14,17],本研究將采用病例-對照研究構(gòu)建實驗樣本集。病例-對照研究是一種用于探索病因的流行病學方法,即以某人群內(nèi)患有某疾病的所有個體作為病例組、未患該疾病但存在可比性的其他個體作為對照組,對比兩組對象是否曾暴露于危險因子及其暴露程度,從而推斷危險因子與該疾病有無關(guān)聯(lián)及其關(guān)聯(lián)程度。Abdel-aty等[3]最早將該方法應(yīng)用于事故風險評估模型,以配對式抽樣方法提取交通流數(shù)據(jù),其原理是提取某起事故發(fā)生前的交通流數(shù)據(jù)作為事故樣本(病例組),對應(yīng)于該起事故在相同時間、空間等條件下未發(fā)生事故時的交通流數(shù)據(jù)作為非事故樣本(對照組);通過提取多起交通事故相應(yīng)的病例、對照樣本即完成實驗樣本集構(gòu)建;然后再利用條件Logistic回歸建立事故風險模型,實現(xiàn)事故風險評估。
既有研究證實,使用病例-對照研究方法能有效地以欠采樣的方式用非事故交通流的部分樣本表述非事故交通流特征,因此后續(xù)大多相關(guān)研究在設(shè)計實驗樣本時均采用該方法。既有研究分別使用了不同配對比(例如1∶4[9,13- 14]、1∶5[3- 4]、1∶8[8]、1∶10[7]、1∶30[15]以及全樣本[16]等)構(gòu)建實驗樣本集;而在流行病學中常用1∶1和1∶2作為配對比,并有資料顯示增大病例數(shù)量、增大病例-對照配對比能在一定程度上增強模型表達能力[17- 18];研究表明,當病例-對照配對比增大到1∶4“左右”時,統(tǒng)計性能并不會顯著增強[19]。因此現(xiàn)有事故風險評估研究中,大多借助“經(jīng)驗法則”即以1∶4作為事故-非事故配對比構(gòu)建實驗樣本集。
本研究采用配對式抽樣方法匹配對照樣本。匹配原則為:針對每起事故,提取與其相同地點、相同周天、相同天氣情況(天氣數(shù)據(jù)來自美國國家氣象數(shù)據(jù)中心,并根據(jù)能見度與降雨強度將天氣情況劃分為晴天、雨天、霧天、霧霾與其他)以及相同時間節(jié)點所對應(yīng)的非事故交通流數(shù)據(jù),同時為消除事故背景下產(chǎn)生的噪聲數(shù)據(jù),還需事先剔除事故路段在事故發(fā)生后1 h的交通流數(shù)據(jù)[16]。
為研究不同配對比對模型的影響,探索模型在何種事故-非事故配對比的實驗樣本集上能充分學習到事故前兆特征,本研究將基于不同配對比構(gòu)建多個實驗樣本,包括1∶4-1∶10和1∶15、1∶20,以及隨機配對比。其中“隨機配對”是指針對每起事故隨機地配對4-6、4-8、4-10、4-12、4-16、4-18和4-20 條非事故交通流數(shù)據(jù)。同時,在提取變量和構(gòu)建樣本時,需要對樣本中每條數(shù)據(jù)增設(shè)字段“病例標簽”,其取值為1或-1,各自代表病例組或?qū)φ战M樣本,最終得到各實驗樣本集后,再按7∶3的比例隨機將各樣本集劃分為訓練集與驗證集。
為防止眾多交通流變量之間的交互作用對觀測單個變量與事故風險之間的關(guān)系造成影響;同時為避免輸入變量過多給模型帶來過擬合風險,從而影響后續(xù)模型預測精度,有必要篩選出部分影響事故風險的重要因素后再進行建模。
以往研究中,變量篩選方法有條件Logistic回歸分析法[8]、后退法[13]和逐步回歸法[16]等。本研究將采用隨機森林(RF)算法來篩選變量。RF通過集成多個決策樹提升模型泛化能力和降低過擬合風險,無需單獨交叉驗證測試數(shù)據(jù)集即可獲得無偏誤差估計;且其本身能夠自然地避免多個變量間的交互作用[20],可利用RF自身提供的平均基尼系數(shù)下降值(MDG)對構(gòu)建的變量進行排序,變量MDG越大則說明該變量越重要,即借助MDG排序篩選出影響事故風險的重要變量。
使用RF需確定決策樹數(shù)量和各節(jié)點變量數(shù),通過觀測最小和最恒定的袋外錯誤率(OOB)來確定決策樹數(shù)量;每個節(jié)點處變量數(shù)設(shè)為變量總數(shù)的平方根[21](本研究取值為14)?;?∶4 構(gòu)建的實驗樣本,本研究使用CART算法構(gòu)造的120 個決策樹,實現(xiàn)了獲得最小和最恒定的OOB,圖3示出了MDG排前30的變量的取值情況。
表2示出了前8 個變量(圖3 分界線及以上)的MDG值具體取值情況。
圖3 MDG值前30的變量Fig.3 Top 30 variables ranked by MDG
表2 變量重要性排序Table 2 Variable importance ranking
表2中的結(jié)果顯示,排序中前兩個變量均與速度相關(guān),因此可知,速度參數(shù)的動態(tài)變化對事故風險的影響更為顯著??臻g上,事故位置上、下游均可觀測到事故前交通流的紊亂現(xiàn)象,相比而言,上游交通流參數(shù)的變化對事故影響較大一些;時間上,事故發(fā)生前0~5 min(t1)和5~10 min(t2)對預測事故風險最為敏感。由于表2中8個變量基本涵蓋了相關(guān)交通流參數(shù)的時空變化特征,考慮到過多的變量會給模型帶來不必要的計算壓力[16],本研究選擇這8個變量來構(gòu)建事故風險模型。
支持向量機(SVM)可通過已有信息求得最優(yōu)解,因此能很好地應(yīng)對小樣本或樣本有限的情況;并且其基于結(jié)構(gòu)風險最小化準則,具有較好的推廣能力;同時其可通過多種核函數(shù)將樣本映射到高維特征空間,將問題轉(zhuǎn)換為線性約束條件下的凸二次規(guī)劃問題求得全局最優(yōu)解,以此解決非線性問題??紤]到本研究構(gòu)建的實驗樣本數(shù)據(jù)規(guī)模較小、維度較高等因素,選擇SVM建立事故風險評估模型。
線性SVM通過構(gòu)建超平面wTxi+b=0來區(qū)分由帶有病例標簽Y=(y1,y2,…)的訓練樣本集X=(x1,x2,…)所構(gòu)成的樣本集合D={(x1,y1),(x2,y2),…,(xn,yn)}。其中:xi表示樣本;w和b為超平面的法向量和截距;yi∈{1,-1},即1為事故,-1為非事故。然而,樣本維度較高極有可能會導致其線性不可分,此時非線性SVM借由核函數(shù)φ將實驗樣本映射到高維空間后,再構(gòu)建超曲面對事故與非事故樣本進行訓練分類:
(1)
式中:wTφ(xi)+b=0為超曲面;θi為拉格朗日乘子;κ(xi,xj)為核函數(shù),與SVM性能優(yōu)劣高度相關(guān)。因此本研究將采用多種常用核函數(shù)建模,根據(jù)實驗結(jié)果來確定模型最佳核函數(shù),引入的核函數(shù)包括線性核、多項式核、高斯核以及Sigmoid核,表達式分別為:
(2)
(3)
κ(xi,xj)=exp(-γ‖xi-xj‖2)
(4)
(5)
式中:d為多項式核函數(shù)最高項次數(shù),考慮到模型對計算能力的要求,本研究取d為3;a、c和γ為超參數(shù),其中γ大于0。
在數(shù)據(jù)不平衡的分類任務(wù)中,用準確率作為模型評價指標時,無法反映出少數(shù)樣本被識別出的重要性,難以準確反映分類效果。在這種分類任務(wù)中,不僅需要模型輸出較高的準確率,還同時需要模型輸出較低的虛警率,即要求模型在正確區(qū)分事故交通流的同時,還要保證對事故和非事故的誤判率足夠低。由于ROC曲線同時考慮了模型分類性能的真陽性率和真陰性率,研究人員通常用ROC曲線下的面積AUC值作為模型的評價指標。
本研究將以真陽性率、真陰性率、ROC曲線及AUC值作為模型評價指標。計算上述評價指標,首先引入混淆矩陣,具體見表3。
表3 混淆矩陣Table 3 Confusion matrix
根據(jù)表3可計算:
(6)
(7)
(8)
式中,TPR為真陽性率,F(xiàn)PR為假陽性率,TNR為真陰性率??衫肨PR和FPR繪制ROC曲線計算AUC指標。
本研究由隨機森林篩選出影響事故風險最顯著的變量包括SSUp1,t1、ASUp1,t2、RVDn2,t2、SOUp2,t3和AVUp1,t1等。其中,SSUp1,t1、ASUp1,t2和AVUp1,t1與文獻[3,12- 13]所選擇的重要變量一致;同時,本研究新引入與變異率有關(guān)的變量RVDn2,t2和RSUp2,t2也在重要變量集合之中。
根據(jù)表2示出的重要變量篩選結(jié)果可知,在事故發(fā)生前一段時間內(nèi),事故位置上游和下游的交通流均出現(xiàn)了一定程度上的交通紊亂現(xiàn)象。對比已有研究,其中SSUp1,t1與文獻[4]和[22]建模所使用的變量相同,其表示事故位置上游車輛行駛速度的離散程度;ASUp1,t2也是多數(shù)研究[3,9,12- 13,20]建模所使用的變量之一,其指出事故位置上游速度與非事故情況相比較低[3,13,20];RVDn2,t2為事故發(fā)生前5~10 min下游(Dn2)車流量的變異系數(shù),文獻[13]針對這一變量指出,事故發(fā)生前下游車流量的差異性是引發(fā)事故的重要因素,具體表現(xiàn)為該差異性越大,事故風險則越大;而文獻[4]則顯示下游流量波動性越小,事故風險越大;文獻[13]和[4]均以標準差來衡量流量的波動性。本研究的變量RVDn2,t2在描述流量的波動性的同時還考慮了檢測器組間的不同間隔對交通參數(shù)變化的影響。
3.2.1 支持向量機事故風險模型
基于1∶4 病例-對照配對比構(gòu)建實驗樣本,使用Python語言建立SVM模型,并配合不同核函數(shù)進行實驗;模型中超參數(shù)在多次組合實驗后保證能使準確率維持在較高水平下調(diào)參取值。圖4示出了不同核函數(shù)下模型輸出的ROC曲線。
圖4 不同核函數(shù)下SVM模型的ROC曲線Fig.4 ROC curves of SVM model in different kernel functions
然后,根據(jù)4 種核函數(shù)下SVM模型各自的ROC曲線計算各自曲線下的面積,即AUC指標。表4示出了不同核函數(shù)下模型的AUC結(jié)果,表5示出了本研究Sigmoid函數(shù)下SVM模型結(jié)果與部分既有研究的預測準確率對比。
表4 不同核函數(shù)下SVM模型的AUC指標Table 4 AUC of SVM model in different kernel functions
表5 本研究與既有研究的模型結(jié)果對比
從事故風險評估預測精度或模型AUC指標來看,本研究建立的SVM事故風險模型與部分既有研究相比具有一定的優(yōu)勢;且4種核函數(shù)下的SVM模型均能在一定程度上預測事故風險。因此,在本研究中使用由RF篩選出的重要變量構(gòu)建的SVM模型能有效預測事故風險;同時結(jié)合表4可知,高斯核和Sigmiod核下SVM模型的AUC指標相對較高,是建立SVM事故風險模型的最佳核函數(shù)。
3.2.2 病例-對照配對比對模型的影響
為探索模型中病例-對照配對比與模型預測能力之間的關(guān)系,針對不同配對比建立的實驗樣本集,以高斯核和Sigmoid核分別構(gòu)建SVM事故風險模型進行實驗,得到模型的AUC指標,見表6。
表6 不同配對比樣本下SVM模型的AUC指標Table 6 AUC of SVM model in different matching ratio samples
由表6可見,不管是以高斯核還是以Sigmoid核建立的SVM模型,AUC指標總體上均隨配對比的增大而升高。這是由于隨著實驗樣本中非事故樣本數(shù)量增加,交通流信息也隨之豐富,模型對事故交通流與非事故交通流之間的差異“學習”得更加充分,其解釋和表達能力增強則預測能力上升,最終模型AUC指標增長。然而也可同時看出,兩種核函數(shù)下的SVM模型的AUC指標并不是隨著配對比的增大始終呈現(xiàn)顯著升高趨勢的,因此表7示出了相較于以1∶4構(gòu)建的實驗樣本,其他不同配對比下SVM模型AUC的平均增長率情況。
表7中的結(jié)果進一步表明,模型AUC指標總體上隨配對比增大而升高,尤其是當配對比從1∶4逐漸提高到1∶10時,AUC平均升高了9.095%,增長明顯??梢娞岣吲鋵Ρ饶茉谝欢ǔ潭壬显鰪娔P皖A測能力;但當該比例提高到1∶15、1∶20時,AUC平均增長率為9.409%、9.722%,與1∶10構(gòu)建的樣本實驗結(jié)果相比僅上升了0.314、0.627個百分點,此時繼續(xù)提高病例-對照配對比,對模型的預測能力并無顯著提升,即與交通流因素相關(guān)的信息對事故的解釋能力已經(jīng)無法再提升。在流行病學中,病例-對照研究方法在病例-對照配對為1∶4的基礎(chǔ)上,繼續(xù)增大該比例對統(tǒng)計指標的顯著性無明顯增強效果;然而本研究實驗結(jié)果說明,將病例-對照研究方法應(yīng)用于事故風險評估模型中構(gòu)建實驗樣本時,事故-非事故配對比無須沿用流行病學中由“經(jīng)驗法則”所建議的1∶4[11,17- 19]配對比,可根據(jù)道路安全管理的實際需求、所設(shè)目標AUC值等對該值進行取舍。
表7 不同配對比樣本下SVM模型的AUC增長率
同時表7也顯示,當使用隨機配對比來構(gòu)建樣本進行實驗時,模型AUC指標同樣較為穩(wěn)定,并且以隨機比例配對構(gòu)建實驗樣本進行實驗時,不僅能提高相對的模型表達能力,還能降低一定的計算負荷。
基于高速公路事故數(shù)據(jù)和實時交通流數(shù)據(jù),由RF確定建模變量后構(gòu)建了SVM事故風險預測模型,其能根據(jù)交通流運行實況有效地評估預測事故風險。同時實驗結(jié)果表明,高斯核和Sigmiod核是構(gòu)建SVM事故風險預測模型的最佳核函數(shù)。研究發(fā)現(xiàn),模型AUC指標隨病例-對照配對比的增大而升高,但當該比例增大到一定程度時,AUC增長放緩,對模型的預測能力無顯著提升作用。因此可根據(jù)實際情況對該比例進行衡量取值。實驗結(jié)果可為后續(xù)實現(xiàn)在線預測事故風險提供理論支撐。
本研究僅以SVM構(gòu)建事故風險模型探索樣本配對比對模型的影響,后續(xù)還將采用其他算法建模實驗。同時,還可通過劃分交通流不同運行狀態(tài)、劃分事故形態(tài)類型等,研究不同交通運行環(huán)境下的事故風險交通流的差異,以此提升模型預測能力。