杜 蕊, 蔡曉禹, 譚 靜
(1.重慶交通大學(xué)交通運(yùn)輸學(xué)院, 重慶 400074; 2.重慶交通大學(xué)山地城市交通系統(tǒng)與安全重慶市重點(diǎn)實(shí)驗室,重慶 400074)
隨著城市的快速發(fā)展,城市交通行業(yè)也在急速發(fā)展,然而全球每年的交通事故造成125×104人死亡,交通事故的傷害位列全球第八致死原因,交通安全相關(guān)研究迫切需要。據(jù)相關(guān)統(tǒng)計,2018年上半年僅青島膠州灣隧道就發(fā)生事故近300起。傳統(tǒng)的交通安全管理方法已經(jīng)無法滿足智慧隧道運(yùn)營管控需求。面向信息化、大數(shù)據(jù)的智慧隧道交通環(huán)境,主動交通安全管控對于有效預(yù)防交通事故發(fā)生,緩解事故引起偶發(fā)性擁堵,提升城市隧道交通運(yùn)行效率至關(guān)重要。探索隧道交通事故的發(fā)生機(jī)理,判別事故發(fā)生的潛在可能性是主動交通安全管控所面臨的關(guān)鍵挑戰(zhàn)。
事故率預(yù)測主要針對于事故發(fā)生前紊亂的交通流現(xiàn)象進(jìn)行對比分析研究,采用統(tǒng)計模型研究事故發(fā)生與交通流狀態(tài)的關(guān)聯(lián)性分析,以利用事故發(fā)生前的主要交通特征數(shù)據(jù)建模,實(shí)現(xiàn)交通事故風(fēng)險的預(yù)測。近幾年,中外很多學(xué)者對道路交通事故預(yù)測進(jìn)行了研究,常用于交通事故預(yù)測的模型有回歸模型法、神經(jīng)網(wǎng)絡(luò)法以及貝葉斯網(wǎng)絡(luò)等。Cheng等[1]基于觀測數(shù)據(jù)對三個道路事故頻率預(yù)測方法進(jìn)行評估,并提出經(jīng)驗貝葉斯法較于時間序列法和簡單置信區(qū)間法對事故頻率的預(yù)測精確度更高的結(jié)論。陳海龍等[2]基于對BP神經(jīng)網(wǎng)絡(luò)模型的改進(jìn),對影響交通事故嚴(yán)重程度的多種影響因素進(jìn)行分析,以預(yù)測事故的嚴(yán)重程度,得出道路摩擦系數(shù)、光照以及天氣與事故嚴(yán)重程度關(guān)聯(lián)較大的結(jié)論。段萌萌等[3]引入“橋隧比”參數(shù)研究了高速公路事故發(fā)生的影響因素,提出基于多元回歸的事故預(yù)測模型。
在交通事故預(yù)測研究方面,中外較多研究事故與道路影響因素以及天氣之間的關(guān)系,例如道路摩擦系數(shù)、道路線性、道路組成、雨天、大風(fēng)天氣等,分析不同影響因素之間事故發(fā)生的嚴(yán)重程度以及事故率變化等[4-7]?;蛘邇H針對高速公路上事故黑點(diǎn)進(jìn)行研究與識別[7-9],通過收集事故資料,并統(tǒng)計分析事故在道路上的分布規(guī)律,構(gòu)建交通事故灰色區(qū)域識別預(yù)測模型[10-11]。而在微觀層面上,對于城市道路隧道內(nèi)交通事故率預(yù)測研究相對較少,且大多從間接因素角度分析、研究交通事故的發(fā)生原因[13]。
基于2018年5月、6月青島膠州灣隧道的交通事件數(shù)據(jù),結(jié)合交通運(yùn)行、車輛行為等樣本數(shù)據(jù),將所有事件隨機(jī)的分為訓(xùn)練集和驗證集?;谟?xùn)練集數(shù)據(jù)采用條件Logistic概率函數(shù)方法對事故發(fā)生概率進(jìn)行建模,分析事故發(fā)生的顯著性影響因素,最后利用驗證集數(shù)據(jù)對模型的預(yù)測精度進(jìn)行檢驗評價。
為了探討交通運(yùn)行參數(shù)與道路事故發(fā)生的可能性之間的機(jī)理關(guān)系。本研究選取比利時數(shù)學(xué)家Pjerre-Francois Verhulst提出的Logistic概率函數(shù)[14]。
(1)
式(1)中:N(t)為t時刻某研究對象的數(shù)量;k為在一定環(huán)境下的研究對象的最大極限值;r為研究對象的增長率。
此后,英國統(tǒng)計學(xué)家David Cox對Logistic函數(shù)進(jìn)行了改進(jìn)[15]。使得Logistic模型可以基于單個或多個預(yù)測變量參數(shù)得到二分類變量的對應(yīng)概率值,同樣可以定量分析各因素變量對于二分類變量的影響關(guān)系。即設(shè)一個二分類因變量,因變量的值只能為1或者2,P為事故發(fā)生的概率,其二分類Logistic函數(shù)為
(2)
由于事故發(fā)生受到多種因素影響,即事故發(fā)生的概率模型存在多個自變量x1,x2,…,xn,將P與x1,x2,…,xn建立線性關(guān)系,可以得到某交通情況下對應(yīng)的事故發(fā)生概率計算如下:
(3)
xiβ=β0+x1iβ1+...+xkiβk
(4)
式中:P(xi)為交通運(yùn)行中發(fā)生事故的概率;xiβ為影響事故發(fā)生變量的線性組合;β0為常數(shù);β1,β2,…,βk為自變量的回歸系數(shù)。其中β越大,則自變量與事故之間關(guān)聯(lián)性越高。expβ為事故發(fā)生率,是自變量每增加一個單位,隨之變化的事故發(fā)生率情況。
在選用Logistic概率模型擬合交通事故發(fā)生模型時,要遵循Logistic概率模型的假設(shè)條件:①數(shù)據(jù)必須來自于隨機(jī)樣本;② Logistic概率函數(shù)無法適用于多元共線性的變量,即如果自變量直接存在共線性關(guān)系會導(dǎo)致標(biāo)準(zhǔn)誤差的膨脹;③ Logistic概率模型中因變量與自變量之間需非線性關(guān)系。因變量P(x)為二分變量,即變量只能取兩個相互對立的值,例如0和1,是和否。
由于Logistic概率函數(shù)模型對輸入變量有著極高的要求,預(yù)測的精度與輸入變量的選取有著極大的聯(lián)系,因此需要對模型的輸入變量進(jìn)行相關(guān)性檢驗,以提出相關(guān)性較低的變量以免影響預(yù)測結(jié)果。相關(guān)性檢驗方法有很多,一般適用于Logistic概率函數(shù)的有Score檢驗法和T檢驗法等。
Score檢驗是一種初始檢驗方法,是用于在建模之前根據(jù)變量之間特定關(guān)系,判斷自變量與因變量相關(guān)程度的方法。Score檢驗值的計算公式為
(5)
T檢驗是戈斯特為了觀測釀酒質(zhì)量而發(fā)明的。戈斯特在位于都柏林的健力士釀酒廠擔(dān)任統(tǒng)計學(xué)家,1908年在 Biometrika上公布T檢驗。T分布理論來推斷差異發(fā)生的概率,從而判定兩個平均數(shù)的差異是否顯著。T統(tǒng)計計算公式為
(6)
T檢驗中的p代表一種概率,是表示原假設(shè)為真的前提下,出現(xiàn)該樣本或比該樣本跟極端的結(jié)果的概率之和。一般取自由度為2,取p<0.05的參考變量為輸入模型中的自變量。
通過分析交通參數(shù)與事故間的關(guān)聯(lián)性,構(gòu)建預(yù)測模型,利用接收者操作特征(receiver operating characteristic,ROC)曲線探尋的閾值預(yù)測隧道內(nèi)事故的發(fā)生。事故預(yù)測方法分析技術(shù)路線見圖1。
(1)采集數(shù)據(jù),采集事故發(fā)生前后以及正常交通狀況下的交通參數(shù)。
(2)顯著性分析,對提取的與事故相關(guān)的參數(shù)進(jìn)行定性、定量的顯著性分析。
(3)模型計算,利用處理后數(shù)據(jù)集對Logisitic模型自變量的回歸系數(shù)進(jìn)行計算。
(4)閾值確定,標(biāo)定不同交通環(huán)境下預(yù)測模型中事故發(fā)生閾值。
(5)事故預(yù)測模型分析,將實(shí)時數(shù)據(jù)代入模型計算預(yù)測交通事故發(fā)生的可能并分析。
圖1 事故預(yù)測模型構(gòu)建技術(shù)路線Fig.1 Technical route for accident prediction model constructed
青島膠州灣隧道路段設(shè)計時速為80 km/h,全線長約7 800 m,主線為單向3車道,內(nèi)部最大坡度為4%,最小轉(zhuǎn)彎半徑為800 m,高峰時期單向流量約為4 000 veh/h。膠州灣隧道內(nèi)大約每150 m設(shè)置有高清監(jiān)控攝像機(jī),共計172個,監(jiān)控視頻能夠記錄隧道內(nèi)全天交通運(yùn)行情況。
提取隧道內(nèi)2018年5—6月交通監(jiān)控視頻,挑選出所有的交通碰撞事件視頻,并利用視頻處理技術(shù)采集非事故情況下及事故前10 min的交通流參數(shù)數(shù)據(jù)包含流量、速度、密度等以及車輛行為數(shù)據(jù)即不規(guī)則駕駛行為數(shù)據(jù)等。其中不規(guī)則駕駛行為包括車輛的急加速、急減速、違規(guī)換道、超速等行為。并且交通事故數(shù)據(jù)僅包含由交通狀況或駕駛員因素導(dǎo)致的事故,例如追尾事故等,不包括由車輛原因?qū)е碌氖鹿?,如拋錨事故等。
在綜合調(diào)研現(xiàn)有研究成果的基礎(chǔ)上,針對交通事故發(fā)生前的交通運(yùn)行數(shù)據(jù)進(jìn)行研究分析。利用膠州灣隧道內(nèi)碰撞事故發(fā)生前事故車道的流量數(shù)據(jù)、速度數(shù)據(jù)以及車頭間距數(shù)據(jù)進(jìn)行統(tǒng)計分析,詳見圖2~圖4。
圖2 事故發(fā)生前流量統(tǒng)計直方圖Fig.2 Flow statistics histogram before the accident
圖3 事故發(fā)生前速度統(tǒng)計直方圖Fig.3 Speed statistics histogram before the accident
圖4 事故發(fā)生前車頭間距統(tǒng)計直方圖Fig.4 Space headway statistics histogram before the accident
由圖2~圖4可見,事故前5 min流量統(tǒng)計擬合分布曲線接近正態(tài)分布,呈現(xiàn)集中分布趨向,說明流量變化與事故發(fā)生可能存在關(guān)聯(lián),同時另外處理了事故前10 min流量數(shù)據(jù)分析,結(jié)果顯示存在峰值但分布較為平緩。事故前5 min平均車輛速度分布趨向于正態(tài)分布,且事故前速度分布存在高峰,較流量數(shù)據(jù)而言,分布的峰值更大,可以看出速度與交通事故發(fā)生更可能存在關(guān)聯(lián)性。車頭間距同樣是交通運(yùn)行中的重要參數(shù),合適的車頭間距是避免交通事故發(fā)生的主要條件之一。綜上,從事故前交通參數(shù)統(tǒng)計分布可以看出交通事故發(fā)生前交通狀況存在相似性,證實(shí)了事故預(yù)測的可能性。
依據(jù)大量視頻數(shù)據(jù)觀測,不規(guī)則行為與交通事故發(fā)生有著密切的聯(lián)系,大部分交通事故的發(fā)生,主要原因在于駕駛員的駕駛行為不規(guī)范。統(tǒng)計急減速、換道行為、異常慢速行為3種車輛不規(guī)則行為。為描述總體交通運(yùn)行狀態(tài)中駕駛行為的安全性,提出車輛不規(guī)則行為率(ρ)的概念,詳見式(7)。
ρ=y/q
(7)
式(7)中:ρ為不規(guī)則行為率;y為不規(guī)則行為數(shù)(次/5 min);q為5 min流量值。
結(jié)合現(xiàn)有成果以及膠州灣隧道相關(guān)數(shù)據(jù)的分析,通過初步篩選,提取了交通事故前的交通運(yùn)行特征參數(shù),見表1。
表1 事故前交通運(yùn)行特征參數(shù)Table 1 Parameters of traffic moving charac-teristics before the accident
根據(jù)前期的調(diào)研分析發(fā)現(xiàn)事故前10 min的交通運(yùn)行狀態(tài)對交通事故的發(fā)生具有一定的影響,而事故前5 min的流量數(shù)據(jù)通過上述分析,可以用于交通事故預(yù)測分析。因此提取事故前5 min事故前10 min的交通流數(shù)據(jù)。
鑒于Logistic概率函數(shù)模型的應(yīng)用條件,為保證模型建立的精確性,需要針對交通特征參數(shù)變量進(jìn)行相關(guān)性分析,剔除在檢驗分析中顯著水平低的變量。利用Score檢驗法以及T檢驗法對交通流特征變量與事故發(fā)生之間的密切程度進(jìn)行定量計算,對初選變量進(jìn)行關(guān)聯(lián)性分析,詳細(xì)見表2、表3。
表2 交通流特征變量的Score檢驗結(jié)果統(tǒng)計表Table 2 Score test results statistics table of traffic flow characteristic variables
表3 交通流特征變量的T檢驗結(jié)果統(tǒng)計表Table 3 T test results statistics table of traffic flow characteristic variables
建模計算中因變量的編碼規(guī)則有0、1,表示交通事故的發(fā)生與否,交通事故發(fā)生則其因變量值為1,沒有發(fā)生交通事故則其因變量值為0。根據(jù)因變量的編碼規(guī)則以及自變量值,很容易計算出交通流特征變量的Score值,由表2可看出事故前5 min流量(FLOW5)、事故前10 min流量(FLOW10)以及事故前5 min車輛的平均車頭時距(CTSJ5)得分較低,但是事故前5 min平均速度(SPEED5)以及事故前5 min的車輛不規(guī)則行為率(BGZXW5)Score檢驗值滿足一般的要求。表3中,Wald為卡方值,即回歸系數(shù)與標(biāo)準(zhǔn)誤差比值的平方值,由于其臨界值模糊,需要參考P值,以判斷顯著性。由表3可知,僅有事故前5 min平均速度(SPEED5)以及事故前5 min的車輛不規(guī)則行為率(BGZXW5)的P<0.05,其他變量的P≥0.05。綜上,由于SPEED5、BGZXW5的顯著性水平較高,應(yīng)當(dāng)在模型中保留,其他變量可以剔除。
利用視頻處理技術(shù)采集2018年5—6月期間共118組數(shù)據(jù)進(jìn)行分析和處理,其中包括非交通事故數(shù)據(jù)63組以及交通事故數(shù)據(jù)55組。通過事故影響因素分析確定模型變量包含事故前5、10 min流量數(shù)據(jù)、事故前5 min速度數(shù)據(jù)、事故前5 min平均車頭時距以及不規(guī)則駕駛行為數(shù)據(jù)等,詳見表4,其中Num表示提取視頻的時間及攝像頭編號;ACCIDENT表示事故是否發(fā)生,1為發(fā)生事故,0為無事故發(fā)生。并且交通事故數(shù)據(jù)僅包含由交通狀況或駕駛員因素導(dǎo)致的事故,例如追尾事故等,不包括由車輛原因?qū)е碌氖鹿剩鐠佸^事故等。
表4 交通事故數(shù)據(jù)樣表(訓(xùn)練集)Table 4 Traffic accident data sample table (train set)
通過隨機(jī)抽取的方式將樣本分為獨(dú)立的兩個部分,即訓(xùn)練集和驗證集,其中訓(xùn)練集30組事故數(shù)據(jù)和40組非事故數(shù)據(jù),占總樣本的60%,驗證集由25組事故數(shù)據(jù)和23組非事故數(shù)據(jù)組成,占總樣本的40%。訓(xùn)練集是用來求解模型參數(shù),構(gòu)建事故預(yù)測模型;測試集是用于檢驗?zāi)P偷氖鹿暑A(yù)測準(zhǔn)確性。
對交通流特征變量進(jìn)行顯著性檢驗分析后,最終模型的顯著變量僅有SPEED5、BGZXW5兩個自變量和一個常數(shù)量。代入膠州灣隧道訓(xùn)練集的事故前5 min的速度數(shù)據(jù)以及事故前5 min不規(guī)則行為率,利用最大似然法求解變量參數(shù),得到結(jié)果如表5所示。
其中SPEED5系數(shù)為負(fù),顯示事故發(fā)生前5 min內(nèi)事故點(diǎn)處速度相對于非事故情況速度低,即說明隧道內(nèi)運(yùn)行速度越小,事故發(fā)生的可能性越大。BGZXW5系數(shù)為正,表示事故發(fā)生前5 min內(nèi)車輛的不規(guī)則行為相對比非事故情況下要大,即不規(guī)則行為越多,隧道內(nèi)發(fā)生事故的可能性就越大。
依據(jù)最大似然法求解結(jié)果可以得到,以速度與不規(guī)則行為率為因子建立事故率預(yù)測Logistic概率模型:
xβ=2.101-0.103x1+0.579x2
(8)
(9)
對估計的模型進(jìn)行擬合優(yōu)度評價,評價結(jié)果見表6。
在自由度取2,顯著水平為0.05,可以得到卡方臨界值為5.991。因此,最大似然對數(shù)值檢驗通過。計算的廣義決定系數(shù)也較大,說明模型的擬合優(yōu)度教好,建立的事故率預(yù)測Logistic概率模型能過較好的預(yù)測交通事故的發(fā)生。
表5 模型系數(shù)求解Table 5 Model coefficient solving
表6 模型擬合結(jié)果Table 6 Model fitting results
注:2lg likelihood為最大似然平方的對數(shù)值,Cox & Snell R Square為廣義決定系數(shù),Nagelkerke R Square為偽決定系數(shù)。Nagelkerke擬合優(yōu)度是一種校正后的Cox & Snell擬合優(yōu)度。
Logisitic模型預(yù)測結(jié)果是0-1的概率,因此在實(shí)際運(yùn)用時,針對這種二分類問題選擇合適的閾值以此判斷事故情況或正常交通情況的概率輸出范圍至關(guān)重要。因為高閾值通常無法識別很多事故的潛在條件,而低閾值會錯誤的將正常交通狀況預(yù)警為高事故風(fēng)險情況,給出錯誤的預(yù)測結(jié)果。利用繪制接收者操作特征(receiver operating characteristic,ROC)曲線的方法來尋找最合適的閾值。ROC曲線是以真陽性率(靈敏度,TPR)為縱坐標(biāo),假陽性率(1-特異度,FPR)為橫坐標(biāo)繪制的曲線。靈敏度指把實(shí)際為真值(事故)判斷為真值(事故)的概率,特異性指把實(shí)際為假值(正常情況)判斷為假值的概率。
表7是以0.5為閾值訓(xùn)練集的預(yù)測結(jié)果,其中TN為正確拒絕的非匹配數(shù)目;FP為誤報;FN為漏報;TP為正確肯定的數(shù)目。由表7便可以得出閾值為0.5的ROC曲線橫、縱軸坐標(biāo)(FPR,TPR),其中FPR=FP/(FP+TN),TPR=TP/(TP+FN)。隨著閾值的逐漸減小,越來越多的實(shí)例被劃分為真值(事故),但是這些真值(事故)中同樣也摻雜著假值(正常情況),即TPR和FPR會同時增大。閾值最大時,對應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時,對應(yīng)坐標(biāo)點(diǎn)(1,1)。預(yù)測精度最高即準(zhǔn)確率為100%,在ROC曲線圖中對應(yīng)為理想閾值點(diǎn):TPR=1,F(xiàn)PR=0,即ROC圖中(0,1)點(diǎn),故ROC曲線越靠攏(0,1)點(diǎn),越偏離45°對角線越好。
Logisitic模型ROC曲線,見圖5??梢婇撝翟?.36左右時,預(yù)測效果最好,這時TPR值為0.75,F(xiàn)PR值為0.26。因此本文的閾值確定為0.36,當(dāng)預(yù)測值大于等于0.36時,判定為高事故風(fēng)險;當(dāng)預(yù)測值小于0.36,判定為正常交通狀況。
表7 訓(xùn)練集預(yù)測結(jié)果Table 7 Predicted results of train set
圖5 模型預(yù)測的ROC曲線Fig.5 Model predicted ROC curve
利用青島市膠州灣隧道內(nèi)2018年5—6月隨機(jī)挑選的48組交通事故的視頻數(shù)據(jù),采集相關(guān)交通參數(shù)進(jìn)行預(yù)測分析,預(yù)測結(jié)果詳見表8。從表8中可知在25個事故樣本中,有22組樣本被模型準(zhǔn)確預(yù)測,預(yù)測準(zhǔn)確度達(dá)到88%;在23個非事故樣本中,有15組預(yù)測結(jié)果符合實(shí)際,預(yù)測準(zhǔn)確度達(dá)到65.2%,結(jié)果表明事故預(yù)測比非事故預(yù)測有較高的準(zhǔn)確度,Logisitic模型在城市隧道中在預(yù)測由交通狀態(tài)或駕駛員原因發(fā)生的交通事故(如追尾事故)方面有較高的預(yù)測準(zhǔn)確度。驗證集共48組數(shù)據(jù),預(yù)測準(zhǔn)確有37組數(shù)據(jù),可看出Logisitic預(yù)測模型的準(zhǔn)確性為78.4%。
表8 模型預(yù)測結(jié)果Table 8 Model prediction results
基于青島膠州灣隧道相關(guān)數(shù)據(jù),選用Logistic概率模型建立隧道交通事故率預(yù)測方法。Logistic概率模型將事故發(fā)生的潛在可能性量化,給管理者以更加直觀的方式說明交通潛在的危險,為隧道內(nèi)安全運(yùn)營管控提供指導(dǎo)。
(1)通過對隧道內(nèi)事故發(fā)生的相關(guān)因素研究,表明影響交通事故最主要的因素為交通運(yùn)行速度以及車輛的不規(guī)則行為率,其中不規(guī)則行為率對事故發(fā)生的影響最為顯著,隧道管理者可通過及時的誘導(dǎo)措施,降低隧道內(nèi)事故的發(fā)生的可能。
(2)通過繪制ROC曲線的方法確定模型閾值,結(jié)果顯示閾值為0.36,模型精度較高。
(3)通過膠州灣隧道交通事故數(shù)據(jù)整理的驗證集數(shù)據(jù)評價事故率預(yù)測模型的準(zhǔn)確率約為78.4%。
可見在可接受的誤差范圍內(nèi),提出的事故率預(yù)測模型預(yù)測結(jié)果可以為隧道內(nèi)事故的應(yīng)急救援處理提供一定的決策信息,同樣也為隧道內(nèi)管理提供有效依據(jù)。由于事故發(fā)生是多元素多方面的,不同的交通運(yùn)行環(huán)境下導(dǎo)致事故發(fā)生的原因也是多樣的,因此下一步將基于本研究,對模型進(jìn)行優(yōu)化,使得模型能夠根據(jù)不同情況下自優(yōu)化,以提高預(yù)測精度。