徐 鵬, 劉 昊
(天津市公安局網(wǎng)安總隊(duì), 天津 300384)
交通事故多發(fā)路段是指受交通條件、道路條件和氣候環(huán)境等因素的影響,在一段時(shí)間內(nèi)發(fā)生的交通事故數(shù)量明顯多于其他正常路段[1]。對(duì)公路事故多發(fā)路段的鑒別可以用于研究事故發(fā)生的主要影響因素,從而采取相應(yīng)的措施以降低公路交通事故的發(fā)生。
目前國(guó)內(nèi)外事故多發(fā)路段鑒別方法以累計(jì)頻率曲線法[2-3]為代表的等距離劃分方法為主,該類方法存在密集路段被人為拆分和短距離路段被強(qiáng)制擴(kuò)散等問題。文獻(xiàn)[4-5]提出了一種基于密度的DBSCAN聚類方法可以彌補(bǔ)上述不足,它根據(jù)數(shù)據(jù)對(duì)象周圍密度的不斷增長(zhǎng)聚類,將密度足夠高的區(qū)域內(nèi)數(shù)據(jù)對(duì)象劃分為簇,具有快速識(shí)別任意形狀簇、處理數(shù)據(jù)對(duì)象中的噪聲點(diǎn)的優(yōu)點(diǎn),但是單獨(dú)基于密度聚類不能完全將事故嚴(yán)重程度考慮在計(jì)算范圍內(nèi)?,F(xiàn)有的文獻(xiàn)中對(duì)事故的研究大多僅限于事故多發(fā)路段的識(shí)別,很少對(duì)造成事故的因素進(jìn)行分析,文獻(xiàn)[6-7]分別從道路結(jié)構(gòu)、道路線型、交通條件、路側(cè)環(huán)境和駕駛員心理等角度對(duì)事故成因進(jìn)行了分析。
針對(duì)上述問題,本文將提出一種改進(jìn)的公路事故多發(fā)路段處機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)價(jià)方法,文中對(duì)基于密度的DBSCAN聚類算法進(jìn)行改進(jìn),將事故嚴(yán)重程度作為加權(quán)項(xiàng)考慮在內(nèi),算法聚類得出的事故多發(fā)路段不論是從事故數(shù)量上還是從事故嚴(yán)重程度上都體現(xiàn)出了事故的危害性。在識(shí)別出事故多發(fā)路段的基礎(chǔ)上,進(jìn)一步對(duì)車輛因素進(jìn)行分析,提出一種基于重設(shè)閾值的累積邏輯回歸算法來對(duì)事故多發(fā)路段中的車輛風(fēng)險(xiǎn)指數(shù)進(jìn)行預(yù)測(cè)。
本文在分析過程中,主要使用DBSCAN聚類算法、KPrototype聚類算法和累積邏輯回歸算法,以下分別對(duì)幾種基本算法進(jìn)行介紹。
DBSCAN和KPrototype是兩類聚類算法,是無監(jiān)督學(xué)習(xí)算法,訓(xùn)練樣本的標(biāo)記信息是未知的,其目標(biāo)是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律。DBSCAN算法是基于密度的聚類,該算法基于一組鄰域參數(shù)來刻畫樣本分布的緊密程度[8]。KPrototype算法適用于混合數(shù)據(jù),是基于原型的聚類,聚類結(jié)構(gòu)能夠通過一組原型刻畫,然后對(duì)原型進(jìn)行迭代更新求解,其中比較重要的一點(diǎn)就是需要預(yù)先指定聚類的簇?cái)?shù)[9]。
本文對(duì)事故多發(fā)路段的識(shí)別主要從DBSCAN算法展開進(jìn)行,從參數(shù)自適應(yīng)和權(quán)重兩方面分別進(jìn)行了改進(jìn),使用累積頻率曲線法中的事故閾值對(duì)Minpts進(jìn)行初始化,使用事故嚴(yán)重程度對(duì)算法進(jìn)行加權(quán)。
公安部《全面排查交通事故多發(fā)點(diǎn)段工作方案》中鑒定事故多發(fā)路段的標(biāo)準(zhǔn)為在一年內(nèi)500米范圍內(nèi)發(fā)生3次以上交通事故的地點(diǎn)。因此,首先使用累積頻率法以500米為步長(zhǎng)劃分路段進(jìn)行分析,對(duì)數(shù)據(jù)進(jìn)行歸一化以后,建立雙指數(shù)函數(shù)(y=abx+cdx+e)擬合累積頻率曲線,使用已知事故頻率數(shù)據(jù)對(duì)曲線中的參數(shù)進(jìn)行計(jì)算,對(duì)得出的累積頻率曲線進(jìn)行曲率計(jì)算,找到曲率最大點(diǎn)并進(jìn)行歸一化還原得出事故數(shù)量閾值點(diǎn)。
圖1 事故多發(fā)路段識(shí)別流程圖
使用累積頻率曲線法中的事故數(shù)量閾值點(diǎn)初始化密度閾值Minpts,使用500初始化領(lǐng)域半徑ε,進(jìn)行參數(shù)自適應(yīng)DBSCAN。為了使模型能更高效、集中、足量地反映事故多發(fā)路段,現(xiàn)通過減少ε半徑來降低事故多發(fā)路段總長(zhǎng)度dblack占全部路段長(zhǎng)度dall的比例和提高事故閾值Minpts來降低簇?cái)?shù)C。于是對(duì)ε在[500,200]內(nèi)以步長(zhǎng)-50進(jìn)行逐步遍歷,當(dāng)事故多發(fā)路段占比dblack/dall小于等于n時(shí),進(jìn)而對(duì)Minpts在[3,20]內(nèi)以步長(zhǎng)1進(jìn)行逐步遍歷,當(dāng)簇?cái)?shù)C小于等于m時(shí),此時(shí)參數(shù)組合(ε,Minpts)滿足條件,以此參數(shù)組合輸出DBSCAN聚類識(shí)別的事故多發(fā)路段。
傳統(tǒng)上,公安部按照人身傷亡或財(cái)產(chǎn)損失的程度和數(shù)額,將道路交通事故分為輕微事故、一般事故、重大事故和特大事故,如,輕微事故,是指一次造成輕傷1~2人,或者財(cái)產(chǎn)損失機(jī)動(dòng)車事故不足1 000元,非機(jī)動(dòng)車事故不足200元的事故。由于財(cái)產(chǎn)損失的估算存在主觀性,本文中使用輕傷人數(shù)(QSRS)、重傷人數(shù)(ZSRS)和7日內(nèi)死亡人數(shù)(SWRS7)3項(xiàng)指標(biāo)對(duì)事故嚴(yán)重程度進(jìn)行評(píng)價(jià),并根據(jù)事故類型劃分標(biāo)準(zhǔn)中指標(biāo)間的對(duì)應(yīng)關(guān)系計(jì)算指標(biāo)權(quán)重,QSRS、ZSRS、SWRS7的權(quán)重分別為K1、K2、K2。例如一般事故指一次造成重傷1~2人,或者輕傷3人以上的事故,可得K2≥3K1;同樣可根據(jù)重大、特大事故劃分標(biāo)準(zhǔn)確定K3≥4K2,因此以K1=1為基礎(chǔ),得到一起事故的嚴(yán)重程度為y=1+QSRS+3ZSRS+12SWRS7,其中常數(shù)項(xiàng)1為事故次數(shù)。
在識(shí)別出事故多發(fā)路段之后,一方面可以通過對(duì)事故多發(fā)路段的路況進(jìn)行完善,設(shè)置警告標(biāo)志等降低事故率;另一方面,可對(duì)進(jìn)入事故多發(fā)路段的車輛根據(jù)車輛特征進(jìn)行風(fēng)險(xiǎn)評(píng)估,對(duì)事故風(fēng)險(xiǎn)高的車輛進(jìn)行重點(diǎn)觀察并在警務(wù)通上進(jìn)行風(fēng)險(xiǎn)提示,以此降低事故概率。根據(jù)車輛特征進(jìn)行風(fēng)險(xiǎn)評(píng)估的方法可采用邏輯回歸,一方面邏輯回歸不要求自變量和因變量之間線性相關(guān),另一方面,邏輯回歸的輸出為0~1之間的小數(shù),可作為預(yù)測(cè)的概率直接輸出。
圖2 機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)估流程
因?yàn)槭鹿柿孔疃嗟氖鹿识喟l(fā)路段的事故量也不足以進(jìn)行回歸分析。同時(shí),由于道路間不同的物理屬性,在不同道路類型上事故易發(fā)的車輛可能具有不同的特征,若對(duì)所有事故樣本一視同仁,放在同一個(gè)回歸模型中進(jìn)行擬合也會(huì)影響最終的結(jié)果。因此,首選需要對(duì)全部的事故多發(fā)路段進(jìn)行聚類,將具有相同屬性的路段聚類到一起,再對(duì)同類路段中的車輛進(jìn)行風(fēng)險(xiǎn)評(píng)估,模型的具體實(shí)現(xiàn)流程如圖2所示。
因?yàn)樵诨貧w分析時(shí)僅有事故樣本還不夠,所以需要卡口數(shù)據(jù)來構(gòu)建非事故樣本,因此智能選擇全部路段中的帶卡口的事故多發(fā)路段作為樣本進(jìn)行分析,其中帶卡口路段是指該路段5 km范圍內(nèi)有卡口。
由于路段聚類是在識(shí)別出事故多發(fā)路段的基礎(chǔ)上進(jìn)行的,已經(jīng)確定路段事故風(fēng)險(xiǎn)較高,因此聚類特征只需關(guān)注路段本身屬性,可用的數(shù)據(jù)有事故錄入數(shù)據(jù)和卡口過車數(shù)據(jù)。事故錄入數(shù)據(jù)中與路段相關(guān)的字段有橫斷面位置、道路安全屬性、路側(cè)防護(hù)設(shè)施、道路物理隔離、路面狀況、路面結(jié)構(gòu)、路口路段類型、道路線型和地形共9個(gè)??扇∩鲜?個(gè)字段作為描述事故多發(fā)路段靜態(tài)信息的特征,同時(shí)從卡口過車數(shù)據(jù)中提取路段的年車流量和大車混入率作為描述事故路段動(dòng)態(tài)信息的特征,如表1所示。
表1 路段聚類特征說明
使用KPrototype算法基于上述特征將帶卡口的事故多發(fā)路段聚類為類,其中取值為1到9,最后使用肘部法則確認(rèn)值,找到特征相同的路段。
以標(biāo)記過的事故數(shù)據(jù)作為累積邏輯回歸中的正例,同時(shí)結(jié)合卡口信息,對(duì)未發(fā)生交通事故的車輛信息進(jìn)行“無事故”的標(biāo)記。交通事故因素主要為人員、車輛、道路、環(huán)境因素。其中由于對(duì)車輛的風(fēng)險(xiǎn)評(píng)估是基于卡口攝像頭采集到的信息實(shí)時(shí)進(jìn)行的,很難捕捉到具體的駕駛?cè)诵畔?,同時(shí)由于已經(jīng)對(duì)道路特征做了聚類,因此回歸模型是在道路特征相近的樣本上進(jìn)行的,也就不需對(duì)道路特征進(jìn)行建模,因此主要考慮車輛因素、環(huán)境因素。
從環(huán)境因素看,Kwon等在其道路安全風(fēng)險(xiǎn)因素分類算法應(yīng)用研究中,使用了時(shí)間、天氣等指標(biāo)[11]。從車輛因素看,吳劍在行車風(fēng)險(xiǎn)評(píng)價(jià)研究中采用車輛類型、車輛性能、車輛技術(shù)狀況等作為機(jī)動(dòng)車與非機(jī)動(dòng)車對(duì)交通安全的影響因素[12]。因此基于前人研究基礎(chǔ),具體選取樣本特征如表2,共11類:
表2 機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)價(jià)特征
由于事故樣本和無事故樣本數(shù)量嚴(yán)重失衡,因此采用重設(shè)閾值的方式進(jìn)行樣本均衡。在樣本標(biāo)記中,0為未發(fā)生交通事故,1為輕微事故,2為一般事故,4為重大事故,8為特大事故,由于重大事故和特大事故樣本量小,不具有一般性,因此不再對(duì)他們?cè)诶鄯e回歸模型中單獨(dú)劃分正例。分別以y>0,y=1和y≥2為正例構(gòu)建累積邏輯回歸模型,對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。使用10折交叉驗(yàn)證對(duì)每次訓(xùn)練的結(jié)果進(jìn)行平均得出風(fēng)險(xiǎn)機(jī)動(dòng)車。
統(tǒng)計(jì)境內(nèi)某公路一年內(nèi)的路段事故信息,歸一化后得到如表3所示的累積事故信息,使用雙指數(shù)函數(shù)(y=abx+cdx+e)擬合累積頻率曲線,得到如圖3所示的公路事故累積頻率曲線圖,擬合度R2=0.999 36,擬合曲線方程為:
y=-262.081×1.000 3x+0.937×(3.35e-6)x+262.142
表3 境內(nèi)某公路事故路段累計(jì)頻率表
將歸一化事故次數(shù)0.23乘以路段最大事故數(shù)換算成路段事故次數(shù)即0.23×11=2.53,得到該道路事故多發(fā)路段的事故閾值Minpts=3。根據(jù)事故路段累計(jì)頻率表,可以得出事故次數(shù)大于等于3的路段為事故多發(fā)路段,共124個(gè)路段,占比8.01%,事故多發(fā)路段發(fā)生的事故總數(shù)為561起,占比51.71%。將相鄰的事故多發(fā)路段連接,得到拼接后的事故多發(fā)路段共91簇,最終結(jié)果如圖4所示。
圖3 路段累計(jì)頻率曲線擬合效果
圖4 累計(jì)頻率法鑒別出的事故多發(fā)路段
表4 DBSCAN變參過程
如表4所示,當(dāng)參數(shù)組合調(diào)整為(ε=350,Minpts=4)時(shí):DBSCAN的路段占比為6.1%,小于累計(jì)頻率曲線識(shí)別結(jié)果的路段占比8.01%;事故占比為52.70%,大于累計(jì)頻率曲線識(shí)別結(jié)果的事故占比51.71%;同時(shí)路段簇?cái)?shù)為75,小于累計(jì)頻率曲線識(shí)別結(jié)果的91簇??梢妳?shù)組合(ε=350,Minpts=4)的DBSCAN聚類結(jié)果滿足“高效,集中,足量”的三個(gè)目標(biāo),因此采用這一參數(shù)組合作為最終參數(shù)進(jìn)行聚類,得到最終的結(jié)果如圖5所示。
圖5 DBSCAN鑒別出的事故多發(fā)路段
圖6 加權(quán)DBSCAN鑒別出的事故多發(fā)路段
基于DBSCAN的事故多發(fā)路段鑒別法在事故數(shù)量的鑒別上更為高效,鑒別出的事故多發(fā)路段的每公里事故量為12.11,大于用累計(jì)頻率曲線法得到的9.05,用了更短的事故多發(fā)路段反映了更多的事故量;另外DBSCAN聚成的多發(fā)路段簇?cái)?shù)為75,小于累計(jì)頻率法的91簇,反映出的事故多發(fā)路段更為集中;基于事故加權(quán)的DBSCAN算法把事故的嚴(yán)重程度也考慮在內(nèi),能夠更加客觀的對(duì)事故多發(fā)路段的危害進(jìn)行評(píng)價(jià)。
圖7 不同聚類簇?cái)?shù)的平均畸變程度
對(duì)境內(nèi)某區(qū)域各條公路分別進(jìn)行事故多發(fā)路段識(shí)別,共得到事故多發(fā)路段1 651個(gè),從中選取5 km范圍內(nèi)有卡口的552個(gè)路段作為樣本進(jìn)行分析,分別取聚類簇?cái)?shù)為1~9的聚類效果如圖7所示,由肘部法則得到聚類簇?cái)?shù)k=2時(shí),推薦的結(jié)果最好,觀察兩類事故多發(fā)路段中相差最大的特征分別是道路物理隔離、路面結(jié)構(gòu)和地形。其中類別簇?cái)?shù)標(biāo)記為0的事故地點(diǎn)道路物理隔離為中心隔離、路面結(jié)構(gòu)為瀝青、地形為平原,標(biāo)記為1簇?cái)?shù)的事故地點(diǎn)物理隔離為無隔離、路面結(jié)構(gòu)為水泥、地形為山區(qū),其余特征在兩個(gè)簇中較為一致,具體兩類簇中的屬性信息如表5所示,其中連續(xù)變量取均值,類別變量取眾值。
表5 兩類路段特征分布
因?yàn)榈匦螢槠皆牡貐^(qū)更具有普遍性,本文只針對(duì)兩類路段中的第一類進(jìn)行分析。得到第一類路段中發(fā)生事故,輕微事故和傷亡事故的累積Logistic概率模型分別為:
其中的logit(P1)為不發(fā)生事故對(duì)發(fā)生事故的優(yōu)勢(shì)比,logit(P2)為發(fā)生輕微事故對(duì)發(fā)生一般及以上事故的優(yōu)勢(shì)比,logit(R2)為發(fā)生輕微或一般事故對(duì)發(fā)生重大事故的優(yōu)勢(shì)比。在10折交叉驗(yàn)證中,依次以上述累積回歸模型對(duì)測(cè)試集進(jìn)行檢驗(yàn),以0-1錯(cuò)誤率作為指標(biāo)衡量模型的精確度:
其中n為測(cè)試樣本量,y′為對(duì)樣本類別的估計(jì)值,y為樣本類別的真實(shí)值,由于y的輸出為0或1。進(jìn)行10次測(cè)試,對(duì)比普通累積邏輯回歸算法和重設(shè)閾值的累積邏輯回歸算法的預(yù)測(cè)結(jié)果的平均值如表6所示。
可見重設(shè)閾值的累計(jì)邏輯回歸模型對(duì)各個(gè)分類的識(shí)別精確率都在70%以上,對(duì)于樣本車輛是否發(fā)生事故的預(yù)測(cè)精確度在95%以上,比普通的累積邏輯回歸算法準(zhǔn)確率平均提升4.9個(gè)百分點(diǎn),可以用來有效識(shí)別事故多發(fā)路段處車輛的事故發(fā)生情況,做出及時(shí)預(yù)警。
表6 邏輯回歸預(yù)測(cè)結(jié)果
(1)與傳統(tǒng)累計(jì)頻率曲線法相比,使用DBSCAN聚類法鑒別事故多發(fā)路段能更集中有效地反映多發(fā)路段,表現(xiàn)為事故多發(fā)路段長(zhǎng)度占比更少,事故數(shù)量占比更高。
(2)使用正則化目標(biāo)函數(shù)下的參數(shù)自適應(yīng)能實(shí)現(xiàn)最優(yōu)參數(shù)的自調(diào)整,有效解決了密度聚類中參數(shù)難以定值的問題,可使聚類結(jié)果簇?cái)?shù)更少,事故多發(fā)反映更集中。
(3)對(duì)事故嚴(yán)重程度進(jìn)行加權(quán)而識(shí)別出的事故多發(fā)路段能淡化事故數(shù)量多但嚴(yán)重程度不高的路段,強(qiáng)化事故嚴(yán)重程度高的路段,聚類效果更優(yōu)。
(4)采用累積邏輯回歸對(duì)事故多發(fā)路段的通行車輛進(jìn)行預(yù)警能有對(duì)車輛是否發(fā)生事故進(jìn)行有效預(yù)測(cè),模型精度達(dá)到了95.6%。