一種改進(jìn)的公路事故多發(fā)路段處機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)價(jià)方法

2019-10-23 04:00徐鵬,劉昊

中國(guó)人民公安大學(xué)學(xué)報(bào)（自然科學(xué)版） 2019年3期

徐鵬, 劉昊

(天津市公安局網(wǎng)安總隊(duì)，天津 300384)

0 引言

交通事故多發(fā)路段是指受交通條件、道路條件和氣候環(huán)境等因素的影響，在一段時(shí)間內(nèi)發(fā)生的交通事故數(shù)量明顯多于其他正常路段[1]。對(duì)公路事故多發(fā)路段的鑒別可以用于研究事故發(fā)生的主要影響因素，從而采取相應(yīng)的措施以降低公路交通事故的發(fā)生。

目前國(guó)內(nèi)外事故多發(fā)路段鑒別方法以累計(jì)頻率曲線法[2-3]為代表的等距離劃分方法為主，該類方法存在密集路段被人為拆分和短距離路段被強(qiáng)制擴(kuò)散等問題。文獻(xiàn)[4-5]提出了一種基于密度的DBSCAN聚類方法可以彌補(bǔ)上述不足，它根據(jù)數(shù)據(jù)對(duì)象周圍密度的不斷增長(zhǎng)聚類，將密度足夠高的區(qū)域內(nèi)數(shù)據(jù)對(duì)象劃分為簇，具有快速識(shí)別任意形狀簇、處理數(shù)據(jù)對(duì)象中的噪聲點(diǎn)的優(yōu)點(diǎn),但是單獨(dú)基于密度聚類不能完全將事故嚴(yán)重程度考慮在計(jì)算范圍內(nèi)?，F(xiàn)有的文獻(xiàn)中對(duì)事故的研究大多僅限于事故多發(fā)路段的識(shí)別，很少對(duì)造成事故的因素進(jìn)行分析，文獻(xiàn)[6-7]分別從道路結(jié)構(gòu)、道路線型、交通條件、路側(cè)環(huán)境和駕駛員心理等角度對(duì)事故成因進(jìn)行了分析。

針對(duì)上述問題，本文將提出一種改進(jìn)的公路事故多發(fā)路段處機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)價(jià)方法，文中對(duì)基于密度的DBSCAN聚類算法進(jìn)行改進(jìn)，將事故嚴(yán)重程度作為加權(quán)項(xiàng)考慮在內(nèi)，算法聚類得出的事故多發(fā)路段不論是從事故數(shù)量上還是從事故嚴(yán)重程度上都體現(xiàn)出了事故的危害性。在識(shí)別出事故多發(fā)路段的基礎(chǔ)上，進(jìn)一步對(duì)車輛因素進(jìn)行分析，提出一種基于重設(shè)閾值的累積邏輯回歸算法來對(duì)事故多發(fā)路段中的車輛風(fēng)險(xiǎn)指數(shù)進(jìn)行預(yù)測(cè)。

1 基本算法介紹

本文在分析過程中，主要使用DBSCAN聚類算法、KPrototype聚類算法和累積邏輯回歸算法，以下分別對(duì)幾種基本算法進(jìn)行介紹。

1.1 DBSCAN和KPrototype聚類算法

DBSCAN和KPrototype是兩類聚類算法，是無監(jiān)督學(xué)習(xí)算法，訓(xùn)練樣本的標(biāo)記信息是未知的，其目標(biāo)是通過對(duì)無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)和規(guī)律。DBSCAN算法是基于密度的聚類，該算法基于一組鄰域參數(shù)來刻畫樣本分布的緊密程度[8]。KPrototype算法適用于混合數(shù)據(jù)，是基于原型的聚類，聚類結(jié)構(gòu)能夠通過一組原型刻畫，然后對(duì)原型進(jìn)行迭代更新求解，其中比較重要的一點(diǎn)就是需要預(yù)先指定聚類的簇?cái)?shù)[9]。

1.2 累積邏輯回歸算法

2 適應(yīng)W-DBSCAN事故多發(fā)路段識(shí)別

本文對(duì)事故多發(fā)路段的識(shí)別主要從DBSCAN算法展開進(jìn)行，從參數(shù)自適應(yīng)和權(quán)重兩方面分別進(jìn)行了改進(jìn)，使用累積頻率曲線法中的事故閾值對(duì)Minpts進(jìn)行初始化，使用事故嚴(yán)重程度對(duì)算法進(jìn)行加權(quán)。

公安部《全面排查交通事故多發(fā)點(diǎn)段工作方案》中鑒定事故多發(fā)路段的標(biāo)準(zhǔn)為在一年內(nèi)500米范圍內(nèi)發(fā)生3次以上交通事故的地點(diǎn)。因此，首先使用累積頻率法以500米為步長(zhǎng)劃分路段進(jìn)行分析，對(duì)數(shù)據(jù)進(jìn)行歸一化以后，建立雙指數(shù)函數(shù)(y=abx+cdx+e)擬合累積頻率曲線，使用已知事故頻率數(shù)據(jù)對(duì)曲線中的參數(shù)進(jìn)行計(jì)算，對(duì)得出的累積頻率曲線進(jìn)行曲率計(jì)算，找到曲率最大點(diǎn)并進(jìn)行歸一化還原得出事故數(shù)量閾值點(diǎn)。

圖1 事故多發(fā)路段識(shí)別流程圖

使用累積頻率曲線法中的事故數(shù)量閾值點(diǎn)初始化密度閾值Minpts,使用500初始化領(lǐng)域半徑ε，進(jìn)行參數(shù)自適應(yīng)DBSCAN。為了使模型能更高效、集中、足量地反映事故多發(fā)路段，現(xiàn)通過減少ε半徑來降低事故多發(fā)路段總長(zhǎng)度dblack占全部路段長(zhǎng)度dall的比例和提高事故閾值Minpts來降低簇?cái)?shù)C。于是對(duì)ε在[500,200]內(nèi)以步長(zhǎng)-50進(jìn)行逐步遍歷，當(dāng)事故多發(fā)路段占比dblack/dall小于等于n時(shí)，進(jìn)而對(duì)Minpts在[3,20]內(nèi)以步長(zhǎng)1進(jìn)行逐步遍歷，當(dāng)簇?cái)?shù)C小于等于m時(shí)，此時(shí)參數(shù)組合(ε，Minpts)滿足條件，以此參數(shù)組合輸出DBSCAN聚類識(shí)別的事故多發(fā)路段。

傳統(tǒng)上，公安部按照人身傷亡或財(cái)產(chǎn)損失的程度和數(shù)額，將道路交通事故分為輕微事故、一般事故、重大事故和特大事故，如，輕微事故，是指一次造成輕傷1～2人，或者財(cái)產(chǎn)損失機(jī)動(dòng)車事故不足1 000元，非機(jī)動(dòng)車事故不足200元的事故。由于財(cái)產(chǎn)損失的估算存在主觀性，本文中使用輕傷人數(shù)(QSRS)、重傷人數(shù)(ZSRS)和7日內(nèi)死亡人數(shù)(SWRS7)3項(xiàng)指標(biāo)對(duì)事故嚴(yán)重程度進(jìn)行評(píng)價(jià)，并根據(jù)事故類型劃分標(biāo)準(zhǔn)中指標(biāo)間的對(duì)應(yīng)關(guān)系計(jì)算指標(biāo)權(quán)重，QSRS、ZSRS、SWRS7的權(quán)重分別為K1、K2、K2。例如一般事故指一次造成重傷1～2人，或者輕傷3人以上的事故，可得K2≥3K1；同樣可根據(jù)重大、特大事故劃分標(biāo)準(zhǔn)確定K3≥4K2，因此以K1=1為基礎(chǔ)，得到一起事故的嚴(yán)重程度為y=1+QSRS+3ZSRS+12SWRS7，其中常數(shù)項(xiàng)1為事故次數(shù)。

3 基于RT-CLR算法的事故多發(fā)路段機(jī)動(dòng)車風(fēng)險(xiǎn)評(píng)估

在識(shí)別出事故多發(fā)路段之后，一方面可以通過對(duì)事故多發(fā)路段的路況進(jìn)行完善，設(shè)置警告標(biāo)志等降低事故率；另一方面，可對(duì)進(jìn)入事故多發(fā)路段的車輛根據(jù)車輛特征進(jìn)行風(fēng)險(xiǎn)評(píng)估，對(duì)事故風(fēng)險(xiǎn)高的車輛進(jìn)行重點(diǎn)觀察并在警務(wù)通上進(jìn)行風(fēng)險(xiǎn)提示，以此降低事故概率。根據(jù)車輛特征進(jìn)行風(fēng)險(xiǎn)評(píng)估的方法可采用邏輯回歸，一方面邏輯回歸不要求自變量和因變量之間線性相關(guān)，另一方面，邏輯回歸的輸出為0～1之間的小數(shù)，可作為預(yù)測(cè)的概率直接輸出。

圖2 機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)估流程

因?yàn)槭鹿柿孔疃嗟氖鹿识喟l(fā)路段的事故量也不足以進(jìn)行回歸分析。同時(shí)，由于道路間不同的物理屬性，在不同道路類型上事故易發(fā)的車輛可能具有不同的特征，若對(duì)所有事故樣本一視同仁，放在同一個(gè)回歸模型中進(jìn)行擬合也會(huì)影響最終的結(jié)果。因此，首選需要對(duì)全部的事故多發(fā)路段進(jìn)行聚類，將具有相同屬性的路段聚類到一起，再對(duì)同類路段中的車輛進(jìn)行風(fēng)險(xiǎn)評(píng)估，模型的具體實(shí)現(xiàn)流程如圖2所示。

3.1 事故多發(fā)路段聚類

因?yàn)樵诨貧w分析時(shí)僅有事故樣本還不夠，所以需要卡口數(shù)據(jù)來構(gòu)建非事故樣本，因此智能選擇全部路段中的帶卡口的事故多發(fā)路段作為樣本進(jìn)行分析，其中帶卡口路段是指該路段5 km范圍內(nèi)有卡口。

由于路段聚類是在識(shí)別出事故多發(fā)路段的基礎(chǔ)上進(jìn)行的，已經(jīng)確定路段事故風(fēng)險(xiǎn)較高，因此聚類特征只需關(guān)注路段本身屬性，可用的數(shù)據(jù)有事故錄入數(shù)據(jù)和卡口過車數(shù)據(jù)。事故錄入數(shù)據(jù)中與路段相關(guān)的字段有橫斷面位置、道路安全屬性、路側(cè)防護(hù)設(shè)施、道路物理隔離、路面狀況、路面結(jié)構(gòu)、路口路段類型、道路線型和地形共9個(gè)?？扇∩鲜?個(gè)字段作為描述事故多發(fā)路段靜態(tài)信息的特征，同時(shí)從卡口過車數(shù)據(jù)中提取路段的年車流量和大車混入率作為描述事故路段動(dòng)態(tài)信息的特征，如表1所示。

表1 路段聚類特征說明

使用KPrototype算法基于上述特征將帶卡口的事故多發(fā)路段聚類為類，其中取值為1到9，最后使用肘部法則確認(rèn)值，找到特征相同的路段。

3.2 機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)判

以標(biāo)記過的事故數(shù)據(jù)作為累積邏輯回歸中的正例，同時(shí)結(jié)合卡口信息，對(duì)未發(fā)生交通事故的車輛信息進(jìn)行“無事故”的標(biāo)記。交通事故因素主要為人員、車輛、道路、環(huán)境因素。其中由于對(duì)車輛的風(fēng)險(xiǎn)評(píng)估是基于卡口攝像頭采集到的信息實(shí)時(shí)進(jìn)行的，很難捕捉到具體的駕駛?cè)诵畔?，同時(shí)由于已經(jīng)對(duì)道路特征做了聚類，因此回歸模型是在道路特征相近的樣本上進(jìn)行的，也就不需對(duì)道路特征進(jìn)行建模，因此主要考慮車輛因素、環(huán)境因素。

從環(huán)境因素看，Kwon等在其道路安全風(fēng)險(xiǎn)因素分類算法應(yīng)用研究中，使用了時(shí)間、天氣等指標(biāo)[11]。從車輛因素看，吳劍在行車風(fēng)險(xiǎn)評(píng)價(jià)研究中采用車輛類型、車輛性能、車輛技術(shù)狀況等作為機(jī)動(dòng)車與非機(jī)動(dòng)車對(duì)交通安全的影響因素[12]。因此基于前人研究基礎(chǔ)，具體選取樣本特征如表2，共11類：

表2 機(jī)動(dòng)車安全風(fēng)險(xiǎn)評(píng)價(jià)特征

由于事故樣本和無事故樣本數(shù)量嚴(yán)重失衡，因此采用重設(shè)閾值的方式進(jìn)行樣本均衡。在樣本標(biāo)記中，0為未發(fā)生交通事故，1為輕微事故，2為一般事故，4為重大事故，8為特大事故，由于重大事故和特大事故樣本量小，不具有一般性，因此不再對(duì)他們?cè)诶鄯e回歸模型中單獨(dú)劃分正例。分別以y>0，y=1和y≥2為正例構(gòu)建累積邏輯回歸模型，對(duì)訓(xùn)練集進(jìn)行訓(xùn)練。使用10折交叉驗(yàn)證對(duì)每次訓(xùn)練的結(jié)果進(jìn)行平均得出風(fēng)險(xiǎn)機(jī)動(dòng)車。

4 算法實(shí)驗(yàn)

統(tǒng)計(jì)境內(nèi)某公路一年內(nèi)的路段事故信息，歸一化后得到如表3所示的累積事故信息，使用雙指數(shù)函數(shù)(y=abx+cdx+e)擬合累積頻率曲線，得到如圖3所示的公路事故累積頻率曲線圖，擬合度R2=0.999 36，擬合曲線方程為：

y=-262.081×1.000 3x+0.937×(3.35e-6)x+262.142

表3 境內(nèi)某公路事故路段累計(jì)頻率表

將歸一化事故次數(shù)0.23乘以路段最大事故數(shù)換算成路段事故次數(shù)即0.23×11=2.53，得到該道路事故多發(fā)路段的事故閾值Minpts=3。根據(jù)事故路段累計(jì)頻率表，可以得出事故次數(shù)大于等于3的路段為事故多發(fā)路段，共124個(gè)路段，占比8.01%，事故多發(fā)路段發(fā)生的事故總數(shù)為561起，占比51.71%。將相鄰的事故多發(fā)路段連接，得到拼接后的事故多發(fā)路段共91簇，最終結(jié)果如圖4所示。

圖3 路段累計(jì)頻率曲線擬合效果

圖4 累計(jì)頻率法鑒別出的事故多發(fā)路段

表4 DBSCAN變參過程

如表4所示，當(dāng)參數(shù)組合調(diào)整為(ε=350，Minpts=4)時(shí)：DBSCAN的路段占比為6.1%，小于累計(jì)頻率曲線識(shí)別結(jié)果的路段占比8.01%；事故占比為52.70%，大于累計(jì)頻率曲線識(shí)別結(jié)果的事故占比51.71%；同時(shí)路段簇?cái)?shù)為75，小于累計(jì)頻率曲線識(shí)別結(jié)果的91簇?？梢妳?shù)組合(ε=350，Minpts=4)的DBSCAN聚類結(jié)果滿足“高效，集中，足量”的三個(gè)目標(biāo)，因此采用這一參數(shù)組合作為最終參數(shù)進(jìn)行聚類，得到最終的結(jié)果如圖5所示。

圖5 DBSCAN鑒別出的事故多發(fā)路段

圖6 加權(quán)DBSCAN鑒別出的事故多發(fā)路段

基于DBSCAN的事故多發(fā)路段鑒別法在事故數(shù)量的鑒別上更為高效，鑒別出的事故多發(fā)路段的每公里事故量為12.11，大于用累計(jì)頻率曲線法得到的9.05，用了更短的事故多發(fā)路段反映了更多的事故量；另外DBSCAN聚成的多發(fā)路段簇?cái)?shù)為75，小于累計(jì)頻率法的91簇，反映出的事故多發(fā)路段更為集中；基于事故加權(quán)的DBSCAN算法把事故的嚴(yán)重程度也考慮在內(nèi)，能夠更加客觀的對(duì)事故多發(fā)路段的危害進(jìn)行評(píng)價(jià)。

圖7 不同聚類簇?cái)?shù)的平均畸變程度

對(duì)境內(nèi)某區(qū)域各條公路分別進(jìn)行事故多發(fā)路段識(shí)別，共得到事故多發(fā)路段1 651個(gè)，從中選取5 km范圍內(nèi)有卡口的552個(gè)路段作為樣本進(jìn)行分析，分別取聚類簇?cái)?shù)為1～9的聚類效果如圖7所示，由肘部法則得到聚類簇?cái)?shù)k=2時(shí)，推薦的結(jié)果最好，觀察兩類事故多發(fā)路段中相差最大的特征分別是道路物理隔離、路面結(jié)構(gòu)和地形。其中類別簇?cái)?shù)標(biāo)記為0的事故地點(diǎn)道路物理隔離為中心隔離、路面結(jié)構(gòu)為瀝青、地形為平原，標(biāo)記為1簇?cái)?shù)的事故地點(diǎn)物理隔離為無隔離、路面結(jié)構(gòu)為水泥、地形為山區(qū)，其余特征在兩個(gè)簇中較為一致，具體兩類簇中的屬性信息如表5所示，其中連續(xù)變量取均值，類別變量取眾值。

表5 兩類路段特征分布

因?yàn)榈匦螢槠皆牡貐^(qū)更具有普遍性，本文只針對(duì)兩類路段中的第一類進(jìn)行分析。得到第一類路段中發(fā)生事故，輕微事故和傷亡事故的累積Logistic概率模型分別為：

其中的logit(P1)為不發(fā)生事故對(duì)發(fā)生事故的優(yōu)勢(shì)比，logit(P2)為發(fā)生輕微事故對(duì)發(fā)生一般及以上事故的優(yōu)勢(shì)比，logit(R2)為發(fā)生輕微或一般事故對(duì)發(fā)生重大事故的優(yōu)勢(shì)比。在10折交叉驗(yàn)證中，依次以上述累積回歸模型對(duì)測(cè)試集進(jìn)行檢驗(yàn)，以0-1錯(cuò)誤率作為指標(biāo)衡量模型的精確度：

其中n為測(cè)試樣本量，y′為對(duì)樣本類別的估計(jì)值，y為樣本類別的真實(shí)值，由于y的輸出為0或1。進(jìn)行10次測(cè)試，對(duì)比普通累積邏輯回歸算法和重設(shè)閾值的累積邏輯回歸算法的預(yù)測(cè)結(jié)果的平均值如表6所示。

可見重設(shè)閾值的累計(jì)邏輯回歸模型對(duì)各個(gè)分類的識(shí)別精確率都在70%以上，對(duì)于樣本車輛是否發(fā)生事故的預(yù)測(cè)精確度在95%以上，比普通的累積邏輯回歸算法準(zhǔn)確率平均提升4.9個(gè)百分點(diǎn)，可以用來有效識(shí)別事故多發(fā)路段處車輛的事故發(fā)生情況，做出及時(shí)預(yù)警。

表6 邏輯回歸預(yù)測(cè)結(jié)果

5 結(jié)論

(1)與傳統(tǒng)累計(jì)頻率曲線法相比，使用DBSCAN聚類法鑒別事故多發(fā)路段能更集中有效地反映多發(fā)路段，表現(xiàn)為事故多發(fā)路段長(zhǎng)度占比更少，事故數(shù)量占比更高。

(2)使用正則化目標(biāo)函數(shù)下的參數(shù)自適應(yīng)能實(shí)現(xiàn)最優(yōu)參數(shù)的自調(diào)整，有效解決了密度聚類中參數(shù)難以定值的問題，可使聚類結(jié)果簇?cái)?shù)更少，事故多發(fā)反映更集中。

(3)對(duì)事故嚴(yán)重程度進(jìn)行加權(quán)而識(shí)別出的事故多發(fā)路段能淡化事故數(shù)量多但嚴(yán)重程度不高的路段，強(qiáng)化事故嚴(yán)重程度高的路段，聚類效果更優(yōu)。

(4)采用累積邏輯回歸對(duì)事故多發(fā)路段的通行車輛進(jìn)行預(yù)警能有對(duì)車輛是否發(fā)生事故進(jìn)行有效預(yù)測(cè)，模型精度達(dá)到了95.6%。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡