王延安,劉慶芳,成 衛(wèi)
(1.玉溪市公安局交通警察支隊(duì),云南玉溪 653100;2.昆明理工大學(xué)交通工程學(xué)院,云南昆明 650000)
2019 年,我國(guó)出臺(tái)大力發(fā)展智慧交通相關(guān)政策,強(qiáng)調(diào)在交通行業(yè)中要廣泛且深度地應(yīng)用大數(shù)據(jù)、人工智能等前沿技術(shù),在2035 年基本建成交通強(qiáng)國(guó)[1]。在2020 年進(jìn)一步明確了要建設(shè)交通強(qiáng)國(guó),加快新型基礎(chǔ)設(shè)施建設(shè)的步伐[2]。然而,近幾年來(lái)我國(guó)交通安全事故頻發(fā),嚴(yán)重阻礙了我國(guó)交通行業(yè)的健康發(fā)展。2019 年國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示[3],共發(fā)生247 646 起交通事故,造成134 618 萬(wàn)元的直接財(cái)產(chǎn)損失,其中包含215 009 起機(jī)動(dòng)車事故。如今人們的衣食住行都和交通行業(yè)緊密地聯(lián)系在一起,一旦發(fā)生交通事故,輕則僅在錢財(cái)上有所損失,嚴(yán)重情況下生命和財(cái)產(chǎn)都保不住。因此,對(duì)交通事故嚴(yán)重程度進(jìn)行分析和預(yù)測(cè),準(zhǔn)確找出交通事故嚴(yán)重程度的關(guān)鍵影響因素值得探究。
國(guó)內(nèi)外對(duì)于交通事故嚴(yán)重程度問(wèn)題的研究已開(kāi)展多年。Dapilah 等[4]基于美國(guó)加納摩托車交通事故記錄,指出道路交通事故的嚴(yán)重程度與摩托車駕駛者的交通行為有著緊密關(guān)系;Shinohara 等[5]基于卡方檢驗(yàn)驗(yàn)證了安全帶使用情況和汽車車型這兩個(gè)因素對(duì)交通事故人員傷亡程度的影響;Yau 等[6]將交通事故嚴(yán)重程度分為輕微事故和嚴(yán)重/致命事故兩種,基于1999-2000 年的香港多車碰撞事故數(shù)據(jù)集,利用逐步Logistic 回歸模型得出事故發(fā)生時(shí)間、駕駛員性別、車輛類型、道路類型等為重要的交通事故嚴(yán)重程度影響因素;Olutayo 等[7]基于美國(guó)尼日利亞交通最為繁忙街道的歷史交通事故集,分別采用決策樹(shù)和神經(jīng)網(wǎng)絡(luò)算法對(duì)交通事故嚴(yán)重程度進(jìn)行預(yù)測(cè),實(shí)驗(yàn)結(jié)果顯示在此案例中決策樹(shù)性能要優(yōu)于神經(jīng)網(wǎng)絡(luò),并對(duì)事故的主要原因進(jìn)行總結(jié),分別為:車輛爆胎、車輛失控及超速;Hassan 等[8]基于利雅得2004-2011 年的交通事故傷亡記錄數(shù)據(jù),發(fā)現(xiàn)交通事故嚴(yán)重程度最重要的影響因素是道路因素;馬壯林等[9]基于高速典型事故歷史統(tǒng)計(jì)資料,使用累積Logistic模型分析得出季節(jié)、事故時(shí)間段等是重要的事故嚴(yán)重程度影響因素;馬柱等[10]在二項(xiàng)Logistic 模型的基礎(chǔ)上,對(duì)城市道路交通事故嚴(yán)重程度進(jìn)行相關(guān)預(yù)測(cè)分析;楊京帥等[11]將智能群體建模、魚(yú)骨圖法和試驗(yàn)測(cè)試法進(jìn)行結(jié)合,基于此結(jié)合方法對(duì)碰撞事故的主要原因和重要影響因素進(jìn)行分析;陳艷艷等[12]在二元logistic 回歸模型的基礎(chǔ)上對(duì)特大城市的道路交通事故影響因素進(jìn)行研究分析,指出能見(jiàn)度、照明條件以及交通信號(hào)方式的影響作用最大;戢曉峰等[13]基于2014-2016 年深圳市的歷史交通數(shù)據(jù)記錄,利用廣義有序Logit 回歸模型對(duì)夜間超大城市的交通事故嚴(yán)重程度影響因素進(jìn)行分析;曹弋等[14]在現(xiàn)有的交通事故嚴(yán)重等級(jí)劃分基礎(chǔ)上,加入第三方經(jīng)濟(jì)損害,構(gòu)建對(duì)應(yīng)的評(píng)價(jià)體系并對(duì)交通事故嚴(yán)重程度進(jìn)行判別,以大連市的實(shí)際案例進(jìn)行分析說(shuō)明;林慶豐等[15]在所收集的2017 年廣東省機(jī)—非交通事故集上,利用Logistic 模型進(jìn)行嚴(yán)重程度預(yù)測(cè)分析;董傲然等[16]在部分優(yōu)勢(shì)比分析模型的基礎(chǔ)上,使用彈性分析法得出行人及機(jī)動(dòng)車駕駛員的性別、道路類型等對(duì)行人傷害的嚴(yán)重程度有著非常重要的影響;王立曉等[17]在傳統(tǒng)的二項(xiàng)Logit 模型上,增加了偏斜系數(shù),從而構(gòu)建出Scobit 模型,并將其用于交通事故的受傷嚴(yán)重程度預(yù)判。
綜上所述,目前對(duì)于交通事故嚴(yán)重程度的影響因素分析角度比較單一,很多研究?jī)H從車輛、駕駛員、道路及環(huán)境中的單一方面進(jìn)行研究,對(duì)影響因素的考慮不夠全面。同時(shí),后續(xù)建模過(guò)程中輸入特征和預(yù)測(cè)方法的選擇需進(jìn)一步加強(qiáng)研究,從而提升模型預(yù)測(cè)準(zhǔn)確性。鑒于此,本文從車輛、駕駛員、道路及環(huán)境4 個(gè)方面考慮交通事故嚴(yán)重程度的影響因素,并利用隨機(jī)森林模型選擇出重要影響因素,然后基于重要影響因素采用XGBoost算法對(duì)交通事故嚴(yán)重程度進(jìn)行預(yù)測(cè)。
本文選取我國(guó)某省2014-2019 年的城市道路交通事故數(shù)據(jù)進(jìn)行研究,基于數(shù)據(jù)記錄完整、準(zhǔn)確的原則,利用python 中的pandas 對(duì)數(shù)據(jù)集進(jìn)行缺失數(shù)據(jù)檢測(cè)及刪除處理后,最終得到22 896 條交通事故數(shù)據(jù)。該交通事故數(shù)據(jù)包含車輛、駕駛員、道路及環(huán)境4 個(gè)方面的影響因素,本文基于這些影響因素展開(kāi)研究。
在不同的國(guó)家對(duì)于道路交通事故嚴(yán)重程度分類標(biāo)準(zhǔn)都有所不同。在美國(guó),劃分成無(wú)人員受傷事故、輕微受傷事故、人員非致殘性事故、人員致殘性事故及死亡事故5種類型;在日本,劃分成輕傷、重傷及死亡3 種類型;在德國(guó),劃分成僅物體損失人員未受傷事故、人員受輕傷事故、人員受重傷事故及人員死亡事故4 種類型;在我國(guó),劃分成人員輕傷1~2 人的輕微事故、人員重傷1~2 人的一般事故、人員死亡1~2 人的重大事故以及人員死亡3 人以上的特大事故4 種類型。對(duì)本文的交通事故數(shù)據(jù)集進(jìn)行分析后可以得知,人員輕傷1~2 人的輕微事故和人員重傷1~2人的一般事故記錄較多,而人員死亡1~2 人的重大事故以及人員死亡3 人以上的特大事故只有很少的記錄,故將人員輕傷1~2 人的輕微事故和人員重傷1~2 人的一般事故合并為一般事故,人員死亡1~2 人的重大事故以及人員死亡3人以上的特大事故合并為嚴(yán)重事故。
2.1.1 不平衡數(shù)據(jù)處理
對(duì)合并后的數(shù)據(jù)集進(jìn)行分析可知,在22 896 條城市交通事故數(shù)據(jù)中,一般事故占97.34%,嚴(yán)重事故僅占2.66%,兩個(gè)類別的比例存在嚴(yán)重的不平衡現(xiàn)象。對(duì)于這樣的數(shù)據(jù),不能直接進(jìn)行建模,本文利用SMOTE 算法[18]將不平衡數(shù)據(jù)轉(zhuǎn)換為相對(duì)平衡的數(shù)據(jù),使一般事故和嚴(yán)重事故各占50%。
2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)化處理
對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,公式如下:
2.2.1 特征編碼
本文從車輛、駕駛員、道路及環(huán)境4 個(gè)方面構(gòu)造變量,具體的變量說(shuō)明如表1所示。
Table 1 Variable description表1 變量說(shuō)明
當(dāng)某個(gè)分類自變量的類型超過(guò)2 種時(shí),需要引入虛擬變量,將該自變量轉(zhuǎn)換為0 -1 變量。若為m個(gè)分類時(shí),需要引入m-1 個(gè)虛擬變量。以道路缺陷變量為例,變量為4分類,在其中引入3個(gè)虛擬變量,則如表2所示。
2.2.2 特征選擇
好的模型輸入特征可以有效提升模型預(yù)測(cè)性能,本文通過(guò)隨機(jī)森林算法選擇出重要的模型輸入特征。在2001年,Breiman[19]在Bagging 集成學(xué)習(xí)方法的基礎(chǔ)上構(gòu)建出隨機(jī)森林算法,該算法包含多棵決策樹(shù)模型。隨機(jī)森林因具有預(yù)測(cè)準(zhǔn)確度高和計(jì)算速率快等優(yōu)點(diǎn),已成為目前最熱門的算法之一。隨機(jī)森林有mean decrease impurity 和mean decrease accuracy 這兩種特征選擇依據(jù),將特征子集輸入隨機(jī)森林進(jìn)行選擇,最終根據(jù)重要性排序,選取事故車輛數(shù)x14、小時(shí)x15、周幾x16、月份x17、年齡x19、駕駛員視野是否有遮擋x22、駕駛員身體健康情況是否正常x23、汽車生產(chǎn)年份x24、照明條件x5、是否為道路交叉口x11、汽車檔位變換類型x26、是否超速x29作為輸入特征。
Table 2 Dummy variables for road defects表2 道路缺陷的虛擬變量
XGBoost[20]是Extreme Gradient Boosting 的縮寫,是在傳統(tǒng)的GBDT[21]模型上發(fā)展而得到。主要改進(jìn)如下:不但可以使用CART 決策樹(shù),而且能使用線性基礎(chǔ)模型;在損失函數(shù)中加入了一個(gè)正則項(xiàng),防止了模型的過(guò)擬合并控制了模型的復(fù)雜度;基于隨機(jī)森林的思想,對(duì)字段實(shí)行抽樣處理,既降低了模型計(jì)算量,又防止了過(guò)擬合。
基于XGBoost 算法的交通事故嚴(yán)重程度預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果為:
使用二階泰勒展開(kāi)Obj(k),可得:
將式(5)中的常量去除后,則損失函數(shù)為:
此時(shí),式(10)為新的目標(biāo)函數(shù),對(duì)其進(jìn)行模型尋優(yōu),可以看出其十分依賴Ph和Qh。因?yàn)镻h和Qh是由損失函數(shù)以及該結(jié)構(gòu)下樹(shù)的預(yù)測(cè)結(jié)果共同決定,且K通過(guò)樹(shù)結(jié)構(gòu)決定,因此對(duì)目標(biāo)函數(shù)Obj進(jìn)行最小化求解,即為對(duì)最佳樹(shù)結(jié)構(gòu)進(jìn)行求解。
XGBoost 是如今非常熱門的機(jī)器學(xué)習(xí)算法之一,在交通事故嚴(yán)重程度預(yù)測(cè)上還未有應(yīng)用。鑒于此,本文基于XGBoost算法構(gòu)建交通事故嚴(yán)重程度預(yù)測(cè)模型,并與KNN、Logistic、隨機(jī)森林算法進(jìn)行結(jié)果對(duì)比分析。
本文利用準(zhǔn)確率及AUC 值對(duì)預(yù)測(cè)模型的性能進(jìn)行評(píng)價(jià)。
(1)準(zhǔn)確率。準(zhǔn)確率是分類問(wèn)題中使用最多的性能評(píng)價(jià)指標(biāo),表示被正確分類的樣本數(shù)量在總樣本數(shù)量中的占比,計(jì)算如下:
(2)AUC(Area Under Curve)。AUC 用來(lái)表示ROC 曲線下的面積大小。在分類模型中,其AUC 值越大,則代表該模型的分類性能越優(yōu)。
在本次實(shí)驗(yàn)中,“正樣本”為嚴(yán)重故事,“負(fù)樣本”為一般故事。將實(shí)驗(yàn)交通事故數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練數(shù)據(jù)占總數(shù)據(jù)集的3/4,其余數(shù)據(jù)作為測(cè)試集。在XGBoost、KNN、Logistic 及隨機(jī)森林模型分別進(jìn)行訓(xùn)練和測(cè)試。
各模型對(duì)交通事故嚴(yán)重程度預(yù)測(cè)的準(zhǔn)確率如表3 所示,可以看出XGBoost 模型預(yù)測(cè)性能在4 種算法中表現(xiàn)最優(yōu)。
Table 3 Prediction accuracy of each model表3 各模型預(yù)測(cè)準(zhǔn)確率
各模型的ROC 曲線如圖1 所示,可以得知XGBoost 模型AUC 的值比隨機(jī)森林、KNN 及Logistic 模型的值都要高,即XGBoost 模型分類效果要比隨機(jī)森林、KNN 及Logistics模型表現(xiàn)更好。
Fig.1 ROC curves of each model圖1 各模型ROC曲線
本文在我國(guó)某省的城市道路交通事故集基礎(chǔ)上,通過(guò)分析得出駕駛員身體健康狀況、事故發(fā)生時(shí)間、照明條件以及是否超速等是交通事故嚴(yán)重程度的重要影響因素。因此,在今后的道路交通安全管理工作中,可以著重對(duì)以上因素進(jìn)行考慮,從而進(jìn)一步預(yù)防交通事故的發(fā)生并降低交通事故的嚴(yán)重程度。
本文只使用了隨機(jī)森林、XGBoost、KNN 及Logistic 4 種單一算法進(jìn)行預(yù)測(cè),后續(xù)可對(duì)單一預(yù)測(cè)模型進(jìn)行組合從而形成融合模型,以期進(jìn)一步提升預(yù)測(cè)準(zhǔn)確性。