沈小燕 魏珊珊 馮煜清
(長安大學汽車學院 西安 710064)
大部分危險貨物需通過道路運輸。據(jù)統(tǒng)計,2018年,我國危險貨物運輸量約為18.6億t,其中80%以上通過公路運輸[1]。危險貨物具有毒害、腐蝕、爆炸、燃燒等復雜的理化特性,事故發(fā)生后通常會衍生出更為嚴重的二次傷害,破壞生態(tài)環(huán)境、增加人員傷亡以及財產(chǎn)損失。開展危險貨物道路運輸事故嚴重程度影響因素的探究可以更好地了解危險貨物道路運輸事故相關(guān)的風險因素,為制定專業(yè)、有針對性且有效的緩解和預防措施提供理論依據(jù)。
關(guān)于危險貨物道路運輸?shù)难芯恳呀?jīng)開展了大量工作,但主要集中于運輸經(jīng)濟性上[2-5],在危險貨物道路運輸事故上關(guān)注較少,而且,大部分文章側(cè)重于描述事故的特征,很少討論危險貨物道路運輸事故分析的方法以及影響事故嚴重程度的因素。A.Iranitalab等[6]指出研究道路交通事故嚴重性建模和預測技術(shù)主要分統(tǒng)計模型和數(shù)據(jù)挖掘技術(shù)2類。C.Samuel等[7]運用統(tǒng)計方法分析危險貨物運輸事故,確定了危險貨物類型、道路類型、車輛類型、地區(qū)等對事故嚴重程度的影響。Yang等[8]采用F-N曲線描述了危險貨物道路運輸事故中傷亡情況與發(fā)生概率之間的關(guān)系,確定事故中受影響的人數(shù)。Zhang等[9]統(tǒng)計了1 632起危險貨物事故的發(fā)生時間,地點分布,事故類型和事故后果對事故原因進行分析。但統(tǒng)計模型需要依賴自變量和因變量之間預先定義的數(shù)學公式,一旦違反了預設(shè)的公式,就可能導致對相關(guān)影響因素的誤判,尤其是在環(huán)境更為復雜的危險貨物道路運輸事故的研究中[10]。此外,如果一些影響事故嚴重性的變量沒有被收集到,且沒有被解決,也可能導致不恰當?shù)耐普?,從而難以用統(tǒng)計方法來剖析危險貨物道路運輸事故嚴重程度與各自變量之間的關(guān)系[11]。相比較而言,機器學習算法不需要用數(shù)學函數(shù)定義任何自變量和因變量之間的關(guān)系,并在處理偏僻、嘈雜和缺失的數(shù)據(jù)時更加完善,在中國危險貨物道路運輸事故信息處理中可能具有更好的適用性[12]。A.T.Kashani等[13]基于數(shù)據(jù)挖掘方法對摩托車后座乘客碰撞嚴重性影響因素進行了分析,發(fā)現(xiàn)地區(qū)類型、土地使用和受傷身體部位是影響摩托車乘客死亡的顯著因素。S.Mafi等[14]利用在市區(qū)信號燈路口收集的碰撞數(shù)據(jù),采用成本敏感的數(shù)據(jù)挖掘模型確定了駕駛員、車輛、道路、環(huán)境和碰撞類型顯著影響駕駛員傷害的嚴重程度。
總的來說,關(guān)于研究危險貨物道路運輸事故嚴重程度的論文有限,而且過去的研究主要集中在對少量樣本使用統(tǒng)計方法描述事故的特征,很少探討危險貨物道路運輸事故的分析方法以及對某一嚴重程度進行單獨分析。鑒于此,本文將對比決策樹C5.0、支持向量機和多層感知器3種機器學習算法的分析性能,進而選擇性能最佳的方法用于探索導致不同嚴重程度的危險貨物道路運輸事故發(fā)生的主要因素。本文的目標如下。
1)探索研究危險貨物道路運輸事故的最佳數(shù)據(jù)分析法。
2)確定影響不同嚴重程度的危險貨物道路運輸事故發(fā)生的主要因素。
3)對我國危險貨物道路運輸中需要改進的方面進行總結(jié),就改善危險貨物道路運輸安全性提出具體建議。
該算法根據(jù)能夠帶來最大信息增益的字段拆分數(shù)據(jù),這一過程重復進行直到數(shù)據(jù)無法分割,并在最后剔除對事故嚴重程度分類沒有顯著影響的子集。同時,決策樹C5.0算法引入了Boosting思想提高模型性能。在建模階段,Boosting技術(shù)通過對現(xiàn)有加權(quán)樣本的反復抽樣模擬增加危險貨物道路運輸事故的樣本量,整個過程進行K次迭代,建立了K個模型。第一次迭代每個樣本被選入訓練樣本集的權(quán)重相同,模型建立完畢后,重新調(diào)整各個樣本的權(quán)重,使他們進行第二次迭代,權(quán)重調(diào)整的原則是:上次未能正確預測的樣本權(quán)重增大,上一次預測正確的樣本權(quán)重減小,接下來以此類推,樣本權(quán)重越大,其被選入訓練樣本的可能性越大。在投票階段,Boosting對經(jīng)過K次迭代而產(chǎn)生的K個模型,采用加權(quán)投票方式,不同模型按其誤差大小確定權(quán)重,誤差大的權(quán)重小,誤差小的權(quán)重大,這樣經(jīng)過加權(quán)的結(jié)果更為穩(wěn)健[15]。
決策樹C5.0的算法過程如下。T為訓練樣本,屬性X有n個值,將訓練樣本T劃分成n個子集T1,T2,…,Tn,樣本總數(shù)為 |T|。freq(ci,T)表示屬于類的樣本數(shù)量表示ci在樣本中的概率。
訓練集T熵的計算為
計算出各子集的熵,依據(jù)式(2)計算出T的期望信息
根據(jù)具有最大信息增益的屬性來劃分每個子集,特征X的信息增益的計算過程為
為自動避免因事故數(shù)據(jù)分類水平太多以及信息熵減小過快的特征影響模型性能,引入分支度(IV)概念,來對信息增益的計算方法進行修正。IV計算公式見式(4)。
信息增益率作為選取切分字段的參考指標的計算見式(5)。
支持向量機的分類思想是尋找1個超平面將樣本空間分成2個部分,分別對應二分類問題中的2類,同時極大化2類樣本的間隔,待預測樣本的類別由其所處樣本空間的位置來決定。支持向量機算法最初是在線性可分的情況下提出的,對于線性可分的訓練樣本集式中:l為樣本空間的維數(shù);xi為輸入樣本;yi為樣本類別;H為超平面,其表達式為ωx+b=0,H1,H2為與超平面平行且過2類樣本中與超平面最近的直線,H1,H2之間的距離稱為分類間隔,大小為,支持向量機是在2類樣本中找到使得分類間隔最大的超平面,即‖ω‖最小[16]。求解樣本集最優(yōu)問題
由最優(yōu)解ω*和b*確定的分類面,其決策函數(shù)為
在線性不可分時,引入松弛變量ξi≥0,同時引入懲罰因子C,則最優(yōu)問題轉(zhuǎn)換為
對于線性不可分數(shù)據(jù)集將其映射到一個高維特征空間,在高維空間中進行線性分類,為避免高維空間中的復雜計算,支持向量機采用核函數(shù)K代替內(nèi)積計算,最終的決策函數(shù)為
本文中選用的核函數(shù)為徑向基和函數(shù)(RBF)
具有反向傳播監(jiān)督學習算法的前饋多層感知器由簡單的相互連接的神經(jīng)元或節(jié)點組成,一般包括1個輸入層,1個或多個隱藏層和1個輸出層,見圖1。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The basic structure of a neural network
輸入層接受特征向量的輸入。隱藏層用來對輸入特征多層次的抽象,實現(xiàn)對不同類型的數(shù)據(jù)進行更好的線性劃分。輸出層對輸入層信息進行判別。在事故嚴重程度分類中,輸入層為各事故樣本的特征數(shù)據(jù),輸出層為各事故所對應的嚴重程度。
多層感知器網(wǎng)絡(luò)中每1個節(jié)點與前1層或后1層互聯(lián),其結(jié)點值通過相互間的聯(lián)結(jié)權(quán)重確定,這些權(quán)值和輸出信號是1個簡單的非線性傳遞或激活函數(shù)修改的節(jié)點輸入和的函數(shù),通常在多分類時選用softmax作為激活函數(shù)[17]。反向傳播監(jiān)督學習算法在傳播過程中會將誤差信號返回,通過修正各層神經(jīng)元的權(quán)值,使得網(wǎng)絡(luò)的總誤差收斂到極小,直到代價函數(shù)下降到可接受的容限值。
本文選取了由應急管理部危險化學品登記中心統(tǒng)計的發(fā)生在2015—2019年間的1 411條危險貨物道路運輸事故數(shù)據(jù)。值得注意的是,由于原始數(shù)據(jù)存在一些缺陷,因此在數(shù)據(jù)應用于數(shù)學模型之前,通常需要進行預處理。
本研究中的預處理過程包括數(shù)據(jù)清洗和數(shù)據(jù)平衡2個部分。數(shù)據(jù)清洗主要是從數(shù)據(jù)集中剔除與研究無關(guān)的噪聲數(shù)據(jù)和那些彼此密切相關(guān)的特征[17],經(jīng)過數(shù)據(jù)清洗,最終“縮減”后的1 267個樣本中,事故類型(直接事故形態(tài)、間接事故形態(tài)),駕駛員屬性,車輛屬性,道路屬性,環(huán)境屬性,?;奉悇e作為模型的特征屬性,根據(jù)傷亡人數(shù)劃分的事故嚴重程度作為分類目標。綜合各國和地區(qū)對事故嚴重程度的分類標準,本文將事故的嚴重程度劃分為,僅財產(chǎn)損失事故S1、受傷事故S2和死亡事故S3,這3個等級,分別占總事故總量的39.11%,54.37% 和6.52%。在對數(shù)據(jù)進行編碼后用于事故嚴重程度影響因素的探索,具體編碼情況見表1。由上述統(tǒng)計結(jié)果可知,3種不同嚴重程度的事故量分布很不均勻,這會對分析結(jié)果造成一定偏差。在本研究中,采用欠采樣和部分過采樣相結(jié)合的方法來平衡這種偏差,每次選取全部的83例死亡事故,同時對傷亡事故和僅財產(chǎn)損失事故分別抽取同等數(shù)量的樣本。將他們合并成1個新的數(shù)據(jù)集后進行建模分析,并進行5倍交叉驗證[18]。
表1 變量定義Tab.1 Variables definition
為了確保公平比較,所有模型都基于相同的訓練集進行訓練,并在相同的驗證集上進行測試。
混淆矩陣及其相關(guān)指標用于評估本研究中分類器的表現(xiàn)。表2為2分類時的混淆矩陣。
表2 混淆矩陣Tab.2 Confusion matrix
通常,分類器評價指標主要包括準確率(ACC)、精確度(Precision)、召回率(Recall)、F-Measure和ROC曲線下面積(AUC)[20],各評估指標的具體含義及評估標準見表3。
表4為事故數(shù)據(jù)在不同模型上的分類結(jié)果以及各評估指標的計算結(jié)果。由此可知,決策樹C5.0的分類性能整體上優(yōu)于其他模型。因此,本文決定使用決策樹C5.0算法對3種不同嚴重程度的事故數(shù)據(jù)構(gòu)建分析模型進行關(guān)鍵影響因素的探索。
表5為不同嚴重程度事故在訓練集和測試集上的分類性能。由此可知,決策樹C5.0分類器在對受傷事故的分類表現(xiàn)上優(yōu)于僅財產(chǎn)損失和死亡事故,這可能是因為受傷事故規(guī)模較大(受傷事故占比54.37%),這也證明了較大的數(shù)據(jù)量可能獲得更好的分類效果。
表3 評估指標及其評估標準Tab.3 Judgment index and criterion
表4 模型評估指標Tab.4 Models assessment results
表5 決策樹C5.0建模結(jié)果Tab.5 Analysis results of the C5.0 model for three different severities of data
本文依據(jù)決策樹的決策規(guī)則來確定不同嚴重程度事故的主要影響因素,決策樹見圖2(a)~(c)。
由圖2(a)可知,僅財產(chǎn)損失事故的決策樹模型共有3層,7個節(jié)點包括4個終端節(jié)點。根據(jù)其決策規(guī)則可知,對于僅財產(chǎn)損失事故的發(fā)生,起到顯著性影響的因素從大到小依次為直接事故形態(tài)、間接事故形態(tài)和路段類型。僅財產(chǎn)損失事故發(fā)生時的主要直接事故形態(tài)為刮擦、泄漏、火災和其他(節(jié)點1,S1=84.9%),此時,其余的直接事故形態(tài)多對應于傷亡事故(節(jié)點2,非S1=73.6%)。間接事故形態(tài)為泄漏時,發(fā)生僅財產(chǎn)損失事故的概率約為其他間接事故形態(tài)的1.4倍(節(jié)點3,S1=92.7%;節(jié)點4,S1=66.3%)。在站區(qū)內(nèi)的發(fā)生僅財產(chǎn)損失事故的概率約是其他路段的2.6倍(節(jié)點5,S1=65.0%;節(jié)點6,S1=24.7%),主要是由于站區(qū)內(nèi)車輛行駛速度較低,救援設(shè)備更為齊全,事故發(fā)生后可以及時獲得救援,從而降低了人員傷亡的可能性,由此可知,可通過控制運輸車輛的行車速度和提高救援速度來降低事故的嚴重程度。
由圖2(b)可知,受傷事故的決策樹模型共4層,11個節(jié)點包括6個終端節(jié)點。根據(jù)其決策規(guī)則可知,受傷事故的發(fā)生主要受直接事故形態(tài)、間接事故形態(tài)、路段類型、道路類型和事故發(fā)生時間的影響。直接事故形態(tài)為側(cè)翻、撞固定物、兩車追尾、兩車相撞、沖出路面和墜車時發(fā)生受傷事故的概率約是其他直接事故形態(tài)的5倍(節(jié)點1,S2=62.5%;節(jié)點2,S2=12.7%)。間接事故形態(tài)為泄露和側(cè)翻時發(fā)生受傷事故的概率約是其他間接事故形態(tài)的2倍(節(jié)點3,S2=64.9%;節(jié)點4,S2=32.9%)。路段類型為普通路段、橋梁、隧道和出入口時發(fā)生受傷事故的概率約是其他路段類型的2.3倍(節(jié)點7,S2=28.6%;節(jié)點8,S2=66.5%),上述路段類型受傷事故發(fā)生概率高的原因主要包括:普通路段是我國道路段的主要類型,大多數(shù)事故發(fā)生在普通路段上。橋梁處道路空間有限,事故發(fā)生后的救援工作較為困難。隧道內(nèi)外環(huán)境存在巨大差異,易導致某些視覺功能障礙,另外,在黑暗和封閉條件下,駕駛員速度感將減弱,容易超速行駛,增加了嚴重事故發(fā)生的可能性。可通過以下措施降低隧道處事故發(fā)生的概率及嚴重性,比如在危險貨物運輸車輛上貼反光標志(腐蝕性,有毒或爆炸性),提高車輛的可見度,達到對周圍駕駛員的警示作用,比如在隧道附近增加減光設(shè)施(洞穴外部的植物,隧道棚,喇叭形開口等)減少駕駛員在進出隧道前后所需的明暗適應時間。在省道和國道上發(fā)生受傷事故的概率約是城市道路類型的3倍(節(jié)點5,S2=7.5%;節(jié)點6,S2=22.5%),這可能是由于城市道路上對危險貨物的運輸有較為嚴格的監(jiān)督和檢查,而國道和省道會穿過農(nóng)村地區(qū),在這些地區(qū),監(jiān)督力度較低,駕駛員易松懈和超速行駛,從而增加了受傷的可能性。發(fā)生在07:00—12:00的事故,造成人員受傷的概率約是其他時間段的3.1倍(節(jié)點9,S2=36.5%;節(jié)點10,S2=11.8%),這主要是因為我國道路運輸?shù)母叻鍟r段大約在08:00—00:00,在這段時間內(nèi)大量車輛進入道路,容易發(fā)生追尾或多車相撞的情況造成人員受傷,此外我國部分道路上有危險貨物運輸車輛夜間禁止通行的規(guī)定,進一步降低了夜間事故發(fā)生的嚴重性。鑒于上述發(fā)現(xiàn),我國可推廣危險貨物夜間禁止通行的政策,并可在早晨加強對危險品運輸車輛的監(jiān)督檢查[21]。
圖2 分類模型樹形結(jié)構(gòu)Fig.2 Classification model tree structure
由圖2(c)可知,死亡事故的決策樹模型共5層,11個節(jié)點包括6個終端節(jié)點。根據(jù)其決策規(guī)則可知,死亡事故的發(fā)生主要受直接事故形態(tài),危險品類別,間接事故形態(tài),路表情況和道路線形的影響。直接事故形態(tài)為多車相撞、多車追尾和爆炸時發(fā)生死亡事故概率約是其他直接事故形態(tài)的6.2倍(節(jié)點1,S3=6.3%;節(jié)點2,S3=38.9%)。危化品類別為氧化性物質(zhì)、氣體和易燃固體時發(fā)生死亡事故概率為其他危化品類別的3.8倍(節(jié)點3,S3=11.4%;節(jié)點4,S3=3.5%),這可能是因為上述物質(zhì)較為活躍易與其他物質(zhì)發(fā)生反應,導致不易控制的火災和爆炸事故,從而增加了人員傷亡的可能性。解決此類問題的方法包括:運輸主管部門加強對危險貨物道路運輸安全的監(jiān)督,嚴格控制道路運輸企業(yè)、駕駛員、押運員和裝卸員的準入資格,不斷提高駕駛員的安全意識,駕駛技能和應對意外事故的能力。車輛設(shè)計部門繼續(xù)進行技術(shù)創(chuàng)新,實現(xiàn)車輛和設(shè)備故障的預測,自檢和報警,應用遠程通信網(wǎng)絡(luò)技術(shù)實現(xiàn)車輛,控制中心和救援中心之間的緊密聯(lián)系,提高緊急救援響應的速度,有效加強安全管理,減少事故的發(fā)生。間接事故形態(tài)為側(cè)翻、火災和爆炸時發(fā)生死亡事故的概率約是其他間接事故形態(tài)的6.1倍(節(jié)點5,S3=8.2%;節(jié)點6,S3=50.0%)。道路線形為長下坡和急彎時發(fā)生死亡事故的概率約是普通坡道的6.5倍(節(jié)點7,S3=17.0%;節(jié)點8,S3=2.6%),這主要是因為在長下坡處,需要連續(xù)制動控制車速,加上危險貨物運輸車輛較重,減速時需要更大的制動力,易導致制動系統(tǒng)過熱,引起制動器故障或輪胎著火、爆裂。彎道處由于較大的離心力以及轉(zhuǎn)彎時液體對罐壁的沖擊,罐車將傾向于傾翻,從而導致車輛傾翻,造成人員傷亡。
1)相較于支持向量機和多層感知器模型,決策樹C5.0在處理我國現(xiàn)有的危險貨物道路事故信息時具有更好的適用性。
2)影響僅財產(chǎn)損失事故發(fā)生的主要直接事故形態(tài)為刮擦、泄漏、火災和其他且是其余直接事故形態(tài)的3.2倍,間接事故形態(tài)為泄漏且是側(cè)翻、火災和爆炸的1.4倍,路段類型為站區(qū)且是其余路段的2.6倍。
3)影響受傷事故的發(fā)生的主要直接事故形態(tài)為側(cè)翻、撞固定物、2車追尾、2車相撞、沖出路面和墜車且是其余直接事故形態(tài)的5倍,間接事故形態(tài)為泄漏和側(cè)翻且是其余間接事故形態(tài)的2倍,路段類型為普通路段、橋梁、隧道和出入口且是其余路段的2.3倍,道路類型為省道和國道且是城市道路的 3倍,時間為 07:00—12:00且是其他時間的3.1倍。
4)影響死亡事故發(fā)生的主要直接事故形態(tài)為多車相撞、多車追尾和爆炸且是其余直接事故形態(tài)的6.2倍,?;奉悇e為氧化性物質(zhì)、氣體和易燃固體且是其余類別的3.8倍,間接事故形態(tài)為火災和爆炸且是泄漏和側(cè)翻的6.1倍,道路線形為長下坡和急彎且是普通坡道的6.5倍。
在未來研究中,會不斷增加事故樣本量和事故特征,提高所獲得信息的專業(yè)性和準確性,同時不斷探索更適用于研究危險貨物道路運輸事故數(shù)據(jù)的模型。