吳 郁 張金奮 范存龍 胡衛(wèi)東
(武漢理工大學(xué)航運(yùn)學(xué)院1) 武漢 430063) (武漢理工大學(xué)內(nèi)河重點(diǎn)實(shí)驗(yàn)室2) 武漢 430063) (武漢理工大學(xué)智能交通系統(tǒng)研究中心3) 武漢 430063) (武漢理工大學(xué)國(guó)家水運(yùn)安全工程技術(shù)研究中心4) 武漢 430063)
交通事故數(shù)據(jù)是分析事故致因、梳理事故規(guī)律、揭示事故機(jī)理、預(yù)測(cè)事故演化的基礎(chǔ).針對(duì)交通事故數(shù)據(jù)的研究主要包括:①基于事故數(shù)據(jù)量的分析,常用的方法如模型驅(qū)動(dòng)[1-2]、數(shù)據(jù)驅(qū)動(dòng)[3-4];②基于事故致因或機(jī)理的研究,通過(guò)事故數(shù)據(jù)凝練事故規(guī)律[5]或通過(guò)構(gòu)建事故致因模型分析事故個(gè)案[6];③基于事故數(shù)據(jù)和事故模型的交互模式,事故數(shù)據(jù)、專家經(jīng)驗(yàn)、事故或安全生產(chǎn)理論等為事故模型的構(gòu)建提供支持,或事故致因機(jī)理的調(diào)整.且所構(gòu)建的事故模型用于分析或預(yù)測(cè)事故,該模式應(yīng)用貝葉斯理論或貝葉斯網(wǎng)絡(luò)較多[7-8].但是,水上交通事故數(shù)據(jù)通常存在數(shù)據(jù)缺失、信息不完備、記錄不準(zhǔn)確等問(wèn)題.
數(shù)據(jù)缺失或不完備問(wèn)題在實(shí)際數(shù)據(jù)分析中廣泛存在.Little等[9]根據(jù)數(shù)據(jù)缺失原因?qū)?shù)據(jù)缺失類型分成三類:完全隨機(jī)缺失(missing completely at random,MCAR)、隨機(jī)缺失(missing at random,MAR)和非完全隨機(jī)缺失(missing not at random,MNAR).按照數(shù)據(jù)缺失模式又可以分為單調(diào)缺失模式和任意缺失模式兩類.本文研究對(duì)象屬前者,任意缺失模式下缺失數(shù)據(jù)的插補(bǔ)可參見(jiàn).數(shù)據(jù)的缺失最終會(huì)影響研究結(jié)果的信效度,因此需要對(duì)缺失數(shù)據(jù)進(jìn)行恰當(dāng)處理.
針對(duì)缺失數(shù)據(jù),常用的處理方法可總結(jié)為四類[10]:①直接去除樣本中缺失數(shù)據(jù),如個(gè)案剔除法(listwise deletion)、成對(duì)刪除法(pairwise deletion)等;②對(duì)樣本中缺失數(shù)據(jù)進(jìn)行簡(jiǎn)單插補(bǔ),如正確項(xiàng)目平均分替代法(corrected item mean substitution imputation,CM)、平均數(shù)插補(bǔ)法(mean imputation)等;③對(duì)樣本中缺失數(shù)據(jù)進(jìn)行高級(jí)插補(bǔ),如回歸插補(bǔ)法(regression imputation)、多重插補(bǔ)法(MI)、EM算法、機(jī)器學(xué)習(xí)的方法等;④直接分析帶有缺失數(shù)據(jù)的樣本,較多采用機(jī)器學(xué)習(xí)的方法,如直接擴(kuò)充粗糙集,決策樹(shù)等.在事故數(shù)據(jù)維度高時(shí),若用模型驅(qū)動(dòng)(傳統(tǒng)的概率統(tǒng)計(jì)或回歸模型)則需要基于一定的統(tǒng)計(jì)假設(shè),而此類假設(shè)在實(shí)際中是難以完全嚴(yán)格保證的;若假定服從某一分布則結(jié)果的準(zhǔn)確性存疑.分類水平較多時(shí),由于穩(wěn)健性差和缺乏可操作性使得模型驅(qū)動(dòng)的應(yīng)用受限,比如,本文研究對(duì)象事故記錄中的時(shí)間被分成九個(gè)時(shí)段.另一方面,隨著機(jī)器學(xué)習(xí)等數(shù)據(jù)驅(qū)動(dòng)方法的發(fā)展與應(yīng)用,缺失數(shù)據(jù)插補(bǔ)方法逐漸發(fā)展與豐富,其中比較典型的機(jī)器學(xué)習(xí)方法如隨機(jī)森林方法[11].該方法處理缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,對(duì)異常值和噪聲具有很好的容忍度且不容易出現(xiàn)過(guò)擬合,對(duì)數(shù)據(jù)的分布無(wú)限制,能有效分析高維復(fù)雜數(shù)據(jù)[12].徐凱等[13]利用隨機(jī)森林回歸預(yù)測(cè)算法地震道缺失數(shù)據(jù)進(jìn)行插補(bǔ),且取得良好應(yīng)用效果,證明隨機(jī)森林方法的正確性與有效性.謝翹楚等[14]運(yùn)用隨機(jī)森林算法處理不完全規(guī)律缺失數(shù)據(jù)(連續(xù)型數(shù)據(jù)),以均方根誤差和填補(bǔ)準(zhǔn)確度為評(píng)判指標(biāo),實(shí)驗(yàn)結(jié)果證明該方法的準(zhǔn)確性和有效性.
以江蘇海事局2012—2016年船舶碰撞事故記錄為研究對(duì)象,根據(jù)事故記錄中“區(qū)域”“經(jīng)緯度”“事故處理程序”的屬性,采用隨機(jī)森林方法進(jìn)行缺失數(shù)據(jù)插補(bǔ).其中,針對(duì)“區(qū)域”和“經(jīng)緯度”的缺失,主要采用專家經(jīng)驗(yàn)并結(jié)合電子江圖等進(jìn)行插補(bǔ);針對(duì)“事故處理程序”缺失,采用隨機(jī)森林的分類方法.研究的目的與意義在于插補(bǔ)事故記錄中缺失數(shù)據(jù),為后續(xù)的事故分析和安全研究提供完整的數(shù)據(jù).
選取的數(shù)據(jù)主要包括長(zhǎng)江干線江蘇段945起船舶碰撞事故,每起事故包含23項(xiàng)記錄,如事故名稱,日期,轄區(qū),水道,區(qū)域等.其中轄區(qū)、區(qū)域和經(jīng)緯度均包含事故地理信息.因?yàn)檩爡^(qū)主要供管理部門參考,所以選取區(qū)域和經(jīng)緯度研究事故地理信息.事故名稱、浮標(biāo)、地點(diǎn)、事故簡(jiǎn)況、事故客觀原因、事故直接原因?yàn)樵敿?xì)的文本描述難以劃分類別而未考慮,但可為部分變量缺失插補(bǔ)提供參考,如事故簡(jiǎn)況可為區(qū)域記錄或經(jīng)緯度記錄缺失的插補(bǔ)提供參考,因此,選用16項(xiàng)記錄見(jiàn)表1,共945起事故為研究對(duì)象.
表1 事故記錄項(xiàng)類型或取值范圍
945起事故記錄完整度為82.65%,存在如下缺失:①只缺失“區(qū)域”記錄有20起,占江蘇段干線碰撞事故的2.116%;②只缺失“經(jīng)度”和“緯度”記錄有19起,占干線事故的2.011%;③只缺失“事故處理程序”記錄有2起,占干線事故的0.211 6%;④缺失“事故處理程序”和“經(jīng)濟(jì)損失”記錄有12起,占干線事故的1.27%;⑤只缺失“經(jīng)濟(jì)損失”記錄有150起,占干線事故的15.87%.缺失比率越高,參數(shù)估計(jì)準(zhǔn)確性越差且參數(shù)估計(jì)變異性越大.根據(jù)專家經(jīng)驗(yàn)并結(jié)合事發(fā)地點(diǎn)、事故簡(jiǎn)況在長(zhǎng)江航道局電子江圖、船訊網(wǎng)提供的專業(yè)江圖上確定“區(qū)域”“經(jīng)度”和“緯度”,由此解決缺失(1)、(2).區(qū)域和經(jīng)緯度缺失數(shù)據(jù)插補(bǔ)后的數(shù)據(jù)見(jiàn)表2.由于篇幅限制,本文主要針對(duì)缺失(3)、(4)進(jìn)行插補(bǔ),即采用隨機(jī)森林的分類方法對(duì)“事故處理程序”記錄缺失進(jìn)行插補(bǔ),缺失數(shù)據(jù)插補(bǔ)工作流程見(jiàn)圖1.
表2 區(qū)域和經(jīng)緯度記錄缺失插補(bǔ)后數(shù)據(jù)
圖1 缺失數(shù)據(jù)插補(bǔ)流程
隨機(jī)森林基本思想見(jiàn)圖2[15].隨機(jī)森林讓每棵樹(shù)盡可能生長(zhǎng),而且不進(jìn)行修剪.隨機(jī)森林也會(huì)給出分類中各個(gè)變量的重要性.文中采用R語(yǔ)言中的RandomForest包.
圖2 隨機(jī)森林的基本思想
步驟2模型評(píng)價(jià) 通過(guò)訓(xùn)練集獲取隨機(jī)森林模型,并通過(guò)運(yùn)用該模型對(duì)該訓(xùn)練集進(jìn)行分類.對(duì)于分類問(wèn)題,可通過(guò)混淆矩陣和基于OOB的誤分率來(lái)評(píng)價(jià)模型.
步驟3重要度分析 根據(jù)步驟2中隨機(jī)森林模型分析自變量對(duì)因變量的重要度.
結(jié)果的驗(yàn)證,可以將模型預(yù)測(cè)的結(jié)果與事故記錄、事故簡(jiǎn)況等實(shí)際情況進(jìn)行對(duì)比分析.
對(duì)于兩起事故只缺失“事故處理程序”記錄的插補(bǔ),訓(xùn)練集選取781起完整事故記錄.“事故處理程序”為因變量,其余15個(gè)記錄項(xiàng)作為自變量.
1) 通過(guò)遍歷設(shè)定mtry參數(shù)為1~15進(jìn)行15次建模,經(jīng)試算,當(dāng)mtry取3,ntree取500時(shí),誤分率總體穩(wěn)定.
2) 設(shè)定mtry和ntree參數(shù)后,利用R語(yǔ)言中RandomForest程序包運(yùn)行得到隨機(jī)森林模型.通過(guò)該模型對(duì)該訓(xùn)練集數(shù)據(jù)進(jìn)行分類,所得混淆矩陣見(jiàn)表3,其誤分率為0.249 7.
表3 基于隨機(jī)森林方法所得混淆矩陣
事故處理程序的判斷屬于分類問(wèn)題,可采用傳統(tǒng)的統(tǒng)計(jì)模型,如Logistic回歸、Probit回歸等模型.從機(jī)器學(xué)習(xí)的角度,該問(wèn)題屬于監(jiān)督學(xué)習(xí)(supervised learning),隨機(jī)森林還可采用樸素貝葉斯(naive bayesian)等方法.通過(guò)對(duì)比四種方法對(duì)781條完整數(shù)據(jù)(訓(xùn)練樣本)判斷的誤分率見(jiàn)表4,隨機(jī)森林方法優(yōu)于其他方法.
表4 四種方法對(duì)事故處理程序的分類的誤分率
3) 隨機(jī)森林的變量重要度評(píng)估.圖3為各個(gè)變量對(duì)事故處理程序兩種情況的相對(duì)影響.由此,可以認(rèn)為影響事故處理程序的重要因素有經(jīng)濟(jì)損失,沉船艘數(shù),事故等級(jí),死亡失蹤,經(jīng)緯度、區(qū)域、船舶航行狀態(tài)、交通態(tài)勢(shì).由此可見(jiàn),對(duì)經(jīng)緯度和區(qū)域的插補(bǔ)是必要的.
圖3 自變量對(duì)因變量水平響應(yīng)的重要度
4) 根據(jù)隨機(jī)森林對(duì)“2014-07-22-1918-新寶航87-海長(zhǎng)翔”“2014-08-13-2206-申燃22-皖鳴遠(yuǎn)1119”進(jìn)行事故處理程序分類,結(jié)果均為簡(jiǎn)易程序,見(jiàn)表5.對(duì)比兩起事故,二者僅在經(jīng)緯度、交通態(tài)勢(shì)分析和事故原因有不同差別.盡管經(jīng)濟(jì)損失相差較大,但根據(jù)《水上交通事故統(tǒng)計(jì)辦法》(中華人民共和國(guó)交通運(yùn)輸部令2014年第15號(hào))第六條,兩起事故從經(jīng)濟(jì)損失判斷均屬于小于100萬(wàn)元的小事故.由此,將這兩起事故的處理程序判斷為簡(jiǎn)易具有一定的合理性.
表5 基于隨機(jī)森林的預(yù)測(cè)概率
對(duì)于12起既缺失事故處理程序又缺失經(jīng)濟(jì)損失的記錄的插補(bǔ),訓(xùn)練集選取931起事故記錄,其中781起為去除經(jīng)濟(jì)損失項(xiàng)的完整記錄,150起為只缺失經(jīng)濟(jì)損失的記錄.“事故處理程序”為因變量,其余14個(gè)記錄項(xiàng)作為自變量.重復(fù)上述步驟1~4,設(shè)定mtry為6和ntree為500后,通過(guò)R語(yǔ)言中RandomForest程序包運(yùn)行得到隨機(jī)森林模型.通過(guò)該模型對(duì)該訓(xùn)練集數(shù)據(jù)進(jìn)行分類,所得混淆矩陣,見(jiàn)表6,誤分率為0.244 9.
表6 基于隨機(jī)森林方法所得混淆矩陣
圖4為自變量對(duì)因變量水平響應(yīng)的重要度,由圖4可知,沉船艘次、經(jīng)緯度、航行狀態(tài)、事故等級(jí)、當(dāng)事方數(shù)、區(qū)域?qū)Y(jié)果的影響大.
圖4 自變量對(duì)因變量水平響應(yīng)的重要度
12起記錄的事故處理程序的預(yù)測(cè)分類及其概率,見(jiàn)表7.隨機(jī)森林方法將除“揚(yáng)州-碰撞-興航136-長(zhǎng)通?!笔鹿逝卸楹?jiǎn)易外,其他均判定為一般.與其他11起事故相比,“揚(yáng)州-碰撞-興航136-長(zhǎng)通?!笔鹿孰p方船舶在事故發(fā)生時(shí)間均處于錨泊狀態(tài),由于雙方未留足距離導(dǎo)致碰撞事故發(fā)生,其造成的事故后果較小.而其余事故則是航行船碰撞錨泊船或航行船碰撞航行船,造成的事故后果更大.
表7 基于隨機(jī)森林的預(yù)測(cè)概率
數(shù)據(jù)缺失、信息不完備、記錄不準(zhǔn)確是水上交通事故數(shù)據(jù)較為常見(jiàn)的問(wèn)題.缺失數(shù)據(jù)的存在將降低基于數(shù)據(jù)挖掘的事故規(guī)律解析或事故機(jī)理揭示的可信度.水上交通事故記錄項(xiàng)數(shù)據(jù)類型多、維度高、信息冗余等特性在事故缺失數(shù)據(jù)插補(bǔ)過(guò)程中決定了方法的選取、變量的篩選等.研究表明:經(jīng)濟(jì)損失,沉船艘數(shù),事故等級(jí)、區(qū)域等是影響事故處理程序的關(guān)鍵因素;事故等級(jí),死亡失蹤人數(shù),事發(fā)經(jīng)緯度等是影響經(jīng)濟(jì)損失的關(guān)鍵因素.在相同測(cè)試樣本下,隨機(jī)森林方法的精度優(yōu)于Logistic回歸、Probit回歸和樸素貝葉斯等方法.