呂通通 張 湛 陸林軍 張延猛
(上海交通大學(xué)船舶海洋與建筑工程學(xué)院 上海 200240)
省際客運(yùn)行業(yè)因其運(yùn)載量大、靈活機(jī)動等特點(diǎn),存在多種事故風(fēng)險。隨著交通運(yùn)量不斷拉升,行業(yè)安全問題愈發(fā)凸顯。以上海市省際客運(yùn)事故數(shù)據(jù)為例,從2014—2019年,事故數(shù)量總體呈遞增趨勢,增量達(dá)到80%。因此,有必要對事故嚴(yán)重程度進(jìn)行分析,探究事故規(guī)律,以合理制定對策降低事故風(fēng)險。
近年來,國內(nèi)外學(xué)者從多個方面對道路交通事故進(jìn)行了研究。宗芳等[1]利用結(jié)構(gòu)方程模型結(jié)合貝葉斯網(wǎng)絡(luò)對常規(guī)公交失火事故成因進(jìn)行了組合評估。Zhang Yingyu等[2]利用因果分類框架與促成因素交互模型相結(jié)合的方法宏觀分析了全國28省道路交通行業(yè)事故成因。Sam等[3]利用廣義有序Logit模型分析加納地區(qū)公共汽車事故成因。Miyama等[4]采集了日本301名公交司機(jī)的調(diào)查問卷,并利用多元回歸模型進(jìn)行分析,探究疲勞駕駛對客運(yùn)事故的影響。陳昭明等[5]利用混合Logit模型分析事故嚴(yán)重程度與道路、環(huán)境、駕駛員等因素間的關(guān)系。Jiang Chenming等[6]使用偏態(tài)logistic分析人-車碰撞事故致因。Wang Xuesong等[7]利用隨機(jī)效應(yīng)兩水平Logit模型分析了上海某公交公司725名駕駛員問卷,尋找事故主要原因。對于省際客運(yùn)行業(yè),研究多從單車車輛結(jié)構(gòu)[8-9]及制動性能[10]對行車事故影響進(jìn)行分析。此外,還有研究從運(yùn)營管理[11]角度對安全風(fēng)險及決策進(jìn)行探究。針對省際客運(yùn)事故綜合成因分析的研究較少。Besharati等[12]用Logit模型對伊朗省際客運(yùn)司機(jī)問卷調(diào)查結(jié)果進(jìn)行分析,從人、車、環(huán)境層面分析了撞車事故成因。
上述研究多使用回歸模型分析方法,其本身難以篩選特征因素,且在處理非線性問題上表現(xiàn)不佳。此外,這些研究多通過問卷調(diào)查方式獲取數(shù)據(jù),存在較大主觀性,且忽視了對既有數(shù)據(jù)的挖掘?;诖耍疚倪x用貝葉斯網(wǎng)絡(luò)分析方法處理非線性問題,引入1種有監(jiān)督的離散算法優(yōu)化樣本數(shù)據(jù)分類,提出互信息與交叉驗證相結(jié)合的方法進(jìn)行因素相關(guān)性排序,并構(gòu)造數(shù)個先驗網(wǎng)絡(luò)分別進(jìn)行結(jié)構(gòu)學(xué)習(xí),通過比選得到最優(yōu)模型,從人、車、路、環(huán)境方面對事故嚴(yán)重程度影響進(jìn)行綜合分析。以期從方法層面彌補(bǔ)行業(yè)安全評估樣本量小及主觀偏差影響,從應(yīng)用層面有針對性的為行業(yè)管理部門提供決策依據(jù),進(jìn)而降低行業(yè)事故率。
由于省際客運(yùn)行業(yè)事故數(shù)據(jù)相對其他行業(yè)較少[7],且存在樣本分布不均勻的問題。為了充分利用有限數(shù)據(jù),本文引入Tsai ChengJung等[13]提出的1種基于類屬性相依系數(shù)(class-attribute contingency coefficient,CACC)的離散算法。該算法是1種靜態(tài)、全局、自上而下的有監(jiān)督離散算法,能夠有效進(jìn)行數(shù)據(jù)離散并保留更多知識。
式中:M為樣本總量;n為區(qū)間數(shù);qir為在區(qū)間[dr-1,dr]中的第i類的樣本量(i=1,2,…,S;r=1,2,…,n);Mi+為第i類樣本的總量;M+r為區(qū)間[dr-1,dr]內(nèi)的樣本總量。算法利用式(1)~(2)作為評分函數(shù)來衡量變量之間依賴程度。CACC算法較目前流行的CAIM、CDD算法可以充分考慮所有樣本分布,避免發(fā)生過擬合[13]。執(zhí)行流程如下。
步驟1。給定1個樣本量為M,具有l(wèi)個待離散變量及S個目標(biāo)類的數(shù)據(jù)集。文中M=741,l=7,S=3(“死亡事故”“受傷事故”“財產(chǎn)損失事故”)。
步驟2。對于每1個待離散變量Xl,找到其中的最大值和最小值作為初始化區(qū)間邊界。
步驟3。將初始區(qū)間中的值按升序排列,計算所有相鄰值的中點(diǎn)。
步驟4。對變量進(jìn)行迭代劃分,并利用式(1)生成每一次迭代的cacc值,若該值不再提高,輸出最優(yōu)區(qū)間劃分結(jié)果。
為提高貝葉斯網(wǎng)絡(luò)學(xué)習(xí)效率,避免形成局部最優(yōu)解,一般需構(gòu)造部分先驗網(wǎng)絡(luò)以縮小搜索空間。對交通事故建模一般使用專家知識,也有結(jié)合專家知識與機(jī)器學(xué)習(xí)的混合方法。研究希望盡可能排除主觀誤差,擬采用機(jī)器學(xué)習(xí)方法建模。近年因果推斷理論逐漸發(fā)展,對于構(gòu)建先驗網(wǎng)絡(luò)有較高實(shí)用價值,但其只適用于二值變量。而DBe方法雖然適用多值變量,卻需要至少3 000條樣本數(shù)據(jù)支撐以滿足建模效果[14]?;バ畔⒎椒軌蛴行幚砀呔S小樣本數(shù)據(jù),但傳統(tǒng)方法存在估計偏差,且要解決邊定向的問題[15]。結(jié)合本研究實(shí)際,提出1種先驗網(wǎng)絡(luò)構(gòu)造方法。在進(jìn)行方法論證后,采用1種改進(jìn)的互信息(mutual information,MI)方法[16]。該方法以最大k臨近(k-nearest neighbor,KNN)思想近似地估計Shannon信息熵,熵值與相關(guān)度成正比,以此找到變量間相關(guān)關(guān)系。
式中:I(X,Y)為X,Y之間的互信息值;ψ(x)為digamma函數(shù),Γ(x)為伽馬函數(shù),ψ(x)=Γ(x)-1dΓ(x)/dx,它滿足遞歸函數(shù)ψ(x+1)=ψ(x)+1x,ψ(1)=-C,C≈0.577 215 6;…為求均值;mx,my分別為水平與垂直方向落入k鄰域的樣本點(diǎn)的數(shù)量。方法關(guān)鍵在于k值選取,k值越小,一般系統(tǒng)誤差越??;k值越大,可以相應(yīng)減小統(tǒng)計誤差。下面給出本文先驗網(wǎng)絡(luò)構(gòu)造方法。
步驟1。選取最佳k值。由于方法基于KNN理論構(gòu)造,本文改用交叉驗證方法,將經(jīng)過CACC算法處理的數(shù)據(jù)集分為若干子集,為了控制模型偏差,經(jīng)過測試選取其中70%作為訓(xùn)練集,30%作為測試集,計算所有訓(xùn)練樣本到測試樣本的歐氏距離并建立距離降序矩陣,選定第k個距離確定為k鄰域,利用k鄰域分類所有訓(xùn)練樣本,再用測試集測試分類準(zhǔn)確性,輸出分類準(zhǔn)確率最高的k值。
步驟2。形成變量關(guān)聯(lián)度序列。根據(jù)最佳k值,進(jìn)行互信息計算得到變量間相關(guān)關(guān)系。從因果邏輯出發(fā)對變量劃分因果,提取目標(biāo)變量的關(guān)聯(lián)變量按互信息值降序排列,形成關(guān)聯(lián)度序列。
步驟3。部分邊的定向策略。為避免互信息方法估計偏差[15],在關(guān)聯(lián)度序列基礎(chǔ)上,設(shè)置不同互信息值作為閾值,由因至果連接事故嚴(yán)重性相關(guān)節(jié)點(diǎn),建立先驗網(wǎng)絡(luò),反復(fù)經(jīng)過模型驗證選取最優(yōu)網(wǎng)絡(luò)。
貝葉斯網(wǎng)絡(luò)是1種有向無環(huán)圖,由變量節(jié)點(diǎn)和有向邊組成。本文選用基于評分函數(shù)的GTT(greedy thick thinning)算法建模,該算法可在給定先驗網(wǎng)絡(luò)條件下,執(zhí)行網(wǎng)絡(luò)加邊和網(wǎng)絡(luò)減邊2個步驟,不斷迭代直至整體網(wǎng)絡(luò)結(jié)構(gòu)評分最高并輸出初始網(wǎng)絡(luò)。結(jié)合本文先驗網(wǎng)絡(luò)構(gòu)造方法,可以有針對性的應(yīng)對個體錯誤敏感性[17]。
得到初始網(wǎng)絡(luò)后,利用最大期望算法(expectation-maximization algorithm,EM)進(jìn)行參數(shù)學(xué)習(xí),得到各因素節(jié)點(diǎn)的條件概率。本文模型建立流程見圖1。
圖1 模型建立流程圖Fig.1 Flow of modeling
數(shù)據(jù)來源于上海市交通委員會安全生產(chǎn)監(jiān)督管理平臺數(shù)據(jù)庫,提取了全市2005—2019年790條省際客運(yùn)事故數(shù)據(jù),每條數(shù)據(jù)包含18個變量。通過數(shù)據(jù)清洗剔除缺失、錯誤數(shù)據(jù)后,剩余有效數(shù)據(jù)741條。
針對事故嚴(yán)重程度進(jìn)行分析,篩選其中14個相關(guān)變量(離散變量12個,連續(xù)變量2個)。為便于研究,按照因果邏輯將變量分為影響因素變量(含蓋人員、車輛、道路、環(huán)境類別)及事故結(jié)果變量(含蓋傷亡及財產(chǎn)損失情況)2類,各變量具體信息見表1。
2.2.1 數(shù)據(jù)離散
利用Matlab R2020a軟件根據(jù)步驟實(shí)現(xiàn)CACC算法,為便于研究,設(shè)置最大區(qū)間數(shù)為5,以“事故類型”為監(jiān)督變量進(jìn)行離散。各變量區(qū)間劃分見表1。
表1 建模變量區(qū)間劃分Tab.1 Variable-interval division of modeling
2.2.2 構(gòu)造先驗網(wǎng)絡(luò)
執(zhí)行交叉驗證(見圖2),得到最優(yōu)k=21。
圖2 最佳k值選取Fig.2 Selection of the optimal k value
利用Matlab編程計算各變量間互信息值,得到MI矩陣,見表2。
表2 互信息矩陣Tab.2 Mutual information matrix
提取“事故類型”相關(guān)MI值,將對應(yīng)變量根據(jù)變量劃分降序排列(見表3)。將各變量節(jié)點(diǎn)按此序列排列,作為先驗網(wǎng)絡(luò)初始節(jié)點(diǎn)序列。以0.1為間隔,從9.6~10.7設(shè)置12個MI值作為閾值,根據(jù)給定互信息閾值,將大于閾值的影響因素變量節(jié)點(diǎn)逐一向結(jié)果變量節(jié)點(diǎn)作有向邊構(gòu)造先驗網(wǎng)絡(luò)。再加入全連、全不連先驗網(wǎng)絡(luò)作為對照組,進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)。利用“留一法”(leave one out,LOO)交叉驗證對14個模型進(jìn)行精度測試,留一法被證明較k折交叉驗證更貼合本研究實(shí)際[18]。由測試結(jié)果(見圖3)可知,當(dāng)連接閾值為10.5時網(wǎng)絡(luò)最優(yōu),見圖4。
表3 變量節(jié)點(diǎn)序列Tab.3 Variable node sequence
圖3 不同互信息模型測試結(jié)果Fig.3 Test results of different mutual information models
圖4 貝葉斯先驗網(wǎng)絡(luò)Fig.4 Prior networks of Bayesian
根據(jù)選定先驗網(wǎng)絡(luò)構(gòu)造貝葉斯網(wǎng)絡(luò)模型,利用GeNIe 3.0軟件實(shí)現(xiàn)模型可視化。隨后利用軟件自帶EM算法進(jìn)行參數(shù)學(xué)習(xí),得到各變量條件概率分布情況見圖5。
圖5 省際客運(yùn)事故嚴(yán)重程度分析模型Fig.5 Accident severity analysis model of inter-provincial passenger transport
為衡量數(shù)據(jù)挖掘效果及模型實(shí)用性,利用受試者工作特征曲線(receiver operating characteristic curve,ROC)檢驗?zāi)P头夯芰19],曲線右側(cè)面積稱為AUC(the area under the ROC curve),AUC>0.5表示模型可行,面積越大模型泛化能力越好。
對比相同建模方法下本文模型與等寬離散、Hierarchical聚類離散模型,以及相同離散方法下本文模型與純數(shù)據(jù)、專家知識模型(專家知識由上海市道路運(yùn)輸行業(yè)安全數(shù)據(jù)需求分析及標(biāo)準(zhǔn)化體系建設(shè)試點(diǎn)項目實(shí)地調(diào)研獲取)的事故嚴(yán)重程度預(yù)測表現(xiàn),各模型對比結(jié)果見圖6。
圖6 不同模型ROC曲線對比Fig.6 Comparison of ROC curves of different models
算得本文模型的泛化能力及穩(wěn)定性優(yōu)于其他模型,AUC面積均值達(dá)到0.644 588。同時,交叉驗證結(jié)果顯示:103條“死亡事故”命中102條,512條“受傷事故”命中497條,125條“直接財產(chǎn)損失”命中121條,命中率達(dá)到97.3%。
1)敏感度。敏感度分析可以揭示變量節(jié)點(diǎn)的微小變化對于事故嚴(yán)重性的擾動程度。以結(jié)果變量為目標(biāo)項進(jìn)行敏感度分析(見圖7),灰度越高表示該節(jié)點(diǎn)越容易對事故造成擾動。對各個結(jié)果變量進(jìn)行敏感度指數(shù)計算并取均值,得到:天氣、性別、車輛類型對事故嚴(yán)重性的影響最大,敏感度均值分別達(dá)到0.184,0.148 6,0.101 2。
圖7 敏感度分析Fig.7 Sensitivity analysis
2)影響權(quán)重。進(jìn)一步討論3個變量中每個狀態(tài)對事故嚴(yán)重性的影響,根據(jù)區(qū)間劃分特征,將“事故類型”中的“死亡事故”“受傷事故”“財產(chǎn)損失事故”類表征為3個嚴(yán)重程度級別,以“死亡事故”為最嚴(yán)重。通過設(shè)置3個變量中某類為“證據(jù)”(即絕對發(fā)生),利用軟件更新目標(biāo)變量的后驗條件概率,觀察“死亡事故”類及“死亡人數(shù)”最嚴(yán)重類的條件概率變化情況,取平均值并進(jìn)行歸一計算,得到某一類在變量中的權(quán)重。將影響因素變量的敏感度指數(shù)作歸一處理,乘以類權(quán)重,得到該類對事故嚴(yán)重性的影響權(quán)重,見表4。
表4 條件概率分析Tab.4 Conditional probability analysis
觀察結(jié)果發(fā)現(xiàn)“女性駕駛員”“中型客車”“雪、大風(fēng)、霧”對事故嚴(yán)重程度影響最大,應(yīng)著重關(guān)注。注意到“男性”權(quán)重僅占到“女性”的45%,但其權(quán)值依然較高;“大型客車”對事故嚴(yán)重性影響程度僅次于“中型客車”,“小型客車”相對安全,說明客車尺寸與安全性并非單調(diào)關(guān)系[3]。
1)后驗概率。進(jìn)一步分析各類事故嚴(yán)重程度關(guān)聯(lián)因素。針對各
結(jié)果變量分別進(jìn)行后驗概率分析,提取對“死亡人數(shù)”“輕傷人數(shù)”“重傷人數(shù)”及“財產(chǎn)損失”有明顯影響的分析結(jié)果見表5~6。
2)分析結(jié)果。由表5可知,“女性”駕駛員引起3人以上死亡概率提高12%;駕駛員“年齡”與死亡人數(shù)成正比;大、中型客車更易引起死亡事故,“中型客車”造成多人死亡概率同比上升6%。“路段”更易導(dǎo)致死亡發(fā)生;秋冬季較其他季節(jié)更易引發(fā)死亡;天氣對死亡人數(shù)整體影響較大,天氣惡劣程度與死亡人數(shù)呈正相關(guān);凌晨00:00—05:00時引發(fā)死亡風(fēng)險上升5%;“左轉(zhuǎn)彎、停車、倒車、掉頭”或其他違規(guī)駕駛更易導(dǎo)致死亡發(fā)生,這可能是由于上述行為會增加與其他車輛或行人的沖突點(diǎn)。
表5 死亡人數(shù)后驗概率分析Tab.5 Posterior probability analysis of the number of deaths
由表6可知,對于受傷人數(shù),“女性”駕駛員造成事故引發(fā)群體受傷概率最高;“27歲以下”駕駛員反而易引發(fā)受傷事故,這可能與年輕駕駛員高應(yīng)變能力但缺乏經(jīng)驗、易低估危險性有關(guān)[3];與文獻(xiàn)[7]不同,47歲以上駕駛員,其年齡與死亡、財產(chǎn)損失風(fēng)險呈正比;此外,年齡因素對群死群傷事故貢獻(xiàn)不大;“小型客車”事故易引發(fā)人員受傷,且重傷概率上升6%;路口雖然受到交通管制死亡事故風(fēng)險降低[3],但引發(fā)受傷概率較路段平均提高5%;秋冬季節(jié)引發(fā)受傷風(fēng)險增加,秋季風(fēng)險更大,但冬季重傷率降低3%;天氣惡劣程度與受傷風(fēng)險成正比,且更易引發(fā)群傷事故;00:00—05:00時引發(fā)群傷事故概率平均上升9%。對于財產(chǎn)損失:“年齡”與財產(chǎn)損失呈正相關(guān),且“27歲以下”駕駛員造成重大財產(chǎn)損失風(fēng)險下降7%;“中型客車”事故風(fēng)險更高,但“大型客車”易造成更多財產(chǎn)損失,這可能與車輛自身價值有關(guān);“路口”事故造成重大財產(chǎn)損失的風(fēng)險明顯低于“路段”;行駛狀態(tài)為“變更車道、躲避障礙、駛離路面”對傷亡人數(shù)無明顯影響,卻會導(dǎo)致財產(chǎn)損失風(fēng)險上升。模型學(xué)習(xí)結(jié)果還認(rèn)為“天氣”“季節(jié)”“時間”3個因素與財產(chǎn)損失無直接關(guān)聯(lián)。
表6 受傷及財產(chǎn)損失后驗概率分析Tab.6 Posterior probability analysis of injury and property loss
綜上,女性及47歲以上駕駛員、中型客車、路段、秋冬季、惡劣天氣、凌晨00:00—05:00時及左轉(zhuǎn)彎等駕駛行為會增加事故死亡風(fēng)險;女性駕駛員、惡劣天氣及凌晨00:00—05:00時增加了7人以上受傷風(fēng)險;女性及大齡駕駛員、大中型客車、路段及行駛狀態(tài)為“變更車道、躲避障礙、駛離路面”增加了重大財產(chǎn)損失風(fēng)險。
1)以省際客運(yùn)為例,建立了基于互信息貝葉斯網(wǎng)絡(luò)的交通事故嚴(yán)重程度分析模型。通過CACC算法提高了數(shù)據(jù)利用率,選擇最優(yōu)互信息值連接變量節(jié)點(diǎn),適用于小樣本數(shù)據(jù)建模。通過ROC分析證實(shí)了模型泛化能力。
2)從人員、車輛、道路、環(huán)境4個方面進(jìn)行定量分析。結(jié)果顯示,“女性”“中型客車”“雪、大風(fēng)、霧”對整體事故嚴(yán)重性有明顯影響。進(jìn)一步討論了各因素對于不同事故嚴(yán)重程度的影響。
隨著數(shù)據(jù)量增加,模型精度會逐步提高。由于數(shù)據(jù)庫記錄要素有限,不免存在其他影響因素未被考慮的情況。未來行業(yè)安全生產(chǎn)監(jiān)管大數(shù)據(jù)會更加完善,在利用專家知識及行業(yè)經(jīng)驗進(jìn)行安全評價之外,使用數(shù)據(jù)挖掘結(jié)合機(jī)器學(xué)習(xí)方法對事故致因進(jìn)行定性關(guān)聯(lián)和定量分析,可有效提升風(fēng)險防控及隱患排查精細(xì)化水平。