王雪松,徐曉妍
(同濟大學(xué)道路與交通工程教育部重點實驗室,上海201804)
根據(jù)世界衛(wèi)生組織的最新統(tǒng)計,從2000年起,全球道路交通死亡人數(shù)持續(xù)攀升,截至2016年,為135萬,常年維持著18人/10萬人口的高死亡率形勢。道路交通事故已成為5~29歲青年兒童的首要致死原因[1]。中德合作的《道路交通運輸安全發(fā)展報告(2017)》中指出,2016年我國共接報道路交通事故864.3萬起,同比增加65.9萬起,上升16.5%。其中,涉及人員傷亡的道路交通事故21萬多起,造成約6.31萬人死亡;道路交通事故萬車死亡率為2.14,同比上升2.9%[2]。同年,英、美、日的萬車死亡率分別為0.52、1.30、0.64[1],與發(fā)達國家相比,我國交通安全水平仍有待改進。事故的特征研究和致因分析是提升交通安全的重要切入點,可為制定交通安全改善對策提供依據(jù)。
隨著傳感器功能的提升和車載數(shù)據(jù)記錄儀的普及,事故的重現(xiàn)和致因推斷不再只依賴于監(jiān)控錄像或當(dāng)事人的自述,研究者們可以憑借自然駕駛數(shù)據(jù),從更微觀的角度(如駕駛行為)對事故進行深度分析。自然駕駛研究(naturalistic driving study,NDS)是指在自然狀態(tài)下,利用高精度數(shù)據(jù)采集系統(tǒng),觀測、記錄駕駛員真實駕駛過程的研究[3]。多源、實時、精確的自然駕駛數(shù)據(jù)能夠為事故特征分析提供有力支持。但事故是小概率事件,需要通過長時間的觀測才能得到足夠的樣本量。尤其在自然駕駛實驗中,事故數(shù)不足以支撐個體駕駛員層面的統(tǒng)計分析。因此考慮用危險事件(safety-critical events,SCEs)作為事故替代指標(biāo)。危險事件是任何需要駕駛員做出避撞反應(yīng),且存在沖突對象和碰撞風(fēng)險的情況,包括接近碰撞事件(near crashes)和碰撞事件(crashes,亦即事故)[4]。由于危險事件與事故的發(fā)生頻率存在強相關(guān)性[5],且兩者具有相似的因果機制[6],因此危險事件能夠作為有效的事故替代指標(biāo),用于研究風(fēng)險駕駛行為和推斷事故致因。
自美國弗吉尼亞理工大學(xué)的100-Car和SHRP 2(Second Strategic Highway Research Program)自然駕駛研究項目開展以來,已有不少國外學(xué)者基于自然駕駛數(shù)據(jù)對危險事件進行了深入研究,包括探究危險事件的識別方法、分析危險事件的影響因素、利用危險事件進行駕駛員風(fēng)險評估等。在危險事件識別方面,國外研究多采用傳統(tǒng)的閾值法,即對車輛動力學(xué)參數(shù)設(shè)置閾值范圍,從原始數(shù)據(jù)中自動識別符合條件的事件。這種方法的優(yōu)勢是保證了極少量的危險事件被漏報,但隨之誤報率大幅度提升,需要后期花費大量時間進行人工視頻校對工作。
國內(nèi)在建立危險事件的識別標(biāo)準(zhǔn)方面還存在較多空白。需指出的是,由于國內(nèi)外駕駛環(huán)境不同,若直接照搬國外研究的閾值設(shè)定可能會導(dǎo)致識別效果不佳,因此亟需對國內(nèi)的相關(guān)研究進行補充。上海自然駕駛研究(SH-NDS)由同濟大學(xué)、通用汽車公司、弗吉尼亞理工大學(xué)三方合作,為國內(nèi)首個自然駕駛研究項目。數(shù)據(jù)采集開始于2012年12月,結(jié)束于2015年12月,歷時三年,共計19 133段出行,總行程161 055 km。該研究基于上海自然駕駛數(shù)據(jù),建立危險事件的自動識別準(zhǔn)則,從原始數(shù)據(jù)中提取可能的危險事件片段,在此基礎(chǔ)上采用機器學(xué)習(xí)算法進一步過濾,在滿足漏報率的同時,大幅度降低自動識別的誤報率,從而減少后期人工校對的工作量。
危險事件是任何需要駕駛員做出避撞反應(yīng)的緊急情況,制動是最常見的避撞措施。Molinero等[7]基于歐洲5個國家的事故數(shù)據(jù)庫,對不同場景的事故進行了深度分析。研究表明,60%的駕駛員在事故前會采取制動措施;Dingus等[4]利用100-Car自然駕駛數(shù)據(jù),針對各種沖突類型的接近碰撞事件,統(tǒng)計了其中的避險措施類型。結(jié)果發(fā)現(xiàn),超過80%的接近碰撞事件中,駕駛員通過及時踩下制動踏板成功避免了碰撞;緊急制動措施可用車輛縱向加速度的異常值(小于-0.5g)進行表征。除了縱向加速度,車輛速度、橫向加速度、前向碰撞時間也常被用作識別危險事件的輔助依據(jù)。
目前大部分研究采用的危險事件識別過程如下:①對上述一系列車輛運動學(xué)參數(shù)(vehicle kinematics)設(shè)置閾值,從自然駕駛數(shù)據(jù)中自動提取可能的危險事件片段;②通過人工分析視頻的方法,對初步識別得到的危險事件進行驗證,篩選出有效的危險事件。既有研究中用于自動提取危險事件的車輛運動學(xué)參數(shù)如表1所示,滿足任一類車輛運動學(xué)參數(shù)的閾值就會被識別為可能的危險事件。
表1 既有研究中危險事件提取準(zhǔn)則Tab.1 Summary of safety-critical event extraction criteria used in existing literature
使用閾值法識別危險事件會導(dǎo)致較高的誤報率,例如Dingus等[4]以及Perez等[10]識別危險事件的整體誤報率均超過80%,需要在后期進行大量的人工校核和篩選工作。后續(xù)研究者提出了傳統(tǒng)閾值法的改進算法。Sudweeks[12]在 Dingus研究的基礎(chǔ)上建立了一種角速度分類器,該分類器可過濾42%由角速度閾值識別到的無效事件。Wu等[13]提出了一種將人工校核視頻工作量最小化的識別方法,使用閾值法初步篩選出可能的危險事件后,利用鄒氏檢驗過濾掉與事故發(fā)生機理不同的事件;再通過生存分析和ROC(receiver operating characteristic)曲線確定車輛動態(tài)參數(shù)變化量的最佳閾值,進行第二輪自動篩選,最大幅度減少了留給人工校驗的候選危險事件數(shù)。Kluger等[14]將離散傅里葉變換與k均值聚類法結(jié)合,識別危險事件發(fā)生前后車輛加速度隨時間變化的模式,運用該算法可將誤報率降至22%。
也有研究者探索了閾值法以外識別危險事件的新方法。Dozza等[15]認為事件的危險程度應(yīng)取決于駕駛員自身的感受和反應(yīng),利用多種圖像處理算法對駕駛員面部視頻進行分類,識別有效的危險事件。該方法可以覆蓋84%的有效危險事件,各算法的平均誤報率約為30%。Gao等[16]通過提取前向視頻特征,生成每起事件的運動輪廓圖(motion profile);基于運動輪廓圖和車輛動態(tài)學(xué)變量,建立多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)用于識別危險事件。該方法可覆蓋83%的有效危險事件,誤報率控制在33%。
綜上所述,目前國外學(xué)者用于危險事件識別的方法主要有以下三種:①傳統(tǒng)閾值法;②結(jié)合分類算法改進傳統(tǒng)閾值法;③圖像識別算法。國內(nèi)相關(guān)研究存在較多空白,亟需進行補充。既有研究都假設(shè)傳統(tǒng)閾值法結(jié)合人工判別得到的危險事件是全樣本,在傳統(tǒng)方法基礎(chǔ)上所作的改進都旨在降低誤報率,減少人工判別的工作量,同時無法覆蓋全樣本,會產(chǎn)生一定的漏報率。因此本文認為,為了得到較為完整的危險事件集,閾值法不可舍棄;在傳統(tǒng)方法基礎(chǔ)上,需要尋求一種能同時降低誤報率和控制漏報率的方法,過濾掉大部分無效事件。
支持向量機(support vector machine)模型是一種相對較新的機器學(xué)習(xí)模型,是Kecman[17]為了解決分類和回歸問題而提出的。近年來,支持向量機模型被廣泛應(yīng)用于交通研究,包括交通流預(yù)測[18]、事件檢測[19]、事故頻率預(yù)測[20]等,具有較強的分類能力。因此本文考慮采用支持向量機在閾值法基礎(chǔ)上對事件進一步分類。支持向量機模型的主要局限在于該模型像一個黑匣子,不能識別有效的解釋變量。因此本文考慮利用隨機森林模型篩選出重要特征,作為支持向量機模型的輸入變量進行模型訓(xùn)練;并同時訓(xùn)練隨機森林模型,與支持向量機模型的預(yù)測效果進行對比。
本研究的數(shù)據(jù)來自“上海自然駕駛研究項目”,項目使用5輛配備了SHRP2 NextGen數(shù)據(jù)采集系統(tǒng)(包括4路攝影頭、可跟蹤前方8個物體的雷達系統(tǒng)、全球定位系統(tǒng)、車輛總線數(shù)據(jù)記錄器等)的乘用車輛。數(shù)據(jù)采集系統(tǒng)的不同設(shè)備設(shè)置了不同的采樣頻率,分布在10~50 Hz[21]。數(shù)據(jù)采集系統(tǒng)在車輛點火后自動啟動,熄火后自動關(guān)閉。數(shù)據(jù)采集開始于2012年12月,結(jié)束于2015年12月,歷時3年,共計19 133段出行,總行程161 055 km。包括57位駕駛員,其中女性12位,男性45位。研究所用的駕駛員信息數(shù)據(jù)和車輛運行數(shù)據(jù)基本完整。
本文通過對車輛動態(tài)學(xué)參數(shù)(如橫縱向加速度、前向碰撞時間等)設(shè)定閾值,從原始數(shù)據(jù)中提取可能的危險事件。初始閾值設(shè)置參考Dingus等[4]的研究。
(1)閾值類型1:橫向加速度大于等于0.7g。
(2)閾值類型2:縱向加速度的絕對值大于等于0.6g。
(3)閾值類型3:緊急事件按鈕觸發(fā)。
(4)閾值類型4:橫向加速度大于等于0.5g且前向碰撞時間小于等于4 s。
(5)閾值類型5:縱向加速度的絕對值大于等于0.5g且前向碰撞時間小于等于4 s。
只要某一時間戳的數(shù)據(jù)記錄滿足任一閾值類型,就會被自動識別為可能的危險事件,并提取該時刻前后10 s的視頻記錄用于人工校驗。數(shù)據(jù)提取流程如圖1所示。
圖1 危險事件提取流程Fig.1 Safety-critical event extraction process
值得注意的是:采用較高的誤報率(80%)是為了盡量減少遺漏的危險事件,確保充足的樣本量。若滿足以下任意兩個條件,則人工判定為危險事件:①通過手部視頻,發(fā)現(xiàn)駕駛員采取了緊急的避險操作;②根據(jù)面部視頻,發(fā)現(xiàn)駕駛員有明顯的表情變化;③依據(jù)前向視頻,發(fā)現(xiàn)自車與其他交通參與者或物體發(fā)生沖突。初始和最終閾值的設(shè)定如表2所示。
表2 事件提取閾值設(shè)定Tab.2 Summary of extraction trigger criteria
對于閾值類型1、3和4,設(shè)定為初始值時誤報率已超過80%,因此不再進行調(diào)整。從表2可以看出,對于閾值類型2和5,通過放寬閾值,有效危險事件的樣本量得到了大幅提升。利用閾值法共自動識別到3 623起可能的危險事件;人工校驗后,將其中的591起認定為有效的危險事件,包括8起碰撞事件和583起接近碰撞事件。
利用閾值法識別危險事件僅能達到16.31%(591/3623)的準(zhǔn)確率,增加了后期人工篩選的工作量。為改進識別方法,本文參照Wu等[13]“兩輪篩選”的研究思路,考慮用閾值法進行初步過濾后,納入機器學(xué)習(xí)方法進行深度篩選?;玖鞒倘鐖D2所示。首先對閾值法初步識別到的所有事件進行標(biāo)簽化處理(危險事件=1,一般事件=0),將事件標(biāo)簽作為輸入變量;再將車輛動態(tài)參數(shù)統(tǒng)計量(如縱向加速度標(biāo)準(zhǔn)差)作為輸入變量,分別采用隨機森林模型和支持向量機模型識別危險事件。
為確定有效的輸入變量,首先需分析閾值法失效的原因。視頻驗證過程中三類常見的失效場景如下:①城市快速路或高速公路,由于路面顛簸或遠處有車輛匯入主線,駕駛員在高速情況下本能地踩下制動踏板或轉(zhuǎn)動方向盤,造成較大的橫向或縱向加速度;②車輛接近交叉口時(無前車),本向綠燈轉(zhuǎn)為紅燈,為保證車輛不越過停車線,駕駛員采取緊急制動;③車輛經(jīng)過下坡時,駕駛員為控制車速用力踩踏制動,導(dǎo)致某一時刻車輛的縱向加速度過大。
圖2 運用機器學(xué)習(xí)的危險事件識別流程Fig.2 Safety-critical event detection process using machine learning
以上三類場景均不存在潛在的碰撞風(fēng)險,但由于某一時刻的車輛運動學(xué)參數(shù)滿足閾值條件,被錯誤地識別成危險事件??梢娺\動學(xué)參數(shù)的瞬時值不足以做出精確的判別。在選擇機器學(xué)習(xí)的輸入變量時,考慮納入事件觸發(fā)前后某一時域內(nèi),車輛動態(tài)參數(shù)(包括速度、橫縱加速度、與前車的距離、與前車的速度差、前向碰撞時間)的統(tǒng)計值,包括最值、均值和標(biāo)準(zhǔn)差。輸入變量匯總及計算時域如表3和圖3所示。由于存在沒有前車的情況,因此表3中的Δx、Δv和tTTC三類變量可以為空值。圖3為某一起事件在閾值觸發(fā)前后共15 s內(nèi),各類運動學(xué)參數(shù)的時間序列圖。對于該事件,運動學(xué)參數(shù)統(tǒng)計值的計算時域為縱向加速度最小值對應(yīng)時刻t0的前5 s和后3 s(圖中陰影部分)。若事件由橫向加速度閾值觸發(fā),則t0為橫向加速度最大值對應(yīng)的時刻。
表3 輸入變量匯總Tab.3 Summary of input variables
圖3 輸入變量的計算時域Fig.3 Time horizon of input variable calculation
3.2.1 隨機森林模型
隨機森林模型是由Breiman于2001年提出的一種機器學(xué)習(xí)算法[22]。其基本原理是:通過自助法(bootstrap)重采樣技術(shù),從大小為N的原始訓(xùn)練集中有放回地重復(fù)隨機抽取N個樣本,這N個樣本組成一個訓(xùn)練樣本集,一個訓(xùn)練樣本集生成一棵決策樹。決策樹會從M個特征變量中隨機抽取m個用于分裂節(jié)點。同樣的過程重復(fù)k次,一個由k棵決策樹組成的隨機森林訓(xùn)練完畢。將測試集輸入到每棵樹中進行分類,最后由所有樹對分類結(jié)果進行投票,投票數(shù)最多的即為最終分類結(jié)果。
由于每棵樹是從大小為N的原始訓(xùn)練集中進行N次有放回采樣,因此每棵樹中會有重復(fù)的樣本,同時也會有一些樣本未被選中,這些未被選中的數(shù)據(jù)稱為袋外數(shù)據(jù)BOOB(out-of-bag,OOB)。若有k棵決策樹,則隨之會產(chǎn)生k個袋外數(shù)據(jù)。平均而言,每棵樹進行放回抽樣后,會有37%的數(shù)據(jù)沒有被選中。推導(dǎo)公式如下:
當(dāng)一棵樹進行放回抽樣后,某個樣本一次也沒有被選中的概率如下:
當(dāng)N趨近于無窮大時,P(BOOB)會收斂到常量。證明如下:
隨機森林模型不僅可以進行分類或回歸,還能計算變量重要度MVIM(variable importance measure,VIM),幫助研究者篩選有效變量,降低數(shù)據(jù)維度[23]。MVIM的計算是基于袋外數(shù)據(jù)分類準(zhǔn)確率進行的。袋外數(shù)據(jù)分類準(zhǔn)確率定義為:袋外數(shù)據(jù)自變量值發(fā)生輕微擾動后與擾動前的分類正確率的平均減少量。MVIM的計算方式如下:
式中:MjVIM表示第j個變量的重要度;k表示隨機森林模型中的決策樹數(shù);Mtj和MPtj分別表示對第j個變量進行干擾前和干擾后,決策樹t的袋外數(shù)據(jù)分類準(zhǔn)確率。除了計算變量重要度,袋外數(shù)據(jù)還可用于選擇每棵決策樹分裂節(jié)點所需的最佳變量個數(shù)以及決策樹數(shù)。
3.2.2 支持向量機模型
支持向量機模型的核心思想是:若一組二分類的數(shù)據(jù)有m個變量,則存在一個m維空間可以對這組數(shù)據(jù)進行表示。支持向量機模型的目標(biāo)是在這個m維空間中尋找一個最能有效區(qū)分兩類數(shù)據(jù)的m-1維超平面,即從眾多超平面中尋找一個最優(yōu)解。假設(shè)超平面服從線性方程,其表達式為
式中:X是輸入變量組成的向量;WT和b是待求的參數(shù)。根據(jù)推導(dǎo)[24],SVM模型最終需解決以下最優(yōu)化問題:
式中:εi為樣本i的松弛變量,由于難以保證不同類型的數(shù)據(jù)點嚴格分布在超平面的兩側(cè),松弛變量的引入放寬了約束條件,即使被錯誤地分在超平面的另一側(cè),只要樣本點i至超平面的距離不超過εi,則仍滿足約束條件;常數(shù)C為懲罰因子,由于εi越大,約束條件越弱,超平面的區(qū)分能力越弱,因此求取最優(yōu)解的同時,也要使松弛變量之和盡量小,C決定了松弛變量之和的影響程度。
利用拉格朗日乘子法進行變換,式(5)變?yōu)?/p>
式中:αi為拉格朗日乘子。
以上公式都是基于線性分類,即超平面服從線性方程。若線性分類無法解決問題,則需要進行非線性分類。其基本思想是:將原先的m維空間逐步映射到m+1維、m+2維、m+3維等更高維的空間,直到在某個更高維的空間中線性可分為止。所以,關(guān)鍵問題就變成了確定從低維坐標(biāo)到高維坐標(biāo)的映射關(guān)系。從式(7)中可以看出,樣本點都是以兩兩內(nèi)積的形式出現(xiàn)的,將樣本點Xi與Xj的內(nèi)積記作k(Xi,Xj)。因此上述的映射關(guān)系可以理解為樣本點坐標(biāo)在更高維度下的新的內(nèi)積規(guī)則。這一規(guī)則就稱為核函數(shù)。本文采用的核函數(shù)為高斯核(徑向基函數(shù)),其形式如下所示:
式中:σ為核函數(shù)參數(shù)。綜上可知,SVM模型共有兩個待定參數(shù)(C,σ)。
利用訓(xùn)練集訓(xùn)練得到隨機森林和支持向量機模型后,對測試集進行預(yù)測,再基于分類準(zhǔn)確率(classification accuracy,Acc)、誤報率(false positive rate,RFP)、漏報率(false negative rate,RFN)以及受試者工作特征(receiver operating characteristic,ROC)曲線來對比兩個模型的預(yù)測效果。本文所需處理的是一個二分類問題(是否為危險事件),可能的分類結(jié)果如表4所示。
表4 二分類問題預(yù)測結(jié)果Tab.4 Outcomes of a binary classification problem
依據(jù)表4,預(yù)測效果的度量指標(biāo)計算如下:
(1)分類準(zhǔn)確率Acc=(TP+TN)/(TP+FP+FN+TN)。
(2)誤報率RFP=FP/(FP+TN)。
(3)漏報率RFN=FN/(TP+FN)。
(4)ROC曲線的Auc(area under the curve)值。
ROC曲線的橫坐標(biāo)為特異度(specificity),取值為1-RFN;縱坐標(biāo)為靈敏度(sensitivity),取值為1-RFP。訓(xùn)練好的機器學(xué)習(xí)模型對每個測試樣本都能得到一個預(yù)測概率。設(shè)閾值p0∈[0,1],若某樣本的預(yù)測概率小于p0,則歸為一般事件;若大于p0,則劃分為危險事件。p0取不同的值會產(chǎn)生不同的特異度和靈敏度,當(dāng)p0從0變化到1時,若干對特異度和靈敏度形成了ROC曲線。模型的預(yù)測效果可以由ROC曲線與坐標(biāo)軸圍成的面積Auc進行度量。Auc∈[0,1]越大,說明預(yù)測效果越好。
本文按照3:1的比例,將閾值法篩選出的3 623起事件隨機劃分成訓(xùn)練集和測試集。經(jīng)過統(tǒng)計,在全樣本、訓(xùn)練集和測試集中,危險事件的比例分別為16.31%、16.60%以及15.45%。為了避免數(shù)據(jù)集不平衡可能導(dǎo)致的誤差,將訓(xùn)練集中的危險事件復(fù)制4份,盡可能保證危險事件與一般事件的比例為1:1。
利用隨機森林模型進行變量重要度排序前,需要根據(jù)袋外數(shù)據(jù)誤差確定隨機森林模型中決策樹的分裂節(jié)點特征變量數(shù)。從圖4可以看出,當(dāng)特征變量數(shù)目為5時,袋外數(shù)據(jù)誤差達到最小,為0.033 2,因此可將結(jié)點特征變量數(shù)確定為5。
其次需要確定隨機森林模型中的決策樹數(shù)目。如圖5所示,隨著決策樹數(shù)目遞增,袋外數(shù)據(jù)誤差逐漸降低,并在650棵樹后趨于穩(wěn)定,因此將隨機森林模型中決策樹數(shù)量確定為650。
圖4 分裂節(jié)點特征變量個數(shù)分析Fig.4 Analysis of attributes number of split node
圖5 決策樹個數(shù)分析Fig.5 Number analysis of decision tree
隨機森林模型自身提供了兩種變量選擇方法:平均精確度減少(mean decrease accuracy)和平均節(jié)點不純度減少(mean decrease in node impurity)。由于基于平均精確度減少的方法比基于節(jié)點不純度減少的方法具有更好的非偏倚性能,因此既有文獻中多采用前者進行變量篩選[25-27]。隨機森林模型變量重要性排序如圖6所示。從圖6中可以看出,起到關(guān)鍵作用的變量有:縱向加速度的最小值、均值、標(biāo)準(zhǔn)差,與前車距離的最小值,車速的標(biāo)準(zhǔn)差,橫向加速度的均值以及與前車速度差的均值。由于所有變量重要度的權(quán)重均大于1%,因此考慮將所有24個變量作為輸入變量,放入機器學(xué)習(xí)模型中進行訓(xùn)練。
圖6 變量重要度排序Fig.6 Measurement of variable importance
表5 重要變量描述性統(tǒng)計Tab.5 Descriptive statistics of important variables
對重要度排序前10的變量進行描述性統(tǒng)計。表5匯總了訓(xùn)練集和測試集中,一般事件和危險事件的重要變量統(tǒng)計值。從表5中可以看出:①相比一般事件,危險事件發(fā)生期間的縱向加速度最小值(Xaccel_min)更小,且標(biāo)準(zhǔn)差(Xaccel_std)更大,以上兩個變量可以表征制動的緊急性;②危險事件發(fā)生期間,與前車距離的最小值(Δx_min)更小,速度差的均值(Δv_avg)更大。
本文分別采用R語言中的“randomForest”以及“e1071”包來訓(xùn)練隨機森林模型和支持向量機模型,基于測試集的分類準(zhǔn)確率、誤報率、漏報率以及Auc值來評價預(yù)測效果。其中,隨機森林模型的兩個參數(shù),即分裂節(jié)點特征變量個數(shù)以及決策樹數(shù)個數(shù)已經(jīng)在4.2節(jié)中明確,分別為5和650。根據(jù)3.2節(jié),支持向量機模型有兩個待定參數(shù),懲罰因子C以及徑向核函數(shù)參數(shù)σ,本研究采用R語言中的tune.svm函數(shù)進行十折交叉驗證,對比訓(xùn)練集的分類誤差,從而選取最佳的參數(shù)組合。結(jié)果表明,懲罰因子C取100,徑向核函數(shù)參數(shù)σ取0.01時誤差最小。
訓(xùn)練和預(yù)測后,兩種機器學(xué)習(xí)模型的ROC曲線如圖7所示。從圖7中可以看出,支持向量機模型和隨機森林模型的Auc值都接近1,分別為0.897和0.896,說明兩種模型均能達到較好的預(yù)測效果。
圖7 兩種機器學(xué)習(xí)模型的ROC曲線Fig.7 ROC curves of two machine learning models
表6進一步展示了兩種模型的預(yù)測結(jié)果。從表6中可以看出,隨機森林模型和支持向量機模型的分類準(zhǔn)確率均較高,分別為87.99%和86.09%。其中,隨機森林模型的誤報率較低,但漏報率很高,為37.14%,采用該算法容易損失較多的有效信息。支持向量機模型的誤報率比隨機森林模型高,卻能將漏報率控制在12.86%,是一個可以接受的水平;且此時14.10%的誤報率仍可以保證過濾超過85%的一般事件。因此針對本研究的目標(biāo),即盡可能降低自動識別的誤報率,從而減少人工篩選的工作量,支持向量機模型的預(yù)測結(jié)果更優(yōu)。
表6 兩種機器學(xué)習(xí)模型的預(yù)測效果對比Tab.6 Comparison of performance of two machine learning models
對比本文的支持向量機模型與既有文獻中的閾值法改進算法,結(jié)果如表7所示。需指出的是,進行對比的3篇文獻采用的數(shù)據(jù)來源均為自然駕駛數(shù)據(jù),與本文的數(shù)據(jù)結(jié)構(gòu)一致;且數(shù)據(jù)采集頻率以及閾值法提取危險事件采用的車輛運動學(xué)特征也相似,因此認為具有一定的可比性。從表7中可以看出,本研究使用的支持向量機方法在誤報率和漏報率方面都優(yōu)于其他研究的預(yù)測結(jié)果。
表7 支持向量機模型與其他模型的預(yù)測效果對比Tab.7 Comparison of prediction performance of SVM and models in literature
基于上海自然駕駛數(shù)據(jù),依據(jù)橫縱向加速度和前向碰撞時間的瞬時值,建立危險事件的自動提取閾值標(biāo)準(zhǔn),從原始數(shù)據(jù)中識別出3 623起可能的危險事件。經(jīng)人工驗證,其中591起為有效的危險事件。為降低閾值法過高的誤報率,減輕后期人工校對的工作量,采用機器學(xué)習(xí)對閾值法初步識別的事件進行深度篩選,主要步驟如下:①按照3:1的比例,將3 623起事件隨機劃分為訓(xùn)練集和測試集。②基于訓(xùn)練集,利用隨機森林模型識別重要的車輛動態(tài)參數(shù)特征,將其作為輸入變量訓(xùn)練隨機森林模型和支持向量機模型。③對測試集進行預(yù)測,計算誤漏報率。
結(jié)果表明:①起到關(guān)鍵作用的變量有縱向加速度的最小值和均值、與前車距離的最小值以及車速的標(biāo)準(zhǔn)差。②相比隨機森林模型,支持向量機模型的預(yù)測效果更優(yōu),在控制漏報率的同時,可過濾85.9%的無效事件。研究采用的方法可大幅度提升危險事件的識別效率,可為基于自然駕駛數(shù)據(jù)識別危險事件的后續(xù)研究提供一定參考。