王博文, 王景升*, 吳恩重
(1.中國(guó)人民公安大學(xué)交通管理學(xué)院, 北京 100038; 2.中國(guó)人民公安大學(xué)治安學(xué)院, 北京 100038)
中國(guó)的道路交通事故發(fā)生率及傷亡率一直處于很高的水平。據(jù)中華人民共和國(guó)交通事故統(tǒng)計(jì)年報(bào)顯示[1],中國(guó)在2019年共發(fā)生道路交通事故1 247.3萬(wàn)起,造成62 763人死亡、256 101人受傷,直接財(cái)產(chǎn)損失達(dá)13.5億元。挖掘交通事故致因因素,并采取針對(duì)性的整治是降低道路交通事故發(fā)生率的重要手段。
當(dāng)前,中外許多學(xué)者針對(duì)交通事故致因因素進(jìn)行了研究[2-4]。王旭磊等[5]從系統(tǒng)安全出發(fā),探索了公路運(yùn)輸交通事故的致因因素,實(shí)驗(yàn)證明,駕駛?cè)说陌踩庾R(shí)不足、操作不當(dāng)是主要致因因素。賈曉惠等[6]利用貝葉斯網(wǎng)絡(luò)研究了環(huán)境因素對(duì)于公交車(chē)事故的影響,結(jié)果證明,天氣、時(shí)間等因素均可能導(dǎo)致交通事故。林慶豐等[7]使用Logistic回歸分析了機(jī)非交通事故中駕駛?cè)?、?chē)輛、道路因素對(duì)駕駛?cè)诉^(guò)錯(cuò)及事故嚴(yán)重程度的影響。張圓等[8]依據(jù)廣東省9 886條小轎車(chē)交通事故數(shù)據(jù),定量分析了不同性別小轎車(chē)駕駛?cè)说慕煌ㄊ鹿视绊懸蛩?,其中包含了駕駛?cè)斯逃袑傩砸蛩?,如年齡。Bucsuházy等[9]通過(guò)對(duì)捷克事故數(shù)據(jù)進(jìn)行研究,分析了交通環(huán)境、車(chē)輛和人為因素對(duì)交通事故的影響。
此類(lèi)研究?jī)H從駕駛?cè)斯逃行再|(zhì),如年齡、駕齡,或道路環(huán)境因素對(duì)事故的致因進(jìn)行研究。但是,交通事故的發(fā)生往往與駕駛?cè)藲v史交通行為的優(yōu)劣,如駕駛?cè)耸欠裼芯岂{、疲勞駕駛等存在安全隱患的重點(diǎn)駕駛行為經(jīng)歷存在聯(lián)系,因此在研究交通事故致因因素時(shí),應(yīng)將駕駛?cè)说臍v史交通行為維度同時(shí)納入研究范圍[10-17]。
除此之外,在模型建立及分析過(guò)程中還存在以下問(wèn)題。
(1)大多數(shù)研究忽視了交通事故的發(fā)生與否是天然的不平衡現(xiàn)象,獲取的數(shù)據(jù)集往往存在嚴(yán)重的數(shù)據(jù)不平衡問(wèn)題。此類(lèi)研究在進(jìn)行數(shù)據(jù)預(yù)處理時(shí),并未對(duì)存在的數(shù)據(jù)不平衡問(wèn)題進(jìn)行解釋和解決,在進(jìn)行模型的評(píng)價(jià)時(shí),也僅使用準(zhǔn)確率作為模型效果優(yōu)劣的評(píng)價(jià)指標(biāo),忽視了模型能夠?qū)⑸贁?shù)類(lèi)個(gè)體正確識(shí)別的重要性,導(dǎo)致模型無(wú)效且泛化能力較低。
(2)此類(lèi)研究在進(jìn)行建模時(shí)多使用Logistic回歸模型對(duì)數(shù)據(jù)進(jìn)行擬合,而Logistic回歸屬于天然的欠擬合模型,在對(duì)數(shù)據(jù)的分類(lèi)處理能力上不及隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machine, SVM)、極端梯度提升(extreme gradient boosting, XGBoost)等模型。
基于上述分析,從輸入維度和算法兩方面進(jìn)行改進(jìn),現(xiàn)構(gòu)建一種面向不平衡數(shù)據(jù)集的駕駛?cè)私煌ò踩u(píng)估模型,為相關(guān)部門(mén)進(jìn)行識(shí)別交通隱患個(gè)體提供了數(shù)據(jù)支撐。對(duì)于輸入維度的改進(jìn):本文研究將從駕駛?cè)斯逃行再|(zhì)因素、駕駛?cè)私煌ㄐ袨橐蛩貎蓚€(gè)維度對(duì)相關(guān)的14個(gè)特征進(jìn)行分析。在算法改進(jìn)方面,充分考慮該任務(wù)中存在的嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象,使用SMOTENC算對(duì)該問(wèn)題進(jìn)行解決,并且構(gòu)建基于不平衡數(shù)據(jù)構(gòu)建XGBOOST模型,與回歸樹(shù)(decision tree, DT)、RF、SVM一同作為消融實(shí)驗(yàn)的對(duì)照組,用以檢驗(yàn)?zāi)P托Ч?/p>
XGBOOST是一種由多個(gè)CART分類(lèi)樹(shù)組成的BOOSTing類(lèi)型的集成算法。相比于傳統(tǒng)的GBDT算法,XGBOOST算法對(duì)損失函數(shù)進(jìn)行二階泰勒展
開(kāi),使用一階導(dǎo)數(shù)信息及二階導(dǎo)數(shù)信息共同決定損失函數(shù),提高了模型的收斂速度;在損失函數(shù)中加入了正則項(xiàng),用來(lái)控制模型的復(fù)雜度,防止過(guò)擬合情況出現(xiàn);實(shí)行多線程并行計(jì)算,極大提升了模型的訓(xùn)練速度和分類(lèi)精確度。
定義XGBOOST算法的目標(biāo)函數(shù)為
(1)
模型復(fù)雜度的懲罰項(xiàng)為
(2)
式(2)中:γ為節(jié)點(diǎn)切分的難度;λ為L(zhǎng)2正則化系數(shù);||w||為葉節(jié)點(diǎn)權(quán)重向量的模。
為避免過(guò)擬合現(xiàn)象,新生成的樹(shù)需要對(duì)上一次預(yù)測(cè)的殘差進(jìn)行擬合,并通過(guò)迭代進(jìn)行更新,第t輪學(xué)習(xí)輸出的預(yù)測(cè)結(jié)果表示為
(3)
(4)
式中:當(dāng)F={t(x)=wq(x)}、w∈RT時(shí),為模型的預(yù)測(cè)結(jié)果;為前一輪模型的預(yù)測(cè)值;k(xi)為第k棵回歸樹(shù)的預(yù)測(cè)值;t(xi)為參數(shù)函數(shù);xi為第i個(gè)樣本的特征;wq(x)為葉子節(jié)點(diǎn)q的預(yù)測(cè)值;T為回歸樹(shù)葉節(jié)點(diǎn)的個(gè)數(shù);RT為第T個(gè)葉子結(jié)點(diǎn)權(quán)重w的空間。結(jié)合式(1)和式(2)將目標(biāo)函數(shù)使用二階泰勒展開(kāi),并將常數(shù)項(xiàng)移出,得出目標(biāo)函數(shù)的近似公式為
(5)
定義Ij={i|q(xi)=j}為葉子節(jié)點(diǎn)j的實(shí)例集,由式(6)將目標(biāo)函數(shù)轉(zhuǎn)化為
(6)
式(6)中:wj為葉子節(jié)點(diǎn)j的權(quán)重。
(7)
(8)
使用貪心算法迭代地對(duì)現(xiàn)有葉子結(jié)點(diǎn)添加分支,假設(shè)IL和IR分別為劃分后左、右子樹(shù)葉子結(jié)點(diǎn)的集合,I=IL∪IR,劃分后的損失函數(shù)為
(9)
用于處理數(shù)據(jù)不平衡問(wèn)題的SMOTENC算法是過(guò)采樣算法SMOTE的改進(jìn)算法,可以分別處理連續(xù)數(shù)據(jù)及離散數(shù)據(jù),處理流程可表示為如下過(guò)程。
(1)對(duì)于標(biāo)簽中占比較少一類(lèi)的每一個(gè)樣本(x1,x2),計(jì)算該樣本在多維空間中與其他標(biāo)簽中占比較少的一類(lèi)樣本點(diǎn)之間的距離,獲取該樣本最近的k個(gè)鄰近點(diǎn)(即對(duì)標(biāo)簽中占比較少一類(lèi)的樣本點(diǎn)做KNN算法)。
(2)由樣本標(biāo)簽各類(lèi)的比例擬定采樣倍率,對(duì)于所有標(biāo)簽中占比較少的一類(lèi)樣本點(diǎn),從其k個(gè)鄰近點(diǎn)里隨機(jī)選取一些樣本,記為(x′1,x′2)。
(3)對(duì)于連續(xù)數(shù)據(jù),對(duì)每一個(gè)上述步驟中選出的鄰近樣本,根據(jù)式(9)合成新樣本:
(X1,X2)=(x1,x2)+rand(0,1)×Δ
(10)
式(10)中:rand(0,1)為0~1的隨機(jī)數(shù);Δ={(x′1-x1),(x′2-x2)}。
(4)對(duì)于離散數(shù)據(jù),選取近鄰樣本中出現(xiàn)頻率最高的離散數(shù)據(jù)作為新的樣本值。
基于SMOTENC-XGBoost的駕駛?cè)私煌ò踩u(píng)估模型的建立流程為:①根據(jù)相關(guān)文獻(xiàn)研究和專(zhuān)家訪談結(jié)果對(duì)變量進(jìn)行選取;②通過(guò)問(wèn)卷調(diào)查對(duì)數(shù)據(jù)進(jìn)行獲??;③對(duì)數(shù)據(jù)集中存在的缺失值進(jìn)行填補(bǔ);④選定因變量與自變量;⑤對(duì)基于平衡數(shù)據(jù)集建立的模型采用SMOTENC算法,對(duì)數(shù)據(jù)進(jìn)行上采樣并在采樣過(guò)程中加入隨機(jī)擾動(dòng)(在基于不平衡數(shù)據(jù)集建立的對(duì)照組模型的數(shù)據(jù)預(yù)處理階段則不進(jìn)行此步驟);⑥使用Embedded算法結(jié)合L1正則化,通過(guò)模型評(píng)估完成對(duì)特征子集的選擇,使模型自動(dòng)篩選出能夠使模型準(zhǔn)確率較高的特征;⑦建立Logistic回歸模型,通過(guò)獲取的權(quán)重得到自變量對(duì)因變量的影響關(guān)系、自變量之間的效用關(guān)系、自變量各個(gè)取值之間的效用關(guān)系;⑧使用Python語(yǔ)言,基于平衡數(shù)據(jù)集建立XGBoost模型,并將基于平衡數(shù)據(jù)集建立的Logistic回歸、DT、RF、SVM及基于不平衡數(shù)據(jù)集建立的XGBoost作為對(duì)照組;⑨對(duì)比XGBoost、Logistic回歸、DT、RF及SVM模型,驗(yàn)證XGBoost模型在駕駛?cè)私煌ò踩u(píng)估任務(wù)上的有效性;⑩對(duì)比基于不平衡數(shù)據(jù)集建立的XGBoost,驗(yàn)證采用SMOTENC算法對(duì)樣本進(jìn)行平衡的有效性。
其中,第①~②步用于確定研究變量,獲取數(shù)據(jù);第③~⑤步為數(shù)據(jù)預(yù)處理階段,用于對(duì)缺失值,不平衡現(xiàn)象進(jìn)行處理,將數(shù)據(jù)整理為模型能夠接受的數(shù)據(jù)格式;第⑥步為特征選擇階段,用于篩除無(wú)關(guān)變量及冗余變量;第⑦步用于通過(guò)獲取的權(quán)重描述自變量對(duì)因變量的影響關(guān)系、自變量之間的效用關(guān)系、自變量各個(gè)取值之間的效用關(guān)系;第⑧步建立模型;第⑨步用于驗(yàn)證XGBoost模型在駕駛?cè)私煌ò踩u(píng)估任務(wù)上的有效性;第⑩步用于驗(yàn)證采用SMOTENC算法對(duì)樣本進(jìn)行平衡的有效性。
根據(jù)相關(guān)文獻(xiàn)研究和專(zhuān)家訪談結(jié)果[14-16],本文研究中變量選擇為駕駛?cè)斯逃行再|(zhì)維度,包括年齡、性別、駕駛經(jīng)驗(yàn)、個(gè)人年收入、車(chē)輛已使用幾年共5個(gè)變量,及駕駛?cè)私煌ㄐ袨榫S度,包括是否有酒駕經(jīng)歷、是否有疲勞駕駛經(jīng)歷、是否有駕駛時(shí)抽煙經(jīng)歷、行駛過(guò)程中使用手機(jī)的頻率、行駛過(guò)程中不系安全帶的頻率、當(dāng)車(chē)輛損壞時(shí)是會(huì)繼續(xù)上路行駛、過(guò)去一年是否曾出現(xiàn)過(guò)交通事故、過(guò)去一年內(nèi)曾出現(xiàn)交通違法的次數(shù)、過(guò)去一年內(nèi)曾參與文明交通志愿者活動(dòng)次數(shù)共9個(gè)變量。
變量:年齡、性別、駕駛經(jīng)驗(yàn)、個(gè)人年收入,從一定程度上反映著駕駛?cè)说姆磻?yīng)能力、駕駛能力、社會(huì)地位等固有特征。其中個(gè)人年收入影響著駕駛?cè)嗣鎸?duì)較少數(shù)額罰款時(shí)是否積極規(guī)避處罰的態(tài)度。變量:車(chē)輛已使用幾年,一定程度上反映著車(chē)輛的性能。
變量:是否有酒駕經(jīng)歷、是否有疲勞駕駛經(jīng)歷、是否有駕駛時(shí)抽煙經(jīng)歷、行駛過(guò)程中使用手機(jī)的頻率、行駛過(guò)程中不系安全帶的頻率、當(dāng)車(chē)輛損壞時(shí)是會(huì)繼續(xù)上路行駛、過(guò)去一年是否曾出現(xiàn)過(guò)交通事故、過(guò)去一年內(nèi)曾出現(xiàn)交通違法的次數(shù),從一定程度上反映了駕駛?cè)艘酝{駛習(xí)慣的優(yōu)劣。
文明交通志愿者從事交通引導(dǎo)工作,協(xié)助交警指揮疏導(dǎo)行人、非機(jī)動(dòng)車(chē),并能夠勸阻行人、非機(jī)動(dòng)車(chē)闖紅燈、隨意穿行馬路等交通違法行為,在發(fā)揮著示范引領(lǐng)作用。變量:過(guò)去一年內(nèi)曾參與文明交通志愿者活動(dòng)次數(shù),從一定程度上反映著駕駛?cè)说慕煌ㄒ庾R(shí),將該變量納入考察范圍有利于深化文明交通行動(dòng),提高交通參與者參與交通志愿活動(dòng)的意愿,在實(shí)際行動(dòng)中提高交通意識(shí)。
通過(guò)問(wèn)卷星平臺(tái)發(fā)放問(wèn)卷,最終收集1 020份問(wèn)卷。其中不含缺失值的樣本1 009份,占98.92%。本文將特征:過(guò)去一年是否發(fā)生過(guò)交通事故作為標(biāo)簽。將壞個(gè)體定義為:過(guò)去一年發(fā)生過(guò)交通事故的個(gè)體,并編碼為1;好個(gè)體定義為:過(guò)去一年未發(fā)生過(guò)交通事故的個(gè)體,編碼為0。
缺失值。因含有缺失值的樣本占比較少,所以將含有缺失值的樣本刪除。
變量的所屬維度、名稱(chēng)、類(lèi)型等情況如表1所示。
將變量“過(guò)去一年是否曾出現(xiàn)過(guò)交通事故”作為標(biāo)簽,取值類(lèi)型為“是”編碼為1,取值類(lèi)型為“否”編碼為0,其余變量作為特征。
表1 變量基本情況Table 1 Basic information of variables
標(biāo)簽“過(guò)去一年是否曾出現(xiàn)過(guò)交通事故”的兩個(gè)取值類(lèi)別存在嚴(yán)重的不平衡現(xiàn)象。對(duì)于基于平衡數(shù)據(jù)集建立的模型,在數(shù)據(jù)預(yù)處理階段采用SMOTENC算法,對(duì)數(shù)據(jù)進(jìn)行上采樣并在采樣過(guò)程中加入隨機(jī)擾動(dòng)。平衡樣本之前,樣本個(gè)數(shù)為1 009個(gè)。其中標(biāo)簽為1的個(gè)體占樣本總量的1.68%。標(biāo)簽為0的個(gè)體占樣本總量的98.32%。使用SMOTENC算法對(duì)數(shù)據(jù)進(jìn)行平衡后,樣本個(gè)數(shù)為2 017個(gè),標(biāo)簽為1的個(gè)體與標(biāo)簽為0的個(gè)體之間的比例約為1∶1。在基于不平衡數(shù)據(jù)集建立的對(duì)照組模型的數(shù)據(jù)預(yù)處理階段則不進(jìn)行此步驟。
使用Embedded算法結(jié)合L1正則化,通過(guò)模型評(píng)估完成對(duì)特征子集的選擇,使模型自動(dòng)篩選出能夠使模型準(zhǔn)確率較高的特征。模型準(zhǔn)確率與超參數(shù)C的學(xué)習(xí)曲線如圖1所示。
由圖1可知,當(dāng)C=0.51時(shí)特征選擇后的準(zhǔn)確率穩(wěn)定大于特征選擇前。此時(shí)共有6個(gè)特征被保留,分別為性別、駕駛經(jīng)驗(yàn)、是否有酒駕經(jīng)歷、是否有疲勞駕駛經(jīng)歷、行駛過(guò)程中違規(guī)使用手機(jī)頻率、過(guò)去一年內(nèi)曾出現(xiàn)交通違法的次數(shù)。
圖1 模型準(zhǔn)確率與超參數(shù)C的學(xué)習(xí)曲線Fig.1 Model accuracy and learning curve of hyperparameter C
為對(duì)變量之間的關(guān)系進(jìn)行解釋?zhuān)褂肔ogistic回歸以過(guò)去一年是否曾出現(xiàn)過(guò)交通事故為標(biāo)簽,以性別、駕駛經(jīng)驗(yàn)、是否有酒駕經(jīng)歷、是否有疲勞駕駛經(jīng)歷、行駛過(guò)程中違規(guī)使用手機(jī)頻率、過(guò)去一年內(nèi)曾出現(xiàn)交通違法的次數(shù)為特征建立模型。
二元Logistic回歸的一般形式為
(11)
g(x)=θ0+θ1x1+…+θnxn
(12)
式中:n為樣本個(gè)數(shù);θn為每個(gè)特征的權(quán)重;xn為每個(gè)樣本的特征矩陣。
在擬合訓(xùn)練集求解參數(shù)時(shí),使用損失函數(shù)作為信息損失的指標(biāo),模型擬合訓(xùn)練數(shù)據(jù)越好,損失函數(shù)就越小,得到的參數(shù)組合越好。損失函數(shù)定義為
(13)
模型求解過(guò)程使用梯度下降法,設(shè)置最大迭代次數(shù)為100控制迭代進(jìn)程。模型的參數(shù)檢驗(yàn)情況如表2所示。
通過(guò)對(duì)過(guò)去一年是否曾出現(xiàn)過(guò)交通事故的二元然比卡方值為130.537,自由度為10,通過(guò)查卡方檢驗(yàn)臨界值表得,當(dāng)顯著性水平為0.05時(shí),卡方臨界值為18.307。因模型的卡方值為130.537,大于卡方臨界值,且顯著性小于0.05,因此模型通過(guò)了模型系數(shù)的綜合檢驗(yàn)。
通過(guò)對(duì)模型進(jìn)行Hosmer和Lemeshow檢驗(yàn),得到卡方值為0.069,自由度為6,通過(guò)查卡方檢驗(yàn)臨界值表得,當(dāng)顯著性水平為0.05時(shí),卡方臨界值為12.592。因模型的卡方值為0.069小于卡方臨界值,且顯著性小于0.05,因此模型擬合度較好。
該模型通過(guò)了參數(shù)檢驗(yàn)、模型系數(shù)綜合檢驗(yàn)和擬合優(yōu)度檢驗(yàn),模型有意義,可以解釋變量之間的相關(guān)關(guān)系,模型最終分類(lèi)準(zhǔn)確率為98.47%,分類(lèi)效果好。由表3得出以下結(jié)論。
(1)駕駛?cè)斯逃行再|(zhì)因素維度。男性駕駛員發(fā)生交通事故的概率是女性駕駛員的1.667倍;隨著駕駛經(jīng)驗(yàn)的增長(zhǎng),駕駛?cè)税l(fā)生交通事故的風(fēng)險(xiǎn)呈下降趨勢(shì)。
表2 參數(shù)檢驗(yàn)表Table 2 Parameter check list
(2)駕駛?cè)私煌ㄐ袨橐蛩鼐S度。有酒駕或疲勞駕駛經(jīng)歷的駕駛?cè)?,發(fā)生交通事故的概率分別為無(wú)酒駕或疲勞駕駛經(jīng)歷駕駛?cè)说?.092、3.135倍。在行駛過(guò)程中違規(guī)使用手機(jī)頻率及過(guò)去一年內(nèi)曾出現(xiàn)交通違法的次數(shù)上,駕駛?cè)税l(fā)生交通事故的概率均為隨著頻率的升高或次數(shù)的增加而增大。且相比于駕駛時(shí)較少違規(guī)使用手機(jī)的駕駛?cè)?,?jīng)常違規(guī)使用手機(jī)的駕駛?cè)税l(fā)生交通事故的概率為其1.717倍。
將基于平衡數(shù)據(jù)集建立的Logistic回歸、DT、RF、SVM及基于不平衡數(shù)據(jù)集建立的XGBOOST作為對(duì)照組。
本文用于實(shí)現(xiàn)模型的計(jì)算機(jī)語(yǔ)言均為Python。XGBOOST模型的建立基于XGBOOST庫(kù)的XGBClassifier接口,模型的參數(shù)為默認(rèn)值;Logistic回歸、DT、RF、SVM的建立均基于sklearn庫(kù),模型的參數(shù)為默認(rèn)值。
按照7∶3的比例劃分訓(xùn)練集和測(cè)試集,在訓(xùn)練過(guò)程中采用10折交叉驗(yàn)證。模型的準(zhǔn)確率對(duì)比如表3所示。
由表3得,相較于Logistic回歸、DT、RF及SVM,XGBOOST模型的準(zhǔn)確率更高,準(zhǔn)確率提升了0.37%~1.38%。除此之外,相較于基于不平衡數(shù)據(jù)集建立的XGBOOST模型,基于平衡數(shù)據(jù)集建立的XGBOOST模型準(zhǔn)確率提升了0.75%。
分別繪制基于不平衡數(shù)據(jù)集和平衡數(shù)據(jù)集建立的XGBOOST模型的混淆矩陣如圖2所示。
圖2中左上角為真負(fù)類(lèi),表示樣本的真實(shí)類(lèi)別是0,并且模型將其識(shí)別為0;右上角為假負(fù)類(lèi),表示樣本的真實(shí)類(lèi)別是1,但是模型將其識(shí)別為0;左下角為假正類(lèi),表示樣本的真實(shí)類(lèi)別是0,但是模型將其識(shí)別為1;右下角為真正類(lèi),表示樣本的真實(shí)類(lèi)別是1,并且模型識(shí)別的結(jié)果也是1。
由圖2得,對(duì)于不平衡數(shù)據(jù)集的測(cè)試集中的5個(gè)壞個(gè)體,XGBOOST模型將其中的3個(gè)壞個(gè)體分類(lèi)錯(cuò)誤,而對(duì)于平衡數(shù)據(jù)集的測(cè)試集中的318個(gè)壞個(gè)體,XGBOOST模型將所有壞個(gè)體正確分類(lèi)。因此,在駕駛?cè)私煌ò踩u(píng)估任務(wù)上,采用SMOTENC算法對(duì)樣本進(jìn)行平衡,并使用XGBOOST算法對(duì)數(shù)據(jù)進(jìn)行擬合得到的效果更好,更適用于評(píng)判駕駛?cè)耸欠裼薪煌ㄊ鹿拾l(fā)生的傾向性。
表3 模型的準(zhǔn)確率對(duì)比Table 3 The accuracy comparison of the model
圖2 混淆矩陣Fig.2 confusion matrix
本文研究的創(chuàng)新點(diǎn)具體體現(xiàn)在3個(gè)方面。
(1)將研究駕駛?cè)说臍v史交通行為,如駕駛?cè)耸欠裼芯岂{經(jīng)歷、是否有疲勞駕駛經(jīng)歷等因素,結(jié)合駕駛?cè)斯逃刑卣骷败?chē)輛狀態(tài),同時(shí)納入交通致因因素的研究范圍,對(duì)管理部門(mén)開(kāi)展針對(duì)性整治活動(dòng)提供理論支撐。
(2)充分考慮該任務(wù)中存在的嚴(yán)重的數(shù)據(jù)不平衡現(xiàn)象,使用SMOTENC算對(duì)該問(wèn)題進(jìn)行解決,并且構(gòu)建基于不平衡數(shù)據(jù)構(gòu)建XGBoost模型作為消融實(shí)驗(yàn)的對(duì)照組,以準(zhǔn)確率、混淆矩陣共同作為模型的評(píng)價(jià)指標(biāo),通過(guò)實(shí)驗(yàn)證明數(shù)據(jù)不平衡在模型擬合時(shí)所造成的問(wèn)題。
(3)使用機(jī)器學(xué)習(xí)的方法構(gòu)建模型,以Logistic回歸、DT、RF、SVM作為 對(duì)照組,以準(zhǔn)確率作為模型的評(píng)價(jià)指標(biāo),通過(guò)實(shí)驗(yàn)證明XGBoost模型在解決該問(wèn)題上的優(yōu)越性。
(4)由實(shí)驗(yàn)得,隨著駕駛經(jīng)驗(yàn)的增長(zhǎng),駕駛?cè)税l(fā)生交通事故的概率先升后降,說(shuō)明老年駕駛?cè)丝赡芤蛞暳顩r、反應(yīng)速度、認(rèn)知能力等方面存在不適合繼續(xù)駕駛的情況,所以之后的研究可以圍繞老年駕駛?cè)耸欠衲軌蚶^續(xù)駕駛進(jìn)行展開(kāi)。