魏思遠(yuǎn),劉佳,李蓓蓓
(1.北京信息科技大學(xué) 自動(dòng)化學(xué)院,北京 100192;2.32381部隊(duì),北京100072)
數(shù)據(jù)挖掘是一種重要的信息處理技術(shù),是從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的有用信息和知識(shí)的過(guò)程,其主要通過(guò)對(duì)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和模型化處理等,來(lái)提取輔助預(yù)測(cè)或決策的規(guī)律。常用的數(shù)據(jù)挖掘方法包括分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析和異常檢測(cè)等。應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)交通事故數(shù)據(jù)進(jìn)行分析處理,對(duì)道路交通中發(fā)生事故的原因進(jìn)行評(píng)價(jià)和預(yù)測(cè),可為交通部門(mén)制定相應(yīng)的預(yù)防性政策,優(yōu)化交通系統(tǒng)提供有用的指導(dǎo)。
先驗(yàn)(Apriori)算法是經(jīng)典的關(guān)聯(lián)分析方法,在交通事故挖掘中應(yīng)用較多。Apriori算法利用支持度和置信度指標(biāo)來(lái)分辨數(shù)據(jù)中存在的規(guī)則:通過(guò)設(shè)定最小支持度,獲得支持度大于最小支持度的集合——頻繁項(xiàng)集;通過(guò)設(shè)置最小置信度,得到置信度大于最小置信度的關(guān)聯(lián)規(guī)則,即強(qiáng)關(guān)聯(lián)規(guī)則。李佳敏等[1]基于保險(xiǎn)公司提供的交通事故數(shù)據(jù),通過(guò)Apriori算法分析了駕齡、時(shí)間段以及月份與事故發(fā)生的關(guān)聯(lián)性。李妙梅等[2]基于Apriori算法探討了電動(dòng)自行車(chē)危險(xiǎn)駕駛行為的影響因素。杭福兵[3]采用Apriori算法對(duì)公交車(chē)交通事故數(shù)據(jù)進(jìn)行了分析。牛毅等[4]以高速公路貨車(chē)交通事故數(shù)據(jù)為樣本,用Apriori算法和可視化技術(shù)挖掘了事故影響因素間的關(guān)聯(lián)關(guān)系。但是Apriori算法挖掘效果受最小支持度和最小置信度參數(shù)設(shè)置影響較大,并且在大數(shù)據(jù)集上執(zhí)行效率較低。
模型化方法通過(guò)建立數(shù)學(xué)模型分析事故特征及其主要影響因素。金雪純子[5]基于特大交通事故數(shù)據(jù)集,分析特大交通事故的分布特征,構(gòu)建隨機(jī)參數(shù)評(píng)定模型(logit model)以揭示特大交通事故嚴(yán)重程度的關(guān)鍵影響因素。毛應(yīng)萍等[6]提出了基于事故嚴(yán)重程度的地理信息系統(tǒng)(geographic information systems,GIS)事故多發(fā)點(diǎn)段動(dòng)態(tài)分析模型。羅圣西[7]利用邏輯回歸和隨機(jī)森林算法建立了基于空間環(huán)境特征的事故嚴(yán)重程度預(yù)測(cè)模型,用以識(shí)別影響事故嚴(yán)重程度的主要特征。Feng等[8]用時(shí)間序列和深度學(xué)習(xí)模型對(duì)英國(guó)交通事故數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。Jiang等[9]應(yīng)用云計(jì)算技術(shù)和物聯(lián)網(wǎng)技術(shù)構(gòu)建模型進(jìn)行事故數(shù)據(jù)分析。這一類(lèi)方法的分析效果受模型特性影響,一般選擇代表性因素進(jìn)行建模,無(wú)法考慮更多更全面的影響因素。
不同于只基于關(guān)聯(lián)分析算法的研究和構(gòu)建模型的方法,本文融合運(yùn)用統(tǒng)計(jì)、分類(lèi)、關(guān)聯(lián)分析算法,對(duì)交通事故數(shù)據(jù)進(jìn)行挖掘和分析,以尋找對(duì)交通事故嚴(yán)重程度有重要影響的因素。通過(guò)多種算法融合和互相驗(yàn)證的方式,避免了單一方法的局限性,提高了獲取信息的全面性和可靠性。
交通事故數(shù)據(jù)挖掘系統(tǒng)流程如圖1所示。對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì),并應(yīng)用分類(lèi)、關(guān)聯(lián)分析算法進(jìn)行挖掘分析。本文基于開(kāi)源數(shù)據(jù)挖掘軟件Weka進(jìn)行實(shí)驗(yàn)。
圖1 數(shù)據(jù)挖掘系統(tǒng)流程
首先進(jìn)行數(shù)據(jù)的預(yù)處理,剔除無(wú)關(guān)屬性并對(duì)數(shù)值屬性進(jìn)行離散化。
其次進(jìn)行匯總統(tǒng)計(jì)和可視化,以發(fā)現(xiàn)數(shù)據(jù)的規(guī)律性,從而決定后續(xù)的挖掘策略。
再次,應(yīng)用決策樹(shù)算法C4.5、支持向量機(jī)(support vector machines,SVM)算法和貝葉斯(Bayes)算法對(duì)交通事故數(shù)據(jù)進(jìn)行分類(lèi),通過(guò)不同因素對(duì)分類(lèi)準(zhǔn)確率的影響程度篩選出交通事故的重要影響因素。C4.5算法是一種經(jīng)典的決策樹(shù)算法,用信息增益率來(lái)選擇屬性。由于決策樹(shù)算法具有可解釋性,本文選用該算法進(jìn)行分類(lèi)挖掘。支持向量機(jī)是一種具有強(qiáng)大的正則化能力的判別分類(lèi)模型,具有統(tǒng)計(jì)學(xué)理論基礎(chǔ),可以很好地應(yīng)用于高維數(shù)據(jù)。貝葉斯分類(lèi)算法是統(tǒng)計(jì)學(xué)中的一種分類(lèi)方法,利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類(lèi)。該算法能運(yùn)用到大型數(shù)據(jù)中,而且方法簡(jiǎn)單,分類(lèi)準(zhǔn)確率高、速度快,對(duì)噪聲魯棒。本文選用支持向量機(jī)和貝葉斯這兩種算法進(jìn)行分類(lèi),目的是與決策樹(shù)算法結(jié)果進(jìn)行對(duì)比,以驗(yàn)證分類(lèi)結(jié)果的有效性。
通過(guò)分類(lèi)可得到影響事故嚴(yán)重程度的因素。這些因素之間,以及與其他因素之間存在哪些規(guī)律性,可以通過(guò)關(guān)聯(lián)分析來(lái)獲得。本文應(yīng)用Apriori算法進(jìn)行關(guān)聯(lián)分析,利用支持度和置信度指標(biāo)來(lái)獲取數(shù)據(jù)中存在的規(guī)律。
交通事故數(shù)據(jù)指與交通事故有關(guān)的駕駛員、車(chē)輛、道路和環(huán)境信息數(shù)據(jù),具體包括事故發(fā)生時(shí)間、地點(diǎn)、事故車(chē)輛型號(hào)、載客數(shù)量、乘客傷亡情況、駕駛員狀態(tài)和行為,以及事故發(fā)生時(shí)的天氣等環(huán)境信息。
在這些信息中,駕駛員狀態(tài)和行為、車(chē)輛狀況、道路周邊情況,以及天氣環(huán)境都是事故發(fā)生的潛在原因。具體來(lái)說(shuō),駕駛員的狀態(tài)和行為包括是否存在酒駕、疲勞駕駛、未系好安全帶、操作失誤等不當(dāng)行為;車(chē)輛原因指車(chē)輛是否發(fā)生故障;道路周邊情況指事故發(fā)生時(shí)周邊車(chē)輛和行人情況、道路基礎(chǔ)設(shè)施和交通條件;天氣環(huán)境包含天氣狀況、溫度、濕度、風(fēng)速、氣壓等環(huán)境信息。
本文基于kaggle網(wǎng)站[10]的美國(guó)2016-2021年車(chē)輛事故數(shù)據(jù)集[11-12]對(duì)影響交通事故嚴(yán)重程度的因素進(jìn)行研究。該數(shù)據(jù)集約有280萬(wàn)條事故記錄,是由美國(guó)執(zhí)法機(jī)構(gòu)和49個(gè)州的道路交通傳感器在2016年2月到2021年12月間收集到的數(shù)據(jù)。每條數(shù)據(jù)都記錄了事故發(fā)生時(shí)的47個(gè)現(xiàn)場(chǎng)要素,如:事故發(fā)生的時(shí)間、所在的位置、影響的道路長(zhǎng)度、事故嚴(yán)重程度、附近的道路設(shè)施情況,以及天氣、溫度、濕度、風(fēng)向、風(fēng)速、氣壓等天氣環(huán)境狀況。對(duì)該事故數(shù)據(jù)集的預(yù)處理過(guò)程如下。
1)剔除了17個(gè)與本次挖掘無(wú)關(guān)的屬性,如“事故編號(hào)”、“郵政編碼”、“國(guó)家”、“州”、“城市”、“道路編碼”、“GPS定位”、“時(shí)區(qū)”等;刪除了有重復(fù)含義的3個(gè)不同標(biāo)準(zhǔn)下的時(shí)段屬性。選取剩余的27個(gè)屬性用于研究,如表1所示。
表1 數(shù)據(jù)屬性
2)為了進(jìn)行分類(lèi)和關(guān)聯(lián)分析,對(duì)除了“時(shí)區(qū)時(shí)間”和“天氣時(shí)間戳”之外的數(shù)值屬性進(jìn)行了離散化處理。
針對(duì)預(yù)處理后的數(shù)據(jù),首先進(jìn)行匯總統(tǒng)計(jì),以發(fā)現(xiàn)數(shù)據(jù)的規(guī)律性,獲取交通安全影響因素,并為后續(xù)的挖掘策略奠定基礎(chǔ)。具體實(shí)驗(yàn)過(guò)程如下。
1)首先對(duì)美國(guó)交通事故數(shù)據(jù)集[11-12]中2016-2021年數(shù)據(jù)進(jìn)行隨機(jī)抽樣,共抽取約6 300條數(shù)據(jù)。
2)對(duì)溫度、濕度、風(fēng)速等數(shù)值屬性計(jì)算最大值、最小值、均值、方差等統(tǒng)計(jì)量;對(duì)天氣狀況、風(fēng)向?qū)傩杂?jì)算不同取值所占的比例,找到占比前三的屬性值;對(duì)嚴(yán)重程度屬性及所有二元屬性統(tǒng)計(jì)不同取值的比例。
3)基于統(tǒng)計(jì)量計(jì)算及可視化結(jié)果來(lái)分析數(shù)據(jù)分布的規(guī)律性,挖掘事故影響因素。
4)通過(guò)不同屬性之間的線(xiàn)性相關(guān)性的可視化,發(fā)現(xiàn)屬性之間的相關(guān)關(guān)系,后續(xù)挖掘時(shí)可去除相關(guān)屬性。
圖2~4分別為2016-2021年溫度、濕度、風(fēng)速幾種數(shù)值屬性的抽樣數(shù)據(jù)分布情況。
圖2 溫度分布
圖3 濕度分布
圖4 風(fēng)速分布
由圖2可知,溫度在較適宜的6~26.7 ℃范圍內(nèi)時(shí)發(fā)生的事故數(shù)量較多,而較低和較高溫度區(qū)間的事故數(shù)量較少。由圖3可知,隨著濕度的增加事故的數(shù)量也增加。由圖4可知,風(fēng)速較小時(shí)事故數(shù)量較多。
表2是2016年和2021年天氣狀況排名前三的取值占比情況,圖5、6顯示了天氣狀況的具體分布。
表2 2016、2021年天氣狀況占比排名情況
圖5 2016年抽樣集天氣狀況分布
圖6 2021年抽樣集天氣狀況分布
由表2和圖5、6可知,兩組抽樣數(shù)據(jù)里,排在前三位的天氣都是晴、多云和陰,并且都是晴朗天氣占比最大,發(fā)生事故數(shù)量較多,而一些極端天氣,如大雨、大雪、霧等發(fā)生事故數(shù)量占比非常小。
分析以上統(tǒng)計(jì)規(guī)律出現(xiàn)的原因:在氣溫適宜、風(fēng)速不大、無(wú)雨雪、無(wú)霧的天氣下,交通出行量較大,因此發(fā)生事故的數(shù)量也較多;由于濕度的增加能夠增加車(chē)燈、制動(dòng)系統(tǒng)、地盤(pán)的故障率,因此濕度越大發(fā)生事故的數(shù)量越多。
表3統(tǒng)計(jì)了2016年數(shù)據(jù)中“嚴(yán)重程度”和“時(shí)段”不同取值的比例。可以看出,較輕程度事故(等級(jí)2)所占比例最大,白天發(fā)生事故的比例高于夜晚。
表3 嚴(yán)重程度、時(shí)段取值占比
對(duì)表1中9個(gè)數(shù)值屬性間的相關(guān)性進(jìn)行判定。任意選擇兩個(gè)屬性,分別以?xún)蓚€(gè)屬性的取值作為數(shù)據(jù)點(diǎn)的橫、縱坐標(biāo)繪制散點(diǎn)圖,根據(jù)圖上數(shù)據(jù)點(diǎn)的分布來(lái)判定兩個(gè)屬性的相關(guān)性。通過(guò)對(duì)所有屬性組合的散點(diǎn)圖進(jìn)行觀察,發(fā)現(xiàn)屬性“溫度”和“風(fēng)寒溫度”有較強(qiáng)的正相關(guān)性。圖7顯示了 “溫度”和“風(fēng)寒溫度”的正相關(guān)性關(guān)系(數(shù)據(jù)點(diǎn)大體分布在斜率為正的一條直線(xiàn)上),因此可選擇去除“風(fēng)寒溫度”屬性后再進(jìn)行挖掘。
圖7 “溫度”和“風(fēng)寒溫度”的相關(guān)性
為了進(jìn)一步找出與事故嚴(yán)重程度關(guān)系密切的因素,對(duì)抽樣事故數(shù)據(jù)集應(yīng)用決策樹(shù)C4.5算法、SVM算法和Bayes算法,基于10折交叉驗(yàn)證進(jìn)行分類(lèi)挖掘,具體實(shí)驗(yàn)過(guò)程如下。
1)選擇描述交通事故嚴(yán)重性的屬性“嚴(yán)重程度”作為類(lèi)別屬性,選擇表1中的其余屬性作為特征屬性,進(jìn)行分類(lèi),驗(yàn)證屬性集合和事故嚴(yán)重程度之間的關(guān)聯(lián)性。用C4.5算法分類(lèi),正確率為85.1%;用SVM算法分類(lèi),正確率為84.7%;用貝葉斯算法進(jìn)行分類(lèi),正確率為81.9%。
2)去掉某特征屬性,重新進(jìn)行分類(lèi),看分類(lèi)正確率的變化,以驗(yàn)證該屬性對(duì)事故嚴(yán)重程度的影響。例如,去掉與“溫度”屬性有正相關(guān)性的“風(fēng)寒溫度”屬性,重新進(jìn)行分類(lèi),3種分類(lèi)算法平均正確率下降了約0.1%。驗(yàn)證了“風(fēng)寒溫度”屬性對(duì)交通事故等級(jí)分類(lèi)有較小的影響,原因在于其與“溫度”屬性的相關(guān)性。而去掉“濕度”屬性,3種算法平均分類(lèi)正確率下降了約0.5%,可見(jiàn)“濕度”屬性與事故嚴(yán)重程度相關(guān)性較強(qiáng)。
3)測(cè)試所有特征屬性對(duì)“嚴(yán)重程度”分類(lèi)的影響,得到與事故嚴(yán)重程度相關(guān)性較強(qiáng)的屬性為天氣狀況、溫度、濕度、風(fēng)速、可見(jiàn)度、時(shí)段、是否交叉路口。但分類(lèi)挖掘算法存在的問(wèn)題是,去除冗余屬性后,事故影響因素挖掘結(jié)果可能不全面,因此后續(xù)的關(guān)聯(lián)分析分兩種情況進(jìn)行:一是保留大部分屬性(只去除“風(fēng)寒溫度”);二是只保留重要屬性組。
比較不同分類(lèi)算法的分類(lèi)效果,發(fā)現(xiàn):決策樹(shù)算法對(duì)屬性的變化不太敏感,原因是該算法對(duì)冗余屬性具有魯棒性[13];在本實(shí)驗(yàn)中SVM算法運(yùn)行速度最慢,Bayes算法對(duì)屬性的變化更敏感。
由3.1~3.2節(jié)分析結(jié)果可知:天氣環(huán)境因素、時(shí)段、是否交叉路口是事故嚴(yán)重程度的重要影響因素。這些因素之間存在哪些相關(guān)性,可以通過(guò)關(guān)聯(lián)分析來(lái)獲得。
本文應(yīng)用Apriori算法進(jìn)行關(guān)聯(lián)分析,具體步驟如下:
1)針對(duì)原始的屬性組去掉相關(guān)屬性,即表1屬性組去掉“風(fēng)寒溫度”,進(jìn)行關(guān)聯(lián)分析;
2)對(duì)3.2節(jié)分類(lèi)算法篩選出的重要屬性,即天氣狀況、溫度、濕度、風(fēng)速、可見(jiàn)度、時(shí)段、是否交叉路口,進(jìn)行關(guān)聯(lián)分析。
得到如下關(guān)聯(lián)規(guī)則:
1)可見(jiàn)度為15.3~20.1 km,非交叉路口→事故嚴(yán)重程度為輕;
2)白天,晴天/多云,可見(jiàn)度為15.3~20.1 km→事故嚴(yán)重程度為輕;
3)事故嚴(yán)重程度為重→非交叉路口。
基于以上關(guān)聯(lián)規(guī)則,可知:白天,可見(jiàn)度較好的非交叉口路段,容易發(fā)生交通事故,但一般較輕,其原因可能是在路況較好情況下,司機(jī)容易懈怠;較嚴(yán)重的交通事故更易發(fā)生在非交叉路口路段,原因可能是在非路口路段,司機(jī)車(chē)速較快。
綜合第3.1~3.3節(jié)分析過(guò)程,匯總出以下信息,并嘗試分析了原因:
1)適宜天氣下交通事故發(fā)生數(shù)量較多,其原因是交通出行量較大;
2)濕度越大發(fā)生事故的數(shù)量越多,其原因可能是濕度增加了汽車(chē)部件的故障率;
3)溫度、氣壓、濕度、風(fēng)速、天氣狀況、可見(jiàn)度等環(huán)境因素、時(shí)段(白天/夜晚)、是否交叉路口等信息與事故嚴(yán)重程度相關(guān)性較強(qiáng);
4)白天,晴天/多云,可見(jiàn)度較好的非交叉口路段,容易發(fā)生事故,但一般較輕,其原因可能是路況較好時(shí),司機(jī)容易大意;
5)較嚴(yán)重的交通事故一般也發(fā)生在非交叉路口。其原因可能是司機(jī)在非路口路段駕駛時(shí),車(chē)速往往較快。
為了避免交通事故的發(fā)生,給出以下出行建議:在出行前應(yīng)檢查車(chē)輛狀況,盡量選擇濕度較小的天氣出行;在路況較好的情況下,司機(jī)也不可以放松警惕;控制好車(chē)速,是避免嚴(yán)重交通事故的關(guān)鍵。
本文基于美國(guó)2016-2021年交通事故數(shù)據(jù)集,運(yùn)用C4.5、SVM、Bayes、Apriori等算法,研究了交通事故各相關(guān)因素的關(guān)系,獲得了影響交通事故嚴(yán)重程度的主要因素,避免了單一方法的局限,提高了獲取信息的全面性和可靠性。通過(guò)數(shù)據(jù)挖掘給出了結(jié)論:在天氣狀況較好、視線(xiàn)較清晰的非路口路段,更容易發(fā)生事故;濕度會(huì)增大事故發(fā)生的可能性;嚴(yán)重的交通事故更易發(fā)生在非路口路段。最后基于挖掘結(jié)果給出了交通出行注意事項(xiàng)。本研究可以作為交通管理政策制定的信息參考。