徐 鵬,蔣 凱,王澤華,朱 正
(河海大學土木與交通學院,江蘇 南京210009)
基于粗糙集的道路交通事故客觀因素顯著性分析
徐 鵬,蔣 凱,王澤華,朱 正
(河海大學土木與交通學院,江蘇 南京210009)
道路交通事故數(shù)據(jù)龐大,傳統(tǒng)方法對交通事故客觀因素的分析較為原始和平面,沒有充分挖掘數(shù)據(jù)之間的潛在聯(lián)系,且運用傳統(tǒng)的方法分析大量交通數(shù)據(jù)較為困難,所以當今通過數(shù)據(jù)挖掘技術從大量交通事故數(shù)據(jù)中挖掘出有聯(lián)系和價值的信息已成為交通安全領域的熱點研究問題。針對傳統(tǒng)事故數(shù)據(jù)統(tǒng)計分析方法的不足,以交通事故數(shù)據(jù)為基礎,建立一種基于粗糙集理論的新型數(shù)值模型。通過此數(shù)值模型從大量交通事故數(shù)據(jù)中挖掘分析事故客觀因素,以客觀因素顯著性計算結果為數(shù)值依據(jù)將各客觀因素排序,得出各客觀因素對交通事故影響作用大小不同的結論,為以后相關部門交通安全政策的制定提供依據(jù)。
交通安全;數(shù)據(jù)挖掘;客觀因素分析;顯著性 ;粗糙集
機動車保有量持續(xù)增長且有關駕駛員不遵守交通規(guī)則,從而引發(fā)的交通事故越發(fā)頻繁。目前,公安機關已建立龐大的交通事故信息庫,而在這些數(shù)據(jù)中存在著大量的且尚未被發(fā)現(xiàn)、存在潛在聯(lián)系的有價值數(shù)據(jù)。通過數(shù)據(jù)挖掘技術對大量交通事故數(shù)據(jù)進行挖掘分析、已經(jīng)成為國內(nèi)外交通安全研究領域的熱點問題。然而我國相關部門目前對交通數(shù)據(jù)庫的分析還停留在較為簡單,平面和原始的狀態(tài),僅僅對事故總起數(shù),人員傷亡數(shù)和直接經(jīng)濟財產(chǎn)損失等做宏觀統(tǒng)計。本文充分肯定了在交通事故中主觀因素的重要性,但交通事故整體特征以及與交通事故發(fā)生相關聯(lián)的客觀因素更加值得關注,通過建立數(shù)值模型從大量交通事故庫中挖掘分析道路交通事故客觀因素的顯著性,為相關交通部門下一步?jīng)Q策提供依據(jù),從而減少交通事故的發(fā)生。
數(shù)據(jù)挖掘最早于1989年ACM大會上提出的,是指從大量的數(shù)據(jù)中提取出隱藏在其中的、人們事先不知道的、潛在的有價值的信息和知識的過程。歐洲環(huán)境委員會(EEA)對洲內(nèi)各個國家的交通的數(shù)據(jù)情況搜集、分析和挖掘,使得交通管理部門對事故數(shù)據(jù)的處理變得更加系統(tǒng)[1]。美國運輸研究管理中心通過交通事故數(shù)據(jù)庫,并且與州際高速公路運輸協(xié)會和公共運輸標準委員會等機構進行合作,對國內(nèi)的汽車安全狀況做了翔實的統(tǒng)計分析,并運用數(shù)據(jù)挖掘的技術對國內(nèi)的整體汽車安全水平進行了評價[2]??纤髮W運用數(shù)據(jù)挖掘技術開發(fā)出了事故自動的采集系統(tǒng),總體上達到了事故的數(shù)據(jù)采集和事故數(shù)據(jù)處理相對集成化[3]。日本的工程研究協(xié)會運用事故數(shù)據(jù)和地圖建立了與GIS相結合的事故分析系統(tǒng),對相關數(shù)據(jù)進行了數(shù)據(jù)挖掘分析研究,并對北海道的交通事故狀況進行了分析。綜上可見,歐洲、美國、日本等國家運用先進的數(shù)據(jù)挖掘技術對交通事故數(shù)據(jù)進行挖掘分析,除統(tǒng)計基本的參數(shù)外,更加注重這些數(shù)據(jù)之間的聯(lián)系以及交通事故的原因和影響因素,為相關部門進一步管理和決策提供依據(jù)。
我國與國外在交通事故數(shù)據(jù)的處理和方案的制定方面還存在很大的差距,我國對事故數(shù)據(jù)仍然局限于平面分析,僅對事故總起數(shù)、傷亡人數(shù)、直接經(jīng)濟損失等相關指標做宏觀統(tǒng)計,并未運用數(shù)據(jù)挖掘技術對交通事故數(shù)據(jù)之間潛在聯(lián)系進行挖掘研究分析,從而建立起交通事故影響因素之間的聯(lián)系。從WHO發(fā)布的交通事故報告可知,我國以交通事故27.3%的致死率,位居世界之首,可見我國由于缺乏對交通事故的進一步具體分析,挖掘具體的原因,分析隱藏在數(shù)據(jù)背后的聯(lián)系,未能及時制定對應的決策方案,成為我國事故死亡率居高不下原因之一。
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中通過統(tǒng)計、在線分析處理、機器學習等許多方式,根據(jù)不完整信息挖掘出與之相關聯(lián)的信息,揭示隱藏在數(shù)據(jù)背后的規(guī)律,并可以對未來的趨勢進行預測[4]。粗糙集理論已經(jīng)廣泛的應用于其他領域,如機器學習,決策分析等[5]。
1)知識表達系統(tǒng) 知識表達系統(tǒng)S可表示為S={U,B,V,F(xiàn)},U是論域,B=C∪D是屬性集合,條件屬性C與結果屬性D是子集[6]。知識表達系統(tǒng)在下面客觀因素挖掘分析案例中指的是事故總起數(shù)、客觀因素和事故類別構成的整體。
2)上近似和下近似設X?U是任意一個子集,R是U上的等價關系,則上近似和下近似集可表示為:R(X)={X∈U,[x]R?U},(X)={X∈U,[x]R∩X≠?}。 上近似和下近似在論文中用于計算屬性子集的重要度。
3)決策表屬性依賴度 設C和D是屬性集合,C對于D的依賴度定義為:其中POSc(D)為D的C正域,為集合U的基數(shù)。 在實際案例分析研究中指的是事故客觀因素集對事故類別屬性集的分類相似度。
4)決策表屬性重要度 設b∈C,C是條件屬性集,D是決策屬性集,則b的屬性重要度是γC(D)-γC-b(D)。在實際分析案例中指的是某一個客觀因素相對于事故類別屬性集的顯著性。
本研究考慮到道路交通事故受許多客觀因素的影響,例如道路環(huán)境,事故發(fā)生時間段,車輛的顏色、型號,車輛品牌,駕駛員的年齡,天氣情況,風向和風力,氣溫等,不同的客觀因素對交通事故的影響程度不同,本研究把這種影響程度的差異定義為事故客觀因素的顯著性。
交通事故客觀因素分析有明顯的對象性特征,即事故是以對象為基礎的,對于不同的對象,事故客觀因素顯著性也不相同。事故的類別也對道路交通事故客觀因素分析產(chǎn)生影響,對不同研究目標,客觀分析也可能具有不同顯著性[7]。
道路交通事故客觀因素分析的確是基于具體客觀因素而言,客觀因素顯著性也具有相對性,客觀因素顯著性還需要基于具體的客觀因素,各個客觀因素顯著性之間的比較是相對的。實際的客觀因素顯著性分析中,客觀因素還包括道路環(huán)境,車輛情況,駕駛員狀態(tài),天氣條件,溫度等。
基于上述客觀因素的特點分析,從而建立起客觀因素顯著性分析模型
式中:σci(D)為客觀因素Ci顯著性;Ci為事故客觀因素;U為事故分析的對象;D為事故類別屬性集合;C為事故客觀因素集合。
在現(xiàn)實的事故客觀因素顯著性分析中,在已知的客觀因素分析對象,事故類別屬性和客觀因素集合前提下,可基于原客觀因素顯著性分析模型,建立相應的數(shù)學模型,用于對客觀因素顯著性進行數(shù)值分析。
粗糙集理論認為不同屬性對系統(tǒng)重要性有差異,各屬性重要性用重要度來表現(xiàn)??筛鶕?jù)去除該屬性,根據(jù)系統(tǒng)分類的差別大小來判斷該屬性的重要性。
假定{U,C∪D,V,F(xiàn)}是決策表,其中C和D為條件屬性集和決策屬性集,屬性子集C′?C,D的重要度為σCD(C′),見下式(1)[8]:
通過計算去除該條件屬性前后屬性度依賴度變化的幅度大小來判斷該屬性的重要程度。屬性重要度分析是基于兩基本條件的①明確的決策屬性集合②分析是基于多屬性集合而言的。運用粗糙集來分析事故數(shù)據(jù)也滿足這兩條基本條件,所以通過粗糙集理論為基礎建立的數(shù)值模型來分析交通事故客觀因素的顯著性具有可行性。
運用原理分析客觀因素的顯著性,從而建立起交通事故決策表{U,C∪D,V,F(xiàn)},對客觀因素Ci?C,由式(2)計算出客觀因素 Ci關于 D 的顯著性,見下式(2)[9]:
式中:γc(D)為 C 對于 D 分類相似度;γc-ci(D)為子集 C-Ci對于 D 分類相似度。
式中:card(POSc(D))為 C 對 D 正域的基數(shù);card(U)為交通事故決策表集 U 的基數(shù);card(POSc-ci(D))為子集C-Ci對于D正域的基數(shù)。
以上述方法為根據(jù),可建立起交通事故因素顯著性分析的數(shù)值模型:
通過計算得出交通事故客觀因素顯著性數(shù)值,以各客觀因素數(shù)值大小為依托,對各客觀因素進行對比分析。
為了更加精煉的表達出基于粗糙集理論的事故客觀因素分析數(shù)值模型和方法,詳細的流程圖總結如圖1所示。
圖1 基于粗糙集理論的事故客觀因素分析流程圖Fig.1 Analysis flowchart of objective factors based on rough set theory
論文收集了貴陽市2015年1月1日——5月31日的道路交通事故數(shù)據(jù),交通事故數(shù)共計18 041條。以收集到的數(shù)據(jù)作為樣本,通過以數(shù)值模型來挖掘分析出事故的客觀因素顯著性。
表1 貴陽市2015年1月至5月交通事故組成Tab.1 Traffic accident composition in Guiyang City(from January to May,2015)
選取了事故數(shù)據(jù)中的 7 個事故屬性作為知識表達系統(tǒng)條件屬性 C,C={C1,C2,C3,C4,C5,C6,C7},其中C1為發(fā)生事故的時間段,C2為車輛的顏色,C3為車輛型號,C4為駕駛員年齡,C5為天氣條件,C6為氣溫條件,C7為風力,共同組成交通事故客觀因素集合。D是事故形態(tài)決策屬性,它構成了事故類別的屬性集合。C1:1上午,2 中午,3 下午,4 晚上;C2:01白色,02銀色,03黑色,04紅色,05綠色,06黃色,07灰色,08藍色,09其他顏色;C3:1、別克,2、奧迪,3、寶來,4、寶馬,5、北京現(xiàn)代,6、比亞迪,7、賓利,8、東風標致,9、東風日產(chǎn),10、豐田,11、福特,12、大眾,13、其他型號;C4:1、青年(18-30 歲),2、壯年(30-40),3、中年(40-50),4、中老年(50-60),5、其他;C5:1、雨,2、雪,3、晴,4、多云,5、陰天,6、其他。C6:1、-1-5 度,2、5-10 度,3、10-15 度,4、15-20 度,5、20-25 度,6、25-30 度;C7:1、風力?3 級,2、其他。
在已經(jīng)確定了客觀因素和類別屬性集合后,然后建立起貴陽市的事故形態(tài)知識表達系統(tǒng),由于篇幅有限,僅僅摘錄5行數(shù)據(jù),見表2。
表2 交通事故形態(tài)知識表達系統(tǒng)Tab.2 Knowledge system of traffic accident morphology
在上述的貴陽市道路交通事故形態(tài)知識表達系統(tǒng)中,C是條件屬性,C={C1,C2,C3,C4,C5,C6,C7 },D為決策屬性,D={11,12,13,21,22,23,28,99 }, 該系統(tǒng)在此挖掘案例分析中表達的是客觀因素集決定的事故類別屬性集。
U 為論域,card(U)=18 041;POSc(D)為正域,card(POSc(D))=7 412。 則代入上述數(shù)值可得出客觀因素集C對類別屬性集D的分類相似度γc(D)=0.410 842;為了獲取條件屬性C對決策屬性D的顯著性,可以假設忽略條件屬性 Ci(i=1,2,3,4,5,6,7),則 C-Ci對 D 的分類相似度為 γc-ci(D)。
計算知識表達系統(tǒng)中條件屬性 card(POSc-ci(D))(i=1,2,3,4,5,6,7)的值,得 card(POSc-c1(D))=3 756,card(POSc-c2(D))=4 638,card(POSc-c3(D))=4 992,card(POSc-c4(D))=4 168,card(POSc-c5(D))=5 341,card(POSc-c6(D))=5 487,card(POSc-c7(D))=6 459。 將屬性正域的結果代入公式即可得 γC-C1(D)=0.208 192,γC-C2(D)=0.257 081,γC-C3(D)=0.276 703,γC-C4(D)=0.231 029,γC-C5(D)=0.296 048,γC-C6(D)=0.304 141,γC-C7(D)=0.358 018。
由公式(2)計算出 σCi(D),σC1(D)=0.410 842-0.208 192=0.202 65,σC2(D)=0.410 842-0.257 081=0.153 761,σC3(D)=0.410 842-0.276 703=0.134 139,σC4(D)=0.410 842-0.231 029=0.179 813,σC5(D)=0.410 842-0.296 048=0.114 794,σC6(D)=0.410 842-0.304 141=0.106 701,σC7(D)=0.410 842-0.358 018=0.052 824。 按道路交通客觀因素顯著性的大小順序對上面的 7 個條件屬性依次排序:σC1(D)>σC4(D)>σC2(D)>σC3(D)>σC5(D)>σC6(D)>σC7(D)。
通過上面事故客觀因素顯著性分析并結合顯著性含義,可得到以下結論:
1)各客觀因素對事故影響作用大小有明顯的差異,即事故客觀因素有主次之分。根據(jù)計算所得出的結果,按影響因素從大到小的順序,將上面7個事故客觀因素排序如下:發(fā)生事故的時間段、駕駛員年齡、車輛的顏色、車輛型號、天氣條件、氣溫條件、風力,如圖2所示。
2)各客觀因素對交通事故的影響大小與客觀因素的取值寬度無明顯相關關系,因為客觀因素顯著性是通過建立顯著性分析數(shù)值模型,以實際的交通事故數(shù)據(jù)為基礎進行分析的,客觀因素顯著性與客觀因素取值寬度之間不相互影響。各客觀因素對交通事故的影響大小依次排序為:發(fā)生事故的時間段、駕駛員年齡、車輛的顏色、車輛型號、天氣條件、氣溫條件、風力大小,而與其對應的取值寬度為:7,10,5,4,7,3,7,如下圖3所示。
3)通過本道路交通事故客觀因素挖掘分析的案例,研究發(fā)現(xiàn),發(fā)生事故的時間段和駕駛員的年齡這兩種客觀因素在交通事故中的影響作用最甚。交通管理部門可以采用限定道路的允許通行時間段的措施,盡可能避開多發(fā)事故時間段,將交通事故的發(fā)生起數(shù)降到最低??紤]到駕駛員年齡對交通事故的影響,必要時相關部門可以重新限定駕駛員的年齡上限或者延長駕照培訓考試的學時,這樣也有助于減少交通事故的發(fā)生。本研究首先充分肯定了在交通事故中人的主觀因素是最根本的原因,但客觀因素同樣不可忽視。因此本研究通過對交通事故大數(shù)據(jù)進行挖掘分析,為相關部門制定決策提供數(shù)據(jù)支撐,有一定的應用型和目標性。
圖2 客觀因素對事故影向作用Fig.2 Effect of objective factors width
圖3 客觀因素影響因素與取值寬度Fig.3 Influencing factors and value on the incident
本研究基于貴陽市的大量交通事故數(shù)據(jù),以數(shù)據(jù)挖掘里面的粗糙集為理論基礎,建立一種新型事故客觀因素顯著性分析實用數(shù)值模型,挖掘分析了道路交通事故客觀因素的顯著性,得出不同客觀因素對交通事故影響作用不同的結論,解決了實際交通事故影響因素中具體客觀因素的重要度問題。相對于傳統(tǒng)的對交通事故數(shù)據(jù)庫的宏觀、較為平面的數(shù)據(jù)分析且將事故的發(fā)生簡單歸結為人的因素,本研究提出的交通事故客觀因素顯著性分析數(shù)值模型,在沒有先驗知識和事先主觀評價的條件下,利用實際的大量交通事故數(shù)據(jù),比較客觀的從數(shù)據(jù)中挖掘出其中隱含的規(guī)則,從眾多客觀因素中找出主要的交通事故影響因素,為相關部門作出及時的交通決策方案提供理論事實依據(jù)。
考慮到交通事故數(shù)據(jù)的不公開性,本研究只對簡單的算例進行試驗,今后還可以選取更多的客觀因素,例如道路的線形、照明設施條件、路面的類型等,因此上述模型和算法在交通事故客觀因素分析領域的實用性和合理性有待于更全面的交通事故數(shù)據(jù)的檢驗。
[1]DER HORNG LEE,SHIN TING JENG,P CHANDRASEKAR.Applying data mining techniques for traffic incident analysis[J].Journal of The Institution of Engineers,2004,44(2):90-92.
[2]C FOREMAN,JR REY,C DEANNUNTIS.National transit bus accident data collection and analysis[J].Bus Transit Operations,2002,81(2):01-04.
[3]YANG XUE BING.A aigh efficent multi-dimensional association rules mining algorithm[J].Computer Development,2002,12(6):52-54.
[4]李明祥.基于粗糙及理論的數(shù)據(jù)挖掘方法的研究[D].濟南:山東科技大學,2003:1.
[5]任重,邵軍力.粗糙集理論在通偵信息融合中的應用[J].解放軍理工大學學報:自然科學版,2002,3(6):96-99.
[6]袁捷.基于粗糙集的傳力桿接縫水泥道面力學響應影響因素分析[J].華東交通大學學報,2017,34(2):1-9.
[7]程坦.道路交通事故數(shù)據(jù)挖掘及應用研究[D].哈爾濱:哈爾濱工業(yè)大學,2009:33.
[8]曾黃麟.智能計算[M].重慶:重慶大學出版社,2004:14-28.
[9]陳強,王雙維,郝乃斕.基于粗集理論的交通事故死亡人數(shù)時間分布分析[J].計算機工程與應用,2007,43(8):217-218.
Analysis of Objective Factors of Road Traffic Accidents Based on Rough Set Theory
Xu Peng,Jiang Kai,Wang Zehua,Zhuzheng(College of Civil and Transportation Engineering,Hohai University,Nanjing 210009,China)
Due to the huge road traffic accident data,it is primitive and flat to use the traditional method of analyzing the objective factors for traffic accidents,which fails to fully exploit the potential link among data.Digging out valuable information from a large number of traffic accident data through the data mining technology has become a hot topic in the field of traffic safety research at present.Aiming at the shortcomings of traditional statistical data analysis methods,this paper,through traffic accident data,established a new numerical model based on the rough set theory.Through this numerical model,the objective factors of the accidents were extracted from the traffic accident data.The objective factors are ranked by the calculation of objective factor significance.The research results show that the effects of objective factors on the traffic accident are different,which may provide some reference for the formulation of the traffic safety policy in the future.
traffic safety; data mining; objective factor analysis; significance; rough set
(責任編輯 王建華)
U419.3
A
1005-0523(2017)06-0066-06
2017-07-25
江蘇省自然科學基金面上項目(BK20151497)
徐鵬(1968—),男,副教授,碩士研究生導師,主要研究方向為智能交通與交通環(huán)境。
蔣凱(1994—),男,在讀碩士,研究方向為智能交通與大數(shù)據(jù)。