孫婷婷++呂明新++趙偉杰
[摘要]文章對(duì)多源異構(gòu)數(shù)據(jù)分析方法進(jìn)行對(duì)比分析,選擇了聚類分析法對(duì)高速公路事故黑點(diǎn)進(jìn)行辨析。文章從駕駛員生理、心理特征、駕駛行為和駕駛技能等因素分析駕駛員對(duì)高速公路道路安全的影響。采用基于最小離差平方和的聚類分析方法對(duì)高速公路路網(wǎng)進(jìn)行事故黑點(diǎn)理論研究。
[關(guān)鍵詞]高速公路;聚類分析;事故黑點(diǎn);駕駛員因素
[DOI]1013939/jcnkizgsc201623161
改革開放后,我國高速公路建設(shè)事業(yè)迅猛發(fā)展,從1988年第一條高速公路滬嘉高速公路建成通車,至 2012年,我國高速公路通車總里程達(dá)到96 萬千米,已經(jīng)超越了美國的92萬千米,居世界第一位。同時(shí),我國機(jī)動(dòng)車保有量也呈現(xiàn)“井噴式”增長態(tài)勢(shì)。然而,道路交通安全問題也逐漸凸顯,成為我國經(jīng)濟(jì)社會(huì)發(fā)展中急需解決的難題。其中,高速公路的道路安全問題尤為突出。
國內(nèi)外眾多研究機(jī)構(gòu)和學(xué)者圍繞多源異構(gòu)數(shù)據(jù)在道路事故黑點(diǎn)辨析方面的應(yīng)用,從多個(gè)層次、角度采取不同的方法進(jìn)行了廣泛研究。Smith et al利用聚類分析的方法對(duì)交通信號(hào)燈配時(shí)數(shù)據(jù)進(jìn)行了分析處理。[1]Cevallos和Wang將數(shù)據(jù)挖掘技術(shù)應(yīng)用在公交系統(tǒng)上,提高了公交準(zhǔn)時(shí)率。[2]Saccomanno和Grossi等人提出將貝葉斯模型應(yīng)用在對(duì)意大利南部SS107公路的事故黑點(diǎn)鑒定上[3],表明了多源異構(gòu)數(shù)據(jù)處理方法能夠很好地應(yīng)用在事故黑點(diǎn)鑒定領(lǐng)域。
本文通過對(duì)多源異構(gòu)數(shù)據(jù)分析方法進(jìn)行分析比較,選擇了聚類分析法對(duì)高速公路事故黑點(diǎn)的鑒定進(jìn)行分析研究。文章從駕駛員特性的角度出發(fā),對(duì)來源于不同部門的各種類型高速公路路網(wǎng)數(shù)據(jù)用聚類分析方法進(jìn)行數(shù)據(jù)挖掘,從而對(duì)事故黑點(diǎn)進(jìn)行辨析。
1多源異構(gòu)數(shù)據(jù)融合與挖掘
高速公路交通安全數(shù)據(jù)的多源異構(gòu)性表現(xiàn)在數(shù)據(jù)的來源多樣性、信息廣泛性、異地分布性,來源于不同部門的各種類型交通安全數(shù)據(jù)具有不同的分析標(biāo)準(zhǔn),從多角度全面的對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行處理分析,是迅速有效地對(duì)事故黑點(diǎn)進(jìn)行辨析的關(guān)鍵。
1.1多源異構(gòu)交通安全數(shù)據(jù)融合
對(duì)于判別高速公路事故黑點(diǎn)、建立預(yù)測(cè)模型,需要在眾多交通安全影響因素中選擇最相關(guān)的要素作為模型變量。實(shí)現(xiàn)該過程的首要任務(wù)是對(duì)多源異構(gòu)交通安全數(shù)據(jù)進(jìn)行預(yù)處理,即選擇數(shù)據(jù)融合(Data Fusion)方法對(duì)數(shù)據(jù)庫建立統(tǒng)一的對(duì)外服務(wù)窗口,從而利用數(shù)據(jù)挖掘技術(shù)對(duì)交通安全影響因素進(jìn)一步挖掘分析。
數(shù)據(jù)融合可以有效整合多源高速公路交通安全數(shù)據(jù),消除部分?jǐn)?shù)據(jù)之間的異構(gòu)性,減少有效安全數(shù)據(jù)的損失。圖1為高速公路交通安全數(shù)據(jù)融合結(jié)構(gòu)示意圖。
1.2多源異構(gòu)交通安全數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining)又稱數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)[4],是從大型數(shù)據(jù)庫中提取隱藏的、未知的、有潛在應(yīng)用價(jià)值信息的一種數(shù)據(jù)處理方法。數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)信息領(lǐng)域中應(yīng)用廣泛、發(fā)展迅速的一項(xiàng)技術(shù),是很多不同領(lǐng)域?qū)<液蛯W(xué)者研究的熱門技術(shù)。
數(shù)據(jù)挖掘技術(shù)在交通領(lǐng)域應(yīng)用廣泛,通常采用數(shù)據(jù)挖掘技術(shù)對(duì)公路監(jiān)測(cè)設(shè)備所采集的數(shù)據(jù)進(jìn)行分析,從而對(duì)城市交通或高速公路制定交通管控和誘導(dǎo)策略。常用數(shù)據(jù)挖掘的方法有:人工神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithms)、決策樹(Decision Trees)、模糊邏輯(Fuzzy Logic)、規(guī)則歸納(Rule Induction)等。[5]數(shù)據(jù)挖掘的任務(wù)包括:數(shù)據(jù)特征化、數(shù)據(jù)區(qū)分、關(guān)聯(lián)規(guī)則、分類、聚類、孤立點(diǎn)分析和演變分析等。其中,聚類分析是處理和分析數(shù)據(jù)之間關(guān)系的數(shù)據(jù)挖掘方法。
2高速公路事故黑點(diǎn)鑒定
2.1事故黑點(diǎn)鑒定方法
交通事故黑點(diǎn)是道路交通事故頻發(fā)的某一地點(diǎn)或路段。常用的事故黑點(diǎn)鑒定方法有事故數(shù)法、事故率法、矩陣分析、數(shù)據(jù)挖掘和質(zhì)量控制等方法。表1對(duì)常用事故黑點(diǎn)鑒定方法進(jìn)行了對(duì)比分析。
2.2基于聚類分析方法的事故黑點(diǎn)鑒定
聚類分析就是按照在性質(zhì)上的親疏遠(yuǎn)近程度把樣本或變量進(jìn)行分類歸納,已廣泛地應(yīng)用在高速公路安全性和事故黑點(diǎn)研究中。聚類分析法不僅對(duì)樣本數(shù)據(jù)接納性高,克服了選取參數(shù)的困難,并且能在對(duì)事故數(shù)據(jù)進(jìn)行聚類分析的同時(shí),發(fā)揮數(shù)據(jù)挖掘的功能,解決了模型復(fù)雜、技術(shù)指標(biāo)單一的難題,為高速公路交通事故黑點(diǎn)的鑒定提供了新思路。[6]
2.2.1駕駛員因素
影響交通安全事故的要素主要有:人、車、路和環(huán)境。在對(duì)事故樣本進(jìn)行聚類分析時(shí),選擇不同的影響要素聚類分析會(huì)得到不同的結(jié)果,本文主要從駕駛員特性出發(fā),對(duì)高速公路交通事故進(jìn)行聚類分析并找到事故黑點(diǎn)。
駕駛員因素是高速公路交通安全眾影響因素中最活躍的主動(dòng)性因素,也是引發(fā)高速公路交通事故的最主要因素。本文主要從駕駛員生理、心理特征、駕駛行為和駕駛技能等因素分析駕駛員對(duì)交通安全的影響,如表2所示。
2.2.2高速公路交通事故黑點(diǎn)的聚類分析方法
本文從數(shù)據(jù)挖掘的角度出發(fā),采用基于最小離差平方和法的聚類分析方法分析高速公路路網(wǎng)中的交通事故,旨在找到交通事故發(fā)生次數(shù)較多或較嚴(yán)重的道路。聚類分析流程如圖2所示。
(2)指標(biāo)特征值標(biāo)準(zhǔn)化。
為了消除原始數(shù)據(jù)之間的不融合性,選取Z-Score標(biāo)準(zhǔn)法[7]對(duì)事故樣本指標(biāo)特征值進(jìn)行標(biāo)準(zhǔn)化處理。
(3)建立樣本距離矩陣。
選取歐式距離公式來對(duì)樣本間的距離進(jìn)行表示。
dij=pi=12xik|yik(6)
其中,
dij:第i個(gè)樣本的第j個(gè)樣本間的距離,i, j=1,2,…,p;
:樣本的協(xié)方差矩陣;
xik, xjk同公式(1)。
(4)基于最小離差平方和法的事故黑點(diǎn)聚類分析。
本文采取最小離差平方和法對(duì)高速公路進(jìn)行聚類分析。設(shè)將n個(gè)樣品分為k類:
G1,G2,…,Gn;Dpq為類Gp與Gq間的距離,若類Gp與Gq合并為一新類記為Gr,則任一類Gk與新類Gr間的距離為Dkr。[6]
將類間的距離定義為:
D2pq=Sr-Sp-Sq(7)
其中,Gr=GPuGq。
Si=nit=1(X(t)′(t)|X(t))(X(t)(t)|X(t))(8)
則類內(nèi)離差平方和為:
S=kl=1Si=kl=1nii=1(X(t)′(t)|X(t))(X(t)(t)|X(t))(9)
D2kr=nk+npnr+nkD2kp+nk+nqnr+nkD2kq|nknr+nkD2pq(10)
其中,
X(t)i: Gi中的第t個(gè)樣品;
ni:Gi中的樣品個(gè)數(shù);
X(t):Gi的重心;
Si:樣品間的距離。
3結(jié)論
聚類分析法通過由事故的綜合指標(biāo)和相關(guān)影響因素構(gòu)成的評(píng)價(jià)集合,能夠準(zhǔn)確地對(duì)駕駛員行為從多領(lǐng)域多范圍進(jìn)行信息的挖掘。采用基于最小離差平方和的聚類分析方法對(duì)整個(gè)路網(wǎng)的事故樣本進(jìn)行分析,能夠準(zhǔn)確快速地找到路網(wǎng)中危險(xiǎn)性較高的道路。
參考文獻(xiàn):
[1]Scuderi,M.,Clifton,K.J.Bayesian Approaches to Learning from Data:Using NHTS Data for the Analysis of Land Use and Transportation [J].Transportation Research Record,2003(1854):50-61.
[2]Cevallos,F(xiàn).,Wang,X.Adams.Data Archiving and Mining System for Transit Service Improvements [J].Transportation Research Record,2008(2063):43-51.
[3]F.F.Saccomanno,R.Grossi,D.Greco,et al.Identifying Black Spots along Highway SS107 in Southern Italy Using Two Models[J].Journal of Transportation Engineering,2001,127(6):515-522.
[4]廖鵬宇,梅冰松.數(shù)據(jù)挖掘技術(shù)在交通事故黑點(diǎn)整治中的運(yùn)用[J].道路交通與安全,2008(3):47-50.
[5]趙新勇.基于多源異構(gòu)數(shù)據(jù)的高速公路交通安全評(píng)估方法[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.
[6]陳燕芹.城市道路交通事故黑點(diǎn)的鑒別方法研究[D].西安:長安大學(xué),2015.
[7]任雪松,于秀林.多元統(tǒng)計(jì)分析[M].北京:中國統(tǒng)計(jì)出版社,2011:59-93.