游錦明,方守恩,唐 棠,張?zhí)m芳
(同濟(jì)大學(xué)道路與交通工程教育部重點實驗室,上海201804)
隨著我國高速公路網(wǎng)絡(luò)的不斷完善和加密,高速公路對國民經(jīng)濟(jì)增長和社會發(fā)展方面起到了巨大的推動和促進(jìn)作用.截止2015年底,我國公路總里程達(dá)到457.73萬km,其中高速公路12.35萬km,交通通達(dá)性的提高也大大地促進(jìn)了高速公路出行需求,同時其事故數(shù)量也一直居于高位.由于高速公路封閉的特性,車輛在高速公路中行駛時車速較高,發(fā)生事故程度更加嚴(yán)重,救援時間也較長,事故所造成的損失也更大.據(jù)公安部2015年道路交通事故統(tǒng)計年報[1]統(tǒng)計,2015年,高速公路交通事故起數(shù)8 252起(占總數(shù)4.39%),死亡人數(shù)5 477(占總數(shù) 9.44%),受傷人數(shù) 11 515(占總數(shù) 5.76%),直接財產(chǎn)損失348 251 010元(占總數(shù)33.59%),相對于一般公路而言,高速公路事故致死致傷率較高,高速公路安全形勢十分嚴(yán)峻.因此,各級交通安全管理部門和公眾開始聚焦高速公路安全出行,著力打造信息化下的平安高速公路,這也為信息化發(fā)展下的高速公路交通運行安全風(fēng)險監(jiān)測預(yù)警研究帶來了契機(jī).
國內(nèi)外針對高速公路交通運行安全風(fēng)險監(jiān)測預(yù)警方面開展了大量的研究.國外由于高速公路建設(shè)起步時間較早,高速公路信息化程度較高,因此,國外高速公路上的交通流檢測設(shè)備布設(shè)密度較高,種類較為齊全,國外大量的專家學(xué)者通過充分利用該部分連續(xù)的交通流檢測設(shè)備所采集的海量交通流數(shù)據(jù),開展了大量的不良交通流狀態(tài)識別與事故先兆方面的研究,旨在通過對不良交通流的分辨,從而達(dá)到實時事故風(fēng)險預(yù)測的目的.Hassan等采用隨機(jī)森林和配對案例對照的Logistic回歸方法對低能見度下的事故風(fēng)險進(jìn)行研究,結(jié)合氣象站檢測的氣象數(shù)據(jù),最終模型能夠達(dá)到69%的事故預(yù)測精度[2].Shi等通過對未處理的自動車輛識別系統(tǒng)原始數(shù)據(jù)對事故風(fēng)險進(jìn)行研究,采用多層隨機(jī)參數(shù)模型和負(fù)二項模型進(jìn)行建模來提升模型對于復(fù)雜數(shù)據(jù)和樣本間的非勻質(zhì)性的適應(yīng)能力,研究表明低速、高速度離散性和高流量會顯著提升事故風(fēng)險[3].Kwak等針對不同路段(基本路段,匝道鄰近區(qū)域、匝道)不同交通狀態(tài)(擁堵、非擁堵)分別構(gòu)建了Logistic回歸模型、遺傳算法模型和綜合模型,結(jié)果發(fā)現(xiàn)綜合模型的AUC值高于單一模型(高約7%~11.2%),說明綜合模型的分類預(yù)測效果較優(yōu)[4].
國內(nèi)研究受限于交通流數(shù)據(jù)稀缺,對不良交通流檢測預(yù)警的研究較少.孫劍等基于上海市快速路上的線圈交通流數(shù)據(jù)和事故數(shù)據(jù),采用貝葉斯網(wǎng)絡(luò)(BN)對事故風(fēng)險進(jìn)行建模,分別對事故點前后2組檢測器和4個時間段的8組交通流數(shù)據(jù)進(jìn)行建模,結(jié)果表明使用事故點上下游各一檢測器、基于事故前5~10 min內(nèi)的交通流數(shù)據(jù)的模型效果最優(yōu),其事故預(yù)測精度達(dá)到了76.94%[5].總體而言,由于國內(nèi)外的駕駛習(xí)慣、交通模式上的差異,國外該部分研究成果無法在國內(nèi)高速上得到驗證和應(yīng)用;而少量基于城市快速路的事故預(yù)測模型同樣是基于密集檢測器數(shù)據(jù)建立的,無法在檢測器稀缺的高速公路上得到驗證與應(yīng)用,因此,本文將基于我國高速公路實際交通流數(shù)據(jù)現(xiàn)狀,對不良交通流狀態(tài)實時監(jiān)測進(jìn)行研究.本文主要由以下部分組成:①數(shù)據(jù)來源與準(zhǔn)備,主要介紹了數(shù)據(jù)來源和基本的數(shù)據(jù)篩選過程;②基于主成分分析法的不良交通流狀態(tài)評價參數(shù)框架構(gòu)建,主要介紹了主成分分析法的分析過程和車道級的交通流參數(shù)提取過程;③基于自適應(yīng)過抽樣方法的不良交通流狀態(tài)監(jiān)測支持向量機(jī)模型,主要介紹了自適應(yīng)過抽樣方法、支持向量機(jī)建模過程.本文的主要技術(shù)路線如圖1所示.
圖1 技術(shù)路線圖Fig.1 Modeling process in this study
數(shù)據(jù)來源于G60滬昆高速公路上海段,路段總長48 km,雙向3~5車道,設(shè)計速度120 km/h.
數(shù)據(jù)分為2個部分,事故數(shù)據(jù)和交通流數(shù)據(jù).研究采用的原始事故數(shù)據(jù)為2014年1月1日~2015年9月30日期間,滬昆高速(G60)上海段發(fā)生的所有事故.研究期間內(nèi)總共發(fā)生有記錄的事故913起.由于本文研究對象為不良交通流狀態(tài)監(jiān)測判別,所以僅考慮與不良交通流狀態(tài)密切相關(guān)的車輛間事故作為研究對象,而與不良交通流狀態(tài)關(guān)系不甚密切的由車輛因素導(dǎo)致的車輛故障、貨物灑落、貨物著火等因素導(dǎo)致的單車事故則不考慮在內(nèi),故最后僅將追尾、刮擦事故納入分析范疇,共547起.
交通流數(shù)據(jù)方面,滬昆高速(G60)上海段沿線共布設(shè)了9組車流檢測器,負(fù)責(zé)采集9個斷面的流量信息.檢測器布設(shè)信息在表1中列出.其中由于編號D05~09的車流檢測器布設(shè)在匝道上,樁號及布設(shè)條件不明,所以僅考慮4個高速公路主線線圈檢測器檢測的數(shù)據(jù)用以后續(xù)分析.
表1 車流檢測器布設(shè)信息Table 1 Installation information of the loop detectors
本文旨在研究不良交通流狀態(tài)的監(jiān)測,因此將車輛間事故作為不良交通流狀態(tài)的演化結(jié)果進(jìn)行分析,同時考慮到G60滬昆高速上布設(shè)檢測器的密度問題,由于主線上檢測器布設(shè)密度過低,兩檢測器間最短的距離為2.63 km,最遠(yuǎn)的為18.6 km,檢測器間平均距離8.7 km,與國外研究中采用的平均0.5 mile(約800 m)的檢測器密度相比過于稀疏.此外,由于檢測器布設(shè)間距差異性過大,上下游檢測器數(shù)據(jù)之間的相關(guān)程度不一,故采用單斷面檢測器的數(shù)據(jù)作為衡量路段交通流狀態(tài)的基礎(chǔ)依據(jù),那么本文的因果邏輯關(guān)系便為通過對單斷面檢測器的交通流狀態(tài)的演化判別實現(xiàn)對車輛間事故的預(yù)測.
為了有效地對不良交通流狀態(tài)進(jìn)行分辨,采用流行病學(xué)中常用的案例配對對照方法進(jìn)行樣本選取,即需要對有效事故樣本所對應(yīng)的不良的交通流狀態(tài)提取相應(yīng)的幾組正常狀態(tài)交通流狀態(tài)數(shù)據(jù)作為對照組.為了排除工作日、時間段等因素的影響,本研究提取每一組有效事故發(fā)生前2周、前1周、后1周、后2周的同一工作日的同一時段的檢測器數(shù)據(jù)作為對照.提取的每一組數(shù)據(jù)應(yīng)該添加上對應(yīng)的事故編號,便于建模時對不同條件下的事故樣本及該樣本的對照組進(jìn)行篩選.
由于原始數(shù)據(jù)部分時段檢測器的數(shù)據(jù)缺失或檢測器線圈返回故障狀態(tài)信息,會導(dǎo)致數(shù)據(jù)庫查詢返回的數(shù)據(jù)為空或無效的狀況.對于出現(xiàn)數(shù)據(jù)異常的事故應(yīng)加以排除.同樣對照組檢測器數(shù)據(jù)查詢也會存在數(shù)據(jù)缺失、返回空值和數(shù)據(jù)無效的情況,需要對該類對照組進(jìn)行排除.在時間片段選取和集計方法上,考慮到最終分辨效果和實際應(yīng)用中的實時監(jiān)測目的,選取有效車輛間事故前10 min至事故前5 min內(nèi)的5 min的交通流數(shù)據(jù)作為衡量不良交通流狀態(tài)的標(biāo)準(zhǔn),并同步將20 s的原始線圈采集的交通流狀態(tài)數(shù)據(jù)集計為5 min的交通流狀態(tài)數(shù)據(jù),減少數(shù)據(jù)噪聲的影響.
在參數(shù)選取方面,為了充分利用車道級交通流數(shù)據(jù)的特點,引入平均值、標(biāo)準(zhǔn)差、變異系數(shù)和車道間相關(guān)系數(shù)4種計算方法.在數(shù)據(jù)類型上采用了檢測器返回的流量、速度、密度3類數(shù)據(jù).研究路段為單向3~5車道,所以采用了L(left)、M(middle)、R(right)和A(all)這4個值來標(biāo)記不同的車道.特別要指明的是,對于單向4車道的道路,M可代表中間的2個車道;對于單向5車道的道路,M可代表中間3個車道.通過對上述3個維度的組合,最終構(gòu)建出1個含45個參數(shù)的交通流參數(shù)體系,其中平均值、標(biāo)準(zhǔn)差、變異系數(shù)各12個,車道間相關(guān)系數(shù)9個,即對以下3個15行3列(t為時間片段編號,其中Q2t、V2t、C2t分別指中間若干車道的流量、速度、占有率在第t個20 s時刻所采集的交通流信息)的矩陣(流量矩陣、速度矩陣、占有率矩陣)提取相應(yīng)的特征信息.
由于我國實行法定節(jié)假日高速通行免費的政策,節(jié)假日期間高速公路的流量與平常會有明顯的差異.G60作為上海與杭州的主要交通干道,其交通流也會受到明顯的影響.在建模工作中,需要將節(jié)假日作為1個重要的控制條件.對數(shù)據(jù)進(jìn)行以上多次篩選后,排除節(jié)假日期間發(fā)生的事故,最終得到116起有效事故數(shù)據(jù)組參數(shù)與401組對照組數(shù)據(jù)組參數(shù).部分參數(shù)相關(guān)統(tǒng)計信息如表2所示.
表2 部分車道級參數(shù)統(tǒng)計信息Table 2 Summary statistics of part of the lane-level parameters
在初步的樣本參數(shù)確定后,下面將對不良交通流狀態(tài)評價參數(shù)框架進(jìn)行優(yōu)化構(gòu)建.
主成分分析(Principal Component Analysis,PCA)是研究如何將多指標(biāo)問題轉(zhuǎn)化為較少的綜合指標(biāo)的一種重要統(tǒng)計方法,能將高維空間的問題轉(zhuǎn)化到低維空間去處理,使問題變得比較簡單、直觀,而且這些較少的綜合指標(biāo)之間互不相關(guān),又能提供原有指標(biāo)的絕大部分信息.在實際研究工作中,通常只挑選前幾個方差最大的主成分,從而達(dá)到簡化系統(tǒng)結(jié)構(gòu)、抓住問題實質(zhì)的目的.
本文選用SPSS中的因子分析模塊進(jìn)行主成分分析工作,按照初始特征值的抽取指標(biāo)為1的規(guī)則,最終從45個成份中提取了前9個成份作為新的變量,這9個成份對于原有變量的解釋程度為84.185%(即方差的累積值).在主成分分析中,由于因子的舍去不可避免地會導(dǎo)致部分信息的丟失,通常的分析經(jīng)驗認(rèn)為新的因子對舊變量保留有85%的解釋度即可.提取的前9個變量的解釋度為84.185%,基本滿足要求,所以將初始特征值的抽取指標(biāo)設(shè)置為1是比較合理的,其對應(yīng)過程的碎石圖如圖2所示.
圖2 主成分分析結(jié)果碎石圖Fig.2 Scree plot of the principle component analysis
對該9個變量的主要成分計算其因子負(fù)荷、特征向量,經(jīng)過標(biāo)準(zhǔn)化后最終得到新的9個變量對應(yīng)的值,用以在后續(xù)建模工作中作為預(yù)測模型的訓(xùn)練數(shù)據(jù),表3為主成分分析后新樣本變量的參數(shù)統(tǒng)計信息.
表3 主成分分析后樣本參數(shù)統(tǒng)計信息Table 3 Summary statistics of variables afterprinciple component analysis
本文對不良交通流狀態(tài)的判別基于事故發(fā)生與否,為典型的模式識別中的分類問題.而支持向量機(jī)在模式識別各種算法中,由于具備較強(qiáng)的泛化能力,能夠較好地解決傳統(tǒng)學(xué)習(xí)方法中高維數(shù)據(jù)、小樣本、非線性和局部極值等問題,能夠較好地對樣本進(jìn)行分類識別.因此,本文選用常用的基于RBF(徑向基核函數(shù))的支持向量機(jī)分類器CSVC模型作為識別分類模型,其決策函數(shù)為
式中:xi,yi,αi,b為模型優(yōu)化求解得到的參數(shù);K(xi,x)為高維映射選用的核函數(shù).
由于樣本中不良交通流狀態(tài)對應(yīng)的樣本較少,約占總數(shù)的20%,機(jī)器學(xué)習(xí)算法在遇到該類樣本時,易導(dǎo)致樣本不均衡識別現(xiàn)象,即分類明顯偏重于多數(shù)類樣本,因此,為了避免樣本不均衡給建模帶來的影響,采用自適應(yīng)過抽樣方法對樣本結(jié)構(gòu)進(jìn)行優(yōu)化,從而避免樣本不均衡問題.
在C-SVC模型的構(gòu)建時,引入了常數(shù)C作為懲罰系數(shù)控制損失的大小.模型求解中C可作為調(diào)節(jié)參數(shù),影響訓(xùn)練模型的分類性能.此外,RBF核函數(shù)中γ參數(shù)也是模型訓(xùn)練前需輸入的常數(shù),該參數(shù)的數(shù)值也會明顯影響模型的分類性能.所以應(yīng)用SVM方法解決分類問題還需解決SVM模型參數(shù)及核函數(shù)參數(shù)的尋優(yōu)問題,得到分類效果最佳的1組C、γ參數(shù).對ADASYN算法處理后得到的樣本按測試集與訓(xùn)練集比例3∶7的比例進(jìn)行多次隨機(jī)分配.對上述隨機(jī)分配情況下的樣本采用網(wǎng)格遍歷法進(jìn)行參數(shù)尋優(yōu),得到的C最優(yōu)值范圍為[0.03,1.74],γ最優(yōu)值多為0.57.根據(jù)多次試驗總結(jié),設(shè)C=1,γ=0.6,對該組參數(shù)進(jìn)行多次樣本隨機(jī)分配建模,建模的結(jié)果如表4所示.
表4 測試集分類結(jié)果Table 4 Classier performance of the test dataset(%)
采用測試集分類準(zhǔn)確率對C-SVC模型性能進(jìn)行評價必選可以發(fā)現(xiàn),C=1,γ=0.6的參數(shù)組合能保證多次試驗下分類準(zhǔn)確率維持在較高的水平,該參數(shù)組合的取值是比較合理的.在9次試驗中獲得了9個C-SVC分類模型,其分類效果各有差異,對比各模型分類準(zhǔn)確率,選擇分類效果最好的第9次試驗?zāi)P蜑樽罱K的不良交通流狀態(tài)實時判別監(jiān)測模型,其事故對應(yīng)的不良交通流狀態(tài)分類準(zhǔn)確率高達(dá)79.55%,表5為國外相似研究中相關(guān)方法和結(jié)果.
表5 模型性能對比Table 5 Comparison of the performance of the models
同國外既有研究中構(gòu)建的模型比較可以發(fā)現(xiàn),本文提出的基于單檢測器的實時監(jiān)測算法能夠有效地識別不良交通流狀態(tài),從而為交通管理人員提供可靠的決策支持.
本文結(jié)合國內(nèi)高速公路稀疏檢測器現(xiàn)狀,提出了基于單檢測器的不良交通流狀態(tài)實時監(jiān)測判別支持向量機(jī)方法.采用事故所對應(yīng)的交通流狀態(tài)作為不良交通流狀態(tài)進(jìn)行研究,通過對海量車道級的線圈檢測器采集的交通流數(shù)據(jù)提取平均值、標(biāo)準(zhǔn)差、變異系數(shù)、車道間參數(shù)相關(guān)系數(shù)等45個參數(shù)指標(biāo),經(jīng)由主成分分析法對參數(shù)進(jìn)行優(yōu)化實現(xiàn)參數(shù)降維最終保留9個參數(shù),最后結(jié)合自適應(yīng)過抽樣方法避免樣本不均衡現(xiàn)象,采用C-SVC支持向量機(jī)模型實現(xiàn)了對不良交通流狀態(tài)的實時監(jiān)測識別,其識別精度高達(dá)79.55%,可以有效地對不良交通流狀態(tài)進(jìn)行識別.