趙偉寧,霍曉艷,谷方德,羅麗君
(1.哈爾濱工業(yè)大學(xué) 交通科學(xué)與工程學(xué)院,哈爾濱 150090; 2.哈爾濱工業(yè)大學(xué)(威海) 汽車工程學(xué)院,山東 威海 264209)
隨著我國道路基礎(chǔ)設(shè)施的不斷完善,運(yùn)輸服務(wù)業(yè)飛速發(fā)展,但交通安全問題也日益嚴(yán)峻。在各等級公路中,高速公路的行車安全性尤其值得關(guān)注,高速公路事故總次數(shù)雖不及其他等級道路,但事故致死、致傷率高,單次事故造成的生命財產(chǎn)損失大。因此,深入研究高速公路事故,準(zhǔn)確把握各因素對事故的作用規(guī)律,對提高高速公路安全性至關(guān)重要。
各類事故影響因素中,道路設(shè)計要素對事故的影響最為直接和顯著,一直受到國內(nèi)外學(xué)者的廣泛關(guān)注。Ma等[1]證實(shí)了道路寬度、縱坡坡度與平曲線半徑對事故有顯著影響;Yu等[2]發(fā)現(xiàn)曲線路段、陡下坡將導(dǎo)致事故次數(shù)上升;孟祥海等[3]基于線形因素對追尾事故進(jìn)行分析,得到了豎曲線半徑對事故的突出影響;段萌萌等[4]將“橋隧比”引入高速公路事故預(yù)測模型。
事故分析目前常用統(tǒng)計分析法,可分為參數(shù)模型與非參數(shù)模型。由于非參數(shù)模型,如神經(jīng)網(wǎng)絡(luò)模型[5],無法直觀地解析和量化各因素對事故的影響,因此在事故分析中的應(yīng)用比較受限。參數(shù)模型主要以廣義線性模型GLM(Generalized Linear Model)[6]為主,模型具體形式根據(jù)連接函數(shù)的不同又可分為:泊松模型[7]、負(fù)二項模型[8]、零膨脹負(fù)二項模型[9]等。GLM模型雖然形式簡單且通用性較強(qiáng),但模型的線性假設(shè)導(dǎo)致該方法難以表現(xiàn)事故與各因素間復(fù)雜的非線性關(guān)系。
總之,國內(nèi)外雖從多方面對影響事故的因素進(jìn)行了分析,然而部分因素對事故的影響到目前為止仍是未知的(如本文中的爬坡車道及隧道路段等)或尚存爭議的(如平曲線曲率及大型車比例等[10]),因此有必要對影響事故的因素進(jìn)行深入研究。此外,目前廣泛采用的GLM均假定事故與各因素間呈線性(對數(shù)線性)關(guān)系,而由于各因素對事故影響的復(fù)雜性,該線性假設(shè)未必適用于所有的事故影響因素,因此,宜對GLM作進(jìn)一步拓展以更合理地反映各因素對事故的復(fù)雜影響。
綜上,本文的研究目的為:1) 從交通運(yùn)行及道路設(shè)計等方面,準(zhǔn)確識別事故影響因素并分析其對事故風(fēng)險的影響,為交通管理及道路設(shè)計部門制定安全應(yīng)對措施提供決策參考;2) 在GLM基礎(chǔ)上,構(gòu)建廣義加性模型GAM(Generalized Additive Model)[11-12]以剖析各因素對事故的非線性作用機(jī)理,同時GAM的構(gòu)建也可為事故影響因素分析提供方法借鑒。
數(shù)據(jù)來源于廣東省與遼寧省境內(nèi)的8條高速公路,見表1。其中,事故數(shù)據(jù)來源于高速公路各路段管理處;道路設(shè)計數(shù)據(jù)來源于高速公路設(shè)計部門(高速公路各路段均未進(jìn)行過改/擴(kuò)建或長時間封閉);歷年交通量數(shù)據(jù)(包括年平均日交通量及貨車交通量)來源于高速公路流量觀測站及收費(fèi)站。
表1 高速公路長度及事故數(shù)據(jù)匯總
路段劃分是開展事故次數(shù)分析及建模的前提。本文利用同質(zhì)法原理,依據(jù)高速公路平曲線曲率、縱坡坡度及橫斷面設(shè)計要素,將高速公路劃分成一系列路段單元。為保證建模可靠性及避免出現(xiàn)過多“零事故”觀測值,將路段最短長度定義為0.16 km[2],最終得到5 528個路段單元。此外,隧道影響區(qū)設(shè)定為隧道洞口前后100 m;立交/服務(wù)區(qū)影響區(qū)設(shè)定為匝道出入口前后450 m。
本文以年為單位組織數(shù)據(jù),即各路段每年數(shù)據(jù)為一個樣本,最終得到了27 774個樣本,其中,70%的樣本用于標(biāo)定模型(即訓(xùn)練集),剩余樣本(即測試集)用于檢驗?zāi)P皖A(yù)測能力。
建模過程中,因變量為路段的事故次數(shù),解釋變量包含暴露變量(年平均日交通量和路段長度)、交通運(yùn)行及道路設(shè)計等多種變量,見表2。
表2 變量描述性統(tǒng)計特性
注:*表示該變量為離散型變量。
引入GAM之前,首先介紹GLM的結(jié)構(gòu)。GLM實(shí)質(zhì)上是增加了連接函數(shù)的線性概率模型:
(1)
式中:Y為因變量;X為解釋變量;p為解釋變量數(shù)量;β0為截距項;βj為解釋變量參數(shù);E(Y)為路段事故次數(shù)均值;g( )為連接函數(shù),鑒于因變量為事故次數(shù),故本文中的連接函數(shù)采用負(fù)二項模型。
GAM是GLM的非參數(shù)擴(kuò)展,即使用未知形式的非參數(shù)函數(shù)項將式(1)中線性項進(jìn)行替換,依然保留GLM模型的基本框架,其結(jié)構(gòu)為[11]:
(2)
式中:s0為截距項;s( )為平滑函數(shù),以指定因變量對解釋變量的非線性依賴關(guān)系;m為平滑項數(shù)量,即模型中對因變量有非線性影響的解釋變量數(shù)量。
針對本文構(gòu)建的GAM說明如下:1) 因變量與各解釋變量間并非全是非線性關(guān)系,模型中僅有m個解釋變量對因變量存在非線性影響,其余變量對因變量為線性影響;2) 對于離散型變量,GAM無法使用平滑函數(shù)進(jìn)行非線性擬合,因此,該類型變量與因變量間依然為線性關(guān)系;3) 對任一連續(xù)型變量Xj,依據(jù)皮爾遜相關(guān)系數(shù)r判斷Xj與Y的線性相關(guān)性,且當(dāng)|r|≤0.5時[11],采用平滑函數(shù)sj(Xj)進(jìn)行非線性擬合;4) 模型標(biāo)定過程中,采用薄板樣條函數(shù)作為平滑函數(shù)s( )的基本形式,以解決多變量平滑函數(shù)估計問題。
綜上,本文構(gòu)建的GAM模型實(shí)質(zhì)上是半?yún)?shù)/部分線性(Semiparametric/Partial Linear)模型,即事故次數(shù)與各影響因素間關(guān)系為:
(3)
GAM中的參數(shù)包括平滑函數(shù)s( )的自由度edf,解釋變量參數(shù)βj以及截距項s0。此外,通過目標(biāo)函數(shù)(由模型誤差和模型復(fù)雜度組成)最小化保證樣條曲線的平滑性:
(4)
式中:‖y-s(x) ‖為殘差平方和;積分項為模型懲罰項,表示平滑曲線斜率變化率在某區(qū)間的累計值,用于衡量區(qū)間整體平滑性;λ為平滑參數(shù),用于控制懲罰項在目標(biāo)函數(shù)中的占比,決定誤差與復(fù)雜度的作用效果,λ過高/過低將導(dǎo)致模型過平滑/欠平滑,本文采用形式較為穩(wěn)定的廣義交叉驗證方法確定最優(yōu)平滑參數(shù)λ[12]。
采用AIC(Akaike Information Criterion)準(zhǔn)則評價模型的整體擬合優(yōu)度,AIC越小,模型的擬合效果越好。
AIC=-2LL(β)+2p
(5)
式中:LL(β)為模型似然函數(shù)值。
此外,以Pearson′sχ2統(tǒng)計量評價各因素的平滑函數(shù)s( )是否具有統(tǒng)計學(xué)意義;以均方根誤差RMSE(Root Mean Squared Error)與平均絕對誤差MAE(Mean Absolute Error)衡量模型的預(yù)測精度,計算方法為:
(6)
(7)
(8)
基于逐步回歸法,剔除95%置信水平下的非顯著變量后,最終構(gòu)建的GLM見表3,GAM見表4、表5。
表3 GLM參數(shù)估計結(jié)果
注:AIC=44 677。
表4 GAM線性項估計結(jié)果
表5 GAM平滑項估計結(jié)果
注:edf為估計自由度,Ref.df為參考自由度,AIC=44 401。
表3、表4表明,GLM和GAM均識別出了以下10個對事故次數(shù)有顯著影響的變量,分別為交通量(AADT)、平曲線曲率(C)、縱坡坡度(LG)、連續(xù)下坡長度(DDG)、路緣帶寬度(MBO)、單向2車道(NL_2)、單向3車道(NL_3)、避險車道(ER)、爬坡車道(CL)以及基本路段(ST_B)。除上述變量外,GAM還識別出貨車比例及縱坡坡度對事故次數(shù)有顯著影響,即相比于GLM,GAM能識別出更多對事故次數(shù)有顯著影響的因素。此外,由表5可知,GAM還識別出了交通量、貨車比例、平曲線曲率、縱坡坡度及連續(xù)下坡長度對事故次數(shù)的非線性影響,各因素與事故次數(shù)間的非線性關(guān)系見圖1(即GAM圖像輸出結(jié)果)。由圖1平滑曲線可知,同一變量在不同取值區(qū)間對事故的影響趨勢與影響程度是不斷變化的,這種非線性關(guān)系可以更細(xì)致和直觀地描述各因素對事故的作用機(jī)理。
在擬合優(yōu)度方面,由AIC值可知,GAM(AIC=44 677)的擬合效果優(yōu)于GLM(AIC=44 401)。
為對比分析GAM與GLM的預(yù)測能力,采用上述模型分別對訓(xùn)練集和測試集樣本進(jìn)行事故預(yù)測,并計算相應(yīng)的均方根誤差RMSE與平均絕對誤差MAE,見表6。結(jié)果表明,GAM的預(yù)測能力優(yōu)于GLM。
(a) 交通量
(b) 貨車比例
(c) 平曲線曲率
(d) 縱坡坡度
(e) 連續(xù)下坡長度
注:實(shí)線表示解釋變量的擬合平滑曲線,虛線表示平滑函數(shù)的逐點(diǎn)標(biāo)準(zhǔn)差。
圖1 各因素對事故次數(shù)的非線性影響
Fig.1 Nonlinear impact of factors on crash frequency
表6 模型預(yù)測結(jié)果對比
相比于GLM,GAM能識別出更多事故影響因素,且具有更高的擬合優(yōu)度和預(yù)測精度,因此,該部分主要依據(jù)GAM輸出結(jié)果對影響事故的因素進(jìn)行分析。
事故次數(shù)與單向2車道、單向3車道呈顯著負(fù)相關(guān),即車道數(shù)越少,事故發(fā)生的可能性越低,潛在原因是:車道數(shù)較少時,車輛受到的約束較大,變道行為相對較少,因而事故風(fēng)險較低。
路緣帶寬度與事故次數(shù)呈顯著負(fù)相關(guān),即相比于路緣帶寬度為0.5 m的路段,路緣帶寬度為0.75 m的路段上的事故風(fēng)險更低,表明側(cè)向凈空的增加有利于提升路段交通安全水平。
爬坡車道與事故次數(shù)顯著負(fù)相關(guān),即爬坡車道的設(shè)置不僅能提高路段通行能力,而且有利于交通安全。由于避險車道設(shè)置在連續(xù)陡下坡的事故多發(fā)路段,即避險車道為事故次數(shù)的內(nèi)生變量,導(dǎo)致避險車道與事故次數(shù)呈正相關(guān)關(guān)系。
此外,基本路段的參數(shù)為負(fù)值,即高速公路基本路段上的事故風(fēng)險低于立交路段[13];隧道路段與立交路段上的事故風(fēng)險無顯著差異。
對各連續(xù)型變量而言,其平滑函數(shù)的edf值(估計自由度)決定了平滑曲線的變化幅度,其值越大,表明解釋變量對因變量的影響越顯著。由表5可知,各連續(xù)型變量對事故的影響程度從大到小依次為:交通量>貨車比例>平曲線曲率>縱坡坡度>連續(xù)下坡長度,即貨車比例對事故存在顯著影響,且其影響程度僅次于交通量,是不可忽視的重要影響因素,這也再次驗證了GAM在識別事故影響因素方面的優(yōu)勢。
圖1(a)中交通量與事故次數(shù)呈非線性關(guān)系[14],并存在相應(yīng)閾值。當(dāng)lnAADT<6,即交通量小于403 veh/d時,曲線較為平緩,交通量在此區(qū)間內(nèi)的增減變化對事故無顯著影響;當(dāng)6≤lnAADT≤7.4,即交通量取值為[403 veh/d,1 636 veh/d]時,事故次數(shù)隨交通量增大而增大;當(dāng)7.4 由圖1(b)可知,事故次數(shù)與貨車比例之間同樣存在復(fù)雜非線性關(guān)系:當(dāng)貨車比例為[0.1,0.3]時,事故次數(shù)隨交通流中貨車的增多而增大;當(dāng)貨車比例為(0.3,0.42)時,曲線較為平緩,即貨車比例的變化對事故無顯著影響;當(dāng)貨車比例為[0.42,0.55]時,事故次數(shù)隨貨車增多而顯著上升;隨后曲線在(0.55,0.7]區(qū)間內(nèi)單調(diào)遞減,即事故次數(shù)與貨車比例呈顯著負(fù)相關(guān),潛在原因是道路上行駛的貨車多于小型車,小型車在貨車的壓制下被迫減速,因而交通流速度差異變小;當(dāng)貨車比例大于0.7時,受到大貨車嚴(yán)重限制的小型車開始不斷變道超車,因而事故風(fēng)險增大。 由圖1(c)可知,平曲線曲率小于0.25,即半徑大于4 km時,平滑曲線較為平緩,表明此區(qū)間內(nèi)平曲線曲率的變化對事故次數(shù)無顯著影響;當(dāng)平曲線曲率為[0.25,0.6]時,事故次數(shù)隨曲率的增大而增大;當(dāng)平曲線曲率為(0.6,0.9)時,事故次數(shù)隨曲率的增大而緩慢減?。划?dāng)平曲線曲率為[0.9,1.4]時,平滑函數(shù)增幅明顯,表明事故次數(shù)隨曲率的減小顯著增大;隨后曲率達(dá)到1.4以上,此時平曲線半徑小于0.714 km,路段限速值較低且駕駛員更加謹(jǐn)慎,因而事故風(fēng)險小。 由圖1(d)可知,縱坡坡度在達(dá)到0.8%之前,平滑函數(shù)單調(diào)遞減且減幅較緩,對事故次數(shù)無顯著影響;當(dāng)縱坡坡度大于0.8%時,平滑函數(shù)呈近似直線單調(diào)遞增,表明事故次數(shù)與縱坡坡度呈正相關(guān)線性關(guān)系。 由圖1(e)可知,在連續(xù)下坡長度小于1.3 km時,事故次數(shù)隨路段下坡長度增加而增大;當(dāng)下坡長度達(dá)到1.3 km后,函數(shù)單調(diào)遞減最終趨于平穩(wěn),在此區(qū)間內(nèi),隨著坡長增大,事故次數(shù)隨之減小直至不再隨坡長變化,由于坡長已達(dá)到一定長度,因此相比于坡長較短的路段駕駛員更加謹(jǐn)慎[15]。 1) 針對高速公路建立GLM與GAM,對2種事故預(yù)測模型進(jìn)行擬合優(yōu)度檢驗,并分別采用GLM與GAM對事故次數(shù)進(jìn)行預(yù)測,結(jié)果表明GAM的模型性能優(yōu)于GLM。 2) 無論是GLM還是GAM,均識別出交通量、平曲線曲率、縱坡坡度、連續(xù)下坡長度、路緣帶寬度、單向2車道、單向3車道、避險車道、爬坡車道以及基本路段10個顯著影響因素,而GAM則在此基礎(chǔ)上識別出了貨車比例與縱坡坡度對事故次數(shù)同樣具有顯著影響,表明采用GAM進(jìn)行事故分析能避免遺漏重要影響因素。 3) 事故次數(shù)與交通量、貨車比例并非始終正相關(guān),當(dāng)交通量為(1 636 veh/d,4 447 veh/d]時,事故次數(shù)隨交通量的增加而降低;當(dāng)貨車比例為(0.55,0.7]時,事故次數(shù)隨貨車增加而降低。此外,各因素平滑函數(shù)的增減轉(zhuǎn)折點(diǎn)可作為分級研究的標(biāo)準(zhǔn),且道路設(shè)計要素的函數(shù)增減閾值可為道路設(shè)計或改善路段行駛安全性提供參考。 4) GAM鑒別分析事故影響因素的能力有待進(jìn)一步研究,例如將路面特性、天氣條件及微觀交通流條件等更多影響因素以及各因素間的交互作用納入到建模變量中,模型及其分析結(jié)果將能更客觀地反映各影響因素對事故次數(shù)的作用機(jī)理。5 結(jié)論與展望