孟祥海,劉振博,2
(1.哈爾濱工業(yè)大學(xué) 交通科學(xué)與工程學(xué)院,黑龍江 哈爾濱 150090;2.四川省國土空間規(guī)劃研究院)
在傳統(tǒng)的交通事故分析模型或預(yù)測模型中,使用的因變量多為事故次數(shù)、傷亡事故次數(shù)或事故傷亡人數(shù)等離散型的隨機(jī)變量,并采用泊松分布、負(fù)二項(xiàng)分布、零堆積泊松分布或零堆積負(fù)二項(xiàng)分布等對離散型的事故數(shù)據(jù)進(jìn)行擬合。馬壯林等針對交通事故多發(fā)路段,建立了事故次數(shù)的泊松回歸模型、負(fù)二項(xiàng)回歸模型及零堆積回歸模型;孟祥海等建立了線形與交通狀態(tài)組合條件下的追尾事故次數(shù)負(fù)二項(xiàng)分布模型;依據(jù)負(fù)二項(xiàng)分布標(biāo)定了高速公路基本路段事故次數(shù)預(yù)測模型,提出了基于負(fù)二項(xiàng)分布的路段安全性評價(jià)方法;基于統(tǒng)計(jì)及假設(shè)檢驗(yàn),深入分析了事故次數(shù)、傷亡事故數(shù)、事故死亡人數(shù)等離散型事故數(shù)據(jù)的統(tǒng)計(jì)分布特征。
然而在實(shí)際應(yīng)用中,由于交通事故數(shù)據(jù)的隱私性和敏感性,往往很難直接獲得事故次數(shù)、事故傷亡人數(shù)等數(shù)據(jù),尤其是發(fā)生在具體道路上的上述數(shù)據(jù)。相反,在許多交通事故分析報(bào)告、交通安全評價(jià)報(bào)告甚至是交通安全研究報(bào)告中,億車公里事故率、百萬輛車事故率等事故率指標(biāo)經(jīng)常被用來作為評價(jià)指標(biāo),用以描述道路交通安全狀況。也就是說,在有些沒有事故次數(shù)、傷亡人數(shù)等事故絕對指標(biāo)的情況下,事故率即成為可獲取的事故指標(biāo)。因此,在此背景下,基于事故率來建立事故分析模型或預(yù)測模型就具有了一定的現(xiàn)實(shí)意義。另外,事故率本身就包含了交通量、路段長度等事故關(guān)聯(lián)因素信息,是非常有效和客觀的交通安全評價(jià)指標(biāo)。
從統(tǒng)計(jì)學(xué)原理上看,事故次數(shù)作為因變量,只能取非負(fù)整數(shù),屬于離散型隨機(jī)變量,因此,采用泊松回歸或負(fù)二項(xiàng)回歸來建立事故分析模型是合理的。當(dāng)統(tǒng)計(jì)期短或路段劃分較短時(shí),事故次數(shù)統(tǒng)計(jì)數(shù)據(jù)中可能會(huì)出現(xiàn)大量的“0”值,此時(shí),還可考慮采用零堆積泊松回歸或零堆積負(fù)二項(xiàng)回歸來建立事故分析模型。不同于事故次數(shù),事故率屬于連續(xù)型的隨機(jī)變量,泊松、負(fù)二項(xiàng)及零堆積類回歸方法已不再適用,需要有新的回歸方法。同理,當(dāng)統(tǒng)計(jì)期短或路段劃分較短時(shí),事故率統(tǒng)計(jì)數(shù)據(jù)中仍可能出現(xiàn)大量的“0”值,此時(shí),事故率取值是受限的,屬于受限因變量。
一般而言,連續(xù)型受限因變量的回歸方法常采用Truncated回歸(斷尾回歸)和Tobit回歸(截取回歸)兩種。其中,斷尾回歸適用于統(tǒng)計(jì)數(shù)據(jù)能取得全體樣本,而只有在大于或小于某個(gè)常數(shù)才能被觀測到的情況;Tobit回歸適用于當(dāng)統(tǒng)計(jì)數(shù)據(jù)大于等于或小于等于某個(gè)常數(shù)時(shí),所有的數(shù)據(jù)均被記錄為這個(gè)常數(shù)的情況。Tobit回歸雖然可以取得全部的觀測數(shù)據(jù),但對于某些觀測數(shù)據(jù),因變量取值被壓縮到一個(gè)點(diǎn)上了,此時(shí),因變量的概率分布就變成了由一個(gè)離散點(diǎn)和一個(gè)連續(xù)分布所組成的混合分布。因此,當(dāng)事故率屬于受限因變量時(shí),采用Tobit回歸來建立事故分析模型是適合的。
鑒于中國尚未將Tobit模型應(yīng)用于道路交通安全領(lǐng)域的實(shí)際情況,該文嘗試應(yīng)用Tobit回歸來建立山區(qū)高速公路事故率與幾何線形條件之間的關(guān)系模型,旨在驗(yàn)證Tobit模型的適用性問題,并據(jù)此分析幾何線形條件對交通事故的影響。山區(qū)高速公路復(fù)雜的幾何線形條件,是誘發(fā)交通事故的重要原因之一,從事故率角度進(jìn)一步分析這種影響關(guān)系也是十分有意義的。
事故率分析模型是一個(gè)描述事故率指標(biāo)與事故影響因素之間相關(guān)關(guān)系的多元線性回歸模型,即:
Yi=βXi+εi,i=1,2,…,N
(1)
式中:Yi為路段i上的事故率;Xi為路段i上的事故影響因素;β為待估計(jì)的參數(shù)變量;εi為殘差項(xiàng);N為路段數(shù)(即樣本數(shù))。
針對式(1)的多元線性回歸模型,由于事故率是連續(xù)型受限因變量,因此,可采用斷尾回歸和Tobit回歸兩種方法來建立事故率分析模型。
對于斷尾回歸,設(shè)樣本總體Y原來的概率密度為f(Y),則斷尾后的概率密度f*(Y)為:
(2)
式中:P(Y>0)為事故率Y>0的概率。
當(dāng)事故率為“0”時(shí),斷尾回歸認(rèn)為斷尾處概率密度為“0”,即在斷尾回歸中事故率為“0”的情況不會(huì)出現(xiàn),顯然,這與事實(shí)是不符的。
對于Tobit回歸,受限因變量的概率密度分布被變換成由一個(gè)離散點(diǎn)和一個(gè)連續(xù)分布所組成的混合分布。Tobit回歸認(rèn)為,在左側(cè)受限處的概率密度不為“0”,即事故率為“0”的情況可能會(huì)出現(xiàn),這更符合事故率數(shù)據(jù)的實(shí)際情況。事實(shí)上,此時(shí)應(yīng)用Tobit回歸,可看做求解事故率的最優(yōu)解問題:在交通事故不發(fā)生的情況下,事故率的最優(yōu)解即為邊角解(Corner solution),即事故率為“0”;在交通事故發(fā)生的情況下,則事故率一定為正數(shù)。
應(yīng)用Tobit回歸建立事故率分析模型可表達(dá)為:
(3)
(4)
應(yīng)用Tobit回歸時(shí),如果用最小二乘法(OLS)進(jìn)行估計(jì),非線性項(xiàng)將被納入殘差項(xiàng)中,無論使用整體樣本還是去掉離散點(diǎn)后的子樣本,都不能得到一致的估計(jì)。
若采用去掉離散點(diǎn)后的子樣本,即使用“Yi>0”的子樣本進(jìn)行OLS參數(shù)估計(jì)時(shí),可求得事故率均值E(Yi)為:
E(Yi|Xi;Yi>0)=βXi+σ·λ(-βXi/σ)
(5)
式中:λ為逆米爾斯比率(IMR);對任意常數(shù)α,λ(α)=φ(α)/[1-Φ(α)],其中Φ(α)為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù),φ(α)為標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)。
在使用子樣本進(jìn)行回歸時(shí),由于忽略了非線性項(xiàng)σ·λ(-βXi/σ),該項(xiàng)被納入到了殘差項(xiàng)中,從而導(dǎo)致殘差項(xiàng)與Xi相關(guān),OLS無法得到一致的估計(jì)。
若使用整體樣本進(jìn)行OLS參數(shù)估計(jì)時(shí),可求得事故率均值E(Yi)為:
E(Yi|Xi)=E(Yi|Xi;Yi>0)·P(Yi>0|Xi)=Φ(βXi/σ)[βXi+σ·λ(-βXi/σ)]
(6)
因此,使用整體樣本進(jìn)行OLS參數(shù)估計(jì)時(shí),也將非線性項(xiàng)納入到殘差項(xiàng)中,從而不能得到一致的估計(jì)。
(7)
(8)
此時(shí),式(4)中Yi的概率密度函數(shù)為:
(9)
其中,1(·)為示性函數(shù),即如果括號(hào)里的表達(dá)為真,取值為1;反之,取值為0。得出樣本整體的似然函數(shù)為:
(10)
(11)
對式(11)求令其最大化的解,即可得到模型參數(shù)估計(jì)結(jié)果。由于這是一個(gè)復(fù)雜的非線性問題,可考慮采用迭代法進(jìn)行求解,例如采用牛頓迭代法等求解。
依托廣東省交通運(yùn)輸廳科技項(xiàng)目“基于全社會(huì)成本的高速公路設(shè)計(jì)方案評價(jià)技術(shù)研究”(2012-01-001-02)科研課題,收集到了京珠高速公路粵北段2006年1月至2009年6月發(fā)生的1 557起事故數(shù)據(jù)、粵贛高速公路2007年1月至2012年7月發(fā)生的1 678起事故數(shù)據(jù)以及上述兩條高速公路的幾何線形數(shù)據(jù)。京珠高速公路粵北段為山嶺重丘區(qū)高速公路,設(shè)計(jì)速度100 km/h(局部路段80 km/h),雙向四車道,全長109.29 km?;涄M高速公路為重丘區(qū)高速公路,雙向四車道,設(shè)計(jì)速度100 km/h,全長136.1 km。
由于該文建立的事故率分析模型主要是基于公路幾何線形條件,因此,應(yīng)基于幾何線形條件對上述兩條高速公路進(jìn)行路段劃分。平面線形劃分為直線路段和平曲線路段兩類。豎曲線的劃分是以變坡點(diǎn)為界,劃分為豎曲線前半段和后半段,若前半段或后半段的切線縱坡為上坡,則該半段豎曲線歸類為豎曲線上坡段,反之歸類為豎曲線下坡段。將平縱線形進(jìn)行組合,可得到以下8種路段:直線-上坡路段、直線-下坡路段、直線-豎曲線上坡路段、直線-豎曲線下坡路段、平曲線-上坡路段、平曲線-下坡路段、平曲線-豎曲線上坡路段、平曲線-豎曲線下坡路段,編號(hào)分別為路段類型1~8。路段劃分結(jié)果如表1所示,京珠高速公路粵北段共劃分出1 082個(gè)路段,粵贛高速公路共劃分出1 242個(gè)路段,這些路段就是建立事故率分析模型的樣本。
表1 路段劃分結(jié)果
對劃分后的路段,進(jìn)行事故率指標(biāo)計(jì)算。事故率選用億車公里事故率,計(jì)算公式如下:
(12)
式中:Rj為路段j上的事故率[次/(億車·km)];Aij為路段j上第i年的事故次數(shù)(次);AADTij為路段j上第i年的年平均日交通量(pcu/d);Lj為路段j的長度(km);n為統(tǒng)計(jì)年限,對于不足一整年的數(shù)據(jù),須折算。
對因路段劃分長短不同所導(dǎo)致的億車公里事故率異常值(主要是因路段過短而出現(xiàn)的極高的事故率值),以及過長或過短的路段,應(yīng)進(jìn)行處理。為此,對路段長度及億車公里事故率進(jìn)行縮尾處理,剔除上下各1%的路段長度極端值和1%高的事故率極端值。最終得到了2 239個(gè)有效路段(表2)。其中,京珠高速公路粵北段有效路段1 033個(gè),粵贛高速公路1 206個(gè)。
由表2可知:事故率為“0”的路段數(shù)所占比例較大,達(dá)到了路段總數(shù)的47.5%。這表明:億車公里事故率是受限因變量(含“0”值較多的連續(xù)型變量),因此,采用受限因變量的回歸方法來建立事故率分析模型是合理的。
表2 有效路段及事故率
剔除異常值后,有效路段上的事故率及其線形數(shù)據(jù)、交通量數(shù)據(jù)統(tǒng)計(jì)結(jié)果見表3。不同類型路段上的事故率統(tǒng)計(jì)結(jié)果見表4。由表4可知:下坡路段事故率整體高于上坡路段,事故率平均值較大的是直線-下坡路段和直線-豎曲線下坡段,事故率平均值較小的是平曲線-上坡路段和直線-上坡路段。
山區(qū)高速公路事故率分析模型中選取的因變量為億車公里事故率(R);選取的自變量為年平均日交通量(AADT)、路段長度(L)、平曲線曲率(DH)、豎曲線曲率(DV)、縱坡類型(ID)和縱坡坡度(i),單位分別為pcu/d、m、km-1、km-1、無量綱和%。
表3 事故率及道路線形數(shù)據(jù)統(tǒng)計(jì)結(jié)果
表4 不同類型路段事故率數(shù)據(jù)統(tǒng)計(jì)
其中,縱坡類型變量取“0”或“1”值,屬于虛擬變量,用以區(qū)分上下坡路段,上坡路段取“0”,下坡路段取“1”。選擇平曲線曲率和豎曲線曲率的原因是,可方便變量的賦值。路段類型1~4均為平面直線與縱斷面線形組合路段,此時(shí)平曲線半徑為無限大,而平曲線曲率則可取為“0”值。同理,在縱坡與平面線形組合的路段中,縱坡路段的豎曲線半徑為無限大,而豎曲線曲率則可取為“0”。由于在路段劃分中,上、下坡路段已分屬不同的路段類型,因此,縱坡坡度均取絕對值。線形指標(biāo)原始數(shù)據(jù)與賦值后的數(shù)據(jù)示例,見表5。
為橫向比較不同自變量對事故率的影響程度,需要消除各自變量特征尺度的潛在影響,因此,需要對自變量數(shù)據(jù)進(jìn)行歸一化處理。歸一化公式為:
(13)
模型的因變量,即億車公里事故率,也應(yīng)進(jìn)行歸一化處理,公式同式(13)。
對歸一化后的事故率及事故影響因素?cái)?shù)據(jù),應(yīng)用Stata統(tǒng)計(jì)分析軟件進(jìn)行參數(shù)標(biāo)定,結(jié)果見表6。
表5 線形指標(biāo)原始數(shù)據(jù)與賦值后數(shù)據(jù)對比示例
注:“-”為原始數(shù)據(jù)空值項(xiàng)。
表6 模型參數(shù)標(biāo)定結(jié)果
事實(shí)上,由于基于Tobit回歸的山區(qū)高速公路事故率分析模型屬于廣義線性模型,模型的回歸系數(shù)并不能直接代表自變量對因變量的影響程度大小,因此還需對模型自變量求其各自的邊際效應(yīng)。邊際效應(yīng)的計(jì)算結(jié)果如表7所示。
表7 自變量邊際效應(yīng)計(jì)算結(jié)果
由表6可知:在標(biāo)定模型的2 239組數(shù)據(jù)中,非受限數(shù)據(jù)1 175組,以“0”值作為左側(cè)受限界限的左側(cè)受限數(shù)據(jù)1 064組。除平曲線曲率顯著性較差外,年平均日交通量、路段長度、豎曲線曲率、縱坡類型、縱坡坡度絕對值在95%置信水平下均是顯著的,概率值P均小于0.05。
由表7可知:年平均日交通量的邊際效應(yīng)為負(fù),說明隨著年平均日交通量的增加,億車公里事故率逐漸減小。這也隱含著說明:事故次數(shù)隨交通量的增長不是線性增加的,即事故次數(shù)的增長率要低于交通量的增長率。路段長度的邊際效應(yīng)為正,說明隨著路段長度的增加,億車公里事故率在增加。平曲線曲率對事故率的影響不明顯,邊際效應(yīng)極小。豎曲線曲率的邊際效應(yīng)為正,說明隨著豎曲線曲率的增大,即豎曲線半徑的減小,億車公里事故率在增大,該回歸結(jié)果與豎曲線半徑越大交通安全狀況越好的相關(guān)研究結(jié)論是相符的??v坡類型及縱坡絕對值的邊際效應(yīng)均為正,說明下坡路段億車公里事故率要高于上坡路段,且隨著縱坡坡度絕對值的增長,億車公里事故率也隨之增加。這一回歸結(jié)果也證實(shí)了下坡路段危險(xiǎn)性高于上坡路段、坡度越大危險(xiǎn)性越大的相關(guān)研究結(jié)論。
對事故率影響最大的因素是縱坡坡度,最小的是豎曲線曲率。記豎曲線曲率對億車公里事故率的影響程度為1.0,則年平均日交通量、路段長度、縱坡坡度、縱坡類型對億車公里事故率的影響程度分別為3.1、4.1、9.1、9.7。
(1) 由于事故率是連續(xù)型隨機(jī)變量,加之會(huì)出現(xiàn)大量“0”值的情況,因此,采用Tobit回歸來建立事故率分析模型是適宜的。
(2) 基于Tobit回歸建立的山區(qū)高速公路事故率分析模型,較好地反映出了年平均日交通量、幾何線形條件等對事故率的影響。模型標(biāo)定結(jié)果及邊際效應(yīng)數(shù)值表明,縱坡類型對事故率的影響最大;其次依次是縱坡坡度、路段長度、年平均日交通量和豎曲線曲率。
(1) 該文所建立的事故率分析模型,僅考慮了交通量、路段長度以及幾何線形條件等對交通事故的影響,在后續(xù)的研究中,還應(yīng)進(jìn)一步考慮路面條件、天氣條件以及交通狀態(tài)等對交通事故的影響,從而提高分析模型的精度。
(2) 該文僅考慮了交通安全中“量”的問題,即事故率。在后續(xù)的研究中,還應(yīng)考慮事故嚴(yán)重程度指標(biāo),如傷亡事故率等,這是交通安全中“質(zhì)”的問題。