国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

刪失數(shù)據(jù)下事件持續(xù)時間多因素生存分析模型

2012-10-30 08:14:46方守恩陳雨人
關(guān)鍵詞:持續(xù)時間概率交通

蔣 宏,方守恩,陳雨人

(同濟(jì)大學(xué) 道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海 201804)

交通事件的持續(xù)時間對于道路交通管理人員實(shí)施緊急疏散策略、制定交通管理措施和交通流誘導(dǎo)等具有十分重要的意義.交通事件持續(xù)時間則受到天氣、事故類型、到場時間、占用車道數(shù)、涉及車輛數(shù)、傷亡人數(shù)、救援車輛數(shù)等隨機(jī)因素的交互影響.

交通事件持續(xù)時間預(yù)測方法主要有:基于統(tǒng)計的預(yù)測方法、回歸模型、時間序列模型、決策樹、非參數(shù)回歸法和模糊邏輯法等[1].其中,決策樹模型是比較簡單有效的方法,例如姬楊蓓蓓等[2]采用基于貝葉斯決策樹的算法,利用數(shù)據(jù)建立交通事件持續(xù)時間的預(yù)測模型,且具有很好的魯棒性;劉偉銘等[3]在對事件數(shù)據(jù)進(jìn)行顯著性分析后,建立了高速公路交通事件持續(xù)時間預(yù)測決策樹.而目前國外較多采用概率模型對事件持續(xù)時間特性進(jìn)行研究.多數(shù)研究表明交通事件持續(xù)時間服從對數(shù)正態(tài)分布[4-5],而叢浩哲等[6]對浙江省某條高速公路交通事件持續(xù)時間數(shù)據(jù)檢驗(yàn)表明數(shù)據(jù)不服從正態(tài)分布;Doohee等[7]的研究表明事故的檢測時間、報告時間和響應(yīng)時間服從 Weibull模型,清除時間則服從Log-logistic模型.

本文分別應(yīng)用生存分析模型中的比例風(fēng)險模型和加速風(fēng)險模型對交通事件持續(xù)時間及影響因素(協(xié)變量)進(jìn)行建模,并討論2個模型的適用性.

1 交通事件持續(xù)時間的特性

交通事件持續(xù)時間一般包括4個獨(dú)立的階段:事件發(fā)現(xiàn)階段、事件響應(yīng)階段、事件清除階段和交通恢復(fù)階段[8].事件發(fā)現(xiàn)階段:從交通事件發(fā)生到交通管理者、警察或高速公路救援隊發(fā)現(xiàn)交通事件的時間;事件響應(yīng)階段:從交通事件被確認(rèn)到救援車輛到達(dá)現(xiàn)場的時間;事件清除階段:救援隊伍處理受傷人員、封閉車道直到移除車輛和碎片后離開現(xiàn)場即救援隊伍將干擾交通運(yùn)行的障礙清除所處的時段;事件恢復(fù)階段:交通事件被清除后車輛排隊開始消散直到交通流恢復(fù)到正常交通狀態(tài)所處的時段.

目前國內(nèi)對于交通事件持續(xù)時間的準(zhǔn)確預(yù)測尚有一定的難度,其中比較重要的原因是缺少對事件狀態(tài)全過程的記錄.從公路交管部門對交通事件的記錄信息來看,可用于交通持續(xù)時間統(tǒng)計分析的只有事件確認(rèn)時刻、開展救援時刻以及處置完畢時刻.由于記錄的缺失,導(dǎo)致事件持續(xù)時間數(shù)據(jù)出現(xiàn)2種類型(刪失和完全),其中t1和t2為刪失數(shù)據(jù),t3為完全數(shù)據(jù),如圖1.

圖1 事件持續(xù)時間數(shù)據(jù)示例Fig.1 Illustration of incident duration data

由于交通恢復(fù)階段受交通流和交通管理等多種因素影響難以觀測和記錄,交通事件的發(fā)現(xiàn)時間相對其他階段可以忽略不計,本文將事件確認(rèn)到處置完畢的時間段作為研究的觀測周期.

2 生存分析的基本函數(shù)

生存分析是研究多種影響因素與生存時間有無聯(lián)系以及聯(lián)系程度大小的一種既考慮時間又考慮結(jié)果的統(tǒng)計方法,并可充分利用刪失數(shù)據(jù)提供的不完全信息[9].生存時間(事件狀態(tài)的持續(xù))指從某起點(diǎn)事件開始到被觀測對象出現(xiàn)終點(diǎn)事件所經(jīng)歷的時間.

生存時間T是一個連續(xù)性的非負(fù)隨機(jī)變量,當(dāng)取t時具有累計分布函數(shù)F(t),又稱為失效函數(shù)(failure function).由定義可知,事件持續(xù)時間的概率是隨機(jī)變量T的函數(shù),表示為

式中:P (T <t)表示事件 {T <t}發(fā)生的概率.由式(1)可得概率密度函數(shù)為

生存函數(shù)S(t)(survival function)又稱累計生存率,簡稱生存率,表示具有協(xié)變量X的觀察對象其生存時間T大于時間t的概率,定義為

還有一個在t時刻處(附近)對死亡發(fā)生的可能性進(jìn)行度量的函數(shù)h(t),稱為危險函數(shù)(hazard function),它是-lnS(t)關(guān)于t的導(dǎo)數(shù),定義如下:

累計危險函數(shù)為

事件持續(xù)時間的危險函數(shù)、密度函數(shù)、累計頻率函數(shù)和生存函數(shù)的關(guān)系如圖2.

圖2 生存分析模型函數(shù)[10]Fig.2 Survival analysis models functions[10]

3 比例風(fēng)險模型

生存分析模型中最常用的多因素分析方法就是比例風(fēng)險模型(proportional hazards model)[11],該模型是一種半?yún)?shù)模型,不需要假定生存時間的分布,但卻可以通過一個模型來分析生存時間的分布規(guī)律以及危險因素(協(xié)變量)對生存時間的影響.其基本形式如下:

式中:h(t|Z)為具有p個協(xié)變量Z的個體j在時刻t的危險率;h0(t)為基準(zhǔn)風(fēng)險函數(shù),它是全部協(xié)變量都為零或標(biāo)準(zhǔn)狀態(tài)下的風(fēng)險函數(shù),一般是未知的;Zk(k=1,…,p) 為個體j不隨時間改變的協(xié)變量;βk(k=1,…,p) 為變量參數(shù),若βk>0,表明該協(xié)變量為危險因子,會增加風(fēng)險函數(shù)值,對生存時間出現(xiàn)負(fù)作用,βk<0表明該協(xié)變量為保護(hù)因子,會減少風(fēng)險函數(shù)值,即延長生存時間,βk=0表明該因素為無關(guān)因素.

之所以被稱為比例風(fēng)險模型是因?yàn)槿我?個具有協(xié)變量Z和Z*的個體,其危險率成比例

協(xié)變量參數(shù)向量β= (β1,…,βk,…,βp)′可根據(jù)偏似然估計方法得到.令t1<t2<…<tD表示順序事件時間,定義時間ti時的風(fēng)險集R (ti)為在ti之前仍處于研究過程的所有觀測個體集合,Zjk為個體j的第k個協(xié)變量,Z(i)k是與在時間ti時失效的個體相關(guān)的第k個協(xié)變量,定義危險函數(shù)的偏似然函數(shù)如下:

為了評價比例風(fēng)險模型的擬合程度,選用Cox-Snell殘差對其進(jìn)行檢驗(yàn).如果模型中β的估計值為b=(b1,…,bk,…,bp)′,則 Cox殘差定義為

4 加速失效模型

參數(shù)加速失效模型(accelerated failure time models)可作為半?yún)?shù)比例模型的替代模型[12],其對事件發(fā)生時間X的自然對數(shù)Y=ln(X)建模,參數(shù)模型的形式如下:

式中:μ為截距;γ′=(γ1,γ2,…,γp)為回歸系數(shù)向量;Z為協(xié)變量矩陣;σ為未知的尺度參數(shù);W 為誤差項(xiàng).通常根據(jù)假設(shè)誤差項(xiàng)服從的不同分布來產(chǎn)生不同的回歸模型[13],其對應(yīng)關(guān)系如表1.

表1 常用的參數(shù)加速失效模型Tab.1 Some commonly used accelerated failure time models for parametric duration models

如果令S0(x)為隨機(jī)向量exp(μ+σW)的生存函數(shù),對于所有的觀測時刻x,帶有協(xié)變量Z的危險率與基本危險率h0的關(guān)系可變換為

模型中的參數(shù)可以通過極大似然估計法得到.假定有n個樣本,定義fj(tj)和Sj(tj)為觀測個體j在時刻tj的密度函數(shù)和生存函數(shù),其示性函數(shù)為δj,構(gòu)造似然函數(shù)為

模型擬合程度評價采用概率圖檢驗(yàn)的方法;此外,在一定置信水平下的擬合模型并不具有唯一性,本文以赤池信息量準(zhǔn)則[14](Akaike information criterion,AIC)判斷相對優(yōu)劣性來選擇更優(yōu)的模型,AIC準(zhǔn)則要求AIC的取值越小越好.模型AIC函數(shù)(AIC)的定義如下:

式中:l為對數(shù)似然函數(shù);e為模型中協(xié)變量的個數(shù);c為模型獨(dú)立參數(shù)個數(shù).

5 模型應(yīng)用

5.1 數(shù)據(jù)準(zhǔn)備

實(shí)例分析對象為浙江省某條雙向8車道高速公路,全長約78km,設(shè)計車速120km·h-1.當(dāng)?shù)亟痪块T采集的交通事件數(shù)據(jù)信息包括:星期、天氣、報警時間、報警類型、到達(dá)現(xiàn)場時間、事件類型、占用車道數(shù)、涉及車輛數(shù)、受傷人數(shù)、死亡人數(shù)、最先到達(dá)現(xiàn)場的車輛、救援車輛數(shù)等.交通事件數(shù)據(jù)采集的時間跨度為3年,共得事件觀測個體1455個.對采集的定量和定性數(shù)據(jù)進(jìn)行編碼和賦值:如將報警時間分為早高峰、白天、晚高峰和夜間4個水平;又如由散落物引起的事故涉及車輛數(shù)為0;觀測個體是否刪失分別用0和1標(biāo)識.模型變量的分組和賦值如表2.

表2 變量說明及賦值一覽Tab.2 Summary of variables explanation and value assignment

5.2 模型擬合與檢驗(yàn)

采用逐步回歸法對變量進(jìn)行篩選及最大似然估計,比例風(fēng)險模型中通過顯著性檢驗(yàn)的協(xié)變量按照對持續(xù)時間影響程度大小排列為Z9,Z6,Z3,Z8和Z5這5個變量.此外,通過變量方差分析發(fā)現(xiàn),Z1,Z2,Z4和Z7這4個協(xié)變量對于生存率沒有顯著影響,這些變量被剔除在最終的回歸模型外;從比例分析模型協(xié)變量參數(shù)估計系數(shù)的符號來看,回歸方程系數(shù)除Z5以外全部小于零,說明報警時段和占用車道數(shù)等全部為保護(hù)因子,即協(xié)變量每增加1個等級交通事件的持續(xù)時間就會延長,危險度降低.對于加速風(fēng)險模型,通過顯著性檢驗(yàn)的協(xié)變量按照對持續(xù)時間影響程度大小排列為Z9,Z6,Z3,Z8,Z5,Z4這6個變量.此外,通過變量方差分析發(fā)現(xiàn),Z1,Z2,Z7這3個協(xié)變量對于生存率沒有顯著影響,這些變量被剔除在最終的回歸模型外.2個模型協(xié)變量最終的篩選及參數(shù)估計結(jié)果如表3.

雖然有些協(xié)變量被剔除在模型外,但并不能排除這些因素對持續(xù)時間的影響,預(yù)選影響因子之間存在的強(qiáng)相關(guān)性會導(dǎo)致該現(xiàn)象的產(chǎn)生.例如,當(dāng)顯著性相關(guān)變量中有一方進(jìn)入回歸模型中,另一方變量則有可能會排除在模型外,如當(dāng)事故類型進(jìn)入模型后,Z7被排除在模型外,但并不能就此說明Z7對交通事件的持續(xù)時間沒有影響,通過對協(xié)變量進(jìn)行皮爾遜相關(guān)性檢驗(yàn)后發(fā)現(xiàn),2個變量間的皮爾遜相關(guān)系數(shù)為-0.5508,說明進(jìn)入模型的事故類型這個協(xié)變量部分反映了涉及車輛數(shù)的信息.

表3 模型的參數(shù)估計Tab.3 Estimated parameters for the models

根據(jù)5個協(xié)變量擬合的比例風(fēng)險模型繪制殘差和殘差累計危險率的Cox-Snell殘差圖(圖3),圖中的直線大致呈45°,說明模型擬合程度較好.

比例風(fēng)險模型生存函數(shù)模型形式為

式中,S0(t)為基準(zhǔn)生存函數(shù).對數(shù)據(jù)分別用各種假設(shè)回歸模型進(jìn)行擬合,得到對數(shù)羅吉斯蒂模型的AIC值最?。ㄈ绫?),因此最終采用對數(shù)羅吉斯蒂進(jìn)行建模,加速失效模型其生存函數(shù)形式為

模型擬合程度的概率圖檢驗(yàn)如圖4.

圖3 Cox-Snell殘差Fig.3 Cumulative hazard of Cox-Snell residuals

表4 加速失效模型的參數(shù)Tab.4 Analysis for parameters of accelerated failure time models

5.3 協(xié)變量敏感性分析

生存函數(shù)每種協(xié)變量組合都會生成不同的生存函數(shù)概率曲線.圖5給出了不同事故類型下協(xié)變量Z5的生存函數(shù)概率,可以看出,事故類型對于生存函數(shù)的概率影響較小,沒有顯著性不同,這是由協(xié)變量的參數(shù)估計值決定的,對于比例風(fēng)險模型和加速失效模型其系數(shù)分別為0.027和0.055.由此可見,對于生存概率影響的大小是由參數(shù)估計值的貢獻(xiàn)決定的,因此,本文選擇了貢獻(xiàn)率最大的因子Z9進(jìn)行深入分析.

為了比較2個模型對協(xié)變量的敏感程度,假定如下情景:在控制協(xié)變量Z3=1,Z4=1,Z5=1,Z6=1和Z8=1的情況下,比較對模型影響程度最大的協(xié)變量Z9對生存函數(shù)的影響.從圖6a可見對于是否發(fā)生亡人事故,持續(xù)時間大于25min的概率差別甚微,且生存時間的概率估計值均可達(dá)到80%以上;但隨著持續(xù)時間的增加,發(fā)生亡人事故對于事件結(jié)束的概率影響較大;從圖6b可見,對于亡人事故,概率持續(xù)時間大于50min的概率約為40%,而對于非亡人事故概率估計值約為10%.

為了更進(jìn)一步分析協(xié)變量對生存概率的影響,借鑒方差分析法的思想比較2個模型對協(xié)變量當(dāng)場亡人(Z9=0,1)的敏感程度,考察任意觀測時間下的生存函數(shù)概率絕對差|ST(t|Z9=1)-ST(t|Z9=0)|的變化情況,生存函數(shù)概率絕對差曲線如圖7.

變量敏感性對比分析表明:在觀測區(qū)間內(nèi)2個模型對亡人事故的整體敏感性接近.但從圖7可見:比例風(fēng)險模型敏感性曲線的曲率變化率較小,而加速失效模型的曲率變化率較大,表明該模型對于協(xié)變量當(dāng)場亡人的敏感性較強(qiáng),在持續(xù)時間約為30 min時達(dá)到極值;此外,持續(xù)時間約為60min的絕對差成為2個模型對協(xié)變量當(dāng)場亡人敏感性的分水嶺.

6 結(jié)論

在分析交通事件狀態(tài)及持續(xù)時間規(guī)律的基礎(chǔ)上,以某高速公路的1455起交通事件持續(xù)時間及影響因素為分析對象,應(yīng)用生存分析理論相關(guān)模型對交通事件持續(xù)時間分別用比例風(fēng)險模型和加速失效模型對協(xié)變量進(jìn)行了篩選并建立了相應(yīng)的生存函數(shù)模型;并對持續(xù)時間的生存率貢獻(xiàn)最大的協(xié)變量當(dāng)場亡人進(jìn)行了敏感性分析,比較了協(xié)變量在不同水平下的生存率,在持續(xù)時間小于30min時加速失效模型對于當(dāng)場亡人事故的敏感性較強(qiáng),不利于短時的建模預(yù)測,且對于短時預(yù)測采用比例風(fēng)險模型更符合實(shí)際操作.生存模型可以基于事故報告信息預(yù)測持續(xù)時間大小的概率,為事故預(yù)后措施的實(shí)施及緊急救援提供決策參考.

此外,交通事件持續(xù)時間的預(yù)測評價技術(shù)還需要從以下幾個方面深入:①完善事件持續(xù)時間4個階段的統(tǒng)計數(shù)據(jù)并建立相關(guān)的數(shù)據(jù)庫,通過對事件持續(xù)時間分布規(guī)律的研究提高預(yù)測模型的精度;②預(yù)測模型的參數(shù)估計值的時間穩(wěn)定性[15]也需要大量的數(shù)據(jù)來驗(yàn)證;③本文僅利用半?yún)?shù)加速失效模型和全參數(shù)加速失效模型對持續(xù)時間的生存函數(shù)進(jìn)行了建模和比較分析,其他生存分析模型對于交通事件持續(xù)時間的適用性有待于進(jìn)一步研究.

[1]姬楊蓓蓓,張小寧,孫立軍.交通事件持續(xù)時間預(yù)測方法綜述[J].公路,2008,33(3):72.JIYANG Beibei,ZHANG Xiaoning,SUN Lijun.A review of the traffic incident duration prediction methods[J].Highway Engineering,2008,33(3):72.

[2]姬楊蓓蓓,張小寧,孫立軍.基于貝葉斯決策樹的交通事件持續(xù)時間預(yù)測[J].同濟(jì)大學(xué)學(xué)報:自然科學(xué)版,2008,36(3):319.JIYANG Beibei,ZHANG Xiaoning,SUN Lijun.Traffic incident duration prediction grounded on Bayesian decision method-based tree algorithm [J]. Journal of Tongji University:Natural Science,2008,36(3):319.

[3]劉偉銘,管麗萍,尹湘源.基于決策樹的高速公路時間持續(xù)時間預(yù)測[J].中國公路學(xué)報,2005,18(1):99.LIU Weiming,GUAN Liping,YIN Xiangyuan.Prediction offreeway incident duration based on decision tree[J].China Journal of Highway and Transport,2005,18(1):99.

[4]Golob T F,Reeker W W,Leonard J D.An analysis of the severity and incident duration of truck-involved freeway accidents[J].Accident Analysis and Prevention,1987,19(4):375.

[5]Garib A,Radwan A E,Al-Deek H.Estimating magnitude and duration of incident delays[J].Journal of Transportation Engineering,1997,123(6):459.

[6]叢浩哲,方守恩,王俊驊.交通事件持續(xù)時間影響因素分析及其回歸模型[J].交通信息與安全,2010,28(3):80.CONG Haozhe,F(xiàn)ANG Shouen,WANG Junhua.Factors analysis of freeway incident duration and regression modeling[J].Computer and Communication,2010,28(3):80.

[7]Doohee Nam,F(xiàn)red Mannering.An exploratory hazard-based analysis of highway incident duration[J].Transportation Research Part A,2000,34:85.

[8]王建軍,鄧亞娟.路網(wǎng)環(huán)境下高速公路交通事故影響傳播分析與控制[M].北京:科學(xué)出版社,2010.WANG Jianjun,DENG Yajuan.Traffic accident impact analysis and control of expressway under road network[M].Beijing:Science Press,2010.

[9]彭非,王偉.生存分析[M].北京:中國人民大學(xué)出版社,2004.PENG Fei,WANG Wei.Survival analysis[M].Beijing:China Renmin University Press Co.Ltd.,2004.

[10]Washington S P,Karlaftis M G,Mannering F L.Statistical and econometric methods for transportation data analysis[M].Boca Raton:CRC Press LLC,2003.

[11]Cox D R.Regression models and life tables[J].Journal of Royal Statistic Society,1972,34(B):187.

[12]Wei L J.The accelerated failure time model:a useful alternative to the cox regression model in survival analysis[J].Statistics in Medicine,1992,11:1871.

[13]Allison P D.Survival analysis using SAS:apractical guide[M].2nd ed.Cary:SAS Institute Inc,2010.

[14]Akaike H.A new look at the statistical model identification[J].IEEE Transactions on Automatic Control,1974,19(6):716.

[15]Chung Y.Development of an accident duration prediction model on the korean freeway systems[J].Accident Analysis and Prevention,2010,42:282.

猜你喜歡
持續(xù)時間概率交通
第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
概率與統(tǒng)計(一)
概率與統(tǒng)計(二)
繁忙的交通
童話世界(2020年32期)2020-12-25 02:59:14
小小交通勸導(dǎo)員
The 15—minute reading challenge
基于SVD的電壓跌落持續(xù)時間檢測新方法
極寒與北極氣壓變動有關(guān),持續(xù)時間不確定
俄語體與持續(xù)時間結(jié)構(gòu)組合規(guī)律的認(rèn)知語義闡釋
视频| 陇南市| 绥滨县| 衡阳市| 鸡东县| 鲁甸县| 临沭县| 漠河县| 浠水县| 德令哈市| 临沂市| 酉阳| 什邡市| 阳高县| 松江区| 东明县| 察雅县| 师宗县| 两当县| 福贡县| 垫江县| 武城县| 太仆寺旗| 广宗县| 福建省| 嘉义县| 博爱县| 论坛| 邵东县| 阜新市| 松原市| 沙湾县| 旌德县| 石首市| 都江堰市| 福鼎市| 永福县| 文山县| 隆昌县| 内江市| 宁阳县|