楊 超,胡 堯,2*,商明菊,李 揚(yáng),周江娥
(1.貴州大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,貴州 貴陽(yáng) 550025;2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025)
行程時(shí)間是交通規(guī)劃、運(yùn)營(yíng)和能力評(píng)估的重要指標(biāo)。為了實(shí)現(xiàn)對(duì)車輛進(jìn)行實(shí)時(shí)管控和疏導(dǎo),行程時(shí)間必須進(jìn)行實(shí)時(shí)預(yù)測(cè),且要有較高精度。由于受到車流量與行人隨機(jī)性變化及道路其它不可控因素的影響,導(dǎo)致出行者行程時(shí)間的變化具有時(shí)變、無(wú)規(guī)律和隨機(jī)的特性,且呈現(xiàn)出較為復(fù)雜的波動(dòng)特征。
目前,在道路行程時(shí)間短時(shí)預(yù)測(cè)研究中,國(guó)內(nèi)外學(xué)者也提出了較多可靠的分析方法,主要包括隨機(jī)漫步法、線性回歸、神經(jīng)網(wǎng)絡(luò)、時(shí)間序列、模糊邏輯模型和支持向量機(jī)等[1]。隨機(jī)波動(dòng)率(Stochastic Volatility,SV)模型在1986年被提出以來(lái),人們?cè)趯?duì)金融數(shù)據(jù)的處理上建立了大量的模型來(lái)擬合分析數(shù)據(jù),從而做出合理的預(yù)測(cè)和估計(jì),其中SV模型就是大量被采用的一種金融模型,它具有數(shù)理金融學(xué)和金融計(jì)量經(jīng)濟(jì)學(xué)的雙重根源[2]。然而由SV模型含有潛在變量,致使其似然函數(shù)極為復(fù)雜,求解其估計(jì)較困難。為解決這一問(wèn)題:2002年,JACQULER等[3]將貝葉斯理論與SV模型相結(jié)合,首次使用馬爾科夫鏈蒙特卡洛(Markov Chain Monte Carlo,MCMC)方法估計(jì),發(fā)現(xiàn)其估計(jì)效果比似然方法更有效;同年,TSE等[4]實(shí)證分析了MCMC估計(jì)SV模型的效果,得出在SV模型參數(shù)估計(jì)方法中MCMC要優(yōu)于偽似然估計(jì)等方法;陳楊林等[2]用MCMC方法求解SV模型對(duì)黃金價(jià)格指數(shù)數(shù)據(jù)的未來(lái)趨勢(shì)與變化進(jìn)行了研究,且驗(yàn)證了該模型能夠較準(zhǔn)確地?cái)M合黃金價(jià)格的未來(lái)變化趨勢(shì)和較好地進(jìn)行預(yù)測(cè)。而在交通領(lǐng)域中,應(yīng)用SV模型分析數(shù)據(jù)較少。其中,李瑋峰等[5]應(yīng)用SV模型對(duì)行程時(shí)間波動(dòng)性進(jìn)行分析,并說(shuō)明了經(jīng)濟(jì)學(xué)對(duì)分析時(shí)間序列特征的模型中,在對(duì)道路行程時(shí)間波動(dòng)率的解釋上也有很好的可行性。因此,本文通過(guò)構(gòu)建SV模型對(duì)路段行程時(shí)間進(jìn)行波動(dòng)性分析,進(jìn)而能夠揭示行程時(shí)間波動(dòng)結(jié)構(gòu)的特征,對(duì)探究出行者行程時(shí)間的預(yù)測(cè)具有現(xiàn)實(shí)意義。
在SV模型中,假設(shè)波動(dòng)率是隨機(jī)游走的,并且服從幾何布朗運(yùn)動(dòng)
dS(t)=μS(t)dt+σ(t)S(t)dω0(t),
其中μ為標(biāo)的資產(chǎn)的期望收益率,σ(t)為標(biāo)的資產(chǎn)的瞬時(shí)波動(dòng)率,dω0(t)為標(biāo)準(zhǔn)布朗運(yùn)動(dòng)[6]。在SV模型中,波動(dòng)率的變化依賴于不可觀測(cè)的隨機(jī)過(guò)程。
1986年,TAYLOR[7]在說(shuō)明金融時(shí)間對(duì)數(shù)收益率序列波動(dòng)模型的自回歸行為時(shí),首次建立了標(biāo)準(zhǔn)隨機(jī)波動(dòng)率(normal stochastic volatility,SV-N)模型,其離散的表達(dá)式為
yt=εtexp(ht/2),εt~i.i.d.N(0,1),
(1)
ht=μ+φ(ht-1-μ)+ηt,ηt~i.i.d.N(0,σ2),t=1,2,…,n。
(2)
式(1)中yt是第t時(shí)刻的標(biāo)的資產(chǎn)對(duì)數(shù)收益率,干擾項(xiàng)εt獨(dú)立同分布,且服從標(biāo)準(zhǔn)正態(tài)分布,ht表示對(duì)數(shù)波動(dòng)率。式(2)中參數(shù)μ表示平均波動(dòng)水平;ηt用于度量波動(dòng)的擾動(dòng)程度,獨(dú)立同分布于N(0,σ),ηt與εt相互獨(dú)立;φ為持續(xù)性參數(shù),能反映當(dāng)前狀態(tài)對(duì)未來(lái)波動(dòng)的作用程度,當(dāng)|φ|<1時(shí),認(rèn)為模型是協(xié)方差平穩(wěn)的;波動(dòng)ht服從AR(1)過(guò)程。在SV-N模型中,均假定誤差服從正態(tài)分布且平穩(wěn),需要估計(jì)的參數(shù)有均值μ,持續(xù)性參數(shù)φ以及擾動(dòng)水平σ2。
用學(xué)生t分布代替式(1)中N(0,1)分布,即得到厚尾隨機(jī)波動(dòng)率(heavy-tailed stochastic volatility,SV-T)模型,具體形式如下
yt=εtexp(ht/2),εt~i.i.d.t(ω) ,
(3)
ht=μ+φ(ht-1-μ)+ηt,ηt~i.i.d.N(0,σ2),t=1,2,…,n。
(4)
在式(3)(4)中,除εt服從t分布外,其它參數(shù)意義與SV-N模型一致。特別地,通常假設(shè)εt~N(0,1)或者εt~t(ω)[6]。基于MCMC方法在求解SV模型參數(shù)上具有一定優(yōu)勢(shì),以下給出MCMC的基本理論。
由于數(shù)據(jù)在維數(shù)非常高的情況下,靜態(tài)的Monte Carlo方法處理速度太慢,計(jì)算量太大。所以將Markov過(guò)程引入到Monte Carlo模擬中,可得到MCMC(動(dòng)態(tài)Monte Carlo)方法,該方法被廣泛應(yīng)用于高維隨機(jī)向量的取樣[8]。MCMC方法的基本思想可概括為如下三步[9]
(1)在X上選取一個(gè)“合適”的Markov鏈,使得轉(zhuǎn)移核為P(·| ·),其中“合適”主要指π(X)是其對(duì)應(yīng)的平穩(wěn)分布;
(2)由X中某一點(diǎn)X0出發(fā),用(1)中的Markov鏈產(chǎn)生序列X1,…,Xn;
(3)對(duì)某個(gè)m和相對(duì)比較大的n,任一函數(shù)f(X)的期望估計(jì)為
根據(jù)以上MCMC方法三個(gè)步驟,即可對(duì)SV模型中的參數(shù)加以求解。基于前述SV-N模型,需要估計(jì)的未知參數(shù)為μ、φ、σ2,將潛在的波動(dòng)序列ht,t=0,…,T增加為要估計(jì)的參數(shù)。因此,參數(shù)個(gè)數(shù)總數(shù)為4+T。故聯(lián)合先驗(yàn)密度為
P(μ,φ,σ2,h0,h1,…,hT)=
參考王以明[9]對(duì)SV模型的MCMC估計(jì)的方法,假定μ、φ、σ2的先驗(yàn)分布是獨(dú)立的,并應(yīng)用與KIM等[10]相同的先驗(yàn)分布:令φ=2φ*-1,其中φ*~Beta(20,1.5),這樣φ的先驗(yàn)均值為0.86;令σ2~I(xiàn)G(2.5,0.025),μ~N(0,100),這樣σ2的先驗(yàn)均值為0.0167,先驗(yàn)標(biāo)準(zhǔn)差為0.0236。由ηt~i.i.d.N(0,σ2),P(ht|ht-1,μ,φ,σ2) 的函數(shù)表達(dá)式可以很容易推出。模型的似然函數(shù)為L(zhǎng)(μ,φ,σ2,h0:T),由yt的條件分布可得似然函數(shù)為
基于此,由貝葉斯原理,參數(shù)的聯(lián)合后驗(yàn)分布與似然函數(shù)、聯(lián)合先驗(yàn)分布的乘積成正比,即
P(μ,φ,σ2,h0,h1,…,hT|y1,…,yT)∝
這里可以利用Gibbs抽樣方法對(duì)SV模型進(jìn)行抽樣模擬,從而估計(jì)出模型中的4+T個(gè)參數(shù)。在Gibbs抽樣的構(gòu)造之前,需假定X的密度函數(shù)為π(X),在實(shí)際中難以實(shí)現(xiàn),但這并不影響該方法的使用。應(yīng)用中,可以對(duì)i=1,…,n反復(fù)利用Gibbs抽樣,通常情況下,最后迭代的結(jié)果依分布收斂于π分布。抽樣的具體步驟如下
(3)設(shè)i=i+1,轉(zhuǎn)到第(2)步。
實(shí)例數(shù)據(jù)選取深圳北環(huán)大道新洲立交東往北方向路段1(所處4級(jí)道路,長(zhǎng)459 m,如圖1所示)、北環(huán)大道僑香村靠左端西往東方向路段2(所處2級(jí)道路,長(zhǎng)611 m,如圖1所示)的行程時(shí)間互聯(lián)網(wǎng)數(shù)據(jù)(來(lái)源于2018年深圳杯主辦方)。數(shù)據(jù)選取時(shí)間段為2018年3月26日至2018年3月28日的行程時(shí)間,每條數(shù)據(jù)間隔2 min,一條路段3天共2160條數(shù)據(jù)。將用3月26日和3月27日的行程時(shí)間數(shù)據(jù)訓(xùn)練兩模型,從而根據(jù)模型求解參數(shù)對(duì)數(shù)據(jù)進(jìn)行波動(dòng)性分析,進(jìn)而對(duì)模型加以選擇,擬對(duì)3月28日的行程時(shí)間進(jìn)行逐一預(yù)測(cè)。這里,定義行程時(shí)間的對(duì)數(shù)值一階差分為行程時(shí)間的波動(dòng)率,計(jì)算公式為
yt=(lnTt-lnTt-1)×100,
其中,Tt為t時(shí)刻的行程時(shí)間[5]。
圖1 衛(wèi)星圖(百度地圖) Fig.1 Satellite map (Baidu map)
為簡(jiǎn)要描述路段1和路段2行程時(shí)間的基本特征,給出兩條路段的行程時(shí)間時(shí)序圖和行程時(shí)間的波動(dòng)率時(shí)序圖,如圖2和圖3所示。由圖2可知,26日和27日行程時(shí)間大小各異,路段1兩天的行程時(shí)間變化不大,路段2在高峰時(shí)段出現(xiàn)明顯的起伏狀,導(dǎo)致二者不同的主要原因是路段所處道路等級(jí)不同。由圖3可知,二者行程時(shí)間的波動(dòng)率時(shí)序均存在明顯的波動(dòng)率時(shí)變性,即在高波動(dòng)和低波動(dòng)階段均出現(xiàn)堆集現(xiàn)象。
圖2 路段行程時(shí)間時(shí)序圖Fig.2 Sequence diagram of the travel time of the road section
圖3 路段行程時(shí)間的波動(dòng)率圖Fig.3 Volatility chart of the travel time of the road section
基于實(shí)例中的行程時(shí)間,利用頻率分布直方圖估計(jì)行程時(shí)間波動(dòng)率核密度曲線,分析數(shù)據(jù)的基本特征,結(jié)果如圖4所示。由圖4可以看出,兩條路段的行程時(shí)間波動(dòng)率時(shí)序分布在均值附近的數(shù)值遠(yuǎn)多于正態(tài)分布,表現(xiàn)出尖峰性;在直方圖兩邊分布的數(shù)值也比正態(tài)分布多,表現(xiàn)出厚尾性。
將兩條路段的行程時(shí)間波動(dòng)率時(shí)序進(jìn)行描述性特征統(tǒng)計(jì),結(jié)果見(jiàn)表1。由表1可知,二者的波動(dòng)率時(shí)序數(shù)據(jù)均集中于均值附近;路段1和路段2的峰度分別為26.50、18.79,都大于3,再一次體現(xiàn)了二者的尖峰厚尾特征。
表1 行程時(shí)間波動(dòng)率yt參數(shù)表Tab.1 Travel time fluctuation rate parameter table
圖4 路段行程時(shí)間核密度估計(jì)曲線圖Fig.4 Nuclear density estimation curve of the travel time of the road section
路段1、路段2的SV-N模型各參數(shù)估計(jì)結(jié)果見(jiàn)表2。表2中,路段1的波動(dòng)水平參數(shù)μ的估計(jì)值為2.36,而路段2為2.38,路段1波動(dòng)水平參數(shù)的絕對(duì)值小于路段2,說(shuō)明路段1的行程時(shí)間波動(dòng)程度小于路段2。從波動(dòng)持續(xù)性參數(shù)φ角度分析,路段1為0.19,路段2為0.90,二者都小于1,表明二者均平穩(wěn)且有較強(qiáng)的波動(dòng)持續(xù)性,但相對(duì)路段1,路段2比路段1具有更強(qiáng)的波動(dòng)持續(xù)性。從波動(dòng)擾動(dòng)水平σ2上比較,由6.98遠(yuǎn)大于0.55,說(shuō)明路段1行程時(shí)間波動(dòng)的擾動(dòng)水平比路段2高。
表2 SV-N模型各參數(shù)的估計(jì)結(jié)果Tab.2 Estimation results of various parameters of the SV-N model
路段1、路段2的SV-T模型各參數(shù)的估計(jì)結(jié)果見(jiàn)表3。表3中,路段1、路段2的波動(dòng)水平參數(shù)μ的估計(jì)值分別為2.37、2.41,與路段2相比,路段1波動(dòng)水平參數(shù)的絕對(duì)值較小,說(shuō)明路段1的行程時(shí)間波動(dòng)性較低,這與SV-N模型分析結(jié)果一致。從波動(dòng)持續(xù)性參數(shù)φ角度分析,路段1為0.19,路段2為0.91,二者均小于1,同SV-N模型一樣,說(shuō)明了兩路段均平穩(wěn)且有較強(qiáng)的波動(dòng)持續(xù)性,并且路段2的波動(dòng)持續(xù)性更長(zhǎng)。從波動(dòng)擾動(dòng)水平σ2上比較,由6.55遠(yuǎn)大于0.46,同樣說(shuō)明了路段1波動(dòng)率擾動(dòng)水平比路段2高。從模型自由度ω的估計(jì)看,路段1為33.32,路段2為30.67,再次說(shuō)明兩路段波動(dòng)率分布非正態(tài)。
表3 SV-T模型各參數(shù)的估計(jì)結(jié)果Tab.3 Estimation results of various parameters of the SV-T model
結(jié)合表2(SV-N)、表3(SV-T)中的模型參數(shù)的估計(jì)結(jié)果,從單條路段分析,對(duì)比SV-N模型和SV-T模型擬合實(shí)例數(shù)據(jù)的效果。對(duì)于波動(dòng)水平μ的估計(jì)值來(lái)說(shuō),無(wú)論是路段1還是路段2,其絕對(duì)值均表現(xiàn)為SV-T模型的估計(jì)值更大,說(shuō)明路段1、路段2在SV-T模型下表現(xiàn)出來(lái)的波動(dòng)性均強(qiáng)于SV-N模型。就可持續(xù)性參數(shù)φ的估計(jì)值而言,SV-N模型的φ的估計(jì)值在0.20左右,SV-T模型的φ的估計(jì)值在0.90偏上,說(shuō)明路段2比路段1更具有波動(dòng)聚集性效應(yīng);從整體上來(lái)看,SV-T模型中φ的估計(jì)值比SV-N模型的大,說(shuō)明SV-T模型比SV-N模型能更好地刻畫(huà)兩路段波動(dòng)率的波動(dòng)持續(xù)性。特別地,對(duì)于評(píng)價(jià)擾動(dòng)水平的參數(shù)σ2來(lái)說(shuō),當(dāng)可持續(xù)性參數(shù)φ越大,而σ2越小時(shí),波動(dòng)的過(guò)程越易預(yù)測(cè)。在表2和表3中,SV-T模型的σ2值均小于對(duì)應(yīng)的SV-N模型中的值,說(shuō)明SV-T模型的擬合效果優(yōu)于SV-N模型。
圖5 路段Q-Q圖Fig.5 Road section Q-Q diagram
基于前述分析基礎(chǔ)上,利用兩路段在SV-N模型和SV-T模型標(biāo)準(zhǔn)化殘差的行程時(shí)間波動(dòng)率Q-Q圖來(lái)直觀驗(yàn)證二者的優(yōu)劣,如圖5所示。從圖5可以看出,和SV-T模型擬合的標(biāo)準(zhǔn)化殘差基本都落在y=x直線上,相對(duì)SV-N模型而言,兩路段在SV-T模型擬合下效果更好。
由以上對(duì)路段1、路段2的波動(dòng)性分析可知,SV-T模型更能描述路段1、路段2的行程時(shí)間波動(dòng)性。圖6為基于SV-T模型對(duì)路段1和路段2的行程時(shí)間(3月28日)預(yù)測(cè)結(jié)果。圖6可以看出,SV-T模型的預(yù)測(cè)效果非常好,這里計(jì)算了各路段實(shí)際值與值的MSE,路段1為22.68,路段2為70.04。
圖6 行程時(shí)間預(yù)測(cè)結(jié)果Fig.6 Travel time prediction results
本文選取北環(huán)大道所處不同道路等級(jí)的兩條路段26日和27日行程時(shí)間數(shù)據(jù),分別構(gòu)建SV-N模型、SV-T模型,并利用MCMC方法求解模型參數(shù),對(duì)比模型擬合效果。結(jié)果表明:兩條路段的行程時(shí)間均呈現(xiàn)尖峰厚尾特性;波動(dòng)水平參數(shù)顯示,道路等級(jí)較高的行程時(shí)間波動(dòng)度顯著,同時(shí)道路等級(jí)較高的波動(dòng)持續(xù)性更強(qiáng);從擾動(dòng)波動(dòng)水平角度看,道路等級(jí)低的相對(duì)較高。經(jīng)實(shí)例分析證實(shí),在刻畫(huà)波動(dòng)率的波動(dòng)特征效果上,SV-T模型優(yōu)于SV-N模型。選用SV-T模型對(duì)3月28日全天的行程時(shí)間進(jìn)行逐一預(yù)測(cè),兩條路段預(yù)測(cè)效果較為精確。