盛冬冬,孫明妹
(北京交通大學(xué) 軌道交通控制與安全國家重點實驗室,北京 100044)
目前,我國的高鐵(high-speed railway, HSR)發(fā)展迅速,截至2019年底,高鐵里程達(dá)到3.5萬公里。高鐵的迅猛發(fā)展極大地提高了鐵路在中長途高速客運(yùn)(即出行距離在800~1200 km的旅客運(yùn)輸)中的競爭力。高鐵和民航(civil aviation,CA)的方式分擔(dān)率模型是其競爭網(wǎng)絡(luò)研究、定價研究等的重要基礎(chǔ),因此,對方式分擔(dān)率模型的研究很有必要。
對方式分擔(dān)率的模擬以離散選擇模型為主,一般通過構(gòu)建效用函數(shù),使用個體數(shù)據(jù)對效用函數(shù)中的未知參數(shù)進(jìn)行估計,繼而計算出選擇項被選中的概率。傳統(tǒng)Logit模型是離散選擇模型的基礎(chǔ)模型,但傳統(tǒng)Logit模型本身存在的IIA特性會對模型的預(yù)測結(jié)果產(chǎn)生很大的影響。何宇強(qiáng)等[1]、Hensher[2]、葉玉玲等[3]選擇經(jīng)濟(jì)、快速、方便、舒適、安全5個指標(biāo)建立傳統(tǒng)Logit模型,并使用該模型對方式分擔(dān)率進(jìn)行預(yù)測。為了解決傳統(tǒng)Logit模型中存在IIA特性問題,又提出嵌套Logit(Nested Logit, NL)模型。NL模型將相近的備選方案列入同一子集,子集內(nèi)部仍存在IIA特性,但子集間的IIA特性不復(fù)存在。Adler等[4]和Wen等[5]分別建立NL模型,并使用數(shù)據(jù)對參數(shù)進(jìn)行估計。然而傳統(tǒng)Logit模型和NL模型都忽略了個體異質(zhì)性,且沒有完全解決IIA特性,混合Logit(Mixed Logit, ML)模型的出現(xiàn),解決了上述兩個問題。常見的混合Logit模型指的是考慮了個體異質(zhì)性的橫截面混合Logit模型(Cross-Sectional Mixed Logit, CML),可使用橫截面數(shù)據(jù)對其參數(shù)進(jìn)行估計。Abdel-Aty等[6]使用具有正態(tài)分布的CML模型刻畫在交通信息誘導(dǎo)下駕駛員對于路線選擇的問題,得出旅行時間及其變化等因素會對路線選擇產(chǎn)生影響。Li等[7]在北京地鐵系統(tǒng)中進(jìn)行了意向調(diào)查(stated preference, SP),建立了考慮價格內(nèi)生性的出發(fā)時間選擇CML模型,得出票價和發(fā)車時間的變化對乘客出發(fā)時間選擇的影響大于擁擠程度的結(jié)論。Behrens等[8]使用倫敦—巴黎客運(yùn)市場的橫截面數(shù)據(jù)估計了CML模型,結(jié)果表明,出行時間和頻率是出行行為的主要決定因素。不同于CML模型,面板混合Logit模型(Panel Mixed Logit, PML)使用面板數(shù)據(jù)估計其參數(shù),不僅考慮了個體異質(zhì)性,同時也考慮了同源數(shù)據(jù)的相關(guān)性。車國鵬[9]通過建立PML模型,研究擁擠收費(fèi)對城市交通方式分擔(dān)率的影響。Guo等[10]使用沈陽的居民調(diào)查數(shù)據(jù)建立了PML模型,捕捉居民的交通方式選擇的個體異質(zhì)性。Chen等[11]使用PML模型研究了駕駛環(huán)境對碰撞頻率的影響。
針對方式分擔(dān)率的研究以傳統(tǒng)Logit模型和NL模型為主,考慮到數(shù)據(jù)的收集難度,一般又以SP數(shù)據(jù)對參數(shù)進(jìn)行估計,但很少有文獻(xiàn)考慮到選擇個體的異質(zhì)性以及SP數(shù)據(jù)中同一數(shù)據(jù)源間的相關(guān)性。本文針對高鐵和民航的方式分擔(dān)率問題,建立了傳統(tǒng)Logit模型、考慮個體異質(zhì)性的CML模型和考慮個體異質(zhì)性及同源數(shù)據(jù)間相關(guān)性的PML模型,使用北京—南京客運(yùn)通道的SP數(shù)據(jù)進(jìn)行參數(shù)估計,通過對比參數(shù)估計結(jié)果,發(fā)現(xiàn)PML模型具有更好的行為解釋能力和預(yù)測精度。最后,在PML模型的基礎(chǔ)上,利用仿真分析預(yù)測了高鐵和民航的方式分擔(dān)率隨旅程費(fèi)用差(民航與高鐵票價差)和時間差(高鐵與民航旅程時間差)的變化趨勢。該結(jié)果能夠指導(dǎo)運(yùn)營商合理地調(diào)整票價和旅程時間,以在競爭中取得優(yōu)勢。
ML模型是非常靈活的模型,可以近似成所有隨機(jī)效用模型[12-13],其參數(shù)可以指定服從某種分布,突出不同個體的選擇偏好。
假設(shè)在情景k(k=1,2,…,K)下,個體i(i=1,2,…,I)面臨選擇j(j=1,2,…,J)時,i在考慮了所有備選方案后會選擇效用最大的方案。一般形式的效用表達(dá)式如下:
(1)
式中,Uijk指i在情景k下選擇j的效用;xijk指與方案j有關(guān)的特性變量組成的向量;β′和εijk指無法觀測的隨機(jī)影響,εijk服從同一Gambel分布,備選方案間不存在相關(guān)性。解決方法是通過β′將備選方案間異方差和相關(guān)性的隨機(jī)元素引入效用函數(shù),如式(2)所示(首先以橫截面數(shù)據(jù)集為例,因此忽略k下標(biāo)):
β′=βij+ηij,
(2)
式中,βij為非隨機(jī)參數(shù);ηij是隨機(jī)參數(shù),表示效用函數(shù)集中除εijk外的隨機(jī)影響的向量,隨選擇而變化,可能會引起備選方案間的相關(guān)性,可以指定分布,常見的有正態(tài)、對數(shù)正態(tài)、均勻分布等。
使用f(η|θ)來表示其概率密度函數(shù),給定η值,選擇j的條件概率為
(3)
但η的值并不知道,不能以η為已知條件得到條件概率,故,非條件概率應(yīng)求解Lij(η)在所有可能的η值上的積分。
(4)
由式(4)得知,ML模型的選擇概率可看作為多項Logit模型概率的加權(quán)平均值,f(η|θ)決定權(quán)重,θ是描述f(η|θ)的參數(shù),以正態(tài)分布為例,θ指均值和標(biāo)準(zhǔn)差。
常見的數(shù)據(jù)結(jié)構(gòu)為橫截面數(shù)據(jù),其最大的特點是數(shù)據(jù)收集中存在的時間或情景差別很小。而面板數(shù)據(jù)是由數(shù)據(jù)集中每一個橫截面單位的一個時間序列組成,這里的時間序列可以是不同時間也可以是不同情景。PML模型可以捕捉到不同情景下同一個體觀測間可能存在的相關(guān)性。
決策者在情景k(k=1,2,…,K)序列下的選擇條件概率為式(5),PML模型的非條件選擇概率同公式(4)。
(5)
仿真的方法特別適合用于估計ML模型的參數(shù),指定分布,其仿真概率如式(6)所示:①給定θ,從f(η|θ)抽取一個η值,記為ηr,表示第r次抽??;②計算Lij(ηr);③重復(fù)①②步驟R次(R足夠大),將均值作為Lij(ηr)的仿真值。
(6)
求出使LL(η)得到最大值的θ。
本文將用到旅客各種情境下的選擇數(shù)據(jù),故SP方法更加適合。問卷內(nèi)容包括受訪者的基本信息、中長途出行特性及出行情景的方式選擇意向。受控的動態(tài)變化試驗因子包括高鐵和民航的程前程后費(fèi)用和時間以及旅程費(fèi)用和時間4個變量。
假想的出行情景如圖1所示,每種方式的費(fèi)用和時間都是由程前(即出發(fā)地A至高鐵站A高鐵或機(jī)場A機(jī)場)費(fèi)用和時間、旅程費(fèi)用和時間、程后(即高鐵站B高鐵或機(jī)場B機(jī)場至目的地B)費(fèi)用和時間組成。
圖1 假想出行情景
借鑒已有研究[14]:出行距離在800~1200 km時,高鐵和民航的競爭最激烈。故選擇北京—南京客運(yùn)通道作為研究對象。問卷使用正交試驗法,試驗因子設(shè)置為四因素三水平,參考文獻(xiàn)[15]、12306官網(wǎng)及北京—南京航班信息,確定高鐵和民航的旅程費(fèi)用和時間的高、中、低三水平。依據(jù)L9(34)正交表設(shè)計了9種情景,如表1所示。該設(shè)計在保證數(shù)據(jù)可靠性和有效性的基礎(chǔ)上,節(jié)省了大量人力物力。
表1 情景設(shè)置
本次調(diào)查共回收問卷221份,有效問卷202份,合格率達(dá)91.4%,能有效地應(yīng)用于后續(xù)的建模與分析。
問卷中基本信息及中長途的出行特性分析結(jié)果如表2和圖2所示。受訪對象中男性占52%,女性占48%;年齡分布主要集中在(24,49]歲;月收入分布以[4000,10 000)元居多,占53%;出行目的以公務(wù)出行居多,占43%。而出行特性方面,高鐵的程前程后平均時間1.6 h,民航的程前程后平均時間2.2 h;高鐵的程前程后平均費(fèi)用為35元,民航的程前程后平均費(fèi)用為72元,該分布特征與實際情況基本相符。
表2 問卷基本屬性統(tǒng)計
(a)程前程后時間分布 (b)程前程后費(fèi)用分布
使用PML模型對樣本數(shù)據(jù)進(jìn)行建模,選擇性別、年齡、月收入、出行目的、優(yōu)先考慮因素、程前程后時間和費(fèi)用、旅程費(fèi)用和時間作為模式選擇的特性變量,變量設(shè)置參見表3。根據(jù)上述變量描述,個體i選擇j的效用函數(shù)可以表示為(以高鐵作為參考):
表3 特性變量表
UCA=Con+mx1+a24x2+a49x3+i4x4+i10x5+sx6+trx7+vx8+ox9+csx10+bx11+txt_s2+ctxt_ts2+fxp2+jtxt2,
(7)
UHSR=txt_s1+ctxt_ts1+fxp1+jtxt1,
(8)
式中,UCA表示民航效用函數(shù);UHSR表示高鐵效用函數(shù);xp2、xp1分別指民航和高鐵的旅程費(fèi)用。xt_s2、xt_s1、xt_ts2、xt_ts1、xt2、xt1以此類推。
在建模過程中,通過仿真方法計算蒙特卡洛積分,該計算涉及到“偽隨機(jī)序列”生成,選擇了Halton法完成η的抽取,相較于標(biāo)準(zhǔn)偽隨機(jī)序列法,極大地提升收斂性。接著,把數(shù)據(jù)整理成長型數(shù)據(jù),導(dǎo)入NLOGIT,編寫程序,對參數(shù)進(jìn)行估計。
利用NLOGIT對1818(202×9)條有效數(shù)據(jù)進(jìn)行建模。首先確定性別、年齡、月收入、出行目的、優(yōu)先考慮因素為常系數(shù),而兩種交通方式的程前程后時間和費(fèi)用、旅程費(fèi)用和時間這4個變量具體的值也不同,要捕獲個體異質(zhì)性,就需要在這些變量中選取某些變量的系數(shù)作為隨機(jī)系數(shù)。因此對這些變量進(jìn)行了許多組合,在此基礎(chǔ)上進(jìn)行參數(shù)估計,并且對參數(shù)估計結(jié)果進(jìn)行了評估,在這些組合中,有許多的組合參數(shù)估計結(jié)果違反了實際情況,多數(shù)參數(shù)的顯著性檢測無法達(dá)到95%的置信水平。在符合實際情況和顯著性檢測達(dá)標(biāo)的組合中,通過比較麥克法登似然率來判斷模型對出行選擇行為的解釋能力,最終將程前程后時間和費(fèi)用、旅程費(fèi)用和時間這4個特性變量的系數(shù)指定為隨機(jī)系數(shù)并且服從正態(tài)分布。
本文建立了傳統(tǒng)Logit模型、CML模型及PML模型,使用SP數(shù)據(jù)進(jìn)行參數(shù)估計,結(jié)果如表4所示,經(jīng)對比,可以更全面地考察PML模型的效果。
由表4得,傳統(tǒng)Logit模型、CML模型和PML模型的參數(shù)估計結(jié)果符號基本一致,這說明考慮了個體異質(zhì)性和同源數(shù)據(jù)相關(guān)性后并未改變特性變量對方式選擇影響的正負(fù)效應(yīng)。3個模型的似然函數(shù)值分別為-801.153 0、-676.129 2和-532.525 6,通過該值可以計算出對應(yīng)的麥克法登似然率??梢园l(fā)現(xiàn),傳統(tǒng)Logit模型的麥克法登似然率為0.364 2,擬合優(yōu)度不算高??紤]異質(zhì)性后的CML模型的麥克法登似然率為0.463 4,說明CML模型相較傳統(tǒng)Logit模型更適合模式選擇行為的建模分析。而考慮了個體異質(zhì)性和同源數(shù)據(jù)相關(guān)性的PML模型的麥克法登似然率為0.577 4,高于傳統(tǒng)Logit模型和CML模型,說明PML模型具有更好的行為解釋能力,擬合優(yōu)度更高,在該數(shù)據(jù)集下的預(yù)測能力更好。
表4 參數(shù)估計結(jié)果
由表4所示,所有參數(shù)的符號均符合邏輯。在95%的置信水平下,除性別、年齡(49,+∞)、優(yōu)先考慮因素(時間因素)外,其他特性變量均顯著。在95%置信水平下,年齡在(0,24]的個體符號為負(fù),說明了相較于(24,49]歲的中青年,年齡在(0,24]的個體更傾向選擇高鐵出行;月收入[0,4000)元的個體較月收入[4000,10 000)元的個體更不愿意選擇民航出行,月收入在[10 000,+∞)元以上的個體更愿意選擇民航出行;而以上學(xué)、旅游、走親訪友和其他為目的的出行者較公務(wù)出行者更傾向選擇高鐵出行;時間主導(dǎo)者或時間費(fèi)用主導(dǎo)者較費(fèi)用主導(dǎo)者更傾向選擇民航出行。其中隨機(jī)參數(shù)均在99%的置信水平下顯著,即t~N(-2.845 7,0.665 2)、ct~N(-0.029 5,0.010 1)、f~N(-0.021 8,0.009 7)、jt~N(-1.827 3,0.338 9),而程前程后時間和旅程時間的標(biāo)準(zhǔn)差相對較大,說明了不同個體對時間的敏感程度有較大的差異,異質(zhì)性明顯,并且4個隨機(jī)參數(shù)在兩個標(biāo)準(zhǔn)差范圍內(nèi)符號均為負(fù),說明了程前程后時間和費(fèi)用及旅程費(fèi)用和時間越大,這種交通工具被選擇的概率越低,這符合實際情況。
使用參數(shù)估計得到的結(jié)果對原始數(shù)據(jù)的選擇進(jìn)行仿真,得出基于PML模型的兩種交通方式的選擇概率,選擇概率大的作為模型的預(yù)測結(jié)果,通過與實際選擇結(jié)果對比,得出模型的準(zhǔn)確率,部分結(jié)果如表5所示。表中ID指受訪者的序號,相同的序號表示數(shù)據(jù)來源于同一受訪者經(jīng)仿真結(jié)果統(tǒng)計;選擇欄為受訪者的實際選擇。PML模型的準(zhǔn)確率達(dá)85.37%,其中,高鐵的準(zhǔn)確率為88.58%,民航的準(zhǔn)確率為81.38%,模型擬合效果良好,具有較高的預(yù)測精度。
表5 部分仿真結(jié)果
為進(jìn)一步研究旅程費(fèi)用和時間對中長途高速客運(yùn)方式分擔(dān)率的影響,使用PML模型仿真分析在不同旅程費(fèi)用差和時間差下的方式分擔(dān)率。采用集計預(yù)測中的樣本枚舉法[16]進(jìn)行預(yù)測,如式(9)所示,該方法是把總體中的一個隨機(jī)樣本作為 “代表”,樣本中選擇某一選項的比例作為總體中選擇該選項的一個無偏估計。使用NLOGIT軟件中的simulation功能,在SP數(shù)據(jù)的基礎(chǔ)上,不改變性別、年齡等基本屬性,改變旅程費(fèi)用差和時間差得出個體的選擇概率后,使用式(9)得出該總體的估計值。
(9)
方式分擔(dān)率隨旅程費(fèi)用差和旅程時間差的變化趨勢如圖3所示,圖中紅線部分為高鐵方式分擔(dān)率與民航方式分擔(dān)率相等的情況。由圖3可以得到,高鐵的方式分擔(dān)率隨著旅程費(fèi)用差的增大而提升,隨著旅程時間差的增大而降低,且在高鐵和民航方式分擔(dān)率相同時,旅程費(fèi)用差對高鐵分擔(dān)率的影響比旅行時間差要更加顯著。高鐵和民航方式分擔(dān)率相同時,伴隨著旅行時間差的縮小,旅程費(fèi)用差由最初的150元降低到40元。當(dāng)高鐵和民航的旅程費(fèi)用差和時間差在紅線周圍時,二者的競爭最為激烈。以旅程時間差達(dá)到2 h為例,旅程費(fèi)用差超過110元時,高鐵和民航的競爭中,高鐵處于優(yōu)勢地位,且旅程費(fèi)用差在[110,280]元區(qū)間時,高鐵方式分擔(dān)率的提升速率最快。
圖3 方式分擔(dān)率仿真結(jié)果
本文針對高鐵和民航的方式分擔(dān)率問題,建立了傳統(tǒng)Logit、CML和PML模型,使用旅客SP數(shù)據(jù)對模型參數(shù)進(jìn)行估計,通過對比參數(shù)估計結(jié)果,得出PML模型較傳統(tǒng)Logit和CML模型,具有更好的行為解釋能力和更高的預(yù)測精度。PML模型的估計結(jié)果說明,個體對時間因素的敏感度有比較大的差異,個體異質(zhì)性明顯,且隨機(jī)參數(shù)在兩個標(biāo)準(zhǔn)差范圍內(nèi)符號均為負(fù),說明程前程后時間和費(fèi)用及旅程費(fèi)用和時間越大,該交通工具被選擇的概率越小。在基于PML模型的仿真分析中,得到高鐵的方式分擔(dān)率隨旅程費(fèi)用差的增大而增加,隨時間差的增大而減小,民航恰好相反,且旅程費(fèi)用差對方式分擔(dān)率的影響比旅程時間差更加顯著。仿真分析結(jié)果能有效指導(dǎo)運(yùn)營商改變票價和旅程時間,以在競爭中取得優(yōu)勢。此外,PML模型可以在交通規(guī)劃、交通方式競爭等研究中廣泛使用。
本文問卷的正交設(shè)計雖節(jié)省了人力物力,但限制了數(shù)據(jù)的全面性,且收集到的SP數(shù)據(jù)量不夠充足,會對模型參數(shù)估計結(jié)果產(chǎn)生影響。此外,為了簡化模型,未將安全性、舒適性、方便性等影響因素納入模型中,這些問題都是繼續(xù)完善PML模型的主要方向。