林培群 夏雨 周楚昊
(華南理工大學(xué) 土木與交通學(xué)院,廣東 廣州 510640)
近年來,出行需求和汽車保有量的持續(xù)增長導(dǎo)致高速公路交通供需矛盾日益突出。準(zhǔn)確地預(yù)測行程時間可為道路管制和出行決策提供信息依據(jù),因此,在基礎(chǔ)數(shù)據(jù)資源日益豐富、深度學(xué)習(xí)等技術(shù)快速發(fā)展的背景下,研究高速公路行程時間預(yù)測方法具有顯著的理論和應(yīng)用價值。目前,高德、百度等導(dǎo)航軟件所提供的行程時間基于路段自身的歷史和現(xiàn)狀數(shù)據(jù),未考慮交通網(wǎng)絡(luò)的時空關(guān)聯(lián)性。大量研究和工程實(shí)踐表明,路段未來時刻的交通流不僅與過去時刻的數(shù)據(jù)具有關(guān)聯(lián)性,周圍路段交通流的變化同樣會對其產(chǎn)生影響,因此在行程時間預(yù)測時引入時空特征具有必要性。
目前交通流時間序列預(yù)測模型主要分為自回歸滑動平均模型、機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型。自回歸滑動平均模型(ARMA)及其擴(kuò)展模型差分整合移動平均自回歸模型(ARIMA)[1- 2]都需進(jìn)行數(shù)據(jù)平穩(wěn)性檢驗,在大規(guī)模的數(shù)據(jù)及輸入特征的情況下,這些模型難以良好擬合。機(jī)器學(xué)習(xí)模型中,常用的交通流預(yù)測模型有隨機(jī)森林(RF)、極端梯度提升(XGBoost)、K-最近鄰(KNN)、支持向量機(jī)回歸(SVR)。Guy等[3]、Hamner[4]采用RF模型對交通量進(jìn)行了預(yù)測,取得了較好的效果。Makoto等[5]、Yi等[6]采用XGBoost模型對交通量進(jìn)行了預(yù)測,結(jié)果表明該模型預(yù)測精度較高且能夠提高計算效率。王翔等[7]、陳嬌娜等[8]采用KNN對道路平均行程時間進(jìn)行了預(yù)測。傅成紅等[9]構(gòu)建改進(jìn)的DL-SVR模型對交通量進(jìn)行了預(yù)測,并與未改進(jìn)的SVR模型及BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,結(jié)果表明DL-SVR模型的預(yù)測精度更高。Sun等[10]、Wang等[11]采用SVR模型對短時交通速度進(jìn)行了預(yù)測,取得了較好的效果。長短時記憶神經(jīng)網(wǎng)絡(luò)模型(LSTM)是一種被廣泛用于時序預(yù)測的神經(jīng)網(wǎng)絡(luò)模型。Tian等[12]、 Zhao等[13]采用LSTM模型對交通量進(jìn)行了預(yù)測。在引入時空特征方面,現(xiàn)有研究主要在神經(jīng)網(wǎng)絡(luò)中引入Seq2Seq機(jī)制[14]和注意力機(jī)制[15- 16]。這些機(jī)制的引入對于探討輸入特征和輸出目標(biāo)的時空關(guān)聯(lián)性具有一定作用,但引入過程較為復(fù)雜,如果是為了達(dá)到較好的預(yù)測效果,只需引入空間關(guān)聯(lián)特征即可[17]。
綜上所述,機(jī)器學(xué)習(xí)模型已被廣泛運(yùn)用于交通流的預(yù)測,但這些方法仍有不足:一是多數(shù)研究沒有考慮空間特征,沒有對路網(wǎng)多個出入口的動態(tài)特性進(jìn)行綜合考慮,僅將過去一定時間范圍內(nèi)的數(shù)據(jù)作為輸入;二是輸出結(jié)構(gòu)單一,多數(shù)方法每次僅預(yù)測未來一個時刻的值,且預(yù)測步長較短,這增加了模型參數(shù)存儲的空間并且降低了模型的實(shí)時響應(yīng)能力;三是僅以誤差的數(shù)值作為評判標(biāo)準(zhǔn),沒有從峰值預(yù)測準(zhǔn)確率、不同步長的預(yù)測效果穩(wěn)定性等不同角度綜合分析各模型的優(yōu)劣;四是沒有在相同的數(shù)據(jù)集下進(jìn)行多模型的比較。因此,本研究基于高速收費(fèi)數(shù)據(jù),以目標(biāo)路段平均行程時間歷史數(shù)據(jù)、周圍收費(fèi)站輸入交通量歷史數(shù)據(jù)、星期天數(shù)和小時數(shù)等時間外部特征作為輸入特征,分別采用RF、XGBoost、LSTM、KNN、SVR對目標(biāo)路段的平均行程時間進(jìn)行預(yù)測,并從平均誤差、峰值預(yù)測準(zhǔn)確率、不同預(yù)測步長下的預(yù)測效果穩(wěn)定性等方面對5種模型的預(yù)測性能進(jìn)行綜合分析;最后,使用貝葉斯回歸方法對5種模型的預(yù)測能力進(jìn)行綜合尋優(yōu),提出了一種基于融合模型的預(yù)測方法。
高速收費(fèi)系統(tǒng)采集了大量實(shí)時高精度的收費(fèi)數(shù)據(jù),通過預(yù)處理和統(tǒng)計,可得到豐富的交通量和行程時間樣本,從而為高速公路交通流預(yù)測提供數(shù)據(jù)支撐。本研究使用廣東省高速收費(fèi)數(shù)據(jù),每一行數(shù)據(jù)記錄一輛機(jī)動車的行駛信息,包括車型、車牌、入口位置、入口時間(精確到秒)、出口位置、出口時間(精確到秒)、行駛距離、行程車速等信息。本研究將目標(biāo)路段關(guān)聯(lián)收費(fèi)站的輸入交通量、目標(biāo)路段的歷史行程時間及星期天數(shù)、小時數(shù)、分鐘數(shù)等時間外部特征作為輸入,采用隨機(jī)森林等算法對目標(biāo)路段的行程時間進(jìn)行預(yù)測。
分別用d、tu、tv、tp表示數(shù)據(jù)覆蓋天數(shù)、統(tǒng)計單位時間、歷史數(shù)據(jù)步長、預(yù)測步長,則輸入樣本數(shù)量Nin的計算公式為
(1)
此時,輸入矩陣X和真實(shí)值矩陣Y可表示為:
X=(x(1),x(2),…,x(S))
(2)
Y=(y1,y2,…,yN)T
(3)
式中,x(S)表示第S個輸入特征。則訓(xùn)練集可表示為
T=(X,Y)={(x1,y1),(x2,y2),…,(xN,yN)}
(4)
各模型的訓(xùn)練過程實(shí)質(zhì)上是在訓(xùn)練集中找到從X到Y(jié)的最優(yōu)映射,使預(yù)測值和真實(shí)值的誤差最小,這種映射表示為
(5)
式中,φ表示從輸入到輸出的映射,T表示訓(xùn)練集。
1.2 方法框架
1.2.1 隨機(jī)森林模型
隨機(jī)森林(RF)是一種基于多個決策樹的算法,其目的是找到一種最優(yōu)的劃分方式將輸入空間劃分為M個子集{R1,R2,…,Rm,…,RM},使每個子集中的樣本都屬于同一個類別[18- 19]。對于回歸問題,一般采用卡特方法(CART)構(gòu)建決策樹,其關(guān)鍵是選出最優(yōu)的特征x(s)和分割點(diǎn)q。在每個節(jié)點(diǎn),決策樹都將數(shù)據(jù)集Tq劃分為兩個更小的子集R1和R2:
R1(s,q)={x|x(s)≤q}
(6)
R2(s,q)={x|x(s)>q}
(7)
最優(yōu)的特征x(s)和分割點(diǎn)p滿足以下條件:
(8)
式中,xn和yn分別表示第n個樣本的輸入和輸出值。c1和c2為子集的樣本均值,計算方法為
(9)
決策樹通過不斷分割進(jìn)行生長,直到樹的深度達(dá)到預(yù)設(shè)的閾值,最后的輸出表示為
(10)
式(10)中,Ind為指示函數(shù),表示為
(11)
隨機(jī)森林算法首先確定決策樹的個數(shù)B。對于決策樹b(b=1,2,…,B),從訓(xùn)練集T中抽取N個樣本(bootstrap抽樣,將樣本放回后繼續(xù)下次抽樣)且隨機(jī)選擇Z個特征(Z
(12)
訓(xùn)練時,隨機(jī)森林算法可通過調(diào)整決策樹的個數(shù)和最大深度來提高算法的擬合能力。
1.2.2 極端梯度提升模型
極端梯度提升(XGBoost)是一種基于梯度提升決策樹的改進(jìn)算法[6]。梯度提升決策樹的輸入輸出映射可表示為
(13)
其中,G為決策樹的個數(shù),fg表示第g棵決策樹。在每棵決策樹中,分別用L和w表示葉子的個數(shù)和權(quán)值。梯度提升決策樹的損失函數(shù)表示為
(14)
為避免過擬合,XGBoost在式(13)的基礎(chǔ)上增加了正則項,其損失函數(shù)表示為
(15)
其中,Ω(fg)表示為
(16)
1.2.3 K-最近鄰算法
K-最近鄰(KNN)是一種基于距離的非參數(shù)算法[7]。對于測試集Ttest中的某個輸入x0,KNN的核心思想是在訓(xùn)練集Ttrain中建立向量空間模型,基于距離的度量找到與x0最接近的K個點(diǎn),用集合RK表示
RK={(x1,y1),(x2,y2),…,(xk,yk)…,(xK,yK)}T
(17)
則x的輸出可表示為K個輸出值的平均值:
(18)
KNN有多種距離度量函數(shù),其中最常用的是歐式距離,計算方法為
(19)
對于高維輸入,常采用高斯核函數(shù)為K個近鄰點(diǎn)賦值權(quán)重,計算方法為
(20)
訓(xùn)練時,可通過調(diào)整K值來提高KNN算法的擬合能力。
1.2.4 支持向量機(jī)回歸模型
支持向量機(jī)回歸(SVR)是支持向量機(jī)對回歸問題的應(yīng)用。支持向量機(jī)(SVM)的核心思想是找出一個使類間間隔最大化的超平面,SVR的原理與之類似[20]。在SVR中,從X到Y(jié)的映射表示為
(21)
式中,w表示輸入的權(quán)值。
(22)
以偏差最小化為目標(biāo),建立如下優(yōu)化問題以求解w和b:
(23)
其中C是正則化常數(shù),可避免過擬合問題。
1.2.5 長短時記憶神經(jīng)網(wǎng)絡(luò)
長短時記憶(LSTM)是為解決循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的長期依賴問題而提出的一種循環(huán)神經(jīng)網(wǎng)絡(luò),主要通過輸入門、輸出門、遺忘門及過渡記憶細(xì)胞來控制長記憶和短記憶的傳遞與輸出[21]。對于第j個時間步的輸入,數(shù)據(jù)首先經(jīng)過遺忘門以清除無用信息,表示為
fgj=Sig(Wfg·[hj-1,xj]+bfg)
(24)
式中,fgj表示第j個時間步的遺忘門,Wfg和bfg分別表示遺忘門的權(quán)值和偏置,hj-1表示第j-1個時間步的隱藏狀態(tài),xj表示第j個時間步的輸入,Sig(·)表示Sigmoid激活函數(shù)。
其次,輸入門和過渡記憶細(xì)胞決定細(xì)胞狀態(tài)存儲的新信息,表示為:
ipj=Sig(Wip·[hj-1,xj]+bip)
(25)
(26)
(27)
最后,由輸出門輸出隱藏狀態(tài)和預(yù)測值,表示為
opj=Sig(Wop·[hj-1,xt]+bop)
(28)
hj=opj×tanh(Cj)
(29)
(30)
式(28)中,opj表示第j個時間步的輸出門,Wop和bop分別表示輸出門的權(quán)值和偏置。式(30)中,Wh和bh分別表示隱藏層的權(quán)重和偏置。
以真實(shí)值和預(yù)測值的誤差最小化為目標(biāo),可建立如下目標(biāo)函數(shù):
(31)
LSTM的訓(xùn)練過程實(shí)質(zhì)上是通過誤差的反向傳播,不斷調(diào)整權(quán)重和偏置,使預(yù)測值不斷接近真實(shí)值。
1.2.6 貝葉斯回歸模型
貝葉斯回歸(BLR)是一種使用貝葉斯推斷方法求解的回歸模型,貝葉斯回歸以模型中的參數(shù)作為隨機(jī)變量,通過訓(xùn)練來確定參數(shù)的后驗分布概率[22]。貝葉斯回歸模型可表示為:
f(x)=wTx
(32)
(33)
式(32)中,w表示輸入的權(quán)值。式(33)中,η為符合正態(tài)分布的高斯噪音,即η~Nor(0,σ2)。貝葉斯回歸分為推斷和預(yù)測兩個部分,貝葉斯推斷表示為
pro(W|X,Y)∝pro(Y|W,X)pro(W)
(34)
pro(Y|W,X)~Nor(WTxi,σ2)、對W的先驗假設(shè)pro(W)~Nor(0,Σ)都為高斯分布,則pro(W|X,Y)也為高斯分布且pro(W|X,Y)~Nor(μw,Σw),其中:
μw=σ-2Σ-1XTY
(35)
Σw=Σ-1
(36)
式中,μw和Σw分別表示高斯分布的均值和方差。
已知μw和Σw,則可進(jìn)行預(yù)測。對于測試樣本(x*,y*),有
f(x*)=x*TW~Nor(x*Tμw,x*TΣwx*)
(37)
(38)
即預(yù)測輸出也是一個高斯分布。
本研究提出一種基于貝葉斯回歸的多模型融合預(yù)測方法,該預(yù)測方法的框架如圖1所示。
圖1 基于貝葉斯回歸的多模型融合預(yù)測方法框架
評估預(yù)測精度的指標(biāo)有平均絕對誤差(MAE)[8]、平均絕對百分比誤差(MAPE)[8]和均方誤差(MSE)[11]。
平均絕對誤差避免了誤差正負(fù)相消的情況,能更好地反映預(yù)測誤差的實(shí)際情況,其計算公式為
(39)
相對誤差是絕對誤差與真實(shí)值的比值,用于反映不同測量結(jié)果的可靠程度,其計算公式為
(40)
均方誤差可綜合反映預(yù)測值與真實(shí)值的差異程度,其計算公式為
(41)
收費(fèi)數(shù)據(jù)包含從目標(biāo)收費(fèi)站駛出的車輛的入口收費(fèi)站信息,這些收費(fèi)站都可作為目標(biāo)收費(fèi)站的關(guān)聯(lián)站點(diǎn)。如圖2所示,本研究以廣東水官高速龍崗—布龍段為對象,龍崗收費(fèi)站和布龍收費(fèi)站都位于深圳市龍崗區(qū),路段里程為19.8 km。選取該路段起訖點(diǎn)(OD)收費(fèi)站及關(guān)聯(lián)的65個收費(fèi)站2019年7月1日至9月30日的收費(fèi)數(shù)據(jù),統(tǒng)計全天00:00—23:59的數(shù)據(jù),以tu=5 min為時間間隔,計算平均行程時間。實(shí)驗中各模型都采用多個步長同時輸出的預(yù)測模式,輸入步長為tv=12,預(yù)測步長范圍為2 h,每個步長間隔15 min。實(shí)驗中,對KNN模型、SVR模型、RF模型、LSTM模型和XGBoost模型采用相同的輸入,Bayesian模型的輸入是前5種模型的輸出結(jié)果。在數(shù)據(jù)集劃分上,將前76天(2019年7月1日至2019年9月14日)共21 888組數(shù)據(jù)作為訓(xùn)練樣本,將后16天(2019年9月15日至2019年9月30日)共4 320組數(shù)據(jù)作為測試樣本。由于預(yù)測步長影響測試樣本覆蓋范圍,為更準(zhǔn)確地比較各模型的預(yù)測性能,計算平均誤差時,僅統(tǒng)計每天3:05—22:10的數(shù)據(jù)。
圖2 路網(wǎng)站點(diǎn)位置Fig.2 Location of road network toll stations
Pearson相關(guān)系數(shù)用于測量兩個變量之間的相關(guān)性,其范圍介于-1和1之間,越靠近1代表相關(guān)性越強(qiáng),在引入空間特征的交通流預(yù)測研究中,通常采用Pearson相關(guān)系數(shù)(PCCs)衡量輸入特征與輸出的空間相關(guān)性。圖3示出了各站點(diǎn)的輸入流量與預(yù)測輸出即目標(biāo)路段的行程時間之間的Pearson相關(guān)系數(shù)。
圖3 各站點(diǎn)輸入流量與預(yù)測輸出(行程時間)的Pearson相關(guān)系數(shù)Fig.3 Pearson correlation coefficient between the input flow of each station and the output(travel time)
在機(jī)器學(xué)習(xí)算法中,隨機(jī)森林和LSTM等模型在訓(xùn)練時會自動探索各輸入特征和輸出的相關(guān)性,并賦予相應(yīng)的權(quán)重。圖4分別示出了RF模型和LSTM模型的輸入特征的權(quán)值分布。由于Pearson相關(guān)系數(shù)主要用于衡量線性相關(guān)性,而RF模型和LSTM模型都是非線性算法,對于相同的輸入特征,Pearson相關(guān)系數(shù)與RF模型、LSTM模型的權(quán)值分布有所差異,且由于算法結(jié)構(gòu)的差異,兩種模型對相同輸入特征賦予的權(quán)值分布也有所不同。
不同預(yù)測步長下各模型的誤差如表1、表2、表3所示。從表中可以看出:各模型的預(yù)測誤差都隨著預(yù)測步長的增加而增加,各步長下RF模型、XGBoost模型和融合模型的誤差要低于KNN和SVR模型;而LSTM模型在步長較短的情況下的預(yù)測效果最好,但隨著步長的增加,其預(yù)測精度明顯下降,預(yù)測誤差顯著高于RF模型、XGBoost模型和融合模型。
表1 不同模型的均方誤差計算表Table 1 Calculation table of mean square error of different models
表2 不同模型的平均絕對誤差計算表Table 2 Calculation table of average absolute error of different models
表3 不同模型的平均絕對百分比誤差計算表Table 3 Calculation table of average absolute percentage error of different models %
為進(jìn)一步對比分析5種模型的預(yù)測效果,采用箱型圖和累計分布函數(shù)(CDF)對預(yù)測誤差進(jìn)行展示。從圖5可以看出,各模型的MAPE的中位數(shù)和上四分位數(shù)都隨著預(yù)測步長的增加而小幅增加,除了SVR模型,其他模型的最大上四分位數(shù)都低于25%,SVR模型的最大上四分位數(shù)也低于30%。這表明不同步長下各模型的預(yù)測性能具有穩(wěn)定性。LSTM模型的最大MAPE隨著預(yù)測步長的增加而呈現(xiàn)明顯上升趨勢,這表明步長對LSTM模型的預(yù)測能力有著顯著的影響。圖6的CDF曲線示出了相同步長下各模型的誤差累計分布情況。曲線上某點(diǎn)的橫坐標(biāo)表示MAPE的取值,縱坐標(biāo)表示MAPE低于該點(diǎn)橫坐標(biāo)的樣本數(shù)占比??梢钥闯?,相同步長下融合模型、RF模型和XGBoost模型的表現(xiàn)要優(yōu)于KNN模型和SVR模型,而LSTM模型在步長較短的情況下表現(xiàn)最優(yōu),但隨著步長的增加,LSTM模型的預(yù)測效果顯著變差。
圖5 不同預(yù)測步長下各模型的預(yù)測誤差箱型圖
圖6 相同預(yù)測步長下各模型的CDF曲線
峰值樣本的預(yù)測誤差也是評判模型預(yù)測能力的重要指標(biāo)。為分析各模型對峰值的預(yù)測能力,本研究選取了兩天峰值明顯變化的數(shù)據(jù),對15 min和30 min兩種步長下各模型的預(yù)測誤差進(jìn)行了可視化,所得結(jié)果如圖7所示。從圖中可以看出,不同步下KNN模型對峰值的預(yù)測誤差較大;SVR模型對峰值的預(yù)測誤差要小于KNN模型,但在平峰時段卻出現(xiàn)預(yù)測誤差變大的現(xiàn)象;融合模型、RF模型、XGBoost模型和LSTM模型對峰值的預(yù)測能力較好,在步長較短時,LSTM模型對峰值的預(yù)測能力最好。
圖7 絕對百分比誤差熱力圖Fig.7 Heatmap of absolute percentage error
綜上所述,預(yù)測步長較短時,可選擇RF模型、XGBoost模型、LSTM模型、基于貝葉斯回歸的融合模型進(jìn)行預(yù)測;預(yù)測步長較長時,可選擇RF模型、XGBoost模型和基于貝葉斯回歸的融合模型進(jìn)行預(yù)測。
各模型的訓(xùn)練時長及每秒預(yù)測樣本數(shù)見表4,其中LSTM模型執(zhí)行了300輪訓(xùn)練。訓(xùn)練時,KNN模型僅構(gòu)建快速查找結(jié)構(gòu),其他模型都進(jìn)行參數(shù)存儲,但融合模型的輸入較少,因此KNN模型和融合模型訓(xùn)練時長較短。預(yù)測時,SVR模型和KNN模型需在訓(xùn)練集中計算或查找相似樣本,因此預(yù)測執(zhí)行時間較長,每秒預(yù)測樣本個數(shù)較少。
本研究使用KNN模型、SVR模型、RF模型、LSTM模型、XGBoost模型和基于貝葉斯回歸的融合模型對引入時空特征的高速公路平均行程時間進(jìn)行了多步長同時輸出的預(yù)測,結(jié)果表明:
(1)5種模型的預(yù)測誤差都隨著預(yù)測步長的增加而增加,但MAPE的中位數(shù)和上四分位數(shù)增加幅度較??;
(2)不同步長下,融合模型、RF模型和XGBoost模型的預(yù)測效果優(yōu)于KNN模型和SVR模型;步長較短時,LSTM模型預(yù)測性能優(yōu)越,但隨著步長的增加,其預(yù)測性能明顯下降;
(3)基于貝葉斯回歸的融合模型可自動調(diào)整權(quán)重,綜合各模型的優(yōu)點(diǎn)以保持較好的預(yù)測效果,克服了單一預(yù)測方法的局限性。
(4)RF模型、LSTM模型訓(xùn)練時長較長但每秒預(yù)測樣本數(shù)較大,對比之下,SVR模型、KNN模型訓(xùn)練時長較短但每秒預(yù)測樣本數(shù)較小;XGBoost模型和融合模型訓(xùn)練時長短于RF模型和LSTM模型,每秒預(yù)測樣本數(shù)大于SVR模型和KNN模型。
結(jié)合交通擁堵問題,下一步研究將針對節(jié)假日的高速公路平均行程時間展開預(yù)測。