楊培紅, 哈元元, 余智鑫, 趙建東*
(1.青海省高速公路運營管理有限公司, 西寧 810008; 2.北京交科公路勘察設(shè)計研究院有限公司, 北京 100083; 3.北京交通大學(xué)交通運輸學(xué)院, 北京 100044)
中國汽車保有量處于持續(xù)增長的狀態(tài),停車難和交通擁擠的現(xiàn)象愈演愈烈。停車區(qū)附近的誘導(dǎo)指示牌上會顯示當(dāng)前時刻的剩余車位信息,但停車信息隨時間動態(tài)變化,剩余車位信息時與車輛到達(dá)停車地點后的實際剩余車位可能存在差異[1]。此外,駕駛員在尋找泊車位時的無效巡游會產(chǎn)生無效交通[2],進(jìn)而可能增加擁擠程度,制約城市的發(fā)展[3]。準(zhǔn)確地預(yù)測停車區(qū)剩余空車位,可以為駕駛員提供更加全面的誘導(dǎo)信息,從而協(xié)助他們做出合理的停車判斷,縮短無效交通時間,改善交通狀況。
針對停車區(qū)剩余車位的預(yù)測,目前主要有基于數(shù)理統(tǒng)計的方法和基于非線性理論的方法?;跀?shù)理統(tǒng)計的方法是指采用統(tǒng)計理論對歷史數(shù)據(jù)進(jìn)行分析,從而預(yù)測未來的可用停車位數(shù)據(jù)。此類模型預(yù)測方法步驟簡單,然而難以精確擬合歷史的復(fù)雜非線性數(shù)據(jù)。Caicedo等[4]提出了基于自回歸移動平均(autoregressive integrated moving average,ARIMA)模型的停車區(qū)剩余停車位預(yù)測模型,但停車位占用率較高時,預(yù)測精度較低。張雷等[5]提出了基于向量自回歸預(yù)測的泊位預(yù)測算法,以重慶市為實驗對象,驗證了算法的可行性。湯俊欽[6]根據(jù)停車區(qū)間的不確定性關(guān)系,建立了多元線性回歸模型,通過對廈門市不同停車區(qū)的停車需求研究驗證了算法的可行度。
非線性預(yù)測模型指以神經(jīng)網(wǎng)絡(luò)、決策樹等理論為基礎(chǔ),建立相應(yīng)的預(yù)測模型。此類預(yù)測模型能夠很好地擬合停車區(qū)空閑停車位與時間的非線性特征,但計算過程非常復(fù)雜。裘瑞清等[7]用長短時記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory neural network,LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò),對區(qū)域內(nèi)泊位需求進(jìn)行預(yù)測,能夠比傳統(tǒng)方法在結(jié)果上更加接近實際值,并且精度較為滿意,表明該預(yù)測方法可行有效。韓錕等[8]通過關(guān)聯(lián)積分法(cross-correlation,C-C)進(jìn)行相空間重構(gòu),并利用遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò),實驗證明,該方法具有良好的預(yù)測精度。劉東輝等[9]提出了一種利用粒子群優(yōu)化算法(particle swarm optimization algorithm,PSO)優(yōu)化LSTM的剩余車位預(yù)測模型,在不同場景下,精度均優(yōu)于LSTM模型。Mei等[10]將傅里葉變換(fourier transform,F(xiàn)T)的思想與機器學(xué)習(xí)方法中的最小二乘支持向量回歸(least squares support vector regression,LSSVR)相結(jié)合進(jìn)行剩余車位的多步預(yù)測,效果優(yōu)于傳統(tǒng)的LSSVR模型。
由于深度學(xué)習(xí)和機器學(xué)習(xí)領(lǐng)域的發(fā)展,相關(guān)模型在智慧交通領(lǐng)域應(yīng)用變得更加廣泛。對于停車區(qū)剩余車位的預(yù)測,目前主要是通過單個模型或者利用啟發(fā)式算法優(yōu)化單個模型進(jìn)行預(yù)測,但是這些預(yù)測方式存在一定的不足:一是難以找到合適的特征,模型效果不能充分發(fā)揮;二是容易受噪聲點的影響,難以準(zhǔn)確擬合停車區(qū)剩余車位在不同場合的變化情況;三是對預(yù)測過程中產(chǎn)生的數(shù)據(jù)未能有效利用。
為此,提出了一種LightGBM-SVR-LSTM的預(yù)測模型,[輕量級梯度提升機(light gradient boosting machine,LightGBM)、支持向量回歸模型(support vector regression,SVR)、LSTM]。首先利用小波分析對異常數(shù)據(jù)進(jìn)行識別,并利用KNN模型修復(fù)異常值;然后相比于傳統(tǒng)的單變量預(yù)測或者通過經(jīng)驗設(shè)置特征的方法增加預(yù)測精度,采用LightGBM模型,將葉子節(jié)點的值作為新的特征,放入次級的SVR模型進(jìn)行預(yù)測;針對組合模型預(yù)測產(chǎn)生的誤差,利用LSTM進(jìn)行誤差修復(fù);最后利用某停車區(qū)數(shù)據(jù)驗證模型的有效性。
采集的數(shù)據(jù)中存在一些噪聲數(shù)據(jù),需要其進(jìn)行修復(fù)處理。采取小波分析與K最近鄰(K-nearest neighbor,KNN)模型結(jié)合,將數(shù)據(jù)進(jìn)行降噪處理。
小波分析(wavelet denoising, WD)是由Donoho等[11]提出的方法發(fā)展而來,其原理是抑制信號中的噪聲部分,保留原始特征。通過小波分析可以讓樣本的非平穩(wěn)特征得到很好的保留;用小波變換對信號進(jìn)行去相關(guān)的操作,得到的噪聲將趨于自噪聲,從而得到更精確或理想效果。小波分析的理論中,一維噪聲模型可表示為
zst=ort+et,t=1,2,…,n
(1)
式(1)中:zst為噪聲信號;ort為原始信號;et為高斯噪聲;n為信號長度。
將小波分析得到的高頻濾波全部置為零,則低頻分量即為重構(gòu)后的數(shù)據(jù)序列。將原始數(shù)據(jù)序列與重構(gòu)的數(shù)據(jù)相減,得到殘差數(shù)據(jù)序列。為了盡可能多的保留原始數(shù)據(jù)特征,對于殘差序列,采用3σ原則進(jìn)行異常數(shù)據(jù)識別(距離均值3倍標(biāo)準(zhǔn)差外的數(shù)據(jù)均視為異常值)。為了提高異常數(shù)據(jù)修復(fù)效果,進(jìn)一步改善數(shù)據(jù)質(zhì)量,結(jié)合KNN法對噪聲數(shù)據(jù)的敏感度較低的特性,構(gòu)建基于KNN的異常數(shù)據(jù)修復(fù)模型。
構(gòu)建時間序列預(yù)測的模型時,需要考慮其對整體數(shù)據(jù)的周期性、連續(xù)性和趨勢的擬合程度,還要具備一定的泛化能力,以便減小異常值對模型擬合峰值的影響。基于此,構(gòu)建了基于LightGBM-SVR-LSTM的組合模型。
LightGBM是梯度提升決策樹(gradient boosting decision tree,GBDT)的一種新的框架[12],相比于GBDT,LightGBM做了多個優(yōu)化:使用直方圖加速、使用leaf-wise的葉子生長策略代替level-wise、支持類別特征等。LightGBM解決了GBDT原始模型面對大量數(shù)據(jù)時,計算速度慢的問題,在訓(xùn)練過程中,LightGBM的目標(biāo)函數(shù)可表示為
(2)
(3)
(4)
SVR是一種基于統(tǒng)計學(xué)習(xí)的理論,進(jìn)行回歸計算的機器學(xué)習(xí)算法。該方法在理論上可以得到問題的全局最優(yōu)解,且計算過程復(fù)雜程度與樣本維數(shù)無關(guān),在函數(shù)逼近、回歸預(yù)測等方面能夠達(dá)到較好的效果,其原理可表示為
(5)
式(5)中:ε為擬合精度;約束條件中的w為權(quán)值向量;b為偏移常量;x′i為輸入向量。
LSTM是RNN的一種改進(jìn)[13],在內(nèi)部增加了門結(jié)構(gòu):輸入門、遺忘門和輸出門。通過這結(jié)構(gòu),調(diào)整輸入與隱藏層的值[14],計算過程如下。
ft=σ(Wf[ht-1,xt]+bf)
(6)
it=σ(Wi[ht-1,xt]+bi)
(7)
(8)
(9)
ot=σ(Wo[ht-1,xt]+bo)
(10)
ht=ottanh(Ct)
(11)
選取合適的特征以及模型,可以最大限度地將預(yù)測值逼近真實數(shù)據(jù)。在特征選擇時,如果添加的特征不足,會造成模型預(yù)測精度不高,產(chǎn)生欠擬合的情況;如果添加的特征過多,一方面,可能引入一些無關(guān)的變量,降低模型的預(yù)測效果;另一方面,當(dāng)模型輸入維數(shù)過高,可能產(chǎn)生過擬合的現(xiàn)象,降低模型的精度以及魯棒性。按照經(jīng)驗來添加特征變量,很容易產(chǎn)生上述問題。對于決策樹模型,在進(jìn)行預(yù)測時,會首先生成葉子節(jié)點,由葉子節(jié)點的值,得到最終的預(yù)測值。采用LightGBM模型,通過訓(xùn)練,獲得葉子節(jié)點值,作為特征向量,以解決傳統(tǒng)的按照經(jīng)驗確定特征可能帶來的不利因素。
將LightGBM模型的葉子節(jié)點輸出后,數(shù)據(jù)維度較高,為了避免因為過擬合,降低模型效果,本文選擇使用SVR進(jìn)行預(yù)測。SVR模型可以有效地適應(yīng)高維數(shù)據(jù),且方法簡單,不容易產(chǎn)生過擬合。為了進(jìn)一步提升模型精度,采用網(wǎng)格搜索,對各模型的超參數(shù)進(jìn)行尋優(yōu),確定最佳超參數(shù)。
LSTM擁有長時記憶功能,能夠有效地識別數(shù)據(jù)的周期性、趨勢性,對于處理時間序列數(shù)據(jù)有良好的效果。因此將LightGBM-SVR的預(yù)測值輸出后,將其與真實數(shù)據(jù)的殘差序列提取出來,利用LSTM模型進(jìn)行誤差修復(fù),并通過網(wǎng)格搜索,確定最佳的超參數(shù),提升模型的預(yù)測精度。
選取某停車區(qū)在2017年10月—2018年2月的數(shù)據(jù)進(jìn)行實驗,數(shù)據(jù)為每小時統(tǒng)計一次。將數(shù)據(jù)集按照6∶2∶2劃分為訓(xùn)練集、驗證集和測試集。
對于停車區(qū)剩余車位數(shù)據(jù),更好的時頻特性是主要的,為了保持?jǐn)?shù)據(jù)良好的光滑性,選擇常用的db4小波進(jìn)行去噪,效果如圖1所示。
s=d1+d2+d3+a3
(12)
式(12)中:s為原始信號;a3為低頻信號;d1、d2、d3為高頻信號。
圖1 小波分析結(jié)果Fig.1 Results of wavelet analysis
將分解獲得的3層高頻分量置零,低頻分量a3即為重構(gòu)后的數(shù)據(jù)序列。根據(jù)3σ原則對殘差值進(jìn)行識別異常值,利用KNN算法進(jìn)行異常數(shù)據(jù)修復(fù)。部分結(jié)果如圖2所示。
圖2 異常數(shù)據(jù)修復(fù)結(jié)果對比Fig.2 Comparison of abnormal data repair results
為了檢驗?zāi)P偷男Ч饕捎镁礁`差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)、平均百分比誤差(mean absolute percentage error,MAPE)3種指標(biāo)來量化預(yù)測誤差,其計算公式分別為
(13)
(14)
(15)
將處理后的數(shù)據(jù)進(jìn)行訓(xùn)練,并通過網(wǎng)格搜索確定各預(yù)測模型的最佳超參數(shù)。其中,LightGBM超參數(shù)如下:行采樣設(shè)置為0.7, 每4次迭代執(zhí)行裝袋操作,列采樣設(shè)置為0.9, 每棵樹的葉子數(shù)量設(shè)置為25,樹的數(shù)量設(shè)置為300。SVR的超參數(shù)如下:懲罰系數(shù)設(shè)置為100,徑向基函數(shù)的系數(shù)設(shè)置為0.01;考慮到數(shù)據(jù)有限,LSTM中間層只設(shè)置一層,其余超參數(shù)設(shè)置為:訓(xùn)練次數(shù)設(shè)為50,神經(jīng)元個數(shù)設(shè)置為35,訓(xùn)練的批大小設(shè)置為16。
將提出的組合模型,與選擇常見的交通流預(yù)測模型SVR、LSTM、LightGBM、門控神經(jīng)網(wǎng)絡(luò)(gate recurrent unit,GRU)進(jìn)行預(yù)測效果對比。選取正常時間段,以及節(jié)假日(新年)期間,兩種場景進(jìn)行驗證。
3.2.1 正常時段
從圖3中可以看出,所提出的模型相比于其他單個模型,具有更好的擬合效果。從表1中可以看出,在正常時間段,相比于常用的單個模型,LightGBM-SVR組合模型在RMSE上,提升了3.6%,MAE提升了19.6%,MAPE提升了30.5%;加入LSTM進(jìn)行誤差修復(fù)后,相比于原始組合模型,RMSE又提升了19.3%,MAE提升了11.9%,MAPE提升了14%。因此,提出的LightGBM-SVR-LSTM模型具有較高的精度。
輕量級梯度提升機(light gradient boosting machine, LGB)圖3 正常時間段預(yù)測效果對比Fig.3 Comparison of prediction results in normal conditions
表1 正常時間段預(yù)測效果對比Table 1 Comparison of prediction results in normal conditions
3.2.2 節(jié)假日期間
從圖4可以看出,所提出的模型相比于其它單個模型,具有更好的擬合效果。從表2中可以看出,在節(jié)假日時間段,相比于常用的單個模型,LightGBM-SVR組合模型在RMSE上,提升了5.5%,MAE提升了10.6%,MAPE提升了0.9%;加入LSTM進(jìn)行誤差修復(fù)后,相比于原始組合模型,RMSE提升了20.0%,MAE提升了21.7%,MAPE提升了25.0%。因此,在節(jié)假日期間,提出的LightGBM-SVR-LSTM模型也具有較高的精度。
圖4 節(jié)假日時間段預(yù)測效果對比Fig.4 Comparison of prediction results during holidays
表2 節(jié)假日時間段預(yù)測效果對比Table 2 Comparison of prediction results during holidays
提出了一種基于LightGBM-SVR-LSTM的停車區(qū)剩余車位短時預(yù)測組合模型,并利用某停車區(qū)歷史數(shù)據(jù)進(jìn)行驗證,根據(jù)實例分析結(jié)果,得到以下結(jié)論。
(1)通過小波分析結(jié)合3σ原則可以進(jìn)行數(shù)據(jù)清洗,并保留原始數(shù)據(jù)特征;再結(jié)合KNN模型對噪聲數(shù)據(jù)敏感性低的特點,可以用其來進(jìn)行異常數(shù)據(jù)修復(fù)。
(2)相比于手動構(gòu)造特征,LightGBM可以有效地進(jìn)行特征提取,將提取的特征放入SVR模型,可以提升預(yù)測精度。在正常時間段,相比于常用的單個模型,LightGBM-SVR組合模型在RMSE上,提升了3.6%,MAE提升了29.1%,MAPE提升了30.5%;在節(jié)假日時間段,相比于常用的單個模型,LightGBM-SVR組合模型在RMSE上,提升了5.5%,MAE提升了10.6%,MAPE提升了0.9%。
(3)利用LSTM進(jìn)行模型預(yù)測誤差修復(fù),能夠提升模型的預(yù)測精度,在正常條件下,相比于組合模型,RMSE提升了19.3%,MAE提升了11.9%,MAPE提升了14%;在節(jié)假日條件下,相比于組合模型,RMSE提升了20.0%,MAE提升了21.7%,MAPE提升了25.0%;該組合模型的預(yù)測精度高于其他模型,并具有較好的魯棒性。