肖 梅 張 穎 黃洪滔 郝艷軍
(長(zhǎng)安大學(xué)運(yùn)輸工程學(xué)院 西安 710064)
無(wú)樁式浮動(dòng)單車無(wú)需定點(diǎn)停車,導(dǎo)致單車亂停亂放,擠占地鐵等公共出入口、人行道交通車道等,造成單車在時(shí)空上分布不合理、道路資源的過(guò)度浪費(fèi),影響了城市交通秩序和形象,嚴(yán)重時(shí)甚至?xí)斐山煌ㄗ枞?實(shí)現(xiàn)城市浮動(dòng)單車需求量的準(zhǔn)確預(yù)測(cè),不僅可以為解決單車的亂停亂放提供理論依據(jù),也可以更好地滿足共享單車用戶的出行需求,保障單車運(yùn)營(yíng)企業(yè)可持續(xù)、快速平穩(wěn)發(fā)展.
國(guó)內(nèi)外學(xué)者對(duì)單車顯著性影響因素分析和需求量預(yù)測(cè)進(jìn)行了大量的研究.在研究影響需求量因素方面:Fagnant等[1]利用西雅圖騎行數(shù)據(jù),提出了一種直接需求模型(direct-demand model),該模型根據(jù)產(chǎn)生量和吸引量估算與自行車相關(guān)道路條件,結(jié)果顯示,需求量與交叉路口和路緣寬度和道路速度顯著相關(guān).Xu等[2]利用多源數(shù)據(jù),提出了上海市共享單車興趣點(diǎn)區(qū)域劃分和交通分區(qū)的創(chuàng)新方法,揭示了上海市共享單車出行的分布特征并構(gòu)建了多塊混合動(dòng)力預(yù)測(cè)模型準(zhǔn)確預(yù)測(cè)了單車供需量.譚旭平等[3]為解決單車的投放和停車需求,針對(duì)城市用地的空間上的因素,考慮多種交通方式的換乘接駁,基于改進(jìn)的logit模型對(duì)不同交通強(qiáng)度的交通區(qū)進(jìn)行投放和停車需求的預(yù)測(cè),提高了預(yù)測(cè)精度.在研究單車需求量預(yù)測(cè)方面研究方法多集中于統(tǒng)計(jì)回歸模型和機(jī)器學(xué)習(xí)模型:Feng等[4]結(jié)合歷史使用模式和天氣數(shù)據(jù),建立了基于隨機(jī)森林預(yù)測(cè)模型來(lái)預(yù)測(cè)華盛頓地區(qū)自行車租賃需求量,相比于多元線性回歸模型,預(yù)測(cè)結(jié)果和準(zhǔn)確性都有很大提高.劉暢[5]基于網(wǎng)格劃分理論、時(shí)間序列預(yù)測(cè)方法,構(gòu)建了共享單車需求預(yù)測(cè)量ARIMA模型,但預(yù)測(cè)值的曲線擬合優(yōu)度較低.Jia等[6]提出了一種兩級(jí)高斯混合模型聚類算法,在此算法中考慮了自行車在站點(diǎn)間的遷移趨勢(shì)和地理位置信息,并將實(shí)驗(yàn)結(jié)果與其他傳統(tǒng)預(yù)測(cè)模型相比較,錯(cuò)誤率減少了約8%.Wang等[7]綜合考量自行車需求具有很強(qiáng)的隨機(jī)性、時(shí)變性和非線性,提出了一種非線性RBF神經(jīng)網(wǎng)絡(luò)分位數(shù)回歸算法來(lái)預(yù)測(cè)公共自行車站點(diǎn)需求量區(qū)間.Du等[8]以關(guān)聯(lián)公共自行車出租站歷史出行信息和時(shí)間為影響因素,分別建立了自適應(yīng)粒子群優(yōu)化小波神經(jīng)網(wǎng)絡(luò)(APSO-WNN)的公共自行車還借需求模型,對(duì)比粒子群優(yōu)化小波神經(jīng)網(wǎng)絡(luò)(PSO-WNN),平均相對(duì)誤差和均方誤差分別下降了26.45%和36.31%.王立[9]通過(guò)對(duì)共享單車使用量的數(shù)據(jù)分析,重點(diǎn)研究了基于BP神經(jīng)網(wǎng)絡(luò)進(jìn)行組合的非線性組合預(yù)測(cè)模型預(yù)測(cè)單車的需求量.楊軍等[10]利用不同時(shí)段的共享單車需求數(shù)據(jù),采用BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建了四種不同激活函數(shù)下的需求預(yù)測(cè)模型.陳菁等[11]綜合考慮校園區(qū)域和學(xué)生出行特征,應(yīng)用小波神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)區(qū)域需求量,實(shí)驗(yàn)結(jié)果表明:預(yù)測(cè)需求量的平均絕對(duì)誤差和平均百分誤差分別為0.983輛和14.36%.Soheil等[12]提出了廣義極值(GEV)計(jì)數(shù)模型,以預(yù)測(cè)每小時(shí)內(nèi)每個(gè)停車站點(diǎn)自行車的離開和到達(dá)的數(shù)量,整個(gè)系統(tǒng)總需求預(yù)測(cè)誤差在5%以內(nèi),75%的站點(diǎn)到達(dá)和離開的預(yù)測(cè)誤差在1以內(nèi).何郁波等[13]針對(duì)城市某一公共場(chǎng)所的單車使用量情況的時(shí)間序列,提出了ARIMA時(shí)序回歸預(yù)測(cè)模型,對(duì)共享單車的使用情況進(jìn)行了短期的預(yù)測(cè),并驗(yàn)證了模型的可靠性.在深度學(xué)習(xí)中,由于LSTM神經(jīng)網(wǎng)絡(luò)具有長(zhǎng)時(shí)記憶功能,且可以很好地解決梯度消失或梯度爆炸的問(wèn)題,國(guó)內(nèi)外學(xué)者將其運(yùn)用在預(yù)測(cè)不同領(lǐng)域的問(wèn)題:Xu等[14]通過(guò)深度學(xué)習(xí)方法建立了無(wú)站共享單車的動(dòng)態(tài)需求預(yù)測(cè)模型,利用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM NNS)預(yù)測(cè)不同時(shí)間間隔的共享單車出行量和吸引量,結(jié)果證明預(yù)測(cè)精度均優(yōu)于傳統(tǒng)的ARIMA、SVM等統(tǒng)計(jì)模型.Pan等[15]根據(jù)歷史數(shù)據(jù)提出了一種基于兩層深度的LSTM模型,預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)城市不同區(qū)域的自行車租賃和歸還的情況,LSTM雙層模型平均均方根誤差為2.70,比DNN預(yù)測(cè)模型減少了14%.程肇蘭等[16]提出了一種基于LSTM網(wǎng)絡(luò)的鐵路貨運(yùn)量預(yù)測(cè)模型,將預(yù)測(cè)結(jié)果與ARIMA預(yù)測(cè)模型結(jié)果相比較,LSTM網(wǎng)絡(luò)預(yù)測(cè)效果更佳.耿立校等[17]為準(zhǔn)確預(yù)測(cè)股票指數(shù),提出了基于多源異構(gòu)數(shù)據(jù)的長(zhǎng)短期網(wǎng)絡(luò)模型,并與卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型進(jìn)行對(duì)比分析,結(jié)果表明,LSTM模型的預(yù)測(cè)準(zhǔn)確率比傳統(tǒng)模型更為優(yōu)秀,更具可行性和有效性.
在綜合考量影響浮動(dòng)單車需求量的波動(dòng)性及模型的穩(wěn)定性的基礎(chǔ)上,文中從時(shí)間因素、空間因素、天氣因素、騎行因素上分析并得出預(yù)測(cè)模型的特征輸入,構(gòu)建了基于LSTM網(wǎng)絡(luò)的單車需求量預(yù)測(cè)模型,實(shí)現(xiàn)了對(duì)城市浮動(dòng)單車早晚高峰出行時(shí)段的精準(zhǔn)預(yù)測(cè),為浮動(dòng)單車的管理提供了理論依據(jù).
LSTM的核心在于增加了三個(gè)門與一個(gè)記憶單元,分別是遺忘門、輸入門、輸出門,以控制信息在演進(jìn)方向上的傳遞及增加控制門解決輸入或輸出問(wèn)題.其主要是通過(guò)一個(gè)神經(jīng)層和一個(gè)逐點(diǎn)相乘的操作來(lái)實(shí)現(xiàn),很好地解決了長(zhǎng)期依賴以及梯度消失和梯度爆炸的問(wèn)題,LSTM網(wǎng)絡(luò)模型結(jié)構(gòu)原理圖見(jiàn)圖1.該模型向前傳遞的計(jì)算公式為
圖1 LSTM網(wǎng)絡(luò)模型結(jié)構(gòu)
ft=σ(Wf·[ht-1,Xt]+bf)
(1)
(2)
(3)
Ot=σ(Wo·[ht-1,Xt]+bo)
(4)
ht=Ot·tanh(At)
(5)
文中采用的實(shí)例數(shù)據(jù)是通過(guò)解密開源的2017年的北京單車數(shù)據(jù)(https://biendata.com/competition/mobike/),樣本原始數(shù)據(jù)的起止時(shí)間為2017年5月10—24日,數(shù)據(jù)集近兩千萬(wàn)條,包括7個(gè)字段信息,見(jiàn)表1.對(duì)字段數(shù)據(jù)進(jìn)行挖掘,初次選取了13個(gè)影響浮動(dòng)單車使用的因素作為自變量.變量名稱、表示符號(hào)及變量單位,見(jiàn)表2.
表1 原始樣本數(shù)據(jù)示例
表2 變量的初步選取及相關(guān)描述
根據(jù)編碼原理和字符串精度級(jí)別,7位編碼長(zhǎng)度對(duì)應(yīng)的的面積為153 m×153 m,為使構(gòu)建的研究區(qū)域更符合單車實(shí)際出行情況和短途騎行的特點(diǎn),將其聚合成面積約為1.22 km×0.61 km的6位編碼長(zhǎng)度區(qū)域作為研究區(qū)域,在北京市空間位置分布見(jiàn)圖2.
圖2 北京市研究區(qū)域空間位置分布示意圖
按照研究區(qū)域面積一定的篩選原則,隨機(jī)提取了近5萬(wàn)條數(shù)據(jù)作為研究的樣本數(shù)據(jù)并對(duì)原始數(shù)據(jù)集按每2 h進(jìn)行重采樣,劃分成每2 h一個(gè)時(shí)段.經(jīng)統(tǒng)計(jì)分析,出行的高峰時(shí)段為:早高峰08:00—10:00,晚高峰:18:00—20:00.為驗(yàn)證各網(wǎng)絡(luò)模型的精度,將樣本數(shù)據(jù)80%作為訓(xùn)練集,20%作為測(cè)試集.選取出行高峰時(shí)段(08:00—10:00)和平峰時(shí)段(12:00—14:00)的單車需求量預(yù)測(cè)作為驗(yàn)證模型精度的結(jié)果.
Spearman(SR)相關(guān)系數(shù)不僅用于衡量?jī)蓚€(gè)變量之間相關(guān)性檢驗(yàn),且樣本數(shù)據(jù)不需要滿足連續(xù)性和正態(tài)分布,同時(shí)也具有消除量綱的作用.為排除隨機(jī)采樣對(duì)SR相關(guān)系數(shù)結(jié)果的影響,以構(gòu)建統(tǒng)計(jì)量的方式計(jì)算P值進(jìn)行顯著性檢驗(yàn).基于兩者標(biāo)準(zhǔn)共同判斷影響因素的顯著相關(guān)性,見(jiàn)表3.式(6)為Spearman(SR)相關(guān)系數(shù)計(jì)算公式.
表3 相關(guān)性判斷標(biāo)準(zhǔn)
(6)
表4為Spearman系數(shù)矩陣,表5為Spearman秩相關(guān)檢驗(yàn)系數(shù)。由表4和表5可知,X1為城市功能區(qū);X7為降雨天氣;X8為高溫出行;X9為風(fēng)力級(jí)數(shù);X13為騎行距離;X13的SR相關(guān)系數(shù)和檢驗(yàn)值P都表現(xiàn)出非常弱的相關(guān)性,表明并不是影響單車使用的重要因素,推測(cè)可能是數(shù)據(jù)采集期間時(shí)間跨度僅為14天且天氣情況較為穩(wěn)定、各功能區(qū)流量集中導(dǎo)致需求量分布比較均勻,導(dǎo)致單車需求量波動(dòng)不明顯,因此以上影響因素均表現(xiàn)為不相關(guān)并剔除該變量.
表4 Spearman系數(shù)矩陣
表5 Spearman秩相關(guān)檢驗(yàn)系數(shù)
而其他8個(gè)自變量間均存在相關(guān)性如:X3與X4強(qiáng)相關(guān)、X3與X11弱相關(guān),X11與X12中相關(guān)等;與Y之間呈正相關(guān)的變量,如X3是由于存在公共交通的區(qū)域會(huì)更容易產(chǎn)生單車接駁需求;X5是由于居民日常出行更容易集中在1 d中的早晚高峰時(shí)段,例如,上下班時(shí)與公交、地鐵接駁通勤等均會(huì)導(dǎo)致更大的需求量;與Y之間呈負(fù)相關(guān)的變量如:X6是由于用戶在節(jié)假日出行需求比平時(shí)工作日的出行需求更迫切,對(duì)單車需求量更大.經(jīng)分析對(duì)以上影響因素予以保留,并作為單車需求量預(yù)測(cè)模型的特征變量輸入.
基于Anaconda管理平臺(tái)下的Python3.9開發(fā)環(huán)境,利用Tensorflow2.2與Keras2.3.1深度學(xué)習(xí)框架進(jìn)行建模.將樣本數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集80%,測(cè)試集20%,分別用于RNN、GRU、LSTM網(wǎng)絡(luò)模型訓(xùn)練參數(shù)與測(cè)試模型精度,其中,LSTM網(wǎng)絡(luò)預(yù)測(cè)模型運(yùn)行原理見(jiàn)圖3.為提高模型精度,模型中均采用0.001的Adam優(yōu)化算法,tanh激活函數(shù),Loss損失函數(shù)采用均方誤差(mean squared error, MSE),計(jì)算公式為
圖3 LSTM網(wǎng)絡(luò)模型運(yùn)行原理
(7)
2.3.1模型訓(xùn)練
對(duì)于基于時(shí)間序列預(yù)測(cè)的網(wǎng)絡(luò)模型而言,t時(shí)刻單車需求量Yt的值,不僅受到t時(shí)刻的特征輸入Xt的約束,同時(shí)還受到t-n(n=1,2,…)時(shí)刻的輸出Yt-n及t-n時(shí)刻的特征輸入Xt-n的約束.因此,模型的輸入為t-n時(shí)刻的顯著性變量數(shù)據(jù)集及標(biāo)簽數(shù)據(jù)集:Yt=(Yt-n+X(2,t-n)+X(3,t-n)+X(4,t-n)+X(5,t-n)+X(6,t-n)+X(10,t-n)+X(11,t-n)+X(12,t-n)+Xt),以此預(yù)測(cè)未來(lái)第N天的高峰時(shí)段:第(t+2)個(gè)時(shí)段,以及平峰時(shí)段:第(t+4)個(gè)時(shí)段單車需求量.交叉驗(yàn)證后訓(xùn)練集上模型預(yù)測(cè)精度達(dá)到最優(yōu)時(shí),停止迭代,得到LSTM模型參數(shù):Units=3,Hidden_layer=32,Dense=2,Epochs=50,Batch_size=32,Dropout=0.2.
2.3.2模型評(píng)價(jià)指標(biāo)
為了評(píng)估模型的預(yù)測(cè)結(jié)果,所用到的評(píng)價(jià)指標(biāo)為:均方根誤差RMSE,用來(lái)衡量觀測(cè)值同真值之間的偏差;平均絕對(duì)值誤差MAE,反映預(yù)測(cè)值誤差的實(shí)際情況;擬合優(yōu)度值R2,計(jì)算曲線擬合優(yōu)度.
(8)
(9)
(10)
為比較LSTM預(yù)測(cè)模型與其他預(yù)測(cè)模型的精度,本文另采用兩種變種深度學(xué)習(xí)的預(yù)測(cè)方法:RNN預(yù)測(cè)模型和GRU預(yù)測(cè)模型.同理,搭建Python3.9開發(fā)環(huán)境,Tensorflow與Keras模塊中的深度學(xué)習(xí)網(wǎng)絡(luò)框架.樣本數(shù)據(jù)訓(xùn)練集和測(cè)試集的劃分均為8∶2,模型輸入為經(jīng)檢驗(yàn)后的顯著性變量數(shù)據(jù)集X及標(biāo)簽數(shù)據(jù)集Y.在訓(xùn)練集交叉驗(yàn)證后最終得到RNN模型參數(shù): Activation=Softmax,Hidden_Layer=100,Batch_Size=128,Epochs=60,Dropout=0.3,Dense=2;GRU模型參數(shù):Optimizer=Adam,Hidden_Layer=80,Batch_Size=64,Epochs=60,Dropout=0.5,Dense=2;損失函數(shù)均采用均方誤差.其中,數(shù)據(jù)啞變量處理與數(shù)值歸一化處理、模型結(jié)果評(píng)估與LSTM模型處理過(guò)程一致.
為更加貼近實(shí)際單車出行情況,從位于20個(gè)不同位置的研究區(qū)域及14 d不同日期的數(shù)據(jù)集中隨機(jī)選取了1 197條數(shù)據(jù),133個(gè)時(shí)間滑窗序列測(cè)試樣本,圖4~6分別為各模型對(duì)早高峰時(shí)段及平峰時(shí)段單車需求量預(yù)測(cè)結(jié)果的真實(shí)值與預(yù)測(cè)值的擬合曲線及兩者之間的差值曲線.由圖4~6可知:LSTM預(yù)測(cè)模型中,預(yù)測(cè)值很高程度上預(yù)測(cè)了未來(lái)時(shí)間段的真實(shí)值;GRU預(yù)測(cè)模型預(yù)測(cè)效果次之,RNN預(yù)測(cè)模型預(yù)測(cè)效果較差.
圖4 RNN網(wǎng)絡(luò)預(yù)測(cè)模型
圖5 GRU網(wǎng)絡(luò)預(yù)測(cè)模型
圖6 LSTM網(wǎng)絡(luò)預(yù)測(cè)模型
通過(guò)表6的評(píng)價(jià)指標(biāo)對(duì)比分析,LSTM預(yù)測(cè)模型總體上優(yōu)于兩個(gè)對(duì)比預(yù)測(cè)模型.相較于GRU:LSTM優(yōu)化了隱藏層節(jié)點(diǎn),因此對(duì)時(shí)序的記憶能力更強(qiáng);當(dāng)時(shí)間序列距離增加時(shí),RNN存在無(wú)法解決長(zhǎng)時(shí)依賴,可能出現(xiàn)梯度消失或梯度爆炸等問(wèn)題,然而LSTM受梯度消失問(wèn)題的影響要小很多,擬合優(yōu)度更高,且三個(gè)門與一個(gè)記憶單元的結(jié)構(gòu)非常適用于處理與時(shí)間序列高度相關(guān)的問(wèn)題.GRU與RNN進(jìn)行對(duì)比:GRU除預(yù)測(cè)平均絕對(duì)值誤差分別為7.14和4.53略高于RNN,其余評(píng)價(jià)指標(biāo)均優(yōu)于RNN,說(shuō)明相比于簡(jiǎn)單的RNN網(wǎng)絡(luò)結(jié)構(gòu)而言,GRU雖然只有兩個(gè)門,但構(gòu)建龐大的網(wǎng)絡(luò)時(shí)更加有力,效率更高.從預(yù)測(cè)結(jié)果整體看,浮動(dòng)單車平峰時(shí)段的需求量預(yù)測(cè)比高峰時(shí)段預(yù)測(cè)效果更佳,由于高峰時(shí)段需求量對(duì)影響因素更加敏感,造成的曲線波動(dòng)幅度較大,而平峰時(shí)段需求量受到的影響較小,從而更加平穩(wěn).
表6 模型評(píng)價(jià)結(jié)果
文中針對(duì)北京市內(nèi)浮動(dòng)單車出行時(shí)需求量的實(shí)際情況,從空間因素、時(shí)間因素、天氣因素、騎行因素多方面考慮并分析了浮動(dòng)單車不同時(shí)段的出行特征,并將其作為模型的特征輸入,提高預(yù)測(cè)的精度和可信度,使預(yù)測(cè)模型更貼近現(xiàn)實(shí)情況.從深度學(xué)習(xí)算法的角度,結(jié)合浮動(dòng)單車出行大數(shù)據(jù),以及嚴(yán)格周期的時(shí)間序列,構(gòu)建了一種基于LSTM網(wǎng)絡(luò)的浮動(dòng)單車需求量預(yù)測(cè)模型.為了驗(yàn)證LSTM模型的性能,分別構(gòu)建了RNN網(wǎng)絡(luò)預(yù)測(cè)模型和GRU網(wǎng)絡(luò)預(yù)測(cè)模型,通過(guò)對(duì)比真實(shí)需求量和預(yù)測(cè)需求量數(shù)值的擬合曲線和各項(xiàng)預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo),體現(xiàn)LSTM模型優(yōu)越的影響因素記憶和預(yù)測(cè)性能,并且LSTM可作為復(fù)雜的非線性單元用于構(gòu)造更大型深度神經(jīng)網(wǎng)絡(luò),該模型成功為城市浮動(dòng)單車的投放與后期的調(diào)度計(jì)劃提供前瞻性理論支撐.下一步工作會(huì)深入研究模型超參對(duì)模型精度的影響,并且結(jié)合GIS數(shù)據(jù)模型,分析城市浮動(dòng)單車在空間上的出行特征及預(yù)測(cè)模型的探索,例如:空間位置、空間形態(tài)及分布等,提高預(yù)測(cè)模型的普遍性和適用性.