王夢(mèng)園 翟希 王斌
摘 ?要: 就所述的長(zhǎng)短期記憶(LSTM)模型和DeepST-ResNet模型進(jìn)行了研究分析,并基于西安滴滴出行的真實(shí)數(shù)據(jù)對(duì)相關(guān)模型進(jìn)行對(duì)比實(shí)驗(yàn),分析了各個(gè)模型的優(yōu)劣,提出了建立更優(yōu)模型的思路與展望.
關(guān)鍵詞: 交通管理; 滴滴出行; 時(shí)空數(shù)據(jù); 神經(jīng)網(wǎng)絡(luò); 流量預(yù)測(cè)
中圖分類號(hào): ?TP 399 ?????文獻(xiàn)標(biāo)志碼: A ?????文章編號(hào): 1000-5137(2021)01-0122-06
Abstract: In this paper the long-term and short-term memory (LSTM) model and the DeepST-ResNet model were both studied and analyzed. Based on the real data of Xian Didi travel,the above models were compared and tested to analyze the advantages and disadvantages of each model according to which a better model was proposed and the preliminary work and preparation was conducted.
Key words: traffic management; Didi travel; spatiotemporal data; neural network; traffic forecast
0 ?引言
交通預(yù)測(cè)已經(jīng)成為了智能交通系統(tǒng)(ITS)中的一個(gè)核心環(huán)節(jié),交通預(yù)測(cè)問(wèn)題也開(kāi)始受到諸多城市計(jì)算學(xué)者的高度關(guān)注.目前交通預(yù)測(cè)問(wèn)題主要分為路段流量預(yù)測(cè)和區(qū)域流量預(yù)測(cè)兩大部分.其中在路段流量預(yù)測(cè)問(wèn)題中,學(xué)者們主要就高速公路或者城市主干道的交通路況進(jìn)行調(diào)查檢測(cè)[1-2],進(jìn)而預(yù)測(cè)某些具體路段的交通流量;區(qū)域流量預(yù)測(cè)是研究整個(gè)城市不同區(qū)域間的交通量流動(dòng).
影響交通流量預(yù)測(cè)的兩個(gè)重要因素分別是時(shí)間和空間,比如手機(jī)、出租車(chē)導(dǎo)航、地鐵/公交車(chē)刷卡等數(shù)據(jù),都具有時(shí)間依賴性和空間相關(guān)性.但是在早期,學(xué)者們的研究大多采用一些經(jīng)典的時(shí)間序列預(yù)測(cè)模型,例如自回歸滑動(dòng)平均(ARMA)、差分整合移動(dòng)平均自回歸(ARIMA),以及基于此提出的季節(jié)性差分自回歸滑動(dòng)平均(SARIMA)等模型,但這些模型無(wú)法描述空間因素對(duì)城市流量預(yù)測(cè)的影響.
傳統(tǒng)的機(jī)器學(xué)習(xí)法,例如支持向量回歸模型(SVR)[3],可以通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)的最小化,提高學(xué)習(xí)機(jī)泛化能力,在交通流量樣本數(shù)較少的情況下,達(dá)到統(tǒng)計(jì)規(guī)律的目的.但是SVR的預(yù)測(cè)結(jié)果極易受到參數(shù)和核函數(shù)取值的影響.JIANG等[4]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和殘差網(wǎng)絡(luò)的方法,將地理坐標(biāo)數(shù)據(jù)轉(zhuǎn)化為圖的表達(dá)形式進(jìn)行交通預(yù)測(cè);LIU等[5]將CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)相結(jié)合,較好地捕捉了時(shí)空特征,并通過(guò)注意力機(jī)制學(xué)習(xí)了歷史交通流量.
本文作者將介紹除此之外幾種不同的神經(jīng)網(wǎng)絡(luò)模型,并測(cè)試各個(gè)模型針對(duì)交通預(yù)測(cè)問(wèn)題的性能,分析各模型的優(yōu)劣.
基于現(xiàn)實(shí)基礎(chǔ),本研究所指的區(qū)域流量預(yù)測(cè)主要分為兩種類型的流量預(yù)測(cè):流入流量(inflow)和流出流量(outflow).由于各個(gè)區(qū)域流量的變化受到諸多因素的相互影響,城市區(qū)域流量預(yù)測(cè)的這個(gè)課題極具挑戰(zhàn)性.其中影響占比最重的兩個(gè)因素分別為空間聯(lián)系和時(shí)間規(guī)律:1) 空間聯(lián)系.城市某區(qū)域的流入流出量不僅直接受到該區(qū)域鄰近區(qū)域流量的影響,還會(huì)間接地受到與該區(qū)域相隔較遠(yuǎn)區(qū)域流量的影響.除此之外,該區(qū)域自身流入量與流出量也會(huì)互相影響.2) 時(shí)間規(guī)律.城市中某區(qū)域當(dāng)前時(shí)段的流入流出量會(huì)受到歷史時(shí)間段流量的影響,并且由于人們的日常作息,人們的出行往往會(huì)呈現(xiàn)以日和周為周期單位的規(guī)律性.
從活動(dòng)模式來(lái)說(shuō),影響城市流量的主要因素包括工作日通勤、上下學(xué)以及其他的日常重復(fù)活動(dòng);其次,存在異常的流量活動(dòng)模式,例如某個(gè)地區(qū)城市交通流量不正常地增加了,這種情況可能導(dǎo)致交通堵塞、引發(fā)社會(huì)安全問(wèn)題等[6-7].還有一些事件、活動(dòng)也會(huì)影響到城市流量,比如因?yàn)榈缆方ㄔO(shè)(修路等情況)而對(duì)某個(gè)區(qū)域進(jìn)行暫時(shí)的交通管制時(shí),該區(qū)域的流量會(huì)相對(duì)應(yīng)地下降;此外,天氣因素也對(duì)城市流量有某種影響,例如暴雨、霧霾以及其他的惡劣天氣情況,會(huì)導(dǎo)致出行人數(shù)下降,而天氣晴朗時(shí),出行人數(shù)則會(huì)增加.還需要納入考慮范疇的是節(jié)假日因素,臨近節(jié)日的時(shí)間段也對(duì)城市流量有某種影響,使得人群流量的起伏持續(xù)一個(gè)周期的時(shí)間,而且很可能會(huì)出現(xiàn)大量的跨區(qū)域流量.
充分解析以上這些因素給流量預(yù)測(cè)帶來(lái)的研究難點(diǎn),可以將它們變成能加以利用的、規(guī)律性的模型,從而提升城市區(qū)域流量預(yù)測(cè)問(wèn)題的準(zhǔn)確度.但是由于使用傳統(tǒng)方法難以應(yīng)對(duì)不斷增長(zhǎng)的運(yùn)輸需求,導(dǎo)致出現(xiàn)交通運(yùn)輸問(wèn)題[8],亟須采用新的方法技術(shù)來(lái)解決問(wèn)題.與此同時(shí),交通運(yùn)輸系統(tǒng)中每天都在產(chǎn)生大規(guī)模的高質(zhì)量路線數(shù)據(jù)和交易信息,在數(shù)據(jù)化的當(dāng)今時(shí)代,這些信息是十分寶貴且具有研究?jī)r(jià)值的,且伴隨著計(jì)算機(jī)的數(shù)據(jù)處理能力與計(jì)算復(fù)雜度的提升,AI技術(shù)得到了進(jìn)一步發(fā)展,深度學(xué)習(xí)也將成為智能交通系統(tǒng)中諸多問(wèn)題的首選解決方案.
1 ?研究思路
1.1 ?分解地圖
在城市中,地圖數(shù)據(jù)連續(xù)且不斷變化,需要對(duì)其進(jìn)行分解.地圖的分解方法有2種:1) 基于網(wǎng)格分解,即基于經(jīng)緯度定義一個(gè)網(wǎng)格地圖,將其劃分為的網(wǎng)格地圖,如圖1所示,用(i,j)表示位于行列的區(qū)域;2) 基于路網(wǎng)分解,把車(chē)輛的GPS導(dǎo)航數(shù)據(jù)與城市路網(wǎng)數(shù)據(jù)進(jìn)行匹配綁定[9-11],與網(wǎng)格劃分法不同,該方法充分利用路網(wǎng)信息,并應(yīng)用經(jīng)典聚類法進(jìn)行算法后期的改善,較為復(fù)雜.故采用網(wǎng)格法把地圖數(shù)據(jù)分成500 m500 m的網(wǎng)格區(qū)域,總共有304(16×19)個(gè)區(qū)域,每個(gè)網(wǎng)格對(duì)應(yīng)一個(gè)位置信息.
1.2 流量數(shù)據(jù)
1.2.1 軌跡數(shù)據(jù)
本研究數(shù)據(jù)采自“滴滴蓋亞數(shù)據(jù)開(kāi)放計(jì)劃”2016年10—11月西安市二環(huán)局部區(qū)域的訂單司機(jī)軌跡數(shù)據(jù),軌跡點(diǎn)采樣間隔為2~4 s.每行數(shù)據(jù)包括:司機(jī)ID、訂單ID、時(shí)間戳、經(jīng)度和緯度,如圖2所示,所選區(qū)域?yàn)闁|經(jīng)108.92°~109.01°,北緯34.21°~34.28°.
1.2.2 輸入流和輸出流
每條數(shù)據(jù)都是一個(gè)經(jīng)度、緯度與時(shí)間戳的三元組序列,表示在時(shí)刻出租車(chē)的地理坐標(biāo).把同一組訂單定義為一條由個(gè)三元組坐標(biāo)序列組成的軌跡數(shù)據(jù),軌跡表示為一條按照時(shí)間順序排列的坐標(biāo)點(diǎn)序列:
1.3 區(qū)域流量統(tǒng)計(jì)
把1 d劃分為48個(gè)時(shí)區(qū),每30 min為1個(gè)時(shí)區(qū),編號(hào)為00~47,每30 min統(tǒng)計(jì)一次各個(gè)區(qū)域內(nèi)的出入流量,得到流量矩陣,維度為[2,16,19],其中,2指inflow和outflow,16和19分別表示是地圖被劃分為16行19列的區(qū)域.
2 ?模型分析
LSTM模型是RNN模型的變體[8],有效地解決了RNN的梯度消失和梯度爆炸的問(wèn)題,是經(jīng)典的時(shí)間序列預(yù)測(cè)模型之一.
DeepST-ResNet模型主要通過(guò)融合出租車(chē)軌跡數(shù)據(jù)中的時(shí)間與空間相關(guān)性,對(duì)城市流量進(jìn)行預(yù)測(cè).該模型的計(jì)算主體部分由卷積層和L個(gè)殘差單元組成.從整體來(lái)看,模型分別提取時(shí)間鄰近性(當(dāng)前時(shí)刻的前3個(gè)時(shí)間片)、周期性(當(dāng)前時(shí)刻前一天相同時(shí)刻的3個(gè)時(shí)間片)、趨勢(shì)性(當(dāng)前時(shí)刻前一周相同時(shí)刻的3個(gè)時(shí)間片)以及空間因素的影響,進(jìn)行建模,如表1所示.
對(duì)于空間因素而言,某個(gè)區(qū)域的出入流量受其他區(qū)域流量的影響,例如節(jié)假日人們常常會(huì)選擇跨區(qū)域出游.由于卷積核大小的限制,一個(gè)卷積層只能捕捉空間上的近鄰關(guān)系,設(shè)計(jì)多層堆疊卷積,用以捕獲任何區(qū)域的空間依賴[12],保證了模型的預(yù)測(cè)精度不會(huì)因?yàn)樯疃鹊脑黾佣档?
3 ?實(shí)驗(yàn)結(jié)果分析
采用滴滴出行的西安市數(shù)據(jù)集,驗(yàn)證各個(gè)模型對(duì)城市區(qū)域流量預(yù)測(cè)的結(jié)果.此外,模型評(píng)價(jià)指標(biāo)選用均方誤差(MSE)和均方根誤差(RMSE),計(jì)算方式分別為:
4 ?結(jié)論
本文作者對(duì)不同模型預(yù)測(cè)城市區(qū)域流量的能力進(jìn)行了對(duì)比實(shí)驗(yàn),在數(shù)據(jù)樣本量較少的情況下,LSTM模型能取得比DeepST-RseNet更好的預(yù)測(cè)結(jié)果.但由于LSTM模型的輸入特征較為單一,僅考慮了數(shù)據(jù)中的短時(shí)依賴,且并未描述區(qū)域空間的相關(guān)性特征,對(duì)數(shù)據(jù)預(yù)測(cè)的擬合度不如DeepST-RseNet模型.綜上所述,可以使用LSTM模型的長(zhǎng)短時(shí)記憶特性捕捉數(shù)據(jù)時(shí)間序列的依賴性,再疊加卷積層捕獲空間區(qū)域上的相關(guān)性特征,獲得更好的預(yù)測(cè)效果.在以后的研究中,可以嘗試對(duì)融合了多源數(shù)據(jù)的數(shù)據(jù)集進(jìn)行預(yù)測(cè),以便達(dá)到更精準(zhǔn)、更真實(shí)的預(yù)測(cè)效果.
參考文獻(xiàn):
[1] BILLY W,PRIYA D,DONALD D.Urban freeway traffic flow prediction:application of seasonal autoregressive integrated moving average and exponential smoothing models [J].Journal of the Transportation Research Board,1998,1644:132-141.
[2] HABTEMICHAEL F G,CETIN M.Short-term traffic flow rate forecasting based on identifying similar traffic patterns [J].Transportation Research Part C:Emerging Technologies,2016,66:61-78.
[3] WU X,GUO J F,XIAN K,et al.Hierarchical travel demand estimation using multiple data sources:a forward and backward propagation algorithmic framework on a layered computational graph [J].Transportation Research Part C:Emerging Technologies,2018,96:321-346.
[4] JIANG W,ZHANG L.Geospatial data to images:a deep-learning framework for traf?c forecasting [J].Tsinghua Science and Technology,2019,24 (1):52-64.
[5] LIU Y,LIU Z,JIA R.Deeppf:a deep learning based architecture for metro passenger flow prediction [J].Transportation Research Part C:Emerging Technologies,2019,101:18-34.
[6] RODRIGUES F,MARKOU I,PEREIRA F C.Combining time-series and textual data for taxi demand prediction in event areas:a deep learning approach [J].Information Fusion,2019,49:120-129.
[7] MARKOU I,KAISER K,PEREIRA F C.Predicting taxi demand hotspots using automated internet search queries [J].Transportation Research Part C:Emerging Technologies,2019,102:73-86.
[8] YANG S G,MA W,PI X D,et al.A deep learning approach to real-time parking occupancy prediction in transportation networks incorporating multiple spatio-temporal data sources [J].Transportation Research Part C:Emerging Technologies,2019,107:248-265.
[9] REN Y,CHENG T,ZHANG Y.Deep spatio-temporal residual neural networks for road-network-based data modeling [J].International Journal of Geographical Information Science,2019,33(9):1894-1912.
[10] YANG C,GID?FALVI G.Fast map matching,an algorithm integrating hidden Markov model with precomputation [J].International Journal of Geographical Information Science,2018,32(3):1-24.
[11] WU R Z,LUO G C,SHAO J M,et al.Location prediction on trajectory data:a review [J].Big Data Mining and Analytics,2018,1(2):108-127.
[12] ZHANG J B,ZHENG Y,QI D K,et al.Predicting citywide crowd flows using deep spatio-temporal residual networks [J].Artificial Intelligence,2018,259:147-166.
(責(zé)任編輯:包震宇)