蘭添賀,曲大義,陳 昆,劉浩敏
(青島理工大學機械與汽車工程學院,山東青島 266520)
隨著智能交通及大數(shù)據(jù)技術(shù)的快速發(fā)展,運用智能化手段解決城市交通問題成為一種主流趨勢[1]。車載傳感器和路口監(jiān)控能夠?qū)崟r收集大量的交通流量數(shù)據(jù),通過提取并挖掘數(shù)據(jù)中的隱藏規(guī)律,可以為減緩交通壓力、優(yōu)化出行結(jié)構(gòu)和提升道路通行能力等提供幫助。因此,對交通流影響因素的深度分析,以及對交通流進行實時準確的預(yù)測,是目前城市交通領(lǐng)域研究的熱點。
為了提升交通流預(yù)測的準確度,國內(nèi)外研究人員提出了多種預(yù)測方法[2-10],相比于傳統(tǒng)的數(shù)學模型預(yù)測方法[11],這些方法雖在預(yù)測精度和效率上取得了很大進步,但僅考慮了單一因素,也缺少對影響交通流的各因素進行深度特征挖掘。隨著人工神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,依托深度學習算法進行交通流的特征挖掘和預(yù)測,成為全新的研究方向[12-16]。一些模型雖通過人工神經(jīng)網(wǎng)絡(luò)深度挖掘了交通流信息的時間特征,但卻忽略了外部天氣因素和空間因素的重要性。融合多源數(shù)據(jù)并結(jié)合多種算法雖能夠明顯提升交通流預(yù)測的準確度,但并沒有考慮城市道路交通自身擁有的特點[17-21]。城市道路的布局結(jié)構(gòu)與高速公路不同,市區(qū)城市道路具有密集路網(wǎng)和大量交叉口。一個路段的交通流量與其附近交叉口各個方向的交通流量密切相關(guān)。此外,城市道路的交通流量與人們的出行選擇有關(guān)。戶外天氣如溫度、風速和晴雨等對于人們的出行選擇均具有明顯影響。
本文在數(shù)據(jù)層面將根據(jù)市區(qū)城市道路的特點,收集目標路段附近交叉口各個方向的車流量,將目標路段的天氣數(shù)據(jù)作為影響因素,通過深度分析各類因素與目標路段交通流量的相關(guān)性,對天氣因素和附近交叉口各個方向的交通流量分模塊進行特征挖掘;在算法層面,考慮到數(shù)據(jù)本身具有周期性的規(guī)律,通過嵌入Time2vec提高模型對周期性數(shù)據(jù)的特征捕捉能力;仿照轉(zhuǎn)軸與齒輪的關(guān)系,將輸入數(shù)據(jù)與算法進一步結(jié)合,以Bi-GRU模型為基礎(chǔ),從正反2個方向?qū)r間序列信息進行特征挖掘;最后,將Attention機制與Bi-GRU相結(jié)合,提高模型的特征學習能力,建立一種融合多因素的“時間齒輪”交通流預(yù)測模型。將市區(qū)城市道路作為研究對象,與MLP模型、AIRMA模型、SVM模型、RNN模型、LSTM模型、GRU模型和Bi-GRU模型等多種現(xiàn)有模型進行對比,研究預(yù)測準確度和預(yù)測速度。
目標路段的研究數(shù)據(jù)源自山東省青島市即墨區(qū)城間公路。使用電子警察采集目標路段(north)及其最近一個交叉路口各方向的交通流量信息,采集時間跨度為8 d,采集周期為5 min。
對原始數(shù)據(jù)進行檢查和清洗。為了彌補缺失的值,采用附近2個數(shù)的平均值作為填補。設(shè)置有效數(shù)據(jù)區(qū)間,將超出的異常數(shù)據(jù)使用整體數(shù)據(jù)的平均值替代,每個方向包含2 304條交通流量數(shù)據(jù)。目標路段(north)及其最近一個交叉路口各方向的交通流量走勢如圖1所示。
圖1 交通流量走勢
城市道路中路段的交通流量與附近交叉口有緊密關(guān)系,通過路段中某一橫截面的車流量受到鄰近交叉口各個方向交通流量的影響。因此,采集目標路段最近的一個交叉口各方向的數(shù)據(jù)進行研究,可分析各個方向車流量之間的相互影響作用。如圖2所示,目標路段的方向為南向北,采用檢測器收集其余各個方向路段的交通流量信息,根據(jù)皮爾遜相關(guān)系數(shù)法,可分析各個方向交通流量之間的相關(guān)性。二維變量的皮爾遜相關(guān)系數(shù)如式(1)所示。
圖2 目標路段及最近交叉路口
(1)
圖3所示為各個方向交通流量之間的相關(guān)性熱力圖,通常情況下,該系數(shù)超過0.8被視為2個因素的相關(guān)性較強,處于0.5~0.8之間則被視為2個因素的相關(guān)性中等。目標路段為南向北(north)方向,可以看到其余方向的交通流量與north方向的相關(guān)性均在中等以上,平均相關(guān)系數(shù)為0.82,屬于強相關(guān)。上述結(jié)果表明,交叉口各個方向的交通流量對目標路段的交通流量具有顯著影響,因此考慮將各個方向的交通流量作為預(yù)測模型的輸入因素之一。交叉口相關(guān)因素部分的輸入變量為[f1+f2,f3+f4,f5+f6,f7+f8],預(yù)測模型的最終輸出為[f5+f6]。
圖3 4個方向交通流量之間的相關(guān)性熱力圖
人們的出行常會受到天氣因素的影響。青島氣候較為潮濕,且大風天氣居多,戶外出行通常會考慮溫度、風速和陰晴雨等。根據(jù)這一特點,本文采用從WunderGround平臺獲取的天氣數(shù)據(jù),數(shù)據(jù)類別包括風速、溫度、濕度、氣壓和陰晴雨,天氣數(shù)據(jù)樣本如表1所示。
表1 天氣因素數(shù)據(jù)樣本
為了體現(xiàn)天氣因素對交通出行的影響,本文提出一種更為深度的分析方法,采用K-means聚類算法[22]分析風速和溫度對交通出行的影響。K-means聚類方法可以把樣本點的特征矩陣區(qū)分為n個無交集的簇。首先,設(shè)定n個隨機的最初質(zhì)心,通過計算將樣本點聚合到位置最為接近的質(zhì)心,生成簇;其次,計算每個簇中樣本點的平均值,將結(jié)果作為修正質(zhì)心;最后,比較修正質(zhì)心和最初的質(zhì)心是否一致,如果不一致則再循環(huán)上述計算過程,如果一致則停止迭代完成聚類。聚類過程中需要計算的質(zhì)心距離使用歐式距離,本文使用的三維空間歐式距離公式如式(2)所示:
(2)
式中:xi,yi,zi為樣本點的三維特征值;xμ,yμ,zμ為最近質(zhì)心的三維特征值。
圖4所示為溫度、風速和交通流量的聚類結(jié)果,將聚類的類別設(shè)置為3。由圖4可知,圖中的樣本點大致分為3種情況。第1種情況,交通流量較少的綠色點集,多分布在風速高且氣溫低的區(qū)域;第2種情況,交通流量中等的紫色點集,相比第1種情況,分布在風速更為緩和且氣溫相對舒適的區(qū)域;第3種情況,交通流量較高的黃色點集,分布在溫度舒適且風速較低的區(qū)域。根據(jù)這3種情況可以明顯看出,人們會相應(yīng)減少低溫和大風天氣的出行,而更多傾向于在溫度適宜且風速溫和的天氣下出行。因此,天氣變化會明顯影響城市道路的車流量。
圖4 溫度、風速和交通流量的聚類結(jié)果
此外,分別計算晴天、陰天和雨天的交通流量平均值,如圖5所示,可以看出,晴天的交通流量平均值明顯要高于陰天和雨天??梢?,人們較多選擇晴天出行,減少雨天出行的幾率。
圖5 晴天、陰天和雨天的交通流量
綜合上述分析可知,為了提高交通流量預(yù)測的準確度,需引入更多相關(guān)因素作為影響因子。本文選擇將風速、溫度、濕度、氣壓和陰晴雨作為天氣因素的輸入值。
為了有效協(xié)調(diào)多種因素對預(yù)測模型結(jié)果的影響,延長交通流預(yù)測的時長,本文建立一種新型的“時間齒輪”預(yù)測模型(TGM)。模型內(nèi)部分為2個模塊,模塊1對天氣因素進行特征提取,模塊2對目標路段附近交叉口各方向的交通流量信息進行特征挖掘。最后,將2組模塊的輸出經(jīng)過張量拼接輸入到多層感知機(multiple perception,MLP)中再次挖掘數(shù)據(jù)的深層特征。
如圖6所示,TGM模型的模塊1對天氣數(shù)據(jù)進行特征提取。首先,對晴天、陰天和雨天進行熱編碼,對應(yīng)值為晴天—2,陰天—1,雨天—0;其次,為了減少不同數(shù)據(jù)數(shù)值范圍對預(yù)測結(jié)果影響的差異,對5種因素進行歸一化處理,將數(shù)據(jù)壓縮到0~1之間;最后,使用MLP對天氣因素進行特征挖掘,設(shè)置2組全連接層(Dense),單元數(shù)設(shè)置為128,激活函數(shù)設(shè)置為relu。
圖6 TGM模型的整體結(jié)構(gòu)
交叉路口4個方向的交通流量數(shù)據(jù)會隨著時間變化,而時間信息和各個方向的交通流信息明顯在不同的維度。為了更好地體現(xiàn)這種時空特征,本文仿照轉(zhuǎn)軸與齒輪的關(guān)系,將時間線抽象為齒輪的轉(zhuǎn)軸,4個方向的交通量數(shù)據(jù)則在齒輪的輪齒上。如圖6所示,每一個時間點xn均包含4個方向的交通流量數(shù)據(jù),并將4個方向的數(shù)據(jù)排布在輪齒上沿著時間轉(zhuǎn)軸傳遞信息。本文設(shè)置2組時間齒輪,根據(jù)正向和反向的時間線綜合提取交通流的時空特征。
如同齒輪的周期性運動,交通流數(shù)據(jù)也具有明顯的周期性。為了增強模型對時間序列數(shù)據(jù)的特征捕捉能力,使用一種基于Time2vec的時序數(shù)據(jù)表征學習方法[23]。在方法中添加一個正弦函數(shù),使模型能夠更容易地捕獲到交通流數(shù)據(jù)的隱藏周期變化規(guī)律。如圖6所示,將Time2vec嵌入到預(yù)測模型中。Time2vec的公式如式(3)所示:
(3)
式中:x為原始時間序列的特征;α和β分別為三角函數(shù)中可學習的頻率和相位;ε為第ε個特征;w為特征維度。
為了充分學習交通流數(shù)據(jù)的時間特征,對TGM模型的算法框架在Bi-GRU網(wǎng)絡(luò)的基礎(chǔ)上進行改進。與LSTM相比,GRU在確保一定精度的同時,還進一步簡化了內(nèi)部組成。GRU內(nèi)部組成如圖7所示。
圖7 GRU結(jié)構(gòu)
如圖8所示,Bi-GRU網(wǎng)絡(luò)將時序數(shù)據(jù)按照2個相反的方向分別送入到2組GRU中,再將2組輸出的結(jié)果進行融合,因此模型的輸出考慮到了未來數(shù)據(jù)信息對歷史數(shù)據(jù)信息的影響,這種結(jié)構(gòu)在大量學術(shù)研究中被證明具有更優(yōu)的模型性能[24]。本文使用多維時空數(shù)據(jù),Bi-GRU盡管具有優(yōu)越性能,但是在數(shù)據(jù)復(fù)雜的情況下,模型為了充分挖掘數(shù)據(jù)的特征會增加迭代次數(shù),變得難以擬合。因為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的學習過程通常會兼顧全局信息,模型需要對信息進行逐個分析,因而大大增加了模型的學習成本。可見,面對多維度且大量的數(shù)據(jù),如果重點分析其中的關(guān)鍵信息,并減少非關(guān)鍵信息的關(guān)注度,則可以降低模型的學習成本,使模型的計算過程變得簡單靈活。
圖8 Bi-GRU結(jié)構(gòu)
圖9 引入Attention機制的Encoder-Decoder結(jié)構(gòu)
綜上所述,為了提升Bi-GRU對多維數(shù)據(jù)的特征提取能力,將注意力機制分別加入到正向GRU和反向GRU中,同時對Attention機制進行改進,可提高特征權(quán)重對GRU最終信息提取結(jié)果的依賴性。加入改進Attention機制的Bi-GRU結(jié)構(gòu)如圖10所示。
圖10 結(jié)合改進Attention機制的Bi-GRU
如圖10所示,對Bi-GRU的正向和反向加入改進的Attention機制。在正向和反向的GRU中,輸入值xt經(jīng)過GRU信息深層挖掘,獲得相應(yīng)的信息提取結(jié)果,分別將正向GRU和反向GRU信息的最后一個結(jié)果ht和ht′單獨提取出來。然后,將每一個GRU單元的信息提取結(jié)果送入Dense層,按照輸入?yún)?shù)的維度標準化,將正向計算結(jié)果和反向計算結(jié)果分別設(shè)為[d1,d2,d3,…,dt]和[d1′,d2′,d3′,…,dt′]。為提升Attention機制計算權(quán)重值對GRU最終信息提取結(jié)果的依賴,將Dense層的計算結(jié)果和ht,ht′進行點乘,并使用激活函數(shù)softmax將計算結(jié)果轉(zhuǎn)換為衡量信息重要性的權(quán)重分數(shù),將正向和反向Attention機制計算的權(quán)重設(shè)為A和A′。計算過程如式(4)和式(5)所示:
A=softmax([d1,d2,d3,…,dt]·ht)=[α1,α2,α3,…,αt],
(4)
A′=softmax([d1′,d2′,d3′,…,dt′]·ht′)=[α1′,α2′,α3′,…,αt′]。
(5)
通過權(quán)重分配機制,提高模型對重點信息的關(guān)注度。將計算出的權(quán)重值和GRU每個單元信息提取值的對應(yīng)元素相乘并求和,正向和反向的計算過程如式(6)和式(7)所示:
(6)
(7)
考慮到GRU最終信息提取結(jié)果較為重要,將權(quán)重求和的結(jié)果和GRU最終信息提取結(jié)果合并,結(jié)合Attention機制的正向GRU輸出特征矩陣為Y1=[C,ht],結(jié)合Attention機制的反向GRU輸出特征矩陣為Y2=[C′,ht′]。通過上述計算過程,將改進的Attention機制加入到正向GRU和反向GRU中,最終的輸出結(jié)果為Y=[Y1,Y2],再添加MLP層進一步挖掘信息的深層次特征。
本文設(shè)置多個對比模型,預(yù)測未來5,15,25 min的交通流量。訓練集和驗證集的比例設(shè)置為7∶1,輸入步長為24(120 min),學習率為0.000 1,一次性的投放抓取次數(shù)設(shè)置為128。將MSE作為模型的損失函數(shù),使用Adam作為模型優(yōu)化器,輪數(shù)epoch設(shè)置為300,Time2vec的特征數(shù)設(shè)置為64,TGM模型中Bi-GRU2個方向的神經(jīng)元數(shù)均設(shè)置為64,激活函數(shù)使用tanh。
為了證明多因素預(yù)測模型及算法改進的優(yōu)越性,進行以TGM模型為基礎(chǔ)的消融實驗,具體的參照對象設(shè)置如下:
上述研究中,研究組潰瘍消失時間(37.20±11.52)d、癥狀緩解時間(14.13±5.26)d與幽門螺桿菌轉(zhuǎn)陰時間(23.08±2.49)d均低于對照組,研究組治療后經(jīng)胃鏡檢查結(jié)果痊愈率為88.33%,與對照組(68.33%)比較,組間比較,差異具有統(tǒng)計學意義(P<0.05),由此可見,在抗幽門螺桿菌的含鉍四聯(lián)療法上加用雙歧桿菌四聯(lián)活菌片治療消化性潰瘍的效果顯著。
TGM-Weather:在TGM模型的基礎(chǔ)上,去除天氣因素提取模塊;
TGM-Space:在TGM模型的基礎(chǔ)上,輸入值去除其余方向路段的交通流數(shù)據(jù);
TGM-Attention:在TGM模型的基礎(chǔ)上,去除Attention機制,算法框架使用Bi-GRU;
TGM-RNN:在TGM模型的基礎(chǔ)上,保留Attention機制,將Bi-GRU換成RNN。
上述參照模型以及TGM模型的預(yù)測結(jié)果如圖11所示。
圖11 預(yù)測結(jié)果對比
由圖11可以看到TGM模型的預(yù)測性能相比其他對照模型具有明顯提高。消融實驗表明,當模型分別加入了天氣因素、附近交叉口交通流量因素、Attention機制和Bi-GRU后,5,15,25 min的交通流預(yù)測準確度均有相應(yīng)提升。與不考慮交叉口和天氣因素的模型相比,TGM模型結(jié)合城市交通的特點,能夠更好地捕捉城市路段交通流量的特征。此外,在TGM-Attention模型和TGM-RNN模型中可以看到,Attention機制和Bi-GRU對預(yù)測結(jié)果具有明顯的影響。以上實驗證明了融合天氣因素和最近交叉口各方向路段交通流量信息,以及仿照轉(zhuǎn)軸與齒輪關(guān)系建立TGM模型進行交通流預(yù)測的合理性。
為了證明TGM模型具有更為準確的交通流預(yù)測能力,將MLP模型、AIRMA模型、SVM模型、RNN模型、LSTM模型、GRU模型和Bi-GRU模型設(shè)置為對比實驗?zāi)P?,所有對比模型的相關(guān)參數(shù)與TGM模型保持一致,并將模型的性能調(diào)至最佳狀態(tài)。對比實驗的預(yù)測結(jié)果見表2和表3。
表2 實驗結(jié)果:MAE對比
表3 實驗結(jié)果:RMSE對比
從表2和表3中可以看出,與其他模型相比,TGM模型具有更佳的預(yù)測效果。TGM模型預(yù)測5,15,25 min交通流的MAE值分別為5.21,5.73和6.24,RMSE值分別為7.22,8.29和8.79。當預(yù)測時間延長時,TGM模型在15 min和25 min實驗組的預(yù)測誤差MAE相比5 min實驗組分別增加了9.08%和16.51%,RMSE相比5 min實驗組分別增加了12.91%和17.86%。可見,TGM模型能夠在預(yù)測時間延長的同時保證誤差在合理范圍內(nèi),具有穩(wěn)定的中長時預(yù)測能力。
在15 min和25 min實驗組中,傳統(tǒng)機器學習算法的預(yù)測誤差增加幅度較大。相比5 min實驗組,MLP,AIRMA和SVM的15 min預(yù)測誤差MAE值分別增加了18.19%,18.23%和13.24%,25 min預(yù)測誤差MAE值分別增加了26.28%,25.30%和24.41%??梢?,傳統(tǒng)機器學習算法的中長時預(yù)測不穩(wěn)定。在15 min實驗組中,與RNN,LSTM,GRU和Bi-GRU相比,5 min實驗組的預(yù)測誤差MAE值分別增加了16.88%,14.35%,10.83%和10.62%。在25 min實驗組中,與RNN,LSTM,GRU和Bi-GRU相比,5 min實驗組的預(yù)測誤差MAE值分別增加了29.72%,27.28%,25.26%和18.24%。典型循環(huán)神經(jīng)網(wǎng)絡(luò)模型和Bi-GRU模型在中長時預(yù)測實驗中,其誤差增加幅度均比TGM模型大,說明TGM模型相比其他模型在中長時預(yù)測方面更加穩(wěn)定。此外,TGM模型預(yù)測15 min和25 min的誤差MAE值相比性能較優(yōu)的Bi-GRU模型分別降低了6.37%和6.73%,RMSE值分別降低了7.09%和7.99%。結(jié)果表明,TGM模型相比其他模型在預(yù)測準確度方面提升也明顯。
圖12所示為TGM模型預(yù)測值與實際交通流量的對比曲線圖。
圖12 TGM模型預(yù)測結(jié)果與實際值對比
由圖12可知,TGM模型很好地預(yù)測了實際交通流的變化趨勢,并且在多處曲線峰值處與實際值高度重合。此外,TGM模型在中長時交通流預(yù)測方面仍具有可觀的擬合效果,進一步驗證了TGM模型的優(yōu)越性。
1)提出了一種融合多因素的“時間齒輪”交通流預(yù)測模型,深度分析了天氣因素和鄰近交叉路口各方向交通流量對目標路段交通流量的影響,融合多因素對交通流進行預(yù)測。
2)提出的TGM模型分為2個模塊,模塊1使用MLP對天氣因素進行信息提取,模塊2仿照轉(zhuǎn)軸和齒輪結(jié)構(gòu),將時間線和交叉路口各方向交通流量抽象為轉(zhuǎn)軸與齒輪,參照齒輪的旋轉(zhuǎn)周期,嵌入Time2vec提升模型對數(shù)據(jù)周期性規(guī)律的學習能力,再將模塊1和模塊2的結(jié)果合并,添加MLP得到最終輸出的預(yù)測結(jié)果。消融實驗驗證了所提出的TGM模型在方法上具有合理性。
3)與MLP模型、AIRMA模型、SVM模型、RNN模型、LSTM模型、GRU模型和Bi-GRU模型對比可知,TGM模型具有更強的非線性擬合能力和更高的預(yù)測準確度。相比性能較優(yōu)的Bi-GRU模型,TGM模型在預(yù)測15,25 min交通流量的結(jié)果中,MAE值分別降低了6.37%和6.73%,RMSE值分別降低了7.09%和7.99%,可以滿足中長時預(yù)測精度的要求,為交通協(xié)調(diào)管理控制提供數(shù)據(jù)支撐。
4)本文提出的TGM預(yù)測模型僅針對城市公路,面對復(fù)雜多變的道路交通情況,其預(yù)測性能仍有提升空間。未來將考慮增加出行興趣地點和行車軌跡等因素,并區(qū)分私有車輛和公有車輛,進行更為深入的交通流預(yù)測研究。