王紅霞,宇文曉碩
(沈陽理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽 110159)
交通流預(yù)測是智能交通網(wǎng)絡(luò)管理系統(tǒng)的重要組成部分[1],其研究方法經(jīng)歷了多個不同的發(fā)展階段。最初是基于線性理論的方法,如典型的差分整合移動平均自回歸(Autoregressive Integrated Moving Average,ARIMA)模型,將當(dāng)前的交通流數(shù)據(jù)與歷史數(shù)據(jù)建立關(guān)系,從而達(dá)到預(yù)測的目的,但其無法捕獲到交通流的突變。還有學(xué)者提出了以機(jī)器學(xué)習(xí)為理論依據(jù)的預(yù)測方法,如K最近鄰算法、貝葉斯推理方法和支持向量機(jī)(Support Vector Machine,SVM)算法等,這些模型雖然可以擬合較為復(fù)雜的交通流特征,但其對非線性特征(如交通流的周期性)的捕獲能力有限。近年來,深度神經(jīng)網(wǎng)絡(luò)模型成為交通流預(yù)測的主要研究方法,研究人員使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNNs)來對交通流數(shù)據(jù)的時間依賴性特征進(jìn)行提取。文獻(xiàn)[2]首次將長短期記憶(Long-Short Term Memory,LSTM)網(wǎng)絡(luò)用于交通預(yù)測,有效解決了傳統(tǒng)RNNs在處理時間序列長期依賴中的梯度消失和梯度爆炸的問題,提高了交通速度預(yù)測的準(zhǔn)確度,但該模型只使用了一層LSTM網(wǎng)絡(luò),仍有很大的優(yōu)化空間。文獻(xiàn)[3]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的交通預(yù)測方法,利用二維時空矩陣將時空交通狀態(tài)轉(zhuǎn)化為描述交通流時空關(guān)系的圖像,結(jié)果表明,在可接受的執(zhí)行時間內(nèi),該方法的平均精度比其他算法提高了42.91%。然而CNNs對于處理交通路網(wǎng)這樣的非歐幾里得空間拓?fù)浣Y(jié)構(gòu)的數(shù)據(jù)存在局限性。研究人員又使用新興的圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional Neural Networks,GCNs)來處理非歐幾里得空間數(shù)據(jù),其能夠更好地提取到交通流數(shù)據(jù)的空間特征,如文獻(xiàn)[4]提出的時間圖卷積網(wǎng)絡(luò)(Temporal Graph Convolutional Network,T-GCN)模型。然而,交通流預(yù)測不僅依賴于歷史交通流信息和路網(wǎng)的空間關(guān)系,還會受到天氣條件等多種外部因素的影響。現(xiàn)有研究方法大多是以交通流數(shù)據(jù)的時空特征為主要研究對象,只有少部分考慮到了外部因素,而這部分研究方法也大多是將外部因素通過全連接層直接融入到預(yù)測模型中,沒有很好地捕獲其特征。
綜上所述,本文提出一種多因素融合的圖卷積交通流預(yù)測模型(Multi Factor Integration-GCN,MFI-GCN),該模型先將交通流的時間特征和外部因素的天氣屬性融合,再與交通流的空間特征一起輸入到模型中,不僅考慮到交通流數(shù)據(jù)的時空特征,還全面地捕獲到天氣因素對于交通流的影響,從而提高預(yù)測模型的準(zhǔn)確率。
在城市交通路網(wǎng)中,一定時間內(nèi)通過某路段浮動車的數(shù)量,稱為該路段的交通流,表達(dá)式為
f=N/T
(1)
式中:f為交通流;N為采樣時間間隔內(nèi)路段通過的浮動車數(shù)量;T為采樣時間長度。式(1)反映了路段上的實際交通路況,當(dāng)T在5~15min時,稱f為短時交通流。
交通流是一種典型的時空數(shù)據(jù)[5],具有以下顯著特征。
(1)空間相關(guān)性:城市路網(wǎng)的拓?fù)浣Y(jié)構(gòu)在空間上有密切關(guān)系,所以任意一條路段的交通流都會影響其相鄰路段的交通流。
(2)時間相關(guān)性:交通流會隨時間變化表現(xiàn)出鄰近性和周期性。鄰近性指未來時間間隔內(nèi)的交通流會受到歷史時間交通流的影響;周期性指在一定時間間隔內(nèi),交通流具有相似的變化規(guī)律。
(3)不確定性:交通流會受到自然因素和人為因素的影響,可能出現(xiàn)大規(guī)模擁堵或稀疏車流。其中,天氣對交通流有較大的影響,如雨雪天氣會影響居民的出行規(guī)律,從而導(dǎo)致交通流的變化。
GCNs是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以有效處理非歐幾里得空間數(shù)據(jù),在圖像分類、文檔分類、無監(jiān)督學(xué)習(xí)等領(lǐng)域取得了很大進(jìn)展[6]。GCNs的卷積方式分為基于譜域和基于空間域兩種,本文采用前者?;谧V域的圖卷積可以定義為信號s與濾波器gθ(L)的乘積,在傅里葉域中表達(dá)為
gθ(L)·s=Ugθ(UTs)
(2)
GCNs在給定鄰接矩陣A和特征矩陣X的情況下,可以通過計算圖中各節(jié)點的一階或多階鄰域來進(jìn)行頻譜卷積運算,從而捕獲圖結(jié)構(gòu)數(shù)據(jù)的空間特征。此外,可以將分層傳播規(guī)則應(yīng)用于多個網(wǎng)絡(luò)的疊加,則多層GCNs模型可表達(dá)為
(3)
一般雙層GCNs模型可表達(dá)為
(4)
GCNs可通過確定中心路段與周邊路段的拓?fù)潢P(guān)系,將整個路網(wǎng)的拓?fù)浣Y(jié)構(gòu)和各路段屬性進(jìn)行編碼,在此基礎(chǔ)上來捕獲空間的依賴性,模型架構(gòu)圖如圖1所示。本文通過使用GCNs模型來提取交通流數(shù)據(jù)的空間特征。
圖1 GCNs模型架構(gòu)圖
對交通流的預(yù)測,時間依賴性是其面臨的另一個關(guān)鍵性問題。RNNs是處理順序結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型,其變體模型門控循環(huán)單元(Gated Recurrent Units,GRUs)不僅可以解決梯度消失和爆炸的缺點,而且還具有結(jié)構(gòu)簡單、參數(shù)較少、訓(xùn)練能力快的優(yōu)點,是當(dāng)前十分流行的RNNs模型[7-8],其模型架構(gòu)如圖2所示。
圖2 GRUs模型架構(gòu)圖
GRUs模型的計算過程可表達(dá)為
ut=σ(Wu·[Xt,ht-1]+bu)
(5)
rt=σ(Wr·[Xt,ht-1]+br)
(6)
ct=tanh(Wc·[Xt,(rt·ht-1)]+bc)
(7)
ht=ut·ht-1+(1-ut)·ct
(8)
式中:ht-1為t-1時刻的隱藏狀態(tài);xt為當(dāng)前時刻t的交通流;rt為復(fù)位門,用于將之前的交通狀態(tài)ht-1與當(dāng)前時刻t的交通流信息相結(jié)合,從而得到隱藏狀態(tài)ct,如果rt輸出0,則忽略前一時刻的交通流信息,如果rt輸出1,則將前一時刻的交通流信息完全帶入下一時刻;ut為更新門,用來確定要丟棄多少前一時刻的交通狀態(tài)ht-1,以及要合并隱藏狀態(tài)ct的哪些交通流信息,進(jìn)而得到最終的隱藏交通狀態(tài)ht,并將ht作為輸出;Wu、Wr、Wc分別為權(quán)值矩陣;bu、br、bc分別為偏置矩陣;σ(·)和tanh(·)分別為非線性激活函數(shù)。
GRUs以前一個時刻的隱藏狀態(tài)和當(dāng)前時刻的交通信息作為輸入,確定當(dāng)前時刻的交通狀態(tài);在捕捉當(dāng)前交通信息時,由于門控機(jī)制,保留了歷史交通信息的變化趨勢,因此,該模型能夠從交通流數(shù)據(jù)中捕捉到動態(tài)的時間變化特征。所以,本文采用GRUs模型來提取交通流數(shù)據(jù)的時間特征。
為有效地解決交通擁堵問題,本文同時考慮交通流數(shù)據(jù)的時空特征和外部天氣因素,提出MFI-GCN模型,其框架如圖3所示。
圖3主要分為三個部分,分別是數(shù)據(jù)預(yù)處理、時空建模和預(yù)測。數(shù)據(jù)預(yù)處理部分一方面基于原始數(shù)據(jù)集計算并得到路網(wǎng)拓?fù)浣Y(jié)構(gòu)G、交通流特征矩陣X和天氣屬性矩陣K;另一方面將交通流特征矩陣X和天氣屬性矩陣K按時間序列進(jìn)行合并,得到融合矩陣E。時空建模部分將路網(wǎng)拓?fù)浣Y(jié)構(gòu)G和融合矩陣E作為輸入,先用GCNs模型提取交通流數(shù)據(jù)的空間特征,再用GRUs模型提取交通流數(shù)據(jù)的時間特征,最后將空間和時間特征作為輸出。預(yù)測部分采用歷史交通流信息來預(yù)測未來時間段內(nèi)的交通流,并將預(yù)測結(jié)果輸出。
圖3 短時交通流預(yù)測模型架構(gòu)圖
對MFI-GCN模型中各參數(shù)的定義為
定義1:路網(wǎng)G。用一個無權(quán)圖G=(V,E)來描述城市路網(wǎng)的拓?fù)浣Y(jié)構(gòu),將每一條路作為一個節(jié)點,其中V={v1,v2,…,vN}為路網(wǎng)中各路段節(jié)點的集合;N為當(dāng)前路網(wǎng)中節(jié)點的總個數(shù);E={e1,e2,…,eM}為任意兩個路段是否連通的邊的集合,M為邊的個數(shù)。在一般情況下,將整個路網(wǎng)的連通度信息存儲在鄰接矩陣A∈RN×N中,其中行、列按路段標(biāo)號索引,每一個元素的值表示相應(yīng)路段間的連通度,且鄰接矩陣只包含0和1的元素,1表示相應(yīng)路段連通,0表示相應(yīng)路段不連通。
綜上所述,交通預(yù)測建模的時空相關(guān)性可以通過學(xué)習(xí)路網(wǎng)的基本拓?fù)浣Y(jié)構(gòu)G、特征矩陣X和屬性矩陣K的函數(shù)f來理解,未來L時刻的交通流計算方式為
[Xt+1,…,Xt+L]=f(G,X|K;(Xt-n,…,Xt))
(9)
式中:n為歷史時間序列的長度;L為需要預(yù)測的時間序列的長度。
(1)本文使用的軌跡數(shù)據(jù)集來自滴滴出行“蓋亞”數(shù)據(jù)開放計劃[9]。該數(shù)據(jù)集為2016年10月西安市二環(huán)局部區(qū)域軌跡數(shù)據(jù),軌跡點的采集間隔為2~4s;數(shù)據(jù)集包含國慶節(jié)假日數(shù)據(jù),體現(xiàn)了數(shù)據(jù)的多樣性,有利于更好地泛化。
(2)天氣數(shù)據(jù)集包含研究區(qū)域?qū)?yīng)時間的天氣情況,該數(shù)據(jù)集將天氣屬性分為五類:晴、陰天、小雨、中雨和大雨,將其進(jìn)行數(shù)據(jù)預(yù)處理,構(gòu)造為屬性矩陣。
實驗通過使用大數(shù)據(jù)開源組件Hadoop和Hive對原始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,選取34條主要路段,采用鄰接矩陣對其連通性進(jìn)行建模;并按15min為時間間隔計算選定路段的交通流時間序列并形成特征矩陣,其中行按路段索引,列按時間間隔段索引。在模型階段,使用Pytorch實現(xiàn)模型的構(gòu)造。實驗環(huán)境如表1所示。
表1 實驗環(huán)境配置詳情表
為評估本文所提模型的預(yù)測性能,使用以下指標(biāo)來評估預(yù)測結(jié)果[10]。
(1)均方根誤差(RMSE)
(10)
(2)平均絕對誤差(MAE)
(11)
MAE描述的是預(yù)測結(jié)果和真實值間的絕對差之和的平均值,用于預(yù)測誤差的評估,其值越小表示模型性能越好。
(3)準(zhǔn)確率(Accuracy)
(12)
式中‖·‖F(xiàn)表示Frobenius范數(shù),該值越接近1,模型的性能越好。
4.4.1 數(shù)據(jù)特征分析
交通流數(shù)據(jù)具有空間相關(guān)性、時間相關(guān)性和不確定性的顯著特征,以下是對其特征的驗證實驗及其可視化結(jié)果。
空間相關(guān)性:圖4為10月4日上午9點到中午12點間第28號路段及其相鄰路段的交通流變化趨勢圖。從圖4中可以看出,作為主干道路的28號路段(較粗)極易受到其相鄰路段17、22、23、32和33(較細(xì))的影響,影響方式主要分為直行和左右轉(zhuǎn)彎。如10:15左右,28號路段的上游32和33號路段的交通流變化較??;而其下游存在17號路段的直行、22號路段的左轉(zhuǎn)和23號路段的右轉(zhuǎn)情況,且這三條下游路段的交通流明顯增大,所以導(dǎo)致28號路段的交通流出現(xiàn)突變減小的情況;隨后17號路段的車流匯入28號路段,使其交通流快速增大并逐漸趨于平穩(wěn),其他時刻路段突變情況的原因類似。所以交通流在路網(wǎng)拓?fù)涞目臻g結(jié)構(gòu)上存在相關(guān)性。
圖4 交通流空間相關(guān)性示意圖
時間相關(guān)性:圖5為10月3日到9日上午6點到上午9點第28號路段一周的交通流變化圖。從圖5中可以看出,對于每一天的交通流都會出現(xiàn)一段時間的早高峰;從一周的時間來看,基本上每一天的交通流都有相似的變化趨勢,且在周末時會達(dá)到一個最高峰,說明節(jié)假日對交通流有一定影響。所以交通流在時間序列上存在相關(guān)性。
圖5 交通流時間相關(guān)性示意圖
不確定性:圖6為10月27日到29日上午6點到晚上18點第28號路段的交通流變化圖,其中,27日為中雨,28日和29日分別為陰天和晴天。從圖6中可以看出,因為天氣因素,27日該路段的交通流總體上明顯低于其他日期。所以天氣因素的不確定性對交通流的影響較大。
圖6 交通流受天氣影響示意圖
4.4.2 實驗結(jié)果分析
為驗證MFI-GCN模型在交通流預(yù)測中的有效性,將其與GRUs模型、GCNs模型和T-GCN模型的評價指標(biāo)進(jìn)行對比,結(jié)果如表2所示。
表2 評價指標(biāo)對比實驗結(jié)果表
由表2可以看出,從時空角度看,與只關(guān)注時空關(guān)系中一方面的GRUs和GCNs相比,同時考慮二者的T-GCN模型的RMSE分別降低了約19.17%和26.62%,其他評價指標(biāo)也有顯著提高;考慮外部天氣因素的MFI-GCN模型與只考慮時空特征的T-GCN模型相比,RMSE和MAE分別降低了2.67%和4.28%,準(zhǔn)確度提高了1.46%。對比結(jié)果驗證了本文所提MFI-GCN模型的有效性。
提出了一種多因素融合的圖卷積預(yù)測模型,并成功地應(yīng)用于交通流預(yù)測。該模型同時考慮了交通流的時空特征和天氣因素,在由滴滴出行“蓋亞”數(shù)據(jù)開放計劃提供的公開數(shù)據(jù)集上評估了該模型的性能,并將其與GRUs、GCNs和T-GCN三個模型進(jìn)行了比較,實驗結(jié)果表明,該模型的性能優(yōu)于其他模型。