李桃迎,王婷,張羽琪
(大連海事大學(xué),航運經(jīng)濟與管理學(xué)院,遼寧大連116026)
高速公路交通擁堵現(xiàn)象不僅給人們出行帶來極大不便,也制約了高速公路服務(wù)質(zhì)量的提升,影響區(qū)域經(jīng)濟和社會發(fā)展。雖然高德地圖、百度地圖等多款A(yù)PP都提供了實時交通狀態(tài)查詢,但并未提供未來12 h、24 h 甚至更長時間的交通流預(yù)測功能。提前一天或多天預(yù)知高速公路交通流,不僅可以輔助高速公路管理人員提前安排部署、合理誘導(dǎo)車輛分流、疏散,緩解高速公路擁堵現(xiàn)象,也可以為公眾出行提供參考。
高速公路交通流預(yù)測作為研究熱點在不同發(fā)展時期均取得較為豐碩的成果,研究趨勢從單一的參數(shù)模型過渡到非參數(shù)模型及混合模型。典型的參數(shù)模型有自回歸積分移動平均(Autoregressive Integrated Moving Average,ARIMA)模型和卡爾曼濾波器模型。如Williams 等[1]提出使用季節(jié)性ARIMA 模型對交通流進行預(yù)測以提高預(yù)測精度。相較于非參數(shù)模型,參數(shù)模型依賴于平穩(wěn)性假設(shè),不能反應(yīng)交通流的非線性和不確定性特征,因此,非參數(shù)模型成為交通流預(yù)測的有效方法。非參數(shù)模型包括支持向量機回歸(Support Vector Regression,SVR)模型、貝葉斯模型以及深度學(xué)習(xí)模型[2]等。其中,深度學(xué)習(xí)模型通過其強大的非線性擬合和深層特征表達能力可以更精準(zhǔn)地表達交通流數(shù)據(jù)內(nèi)部的復(fù)雜結(jié)構(gòu)。如Zhao 等[3]將長短期記憶(Long-Short Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)應(yīng)用于交通流預(yù)測以提高模型預(yù)測精度。Wu 等[4]提出將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)(Gated Recurrent Unit,GRU)結(jié)合,CNN捕獲路網(wǎng)交通數(shù)據(jù)的空間分布,GRU捕獲數(shù)據(jù)短期分布的變化及長期依賴。
LSTM 能夠處理具有長期依賴關(guān)系的時序數(shù)據(jù),而GRU是LSTM的變體,通過犧牲預(yù)測精度而減少計算量。LSTM和GRU的集成解決了多層LSTM計算量大的問題,同時又維持了模型的精確度。但LSTM和GRU只能提取交通流的動態(tài)時序特征,無法提取交通流數(shù)據(jù)的空間相關(guān)性,往往需要手工將空間信息編碼作為網(wǎng)絡(luò)輸入。為了更好地刻畫交通流的空間特征,一些學(xué)者又引入了CNN 進行空間建模,通過CNN 共享卷積核能夠處理高維數(shù)據(jù),并自動學(xué)習(xí)數(shù)據(jù)的空間特征,從而提高模型的預(yù)測精確度,但單一CNN 模型只能捕捉短期局部依賴關(guān)系。
由于高速公路交通流的變化不僅與歷史交通流存在長期的時間依賴關(guān)系,還與其上下游交通流的空間分布存在明顯相關(guān)性,且容易受天氣、路況等外界環(huán)境影響,為此,本文針對高速公路交通流的時空特性和外部因素影響,提出考慮多特征的高速公路交通流預(yù)測模型。該模型利用CNN自動提取交通流的空間特征,運用LSTM和GRU 提取數(shù)據(jù)的周期性和趨勢性特征,解決時序數(shù)據(jù)的長期依賴性問題。采用某高速公路交通流數(shù)據(jù)進行實驗,驗證本文模型的預(yù)測精度。結(jié)果表明,本文模型與4 種典型深度學(xué)習(xí)模型(LSTM、GRU、CNN-LSTM、CNN-GRU)相比具有更高的預(yù)測精度。
本文所提模型為一種集成深度學(xué)習(xí)模型(Hybrid Deep Learning,HDL),其框架如圖1所示,主要包括數(shù)據(jù)預(yù)處理、特征矩陣構(gòu)建、CNN和LSTM、GRU 這4 個方面。該模型首先針對高速公路交通流數(shù)據(jù)進行預(yù)處理,構(gòu)造包含時空和天氣的二維特征矩陣,隨后將構(gòu)造的二維特征矩陣經(jīng)過CNN提取交通流的空間特征,然后利用一層LSTM和一層GRU 提取交通流的時間特征,最后通過全連接層,得到最終輸出的結(jié)果。
圖1 集成深度學(xué)習(xí)模型的框架Fig.1 Framework of Hybrid deep learning model
高速公路交通流數(shù)據(jù)和天氣數(shù)據(jù)存在數(shù)據(jù)缺失的問題,為提高數(shù)據(jù)質(zhì)量需要考慮數(shù)據(jù)的預(yù)處理。線性插值是代數(shù)插值法中最簡單的形式,是處理非線性函數(shù)運用最多的方法,其以線性平滑的方式維系了數(shù)據(jù)趨勢的漸進性,適用于連續(xù)缺失長度小的數(shù)據(jù)集。鑒于此,本文選擇線性插值作為缺失值填充的方法。
其次,為保證預(yù)測結(jié)果的可靠性,對數(shù)據(jù)進行分析之前,先將數(shù)據(jù)進行歸一化處理,消除不同屬性之間的量綱。選用應(yīng)用最為廣泛的min-max 方法對原始數(shù)據(jù)進行線性變換,將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上。min-max方法的公式為
式中:xi為第i個原始數(shù)據(jù);為歸一化后的新數(shù)據(jù);xmin為最小值;xmax為最大值。
隨后,考慮到外界因素對交通流預(yù)測結(jié)果的影響,將數(shù)據(jù)中的屬性兩兩之間進行皮爾遜相關(guān)性分析,并根據(jù)相關(guān)系數(shù)大小選取相關(guān)特征。
另外,時間序列數(shù)據(jù)的序列長度可能影響預(yù)測精度,本文采用滑動窗口方法[5]確定序列長度,該方法為每一個時間序列t構(gòu)造一個樣本。[t0-Δt,t0)上的值作為特征,t0作為標(biāo)簽構(gòu)造樣本,Δt被稱為窗口大小。為了更直觀地介紹滑動窗口方法,圖2給出利用滑動窗口構(gòu)造時間樣本序列的例子。該例假設(shè)有10 條時間序列記錄,包括T1,T2,…,T9、T10。當(dāng)Δt=5 時,對于樣本1來說,T1,T2,…,T5作為特征,T6作為標(biāo)簽;對于樣本2 來說,T2,T3,…,T6作為特征,T7作為標(biāo)簽。以此類推,共得到5個樣本;當(dāng)Δt=6 時,T1,T2,…,T6作為特征,T7作為標(biāo)簽,以此類推,共得到4個樣本。
圖2 滑動窗口Fig.2 Sliding window
窗口大小會影響構(gòu)造樣本的數(shù)量和樣本中的特征數(shù)量??梢钥吹剑寒?dāng)給定一個數(shù)據(jù)集,窗口越小,單個時間序列涵蓋的時間越短,構(gòu)造的時間序列樣本越多;窗口越大,單個時間序列涵蓋的時間越長,構(gòu)造的時間序列樣本越少。因此,選擇一個合適的窗口大小對高速公路交通流預(yù)測至關(guān)重要。
由于當(dāng)前道路交通流的變化與該道路的歷史交通流,上下游的交通流以及天氣的變化相關(guān)。構(gòu)建一個包含時間、空間以及天氣信息的二維特征矩陣,即
式中:t時刻的交通流量數(shù)據(jù)為{xs1,t,xs2,t,…,xsm,t},其中,xsm,t為第m個目標(biāo)站口sm在t時刻的交通流量數(shù)據(jù);t時刻的天氣數(shù)據(jù)為{wq1,t,wq2,t,…,wqn,t},其中,wqn,t為第n個天氣屬性qn在t時刻的數(shù)據(jù)量;Δt為窗口大??;xsm,t-Δt為站口sm在當(dāng)前時間前Δt個時間統(tǒng)計單位的時刻交通流量數(shù)據(jù);wq1,t-Δt為天氣屬性q1在當(dāng)前時間前Δt個時間統(tǒng)計單位的時刻數(shù)據(jù)。
CNN 是一個多層監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),用來處理類似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),被廣泛應(yīng)用于圖像分類、語音識別、自然語言處理等領(lǐng)域,并獲得顯著成果。在處理時間序列型數(shù)據(jù)時,一維CNN 可以很好地識別出數(shù)據(jù)的簡單空間模式,并據(jù)此在更高級的層中生成更復(fù)雜的模式。CNN 主要由卷積層、池化層和全連接層構(gòu)成,3個級聯(lián)層描述為
式中:xl-1,i為卷積層的輸入;cl,j為卷積層的輸出,同時也是激活層的輸入;xl,j為激活層的輸出;wl,ij為第l層第j個單元和上一層第i個單元之間的權(quán)重;b為偏置項;φ(?)為非線性的激活函數(shù);pool(?)為池化函數(shù)。式(3)表示CNN網(wǎng)絡(luò)中的卷積運算。
高速公路交通流數(shù)據(jù)具有周期性、長時間變化的特性,在構(gòu)建特征矩陣之后,將特征矩陣輸入到一維的CNN中,以提取交通流數(shù)據(jù)的空間特征。
假設(shè)將一個樣本為504×7的矩陣輸入一維卷積,經(jīng)過64 個大小為2的濾波器后,輸出的特征維度為503×64,如圖3所示。
圖3 數(shù)據(jù)經(jīng)過一維卷積后的結(jié)果Fig.3 Results of data after 1-D convolution
運用CNN 提取數(shù)據(jù)空間特征后,需要提取高速公路交通流數(shù)據(jù)的時間特征。LSTM 是RNN的結(jié)構(gòu)變種,是解決長期依賴問題的有效技術(shù)。與傳統(tǒng)RNN的區(qū)別在于它在算法中加入了一個判斷信息有用與否的“處理器”,該處理器作用的結(jié)構(gòu)被稱為cell,具體涉及3 個門函數(shù):輸入門、遺忘門和輸出門,分別控制輸入值、記憶值和輸出值。當(dāng)一個信息輸入LSTM網(wǎng)絡(luò)時,網(wǎng)絡(luò)根據(jù)規(guī)則判斷該信息是否有用。只有符合算法認(rèn)證的信息才會留下,無用的信息則通過遺忘門被遺忘。
而GRU 相較LSTM 結(jié)構(gòu)更簡單,收斂速度更快。GRU同樣可以解決RNN網(wǎng)絡(luò)中的長期依賴問題,也是當(dāng)前非常流行的一種網(wǎng)絡(luò)。GRU 中引入兩個門函數(shù),如圖4所示。
圖4 GRU結(jié)構(gòu)圖Fig.4 Structure of GRU
式中:σ(?)為sigmiod激活函數(shù);Xt為當(dāng)前t時刻的輸入;Ht-1為上一時刻即t-1時刻的輸入;Wxr、Wxz和Whr、Whz分別為當(dāng)前時刻和上一時刻的權(quán)重參數(shù);br、bz、bn為偏置項;為候選的隱含狀態(tài);Ht為最終的隱含狀態(tài);⊙為哈達瑪積。重置門Rt有助于捕捉時序數(shù)據(jù)中短期的依賴關(guān)系,更新門Zt有助于捕捉時序數(shù)據(jù)中的長期依賴關(guān)系。且式(8)滿足
式(9)滿足
在CNN 提取空間特征之后,經(jīng)過扁平層和防止模型過擬合的Dropout 層,再經(jīng)過一層LSTM和一層GRU,提取交通流數(shù)據(jù)的時間特征,最后通過一層全連接層,得到預(yù)測結(jié)果。
本文所用數(shù)據(jù)集來自KDD CUP 2017 提供的某省某高速公路交通流數(shù)據(jù)和天氣數(shù)據(jù)。目標(biāo)區(qū)域路網(wǎng)拓撲如圖5所示。交通流數(shù)據(jù)來源于3個收費站(1、2、3號,除了2號收費站只允許車輛進入高速公路,其他收費站允許車輛雙向通行(入口:0,出口:1)),交通流數(shù)據(jù)的時間周期為2016年9月19日-10月17日,數(shù)據(jù)頻率為每隔20 min記錄一條,即1 d有72條數(shù)據(jù)記錄。收費站1號,入口(1-0)共有2084條記錄,出口(1-1)共有2084 條記錄;收費站2 號入口(2-0)共有1725 條記錄;收費站3 號,入口(3-0)共有2086 條記錄,出口(3-1)共有2085 條記錄。在該期間,收費站1 號入口、出口的交通流量數(shù)據(jù)各有缺失值4 個,收費站2 號入口的交通流量數(shù)據(jù)共有缺失值362個,收費站3號入口、出口的交通流量數(shù)據(jù)各有缺失值2 個、4 個。天氣數(shù)據(jù)的時間周期為2016年9月19日-10月17日,天氣數(shù)據(jù)包含氣壓、海水壓力、風(fēng)向、風(fēng)速、溫度、濕度、降雨量共7個特征,數(shù)據(jù)頻率為每隔3 h記錄一條,而一天中天氣指標(biāo)數(shù)據(jù)的值通常是連續(xù)變化的,故將天氣數(shù)據(jù)通過頻率線性填充為每隔20 min 一條記錄。以降雨量數(shù)據(jù)為例說明天氣數(shù)據(jù)的可靠性,圖6為降雨量與交通流量數(shù)據(jù)的關(guān)系,可以看出,當(dāng)降雨量累計超過15 mm時交通流才會有明顯變化,而累積降雨量隨著時間的推移呈連續(xù)上升趨勢,通過線性插值方法可以較好地擬合降雨量的累積過程[6],如圖7所示,將頻率間隔為3 h的降雨量平均分割成9段,即每隔20 min一個值,最終得到2088個值。
圖5 目標(biāo)區(qū)域路網(wǎng)拓撲Fig.5 Road network topology of target area
圖6 交通流量與降雨量Fig.6 Traffic flow and rainfall
圖7 降雨量的線性填充Fig.7 Linear filling of rainfall
圖8給出3個站口各個方向2016年9月19日-10月17日共29 d的交通流變化趨勢,可以看到,3個站口交通流變化有很強的相似性,即上、下游收費站的交通流變化具有明顯的空間相關(guān)性,并且從圖中可以看到,高速公路交通流變化有明顯的日周期性。圖9為氣壓、海水壓力、風(fēng)速、溫度、濕度、降雨量特征取值變化圖。
圖8 3個收費站口的交通流趨勢Fig.8 Traffic flow trend of three stations
圖9 特征可視化圖Fig.9 Distribution of multiple features
為更好地分析高速公路交通流的時間變化情況,圖10分別給出3 周(2016年9月19日-10月9日)、1周(2016年9月21日-9月27日)、1 d(2016年9月20日)的高速公路交通流的變化趨勢,可以看出,高速公路交通流具有明顯的日周期性、周周期性、趨勢性以及復(fù)雜性。圖10(a)包含國慶期間7 d的交通流數(shù)據(jù),可以看出,國慶期間與平日的交通流變化趨勢有明顯差異。
圖10 交通流變化趨勢Fig.10 Trend of traffic flow
為評估預(yù)測模型的性能,選擇平均絕對誤差(EMAE)、均方根誤差(ERMSE)兩個評價指標(biāo),即
式中:y=(y1,y2,…,yp)為觀測值;為預(yù)測值;p為交通流數(shù)據(jù)觀測點數(shù)量。
對高速公路收費站數(shù)據(jù)進行缺失值填充和歸一化后,分析不同屬性和交通流之間的皮爾遜相關(guān)系數(shù),以此判定各個屬性對交通流變化的影響。一般情況下,相關(guān)系數(shù)的絕對值越大,相關(guān)性越強;反之,相關(guān)系數(shù)越接近于0,相關(guān)性越弱。通常認(rèn)為:[0.8,1.0]為極強相關(guān),[0.6,0.8)為強相關(guān),[0.4,0.6)為中等程度相關(guān),[0.2,0.4)為弱相關(guān),[0.0,0.2)為極弱相關(guān)或無相關(guān)。
圖11給出站口1-0、2-0、3-0、1-1、3-1的交通流與7 個天氣屬性之間的皮爾遜相關(guān)系數(shù)。從圖中可以看出,3 個站口雙向交通流彼此之間的相關(guān)系數(shù)絕對值均大于0.6,說明這3個站口雙向的交通流之間具有強或極強的相關(guān)性,故本文在預(yù)測目標(biāo)站口交通流時,其他站口的交通流均考慮在內(nèi)。
圖11 屬性之間的皮爾遜相關(guān)系數(shù)圖Fig.11 Pearson correlation coefficient between attributes
氣壓與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關(guān)系數(shù)分別為:-0.150、0.001、-0.064、-0.013、-0.008,相關(guān)系數(shù)均小于0.2,說明氣壓與目標(biāo)站口交通流的相關(guān)性為極弱相關(guān)或無相關(guān),故預(yù)測目標(biāo)站口交通流時,不考慮氣壓對交通流變化的影響。同理,海水壓力、風(fēng)速、風(fēng)向、溫度與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關(guān)系數(shù)均小于0.2,說明這些因素與目標(biāo)站口交通流的相關(guān)性為極弱相關(guān)或無相關(guān),故預(yù)測目標(biāo)站口交通流時,不考慮這些因素對交通流變化的影響。
濕度與站口1-0、2-0、3-0、1-1、3-1 交通流之間的相關(guān)系數(shù)分別為-0.260、-0.20、0.210、0.20、0.190,降雨量與站口1-0、2-0、3-0、1-1、3-1交通流之間的相關(guān)系數(shù)分別為0.270、-0.250、0.210、0.220、0.200,說明濕度、降雨量與目標(biāo)站口交通流的相關(guān)性為弱相關(guān),為確保交通流預(yù)測的準(zhǔn)確性,預(yù)測目標(biāo)站口交通流時,將濕度、降雨量考慮在內(nèi)。最終本文同時考慮3 個站點雙向的交通流量、濕度、降雨量作為模型輸入分別預(yù)測1-0、2-0、3-0、1-1、3-1未來1 d的交通流量。
如1.1 節(jié)中分析,窗口較小無法保證模型有足夠的長期輸入,窗口較大則會增加不相關(guān)的輸入和計算復(fù)雜性。因此有必要確定一個最優(yōu)的窗口大小值,確保模型的預(yù)測性能。
2.1節(jié)分析得出高速公路交通流數(shù)據(jù)具有明顯日、周的周期性,為了讓樣本數(shù)據(jù)保持原本周期性特點,并選擇出合適的滑動窗口大小,將滑動窗口值Δt分別設(shè)為72(1 d)、144(2 d)、216(3 d)、288(4 d)、360(5 d)、432(6 d)、504(7 d)、576(8 d)進行比較并選擇。
表1為不同滑動窗口時,HDL模型預(yù)測誤差的比較結(jié)果。較低的平均絕對誤差和均方根誤差值表明,該模型預(yù)測值與觀測值的總離差較小。從表1中可以看出,當(dāng)Δt=504 時平均絕對誤差和均方根誤差均為最小,分別為5.530 輛·(20 min)-1、7.700輛·(20 min)-1。所以,將窗口大小設(shè)定為504,即將長度為504(7 d)的數(shù)據(jù)作為輸入,預(yù)測未來長度為72(1 d)的高速公路收費站交通流。
表1 窗口大小對誤差的影響Table 1 Influence of window size on error
網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置會對預(yù)測模型的性能產(chǎn)生很大影響,針對高速公路收費站交通流數(shù)據(jù),采用Hyperband 算法[7]對模型中濾波器個數(shù)(con_filter,cf)、卷積核數(shù)(con_kernel,ck)、池化層(maxpool)、LSTM 單元數(shù)(lstm_units,ls)、GRU 單元數(shù)(gru_units,gs)、學(xué)習(xí)率(learning rate,lr)、優(yōu)化器(optimizer)、Dropout(dp)8 個參數(shù)進行優(yōu)化,確定最佳參數(shù)組合。
經(jīng)過 128 次迭代,得到預(yù)測誤差(val_loss_score)從小到大的前10組超參數(shù)組合,如表2所示,在128次迭代產(chǎn)生的最優(yōu)值數(shù)據(jù)中,cf的搜索覆蓋范圍為2~256,步長為8;ck的搜索覆蓋范圍為2~8,步長為1;maxpool的搜索覆蓋范圍為2~8,步長為2;ls的搜索覆蓋范圍為2~256,步長為8;gs的搜索覆蓋范圍為2~256,步長為8;lr的值在[0.1,0.01,0.001,0.2,0.02,0.002,…,0.5,0.05,0.005]中選??;optimizer 在[Adam、SGD、RMSprop]中選取;dp的搜索覆蓋范圍為0.1~1.0,步長為0.1。本文選擇誤差最小的第1組參數(shù)組合。
表2 前10組超參數(shù)組合Table 2 Top-10 super parameter set
考慮到工作日和節(jié)假日的高速公路交通流變化有明顯的差異,分別訓(xùn)練和預(yù)測工作日和節(jié)假日(國慶假期)的交通流,同時為驗證HDL 模型的性能,將其與4種典型的深度學(xué)習(xí)模型(LSTM、GRU、CNN-LSTM[8]、CNN-GRU[9])進行對比分析,并針對工作日、十一假期做了兩組對比實驗。其中,工作日交通流預(yù)測實驗中,考慮到交通流數(shù)據(jù)的周期性,將2016年9月30日-10月7日交通流數(shù)據(jù)剔除,3 個站口各個方向均得到936 條訓(xùn)練數(shù)據(jù),576條測試數(shù)據(jù);十一國慶假日交通流預(yù)測實驗中,3個站口各個方向均得到864 條訓(xùn)練數(shù)據(jù),567 條測試數(shù)據(jù)。
2.4.1 工作日交通流預(yù)測結(jié)果
圖12為考慮空間、時間、天氣特征的HDL模型和4種典型深度學(xué)習(xí)模型對3個收費站口各個方向(1-0、2-0、3-0、1-1、3-1)的交通流預(yù)測結(jié)果(以2016年10月12日為例)。從圖12中可以看出,本文所提HDL模型的預(yù)測值與期望值吻合度均為最高。
圖12 5種模型對3個站口各個方向交通流預(yù)測結(jié)果Fig.12 Prediction results of traffic flow in all directions of three stations by five models
表3為HDL模型對3個站口各個方向在8 d工作日(2016年10月10日-17日)的交通流預(yù)測誤差。
表3 HDL模型對8 d工作日的預(yù)測誤差Table 3 Prediction error of HDL model for eight working days
為評估模型穩(wěn)定性,表4給出5種模型對8 d工作日(2016年10月10日-17日)的平均預(yù)測誤差。
由表4可知,預(yù)測工作日交通流時,本文所提HDL模型的MAE和RMSE在3個站口各個方向上的平均預(yù)測誤差值均為最低,表明本文模型在多次實驗后預(yù)測誤差仍最小,且集成模型比單一模型的預(yù)測精度高。HDL 模型在3 個站口各個方向的MAE平均值為5.450輛·(20 min)-1。
表4 5種模型對8 d工作日的平均預(yù)測誤差Table 4 Average prediction error of five models for eight working days
2.4.2 十一國慶假日交通流預(yù)測結(jié)果
表5為考慮空間、時間、天氣特征的HDL 模型對3 個站口各個方向在十一國慶假日7 d(2016年10月1日-7日)的交通流預(yù)測誤差。
表5 HDL模型對十一國慶假日7 d的預(yù)測誤差Table 5 Prediction error of HDL model for seven days during National Day
為評估模型的穩(wěn)定性,表6給出5 種模型對十一國慶假日7 d(2016年10月1日-7日)的平均預(yù)測誤差。
由表6可知,預(yù)測高峰期(十一國慶期間)交通流時,本文所提HDL 模型的MAE和RMSE 在3 個站口各個方向上的平均預(yù)測誤差值均為最低,同樣表明本文模型在多次實驗后預(yù)測誤差仍最小,且集成模型比單一模型的預(yù)測精度高。
表6 5種模型對十一國慶假日7 d的平均預(yù)測誤差Table 6 Average prediction error of five models for seven days during the National Day
為驗證天氣等外部因素對當(dāng)前道路交通流變化的影響,給出4 種典型深度學(xué)習(xí)模型在結(jié)合時間、空間及天氣因素下(MF),在3 個站口各個方向上對8 d工作日(2016年10月10日-17日)和十一國慶假日7 d(2016年10月1日-7日)的平均預(yù)測誤差,如表7和表8所示。
表7 加入外部因素后工作日期間5種模型的預(yù)測誤差比較Table 7 Comparison of prediction errors among five models of working days after adding external factors
表8 加入外部因素后十一國慶期間5種模型的預(yù)測誤差比較Table 8 Comparison of prediction errors among five models of during the National Day after adding external factors
通過表4和表7、表6和表8的對比發(fā)現(xiàn):考慮天氣等外部因素后,集成模型的預(yù)測精度都有所提高,但總體來說本文所提HDL 模型的預(yù)測精度仍高于其他模型。預(yù)測工作日交通流時,CNNLSTM 模型、CNN-GRU 模型的預(yù)測精度最大分別提高3 輛·(20 min)-1、6 輛·(20 min)-1。預(yù)測十一國慶期間交通流時,CNN-LSTM 模型、CNN-GRU模型的預(yù)測精度最大分別提高1 輛·(20 min)-1、5 輛·(20 min)-1??紤]多因素后,單一模型LSTM和GRU的預(yù)測精度下降,原因是單一模型無法捕捉多個特征的信息。
因此,無論是在工作日還是高峰期,集成模型的預(yù)測誤差都要小于單一模型,且本文所提HDL模型對高速公路交通流的預(yù)測精度明顯優(yōu)于其他4種典型深度學(xué)習(xí)模型。由于國慶假期數(shù)據(jù)量遠少于工作日的數(shù)據(jù),且國慶假期交通流變化的不可控因素更多、波動較大,故國慶假期交通流的預(yù)測精度低于工作日。
為充分體現(xiàn)本文交通流預(yù)測效果,表9給出近兩年有關(guān)交通流預(yù)測結(jié)果的對比情況。
表9 現(xiàn)有文獻對交通流的預(yù)測結(jié)果Table 9 Prediction results of traffic flow in existing literature
文獻[8-9]考慮了交通流的時空因素,但未考慮天氣等因素對交通流變化的影響;文獻[10-11]只考慮了交通流的時間特征,未考慮空間及天氣等因素對交通流變化的影響,故其預(yù)測精度都低于本文HDL 模型。再次說明,考慮多種因素可以提升高速公路交通流預(yù)測精度。
精準(zhǔn)地預(yù)測高速公路交通流,不僅可以為高速公路管理人員提供決策輔助,還可以為公眾出行路線選取提供參考,便于車輛分流,進而緩解高速公路交通擁堵狀況。為更準(zhǔn)確地預(yù)測高速公路交通流,本文提出一種集成深度學(xué)習(xí)模型,該模型考慮高速公路交通流數(shù)據(jù)的周期性和趨勢性特點,發(fā)揮了CNN 對空間特征提取,LSTM和GRU 對長期依賴性特征提取的優(yōu)勢來實現(xiàn)預(yù)測過程,并采用某省某高速公路2016年9月19日-10月17日的數(shù)據(jù)進行模型驗證。首先,為因勢利導(dǎo),將交通流數(shù)據(jù)分成工作日和十一國慶假期兩部分分別進行訓(xùn)練和預(yù)測,利用滑動窗口方法,以數(shù)據(jù)的周期性特點確定了最佳窗口大小為7 d;其次,構(gòu)建包含時間、空間和天氣的特征矩陣作為模型的輸入;再次,利用訓(xùn)練數(shù)據(jù)對HDL模型進行訓(xùn)練;然后,利用測試數(shù)據(jù)對訓(xùn)練好的模型進行測試同時評估該模型;最后,將本文所提HDL 模型和CNN、LSTM、CNNLSTM、CNN-GRU這4種典型的深度學(xué)習(xí)模型進行對比分析,同時將本文預(yù)測結(jié)果與近兩年有關(guān)交通流預(yù)測文獻進行對比。結(jié)果表明:集成深度學(xué)習(xí)模型對交通流的預(yù)測結(jié)果要優(yōu)于單一深度學(xué)習(xí)模型;本文提出的HDL 模型,由于綜合考慮了時空及天氣因素,其交通流的預(yù)測精度明顯高于其他模型,同時也體現(xiàn)出天氣對交通流有很大影響,是預(yù)測交通流不可忽略的因素。
在未來的研究中,我們將探討更多可能影響交通流預(yù)測性能的因素,例如探討車輛的行駛速度、腹地城市人口與經(jīng)濟情況等因素,以期進一步提升高速公路交通流的預(yù)測精度。