鄭樂軍, 文成林
(杭州電子科技大學系統(tǒng)控制工程科學研究所, 杭州 310018)
城市交通控制系統(tǒng)的作用是對城市路網(wǎng)中的交通流進行合理控制,使其分時使用交叉路口,避免發(fā)生交通事故、緩和或防止交通擁塞并及時為車輛上的有關(guān)人員及行人提供交通狀況信息以增進交通安全性。為了實現(xiàn)這種控制,系統(tǒng)需要對實時交通狀況有即時的了解,同一種預測方法在不同時間段和地段交通流預測的精度存在差異,且同一組數(shù)據(jù)采用不同的預測方法得到的結(jié)果也是存在很大差異。根據(jù)城市交通存在的長期相關(guān)性,對交通信息進行可預測性分析,即借助各種定性、定量分析方法判斷交通系統(tǒng)處于確定性、混沌還是隨機性變化狀態(tài)[1],據(jù)此分析該交通系統(tǒng)未來趨勢進行短期預測的可能性程度,用以預測交通系統(tǒng)將來的變化趨勢。目前交通流分析研究主要是通過混沌理論的遞歸圖法、Kolmogorov熵、Lyapunov指數(shù)等進行混沌辨識[2-4],從而判定交通流是否具有可預測性。然而這些方法大多需要大量的樣本量,計算方法也還不夠成熟,不能進行可對比度量。
由于影響交通流量的隨機因素太多,非線性很強,傳統(tǒng)的理論依據(jù)存在很大的局限性,新理論和新技術(shù)的發(fā)展一直推動著交通預測的不斷發(fā)展,新方法有神經(jīng)網(wǎng)絡(luò)法[5-6]、分解模型法[7]、模糊數(shù)學法[8]、支持向量機[9]、優(yōu)選組合法[10-11]、濾波理論[12]、智能優(yōu)化算法[13-14]等。文獻[8]使用基于區(qū)間2型模糊集理論的交通流數(shù)據(jù)長期預測方案,以較高的精度顯示出交通流量變化的可能范圍,但是計算過于復雜。文獻[10]誘導有序加權(quán)平均(induced ordered weighted average,IOWA)算子應用到短時交通流預測中.建立了以整體預測誤差平方和最小為目標的組合預測模型。文獻[12]提出的卡爾曼濾波預測交通流具有模型參數(shù)少、計算相對簡便的特點,但難以反映交通流量預測過程中的非線性和不確定性;文獻[13]提出用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)克服收斂速度慢、推廣能力差等問題,這樣就會使整個種群進化搜索效率低。不滿足城市交通控制的實時性要求,限制了城市交通控制的效果,很難找到能夠準確表示交通流量特征的數(shù)學模型,因此只有具體分析某個地區(qū)的交通特性才能建立起交通規(guī)理方法。
神經(jīng)網(wǎng)絡(luò)在交通流預測得到廣泛的應用,以反向傳播(back propagation,BP)算法應用最廣,針對傳統(tǒng)BP學習解決了隱含層權(quán)值修正問題,而對于多峰值和不可微函數(shù)不可能有效地搜索到全局極小值,該方法具有對網(wǎng)絡(luò)參數(shù)的賦值隨機性和對初始值的敏感性,導致神經(jīng)網(wǎng)絡(luò)模型在工程應用中模擬結(jié)果不穩(wěn)定[15],并且不能在線學習,需要積累足夠的樣本后統(tǒng)一訓練,因此不能根據(jù)新樣本實時的調(diào)整網(wǎng)絡(luò)參數(shù)。本文首先闡明交通流的可預測性能分析方法斷定歷史序列具有長相關(guān)性,然后建立不同時間間隔下的最優(yōu)時序的變量,采用全局優(yōu)化方法——思維進化算法(mind evolutionary computation, MEC)消除神經(jīng)網(wǎng)絡(luò)初始參數(shù)對學習系統(tǒng)復雜性的影響,避免陷入局部極小值,同時構(gòu)建以神經(jīng)網(wǎng)絡(luò)為基學習器的集成學習算法,集成學習采用串行式聯(lián)級的自適應增強算法(adaptive boosting,Ababoost)組合成BP_Ababoost、MEC-BP_Adaboost模型,并且通過誤差平方和倒數(shù)準則重新優(yōu)化Adaboost算法對弱預測器權(quán)值分布,從而在某輸入狀態(tài)下具有更佳的擬合效果,有效地提供單一模型的泛化能力,從而更好達到交通流的一步或多步預測。
重標極差分析法(rescaled range analysis,R/S)用來分析時間序列的分形特征和長期記憶過程[16],Hurst指數(shù)用以度量趨勢的強度和噪聲的水平隨時間的變化指標。具有Hurst統(tǒng)計特性的系統(tǒng),它反映的是一長串相互聯(lián)系事件的結(jié)果,不依賴于通常概率統(tǒng)計學的獨立隨機事件假設(shè),這正是分析短時交通流所需要的理論和方法。
設(shè)定一個時間序列{x(t),t=1,2,…,M},計算步驟如下。
(1)將原始時間序列分割成為長度為n的[M/n]個等長子序列段,Ia表示第a個子序列段,第a個上的時間序列段表示為{x(i),i=1,2,…,n}。Ea表示第a個子序列段上的均值,可表示為
(1)
(2)子序列段Ia中元素對于均值的累積離差X(i,a)為
(2)
(3)子序列段Ia的極差(RIa)和樣本標準差(SIa)可表示為
(3)
(4)
(4)子序列段長度為n劃分的重標極差值(R/S)n,可表示為
(5)
根據(jù)赫斯特指數(shù)值的不同,可以將時間序列分為3種類型。
(1)0 (2)H=0.5,說明該序列是標準的隨機游走序列,即未來變化趨勢和過去趨勢的增量沒有關(guān)系。 (3)0.5 X(t)={x(t),x(t+τ),…,x[t+(m- 1)τ]}T,t=1,2,…,M (6) 式(6)中:X為m×M維矩陣,重構(gòu)后所得相空間的相點個數(shù)為M=N-(m-1)τ,M個相點在m維相空間中構(gòu)成一個相型,它表示交通流系統(tǒng)在某一瞬間的狀態(tài),按時間增長的順序?qū)⑵湎噙B,即可描述交通流系統(tǒng)在m維相空間中的演化軌跡,因此將原來的一維時間序列預測問題轉(zhuǎn)化成m維相點序列的預測。假設(shè)該地區(qū)交通流時間序列預測的相點{X(t),X(t-1),…,X(t-k)},k=1,2,…,t-1。已知當前時刻需要預測相點:p=1時稱為一步預測;p>1時稱為多步預測,預測模型可以表示為 {x[t+(m-1)τ+1],…,x[t+(m-1)τ+ p]}=F[X(t),X(t-1),…,X(t-k)] (7) 利用前饋神經(jīng)網(wǎng)絡(luò)的泛化逼近能力,實現(xiàn)交通流的一步或者多步預測。利用C-C方法計算嵌入維數(shù)和延遲時間,通過Wolf方法計算交通流的最大Lyapunov指數(shù)來判斷交通流的混沌特性。 思維進化算法是針對遺傳算法的缺陷和模仿人類思維進化過程的一種新型進化算法。其繼承了遺傳算法的部分思想,又引入了“趨同”和“異化”兩個新的操作算子。趨同和異化分別負責局部和全局尋優(yōu),兩算子一定獨立且相互協(xié)調(diào),任一操作的改進都可提高算法的整體搜索效率,且其定向?qū)W習與記憶機制,使其具有極強的全局優(yōu)化能力[18]。主要利用MEC優(yōu)化神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值,其形成的MEC-BP融合算法結(jié)構(gòu)如圖1所示。 圖1 MEC-BP融合算法結(jié)構(gòu)框圖Fig.1 Block diagram of MEC-BP fusion algorithm 自適應增強算法(adaptive enhancement algori-thm,Adaboost)是通過反復搜索樣本特征空間,獲取樣本權(quán)重,并在迭代過程中不斷調(diào)整訓練樣本的權(quán)重,增加(減小)預測精度低(高)的樣本的權(quán)重,并采用加權(quán)多數(shù)表決的方法組合形成一個強預測器,即加大(減小)預測誤差率較小(大)的弱預測器的權(quán)值,使得它在表決中起較大(小)作用[19],顯著提高學習算法的預測性能。神經(jīng)網(wǎng)絡(luò)集成模型即把BP神經(jīng)網(wǎng)絡(luò)作為弱預測器,反復訓練BP神經(jīng)網(wǎng)絡(luò)預測樣本輸出,通過Adaboost算法得到多個BP神經(jīng)網(wǎng)絡(luò)弱預測器組成強預測器。基于MEC優(yōu)化神經(jīng)網(wǎng)絡(luò)模型集成的結(jié)構(gòu)如圖2所示。 算法步驟如下。 步驟1數(shù)據(jù)獲取和網(wǎng)絡(luò)初始化。從樣本空間選取m組訓練樣本T={(Xi,yi)},賦予訓練樣本權(quán)重分布為w1i=1/m,i=1,2,…,m,依據(jù)樣本輸入和輸出維數(shù)確定網(wǎng)絡(luò)結(jié)構(gòu),神經(jīng)網(wǎng)絡(luò)初始權(quán)重和閾值由改進思維進化算法優(yōu)化獲得,D(1)表示獲得樣本的初始權(quán)重,K表示預測器的數(shù)量。 圖2 基于Adaboost算法的神經(jīng)網(wǎng)絡(luò)集成結(jié)構(gòu)圖Fig.2 Neural network integration structure diagrambased on Adaboost algorithm D(1)=(w11,w12,…,w1 m) (8) 步驟2進行迭代。 (1)訓練第k個弱預測器時,用弱預測器Hk(x)訓練樣本并預測訓練數(shù)據(jù)輸出回歸誤差率(ξk),計算訓練集上的樣本最大誤差(Ek)和每個樣本的相對誤差(ξki),計算公式為 Ek=max[|yi-Hk(Xi)] (9) (10) (11) (2)計算該弱預測器在最終預測器中所占的權(quán)重(ak),公式為 (12) (3)根據(jù)預測序列權(quán)重ak調(diào)整下一輪訓練樣本的權(quán)重為 D(k+1)=(wk+1,1,wk+1,2,…,wk+1,m) (13) (14) 步驟3訓練K輪后得到K組弱預測函數(shù)Hk(x),按弱預測器權(quán)重組合各個弱預測函數(shù)得到強預測器h(x)為 (15) 一般來說每種單項預測器的預測精度不同導致誤差存在,為了更好地求出各組弱預測器的加權(quán)值,通過Adaboost算法訓練MEC-BP神經(jīng)網(wǎng)絡(luò)得到K組弱預測器的弱預測函數(shù)Hk(x)之后,再次采用預測誤差平方和倒數(shù)準則進行每組弱預測函數(shù)的加權(quán)值求解,最終得到累加的強預測器h(x)=∑wkHk(xk,ak)。預測誤差平方和越大,表明該項預測模型的預測精度就越低,從而它在組合預測中重要性就降低,對預測誤差平方和較小的單項預測模型在組合預測中的應賦予較大加權(quán)系數(shù)。加權(quán)系數(shù)計算方法為 (16) 設(shè)yki為第k種弱預測器在第i時刻的預測值,yi為同一預測對象的第i時刻觀測值,eki為第k種預測器在第i時刻的預測值和觀測值的偏差,則Ek為第k種弱預測器的預測誤差平方和。 (17) 選取美國PeMS(portable emission measurement system)系統(tǒng)上的交通流數(shù)據(jù)進行交通流預測模型分析與預測。PeMS系統(tǒng)中的源數(shù)據(jù)有兩種:30 s的交通流量和車道占有率,它將30 s數(shù)據(jù)聚合生成5、15、60 min等數(shù)據(jù)集。①實驗數(shù)據(jù)集1:采集時間2011年5月2日—2011年5月5日連續(xù)4 個工作日的單個路段車流聚合,采用5 min統(tǒng)計尺度下記錄交通流數(shù)據(jù);②實驗數(shù)據(jù)集2:采樣時間為2011年6月1日—2011年6月5日(周三~周日)連續(xù) 5個日期的3 個路段車流聚合,觀測時間為每天連續(xù)24 h,采用5、10、15、20 min不同統(tǒng)計尺度下記錄交通流數(shù)據(jù),分別得到了1 440、720、480、360 個數(shù)據(jù)。數(shù)據(jù)集2交通流數(shù)據(jù)曲線如圖3所示。 圖3中曲線之間的相似性說明在不同尺度上,交通流變化存在自相似性,觀察時段5 min數(shù)據(jù)中交通流時間序列的變化趨勢,可以發(fā)現(xiàn)交通流數(shù)據(jù)呈現(xiàn)出明顯的準周期性趨勢。為識別交通流數(shù)據(jù)的自相似性,采用小波變換對交通流數(shù)據(jù)進行分解,如圖4所示交通流數(shù)據(jù)的小波分解系數(shù),小波系數(shù)指相似性指數(shù)(RI),RI越大自相似越大,由于出行需求的變化,工作日(前3 d)和周末(后2 d)的小波系數(shù)有所不同,說明交通流具有時段性,故可將交通流數(shù)據(jù)時段分為高峰時段、空閑時段和正常時段。實驗數(shù)據(jù)表明,交通流時間段可以分為:忙碌時段為07:30—09:30,14:30—18:30;空閑時段為00:00—05:00;其余為正常時段。 圖3 連續(xù)5 d不同統(tǒng)計尺度交通流時間序列Fig.3 Time series of traffic flow at different statistical scales for 5 consecutive days 圖4 5 min間隔的短期交通流小波變換實部時頻分布Fig.4 Real-time time-frequency distribution of short-time traffic flow wavelet transform at 5 min intervals R/S分析法求解Hurst值會受到樣本量的影響,為了對不同觀測尺度的數(shù)據(jù)進行進一步的跟蹤對比,以交通流的自然周期1 d為單位對交通流序列進行累加,最大限度地保留周期內(nèi)表征交通流序列的變化規(guī)律的信息計算,對數(shù)據(jù)集2交通流的分析如下。 (1)圖5為不同統(tǒng)計尺度不同天數(shù)的Hurst變化曲線,表明Hurst指數(shù)的值均位于區(qū)間[0.5, 1],表示交通流時間序列具有長期的記憶性質(zhì),表明交通流變化的整體方向?qū)⒗^承過去的整體趨勢,過去的增加(減少)趨勢預示未來的增加(減少)趨勢。圖5中每條曲線都隨著時間長度的增加而呈整體下降趨勢, 即Hurst指數(shù)隨樣本量的增加而降低,這表明在同一統(tǒng)計尺度范圍內(nèi),當時間序列達到一定的尺度后,再增加數(shù)據(jù),將破環(huán)原時間序列的自相似性;相同時間長度下Hurst指數(shù)隨時間統(tǒng)計尺度(σ)的增加而呈現(xiàn)下降趨勢,交通流序列具有短時有效性,隨著時間的增長,時間序列的長記憶性減弱。 (2)表1為3種不同時段對不同統(tǒng)計尺度相同天數(shù)(5 d)的Hurst指數(shù)的計算,結(jié)果表明,相同統(tǒng)計尺度交通流從空閑時段到忙碌時段的Hurst指數(shù)呈遞增趨勢,這是因為對相同時間尺度下,交通越忙自相似越強,交通的可預測性越強;同一時段不同尺度的Hurst指數(shù)呈遞減趨勢,預計隨著統(tǒng)計尺度的不斷增大,Hurst指數(shù)越接近0.5,交通流沒有分形特征,主要是因為過去與未來不同存在了相關(guān)性時間序列為完全獨立過程。 (3)如果時間序列是具有長程相關(guān)性的,時間之間的相互依賴性是很強的。圖6給出了在統(tǒng)計尺度10 min的交通流時間序列的lg(R/S)n和Vn關(guān)于lgn變化曲線,可看出原始序列出差持續(xù)上升并達到n=207時達到最大,然后急劇下降,所以可以斷定統(tǒng)計尺度10 min的交通流的平均循環(huán)周期為 207 min,也就是說該序列平均經(jīng)過207 min就失去了對初始條件的記憶;同時發(fā)現(xiàn)打亂序列后的Hurst指數(shù)(0.623 3)小于與原始序列的Hurst指數(shù)(0.703 1),這是由于數(shù)據(jù)經(jīng)打亂之后,破壞了原始序列的相關(guān)性結(jié)構(gòu),交通流時間序列的有序程度降低;打亂序列后發(fā)現(xiàn)是一條平坦的曲線,說明該序列變成獨立隨機過程不具備長程相關(guān)性。 表1 不同時段不同統(tǒng)計尺度相同天數(shù)的Hurst指數(shù) 圖5 不同統(tǒng)計尺度的Hurst指數(shù)曲線Fig.5 Hurst exponent graphs of different statistical scales 圖6 lg(R/S)n和Vn關(guān)于lgn變化曲線Fig.6 The change curve of lg(R/S)n and Vn about lgn (4)圖7為相同時間長度不同統(tǒng)計尺度下得到的Vn隨lgn的變化曲線,發(fā)現(xiàn)隨著統(tǒng)計尺度的減小則 所突變時間越長,即長記憶消失所需要的時間越長,但實際上這種長期的記憶性并非無窮長的,而是隨時間逐漸減弱直至忘卻,所以短時預測仍有可能。當τ為60 min時該Vn統(tǒng)計量曲線上升趨勢不明顯,Hurst指數(shù)越接近0.5,則序列中的噪聲越多,序列越接近隨機過程。 (5)為了定量描述交通流的復雜性,對基于分形、混沌和熵的交通復雜性進行分析,如表2所示,Hurst指數(shù)和樣本熵隨著統(tǒng)計尺度的增加而逐漸減小,發(fā)現(xiàn)5 min采樣的樣本熵最大,則時間序列就越復雜;最大Lyapunov指數(shù)始終為正數(shù),則該系統(tǒng)必定在某一矢量方向上的運動是不穩(wěn)定的,同時意味著這一方向上有混沌吸引子的出現(xiàn),是整個系統(tǒng)的運動處于混沌狀態(tài)。 圖7 相同時間長度不同統(tǒng)計尺度下得到的Vn隨lgn的變化曲線Fig.7 Variation curve of Vn with logn obtained under different statistical scales of the same time length (18) (19) 式中:n為交通流數(shù)據(jù)序列的長度;yt表示t時刻的預測值;dt表示t時刻的實際值;均方誤差(MSE)和平均絕對誤差(MAD)的指標越小,表明相應模型的結(jié)構(gòu)越合理。 在MATLAB仿真軟件對傳統(tǒng)BP、BP_Adaboost、MEC-BP方法和MEC-BP_Adaboost模型和改進MEC-BP_Adaboost模型(本文方法)進行訓練,并利用訓練好的模型對數(shù)據(jù)集1進行短時交通流單步預測,結(jié)果如表3、圖8和圖9。 表2 不同統(tǒng)計尺度下交通流特征復雜性分析 從表3、圖8、圖9可知,基于MEC-BP模型與傳統(tǒng)BP模型相比,均方誤差和平均絕對誤差分別下降29.8%和3.5%,證明MEC在優(yōu)化BP模型的初始參數(shù)方面的有效性;基于BP_Adaboost模型和傳統(tǒng)BP模型相比,均方誤差和平均絕對誤差分別下降56.3%和27.1%,證明Adaboost算法對神經(jīng)網(wǎng)絡(luò)的泛化能力有極大的提升,表明Adaboost 算法采用加權(quán)多數(shù)表決的方法,能有效提高模型的預測精度及避免模型“過擬合”現(xiàn)象的發(fā)生;基于本文方法與BP模型相比,均方誤差和平均絕對誤差分別下降78.2%和46.4%,證明本文方法對交通流預測具有合理性;基于本文模型和MEC-BP_Adaboost模型相比,均方誤差和平均絕對誤差分別下降44.9%和25.9%,證明了采用誤差平方和倒數(shù)準則對弱預測器的權(quán)值大小,使弱預測器預測精度更高,更有效地提高預測器的泛化能力。 表3 不同預測模型性能指標比較 圖8 不同模型下的短時交通流的預測值比較Fig.8 Comparison of predictions of short-term traffic flow under different models 為了更好地表現(xiàn)出每個弱預測器的預測效果,通過預測誤差平方和倒數(shù)方法進行每組弱預測函數(shù)的權(quán)值求解,使每個弱預測器的性能更好地表現(xiàn)出來,提高整個模型的決策性能,本文方法和MEC-BP_Adaboost模型的每個弱預測器權(quán)重比較如表4所示。同時針對時間段交通狀態(tài),R/S分析了每天不同時段的交通流存在相關(guān)性,但是不同時段可能有不定性因素存在,則交通流預測可能存在差異,如表5所示。 由表4實驗結(jié)果可以看出,根據(jù)10個MEC優(yōu)化神經(jīng)網(wǎng)絡(luò)的改進后的權(quán)值大小對比發(fā)現(xiàn),MEC-BP_Adaboost模型的第3、4、8的神經(jīng)網(wǎng)絡(luò)權(quán)值占比最大,說明這3 個神經(jīng)網(wǎng)絡(luò)對交通流預測效果更明顯,通過本文方法的改進之后,降低其他神經(jīng)網(wǎng)絡(luò)對模型的影響小的權(quán)重,加大了這3 個神經(jīng)網(wǎng)絡(luò)對整體模型影響的比重,充分利用該網(wǎng)絡(luò)提供的有價值的信息,將預測結(jié)果的精確度最大化,這是因為各弱預測器的權(quán)重得到不斷優(yōu)化,Adaboost算法的提升能力得到不斷增強,該模型有效的克服了時間序列突變帶來的預誤差,有較好的擬合真實的交通誤差。由表5展現(xiàn)出不同時段狀態(tài)下采用本文方法比之前的方法預測誤差更小,達到更精準預測效果,證明本文方法的有效性。 為進一步驗證模型的有效性和普適性,采用數(shù)據(jù)集2進行2、3、4、5 步預測,如表6所示,因此隨著預測步數(shù)的增加,本文方法的預測誤差普遍小于原方法,但隨著相同模型下,隨著步長的增加預測精度下降,因此交通流存在短期的預測能力。 圖9 不同模型的預測值與估計值誤差絕對值比較Fig.9 Comparison of the absolute value of the error between the predicted value and the estimated value of different models 表4 兩種模型中每個弱預測器的權(quán)重對比 表5 不同時間段預測的MSE值對比 表6 不同模型不同預測步長的MSE值對比 針對短時交通流量的不確定性、復雜性和高度非線性的基本特征,R/S分析法應用于短時交通流分析,能揭示微觀交通流運動的內(nèi)在規(guī)律,抑制隨機因素的影響,定量地揭示交通系統(tǒng)的動態(tài)學特性。該文采用思維進化算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的初始參數(shù)選取,提高神經(jīng)網(wǎng)絡(luò)的預測精度,將多個思維進化算法優(yōu)化后的網(wǎng)絡(luò)進行集成有效綜合決策,提高網(wǎng)絡(luò)的泛化性,該模型是研究非線性時間序列預測的一種嘗試,通過對交通流實例的短期預測,從而證實該模型具有實用性,可為類似的具有周期特性的時間序列提供一種新的預測方法。 在預測過程中僅對該城市交通流時間特性進行分析研究,并未對其他影響因素進行考慮分析,如天氣狀況、突發(fā)事件等,這將導致預測模型依賴原始數(shù)據(jù),而原始數(shù)據(jù)的可靠性將直接影響預測結(jié)果的準確度,即使是在同一地點不同時刻段內(nèi)的交通流也不可相互替換。根據(jù)表6可知,本文方法對數(shù)據(jù)量大的樣本預測效果不明顯,存在一定的局限性,利用過去的學習經(jīng)驗加速對于新任務的學習,機器學習各分支都已展開了對遷移學習的研究。在后續(xù)研究中需對其他影響因素做進一步量化分析,將其運用于交通流預測中,綜合考慮以平衡對數(shù)據(jù)的過依賴性。2 基于神經(jīng)網(wǎng)絡(luò)的短時交通流實時建模預測
2.1 交通流時間序列相空間重構(gòu)
2.2 MEC-BP融合算法
2.3 基于Adaboost算法的神經(jīng)網(wǎng)絡(luò)集成預測模型
3 實驗驗證
3.1 數(shù)據(jù)來源與分析
3.2 基于分析法對短時交通流可預測分析結(jié)果
3.3 模型預測分析
4 結(jié)論