聶 鈴,張 劍,胡茂政
上海工程技術(shù)大學(xué) 航空運(yùn)輸學(xué)院,上海 201620
隨著經(jīng)濟(jì)的快速發(fā)展和城市化的不斷推進(jìn),汽車保有量高速增長(zhǎng),道路交通擁堵成為焦點(diǎn)問(wèn)題。智能交通系統(tǒng)(intelligent transportation system,ITS)在實(shí)時(shí)交通信息基礎(chǔ)上,通過(guò)交通流誘導(dǎo)和控制,達(dá)到減少交通擁堵現(xiàn)象,節(jié)約出現(xiàn)時(shí)間的目的[1]。高效且準(zhǔn)確的道路交通預(yù)測(cè)系統(tǒng)是ITS的重要組成部分[2],如何確保短時(shí)交通流預(yù)測(cè)的效果成為了當(dāng)前交通流預(yù)測(cè)領(lǐng)域的難點(diǎn),同時(shí)也是交通研究方向的熱點(diǎn)之一。
近年來(lái),國(guó)內(nèi)外眾多學(xué)者在短時(shí)交通流預(yù)測(cè)的研究方向大多采用了智能算法組合優(yōu)化的方法。馬秋芳在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,引入優(yōu)化后的粒子群算法建立模型[3];Qian等人利用遺傳算法對(duì)神經(jīng)網(wǎng)絡(luò)的初始參數(shù)改進(jìn)后進(jìn)行交通流預(yù)測(cè)[4];Lu等人采用滾動(dòng)回歸ARIMA模型與長(zhǎng)短期記憶(long short-term memory,LSTM)模型結(jié)合進(jìn)行預(yù)測(cè)[5];楊剛等人利用優(yōu)化后的粒子群與最小二乘支持向量機(jī)結(jié)合進(jìn)行交通流預(yù)測(cè)[6]。這些研究表明了智能算法組合優(yōu)化進(jìn)行短時(shí)交通流預(yù)測(cè)效果較好,隨著對(duì)交通流時(shí)間序列特點(diǎn)的深入研究,時(shí)間序列分解方法在交通流研究領(lǐng)域廣泛應(yīng)用。殷禮勝等人提出交通流經(jīng)過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解后與改進(jìn)粒子群算法優(yōu)化LSSVM的組合預(yù)測(cè)算法[7];肖進(jìn)麗等人采用經(jīng)驗(yàn)?zāi)B(tài)分解結(jié)合差分進(jìn)化組合優(yōu)化BP神經(jīng)網(wǎng)絡(luò)進(jìn)行交通流預(yù)測(cè)[8];Tian等人經(jīng)過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解后,在極限學(xué)習(xí)機(jī)的基礎(chǔ)上,結(jié)合ARIMA算法,提出一種新的混合短時(shí)交通流預(yù)測(cè)模型[9]。雖然這些短時(shí)交通流預(yù)測(cè)模型預(yù)測(cè)效果得到了提高,但很少有針對(duì)分解后的各個(gè)交通流時(shí)間序列分量的特點(diǎn),建立與其適應(yīng)的組合預(yù)測(cè)模型,因此如何將時(shí)間序列分解方法與預(yù)測(cè)模型更好地結(jié)合成為了交通流預(yù)測(cè)的熱點(diǎn)研究法方向之一。
在此基礎(chǔ)上,本文提出了基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型。首先鑒于交通流的不確定性和非線性,采用CEEMDAN算法對(duì)交通流時(shí)間序列進(jìn)行分解;其次,利用PE算法對(duì)分解后的各個(gè)交通流時(shí)間序列分量分析的隨機(jī)特性,根據(jù)時(shí)間序列分量的不同隨機(jī)特性分為高頻序列分量、中頻序列分量和低頻序列分量,根據(jù)高頻、中頻和低頻序列分量的隨機(jī)特性分別建立GWO-BP模型、GWO-LSSVM模型和ARIMA模型進(jìn)行預(yù)測(cè);最后疊加各個(gè)高頻、中頻和低頻序列分量的預(yù)測(cè)結(jié)果,得到短時(shí)交通流最終預(yù)測(cè)值,并分析比較基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)結(jié)果與ARIMA模型、BP模型、LSSVM模型以及GWO-LSSVM模型的預(yù)測(cè)結(jié)果。
經(jīng)驗(yàn)?zāi)B(tài)分解法(EMD)方法是一種處理非平穩(wěn)信號(hào)的方法,根據(jù)波動(dòng)尺度將復(fù)雜的原始序列分解成不同賦值的IMF分量。但EMD方法在信號(hào)分解過(guò)程中會(huì)顯現(xiàn)模態(tài)混疊現(xiàn)象[10],為解決這一問(wèn)題,鑒于白噪聲均勻分布的特點(diǎn),Wu等人在分解過(guò)程中加入白噪聲,提出了集合經(jīng)驗(yàn)?zāi)B(tài)分解法(EEMD)[11],但分解后殘留的白噪聲導(dǎo)致EEMD方法分解具有較差的完整性。Torres等人提出了自適應(yīng)噪聲完全集合經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)[12],將自適應(yīng)高斯白噪聲添加至每一階段,有效地解決了模態(tài)混疊以及重構(gòu)序列中存在殘留噪聲的現(xiàn)象,具有較好的分解完備性。
排列熵(permutation entropy,PE)是一種度量時(shí)間序列復(fù)雜性的方法,可以表示時(shí)間序列的隨機(jī)性和突變性。PE算法計(jì)算簡(jiǎn)便且運(yùn)算效率高,同時(shí)針對(duì)非線性序列數(shù)據(jù)穩(wěn)定性高,具有較強(qiáng)的抗干擾特點(diǎn)。PE算法的基本原理如下:
首先對(duì)交通流時(shí)間序列{X(i),i=1,2,…,}n進(jìn)行相空間重構(gòu),進(jìn)而得到相空間矩陣Y為:
式中,m為嵌入維數(shù),τ為延遲時(shí)間,j=1,2,…,k。
對(duì)于重構(gòu)后的相空間矩陣Y,每一行向量都可以得到一組符號(hào)序列S(g)為:
式中,j1,j2,…,j m表示重構(gòu)向量各分量元素所在的列序號(hào),g=1,2,…,l且l≤m!。
計(jì)算每種符號(hào)序列S(g)出現(xiàn)的概率P g(g=1,2,…,l),根據(jù)Shannon熵的形式,將交通流時(shí)間序列X(i)的第l種符號(hào)序列的排列熵H p(m)定義為:
式中,0≤H p(m)≤lnm!,當(dāng)P j=1/m!時(shí),H p(m)達(dá)到最大值lnm!。
為了方便,將H p(m)進(jìn)行標(biāo)準(zhǔn)處理:
式中,0≤H pE(m)≤1,H pE(m)值的大小表示時(shí)間序列隨性程度。值越大則代表序列隨機(jī)程度越強(qiáng),反之,隨機(jī)程度越弱,呈現(xiàn)的規(guī)律越明顯。嵌入維數(shù)m和延遲時(shí)間τ對(duì)PE算法有著重要影響。
BP神經(jīng)網(wǎng)絡(luò)算法是一種前饋神經(jīng)網(wǎng)絡(luò),主要學(xué)習(xí)方式為利用梯度下降算法不斷迭代來(lái)優(yōu)化神經(jīng)元之間的權(quán)值和閾值[13]。雖然其非線性映射能力較強(qiáng),但隱含層神經(jīng)元的權(quán)值和閾值是隨機(jī)分配的,網(wǎng)絡(luò)結(jié)構(gòu)較大且包含大量可變參數(shù),結(jié)果容易陷入局部最優(yōu)解從而導(dǎo)致算法過(guò)早結(jié)束,并且收斂性較差。BP神經(jīng)網(wǎng)絡(luò)包括三個(gè)網(wǎng)絡(luò)結(jié)構(gòu):輸入層、隱含層和輸出層[14],輸入層X(jué)=[x1,x2,…,x N1],隱含層Y=[y1,y2,…,y N2],輸出層Z=[z1,z2,…,z N3],以全連接的方式連接各層之間。
SVM是應(yīng)用于時(shí)間序列預(yù)測(cè)研究的一種有效模型,最小二乘支持向量機(jī)(least-squares support vector machine,LSSVM)[15]是對(duì)SVM模型的改進(jìn)。LSSVM的損失函數(shù)為最小二乘線性系統(tǒng),為了減少了求解過(guò)程中的計(jì)算量,采用等式約束,改變了SVM中的不等式約束。與其他預(yù)測(cè)模型相比,最小二乘支持向量機(jī)模型可以改善過(guò)度學(xué)習(xí)和訓(xùn)練時(shí)間長(zhǎng)的缺點(diǎn),在解決非線性問(wèn)題時(shí)具有更好的精度和準(zhǔn)確度。LSSVM的優(yōu)化模型如下:
ARIMA模型是預(yù)測(cè)平穩(wěn)時(shí)間序列的最常用的線性回歸模型之一,由Ziegel、Box和Jenkins提出[16]。ARIMA模型雖然結(jié)構(gòu)簡(jiǎn)單以及計(jì)算簡(jiǎn)便,但適用波形較為穩(wěn)定的交通流數(shù)據(jù)[17]。ARMA模型通常用來(lái)分析時(shí)間序列,用ARMA(p,D,q)來(lái)表示該模型,其中p、D、q表示預(yù)測(cè)模型的結(jié)構(gòu)參數(shù),分別為自回歸AR(p)、差異度D和移動(dòng)平均MA(q)。當(dāng)時(shí)間序列表現(xiàn)為較穩(wěn)定時(shí),ARMA模型能很好地進(jìn)行原始數(shù)據(jù)擬合。然而,當(dāng)時(shí)間序列表現(xiàn)為不穩(wěn)定時(shí),則需要采用差分轉(zhuǎn)換過(guò)程將其轉(zhuǎn)換成穩(wěn)定的時(shí)間序列。ARIMA模型用于模擬差分時(shí)間序列,所以也適用于不平穩(wěn)序列,這個(gè)過(guò)程為ARIMA(p,d,q),用數(shù)學(xué)表達(dá)式表示為:
灰狼算法(grey wolf optimizer,GWO)是由Mirjalili等人在2014年提出的一種新群體智能算法[18],主要學(xué)習(xí)方式是模擬狼群在自然界中的種群層次結(jié)構(gòu)和捕食活動(dòng)。GWO算法相對(duì)于其他算法,具有較強(qiáng)的收斂性和穩(wěn)定性。GWO算法具有接近任何非線性函數(shù)的能力,且存在參數(shù)少、全局搜索能力強(qiáng)的優(yōu)勢(shì)[19]。同時(shí)GWO算法適應(yīng)性強(qiáng)且操作簡(jiǎn)便,易于實(shí)現(xiàn),同時(shí)與其他算法較容易結(jié)合,達(dá)到提高性能的效果。
GWO算法根據(jù)社會(huì)關(guān)系將整個(gè)狼群分為四個(gè)等級(jí),第一級(jí)為α狼,屬于頭狼,負(fù)責(zé)決策,決定捕食、棲息地和時(shí)間,其他狼都必須服從α狼的命令。第二級(jí)為β狼,屬于協(xié)助狼,服從并協(xié)助α狼。第三級(jí)為δ狼,服從α狼和β狼,同時(shí)控制狼群的剩余部分。第四級(jí)為ω狼,ω狼沒(méi)有自主決策控制能力,它必須服從狼群其他等級(jí)的狼。前三級(jí)狼有著較好的適應(yīng)能力,在α狼的引導(dǎo)下,有組織地對(duì)獵物進(jìn)行跟蹤,圍捕和攻擊。GWO算法實(shí)現(xiàn)步驟如下:
假設(shè)灰狼狼群的規(guī)模為N,搜索空間為D維,第i只狼灰狼的位置表示為Xi=[x1(1),x2(2),…,xi(i)],則狼群捕獵過(guò)程包括追蹤、狩獵和攻擊。灰狼在發(fā)現(xiàn)獵物后,逐漸靠近獵物并將其包圍,灰狼與獵物的距離是:
式中,t表示當(dāng)前迭代次數(shù),X(t)表示灰狼t次迭代后的位置矢量(即潛在解所在位置),Xp(t)表示獵物t次迭代后的位置矢量(即最優(yōu)解所在位置),系數(shù)向量A和C的計(jì)算公式為:
式中,r1和r2表示0到1之間的隨機(jī)數(shù),隨著迭代時(shí)間的增加,a從2減小到0。
根據(jù)α、β、δ這三種狼來(lái)估算獵物的位置,則其他狼的位置更新方法為:
鑒于短時(shí)交通流時(shí)間序列具有較強(qiáng)非線性和隨機(jī)性,使用單一的預(yù)測(cè)方法進(jìn)行交通流預(yù)測(cè)很難得到較好的預(yù)測(cè)效果。由于CEEMDAN分解具有良好的分解完備性,同時(shí)對(duì)原始交通流序列具有精準(zhǔn)分解的優(yōu)點(diǎn),本文采用CEEMDAN分解方法對(duì)短時(shí)交通流序列進(jìn)行分解得到多個(gè)分量,利用PE算法分析各個(gè)分量的隨機(jī)特性,將時(shí)間序列分量分為高頻、中頻、低頻分量。考慮到BP具備較強(qiáng)的非線性映射特征,采用BP算法對(duì)具有較強(qiáng)非線性和隨機(jī)性的高頻時(shí)間序列分量進(jìn)行交通流預(yù)測(cè),同時(shí)為了提高高頻序列分量預(yù)測(cè)效果,在BP算法的基礎(chǔ)上引入GWO算法優(yōu)化其權(quán)值和閾值,建立GWOBP預(yù)測(cè)模型;考慮到LSSVM對(duì)于非線性波動(dòng)數(shù)據(jù)具有較強(qiáng)的學(xué)習(xí)能力及較快的學(xué)習(xí)速度,因此采用LSSVM算法對(duì)具有一般非線性和隨機(jī)性的中頻時(shí)間序列分量進(jìn)行交通流預(yù)測(cè),同時(shí)為了提高中頻序列分量預(yù)測(cè)效果,在LSSVM算法的基礎(chǔ)上引入GWO算法優(yōu)化其正則化參數(shù)和核函數(shù)參數(shù),建立GWO-LSSVM預(yù)測(cè)模型;考慮到ARIMA對(duì)平穩(wěn)序列具有良好的預(yù)測(cè)性能,因此采用ARIMA算法對(duì)較平穩(wěn)的低頻時(shí)間序列分量進(jìn)行交通流預(yù)測(cè)。最后疊加各個(gè)高頻、中頻和低頻序列分量的預(yù)測(cè)結(jié)果,得到短時(shí)交通流最終預(yù)測(cè)值?;贑EEMDAN分解的多分量組合短時(shí)交通流預(yù)測(cè)模型流程圖如圖1所示。
圖1 基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型Fig.1 Short-term traffic flow combination prediction model based on CEEMDAN decomposition
基于CEEMDAN分解的交通流時(shí)間序列實(shí)現(xiàn)步驟如下:
(1)在原始交通流時(shí)間序列y(n)加入服從標(biāo)準(zhǔn)正態(tài)分布高斯白噪聲序列v i(n),信噪比為ε,經(jīng)過(guò)第i次分解的交通流時(shí)間序列為y i(n)。
(2)利用EMD方法分解交通流量數(shù)據(jù),獲得第1個(gè)模態(tài)分量取均值為IMF1(n)和第1個(gè)余量序列r1(n)。
(3)進(jìn)行EMD分解后的k階IMF分量交通流數(shù)據(jù)為E k(·),第2個(gè)模態(tài)分量為IM F2(n)和第2個(gè)剩余分量序列為r2(n)。
(4)第k個(gè)剩余分量序列為r k(n)和第k+1個(gè)IMF分量為IMF k+1(n)。
(5)重復(fù)以上步驟,直至余量不能分解,最終交通流時(shí)間序列被分解為y(n)。
GWO-BP算法的核心是將灰狼算法中種群位置信息設(shè)置為BP神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值,當(dāng)灰狼在追捕獵物過(guò)程中對(duì)獵物位置的判斷不斷更新自身的位置,不斷更新權(quán)值和閾值,最后找到最優(yōu)解。針對(duì)高頻序列分量的GWO-BP預(yù)測(cè)模型實(shí)現(xiàn)步驟如下:
(1)進(jìn)行BP神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建。確定模型隱含層節(jié)點(diǎn)數(shù)目,輸入和輸出的參數(shù),并對(duì)數(shù)據(jù)作預(yù)處理。
(2)GWO算法參數(shù)初始化。設(shè)定灰狼種群規(guī)模、種群搜索空間、位置信息維度、算法迭代的最大次數(shù)、灰狼狼群初始位置信息。
(3)確定適應(yīng)度函數(shù),對(duì)每個(gè)狼群個(gè)體進(jìn)行BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練,計(jì)算個(gè)體的適應(yīng)度,從中選取適應(yīng)度排名最高的3個(gè)灰狼,作為最優(yōu)解xα、次優(yōu)解xβ和第三優(yōu)解xδ。
(4)更新余下灰狼ω狼個(gè)體的位置,同時(shí)計(jì)算并更新a、A和C參數(shù)。
(5)判斷是否達(dá)到步驟(2)設(shè)定的算法迭代的最大次數(shù),若達(dá)到,則終止迭代,輸出最優(yōu)灰狼α狼的位置,若未達(dá)到,則重復(fù)(3)至(4),直到達(dá)到步驟(2)算法迭代的最大次數(shù)。
(6)將求得的最優(yōu)初始權(quán)值矩陣和閾值矩陣代入BP神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)GWO-BP模型的建立。
(7)將預(yù)處理后的數(shù)據(jù)輸入至建立好的GWO-BP模型,即可得到各個(gè)高頻序列分量預(yù)測(cè)結(jié)果,與真實(shí)值進(jìn)行對(duì)比,從而驗(yàn)證該模型的可靠性。
GWO-LSSVM算法的核心是灰狼位置信息設(shè)置為L(zhǎng)SSVM的正則化參數(shù)和高斯核函數(shù),通過(guò)灰狼不斷更新位置,更新正則化參數(shù)和高斯核函數(shù),找到最優(yōu)解。針對(duì)中頻序列分量的GWO-LSSVM預(yù)測(cè)模型實(shí)現(xiàn)步驟如下:
(1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)歸一化處理將交通流原始數(shù)據(jù)修改為(-1,1)區(qū)間,同時(shí)將交通流時(shí)間序列分量數(shù)據(jù)劃分訓(xùn)練集和測(cè)試集。
(2)GWO算法參數(shù)初始化。設(shè)定灰狼種群規(guī)模,種群搜索空間、位置信息維度、算法迭代的最大次數(shù)、灰狼狼群初始位置信息。
(3)確定適應(yīng)度函數(shù)。對(duì)每個(gè)狼群個(gè)體進(jìn)行LSSVM訓(xùn)練,計(jì)算個(gè)體的適應(yīng)度,由高到低排序,選取適應(yīng)度排名最高的3個(gè)灰狼作為α狼、β狼、δ狼。
(4)更新余下灰狼ω狼個(gè)體的位置,同時(shí)計(jì)算并更新a、A和C參數(shù)。
(5)判斷是否達(dá)到步驟(2)預(yù)先設(shè)置的迭代的最大次數(shù),若達(dá)到,則終止迭代,輸出最優(yōu)灰狼α狼的位置,若未達(dá)到,則重復(fù)(3)至(4),直到達(dá)到預(yù)先設(shè)置的迭代的最大次數(shù)。
(6)將經(jīng)過(guò)GWO算法獲得的正則化參數(shù)γ和核函數(shù)參數(shù)σ代入LSSVM模型,實(shí)現(xiàn)GWO-LSSVM模型的建立。
(7)將預(yù)處理后的數(shù)據(jù)輸入至建立好的GWO-BP模型,即可得到各個(gè)中頻序列分量預(yù)測(cè)結(jié)果,與真實(shí)值進(jìn)行對(duì)比,從而驗(yàn)證該模型的可靠性。
針對(duì)低頻序列分量的ARIMA預(yù)測(cè)模型實(shí)現(xiàn)如下:
(1)對(duì)低頻序列分量采用平穩(wěn)性檢驗(yàn)方法。首先觀察低頻序列分量的原始序列圖,對(duì)其進(jìn)行平穩(wěn)性驗(yàn)證,如果該低頻序列分量表現(xiàn)為不平穩(wěn)時(shí),則反復(fù)對(duì)其進(jìn)行差分處理,直至低頻序列分量表現(xiàn)平穩(wěn)為止,該過(guò)程所進(jìn)行的差分處理的次數(shù)即為ARIMA(p,d,q)中d的參數(shù)值。
(2)確定低頻序列分量預(yù)測(cè)模型的階數(shù)。通過(guò)觀察自相關(guān)圖以及偏自相關(guān)圖來(lái)確定ARIMA(p,d,q)中p和q的參數(shù)值,建立一個(gè)可行性模型。通過(guò)參數(shù)估計(jì)及診斷檢驗(yàn)過(guò)程中,從所有可行性模型中選擇合適的模型。根據(jù)AIC和BIC準(zhǔn)則選擇合適的ARIMA模型。
(3)對(duì)建立的低頻序列分量的預(yù)測(cè)模型診斷檢驗(yàn)。驗(yàn)證所建的模型是否適用于交通流時(shí)間序列,為了保證模型的殘差序列為白噪聲,對(duì)模型采用顯著性檢驗(yàn)方法,同時(shí)進(jìn)行假設(shè)檢驗(yàn)。
(4)根據(jù)以上步驟,將確定的預(yù)測(cè)模型導(dǎo)出,作為預(yù)測(cè)的訓(xùn)練模型。
在道路存在突發(fā)狀況、信號(hào)燈配時(shí)等眾多因素的影響下,道路交通流通常具有非線性和不確定性的特點(diǎn)。通過(guò)繪制一定時(shí)間內(nèi)采集的交通流時(shí)間序列曲線,可以發(fā)現(xiàn)交通流具有周期性的特征,工作日(周一至周五)的交通流變化規(guī)律尤其相似。為了驗(yàn)證基于CEEMDAN的組合預(yù)測(cè)模型進(jìn)行短時(shí)交通流預(yù)測(cè)的有效性,本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自于PeMS系統(tǒng)2018年6月4日—2018年6月8日5個(gè)工作日,5 min為采樣間隔的交通流數(shù)據(jù)。
首先對(duì)道路旁車輛檢測(cè)器采集的原始交通流數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)處理后可以得到1 440個(gè)交通流量數(shù)據(jù)點(diǎn)。為了建立交通流預(yù)測(cè)模型,利用歷史數(shù)據(jù)預(yù)測(cè)下一時(shí)刻的交通流。以預(yù)測(cè)點(diǎn)前2 h的交通流序列作為模型輸入,以預(yù)測(cè)的交通流序列作為模型輸出?;谏鲜鲆?guī)則,前四個(gè)工作日的1 152個(gè)交通數(shù)據(jù)點(diǎn)可以建立1 128個(gè)輸入輸出數(shù)據(jù)集,構(gòu)成模型的訓(xùn)練集,第五個(gè)工作日的交通流數(shù)據(jù)點(diǎn)建立288個(gè)輸入輸出集,構(gòu)成模型的測(cè)試集。交通流數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,比例為4。采樣間隔為5 min,連續(xù)5個(gè)工作日的交通流時(shí)間序列曲線如圖2。
圖2 5個(gè)工作日的交通流時(shí)間序列曲線Fig.2 Time series curve of traffic flow in 5 working days
通過(guò)MATLAB軟件,采用CEEMDAN算法對(duì)交通流時(shí)間序列進(jìn)行分解,在分解過(guò)程中分解過(guò)程中,加入500組白噪聲信號(hào),標(biāo)準(zhǔn)差為0.2。該算法的輸入數(shù)據(jù)是以5 min為時(shí)間間隔的交通流時(shí)間序列,輸出的是IMF分量?;贑EEMDAN分解的交通流各個(gè)序列如圖3所示。
圖3 基于CEEMDAN分解的各個(gè)序列Fig.3 Each sequence based on CEEMDAN decomposition
為了減少計(jì)算規(guī)模,對(duì)分解后的各個(gè)時(shí)間序列分量進(jìn)行隨機(jī)性分析,采用PE算法計(jì)算各個(gè)時(shí)間序列分量的排列熵,為了提高運(yùn)算效率,將嵌入維數(shù)設(shè)置為m=6,延遲時(shí)間設(shè)置為t=3,通過(guò)Matlab計(jì)算得到各個(gè)時(shí)間序列分量的排列熵值,如表1所示,各個(gè)分量的標(biāo)準(zhǔn)化排列熵值的分布,如圖4所示。根據(jù)分解結(jié)果和排列熵值,分析各個(gè)時(shí)間序列分量的隨機(jī)性。從圖4和表1可以看出,IMF1的排列熵值最大,RES的排列熵值最小,隨著分量序列數(shù)的增加,排列熵值減小,表明時(shí)間序列分量的隨機(jī)性逐漸減弱。IMF1~I(xiàn)MF3分量具有較大的隨機(jī)性,列為高頻序列分量;IMF4~I(xiàn)MF6分量的隨機(jī)性一般,列為中頻序列分量;而IMF7、IMF8和RES分量的隨機(jī)性較弱,列為地頻序列分量,為后續(xù)混合預(yù)測(cè)模型的構(gòu)建提供了依據(jù)。
圖4 各個(gè)時(shí)間序列分量的標(biāo)準(zhǔn)化排列熵值分布圖Fig.4 Distribution diagram of normalized permutation entropy of each time series component
表1 各個(gè)時(shí)間序列分量的排列熵值Table 1 Permutation entropy of each time series component
針對(duì)交通流的高頻、中頻和低頻序列分量的特點(diǎn)分別建立GWO-BP模型、GWO-LSSVM模型和ARIMA模型進(jìn)行預(yù)測(cè)。對(duì)于顯現(xiàn)較強(qiáng)非線性和隨機(jī)性的高頻序列分量IMF1~I(xiàn)MF3,采用GWO-BP模型進(jìn)行預(yù)測(cè);對(duì)于顯現(xiàn)一般非線性和隨機(jī)性的中頻序列分量IMF4~I(xiàn)MF6,采用GWO-LSSVM模型進(jìn)行預(yù)測(cè);對(duì)顯現(xiàn)較平穩(wěn)的低頻序列分量IMF7、IMF8和RES,采用ARIMA模型進(jìn)行預(yù)測(cè)。原始交通流時(shí)間序列基于CEEMDAN算法分解的9個(gè)分量預(yù)測(cè)結(jié)果如圖5所示。
圖5 各分量預(yù)測(cè)結(jié)果曲線Fig.5 Forecast result curve of each component
預(yù)測(cè)評(píng)價(jià)指標(biāo)是用來(lái)分析對(duì)比預(yù)測(cè)效果的,同時(shí)可以達(dá)到驗(yàn)證模型的預(yù)測(cè)有效性的目的。本文采用均方根誤差(RMSE)和平均百分比誤差(MAPE)評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型預(yù)測(cè)結(jié)果。均方根誤差(RMSE)評(píng)價(jià)是用來(lái)評(píng)價(jià)觀測(cè)值和真實(shí)值的偏離程度,為了反映預(yù)測(cè)結(jié)果的離散程度以及預(yù)測(cè)精度。平均百分比誤差(MAPE)是用來(lái)評(píng)價(jià)整體預(yù)測(cè)結(jié)果與真實(shí)值的偏離程度,為了反映模型預(yù)測(cè)結(jié)果的好壞。評(píng)價(jià)指標(biāo)公式如下:
其中,y(i)表示i時(shí)刻的實(shí)際交通流量數(shù)據(jù),y?(i)表示i時(shí)刻的預(yù)測(cè)交通流量數(shù)據(jù),n表示預(yù)測(cè)樣本數(shù)量。RMSE和MAPE值越小表示模型預(yù)測(cè)誤差越小,預(yù)測(cè)效果越好。
為了驗(yàn)證本文提出的預(yù)測(cè)模型的有效性,本文將基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)結(jié)果與采用ARIMA模型、BP模型、LSSVM模型及GWO-LSSVM模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如圖6所示。
圖6 各預(yù)測(cè)模型預(yù)測(cè)結(jié)果與實(shí)際值比較Fig.6 Comparison of predicted results of each prediction model with actual value
基于CEEMDAN分解的組合預(yù)測(cè)模型與其他預(yù)測(cè)模型性能對(duì)比如表2所示。
由表2的2個(gè)交通流預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo)分析出,相比于其他4個(gè)預(yù)測(cè)模型,本文提出的基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型與交通流的真實(shí)值的擬合度最好。從表2可以看出,由于交通流隨機(jī)程度較大,ARIMA模型通常適用于平穩(wěn)時(shí)間序列,因此采用ARIMA模型預(yù)測(cè)結(jié)果與交通流真實(shí)值的擬合程度最低。BP模型和LSSVM模型對(duì)交通流預(yù)測(cè)結(jié)果與真實(shí)值的擬合程度逐漸提高。與采用單一模型進(jìn)行預(yù)測(cè)相比,采用組合預(yù)測(cè)方法,GWO-LSSVM模型對(duì)交通流真實(shí)值擬合程度進(jìn)一步提升,但偏離程度仍然略高。本文提出的基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型,經(jīng)過(guò)CEEMDAN序列分解,針對(duì)隨機(jī)程度不同的時(shí)間序列分量建立不同的預(yù)測(cè)模型,其預(yù)測(cè)結(jié)果明顯優(yōu)于其他模型,預(yù)測(cè)誤差最小,均方根誤差RMSE為20.42,平均百分比誤差為5.8%。證明了所提出的組合預(yù)測(cè)模型有效地利用了ARIMA模型處理隨機(jī)性小的時(shí)間序列的優(yōu)點(diǎn),以及采用組合預(yù)測(cè)方法可以提高預(yù)測(cè)效果的特點(diǎn)。綜上所述,基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型能夠提升預(yù)測(cè)精度,具有良好的預(yù)測(cè)效果。
表2 預(yù)測(cè)模型性能對(duì)比Table 2 Performance comparison of prediction models
針對(duì)交通流數(shù)據(jù)具有非線性及隨機(jī)性的特點(diǎn),本文提出基于CEEMDAN分解的短時(shí)交通流組合預(yù)測(cè)模型。首先利用CEEMDAN算法對(duì)交通流原始時(shí)間序列進(jìn)行分解,其次,利用PE算法對(duì)分解后的各個(gè)交通流時(shí)間序列分量分析的隨機(jī)特性,根據(jù)時(shí)間序列分量的不同隨機(jī)特性分為高頻序列分量、中頻序列分量和低頻序列分量,根據(jù)高頻、中頻和低頻序列分量的隨機(jī)特性分別建立GWO-BP模型、GWO-LSSVM模型和ARIMA模型進(jìn)行預(yù)測(cè),疊加各個(gè)序列分量的預(yù)測(cè)結(jié)果,得到最終預(yù)測(cè)值。最后,通過(guò)采集的連續(xù)五個(gè)工作日的交通流進(jìn)行仿真驗(yàn)證,結(jié)果表明,本文提出的預(yù)測(cè)模型預(yù)測(cè)精度高于其他預(yù)測(cè)模型,在一定程度上提高了預(yù)測(cè)效果。但由于本文使用的交通流數(shù)據(jù)有限,且只考慮單一路段交通流預(yù)測(cè),并未考慮其他路段的影響,將空間位置關(guān)系的影響加入交通流預(yù)測(cè)是本文下一步的研究方向。