朱才華,孫曉黎,李培坤,張景辰,李巖
(1.長(zhǎng)安大學(xué) 運(yùn)輸工程學(xué)院,陜西 西安 710064;2.西安交通工程學(xué)院 土木工程學(xué)院,陜西 西安 710300;3.北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044)
掌握城市軌道交通系統(tǒng)的特征,并基于此進(jìn)行短期客流預(yù)測(cè)是城市軌道交通管理人員做出合理運(yùn)營(yíng)管理和控制決策的基礎(chǔ)[1]。由于軌道交通客流的波動(dòng)性和復(fù)雜性,導(dǎo)致原始客流數(shù)據(jù)受到外部環(huán)境干擾,客流存在較大的隨機(jī)性,容易凸顯某些隨機(jī)波動(dòng)[2]。同時(shí),軌道交通車站建筑特征和周邊用地性質(zhì)的多樣性,僅依靠全局預(yù)測(cè),很難把握車站的特有特征。因此,掌握軌道車站自身特征和降低外部環(huán)境對(duì)客流數(shù)據(jù)干擾程度對(duì)提高軌道交通短時(shí)客流預(yù)測(cè)精度具有重要作用。短時(shí)客流預(yù)測(cè)主要服務(wù)于動(dòng)態(tài)調(diào)度和及時(shí)信息服務(wù),要求迅速準(zhǔn)確地預(yù)測(cè)出可能出現(xiàn)的情況[3]。根據(jù)預(yù)測(cè)模型原理可分為線性預(yù)測(cè)模型和非線性預(yù)測(cè)模型[4]。已有的短時(shí)預(yù)測(cè)方法主要有時(shí)間序列法、支持向量機(jī)、卡爾曼濾波法和深度學(xué)習(xí)等[5-6]。自回歸滑動(dòng)平均模型(Auto regressive moving average model,ARMR)能夠迅速對(duì)下一階段的客流變化做出反應(yīng),不需要考慮變量的多樣性,但運(yùn)算簡(jiǎn)單導(dǎo)致其對(duì)隨機(jī)波動(dòng)不能進(jìn)行過濾,容易對(duì)預(yù)測(cè)精度產(chǎn)生影響[7]。原始客流數(shù)據(jù)的復(fù)雜性易受到外部環(huán)境因素的干擾從而產(chǎn)生噪聲[8],較多的隨機(jī)波動(dòng)導(dǎo)致預(yù)測(cè)過程中降低了預(yù)測(cè)結(jié)果的時(shí)效性。數(shù)據(jù)常用的降噪方法有標(biāo)準(zhǔn)差降噪、分箱降噪、孤立森林和小波變換等[9-10]。其中小波變換可以對(duì)細(xì)節(jié)分量進(jìn)行闕值處理然后進(jìn)行小波重構(gòu),有效降低隨機(jī)波動(dòng)和突發(fā)事件帶來(lái)的客流干擾[11]。軌道客流的全局預(yù)測(cè)容易忽略車站客流特征帶來(lái)的影響。服務(wù)功能不同的車站,其客流構(gòu)造結(jié)構(gòu)存在不同。軌道車站的聚類促進(jìn)軌道客流預(yù)測(cè)的精細(xì)化發(fā)展。空間聚類算法[12]和時(shí)間序列聚類算法[13]廣泛應(yīng)用于軌道車站的聚類,但二者聚類因子數(shù)量有限,容易忽略其他因素的影響。K-means聚類作為無(wú)監(jiān)督分類的一種方法,可以有效的發(fā)掘數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)特征[14],同時(shí)K-means算法可考慮多個(gè)因素對(duì)同一對(duì)象產(chǎn)生的影響,聚類因子可由向量因素組成,保證分類因素的綜合考慮。目前的研究忽略了車站客流特征和客流本身的隨機(jī)波動(dòng),導(dǎo)致預(yù)測(cè)誤差的增加。基于此,本文以城市軌道交通客流數(shù)據(jù)為研究對(duì)象,依據(jù)聚類算法對(duì)軌道車站進(jìn)行分類,并探討了不同類別車站降噪小波基的選取,采用組合模型確定了不同類別車站短時(shí)客流預(yù)測(cè)差異,并與單一模型預(yù)測(cè)精度進(jìn)行對(duì)比。這項(xiàng)研究主要有3個(gè)貢獻(xiàn):1)依據(jù)軌道交通車站的客流屬性和建筑屬性,將車站進(jìn)行分類,避免了不同類別車站自身特征被忽略。2)針對(duì)各類車站客流特征,選擇合適的小波基對(duì)車站的原始數(shù)據(jù)進(jìn)行小波變換,以減少原始數(shù)據(jù)中存在的噪聲干擾。3)建立了WT-ARMA組合預(yù)測(cè)模型,可以在下一階段快速、準(zhǔn)確地預(yù)測(cè)客流量的變化。
聚類分析是根據(jù)事物的自身屬性,按照一定的分類準(zhǔn)則對(duì)所研究的對(duì)象進(jìn)行分類。研究選用K-means聚類進(jìn)行車站的劃分。作為短時(shí)客流預(yù)測(cè)的基礎(chǔ),客流屬性和外部建筑環(huán)境是影響預(yù)測(cè)結(jié)果的直接原因,因此,車站聚類因子是由客流差異性數(shù)據(jù)和外部環(huán)境因素組成。聚類因子的定義如下:
1)車站早高峰(7:30~8:30)進(jìn)站(F1)/出站(F2)流量與全天進(jìn)站/出站客流比,反映早高峰時(shí)段車站的客流特征。
2)車站晚高峰(18:00~19:00)進(jìn)站(F3)/出站(F4)流量與全天進(jìn)站/出站客流比,反映晚高峰時(shí)段車站的客流特征。
3)車站非高峰時(shí)段(10:00~16:00)進(jìn)站(F5)/出站(F6)流量與全天進(jìn)站/出站客流比,反映非高峰時(shí)段車站的客流特征。
4)車站周邊用地混合度(F7)反映周邊居民的出行規(guī)律,軌道交通步行銜接的合理范圍是500~800m[15-16]。研究選用車站500m范圍內(nèi)的用地?cái)?shù)據(jù),并基于混合度熵進(jìn)行求值。熵值為[0,1],值越大表示混合度越大,定義為M,則
式中:Pi為車站500m范圍內(nèi)第i種用地所占的比例;k為用地的種類數(shù),本文共有8類用地,分別為行政辦公、教育科研、商業(yè)金融、文物古跡、工業(yè)、醫(yī)療、居住和其他。
5)車站建筑強(qiáng)度(F8)是指車站周邊500m范圍內(nèi)的建筑物容積率。
6)換乘客流中,公交車站與軌道交通接駁的適宜距離在200m以內(nèi)[8,17],選取車站200m范圍的公交線路數(shù)(F9)作為特征指標(biāo)。
經(jīng)過排序,將以上9個(gè)聚類因子共同組成一個(gè)向量因子F=[F1,F2,F3,F4,F5,F6,F7,F8,F9],此向量因子即為聚類的輸入變量。
為了將數(shù)據(jù)縮放到相似的范圍,使用ZSCORE方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。選用輪廓系數(shù)(Silhouette Coefficient)確定聚類數(shù)k的值[18],其值為[-1,1],越接近1表示內(nèi)聚度和分離度都更優(yōu)。
小波變換通過對(duì)軌道客流的分解重構(gòu),從而達(dá)到降噪的目的。其核心是通過選擇合適的小波基通過伸縮和平移對(duì)原始數(shù)據(jù)信號(hào)進(jìn)行多維多尺度的細(xì)化分析。在任意空間L2(R)中,將f(t)函數(shù)通過小波基函數(shù)進(jìn)行展開,這種展開就是連續(xù)小波變換,表達(dá)式為:
式中:a為小波基尺度,控制小波函數(shù)的伸縮;b為小波基平移量,控制小波函數(shù)的平移;x(t)為原始軌道客流信號(hào);ψ(t)為母小波;ψa,b(t)為母小波經(jīng)位移和伸縮產(chǎn)生的小波基函數(shù)。
在小波基的選取方面,考慮2個(gè)函數(shù)之間的互相關(guān)性,當(dāng)小波基提取到的低頻輪廓數(shù)據(jù)與信號(hào)數(shù)據(jù)之間的互相關(guān)系數(shù)最大時(shí),此小波基可作為最合適的選擇,表達(dá)式為:
式中:P為互相關(guān)系數(shù);x為低頻段輪廓數(shù)據(jù);y為真實(shí)信號(hào)數(shù)據(jù);cov(x,y)為2個(gè)信號(hào)之間的協(xié)方差;δx,δy為2個(gè)信號(hào)之間的標(biāo)準(zhǔn)差;xi,yi為2個(gè)信號(hào)變量在i處的值;xˉ,yˉ為2個(gè)信號(hào)變量的平均值。
離散小波變換是按照2的冪級(jí)數(shù)進(jìn)行離散化,分解的最高層次應(yīng)為log2N(N為待檢測(cè)信號(hào)的長(zhǎng)度)[19]。在短時(shí)軌道交通客流預(yù)測(cè)中,關(guān)注高頻信號(hào)的細(xì)節(jié)系數(shù),在對(duì)軌道交通客流數(shù)據(jù)分解中應(yīng)分解到小波變換所支持的最高層,此時(shí)既保證了客流原始變化趨勢(shì),又降低客流本身的隨機(jī)波動(dòng)。
利用ARMA模型進(jìn)行軌道交通的客流預(yù)測(cè),對(duì)于時(shí)間序列F(t),若滿足下面公式(4),稱其為ARMA模型。
式中:p為p階的自回歸;q為q階的滑動(dòng)平均;αp為自回歸系數(shù);βq為移動(dòng)平均系數(shù);{εt}為白噪音序列;{εs}為t=s時(shí)的白噪音序列;為序列{εt}的方差值;Fs為t=s的時(shí)間序列。
自回歸移動(dòng)平均模型作為多元線性回歸模型,又可以細(xì)分為AR模型、MA模型和ARMA模型。其中,AR模型認(rèn)為隨機(jī)變量的取值主要受前p期的序列值影響,記為AR(p);MA模型認(rèn)為隨機(jī)變量的取值主要受前q期的誤差項(xiàng)影響,記為MA(q);ARMA模型認(rèn)為隨機(jī)變量的取值不僅與前p期的序列值有關(guān)還與前q期的隨機(jī)擾動(dòng)有關(guān),記為ARMA(p,q)。因此,在進(jìn)行預(yù)測(cè)之前需要解決2方面問題,分別是模型的識(shí)別和模型參數(shù)的標(biāo)定。
自相關(guān)函數(shù)(autocorrelation,ACF)和偏自相關(guān)函數(shù)(partial autocorrelation,PACF)分別體現(xiàn)了樣本數(shù)據(jù)的總體相關(guān)性和樣本間變量相關(guān)性。因此可通過二者在滯后期所體現(xiàn)的拖尾和截尾特性對(duì)模型進(jìn)行識(shí)別。不同條件下對(duì)模型的選擇標(biāo)準(zhǔn)如表1所示。
表1 自相關(guān)函數(shù)和偏自相關(guān)函數(shù)性質(zhì)Table1 Autocorrelation function and partialautocorrelation function properties
在對(duì)模型階數(shù)p,q值進(jìn)行判定中,貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)彌補(bǔ)了赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)估計(jì)容量較大的數(shù)據(jù)時(shí)產(chǎn)生的擬合誤差,因此研究以BIC準(zhǔn)則為基準(zhǔn)來(lái)確定模型階數(shù)。通常p與q值為1~20之間的整數(shù),通過交叉驗(yàn)證求得使BIC最小p,q值。
選擇了2019年6月份西安地鐵2號(hào)線的自動(dòng)售檢票(Automatic Fare Collection,AFC)數(shù)據(jù)來(lái)檢驗(yàn)預(yù)測(cè)模型。AFC數(shù)據(jù)集包含時(shí)間戳、車站名稱和各車站30m in內(nèi)的進(jìn)站和出站流量。
在分析中,為了適應(yīng)周期性,選擇6月1日-6月28日(共4周)的軌道客流數(shù)據(jù)進(jìn)行預(yù)測(cè)分析,前3周的數(shù)據(jù)作為訓(xùn)練集,最后1周的數(shù)據(jù)作為測(cè)試集,預(yù)測(cè)時(shí)間間隔為30m in。
從圖1可知,當(dāng)分類數(shù)為4時(shí),輪廓系數(shù)最大,因此選擇聚類數(shù)目為4。聚類結(jié)果如表2所示。表2中的類別為車站所屬聚類簇,距離為車站與當(dāng)前聚類簇中心的緊密關(guān)系,距離越小,代表車站更接近聚類中心,對(duì)于形成此類別的貢獻(xiàn)度越大。
表2 車站聚類結(jié)果Table 2 Station clustering result
圖1 不同聚類數(shù)對(duì)應(yīng)的輪廓系數(shù)Fig.1 Silhouette coefficientsof differentclusternumbers
圖2顯示各類軌道車站當(dāng)前時(shí)段進(jìn)出站客流量與全天進(jìn)出站客流量比值的變化趨勢(shì)。4類集群分別代表了各個(gè)車站的典型特征:
圖2 聚類結(jié)果展示Fig.2 Clustering results display
1)第I類車站主要位于城市中心區(qū)域,早高峰進(jìn)站客流很低,隨后逐漸增長(zhǎng),而出站客流存在明顯的早晚高峰,并且早晚高峰出站客流比例相近。這類車站周邊有更多的商業(yè)和辦公用地,因此將其定義為商業(yè)、辦公車站。
2)第Ⅱ類車站潮汐性明顯,早高峰進(jìn)站客流比例很高,出站客流比例很小,而晚高峰進(jìn)出站客流比例與早高峰現(xiàn)象相反。這類車站主要為通勤客流出行,因此將其定義為密集型居住車站。
3)第Ⅲ類車站數(shù)量最多,用地主要功能仍為住宅,但兼具商業(yè)和教育功能??土鞒毕暂^Ⅱ類減弱,因此將其定義為輕型居住車站。
4)第Ⅳ類車站客流特征與一般消費(fèi)、旅游的特征一致,早高峰為客流匯集地,晚高峰為客流發(fā)散地,因此將其定義為旅游文化車站。
在選擇時(shí),挑選距離中心最近的車站作為其所在類別的樣本進(jìn)行分析。其中,小寨為第Ⅰ類的樣本;鳳棲原為第Ⅱ類的樣本;鳳城五路為第Ⅲ類的樣本;大明宮西為第Ⅳ類的樣本。
各類車站由于客流差異性,在降噪過程中要依據(jù)小波系結(jié)構(gòu)與原始信號(hào)之間的關(guān)系選擇合理的小波系進(jìn)行降噪處理??紤]到小波基的正則性、對(duì)稱性和線性相位等特性都會(huì)對(duì)原始信號(hào)的平移和伸縮產(chǎn)生影響,共選出8個(gè)小波系。各小波系提取的低頻輪廓信號(hào)與原始信號(hào)之間的相關(guān)性如表3所示,根據(jù)互相關(guān)性,第Ⅲ類車站選擇Daubechies小波系進(jìn)行降噪處理,其余類別車站選擇Bior‐thogonal小波系。根據(jù)客流時(shí)間長(zhǎng)度,將數(shù)據(jù)分解到第10層,原始客流數(shù)據(jù)分解示例如圖3所示。
表3 小波系與原始信號(hào)互相關(guān)系數(shù)Table 3 Correlation coefficientofwaveletsystem and originalsignal
圖3 軌道數(shù)據(jù)的小波分解示例Fig.3 Waveletdecomposition of orbitdata
小波變換通過對(duì)各層分解信號(hào)選擇不同的闕值來(lái)實(shí)現(xiàn)其降噪功能,對(duì)于反映軌道客流短時(shí)變化特性的高頻小波系數(shù)應(yīng)選用高通過闕值。10~1層對(duì)應(yīng)的高頻信號(hào)系數(shù)降噪閾值分別為100%,90%,75%,50%,10%,0%,15%,20%,40%和70%。
軌道交通客流數(shù)據(jù)的重構(gòu)為原始信號(hào)分解的逆運(yùn)算,采用原分解小波基對(duì)降噪后的各頻段分解系數(shù)進(jìn)行重構(gòu)。重構(gòu)的新客流信號(hào)既能保證了原始數(shù)據(jù)的基本特征,又能反映客流數(shù)據(jù)的短時(shí)時(shí)變特性,同時(shí),排除了噪聲信號(hào)的干擾。降噪后的信號(hào)與原始信號(hào)對(duì)比如圖4所示。
圖4 原始信號(hào)與降噪信號(hào)對(duì)比Fig.4 Comparison of originaland noise reduction signal
為了確定模型,分別對(duì)4類車站數(shù)據(jù)的拖尾和截尾情況進(jìn)行判定,4類車站的自相關(guān)函數(shù)圖和偏自相關(guān)函數(shù)圖如圖5所示。
圖5 客流量時(shí)間序列自相關(guān)和偏自相關(guān)函數(shù)圖Fig.5 Autocorrelation and partialautocorrelation function diagram of passenger flow
從圖5可知,這4類車站的自相關(guān)函數(shù)和偏自相關(guān)函數(shù)都具有明顯的拖尾性,因此使用ARMA模型進(jìn)行建模。通過BIC準(zhǔn)則確定4類車站的模型階數(shù)分別為ARMA(7,6),ARMA(5,6),ARMA(6,5)和ARMA(7,6)。
對(duì)4類車站的軌道客流量運(yùn)用WT-ARMA組合模型進(jìn)行預(yù)測(cè),具體預(yù)測(cè)結(jié)果如圖6所示。
從圖6看出,組合模型可以較好地對(duì)客流進(jìn)行短時(shí)預(yù)測(cè)。在預(yù)測(cè)性能的比較中,還對(duì)單一ARMA,支持向量回歸(Support Vector Regression,SVR)和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果進(jìn)行統(tǒng)計(jì)。單一ARMA模型的參數(shù)設(shè)置與WT-ARMA組合模型相同,并于2.4節(jié)給出。SVR模型作為一種用于劃分和線性回歸的機(jī)器學(xué)習(xí)算法,可以剔除無(wú)用數(shù)據(jù)得到稀疏的解。影響SVR預(yù)測(cè)精度的參數(shù)主要為懲罰系數(shù)C和高斯核函數(shù)幅寬g,根據(jù)粒子群算法的適應(yīng)度變化曲線[20]對(duì)參數(shù)進(jìn)行確定,4類車站的最優(yōu)參數(shù)(C,g)分別為(10.32,0.12),(12.33,0.17),(7.86,0.08),(15.37,0.15)。BP作為經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)可視情況改變。BP神經(jīng)網(wǎng)絡(luò)的輸入層節(jié)點(diǎn)數(shù)量基于滾動(dòng)單元;輸出層的節(jié)點(diǎn)數(shù)量由每日的預(yù)測(cè)時(shí)段數(shù)決定,研究的預(yù)測(cè)步長(zhǎng)為1;隱藏層節(jié)點(diǎn)數(shù)量為模型訓(xùn)練誤差最小對(duì)應(yīng)的值。因此,本文將4類車站的參數(shù)設(shè)置為:輸入層6節(jié)點(diǎn)、輸出層1節(jié)點(diǎn)、隱藏層4節(jié)點(diǎn)、學(xué)習(xí)速率0.005,迭代至收斂。
圖6 WT-ARMA組合模型預(yù)測(cè)值與實(shí)際值對(duì)比Fig.6 Comparison of predicted and train valuesofWT-ARMA combinationmodels
利用最常用的統(tǒng)計(jì)指標(biāo),平均相對(duì)誤差(MAPE)、均方根誤差(RMSE)和擬合優(yōu)度(r2)量化預(yù)測(cè)結(jié)果,同時(shí)運(yùn)算時(shí)間作為時(shí)效性的考核指標(biāo)。不同模型預(yù)測(cè)評(píng)價(jià)指標(biāo)如表4所示。
從表4可以看出,組合模型具有更好的預(yù)測(cè)精度,SVR和BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果次之,ARMA效果最差。在時(shí)效性中,組合模型運(yùn)算時(shí)間最快,ARMA與SVR次之,BP神經(jīng)網(wǎng)絡(luò)最慢,說明組合模型能夠有效提高預(yù)測(cè)精度和時(shí)效性。
表4 各類車站模型預(yù)測(cè)評(píng)價(jià)指標(biāo)Table 4 Various stationmodelprediction and evaluation indicators
組合模型對(duì)4類車站預(yù)測(cè)的精確度為:Ⅲ>Ⅰ>Ⅱ>Ⅳ。以30m in為時(shí)間粒度,分別統(tǒng)計(jì)不同日期、相同時(shí)間段的客流相關(guān)性,采用皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient)進(jìn)行描述。皮爾遜相關(guān)系數(shù)值在0~1之間,以0.2數(shù)量級(jí)遞增,其相關(guān)性逐漸增強(qiáng)。不同時(shí)段客流自相關(guān)性如圖7所示。
圖7 客流相關(guān)系數(shù)Fig.7 Correlation coefficientof passenger flow
圖7顯示,第Ⅲ類車站客流具有強(qiáng)相關(guān)性,同時(shí)這類車站預(yù)測(cè)精度較高,第Ⅳ類車站客流的相關(guān)性較弱,這類車站預(yù)測(cè)精度較低,說明客流的預(yù)測(cè)精度與客流的內(nèi)部相關(guān)性還存在關(guān)系。
1)在基于聚類算法對(duì)車站分類的基礎(chǔ)上建立WT-ARMA組合模型對(duì)各類車站軌道客流進(jìn)行預(yù)測(cè)。所建立的模型可有效、準(zhǔn)確、快速地預(yù)測(cè)短時(shí)軌道交通客流量。
2)選用車站自身屬性和周邊環(huán)境因素作為變量,利用K-means聚類方法,對(duì)車站進(jìn)行分類。西安市地鐵2號(hào)線的各車站可劃分為商業(yè)、辦公車站,密集型居住車站,輕型居住車站和旅游文化車站。
3)與單一ARMA,SVR和BP神經(jīng)網(wǎng)絡(luò)模型相比,WT-ARMA的組合模型具有更高的預(yù)測(cè)精度和更短的運(yùn)算時(shí)間。
4)研究對(duì)影響預(yù)測(cè)精度的因素和產(chǎn)生預(yù)測(cè)誤差的原因進(jìn)行分析,在后續(xù)研究中將進(jìn)一步討論特殊節(jié)假日大客流爆發(fā)的因素。