王 鵬
(中國鐵道科學(xué)研究院 運(yùn)輸及經(jīng)濟(jì)研究所,北京 100081)
鐵路行包運(yùn)輸是利用鐵路客運(yùn)設(shè)施,以加掛旅客列車的行李車為主要載體的一種運(yùn)輸形式,具有定時(shí)、便捷、快速、安全等特點(diǎn),特別適合價(jià)值高、對(duì)運(yùn)輸質(zhì)量要求嚴(yán)格的貨物運(yùn)輸[1]。近年來,隨著鐵路普包市場趨于飽和,以及高附加值快運(yùn)貨物運(yùn)輸?shù)难该桶l(fā)展,行包運(yùn)輸需求的增加與普包運(yùn)能的不足之間的矛盾逐漸明顯,再加上旅客列車提速帶來中間站停站時(shí)間大大縮短,使得普包運(yùn)輸在繁忙干線上的能力緊張程度更進(jìn)一步加劇。在這種形勢下,鐵路行包快運(yùn)專列應(yīng)運(yùn)而生,打破了行包運(yùn)輸市場中供需雙方的長期不均衡。行包專列是指按照旅客列車運(yùn)輸方式組織,使用專用貨車編組,利用行包基地和客、貨運(yùn)站場、設(shè)備,整列裝載包裹等小件貨物的列車,它實(shí)現(xiàn)了行包運(yùn)輸?shù)膶I(yè)化、集裝化,以及裝卸作業(yè)的機(jī)械化、現(xiàn)代化,是鐵路行包運(yùn)輸體制改革的成果,是鐵路行包運(yùn)輸組織一次新的質(zhì)的飛躍。
自1998年3月18日全路開行第一列鐵路行包快運(yùn)專列以來,行包運(yùn)量逐年遞增,取得了較好的經(jīng)濟(jì)效益和社會(huì)效益。至2007年鐵路第六次大面積提速,行包快運(yùn)專列最高技術(shù)速度達(dá)到160 km/h。據(jù)統(tǒng)計(jì),近幾年來雖然鐵路普包運(yùn)量一直徘徊在260萬t左右,但鐵路行包運(yùn)量卻呈大幅上升趨勢,1998—2007年10年間平均每年增加110.22萬t,年均增幅21.87%。行包行郵專列所代表的專業(yè)化運(yùn)輸方式,突破了傳統(tǒng)的行包攬貨和運(yùn)輸方式,已經(jīng)成為鐵路運(yùn)輸走向市場、積極拓展行包運(yùn)輸市場新的階段。因此,隨著鐵路行包運(yùn)輸能力的穩(wěn)步提升過程,建立模型和預(yù)測其發(fā)展歷程和趨勢具有重要的現(xiàn)實(shí)意義。
鐵路行包運(yùn)量預(yù)測是對(duì)鐵路行包運(yùn)輸?shù)陌l(fā)展趨勢進(jìn)行動(dòng)態(tài)分析和推測,是定性基礎(chǔ)上的定量計(jì)算。對(duì)鐵路行包運(yùn)量的正確把握,關(guān)系到鐵路運(yùn)輸資源的有效配置和經(jīng)濟(jì)結(jié)構(gòu)的協(xié)調(diào)發(fā)展,對(duì)以中鐵快運(yùn)為代表的鐵路企業(yè)的經(jīng)營管理、投資決策等有重要作用。但是長久以來鐵路行包運(yùn)量飽受影響因素繁多且統(tǒng)計(jì)數(shù)據(jù)樣本量不足所困,使得運(yùn)量預(yù)測極為復(fù)雜和充滿非線性等問題。
鐵路行包運(yùn)輸受外部市場需求和內(nèi)部運(yùn)輸體系供給多種因素的共同影響,總體上可分為規(guī)模因素和結(jié)構(gòu)因素兩類[2]。其中規(guī)模類因素包括各種經(jīng)濟(jì)總量因素,而結(jié)構(gòu)類因素主要反映產(chǎn)業(yè)結(jié)構(gòu)和運(yùn)輸結(jié)構(gòu)。內(nèi)外多種因素對(duì)行包運(yùn)量的影響程度各異,且作用形式無法精確估計(jì)。傳統(tǒng)的預(yù)測方法如時(shí)間序列法、回歸分析法、灰色預(yù)測法和組合預(yù)測法等所建立的模型,很難找到一個(gè)恰當(dāng)?shù)膮?shù)估計(jì)方法,在預(yù)測精度和收斂速度上也不夠理想。
近年來,人工神經(jīng)網(wǎng)絡(luò)的發(fā)展為解決這個(gè)問題提供了有效的途徑,其并行計(jì)算的特點(diǎn)和良好的非線性映射能力,能夠較好地滿足鐵路行包運(yùn)量預(yù)報(bào)的精度和速度。目前應(yīng)用最廣的是BP網(wǎng)絡(luò)和RBF網(wǎng)絡(luò)模型,但廣義回歸神經(jīng)網(wǎng)絡(luò) (Generalized Regression Neural Network,GRNN) 在解決樣本量小且噪聲較多的問題時(shí),逼近能力、分類能力和學(xué)習(xí)速度上較前兩種有優(yōu)勢[3],因此選用廣義回歸神經(jīng)網(wǎng)絡(luò)建立仿真模型對(duì)鐵路行包運(yùn)量進(jìn)行預(yù)測。
在建立GRNN網(wǎng)絡(luò)模型時(shí),為了更準(zhǔn)確地反映事物的特征,通常考慮盡量多的指標(biāo)因素,即使模型中包含了較多的解釋變量。但如果將所有指標(biāo)都作為神經(jīng)網(wǎng)絡(luò)的輸入端,會(huì)增加網(wǎng)絡(luò)的復(fù)雜度并降低網(wǎng)絡(luò)性能,增加計(jì)算時(shí)間,影響計(jì)算精度;而且變量之間的多重共線性會(huì)使數(shù)據(jù)提供的信息發(fā)生重疊,甚至抹殺事物的真正特征。如果舍棄其中一些因素,勢必會(huì)造成某些有用信息的丟失。因此,可結(jié)合主成分分析方法對(duì)指標(biāo)因素進(jìn)行預(yù)處理,利用降維的思想,將所有指標(biāo)的信息通過少數(shù)幾個(gè)指標(biāo)來反映,在低維空間將信息分解為互不相關(guān)的部分以獲得更有意義的解釋。
將經(jīng)過主成分分析后的新樣本集作為GRNN神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入層,可以在有效保留數(shù)據(jù)信息的前提下對(duì)數(shù)據(jù)進(jìn)行降維,減少輸入層神經(jīng)元的個(gè)數(shù),增強(qiáng)網(wǎng)絡(luò)性能,改善預(yù)測效果。
對(duì)鐵路行包運(yùn)量的統(tǒng)計(jì)特征的度量主要通過行包運(yùn)量及行包周轉(zhuǎn)量來反映。影響鐵路行包運(yùn)量的指標(biāo)因素有很多,總體上可分為規(guī)模類因素和結(jié)構(gòu)類因素。首先通過定性分析,篩選出了17個(gè)主要的顯著性指標(biāo)因素。
(1) 規(guī)模類因素。GDP、第三產(chǎn)業(yè)總產(chǎn)值、交通運(yùn)輸業(yè)增加值、第三產(chǎn)業(yè)貢獻(xiàn)率、第三產(chǎn)業(yè)對(duì)GDP的拉動(dòng)、城鎮(zhèn)居民交通類消費(fèi)支出、農(nóng)村居民交通類消費(fèi)支出。
(2) 結(jié)構(gòu)類因素。鐵路營業(yè)里程、叉車數(shù)量、牽引搬運(yùn)車數(shù)量、行李運(yùn)費(fèi)收入、行李車數(shù)量、行包列車機(jī)車日車公里、行包列車機(jī)車旅行速度、行包列車機(jī)車技術(shù)速度、行包列車專運(yùn)機(jī)車走行公里、行包列車專運(yùn)機(jī)車總重噸公里。初始指標(biāo)樣本區(qū)間為1998—2007年,數(shù)據(jù)來源于2008年《中國統(tǒng)計(jì)年鑒》等資料。
主成分分析(Principal Components Analysis,PCA)是多元數(shù)理統(tǒng)計(jì)中常用的一種數(shù)據(jù)處理方法,由Hotelling于1933年首先提出。它通過投影的方法,實(shí)現(xiàn)數(shù)據(jù)的降維,在損失較少數(shù)據(jù)信息的基礎(chǔ)上把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)有代表意義的綜合指標(biāo),即用主成分來描述并解釋大部分變量的協(xié)方差結(jié)構(gòu)特征。它的主要用途是數(shù)據(jù)壓縮和數(shù)據(jù)解釋,其分析結(jié)果主要用于指標(biāo)篩選、回歸、聚類、多維度評(píng)價(jià)、系統(tǒng)演化過程分析等方面[4]。
將以上兩類共17個(gè)指標(biāo)變量標(biāo)準(zhǔn)化后,通過EViews6.0進(jìn)行主成分分析,主要步驟[5]如下。
(1) 將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,消除原始變量量綱的影響。令:
其中:zki為第i個(gè)指標(biāo)第k年的標(biāo)準(zhǔn)化值,i=1,2,…,p,k=1,2,…,n;xki∈X,為原始數(shù)據(jù)矩陣X中第i個(gè)指標(biāo)第k年的實(shí)際值,i=1,2,…,p,k=1,2,…,n;為第i個(gè)指標(biāo)在時(shí)間區(qū)間[1,n]內(nèi)的平均值,i=1,2,…,p;為樣本協(xié)方差矩陣S的對(duì)角線上元素,i=1,2,…,p,k=1,2,…,n。
(2) 根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣Z=(zki)n×p,求得相關(guān)矩陣R。
再根據(jù)相關(guān)矩陣R求出其特征值λ,并按大小排序λ1≥ λ2≥…≥ λp≥0,相應(yīng)的特征向量為e1,e2,…,ep。則第i個(gè)主成分yi的表達(dá)式為:
分析表中數(shù)據(jù)可知,規(guī)模類指標(biāo)的前兩個(gè)主成分的累積貢獻(xiàn)度為99.63%,結(jié)構(gòu)類指標(biāo)的前兩個(gè)主成分的累積貢獻(xiàn)度也達(dá)到了96.11%。
(4) 確定主成分個(gè)數(shù)。累積貢獻(xiàn)度達(dá)到85%以上就說明已包含原始變量的絕大部分信息,也可通過碎石圖選擇斜率變化較大的拐點(diǎn)的序號(hào)為主成分個(gè)數(shù)。
研究以累積貢獻(xiàn)度95%為標(biāo)準(zhǔn),說明兩類指標(biāo)的各第一、第二主成分分別代表了原始數(shù)據(jù)中蘊(yùn)涵的絕大部分信息。通過碎石圖(圖1和圖2)也可以看出,在i=2處兩類指標(biāo)因素的特征值斜率均變化明顯。因此,主成分個(gè)數(shù)為2。
通過式(3)分別計(jì)算出兩類指標(biāo)各自前2個(gè)主成分?jǐn)?shù)據(jù),構(gòu)成新的指標(biāo)樣本數(shù)據(jù)集,如表2所示。
圖1 規(guī)模類因素碎石圖
圖2 結(jié)構(gòu)類因素碎石圖
表1 特征值及貢獻(xiàn)度
廣義回歸神經(jīng)網(wǎng)絡(luò)是由Donald F Sprecht在1991年提出的,其基礎(chǔ)為數(shù)理統(tǒng)計(jì),主要用于系統(tǒng)辨識(shí)和預(yù)測控制。它能夠根據(jù)樣本數(shù)據(jù)逼近其中隱含的映射關(guān)系,學(xué)習(xí)速度快,網(wǎng)絡(luò)最后收斂于樣本量集聚最多的優(yōu)化回歸面。一旦學(xué)習(xí)樣本確定,則相應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)和神經(jīng)元之間的連接權(quán)值也隨之確定,網(wǎng)絡(luò)訓(xùn)練過程實(shí)際上只是確定平滑參數(shù)的過程,并且在樣本數(shù)據(jù)較少時(shí)效果也很好[2]。GRNN神經(jīng)網(wǎng)絡(luò)由輸入層、徑向基隱含層和線性輸出層組成,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3中,P 表示網(wǎng)絡(luò)輸入向量;R 表示網(wǎng)絡(luò)輸入的維數(shù);S 表示每層網(wǎng)絡(luò)中的神經(jīng)元個(gè)數(shù);徑向基隱含層的權(quán)值函數(shù)為歐式距離函數(shù)(用‖dist‖表示),其作用為計(jì)算網(wǎng)絡(luò)輸入層與徑向基隱含層的權(quán)值 IW1之間的距離;b1為隱含層閾值。隱含層的傳
遞函數(shù)通常采用高斯函數(shù)[3]:
其中:σi為光滑因子,其決定了第i個(gè)隱含層位置中基函數(shù)的形狀。
線性輸出層的權(quán)函數(shù)為規(guī)范化點(diǎn)積權(quán)函數(shù),計(jì)算網(wǎng)絡(luò)的向量n2,它的每個(gè)元素是由向量a1和權(quán)值矩陣LW2中每行元素的點(diǎn)積再除以向量a1的各元素之和得到,并將結(jié)果n2提供給線性傳遞函數(shù)a2=purelin(n2),計(jì)算出網(wǎng)絡(luò)輸出。
研究取新構(gòu)成的指標(biāo)樣本集中1998—2006年數(shù)據(jù)作為訓(xùn)練樣本集,2007年的數(shù)據(jù)作為測試樣本集,以鐵路行包運(yùn)量及行包周轉(zhuǎn)量作為網(wǎng)絡(luò)輸出,通過Matlab7神經(jīng)網(wǎng)絡(luò)工具箱構(gòu)建三層廣義回歸神經(jīng)網(wǎng)絡(luò)。首先,利用公式對(duì)數(shù)據(jù)做歸一化處理,統(tǒng)一映射到[0,1]區(qū)間。其后構(gòu)建廣義回歸神經(jīng)網(wǎng)絡(luò),將訓(xùn)練樣本數(shù)據(jù)和行包運(yùn)量、周轉(zhuǎn)量分別放入網(wǎng)絡(luò)的輸入輸出層,進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)。通過對(duì)光滑因子的不斷調(diào)整改進(jìn)發(fā)現(xiàn),當(dāng)光滑因子設(shè)置為0.1時(shí),無論逼近性能還是預(yù)測性能,誤差都比較小。最后在學(xué)習(xí)完成后,用測試樣本集的數(shù)據(jù)進(jìn)行仿真,考察預(yù)測效果。
表2 新指標(biāo)樣本集
圖3 GRNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
表3分別列出了PCA-GRNN模型和GRNN模型對(duì)鐵路行包運(yùn)量的預(yù)測值。GDP的拉動(dòng)、城鎮(zhèn)居民交通類消費(fèi)支出等經(jīng)濟(jì)規(guī)模因素,還考慮了機(jī)械化作業(yè)程度、行李車走行公里等產(chǎn)業(yè)結(jié)構(gòu)因素,做到全面利用樣本信息,提高了預(yù)測的精度。
實(shí)證分析表明,采用主成分分析法的廣義回歸神經(jīng)網(wǎng)絡(luò)模型具有結(jié)構(gòu)簡單、學(xué)習(xí)速度快、預(yù)測精度高的特點(diǎn)。相比一般直接采用廣義回歸神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)更加簡潔,并且運(yùn)算時(shí)間大幅縮短,且效率更高。應(yīng)用于鐵路行包運(yùn)量的預(yù)測取得了滿意的結(jié)果,可以取代利用全部指標(biāo)的GRNN模型。
表3 兩種模型預(yù)測值的比較
對(duì)比完全利用17個(gè)指標(biāo)、未經(jīng)過主成分分析的GRNN模型仿真發(fā)現(xiàn),PCA-GRNN模型預(yù)測結(jié)果很接近。說明利用主成分分析處理影響指標(biāo)因素后的廣義回歸神經(jīng)網(wǎng)絡(luò)模型,可以近似取代單純、完全利用全部指標(biāo)的廣義回歸神經(jīng)網(wǎng)絡(luò)模型,對(duì)鐵路行包運(yùn)量進(jìn)行預(yù)測,其結(jié)果相差不明顯。
GRNN神經(jīng)網(wǎng)絡(luò)所具有的自學(xué)習(xí)、自組織、全息聯(lián)想、推廣泛化能力,以及很強(qiáng)的魯棒性和容錯(cuò)性,是進(jìn)行鐵路行包運(yùn)量預(yù)測的基礎(chǔ)。影響鐵路行包量的因素多而復(fù)雜,且之間存在多重共線性,使得行包運(yùn)量分析變得很困難。而利用主成分分析法構(gòu)建的GRNN模型,能夠?qū)⑺兄笜?biāo)的信息通過生成的少數(shù)幾個(gè)指標(biāo)來反映,不但考慮了第三產(chǎn)業(yè)對(duì)
[1] 李先進(jìn). 鐵路行包運(yùn)輸組織方法及其優(yōu)化研究[D]. 北京:北京交通大學(xué),2007.
[2] 葛哲學(xué),孫志強(qiáng). 神經(jīng)網(wǎng)絡(luò)理論與MATLAB R2007實(shí)現(xiàn)[M]. 北京:電子工業(yè)出版社,2008.
[3] 魏晉雁,茹 鋒. 采用GRNN模型進(jìn)行交通量預(yù)測及實(shí)現(xiàn)研究[J]· 長沙交通學(xué)院學(xué)報(bào),2006(6):46-50.
[4] 高鐵梅. 計(jì)量經(jīng)濟(jì)分析方法與建模[M]. 北京:清華大學(xué)出版社,2009.
[5] 楊勵(lì)雅,邵春福. 基于主成分分析-BP神經(jīng)網(wǎng)絡(luò)的道路客運(yùn)站場布局決策研究[C]∥2008城市發(fā)展與規(guī)劃國際論壇論文集. 河北:中國科學(xué)技術(shù)協(xié)會(huì), 2008:89-92.