譚逸萍
(長安大學汽車學院,陜西 西安 71000)
基于主成分分析法的公路客運量預(yù)測模型分析
譚逸萍
(長安大學汽車學院,陜西西安71000)
譚逸萍(1990—),女,工學碩士,研究方向:汽車工程。
摘要:文章基于主成分分析的基本理論與模型,采用SPSS 軟件,對影響四川省公路客運量的相關(guān)因素進行主成分分析,克服多重共線性的問題,構(gòu)建出四川省公路客運量預(yù)測模型。根據(jù)預(yù)測結(jié)果顯示,該模型具有較高的精度,適用于影響因素指標較為明確的短期客運量預(yù)測,能夠滿足四川省目前公路客運量預(yù)測的需要,對四川地區(qū)的公路旅客運輸發(fā)展也有著一定的指導作用,具有一定的科學性與有效性。
關(guān)鍵詞:主成分分析;多重共線性;公路客運量;預(yù)測;模型分析
0引言
公路運輸是國民經(jīng)濟的基礎(chǔ)性、服務(wù)性產(chǎn)業(yè),公路運輸?shù)陌l(fā)展關(guān)系到我國經(jīng)濟社會發(fā)展的全局[1]。近年來,隨著公路運輸?shù)目焖侔l(fā)展,公路客運量已經(jīng)成為衡量公路運輸發(fā)展水平的重要指標,同時也在很大程度上反映當今社會經(jīng)濟的發(fā)展現(xiàn)狀和人民的生活水平。公路客運量預(yù)測是交通運輸規(guī)劃的基礎(chǔ),其預(yù)測質(zhì)量的好壞不僅會影響交通運輸規(guī)劃與社會經(jīng)濟發(fā)展的適應(yīng)性,也在一定程度上影響交通運輸設(shè)施的投資與運營效益[2]。影響公路客運量的因素主要有社會經(jīng)濟發(fā)展水平、經(jīng)濟結(jié)構(gòu)、人口數(shù)量、城鎮(zhèn)化水平、人民物質(zhì)文化生活水平、產(chǎn)業(yè)布局、交通運輸網(wǎng)絡(luò)拓展程度等[3]。目前客運量的預(yù)測主要有定性與定量兩種預(yù)測方法[4]。定性預(yù)測主要有專家預(yù)測法、德爾菲法、類推法等,定量預(yù)測法包括回歸分析法、指數(shù)平滑法、彈性系數(shù)法、灰色預(yù)測等。但在這些預(yù)測方法中,由于影響因素過多,導致很多因素都存在較高的相關(guān)性,即通常的多重共線性,從而出現(xiàn)回歸系數(shù)不能通過顯著性檢驗,甚至有的回歸系數(shù)所帶符號與實際意義不符[5],大大降低了預(yù)測模型的精度,本文在以前預(yù)測方法的基礎(chǔ)上,簡單介紹了主成分分析的基本理論,并通過SPSS統(tǒng)計軟件,根據(jù)2003-2012年四川省各市的指標數(shù)據(jù),精確選取影響公路客運量的各個因素,并分別對各個因素進行主成分分析,克服多重共線性的問題,從而建立四川省公路客運量的預(yù)測模型,提高預(yù)測精度。
1主成分分析的基本理論及模型
主成分分析是對多個變量因素進行線性變換,以選出較少個數(shù)的重要變量的一種多元統(tǒng)計分析方法,又稱為主量分析。主成分分析是一種數(shù)學降維的思想,找出幾個綜合的變量即主成分來代替原來的眾多變量的信息量,而且各綜合變量之間互不相關(guān)[6]。每個主成分都包含原來變量的絕大部分信息,且這些信息都互不重疊。
主成分分析的原理是將原來眾多的具有一定相關(guān)性的變量重新組合成新的且不相關(guān)的綜合變量。將選取的第一個線性組合即第一個綜合變量(設(shè)共有n個指標)記為Z1,協(xié)方差為Var(Z1),主成分分析是通過線性組合的協(xié)方差來表達的,因此主成分分析僅取決于變量的協(xié)方差矩陣[7]。協(xié)方差越大,則第一個主成分Z1包含的信息便越多,在所有的線性組合中,Z1的協(xié)方差是最大的。如果第一個主成分不足以代表原來n個變量的信息,那么再考慮選取第二個主成分,為了有效反映原來的信息,F(xiàn)1已有的信息不需要出現(xiàn)在F2中,即COV(Z1,Z2)=0。從而依次類推得到第3、4、5…n個主成分[6]。
對于一個樣本資料,觀察n個變量x1,x2,…xn,m個樣本的數(shù)據(jù)資料陣為:
主成分分析就是將n個觀測變量綜合成為n個新的變量(綜合變量),即:
簡寫為:Zj=αj1x1+αj2x2+…+αjnxn
j=1,2,…n
主成分分析法的模型應(yīng)滿足以下條件:
(1)Zi,Zj互不相關(guān)(i≠j,i,j=1,2…n)
(2)Z1的方差大于Z2的方差,Z2的方差大于Z3的方差,依次類推[6]。
(3)ak12+ak22+…+akn2=1,k=1,2,…n
于是,稱Z1為第一主成分,Z2為第二主成分,依次類推,一共有n個主成分。an為主成分系數(shù),則上述模型用矩陣表示為Z=AX,其中:
A成為主成分系數(shù)矩陣。
通過主成分分析建立預(yù)測模型的主要步驟如下:
(1)選取與選題相關(guān)的指標和數(shù)據(jù);
(2)對指標數(shù)據(jù)進行標準化處理;
(3)建立協(xié)方差矩陣,對指標之間的相關(guān)性進行判斷;
(4)根據(jù)協(xié)方差矩陣求出特征值、主成分貢獻率和累積貢獻率,從而確定主成分個數(shù);
(5)建立初始因子載荷矩陣,解釋主成分Zj;
(6)建立并求解主成分回歸模型。
2影響四川省公路客運量的因素
隨著近年來四川省公路客運的快速發(fā)展,很多因素都會直接影響到公路客運量,綜合各個因素的影響程度,本文主要選取了四個方面的影響因素:社會經(jīng)濟結(jié)構(gòu)、經(jīng)濟發(fā)展水平、居民收入與消費、運輸設(shè)施建設(shè)水平。認真分析這些影響因素,消除因素之間的共線性,選取最適合的指標建立四川省公路客運量預(yù)測模型,對提高客運量的預(yù)測精度有著十分重要的意義。
圖1 影響公路客運量的因素圖
公路客運量在很大程度上受到經(jīng)濟發(fā)展水平的影響,人口數(shù)量、地區(qū)的生產(chǎn)總值的變化都會使客運量發(fā)生相應(yīng)的變化。而居民收入與消費水平在很大程度上反映了城鎮(zhèn)居民的消費與購買能力,與交通出行之間有著一定的聯(lián)系[8]。運輸設(shè)施的建設(shè)水平在很大程度上反映了道路運輸行業(yè)的發(fā)展狀況。本文中所選取的影響四川省客運量的具體影響因素如圖1所示。
3實例分析
通過SPSS回歸分析多個指標,最終確定選取地區(qū)生產(chǎn)總值(X1)、社會消費品零售總額(X2)、旅游人數(shù)(X3)、公路總里程(X4)、農(nóng)村家庭人均純收入(X5)、公路營運載客汽車擁有量(X6)、第二產(chǎn)業(yè)比重(X7)、高速公路總里程(X8)、人均地區(qū)生產(chǎn)總值(X9)九個相關(guān)指標進行主成分分析,在保留大部分原信息的前提下,對這些變量進行簡化分析,轉(zhuǎn)化為不相關(guān)的少數(shù)變量,綜合這些變量建立回歸模型。
本文采用四川省2003-2012年的統(tǒng)計年鑒數(shù)據(jù)進行分析[9],根據(jù)統(tǒng)計年鑒所查數(shù)據(jù),四川省各年的具體指標值如表1中所示。Y表示年公路客運量。采用SPSS軟件對指標進行標準化處理,表2為相關(guān)系數(shù)矩陣,由表2中可以看出各指標的相關(guān)系數(shù)均>0.5,因此這些指標可以用來進行預(yù)測,模型是準確的。
表1 2003-2012年四川省相關(guān)指標值表
表2 相關(guān)系數(shù)矩陣表
由相關(guān)性系數(shù)矩陣表(見表2)可以看出自變量數(shù)目眾多,且變量之間存在明顯的相關(guān)性,因此在建立模型時會存在嚴重的多重共性問題。為了驗證是否存在多重共線性的問題,先通過SPSS軟件建立因變量與自變量的多元線性回歸模型[10]。
表3 多重共線性診斷表
通過SPSS軟件進行回歸分析檢驗多重共性,選取容差和各自變量的方差擴大因子為多重共線性統(tǒng)計量,由診斷結(jié)果(見表3)可以明顯看出,所有自變量的方差擴大因子均>10,容差均<0.1。說明各自變量之間存在嚴重的多重共線性,這樣在很大程度上影響預(yù)測精度,因此應(yīng)采用主成分分析法對其進行簡化分析,將原來眾多的彼此相關(guān)的指標變量轉(zhuǎn)化為一組新的互不相關(guān)的指標變量,并再一次通過回歸分析,建立公路客運量預(yù)測模型,進行科學準確的預(yù)測。
通過SPSS軟件對現(xiàn)有自變量X1,X2,…X9進行主成分分析,得到總方差解釋表(見下頁表4)。由表4中可以看到提取的兩個主成分的特征值均>1,第一主成分的特征值為6.992,方差為77.693%;第二主成分的特征值為1.018,方差為11.314%。前兩個主成分的累積貢獻率>85%,達到了89.007%,這說明前兩個主成分已經(jīng)反映了原來九個變量的89.007%的信息,原有的9個變量可以簡化為這兩個主成分進行簡化分析。圖2為碎石圖,從圖中可以看出,從第三個主成分開始,特征值已經(jīng)趨于平穩(wěn),因此第二個主成分是合理的,則選取前兩個主成分建立預(yù)測模型即可。
表5為初始因子載荷矩陣,即成分矩陣,從表中可以看出地區(qū)生產(chǎn)總值(X1)、旅游人數(shù)(X3)、公路總里程(X4)、農(nóng)村家庭人均純收入(X5)、公路營運載客汽車擁有量(X6)、第二產(chǎn)業(yè)比重(X7)、高速公路總里程(X8)、人均地區(qū)生產(chǎn)總值(X9)在第一主成分上有很高的載荷,社會消費品零售總額(X2)、在第二主成分上占有很高的載荷,因此兩個主成分基本可以反映這9個變量的全部信息,從而可以用這兩個新變量代替以前的相關(guān)變量。
表4 總方差解釋表
表5 初始因子載荷矩陣表
圖2 碎石圖
然而只通過因子載荷矩陣還不能得出主成分的表達式,還需要把初始因子載荷中的每列系數(shù)除以相應(yīng)主成分的特征根的平方根后才能得到主成分的系數(shù)向量。將標準化之后的數(shù)據(jù)與得到的特征向量相乘,可以得到主成分表達式[11]。特征向量為:
Z1=0.37*ZX1+0.22*ZX2+0.27*ZX3+0.37*ZX4+0.37*ZX5+0.29*ZX6+0.37*ZX7+0.34*ZX8+0.347ZX9
Z2=-0.16*ZX1+0.69*ZX2+0.25*ZX3+0.09*ZX4+0.18*ZX5+0.51*ZX6+0.08*ZX7+0.32*ZX8+0.17ZX9
以標準化之后的ZY為因變量,將Z1、Z2得到的評價值與ZY做多元線性線性回歸分析,得到回歸模型為:
ZY=0.376Z1+0.007Z2
(1)
得到標準誤差估計如表6所示,其為0.996,調(diào)整后的R2為0.994,標準估計誤差為0.076,說明該模型的總體擬合效果是良好的,并且該回歸模型能夠通過F檢驗與t檢驗,在統(tǒng)計學中是具有意義的,能夠?qū)瓦\量做出合理的預(yù)測。
表6 回歸模型誤差分析表
由于提取的兩個主成分與原始的自變量X1,X2,…X9存在著線性關(guān)系,經(jīng)過相關(guān)轉(zhuǎn)換,用X1,X2,…X9代替主成分Z1與Z2,得到因變量Y(四川省公路客運量)與原始變量X1,X2,…X9的線性回歸方程:Y=0.92*X1+1.513*X2+7 725.52*X3+815.95*X4+3.65*X5+3 684.43*X6+141 436.11*X7+63 712.18*X8+0.74*X9+32 899.82
分別將2003-2012年各年四川省的相關(guān)指標數(shù)據(jù)(即X1,X2,…X9)代入主成分回歸模型中,可以求得各年的公路客運量預(yù)測值,并將預(yù)測值與實際值進行比較,如圖3所示,主成分回歸模型得到的預(yù)測值與實際值的擬合較好,最高誤差僅為3.04%,10年的平均誤差為1.08%,基本上能夠滿足公路客運量的預(yù)測需要。
圖3 由主成分回歸模型得到的四川省公路客運量預(yù)測值與實際值比較圖
4結(jié)語
從文中的實例可以看到影響公路客運量的因素是眾多的,全面準確地把握這些影響因素對公路客運量的預(yù)測十分關(guān)鍵。但由于眾因素的較大多重共線性,直接采用多元回歸分析已經(jīng)不具有較大的意義,主成分回歸分析將多個相關(guān)變量轉(zhuǎn)化為互不相關(guān)的變量的優(yōu)點在對公路客運量的預(yù)測中具有一定的應(yīng)用價值。
本文在對四川省公路客運量的預(yù)測中,考慮了影響客運量的諸多因素,因此預(yù)測精度較高,但是由于各時期的變量因素會發(fā)生變化,預(yù)測模型也會相應(yīng)發(fā)生變化,因此主成分回歸模型適用于因素指標發(fā)展較為明確的短期預(yù)測。
參考文獻
[1]交通部綜合規(guī)劃司.國家公路運輸樞紐布局規(guī)劃[R].北京:中華人民共和國交通部,2007.
[2]馬銀波.公路運量長期預(yù)測的質(zhì)量與模型[J].西安交通大學學報,2000(20):74-77.
[3]姚新勝,蘇延升,孫金玲.公路客運短期運量預(yù)測研究[J].公路交通科技,2005,22(11):155-188.
[4]陸化普.交通規(guī)劃理論與方法[M].北京:清華大學出版社,1998.
[5]賈元華,敖谷昌,等.基于主成分回歸的公路客運量預(yù)測模型研究[J].交通標準化,2009(9):106.
[6]朱星宇,陳勇強.SPSS多元統(tǒng)計分析方法及應(yīng)用[M].北京:清華大學出版社,2011.
[7]Gao Haibo,Hong Wenxue,Cui Jianxin,etc.Optimization of Principal Component Analysis in Feature Extration[C]Harbin Proceedings of the 2007 IEEE in ternational conference on Mecha-tronice and Automation,2007(8):3128-3132.
[8]李為博.華東六省公路客運量預(yù)測研究[J].交通與運輸,2013(1):69-72.
[9]四川省統(tǒng)計局.四川統(tǒng)計年鑒-2012[M].北京:中國統(tǒng)計出版社,2012.
[10]高王翠,單飛,楊宇翔.基于SPSS主成分分析法在公路客運量預(yù)測中的應(yīng)用[J].山東交通科技,2011(2):9-12,20.
[11]張文霖.主成分分析在SPSS中的操作應(yīng)用[J].市場研究,2012.12:32-35.
Analysis of Highway Passenger Volume Forecasting Model based on Princi-pal Component Analysis Method
TAN Yi-ping
(School of Automobile,Chang’an University,Xi’an,Shaanxi,71000)
Abstract:Based on the basic theories and models of principal component analysis,and by using SPSS software,this article conducted the principal component analysis on relevant factors affecting the Si-chuan highway passenger volume,overcame the multicollinearity problem,and built the forecasting model of Sichuan highway passenger volume.According to the forecast results,this model has higher accuracy,suitable for the short-term passenger volume forecast with clearer influencing factors and index,it can meet the current highway passenger volume forecast needs in Sichuan,and it has some guiding role for highway passenger transport development in Sichuan region and is scientific and ef-fective.
Key Words:Principal component analysis;Multicollinearity;Highway passenger volume;Forecasting;Model analysis
收稿日期:2015-02-08
文章編號:1673-4874(2015)02-0078-06
中圖分類號:U492.4+13
文獻標識碼:A
DOI:10.13282/j.cnki.wccst.2015.02.020
作者簡介