劉高生
摘 要:
主成分分析能夠?qū)Ω鞣N數(shù)據(jù)進(jìn)行降維,應(yīng)用廣泛,但當(dāng)?shù)玫降慕Y(jié)果和現(xiàn)實(shí)有差距時(shí)要進(jìn)行修正。利用層次分析方法對(duì)主成分的結(jié)果進(jìn)行修正。利用R軟件,給出了西部地區(qū)新型城鎮(zhèn)化水平的綜合得分,為西部地區(qū)新型城鎮(zhèn)化建設(shè)提供一定的指導(dǎo)。
關(guān)鍵詞:
R軟件;新型城鎮(zhèn)化;主成分分析;層次分析法
中圖分類號(hào):TB
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):16723198(2016)04021702
1 引言
主成分分析方法在綜合評(píng)價(jià)中是經(jīng)常用到的方法,其基本思想是變量降維,將大量相關(guān)的變量綜合成少數(shù)幾個(gè)主成分,從而簡(jiǎn)化問題,便于分析。然而,主成分分析方法有一定的局限性,其中一種局限為很多重要的變量往往占的權(quán)重比較小。新型城鎮(zhèn)化發(fā)展需要“動(dòng)力、質(zhì)量、公平”三者有機(jī)統(tǒng)一,但是運(yùn)用主成分之后,公平性的指標(biāo)占的比例較小,這與新型城鎮(zhèn)化的內(nèi)涵不相符。一方面由于城鎮(zhèn)化公平性的指標(biāo)不易得,另一方面體現(xiàn)了主成分分析方法的局限性。
本文嘗試對(duì)主成分分析方法的局限性進(jìn)行改進(jìn)。以西部地區(qū)新型城鎮(zhèn)化水平測(cè)度為例,基于R軟件,首先運(yùn)用主成分分析方法,得到幾個(gè)綜合的主成分及其權(quán)重,之后利用層次分析方法,通過比較矩陣確定主成分權(quán)重,然后利用加權(quán)方法最終確定綜合主成分的權(quán)重,最后給出西部地區(qū)新型城鎮(zhèn)化的綜合得分。
2 西部地區(qū)新型城鎮(zhèn)化測(cè)度
選取的西部地區(qū)包括內(nèi)蒙古、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆。考慮西部地區(qū)新型城鎮(zhèn)化的特殊性及相關(guān)指標(biāo)的易得性,參照王等的城鎮(zhèn)化指標(biāo)的選取,本文從新型城鎮(zhèn)化發(fā)展動(dòng)力、發(fā)展質(zhì)量以及發(fā)展公平等方面選取了10個(gè)指標(biāo),指標(biāo)如下:人口地區(qū)生產(chǎn)總值、資本形成總額、公共財(cái)政收入、城鎮(zhèn)居民消費(fèi)、年末公共交通車輛運(yùn)營(yíng)數(shù)、年末實(shí)有道路長(zhǎng)度、生活垃圾清運(yùn)量、森林覆蓋率、城鎮(zhèn)居民人均可支配收入、年末城鎮(zhèn)人口比重。數(shù)據(jù)來自2014年中國(guó)統(tǒng)計(jì)年鑒。
2.1 主要函數(shù)說明
(1)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的函數(shù):scale()函數(shù)。函數(shù)用法:scale(x,center=TRUE,scale=TRUE),主要參數(shù):x:數(shù)值型矩陣;center和scale均為邏輯參數(shù),當(dāng)center=TRUE,scale=TRUE時(shí),對(duì)x進(jìn)行標(biāo)準(zhǔn)化處理。
(2)KMO檢驗(yàn)及Bartlett球形檢驗(yàn)函數(shù):KMO()函數(shù)及cortest.bartlett()。函數(shù)用法:KMO(r),主要參數(shù):r:相關(guān)系數(shù)矩陣。
cortest.bartlett(R,n=NULL),主要參數(shù):R:相關(guān)系數(shù)矩陣;n:樣本容量。在使用cortest.bartlett()時(shí),需要加載psych包。
(3)主成分分析主要函數(shù):principal()。函數(shù)用法:principal(r,nfactors=1,residuals=FALSE,rotate="varimax",n.obs=NA,covar=FALSE,scores=TRUE,missing=FALSE,impute="median",oblique.scores=TRUE,method="regression"),主要參數(shù):r:相關(guān)系數(shù)矩陣或是原始數(shù)據(jù)矩陣;nfactors:需要提取的主成分個(gè)數(shù),默認(rèn)為1;rotate:旋轉(zhuǎn)方法,默認(rèn)的為方差最大化旋轉(zhuǎn)varimax;scores:當(dāng)scores=TRUE時(shí),計(jì)算主成分得分。在使用principal()時(shí),需要加載psych包。
2.2 應(yīng)用實(shí)例及解釋
2.2.1 分析的基本步驟
第一步:讀入數(shù)據(jù)。read.csv()函數(shù)讀入數(shù)據(jù)。第二步:對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括對(duì)逆變量的處理以及數(shù)據(jù)的標(biāo)準(zhǔn)化處理。由于我們選擇的變量均為正指標(biāo)及中性指標(biāo),因此我們只對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。運(yùn)用的函數(shù)為scale()函數(shù)。第三步:進(jìn)行KMO檢驗(yàn)及Bartlett球形檢驗(yàn),Bartlett球形檢驗(yàn)的P值小于0.05時(shí),可以認(rèn)為相關(guān)系數(shù)矩陣與單位矩陣有顯著性差異。當(dāng)KMO檢驗(yàn)的值大于0.5時(shí),適合做主成分分析。運(yùn)用的函數(shù)為KMO()和cortest.bartlett()。第四步:主成分提取、旋轉(zhuǎn)命名及主成分得分的計(jì)算。一般根據(jù)相關(guān)系數(shù)矩陣的特征值大于1來確定主成分的個(gè)數(shù),或者選取累計(jì)方差貢獻(xiàn)率大于0.85時(shí)的特征根的個(gè)數(shù)為主成分的個(gè)數(shù)。通過旋轉(zhuǎn),使得一個(gè)變量只在盡可能少的成分上有較高的載荷,這樣使得主成分的實(shí)際含義更加清晰,便于命名。當(dāng)主成分確定之后,可以計(jì)算各個(gè)主成分在每個(gè)樣本上的具體數(shù)值,這些數(shù)值被稱為主成分得分。運(yùn)用的函數(shù)為principal()。第五步:主成分權(quán)重確定,采用主成分權(quán)重與層次分析的權(quán)重結(jié)合的綜合賦權(quán)法:wj=ρwjp+(1-ρ)wje,其中為wjp主成分析得到的權(quán)重,wje為層次分析方法確定的權(quán)重,ρ為兩種方法的權(quán)重系數(shù),當(dāng)?shù)玫降闹鞒煞謾?quán)重系數(shù)與事實(shí)相差不大時(shí),一般ρ取為0.4,當(dāng)?shù)玫降闹鞒煞謾?quán)重系數(shù)與事實(shí)相差比較大時(shí),ρ可適當(dāng)減少。
2.2.2 結(jié)果解釋
讀取數(shù)據(jù):data<-read.csv("data.csv",header=TRUE)
Sdata<-scale(data[2:11])
KMO檢驗(yàn)及Bartlett球形檢驗(yàn):
library(mnormt);library(psych)
KMO(cor(Sdata));
cortest.bartlett(Sdata);
結(jié)果如下:KMO值為0.59
Bartlett球形檢驗(yàn):
Chi-Square:149.5036 df:45 p.value:
3.851722e-13
由于KMO檢驗(yàn)值為0.59大于0.5,且Bartlett球形檢驗(yàn)的P值小于0.05,則認(rèn)為該數(shù)據(jù)適合做主成分分析。
主成分分析:
pc<-principal(Sdata,nfactors=3,rotate="varimax",scores=TRUE)
部分結(jié)果如表1、表2:
由表2得:SS loadings為特征值,Proportion Var為方差解釋比例,當(dāng)選取3個(gè)主成分時(shí),方差貢獻(xiàn)率達(dá)到了94%,因此我們選取3個(gè)主成分。
由表1得:資本形成總額、公共財(cái)政收入、年末公共交通車輛運(yùn)營(yíng)數(shù)、年末實(shí)有道路長(zhǎng)度及生活垃圾清運(yùn)量在第一個(gè)成分上有較高的載荷,因此PC1可解釋為公共基礎(chǔ)設(shè)施,體現(xiàn)了新型城鎮(zhèn)化的質(zhì)量。人均地區(qū)生產(chǎn)總值、城鎮(zhèn)居民消費(fèi)及年末城鎮(zhèn)人口比重在第二個(gè)成分上有較高的載荷,因此PC2可解釋為經(jīng)濟(jì)基礎(chǔ),體現(xiàn)了新型城鎮(zhèn)化的動(dòng)力。森林覆蓋率及城鎮(zhèn)居民人均可支配收入在第三個(gè)成分上有較高的載荷,因此PC3可解釋為環(huán)境及收入,體現(xiàn)了新型城鎮(zhèn)化的公平。
由表3可得:新型城鎮(zhèn)化的質(zhì)量方面,四川最好,其次是內(nèi)蒙古,再次是新疆;新型城鎮(zhèn)化的動(dòng)力方面,內(nèi)蒙古最好,其次是重慶,再次是寧夏;新型城鎮(zhèn)化的公平方面,最好是廣西,其次是云南,再次是重慶。
新型城鎮(zhèn)化需要“動(dòng)力、質(zhì)量、公平”三者有機(jī)統(tǒng)一,其中公平方面非常重要,但是運(yùn)用主成分分析后三者的比例為0.46∶0.37∶0.17,公平性的比重占的很小,因此需要對(duì)其修正,修正方法用層次分析法。
層次分析方法的目標(biāo)層為新型城鎮(zhèn)化,指標(biāo)層為得到的三個(gè)主成分,我們僅僅計(jì)算指標(biāo)層的權(quán)重,因此只需構(gòu)造一個(gè)判斷矩陣即可,構(gòu)造判斷矩陣需要兩兩比較,參考及標(biāo)度得到判斷矩陣為:
由表4可得:新型城鎮(zhèn)化最好的地區(qū)為內(nèi)蒙古、其次是重慶、再次是廣西和四川。新型城鎮(zhèn)化最差的地區(qū)為青海和甘肅。在此基礎(chǔ)上充分考慮每個(gè)地區(qū)的特殊性及各個(gè)成分上的得分,合理規(guī)劃建設(shè)新型城鎮(zhèn)化。
3 總結(jié)
主成分分析能夠?qū)Ω鞣N數(shù)據(jù)進(jìn)行降維,應(yīng)用廣泛,但得到的結(jié)果和現(xiàn)實(shí)有差距時(shí)要進(jìn)行修正,我們利用層次分析方法對(duì)其結(jié)果進(jìn)行修正,最終給出了西部地區(qū)新型城鎮(zhèn)化的綜合得分,為西部地區(qū)新型城鎮(zhèn)化建設(shè)提供一定的指導(dǎo)。
參考文獻(xiàn)
[1]王琴梅,楊軍鴿.關(guān)天經(jīng)濟(jì)區(qū)新型城鎮(zhèn)化水平綜合評(píng)價(jià)—基于PCA分析法[J].西安財(cái)經(jīng)學(xué)院學(xué)報(bào),2015,(2):3036.
[2]牛曉春,杜忠潮,李同昇.基于新型城鎮(zhèn)化視角的區(qū)域城鎮(zhèn)化水平評(píng)價(jià)—以陜西省10個(gè)省轄市為例[J].干旱區(qū)地理,2013,(1):354363.
[3]謝益輝.基于R軟件rpart包的分類與回歸樹應(yīng)用[J].統(tǒng)計(jì)與信息論壇,2007,(9):6770.
[4]張貢生.中國(guó)特色的城鎮(zhèn)化:文獻(xiàn)綜述[J].蘭州商學(xué)院學(xué)報(bào),2014,(12):4649.
[5]R Core Team.R:A Language and Environment for Statistical Computing[Z].R Foundation for Statistical Computing,Vienna, Austria,2014,URL: http://www.Rproject.org/.