朱玉清,楊寶玉,李瑞閣
(南陽理工學院 應用數學系,河南 南陽473004)
主成分分析與VARCLUS在綜合評價中的異同比較
朱玉清,楊寶玉,李瑞閣
(南陽理工學院 應用數學系,河南 南陽473004)
主成分分析和VARCLUS是兩種較重要的多元統計分析方法 ,二者既存在一定的聯系,又有著明顯的區(qū)別。文章從方法、概念、基本思想、數學模型、綜合指標數目的判斷方法、計算過程諸方面,較詳盡地探討二者的異同,并舉例說明二者在實際問題中的應用。
主成分分析;VARCLUS分析;綜合評價
主成分分析和VARCLUS表面上看是完全不同的兩種多元統計方法,實質上二者之間既有著密切的聯系,又有著明顯的區(qū)別。兩種方法均可對相關性較強的多指標,用為數較少的、互不相關的新指標提取出原指標的大部分信息,達到降維的目的,并利用新指標的得分加權平均,計算綜合得分,從而對評價對象作出科學的評價。在解決實際問題時,可根據需要選擇適當的方法。
主成分分析是將多個相關性較強的指標化為少數幾個互不相關的綜合指標的多元統計方法。本文一方面利用SPSS軟件,先對變量指標進行主成分分析,選取變量的主成分,保存主成分變量,計算出主成分得分及綜合得分,并進行綜合排名。
另外,Varclus過程是SAS軟件對相關性較強的多指標變量進行聚類分析的過程,在完成變量聚類的同時也確定了變量類內的公因子,據此也可計算公因子得分及綜合得分,并進行綜合排名。
兩種方法的出發(fā)點都是變量的相關系數矩陣(或協方差陣),在損失較少信息的前提下,把多個變量指標(存在較強的相關性)綜合成少數幾個綜合變量研究總體各方面信息的多元統計方法。二者均是考察多個變量相關性的多元統計方法,均能通過少數幾個彼此不相關的主分量解釋多個變量間的內部結構,達到降維的目的。計算因子得分及綜合得分,對評價對象指標進行排序,作出科學的評價。
(1)方法不同
SPSS是先確定主成分 (由諸變量的線性組合構成),計算主成分得分及綜合得分,再按綜合得分對評價對象進行排序;SAS的VARCLUS是邊對變量聚類邊確定各自的公因子(由同類變量的線性組合構成),計算因子得分及綜合得分,再按綜合得分對評價對象進行排序。
(2)概念不同
主成分分析是將多個指標化為少數互相無關的綜合指標的統計方法。VARCLUS是對一組數值變量進行系統聚類或逐步聚類,聚類的選擇要使每一類的第一主成分或重心分量所解釋的變異為最大。它是將一組數值變量分成不相交的或分層的類,提取出每一類的類內變量的線性組合作為公因子,因此又稱主成分聚類。
(3)基本思想不同
主成分分析是將原來眾多具有一定相關性的指標重新組合成一組新的相互無關的綜合指標代替原來指標。VARCLUS是通過聚類及聚類選擇,確定每一類的類內變量線性組合代替原變量指標。
(4)數學模型不同
主成分分析的數學模型實質上是一種變換,通過變量變換選取具有較大變差的主成分,舍棄那些變差小的主成分。VARCLUS是通過聚類的選擇要使每一類的第一主成分或重心分量所解釋的變異為最大。
(5)綜合指標數目的判斷方法不同
主成分分析綜合指標數目可由主成分貢獻率(一般達到85%以上),協方差陣的特征值(一般取大于1的)或崖底碎石圖的陡緩變化分界點值來確定等等。VARCLUS可由特征值確定(一般特征值大于1,停止分類),按解釋變異的百分比最小或第二特征值最大進行分類或由VARCLUS聚類信息表提供的信息進行分類。
(6)因子綜合得分的表達式不同
表1 主成分系數及方差的解釋表
表1為某年各地農民生活費用支出數據,其中area為地區(qū)、x1為食品、x2為衣著、x3為燃料、x4為住房、x5為生活用品及其他、x6為文化生活服務支出。試對本年度各省份農民生活費用支出進行綜合評價。
(1)SPSS軟件進行主成分分析
利用SPSS的Analyze-Data Reduction-Factor Analysis過程對變量做主成分分析,雖然主成分的特征值只有兩個大于1,一般取前兩個主成分,但從崖底碎石圖看前四個主成分散點位于陡坡上,后兩個形成平臺,較平緩;從變量的共同度看,所有變量的共同度均在90%以上,提取這四個主成分對各變量有很強的解釋力。按公共因子個數的大樣本檢驗,可解得 m<3,這里樣本數 n=28較大,m相對于p較小,假設常被拒絕,導致保留更多的因子,且為了減少信息損失,使綜合評價和后面的聚類分析最大程度地接近原始狀態(tài)。本文選前四個主成分,此時累計方差貢獻率為96.121%(表1),相應的四個主成分分別為(主成分系數見表1)
其次保存各主成分得分見表 2,利用 SPSS的 Transform-Compute過程,由公式
計算出綜合得分見表2。
最后利用SPSS的Rank-Cases過程,按照綜合得分對該年度各地區(qū)農民生活費用支出進行綜合排序(表2)
(2)SAS 軟件進行變量聚類分析
利用SAS的VARCLUS過程編程對變量進行聚類分析。若按第二特征值大于1進行聚類,可將原變量聚為兩類,能解釋的變異為4.392786,占總變異6的0.7321較小;由一個類成分能解釋的變異占全部類變量指標總變異的最小比例為0.6786較?。桓黝愖畲蟮诙卣髦禐?.7641較大;各類中1個變量(1-R2own)與它所在類(1-R2next)成分的最小相關系數的平方為0.3716較?。?個變量所在類的與它最近類的最大比值為0.6440較大(表4)。為了克服上述信息之不足并方便與(1)作比較,對變量作四步聚類,聚類結果分別為x1,x4,x5為一類;x3,x6,x2各為一類。此時,能解釋的變異為5.552920,占總變異6的0.9255較大;由一個類成分能解釋的變異占全部類變量指標總變異的最小比例為0.8510較大;各類最大第二特征值為0.302296較??;各類中1個變量(1-R2own)與它所在類(1-R2next)成分的最小相關系數的平方為0.8015較大;1個變量所在類的與它最近類的最大比值為0.3441較?。ū?),分為四類較為合適。由標準化得分回歸系數,可得到4個主成分方程分別為(系數見表3)。
由公式 Z=(2.55292*c1+c2+c3+c4)/6,計算出綜合得分(表 5)。
表3 標準得分系數表
表4 VARCLUS聚類信息表
表5 VARCLUS變量聚類的主成分、綜合得分及排序
最后并利用SPSS的Rank-Cases過程,按照綜合得分對該年度各地區(qū)農民生活費用支出進行綜合排序(表5)。
(3)結果分析
從主成分得分及VARCLUS主成分得分值看出:按單個主成分得分排名,28個省市自治區(qū)的排名是不同的;按綜合得分值排名也有較大差異(僅比較綜合排名)。如北京在表2中綜合主成分得分排第27名,而在表5中排第28名,上海情形與之次序相反;福建在表2中綜合主成分得分排第20名,而在表5中排第18名;江蘇在表2中綜合主成分得分排18名,而在表5中為第21名;江西在表2中綜合主成分得分排17名,而在表5中為第14名;陜西在表2中綜合主成分得分排8名,而在表5中為第5名;山東在表1中綜合主成分得分排15名,而在表5中排第20名……,這種分析的差異勢必會對有關部門提出的政策、建議等產生較大的影響,因此不能混用。若需了解變量的聚類情況應首選后者。
本文從理論和實證角度,分析了這兩種方法的異同及如何分別運用SPSS及SAS軟件進行分析。從實證結果看,運用主成分分析和VARCLUS進行綜合定量分析時,不但綜合排名存在差異,而且定量值也存在差異,這必然影響后面的綜合定性分析結果。因此應正確使用兩種方法,在需要對變量進行聚類分析時,首選VARCLUS方法。
[1]張文彤.Spss統計分析高級教程[M].北京:高等教育出版社,2004.
[2]董大鈞.SAS統計分析應用[M].北京:電子工業(yè)出版社,2008.
[3]梅長林,范金城.數據分析方法[M].北京:高等教育出版社,2008.
[4]金蛟.主成分分析方法在綜合評價中的應用[J].中國衛(wèi)生統計,2008.2,25(1).
[5]林海明.主成分分析與初始因子分析的異同[J].統計與決策,2006,(4).
[6]魏艷華,王丙參,田玉柱.主成分分析與因子分析的比較研究[J].天水師范學院學報,2009,29(2).
C81
A
1002-6487(2010)22-0155-03
朱玉清(1967-),女,河南南陽人,副教授,研究方向:應用數學。
楊寶玉(1965-),男,河南南召人,副教授,研究方向:高等數學研究。
李瑞閣(1964-),女,河南南陽人,碩士,教授,研究方向:數理統計。
(責任編輯/易永生)