谷偉偉,王蘭,蘆凌飛
(中國礦業(yè)大學(xué)理學(xué)院,江蘇徐州 221116)
核主成分法的應(yīng)用
谷偉偉,王蘭,蘆凌飛
(中國礦業(yè)大學(xué)理學(xué)院,江蘇徐州 221116)
分別利用主成分法和核主成分法,對(duì)2010年江蘇省13個(gè)市的旅游業(yè)發(fā)展情況進(jìn)行對(duì)比分析,發(fā)現(xiàn)核主成法分析的結(jié)果更加合理,并分析了原因,最后對(duì)江蘇未來的旅游業(yè)發(fā)展提出了建議,供有關(guān)部門參考.
主成分分析;核主成分分析;SPSS;Matlab
主成分分析是重要的多元統(tǒng)計(jì)方法,它的應(yīng)用一直是個(gè)熱點(diǎn)問題.文獻(xiàn)[1]從矩陣的特征值和特征向量出發(fā),揭示了主成分分析和奇異值分解的關(guān)系,并給出了一個(gè)物理應(yīng)用.文獻(xiàn)[2]、[3]給出了主成分法在人臉識(shí)別中的應(yīng)用.文獻(xiàn)[4-10]給出了核主成分分析在不同領(lǐng)域中的應(yīng)用,但是都忽略了相關(guān)結(jié)論的證明,而且也沒給出Matlab算法.本文首先給出核主成分模型中相關(guān)結(jié)論的證明,然后用Matlab算出綜合得分,最后和用SPSS算的主成分分析結(jié)果相對(duì)比,發(fā)現(xiàn)核主成分分析的結(jié)果較好,提高了綜合評(píng)價(jià)的合理性.
1.1 主成分模型
設(shè)有n個(gè)樣品,每個(gè)樣品觀測p個(gè)變量,這p個(gè)變量具有較強(qiáng)的相關(guān)性.為了消除量綱不同造成的影響,將樣本觀測數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的變量為X=(x1,x2,…,xp)′,其相關(guān)矩陣R的秩為r.
設(shè)λ1,λ2,…,λr,0,…,0為R的p個(gè)特征值,不失一般性λ1≥λ2≥…≥λr>0.
設(shè)主成分Y=(y1,y2,…,yp)′,則主成分模型為Y=L′X,且LL′=Ip.
即
1.2 核主成分模型
于是,我們有
(2)式說明主成分是樣本和特征向量的內(nèi)積,或者是樣本在特征向量上的投影.
設(shè)原始數(shù)據(jù)的樣本為x1,x2,…,xn.xk∈Rp,k=1,2,…,n(即p個(gè)變量,n個(gè)樣本),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后
作一個(gè)映射?,?:Rp→F,進(jìn)而空間F中的樣本為?(x1),?(x2),…,?(xn),則協(xié)方差陣為
對(duì)(3)式兩邊同時(shí)作內(nèi)積有
令kij=<?(xi),?(xj)>,α=(α1,α2,…αn)′,于是
對(duì)于(4)式左邊,
對(duì)于(4)式右邊,可以同理算出,這里不再贅述.
所以nλKα=K2α.所以α為K的屬于特征值nλ的特征向量.
最后我們算出F空間中的主成分,即用F中的樣本和特征向量v作內(nèi)積.設(shè)第k個(gè)主成分記為tk,則
其中,vk表示的第k個(gè)特征向量.
由于?是未知的,因此<?(xi),?(x)>不好求,這里用核函數(shù)來代替內(nèi)積,即
K=(Kij)=[s<xi,xj>+c]d,s,c,d的選取要結(jié)合經(jīng)驗(yàn),見文獻(xiàn)[11].
本文選取的數(shù)據(jù)來自《2011中國區(qū)域經(jīng)濟(jì)統(tǒng)計(jì)年鑒》中6個(gè)旅游指標(biāo),具體指標(biāo)如下:
x1—接待入境旅游者人數(shù)(萬人次);x2—接待外國人數(shù)(萬人次);x3—國際旅游外匯收入(萬美元);x4—國內(nèi)旅游人數(shù)(萬人次);x5—國內(nèi)旅游收入(億元);x6—星級(jí)飯店(個(gè)).這6個(gè)指標(biāo)都是正向化指標(biāo).
為了消除量綱的影響,我們對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化變量為ZX1~ZX6(見表1).經(jīng)過SPSS計(jì)算,KMO值為0.807>0.6,Bartlett球形檢驗(yàn)值為0.000,說明適合進(jìn)行主成分分析.
最大特征根為5.563,方差貢獻(xiàn)率為92.717%.成分矩陣和成分得分系數(shù)陣見表2.下面用核主成分法分析.采用核函數(shù)Kij=[<xi,xj>]3,A是標(biāo)準(zhǔn)化后的矩陣(見表1).進(jìn)而求出K的特征值和特征向量,即eig(K),[v,d]=eig(K).經(jīng)計(jì)算,K的最大特征值為2.9764,特征貢獻(xiàn)率為98%.將以上兩種方法的計(jì)算結(jié)果放在一起對(duì)比分析,見表3.
表1 標(biāo)準(zhǔn)化后的數(shù)據(jù)
表2 成分矩陣和成分得分系數(shù)陣
表3 兩種方法的結(jié)果對(duì)比
CLU5表示用聚類方法將樣本分為5類. CLU5-1是主成分法分類的結(jié)果;CLU5-2是用核主成分法分類的結(jié)果.
經(jīng)過對(duì)比我們發(fā)現(xiàn),主要的問題出在徐州的得分和排名上.從客觀條件上分析:揚(yáng)州、鎮(zhèn)江、常州地處長江中下游,許多風(fēng)景名勝和旅游城鎮(zhèn)都因江而立,因江而興.揚(yáng)州是中國歷史文化名城,有很多歷史文化古跡,另外,古運(yùn)河旅游線是江蘇省“十五”期間重點(diǎn)開發(fā)的8條旅游線路之一,運(yùn)河對(duì)揚(yáng)州、鎮(zhèn)江的城市景觀和整體旅游業(yè)發(fā)展都有強(qiáng)大的帶動(dòng)作用.常州位于蘇南,受到上海的輻射帶動(dòng)作用,經(jīng)濟(jì)發(fā)達(dá),旅游業(yè)的基礎(chǔ)配套設(shè)施比較齊全,如星級(jí)賓館的數(shù)量比較多,游樂場也會(huì)相對(duì)多些.總體而言,揚(yáng)州、鎮(zhèn)江、常州的自然風(fēng)景優(yōu)美,旅游資源豐富,將它們分在一起是合理的.而徐州是重要的交通樞紐,它的重工業(yè)比較發(fā)達(dá),污染嚴(yán)重.它的旅游業(yè)主要是文化旅游,自然風(fēng)景不是很多,這和蘇北的其他4個(gè)城市接近,因此,將徐州和淮安、泰州這些城市歸在一起比較合適.
之所以出現(xiàn)上述情況,是因?yàn)橹鞒煞值姆讲钬暙I(xiàn)率為92.717%,而核主成分的方差貢獻(xiàn)率為98%,核主成分的降維效果很顯著,提取的信息較多.
江蘇旅游業(yè)發(fā)展的主要問題是不均衡.蘇南的旅游業(yè)發(fā)展水平最高,蘇中次之,蘇北最低.
對(duì)于蘇北:蘇北旅游業(yè)和蘇南地區(qū)相比,存在較大差距,主要是蘇北旅游資源開發(fā)落后.但是蘇北的旅游業(yè)潛力很大,蘇北5市是江蘇省旅游資源的富集區(qū),集中了兩漢文化、山水海濱、生態(tài)濕地、珍稀動(dòng)物、名人名泉和淮揚(yáng)美食等品牌資源.因此,要整合蘇北的互補(bǔ)性旅游資源.
對(duì)于蘇中、蘇南:建議加大資金和科技投入,大力改善環(huán)境.
[1]Jonathon Shlens.A Tutorial on Principal Component Analysis[EB/OL].[2012-12-01L]http://wenku.baidu.com/view/a1f5ff4733687e21af45a9bf.html. 2009,4.
[2]Rajkiran G.,Asari Vijayan K.An improved face recognition technique based on modular PCA approach[J].Pattern Recognition Lett,2004,25(4):429-436.
[3]Yang,Jian,Zhang avid.Two-dimensional PCA:A new approach to appearance-based face representation and recognition[J].IEEE Trans Pattern Anal Machine Intell,2004,26(1):131-137.
[4]李磊,金菊良,梁忠民.核主成分分析的參數(shù)優(yōu)化及其在水資源利用綜合評(píng)價(jià)中的應(yīng)用[J].水利水電科技進(jìn)展,2009,29(4):36-38.
[5]肖慧,劉蘇東,黃小燕,等.基于核主成分的神經(jīng)網(wǎng)絡(luò)集合預(yù)報(bào)建模研究[J].計(jì)算機(jī)仿真,2010,27(12):163-166.
[6]陳祥濤,張前進(jìn).基于核主成分分析的步態(tài)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2011,31(5):1237-1241.
[7]呂薇,王新峰,孫智信.基于核主成分分析的高校科技創(chuàng)新能力評(píng)價(jià)研究[J].國防科技大學(xué)學(xué)報(bào),2008,30(3):81-85.
[8]程艷秋,遲國泰.基于核主成分分析的生態(tài)評(píng)價(jià)模型及其應(yīng)用研究[J].中國管理科學(xué),2011,19(3):182-190.
[9]李明月,任九泉.基于核主成分分析和加權(quán)聚類分析的綜合評(píng)價(jià)方法[J].統(tǒng)計(jì)與決策,2010,16:158-160.
[10]徐義田,王來生.核主成分分析在企業(yè)經(jīng)濟(jì)效益評(píng)價(jià)中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2006,36(1):35-38.
[11]楊道軍.核主成分分析法在生態(tài)經(jīng)濟(jì)可持續(xù)發(fā)展評(píng)價(jià)中的應(yīng)用[J].環(huán)境科學(xué)與技術(shù),2007,30(12):91-93.
The Application of Kernel Principal Component Analysis
GU Wei-wei,WANG Lan,LU Ling-fei
(School of Science,China University of Mining and Technology,Xuzhou 221116,China)
In this paper,principal component analysis method and kernel principal component analysis method are used to research tourism development of thirteen cities in Jiangsu Province in 2010.The result shows that the kernel principal component analysis result is more reasonable,and the reasons are analyzed.Lastly,by using statistics analysis,some suggestions about future tourism development of Jiangsu Province are put forward for some departments.
principal component analysis;kernel principal component analysis;SPSS;Matlab
O153.5
A
1008-2794(2013)04-0020-04
2013-03-18
谷偉偉,碩士研究生,研究方向:多元統(tǒng)計(jì)分析,E-mail:864037364@qq.com.