李旭軍
(安徽經(jīng)濟(jì)管理學(xué)院 計(jì)算機(jī)工程系,安徽 合肥 230031)
基于PCA方法的地理系統(tǒng)分析
李旭軍
(安徽經(jīng)濟(jì)管理學(xué)院 計(jì)算機(jī)工程系,安徽 合肥 230031)
在多要素復(fù)雜系統(tǒng)的分析,利用主成分分析方法,用較少的變量代替原來較多的變量,可以簡化問題的處理,提高處理的效率.
復(fù)雜系統(tǒng);主成分分析法;地理系統(tǒng)
地理環(huán)境是多要素復(fù)雜系統(tǒng),進(jìn)行地理系統(tǒng)分析時(shí),多變量問題是經(jīng)常會遇到的.變量太多,無疑會增加分析問題的難度與復(fù)雜性,而且在許多實(shí)際問題中,多個(gè)變量之間是具有一定的相關(guān)關(guān)系的.在各個(gè)變量之間相關(guān)關(guān)系研究的基礎(chǔ)上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息.主成分分析把原來多個(gè)變量化為少數(shù)幾個(gè)綜合指標(biāo)的一種統(tǒng)計(jì)分析方法,是一種降維處理技術(shù)[1-3].
假設(shè)有n個(gè)地理樣本,每個(gè)樣本共有p個(gè)變量描述,這樣就構(gòu)成了一個(gè)n×p階的地理數(shù)據(jù)矩陣:
如何從這么多變量的數(shù)據(jù)中抓住地理事物的內(nèi)在規(guī)律性呢?要解決這一問題,自然要在p維空間中加以考察,這是比較麻煩的.為了克服這一困難,就需要進(jìn)行降維處理,即用較少的幾個(gè)綜合指標(biāo)來代替原來較多的變量指標(biāo),而且使這些較少的綜合指標(biāo)既能盡量多地反映原來較多指標(biāo)所反映的信息,同時(shí)它們之間又是彼此獨(dú)立的.那么,這些綜合指標(biāo)(即新變量)應(yīng)如何選取呢?顯然,其最簡單的形式就是取原來變量指標(biāo)的線性組合,適當(dāng)調(diào)整組合系數(shù),使新的變量指標(biāo)之間相互獨(dú)立且代表性最好[4-5].
如果記原來的變量指標(biāo)為x1,x2,…,xp,它們的綜合指標(biāo)——新變量指標(biāo)為x1,x2,…,xm(m≤p).則
在(2)式中,系數(shù)lij由下列原則來決定:
(1)zi與zj(i≠j;i,j=1,2,…,m)相互無關(guān);
(2)z1是x1,x2,…,xp的一切線性組合中方差最大者;z2是與z1不相關(guān)的x1,x2,…,xp的所有線性組合中方差最大者;……;zm是與z1,z2,……zm-1都不相關(guān)的x1,x2,…,xp的所有線性組合中方差最大者.
這樣決定的新變量指標(biāo)z1,z2,…,zm分別稱為原變量指標(biāo)x1,x2,…,xp的第一,第二,…,第m主成分.其中,z1在總方差中占的比例最大,z2,z3,…,zm的方差依次遞減.在實(shí)際問題的分析中,常挑選前幾個(gè)最大的主成分,這樣既減少了變量的數(shù)目,又抓住了主要矛盾,簡化了變量之間的關(guān)系.
從以上分析可以看出,找主成分就是確定原來變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的載荷lij(i=1,2,…,m;j=1,2,…,p),從數(shù)學(xué)上容易知道,它們分別是x1,x2,…,xp的相關(guān)矩陣的m個(gè)較大的特征值所對應(yīng)的特征向量.
主成分分析的計(jì)算步驟
通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計(jì)算步驟歸納如下:
在公式(3)中,rij(i,j=1,2,…,p)為原來變量xi與xj的相關(guān)系數(shù),其計(jì)算公式為
因?yàn)镽是實(shí)對稱矩陣(即rij=rji),所以只需計(jì)算其上三角元素或下三角元素即可.
首先解特征方程|λI-R|=0求出特征值λi(i=1,2,…,p),并使其按大小順序排列,即λ1≥λ2≥…,≥λp≥0;然后分別求出對應(yīng)于特征值λi的特征向量ei(i=1,2,…,p).
一般取累計(jì)貢獻(xiàn)率達(dá)85-95%的特征值λ1,λ2,…,λm所對應(yīng)的第一,第二,……,第m(m≤p)個(gè)主成分.
由此可以進(jìn)一步計(jì)算主成分得分:
對于某區(qū)域地貌-水文系統(tǒng),其57個(gè)流域盆地的九項(xiàng)地理要素:x1為流域盆地總高度(m),x2為流域盆地山口的海拔高度(m),x3為流域盆地周長(m),x4為河道總長度(km),x5為河道總數(shù),x6為平均分叉率,x7為河谷最大坡度(度),x8為河源數(shù),x9為流域盆地面積(km2).
1、首先對原始數(shù)據(jù)作標(biāo)準(zhǔn)化處理,由公式(4)計(jì)算得相關(guān)系數(shù)矩陣(見表1).
表1 相關(guān)系數(shù)矩陣
2、由相關(guān)系數(shù)矩陣計(jì)算特征值,以及各個(gè)主成分的貢獻(xiàn)率與累計(jì)貢獻(xiàn)率(見表2).由表2-16可知,第一,第二,第三主成分的累計(jì)貢獻(xiàn)率已高達(dá)86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可.
(3)對于特征值 λ1=5.043,λ2=1.746,λ3=0.997分別求出其特征向量e1,e2,e3,并計(jì)算各變量x1,x2,……,x9在各主成分上的載荷得到主成分載荷矩陣(見表3).
表2 特征值及主成分貢獻(xiàn)率
表3 主成分載荷矩陣
從表3可以看出,第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關(guān),這是由于這六個(gè)地理要素與流域盆地的規(guī)模有關(guān),因此第一主成分可以被認(rèn)為是流域盆地規(guī)模的代表:第二主成分z2與x2有較大的正相關(guān),與x7有較大的負(fù)相關(guān),而這兩個(gè)地理要素是與流域切割程度有關(guān)的,因此第二主成分可以被認(rèn)為是流域侵蝕狀況的代表;第三主成分z3與x6有較大的正相關(guān),而地理要素x6是流域比較獨(dú)立的特性——河系形態(tài)的表征,因此,第三主成成可以被認(rèn)為是代表河系形態(tài)的主成分.
以上分析結(jié)果表明,根據(jù)主成分載荷,該區(qū)域地貌-水文系統(tǒng)的九項(xiàng)地理要素可以被歸為三類,即流域盆地的規(guī)模,流域侵蝕狀況和流域河系形態(tài).如果選取其中相關(guān)系數(shù)絕對值最大者作為代表,則流域面積,流域盆地出口的海拔高度和分叉率可作為這三類地理要素的代表,利用這三個(gè)要素代替原來九個(gè)要素進(jìn)行區(qū)域地貌-水文系統(tǒng)分析,可以使問題大大地簡化.
〔1〕張科靜.基于主成分分析法的城市創(chuàng)意競爭力評價(jià)[J].情報(bào)雜志,2010,29(4):68-71.
〔2〕田盈.基于加權(quán)主成分分析的企業(yè)技術(shù)創(chuàng)新績效評價(jià)模型研究[J].科技進(jìn)步與對策,2008,25(3):130-133.
〔3〕張洪波.主成分分析法與概率神經(jīng)網(wǎng)絡(luò)在模擬電路故障診斷中的應(yīng)用[J].計(jì)算機(jī)測量與控制,2008,16(12):1789-1792.
〔4〕楊海瀾.主成分分析結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù)在焊接質(zhì)量控制中的應(yīng)用[J].焊接學(xué)報(bào),2003,24(4):55-60.
〔5〕李曉剛.基于主成分回歸的公路客運(yùn)量預(yù)測模型研究[J].交通標(biāo)準(zhǔn)化,2009,(156):187-191.
P208
A
1673-260X(2011)12-0041-03