蘇忠玉, 李 瑋, 李 晴, 孫 玉
(大連海洋大學(xué) 信息工程學(xué)院, 遼寧 大連 116023)
大量的高維數(shù)據(jù)在許多現(xiàn)代應(yīng)用中變得越來越普遍,例如成像分析和數(shù)據(jù)分析。這些數(shù)據(jù)的巨大規(guī)模對(duì)計(jì)算速度和內(nèi)存方面構(gòu)成了巨大挑戰(zhàn)[1-2]。分析我國各省的經(jīng)濟(jì)發(fā)展?fàn)顩r應(yīng)該從多方面考察,比如該省(自治區(qū)或直轄市)的工業(yè)生產(chǎn)總值、固定資產(chǎn)投資、居民消費(fèi)水平、進(jìn)出口等指標(biāo)。但是,由于這些指標(biāo)都是對(duì)經(jīng)濟(jì)發(fā)展基本狀況的反映,它們自身之間就存在著較強(qiáng)的相關(guān)性,這樣在用這些指標(biāo)反映經(jīng)濟(jì)發(fā)展?fàn)顩r時(shí)就造成了信息的大量重疊。這種信息的大量重疊有時(shí)甚至?xí)⒔?jīng)濟(jì)發(fā)展?fàn)顩r的內(nèi)在規(guī)律,所以如何能找到一組較少但卻包含著較多信息量的變量,抓住主要矛盾分析數(shù)據(jù),同時(shí)使問題得到簡單化,成為了一個(gè)難題。本文提出的綜合數(shù)據(jù)分析方法解決了這一難題。利用主成分分析法使用SPSS軟件結(jié)合聚類分析,對(duì)31個(gè)省的經(jīng)濟(jì)發(fā)展?fàn)顩r進(jìn)行了綜合數(shù)據(jù)分析,該結(jié)論將為我國各省的經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)布局的科學(xué)規(guī)劃提供重要的數(shù)據(jù)分析依據(jù)。
本文提出了一種高效的綜合數(shù)據(jù)分析方法。首先,利用主成分分析法對(duì)31個(gè)省的經(jīng)濟(jì)發(fā)展數(shù)據(jù)進(jìn)行了分析,有效減少了數(shù)據(jù)的維數(shù)和提取了主要成分。其次,采用聚類分析方法對(duì)上述主要成分進(jìn)行分類,進(jìn)一步降低數(shù)據(jù)量,最終獲得綜合分析結(jié)果。
主成分分析是一種多元統(tǒng)計(jì)方法,利用降維的思想將多個(gè)指標(biāo)轉(zhuǎn)化為多個(gè)綜合指標(biāo),并將信息的丟失最小化。這些綜合指標(biāo)通常被稱為主成分,生成每個(gè)主成分的轉(zhuǎn)換的綜合指標(biāo)是原始變量中不相關(guān)變量的線性組合,具有比原始變量更好的性質(zhì)。所以只使用幾個(gè)主成分而不損失太多的信息,就能解決復(fù)雜的高維問題[3-9]。
算法步驟如下:
1) 規(guī)范原始數(shù)據(jù),消除變量對(duì)量級(jí)和維數(shù)的影響;
2) 根據(jù)歸一化數(shù)據(jù)矩陣計(jì)算相關(guān)系數(shù)矩陣R;
3) 求R矩陣的特征根和特征向量;
4) 確定主成分,并對(duì)主要成分的信息作出適當(dāng)?shù)慕忉?
5) 合成主要成分,獲得綜合評(píng)價(jià)值。
聚類是將對(duì)象劃分為多個(gè)組的過程,因此同一組中的數(shù)據(jù)對(duì)象具有較高的相似性,而不同組中的數(shù)據(jù)對(duì)象則不相似。相似或不相似的定義基于屬性變量的值,通常用每個(gè)對(duì)象之間的距離來表示。集群是類似的對(duì)象組集合,它們通常被視為對(duì)象[10-11]。本文采用系統(tǒng)聚類方法對(duì)主成分分析法獲得的主成分進(jìn)行深度分析。
算法步驟如下:
首先,n個(gè)樣本是n個(gè)類(類別)。一個(gè)類包含一個(gè)示例。其次,2個(gè)具有最近屬性的類合并到一個(gè)新類中,得到n-1個(gè)類。最后,將2個(gè)最近的類合并成n-2類,以此類推,最后,所有的樣本都?xì)w為一類。
首先,將我國31個(gè)省的20項(xiàng)經(jīng)濟(jì)發(fā)展指標(biāo)有效減少為1個(gè)主要成分;其次,根據(jù)評(píng)價(jià)結(jié)果進(jìn)行綜合分析將數(shù)據(jù)降為4個(gè)集群。
這部分是31個(gè)省20個(gè)指標(biāo)的數(shù)據(jù),原始數(shù)據(jù)來自《中國統(tǒng)計(jì)年鑒2012》[12]。31個(gè)省份20項(xiàng)指標(biāo)的數(shù)據(jù)如表1所示。
2.1.1 統(tǒng)計(jì)檢驗(yàn)
運(yùn)用SPSS獲得KMO(Kaiser-Meyer-Olkin)和巴特利特測試的結(jié)果是如表2所示。
從表2可以看出,KMO統(tǒng)計(jì)量=0.744>0.7,球形檢驗(yàn)的卡方統(tǒng)計(jì)量=1 385.944,P=0.000<0.01,適合做主成分分析(注:KMO是相關(guān)系數(shù)與偏相關(guān)系數(shù)的一個(gè)比值,用于比較變量間簡單相關(guān)系數(shù)與偏相關(guān)系數(shù)的一個(gè)統(tǒng)計(jì)量,其值越接近1,表明越適合做主成分分析;巴特利球形度檢驗(yàn)是判斷變量的相關(guān)系數(shù)矩陣是否為單位陣的一個(gè)統(tǒng)計(jì)量,其相伴概率小于顯著性(0.05或0.1),表明相關(guān)系數(shù)矩陣不是單位矩陣,適合做主成分分析[13])。
表1 經(jīng)濟(jì)發(fā)展?fàn)顩r數(shù)據(jù)Table 1 Economic development data
表2 KMO和巴特利特檢驗(yàn)Table 2 KMO and bartlett test
2.1.2 碎石圖
圖1 主成分碎石圖Fig.1 Principal component scree plot
2.1.3 提取因子
根據(jù)圖1可知,到第2個(gè)主成分特征值出現(xiàn)陡峭的拐點(diǎn),第1主成分特征值與其余主成分特征值呈現(xiàn)明顯的區(qū)分,其余特征值基本接近持平。
由表3可知,第1個(gè)主成分特征值占所有信息的96.709%,占據(jù)所有信息的大部分,所以確定主成分個(gè)數(shù)為1個(gè)。這樣僅用1個(gè)主成分就可以表達(dá)原來所有指標(biāo)所能表達(dá)信息的絕大部分[14]。
表3 總方差解釋Table 3 Total variance interpretation
2.1.4 計(jì)算各成分得分
運(yùn)用SPSS計(jì)算每個(gè)組件的得分矩陣,輸出結(jié)果如表4所示。以各主成分在每個(gè)指標(biāo)上的得分為權(quán)重,主成分的表達(dá)式為第1主成分:
表4 因子得分系數(shù)矩陣Table 4 Factor scoring coefficient matrix
2.1.5 計(jì)算各變量得分
把因子1的數(shù)值分別乘以各自的方差的算術(shù)平方根,得出主成分1的得分,見表5。
在主成分分析的基礎(chǔ)上,利用SPSS軟件對(duì)數(shù)據(jù)進(jìn)行聚類分析。31個(gè)省的20個(gè)指標(biāo)數(shù)據(jù)的1個(gè)主要組成部分的組數(shù)為4,如表6所示。
表5 經(jīng)濟(jì)發(fā)展?fàn)顩r數(shù)據(jù)的主要組成部分Table 5 The main component of data on economic development
表6 基于PCA的聚類分析Table 6 Cluster analysis based on PCA
本文提出一種綜合數(shù)據(jù)分析方法,有效地減少了31個(gè)省的20個(gè)指標(biāo)數(shù)據(jù)。通過主成分分析,將31個(gè)省的20個(gè)指標(biāo)數(shù)據(jù)減少為一個(gè)主要成分。結(jié)合聚類分析,將主成分結(jié)果歸納為4類。本文獲得的結(jié)論將為預(yù)測我國內(nèi)地各省經(jīng)濟(jì)的發(fā)展情況、科學(xué)規(guī)劃產(chǎn)業(yè)布局、優(yōu)化產(chǎn)業(yè)結(jié)構(gòu)等方面提供重要的數(shù)據(jù)分析依據(jù)。