陳龍 陳婷 袁瑩靜
摘? 要: 本文運用2016年我國31個省市自治區(qū)的農(nóng)林牧漁業(yè),工業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運輸、倉儲和郵政業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè),其它等方面統(tǒng)計的各產(chǎn)值的樣本數(shù)據(jù),采用聚類分析、主成分分析和因子分析的方法,通過SPSS軟件輸出結(jié)果進行分析,對我國31個省市自治區(qū)進行分類排名,進而可以了解到我國各個省市自治區(qū)現(xiàn)階段的經(jīng)濟發(fā)展狀況,并可以根據(jù)相關(guān)結(jié)果對于不同地區(qū)的發(fā)展提供理論指導(dǎo)。
關(guān)鍵詞: 經(jīng)濟發(fā)展;聚類分析;主成分分析;因子分析;SPSS軟件
【Abstract】: This paper uses 2016 China's 31 provinces, cities and autonomous regions of ecological-economic, industry, construction, wholesale and retail, transportation, warehousing and postal service, accommodation and catering industry, finance, real estate industry, other aspects such as statistical sample data of each output by cluster analysis, principal component analysis and factor analysis method, through SPSS software output were analyzed, and the ranking of 31 provinces and autonomous regions in China are classified, which can learn the various provinces and autonomous regions in China's current economic development situation, and can according to relevant results provide theoretical guidance for the development of different regions.
【Key words】: Economic development; Cluster analysis; Principal component analysis; Factor analysis
0? 引言
我國現(xiàn)階段的經(jīng)濟處于高速發(fā)展的狀態(tài),對于各個地區(qū)經(jīng)濟狀況的了解和分析也應(yīng)具有一定的時效性,只有這樣才可以對我國各個不同地區(qū)的經(jīng)濟情況有一定的了解,進而可以對它們的發(fā)展及時的提出相應(yīng)的指導(dǎo)建議。在目前對于我國經(jīng)濟情況的相關(guān)研究中,隨著數(shù)據(jù)的更新各個地區(qū)的發(fā)展情況也都隨之改變著,再使用以前的研究結(jié)論就會顯得
有些信息滯后,本文采用中國統(tǒng)計局最新公布數(shù)據(jù),運用多元統(tǒng)計分析[1]相關(guān)理論知識和SPSS軟件,對我國各個地區(qū)的經(jīng)濟發(fā)展情況進行分析和研究,使得可以對我國現(xiàn)階段不同地區(qū)的經(jīng)濟發(fā)展情況有一個最新的認識和了解。
1? 相關(guān)理論方法
1.1? 聚類分析
聚類分析[2]是建立一種分類方法,將一批樣本和變量,按照它們在性質(zhì)上的親疏,相似程度進行分類的一種多元統(tǒng)計分析防范。聚類分析的內(nèi)容十分豐富,按照聚類分析方法可以分為:系統(tǒng)聚類法,動態(tài)聚類法,最優(yōu)分割法,模糊聚類法,k-均值法,分解法,加入法等等,聚類分析的原則是直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相似的歸為一類,而將性質(zhì)差別比較大的分在不同類中,也就是說,同類事物之間的性質(zhì)差異小,類與類直接的事物性質(zhì)相差較大,描述樣本間的親疏程度最常用的是聚類,其中歐式距離在聚類分析中用的最為廣泛,表達式為:其中表示第i個樣品第k個指標的觀測值,表示第j個樣品的第k個指標的觀測值,表示為第i個樣品與第j個樣品之間的歐式距離,若值越小,那么表示第i與j兩個樣品間的性質(zhì)越接近。性質(zhì)接近的樣品就可以歸為一類。
當確定了樣品的距離后,就要對樣品進行分類,分類的方法很多,其中系統(tǒng)聚類法是應(yīng)用最為廣泛的一種方法,系統(tǒng)聚類的思想為:開始時每個對象自成一類,然后每次將最為相似的兩類合并,合并后重新計算新類與其它類的距離或相似程度,這個過程一直持續(xù)到所有對象合并成一類為止[3]。系統(tǒng)聚類的分析方法也有很多,其中包括:最短距離發(fā),最長距離法,中間距離法,重心法,類平均法等等。
1.2? 主成分分析
主成分分析[4],是一種統(tǒng)計方法。通過正交變換將一組可能存在相關(guān)性的變量轉(zhuǎn)換為一組線性不相關(guān)的變量,轉(zhuǎn)換后的這組變量叫主成分。
主成分分析是指將多個變量轉(zhuǎn)化為少數(shù)幾個變量的過程,其中轉(zhuǎn)換之后的這幾個變量包含了原變量的信息,且彼此之間互相獨立,通過轉(zhuǎn)換之后的變量能夠線性地表示原始變量[5]。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。
設(shè)法將原來變量重新組合成一組新的互相無關(guān)的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學(xué)上用來降維的一種方法[6]。
主成分分析的具體步驟可以分為以下5個:
1. 指標數(shù)據(jù)標準化(SPSS軟件自動執(zhí)行);
2. 指標之間的相關(guān)性判定;
3. 確定主成分個數(shù)m;
4. 主成分Fi表達式;
5. 主成分Fi命名。
1.3? 因子分析
因子分析[7]模型是主成分分析的推廣,其原理是利用降維的思想,由研究原始變量相關(guān)矩陣內(nèi)部的依賴關(guān)系出發(fā),把一些具有錯綜復(fù)雜關(guān)系的變量歸結(jié)為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分析方法。因子分析的思想是根據(jù)相關(guān)性大小把原始變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,而不同組的變量間的相關(guān)性則較低。每組變量代表了一個基本結(jié)構(gòu),并用一個不可觀測的綜合變量表示,這個基本結(jié)構(gòu)就稱為公共因子[8]。對于所研究的某一具體問題,原始變量可分解為兩部分之和的形式,一部分是少數(shù)幾個不可測的所謂公共因子的線性函數(shù),另一部分是與公共因子無關(guān)的特殊因子[9]。
因子分析的的步驟一般包括如下幾步:
1. 根據(jù)研究的問題選擇原始變量
2. 對原始變量進行標準化并求其相關(guān)陣,分析變量之間的相關(guān)性。
3. 求解初始公共因子及因子載荷矩陣。
4. 因子旋轉(zhuǎn)。
5. 因子得分。
6. 根據(jù)因子得分值進行進一步分析
2? 數(shù)據(jù)準備及處理
本文以2017年中國統(tǒng)計局所公布的數(shù)據(jù),根據(jù)統(tǒng)計年鑒中2016年31個省市自治區(qū)的農(nóng)林牧漁,工業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運輸、倉儲和郵政業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè),其它等方面各產(chǎn)值的統(tǒng)計數(shù)據(jù)為基礎(chǔ)進行分析,數(shù)據(jù)見下表1。
運用spss軟件中的數(shù)據(jù)處理方法,聚類分析和主成分分析,對上表1中的數(shù)據(jù)進行處理分析。
2.1? 聚類分析
利用spss軟件中的聚類分析組間對數(shù)據(jù)進行分析得到的結(jié)果如下。
從聚類分析結(jié)果譜系圖中可以看出,將31省市自治區(qū)大致可以分為四類:
第一類:青海,寧夏,西藏,海南,貴州,新疆,甘肅,黑龍江,云南,山西,吉林,重慶,江西,陜西,內(nèi)蒙古,廣西,遼寧,天津。
第二類:北京,上海。
第三類:湖北,四川,河南,安徽,福建,河北,浙江,河南。
第四類:江蘇,廣東,山東
從聚類結(jié)果可以看出北京,上海兩地經(jīng)濟發(fā)展狀況大致相近,湖北,四川,湖南,安徽,福建,河北,浙江,河南發(fā)展情況相近,江蘇,廣東,山
東相近,其余省市經(jīng)濟發(fā)展情況相近。
2.2? 主成分分析
利用SPSS軟件中,因子分析組件進行主成分分析,分析結(jié)果見下表。
從上表5中的排名可以明顯看出,排在較前位置的省份為廣東,江蘇,山東等,這些省份的經(jīng)濟狀況也相應(yīng)較好。而新疆,甘肅,海南,寧夏,青海,西藏等省市自治區(qū)排名相對靠后,經(jīng)濟狀況還有待很大的提高和發(fā)展空間。
2.3? 因子分析
在spss中采用因子分析的方法,可以得出以下輸出。
從表6可以看出選取兩個公共因子時其累計方差貢獻率為93.421%。已經(jīng)可以達到很好的效果。
由旋轉(zhuǎn)后的因子載荷矩陣可以看出,公共因子在金融業(yè)、房地產(chǎn)業(yè)、其它、批發(fā)和零售、工業(yè)、交通運輸、倉儲和郵政業(yè)上的載荷都很大,公共因子在農(nóng)林牧漁業(yè)、建筑業(yè)、住宿和餐飲業(yè)上的載荷相對較大,結(jié)合綜合得分,對各個城市的綜合發(fā)展水平進行評價。在因子上得分最高的前5個地區(qū)依次為廣東、江蘇、上海、北京、浙江、其中廣東,江蘇,遠高于其它省市自治區(qū),這就是說這兩個城市在金融業(yè)、房地產(chǎn)業(yè)、其它、批發(fā)和零售、工業(yè)、交通運輸、倉儲和郵政業(yè)上的發(fā)展情況遠高于其它地區(qū),相對的新疆、云南、貴州這些地區(qū)在這些指標上的表現(xiàn)不是很好;山東、河南、江蘇在上得分較高,而上海、北京、天津相對較低,說明山東、河南、江蘇這些地區(qū)在農(nóng)林牧漁業(yè)、建筑業(yè)、住宿和餐飲業(yè)相對于其它地區(qū)較好。
將各個省市自治區(qū)在兩個因子上的得分進行加權(quán)綜合,就可以得到綜合得分。根據(jù)綜合得分就可以分析各個地區(qū)的綜合經(jīng)濟發(fā)展情況,從表9可以看出,綜合排名前3位的地區(qū)分別為:廣東,江蘇,山東。綜合得分最低的3個地區(qū)為:西藏、青海、寧夏。結(jié)合因子得分分析可得,在廣東,江蘇,山東三個城市中金融業(yè)、房地產(chǎn)業(yè)、其它、批發(fā)和零售、工業(yè)、交通運輸、倉儲和郵政業(yè),都有著很好的優(yōu)勢,而在農(nóng)林牧漁業(yè)、建筑業(yè)、住宿和餐飲業(yè)上相對不是很強。西藏、青海、寧夏這些地區(qū),在這些經(jīng)濟中的表現(xiàn)都不是很好。因此國家應(yīng)加大對這些地區(qū)的建設(shè)。以提高我國整體的經(jīng)濟水平能力。
3? 結(jié)論和建議
本文運用2016年我國31個省市自治區(qū)的農(nóng)林牧漁業(yè),工業(yè),建筑業(yè),批發(fā)和零售業(yè),交通運輸、倉儲和郵政業(yè),住宿和餐飲業(yè),金融業(yè),房地產(chǎn)業(yè),其它方面產(chǎn)值樣本數(shù)據(jù),采用聚類分析、主成分和因子分析的方法對其進行分類和降維排序,從聚類的方法中可以將我國31個省市自治區(qū)共分為4大類第一類:青海,寧夏,西藏,海南,貴州,新疆,甘肅,黑龍江,云南,山西,吉林,重慶,江西,陜西,內(nèi)蒙古,廣西,遼寧,天津。第二類:北京,上海。第三類:湖北,四川,河南,安徽,福建,河北,浙江,河南。第四類:江蘇,廣東,山東。根據(jù)在主成分和因子分析中的排名可以明顯的看出,江蘇,山東,廣東方面的經(jīng)濟狀況相對較好,綜合經(jīng)濟發(fā)展情況也是遠高于其它省市自治區(qū)的經(jīng)濟發(fā)展情況,而第一類中的省市自治區(qū)青海,寧夏,西藏,海南,貴州,新疆,甘肅,黑龍江,云南,山西,吉林,重慶,江西,陜西,內(nèi)蒙古,廣西,遼寧,天津的經(jīng)濟狀況較江蘇,山東,廣東等地區(qū)還有著很大的差距。在因子分析中,經(jīng)由因子分析旋轉(zhuǎn)后矩陣可以看出廣東、江蘇、上海、北京、浙江、在金融業(yè)、房地產(chǎn)業(yè)、其它、批發(fā)和零售、工業(yè)、交通運輸、倉儲和郵政業(yè)上的載荷都很大說明這些地區(qū)在這些指標方面的發(fā)展相對較好,而相對的山東、河南、江蘇在農(nóng)林牧漁業(yè)、建筑業(yè)、住宿和餐飲業(yè)相對于其它地區(qū)較好。
從我國現(xiàn)階段發(fā)展來說,廣東,江蘇,山東等地聚集了我國大量的工業(yè),批發(fā)零售業(yè)和其它一些產(chǎn)業(yè),給我國的經(jīng)濟發(fā)展提供著大量的資金支持,這些城市也成為了我們在選擇就業(yè)不錯的選擇,廣大的現(xiàn)階段的畢業(yè)生想要求得一個較好的發(fā)展空間和城市,可以優(yōu)先的從這些地區(qū)中進行選擇。相對于經(jīng)濟發(fā)展情況相對遲緩的第四類中的西藏,青海,寧夏,貴州等地區(qū),國家在政策方面也應(yīng)有所調(diào)整,想要提升我國的綜合實力,實現(xiàn)中華民族的偉大復(fù)興,只靠著單單的幾個龍頭城市是不可行的,恰恰應(yīng)該著手去發(fā)展這些地區(qū)的經(jīng)濟,一個國家的綜合國力的強弱也和這些短板城市有著很大的關(guān)系,因此國家的發(fā)展應(yīng)對這些經(jīng)濟發(fā)展緩慢的城市多一點點的關(guān)注。對于這些地區(qū)的發(fā)展和建設(shè)應(yīng)該從多方面進行入手,從而可以整體實現(xiàn)這些省市自治區(qū)的發(fā)展,進而使我國的綜合實力得到提升。
參考文獻
何曉群. 多元統(tǒng)計分析. 北京: 中國人民大學(xué)出版社, 2004.
朱晶, 李大衛(wèi). 多元統(tǒng)計分析方法在經(jīng)濟評價中的應(yīng)用[J]. 鞍山科技大學(xué)學(xué)報, 2003(04): 295-298.
王友明. 多元統(tǒng)計分析方法及其在經(jīng)濟研究中的應(yīng)用[J]. 安徽水利水電職業(yè)技術(shù)學(xué)院學(xué)報, 2003(02): 42-44.
王艷梅, 張廣梅, 陳希鎮(zhèn). 山西省各地市經(jīng)濟發(fā)展的多元統(tǒng)計分析[J]. 溫州職業(yè)技術(shù)學(xué)院學(xué)報, 2013, 13(02): 41-43+57.
張文宇, 王秀秀, 任露, 等. 改進的主成分聚類分析法在教育信息化中的應(yīng)用[J]. 軟件, 2015, 36(7): 10-16
徐秋棟. 《應(yīng)用多元統(tǒng)計分析》[J]. 工業(yè)工程與管理, 2014, 19(01): 22.
Michael Porter. The Economic Performance of Regions[J]. Regional Studies . 2003 (6-7).
張珍花. 運用多元統(tǒng)計分析綜合評判江蘇省經(jīng)濟效益[J]. 統(tǒng)計與決策, 2001(09): 23-43.
Champagne M, Dudzic M. Industrial use of multivariate statistical analysis for process monitoring and control[C]. American Control Conference, 2002. Proceedings of the 2002. IEEE, 2002, 1: 594-599.
王媛媛. 區(qū)域經(jīng)濟協(xié)調(diào)互動發(fā)展的多元統(tǒng)計分析[J]. 中國統(tǒng)計, 2018(03): 62-64.