国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Ward法和多維標(biāo)度法的江蘇各城市在崗職工平均工資的聚類分析

2015-03-11 12:09尹楠
經(jīng)濟(jì)研究導(dǎo)刊 2015年3期
關(guān)鍵詞:聚類分析

尹楠

摘 要:以2013年江蘇統(tǒng)計(jì)年鑒中江蘇十三個(gè)地級(jí)市按國民經(jīng)濟(jì)行業(yè)分類所統(tǒng)計(jì)出的在崗職工平均工資為依據(jù),利用多元統(tǒng)計(jì)中的兩種聚類分析法得出江蘇各城市在崗職工平均工資的地域劃分。聚類分析的結(jié)論表明,江蘇各城市在崗職工平均工資所得出的地域劃分結(jié)論,和一般意義上的江蘇經(jīng)濟(jì)發(fā)展的地域劃分,即蘇南、蘇中和蘇北的地域劃分大體上是吻合的,從而驗(yàn)證了經(jīng)濟(jì)發(fā)展水平和工資收入水平相適應(yīng)這一前提假設(shè)。

關(guān)鍵詞:聚類分析;Ward法;多維標(biāo)度法

中圖分類號(hào):F240 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-291X(2015)03-0192-03

一、引言

按照傳統(tǒng)的江蘇經(jīng)濟(jì)發(fā)展的區(qū)域劃分方法,一般可以分為蘇南、蘇中和蘇北三個(gè)主要區(qū)域,由于長期以來經(jīng)濟(jì)基礎(chǔ)、交通運(yùn)輸、政府投入等方面存在差異,三個(gè)區(qū)域的經(jīng)濟(jì)發(fā)展?fàn)顩r有一定的差異,從而導(dǎo)致三個(gè)區(qū)域所在城市的在崗職工平均工資有一定的差距。根據(jù)2013年江蘇統(tǒng)計(jì)年鑒的數(shù)據(jù),本文以江蘇十三個(gè)地級(jí)市按國民經(jīng)濟(jì)行業(yè)分類所統(tǒng)計(jì)出的在崗職工平均工資為依據(jù),利用多元統(tǒng)計(jì)聚類分析法中的Ward法和多維標(biāo)度法,對江蘇各城市在崗職工平均工資的地域差異情況作出一個(gè)地域劃分,以驗(yàn)證江蘇十三個(gè)城市的在崗職工平均工資收入是否符合經(jīng)濟(jì)發(fā)展的水平,即平均工資收入水平的劃分是否也符合蘇南、蘇中、蘇北三個(gè)地域的劃分。

二、聚類分析的實(shí)現(xiàn)過程

(一)分析的思路

聚類分析是一種將研究對象進(jìn)行分類統(tǒng)計(jì)的多元統(tǒng)計(jì)方法,進(jìn)而從中找出對象之間的相似性和差異性,以便于進(jìn)行分類統(tǒng)計(jì),這些對象之間的相似性和差異性的劃分完全是根據(jù)數(shù)據(jù)聚類統(tǒng)計(jì)的結(jié)果確定的。系統(tǒng)聚類分析的基本思想是先將n個(gè)樣品各自看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對合并成新的一類,計(jì)算新類與其他類的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品都成為一類為止[1]。系統(tǒng)聚類的方法主要包括最長距離法、最短距離法、中間距離法、類平均法、重心法和離差平方和法(Ward法)等幾種方法,這里我們選取Ward法進(jìn)行分析。

多維標(biāo)度分析(MDS)則是另外一種聚類分析方法,它是以空間分布的形式表現(xiàn)對象之間相似性或親疏關(guān)系的一種多元數(shù)據(jù)分析方法。其主要結(jié)果可以用多維標(biāo)度圖形象直觀地表示出來。一般都是用二維標(biāo)度圖來表示,如果維數(shù)過多會(huì)造成視覺困難。多維標(biāo)度法的計(jì)算實(shí)現(xiàn)步驟主要包括以下幾步:首先確定研究目的,選擇需要進(jìn)行比較分析的樣品和變量,然后計(jì)算樣品間的距離矩陣并分析樣品間的距離矩陣;選擇適當(dāng)?shù)木S數(shù),得到距離陣的古典解,將各個(gè)樣品直觀的表現(xiàn)出來并對結(jié)果進(jìn)行解釋,最后再驗(yàn)證模型的擬合效果[2]。

通常要通過兩步來完成:首先,構(gòu)造一個(gè)f維坐標(biāo)空間,并用該空間中的點(diǎn)分別表示各樣品,此時(shí)點(diǎn)間的距離未必和原始輸入次序相同,通常把這一步稱為構(gòu)造初步圖形結(jié)構(gòu);其次,逐步修改初步圖形結(jié)構(gòu),以得到一個(gè)新圖形結(jié)構(gòu),使得在新結(jié)構(gòu)中,各樣品的點(diǎn)間距離次序和原始輸入次序盡量一致[3]。

(二)指標(biāo)體系的選擇

對于聚類分析統(tǒng)計(jì)指標(biāo)的選擇,以江蘇十三個(gè)地級(jí)市按國民經(jīng)濟(jì)行業(yè)分類的在崗職工平均工資為標(biāo)準(zhǔn)[4]。其中采礦業(yè)的數(shù)據(jù)有四個(gè)城市:無錫市、蘇州市、南通市、泰州市的數(shù)據(jù)缺失,其中一個(gè)原因可能是由于采礦業(yè)在江蘇的產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展中屬于衰退產(chǎn)業(yè)[5],因此導(dǎo)致這四個(gè)城市并未統(tǒng)計(jì)采礦業(yè)的收入水平。在這里為了便于統(tǒng)計(jì)和分析,在統(tǒng)計(jì)軟件中作分析時(shí),省略了采礦業(yè)這一指標(biāo)。以按國民經(jīng)濟(jì)行業(yè)分類的各行業(yè)平均工資作為分析指標(biāo),在作具體分析時(shí),可分別用x1、x2、x3、x4、x5、x6等變量名表示。

(三)聚類的過程和結(jié)果

在作具體的聚類分析時(shí),首先需要確定聚類過程中類的個(gè)數(shù),Bemirmen(1972年)提出了應(yīng)根據(jù)研究目的來確定適當(dāng)?shù)姆诸惙椒?,并提出了一些根?jù)聚類圖來分析的準(zhǔn)則[6]。在這里我們?yōu)榱蓑?yàn)證江蘇傳統(tǒng)經(jīng)濟(jì)地域的劃分,即蘇南、蘇中和蘇北的劃分,把類的個(gè)數(shù)也確定為三個(gè),這樣便于驗(yàn)證江蘇十三個(gè)地級(jí)市的在崗職工的平均工資收入水平是否也符合蘇南、蘇中和蘇北的地域劃分。在統(tǒng)計(jì)軟件R中,利用rect.hclust()函數(shù)將類的個(gè)數(shù),即地區(qū)分成三類。在R中通過聚類分析得出聚類方法的譜系圖(見圖1),從圖中可以看出,無錫、蘇州、南京和常州被劃歸為一類,南通和鎮(zhèn)江被劃歸為一類,剩余的城市被劃歸為另外一類。

在進(jìn)行多維標(biāo)度分析時(shí),MDS將研究數(shù)據(jù)轉(zhuǎn)換為距離數(shù)據(jù)后,生成兩種相互聯(lián)系的結(jié)果——對象的空間分布圖與對象在各維度上的解即為坐標(biāo)值。前者以后者為基礎(chǔ)。依據(jù)空間分布圖進(jìn)行聚類發(fā)生困難或可能產(chǎn)生偏差時(shí),就需要運(yùn)用研究對象在各維度上的坐標(biāo)值進(jìn)行聚類分析[7]。我們在維數(shù)中選擇了二維,因?yàn)槎S平面圖能夠比較直觀的表示出各地區(qū)的位置,根據(jù)R語言計(jì)算得出的結(jié)果,具體的坐標(biāo)值數(shù)據(jù)(如表1所示)。

在R統(tǒng)計(jì)軟件中根據(jù)二維坐標(biāo)值繪制出江蘇十三市的二維標(biāo)度圖(見下頁圖2),從圖中可以很明顯地看出,蘇州、南京、無錫和常州四個(gè)城市在圖中所處的位置相聚較近,可以劃歸為一類;鎮(zhèn)江和南通相聚較近,處于坐標(biāo)值的中間地帶;剩余的城市則劃歸為另外一類,它們之間的差異情況相對較小。

三、聚類分析的結(jié)論

無論是采用系統(tǒng)聚類法中的Ward法,還是采用多維標(biāo)度法,對江蘇十三市的聚類分析的結(jié)果大致是相同的,綜合考慮 Ward法和多維標(biāo)度法得出的結(jié)論,根據(jù)譜系圖和二維標(biāo)度圖得出三類地域劃分(如下頁表2所示)。從下頁表2可以看出,根據(jù)江蘇各城市在崗職工平均工資的系統(tǒng)聚類分析所得出的地域劃分結(jié)論,和一般意義上我們認(rèn)為的江蘇經(jīng)濟(jì)發(fā)展的地域劃分,即蘇南、蘇中和蘇北的地域劃分大體上是吻合的,從而驗(yàn)證了經(jīng)濟(jì)發(fā)展水平和工資收入水平相適應(yīng)這一前提假設(shè)。

綜合考慮兩種方法對結(jié)論的影響,系統(tǒng)聚類法中的Ward法比較清晰直觀的用譜系圖的形式表示出結(jié)果,而多維標(biāo)度法不僅能夠在圖中直觀的表示出結(jié)果,而且能夠得出維度上的坐標(biāo)值,從坐標(biāo)值能夠得出各分析指標(biāo)之間的距離。但多維標(biāo)度法選用的維度不宜過多,最多用二維或者三維的空間分布圖表示,如果維數(shù)過多,將很難在圖中表示出來。

參考文獻(xiàn):

[1] 湯銀才.R語言與統(tǒng)計(jì)分析[M].北京:高等教育出版社,2005.

[2] 王斌會(huì).多元統(tǒng)計(jì)分析及R語言建模[M].廣州:暨南大學(xué)出版社,2011.

[3] 張文彤,董偉.SPSS 統(tǒng)計(jì)分析高級(jí)教程[M].北京:高等教育出版社,2004.

[4] 江蘇省統(tǒng)計(jì)局.江蘇統(tǒng)計(jì)年鑒[K].北京:中國統(tǒng)計(jì)出版社,2013.

[5] 費(fèi)潔.江蘇衰退產(chǎn)業(yè)及其退出研究[D].南京:南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,2012.

[6] 任雪松,于秀林.多元統(tǒng)計(jì)分析[M].北京:中國統(tǒng)計(jì)出版社,2011.

[7] 揭水平.多維標(biāo)度法的聚類分析:問題與解法[J].統(tǒng)計(jì)與決策,2009,(11).[責(zé)任編輯 吳 迪]

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個(gè)地級(jí)市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
基于聚類分析的無須人工干預(yù)的中文碎紙片自動(dòng)拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
“縣級(jí)供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計(jì)一套”表輔助決策模式研究
万安县| 潮州市| 芦山县| 图木舒克市| 榆社县| 平武县| 遵化市| 湖州市| 建水县| 安国市| 衢州市| 普兰县| 长子县| 阿荣旗| 华亭县| 营口市| 安丘市| 古蔺县| 洪湖市| 长兴县| 安平县| 临汾市| 龙海市| 滦南县| 三台县| 闵行区| 泰来县| 台安县| 呼图壁县| 洛扎县| 合山市| 大庆市| 遂宁市| 阜城县| 汝城县| 左贡县| 永年县| 东港市| 昌吉市| 东方市| 阳山县|