国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Ward系統(tǒng)聚類法在農(nóng)村居民收入情況分析中的應(yīng)用研究

2015-03-23 07:41陳江麗
大理大學(xué)學(xué)報(bào) 2015年6期
關(guān)鍵詞:平方和純收入農(nóng)村居民

陳江麗

(臨滄師范高等??茖W(xué)校信息科學(xué)與技術(shù)系,云南臨滄 677000)

Ward 系統(tǒng)聚類法是一種聚類分析方法。聚類分析是根據(jù)分類樣本數(shù)據(jù)特征的相似性,按照一定的規(guī)則將樣本分成若干類,使同一類中的樣本之間具有高相似度,而不同類的樣本間高度相異〔1〕。聚類分析已經(jīng)廣泛應(yīng)用于數(shù)據(jù)分析、模式識別和圖像處理等許多領(lǐng)域。

聚類分析中主要通過距離來度量樣本間的相似性,可利用系統(tǒng)聚類法對樣本進(jìn)行聚類。聚類開始時將n 個樣本各自作為一類,并計(jì)算樣本間的距離、類與類之間的距離。然后將距離最近的兩類合并為一個新類,計(jì)算新類與其它類間的距離。重復(fù)將距離最近的兩類進(jìn)行合并,直至所有的樣本合并為一類。其中類與類間距離的定義可采用7 種不同的方法,分別是最短距離法(single)、最長距離法(complete)、中間距離法(median)、重心法(centroid)、類平均法(average)、可變類平均法(weighted)和離差平方和法(ward)〔2〕。文中主要研究Ward 系統(tǒng)聚類法及其在農(nóng)村居民收入情況分析中的應(yīng)用。

1 Ward系統(tǒng)聚類法

Ward 系統(tǒng)聚類法是指利用離差平方和法計(jì)算距離的一種聚類方法,類中各元素到類重心(即類均值)的平方歐式距離之和稱為類內(nèi)離差平方和。假設(shè)類GK與GL聚成一個新類GM,則GK、GL和GM的類內(nèi)離差平方和分別為公式(1)、(2)、(3)〔3〕。

當(dāng) GK和 GL合并成新類 GM時,WM> WK+WL,即類內(nèi)離差平方和增大。若GK和GL距離較近,則離差平方和增加的值應(yīng)該較小。因此GK和GL的平方距離根據(jù)公式(4)計(jì)算。

因此,離差平方和法是將方差分析的思想應(yīng)用于分類中,使同一類中的離差平方和小,表示樣本間的相似度高;而不同類間的離差平方和大,則樣本間的相似度低〔4〕。通過離差平方和的大小來度量樣本間的相似性,符合聚類分析的要求。

2 Ward系統(tǒng)聚類法的Matlab實(shí)現(xiàn)

利用Matlab 相關(guān)的系統(tǒng)聚類函數(shù)進(jìn)行聚類分析,主要分為以下4個步驟。

2.1 樣本預(yù)處理為了保證分析結(jié)果的準(zhǔn)確性,需要對樣本數(shù)據(jù)進(jìn)行一些預(yù)處理,如平滑處理、標(biāo)準(zhǔn)化變換和極差歸一化變換等。在實(shí)際應(yīng)用中,可根據(jù)數(shù)據(jù)特征進(jìn)行選擇處理。一般較常用進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化變換,主要針對多元數(shù)據(jù)中各元間的量綱和數(shù)量級不一致的情況。Matlab提供了常用的zsocre函數(shù)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。

2.2 計(jì)算樣本間距離聚類開始時,需要計(jì)算n個樣本間的距離,距離的計(jì)算方法包括明氏距離、蘭氏距離、馬哈拉諾比斯距離和斜交空間距離等。其中最常用的是明氏距離中的歐式距離。第i個樣本Xi和第j 個樣本Xj之間的歐式距離計(jì)算如公式(5)所示。

Matlab 中使用pdist 函數(shù)計(jì)算樣本間的歐式距離,調(diào)用格式為y=pdis(tX)。其中X 為輸入的樣本矩陣,每一行對應(yīng)一個樣本,每一列對應(yīng)樣本的一個分量。輸出y 是一個包含n(n-1) 2 個元素的行向量,分別對應(yīng)第i 個(其中i=2,3,…,n)和第j 個(其中j=1,2,…,n-1)樣本間的距離。

2.3 利用Ward 系統(tǒng)聚類法創(chuàng)建聚類樹通過Ward 系統(tǒng)聚類法進(jìn)行聚類是聚類分析中的關(guān)鍵環(huán)節(jié)。通過創(chuàng)建系統(tǒng)聚類樹可以完整地反映聚類的過程。Matlab工具箱中提供了linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹,調(diào)用格式為Z=linkage(y,‘ward’)。其中輸入?yún)?shù)y是上一步計(jì)算的樣本間距離,‘ward’表示使用離差平方和法進(jìn)行系統(tǒng)聚類。輸出參數(shù)Z是創(chuàng)建的系統(tǒng)聚類樹,包含(n-1)×3 個元素的矩陣,它的每一行對應(yīng)一次聚類,其中前兩個元素為聚類的兩個類編號(初始類編號為1~n,每聚成一個新類,類編號依次增加1),第3個元素為聚類時的距離。

創(chuàng)建好的系統(tǒng)聚類樹可利用Matlab工具箱中的dendrogram 函數(shù)生成系統(tǒng)聚類樹形圖,使聚類過程和結(jié)果更加清晰直觀。聚類樹形圖由許多連接聚類對象的倒U形線組成,線的高度表示聚類距離。樹形圖中的葉節(jié)點(diǎn)對應(yīng)原始聚類樣本。

2.4 計(jì)算系統(tǒng)聚類樹的不一致系數(shù)系統(tǒng)聚類樹的不一致系數(shù)可用來確定最終的分類個數(shù)。在保證最終聚類個數(shù)盡量少的前提下,可通過不一致系數(shù)的變化確定最終的分類個數(shù)。若不一致系數(shù)較上次的變化越大,則聚類效果越差。

系統(tǒng)聚類樹的不一致系統(tǒng)可使用Matlab 工具箱中的inconsistent 函數(shù)進(jìn)行計(jì)算。調(diào)用格式為Y=inconsistent(Z),輸入?yún)?shù)Z是由linkage函數(shù)創(chuàng)建的系統(tǒng)聚類樹,輸出參數(shù)Y 是一個包含(n-1)×4 個元素的矩陣,其中的第4 列為每一次聚類的不一致系數(shù)。

2.5 創(chuàng)建聚類結(jié)果根據(jù)創(chuàng)建好的系統(tǒng)聚類樹,以及由不一致系數(shù)確定的聚類個數(shù),創(chuàng)建聚類,并輸出聚類結(jié)果,完成聚類過程。

創(chuàng)建聚類可利用Matlab工具箱中的cluster函數(shù)實(shí)現(xiàn),其調(diào)用格式為T=cluster(Z,‘maxclust’,n),輸入?yún)?shù)Z是由linkage函數(shù)創(chuàng)建的系統(tǒng)聚類樹,創(chuàng)建一個最大聚類數(shù)為n 的聚類,輸出參數(shù)T 為每一個樣本的所屬的類序號。

3 利用Ward系統(tǒng)聚類法分析農(nóng)村居民收入情況

中國作為一個農(nóng)業(yè)人口和農(nóng)民經(jīng)濟(jì)占主體的國家,農(nóng)民收入水平及其分配狀況直接關(guān)系擴(kuò)大內(nèi)需政策的落實(shí),關(guān)系國民經(jīng)濟(jì)持續(xù)快速增長,關(guān)系國民經(jīng)濟(jì)發(fā)展戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。由于地域差異和經(jīng)濟(jì)基礎(chǔ)等因素的影響,農(nóng)民人均純收入在地區(qū)間形成顯著的差異。根據(jù)各地區(qū)農(nóng)村居民人均純收入的構(gòu)成情況,包括工資性收入、經(jīng)營性收入、財(cái)產(chǎn)性收入、轉(zhuǎn)移性收入等部分,如表1 中列出2012年全國31個省、市、自治區(qū)和直轄市的農(nóng)村居民人均純收入數(shù)據(jù),利用Ward 系統(tǒng)聚類法進(jìn)行聚類分析,將地區(qū)按收入情況劃分為不同的類,根據(jù)同一類地區(qū)間農(nóng)村居民收入情況的相似性,不同類地區(qū)間收入情況的差異性,為地區(qū)經(jīng)濟(jì)分析與研究提供重要依據(jù),對經(jīng)濟(jì)政策和扶持的制定提供科學(xué)的指導(dǎo)。

表1 2012年各地區(qū)農(nóng)村居民人均純收入

3.1分析步驟及結(jié)果

1)讀取表1 中的工資性收入、家庭經(jīng)營純收入、財(cái)產(chǎn)性收入和轉(zhuǎn)移性收入4 個主要變量數(shù)據(jù)放入矩陣 X 中,X 就是一個 31×4 的矩陣。讀取表 1 中的地區(qū)數(shù)據(jù)放入矩陣city 中,city 是一個包含31 個元素的列向量。

2)X=zscore(X);%數(shù)據(jù)標(biāo)準(zhǔn)化(減去均值,除以標(biāo)準(zhǔn)差)。

3)y=pdist(X); %計(jì)算樣品間歐氏距離,y為距離向量。

4)Z = linkage(y,‘ward’); % 利用離差平方和法創(chuàng)建系統(tǒng)聚類樹。

5)H = dendrogram(Z,0,‘orientation’,‘right’,‘labels’,city);%繪制聚類樹形圖,方向從右至左,顯示所有葉節(jié)點(diǎn),用城市名作為葉節(jié)點(diǎn)標(biāo)簽,葉節(jié)點(diǎn)標(biāo)簽在左側(cè),返回線條句柄H。創(chuàng)建的系統(tǒng)聚類樹樹形圖。見圖1。

圖1 2012年各地區(qū)農(nóng)村居民人均純收入聚類樹形圖

6)inconsistent 0=inconsistent(Z);%計(jì)算不一致系數(shù),計(jì)算結(jié)果如下所示。

7)inconsistent 0矩陣中的第4列為不一致系數(shù),通過觀察和比較每次聚類過程的不一致系數(shù)??紤]倒數(shù)第4 和5 次聚類的不一致系數(shù)的變化,不一致系數(shù)大幅增加1.132 6,說明倒數(shù)第5 次的聚類效果是比較好的,對照圖1的系統(tǒng)聚類樹形圖可看出,此時樣本被劃分為4類。即可認(rèn)為聚為4類是最合適的。

8)T=cluster(Z,‘maxclust’,4);%由系統(tǒng)聚類樹創(chuàng)建聚類,最終聚為4類。

9)obslabel(T==1);%查看第1 類所包含的地區(qū),結(jié)果如下。

第1類地區(qū)為:天津、江蘇、浙江、廣東。

10)obslabel(T==2);%查看第2 類所包含的地區(qū),結(jié)果如下。

第2 類地區(qū)為:內(nèi)蒙古、遼寧、吉林、黑龍江、福建、江西、山東、河南、湖北、海南、新疆。

11)obslabel(T==3);% 查看第 3 類所包含的地區(qū),結(jié)果如下。

第3 類地區(qū)為:河北、山西、安徽、湖南、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏。

12)obslabel(T==4);% 查看第 4 類所包含的地區(qū),結(jié)果如下。

第4類地區(qū)為:北京、上海。

3.2 分析結(jié)論利用Ward 系統(tǒng)聚類法對2012 年全國31 個地區(qū)的農(nóng)村居民人均純收入情況進(jìn)行聚類分析,最終劃分為4類地區(qū)。從結(jié)果可以發(fā)現(xiàn),不同地區(qū)的農(nóng)村居民收入水平與地理位置、資源、人口、經(jīng)濟(jì)發(fā)展水平等方面有相應(yīng)的關(guān)系。

第1類中,天津是中國4 個直轄市之一,是首都北京的門戶,中國國家中心城市。江蘇是我國著名經(jīng)濟(jì)大省。浙江是中國經(jīng)濟(jì)比較發(fā)達(dá)的沿海對外開放省份,以民營經(jīng)濟(jì)的發(fā)展帶動經(jīng)濟(jì)的起飛。廣東是中國經(jīng)濟(jì)總量最大和發(fā)展最快的省份。4個省的城鎮(zhèn)企業(yè)、民營企業(yè)較多,政府扶持,發(fā)展良好。故這4個省的農(nóng)村居民家庭人均純收入位居全國前列〔5〕。

第2類中,遼寧、吉林、黑龍江3省土地肥沃,水資源豐富,農(nóng)業(yè)產(chǎn)值和農(nóng)民收入較高。山東、河南是我國的農(nóng)業(yè)大省,交通發(fā)達(dá),使得經(jīng)濟(jì)迅速發(fā)展,農(nóng)村居民生活水平進(jìn)一步提高。福建、江西、湖北、海南是一個雨量豐沛的地區(qū),氣候溫和,適合農(nóng)作物生長,農(nóng)業(yè)發(fā)展較快,農(nóng)村居民家庭人均純收入相對較高〔6〕。內(nèi)蒙古和新疆兩省國家扶持力度大,財(cái)政支出持續(xù)向民生傾斜,農(nóng)村居民家庭人均純收入相對較高〔7〕。

第3 類中的14 個地區(qū)農(nóng)村居民家庭人均純收入較低,且多數(shù)是西部地區(qū),貴州、云南等屬于丘陵地帶〔8〕。陜西、甘肅的土地資源中旱地占主要部分〔9-10〕。青海、西藏屬高原地帶,由于受地理位置和氣候條件的影響,農(nóng)業(yè)產(chǎn)值較低,農(nóng)村居民家庭人均純收入較低。

第4 類中,北京是中國的首都,也是中國的政治、文化、科教和國際交往中心,中國經(jīng)濟(jì)、金融的決策和管理中心〔11〕。上海是中國的經(jīng)濟(jì)、交通、科技、工業(yè)、金融、貿(mào)易、會展和航運(yùn)中心〔12〕。不僅如此,旅游業(yè)等副業(yè)的繁榮也是農(nóng)村農(nóng)民高收入的原因,因而農(nóng)村居民家庭人均純收入位于全國最前列。

因此,分析結(jié)果可以為進(jìn)一步研究影響收入水平的因素和提高不同地區(qū)農(nóng)民收入水平的措施提供科學(xué)合理的依據(jù)。

4 結(jié)語

利用Ward 系統(tǒng)聚類法根據(jù)數(shù)據(jù)特征的相似性進(jìn)行分類的特點(diǎn),對不同地區(qū)按農(nóng)村居民的人均純收入情況進(jìn)行聚類,劃分為不同的區(qū)類,為深入研究和政策的制定提供決策支持,在現(xiàn)實(shí)環(huán)境中具有較高的應(yīng)用價值。

〔1〕Han Jiawei,Kamber Micheeline,Pei Jian.數(shù)據(jù)挖掘概念與技術(shù)〔M〕. 范明,孟小峰,譯. 北京:機(jī)械工業(yè)出版社,2010:10-100.

〔2〕周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展〔J〕.計(jì)算機(jī)工程與應(yīng)用,2012(12):100-111.

〔3〕于秀林,任雪松.多元統(tǒng)計(jì)分析〔M〕.北京:中國統(tǒng)計(jì)出版社,2008:30-50.

〔4〕鄭紅英. 數(shù)據(jù)挖掘聚類算法的分析和應(yīng)用研究〔D〕. 重慶:重慶大學(xué),2002.

〔5〕官琳琳,門可佩.中國農(nóng)村居民家庭人均純收入的聚類分析〔J〕.安徽農(nóng)業(yè)科學(xué),2009(31):49-51.

〔6〕陶兢強(qiáng),許能銳.中國農(nóng)村居民純收入聚類分析〔J〕.江西農(nóng)業(yè)大學(xué)學(xué)報(bào):社會科學(xué)版,2010,9(2):42-48.

〔7〕劉鑫鑫.中國農(nóng)村居民收入?yún)^(qū)域差距研究〔D〕.長春:吉林大學(xué),2010.

〔8〕楊小偉.甘肅省不同地區(qū)農(nóng)村居民收入差距研究〔D〕.蘭州:蘭州大學(xué),2012.

〔9〕萬波琴.陜西農(nóng)村居民收入差距研究〔D〕.西安:西北大學(xué),2010.

〔10〕楊文俊.陜西省農(nóng)村居民收入差異分析〔D〕.西安:長安大學(xué),2011.

〔11〕劉瑜.我國農(nóng)村居民收入構(gòu)成研究〔D〕.哈爾濱:黑龍江大學(xué),2014.

〔12〕楊威.中國農(nóng)村居民收入?yún)^(qū)域不平衡研究〔D〕.廣州:暨南大學(xué),2013.

猜你喜歡
平方和純收入農(nóng)村居民
住在養(yǎng)老院,他們過得好嗎?——陜西農(nóng)村居民養(yǎng)老情況調(diào)查
◆2018年全國農(nóng)民人均純收入預(yù)計(jì)超14600元
費(fèi)馬—?dú)W拉兩平方和定理
利用平方和方法證明不等式賽題
促進(jìn)農(nóng)村居民心理健康與實(shí)現(xiàn)精準(zhǔn)扶貧
勾股定理的擴(kuò)展
關(guān)于四奇數(shù)平方和問題
農(nóng)民增收實(shí)現(xiàn)“十連快”城鄉(xiāng)居民收入比連續(xù)4年下降
四川農(nóng)民收入增速 連續(xù)四年高于城鎮(zhèn)
做強(qiáng)農(nóng)村居民的健康防線
大兴区| 西藏| 荆门市| 安仁县| 拜泉县| 泸水县| 云霄县| 高雄县| 淮北市| 汉阴县| 丰城市| 万山特区| 苍南县| 岐山县| 宝鸡市| 曲沃县| 饶阳县| 延边| 文安县| 宣化县| 青铜峡市| 收藏| 屯留县| 镇巴县| 邹城市| 嫩江县| 华池县| 淮滨县| 墨江| 商水县| 屏东市| 新邵县| 武邑县| 龙陵县| 杭州市| 宜城市| 和静县| 五家渠市| 内丘县| 阜新| 孟连|