陳江麗
(臨滄師范高等??茖W(xué)校信息科學(xué)與技術(shù)系,云南臨滄 677000)
Ward 系統(tǒng)聚類法是一種聚類分析方法。聚類分析是根據(jù)分類樣本數(shù)據(jù)特征的相似性,按照一定的規(guī)則將樣本分成若干類,使同一類中的樣本之間具有高相似度,而不同類的樣本間高度相異〔1〕。聚類分析已經(jīng)廣泛應(yīng)用于數(shù)據(jù)分析、模式識別和圖像處理等許多領(lǐng)域。
聚類分析中主要通過距離來度量樣本間的相似性,可利用系統(tǒng)聚類法對樣本進(jìn)行聚類。聚類開始時將n 個樣本各自作為一類,并計(jì)算樣本間的距離、類與類之間的距離。然后將距離最近的兩類合并為一個新類,計(jì)算新類與其它類間的距離。重復(fù)將距離最近的兩類進(jìn)行合并,直至所有的樣本合并為一類。其中類與類間距離的定義可采用7 種不同的方法,分別是最短距離法(single)、最長距離法(complete)、中間距離法(median)、重心法(centroid)、類平均法(average)、可變類平均法(weighted)和離差平方和法(ward)〔2〕。文中主要研究Ward 系統(tǒng)聚類法及其在農(nóng)村居民收入情況分析中的應(yīng)用。
Ward 系統(tǒng)聚類法是指利用離差平方和法計(jì)算距離的一種聚類方法,類中各元素到類重心(即類均值)的平方歐式距離之和稱為類內(nèi)離差平方和。假設(shè)類GK與GL聚成一個新類GM,則GK、GL和GM的類內(nèi)離差平方和分別為公式(1)、(2)、(3)〔3〕。
當(dāng) GK和 GL合并成新類 GM時,WM> WK+WL,即類內(nèi)離差平方和增大。若GK和GL距離較近,則離差平方和增加的值應(yīng)該較小。因此GK和GL的平方距離根據(jù)公式(4)計(jì)算。
因此,離差平方和法是將方差分析的思想應(yīng)用于分類中,使同一類中的離差平方和小,表示樣本間的相似度高;而不同類間的離差平方和大,則樣本間的相似度低〔4〕。通過離差平方和的大小來度量樣本間的相似性,符合聚類分析的要求。
利用Matlab 相關(guān)的系統(tǒng)聚類函數(shù)進(jìn)行聚類分析,主要分為以下4個步驟。
2.1 樣本預(yù)處理為了保證分析結(jié)果的準(zhǔn)確性,需要對樣本數(shù)據(jù)進(jìn)行一些預(yù)處理,如平滑處理、標(biāo)準(zhǔn)化變換和極差歸一化變換等。在實(shí)際應(yīng)用中,可根據(jù)數(shù)據(jù)特征進(jìn)行選擇處理。一般較常用進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化變換,主要針對多元數(shù)據(jù)中各元間的量綱和數(shù)量級不一致的情況。Matlab提供了常用的zsocre函數(shù)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理。
2.2 計(jì)算樣本間距離聚類開始時,需要計(jì)算n個樣本間的距離,距離的計(jì)算方法包括明氏距離、蘭氏距離、馬哈拉諾比斯距離和斜交空間距離等。其中最常用的是明氏距離中的歐式距離。第i個樣本Xi和第j 個樣本Xj之間的歐式距離計(jì)算如公式(5)所示。
Matlab 中使用pdist 函數(shù)計(jì)算樣本間的歐式距離,調(diào)用格式為y=pdis(tX)。其中X 為輸入的樣本矩陣,每一行對應(yīng)一個樣本,每一列對應(yīng)樣本的一個分量。輸出y 是一個包含n(n-1) 2 個元素的行向量,分別對應(yīng)第i 個(其中i=2,3,…,n)和第j 個(其中j=1,2,…,n-1)樣本間的距離。
2.3 利用Ward 系統(tǒng)聚類法創(chuàng)建聚類樹通過Ward 系統(tǒng)聚類法進(jìn)行聚類是聚類分析中的關(guān)鍵環(huán)節(jié)。通過創(chuàng)建系統(tǒng)聚類樹可以完整地反映聚類的過程。Matlab工具箱中提供了linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹,調(diào)用格式為Z=linkage(y,‘ward’)。其中輸入?yún)?shù)y是上一步計(jì)算的樣本間距離,‘ward’表示使用離差平方和法進(jìn)行系統(tǒng)聚類。輸出參數(shù)Z是創(chuàng)建的系統(tǒng)聚類樹,包含(n-1)×3 個元素的矩陣,它的每一行對應(yīng)一次聚類,其中前兩個元素為聚類的兩個類編號(初始類編號為1~n,每聚成一個新類,類編號依次增加1),第3個元素為聚類時的距離。
創(chuàng)建好的系統(tǒng)聚類樹可利用Matlab工具箱中的dendrogram 函數(shù)生成系統(tǒng)聚類樹形圖,使聚類過程和結(jié)果更加清晰直觀。聚類樹形圖由許多連接聚類對象的倒U形線組成,線的高度表示聚類距離。樹形圖中的葉節(jié)點(diǎn)對應(yīng)原始聚類樣本。
2.4 計(jì)算系統(tǒng)聚類樹的不一致系數(shù)系統(tǒng)聚類樹的不一致系數(shù)可用來確定最終的分類個數(shù)。在保證最終聚類個數(shù)盡量少的前提下,可通過不一致系數(shù)的變化確定最終的分類個數(shù)。若不一致系數(shù)較上次的變化越大,則聚類效果越差。
系統(tǒng)聚類樹的不一致系統(tǒng)可使用Matlab 工具箱中的inconsistent 函數(shù)進(jìn)行計(jì)算。調(diào)用格式為Y=inconsistent(Z),輸入?yún)?shù)Z是由linkage函數(shù)創(chuàng)建的系統(tǒng)聚類樹,輸出參數(shù)Y 是一個包含(n-1)×4 個元素的矩陣,其中的第4 列為每一次聚類的不一致系數(shù)。
2.5 創(chuàng)建聚類結(jié)果根據(jù)創(chuàng)建好的系統(tǒng)聚類樹,以及由不一致系數(shù)確定的聚類個數(shù),創(chuàng)建聚類,并輸出聚類結(jié)果,完成聚類過程。
創(chuàng)建聚類可利用Matlab工具箱中的cluster函數(shù)實(shí)現(xiàn),其調(diào)用格式為T=cluster(Z,‘maxclust’,n),輸入?yún)?shù)Z是由linkage函數(shù)創(chuàng)建的系統(tǒng)聚類樹,創(chuàng)建一個最大聚類數(shù)為n 的聚類,輸出參數(shù)T 為每一個樣本的所屬的類序號。
中國作為一個農(nóng)業(yè)人口和農(nóng)民經(jīng)濟(jì)占主體的國家,農(nóng)民收入水平及其分配狀況直接關(guān)系擴(kuò)大內(nèi)需政策的落實(shí),關(guān)系國民經(jīng)濟(jì)持續(xù)快速增長,關(guān)系國民經(jīng)濟(jì)發(fā)展戰(zhàn)略目標(biāo)的實(shí)現(xiàn)。由于地域差異和經(jīng)濟(jì)基礎(chǔ)等因素的影響,農(nóng)民人均純收入在地區(qū)間形成顯著的差異。根據(jù)各地區(qū)農(nóng)村居民人均純收入的構(gòu)成情況,包括工資性收入、經(jīng)營性收入、財(cái)產(chǎn)性收入、轉(zhuǎn)移性收入等部分,如表1 中列出2012年全國31個省、市、自治區(qū)和直轄市的農(nóng)村居民人均純收入數(shù)據(jù),利用Ward 系統(tǒng)聚類法進(jìn)行聚類分析,將地區(qū)按收入情況劃分為不同的類,根據(jù)同一類地區(qū)間農(nóng)村居民收入情況的相似性,不同類地區(qū)間收入情況的差異性,為地區(qū)經(jīng)濟(jì)分析與研究提供重要依據(jù),對經(jīng)濟(jì)政策和扶持的制定提供科學(xué)的指導(dǎo)。
表1 2012年各地區(qū)農(nóng)村居民人均純收入
3.1分析步驟及結(jié)果
1)讀取表1 中的工資性收入、家庭經(jīng)營純收入、財(cái)產(chǎn)性收入和轉(zhuǎn)移性收入4 個主要變量數(shù)據(jù)放入矩陣 X 中,X 就是一個 31×4 的矩陣。讀取表 1 中的地區(qū)數(shù)據(jù)放入矩陣city 中,city 是一個包含31 個元素的列向量。
2)X=zscore(X);%數(shù)據(jù)標(biāo)準(zhǔn)化(減去均值,除以標(biāo)準(zhǔn)差)。
3)y=pdist(X); %計(jì)算樣品間歐氏距離,y為距離向量。
4)Z = linkage(y,‘ward’); % 利用離差平方和法創(chuàng)建系統(tǒng)聚類樹。
5)H = dendrogram(Z,0,‘orientation’,‘right’,‘labels’,city);%繪制聚類樹形圖,方向從右至左,顯示所有葉節(jié)點(diǎn),用城市名作為葉節(jié)點(diǎn)標(biāo)簽,葉節(jié)點(diǎn)標(biāo)簽在左側(cè),返回線條句柄H。創(chuàng)建的系統(tǒng)聚類樹樹形圖。見圖1。
圖1 2012年各地區(qū)農(nóng)村居民人均純收入聚類樹形圖
6)inconsistent 0=inconsistent(Z);%計(jì)算不一致系數(shù),計(jì)算結(jié)果如下所示。
7)inconsistent 0矩陣中的第4列為不一致系數(shù),通過觀察和比較每次聚類過程的不一致系數(shù)??紤]倒數(shù)第4 和5 次聚類的不一致系數(shù)的變化,不一致系數(shù)大幅增加1.132 6,說明倒數(shù)第5 次的聚類效果是比較好的,對照圖1的系統(tǒng)聚類樹形圖可看出,此時樣本被劃分為4類。即可認(rèn)為聚為4類是最合適的。
8)T=cluster(Z,‘maxclust’,4);%由系統(tǒng)聚類樹創(chuàng)建聚類,最終聚為4類。
9)obslabel(T==1);%查看第1 類所包含的地區(qū),結(jié)果如下。
第1類地區(qū)為:天津、江蘇、浙江、廣東。
10)obslabel(T==2);%查看第2 類所包含的地區(qū),結(jié)果如下。
第2 類地區(qū)為:內(nèi)蒙古、遼寧、吉林、黑龍江、福建、江西、山東、河南、湖北、海南、新疆。
11)obslabel(T==3);% 查看第 3 類所包含的地區(qū),結(jié)果如下。
第3 類地區(qū)為:河北、山西、安徽、湖南、廣西、重慶、四川、貴州、云南、西藏、陜西、甘肅、青海、寧夏。
12)obslabel(T==4);% 查看第 4 類所包含的地區(qū),結(jié)果如下。
第4類地區(qū)為:北京、上海。
3.2 分析結(jié)論利用Ward 系統(tǒng)聚類法對2012 年全國31 個地區(qū)的農(nóng)村居民人均純收入情況進(jìn)行聚類分析,最終劃分為4類地區(qū)。從結(jié)果可以發(fā)現(xiàn),不同地區(qū)的農(nóng)村居民收入水平與地理位置、資源、人口、經(jīng)濟(jì)發(fā)展水平等方面有相應(yīng)的關(guān)系。
第1類中,天津是中國4 個直轄市之一,是首都北京的門戶,中國國家中心城市。江蘇是我國著名經(jīng)濟(jì)大省。浙江是中國經(jīng)濟(jì)比較發(fā)達(dá)的沿海對外開放省份,以民營經(jīng)濟(jì)的發(fā)展帶動經(jīng)濟(jì)的起飛。廣東是中國經(jīng)濟(jì)總量最大和發(fā)展最快的省份。4個省的城鎮(zhèn)企業(yè)、民營企業(yè)較多,政府扶持,發(fā)展良好。故這4個省的農(nóng)村居民家庭人均純收入位居全國前列〔5〕。
第2類中,遼寧、吉林、黑龍江3省土地肥沃,水資源豐富,農(nóng)業(yè)產(chǎn)值和農(nóng)民收入較高。山東、河南是我國的農(nóng)業(yè)大省,交通發(fā)達(dá),使得經(jīng)濟(jì)迅速發(fā)展,農(nóng)村居民生活水平進(jìn)一步提高。福建、江西、湖北、海南是一個雨量豐沛的地區(qū),氣候溫和,適合農(nóng)作物生長,農(nóng)業(yè)發(fā)展較快,農(nóng)村居民家庭人均純收入相對較高〔6〕。內(nèi)蒙古和新疆兩省國家扶持力度大,財(cái)政支出持續(xù)向民生傾斜,農(nóng)村居民家庭人均純收入相對較高〔7〕。
第3 類中的14 個地區(qū)農(nóng)村居民家庭人均純收入較低,且多數(shù)是西部地區(qū),貴州、云南等屬于丘陵地帶〔8〕。陜西、甘肅的土地資源中旱地占主要部分〔9-10〕。青海、西藏屬高原地帶,由于受地理位置和氣候條件的影響,農(nóng)業(yè)產(chǎn)值較低,農(nóng)村居民家庭人均純收入較低。
第4 類中,北京是中國的首都,也是中國的政治、文化、科教和國際交往中心,中國經(jīng)濟(jì)、金融的決策和管理中心〔11〕。上海是中國的經(jīng)濟(jì)、交通、科技、工業(yè)、金融、貿(mào)易、會展和航運(yùn)中心〔12〕。不僅如此,旅游業(yè)等副業(yè)的繁榮也是農(nóng)村農(nóng)民高收入的原因,因而農(nóng)村居民家庭人均純收入位于全國最前列。
因此,分析結(jié)果可以為進(jìn)一步研究影響收入水平的因素和提高不同地區(qū)農(nóng)民收入水平的措施提供科學(xué)合理的依據(jù)。
利用Ward 系統(tǒng)聚類法根據(jù)數(shù)據(jù)特征的相似性進(jìn)行分類的特點(diǎn),對不同地區(qū)按農(nóng)村居民的人均純收入情況進(jìn)行聚類,劃分為不同的區(qū)類,為深入研究和政策的制定提供決策支持,在現(xiàn)實(shí)環(huán)境中具有較高的應(yīng)用價值。
〔1〕Han Jiawei,Kamber Micheeline,Pei Jian.數(shù)據(jù)挖掘概念與技術(shù)〔M〕. 范明,孟小峰,譯. 北京:機(jī)械工業(yè)出版社,2010:10-100.
〔2〕周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展〔J〕.計(jì)算機(jī)工程與應(yīng)用,2012(12):100-111.
〔3〕于秀林,任雪松.多元統(tǒng)計(jì)分析〔M〕.北京:中國統(tǒng)計(jì)出版社,2008:30-50.
〔4〕鄭紅英. 數(shù)據(jù)挖掘聚類算法的分析和應(yīng)用研究〔D〕. 重慶:重慶大學(xué),2002.
〔5〕官琳琳,門可佩.中國農(nóng)村居民家庭人均純收入的聚類分析〔J〕.安徽農(nóng)業(yè)科學(xué),2009(31):49-51.
〔6〕陶兢強(qiáng),許能銳.中國農(nóng)村居民純收入聚類分析〔J〕.江西農(nóng)業(yè)大學(xué)學(xué)報(bào):社會科學(xué)版,2010,9(2):42-48.
〔7〕劉鑫鑫.中國農(nóng)村居民收入?yún)^(qū)域差距研究〔D〕.長春:吉林大學(xué),2010.
〔8〕楊小偉.甘肅省不同地區(qū)農(nóng)村居民收入差距研究〔D〕.蘭州:蘭州大學(xué),2012.
〔9〕萬波琴.陜西農(nóng)村居民收入差距研究〔D〕.西安:西北大學(xué),2010.
〔10〕楊文俊.陜西省農(nóng)村居民收入差異分析〔D〕.西安:長安大學(xué),2011.
〔11〕劉瑜.我國農(nóng)村居民收入構(gòu)成研究〔D〕.哈爾濱:黑龍江大學(xué),2014.
〔12〕楊威.中國農(nóng)村居民收入?yún)^(qū)域不平衡研究〔D〕.廣州:暨南大學(xué),2013.