葉水仙 劉慧青 林國(guó)忠
摘 要:選用全國(guó)2011年31個(gè)省和直轄市的人口數(shù)據(jù)和經(jīng)濟(jì)數(shù)據(jù),分別從一維、二維及多維進(jìn)行聚類分析,結(jié)果表明,一維聚類分析反映各省不同指標(biāo)的自然分布規(guī)律;二維聚類分析反映人口與相關(guān)指標(biāo)的顯著的相互關(guān)系與特征,多維聚類分析的分類結(jié)果綜合性強(qiáng),與公眾認(rèn)識(shí)的綜合分類是一致的。由此認(rèn)為,聚類分析得到的分類結(jié)果,可為政府和各職能部門在制定人口及各項(xiàng)地方性經(jīng)濟(jì)發(fā)展政策提供依據(jù)。
關(guān)鍵詞:聚類分析 人口區(qū)劃 數(shù)據(jù)挖掘
中圖分類號(hào):C92 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-3973(2013)005-184-03
1 前言
隨著中國(guó)信息化進(jìn)程的加速,各行各業(yè)每天都產(chǎn)生大量的數(shù)據(jù),如何充分利用這些數(shù)據(jù),更好地為人類生產(chǎn)和生活更好地服務(wù)?數(shù)據(jù)挖掘是一種不錯(cuò)的方法,數(shù)據(jù)挖掘又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:(1)數(shù)據(jù)準(zhǔn)備;(2)數(shù)據(jù)挖掘;(3)結(jié)果表達(dá)和解釋。
聚類分析(Cluster Analysis)是一種數(shù)據(jù)挖掘方法,是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法,它們討論的對(duì)象是大量的樣品或數(shù)據(jù),要求能合理按各自的特性來(lái)進(jìn)行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗(yàn)知識(shí)的情況下進(jìn)行的。目前在文獻(xiàn)中存在大量的聚類算法,算法的選擇取決于數(shù)據(jù)的類型、聚類的目的和應(yīng)用。大體上聚類分析主要的算法可以分為:(1)劃分方法;(2)層次的方法;(3)基于密度的方法;(4)基于網(wǎng)格的方法;(5)基于模型的方法。如果聚類分析被用作描述或者探查的工具,可以對(duì)同樣的數(shù)據(jù)嘗試多種算法,以發(fā)現(xiàn)數(shù)據(jù)可能揭示的結(jié)果。聚類方法廣泛應(yīng)用于各行各業(yè)。
人口是基礎(chǔ)數(shù)據(jù),是制定各項(xiàng)政策的依據(jù)。人口區(qū)劃根據(jù)自然、經(jīng)濟(jì)、人口特征及相應(yīng)的指標(biāo)體系,對(duì)全國(guó)人口分布狀況分區(qū)劃片,并提出各區(qū)人口發(fā)展合理目標(biāo)及相應(yīng)的人口政策和措施,為全國(guó)和分區(qū)人口發(fā)展規(guī)劃提供科學(xué)依據(jù),并為國(guó)民經(jīng)濟(jì)計(jì)劃和經(jīng)濟(jì)區(qū)劃服務(wù)。20世紀(jì)80年代初,中國(guó)學(xué)者胡煥庸根據(jù)自然地理特征、人口密度、人口自然增長(zhǎng)、人口遷移、耕地、糧食產(chǎn)量、勞動(dòng)力等指標(biāo),將中國(guó)劃分為八大人口區(qū),即:黃河下游區(qū),遼吉黑區(qū),長(zhǎng)江中下游區(qū),東南沿海區(qū),晉陜甘寧區(qū),川黔滇區(qū),蒙新區(qū),青藏區(qū)。隨著中國(guó)經(jīng)濟(jì)的迅猛發(fā)展人口分布呈現(xiàn)出許多新的特征,為了適應(yīng)新的趨勢(shì),有必要重新定位和再研究。
2 數(shù)據(jù)與方法
2.1 數(shù)據(jù)來(lái)源與指標(biāo)選擇
本研究的數(shù)據(jù)采用2011年全國(guó)31個(gè)省及直轄市的統(tǒng)計(jì)數(shù)據(jù),人口數(shù)據(jù)來(lái)源于《中國(guó)人口統(tǒng)計(jì)年鑒》,各省人均可支配收入來(lái)源于經(jīng)濟(jì)信息網(wǎng)。因研究的是各省的人口及經(jīng)濟(jì)指標(biāo)聚類,研究區(qū)域很大,信息粒度較大,因此選擇了有代表性的綜合性人口數(shù)據(jù)指標(biāo),人口(總量)、人口密度、人口自然增長(zhǎng)率、第六次人口普查數(shù)據(jù)、人均可支配收入、人均GDP、遷移數(shù)據(jù)。其中人口自然增長(zhǎng)率為(人口出生率-人口死亡率)/人口均值*1000%,遷移數(shù)據(jù)=第六次人口普查數(shù)據(jù)-人口(常住人口)。各省及直轄市的基礎(chǔ)數(shù)據(jù)如表1所示。
2.2 聚類分析原理
3.2 二維聚類
以人均GDP和人口自然增長(zhǎng)率進(jìn)行聚類,數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,得到的結(jié)果有五類,如表5如示。
從以上聚類結(jié)果看,第一類是沿海地區(qū),經(jīng)濟(jì)較為發(fā)達(dá),人口增長(zhǎng)正常;而第二類內(nèi)陸地區(qū),人均GDP較低,人口自然增長(zhǎng)優(yōu)率較為正常;第三類為東北三省,人均GDP中等,人口增長(zhǎng)率低;第四類為人均GDP高,為三個(gè)直轄市;第五類為人均GDP低,而且人口增長(zhǎng)快的區(qū)域。
3.3 多維聚類
多維聚類時(shí),采用K均值法進(jìn)行聚類,得到的聚類結(jié)果如表6。
根據(jù)多維數(shù)據(jù)聚類,共分為六類,其中第一類屬于人口少,但較為富裕的北京和上海,而第六類為天津,自成一類,主要是流動(dòng)人口及可支配收入較第一類差一些;第四類為經(jīng)濟(jì)發(fā)達(dá)的廣東、江蘇和浙江;第二類為經(jīng)濟(jì)較好,人均收入中等,流動(dòng)人口較少的地區(qū);第五類為經(jīng)濟(jì)欠發(fā)達(dá),人口保持較高增長(zhǎng)率的省份;第三類則是大部分的內(nèi)陸地區(qū)。
4 結(jié)論與討論
本文通過(guò)采用聚類分析的手段分析全國(guó)31個(gè)省市人口的發(fā)展規(guī)律,揭示了不同省市在人口發(fā)展之間的相似性和差異性,研究得出合理聚類結(jié)果,為政府和各職能部門在制定人口及各項(xiàng)地方性經(jīng)濟(jì)發(fā)展政策提供依據(jù)。
聚類分析結(jié)果表明,一維、二維和多維聚類分析方法有各自的典型特征有用途。一維聚類分析簡(jiǎn)潔地表明各省人口自然分布規(guī)律,可為國(guó)家對(duì)不同各省份的人口政策提供科學(xué)依據(jù);二維聚類分析直接反應(yīng)了不同省份人口與經(jīng)濟(jì)等指標(biāo)的相互關(guān)系,如論文中對(duì)人均GDP和人口自然增長(zhǎng)率的二維聚類分析,分類結(jié)果合理的體現(xiàn)了當(dāng)前我國(guó)各省經(jīng)濟(jì)發(fā)展與人口特征。多維聚類分析方法適用于對(duì)各省綜合分類,論文中采用了與人口有關(guān)的5個(gè)指標(biāo)進(jìn)行的多維聚類分析,分類結(jié)果有較強(qiáng)的綜合性,與當(dāng)前各省公眾認(rèn)識(shí)的綜合分類一致。
解決了傳統(tǒng)的經(jīng)驗(yàn)分類方法導(dǎo)致的客觀性缺乏等問題。為人口的分類管理實(shí)踐提供了理論依據(jù)和技術(shù)手段。
(本論文為院級(jí)大學(xué)生實(shí)踐創(chuàng)新訓(xùn)練計(jì)劃項(xiàng)目2011XYCXXL14資助項(xiàng)目)
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kambe.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.
[2] 陳志泊.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖[M].北京:清華大學(xué)出版社,2009.
[3] 陸學(xué)藝.可持續(xù)發(fā)展實(shí)驗(yàn)區(qū)發(fā)展歷程回顧與建議[J].中國(guó)人口資源與環(huán)境,2007,17(3):1-2.
[4] 張文彤,董偉.SPSS統(tǒng)計(jì)分析高級(jí)教程[M].北京:高等教育出版社,2004:236-237.
[5] 劉玉芳,宋金星,劉永和.河南省人口現(xiàn)代化區(qū)域差異的主成分及聚類分析[J].西北人口,2007(03):59-61.
[6] 陳華榮,王曉鳴.基于聚類分析的可持續(xù)發(fā)展實(shí)驗(yàn)區(qū)分類評(píng)價(jià)研究[J].中國(guó)人口資源與環(huán)境,2010(3):150-154.