農(nóng)村貧困人口的聚類與減貧對策分析
王瑜汪三貴
[摘要]使用K-means聚類方法對我國農(nóng)村貧困地區(qū)的貧困人口進(jìn)行聚類,并進(jìn)一步分析特殊類型貧困地區(qū)、集中連片貧困地區(qū)的貧困類型結(jié)構(gòu)。結(jié)果表明,貧困類型的分布呈現(xiàn)了扶貧對象在區(qū)域間分布的不平衡性,各種貧困類型的不同特點(diǎn)和區(qū)域分布上的差異從一個視角揭示了收入差距特別是貧困程度差異化的來源。尤其是,少數(shù)民族地區(qū)的貧困特征和貧困人口比重都要比老區(qū)和邊境縣地區(qū)更加突出,而這些地區(qū)有著自身獨(dú)特的特點(diǎn)和性質(zhì),尤其需要對少數(shù)民族地區(qū)貧困背后的形成機(jī)制開展更加深入的研究,以便提出針對少數(shù)民族地區(qū)的因地制宜的扶貧開發(fā)措施。連片特困地區(qū)的主導(dǎo)貧困類型各不相同,意味著片區(qū)扶貧開發(fā)需要具有片區(qū)針對性的扶貧政策。盡管聚類分析只是一種探索性分析,但是農(nóng)村貧困人口的聚類仍然為我們定義各種貧困的類型、以及它們在不同區(qū)域或特定區(qū)域劃分之間的內(nèi)部分布結(jié)構(gòu)提供了非常有價值的信息,并將為進(jìn)一步的統(tǒng)計推斷分析提供基礎(chǔ)。
[關(guān)鍵詞]農(nóng)村貧困人口; K-means聚類; 特殊類型貧困; 連片特困地區(qū); 區(qū)域分布
[收稿日期]2013-12-31
[基金項目]本文系2010年國家社會科學(xué)基金重大招標(biāo)項目“我國特殊類型貧困地區(qū)扶貧開發(fā)戰(zhàn)略研究”(項目號:10zd&025)以及“中國人民大學(xué)科學(xué)研究基金(中央高校基本科研業(yè)務(wù)費(fèi)專項資金資助)項目”(項目號:13XNH153)研究成果,同時感謝國家留學(xué)基金委對第一作者在美訪問研究的資助(錄取文號:留金發(fā)[2013]3009)。
[作者簡介]王瑜,中國人民大學(xué)農(nóng)業(yè)與農(nóng)村發(fā)展學(xué)院博士研究生,中國人民大學(xué)反貧困問題研究中心助研;
汪三貴,中國人民大學(xué)農(nóng)業(yè)與農(nóng)村發(fā)展學(xué)院教授、博士生導(dǎo)師,中國人民大學(xué)反貧困問題研究中心主任,郵編:100872。
一、引言
2011年,《中國農(nóng)村扶貧開發(fā)綱要(2011—2020年)》的頒發(fā),標(biāo)志著我國有計劃的扶貧開發(fā)進(jìn)入了新的階段,其中,“提高扶貧標(biāo)準(zhǔn),加大投入力度,把連片特困地區(qū)作為主戰(zhàn)場,把穩(wěn)定解決扶貧對象溫飽、盡快實現(xiàn)脫貧致富作為首要任務(wù)”表明了新階段十年扶貧工作的重點(diǎn)和戰(zhàn)略核心。連片特困地區(qū)①以六盤山區(qū)、秦巴山區(qū)、武陵山區(qū)、烏蒙山區(qū)、滇桂黔石漠化區(qū)、滇西邊境山區(qū)、大興安嶺南麓山區(qū)、燕山-太行山區(qū)、呂梁山區(qū)、大別山區(qū)、羅霄山區(qū)等區(qū)域的連片特困地區(qū)和已明確實施特殊政策的西藏、四省藏區(qū)、新疆南疆三地州14片集中連片貧困地區(qū),是我國農(nóng)村貧困人口集中分布的地區(qū)。、特殊類型貧困地區(qū)②所謂特殊類型貧困地區(qū),是指老少邊貧困地區(qū),多位于經(jīng)濟(jì)發(fā)展落后的中西部山區(qū)和丘陵地區(qū)。其中,老區(qū)是指在第二次國內(nèi)革命戰(zhàn)爭和解放戰(zhàn)爭時期,在中國共產(chǎn)黨領(lǐng)導(dǎo)下創(chuàng)立的革命根據(jù)地,它們所在的縣即為老區(qū)縣;少數(shù)民族地區(qū)主要指民族自治地方155個(其中自治區(qū)5個,自治州30個,自治縣(旗)120個),中國半數(shù)以上貧困人口在少數(shù)民族地區(qū);邊區(qū)是指沿陸地國境線的縣級行政區(qū)劃單位(新疆建設(shè)兵團(tuán)56個邊境團(tuán)場未在統(tǒng)計范圍內(nèi)),共有陸地邊境縣共計134個。無疑成為了我國扶貧攻堅的主戰(zhàn)場,因此,認(rèn)識各連片特困地區(qū)和特殊類型貧困地區(qū)的基本貧困特征和內(nèi)部貧困結(jié)構(gòu)則是有效實施扶貧開發(fā)政策的基礎(chǔ)。
盡管貧困地區(qū)的貧困人口人群特點(diǎn)各有不同,但貧困人群內(nèi)部仍然具有一些類似的貧困特征:一些人口因資源稟賦的欠缺和區(qū)位因素的制約而陷于貧困,例如人均耕地不足、居住在偏遠(yuǎn)山區(qū);另一些人口可能是由于文化和社會環(huán)境的制約而無法擺脫貧困,比如少數(shù)民族地區(qū)特殊的生計模式、語言和文化的制約使得他們在市場經(jīng)濟(jì)中受益相當(dāng)有限;還有一些人口可能是由于他們家庭人口特征的制約,比如缺乏勞動力或有無法工作的成員、人力資本水平比較低、缺乏工作的技能等。
傳統(tǒng)的基于一維的貧困地區(qū)分類方式在實踐和應(yīng)用中顯得力不從心,因此需要一種能夠反映貧困地區(qū)內(nèi)在的多種特性的細(xì)分和聚類方法,來綜合反映不同貧困地區(qū)多方面的特征,這便需要運(yùn)用可解決多變量的、大數(shù)據(jù)量的細(xì)分的數(shù)據(jù)挖掘技術(shù)。鑒于K-Means[1]聚類算法在處理大數(shù)據(jù)量和多變量數(shù)據(jù)分析方面有相對優(yōu)勢,本文將采取K-means聚類方法對我國特殊類型貧困地區(qū)貧困人口進(jìn)行進(jìn)一步分類,或可彌補(bǔ)傳統(tǒng)地域劃分(貧困縣與非貧困縣、東中西部劃分等)的缺陷,從而有利于找出各個區(qū)域中限制發(fā)展與致貧的關(guān)鍵制約因素,并可以進(jìn)一步深入分析這些因素相互作用的方式和路徑,研究緩解這些制約因素的可能方式和先后順序。在政策的規(guī)劃和實施上,同一類地區(qū)的政策可以相互地借鑒。對農(nóng)村貧困人口進(jìn)行分類,可以研究形成中國農(nóng)村不同類型貧困人口的深層次原因。具體來說,貧困人口可以按照不同的特點(diǎn)分成不同的類型,并據(jù)此識別不同地區(qū)中貧困人口類型的構(gòu)成。常規(guī)的貧困分析通常在貧困與非貧困人口之間進(jìn)行比較,而把貧困人口劃分為不同類別,則可以為不同地區(qū)制定具有針對性的扶貧政策提供基本依據(jù)。
二、數(shù)據(jù)和方法
(一)數(shù)據(jù)來源
本文使用的數(shù)據(jù)來源于國家統(tǒng)計局2006年和2010年的農(nóng)村貧困監(jiān)測調(diào)查。該調(diào)查的地域范圍是分布于中西部21個省(自治區(qū)、直轄市)的592個國家扶貧開發(fā)工作重點(diǎn)縣(簡稱扶貧重點(diǎn)縣)。涉及調(diào)查的省(自治區(qū)、直轄市)有:河北、山西、內(nèi)蒙古、吉林、黑龍江、安徽、江西、河南、湖北、湖南、廣西、海南、重慶、四川、貴州、云南、陜西、甘肅、青海、寧夏和新疆。調(diào)查對象為全國592個扶貧重點(diǎn)縣中的5000多個行政村,以及5萬多個農(nóng)村常住戶*在住戶調(diào)查表中,農(nóng)村常住戶是指在農(nóng)村范圍內(nèi)居住或即將居住半年以上的家庭戶。戶口不在本地而在本地居住或即將居住半年及以上的住戶也包括在本地農(nóng)村常住戶范圍內(nèi);有本地戶口,但舉家外出謀生半年以上的住戶,無論是否保留承包耕地都不包括在本地農(nóng)村住戶范圍內(nèi)。。數(shù)據(jù)包括農(nóng)村貧困監(jiān)測調(diào)查縣級統(tǒng)計數(shù)據(jù)、社區(qū)調(diào)查數(shù)據(jù)、住戶基本情況調(diào)查數(shù)據(jù)和個人調(diào)查數(shù)據(jù)。這里主要使用其中的住戶基本情況調(diào)查數(shù)據(jù)和個人調(diào)查數(shù)據(jù)。調(diào)查抽樣方式是自加權(quán)隨機(jī)抽樣,在全部592個重點(diǎn)縣,以縣為總體,與人口規(guī)模成比例的兩階段抽樣,先抽村再抽戶。
(二)貧困標(biāo)準(zhǔn)的選擇
本文的分析同時使用了兩個標(biāo)準(zhǔn)的貧困線。第一種是原有的低收入標(biāo)準(zhǔn),即官方公布的根據(jù)歷年物價指數(shù)調(diào)整的低收入標(biāo)準(zhǔn),2006年為958元,2010年為1274元,為了行文便利,簡稱舊貧困線;第二種是2011年《中國農(nóng)村扶貧開發(fā)綱要(2011—2020年)》中提出的將農(nóng)民人均純收入2300元(2010年不變價)作為新的國家扶貧標(biāo)準(zhǔn),由于本文涉及該標(biāo)準(zhǔn)在2006年的應(yīng)用分析,所以還需將此標(biāo)準(zhǔn)倒推至2006年;而由于2009年的農(nóng)村CPI指數(shù)雖比上年下降(是上年的99.7%),但所公布的當(dāng)年舊貧困線仍然定為與2008年保持不變(1196元),因此,為了保持兩個標(biāo)準(zhǔn)在前后分析和比較中的一致性,本文對新標(biāo)準(zhǔn)的倒推是根據(jù)舊貧困線的歷年變化指數(shù)倒推而非直接用農(nóng)村CPI指數(shù)倒推。根據(jù)此原則,新標(biāo)準(zhǔn)的貧困線在2006年為1729元。
(三)數(shù)據(jù)分析方法
數(shù)據(jù)分析技術(shù)可以廣義分為兩種類型[3]:①探索性和描述性的,即研究者沒有預(yù)定義的模型或者假設(shè),但想要推斷高維數(shù)據(jù)的總體特征或者結(jié)構(gòu);②驗證性和推論性的,即研究者想要使用可用數(shù)據(jù)來驗證一個或一組假設(shè)(模型)的有效性。數(shù)據(jù)聚類主要屬于第一種數(shù)據(jù)分析技術(shù),即探索性和描述性的分析技術(shù),而作為一種探索性分析工具,聚類分析結(jié)果有助于進(jìn)一步提出可驗證的假設(shè)和模型。聚類分析是數(shù)據(jù)挖掘中的一個重要研究領(lǐng)域,是一種數(shù)據(jù)劃分或分組處理的重要手段和方法。聚類是無監(jiān)督的分類,也就是它沒有先驗知識可用,其聚類技術(shù)有很多類,目前聚類算法大體上分為基于劃分的方法、基于層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等[5-6]。聚類算法不僅可以作為發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)分布的深層次信息的工具,還可以作為數(shù)據(jù)挖掘中的一個預(yù)處理步驟。
表1 2006—2010年兩種扶貧標(biāo)準(zhǔn)的貧困線
數(shù)據(jù)來源:農(nóng)村居民消費(fèi)價格指數(shù)來源于《中國統(tǒng)計年鑒-2011》;舊標(biāo)準(zhǔn)貧困線歷年數(shù)據(jù)來源于《中國農(nóng)村貧困監(jiān)測報告-2011》;新標(biāo)準(zhǔn)貧困線2010年數(shù)據(jù)來源于《中國農(nóng)村扶貧開發(fā)綱要(2011—2020年)》,其他年份數(shù)據(jù)根據(jù)舊標(biāo)準(zhǔn)貧困線歷年數(shù)據(jù)倒推得出。
K-means算法[1]就是基于劃分的聚類算法中的一個典型算法,劃分式聚類算法還包括K-modes算法[7-10]、K-means-CP算法[11]、FCM算法[12]、基于圖論的聚類算法[5]等。而K-means算法與K-means-CP算法使用不同數(shù)值型數(shù)據(jù)集進(jìn)行的比較實驗結(jié)果表明,K-means-CP算法絲毫也不優(yōu)于K-means算法[13]。數(shù)據(jù)聚類在諸多領(lǐng)域具有長久的歷史,K-means聚類方法可以說是其中最流行最簡單的算法之一,它于1955年被首次提出,盡管在此之后有幾千種其他聚類算法被提出,但是K-means仍然被廣泛使用[6]。
1967年,MacQueen所提出的K-means算法,其聚類目標(biāo)就是根據(jù)輸入?yún)?shù)k把數(shù)據(jù)對象分為k個簇,屬于動態(tài)聚類算法,也稱為逐步聚類法,不斷迭代調(diào)整中心直到完成。其基本思想和步驟[6, 14]是:(1)首先輸入初始數(shù)據(jù)集并指定劃分的簇的個數(shù)k;(2)任意選擇k個數(shù)據(jù)對象點(diǎn)作為初始聚類中心;(3)根據(jù)簇中對象的平均值將數(shù)據(jù)對象賦給最類似的簇;(4)更新簇的平均值;(5)計算聚類準(zhǔn)則函數(shù)E;(6)重復(fù)步驟(3)~(5)直到準(zhǔn)則函數(shù)E值不再變化;(7)輸出滿足平方誤差準(zhǔn)則函數(shù)收斂的k個簇。關(guān)于K-means算法的具體步驟和算法展示可以參見Hartigan[15-16]的論述。
K-Means算法的一個最大的優(yōu)點(diǎn)就是操作簡單、采用誤差平方和的準(zhǔn)則函數(shù)、對大數(shù)據(jù)集的處理上有較高的可伸縮性和高效性。本文選擇K-means算法作為聚類方法,主要是基于該算法的操作簡便性、應(yīng)用廣泛性以及聚類結(jié)果比較穩(wěn)健的特點(diǎn)。此外,本文選擇用截面數(shù)據(jù)做聚類分析,而不是面板數(shù)據(jù)的聚類分析,主要是由于截面數(shù)據(jù)的聚類分析技術(shù)成熟并被廣泛使用,而面板數(shù)據(jù)的聚類分析在文獻(xiàn)方面比較缺乏,在技術(shù)上更沒有形成比較一致的業(yè)內(nèi)認(rèn)同*國內(nèi)的面板數(shù)據(jù)聚類分析方法研究可以參看朱建平、陳民懇提出了針對單指標(biāo)面板數(shù)據(jù)的聚類方法 [2],李因果、何曉群在重構(gòu)面板數(shù)據(jù)相似性測度的距離函數(shù)和Ward聚類算法的基礎(chǔ)上提出的面板數(shù)據(jù)聚類方法 [4],但是這些方法尚待業(yè)內(nèi)討論,也沒有公開的分析程序包可供調(diào)用。。
指定表示聚類個數(shù)的K值,是該算法的一個重要步驟,也是可能存在挑戰(zhàn)的方面,因為我們很難事先確定合適的K值。但仍然有一些方法幫助我們找到合適的K值,一方面,從先驗知識、理論常識和實踐經(jīng)驗的角度,我們預(yù)設(shè)的K值一般是在一定可選范圍內(nèi)的,比如,從研究和實踐的角度,我們愿意將人群分為幾類,而不是幾十類,我們會提出一些重要的聚類所用的變量,并且希望聚類的結(jié)果是這些特征的一些組合,因此聚類分析時一般也不會選擇大于變量數(shù)的K值;而另一方面,從統(tǒng)計的角度講,可以按照一些統(tǒng)計標(biāo)準(zhǔn)對不同K值產(chǎn)生的聚類結(jié)果進(jìn)行選擇,例如,根據(jù)Calinski和 Harabasz提出的基于方差比的尋找最理想聚類數(shù)的指標(biāo)[17],通過每一個K-means聚類結(jié)果的Calinski-Harabasz指數(shù)的比較來選取出最理想*F值越大,結(jié)果越理想。的統(tǒng)計區(qū)分來體現(xiàn)這些類別。
三、農(nóng)村貧困人口的聚類
聚類分析方法非常適用于分析那些自然形成的群體,例如自然形成的貧困家庭。對貧困群體進(jìn)行聚類分析可以更清楚地了解貧困形成的原因和貧困的分布。貧困家庭被分為不同的類別,每一個類別內(nèi)部的家庭都有著相似的特點(diǎn)。
(一)貧困人口家庭特征分類
根據(jù)調(diào)查數(shù)據(jù)的基本特性、調(diào)查人口的實際特征,并結(jié)合對世行研究報告[18]中的參考,本文將貧困家庭*這里的貧困家庭是按照收入貧困線確定的貧困家庭,在分析時會指出對應(yīng)的貧困線標(biāo)準(zhǔn)。的特征分為4大類11種。表2描述了這些類型特征的具體定義。山區(qū)和遠(yuǎn)離縣城從地理區(qū)位和公共資源的可獲得性兩方面描述了貧困家庭的劣勢。土地是農(nóng)村家庭重要的經(jīng)濟(jì)資源,勞動力的教育和家庭成員的健康是農(nóng)村家庭重要的人力資本。位于少數(shù)民族地區(qū)、邊境地區(qū)、革命老區(qū)的家庭可能面臨更差的自然環(huán)境和社會政治環(huán)境,由此致貧。高撫養(yǎng)比意味著家庭中老人和兒童的數(shù)量較多,老人和兒童基本沒有生產(chǎn)能力,并且老人容易罹患疾病,兒童需要教育投資,這會導(dǎo)致家庭的貧困。如果缺失經(jīng)濟(jì)資源和人力資本,農(nóng)村家庭就很容易陷入貧困。外出務(wù)工和鄉(xiāng)鎮(zhèn)企業(yè)就業(yè)是農(nóng)村中最主要的兩種非農(nóng)就業(yè),非農(nóng)就業(yè)是提高農(nóng)民收入的重要途徑。
表2 農(nóng)村貧困地區(qū)人口家庭特征分類
表3是2006年和2010年不同貧困特征在農(nóng)村人口和相應(yīng)貧困標(biāo)準(zhǔn)下貧困人口中所占的比例??梢园l(fā)現(xiàn),相對于農(nóng)村地區(qū)整體而言,農(nóng)村貧困人口居住于山區(qū)的比例更高,居住地遠(yuǎn)離縣城的比例更高,土地更加有限;更有可能居住在少數(shù)民族地區(qū)、邊境地區(qū);家庭的撫養(yǎng)比更高,更低的勞動教育水平以及更高的有不健康成員的比例;打工或在鄉(xiāng)鎮(zhèn)企業(yè)工作的機(jī)會更少。
表3 2006年與2010年農(nóng)村貧困地區(qū)人口特征分類比例(%)
除了革命老區(qū)和2010年的少數(shù)民族地區(qū)特征外,幾乎所有其他特征中,貧困人口都具有比農(nóng)村人口總體更高比例的貧困特征。舉例來說,2006年,63.3%的農(nóng)村人口居住在山區(qū),68.1%居住地離縣城15公里以上,45.6%人口所擁有的土地面積是所有人口土地面積平均水平的二分之一以下,43%的農(nóng)村人口生活在少數(shù)民族地區(qū),7.5%的人口生活在邊境地區(qū),18%的人口生活在革命老區(qū),33.2%的農(nóng)村人口生活在撫養(yǎng)比超過0.4的家庭中,79.1%的農(nóng)村人口生活在平均受教育水平低于總體平均二分之一水平以下的家庭中,10.5%的農(nóng)村人口生活在有殘疾、重病和慢性病成員的家庭中,58.5%的農(nóng)村人口生活在沒有外出打工人員的家庭中,97.8%的農(nóng)村人口生活在無鄉(xiāng)鎮(zhèn)企業(yè)就職成員的家庭中,而除了革命老區(qū)這個特征之外,2006年無論哪種貧困標(biāo)準(zhǔn)下的貧困人口都具有更高的特征比例。
在貧困特征中,無論對貧困地區(qū)總體而言,還是對貧困地區(qū)的貧困人口而言,有幾項貧困特征比例很高,其中在人口中占比超過40%的特征有山區(qū)、遠(yuǎn)離縣城、土地有限、少數(shù)民族地區(qū)、低勞動教育水平、無打工人員、無鄉(xiāng)企人員。這些特征方面,對于扶貧開發(fā)政策制定以及貧困人口自身的脫貧來說,都可能是巨大的挑戰(zhàn)。
在貧困人口中,那些更貧困的人口往往具有更高比例的貧困特征。以2006年為例,除了山區(qū)和革命老區(qū)這兩種特征之外,其他各種貧困特征中,958元貧困標(biāo)準(zhǔn)下的貧困人口的特征比例,比1729元貧困標(biāo)準(zhǔn)下貧困人口中的特征比例都要高,這意味著,更貧困的人口具有更加突出的貧困特征。比如,2006年,66.1%的新標(biāo)準(zhǔn)貧困線下的貧困人口生活在沒有外出打工成員的家庭中,而在舊標(biāo)準(zhǔn)貧困線以下的貧困人口中這個比例是73.4%。
在貧困人口與貧困地區(qū)人口總體的貧困特征差異方面,貧困人口在低勞動教育水平、無打工人員這兩個特征方面差別尤其突出,并且有差別擴(kuò)大的趨勢。2006年,在貧困地區(qū)人口總體中,低勞動教育水平的比例為79.1%,舊貧困標(biāo)準(zhǔn)和新貧困標(biāo)準(zhǔn)的貧困人口中這個特征占的比例分別為84.5%和83.1%,2010年,在貧困地區(qū)總體人口中,低勞動教育水平的比例降低為74.2%,而在舊貧困標(biāo)準(zhǔn)和新貧困標(biāo)準(zhǔn)的貧困人口中這個特征占的比例分別為81.0%和79.2%,盡管這種貧困特征的總體比例在下降,但是貧困人口這一特征的比例下降得更慢。作為貧困地區(qū)家庭脫貧重要渠道的外出務(wù)工,可能也因務(wù)工比例的減少而降低了貧困家庭的減貧與脫貧的機(jī)會。
比較2010年與2006年的特征分類比例可以發(fā)現(xiàn),貧困人口的特征占有比例沒有太大變化,這說明這些貧困人口的貧困特征是相對穩(wěn)定的;但另一方面,也有一些特征的比例在趨勢上有所變動,比如山區(qū)、遠(yuǎn)離縣城、少數(shù)民族地區(qū)、革命老區(qū)這幾個特征,2010年在貧困人口中的特征比例都要比總體農(nóng)村人口中的特征比例低,并且比2006年有所下降,而這些類型往往是相互關(guān)聯(lián)的,比如少數(shù)民族地區(qū)和革命老區(qū)往往也是山區(qū)和遠(yuǎn)離縣城的地區(qū),這有可能與該期間內(nèi)政府對老少邊區(qū)特殊類型貧困地區(qū)更多的關(guān)注和扶貧政策傾斜有關(guān)。
(二)農(nóng)村貧困人口聚類
上述貧困特征是我們對農(nóng)村貧困人口進(jìn)行聚類的依據(jù)。聚類是一種無監(jiān)督的分類,即事先并不能先驗性地知道分為幾類(簇)以及哪些類(簇),而在K-means算法中,需要預(yù)先設(shè)定類別數(shù)K,然后由K-means將數(shù)據(jù)對象劃分為K類。我們沒有先驗的知識,但是卻可以根據(jù)已有的貧困特征以及實際意義賦予幾個不同的K值,分別進(jìn)行聚類。根據(jù)表格描述的貧困狀況以及聚類的實際操作需要,太少類的劃分可能針對性不足,而太多太細(xì)的聚類則沒有太大區(qū)分度。從可操作性和實踐需要的角度,首先將貧困人口分為典型的5個、7個和10個類別,然后根據(jù)Calinski-Harabasz指數(shù)[17]對每一個K-means聚類分析的比較選取出統(tǒng)計上最理想的類別數(shù)。
由于不同年份的聚類結(jié)果會形成不可比較的類,所以這里選擇用較新的數(shù)據(jù)(2010年)呈現(xiàn)聚類結(jié)果,并且選擇人均純收入2300元*由于新貧困標(biāo)準(zhǔn)下的貧困農(nóng)戶都應(yīng)被視為扶貧對象,所以選用新的貧困線進(jìn)行聚類更具有現(xiàn)實意義。(2010年不變價)作為貧困標(biāo)準(zhǔn)。將2010年的數(shù)據(jù)對象按照2300元的貧困標(biāo)準(zhǔn)對人均純收入在該標(biāo)準(zhǔn)以下的貧困人口進(jìn)行聚類,其中5個類型分類的結(jié)果最理想。
首先,對于所有類型來說存在共同的特征,也就是,對所有貧困類型的家庭而言,勞動力的受教育水平較低,家庭中沒有外出務(wù)工人員或沒有鄉(xiāng)鎮(zhèn)企業(yè)工人,這些是比例較高的共同特征。也就是這些貧困特征幾乎是貧困家庭共同面對的限制性特征,但是導(dǎo)致這些特征的深層次的原因需要進(jìn)一步分析。
第二,除了這些共同特征之外,不同類型存在兩兩之間有重要差異的屬性。類型1與類型3都有突出的少數(shù)民族地區(qū)特征,但是類型1位于山區(qū)、土地有限,類型3位于非山區(qū)、土地資源約束相對小,我們不妨將類型1稱為“山區(qū)少數(shù)民族”類,類型3為“非山區(qū)少數(shù)民族地區(qū)”類;而類型2的典型特征是位于革命老區(qū),伴有位于山區(qū)和土地資源有限的特征,不妨將它簡稱為“革命老區(qū)”類;類型4 的突出特征是土地資源有限,不妨簡稱為“有限土地”類;而類型5的突出特征是位于山區(qū),不妨簡稱為“山區(qū)”類。從表中可以看到,這5個類型的貧困家庭一方面具有突出特征,另一方面又具有交叉性的共同點(diǎn)。比如,類型1和類型2同時伴有類型4和類型5的特征,這表明少數(shù)民族地區(qū)和革命老區(qū)往往也是位于山區(qū)因而土地資源也相當(dāng)有限的地區(qū),但是類型3則表明那些不位于山區(qū)、土地資源受限較少的少數(shù)民族地區(qū)家庭也是比例較高的貧困群體。
第三,從整體分類來看,5種類型的貧困人口中,類型1、2、3的貧困家庭比例較高,占了總貧困家庭比例的75%以上,尤其是“山區(qū)少數(shù)民族”類和“非山區(qū)少數(shù)民族”類共占了總貧困家庭的將近60%。因此少數(shù)民族地區(qū)的貧困人口在農(nóng)村貧困人口占了絕大多數(shù),更值得關(guān)注,也需要在扶貧資源分配中重點(diǎn)考慮這些地區(qū)存在的特有的深層次限制條件,使得扶貧政策在這些地區(qū)符合少數(shù)民族地區(qū)人們的文化習(xí)俗、生計策略。
(三)特殊類型貧困地區(qū)的特征結(jié)構(gòu)
表5呈現(xiàn)了2006年與2010年少數(shù)民族地區(qū)、革命老區(qū)和邊境縣地區(qū)這三類地區(qū)的人口特征分布情況,可以清晰地看到老少邊區(qū)貧困特征具有高度地相似性,以及幾種明顯的差別。首先,老少邊區(qū)貧困特征的高度相似性在于除了地區(qū)類型本身之外,其他特征的占有比例在地區(qū)類別之間是相近的,也就是他們具有類似的劣勢;第二,老少邊區(qū)存在重疊,主要是少數(shù)民族地區(qū)和革命老區(qū)的重疊、少數(shù)民族地區(qū)和邊境縣地區(qū)的重疊*革命老區(qū)和邊境地區(qū)是沒有重疊的。,比如以2010年為例,革命老區(qū)的被抽樣調(diào)查人口有21.5%也是生活在少數(shù)民族地區(qū)的,邊境地區(qū)的被抽樣調(diào)查人口則有85.0%也是生活在少數(shù)民族地區(qū),而這種地區(qū)特征的重疊不僅解釋了三類貧困地區(qū)貧困特征的相似性,也會顯示他們的差異和對聚類結(jié)果的影響;第三,與革命老區(qū)相比,少數(shù)民族地區(qū)和邊境地區(qū)家庭中沒有打工人員的比例更高,尤其是2010年,差異更加明顯,邊境地區(qū)和少數(shù)民族地區(qū)的高度重疊性可能表明了對于少數(shù)民族地區(qū)的家庭而言,語言、文化、生計策略和習(xí)俗的差異等會限制他們外出打工的意愿和機(jī)會。
表4 2010年農(nóng)村貧困地區(qū)人口聚類(單位:%)
注:以上結(jié)果是對2010年受調(diào)查戶中的貧困家庭的聚類。采用的貧困標(biāo)準(zhǔn)是人均純收入2300元,共有19001戶家庭屬于該標(biāo)準(zhǔn)下的貧困家庭。
表5 2006年與2010年特殊貧困地區(qū)人口特征分布比例(單位:%)
注:1代表2006年,2代表2010年。
在2010年的貧困地區(qū)貧困人口聚類結(jié)果的基礎(chǔ)上,給出了少數(shù)民族地區(qū)、革命老區(qū)、邊境縣地區(qū)三類特殊類型貧困地區(qū)對應(yīng)的貧困人口聚類結(jié)構(gòu)??梢钥闯?,由于地區(qū)類型的重疊,老少邊三類地區(qū)的聚類結(jié)構(gòu)的特征更加突出。
在少數(shù)民族地區(qū),1類和3類貧困類別(“山區(qū)少數(shù)民族地區(qū)”類和“非山區(qū)少數(shù)民族地區(qū)”類)貧困人口共占了少數(shù)民族地區(qū)貧困人口的81.0%;在革命老區(qū),2類(“革命老區(qū)”類)貧困人口占了少數(shù)民族地區(qū)貧困人口的85.4%;在邊境縣地區(qū)1類和3類貧困類別(“山區(qū)少數(shù)民族地區(qū)”類和“非山區(qū)少數(shù)民族地區(qū)”類)貧困人口共占了少數(shù)民族地區(qū)貧困人口的84.3%。尤其是,在少數(shù)民族地區(qū)和邊境縣地區(qū),“山區(qū)少數(shù)民族地區(qū)”類貧困人口都占了對應(yīng)所在地區(qū)貧困人口的60%左右,并且往往與有限的土地、低教育水平聯(lián)系在一起。
(四)不同類型貧困人口的區(qū)域分布
考慮到國內(nèi)扶貧過程中往往根據(jù)地域來劃分扶貧范圍,而扶貧政策的開展總是需要落實到地方,所以按照區(qū)域劃分來呈現(xiàn)區(qū)域內(nèi)不同類型貧困人口的結(jié)構(gòu),可以使扶貧政策在宏觀設(shè)計時便更具有區(qū)域針對性。表7是不同類型農(nóng)村貧困人口在不同區(qū)域的絕對分布比重,圖1展示了不同區(qū)域內(nèi)農(nóng)村貧困人口不同類型的結(jié)構(gòu)。兩圖共同表明了在不同區(qū)域不同類型貧困人口的量以及區(qū)域內(nèi)的貧困類型結(jié)構(gòu)特征。
表6 2010年老少邊區(qū)特殊類型貧困地區(qū)貧困人口聚類(單位:%)
注:以上結(jié)果是依據(jù)表4的聚類結(jié)果對少數(shù)民族地區(qū)、革命老區(qū)、邊境縣地區(qū)三類特殊類型貧困地區(qū)分別呈現(xiàn)貧困家庭人口聚類的結(jié)構(gòu),而不是分地區(qū)分別進(jìn)行的聚類。
表7 2010年農(nóng)村不同類型貧困人口按區(qū)域的絕對分布比重
圖1 2010年農(nóng)村不同類型貧困人口區(qū)域內(nèi)相對分布比重 注:以上圖表結(jié)果依據(jù)表4的聚類結(jié)果對不同區(qū)域測算貧困人口類型的結(jié)構(gòu),而不是分區(qū)域分別進(jìn)行的聚類。樣本地區(qū)中,華北地區(qū)包括河北、山西、內(nèi)蒙,東北地區(qū)包括吉林、黑龍江,華東地區(qū)包括安徽、江西,中南地區(qū)包括河南、湖北、湖南、廣西、海南,西南地區(qū)包括重慶、四川、貴州、云南,西北地區(qū)包括陜西、甘肅、青海、寧夏、新疆。從華北到西北不同地區(qū)的貧困戶(人均純收入2300元以下)樣本量(戶)分別為4268、1047、1101、3289、5352、3894。
首先,從表7可以看出,華北、西南和西北地區(qū)的貧困人口數(shù)量各占總量20%以上,三個地區(qū)的貧困人口總計占農(nóng)村貧困人口的70%以上。這表明了從受益面來看,緩解貧困、減少貧困人口的主戰(zhàn)場是這些地區(qū)。在區(qū)域間的扶貧資源分配可能需要考慮貧困人口比重的分布。
第二,從圖1可以看出,不同區(qū)域農(nóng)村貧困人口類型的結(jié)構(gòu)具有明顯差別。從區(qū)域內(nèi)貧困人口貧困類型的結(jié)構(gòu)看,華北地區(qū)以革命老區(qū)、非山區(qū)的少數(shù)民族、山區(qū)這幾類貧困類型為主,東北地區(qū)以革命老區(qū)、山區(qū)為主,華東地區(qū)以山區(qū)少數(shù)民族、革命老區(qū)和山區(qū)為主,中南地區(qū)以山區(qū)少數(shù)民族、革命老區(qū)類為主,西南地區(qū)以少數(shù)民族類型包括山區(qū)的少數(shù)民族和非山區(qū)的少數(shù)民族為主,西北地區(qū)則5種貧困類型比較均勻。但在所有地區(qū)內(nèi)部,少數(shù)民族類型的貧困人口都占有相對高的比重。以上這些貧困結(jié)構(gòu)顯示了在不同區(qū)域之內(nèi),哪些是更為主要的貧困類型。
(五)連片特困地區(qū)的貧困人口類型與分布
《中國農(nóng)村扶貧開發(fā)綱要(2011—2020年)》明確了扶貧攻堅的主戰(zhàn)場,將六盤山區(qū)、秦巴山區(qū)、武陵山區(qū)、烏蒙山區(qū)、滇桂黔石漠化區(qū)、滇西邊境山區(qū)、大興安嶺南麓山區(qū)、燕山-太行山區(qū)、呂梁山區(qū)、大別山區(qū)、羅霄山區(qū)等區(qū)域的連片特困地區(qū)和已經(jīng)明確實施特殊政策的西藏、四川藏區(qū)、新疆南疆三地州確立為扶貧攻堅主戰(zhàn)場。除了西藏、四川藏區(qū)、新疆南疆三地州之外,11個連片特困地區(qū)都在農(nóng)村貧困監(jiān)測調(diào)查范圍之內(nèi)。在已有聚類分析的基礎(chǔ)上,對各連片特困地區(qū)的貧困人口進(jìn)行貧困類型識別有助于了解連片特困地區(qū)的主要限制特征,為連片特困地區(qū)的扶貧開發(fā)提供一定參考依據(jù)。
表8呈現(xiàn)的是2010年連片特困地區(qū)的基本貧困概況。根據(jù)2010年貧困監(jiān)測的樣本數(shù)據(jù)結(jié)果可以發(fā)現(xiàn),根據(jù)兩種貧困標(biāo)準(zhǔn),從貧困發(fā)生比率看,大興安嶺南麓山區(qū)、呂梁山區(qū)、燕山-太行山區(qū)的貧困發(fā)生率高出總樣本平均水平許多;從貧困人口總量來看,燕山-太行山區(qū)、秦巴山區(qū)、六盤山區(qū)、滇黔桂石漠化區(qū)、滇西邊境山區(qū)、武陵山區(qū)的貧困人口數(shù)量較大。尤其是燕山-太行山區(qū),貧困發(fā)生比率和貧困人口數(shù)量都在11個片區(qū)位于前列。
根據(jù)前文表4的總體聚類結(jié)果,將11個連片特困地區(qū)中5個貧困類型的結(jié)構(gòu)比例列出在表9中。從表9中可以看出,11個連片特困地區(qū)有各自不同的主要貧困類型,滇黔桂石漠化區(qū)、滇西邊境山區(qū)、烏蒙山區(qū)以“山區(qū)少數(shù)民族”類型的貧困為主導(dǎo),大別山區(qū)、羅霄山區(qū)、武陵山區(qū)以“革命老區(qū)”類型的貧困為主導(dǎo),大興安嶺南麓山區(qū)則以“非山區(qū)少數(shù)民族”類型的貧困為主導(dǎo),六盤山區(qū)、呂梁山區(qū)以“山區(qū)”型貧困類型為主導(dǎo),而秦巴山區(qū)、燕山-太行山區(qū)沒有一個絕對主導(dǎo)的貧困類型,屬于多種貧困類型區(qū)域。
由此可見,作為新綱要中確定的扶貧攻堅主戰(zhàn)場的11個連片特困地區(qū),其主要的貧困類型各不相同,當(dāng)然,這里的基礎(chǔ)聚類指標(biāo)中沒有考慮特殊的自然環(huán)境因素,在片區(qū)扶貧開發(fā)過程中,實際上還需要將貧困類型與當(dāng)?shù)靥厥獾淖匀画h(huán)境因素結(jié)合考慮。
表8 2010年連片特困地區(qū)的貧困概況
注:11個連片特困地區(qū)的總樣本為35511戶。
表9 2010年連片特困地區(qū)的貧困類型結(jié)構(gòu)
四、基本結(jié)論與建議
首先,貧困類型的分布,既呈現(xiàn)了扶貧對象在區(qū)域間分布的不平衡性,也表明了區(qū)域內(nèi)部扶貧需要提高針對性。各種貧困類型的不同特點(diǎn)和區(qū)域分布上的差異從一個視角揭示了收入差距特別是貧困程度差異化的來源。除了受教育水平低、沒有鄉(xiāng)鎮(zhèn)企業(yè)務(wù)工機(jī)會和家庭缺乏外出打工成員這些共同特征之外,不同的區(qū)域內(nèi)不同類型的貧困類型組合結(jié)構(gòu),意味著各個地區(qū)貧困形成的深層次原因可能各不相同。因此,扶貧政策可能需要針對不同地區(qū)的貧困類型組合對不同地區(qū)的貧困人口所面臨的共同障礙和特殊劣勢做出合理的調(diào)整。
第二,少數(shù)民族地區(qū)的貧困特征突出,尤其以西南、西北、華北為多數(shù)。老少邊區(qū)特殊類型貧困地區(qū)中,尤其以少數(shù)民族地區(qū)、以及少數(shù)民族和革命老區(qū)或者邊境地區(qū)的重疊地區(qū)的貧困人口比重大。少數(shù)民族地區(qū)的貧困特征方面,除了一些共性,還表現(xiàn)在外出務(wù)工比例低和受教育水平低。從目前的扶貧實踐體系來看,主流的一些扶貧政策,例如異地扶貧搬遷、整村推進(jìn)、以工代賑、就業(yè)促進(jìn)等方式未必能在少數(shù)民族地區(qū)奏效,尚需對少數(shù)民族地區(qū)貧困的形成機(jī)制和脫貧方式開展更加深入的研究,以便提出針對少數(shù)民族地區(qū)的因地制宜的扶貧開發(fā)措施。
第三,對于一些貧困人群共有的脫貧障礙,比如教育水平低下、外出務(wù)工成員少、沒有鄉(xiāng)鎮(zhèn)企業(yè)工作的機(jī)會,即使他們在特征表現(xiàn)上相同,但是這些特征本身的形成也具有不相同的原因。而另一些障礙也與相應(yīng)的區(qū)域環(huán)境有密切的相關(guān),比如少數(shù)民族人口比較多的區(qū)域,受教育水平和外出務(wù)工的比例都更低,山區(qū)的人口因為離市場遠(yuǎn)、土地更加有限(以及可能更惡劣的生存環(huán)境)而更容易陷入貧困。家庭人口特征和地區(qū)的環(huán)境因素可能同時對貧困的發(fā)生造成影響。結(jié)合地區(qū)特征來實施提高農(nóng)村貧困人口素質(zhì)和能力的措施可能更加有效。
第四,貧困類型在區(qū)域內(nèi)分布的不同結(jié)構(gòu),為不同區(qū)域的扶貧政策制定和資源分配提供了參考。比如華北地區(qū)的貧困人口以革命老區(qū)(34.8%)和山區(qū)(21.1%)、非山區(qū)的少數(shù)民族(24.3%)為主,其中,革命老區(qū)和山區(qū)這兩類都具有山區(qū)地域的限制特征且外出務(wù)工的比例又低,對于這些地域的貧困人口,不僅需要提高土地的產(chǎn)出水平,更需要提高當(dāng)?shù)刎毨巳旱纳嬆芰?,通過提高農(nóng)業(yè)生產(chǎn)技術(shù)、外出務(wù)工能力來提高他們的就業(yè)能力,而對于該地區(qū)的非山區(qū)的少數(shù)民族貧困人口,或許提高外出務(wù)工能力并不是合適的政策措施,而主要應(yīng)當(dāng)根據(jù)他們的生計策略和文化習(xí)俗,提高特色經(jīng)濟(jì)的發(fā)展能力,比如發(fā)展鄉(xiāng)土教育、特產(chǎn)經(jīng)濟(jì)、文化旅游等。
第五,11個連片特困地區(qū)的主導(dǎo)貧困類型各不相同,而貧困類型之間又有一些相同特征,這意味著片區(qū)扶貧開發(fā)需要具有片區(qū)針對性的扶貧政策,并需要結(jié)合當(dāng)?shù)靥厥獾淖匀画h(huán)境因素綜合考慮,同時,主導(dǎo)貧困類型相同的片區(qū)之間的扶貧開發(fā)策略似乎在一定程度上可以互相借鑒。
總而言之,盡管聚類分析只是一種探索性分析,但是農(nóng)村貧困人口的聚類仍然為我們定義各種貧困的類型、以及它們在不同區(qū)域間、特定區(qū)域劃分、片區(qū)間的分布結(jié)構(gòu)提供了非常有價值的信息。同時,這種探索性分析也將為進(jìn)一步的統(tǒng)計推斷分析提供基礎(chǔ)。
[參考文獻(xiàn)]
[1]MacQueen J.Somemethodsforclassificationandanalysisofmultivariateobservations:Proc. 5thBerkeleySymp.MathematicalStatist. Probability, 1967
[2]朱建平, 陳民懇. 面板數(shù)據(jù)的聚類分析及其應(yīng)用. 統(tǒng)計研究, 2007(4):11-14
[3]Tukey J. Exploratory Data Analysis. Addison-Wesley, 1977
[4]李因果, 何曉群. 面板數(shù)據(jù)聚類方法及應(yīng)用. 統(tǒng)計研究, 2010(9):73-79
[5]Jain A K, Murty M N, Flynn P J. Data clustering: a review.ACMComput.Surv., 1999,31(3):264-323
[6]Jain A K. Data clustering: 50 years beyond K-means.PatternRecognitionLetters, 2010,31(8):651-666
[7]Huang Z. Extensions to the k-means algorithm for clustering large data sets with categorical values.DataMiningandKnowledgeDiscovery, 1998,2(3):283-304
[8]Huang Z, Ng M K. A fuzzy k-modes algorithm for clustering categorical data.FuzzySystems,IEEETransactionson, 1999,7(4):446-452
[9]Huang Z. A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining.: Workshop on Research Issues on Data Mining and Knowledge Discovery (DMKD’97), 1997
[10]Chaturvedi A, Green P E, Caroll J D. K-modes clustering.JournalofClassification, 2001,18(1):35-55
[11]Ding C, He X. K-nearest-neighbor consistency in data clustering: incorporating local information into global optimization: Proceedings of the 2004 ACM symposium on Applied computing, 2004
[12]Chuang K, Tzeng H, Chen S, et al. Fuzzy c-means clustering with spatial information for image segmentation.ComputerizedMedicalImagingandGraphics, 2006,30(1):9-15
[13]孫吉貴, 劉杰, 趙連宇. 聚類算法研究. 軟件學(xué)報, 2008(1):48-61
[14]Khan S S, Ahmad A. Cluster center initialization algorithm for K-means clustering.PatternRecognitionLetters, 2004,25(11):1293-1302
[15]Hartigan J A, Wong M A. Algorithm AS 136: A K-Means Clustering Algorithm.JournaloftheRoyalStatisticalSociety.SeriesC(AppliedStatistics), 1979,28(1):100-108
[16]Hartigan J A. Clustering algorithms. John Wiley & Sons, Inc., 1975
[17]Caliński T, Harabasz J. A dendrite method for cluster analysis.CommunicationsinStatistics, 1974,3(1):1-27
[18]Mundial B. From poor areas to poor people: China’s evolving poverty reduction agenda. An assessment of poverty and inequality in China. Washington DC: World Bank. Poverty Reduction and Economic Management Department East Asia and Pacific Region, 2009
Clustering Analysis of the Rural Poverty Population and
Poverty Reduction Strategies
Wang YuWang Sangui
AbstractUsing the method of K-means clustering, this paper makes the classification poverty population in rural China and thus the analysis of structure of poverty types in areas of special types of poverty and in contiguous poverty areas. The outcomes show that the targeted poor are disproportionately distributed among regions and the features of different types and their regional distribution can be treated as sources of income inequality especially the poverty levels. In particular, poverty characteristics are more notable and the poverty is lager in population in ethnic minority areas than those in old revolutionary base areas and border regions, which implicates that further research is required to explore the hiding mechanism causing poverty in ethnic minority areas so as to put forward poverty alleviation and development measures accommodating to local condition. Also, the leading poverty type is different among contiguous poverty-stricken areas, so that targeted policies are needed. Though clustering is mainly deemed as exploratory analysis, the clustering of rural poverty population still helps to make classifications and definitions of various types of poverty and the internal structure and regional distribution of these poverty types, which can contribute to further statistical inferences and causal analysis.
Key wordsRural poverty population; K-means clustering; Special types of poverty; Contiguous poverty-stricken areas; Geographical distribution
(責(zé)任編輯:陳世棟)
中國農(nóng)業(yè)大學(xué)學(xué)報(社會科學(xué)版)2015年2期