陶春海,鐘桂珍
(江西財經(jīng)大學(xué)a.統(tǒng)計學(xué)院;b.財經(jīng)數(shù)據(jù)科學(xué)重點實驗室,南昌 330000)
數(shù)據(jù)作為國家各級部門制定相關(guān)政策的重要依據(jù),開展數(shù)據(jù)質(zhì)量評估方法研究有利于提高數(shù)據(jù)質(zhì)量評估的精度,從中把握事物的內(nèi)在規(guī)律,進(jìn)而提高決策效率。近些年,如何利用科學(xué)方法來診斷數(shù)據(jù)的質(zhì)量,也成為理論界重點關(guān)注和探討的課題。
關(guān)于數(shù)據(jù)質(zhì)量評估的研究,從數(shù)據(jù)質(zhì)量評估方法來看,主要集中在三個方面:一是利用Benford法則來檢測統(tǒng)計數(shù)據(jù)質(zhì)量,并構(gòu)建面板模型進(jìn)行實證分析[1];二是基于異常值角度,運用數(shù)理統(tǒng)計方法檢驗數(shù)據(jù)中的異常值,對離群數(shù)據(jù)進(jìn)行顯著性檢驗來評估數(shù)據(jù)質(zhì)量[2];三是在多維統(tǒng)計數(shù)據(jù)的質(zhì)量評估中引入Bootstrap統(tǒng)計分布檢驗法[3]。然而,鮮有學(xué)者綜合運用三種方法評估數(shù)據(jù)的質(zhì)量。從數(shù)據(jù)質(zhì)量評估對象來看,現(xiàn)有研究主要關(guān)注GDP、GNI[4,5]等指標(biāo),但鮮有學(xué)者將貧困縣調(diào)研數(shù)據(jù)作為研究對象。從數(shù)據(jù)質(zhì)量評估視角來看,既有研究要么從數(shù)據(jù)質(zhì)量內(nèi)涵著手,如從精度、準(zhǔn)確性、關(guān)聯(lián)性、及時性、一致性等多個維度評估數(shù)據(jù)質(zhì)量;要么從誤差分析入手,以準(zhǔn)確性為著力點,研究數(shù)據(jù)生產(chǎn)過程中的異常值情況,從而判斷數(shù)據(jù)質(zhì)量[6]。然而,鮮有學(xué)者從結(jié)構(gòu)匹配性視角出發(fā)研究數(shù)據(jù)質(zhì)量。
綜上,既有文獻(xiàn)雖為數(shù)據(jù)質(zhì)量評估奠定了重要的理論和方法基礎(chǔ)[7—10],但在研究方法、對象和視角上仍存在可拓展的空間。同時,貧困縣調(diào)研數(shù)據(jù)刻畫了我國貧困地區(qū)農(nóng)戶的基本生活現(xiàn)狀,對我國全面推進(jìn)鄉(xiāng)村振興具有重要的理論和現(xiàn)實意義。鑒于此,本文根據(jù)貧困縣調(diào)研數(shù)據(jù)中家庭成員年齡結(jié)構(gòu)和勞動能力結(jié)構(gòu)與收入之間的匹配性關(guān)系,提出基于結(jié)構(gòu)匹配性視角,由Benford 法則、異常值檢驗、模型一致性和統(tǒng)計分布一致性四個維度共同組成的數(shù)據(jù)質(zhì)量綜合評估方法,以2020年S省Z貧困縣的實地調(diào)研數(shù)據(jù)為樣本,驗證該方法的有效性,以期為高質(zhì)量綜合評估數(shù)據(jù)質(zhì)量提供方法參考。
1.1.1 Benford法則數(shù)據(jù)質(zhì)量評估方法
Benford法則最早于1881年由美國天文學(xué)家和數(shù)學(xué)家Simon Neweomb發(fā)現(xiàn)。經(jīng)過不斷發(fā)展和完善,Benford法則在檢驗數(shù)據(jù)等方面的應(yīng)用越來越廣泛?;贐enford法則檢驗數(shù)據(jù)質(zhì)量的基本思想是:計算數(shù)據(jù)集中各位數(shù)字的理論頻率與實際頻率及其差異,構(gòu)造卡方統(tǒng)計量與臨界值比較,驗證各位數(shù)字是否服從Benford法則。
首位數(shù)字(非零非負(fù))按Benford定律出現(xiàn)的頻率為:
第二位數(shù)字出現(xiàn)的頻率為:
……
其中,d1和d2分別表示首位和第二位數(shù)字的取值,p(di)表示第i位出現(xiàn)數(shù)字di的頻率。
由上式計算的首位和第二位數(shù)字按Benford法則分布的理論頻率見表1。
表1 首位和第二位數(shù)字按Benford法則分布的理論頻率
卡方檢驗原假設(shè)為理論頻率與實際頻率無差異,備擇假設(shè)為理論頻率與實際頻率存在差異。
構(gòu)造卡方統(tǒng)計量,χ2統(tǒng)計量的計算公式為:
其中,ei表示第i位數(shù)字出現(xiàn)的實際頻率,bi表示第i位數(shù)字出現(xiàn)的理論頻率,N為樣本總量。
比較卡方統(tǒng)計量的計算值與臨界值。若卡方統(tǒng)計量的計算值小于臨界值,則沒有理由拒絕原假設(shè),說明理論頻率與實際頻率無差異,數(shù)據(jù)遵循Benford 法則。若卡方統(tǒng)計量計算值大于臨界值,則拒絕原假設(shè),說明理論頻率與實際頻率存在差異,數(shù)據(jù)不符合該法則。
1.1.2 異常值數(shù)據(jù)質(zhì)量評估方法
異常值的多少是衡量數(shù)據(jù)質(zhì)量的方法之一,同時異常值的存在可能會對分析結(jié)果產(chǎn)生較大的負(fù)面影響,需要深入研究。通過異常值檢驗數(shù)據(jù)質(zhì)量的原理是:若數(shù)據(jù)質(zhì)量好,則數(shù)據(jù)圍繞擬合線分布會比較集中,不會存在大量分布在很遠(yuǎn)的異常值。
1.1.3 Bootstrap數(shù)據(jù)質(zhì)量評估方法
Bootstrap 方法的基本思想是:若初始樣本足夠大,則根據(jù)初始樣本生成的一系列Bootstrap 樣本計算得到的統(tǒng)計量會無限接近總體的分布,比較原始分布與Bootstrap抽樣的統(tǒng)計分布是否一致,從而判斷數(shù)據(jù)質(zhì)量。
雖然三種方法各有優(yōu)點和缺點,例如,數(shù)據(jù)不遵循Benford 法則并不意味著一定存在數(shù)據(jù)質(zhì)量問題,但他們的適用范圍相對較廣,且約束條件較少,故在數(shù)據(jù)質(zhì)量評估應(yīng)用中較為普遍。此外,單一的多元回歸、逐步回歸和分位數(shù)回歸模型并不能直接評估數(shù)據(jù)質(zhì)量,但考慮到三種回歸方法都是統(tǒng)計學(xué)的基本方法,應(yīng)用較廣,約束較少,若三個模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計學(xué)意義一致,則也能夠在一定程度上說明數(shù)據(jù)質(zhì)量的好壞。
基于此,本文根據(jù)一般性數(shù)據(jù)質(zhì)量評估方法和相關(guān)回歸分析理論,提出結(jié)構(gòu)匹配性視角數(shù)據(jù)質(zhì)量評估方法:首先,根據(jù)Benford 法則初步判斷某一核心指標(biāo)是否服從該法則;其次,異常值的多少不僅影響數(shù)據(jù)質(zhì)量,而且可能對建模產(chǎn)生較大的負(fù)面影響,故通過異常值檢驗判斷數(shù)據(jù)質(zhì)量,并找到異常值的具體位置;然后剔除異常值,再根據(jù)數(shù)據(jù)特征和變量間的匹配性關(guān)系分別構(gòu)建線性和非線性模型,以模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計學(xué)意義是否一致判斷數(shù)據(jù)質(zhì)量;最后,根據(jù)Bootstrap 抽樣方法自助抽樣1000 次,檢驗關(guān)鍵核心指標(biāo)的均值統(tǒng)計量是否呈對數(shù)正態(tài)分布,即與原始數(shù)據(jù)的統(tǒng)計分布是否一致,進(jìn)而判斷數(shù)據(jù)質(zhì)量。
1.2.1 基于Benford法則的數(shù)據(jù)質(zhì)量檢驗
基于Benford 法則的數(shù)據(jù)質(zhì)量檢驗的基本思路是:計算數(shù)據(jù)中某個或某些關(guān)鍵核心指標(biāo)首位和第二位數(shù)字出現(xiàn)的實際頻率,比較實際頻率與理論頻率的差異,并通過卡方檢驗得到的首位和第二位數(shù)字的卡方值是否小于臨界值來判斷首位和第二位數(shù)字是否符合該法則。
1.2.2 基于異常值的數(shù)據(jù)質(zhì)量檢驗
基于異常值的數(shù)據(jù)質(zhì)量檢驗的基本思路是:首先,畫出散點圖矩陣,初步判斷變量之間的關(guān)系;其次,通過Q-Q圖了解數(shù)據(jù)分布特征,初步識別異常值的大致位置;最后,利用R 軟件中的outlier test 函數(shù),以數(shù)據(jù)殘差值的顯著性為依據(jù)進(jìn)行檢驗,從而找出異常值函數(shù)的具體位置和數(shù)值。
1.2.3 基于模型一致性的數(shù)據(jù)質(zhì)量檢驗
基于模型一致性的數(shù)據(jù)質(zhì)量檢驗的基本思路是:若數(shù)據(jù)質(zhì)量好,則無論線性還是非線性模型,模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計學(xué)意義都應(yīng)該保持一致,即數(shù)據(jù)質(zhì)量不受模型變化的影響。在剔除異常值的基礎(chǔ)上,分別構(gòu)建多元回歸、逐步回歸、分位數(shù)回歸模型,根據(jù)各模型參數(shù)估計結(jié)果的符號(經(jīng)濟(jì)學(xué)意義)和顯著性(統(tǒng)計學(xué)意義)是否一致來檢驗數(shù)據(jù)質(zhì)量。
(1)多元回歸模型
初步分析數(shù)據(jù)的分布特征和趨勢,厘清解釋變量的內(nèi)在結(jié)構(gòu)和被解釋變量之間的匹配性關(guān)系。依據(jù)相關(guān)回歸分析理論,構(gòu)建理論模型如式(4)所示。
式(4)中,Y為被解釋變量,X1至Xi為解釋變量,ε為隨機(jī)誤差項,β0至βi為回歸參數(shù)。
(2)逐步回歸模型
考慮到多元線性回歸模型易受多重共線性問題的影響,進(jìn)而影響模型的準(zhǔn)確性,故選用逐步回歸模型篩選合適的變量,避免變量過多等因素導(dǎo)致的模型精度下降,最終形成“最優(yōu)回歸方程”。雖然逐步回歸模型在一定程度上改進(jìn)了傳統(tǒng)的線性回歸模型,但無法回避的是,逐步回歸模型本質(zhì)上仍然是線性模型,也存在序列相關(guān)、異方差等缺陷,需進(jìn)行經(jīng)濟(jì)學(xué)和統(tǒng)計學(xué)意義檢驗[13]。
(3)分位數(shù)回歸模型
僅依靠線性回歸模型很難對數(shù)據(jù)進(jìn)行全面的質(zhì)量評估,故需進(jìn)一步構(gòu)建非線性回歸模型,收入指標(biāo)常用的非線性回歸模型是分位數(shù)回歸模型。計算公式為:
其中,0 <p<1 表示數(shù)值小于第p分位數(shù)的比例。在分位數(shù)回歸模型中,根據(jù)垂直距離的加權(quán)總和來測量數(shù)據(jù)點和回歸線之間的距離,在擬合線之上數(shù)據(jù)點的權(quán)重為p,否則為1-p。故Y到特定q值的距離為:
若線性模型和非線性模型的參數(shù)估計符號一致,即經(jīng)濟(jì)學(xué)意義一致,統(tǒng)計學(xué)意義顯著,則可認(rèn)為解釋變量結(jié)構(gòu)和被解釋變量具有匹配性關(guān)系,數(shù)據(jù)質(zhì)量好。
1.2.4 基于Bootstrap自助抽樣法的數(shù)據(jù)質(zhì)量檢驗
本文借鑒白永昕等(2020)[3]的做法,對數(shù)據(jù)質(zhì)量評估研究的基本思路是:首先判斷原始數(shù)據(jù)是否符合對數(shù)正態(tài)分布的條件。其次,構(gòu)建均值統(tǒng)計量,運用Bootstrap 抽樣方法從原始數(shù)據(jù)中抽取1000 次,對均值統(tǒng)計量進(jìn)行Lilliefor 檢驗和Anderson-Darling 檢驗,驗證均值統(tǒng)計量是否也遵循對數(shù)正態(tài)分布規(guī)律。若均值統(tǒng)計量通過對數(shù)正態(tài)分布的檢驗,則認(rèn)為Bootstrap機(jī)制抽樣數(shù)據(jù)與原數(shù)據(jù)抽樣機(jī)制的數(shù)據(jù)統(tǒng)計分布一致,數(shù)據(jù)質(zhì)量較好;反之,則說明數(shù)據(jù)存在較大誤差,需查找誤差原因并加以修正,再進(jìn)行上述檢驗。最后,人為擴(kuò)大1 倍原始數(shù)據(jù)再進(jìn)行Anderson-Darling檢驗和Lilliefor檢驗,若不能通過檢測,則說明污染的數(shù)據(jù)是不能通過檢驗的。
1.2.5 基于結(jié)構(gòu)匹配性視角的數(shù)據(jù)質(zhì)量評估具體方法的遞進(jìn)關(guān)系
綜上可知,本文提出的基于結(jié)構(gòu)匹配性的數(shù)據(jù)質(zhì)量評估方法是從定性和定量兩個方面,綜合Benford法則、異常值檢驗、模型一致性、Bootstrap 檢驗四個維度,從不同方面、角度對數(shù)據(jù)質(zhì)量進(jìn)行評估。具體評估方法之間存在遞進(jìn)關(guān)系,因模型一致性需多個指標(biāo)同時滿足三個模型的經(jīng)濟(jì)學(xué)意義和統(tǒng)計學(xué)意義基本一致,所以評估方法的優(yōu)先原則是模型一致性檢驗優(yōu)于Bootstrap檢驗,Bootstrap檢驗優(yōu)于異常值檢驗和Benford法則檢驗。
2.1.1 數(shù)據(jù)來源
2020 年是我國脫貧攻堅的決勝之年,且新冠肺炎疫情暴發(fā),考慮到深度貧困地區(qū)的貧困脆弱性,課題組選取脫貧攻堅主戰(zhàn)場之一的S省Z貧困縣開展實地調(diào)研,深入了解深度貧困地區(qū)農(nóng)戶的情況。調(diào)研內(nèi)容涉及農(nóng)戶的家庭成員年齡結(jié)構(gòu)、勞動能力結(jié)構(gòu)、家庭純收入等,整理獲得1193份有效貧困縣調(diào)研數(shù)據(jù)。
2.1.2 基本假設(shè)
馬斯洛需求理論認(rèn)為,在滿足吃、穿、住等最基本的生存需要后,其他需要才會成為新的激勵因素,而這些均與收入息息相關(guān)。若貧困地區(qū)農(nóng)戶的收入高,則基本生存需要不存在問題;若低于某一標(biāo)準(zhǔn),則基本生存需要存在問題。故貧困地區(qū)家庭純收入的高低與家庭基本生活條件之間的關(guān)系是穩(wěn)定的?;诖耍疚奶岢觯?/p>
假設(shè)1:家庭收入與家庭生活狀況具有穩(wěn)定性。
雖然近些年農(nóng)村空心化越來越嚴(yán)重,但外出務(wù)工人員中很多都是與農(nóng)村家庭其他成員共享開支。除自然災(zāi)害、突發(fā)疾病、婚喪嫁娶等因素外,通常情況下家庭人員結(jié)構(gòu)和勞動能力隨時間推移遵循生老病死的自然規(guī)律,貧困地區(qū)家庭成員年齡結(jié)構(gòu)和勞動能力結(jié)構(gòu)具有相對穩(wěn)定性?;诖?,本文提出:
假設(shè)2:一定時期內(nèi)貧困地區(qū)家庭成員內(nèi)部結(jié)構(gòu)具有穩(wěn)定性。
凱恩斯貨幣需求理論認(rèn)為,持有貨幣受三種動機(jī)影響,即交易動機(jī)、預(yù)防動機(jī)、投機(jī)動機(jī)?;谪泿判枨罄碚?,貧困地區(qū)農(nóng)戶通過家庭成員提供勞動力等要素獲得相應(yīng)收入,來滿足日常開支和應(yīng)對不確定性等因素對家庭的影響。故貧困地區(qū)農(nóng)戶的要素貢獻(xiàn)與家庭純收入之間具有結(jié)構(gòu)穩(wěn)定性?;诖?,本文提出:
假設(shè)3:要素貢獻(xiàn)和家庭純收入之間具有結(jié)構(gòu)匹配性。
2.2.1 變量定義
被解釋變量:家庭純收入。雖然該指標(biāo)僅能反映農(nóng)戶的經(jīng)濟(jì)狀況[9],但考慮到非收入指標(biāo)缺乏相對統(tǒng)一的標(biāo)準(zhǔn),且從1978年開始收入已作為測量我國貧困標(biāo)準(zhǔn)的重要指標(biāo),數(shù)據(jù)又相對容易獲得和處理,因此借鑒汪三貴(2018)[10]的做法,選取家庭純收入作為被解釋變量。
解釋變量:考慮到家庭成員的年齡結(jié)構(gòu)和勞動能力結(jié)構(gòu)是影響家庭收入的重要因素,本文借鑒已有研究[5,6]的做法,選取家庭常住人口數(shù)、義務(wù)教育年齡段人數(shù)、16~60周歲人數(shù)、60周歲及以上人數(shù)、患大病人數(shù)、殘疾人數(shù)、患慢性病人數(shù)作為解釋變量。家庭常住人口數(shù)代表家庭人力資本情況,人力資本通過勞動創(chuàng)造家庭純收入。義務(wù)教育年齡段人數(shù)能反映家庭潛在的勞動力情況。16~60 周歲人數(shù)反映家庭獲得家庭純收入的最大勞動力人數(shù)情況。60周歲及以上人數(shù)能反映家庭人員結(jié)構(gòu)中需贍養(yǎng)的人員數(shù)。患大病人數(shù)反映家庭無勞動能力的人數(shù)情況。殘疾人數(shù)和患慢性病人數(shù)反映弱勞動力或半勞動力的人數(shù)情況。
2.2.2 描述性統(tǒng)計
貧困縣調(diào)研數(shù)據(jù)的描述性統(tǒng)計分析結(jié)果見表2。
表2 變量說明及描述性統(tǒng)計
從表2 可以看出,S 省Z 貧困縣家庭純收入的均值為55206.51 元,家庭常住人口數(shù)的均值約為5 人,結(jié)合這兩項數(shù)據(jù)計算可知家庭人均純收入約為11000余元,高于國家貧困線標(biāo)準(zhǔn),故貧困縣調(diào)研數(shù)據(jù)與我國宣布的消除絕對貧困的結(jié)論一致。貧困地區(qū)每個家庭義務(wù)教育年齡段人數(shù)的均值約為1 人,貧困地區(qū)家庭16~60 周歲人數(shù)的均值約為2人,60周歲及以上人數(shù)、患大病人數(shù)、殘疾人數(shù)和患慢性病人數(shù)的均值和方差均較小。
根據(jù)前文基于結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法的分析,接下來以貧困縣調(diào)研數(shù)據(jù)為例,對其進(jìn)行Benford 法則檢驗、異常值檢驗、模型一致性檢驗、Bootstrap 檢驗,進(jìn)而從不同方面、角度評估貧困縣調(diào)研數(shù)據(jù)質(zhì)量,并根據(jù)數(shù)據(jù)質(zhì)量評估結(jié)果驗證該方法的有效性。
2.3.1 基于Benford法則的數(shù)據(jù)質(zhì)量評估結(jié)果
計算家庭純收入指標(biāo)首位和第二位數(shù)字的實際頻率,與根據(jù)Benford 法則計算的理論頻率進(jìn)行比較,比較結(jié)果見表3。
表3 家庭純收入指標(biāo)數(shù)據(jù)的實際頻率、理論頻率及差異
由表3 可知,除個別數(shù)值外,貧困縣調(diào)研數(shù)據(jù)的家庭純收入指標(biāo)首位數(shù)字整體呈現(xiàn)遞減趨勢,第二位數(shù)字呈現(xiàn)波動趨勢,但差異的絕對值較小。故需通過卡方擬合優(yōu)度檢驗來判斷數(shù)據(jù)是否符合Benford法則。
經(jīng)計算,首位數(shù)字的χ2統(tǒng)計量為174.18,高于臨界值15.51,拒絕原假設(shè),說明家庭純收入首位數(shù)字的理論頻率和實際頻率存在差異。但這并不意味著數(shù)據(jù)質(zhì)量存在問題,可能是該法則不適用于貧困縣調(diào)研數(shù)據(jù)質(zhì)量評估,故需進(jìn)一步采用其他方法綜合研判。第二位數(shù)字的χ2統(tǒng)計量為16.70,低于臨界值16.91,沒有足夠的理由拒絕原假設(shè),表明該指標(biāo)的第二位數(shù)字符合該法則。這與吳繼英和薛艷杰(2021)[1]的研究結(jié)果一致。
綜上,雖然Benford法則應(yīng)用范圍廣泛,但并不意味著該法則能適用于所有數(shù)據(jù)。故本文將從異常值檢驗、模型一致性和統(tǒng)計分布一致性三個維度出發(fā)綜合考量貧困縣調(diào)研數(shù)據(jù)家庭成員年齡結(jié)構(gòu)和勞動能力結(jié)構(gòu)與收入之間的匹配性關(guān)系,從而驗證該方法的有效性。
2.3.2 基于異常值的數(shù)據(jù)質(zhì)量評估結(jié)果
根據(jù)散點圖矩陣歸納特征點的分布模式,結(jié)果如圖1所示。家庭純收入指標(biāo)大致呈正態(tài)分布,家庭純收入指標(biāo)數(shù)據(jù)隨家庭常住人口數(shù)、義務(wù)教育年齡段人數(shù)和16~60周歲人數(shù)的增加而增加,家庭純收入隨60周歲及以上人數(shù)、患大病人數(shù)和殘疾人數(shù)的增加而下降。
圖1 貧困縣調(diào)研數(shù)據(jù)變量的散點圖矩陣
為進(jìn)一步分析數(shù)據(jù)中是否存在異常值,本文構(gòu)建相應(yīng)模型進(jìn)行檢驗。
由圖2 可知,1193 個樣本點中僅有3 個離群點,分布在樣本中的第848、500 和797 位,故從Q-Q 圖來看,貧困縣調(diào)研數(shù)據(jù)樣本點中離群點較少,貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
圖2 家庭純收入的Q-Q圖
運用R 軟件進(jìn)行outlier test 函數(shù)檢測發(fā)現(xiàn),在1193 個樣本點中檢測出10 個離群點,分布在樣本的第848、500、797、1028、115、503、501、1031、46 和1020 位,占比不到1%,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。經(jīng)分析發(fā)現(xiàn),outlier test函數(shù)檢測的前3位離群點與Q-Q圖中的離群點位置一致,說明這3個必然是離群點。outlier test函數(shù)檢測出其他7個離群點的P值均小于0.00,殘差值顯著,因此建模時也需要刪除。綜合兩種方法的檢測結(jié)果來看,離群點均較少,檢測結(jié)果具有一致性,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
2.3.3 基于模型一致性的數(shù)據(jù)質(zhì)量評估結(jié)果
根據(jù)模型設(shè)計,剔除outlier test 函數(shù)檢測出的10個異常值,運用R軟件進(jìn)行模型參數(shù)估計,具體結(jié)果見表4。
表4 模型一致性參數(shù)估計結(jié)果
以多元回歸模型為例,分析家庭成員年齡結(jié)構(gòu)、勞動能力結(jié)構(gòu)與家庭純收入指標(biāo)之間的關(guān)系。被解釋變量為家庭純收入,X1為家庭常住人口數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時,家庭人數(shù)越多,潛在的具備勞動能力的人數(shù)也越多,提高家庭純收入的可能性越大。X2為義務(wù)教育年齡段人數(shù),斜率為負(fù),但不顯著。在其他變量保持不變的情況下,義務(wù)教育年齡段的人數(shù)與家庭純收入之間關(guān)系不顯著。X3為16~60 周歲人數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時,貧困地區(qū)農(nóng)戶家庭16~60 周歲人數(shù)越多,農(nóng)戶家庭純收入越高。X4為60 周歲及以上人數(shù),斜率為正,且在1%的水平上顯著。當(dāng)其他變量保持不變時,60 周歲及以上人數(shù)越多,家庭純收入越高,這與人口老齡化會加重家庭負(fù)擔(dān)是不一致的。究其原因,一是貧困地區(qū)多是自給自足,家庭養(yǎng)老負(fù)擔(dān)較城市更輕;二是受經(jīng)濟(jì)發(fā)展水平提升、醫(yī)療水平提高等因素影響,勞動力減弱需要一個過程,農(nóng)村地區(qū)60周歲及以上的人仍參加社會生產(chǎn)活動的現(xiàn)象較為普遍,這會增加家庭收入。X5為患大病人數(shù),斜率為負(fù),且在5%的水平上顯著。當(dāng)其他變量保持不變時,家中患大病人數(shù)越多,家庭純收入越少。患大病的勞動力不僅無法獲取收入,還需支付大額的看病開銷。照顧患大病的人也很難獲得收入,家庭整體勞動能力減弱,獲取收入的能力下降。X6為殘疾人數(shù),斜率為負(fù),且在1%的水平上顯著。當(dāng)其他變量保持不變時,家庭殘疾人數(shù)越多,家庭純收入越少。X7為患慢性病人數(shù),斜率為負(fù),且在1%的水平上顯著。當(dāng)其他變量保持不變時,患慢性病如高血壓等的人數(shù)增加,會使得家庭成員勞動能力減弱,家庭純收入減少,同時還需支付一定的醫(yī)療費用。
從表4的參數(shù)估計結(jié)果可知,無論是非線性回歸模型還是線性回歸模型,X1、X3、X4的參數(shù)估計結(jié)果都顯著且參數(shù)符號為正,表明家庭常住人口數(shù)、16~60周歲人數(shù)、60 周歲及以上人數(shù)與家庭純收入存在正向關(guān)系。X2、X5、X6、X7的參數(shù)估計結(jié)果符號為負(fù),且X2不顯著,表明義務(wù)教育年齡段人數(shù)與家庭純收入的關(guān)系不顯著,患大病人數(shù)、殘疾人數(shù)和患慢性病人數(shù)與家庭純收入存在負(fù)向關(guān)系。由此可知,線性和非線性回歸模型的參數(shù)估計結(jié)果具有一致性,從匹配性角度來看,家庭成員年齡結(jié)構(gòu)和勞動能力結(jié)構(gòu)與家庭純收入是相匹配的,說明貧困縣調(diào)研數(shù)據(jù)質(zhì)量較高。
2.3.4 基于Bootstrap抽樣的數(shù)據(jù)質(zhì)量評估結(jié)果
Cheng 等(2000)[4]已經(jīng)證明,當(dāng)統(tǒng)計量反映了總體規(guī)模生產(chǎn)、收入等對象時,統(tǒng)計量近似服從對數(shù)正態(tài)分布。貧困縣調(diào)研數(shù)據(jù)中家庭純收入反映了貧困地區(qū)農(nóng)戶的家庭總收入,很容易驗證統(tǒng)計量滿足規(guī)模統(tǒng)計的三個條件,故貧困縣調(diào)研數(shù)據(jù)中的家庭純收入服從對數(shù)正態(tài)分布。
采用Bootstrap 方法對貧困縣調(diào)研數(shù)據(jù)的家庭純收入指標(biāo)的數(shù)值進(jìn)行有放回的重復(fù)抽樣1000 次,得到1000 個Bootstrap樣本,計算得到1000個樣本均值。為了驗證均值統(tǒng)計量是否服從對數(shù)正態(tài)分布,給出了統(tǒng)計量對數(shù)的直方圖,如圖3所示。
圖3 Bootstrap抽樣均值統(tǒng)計量分布直方圖
根據(jù)圖3 可知,統(tǒng)計量近似服從對數(shù)正態(tài)分布。此外,Lilliefor 檢驗和Anderson-Darling 檢驗是統(tǒng)計中用來檢驗數(shù)據(jù)是否服從正態(tài)分布的檢驗方法,利用上述兩種檢驗方法對統(tǒng)計量的對數(shù)進(jìn)行檢驗。原假設(shè):數(shù)據(jù)符合正態(tài)分布。備擇假設(shè):數(shù)據(jù)不符合正態(tài)分布。經(jīng)計算,Lilliefor test 檢驗的D 值為0.02,接近于0,P 值為0.76,明顯大于0.05,沒有足夠的理由拒絕原假設(shè),因此樣本數(shù)據(jù)近似服從對數(shù)正態(tài)分布。Anderson-Darling 檢驗結(jié)果顯示:A 值為0.31,P值為0.55,沒有足夠的理由拒絕原假設(shè),故Bootstrap抽樣數(shù)據(jù)的樣本均值服從對數(shù)正態(tài)分布。
將原始數(shù)據(jù)擴(kuò)大1 倍,即人為增補(bǔ)1193 個數(shù)據(jù),再進(jìn)行Lilliefor 檢驗和Anderson-Darling 檢驗,兩個檢驗的P 值分別為2.2e-16和2.2e-6,遠(yuǎn)小于0.05,說明檢驗對于偽數(shù)據(jù)很敏感,即使對原始數(shù)據(jù)作很小的變動,檢驗結(jié)果也不能通過。綜上,本文提出的結(jié)構(gòu)匹配性視角下的數(shù)據(jù)質(zhì)量評估方法確實有效。
本文運用系統(tǒng)性思維,從解釋變量的結(jié)構(gòu)與被解釋變量的匹配性視角出發(fā),提出由Benford 法則、異常值檢驗、模型一致性和統(tǒng)計分布一致性四個維度共同組成的數(shù)據(jù)質(zhì)量綜合評估方法。以2020 年S 省Z 貧困縣的實地調(diào)研數(shù)據(jù)為樣本,從貧困縣調(diào)研數(shù)據(jù)中勞動要素結(jié)構(gòu)與收入的匹配性視角出發(fā),應(yīng)用結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法檢驗貧困縣調(diào)研數(shù)據(jù)的質(zhì)量,從而驗證該方法的有效性。
實證研究發(fā)現(xiàn),調(diào)研數(shù)據(jù)中家庭純收入指標(biāo)的首位數(shù)字不符合Benford法則,第二位數(shù)字符合Benford法則,Q-Q圖和outlier test 函數(shù)檢測結(jié)果顯示,數(shù)據(jù)樣本點中異常值較少,剔除異常值后,多元回歸、逐步回歸和分位數(shù)回歸三個模型中的參數(shù)估計符號和顯著性基本一致,說明勞動要素與收入之間的結(jié)構(gòu)匹配性關(guān)系較強(qiáng),對比Bootstrap機(jī)制的模擬抽樣數(shù)據(jù)與真實貧困縣調(diào)研數(shù)據(jù)的分布結(jié)構(gòu)可以發(fā)現(xiàn),兩套機(jī)制收集的數(shù)據(jù)分布一致,綜合來看,調(diào)研數(shù)據(jù)質(zhì)量較高。
綜上,通過實證檢驗,貧困縣調(diào)研數(shù)據(jù)驗證了本文提出的結(jié)構(gòu)匹配性視角下的數(shù)據(jù)質(zhì)量評估方法確實有效,能從不同方面、角度對數(shù)據(jù)質(zhì)量進(jìn)行評估。
第一,建立健全現(xiàn)有的數(shù)據(jù)質(zhì)量評估體系。在研究對象上,數(shù)據(jù)質(zhì)量評估既要關(guān)注GDP等宏觀性指標(biāo),也要關(guān)注家庭收入等重要指標(biāo);在研究視角上,既要關(guān)注準(zhǔn)確性、誤差最小化等傳統(tǒng)視角,也要將結(jié)構(gòu)匹配性視角納入現(xiàn)有數(shù)據(jù)質(zhì)量評估體系中;在數(shù)據(jù)質(zhì)量評估方法上,既要關(guān)注單一方法的數(shù)據(jù)質(zhì)量檢驗思路,也要注意到聯(lián)系是普遍的,運用系統(tǒng)性思維,綜合運用多種方法檢驗數(shù)據(jù)質(zhì)量的思路是可行的。
第二,拓展結(jié)構(gòu)匹配性視角數(shù)據(jù)質(zhì)量評估方法的應(yīng)用范圍。結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法不僅能應(yīng)用于貧困縣調(diào)研數(shù)據(jù),也能應(yīng)用于其他具有匹配性關(guān)系的數(shù)據(jù)。但是在拓展該方法的應(yīng)用范圍時,要注意各種方法的適用范圍和約束條件,找到多種方法融合的可能性,不斷優(yōu)化和改進(jìn)結(jié)構(gòu)匹配性數(shù)據(jù)質(zhì)量評估方法。
第三,加強(qiáng)對匹配性數(shù)據(jù)質(zhì)量評估方法的研究。除結(jié)構(gòu)匹配性視角外,理論界還可以從其他維度考慮,以加強(qiáng)對匹配性數(shù)據(jù)質(zhì)量評估方法的改進(jìn)或創(chuàng)新研究。如從空間匹配性視角對基本條件相似的兩個地域,就某個或某些指標(biāo)展開數(shù)據(jù)質(zhì)量評估;再如,隨著大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,學(xué)術(shù)界可以從不同數(shù)據(jù)源的匹配性視角出發(fā),對數(shù)據(jù)質(zhì)量展開評估。