丁明珠
摘? ?要:數(shù)據(jù)缺失是統(tǒng)計(jì)調(diào)查中經(jīng)常存在的問題,若是少量缺失則可以利用刪除法;若缺失值較多,利用刪除法則會(huì)丟失大量有用信息,這時(shí)候就需利用插補(bǔ)法來補(bǔ)全數(shù)據(jù),從而減少對(duì)統(tǒng)計(jì)分析的影響。根據(jù)統(tǒng)計(jì)年鑒上近幾年的糧食產(chǎn)量、種植規(guī)模、有效灌溉面積等系列數(shù)據(jù),分別采用貝葉斯多重插值法和刀切多重插值法展開了模擬研究,通過對(duì)兩種方法所得數(shù)據(jù)的比對(duì)分析,來進(jìn)一步掌握實(shí)際的插值效果。研究發(fā)現(xiàn),利用這兩種方法構(gòu)建的模型都有較好的估計(jì)結(jié)果,但是貝葉斯多重插補(bǔ)法更為精確,而Jackknife法在操作方面則更為簡單。
關(guān)鍵詞:貝葉斯多重插補(bǔ)法;Jackknife多重插補(bǔ)法;缺失數(shù)據(jù)
中圖分類號(hào):N37? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1003—6199(2020)02—0119—05
Abstract:Missing data is a common problem in statistical surveys. If there are a few missing,you can use the deletion method. If there are many missing values,the deletion method will lose a lot of useful information. In this case,you need to use the interpolation method to complete the data. Thereby reducing the impact on statistical analysis. This paper simulates the data of grain yield,planting area,effective irrigated area and chemical fertilizer application by using Bayesian multiple imputation method and Jackknife multiple imputation method to compare these two methods in agricultural survey. The study found that the models constructed by these two methods have good estimation results,but the Bayesian multiple interpolation method is more accurate,and the Jackknife method is simpler in operation.
Key words:Bayesian multiple interpolation method;Jackknife multiple interpolation method;missing data
根據(jù)實(shí)際數(shù)據(jù)調(diào)查結(jié)果可知,受技術(shù)等多方面要素的限制,往往會(huì)出現(xiàn)數(shù)據(jù)不全面等問題。造成數(shù)據(jù)缺失的要素來源于多個(gè)方面,不同要素造成的數(shù)據(jù)缺失會(huì)引發(fā)不同的統(tǒng)計(jì)分析偏差。上世紀(jì)八十年代,LITTLE與RUBIN結(jié)合數(shù)據(jù)缺失的常見問題以及種類展開了類別探究,對(duì)三類缺失數(shù)據(jù)缺失機(jī)制進(jìn)行了構(gòu)建。缺失機(jī)制包括了完全隨機(jī)、隨機(jī)以及非隨機(jī)三類缺失[1]。而對(duì)缺失數(shù)據(jù)的處理方法通常是刪除法,即刪除含有缺失值的單元數(shù)據(jù)。2002年,ALLISON表示如果只有少數(shù)的缺失值,那么刪除法是可行的,并且具有一定的優(yōu)勢[2]。然而大規(guī)模的數(shù)據(jù)缺失,直接刪去不但不利于信息數(shù)據(jù)的全面掌握,還會(huì)導(dǎo)致原本有用信息的參考價(jià)值降低,在這種情況下刪除法將不再表現(xiàn)出適用性。面對(duì)大量的缺失值更可取的方法是插補(bǔ)法,2002年,LITTLE等人又表示相較于刪除法,插補(bǔ)法不僅不會(huì)丟失原有的數(shù)據(jù)信息,還能有效地補(bǔ)充數(shù)據(jù)信息[3]。結(jié)合變量存在的關(guān)聯(lián)性展開線性回歸模型的有力構(gòu)建,并基于模型完成對(duì)缺失值變量的進(jìn)一步插補(bǔ)。插補(bǔ)法可以分為單一以及多重插補(bǔ)兩類。前者是借助已有的數(shù)據(jù)進(jìn)行線性模型參數(shù)的預(yù)估,隨后結(jié)合建立完整的模型展開對(duì)缺失值的估計(jì)。2004年,RUBIN通過研究發(fā)現(xiàn),這類單一插補(bǔ)法會(huì)在很大程度上使變量的方差經(jīng)常被低估,促使整個(gè)置信區(qū)間狹窄,難以體現(xiàn)確切可信的檢驗(yàn)統(tǒng)計(jì)量[4]。在此基礎(chǔ)上,針對(duì)這一問題YING和LITTLE對(duì)多重插補(bǔ)進(jìn)行了運(yùn)用,強(qiáng)調(diào)借助多重插補(bǔ)彌補(bǔ)單一插補(bǔ)存在的系列缺陷。多重插補(bǔ)實(shí)現(xiàn)了若干個(gè)插補(bǔ)值的同時(shí)生成,有助于系統(tǒng)數(shù)據(jù)集的構(gòu)建?;跀?shù)據(jù)集進(jìn)行未知參數(shù)的估計(jì)[5]。受缺失值的影響,整個(gè)線性模型參數(shù)表現(xiàn)出不確定性[6,7],對(duì)此可以利用貝葉斯法和Jackknife法對(duì)參數(shù)進(jìn)行隨機(jī)抽取。貝葉斯法的基本思想簡單來說就是從后驗(yàn)分布中隨機(jī)選取插補(bǔ)模型的參數(shù)[8],刀切法的基本思想是從原始完整樣本的多個(gè)刀切樣本中獲取插補(bǔ)模型的參數(shù)[9]。
在對(duì)插補(bǔ)法的應(yīng)用研究中,選取了貝葉斯和Jackknife兩類多重插補(bǔ)法展開對(duì)比分析,選取近年來部分糧食產(chǎn)量數(shù)據(jù)和完整的播種面積、有效灌溉面積和施肥量數(shù)據(jù)進(jìn)行模擬分析,在兩種方法支持下展開缺失值的多重插補(bǔ),再對(duì)最終形成的插補(bǔ)參數(shù)進(jìn)行檢驗(yàn)對(duì)比。所有的數(shù)據(jù)分析均使用R語言軟件。
1? ?模型的建立
1.1? ?模型的假設(shè)
設(shè)Y和X間具有正態(tài)線性關(guān)聯(lián)性,即Y ~ N(Xβ,σ2),變量Y具有一部分?jǐn)?shù)據(jù)缺失的情況,且缺失表現(xiàn)出隨機(jī)缺失特性,Y缺失只取決于X,不受自身所干擾,變量X為完整的數(shù)據(jù)集合,回歸系數(shù)β為p維向量。
[3]? ? LITTLE R J,RUBIN D B. Statistical analysis with missing data[M].Hoboken:Wiley John & Sons,2002.
[4]? ? RUBIN D B. Multiple imputation for nonresponse in surveys[M]. New York:Wiley John & Sons,2004.
[5]? ? YING G,LITTLE R J. Bayesian multiple for assay data subject to measurement error[J].? Journal of statistical theory & practice,2013,7(2):219-232.
[6]? ? 潘傳快,熊巍,祁春節(jié). 正態(tài)線形模型下缺失值的貝葉斯多重插補(bǔ)—基于柑橘數(shù)據(jù)的分析[J].? 華中農(nóng)業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2017,000(001):72-77.
[7]? ? 熊巍,潘傳快,祁春節(jié). 農(nóng)業(yè)經(jīng)濟(jì)調(diào)查缺失數(shù)據(jù)的貝葉斯和Bootstrap多重插補(bǔ)的比較[J].? 統(tǒng)計(jì)與決策,2019,35(04):13-17.
[8]? ? SI Y,REITER J P. Nonparametric bayesian multiple imputation for incomplete categorical variables in large -scale assessment surveys[J].? Journal of educational & behavioral statistics,2013,38(5):499-521.
[9]? ? 趙馨,閆在在,魏福紅,等. PPS抽樣中方差估計(jì)的刀切法[J].? 陰山學(xué)刊(自然科學(xué)版),2011,25(2):20-21.
[10]? 李苗. 新時(shí)代下我國糧食產(chǎn)量的影響因素分析[J].? 價(jià)值工程,2019(14).
[11]? 郭燕枝,郭靜利,王秀東. 我國糧食綜合生產(chǎn)能力影響因素分析[J].? 農(nóng)業(yè)經(jīng)濟(jì)問題,2007(s1):24-27.