楊貴軍,沈文靜
(天津財(cái)經(jīng)大學(xué) a.統(tǒng)計(jì)學(xué)院;b.中國(guó)經(jīng)濟(jì)統(tǒng)計(jì)研究中心,天津 300222)
準(zhǔn)確掌握非普查年農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)情況有助于政府及時(shí)把握“三農(nóng)”問(wèn)題,為科學(xué)制定“三農(nóng)”政策、進(jìn)行宏觀經(jīng)濟(jì)管理與調(diào)控提供必要的數(shù)據(jù)支持。目前,有關(guān)中國(guó)非普查年農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)情況的估計(jì)主要依賴(lài)于農(nóng)業(yè)抽樣調(diào)查,如農(nóng)作物面積遙感測(cè)量和對(duì)地抽樣調(diào)查、農(nóng)作物單位面積產(chǎn)量抽樣調(diào)查以及主要畜禽抽樣調(diào)查。估計(jì)量設(shè)計(jì)是決定抽樣估計(jì)精度的關(guān)鍵。因此,如何改進(jìn)估計(jì)量,提高估計(jì)精度,是各國(guó)政府農(nóng)業(yè)統(tǒng)計(jì)工作及本文的聚焦點(diǎn)。
中國(guó)農(nóng)業(yè)抽樣調(diào)查主要采用赫維茨—湯普森估計(jì)量(HT估計(jì)量)。HT估計(jì)量對(duì)總體總值估計(jì)的基本思想為:將每個(gè)樣本單元的觀測(cè)值自加權(quán)1/πk倍再求和,其中πk為第k個(gè)樣本單元的入樣概率。盡管HT估計(jì)量具有無(wú)偏性,但在實(shí)踐中仍具有一定局限性,即僅利用樣本觀測(cè)值和入樣概率進(jìn)行總體參數(shù)估計(jì),而未使用任何輔助信息。中國(guó)每十年開(kāi)展一次全國(guó)農(nóng)業(yè)普查,動(dòng)用了大量人力、物力和財(cái)力,收集了最為全面、準(zhǔn)確和豐富的農(nóng)業(yè)數(shù)據(jù)資料。此外,農(nóng)業(yè)數(shù)據(jù)資料還包括歷史抽樣調(diào)查數(shù)據(jù)、農(nóng)業(yè)行政記錄、遙感數(shù)據(jù)和以空前速度增長(zhǎng)的由智能農(nóng)業(yè)機(jī)械收集的實(shí)地觀察數(shù)據(jù)。采用HT估計(jì)量容易造成農(nóng)業(yè)數(shù)據(jù)資料不充分利用,不能保證對(duì)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)指標(biāo)估計(jì)的精度,特別是在樣本代表性不足的情況下,很可能導(dǎo)致嚴(yán)重的誤差。
一種能有效利用輔助信息且具有代表性的估計(jì)量為廣義回歸估計(jì)量。廣義回歸估計(jì)量最早由Cassel等人提出并系統(tǒng)研究,以調(diào)查變量和輔助變量構(gòu)建的超總體線(xiàn)性回歸模型為基礎(chǔ)[1]。當(dāng)輔助變量總體總值和樣本輔助變量值可獲得時(shí),依據(jù)調(diào)查變量與輔助變量的回歸關(guān)系,估計(jì)模型回歸系數(shù),從而構(gòu)造總體參數(shù)的廣義回歸估計(jì)量。概括來(lái)看,采用廣義回歸估計(jì)量估計(jì)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)情況的優(yōu)勢(shì)主要包括三個(gè)方面:一是統(tǒng)計(jì)性質(zhì)的優(yōu)良性。廣義回歸估計(jì)量不僅具有漸近設(shè)計(jì)無(wú)偏性,當(dāng)假定的超總體線(xiàn)性回歸模型能夠很好地?cái)M合總體數(shù)據(jù),且樣本規(guī)模相同時(shí),廣義回歸估計(jì)量通常比HT估計(jì)量的方差更小[2]。二是廣義回歸估計(jì)量能夠更充分地利用輔助信息。其利用任何已知總體總值和樣本單元值的輔助信息,大多數(shù)利用輔助信息的估計(jì)量均可看做廣義回歸估計(jì)量的特殊情況,如比率估計(jì)量、簡(jiǎn)單回歸估計(jì)量和事后分層估計(jì)量等[3]。三是廣義回歸估計(jì)量具有廣泛的擴(kuò)展性,能適用于任何抽樣設(shè)計(jì),如分層抽樣、整群抽樣、多階段抽樣、兩步抽樣和連續(xù)抽樣等[4]。
另一方面,諸多國(guó)家的政府統(tǒng)計(jì)部門(mén)已在實(shí)踐中采用廣義回歸估計(jì)量。例如,美國(guó)統(tǒng)計(jì)局于1997年開(kāi)始在農(nóng)業(yè)抽樣調(diào)查中推廣使用多變量與規(guī)模成比例的概率抽樣和廣義回歸估計(jì)量,替代原來(lái)的分層抽樣和HT估計(jì)量[5]。加拿大統(tǒng)計(jì)局已構(gòu)建了以廣義回歸估計(jì)量為核心的廣義估計(jì)系統(tǒng),并逐步應(yīng)用于普查、商業(yè)調(diào)查、勞動(dòng)力調(diào)查和多項(xiàng)追蹤調(diào)查[6]。澳大利亞統(tǒng)計(jì)局則主要將廣義回歸估計(jì)量應(yīng)用于商業(yè)調(diào)查[7]。盡管中國(guó)政府統(tǒng)計(jì)部門(mén)還未將廣義回歸估計(jì)量應(yīng)用于實(shí)踐調(diào)查,但已有學(xué)者對(duì)廣義回歸估計(jì)量進(jìn)行了系統(tǒng)的研究。其中,陳光慧基于連續(xù)二階抽樣方案,給出了中國(guó)農(nóng)產(chǎn)量調(diào)查中構(gòu)造廣義回歸估計(jì)量的具體步驟[4]。
然而,尚未發(fā)現(xiàn)有學(xué)者針對(duì)中國(guó)農(nóng)業(yè)抽樣調(diào)查,開(kāi)展廣義回歸估計(jì)量的可行性和適用性研究。這里的可行性是指在當(dāng)前中國(guó)背景下能否獲取可用于構(gòu)造廣義回歸估計(jì)量的輔助信息。適用性主要體現(xiàn)在兩個(gè)方面,一是當(dāng)采用廣義回歸估計(jì)量時(shí),能否構(gòu)建具有實(shí)踐可操作性的方差估計(jì)量,用于衡量廣義回歸估計(jì)量的估計(jì)精度,評(píng)估農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)指標(biāo)估計(jì)值能否使用及在多大程度上使用。二是針對(duì)農(nóng)業(yè)抽樣調(diào)查抽取樣本時(shí)的特殊情況,如抽樣比不同,輔助變量與調(diào)查變量的相關(guān)性不同,廣義回歸估計(jì)量相比于HT估計(jì)量是否能保持統(tǒng)計(jì)性質(zhì)上的優(yōu)勢(shì)。
鑒于此,本文的研究目標(biāo)為評(píng)估在中國(guó)農(nóng)業(yè)抽樣調(diào)查中,構(gòu)建廣義回歸估計(jì)量替代現(xiàn)行HT估計(jì)量的可行性及適用性。研究意義體現(xiàn)在三方面:一是廣義回歸估計(jì)量的統(tǒng)計(jì)性質(zhì)更優(yōu)良,顯著提高對(duì)中國(guó)農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)情況的估計(jì)精度;二是有助于中國(guó)國(guó)家統(tǒng)計(jì)局進(jìn)一步推廣應(yīng)用廣義回歸估計(jì)量,為未來(lái)中國(guó)農(nóng)業(yè)抽樣調(diào)查方案設(shè)計(jì)提供指導(dǎo);三是對(duì)中國(guó)農(nóng)業(yè)抽樣調(diào)查中廣義回歸估計(jì)量構(gòu)造方法的研究,有助于提升中國(guó)在農(nóng)業(yè)抽樣調(diào)查領(lǐng)域的基礎(chǔ)理論水平。
鑒于在中國(guó)農(nóng)業(yè)抽樣調(diào)查中使用廣義回歸估計(jì)量的基本前提是輔助信息的可獲得性、真實(shí)性和完整性,本文首先討論中國(guó)背景下可利用的輔助信息。目前,可用于中國(guó)農(nóng)業(yè)抽樣調(diào)查的輔助信息有很多。其中,農(nóng)業(yè)普查數(shù)據(jù)為后續(xù)農(nóng)業(yè)抽樣調(diào)查提供了最為全面、準(zhǔn)確和豐富的輔助信息資料。農(nóng)業(yè)行政記錄是指能夠用來(lái)生產(chǎn)農(nóng)業(yè)統(tǒng)計(jì)(即農(nóng)業(yè)經(jīng)濟(jì)統(tǒng)計(jì)、農(nóng)業(yè)社會(huì)統(tǒng)計(jì)和農(nóng)業(yè)環(huán)境統(tǒng)計(jì))的行政記錄,由政府部門(mén)和其他組織為行政(非統(tǒng)計(jì))目的而收集,通常是在提供服務(wù)期間或?yàn)榈怯?、保存記錄或記錄交易而收集的信息。由于其收集頻率高、承載信息的單位小且成本相對(duì)較低,成為農(nóng)業(yè)政府統(tǒng)計(jì)亟待開(kāi)發(fā)使用的重要信息資源。遙感數(shù)據(jù)主要分為兩種,即航天遙感數(shù)據(jù)和航空遙感數(shù)據(jù)。遙感數(shù)據(jù)不僅能提供田間的空間覆蓋,還可以每天生成有關(guān)植物健康、當(dāng)?shù)靥鞖夂妥魑飾l件的讀數(shù),得到作物生產(chǎn)的實(shí)時(shí)估算。將遙感技術(shù)與現(xiàn)場(chǎng)觀測(cè)相結(jié)合,已成為估計(jì)農(nóng)作物種植面積的重要途徑。智能農(nóng)業(yè)機(jī)械化的快速發(fā)展,也使收集農(nóng)作物投入和產(chǎn)出的現(xiàn)場(chǎng)數(shù)據(jù)成為可能。
表1列舉了部分可用于廣義回歸估計(jì)量的輔助信息及具體用途。此外,為保證輔助信息所提供的總體輔助變量總值和樣本單元輔助變量值的真實(shí)性,以及對(duì)樣本單元較高的覆蓋度,有必要對(duì)輔助信息進(jìn)行數(shù)據(jù)質(zhì)量評(píng)估和整合[8]。技術(shù)細(xì)節(jié)請(qǐng)參見(jiàn)孟杰等人的研究以及世界糧農(nóng)組織的系列工作文件[9-10]。
表1 構(gòu)造廣義回歸估計(jì)量的輔助信息
分層兩階段抽樣是中國(guó)農(nóng)業(yè)抽樣調(diào)查的重要抽樣方法,如普查年和非普查年的農(nóng)作物面積遙感測(cè)量和對(duì)地抽樣調(diào)查、非普查年的主要畜禽抽樣調(diào)查。對(duì)于第一階段抽樣,通常以行政村為初級(jí)抽樣單元,采用與單元大小成比例的概率抽樣方法抽選村。鑒于不放回抽樣比有放回抽樣的效率更高,本文討論基于不放回的與單元大小成比例的概率抽樣,即πPS抽樣。對(duì)于第二階段抽樣,根據(jù)實(shí)際調(diào)查需要,以網(wǎng)格(200米×200米)或養(yǎng)殖場(chǎng)(戶(hù))為次級(jí)抽樣單元,采用的抽樣方法為簡(jiǎn)單隨機(jī)抽樣或隨機(jī)等距抽樣。本文在上述抽樣方法下,討論廣義回歸估計(jì)量在中國(guó)農(nóng)業(yè)抽樣調(diào)查中的構(gòu)造方法。
(1)
其中:
(2)
國(guó)內(nèi)學(xué)者對(duì)廣義回歸估計(jì)量的方差估計(jì)普遍采用基于泰勒級(jí)數(shù)法的估計(jì)量,即:
(3)
其中:
該方差估計(jì)量的局限性在于需要為每一個(gè)調(diào)查變量,分別計(jì)算所有樣本單元的殘差值ehij。若農(nóng)業(yè)抽樣調(diào)查的變量很多,且樣本規(guī)模較大,計(jì)算過(guò)程相當(dāng)繁瑣耗時(shí)。此外,對(duì)于一階段為不放回的πPS抽樣,πhi,hi′難以計(jì)算。因此,式(3)并不適用于實(shí)踐抽樣調(diào)查。
2.計(jì)算第h層調(diào)查變量總值估計(jì)的刀切復(fù)制值:
(5)
4.第h層調(diào)查變量總值廣義回歸估計(jì)量的方差估計(jì)量為:
(6)
根據(jù)上述理論框架,采用蒙特卡洛模擬方法討論廣義回歸估計(jì)量在中國(guó)農(nóng)業(yè)抽樣調(diào)查中的統(tǒng)計(jì)性質(zhì)。中國(guó)于2016年開(kāi)展第三次全國(guó)農(nóng)業(yè)普查,本文基于第三次全國(guó)農(nóng)業(yè)普查結(jié)果進(jìn)行仿真研究,評(píng)估廣義回歸估計(jì)量在不同抽樣設(shè)計(jì)下的估計(jì)效率。鑒于畜牧業(yè)在農(nóng)業(yè)農(nóng)村經(jīng)濟(jì)發(fā)展中的重要位置,本文選取中國(guó)主要畜禽抽樣調(diào)查中的牛羊禽監(jiān)測(cè)調(diào)查為研究對(duì)象。
資料顯示,牛羊禽監(jiān)測(cè)調(diào)查的主要目標(biāo)是估計(jì)全國(guó)牛羊禽散養(yǎng)戶(hù)的飼養(yǎng)情況,如分品種的存欄量、出欄量和飼養(yǎng)戶(hù)數(shù)等。原則上各省僅在現(xiàn)有國(guó)家抽樣調(diào)查縣內(nèi)開(kāi)展調(diào)查,若存在集中連片牛羊牧區(qū),可將牛羊牧區(qū)縣劃作一個(gè)獨(dú)立設(shè)計(jì)層進(jìn)行抽樣。每一層內(nèi)采用二階段抽樣方法,第一階段是與規(guī)模成比例的概率抽樣方法抽選行政村;第二階段從樣本村內(nèi)采用隨機(jī)等距抽樣方法抽取養(yǎng)殖場(chǎng)(戶(hù))??紤]到國(guó)家抽樣調(diào)查縣30多年不變,對(duì)農(nóng)村總體的代表性大大降低,本模擬假設(shè)各省在所有縣內(nèi)開(kāi)展調(diào)查[12]。
將感興趣的總體參數(shù)設(shè)定為全省在抽樣調(diào)查時(shí)點(diǎn)的牛羊禽存欄量。選取的輔助信息為養(yǎng)殖場(chǎng)(戶(hù))在第三次全國(guó)農(nóng)業(yè)普查中的登記結(jié)果。三個(gè)研究目標(biāo)為:第一,以牛羊禽養(yǎng)殖場(chǎng)(戶(hù))在普查中存欄量的登記結(jié)果作為輔助信息,分別構(gòu)造全省在抽樣調(diào)查時(shí)點(diǎn)牛羊禽存欄量的廣義回歸估計(jì)量,并比較廣義回歸估計(jì)量與HT估計(jì)量的估計(jì)效果;第二,研究輔助變量與調(diào)查變量相關(guān)性對(duì)廣義回歸估計(jì)量估計(jì)效果的影響;第三,研究抽樣比,即樣本量對(duì)廣義回歸估計(jì)量估計(jì)效果的影響。
為此,參數(shù)設(shè)定如下:設(shè)全省有400個(gè)行政村,每個(gè)行政村約25個(gè)養(yǎng)殖場(chǎng)(戶(hù)),普查時(shí)共計(jì)10 000個(gè)養(yǎng)殖場(chǎng)(戶(hù))。從普查結(jié)果中隨機(jī)抽取10 000個(gè)經(jīng)脫敏處理的牛羊禽養(yǎng)殖場(chǎng)(戶(hù)),將其牛羊禽存欄量依次作為模擬中每個(gè)養(yǎng)殖場(chǎng)(戶(hù))的輔助變量值xk,hij。k=1,2,3分別表示牛、羊和禽。由于缺少集中連片牛羊牧區(qū)信息,將所有行政村按養(yǎng)殖規(guī)模劃分為H=2層,各層的行政村數(shù)量分別為240和160。假設(shè)在抽樣調(diào)查時(shí)點(diǎn),各養(yǎng)殖場(chǎng)(戶(hù))飼養(yǎng)品種保持不變,且存欄量真實(shí)值yk,hij=max{1,|xk,hij+εk,h|},εk,h服從均值為0,標(biāo)準(zhǔn)差為sdk,h/a的正態(tài)分布。sdk,h表示第h層飼養(yǎng)第k種畜禽的養(yǎng)殖場(chǎng)(戶(hù))在普查中登記存欄量的標(biāo)準(zhǔn)差。調(diào)整參數(shù)a,使各層內(nèi)對(duì)于每一種畜禽,養(yǎng)殖場(chǎng)(戶(hù))的真實(shí)存欄量與輔助變量的Pearson相關(guān)系數(shù)約為ρ,討論ρ分別為0.85、0.90、0.95和0.99的四種情形。相關(guān)總體信息見(jiàn)表2,其中Yk,h和Xk,h分別表示第h層養(yǎng)殖場(chǎng)(戶(hù))對(duì)第k種畜禽的真實(shí)存欄量和輔助變量總值。抽樣比分別設(shè)定為f1h=0.1,0.3和f2hi=0.1,0.3。估計(jì)全省每種畜禽存欄量所用的輔助向量均為Xhij=(1,x1,hij,x2,hij,x3,hij),chij取為1。
表2 總體信息 單位:頭/只
(7)
(8)
其中,Yk表示全省在抽樣調(diào)查時(shí)點(diǎn)對(duì)第k種畜禽存欄量的真實(shí)值。同時(shí),為了驗(yàn)證廣義回歸估計(jì)量在統(tǒng)計(jì)性質(zhì)方面的優(yōu)勢(shì),將其與中國(guó)農(nóng)業(yè)抽樣調(diào)查目前所采用的HT估計(jì)量進(jìn)行對(duì)比。全省在抽樣調(diào)查時(shí)點(diǎn)牛、羊和禽存欄量的HT估計(jì)量為:
(9)
由表3的模擬結(jié)果得到如下三點(diǎn)結(jié)論:第一,在估計(jì)全省每種畜禽存欄量時(shí),若同時(shí)使用養(yǎng)殖場(chǎng)(戶(hù))在普查時(shí)對(duì)三種畜禽存欄量的登記結(jié)果作為輔助信息,來(lái)構(gòu)造廣義回歸估計(jì)量,偏差可以忽略不計(jì),可以實(shí)現(xiàn)比HT估計(jì)量顯著減少的相對(duì)均方根誤差;第二,輔助變量與調(diào)查變量的相關(guān)性越強(qiáng),廣義回歸估計(jì)量在統(tǒng)計(jì)性質(zhì)上的優(yōu)勢(shì)越明顯;第三,隨著一階抽樣比或二階抽樣比的增加,即樣本量的增多,廣義回歸估計(jì)量的相對(duì)均方根誤差呈下降趨勢(shì)。
表3 兩種估計(jì)量的模擬比較結(jié)果
本文在模擬試驗(yàn)的基礎(chǔ)上,以ρ=0.99,抽樣比f(wàn)1h=0.1和f2hi=0.1為例,構(gòu)造全省牛羊禽存欄量的廣義回歸估計(jì)量及其方差估計(jì),演示應(yīng)用過(guò)程。表4給出了40個(gè)樣本村及其包含樣本養(yǎng)殖場(chǎng)(戶(hù))的部分信息。whij表示樣本中第h層第i個(gè)行政村第j個(gè)養(yǎng)殖場(chǎng)(戶(hù))的最終抽樣權(quán)數(shù),即入樣概率的倒數(shù)。
其中:
=(5 165,13 628,52 738,393 783)
=(5 165,19 336.17,49 493.87,808 619.9)
(1,x1,1ij,x2,1ij,x3,1ij)]=
5 165.0019 336.17 49 493.87808 619.8619 336.175 402 190.230.005 325.3549 493.870.0012 745 885.2846 116.07808 619.865 325.3546 116.073 016 446 228.34
表4 牛羊禽監(jiān)測(cè)調(diào)查部分樣本信息
表5 第h=1層刀切復(fù)制權(quán)數(shù)和刀切復(fù)制值
最后,由式(6)計(jì)算出第h=1層牛羊禽存欄量廣義回歸估計(jì)量的方差估計(jì)。第h=2層的方差估計(jì)步驟相同。表6匯總了全省及各層牛羊禽存欄量的廣義回歸估計(jì)及方差估計(jì)。
表6 估計(jì)結(jié)果
本文針對(duì)當(dāng)前中國(guó)農(nóng)業(yè)抽樣調(diào)查估計(jì)方法的不足,重點(diǎn)研究廣義回歸估計(jì)量應(yīng)用于中國(guó)農(nóng)業(yè)抽樣調(diào)查的可行性和適用性,主要結(jié)論如下:
第一,隨著大數(shù)據(jù)時(shí)代的到來(lái),可應(yīng)用于中國(guó)農(nóng)業(yè)抽樣調(diào)查的輔助信息有很多,如農(nóng)業(yè)普查數(shù)據(jù)、歷史抽樣調(diào)查數(shù)據(jù)、農(nóng)業(yè)行政記錄、遙感數(shù)據(jù),以及由智能農(nóng)業(yè)機(jī)械收集的實(shí)地觀察數(shù)據(jù)等,這為構(gòu)造廣義回歸估計(jì)量提供了重要基礎(chǔ)。
第二,利用第三次全國(guó)農(nóng)業(yè)普查數(shù)據(jù),針對(duì)中國(guó)畜禽抽樣調(diào)查,對(duì)廣義回歸估計(jì)量在不同抽樣設(shè)計(jì)情形下的統(tǒng)計(jì)性質(zhì)進(jìn)行仿真模擬。研究結(jié)果顯示,相比于目前所采用的HT估計(jì)量,廣義回歸估計(jì)量的統(tǒng)計(jì)性質(zhì)更優(yōu)。
第三,實(shí)例演示表明,廣義回歸估計(jì)量構(gòu)造過(guò)程易于理解,且當(dāng)所有調(diào)查變量利用的輔助信息相同時(shí),采用刀切法可以同時(shí)估計(jì)所有調(diào)查變量總體參數(shù)估計(jì)量的方差,實(shí)際操作便捷,計(jì)算效率高。廣義回歸估計(jì)量在中國(guó)農(nóng)業(yè)抽樣調(diào)查中具有較好的應(yīng)用價(jià)值。