陳光慧
(暨南大學(xué) 經(jīng)濟學(xué)院,廣州 510632)
基于局部多項式回歸方法的抽樣估計
陳光慧
(暨南大學(xué) 經(jīng)濟學(xué)院,廣州 510632)
在輔助信息可利用的情況下,文章研究了有限總體總值的估計問題。首先回顧了Horvitz-Thompson估計量和廣義回歸估計量;然后指出當(dāng)輔助變量與研究變量不滿足經(jīng)典線性回歸模型假設(shè)時,可建立非參數(shù)回歸模型,運用局部多項式回歸估計的方法進行估計;最后,引入了一個實際例子,并對估計結(jié)果進行了比較。
輔助信息;抽樣估計;非參數(shù)回歸模型;局部多項式回歸估計量
在很多抽樣問題中,我們往往希望能得到一些輔助信息,利用這些輔助信息來提高抽樣估計的精度。這些輔助信息主要包括普查資料、政府部門的行政記錄和有關(guān)企、事業(yè)單位的生產(chǎn)業(yè)務(wù)記錄以及以前所搜集的調(diào)查資料等等。對于已經(jīng)得到的輔助信息,我們可以從不同的角度進行利用。具體地說,可以在抽樣設(shè)計階段利用輔助信息,也可以在抽樣估計階段利用輔助信息。
在抽樣設(shè)計階段利用輔助信息,主要是指不等概率抽樣(包括PPS抽樣和πPS抽樣等等)。比如說,在πPS抽樣中,研究變量y與已知的輔助變量x呈一定的相關(guān)關(guān)系。我們可以在抽樣設(shè)計階段利用這種相關(guān)關(guān)系,令第i個總體單元被包含到樣本中的概率,即入樣概率為
這樣,如果根據(jù)抽樣設(shè)計p(·),從總體U中抽出一個概率樣本s,那么就可以得出未知總體總值ty=∑Uyi的無偏估計量,也就是Horvitz-Thompson估計量
且Horvitz-Thompson估計量的方差為
這里的 πi如式(1)所示,πij即為第 i和 j兩個總體單元同時入樣的概率。 觀察式(2) 和式(3)可知,估計量t贊y及其方差公式中沒有出現(xiàn)輔助變量。也就是說,僅僅在抽樣設(shè)計階段利用了輔助信息,在抽樣估計階段沒有利用輔助信息。S覿rndal等人(1992)已經(jīng)證明,在抽樣估計階段利用輔助信息(即輔助變量進入估計量公式中),往往能得出比Horvitz-Thompson估計量更有效的估計量。
在研究抽樣估計階段如何利用輔助信息時,首先往往假定一個超總體線性回歸模型
來描述研究變量y與輔助變量向量x=(x1,…,xK)'之間的關(guān)系,而把需要調(diào)查的未知研究總體U(即{yi,xi})看成是這個超總體線性回歸模型的一次具體實現(xiàn),其中x1,…,xN是輔助向量x的值。若用研究總體數(shù)據(jù)來估計模型參數(shù),可得參數(shù)β的最小二乘估計量為
但是由于在實際調(diào)查中,總體是未知的,所以不能直接用來估計模型參數(shù)β,我們只能從總體U中抽出一個樣本s(即{yi,xi}),利用樣本s的信息以及輔助變量向量x的總體總值tx=∑Uxi=(t1,…,tK)'來估計模型參數(shù),進而得出總體總值ty=∑Uyi的估計量。Sarndal等人(1992)基于此模型提出了廣義回歸估計量(簡稱GREG估計量),公式
此估計量是ty=∑Uyi的漸進無偏且一致估計量。一般來說,式(5)中的廣義回歸估計量比式(2)中的 Horvitz-Thomp-son估計量更優(yōu)。
在以往關(guān)于回歸估計的研究中,我們很少考慮建立的回歸模型是否滿足經(jīng)典線性回歸假設(shè)。雖然,S覿rndal等人(1992)提出的廣義回歸估計量考慮到了異方差的問題,但對于實際中真實的數(shù)據(jù)來說,僅僅這樣可能還不夠,還有很多模型設(shè)定誤差需要考慮,甚至實際數(shù)據(jù)是否呈線性關(guān)系還需要研究。如果從這方面考慮,那么基于上述線性回歸模型得出的估計量的精度可能沒有想象中的理想。針對此問題,本文擬建立非參數(shù)回歸模型,并提出局部多項式回歸估計的方法。
非參數(shù)回歸模型的特點是回歸函數(shù)的形式可以任意,不受任何約束,因而具有較大的適應(yīng)性。近幾年,國外有些學(xué)者已經(jīng)開始把非參數(shù)模型引入到抽樣理論研究中,比如,Breidt和Opsomer(2000)等人提出模型輔助條件下的各種非參數(shù)估計量。對于非參數(shù)回歸模型,本文使用局部多項式回歸方法進行估計,局部回歸的優(yōu)點是假定變量之間的關(guān)系未知,沒有隱含任何假設(shè)條件,所以更加符合實際情況。
局部回歸的主要思想是,對于給定的x,認為模型回歸函數(shù)m(.)在x附近的局部領(lǐng)域近似于線性,對x附近的那部分數(shù)據(jù)應(yīng)用線性回歸技術(shù),而該局部領(lǐng)域的大小由窗寬(記為h)的大小來控制。
為了簡化問題,本文以一個輔助變量的一元回歸模型為例介紹局部回歸估計,有多個輔助變量的情形可以類似考慮。
第一步,建立如下無限超總體非參數(shù)回歸模型ξ
其中xi是已知的輔助變量;yi是未知的研究變量;εi是獨立的隨機誤差項,且其均值為0,方差為v(xi);m(x)是關(guān)于x的一個光滑函數(shù),其表達形式未知。在給定xi情況下,模型ξ也可以表達為如下形式
與第一節(jié)中的線性回歸模型ζ一樣,我們把需要調(diào)查的未知總體U(即{yi,xi}Ni=1)看成是這個超總體非參數(shù)回歸模型ξ的一次具體實現(xiàn)。但是由于總體是未知的,所以不能直接進行估計,我們只能從總體U中抽出一個樣本s(即{yi,xi}ni=1),利用樣本s的信息以及輔助變量x的總體總值tx=∑Uxi來估計非參數(shù)回歸模型,進而得出研究變量總體總值的估計量。
第二步,假定函數(shù)m(x)在x=xi處p+1階導(dǎo)數(shù)存在,則可以對m(x)在x=xi處進行泰勒級數(shù)展開,表達如下
對于樣本資料{yk,xk,我們有
對上面的多項式運用加權(quán)最小二乘法進行局部擬合。假定控制局部領(lǐng)域大小的窗寬為h,則對于xi的領(lǐng)域 (xi-h,xi+h),有
其中 Kh(·)=K(·|h)/h,K(·)為核函數(shù),h 為窗寬。 為了方便進一步討論,把式(11)表達成矩陣的形式為
其中
這里的β為參數(shù)向量,且βv=m(v)(xi)/v!,v=0,1,…,p;ε為模型誤差向量。
通過極小化
β的加權(quán)最小二乘估計為
其中 Wsi=diag{Kh(xk-xi)};k=1,…,n。 由于 βv=m(v)(xi)/v! (v=0,1,…,p),可得式(8)中 m(xi)的樣本估計值為
這里 e1=[1 0 … 0]'(p+1)×1。 即等于向量β贊中的第一項。
第三步,采用式(5)中廣義回歸估計量的形式,可得總體總值ty=∑Uyk的局部多項式回歸估計量為
與式(6)中近似方差公式類似,可得局部多項式回歸估計量的近似方差公式為
其中mi=e1'(X'UiWUiXUi)-1XUi'WUiYU是用總體數(shù)據(jù)去估計非參數(shù)回歸模型時得出的關(guān)于m(xi)的估計值。推導(dǎo)方法與推導(dǎo)式(16)的樣本估計值一樣。同理,與式(7)類似,得出近似方差的估計量為
其中,m贊(xi)=e1'(Xsi'WsiXsi)-1XsiWsiYs。
為了更好地說明局部多項式回歸方法在抽樣估計中的應(yīng)用,我們引入一個實際例子進行分析,即估計廣東省某年的糧食總產(chǎn)量。按照行政區(qū)劃將廣東省分成89個縣 (市)、區(qū),即總體單元總數(shù)N=89;研究變量表示第i個地區(qū)的糧食產(chǎn)量;另外,選用與研究變量高度相關(guān)的常用耕地面積作為輔助變量,因為各個地區(qū)不同年份常用耕地面積很少變化,其數(shù)據(jù)可通過往年的統(tǒng)計年鑒得到,且用xi表示第i個地區(qū)常用耕地面積,其中i=1,…,89。目標是估計總體總值,即廣東省糧食總產(chǎn)量ty=∑Uyi,為此抽出一個樣本量n=30的樣本進行估計。為了簡化問題,這里使用簡單隨機抽樣得出樣本量為30的樣本,樣本數(shù)據(jù)在此略過。
從樣本中得到了30個樣本單元的研究變量值 (即糧食產(chǎn)量yi,i=1,…,30),且還知道總體的輔助變量值(即常用耕地面積xi,i=1,…,89,通過以往的資料或普查可獲得)。下面的任務(wù)就是利用這些信息來估計總體總值 (即廣東省糧食總產(chǎn)量)。
一般來說,這里可以利用輔助變量的信息進行回歸估計。但是通過觀察圖1和圖2中的兩條回歸趨勢線,可以發(fā)現(xiàn),由于30個樣本點呈線性回歸趨勢并不明顯,若強行進行線性回歸估計,其效果可能很差。但是,圖2中的局部多項式回歸擬合圖擬合效果較好。下面分別進行線性回歸估計和局部多項式回歸估計,并對兩種方法的估計精度進行比較。
由于使用簡單隨機抽樣,那么包含概率相應(yīng)為
且進行局部多項式回歸估計時,選擇核函數(shù)K(u)=0.75(1-u2)I(|u|≤1),其中 I(·)為示性函數(shù),當(dāng)括號內(nèi)的不等式成立時,取值為1;否則取值為0。確定窗寬h=0.8。運行MATLAB 7可得出結(jié)果如表1。
表1 兩種估計方法的結(jié)果
從表1中可發(fā)現(xiàn),兩種估計方法中,由局部多項式回歸方法得出的估計量的近似方差更小,因而估計得更加精確。
本文研究了在輔助信息可利用的情況下,有限總體總值的估計問題。文章回顧了Horvitz-Thompson估計量和廣義回歸估計量及存在的問題,當(dāng)輔助變量與研究變量不滿足經(jīng)典線性回歸模型假設(shè)時,考慮建立非參數(shù)回歸模型,并運用局部多項式回歸估計方法進行抽樣估計,構(gòu)建局部多項式回歸估計量。最后,引入了一個實際例子進行分析,顯示了該估計量的準確性。
[1]馮士雍,倪加勛,鄒國華.抽樣調(diào)查理論與方法[M].北京:中國統(tǒng)計出版社,1998.
[2]李子奈,葉阿忠.高等計量經(jīng)濟學(xué)[M].北京:清華大學(xué)出版社,2000.
[3]葉阿忠.非參數(shù)計量經(jīng)濟學(xué)[M].天津:南開大學(xué)出版社,2003.
[4]W.G.Cochran.抽樣技術(shù)[M].張堯庭,吳輝譯.北京:中國統(tǒng)計出版社,1985.
[5]Breidt,F.J.,Opsomer,J.D.Local Polynomial Regression Estimators in Survey Sampling[J].The Annals of Statistics,2000,(2).
[6]Sarndal E.C.,Swensson B.,Wretman J.Model Assisted Survey Sampling[M].New York:Springer,1992.
C811
A
1002-6487(2011)04-0003-03
全國統(tǒng)計科學(xué)研究重大項目(2009LD001)
陳光慧(1980-),男,安徽旌德人,博士,講師,研究方向:統(tǒng)計調(diào)查與數(shù)據(jù)分析。
(責(zé)任編輯/亦 民)