呂萍
(北京大學(xué)中國社會科學(xué)調(diào)查中心,北京100871)
多目標(biāo)變量調(diào)查的小域的穩(wěn)健估計量研究
呂萍
(北京大學(xué)中國社會科學(xué)調(diào)查中心,北京100871)
大型的抽樣調(diào)查不僅是多目標(biāo)的復(fù)雜調(diào)查,而且在估計總體目標(biāo)變量的基礎(chǔ)上還需要對其中的一些域的目標(biāo)變量進(jìn)行估計,所以小域估計和多目標(biāo)估計問題一直是抽樣調(diào)查的熱點問題。文章主要利用模型校準(zhǔn)權(quán)數(shù)的方法,解決小域中的多目標(biāo)估計問題,并得到小域的多個目標(biāo)變量的穩(wěn)健估計量。
小域估計;多目標(biāo)調(diào)查;模型校準(zhǔn)權(quán)數(shù);穩(wěn)健估計量
小域估計[1]是當(dāng)今抽樣調(diào)查的熱點的問題之一,許多大型的調(diào)查都需要在估計總體的目標(biāo)變量的同時,對相應(yīng)的域的目標(biāo)變量進(jìn)行有效的估計。小域指規(guī)模很小的域,包括地理上的小域,也包括總體中按照某種屬性劃分的一個很小的子總體,“小”是指樣本量很小,甚至為零,此時無法利用傳統(tǒng)的直接估計法對小域的目標(biāo)變量的進(jìn)行有效的估計,稱為小域估計問題。小域估計的主流發(fā)展方向是基于模型的間接估計方法,即基于相鄰或相似域的信息借助于輔助模型對小域的目標(biāo)變量進(jìn)行估計的方法。這種方法有明確的模型形式,不僅可以處理比較復(fù)雜的數(shù)據(jù)類型,還可以通過樣本數(shù)據(jù)對模型的合理性進(jìn)行驗證。
多目標(biāo)問題一直是抽樣調(diào)查的熱點問題之一,人們總是希望用一套樣本數(shù)據(jù)滿足不同目標(biāo)變量的估計要求,也稱為多主題或多指標(biāo)抽樣,即用一套樣本數(shù)據(jù)同時估計兩個或是兩個以上的目標(biāo)變量的抽樣調(diào)查方法。由于在抽樣設(shè)計中各個調(diào)查變量的樣本分布是不同的,多個變量的聯(lián)合分布很難確定,這大大增加了抽樣設(shè)計的難度。解決多目標(biāo)問題的方法主要有四種:
第一種方法體現(xiàn)在抽樣方式的選擇上,即如何選擇一種有效的抽樣方法得到樣本數(shù)據(jù),使各個目標(biāo)的抽樣誤差都能達(dá)到最小。
第二種方法體現(xiàn)在抽樣設(shè)計方法的選擇上。抽樣設(shè)計有多種方法,主要有隨機(jī)化抽樣方法,包含多目標(biāo)分層抽樣方法、多目標(biāo)平衡抽樣方法、多目標(biāo)比率與回歸估計方法、多目標(biāo)雙重抽樣方法、多目標(biāo)雙重事后分層抽樣方法、成本條件下的多目標(biāo)復(fù)合抽樣法以及多變量與規(guī)模成比例的抽樣方法(MPPS);模型抽樣方法;模型輔助抽樣方法。
第三種方法體現(xiàn)在樣本容量的確定上,樣本量的大小既涉及到抽樣估計的精度,又涉及到調(diào)查的費用,在多目標(biāo)抽樣設(shè)計中各個目標(biāo)的抽樣誤差的大小可能不同,選擇合適的樣本量是十分重要的。
第四種方法是估計量的選擇。即在沒有比較好的抽樣方法并且經(jīng)費有限的情況下,選擇合適的估計方法盡可能地提高估計量的精度。
多目標(biāo)問題也是小域估計中普遍存在的問題。本文擬從估計量選擇的角度對小域估計中的多目標(biāo)問題進(jìn)行研究,并用基于模型校準(zhǔn)權(quán)數(shù)的小域估計方法得到小域的多個目標(biāo)變量的穩(wěn)健估計量。
傳統(tǒng)的小域估計方法是基于混合模型的模型依賴的估計方法,它的目標(biāo)估計量依賴于模型的假定,當(dāng)模型的假定不成立,估計是有偏的,甚至是無效的。在實際調(diào)查中,由于抽樣設(shè)計和實際調(diào)查過程的復(fù)雜性,總體模型和樣本模型往往是不一致的,用樣本數(shù)據(jù)得到的目標(biāo)變量的估計量是有偏的。針對這個問題,Chambers提出了利用模型校準(zhǔn)權(quán)數(shù)[3][4]的方法,這種方法可以有效地防止模型假定錯誤和樣本選擇過程產(chǎn)生的偏差,得到小域的目標(biāo)變量的穩(wěn)健估計量[5]。
設(shè)一個多目標(biāo)的抽樣調(diào)查,有k個目標(biāo)變量是Y=(Y1,Y2,…,Yk)T,調(diào)查總體中包含m個小域,設(shè)每個目標(biāo)變量Yk滿足線性混合模型[1]
Yk=Xβk+zTuk+ek
其中輔助變量是X=(X1T,x2T,…,xmT)T;設(shè)計變量是Z=diag(Zj,1≤j≤J);域隨機(jī)變量是uk=(uk1,uk2,…,ukm)T;ek=(ek1,ek2,…,ekm)T;Var(uki)=∑ki;Var(eki)=σki2INi;INi是Ni階的單位矩陣。則Yk的協(xié)方差矩陣為Var(Yk)=σki2INi+Zki∑kiZkiT。首先按照樣本單元和非樣本單元拆分為:
(1)對各個目標(biāo)變量Yk用小域估計的基本混合模型的方法得到各個目標(biāo)變量的經(jīng)驗最佳線性無偏估計量,這種方法的計算量比較大,并且依賴于模型的假定條件,穩(wěn)健性比較差。
(2)對各個目標(biāo)變量利用基于模型校準(zhǔn)權(quán)數(shù)的小域的穩(wěn)健估計方法模型校準(zhǔn)權(quán)數(shù)得到小域的各個目標(biāo)變量的穩(wěn)健估計量,但是計算量比較大。
(3)在實際過程中,為了計算簡便,可以用一個共同的模型校準(zhǔn)權(quán)數(shù)對小域的個目標(biāo)變量進(jìn)行估計。這個共同的權(quán)數(shù)可以通過對每個目標(biāo)變量的模型校準(zhǔn)權(quán)數(shù)的加權(quán)平均,即
利用這個共同的模型校準(zhǔn)權(quán)數(shù)w(1)得到小域的各個目標(biāo)變量的穩(wěn)健估計量,但是這個方法同樣需要對每一個目標(biāo)變量求解模型校準(zhǔn)權(quán)數(shù),計算量依然比較大。
用這個共同的模型權(quán)數(shù)wk(2)得到各個目標(biāo)變量的穩(wěn)健估計量,這個方法同樣需要求解k個目標(biāo)變量的方差元素的估計量贊ki,計算量也比較大。
上面四種方法都需要分別對k個目標(biāo)變量計算,計算量比較大。下面用模型校準(zhǔn)權(quán)數(shù)的方法,通過在滿足k個目標(biāo)變量都是無偏估計量的情況下使k個目標(biāo)變量的方差的加權(quán)平均和最小,得到k個目標(biāo)變量的共同的模型校準(zhǔn)權(quán)數(shù),進(jìn)而得到目標(biāo)變量的穩(wěn)健有效的估計量。調(diào)查總體的多個目標(biāo)變量之間可能相關(guān)也可能無關(guān)。
若個目標(biāo)變量是無關(guān)的,則k個目標(biāo)變量的模型校準(zhǔn)權(quán)數(shù)需要滿足在無偏的情況下使每個目標(biāo)變量的加權(quán)平均和最小,即滿足:
利用拉格朗日數(shù)乘法求解,拉格朗日函數(shù)為:
分別對wk和λ的求偏導(dǎo),并令其為零,即:
上式乘以XsT得到:
得到最優(yōu)的模型校準(zhǔn)權(quán)數(shù)為:
即k個目標(biāo)變量的共同的最優(yōu)的模型校準(zhǔn)權(quán)數(shù)為:
其中Vkss,Vksr的估計量由極大似然估計、矩估計等方法得到,所以k個目標(biāo)變量的共同的模型校準(zhǔn)權(quán)數(shù)為:
由上述模型校準(zhǔn)權(quán)數(shù)得到第i小域的第k個目標(biāo)變量Yk的均值的穩(wěn)健估計量為:
其均方誤差的穩(wěn)健估計量為:
當(dāng)k個目標(biāo)變量相關(guān)時,得到k個目標(biāo)變量最優(yōu)的模型校準(zhǔn)權(quán)數(shù)同樣需要滿足下面兩個條件
其中第個目標(biāo)變量的協(xié)方差為:
同樣地,運用拉格朗日數(shù)乘法,得到:
上式分別對wk和λ的求偏導(dǎo),令其為零,得到:
由于k個目標(biāo)變量是相關(guān)的,即Yk,Yl相關(guān),此時:
第i個小域的第k個目標(biāo)變量Yk的均值估計量為:
均方誤差的估計量為:
通過上述方法,可以有效地處理小域中的多目標(biāo)估計問題。模型校準(zhǔn)權(quán)數(shù)的估計方法是一種穩(wěn)健的小域估計方法。
小域估計和多目標(biāo)問題都是抽樣調(diào)查的難點問題,小域的多目標(biāo)問題是一個備受關(guān)注的焦點問題。模型校準(zhǔn)權(quán)數(shù)方法是一種穩(wěn)健的小域估計方法。本文用模型校準(zhǔn)權(quán)數(shù)的方法解決多目標(biāo)的小域估計問題,并得到穩(wěn)健、有效的估計量。
[1]Rao,J.N.K.Small Area Estimation[M].New York:Wiley,2003.
[2]Longford N.T.Missing Data and Small-Area Estimation.Modern Analytical Equipment for the Survey Statistician[M].New York:Springer,2005.
[3]Chandra,H.,Chambers,R.L.Comparing EBLUP and CEBLUP for Small Area Estimation[J].Statistics in Transition,2005,(7).
[4]呂萍.基于最佳線性無偏估計的模型權(quán)數(shù)的小域估計[J].統(tǒng)計與決策,2009,(1).
[5]Devile,J.C.,Sarndal,C.E.Calibration Estimators in Survey Sampling[J].Journal of the American Statistical Association,1992,87.
O212
A
1002-6487(2011)07-0021-03
中國博士后基金資助項目(20100470129)
呂萍(1981-),女,山東泰安人,博士后,研究方向:統(tǒng)計調(diào)查和數(shù)據(jù)分析。
(責(zé)任編輯/亦民)