呂 萍
(北京大學(xué) 中國社會(huì)科學(xué)調(diào)查中心,北京 100871)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,抽樣調(diào)查稱為獲取數(shù)據(jù)的主要方法,日益受到社會(huì)各界的關(guān)注。小域估計(jì)[1]問題是抽樣調(diào)查中的熱點(diǎn)問題之一,其主流發(fā)展方向是基于模型的小域估計(jì)方法[2],即利用相鄰或相似域的信息借助統(tǒng)計(jì)模型對(duì)小域的目標(biāo)變量進(jìn)行估計(jì)的方法,這種方法有明確的模型形式,不僅可以處理比較復(fù)雜的數(shù)據(jù)類型,還可以通過樣本數(shù)據(jù)對(duì)模型的合理性進(jìn)行驗(yàn)證。但是,這種方法依賴于模型[3]的假定條件,當(dāng)模型的假定條件不滿足時(shí),無法得到目標(biāo)變量的有效估計(jì)量。此時(shí),一方面通過尋找滿足數(shù)據(jù)特征的復(fù)雜模型,但是太復(fù)雜的模型由于其理論與計(jì)算機(jī)實(shí)現(xiàn)過程等往往難以實(shí)現(xiàn)。另一方面通過變換的方法使變換后的數(shù)據(jù)滿足小域模型的假定條件,得到小域的有效估計(jì)量。本文擬主要利用完全基于數(shù)據(jù)的Box-Cox變換[4]得到小域的有效估計(jì)量,并結(jié)合抽樣設(shè)計(jì)權(quán)數(shù)得到小域的雙重穩(wěn)健估計(jì)量。
常用的變化有對(duì)數(shù)變換、倒數(shù)變換、平方根變換等,在實(shí)際應(yīng)用中,往往需要根據(jù)不同的數(shù)據(jù)特征和實(shí)踐經(jīng)驗(yàn)選擇合適的變換,缺乏客觀性。Box-Cox變換是Box和Cox在1964年提出的一種完全基于數(shù)據(jù)的變換形式,是一種客觀的變換方法。在小域估計(jì)中,當(dāng)樣本數(shù)據(jù)不滿足小域模型的假定條件并且沒有有效的信息確定合理的變換方法[5]時(shí),用Box-Cox變換可以得到比較穩(wěn)健的估計(jì)量。
基于Box-Cox變換的小域模型是
由式(1)可知,當(dāng)λ=1,0,0.5和-1時(shí)分別是常見的無變換、對(duì)數(shù)變換、平方根變換和逆變換,而λ的值選取完全取決于調(diào)查數(shù)據(jù),因此Box-Cox變換是一種完全基于數(shù)據(jù)的穩(wěn)健的變換方法。但是,式(1)要求yij>0,因此Box和Cox對(duì)其進(jìn)行改進(jìn),得到
其中yij>-λ2。1976年,Manly針對(duì)調(diào)查數(shù)據(jù)中存在負(fù)值和分布偏斜等問題,提出以下變換形式:
假定經(jīng)過上述Box-Cox變換的樣本數(shù)據(jù)滿足小域模型的假定條件,利用極大似然估計(jì)方法,在λ固定的條件下得到Y(jié)(λ)的似然估計(jì)方程是
兩邊取對(duì)數(shù)得到對(duì)數(shù)似然方程為
對(duì)上式的求偏導(dǎo)令其為零,得到參數(shù)的極大似然估計(jì)量,即第i個(gè)小域的基于Box-Cox變換的未入樣單元的均值估計(jì)量是
由于式(4)是經(jīng)過Box-Cox變換后的得到的估計(jì)量,需要對(duì)其進(jìn)行逆變換得到原始數(shù)據(jù)下小域的目標(biāo)變量的穩(wěn)健估計(jì)量。
當(dāng)λ≠0時(shí):
由泰勒公式展開,得到
所以原數(shù)據(jù)的未入樣單元的二階近似的無偏估計(jì)量是
當(dāng)λ=0時(shí),是常見的對(duì)數(shù)變換,其估計(jì)方法與式(5)相同,得到未入樣單元的估計(jì)量是
所以第i小域的總量的近似無偏估計(jì)量是
當(dāng)λ≠0時(shí),第i小域的目標(biāo)變量的二階近似的方差估計(jì)量
當(dāng)λ=0時(shí),估計(jì)方法與式(7)相同。
由于Box-Cox變換是完全基于數(shù)據(jù)的變換的方法,是一種客觀的變換方法,故在實(shí)際調(diào)查中具有更廣泛的應(yīng)用價(jià)值,可以得到小域的基于客觀數(shù)據(jù)的穩(wěn)健估計(jì)量。
基于Box-Cox變換的小域估計(jì)方法是一種基于客觀數(shù)據(jù)的穩(wěn)健的估計(jì)方法,但是這種方法沒有考慮樣本選取過程的復(fù)雜性。在實(shí)際調(diào)查中,抽樣設(shè)計(jì)往往是分層、多階段不等概的復(fù)雜抽樣設(shè)計(jì),當(dāng)樣本數(shù)據(jù)的選取存在選擇性偏差[6]時(shí),得到的估計(jì)量是無效的。所以,在實(shí)際調(diào)查中,需要結(jié)合抽樣設(shè)計(jì)的信息,即將抽樣設(shè)計(jì)權(quán)數(shù)[7][8]引入式(1)的估計(jì)過程中,得到設(shè)計(jì)一致的小域的目標(biāo)變量的雙重穩(wěn)健估計(jì)量,在實(shí)際應(yīng)用中主要有兩種方式。
利用加權(quán)對(duì)數(shù)似然估計(jì)的方法得到式(1)的未知參數(shù)的估計(jì)量,進(jìn)而得到小域的目標(biāo)變量的雙估計(jì)量。這個(gè)估計(jì)量結(jié)合了抽樣設(shè)計(jì)的抽樣權(quán)數(shù)和基于Box-Cox變換的小域模型,得到了小域的雙重穩(wěn)健的估計(jì)量,即
其中未入樣單元的二階近似的無偏估計(jì)量是
w是抽樣設(shè)計(jì)中的權(quán)數(shù),是由加權(quán)極大似然估計(jì)方法得到的
設(shè)wij是調(diào)查單元yij的抽樣設(shè)計(jì)權(quán)數(shù),當(dāng)小域內(nèi)的樣本是自加權(quán)(即wij=wi)時(shí)無需考慮抽樣過程。但是,在實(shí)際調(diào)查中,由于抽樣過程的復(fù)雜性完全自加權(quán)的抽樣設(shè)計(jì)幾乎是不存在的,所以常常需要將抽樣設(shè)計(jì)權(quán)數(shù)wij引入小域模型中,即將抽樣權(quán)數(shù)引入經(jīng)過Box-Cox變換后的小域模型中,得到
所以,經(jīng)過變換后小域的目標(biāo)變量的未入樣單元的均值的估計(jì)量是
上述兩種方法都是將經(jīng)過變換后的統(tǒng)計(jì)模型和抽樣權(quán)數(shù)結(jié)合,結(jié)合了抽樣過程中的信息和樣本數(shù)據(jù)的信息,是小域的雙重穩(wěn)健估計(jì)方法。
下面,利用數(shù)據(jù)模擬的方法比較基于Box-Cox變換和抽樣設(shè)計(jì)權(quán)數(shù)的小域估計(jì)方法與常規(guī)的基于模型的小域估計(jì)方法的優(yōu)劣。設(shè)模擬總體產(chǎn)生于超總體模型
一般情況下,基于線性混合模型的小域的目標(biāo)變量的總量估計(jì)量是
由數(shù)據(jù)可知,λ=0的Box-Cox變換是合適的變換形式,將抽樣設(shè)計(jì)權(quán)數(shù)引入線性混合模型,得到基于對(duì)數(shù)變換和抽樣設(shè)計(jì)權(quán)數(shù)的小域的雙重穩(wěn)健估計(jì)量。用R統(tǒng)計(jì)軟件編程得到30個(gè)小域的估計(jì)量,將這個(gè)模擬過程重復(fù)50次,并用平均偏差Bias和平均均方誤差MSE這兩個(gè)指標(biāo)比較這兩種方法的優(yōu)劣,得到第i域的平均偏差和平均均方誤差分別是
由此,得到30個(gè)小域的基于小域模型和基于對(duì)數(shù)變換和抽樣權(quán)數(shù)的小域的目標(biāo)變量的平均偏差和平均方誤差的估計(jì)量。用直觀的折線圖表示如圖1、圖2。
圖1 30個(gè)小域的平均偏差的估計(jì)量
圖2 30個(gè)小域的均方誤差的估計(jì)量
由圖1和圖2看出,基于對(duì)數(shù)變化并結(jié)合抽樣設(shè)計(jì)信息后,30個(gè)小域的估計(jì)量的平均偏差和平均均方誤差都有所減少,提高了估計(jì)精度。這進(jìn)一步說明,當(dāng)調(diào)查數(shù)據(jù)不滿足模型的假定條件時(shí),基于Box-Cox變換和抽樣設(shè)計(jì)權(quán)數(shù)的小域估計(jì)方法是一種雙重穩(wěn)健的小域估計(jì)方法。
小域估計(jì)的主流發(fā)展方向是基于模型的小域估計(jì)方法,但是這種方法依賴于模型的假定條件,當(dāng)模型的假定條件不滿足時(shí),無法得到目標(biāo)變量的有效估計(jì)量。本文用完全基于樣本數(shù)據(jù)的Box-Cox變換方法得到小域的穩(wěn)健估計(jì)量,結(jié)合抽樣設(shè)計(jì)的權(quán)數(shù)信息得到小域的雙重穩(wěn)健估計(jì)量;并通過一個(gè)模擬案例說明基于Box-Cox變換和抽樣設(shè)計(jì)信息的小域估計(jì)方法是一種雙重穩(wěn)健的估計(jì)方法。
[1]RAO,J.N.K.Small Area Estimation[M].New York:Wiley,2003.
[2]Longford N.T.Missing Data and Small-Area Estimation.Modern Analytical Equipment for the Survey Statistician[M].New York:Springer,2005.
[3]Lehtonen R.,Myrskyl? M.,S?rndal C.-E.,Veijanen A.Model-assisted and Model-dependent Estimation for Domains and Small Areas under Unequal Probability Sampling[J].9th International Vilnius Conference on Probability Theory and Mathematical Statistics,2006,(6).
[4]Chen,G.,Chen,J.A Transformation Method for Finite Population Sampling Calibrated with Empirical Likelihood[J].Survery Methodology,1996,(22).
[5]Karlberg,F.Population Total Prediction under a Lognormal Superpopulation Model[J].Metron,2000,53~80.
[6]Pfeffermann,D.,Sverchkov,M.Small Area Estimation under Informative Sampling[R].Technical Report,2003.
[7]You,Y.,Rao,J.N.K.A Pseudo-empirical Best Linear Unbiased Prediction Approach to Small Area Estimation Using Survey Weights[J].Canadian Journal of Statistics,2002,(30).
[8]You,Y.,Rao,J.N.K.Small Area Estimation Using Unmatched Sampling and Linking Models[J].The Canadian Journal of Statistics,2000,(30).