龐智強(qiáng),牛璽娟,,王朝旭
(1.蘭州財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,蘭州 730020;2.青海師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,西寧 810008)
在抽樣理論中,研究者要處理兩種類(lèi)型的調(diào)查誤差:抽樣誤差和非抽樣誤差。其中,抽樣誤差是由抽樣的隨機(jī)性引起的誤差,非抽樣誤差是除抽樣以外的其他原因引起的誤差。在經(jīng)典的抽樣理論中,研究的估計(jì)誤差主要是抽樣誤差,對(duì)非抽樣誤差研究較少。在估計(jì)總體未知參數(shù)時(shí),非抽樣誤差在一定程度上比抽樣誤差更容易影響估計(jì)量的性質(zhì)。
在抽樣調(diào)查中,通常假設(shè)所有選定的單位都將全部參與調(diào)查,并且所有記錄的結(jié)果都是對(duì)變量的真實(shí)測(cè)量。然而,由于客觀條件的限制,難以完全避免非抽樣誤差的出現(xiàn),使得調(diào)查得到的數(shù)據(jù)并不完整,從而會(huì)導(dǎo)致出現(xiàn)嚴(yán)重的錯(cuò)誤推斷??傮w方差估計(jì)作為統(tǒng)計(jì)推斷中非常重要的研究?jī)?nèi)容,同樣存在上述困擾。因此,有必要開(kāi)發(fā)能夠最大限度應(yīng)對(duì)非抽樣誤差影響的總體方差估計(jì)方法。
無(wú)回答誤差和計(jì)量誤差作為兩種重要的非抽樣誤差,對(duì)總體方差的估計(jì)結(jié)果會(huì)產(chǎn)生至關(guān)重要的影響。無(wú)回答誤差是估計(jì)研究變量總體方差過(guò)程中面臨的重大挑戰(zhàn)之一。Hansen 和Hurwitz(1946)[1]考慮了存在無(wú)回答誤差時(shí)有限總體均值的估計(jì)問(wèn)題;Chaudhuri 和Pal(2015)[2]提出了不同總體參數(shù)的估計(jì)量;Ahmeda 和Pal(2005)[3]探究了簡(jiǎn)單隨機(jī)抽樣下存在隨機(jī)無(wú)回答時(shí)總體方差的估計(jì)問(wèn)題;Singh等(2012)[4]針對(duì)兩種不同的隨機(jī)無(wú)回答,提出了總體方差的估計(jì)量;牛成英和龐志強(qiáng)(2014)[5]運(yùn)用概率分析方法討論了無(wú)回答對(duì)總體參數(shù)估計(jì)量抽樣方差的影響。
除了無(wú)回答之外,估計(jì)總體方差時(shí)遇到的另一大挑戰(zhàn)是計(jì)量誤差。Singh 和Karpe(2009)[6]討論了計(jì)量誤差影響下總體方差的估計(jì)問(wèn)題。在實(shí)際調(diào)查中,研究人員經(jīng)常面臨一些調(diào)查單元既存在無(wú)回答又有計(jì)量誤差的情況。Tiwari等(2023)[7]討論了無(wú)回答和計(jì)量誤差疊加時(shí)有限總體均值的估計(jì)問(wèn)題。
輔助變量在抽樣調(diào)查中起著關(guān)鍵作用,恰當(dāng)使用輔助信息能有效提高總體參數(shù)估計(jì)的準(zhǔn)確性。使用輔助變量估計(jì)方差的技術(shù)最早由Das(1978)[8]提出,他重點(diǎn)討論了已知輔助變量變異系數(shù)情況下的方差估計(jì)。隨后Isaki(1983)[9]又將這一技術(shù)進(jìn)行推廣,探討了當(dāng)研究變量和輔助變量線性相關(guān)時(shí)總體方差的比率估計(jì)問(wèn)題。當(dāng)輔助信息可用時(shí),總體參數(shù)的校準(zhǔn)估計(jì)方法也被廣泛應(yīng)用于抽樣調(diào)查。自Deville 和Sarndal(1992)[10]首次提出校準(zhǔn)估計(jì)方法以來(lái),該方法已成為統(tǒng)計(jì)學(xué)研究的一個(gè)重要課題。Tracy 等(2003)[11]、Singh 等(2020)[12]利用校準(zhǔn)估計(jì),提出了不同抽樣設(shè)計(jì)下總體參數(shù)的校準(zhǔn)估計(jì)量。Plikusas 和Pumputis(2007)[13]將校準(zhǔn)估計(jì)的思想應(yīng)用到總體協(xié)方差估計(jì)中,得到了不同約束條件下總體協(xié)方差的校準(zhǔn)估計(jì)量。
本文考慮了無(wú)回答和計(jì)量誤差疊加存在時(shí)有限總體方差的估計(jì),并基于校準(zhǔn)估計(jì)方法提出了分層隨機(jī)抽樣中方差的校準(zhǔn)估計(jì)策略。在數(shù)值分析方面,從模擬和真實(shí)數(shù)據(jù)兩個(gè)方面對(duì)所提校準(zhǔn)估計(jì)量的性能進(jìn)行了檢驗(yàn)。
考慮一個(gè)容量為N的有限總體U,U={U1,U2,…,UN},現(xiàn)按照一定的標(biāo)準(zhǔn)對(duì)總體U進(jìn)行分層,將其劃分為L(zhǎng)個(gè)互不相交的層,使得,h=1,2,…,L。設(shè)Y為研究變量,X、Rx分別為第一、第二輔助變量,其中,Rx為輔助變量X的秩。
本文采用無(wú)放回簡(jiǎn)單隨機(jī)抽樣方法(SRSWOR),抽樣分兩個(gè)階段進(jìn)行。第一階段:先從第h層的總體Nh中抽取容量為nh的簡(jiǎn)單隨機(jī)樣本,且各層間的抽樣均相互獨(dú)立;再將每層得到的樣本組合為一個(gè)新樣本,稱(chēng)該樣本為初始樣本,記為Snh,h=1,2,…,L。設(shè)在第一階段的nh個(gè)樣本中,共有r1h個(gè)單元發(fā)生無(wú)回答。第二階段:從初始樣本Snh提供回答的部分中進(jìn)行抽樣,同樣利用SRSWOR方法抽取一個(gè)容量為mh的樣本,記為Smh。設(shè)在第二階段的mh個(gè)樣本中,共有r2h個(gè)單元發(fā)生無(wú)回答。
本文中所用到的一些符號(hào)及其含義如下:
:研究變量Y對(duì)應(yīng)的總體方差。
:第h層的校準(zhǔn)權(quán)重,h=1,2,…,L。
Qh:第h層的獨(dú)立權(quán)重,h=1,2,…,L。
考慮第h層的情況:在第一階段容量為nh的初始樣本Snh中,設(shè)r1h表示由于隨機(jī)無(wú)回答而無(wú)法獲得信息的抽樣單元數(shù),則r1h可能的取值為0,1,2,…,nh-2。同理,設(shè)r2h為第二階段容量為mh的樣本Smh中發(fā)生無(wú)回答的抽樣單元數(shù),則r2h可能的取值為0,1,2,…,mh-2,且0 ≤r1h≤nh-2,0 ≤r2h≤mh-1。假設(shè)p1和p2分別表示nh-2 和mh-2 個(gè)可能值中發(fā)生無(wú)回答的概率,則r1h和r2h均為離散型隨機(jī)變量,他們服從如下概率分布[3]:
其中,q1=1-p1,q2=1-p2。
在本文中,假設(shè)無(wú)回答和計(jì)量誤差僅存在于研究變量Y和輔助變量X之間,而不存在于研究變量Y和輔助變量的秩Rx之間。Singh等(2020)[12]給出了分層隨機(jī)抽樣設(shè)計(jì)下有限總體方差的校準(zhǔn)估計(jì)方法,其校準(zhǔn)估計(jì)量的一般形式如下:
基于上述討論,本文提出了一種改進(jìn)的校準(zhǔn)估計(jì)量:
其中,是在新校準(zhǔn)約束條件下最小化卡方距離得到的校準(zhǔn)權(quán)重。
考慮各層估計(jì)量的一個(gè)復(fù)合類(lèi)Th,
使得對(duì)函數(shù)g,成立。
在分層隨機(jī)抽樣中,校準(zhǔn)估計(jì)方法主要用于獲得最優(yōu)層權(quán)。為了得到合理的校準(zhǔn)權(quán)重,要保證校準(zhǔn)權(quán)重與原始權(quán)重Wh盡可能地接近。因此,需要建立校準(zhǔn)權(quán)重與原始權(quán)重Wh之間的距離函數(shù)關(guān)系,一般選擇比較簡(jiǎn)單的卡方距離作為兩個(gè)權(quán)重之間的距離函數(shù)。在校準(zhǔn)估計(jì)中,最小化距離函數(shù)即為最優(yōu)化目標(biāo)函數(shù),拉格朗日乘數(shù)法是經(jīng)常被用來(lái)求解最優(yōu)化問(wèn)題的一種方法。即要使卡方距離在校準(zhǔn)約束條件下達(dá)到最小值。
本文用拉格朗日乘數(shù)法求解,結(jié)合卡方距離函數(shù)和校準(zhǔn)約束條件,構(gòu)造最優(yōu)化問(wèn)題的拉格朗日函數(shù)如下:
其中,λ1,λ2,λ3為拉格朗日乘子。
對(duì)式(3)兩邊關(guān)于求偏導(dǎo),得:
將式(5)中的解代入校準(zhǔn)約束條件中,根據(jù)等式關(guān)系可計(jì)算得到對(duì)應(yīng)的拉格朗日乘子值為:
其中,det=aeh-af2-b2h+2bcf-c2e,det1=deh-df2-bgh+bif+cgf-cie,det2=agh-aif-bdh+cdf+bci-c2g,det3=aei-agf-b2i+bcg+bdf-cde。
常數(shù)a,b,c,d,e,f,g,h,i定義如下:
將計(jì)算得到的拉格朗日乘子值λ1,λ2,λ3代入式(5)中,便可得到最終的校準(zhǔn)權(quán)重的值。
為了得到校準(zhǔn)估計(jì)量Tst(P)的偏差及其均方誤差MSE 的表達(dá)式,作如下變換:
其中,d1h,d2h,d3h,d4h為函數(shù)在點(diǎn)處的一階偏導(dǎo)數(shù);同理,d11h,d22h,d33h,d44h,d12h,d13h,d14h,d23h,d24h,d34h為函數(shù)在點(diǎn)處的二階偏導(dǎo)數(shù)。
為計(jì)算方便,此處附加一個(gè)約束條件:
現(xiàn)將式(7)至式(9)代入式(6),并用相對(duì)誤差eih,i=0,1,2,3 的形式表示式(6),可得:
將式(10)代入式(3),則校準(zhǔn)估計(jì)量Tst(P)可寫(xiě)為:
對(duì)式(11)作簡(jiǎn)單變換,然后兩邊同時(shí)取期望,得到校準(zhǔn)估計(jì)量Tst(P)的偏差為:
進(jìn)一步,得到一階近似下校準(zhǔn)估計(jì)量Tst(P)的MSE,其表達(dá)式如下:
對(duì)式(13)分別關(guān)于d2h,d4h求偏導(dǎo),并令其偏導(dǎo)數(shù)等于0,得到d2h,d4h的最優(yōu)解:
將式(14)代入式(13)中,得到Tst(P)最小的MSE:
令(xhi,yhi)和(Xhi,Yhi)分別為二元變量(X,Y)在第h層第i個(gè)單元對(duì)應(yīng)的觀測(cè)值和真實(shí)值,則研究變量Y與輔助變量X的計(jì)量誤差分別為Uhi=yhi-Yhi與Vhi=xhi-Xhi,且計(jì)量誤差Uhi與Vhi之間不相關(guān)。令、分別為研究變量Y、輔助變量X對(duì)應(yīng)的計(jì)量誤差的總體方差,可以得到當(dāng)計(jì)量誤差存在時(shí)估計(jì)量Tst(P)最小的MSE:
本文從模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)兩個(gè)方面對(duì)所提校準(zhǔn)估計(jì)量Tst(P)與現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)的性能進(jìn)行比較。
在統(tǒng)計(jì)軟件R 中進(jìn)行模擬研究,對(duì)估計(jì)量的估計(jì)效果進(jìn)行對(duì)比分析。將校準(zhǔn)權(quán)重Ωh代入式(1),通過(guò)計(jì)算分別得到不存在和存在計(jì)量誤差兩種情形下估計(jì)量Tst(S)最小的MSE:
本文使用估計(jì)量的百分比相對(duì)效率(PRE)作為估計(jì)量的評(píng)價(jià)指標(biāo):
模擬數(shù)據(jù)中的總體參數(shù)說(shuō)明見(jiàn)表1。為了使模擬過(guò)程順利實(shí)施,本文采用了Singh 軟件包中MASS 中的函數(shù)mvrnorm 生成服從正態(tài)分布的數(shù)據(jù)[12]。對(duì)于不同的控制參數(shù)Qh,在R 中進(jìn)行1000 次循環(huán),控制參數(shù)Qh的取值有六種情形。情形1:Qh=1.0。情形2:情形3:Qh=。情形4:Qh=。情形5:Qh=。情形6:Qh=。
表1 總體參數(shù)說(shuō)明
對(duì)于隨機(jī)無(wú)回答的概率p1和p2,令他們分別取0.05、0.10、0.15 和0.20 四個(gè)值。下頁(yè)表2 和表3 分別給出了校準(zhǔn)前后的權(quán)重和PRE的模擬結(jié)果。
表2 模擬數(shù)據(jù)下校準(zhǔn)前后權(quán)重對(duì)比
表3 模擬數(shù)據(jù)下的PRE結(jié)果
為研究校準(zhǔn)估計(jì)量的實(shí)際應(yīng)用性能,考慮一個(gè)真實(shí)數(shù)據(jù)集。為了盡可能準(zhǔn)確地估計(jì)總體方差,本文有意考慮研究變量中某些數(shù)據(jù)的缺失,真實(shí)數(shù)據(jù)的總體參數(shù)情況仍然在表1中給出。
用于數(shù)值研究的總體來(lái)源于文獻(xiàn)[14]。數(shù)據(jù)可在R軟件的faraway軟件包中的prostate文件中獲得。
根據(jù)控制參數(shù)Qh,分別在不存在計(jì)量誤差和存在計(jì)量誤差兩種情況下取不同值,真實(shí)數(shù)據(jù)在校準(zhǔn)前后的權(quán)重和PRE分別在表4和下頁(yè)表5中給出。
表4 真實(shí)數(shù)據(jù)下校準(zhǔn)前后權(quán)重對(duì)比
綜合表2至表5的結(jié)果,可以看出:
(1)從表2和表4可以看出,使用校準(zhǔn)方法得到的權(quán)重與原始權(quán)重非常接近。這表明校準(zhǔn)技術(shù)可以有效地優(yōu)化權(quán)重,提高校準(zhǔn)估計(jì)量的估計(jì)精度。此外,從表3 和表5可以看出,對(duì)于每個(gè)控制參數(shù)Qh,本文提出的校準(zhǔn)估計(jì)量Tst(P)總是比Singh的校準(zhǔn)估計(jì)量Tst(S)更有效。且對(duì)于無(wú)回答的概率p1,p2而言,當(dāng)p1,p2∈(0.05,0.10) 時(shí),校準(zhǔn)估計(jì)量最有效。
(2)無(wú)論是模擬數(shù)據(jù)還是真實(shí)數(shù)據(jù),存在計(jì)量誤差的PRE都小于不存在計(jì)量誤差的PRE。從表5還可以看出,在分層隨機(jī)抽樣下,無(wú)論Qh取何值,本文所提校準(zhǔn)估計(jì)量Tst(P)在存在計(jì)量誤差和不存在計(jì)量誤差兩種情況下,都優(yōu)于現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)。
本文關(guān)注的是無(wú)回答和計(jì)量誤差疊加存在時(shí)分層隨機(jī)抽樣中有限總體方差的估計(jì)問(wèn)題。通過(guò)模擬分析和實(shí)際數(shù)據(jù)的應(yīng)用研究可以發(fā)現(xiàn),本文所提出的校準(zhǔn)估計(jì)量Tst(P)在最小化非抽樣誤差的負(fù)面影響方面總是比現(xiàn)有校準(zhǔn)估計(jì)量Tst(S)更有效。
在非抽樣誤差和總體方差估計(jì)方面,還存在一些重要的問(wèn)題值得考慮:(1)本文僅考慮了分層隨機(jī)抽樣中無(wú)回答和計(jì)量誤差同時(shí)存在時(shí)有限總體方差的估計(jì),除分層隨機(jī)抽樣外,還可以考慮更多的抽樣設(shè)計(jì)。(2)受模擬結(jié)果的啟發(fā),同時(shí)也考慮到處理非抽樣誤差問(wèn)題的重要性,可以鼓勵(lì)統(tǒng)計(jì)調(diào)查人員適當(dāng)使用本文提出的校準(zhǔn)估計(jì)量,將其應(yīng)用于社會(huì)經(jīng)濟(jì)調(diào)查中。例如:估計(jì)社會(huì)不同階層在節(jié)假日的開(kāi)支變化,估計(jì)全國(guó)不同地區(qū)婦女的收入變化,等等。