洪志敏 ,閆在在 ,韓 英 ,魏利東
(1.內(nèi)蒙古工業(yè)大學 理學院數(shù)學系,呼和浩特 010051;2.內(nèi)蒙古呼和浩特統(tǒng)計局城鄉(xiāng)社會經(jīng)濟抽樣調(diào)查隊,呼和浩特 010023)
在當今的社會調(diào)查中,我們常常會遇到許多關于敏感性問題的調(diào)查,如未婚女子的墮胎次數(shù)、是否吸毒、家庭收入的多少等等。對于這些問題的調(diào)查,如果采用直接調(diào)查的方法,出于對自身隱私的保護,被調(diào)查者可能拒絕或作出不真實回答。為了使被調(diào)查者配合調(diào)查,Waner[1]1965年首先引入了敏感性問題的隨機化調(diào)查方法,揭開了隨機化調(diào)查的序幕。之后 Simmons[2](1967)、Mangat[3][4](1990,1994)、Kuk[5](1990)、Singh[6](2002)等一些學者進一步發(fā)展了隨機化回答技術。這些學者提出的調(diào)查方法解決的是定性敏感性問題的調(diào)查,即估計總體中具有敏感特征個體所占的比例。對于定量敏感性問題的研 究 ,Greenberg[7][8](1969,1971)、Eichhorn 和 Hayre[9](1983)、Gupta[10](2002)、Bar_Lev[11](2004)等提出了一些可供選擇的隨機化調(diào)查方法。
設X表示對定量敏感問題的回答值,S表示一個與X相互獨立的正的隨機數(shù),且S的均值與方差已知,分別記為θ,γ2?;卮鹫咚a(chǎn)生的回答是敏感變量X與隨機數(shù)S的乘積。調(diào)查者最終收集到的是個體關于敏感指標的擾動回答。樣本中的每一個個體使用某種隨機化裝置產(chǎn)生一個隨機數(shù)S,調(diào)查者不知道被調(diào)查者產(chǎn)生的隨機數(shù)S。這里隨機數(shù)S被EH稱為擾動隨機變量。使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本,則樣本中的第i個個體報告的回答值為zi=xisi,樣本均值為E-ichhorn和Hayre(1983)對總體的敏感指標X的均值給出一個如下的無偏估計量:
方差為:
2002年,Gupta等人在Eichhorn和Hayre(1983)擾動回答模型的基礎上給出一種可選擇的隨機化調(diào)查技術,在此模型下,每個個體選擇如下兩類問題中的一類:
(1)回答者報告敏感指標真值:
(2)回答者報告擾動回答XS,其中S為事先產(chǎn)生的與X相互獨立的擾動隨機數(shù)。且滿足E(S)=θ=1。調(diào)查者收集到的關于敏感指標X的擾動回答是Z=XSW,其中W為示性隨機變量,即令P0為個體報告擾動回答的概率,則E(W)=P0。調(diào)查者根據(jù)所調(diào)查問題的敏感程度來選擇設計參數(shù)的P0值。如果所調(diào)查的問題較為敏感,此時人們傾向于使用擾動回答,則調(diào)查者會選擇一個較大的值。如果問題是非常不敏感的,此時人們傾向于作直接回答,則調(diào)查者會選擇一個很小的設計參數(shù)。容量為n的簡單隨機有放回樣本(SRSWR)中的第i個個體報告的回答值為
方差為:
Bar-Lev,Bobovitch和Boukai2004年給出一種改進的擾動回答模型,設X是所要調(diào)查的定量敏感指標,Y是一個分布已知的擾動隨機變量,X與Y相互獨立,P0是調(diào)查裝置設計參數(shù)。
被調(diào)查者遵循如下的隨機化回答原則:Z=XSW其中W為示性隨機變量,即令P0為個體報告擾動回答的概率,則 E(W)=P0。其中 E(S)=θ,V(S)=γ2為已知。使用簡單隨機有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡單隨機樣本,樣本中n個個體給出的隨機化回答值為Bar-Lev 等給出的敏感指標均值的無偏估計量為:
在所有的隨機化回答技術中,個體參與調(diào)查的合作程度均依賴于調(diào)查裝置對個體作出回答的保密程度,裝置對個體隱私的保密性越好,個體越容易配合調(diào)查。另一方面,如果裝置對個體的保護程度提高了,那么裝置的調(diào)查效率就會降低。因此裝置對個體的保護度與裝置的調(diào)查效率之間存在著不可調(diào)和的矛盾。為了在保護度與效率之間建立一種合理的平衡,已有很多學者[12~14]在這方面作出了研究。
在使用已有模型進行隨機化調(diào)查時,裝置的設計參數(shù)p0是調(diào)查者根據(jù)所調(diào)查問題的敏感程度事先確定的。因此個體仍然擔心自身的隱私會被暴露,在作出回答時心存疑慮。本文在已有隨機化模型的基礎上給出一種隨機選擇的擾動回答模型,給出的模型不僅可以提高個體參與敏感問題調(diào)查的積極性,且在調(diào)查效率上也有所得益。
在本文提出的調(diào)查裝置中,裝置設計參數(shù)p不是事先確定的,而是由被調(diào)查者隨機產(chǎn)生且不為調(diào)查者所知的,僅p的分布是已知的。在調(diào)查之前由第一位被調(diào)查者根據(jù)p的分布隨機產(chǎn)生一個設計參數(shù)p*,剩余的被調(diào)查者均使用這個隨機設計參數(shù)p*,下面我們給出具體的隨機回答模型。
使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本個體,第一個樣本個體使用某種隨機化裝置(計算機,帶有時針的圓盤等)產(chǎn)生一個分布已知的隨機設計參數(shù)p*,概率分布為f(p)。剩下的n-1個個體均使用第一個個體產(chǎn)生的隨機設計參數(shù)p*。樣本個體報告的回答值為
令E1,V1表示對p*的隨機性求期望和方差;E2,V2表示固定p*值對抽樣的隨機性求期望和方差;E3,V3表示固定P*值對回答的隨機性求期望和方差。樣本個體報告的回答值zi的期望為 E(zi)=E1E2E3(zi)=E1E2(p*xi+(1-p*)xi)=E1E2(xi)=μx,則本文模型提出的對μx的一個無偏估計量為:
其中f(p)(a<p<b)為設計參數(shù)p*的概率密度函數(shù)。
選擇p*的不同概率密度函數(shù)f(p),對應著估計量μ^4的不同效率。這里我們選擇f(p)為如下兩種形式對估計量μ^4的效率進行討論,對于f(p)的其他選擇會有類似的討論。
根據(jù)定義(7)式有如下結論:
定理3 根據(jù)(9)式來定義p*的概率密度函數(shù)f(p),估計量的方差為:
在Gupta(2002)模型中,對于任意的調(diào)查設計參數(shù)0<p0<1有如下結論成立:
推論 1 取 a=p0(1-g),b=p0,0<g<1,0<p0<1,則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。這里也可以選擇其他合理的a和b的值使得本文提出模型優(yōu)于Gupta(2002)模型。
根據(jù)定義(8)式有如下結論:
定理4 根據(jù)(10)式來定義p*的概率密度函數(shù)f(p),估計量的方差為:
推論 2 取 α=gp0,β=1-α,0<g<1,0<p0<1,則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。在這種情形下,我們也可以選擇其他恰當?shù)摩梁挺轮祦慝@得更高的調(diào)查精度。
由以上的結論可以得出,本文給出的估計量μ^4在精度上要優(yōu)于Gupta(2002)模型中給出估計量的精度。另一方面,由于本文給出調(diào)查模型的設計參數(shù)是隨機產(chǎn)生的,調(diào)查者并不知道被調(diào)查者使用的是哪一個設計參數(shù)的回答模型,即調(diào)查者不知道被調(diào)查個體是以多大的概率給出擾動回答,因此,模型在很大程度上保護了個體的隱私,從而提升了個體參與調(diào)查的積極性。
在Gupta(2002)模型中,假定擾動變量的總體均值為1,即E(S)=1,這簡化了估計量及其性質(zhì)的理論推導,但對估計量的精度也產(chǎn)生了影響。本文給出的隨機化模型擾動變量的總體均值可以不為1,這并沒有使估計量及其性質(zhì)的理論推導復雜化。本文提出的隨機選擇的擾動回答模型無論是在調(diào)查精度上還是在對個體隱私的保護上都是一種可供選擇的調(diào)查模型。
[1]Warner S L.Randomized Response:A Survey Technique for E-liminating Evasive Answer Bias[J].J.Amer.Statist.Assoc.,1965,(60).
[2]Horvitz D G,Shah B V,Simmons W R.The Unrelated Question Randomized Response Model[C].Proceeding of the Social Stat.Sec.Amer.Stat.1967.
[3]Mangat N S,Ravindra Singh.An Alternative Randomized Re-Sponse Procedure[J].Biometrika,1990,(77).
[4]Mangat N S.An Improved Randomized Response Strategy[J].R Statist Soc.1994,(56).
[5]Anthony KUK YC.Asking Sensitive QuestionsIndirectly[J].Biometrika,1990,(77).
[6]Sarjinder Singh.A New Stochastic Randomized Response Modle[J].Metrika,2002,(56).
[7]Greenberg B G,Abul-Ela E L A.The Unrelated Question Randomized Response Model:Theoretical Framework[J].Amer.Stat.Assoc,1969,(64).
[8]Greenberg B G,Kuebler R R,Abernathy J R,Horvitz D G.Application of the Randomized Response Technique in Obtaining Quantitative Data[J].Amer.Statist.Assoc,1971,(66).
[9]Eichhorn B H,Hayre L S.Scrambled Randomized Response Methods for Obtaining Sensitive Quantitative Data[J].J.of Statistical Planning and Inference,1983,(7).
[10]Gupta S,Gupta B,Singh S.Estimation of Sensitivity Level of Personal Interview Survey Questions[J].Statist.Plann.Infer.,2002,(100).
[11]Bar-Lev S K,Bobovitch E,Boukai B.A Note on Randomized Response Models for Quan-titative Data[J].Metrika,2004,(60).
[12]Hong Zhimin.Estimation of Mean in Randomized Response Surveys when Answers are Incompletely Truthful[J].Model Assisted Statistics and Applications,2006,(1).
[13]閆在在,聶贊坎.隨機化策略的公平比較[J].數(shù)學物理學報,2004,(24).
[14]洪志敏,閆在在.基于相同保護度的隨機化裝置效率比較[J].工程數(shù)學學報,2008,(25).