一種隨機選擇的擾動隨機化回答技術

2010-05-18 08:03洪志敏閆在在魏利東

統(tǒng)計與決策 2010年10期

洪志敏，閆在在，韓英，魏利東

（1.內(nèi)蒙古工業(yè)大學理學院數(shù)學系，呼和浩特 010051；2.內(nèi)蒙古呼和浩特統(tǒng)計局城鄉(xiāng)社會經(jīng)濟抽樣調(diào)查隊，呼和浩特 010023）

0 引言

在當今的社會調(diào)查中，我們常常會遇到許多關于敏感性問題的調(diào)查，如未婚女子的墮胎次數(shù)、是否吸毒、家庭收入的多少等等。對于這些問題的調(diào)查，如果采用直接調(diào)查的方法，出于對自身隱私的保護，被調(diào)查者可能拒絕或作出不真實回答。為了使被調(diào)查者配合調(diào)查，Waner[1]1965年首先引入了敏感性問題的隨機化調(diào)查方法，揭開了隨機化調(diào)查的序幕。之后 Simmons[2](1967)、Mangat[3][4](1990,1994)、Kuk[5](1990)、Singh[6](2002)等一些學者進一步發(fā)展了隨機化回答技術。這些學者提出的調(diào)查方法解決的是定性敏感性問題的調(diào)查，即估計總體中具有敏感特征個體所占的比例。對于定量敏感性問題的研究，Greenberg[7][8](1969,1971)、Eichhorn 和 Hayre[9](1983)、Gupta[10](2002)、Bar_Lev[11](2004)等提出了一些可供選擇的隨機化調(diào)查方法。

設X表示對定量敏感問題的回答值，S表示一個與X相互獨立的正的隨機數(shù)，且S的均值與方差已知，分別記為θ，γ2?；卮鹫咚a(chǎn)生的回答是敏感變量X與隨機數(shù)S的乘積。調(diào)查者最終收集到的是個體關于敏感指標的擾動回答。樣本中的每一個個體使用某種隨機化裝置產(chǎn)生一個隨機數(shù)S，調(diào)查者不知道被調(diào)查者產(chǎn)生的隨機數(shù)S。這里隨機數(shù)S被EH稱為擾動隨機變量。使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本，則樣本中的第i個個體報告的回答值為zi=xisi,樣本均值為E-ichhorn和Hayre(1983)對總體的敏感指標X的均值給出一個如下的無偏估計量：

方差為：

2002年，Gupta等人在Eichhorn和Hayre(1983)擾動回答模型的基礎上給出一種可選擇的隨機化調(diào)查技術，在此模型下，每個個體選擇如下兩類問題中的一類：

(1)回答者報告敏感指標真值：

(2)回答者報告擾動回答XS,其中S為事先產(chǎn)生的與X相互獨立的擾動隨機數(shù)。且滿足E(S)=θ=1。調(diào)查者收集到的關于敏感指標X的擾動回答是Z=XSW,其中W為示性隨機變量，即令P0為個體報告擾動回答的概率，則E(W)=P0。調(diào)查者根據(jù)所調(diào)查問題的敏感程度來選擇設計參數(shù)的P0值。如果所調(diào)查的問題較為敏感，此時人們傾向于使用擾動回答，則調(diào)查者會選擇一個較大的值。如果問題是非常不敏感的，此時人們傾向于作直接回答，則調(diào)查者會選擇一個很小的設計參數(shù)。容量為n的簡單隨機有放回樣本(SRSWR)中的第i個個體報告的回答值為

方差為：

Bar-Lev,Bobovitch和Boukai2004年給出一種改進的擾動回答模型，設X是所要調(diào)查的定量敏感指標，Y是一個分布已知的擾動隨機變量，X與Y相互獨立，P0是調(diào)查裝置設計參數(shù)。

被調(diào)查者遵循如下的隨機化回答原則：Z=XSW其中W為示性隨機變量，即令P0為個體報告擾動回答的概率，則 E（W）=P0。其中 E(S)=θ,V(S)=γ2為已知。使用簡單隨機有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡單隨機樣本，樣本中n個個體給出的隨機化回答值為Bar-Lev 等給出的敏感指標均值的無偏估計量為：

在所有的隨機化回答技術中，個體參與調(diào)查的合作程度均依賴于調(diào)查裝置對個體作出回答的保密程度，裝置對個體隱私的保密性越好，個體越容易配合調(diào)查。另一方面，如果裝置對個體的保護程度提高了，那么裝置的調(diào)查效率就會降低。因此裝置對個體的保護度與裝置的調(diào)查效率之間存在著不可調(diào)和的矛盾。為了在保護度與效率之間建立一種合理的平衡，已有很多學者[12～14]在這方面作出了研究。

1 模型構造

在使用已有模型進行隨機化調(diào)查時，裝置的設計參數(shù)p0是調(diào)查者根據(jù)所調(diào)查問題的敏感程度事先確定的。因此個體仍然擔心自身的隱私會被暴露，在作出回答時心存疑慮。本文在已有隨機化模型的基礎上給出一種隨機選擇的擾動回答模型，給出的模型不僅可以提高個體參與敏感問題調(diào)查的積極性，且在調(diào)查效率上也有所得益。

在本文提出的調(diào)查裝置中，裝置設計參數(shù)p不是事先確定的，而是由被調(diào)查者隨機產(chǎn)生且不為調(diào)查者所知的，僅p的分布是已知的。在調(diào)查之前由第一位被調(diào)查者根據(jù)p的分布隨機產(chǎn)生一個設計參數(shù)p*，剩余的被調(diào)查者均使用這個隨機設計參數(shù)p*，下面我們給出具體的隨機回答模型。

使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本個體，第一個樣本個體使用某種隨機化裝置(計算機，帶有時針的圓盤等)產(chǎn)生一個分布已知的隨機設計參數(shù)p*,概率分布為f(p)。剩下的n-1個個體均使用第一個個體產(chǎn)生的隨機設計參數(shù)p*。樣本個體報告的回答值為

令E1，V1表示對p*的隨機性求期望和方差；E2,V2表示固定p*值對抽樣的隨機性求期望和方差；E3,V3表示固定P*值對回答的隨機性求期望和方差。樣本個體報告的回答值zi的期望為 E(zi)=E1E2E3(zi)=E1E2(p*xi+(1-p*)xi)=E1E2(xi)=μx，則本文模型提出的對μx的一個無偏估計量為：

其中f(p)(a＜p＜b)為設計參數(shù)p*的概率密度函數(shù)。

2 估計量的效率

選擇p*的不同概率密度函數(shù)f(p)，對應著估計量μ^4的不同效率。這里我們選擇f(p)為如下兩種形式對估計量μ^4的效率進行討論，對于f(p)的其他選擇會有類似的討論。

根據(jù)定義(7)式有如下結論：

定理3 根據(jù)(9)式來定義p*的概率密度函數(shù)f(p)，估計量的方差為：

在Gupta(2002)模型中，對于任意的調(diào)查設計參數(shù)0＜p0＜1有如下結論成立：

推論 1 取 a=p0(1-g)，b=p0，0＜g＜1，0＜p0＜1，則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。這里也可以選擇其他合理的a和b的值使得本文提出模型優(yōu)于Gupta(2002)模型。

根據(jù)定義(8)式有如下結論：

定理4 根據(jù)(10)式來定義p*的概率密度函數(shù)f(p)，估計量的方差為：

推論 2 取 α=gp0，β=1-α，0＜g＜1，0＜p0＜1，則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。在這種情形下，我們也可以選擇其他恰當?shù)摩梁挺轮祦慝@得更高的調(diào)查精度。

由以上的結論可以得出，本文給出的估計量μ^4在精度上要優(yōu)于Gupta(2002)模型中給出估計量的精度。另一方面，由于本文給出調(diào)查模型的設計參數(shù)是隨機產(chǎn)生的，調(diào)查者并不知道被調(diào)查者使用的是哪一個設計參數(shù)的回答模型，即調(diào)查者不知道被調(diào)查個體是以多大的概率給出擾動回答，因此，模型在很大程度上保護了個體的隱私，從而提升了個體參與調(diào)查的積極性。

3 結論

在Gupta(2002)模型中，假定擾動變量的總體均值為1，即E(S)=1，這簡化了估計量及其性質(zhì)的理論推導，但對估計量的精度也產(chǎn)生了影響。本文給出的隨機化模型擾動變量的總體均值可以不為1，這并沒有使估計量及其性質(zhì)的理論推導復雜化。本文提出的隨機選擇的擾動回答模型無論是在調(diào)查精度上還是在對個體隱私的保護上都是一種可供選擇的調(diào)查模型。

[1]Warner S L.Randomized Response:A Survey Technique for E-liminating Evasive Answer Bias[J].J.Amer.Statist.Assoc.,1965,(60).

[2]Horvitz D G,Shah B V,Simmons W R.The Unrelated Question Randomized Response Model[C].Proceeding of the Social Stat.Sec.Amer.Stat.1967.

[3]Mangat N S,Ravindra Singh.An Alternative Randomized Re-Sponse Procedure[J].Biometrika,1990,(77).

[4]Mangat N S.An Improved Randomized Response Strategy[J].R Statist Soc.1994,(56).

[5]Anthony KUK YC.Asking Sensitive QuestionsIndirectly[J].Biometrika,1990,(77).

[6]Sarjinder Singh.A New Stochastic Randomized Response Modle[J].Metrika,2002,(56).

[7]Greenberg B G,Abul-Ela E L A.The Unrelated Question Randomized Response Model:Theoretical Framework[J].Amer.Stat.Assoc,1969,(64).

[8]Greenberg B G,Kuebler R R,Abernathy J R,Horvitz D G.Application of the Randomized Response Technique in Obtaining Quantitative Data[J].Amer.Statist.Assoc,1971,(66).

[9]Eichhorn B H,Hayre L S.Scrambled Randomized Response Methods for Obtaining Sensitive Quantitative Data[J].J.of Statistical Planning and Inference,1983,(7).

[10]Gupta S,Gupta B,Singh S.Estimation of Sensitivity Level of Personal Interview Survey Questions[J].Statist.Plann.Infer.,2002,(100).

[11]Bar-Lev S K,Bobovitch E,Boukai B.A Note on Randomized Response Models for Quan-titative Data[J].Metrika,2004,(60).

[12]Hong Zhimin.Estimation of Mean in Randomized Response Surveys when Answers are Incompletely Truthful[J].Model Assisted Statistics and Applications,2006,(1).

[13]閆在在，聶贊坎.隨機化策略的公平比較[J].數(shù)學物理學報，2004,(24).

[14]洪志敏，閆在在.基于相同保護度的隨機化裝置效率比較[J].工程數(shù)學學報,2008,(25).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種隨機選擇的擾動隨機化回答技術

0 引言

1 模型構造

2 估計量的效率

3 結論