国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種隨機選擇的擾動隨機化回答技術

2010-05-18 08:03洪志敏閆在在魏利東
統(tǒng)計與決策 2010年10期
關鍵詞:調(diào)查者估計量被調(diào)查者

洪志敏 ,閆在在 ,韓 英 ,魏利東

(1.內(nèi)蒙古工業(yè)大學 理學院數(shù)學系,呼和浩特 010051;2.內(nèi)蒙古呼和浩特統(tǒng)計局城鄉(xiāng)社會經(jīng)濟抽樣調(diào)查隊,呼和浩特 010023)

0 引言

在當今的社會調(diào)查中,我們常常會遇到許多關于敏感性問題的調(diào)查,如未婚女子的墮胎次數(shù)、是否吸毒、家庭收入的多少等等。對于這些問題的調(diào)查,如果采用直接調(diào)查的方法,出于對自身隱私的保護,被調(diào)查者可能拒絕或作出不真實回答。為了使被調(diào)查者配合調(diào)查,Waner[1]1965年首先引入了敏感性問題的隨機化調(diào)查方法,揭開了隨機化調(diào)查的序幕。之后 Simmons[2](1967)、Mangat[3][4](1990,1994)、Kuk[5](1990)、Singh[6](2002)等一些學者進一步發(fā)展了隨機化回答技術。這些學者提出的調(diào)查方法解決的是定性敏感性問題的調(diào)查,即估計總體中具有敏感特征個體所占的比例。對于定量敏感性問題的研 究 ,Greenberg[7][8](1969,1971)、Eichhorn 和 Hayre[9](1983)、Gupta[10](2002)、Bar_Lev[11](2004)等提出了一些可供選擇的隨機化調(diào)查方法。

設X表示對定量敏感問題的回答值,S表示一個與X相互獨立的正的隨機數(shù),且S的均值與方差已知,分別記為θ,γ2?;卮鹫咚a(chǎn)生的回答是敏感變量X與隨機數(shù)S的乘積。調(diào)查者最終收集到的是個體關于敏感指標的擾動回答。樣本中的每一個個體使用某種隨機化裝置產(chǎn)生一個隨機數(shù)S,調(diào)查者不知道被調(diào)查者產(chǎn)生的隨機數(shù)S。這里隨機數(shù)S被EH稱為擾動隨機變量。使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本,則樣本中的第i個個體報告的回答值為zi=xisi,樣本均值為E-ichhorn和Hayre(1983)對總體的敏感指標X的均值給出一個如下的無偏估計量:

方差為:

2002年,Gupta等人在Eichhorn和Hayre(1983)擾動回答模型的基礎上給出一種可選擇的隨機化調(diào)查技術,在此模型下,每個個體選擇如下兩類問題中的一類:

(1)回答者報告敏感指標真值:

(2)回答者報告擾動回答XS,其中S為事先產(chǎn)生的與X相互獨立的擾動隨機數(shù)。且滿足E(S)=θ=1。調(diào)查者收集到的關于敏感指標X的擾動回答是Z=XSW,其中W為示性隨機變量,即令P0為個體報告擾動回答的概率,則E(W)=P0。調(diào)查者根據(jù)所調(diào)查問題的敏感程度來選擇設計參數(shù)的P0值。如果所調(diào)查的問題較為敏感,此時人們傾向于使用擾動回答,則調(diào)查者會選擇一個較大的值。如果問題是非常不敏感的,此時人們傾向于作直接回答,則調(diào)查者會選擇一個很小的設計參數(shù)。容量為n的簡單隨機有放回樣本(SRSWR)中的第i個個體報告的回答值為

方差為:

Bar-Lev,Bobovitch和Boukai2004年給出一種改進的擾動回答模型,設X是所要調(diào)查的定量敏感指標,Y是一個分布已知的擾動隨機變量,X與Y相互獨立,P0是調(diào)查裝置設計參數(shù)。

被調(diào)查者遵循如下的隨機化回答原則:Z=XSW其中W為示性隨機變量,即令P0為個體報告擾動回答的概率,則 E(W)=P0。其中 E(S)=θ,V(S)=γ2為已知。使用簡單隨機有放回抽樣(SRSWR)的方法從容量為N的總體中抽取容量為n的簡單隨機樣本,樣本中n個個體給出的隨機化回答值為Bar-Lev 等給出的敏感指標均值的無偏估計量為:

在所有的隨機化回答技術中,個體參與調(diào)查的合作程度均依賴于調(diào)查裝置對個體作出回答的保密程度,裝置對個體隱私的保密性越好,個體越容易配合調(diào)查。另一方面,如果裝置對個體的保護程度提高了,那么裝置的調(diào)查效率就會降低。因此裝置對個體的保護度與裝置的調(diào)查效率之間存在著不可調(diào)和的矛盾。為了在保護度與效率之間建立一種合理的平衡,已有很多學者[12~14]在這方面作出了研究。

1 模型構造

在使用已有模型進行隨機化調(diào)查時,裝置的設計參數(shù)p0是調(diào)查者根據(jù)所調(diào)查問題的敏感程度事先確定的。因此個體仍然擔心自身的隱私會被暴露,在作出回答時心存疑慮。本文在已有隨機化模型的基礎上給出一種隨機選擇的擾動回答模型,給出的模型不僅可以提高個體參與敏感問題調(diào)查的積極性,且在調(diào)查效率上也有所得益。

在本文提出的調(diào)查裝置中,裝置設計參數(shù)p不是事先確定的,而是由被調(diào)查者隨機產(chǎn)生且不為調(diào)查者所知的,僅p的分布是已知的。在調(diào)查之前由第一位被調(diào)查者根據(jù)p的分布隨機產(chǎn)生一個設計參數(shù)p*,剩余的被調(diào)查者均使用這個隨機設計參數(shù)p*,下面我們給出具體的隨機回答模型。

使用簡單隨機有放回抽樣(SRSWR)方法從總量為N的總體中抽取容量為n的樣本個體,第一個樣本個體使用某種隨機化裝置(計算機,帶有時針的圓盤等)產(chǎn)生一個分布已知的隨機設計參數(shù)p*,概率分布為f(p)。剩下的n-1個個體均使用第一個個體產(chǎn)生的隨機設計參數(shù)p*。樣本個體報告的回答值為

令E1,V1表示對p*的隨機性求期望和方差;E2,V2表示固定p*值對抽樣的隨機性求期望和方差;E3,V3表示固定P*值對回答的隨機性求期望和方差。樣本個體報告的回答值zi的期望為 E(zi)=E1E2E3(zi)=E1E2(p*xi+(1-p*)xi)=E1E2(xi)=μx,則本文模型提出的對μx的一個無偏估計量為:

其中f(p)(a<p<b)為設計參數(shù)p*的概率密度函數(shù)。

2 估計量的效率

選擇p*的不同概率密度函數(shù)f(p),對應著估計量μ^4的不同效率。這里我們選擇f(p)為如下兩種形式對估計量μ^4的效率進行討論,對于f(p)的其他選擇會有類似的討論。

根據(jù)定義(7)式有如下結論:

定理3 根據(jù)(9)式來定義p*的概率密度函數(shù)f(p),估計量的方差為:

在Gupta(2002)模型中,對于任意的調(diào)查設計參數(shù)0<p0<1有如下結論成立:

推論 1 取 a=p0(1-g),b=p0,0<g<1,0<p0<1,則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。這里也可以選擇其他合理的a和b的值使得本文提出模型優(yōu)于Gupta(2002)模型。

根據(jù)定義(8)式有如下結論:

定理4 根據(jù)(10)式來定義p*的概率密度函數(shù)f(p),估計量的方差為:

推論 2 取 α=gp0,β=1-α,0<g<1,0<p0<1,則本文所提出的調(diào)查模型在效率上優(yōu)于Gupta(2002)模型。在這種情形下,我們也可以選擇其他恰當?shù)摩梁挺轮祦慝@得更高的調(diào)查精度。

由以上的結論可以得出,本文給出的估計量μ^4在精度上要優(yōu)于Gupta(2002)模型中給出估計量的精度。另一方面,由于本文給出調(diào)查模型的設計參數(shù)是隨機產(chǎn)生的,調(diào)查者并不知道被調(diào)查者使用的是哪一個設計參數(shù)的回答模型,即調(diào)查者不知道被調(diào)查個體是以多大的概率給出擾動回答,因此,模型在很大程度上保護了個體的隱私,從而提升了個體參與調(diào)查的積極性。

3 結論

在Gupta(2002)模型中,假定擾動變量的總體均值為1,即E(S)=1,這簡化了估計量及其性質(zhì)的理論推導,但對估計量的精度也產(chǎn)生了影響。本文給出的隨機化模型擾動變量的總體均值可以不為1,這并沒有使估計量及其性質(zhì)的理論推導復雜化。本文提出的隨機選擇的擾動回答模型無論是在調(diào)查精度上還是在對個體隱私的保護上都是一種可供選擇的調(diào)查模型。

[1]Warner S L.Randomized Response:A Survey Technique for E-liminating Evasive Answer Bias[J].J.Amer.Statist.Assoc.,1965,(60).

[2]Horvitz D G,Shah B V,Simmons W R.The Unrelated Question Randomized Response Model[C].Proceeding of the Social Stat.Sec.Amer.Stat.1967.

[3]Mangat N S,Ravindra Singh.An Alternative Randomized Re-Sponse Procedure[J].Biometrika,1990,(77).

[4]Mangat N S.An Improved Randomized Response Strategy[J].R Statist Soc.1994,(56).

[5]Anthony KUK YC.Asking Sensitive QuestionsIndirectly[J].Biometrika,1990,(77).

[6]Sarjinder Singh.A New Stochastic Randomized Response Modle[J].Metrika,2002,(56).

[7]Greenberg B G,Abul-Ela E L A.The Unrelated Question Randomized Response Model:Theoretical Framework[J].Amer.Stat.Assoc,1969,(64).

[8]Greenberg B G,Kuebler R R,Abernathy J R,Horvitz D G.Application of the Randomized Response Technique in Obtaining Quantitative Data[J].Amer.Statist.Assoc,1971,(66).

[9]Eichhorn B H,Hayre L S.Scrambled Randomized Response Methods for Obtaining Sensitive Quantitative Data[J].J.of Statistical Planning and Inference,1983,(7).

[10]Gupta S,Gupta B,Singh S.Estimation of Sensitivity Level of Personal Interview Survey Questions[J].Statist.Plann.Infer.,2002,(100).

[11]Bar-Lev S K,Bobovitch E,Boukai B.A Note on Randomized Response Models for Quan-titative Data[J].Metrika,2004,(60).

[12]Hong Zhimin.Estimation of Mean in Randomized Response Surveys when Answers are Incompletely Truthful[J].Model Assisted Statistics and Applications,2006,(1).

[13]閆在在,聶贊坎.隨機化策略的公平比較[J].數(shù)學物理學報,2004,(24).

[14]洪志敏,閆在在.基于相同保護度的隨機化裝置效率比較[J].工程數(shù)學學報,2008,(25).

猜你喜歡
調(diào)查者估計量被調(diào)查者
一個可供選擇的全隨機化模型
最小二乘估計量優(yōu)于工具變量估計量的一個充分條件
慢性腎衰竭合并冠心病患者血漿氧化型低密度脂蛋白水平變化及臨床意義
淺談估計量的優(yōu)良性標準
九成人認為作風有改進
多個行業(yè)維權成本分項調(diào)查顯示
——食品餐飲 醫(yī)療衛(wèi)生 互聯(lián)網(wǎng)金融維權成本最高
余姚市民幸福感民意調(diào)查分析
德國網(wǎng)購家具業(yè)務增長
正態(tài)總體方差和標準差的無偏估計
使用變異系數(shù)和Kurtosis系數(shù)的雙輔助變量的比估計