国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分層抽樣下的變體平行模型及其實證研究

2019-08-23 01:16宋穎瀟
稅務(wù)與經(jīng)濟(jì) 2019年4期
關(guān)鍵詞:變體總體平行

呂 恕,宋穎瀟

(電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,四川 成都 611731)

一、引言

互聯(lián)網(wǎng)飛速發(fā)展的現(xiàn)代社會,充斥著復(fù)雜多變的信息,其中敏感性信息因涉及個人隱私,如吸毒、性取向等,其調(diào)查結(jié)果獲取的難度極大。針對敏感性問題調(diào)查發(fā)展起來的專業(yè)調(diào)查方法,主要有隨機(jī)化應(yīng)答技術(shù)和非隨機(jī)化應(yīng)答技術(shù),這些專業(yè)調(diào)查方法確保了受訪者在調(diào)查中的匿名性,提高了敏感性問題調(diào)查結(jié)果的有效性。其中非隨機(jī)化應(yīng)答技術(shù)不需要復(fù)雜的隨機(jī)化裝置,使調(diào)查更簡單便捷,還可與網(wǎng)絡(luò)調(diào)查相結(jié)合,這一特點打破了以往敏感問題專業(yè)調(diào)查技術(shù)只能面對面、一對一,調(diào)查結(jié)果回答率和真實回答率不高的缺點,擴(kuò)大了調(diào)查范圍、降低了調(diào)查成本、提高了調(diào)查效率。但非隨機(jī)化應(yīng)答技術(shù)尚處于發(fā)展中,其各個方面的研究都還不完善,實際應(yīng)用也不夠廣泛,因此對非隨機(jī)化應(yīng)答技術(shù)的研究還有待于進(jìn)一步深化。

非隨機(jī)化應(yīng)答技術(shù)是針對二項選擇屬性特征敏感問題的調(diào)查模型,即是否具有某種敏感特征。變體平行模型[1]是非隨機(jī)化應(yīng)答技術(shù)中應(yīng)用范圍最廣且最高效的模型,其既解決了三角模型和交叉模型[2]的局限問題——不能用于敏感問題中兩分類都敏感的情況(如吸毒三次以上和吸毒三次以下),也解決了平行模型[3]中受訪者非敏感性特征的比例不易得的問題(如喜歡吃辣的人群比例)。目前國內(nèi)外對于敏感問題調(diào)查中非隨機(jī)化應(yīng)答技術(shù)的應(yīng)用,大多限于小范圍特定群體小樣本的簡單隨機(jī)抽樣,即使遇到復(fù)雜樣本也只是利用簡單隨機(jī)抽樣下的非隨機(jī)化應(yīng)答技術(shù)進(jìn)行調(diào)查,導(dǎo)致調(diào)查結(jié)果出現(xiàn)較大誤差。[4]分層抽樣劃分了總體類別,增大了各個類別中樣本的共同性,抽取的樣本代表性更好,抽樣誤差較小,因此分層抽樣常常被用于樣本間差異較大或樣本較多的復(fù)雜情況。

本文將分層抽樣引進(jìn)變體平行模型中,對分層抽樣下變體平行模型的敏感比例估計值、估計值方差和樣本量的確定做出了詳細(xì)推導(dǎo)。介紹了網(wǎng)絡(luò)調(diào)查及其數(shù)據(jù)誤差[5],分析了分層抽樣下變體平行模型與網(wǎng)絡(luò)調(diào)查結(jié)合的效果。利用新設(shè)計進(jìn)行實證研究——吸毒人員復(fù)吸比例調(diào)查研究,使用蒙特卡羅方法模擬實際的調(diào)查過程。

二、變體平行模型介紹

變體平行模型的設(shè)計如下:令X=1表示具有敏感性特征的人的類別(吸毒),X=0表示不具有敏感性特征的人的類別(不吸毒)。引入兩個二分隨機(jī)變量Y和W,假設(shè)Y和W都是非敏感的且X、Y、W相互獨立,p=P(W=1)已知而q=P(Y=1)未知。例如,Y=1表示受訪者喜歡吃辣,Y=0表示受訪者不喜歡吃辣,W=1表示受訪者ID最后一位是奇數(shù),W=0表示受訪者ID最后一位是偶數(shù)??梢院侠淼卣J(rèn)為p≈0.5,要求估計具有敏感性特征的人群比例πv=P(X=1)(下標(biāo)v表示變體平行模型the variant of Parallel Model)。

受訪者被要求如實回答表1左側(cè)部分,并選擇自己對應(yīng)情況的符號。

表1 變體平行模型設(shè)計及其對應(yīng)概率

由表1知,當(dāng)受訪者選擇“○”時,受訪者屬于{Y=0,W=0}這一子類;當(dāng)受訪者選擇“△”時,受訪者屬于{X=0,W=1}這一子類;當(dāng)受訪者選擇“□”時,受訪者屬于{Y=1,W=0}∪{X=1,W=1}這一子類。因為{X=0}、{Y=0}、{Y=1}、{W=0}、{W=1}均是非敏感的,所以{Y=0,W=0}、{X=0,W=1}和{Y=1,W=0}∪{X=1,W=1}這三個子類都是非敏感的,無論受訪者做出什么樣的選擇都是非敏感的,都不會被采訪者知道他的真實分類,即受訪者是否具有敏感性特征。

三、分層抽樣下的變體平行模型

分層抽樣的具體方法為:按總體各單位的顯著特征(如性別、年齡等)將總體分層;根據(jù)各層單位數(shù)、總體單位數(shù)和樣本容量,確定每一層的抽樣比例(抽樣比);依據(jù)抽樣比在每層以簡單隨機(jī)抽樣的方法抽取樣本;匯總每層抽樣結(jié)果,組成總體抽樣樣本。在分層時需做到使層內(nèi)各單位間的差異盡可能小,層間各單位間的差異盡可能大,層與層相互獨立,總體各單位在劃分時不重不漏。

設(shè)調(diào)查總體容量為N,將總體劃分為L層,第i層容量為Ni(i=1,2,…,L),分別在各層以簡單隨機(jī)抽樣的方法獨立抽樣,調(diào)查共抽取總樣本容量為n,第i層樣本容量為ni(i=1,2,…,L),對抽取的每個單位,采用非隨機(jī)化應(yīng)答技術(shù)進(jìn)行調(diào)查。

令πi表示第i層子總體中具有敏感性特征X的人群比例,qi表示第i層子總體中具有非敏感性特征Y的人群比例,pi表示第i層子總體中具有非敏感性特征W的人群比例。pi已知而qi未知。根據(jù)表1,設(shè)mi1、mi2、mi3分別表示第i層ni個子樣本中受訪者選擇“○”、“△”、“□”的人數(shù),λi1、λi2、λi3分別表示第i層ni個子樣本中受訪者選擇“○”、“△”、“□”的人群比例。

第i層子總體中:

由λi1=(1-qi)(1-pi),λi2=(1-πi)pi可得

調(diào)查總體中,πv的估計量為:

其中ωi=Ni/N為第i層的權(quán)重,即第i層的抽樣比例,∑ωi=1。

調(diào)查中預(yù)先給定一個精度α,

根據(jù)分層抽樣樣本量最優(yōu)分配原則可知,當(dāng)且僅當(dāng)

四、實證研究

網(wǎng)絡(luò)調(diào)查的誤差分為覆蓋誤差、抽樣誤差、無回答誤差和計量誤差,分層抽樣下的變體平行模型可以有效降低四類誤差,用于網(wǎng)絡(luò)調(diào)查兩分類均敏感的問題。本文實證研究主題為“吸毒人員復(fù)吸比例調(diào)查研究”,調(diào)查的目標(biāo)人群是吸毒人員,以蒙特卡洛模擬的方式進(jìn)行研究。吸毒人員分為被查獲一次且無戒毒史的偶吸人員和復(fù)吸(成癮)人員,復(fù)吸人員相比偶吸人員更難戒斷,同時男女在戒毒時產(chǎn)生的反應(yīng)也有所不同,因此在戒毒方案的制定上要有所區(qū)分。

令X=1表示受訪者(吸毒人員)復(fù)吸,W=1表示受訪者編號ID尾數(shù)為偶數(shù),Y=1表示受訪者喜歡吃辣。則p=P(W=1)=0.5,q=P(Y=1)未知,求吸毒人員中復(fù)吸的人群比例π=P(X=1)的估計值。

首先將所有吸毒人員按性別分層,據(jù)《2015年中國毒品形勢報告》統(tǒng)計[6],截至2015年底,全國共有吸毒人員234.5萬(不含戒斷三年未發(fā)現(xiàn)復(fù)吸人數(shù)、死亡人數(shù)和離境人數(shù)),其中男性200.7萬名,女性33.8萬名,分別占85.6%和14.4%。設(shè)調(diào)查總體容量為N=5 000 000,男性層容量為Nm=4 280 000,層權(quán)重ωm=85.6%,女性層容量為Nf=720 000,層權(quán)重ωf=14.4%。令πm表示男性層中復(fù)吸人群比例,πf表示女性層中復(fù)吸人群比例,男性層和女性層中具有非敏感性特征W和Y的人群比例均與總體相同。

利用蒙特卡洛方法對男性層和女性層分別進(jìn)行模擬,實現(xiàn)了變體平行模型的整個問卷調(diào)查過程,假設(shè)樣本量的設(shè)定是合理且有效的。在軟件中生成吸毒人員的信息矩陣,每個人的信息包括{X,Y,W},其中X、Y、W分別以一定的概率生成。據(jù)統(tǒng)計,截至2015年底,全國吸毒人員中偶吸人員106.9萬名,復(fù)吸人員127.6萬名,分別占45.6%和54.4%。因此在生成吸毒人員的信息矩陣時可將概率設(shè)定為:πs=P(X=1)=0.544,p=P(W=1)=0.5,其中s表示實際調(diào)查中敏感人群比重。

表2 分層抽樣下的變體平行模型

生成信息矩陣后,需要對信息矩陣進(jìn)行篩選,按照表2分層抽樣下的變體平行模型選出符合條件的信息,即{X=0,W=1},得到受訪者中選擇“△”的人數(shù)。設(shè)mm、mf分別表示男性層和女性層中受訪者選擇 “△”的人數(shù),通過公式(1)、公式(2)計算可以得出實驗中男性層和女性層的敏感人群比例。

(1)

(2)

重復(fù)實驗100次,男性層和女性層的實驗結(jié)果分別如圖1、圖2所示。

圖1 男性層敏感人群比例重復(fù)實驗100次的結(jié)果

圖2 女性層敏感人群比例重復(fù)實驗100次的結(jié)果

再將重復(fù)100次實驗的男性層、女性層敏感人群比例代入計算公式(3),可以得到重復(fù)100次實驗情況下調(diào)查總體中敏感人群的比例,如圖3所示。

(3)

圖3 調(diào)查總體中敏感人群比例重復(fù)實驗100次的結(jié)果

由上述男性層、女性層和調(diào)查總體中的敏感人群比例圖可以看出,重復(fù)實驗100次,實驗結(jié)果總在預(yù)設(shè)值附近波動,因此蒙特卡洛模擬可以很好地實現(xiàn)敏感性問題調(diào)查的物理過程,且打破了抽樣調(diào)查在相同情況下只能進(jìn)行一次有效調(diào)查的限制,得到了重復(fù)實驗100次的結(jié)果。

但是從圖中也可以看出,每個群體中波動的大小不同,分析男性層和女性層的敏感人群比例的方差可知,見公式(4)、公式(5),在設(shè)定的各層敏感人群比例與非敏感人群比例與總體保持一致的情況下,各層敏感人群比例的方差只與樣本量的大小有關(guān),且兩者成反比。本實證研究中男性層的樣本量比女性層大,因此男性層敏感人群比例的方差比女性層小,很好地解釋了實驗結(jié)果中男性層波動更小的情形。

(4)

(5)

五、研究結(jié)論

通過上述分析可知,分層抽樣下的非隨機(jī)化應(yīng)答技術(shù)應(yīng)用范圍更廣、精度更高,相比簡單隨機(jī)抽樣下的非隨機(jī)化應(yīng)答技術(shù),更適用于調(diào)查較為復(fù)雜、單位間差異較大的總體。其與網(wǎng)絡(luò)調(diào)查相結(jié)合可以使得敏感性問題的調(diào)查變得更加便捷。分層抽樣下的變體平行模型需要注意以下三點:

3.各層樣本量分配比例的確定。每層在抽樣時的抽樣比例不能簡單地用層權(quán)來衡量,而應(yīng)該根據(jù)分層抽樣樣本量最優(yōu)分配原則來確定。

實證研究中對于吸毒人員復(fù)吸比例的調(diào)查研究,成功地實現(xiàn)了相同條件下的重復(fù)實驗,實驗結(jié)果在真實值附近波動,模擬了敏感性問題調(diào)查的實際過程。該項實證有助于戒毒管理單位更加科學(xué)有效地幫助吸毒人員戒毒。本文對于變體平行模型的改進(jìn)及其實證研究敏感性問題調(diào)查方法的進(jìn)一步完善提供了可靠有效的理論參考和指導(dǎo)原則。

猜你喜歡
變體總體平行
基于DDPG算法的變體飛行器自主變形決策
向量的平行與垂直
平行
逃離平行世界
2020年秋糧收購總體進(jìn)度快于上年
外匯市場運行有望延續(xù)總體平穩(wěn)發(fā)展趨勢
直擊高考中的用樣本估計總體
非仿射參數(shù)依賴LPV模型的變體飛行器H∞控制
再頂平行進(jìn)口
耀變體噴流高能電子譜的形成機(jī)制
吉木乃县| 肥东县| 健康| 离岛区| 琼结县| 枝江市| 大港区| 滨海县| 钟山县| 柯坪县| 信丰县| 瑞丽市| 朝阳区| 奈曼旗| 平遥县| 香港 | 高邑县| 德钦县| 乌苏市| 久治县| 苍梧县| 南昌县| 泊头市| 和平县| 河曲县| 山丹县| 东山县| 丽江市| 阜阳市| 威远县| 青浦区| 楚雄市| 通河县| 平南县| 永平县| 怀仁县| 富裕县| 慈溪市| 遵化市| 偏关县| 三原县|