国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用Monte Carlo技術(shù)模擬研究不同缺失值處理方法對(duì)完全隨機(jī)缺失數(shù)據(jù)的處理效果

2015-01-27 10:31武瑞仙鄧子兵譙治蛟李曉松
中國衛(wèi)生統(tǒng)計(jì) 2015年3期
關(guān)鍵詞:成組精確度參數(shù)估計(jì)

武瑞仙 鄧子兵 譙治蛟 李曉松

四川大學(xué)華西公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(610041)

利用Monte Carlo技術(shù)模擬研究不同缺失值處理方法對(duì)完全隨機(jī)缺失數(shù)據(jù)的處理效果

武瑞仙 鄧子兵 譙治蛟 李曉松△

四川大學(xué)華西公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室(610041)

目的 以醫(yī)療衛(wèi)生機(jī)構(gòu)年報(bào)資料為數(shù)據(jù)來源,采用成組刪除法、極大似然估計(jì)法、多重填補(bǔ)法分別對(duì)模擬的完全隨機(jī)缺失數(shù)據(jù)集缺失值進(jìn)行處理,比較不同缺失率下三種方法的缺失處理效果。方法 運(yùn)用SAS9.3,采用Monte Carlo技術(shù)模擬完整數(shù)據(jù)集及不同缺失比例數(shù)據(jù)集,利用成組刪除法、EM算法、MCMC算法對(duì)缺失數(shù)據(jù)進(jìn)行處理,得到不同處理方法后的參數(shù)估計(jì)結(jié)果,與完整數(shù)據(jù)集參數(shù)估計(jì)進(jìn)行比較。結(jié)果 對(duì)于完全隨機(jī)缺失數(shù)據(jù),不同缺失率下,成組刪除法的準(zhǔn)確率均比較好;缺失率小于10%,三種方法處理效果差異不大;缺失率在10%~30%,成組刪除法精確度逐漸降低,EM與MCMC準(zhǔn)確度與精確度較好,缺失率大于30%,MCMC準(zhǔn)確度與精確度相對(duì)較好。結(jié)論 對(duì)于不同缺失率的數(shù)據(jù),綜合考慮準(zhǔn)確度和精確度,采用不同的方法進(jìn)行處理。

缺失值 EM算法 Markov Chain Monte Carlo 模擬 參數(shù)

在醫(yī)學(xué)和衛(wèi)生領(lǐng)域,數(shù)據(jù)缺失是普遍存在又難以避免的現(xiàn)象,傳統(tǒng)處理方法中,研究人員往往只是簡(jiǎn)單地將有缺失值的對(duì)象剔除,僅對(duì)完全記錄對(duì)象進(jìn)行分析[1],這樣可能導(dǎo)致樣本信息減少和檢驗(yàn)效能降低,甚至影響統(tǒng)計(jì)分析結(jié)果,近二十年,缺失處理研究發(fā)展迅速,最具代表性的兩個(gè)方法是多重填補(bǔ)法與極大似然估計(jì)法,本文以醫(yī)療衛(wèi)生機(jī)構(gòu)年報(bào)表數(shù)據(jù)為基礎(chǔ),通過模擬技術(shù),研究不同缺失率下不同缺失處理方法對(duì)數(shù)據(jù)處理的效果,以期為研究人員缺失數(shù)據(jù)處理提供依據(jù)。

資料和方法

1.資料來源

本研究以國家衛(wèi)生統(tǒng)計(jì)網(wǎng)絡(luò)直報(bào)系統(tǒng)2012年“醫(yī)療衛(wèi)生機(jī)構(gòu)年報(bào)表-社區(qū)衛(wèi)生服務(wù)衛(wèi)生機(jī)構(gòu)(衛(wèi)計(jì)統(tǒng)1-2表)”橫斷面調(diào)查數(shù)據(jù)為基礎(chǔ)。選取反映社區(qū)衛(wèi)生服務(wù)中心規(guī)模的特征指標(biāo)為研究資料,包括在崗人數(shù)、實(shí)有床位、房屋建筑面積、總診療人次數(shù)、總收入,上述指標(biāo)經(jīng)對(duì)數(shù)轉(zhuǎn)換后符合正態(tài)分布。

2.數(shù)據(jù)模擬方法

完整數(shù)據(jù)集的構(gòu)建是以衛(wèi)計(jì)統(tǒng)1-2表部分變量數(shù)據(jù)為基礎(chǔ),獲取各變量參數(shù)與變量間相關(guān)系數(shù)矩陣(表1、表2),運(yùn)用Monte Carlo技術(shù)[2],模擬具有相關(guān)關(guān)系的多元正態(tài)分布完整數(shù)據(jù)集,觀察數(shù)為1000例。以總收入為應(yīng)變量,在崗人數(shù)、實(shí)有床位、房屋建筑面積、總診療人次數(shù)為自變量,擬合多元線性回歸模型,估計(jì)該模型各參數(shù)。再對(duì)該完整數(shù)據(jù)集重復(fù)模擬100次,得到各參數(shù)的平均值作為參照的標(biāo)準(zhǔn)。

構(gòu)造不同缺失率的數(shù)據(jù)集。以模擬出的完整數(shù)據(jù)集為基礎(chǔ),隨機(jī)刪除多個(gè)變量5%~50%比例的數(shù)據(jù),構(gòu)建出完全隨機(jī)缺失機(jī)制下的不同缺失率數(shù)據(jù)集[3]。分別采用相應(yīng)的缺失處理方法對(duì)缺失數(shù)據(jù)集進(jìn)行處理,并對(duì)處理后的數(shù)據(jù)集擬合多元線性回歸模型,獲得模型各參數(shù)的估計(jì)值。模擬100次,得到不同缺失率下模型的參數(shù)的平均值與標(biāo)準(zhǔn)誤,與完整數(shù)據(jù)集相應(yīng)參數(shù)進(jìn)行比較。

3.缺失值處理方法

根據(jù)研究資料缺失機(jī)制、缺失模式及變量類型特點(diǎn)[4],選擇不同的缺失值處理方法。在本研究中,模擬構(gòu)建完全隨機(jī)缺失機(jī)制下任意缺失模式的多元正態(tài)分布資料。對(duì)于此類資料,傳統(tǒng)的缺失處理常采用成組刪除法(complete case method),現(xiàn)代處理方法是將缺失處理與模型相結(jié)合[5],常用的方法有基于似然函數(shù)的極大似然估計(jì)(maximum likelihood estimator,MLE)和多重借補(bǔ)法(multiple imputation,MI)。其中,期望-極大化(expectation-maximization,EM)算法是進(jìn)行極大似然估計(jì)的一種有效方法,特別適用于多元正態(tài)分布隨機(jī)缺失機(jī)制的數(shù)據(jù)處理;馬爾可夫蒙特卡洛(markov chain monte carlo,MCMC)算法是實(shí)現(xiàn)多重填補(bǔ)的一種方法[6],用于處理任意缺失模式的連續(xù)型變量數(shù)據(jù)。

(1)成組刪除法

成組刪除法是一種簡(jiǎn)單的缺失數(shù)據(jù)處理方法,也稱為完全記錄分析,即刪除關(guān)鍵變量中有缺失值的觀察對(duì)象,只保留無缺失的觀察對(duì)象進(jìn)行分析的方法。當(dāng)數(shù)據(jù)缺失機(jī)制是完全隨機(jī)缺失(missing completely at random,MCAR[13])時(shí),成組刪除法分析的完全記錄的對(duì)象是原人群的一個(gè)隨機(jī)樣本,理論上在進(jìn)行參數(shù)估計(jì)時(shí),如果完整數(shù)據(jù)集是無偏估計(jì),那么成組刪除數(shù)據(jù)集一般也是無偏估計(jì)[7]。

(2)期望-極大化算法

EM 算法是一種迭代算法,由Dempster等在1977 年提出[8],主要用于求后驗(yàn)分布參數(shù)的最大似然估計(jì)值。該算法對(duì)缺失值的估計(jì)非常有效,當(dāng)存在缺失數(shù)據(jù)時(shí),可使用EM算法進(jìn)行迭代運(yùn)算,對(duì)缺失值進(jìn)行填充和參數(shù)估計(jì)。其原理是EM算法每一次迭代由二步組成:E步求出期望,M步則將隨機(jī)參數(shù)進(jìn)行極大化。簡(jiǎn)單而言,未知某個(gè)隨機(jī)變量的值,需要在Y和當(dāng)前模型參數(shù)條件下求出其期望值。運(yùn)算初始先給該變量一個(gè)初始值,然后求出模型中的各個(gè)參數(shù)的估計(jì)值(M步),然后利用新估計(jì)出的模型對(duì)該隨機(jī)變量值進(jìn)行估計(jì)(E步),如此反復(fù)迭代,直至收斂為止。

(3)馬爾可夫蒙特卡洛算法

在已經(jīng)成為一個(gè)地球村的今天,中國作為人口大國,在文化“走出去”的戰(zhàn)略背景下,積極推動(dòng)文化外譯事業(yè)的發(fā)展,培養(yǎng)翻譯人才。雖然將中國文化外譯會(huì)面臨一些問題,鑒于中文的博大精深,不少辭藻優(yōu)美,以大量詩詞作點(diǎn)綴的小說并不能準(zhǔn)確地用英文表達(dá),所以目前外國網(wǎng)友看到的還大多數(shù)是一些能傳達(dá)基本意思的小說,但要堅(jiān)信能夠通過努力讓中國的文化為更多人了解熟悉,從而走向世界。

多重填補(bǔ)方法由Rubin于1987年最早提出,要求在數(shù)據(jù)隨機(jī)缺失情況下,用兩個(gè)或更多能反映數(shù)據(jù)本身概率分布的值來填補(bǔ)缺失或者不完善數(shù)據(jù)的一種方法。在多重插補(bǔ)中,數(shù)據(jù)填補(bǔ)是關(guān)鍵環(huán)節(jié),對(duì)每一個(gè)缺失數(shù)據(jù)填補(bǔ)m(m>1)次,產(chǎn)生m個(gè)完全數(shù)據(jù)集。并對(duì)每一個(gè)完全數(shù)據(jù)集都采用標(biāo)準(zhǔn)的完全數(shù)據(jù)分析的方法進(jìn)行分析,將所得結(jié)果進(jìn)行綜合,最終得到對(duì)目標(biāo)變量的估計(jì)[9]。

MCMC 是Bayes 理論中探索后驗(yàn)概率分布的一種方法,Schafer在1997年將其應(yīng)用于MI[10]。運(yùn)用MCMC 法對(duì)缺失數(shù)據(jù)集進(jìn)行多重填補(bǔ)分為兩步:

①填補(bǔ)步:Xobs表示不含缺失值的變量,Xmis表示有缺失值的變量,每一個(gè)迭代過程均以給定的均數(shù)μ和協(xié)方差矩陣∑開始,從條件分布P(Xmis,θ|Xobs)中為缺失值抽取替代值。

②后驗(yàn)步:給定一個(gè)填補(bǔ)后的完整數(shù)據(jù)集,后驗(yàn)步用上一步估算得到的均向量和協(xié)方差矩陣模擬后驗(yàn)總體的均數(shù)μ和協(xié)方差矩陣∑和參數(shù)θ。

填補(bǔ)完成后,需對(duì)填補(bǔ)后的m個(gè)完整數(shù)據(jù)集進(jìn)行聯(lián)合統(tǒng)計(jì)推斷。

結(jié) 果

1.不同缺失率下處理效果

用成組刪除法、EM法、MCMC法(填補(bǔ)5次)分別對(duì)模擬的不同缺失率的100個(gè)數(shù)據(jù)集進(jìn)行處理,并對(duì)處理后數(shù)據(jù)集進(jìn)行回歸運(yùn)算,將三種方法各自100個(gè)參數(shù)估計(jì)結(jié)果匯總,獲得模型各參數(shù)的估計(jì)值及標(biāo)準(zhǔn)誤,如下表:

在不同缺失率時(shí),一種缺失處理后得到的一組變量參數(shù),構(gòu)成該處理方法模型的參數(shù)向量。比較不同缺失率下各處理方法的準(zhǔn)確度,則以完整數(shù)據(jù)集的參數(shù)估計(jì)作為標(biāo)準(zhǔn),將不同缺失率下各缺失處理方法的參數(shù)向量與完整數(shù)據(jù)集的參數(shù)向量進(jìn)行比較。比較兩個(gè)向量的擬合程度用以下兩種方法[11]:

討 論

本研究通過模擬試驗(yàn)證實(shí),當(dāng)數(shù)據(jù)缺失機(jī)制是完全隨機(jī)缺失(MCAR)時(shí),不論缺失率為較小的5%,還是較大的50%,對(duì)成組刪除法處理后的數(shù)據(jù)集進(jìn)行參數(shù)估計(jì),其估計(jì)結(jié)果與完整數(shù)據(jù)集估計(jì)結(jié)果基本一致,估計(jì)準(zhǔn)確度較好(見表9)。但是當(dāng)缺失率大于20%時(shí),其參數(shù)估計(jì)的標(biāo)準(zhǔn)誤明顯增大,并且隨著缺失率的增加,標(biāo)準(zhǔn)誤越來越大,缺失率為50%時(shí),成組刪除法參數(shù)標(biāo)準(zhǔn)誤約為MCMC法的6倍,估計(jì)精確度較低(見表6、表7、表8)。

當(dāng)缺失率大于30%時(shí),EM算法對(duì)于參數(shù)估計(jì)準(zhǔn)確度沒有成組刪除法好,考慮到EM算法是求后驗(yàn)分布的最大似然估計(jì),在缺失比例較高的情況下,該算法已不能良好的估計(jì)數(shù)據(jù)真實(shí)情況,對(duì)于完全隨機(jī)缺失機(jī)制的數(shù)據(jù),其準(zhǔn)確度反而不如成組刪除法,但其標(biāo)準(zhǔn)誤在不同缺失率情況下都較為穩(wěn)定。

對(duì)于MCMC法,隨著缺失率的增加,雖然參數(shù)估計(jì)準(zhǔn)確度有所下降,但其精確度較為穩(wěn)定。本研究認(rèn)為,綜合考慮三種方法處理后數(shù)據(jù)參數(shù)估計(jì)的準(zhǔn)確度和精確度,當(dāng)缺失率小于10%時(shí),三種方法差異不大,可以采用操作易行的成組刪除法。當(dāng)缺失率大于10%,成組刪除法精確度逐漸降低,可采用EM與MCMC方法進(jìn)行處理,當(dāng)缺失率大于30%,如需進(jìn)行缺失處理,建議采用MCMC方法。

[1]Karahalios A,Baglietto L,Carlin JB,et al.A review of the reporting and handling of missing data in cohort studies with repeated assessment of exposure measures.BMC Med Res Methodol,2012,12:96.

[2]Fan X,Felsovaly A,Sivo SA,et al.SAS for Monte Carlo Studies:A Guide for Quantitative Researchers.North Carolina:SAS Institute Inc.2002,159-169.

[3]John W.Graham.Missing Data-Analysis and Design.New York:Springer Science.2012,240-241.

[4]龐新生.缺失數(shù)據(jù)處理方法的比較.統(tǒng)計(jì)與決策,2010,24:153-155.

[5]RJA Little,DB Rubin.Statistical Analysis with Missing Data.New York:John Wiley & Sons.2002,3-6.

[6]Yang C Yuan.Multiple imputation for missing data:Concepts and new development.SAS Institute Inc,1999,267.

[7]Nakai M,Chen DG,Nishimura K,et al.Comparative Study of Four Methods in Missing Value Imputations under Missing Completely at Random Mechanism.Open Journal of Statistics,2014,4:27-37.

[8]Dempster A,Laird N,Rubin D.Maximum likelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society,1977,39(1):1-38.

[9]Rubin DB.Multiple imputation for nonresponse in surveys.New York:John Wiley & Sons,1987:15-22.

[10]Schafer JL,Maren K.Multiple imputation formuliar variate missing-data problems:a data analysis′s perspective.Multivariate Behavioural Research,1998,33:545.

[11]張香云,張秀偉.不同缺失率下EM算法的參數(shù)估計(jì).數(shù)理統(tǒng)計(jì)與管理,2008,27(3):428-431.

(責(zé)任編輯:鄧 妍)

△通信作者:李曉松,E-mail:lixiaosong1101@126.com

猜你喜歡
成組精確度參數(shù)估計(jì)
基于新型DFrFT的LFM信號(hào)參數(shù)估計(jì)算法
誤差分布未知下時(shí)空模型的自適應(yīng)非參數(shù)估計(jì)
一種GTD模型參數(shù)估計(jì)的改進(jìn)2D-TLS-ESPRIT算法
“硬核”定位系統(tǒng)入駐兗礦集團(tuán),精確度以厘米計(jì)算
航天典型結(jié)構(gòu)件成組加工工藝方法
基于FirmSys平臺(tái)的核電廠成組控制研究及應(yīng)用
放縮法在遞推數(shù)列中的再探究
淺談死亡力函數(shù)的非參數(shù)估計(jì)方法
淺談死亡力函數(shù)的非參數(shù)估計(jì)方法
線性表成組鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)研究