国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

加權(quán)估計(jì)方程用于缺失數(shù)據(jù)的處理

2013-12-04 03:00:14趙永紅袁佳英
中國衛(wèi)生統(tǒng)計(jì) 2013年3期
關(guān)鍵詞:權(quán)數(shù)穩(wěn)健性觀測(cè)

張 偉 馮 萍 趙永紅 袁佳英 李 梅

在醫(yī)學(xué)研究過程中缺失數(shù)據(jù)現(xiàn)象是普遍存在的〔1-3〕,目前實(shí)際應(yīng)用中對(duì)缺失值處理的方法主要采用缺失值的刪失以及單一填補(bǔ)〔4-5〕。隨著統(tǒng)計(jì)軟件相關(guān)程序的實(shí)現(xiàn),更有效的缺失值處理方法逐漸引起研究者的關(guān)注,如基于多重填補(bǔ)的方法,基于參數(shù)似然的方法以及基于加權(quán)估計(jì)的方法〔6-7〕。weighted estimating equations(WEE)法是加權(quán)估計(jì)法中的一種,是廣義估計(jì)方程(gerneralized estimating equations,GEE)方法的推廣,被認(rèn)為估計(jì)效率高,穩(wěn)健性好,尤其在模型假定錯(cuò)誤的情況下,仍可以獲得更接近真實(shí)值的無偏估計(jì)。目前,國際對(duì)于缺失數(shù)據(jù)處理方法的理論應(yīng)用研究熱點(diǎn)多為WEE法〔8-10〕,而國內(nèi)相對(duì)集中于多重填補(bǔ)的研究〔10-14〕,對(duì)于 WEE法的研究應(yīng)用相對(duì)較少。因此本文對(duì)WEE法的理論框架進(jìn)行詳細(xì)介紹。

WEE法最早是由 Robins〔15〕等人于1994年提出的一種與極大似然估計(jì)有相似性質(zhì)的缺失數(shù)據(jù)處理方法,多用于處理可忽略缺失(ignorable missingness)的情況,也有研究將WEE法用于處理不可忽略缺失數(shù)據(jù)〔16〕。WEE法的原理是采用某種方式把缺失單元的權(quán)數(shù)分解到非缺失單元上,通過增大樣本觀測(cè)值的權(quán)數(shù)以減少由于缺失對(duì)估計(jì)量可能帶來的偏差。

WEE法是在結(jié)局變量與協(xié)變量間存在線性關(guān)系的前提下進(jìn)行模型構(gòu)建的,故假設(shè)在回歸模型中,令Yi表示結(jié)局變量,Xi為協(xié)變量,i=1,2…n表示樣本量,故結(jié)局的均值模型為:U=Ui(Xi,β)=E(Yi|Xi,β),其中β為參數(shù)。當(dāng)沒有缺失值時(shí),采用樣本數(shù)據(jù)對(duì)總體結(jié)局均值進(jìn)行估計(jì),則有,式中wi為第i個(gè)單元的權(quán)數(shù),是樣本單元入樣概率φi的倒數(shù);參數(shù)估計(jì)方程為|xi))。令u(β)=0,就可得到β的無偏估計(jì)。

當(dāng)存在缺失時(shí),對(duì)原權(quán)數(shù)wi進(jìn)行調(diào)整,以表示調(diào)整后權(quán)數(shù),則,均值模型變?yōu)椋渲衝obs表示已觀測(cè)單元的樣本量,εi為調(diào)整因子,協(xié)變量完全觀測(cè)到的概率πi的倒數(shù),是缺失機(jī)制的體現(xiàn)。當(dāng)缺失機(jī)制為完全隨機(jī)缺失時(shí),πi既不依賴于已觀測(cè)變量 Xobs,i,也不依賴于缺失變量 xmis,i,即 πi=Pr(ri=1|yi);當(dāng)缺失機(jī)制為隨機(jī)缺失時(shí),πi僅依賴于 xobs,i,即 πi=Pr(ri=1|yi,xobs,i);當(dāng)缺失機(jī)制為非隨機(jī)缺失時(shí),πi既依賴于Xobs,i,也依賴于 Xmis,i,即 πi=Pr(ri=1|yi,xobs,i,xmis,i),其中ri為指示變量,當(dāng)ri=1表示Xi全部觀測(cè),ri=0表示Xi部分觀測(cè)。

假定在給定(yi,xi)下,ri=1的概率為πi,則有πi= πi(θ)=Pr(ri=1|mi;θ),其中mi是(yi,xi)的某種函數(shù),以(yi,xi)表示mi,θ為缺失指示變量ri的參數(shù)。

當(dāng)存在缺失時(shí),若僅用觀測(cè)到的數(shù)據(jù)估計(jì)參數(shù)β,則似然估計(jì)方程為-u),上述方程為0時(shí)可獲得參數(shù)的估計(jì),但由于估計(jì)方程僅用觀測(cè)到的數(shù)據(jù),因此對(duì)β的估計(jì)是有偏的。假設(shè)協(xié)變量全部觀測(cè)到時(shí)的概率πi已知或者可以有效估計(jì)出,將 ri替換為 ri/πi,權(quán)重變?yōu)閞i/πi,加權(quán)估計(jì)方程則變?yōu)閡i);在隨機(jī)缺失情形下,上述估計(jì)方程的期望對(duì)0是無偏的,即

因此令uWEE(β)=0時(shí),可以得到參數(shù)β的無偏估計(jì)。

在上述估計(jì)方程中同時(shí)加入未觀測(cè)數(shù)據(jù)的信息以提高估計(jì)效率獲得更有效的無偏估計(jì),若πi能被正確估 計(jì), 則1成立,同時(shí)也可得=0。則更有效的無偏估計(jì)方程可寫為:

其中 q(yi,xobs,i;β,α)是已觀測(cè)數(shù)據(jù)(yi,xobs,i)、β和 α 的一個(gè)特定函數(shù):q(yi,xobs,i;β,α)=E[ui(β)|與前述相比,該法增加了部分信息,提高了效率,被認(rèn)為是更有效的估計(jì)方程。但該方程的無偏估計(jì)是基于加入缺失信息的準(zhǔn)確性,因此需要另一種估計(jì)方程來估計(jì)α。令 r=(β,α,φ),則加權(quán)估計(jì)方程為:

其中 u1i(β)= u1i(β;yi,xobs,i,xmis,i),u2i(β)=u2i(α;xobs,i,xmis,i),φ 是 ri的參數(shù)。如果缺失變量 xmis,i

為分類時(shí),則:

其 中 wi,Xmis,i= P(xmis,i| xos,i,yi,γ) =,為缺失變量 xmis,i在已觀測(cè)數(shù)據(jù)(xobs,i,yi)下的條件概率。當(dāng)缺失變量xmis,i為連續(xù)型變量時(shí):

由于上述估計(jì)方程與極大似然估計(jì)得分方程相似,故 Lipsitz、Ibrahim &Zhao〔18〕提出采用 EM 算法或蒙特卡洛EM算法求解S()=0,獲得r的無偏估計(jì)。具體步驟如下:

(1)設(shè)定一個(gè)γ初始值,γ=γ(1),例如以已觀測(cè)數(shù)據(jù)計(jì)算得。在t步時(shí),有γ(t)。

(2)令 wi,Xmis,i(t)為給定 γ=γ(t)時(shí)缺失變量的條件概率,并用 γ(t)計(jì)算

(3)將 wi,Xmis,i(t)作為固定值,用可加權(quán)的廣義線性方程對(duì)γ(t+1)求解S(γ(t+1)|γ(t))。

(4)反復(fù)上述步驟,迭代至收斂,當(dāng)γ(t+1)=γ(t)=時(shí),得到)=0的解。

上述加權(quán)估計(jì)方程公式中包含有三個(gè)模型:①目標(biāo)參數(shù)模型:E(yi|xi)=ui(β),Var(yi)= φVi(β);②缺失機(jī)制模型:p(ri|φ;(yi,xi')')=πi;③在給定已觀測(cè)值下,缺失變量的條件分布模型:p(xmis,i|xobs,i,α)。其中任一個(gè)模型被假定正確時(shí),另一模型無論是否正確,對(duì)參數(shù)的估計(jì)是漸近無偏的。對(duì)上述方程的性質(zhì),有學(xué)者〔17,19〕進(jìn)行了理論證明,結(jié)果顯示上述加權(quán)估計(jì)方程具有雙重穩(wěn)健性。

WEE方法是基于加權(quán)的處理方法,該法的優(yōu)勢(shì)在于其穩(wěn)健性,能同時(shí)實(shí)現(xiàn)以下兩個(gè)目標(biāo):①在不完全數(shù)據(jù)的基礎(chǔ)上通過權(quán)數(shù)調(diào)整實(shí)現(xiàn)無偏或近似無偏的點(diǎn)估計(jì);②通過權(quán)數(shù)調(diào)整提高點(diǎn)估計(jì)的效率,較大限度地降低估計(jì)誤差。WEE估計(jì)方法不需依賴總體參數(shù)分布,在一般總體分布下表現(xiàn)良好及穩(wěn)健。當(dāng)缺失模型假定錯(cuò)誤時(shí),基于參數(shù)似然的方法以及基于多重填補(bǔ)的方法的估計(jì)結(jié)果可能出現(xiàn)偏倚,此時(shí)WEE法可以提供穩(wěn)健結(jié)果,但穩(wěn)健性的代價(jià)是參數(shù)估計(jì)效率會(huì)有所降低。但與當(dāng)總體參數(shù)模型假定正確情況的參數(shù)似然及多重填補(bǔ)方法相比,WEE法不依據(jù)總體分布的估計(jì)率卻是偏低的。因此,在實(shí)際應(yīng)用中,如果缺失機(jī)制能準(zhǔn)確假定,如缺失機(jī)制為實(shí)際上,缺失數(shù)據(jù)統(tǒng)計(jì)分析方法的有效性很大程度上依賴于數(shù)據(jù)缺失是否與數(shù)據(jù)集完全隨機(jī)缺失(missing completely at random,MCAR)時(shí),何種缺失數(shù)據(jù)處理方法均可,可以采用單一填補(bǔ)或是多重填補(bǔ)等簡(jiǎn)單方法實(shí)現(xiàn)填補(bǔ);當(dāng)缺失機(jī)制為隨機(jī)缺失(missing at random,MAR)時(shí),如果對(duì)于數(shù)據(jù)總體分布能準(zhǔn)確估計(jì),如總體滿足多元正態(tài)分布時(shí),基于參數(shù)似然的方法以及基于多重填補(bǔ)的方法能獲得更為有效的估計(jì);當(dāng)缺失機(jī)制為非隨機(jī)缺失(not missing at random,MCAR)時(shí),基于參數(shù)似然的方法以及基于多重填補(bǔ)的方法不能獲得有效估計(jì),此時(shí)WEE卻能獲得穩(wěn)健結(jié)果。所以無論何種缺失處理方法在實(shí)際應(yīng)用中,應(yīng)綜合考慮資料類型、變量類型,以及不同缺失機(jī)制等條件下的數(shù)據(jù)特征,選擇適當(dāng)?shù)姆椒?,以達(dá)到較高估計(jì)效率,得到漸近無偏估計(jì)。

1.Shih W.Problems in dealing with missing data and informative censoring in clinical trials.Current Controlled Trials in Cardiovascular Medicine,2002,3:4.

2.Abraham W,Russell D.Missing data:a review of current methods and applications in epidemiological research.Current Opinion in Psychiatry,2004,17(4):315-321.

3.Selvin S.Statistical analysis of epidemiologic data.2004,Oxford;New York:Oxford University Press.

4.Geert Molenberghs,Kenward MG.Missing Data in Clinical Studies.Paediatric and Perinatal Epidemiology,2007,21(6):552-554.

5.唐健元,楊志敏,楊進(jìn)波等.臨床研究中缺失值的類型和處理方法研究.中國衛(wèi)生統(tǒng)計(jì),2011,28(3):338-343.

6.Little RJA,Rubin DB.Statistical analysis with missing data.Hoboken,NJ:J Wiley & Sons,2002.

7.Graham JW.Missing data analysis:making it work in the real world.Annu Rev Psychol,2009,60:549-576.

8.Caroline Beunckens,Cristina Sotto,Geert Molenberghs.A simulation study comparing weighted estimating equations with multiple imputation based estimating equations for longitudinal binary data.Computational Statistics & Data Analysis,2008,52(3):1533-1548.

9.Lan Kong,Jianwen Cai,Sen PK.Weighted estimating equations for semiparametric transformation models with censored data from a casecohort design.Biometrika,2004,94(2):305-319.

10.Michelle Shardell,Miller RR.Weighted estimating equations for longitudinal studies with death and non‐monotone missing time‐dependent covariates and outcomes.Statistics in Medicine,2008,27(7):1008-1025.

11.周藝彪,姜慶五,趙根明.不完全數(shù)據(jù)處理方法:多重填充.中華預(yù)防醫(yī)學(xué)雜志,2004,38(6):424-426.

12.花琳琳,施學(xué)忠,楊永利.不同缺失值填充技術(shù)在HIV/AIDS血液樣品檢測(cè)數(shù)據(jù)中的應(yīng)用.中國衛(wèi)生統(tǒng)計(jì),2011,28(6):668-673.

13.金勇進(jìn).調(diào)查中的數(shù)據(jù)缺失及處理(I):缺失數(shù)據(jù)及其影響.?dāng)?shù)理統(tǒng)計(jì)與管理,2001,20(1):59-62.

14.馮志蘭,劉桂芬,劉力生等.缺失數(shù)據(jù)的多重估算.中國衛(wèi)生統(tǒng)計(jì),2005,22(5):274-277.

15.Robins J,Rotnitzky A,Zhao L.Estimation of Regression Coefficients When Some Regressors Are Not Always Observed.Journal of the A-merican Statistical Association,1994,89(89):864-866.

16.Carpenter JR,Kenward MG,Vansteelandt S.A comparison of multiple imputation and doubly robust estimation for analyses with missing data.Journal of the Royal Statistical Society:Series A(Statistics in Society),2006,169(3):571-584.

17.Joseph G,Chen MH,Stuart R.Missing-Data Methods for Generalized Liner Models:A Comparative Review.Journal of the American Statistical Association,2005,100(469):332-346.

18.Lipsitz SR,Ibrahim JG,Zhao LP.A Weighted Estimating Equation for Missing Covariate Data with Properties Similar to Maximum Likelihood.Journal of the American Statistical Association,1999,94(448):1147-1160.

19.Troxel AB,Lipsitz SR,Brennan TA.Weighted Estimating Equations with Nonignorably Missing Response Data.Biometrics,1997,53(3):857-869.

猜你喜歡
權(quán)數(shù)穩(wěn)健性觀測(cè)
觀測(cè)到恒星死亡瞬間
軍事文摘(2023年18期)2023-11-03 09:45:42
微觀調(diào)查數(shù)據(jù)抽樣權(quán)數(shù)的可忽略性檢驗(yàn)及實(shí)證研究
豬肉在CPI中的權(quán)數(shù)被調(diào)低了嗎?
豬肉在CPI中的權(quán)數(shù)被調(diào)低了嗎?
會(huì)計(jì)穩(wěn)健性的定義和計(jì)量
商情(2019年3期)2019-03-29 12:04:52
權(quán)數(shù)可靠性的假設(shè)檢驗(yàn)探討
會(huì)計(jì)穩(wěn)健性的文獻(xiàn)綜述
財(cái)訊(2018年22期)2018-05-14 08:55:57
天測(cè)與測(cè)地VLBI 測(cè)地站周圍地形觀測(cè)遮掩的討論
可觀測(cè)宇宙
太空探索(2016年7期)2016-07-10 12:10:15
貨幣政策、會(huì)計(jì)穩(wěn)健性與銀行信貸關(guān)系探析
北辰区| 太湖县| 乐至县| 潜山县| 敦化市| 彭阳县| 库车县| 郁南县| 六安市| 皋兰县| 揭西县| 杂多县| 托克托县| 江油市| 肥乡县| 凤台县| 鹤庆县| 普洱| 陕西省| 布尔津县| 关岭| 嘉禾县| 中卫市| 马山县| 石城县| 瑞金市| 镇沅| 雅安市| 岳西县| 玛纳斯县| 隆安县| 光山县| 丹巴县| 宜川县| 女性| 廊坊市| 保靖县| 乳源| 嘉峪关市| 新营市| 汉沽区|