国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

二分類數據缺失多重填補分析及應用*

2014-03-10 05:25山西醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計教研室030001陳培翠張翠仙羅天娥劉桂芬
中國衛(wèi)生統(tǒng)計 2014年3期
關鍵詞:吸煙率變異時刻

山西醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計教研室(030001) 張 耀 陳培翠 張翠仙 羅天娥 劉桂芬

二分類數據缺失多重填補分析及應用*

山西醫(yī)科大學公共衛(wèi)生學院衛(wèi)生統(tǒng)計教研室(030001) 張 耀 陳培翠 張翠仙 羅天娥 劉桂芬△

目的闡明四種填補方法(multiple imputation,M I)的基本原理,實例介紹縱向研究二分類缺失數據多種填補方法的應用。方法對比分析簡單填補、分層填補、考慮個體差異的填補及考慮個體、抽樣的多重填補等四種填補方法;模擬證實幾種OR取值的敏感性分析。結果進行大樣本(N=10000)模擬研究表明:簡單多重填補分析會降低檢驗效能,不能客觀反應兩樣本的差異;考慮先前信息的分層多重填補會擴大I型錯誤;若只考慮個體變異,僅模擬一個數據集,所得結論不穩(wěn)定;在考慮個體、抽樣和填補差異后模擬的多重填補數據集,當OR≈2時,所得統(tǒng)計量基本接近真值;實例驗證,經高血壓知曉干預后,尚不能認為兩區(qū)的吸煙率有差別。結論不考慮前次觀察數據以及OR值的影響,一味地把缺失值當作該事件發(fā)生處理,會加大I型錯誤;只有綜合考慮個體、抽樣和填補差異,多重填補數據集的估計結果才更具穩(wěn)健性。

多重填補 縱向研究 二分類數據缺失 效果評價

數據缺失是縱向研究中普遍存在的問題,盲目地對缺失數據進行處理,會喪失原資料蘊藏的信息,甚至得出錯誤的結論。公共衛(wèi)生研究中,有關藥物依賴、酗酒、吸煙等針對個體縱向監(jiān)測的干預效果的評價,二分類數據缺失是多見的一種形式。有關二分類缺失數據處理的統(tǒng)計方法,已有非技術性文獻發(fā)表[1],但由于這些方法未能在標準分析軟件中方便實施,其研究尚有較大空間。本文擬針對二分類數據缺失多重填補問題介紹四種方法。

原理與方法

對于本文,形如nabcd,下角標中第一個值a表示前一觀測時間點t0的觀測結果是否存在某種行為,賦值:是=1,否=2;下角標b表示最后觀測時點是否缺失,賦值:是=1,否=2;下角標c表示最后一次觀測結果是否存在某種行為,賦值:是=1,否=2;d表示分組情況;下角標“.”表示兩水平行或列的合計;t0表示首次觀測某種行為時刻,t1表示干預后終點觀測時刻。

1.二分類數據缺失多重填補原理

(1)簡單多重填補法(simple M I)

對單一時間點,不考慮前一時刻t0觀測結果,根據最終觀測結果二分類效應變量如吸煙與否,是否有數據缺失,可列成四格表,其優(yōu)勢比OR=(n11/n12)/(n21/n22),式中n22表示非吸煙組觀察單位數;n21表示吸煙組非缺失個體數,缺失值n12和n11是未知的,其推算式記作:

若將缺失均看作是吸煙,n12=0,n11=n1(“.”表示行或列合計所有缺失個體),則OR值趨于+∞。顯然,關于OR值更合理的假設是有限的。當n21/n22值已知,若設定OR值,由式(1)可估算出缺失數據中吸煙與非吸煙的觀察單位數。同理將式(1)轉換為:

式(2)中,odds1:實際觀察到吸煙個體的優(yōu)勢(n21/n22);π:優(yōu)勢比為OR值時,數據缺失者中吸煙者所占比例,即n11=n1.π。

(2)考慮先前信息的分層多重填補

考慮先前信息的多重填補(consider previous information MI)中,LOCF(last observation carried forward)是目前眾多研究中常用的填補技術,因其原理不合邏輯被廣泛批評[2],它是將最后一次得到的干預效應作為其觀察終點。按終點觀測前一時刻t0觀察結果分層,設某層數據缺失值中吸煙者所占比例為πi,即

式中,oddi:第i層(i=1,2,…,k)終點非缺失個體吸煙者的優(yōu)勢。

(3)考慮個體差異的多重填補

盡管分層多重填補考慮了前一時間點觀測結果對本次結果的影響,但仍沒有考慮由于個體變異對觀察結果的影響。若在分層條件下再考慮個體變異的多重填補(consider individual variation M I)可用潛變量logistic回歸模型[3]表示:

式中,εi:個體差異;Miss:數據缺失=1,反之賦值為0;Smok0i:當前次觀察結果為吸煙者,賦值為1,反之為0;β0表示t0時刻不吸煙,t1時刻非缺失其吸煙的優(yōu)勢對數值;β2:表示t0時刻吸煙,t1時刻非缺失其吸煙的優(yōu)勢對數值;β1表示t0時刻不吸煙,t1時刻缺失其吸煙的優(yōu)勢比對數值,β3:表示t0時刻吸煙,t1時刻缺失其吸煙的優(yōu)勢比對數值(可通過設定的OR值來表示)設為個體i的潛變量,記臨界值為γ,如果Y*>γ,Y=1,否則Y=0。通過設置logistic回歸模型臨界值γ=0,假定誤差εi服從標準logistic分布(均數=0,方差為π2/3)[4],對原缺失數據按式(4)進行合理填補,即可將個體變異考慮入填補過程,使具有相同協(xié)變量的受試者賦有不同的吸煙概率,該填補也稱為隨機回歸填補[5]。

(4)考慮樣本變異的多重填補

基于填補過程中考慮樣本的變異(consider sampling variation M I),可用常規(guī)logistic回歸來預測二分類結果。t0時刻非吸煙個體分層回歸參數的方差協(xié)方差估計如下:

同理,t0時刻吸煙個體分層回歸參數的方差協(xié)方差估計類似;我們用表示t0時刻非吸煙者估計的參數向量的估計方差-協(xié)方差;假定從均數為和方差-協(xié)方差為的總體中進行隨機抽樣得到的參數。按上述過程,同樣可獲得t0組吸煙者的回歸系數同理,從均數為(即t0組吸煙者回歸系數向量為和方差-協(xié)方差矩陣總體中進行隨機抽樣得到的參數(即用n1ij代替n2ij估計得到參數)模型表述如下:

將連續(xù)潛變量Y*轉化為二分類變量yi,與前規(guī)則相同,進行多次重復隨機填補,建立多個模擬數據集,即可對感興趣的效應變量進行統(tǒng)計分析與評價。

有關上述四種方法的模擬證實,無論采用不同的OR值,還是隨機獲得填補100次的模擬數據集,均可采用SAS9.2編程來實現(xiàn)。

2.大樣本模擬研究

進行大樣本(N=10000)模擬研究表明:簡單多重填補分析會降低檢驗效能,不能客觀反應兩樣本的差異;考慮先前信息的分層多重填補會擴大I型錯誤;考慮個體差異的多重填補所得結果極不穩(wěn)定;考慮個體變異樣本變化的多重填補分析結果最接近真實值,且OR≈2時,所得統(tǒng)計量基本接近真值。

實例研究

1.六社區(qū)吸煙干預數據缺失情況分析

以全國社區(qū)高血壓規(guī)范化管理項目太原分中心研究數據為例,收集2007-2008年間太原市迎澤區(qū)(師范中心社區(qū)、廟前社區(qū)和棉花巷社區(qū))與杏花嶺區(qū)(東華苑社區(qū)、敦化坊社區(qū)和杏花嶺社區(qū))管理的518例高血壓患者為研究對象;根據項目組對高?;颊邔嵭猩鐓^(qū)高血壓三級管理要求,一年內應進行六次隨訪;以基線調查中非藥物治療是否吸煙為t0時刻觀測結果,以第五次隨訪吸煙狀況為干預后終觀測結果。經兩地區(qū)基線資料吸煙率比較,χ2=0.914,P=0.339,尚不能認為兩區(qū)患者的吸煙率有差別。按項目規(guī)范管理要求,經對患者每月集中實施高血壓知識、態(tài)度和行為等規(guī)范管理干預后,進行干預效果評價。

通過對兩區(qū)六個社區(qū)第五次終隨訪結果吸煙情況分析可知,迎澤區(qū)實施三級規(guī)范化管理的高血壓患者261例,第五次檢測中數據缺失95例,缺失比例36.40%;杏花嶺區(qū)管理257例,第五次檢測中數據缺失132例,缺失比例51.36%,兩組缺失數據平均占高血壓規(guī)范管理患者的43.8%。

2.二分類數據缺失四種多重填補方法對比研究

(1)簡單多重填補法分析

表1 兩區(qū)終隨訪數據缺失關系分析

由基線資料分析,迎澤區(qū)吸煙率75/166=45.1%,杏花嶺區(qū)吸煙率71/125=58.8%,經Pearson卡方檢驗χ2=3.851,P=0.0498,可認為兩地區(qū)吸煙率有差別。若采用簡單多重填補,將缺失個體均假設為吸煙,迎澤區(qū)和杏花嶺區(qū)的吸煙率分別為(75+95)/261=65.13%和(71+132)/257=78.99%,經兩區(qū)終隨訪吸煙率比較χ2=12.331,P<0.01,盡管統(tǒng)計分析結論一致,但卡方值有很大的差別??梢姲讶笔е稻醋鑫鼰煟ɑ虿晃鼰煟┑募僭O,給兩區(qū)高血壓知曉干預效果的評價解釋帶來較大的困惑。因兩區(qū)數據缺失比重不同,這樣將數據缺失值都看作吸煙,顯然不合理。若考慮數據缺失與吸煙率的關系,分別將OR取值設為1、3、5、7(即缺失數據的吸煙優(yōu)勢是已觀測個體的1倍、3倍……),若OR=1,則π=1×[(71+75)/(54+91)]/(1+1×[(71+75)/(54+91)])=0.502,即當缺失與吸煙關系獨立;表明缺失數據中吸煙率50.2%,則迎澤區(qū)缺失數據中吸煙數為n11=95×0.502=47.69;同理,不同OR取值條件下,可填補杏花嶺區(qū)缺失數據中吸煙與非吸煙觀察單位數,見表2。

表2 4種邊際OR取值對兩組吸煙率的影響分析

表2簡單填補法分析結果可見,邊際OR取值不同,對分析結果有影響,隨邊際OR值的增大,更趨于得出兩組吸煙率差別有統(tǒng)計學意義的結論。

(2)分層多重填補分析

若考慮第一時點(基線)與終觀測結果間的關聯(lián)性,即基于t0時刻吸煙(Smok0)信息進行分層分析,結果整理如表3。

表3 按Smok0分層多重填補分析

表中,基線調查不吸煙者中,終隨訪結果迎澤區(qū)缺失n21.y=n212y+n211y=62,杏花嶺區(qū)缺失n21.x=n212x+n211x=64;同理,基線調查為吸煙者中,迎澤區(qū)缺失n11.y=n111y+n112y=33,杏花嶺區(qū)缺失n11.x=n111x+n112x=68。仍假定OR=1,π1=(141/137)/[1+(141/137)]=0.2303;π2=0.9292。進行不同OR取值假定下的分層填補,結果對比見表4。

表4 兩區(qū)不同OR取值分層多重填補結果分析

表4OR取值分別為1,3,5,7的分層多重填補結果表明,OR=1時,表明數據缺失與效應變量間關系相互獨立,而OR=7表明兩者間關聯(lián)性較強。結果可見,簡單填補法更易把分析結果推斷為有統(tǒng)計學意義,而分層填補在數據缺失與效應變量有關聯(lián)時,它可更客觀地反映出分層OR值遠比邊際OR值的影響小,也即干預后效應變量是否有統(tǒng)計學意義,其結果也取決它與缺失數據間的關聯(lián)性,即將缺失值均看做吸煙的假設掩蓋了OR取值的影響。

(3)考慮個體變異的多重填補分析

假定誤差分布服從均數=0,方差為π2/3的logistic分布[4],按式(4)來擬合logistic回歸模型,對所產生的數據集進行分析,模擬分析結果見表5。

表5 考慮個體變異四種OR取值兩組結果比較

考慮個體變異,OR分別取值1、3、5、7時分析結果對比表明,由于存在個體變異,不能單純考慮OR取值對數據缺失與效應變量間關系的影響,尚應計算考慮個體變異情況下含有數據缺失信息吸煙的概率,它是目前填補方法中既考慮邏輯關系,又考慮分析效果解釋的首選方法。

(4)考慮個體變異樣本變化的多重填補分析

在考慮個體變異的情況下,重復隨機填補過程100次生成多重填補數據集,并進行兩區(qū)干預后吸煙率的比較。

表6 考慮個體變異和四種OR取值樣本變化情況的兩組比較

填補進行100次,OR取值為1、3、5、7時,計算檢驗統(tǒng)計量與對應的P值。需要注意的是,相同OR取值時,其卡方值均小于沒有考慮個體、抽樣和填補差異的卡方值,P值均大于表4、表5的概率P值。由此可知,同時考慮抽樣、隨機填補和個體變異,且OR取值低于5時,兩區(qū)高血壓規(guī)范管理對吸煙知行干預效果尚不能認為有差別;而OR取值不同對應的敏感性分析結果有差別。

小 結

二分類數據缺失的處理方法有多種,常規(guī)分析多將未觀測到的結果看作是二分類結果中的任一種結局(如視為吸煙),這樣不僅“保守”,且顯然不符合邏輯。“前面觀測結果決定終觀察結果”的LOCF分析,在OR值大于3時,更易得出差別有統(tǒng)計學意義的結論;考慮前觀測結果對后干預效果的關聯(lián)性時,隨OR取值增大,更有可能得出差別有統(tǒng)計學意義的結果。若僅考慮個體變異,只模擬單個數據集進行缺失數據分析,在OR取值不同的情況下,均可見統(tǒng)計結果不穩(wěn)定。當考慮個體、抽樣和多重填補變異,采用多重填補其分析結果解釋更符合實際。因此推知,考慮個體變異、樣本變化的多重填補方法是以上四種方法中值得推崇的缺失數據分析方法。

高血壓知行干預后吸煙缺失多是因受試者主觀因素造成的,其數據缺失個體大多是干預后仍處于吸煙狀態(tài),因此認為吸煙與數據缺失間的假設是合理的。通過OR取值為1、3、5、7的多重填補100次模擬證實,隨OR取值增大,更易得出差別有統(tǒng)計學意義的結論,即可認為該數據缺失與OR取值有關聯(lián)。而考慮個體、抽樣和多重填補變異時,當吸煙優(yōu)勢比較大(OR取值大于5),才有可能得出兩區(qū)干預效果差別有統(tǒng)計學意義的結論,分析結果更具說服力,結論更穩(wěn)健。

總之,單一終點二分類數據缺失,考慮個體、抽樣和填補差異的影響進行多重填補是二分類缺失數據分析值得推崇的一種方法。本方法類似于加權估計方程處理缺失數據[6-7]的原理,利用已觀測到的信息對缺失數據賦予合理權重,進而進行填補;考慮前次觀測情況以及優(yōu)勢比OR取值的影響,對干預后單時點干預效果進行評價的影響是值得關注的。有關考慮個體、抽樣和多重填補差異的多時點干預效果評價中結構數據缺失的分析方法研究有待進一步探討。

1.Abraham W.T.,Russell D.W.M issing data:a review of currentmethods and applications in epidemiological research.Curr Opin Psychiatry,2004,17:315-321.

2.Siddiqui O,Hung HM.MMRM vs.LOCF:a comprehensive comparison based on simulation study and 25 NDA datasets.JBiopharm Stat,2009,19:227.

3.Donald H,Robin J,Hakan D.Analysis of binary outcomes w ith m issing data:m issing=smoking,last observation carried forward,and a little multiple imputation.Methods and techniques,2007,10:1565-1569.

4.Long JS.Regression Models for Categorical and Lim ited Dependent Variables.Thousand Oaks,CA:Sage Publications,1997:42.

5.Little RJA,Rubin DB.Statistical Analysis w ith M issing Data,2nd edn.New York:Wiley,2002.

6.張偉,馮萍,趙永紅.加權估計方程用于缺失數據的處理.中國衛(wèi)生統(tǒng)計,2013,30(3):435-437.

7.帥平,李曉松,周曉華.缺失數據統(tǒng)計處理方法的研究進展.中國衛(wèi)生統(tǒng)計,2013,30(1):137.

(責任編輯:郭海強)

The M ultiple Im putation and App lication in Binary LongitudinalM issing Data

Zhang Yao,Chen Peicui,Zhang Cuixian,et al(DepartmentofHealthStatistics,SchoolofPublicHealth,ShanxiMedicalUniversity(030001),Taiyuan)

ObjectiveTo clarify the basic principles of themultiple imputation(M I),wew ill introduce severalmethods w ith examples.MethodsCompare the analysis of four M Imodel,i.e.(1)simple M I.(2)Stratified M I.(3)The M Iwhich consider individual differences.(4)Perform the comprehensive analysis considering the individual,sampling and imputation.Carry outsensitivity analysis under different imputation sample,using SAS 9.2 to complete M I.ResultsLarge sample(N=10000)simulation show that:simple multiple imputation analysis w ill reduce the ability of performance test,it can not response the difference between two samples.themultiple imputation analysis which considering the previous information w ill expand type I error.If only considerate the individual variability and simulate a data set,the conclude w ill be not stable;considerate the individual variability,sampling,and filling difference,whenOR≈2,the statistics result are close to the true value.We finally still can not believe that the rate of smoking are unequal between the two areas though the example of hypertension awareness intervention.ConclusionWhen we regard them issing as the event,therew ill increase the probability of type Ierror.When we consider the difference of individual,sampling and multiple imputation,we w ill draw amore robust parameter estimation.

M I;Longitudinal study;Binary m issing data;Evaluation

*:國家自然科學基金項目(編號81172774);國家青年科學基金項目資助(81001294);太原市大學生創(chuàng)新創(chuàng)業(yè)專題(120164023)

△通信作者:劉桂芬,E-mail:liugf66@126.com

猜你喜歡
吸煙率變異時刻
冬“傲”時刻
捕獵時刻
神數據
變異危機
變異
韓國吸煙率大降,多虧煙漲價
HIV感染者吸煙率高
變異的蚊子
一天的時刻
形的變異與的主題