国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

成組刪除法和多重填補(bǔ)法對(duì)隨機(jī)缺失的二分類(lèi)變量資料處理效果的比較*

2012-03-19 00:14花琳琳楊永利
關(guān)鍵詞:成組回歸系數(shù)資料

王 曼,施 念,花琳琳,楊永利

1)鄭州大學(xué)學(xué)報(bào)編輯部鄭州450001 2)鄭州大學(xué)臨床醫(yī)學(xué)系鄭州450001 3)鄭州大學(xué)第二附屬醫(yī)院科研外事辦公室 鄭州450014 4)鄭州大學(xué)公共衛(wèi)生學(xué)院衛(wèi)生統(tǒng)計(jì)學(xué)教研室鄭州450001

#通訊作者,女,1974年12月生,博士,副教授,研究方向:衛(wèi)生服務(wù)統(tǒng)計(jì)方法及應(yīng)用,E-mail:ylyang377@126.com

缺失值在生活研究的各個(gè)領(lǐng)域都普遍存在,特別是在醫(yī)學(xué)研究領(lǐng)域,是常見(jiàn)的棘手問(wèn)題,很難避免而且會(huì)掩蓋研究結(jié)果的真實(shí)性,甚至丟失信息、降低檢驗(yàn)效能,還會(huì)給研究結(jié)果帶來(lái)一定的偏性。在流行病學(xué)調(diào)查中,由于調(diào)查的不嚴(yán)謹(jǐn),定性變量資料的缺失較為常見(jiàn),但對(duì)其缺失值處理一直未引起研究者的重視。該研究分別采用成組刪除法和多重填補(bǔ)法(multiple Imputation,MI)中的logistic回歸法對(duì)隨機(jī)缺失的二分類(lèi)變量數(shù)據(jù)集進(jìn)行處理,分析兩種方法對(duì)不同缺失率的缺失數(shù)據(jù)集的處理效果,為二分類(lèi)變量資料的缺失值處理提供參考。

1 資料與方法

1.1 資料 資料來(lái)源于“十·五”國(guó)家科技攻關(guān)計(jì)劃:艾滋病中醫(yī)癥候分布規(guī)律及癥候標(biāo)準(zhǔn)建立與驗(yàn)證。于2006年7~12月在河南省158個(gè)縣(區(qū)、市)的40個(gè)艾滋病高發(fā)縣(HIV/AIDS超過(guò)200例)中進(jìn)行多階段分層隨機(jī)整群抽樣。選擇其中的消瘦程度和體質(zhì)量?jī)蓚€(gè)變量作為研究指標(biāo),有效樣本1 189例,其中男567例,女622例。

1.2 模型的構(gòu)建 因變量消瘦程度分為無(wú)、輕、中、重4個(gè)等級(jí),首先將其轉(zhuǎn)換成二分類(lèi)變量(0=無(wú)、1=有),再與協(xié)變量體質(zhì)量建立logistic回歸模型logistic(P)=α+βx+ε。在完整數(shù)據(jù)集的基礎(chǔ)上,保留10%的低體質(zhì)量(<52 kg)所對(duì)應(yīng)的消瘦程度不變,將90%的高體質(zhì)量對(duì)應(yīng)的消瘦程度隨機(jī)刪除10%~60%,構(gòu)建隨機(jī)缺失數(shù)據(jù)集。

1.3 缺失值的處理方法 根據(jù)數(shù)據(jù)的缺失模式[1]和缺失機(jī)制[2],選擇合適的處理方法。成組刪除法:將有缺失值的數(shù)據(jù)整列或成對(duì)刪除。MI/logistic回歸法:logistic回歸采用極大似然估計(jì)方法估計(jì)模型參數(shù),依據(jù)回歸函數(shù)值對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分類(lèi)。對(duì)于二分類(lèi)變量,在所擬合的回歸模型的基礎(chǔ)上,由參數(shù)的后驗(yàn)預(yù)測(cè)分布模擬一個(gè)新的logistic回歸模型,以完成對(duì)缺失值的填充。

1.4 統(tǒng)計(jì)學(xué)處理 利用SAS 9.2產(chǎn)生不同缺失率的隨機(jī)缺失數(shù)據(jù)集,采用成組刪除法和MI/logistic回歸法對(duì)缺失數(shù)據(jù)集進(jìn)行處理,并與完整數(shù)據(jù)集進(jìn)行比較。評(píng)價(jià)指標(biāo)為各模型的回歸系數(shù)以及標(biāo)準(zhǔn)誤。

2 結(jié)果

2.1 一般信息 完整數(shù)據(jù)集中,體質(zhì)量xmin=40 kg,xmax=157 kg,μx=62.8 kg,πy=1=0.293。假設(shè)缺失均發(fā)生于高體質(zhì)量水平(≥52 kg)對(duì)應(yīng)的消瘦程度內(nèi)。10%、20%、30%、40%、50%、60%的假設(shè)缺失比例對(duì)應(yīng)的例數(shù)分別為119例、238例、357例、476例、595例和713例。

2.2 缺失機(jī)制和缺失模式的判斷 對(duì)缺失10%~60%的數(shù)據(jù)集進(jìn)行Little’s MCAR檢驗(yàn),均有統(tǒng)計(jì)學(xué)差異(P<0.05),顯示為隨機(jī)缺失機(jī)制;利用SAS 9.2對(duì)缺失模式進(jìn)行診斷,結(jié)果顯示為單調(diào)缺失模式。

2.3 2種方法的處理效果 見(jiàn)表1、2。

表1 成組刪除后各數(shù)據(jù)集的logistic回歸分析結(jié)果

表2 M I/logistic回歸法填充后各數(shù)據(jù)集的回歸系數(shù)和標(biāo)準(zhǔn)誤

3 討論

缺失值問(wèn)題是醫(yī)學(xué)研究領(lǐng)域的常見(jiàn)問(wèn)題,研究者必須從研究的設(shè)計(jì)階段就開(kāi)始采取各種措施避免研究過(guò)程中產(chǎn)生缺失值[3]。對(duì)于已經(jīng)產(chǎn)生的缺失值,要及時(shí)地盡可能采取補(bǔ)救措施對(duì)其進(jìn)行補(bǔ)充。對(duì)確實(shí)無(wú)法彌補(bǔ)的數(shù)據(jù)應(yīng)考慮使用合適的缺失值處理方法對(duì)其進(jìn)行處理。資料收集和數(shù)據(jù)分析人員對(duì)定量資料的缺失值處理一直以來(lái)比較重視[3],但一定程度上忽視了對(duì)分類(lèi)資料的處理。成組刪除法是最為常用的缺失值處理方法,在數(shù)據(jù)缺失率較低時(shí),成組刪除法方便、準(zhǔn)確度高,具有一定優(yōu)勢(shì);但當(dāng)缺失率較高時(shí),該方法處理結(jié)果不僅會(huì)喪失大量的信息,還會(huì)造成結(jié)果的偏倚,不能很好地代表總體。MI/logistic法常用于處理有許多分類(lèi)變量和二分類(lèi)變量資料。作者用上述兩種方法對(duì)隨機(jī)缺失的二分類(lèi)變量資料進(jìn)行處理,對(duì)處理效果進(jìn)行了比較。

該研究所模擬的不同缺失比例的缺失數(shù)據(jù)集均為隨機(jī)缺失機(jī)制、單調(diào)缺失模式,適合MI/logistic回歸的條件。對(duì)完整數(shù)據(jù)集和兩種方法處理后的數(shù)據(jù)集建立logistic回歸模型,x的回歸系數(shù)均為負(fù)值,exp(^β)均小于1,說(shuō)明體質(zhì)量是保護(hù)因素。缺失比例很低(缺失率<10%)時(shí),成組刪除法簡(jiǎn)單易行,結(jié)果更接近于真實(shí)數(shù)據(jù),而MI法程序比較復(fù)雜,需占用較大內(nèi)存和時(shí)間進(jìn)行反復(fù)填補(bǔ),且結(jié)果不如成組刪除法,與茅群霞等[4]的研究結(jié)果相一致。缺失20%~30%時(shí),MI/logistic填補(bǔ)后x的回歸系數(shù)和標(biāo)準(zhǔn)誤偏離了完整數(shù)據(jù)集,沒(méi)有成組刪除法的效果好,與茅群霞[4]的研究結(jié)果相矛盾,可能是因?yàn)檠芯抠Y料的缺失機(jī)制不同造成的。缺失40%~50%時(shí),MI/logistic填充2次時(shí)x的回歸系數(shù)和標(biāo)準(zhǔn)誤非常接近于完整數(shù)據(jù)集,優(yōu)于成組刪除法的效果。缺失60%時(shí),兩種方法處理效果均不理想,特別是MI/ logistic填充后x的回歸系數(shù)嚴(yán)重偏離完整數(shù)據(jù)集。與殷杰等[5]研究結(jié)果比較,二分類(lèi)變量的MI/logistic填充效果較連續(xù)性變量填充的優(yōu)勢(shì)并不明顯。這是由于二分類(lèi)變量自身分布范圍狹窄,MI/logistic回歸填充可發(fā)揮的空間狹窄造成的。

綜上所述,對(duì)于隨機(jī)缺失機(jī)制、單調(diào)缺失模式的二分類(lèi)變量資料數(shù)據(jù),在缺失較少(缺失率<40%)的情況下,采用成組刪除法簡(jiǎn)單易行、準(zhǔn)確、高效;缺失40%~50%時(shí),采用MI/logistic回歸法填充顯現(xiàn)出優(yōu)勢(shì),且只需較少的填充次數(shù)(2次)即可達(dá)到較好的效果;缺失率60%以上時(shí),兩種方法處理均不理想,這些數(shù)據(jù)在當(dāng)前環(huán)境下已失去可利用價(jià)值,對(duì)于這類(lèi)數(shù)據(jù)的處理方法有待進(jìn)一步探討。

[1]楊永利,付鵬鈺,胡東生,等.期望最大化法和回歸法對(duì)亞洲心血管病國(guó)際合作研究缺失數(shù)據(jù)填充效果比較[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(4):367

[2]曹陽(yáng),Sadana R,Tandon A.居民健康調(diào)查資料中的缺失數(shù)據(jù)的多重估算[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2002,9(5):280

[3]花琳琳,施念,楊永利,等.不同缺失值處理方法對(duì)隨機(jī)缺失數(shù)據(jù)處理效果的比較[J].鄭州大學(xué)學(xué)報(bào):醫(yī)學(xué)版,2012,47(3):315

[4]茅群霞.缺失值處理統(tǒng)計(jì)方法的模擬比較研究及應(yīng)用[D].成都:四川大學(xué),2005.

[5]殷杰,石銳.SAS中處理數(shù)據(jù)集缺失值方法的對(duì)比研究[J].計(jì)算機(jī)應(yīng)用,2007,27:438

猜你喜歡
成組回歸系數(shù)資料
Party Time
PAIRS & TWOS
JUST A THOUGHT
文房雅士
基于FirmSys平臺(tái)的核電廠成組控制研究及應(yīng)用
基于生產(chǎn)函數(shù)模型的地區(qū)經(jīng)濟(jì)發(fā)展影響因素分析
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋(píng)果砧木抗寒性的比較
電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋(píng)果砧木抗寒性的比較
線性表成組鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)研究
城鎮(zhèn)居民收入差距主要因素回歸分析
得荣县| 奉新县| 东源县| 巴楚县| 都昌县| 星座| 如东县| 夏河县| 肥西县| 乐山市| 乌拉特后旗| 泸水县| 哈巴河县| 龙南县| 富蕴县| 桃园市| 大洼县| 七台河市| 潍坊市| 本溪市| 读书| 隆尧县| 健康| 合川市| 宁乡县| 龙江县| 晋州市| 大埔县| 运城市| 宁远县| 宁蒗| 祁门县| 水城县| 科技| 新密市| 临潭县| 灵丘县| 长子县| 临漳县| 定边县| 大方县|