稀有事件logistic回歸在醫(yī)學(xué)研究中的應(yīng)用*

2011-03-11 14:01趙晉芳羅天娥范月玲仇麗霞劉桂芬

中國衛(wèi)生統(tǒng)計 2011年6期

趙晉芳羅天娥范月玲曾平仇麗霞劉桂芬△

如果疾病的發(fā)生水平很低，極為不常見，病例在人群中所占比重就非常小，那么稱這個醫(yī)學(xué)事件為稀有事件。如果我們采用常見的現(xiàn)況流行病調(diào)查方法或隊列研究研究這種疾病，就會導(dǎo)致收集的數(shù)據(jù)中病例數(shù)與非病例數(shù)很不均衡。比如要探索研究該疾病的影響因素，通常的做法是對病例和非病例的兩類人群建立logistic回歸模型，然而由于資料中的病例所占的比例遠遠低于非病例的比重，這就給稀有事件的統(tǒng)計分析帶來一系列問題，在這種情況下仍采用常規(guī)的logistic回歸方法就不適合了。本文將主要探討一種適用于解決醫(yī)學(xué)現(xiàn)象研究中稀有事件的logistic回歸模型，它校正了普通logistic回歸在參數(shù)估計、統(tǒng)計推斷和概率預(yù)測方面都有可能存在的缺陷。

原理和方法

1．稀有事件logistic回歸

醫(yī)學(xué)研究中，當隨機反應(yīng)變量Y的結(jié)果表現(xiàn)為二分類變量時，如發(fā)病(Y=1)和不發(fā)病(Y=0)，感染(Y=1)和不感染(Y=0)，若感染(Y=1)的概率P受到因素影響時，可表示為

x'為暴露因素，α，β分別為截距項和回歸參數(shù)向量。logistic回歸系數(shù)的極大似然估計值^β具有一致性、漸近有效性和漸近正態(tài)性的性質(zhì)，并且在結(jié)果變量Y兩類取值頻率相等時的檢驗效率是最高的〔1－3〕。

但在稀有事件分析中，由于存在大量Y=0的記錄，而Y=1的例數(shù)卻很少，這就會導(dǎo)致一般的logistic回歸在參數(shù)估計、統(tǒng)計推斷和概率預(yù)測方面都可能存在一定的缺陷。下面介紹一種適合醫(yī)學(xué)中稀有事件的logistic回歸(rare event logistic，re-logistic)，其基本思想是在普通logistic回歸結(jié)果基礎(chǔ)上給予適當?shù)男Ｕ?/p>

(1)先驗校正

先驗校正(prior correction)是在普通logistic回歸最大似然估計值的基礎(chǔ)上，結(jié)合總體中Y=1的概率τ，以及樣本中Y=1的比例(或叫抽樣概率)ˉy對回歸系數(shù)的最大似然估計值進行校正〔4〕。~

α為經(jīng)過先驗校正的截距項。先驗校正的思想最初源于 Prentice和 Pyke(1979)，Manski和 Lerman(1977)，以及Daniel McFadden尚沒有公開發(fā)表的一篇文獻〔5－7〕。先驗校正需要已知總體率τ，關(guān)于總體中Y=1的概率τ的先驗信息可以從普查、大樣本的隨機抽樣研究或病例－隊列研究中得到。

(2)加權(quán)校正

研究中可能存在由于樣本選擇的原因而導(dǎo)致總體概率τ和樣本概率ˉy之間有差異，而加權(quán)校正(weight correction)正是要對樣本觀察單位給予合適的權(quán)重來補償因選擇偏倚造成的影響。對樣本中Y=1的觀察單位給予權(quán)重w1=τ/ˉy，Y=0的觀察單位給予權(quán)重w0=(1－τ)/(1－ˉy)。則logistic回歸有以下的加權(quán)對數(shù)似然函數(shù):

最大化(3)式即可得到參數(shù)的最大似然估計值。研究表明，加權(quán)校正在大樣本和模型指定有誤時要優(yōu)于先驗校正〔8〕，而在小樣本時，先驗校正要優(yōu)于加權(quán)校正，但這種差別不是很大〔9，10〕。

(3)稀有事件回歸系數(shù)的MCN校正

α和β的最大似然估計值在小樣本時是有偏的，而且稀有事件會進一步放大這種偏倚。在小樣本稀有事件中，先驗校正和加權(quán)校正仍存在一定的偏差，尚需要進行進一步的校正。小樣本的稀有事件回歸系數(shù)的偏倚量(bias)〔4，11，12〕:)式中ξi=0.5Qii［(1+w1)^πi－w1］，Qii為矩陣Q=X(X'WX)－1X'的對角元素，W=diag{^πi(1－^π)wi}。從式(4)可見，實際上偏倚量bias(^β)就是以X為自變量，ξ為應(yīng)變量，W為權(quán)重的回歸方程的系數(shù)的加權(quán)最小二乘估計值。校正的參數(shù)估計值為:

校正的參數(shù)方差矩陣為:樣本的稀有事件回歸系數(shù)的校正不但得到了無偏的參數(shù)估計量，而且還降低了方差，其統(tǒng)計性質(zhì)優(yōu)于前者。這種校正方法又被Gary King和Lang che Zeng簡稱為MCN校正(McCullagh Nelder Correction)。

(4)稀有事件概率估計

稀有事件回歸系數(shù)的最大似然估計值^β本身是有偏估計值，因此個體Y=1的概率估計也是有偏的;即使^β是無偏估計值，也并不能保證概率估計值就是最優(yōu)的?？梢赃x擇下面的公式估計稀有事件中Y=1的概率:β*為結(jié)合啞變量(integration dummy)。式(7)可以看做 ~β 抽樣分布下 ~P(Y=1|~β)的期望值，而 ~P(Y=1|~β)是Pi=P(Y=1|β)的點估計值。式(7)亦可以近似表示為:P(Yi=1)≈~Pi+Ci或 P(Yi=1)≈~Pi－Ci。其中，Ci稱為校正因子(correction factor)，計算公式為:

在滿足一定條件下，~Pi－Ci是近似無偏的，但是模擬研究顯示~Pi+Ci有更小的均方誤。~Pi－Ci稱為Pi=P(Y=1|β)的近似無偏估計值(approximate unbiased estimator)，~Pi+Ci稱為近似 Bayes估計值(approximate Bayesian estimator)〔4〕。有研究顯示，除了某些特殊情況，如多個小樣本的meta分析中，近似無偏估計值要好于Bayes估計值外，多數(shù)應(yīng)用中，Bayes估計值要優(yōu)于近似無偏估計值。

2．非嵌套模型Vuong檢驗

采用Vuong(1989)提出的非嵌套模型檢驗(nonnested models test)〔13－15〕來檢驗 logistic 回歸和稀有事件logistic回歸的非嵌套關(guān)系。

式中，^Prelogit(yi|xi，wi)和 ^Plogit(yi|xi)分別為稀有事件logistic回歸和普通 logistic回歸預(yù)測概率。根據(jù)Vuong，模型1相對于模型2的非嵌套模型檢驗的統(tǒng)計量為

實例分析

通過與山西省疾病預(yù)防控制中心聯(lián)合，對山西省運城市五個項目防治縣的316例HIV/AIDS患者進行結(jié)核病的篩查。欲對HIV/AIDS患者是否患結(jié)核病進行分析，結(jié)果如下。Min Max

表1 HIV/AIDS患者資料簡單描述ˉ

n x±s

表2 HIV/AIDS患者資料變量編碼及構(gòu)成

HIV/AIDS患者中大多是初中文化程度，占總患者的66.14%(209/316);患者的平均年齡為41.6歲，以壯年為主;HIV/AIDS患者 CD4計數(shù)的均值為317.85(個/μl)，低于正常人水平，其最大值為1125(個/μl)，最小值為 1(個/μl)，標準差為 183.80(個/μl)，變異較大，因此對CD4作自然對數(shù)轉(zhuǎn)換，并在以后的分析中代替CD4作為自變量，且仍用CD4作為其變量名。

調(diào)查的316例HIV/AIDS患者中僅有11人是結(jié)核感染者，感染率大約為3.48%。因此我們認為分析樣本中HIV/AIDS患者感染結(jié)核是稀有事件。

表3 普通logistic回歸參數(shù)估計

普通logistic回歸參數(shù)估計顯示HIV/AIDS患者CD4計數(shù)有統(tǒng)計學(xué)意義，與是否感染結(jié)核病有關(guān)系，CD4計數(shù)對數(shù)值每增加一個單位，HIV/AIDS患者感染結(jié)核的危險性降低71.1%［1－exp(－1.240412)］，即CD4計數(shù)水平越高HIV/AIDS患者患結(jié)核病的可能性越小。

表4 logistic回歸先驗校正

logistic回歸先驗校正是在普通logistic回歸參數(shù)估計的基礎(chǔ)上對截距項做了校正，其他回歸系數(shù)估計值和標準誤均未發(fā)生改變。以往報道表明，感染了結(jié)核菌的HIV/AIDS患者每年發(fā)展為結(jié)核病的機會為7%，據(jù)山西省權(quán)威機構(gòu)2008年底提供的數(shù)字顯示，HIV/AIDS患者的結(jié)核發(fā)病率估計在5%左右，故本次研究τ取值為0.05。校正后的截距為:

表5 logistic回歸MCN先驗校正

logistic回歸MCN先驗校正參數(shù)估計CD4計數(shù)對數(shù)值每增加一個單位，HIV/AIDS患者感染結(jié)核的危險性降低68.0%。

表6 logistic回歸加權(quán)校正

在普通logistic回歸的基礎(chǔ)上對樣本中的每個觀察單位進行加權(quán)校正，其中:w1=τ/ˉy=0.05/0.03481013，w0=(1－τ)/(1－ˉy)=(1－0.05)/(1－0.03481013)。

加權(quán)校正logistic回歸表明CD4計數(shù)對數(shù)值每增加一個單位，HIV/AIDS患者感染結(jié)核的危險性降低70.9%。

加權(quán)l(xiāng)ogistic回歸MCN校正結(jié)果表明CD4計數(shù)對數(shù)值每增加一個單位，HIV/AIDS患者感染結(jié)核的危險性降低67.8%。

表7 logistic回歸MCN加權(quán)校正

表8 HIV/AIDS患者結(jié)核感染概率估計

我們采用以上的幾種模型估計本次調(diào)查樣本的HIV/AIDS患者結(jié)核感染率，不同方法的HIV/AIDS患者結(jié)核感染概率估計顯示，最大似然估計的感染概率最小，即普通logistic回歸低估了感染概率，其他三種估計方法的感染概率估計值有所提高，彌補了稀有事件中傳統(tǒng)的估計方法可能會低估事件Y=1的預(yù)測概率的缺憾，即校正后感染概率估計偏倚減少。加權(quán)估計和近似Bayes估計的感染概率估計值接近5.00%。

表9 不同校正方法的logistic回歸和普通logistic回歸的Vuong檢驗

PPLUS表示近似Bayes估計概率，PJIAN表示近似無偏估計概率，PROB表示加權(quán)估計概率，P0為普通logistic回歸預(yù)測概率。

Vuong檢驗顯示加權(quán)校正和近似Bayes估計都要優(yōu)于普通logistic回歸、近似無偏估計;近似Bayes估計優(yōu)于加權(quán)校正;而近似無偏估計不如普通logistic回歸。

綜上，Vuong檢驗和概率預(yù)測結(jié)果顯示近似Bayes估計得到的結(jié)果最優(yōu)。

討論

醫(yī)學(xué)研究中經(jīng)常遇到二分類反應(yīng)變量資料采用logistic回歸分析，若應(yīng)變量兩類取值頻率相差特別懸殊時，普通logistic回歸不僅參數(shù)估計有偏，并且可低估稀有事件的發(fā)生概率。通過稀有事件logistic回歸校正參數(shù)和概率估計值來解決這個問題，效果較好。實例分析結(jié)果表明，在稀有事件的分析中，不管是在模型的整體表現(xiàn)或者是模型的預(yù)測預(yù)報方面，稀有事件的logistic回歸確實要更優(yōu)于普通的logistic回歸。因此對于醫(yī)學(xué)中很多不常見疾病的研究，稀有事件的logistic回歸是一種值得推廣應(yīng)用的統(tǒng)計模型。當然，對于某一個醫(yī)學(xué)事件要根據(jù)具體的情況從專業(yè)的角度判斷其是否是稀有或罕見事件，從實際應(yīng)用看確定這一點并不難。

稀有事件logistic的校正方法可以在Gary King和Langche Zeng 2001年推出的 STATA程序——relogit中實現(xiàn)，relogit是一種非官方的程序需要下載安裝后才可以使用。不同模型間的Vuong檢驗?zāi)壳吧袩o專門的程序，本文通過SAS9.1軟件編程實現(xiàn)非嵌套模型的比較。

1．Manski CF，McFadden D．Structural analysis of discrete data with econometric applications．MA:Cambridge:MIT Press，1981:51-111．

2．Imbens GW．An efficient method of moments estimator for discrete choice models with choice-based sampling．Econometrica，1992，60(5):1187-1214．

3．陳峰．醫(yī)用多元統(tǒng)計分析方法．北京:中國統(tǒng)計出版社，2001．

4．King G，Zeng LC．Logistic regression in rare events data．Political analysis，2001，9(2):137-163．

5．Prentice RL，Pyke R．Logistic disease incidence models and case-control studies．Biometrika，1979，66(3):403-411．

6．Manski CF，Lerman SR．The estimation of choice probabilities from choice based samples．Econometrica，1977，45(8):1977-1988．

7．Manski CF，McFadden D．Structural analysis of discrete data with econometric applications．MA:Cambridge:MIT Press，1981:2-50．

8．Xie Y，Manski CF．The logit model and response-based samples．Sociological Methods Research，1989，17(3):283-302．

9．Amemiya T，Vuong QH．A comparison of two consistent estimators in the choice-based sampling qualitative response model．Econometrica，1987，55(3):699-702．

10．Scott AJ，Wild CJ．Fitting logistic models under tuberculosis-control or choice based sampling．J R Statist Soc B，1986，48(2):170-182．

11．McCullagh P，Nelder JA．Generalized Linear Models．New York:Chapman ＆ Hall，CRC，1999．

12．King G，Zeng LC．Explaining rare events in international relations．International Organization，2001，55(3):693-715．

13．Strazzera E，Genius M．Evaluation of likelihood based tests for non-nested dichotomous choice contingent valuation models．Working Paper CRENoS，2000:2-28．

14．Greene WH．Accounting for excess zeros and sample selection in Poisson and negative binomial regression models．Working Paper No．EC-94-10，Department of Economics，Stern School of Business，New York University，1994．

15．Vuong QH．Likelihood ratio tests for model selection and non-nested hypotheses．Econometrica，1989，57(2):307-333．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

稀有事件logistic回歸在醫(yī)學(xué)研究中的應(yīng)用*

原理和方法

實例分析

討 論

討論