国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

logistic回歸中連續(xù)型自變量離散化為二分類變量時(shí)適宜分界點(diǎn)的確定*

2015-03-09 11:13中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系510080何賢英溫興煊公為潔張晉昕
關(guān)鍵詞:連續(xù)型中位數(shù)實(shí)例

中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 何賢英 趙 志 溫興煊 公為潔 黃 波 張晉昕

logistic回歸中連續(xù)型自變量離散化為二分類變量時(shí)適宜分界點(diǎn)的確定*

中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080) 何賢英 趙 志 溫興煊 公為潔 黃 波 張晉昕△

目的提出logistic回歸中連續(xù)型自變量離散化為二分類變量時(shí)的雙界點(diǎn)OR值最大化分類法(簡(jiǎn)稱雙界點(diǎn)OR值最大法),通過(guò)模擬研究評(píng)價(jià)該法與其他離散化方法的模型擬合效果,并用實(shí)例數(shù)據(jù)進(jìn)行驗(yàn)證。方法應(yīng)用R軟件中的“SmeiPar”包對(duì)連續(xù)型自變量與logitπ間是否呈單調(diào)變化性進(jìn)行判定;對(duì)不滿足單調(diào)變化關(guān)系的自變量,采用連續(xù)型變量法(或稱原始取值法)、中位數(shù)法、單界點(diǎn)P值最小法、雙界點(diǎn)OR值最大法對(duì)原始數(shù)據(jù)進(jìn)行處理后,分別擬合logistic回歸模型;從擬合優(yōu)度、變異的解釋程度方面評(píng)價(jià)模型擬合效果。結(jié)果模擬數(shù)據(jù)和實(shí)例數(shù)據(jù)分析結(jié)果均可見(jiàn),雙界點(diǎn)OR值最大法相對(duì)于單界點(diǎn)P值最小法能夠更合理地反映影響因素和結(jié)局的關(guān)聯(lián),并且與連續(xù)型變量法和中位數(shù)分類法相比其模型擬合優(yōu)度、變異的解釋程度效果更好。結(jié)論在擬合logistic回歸模型時(shí),若連續(xù)型自變量與logitπ之間呈非單調(diào)變化關(guān)系時(shí),建議使用雙界點(diǎn)OR值最大法對(duì)數(shù)據(jù)進(jìn)行離散化。

logistic回歸模型 連續(xù)型自變量分界點(diǎn)OR值

logistic回歸模型適用于分類的反應(yīng)變量與多個(gè)影響因素之間關(guān)系的研究,在醫(yī)學(xué)研究中有著相當(dāng)廣泛的應(yīng)用[1]。擬合logistic回歸模型時(shí),要求連續(xù)型自變量與logitπ之間符合線性關(guān)系[2]。如果兩者之間的關(guān)系是非線性的,參數(shù)估計(jì)將發(fā)生偏差,從而導(dǎo)致研究結(jié)論不可靠。而在實(shí)際應(yīng)用中,兩者線性關(guān)系的判定是一個(gè)經(jīng)常被研究者忽視的問(wèn)題[3]。本文對(duì)判定連續(xù)型自變量與logitπ之間是否滿足線性關(guān)系的方法給予簡(jiǎn)單介紹,并就在連續(xù)型自變量和logitπ為非單調(diào)變化關(guān)系時(shí),如何尋找適宜的分界點(diǎn)將連續(xù)型自變量轉(zhuǎn)化為二分類變量進(jìn)行了探討。

原理與步驟

1.logistic回歸模型

設(shè)某事件在影響因素x1,x2,…,xm的作用下發(fā)生的概率為π,不發(fā)生的概率為1-π,則由式(1)所定義的模型為logistic回歸模型:

其中β0為截距,β1,β2,…,βm為回歸系數(shù)。事件發(fā)生的概率π和未發(fā)生的概率1-π之比為優(yōu)勢(shì)比(odds ratio,OR),logitπ為OR的自然對(duì)數(shù):

2.連續(xù)型自變量與logitπ線性關(guān)系的判斷

國(guó)內(nèi)研究者陳長(zhǎng)生、徐勇勇等于2001年通過(guò)模擬實(shí)驗(yàn),說(shuō)明半?yún)?shù)回歸模型較傳統(tǒng)的線性模型有更好的適應(yīng)性[4],Wand等于2003年對(duì)半?yún)?shù)回歸模型進(jìn)行了系統(tǒng)描述[5],并編制R軟件中的“SemiPar”包用于半?yún)?shù)回歸模型分析[6]。SmeiPar包中的半?yún)?shù)回歸模型是一種使用了2m-1次樣條平滑的混合模型,其一般表達(dá)式為[6]:

本研究采用半?yún)?shù)回歸模型對(duì)自變量與logitπ間的函數(shù)關(guān)系進(jìn)行判斷,根據(jù)自由度是否大于2[7],判定自變量與logitπ之間是否滿足單調(diào)變化性。

3.連續(xù)型自變量參與擬合logistic回歸模型時(shí)的4種預(yù)處理方法

當(dāng)連續(xù)型自變量和logitπ為非單調(diào)變化關(guān)系時(shí),分別采用目前常用的3種處理方法及本文提出的雙界點(diǎn)OR值最大法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,進(jìn)而擬合logistic回歸模型。

(1)連續(xù)型變量法[8],也稱原始變量法,即對(duì)連續(xù)型自變量不進(jìn)行任何處理直接納入回歸模型分析。

(2)中位數(shù)法[9],以原始數(shù)據(jù)所得中位數(shù)為分界點(diǎn),將連續(xù)型自變量轉(zhuǎn)化為二分類變量納入回歸模型分析。

(3)單界點(diǎn)P值最小法[10],該方法以自變量的每一個(gè)取值作為潛在分界點(diǎn),將原始數(shù)據(jù)一分為二,再擬合回歸模型。通過(guò)分析比較,選擇使P值達(dá)到最小的自變量取值為分界點(diǎn),將連續(xù)型自變量轉(zhuǎn)化為二分類變量納入回歸模型分析。

(4)雙界點(diǎn)OR值最大法,首先,繪制自變量與logitπ之間的曲線關(guān)系,如圖1(a)和2(a)所示。其次,在形如圖1(a)和2(a)的“l(fā)ogitπvs自變量取值”的二維圖中從logitπ的最大值點(diǎn)出發(fā),用平行于x軸的直線橫切曲線并向下平移。每次橫切得到兩個(gè)交點(diǎn),直線上方的曲線覆蓋的自變量范圍對(duì)應(yīng)于高風(fēng)險(xiǎn)段,直線下方的曲線覆蓋的自變量范圍對(duì)應(yīng)于低風(fēng)險(xiǎn)段。然后,按照高、低風(fēng)險(xiǎn)對(duì)應(yīng)的自變量范圍將其重新賦值為二分類變量,再進(jìn)行l(wèi)ogistic回歸分析,得到OR值。最后,比較每次平移處得到的OR值,從中選擇使OR值達(dá)到最大值時(shí)兩個(gè)交點(diǎn)對(duì)應(yīng)的自變量取值作為最終的分界點(diǎn)。

4.模型效果的評(píng)價(jià)

模型效果的評(píng)價(jià)主要考慮模型的擬合優(yōu)度和變異的解釋程度。其中擬合效果的評(píng)價(jià)采用最小信息準(zhǔn)則,即AIC準(zhǔn)則(Akaike information criterion)、-2 Log likelihood;變異的解釋程度采用NagelkerkeR2系數(shù)進(jìn)行評(píng)價(jià)。

模擬研究及實(shí)例分析結(jié)果

1.模擬數(shù)據(jù)及實(shí)例數(shù)據(jù)來(lái)源

在R i386 3.0.3環(huán)境下產(chǎn)生包含連續(xù)型自變量X和因變量Y的模擬數(shù)據(jù)集,其中X~N(45,10),Y~B(500,0.25)。

實(shí)例數(shù)據(jù)來(lái)自一項(xiàng)有關(guān)廣州市社區(qū)居民乳腺癌防治知、信、行的現(xiàn)況研究。選取預(yù)防乳腺癌相關(guān)知識(shí)得分作為因變量,年齡作為自變量,通過(guò)實(shí)例數(shù)據(jù)比較4種方法處理數(shù)據(jù)后擬合logistic回歸模型的效果。

2.自變量和logitπ線性關(guān)系判定

圖1(a)和2(a)分別對(duì)模擬數(shù)據(jù)和實(shí)例數(shù)據(jù)采用半?yún)?shù)回歸模型擬合得到自變量和logitπ的函數(shù)關(guān)系圖,其中兩個(gè)自由度均有df>2,說(shuō)明自變量和logitπ不滿足線性關(guān)系。進(jìn)一步通過(guò)如圖1(b)和2(b)所示一階導(dǎo)數(shù)和二階導(dǎo)數(shù)圖,判斷自變量和logitπ函數(shù)關(guān)系的單調(diào)變化性。設(shè)函數(shù)f(x)在點(diǎn)X0處有二階導(dǎo)數(shù)且f′=0,f″≠0。那么當(dāng)f″<0時(shí),函數(shù)f(x)在點(diǎn)X0處取得極大值;當(dāng)f″>0時(shí),函數(shù)f(x)在點(diǎn)X0處取得極小值。通過(guò)一階導(dǎo)數(shù)和二階導(dǎo)數(shù),進(jìn)一步說(shuō)明自變量和logitπ為非單調(diào)變化關(guān)系。

圖1 半?yún)?shù)回歸模型擬合自變量和logitπ的函數(shù)關(guān)系圖及其一階導(dǎo)數(shù)、二階導(dǎo)數(shù)圖

3.用4種分類方法處理連續(xù)型自變量并擬合logistic回歸模型的效果

表1、表2分別為模擬數(shù)據(jù)、實(shí)例數(shù)據(jù)采用上述4種方法處理自變量后擬合logistic回歸模型的比較結(jié)果。

模擬數(shù)據(jù)分析結(jié)果顯示,連續(xù)型變量法、中位數(shù)法擬合logistic回歸模型,自變量X均無(wú)統(tǒng)計(jì)學(xué)意義(P=0.645和P=0.337);使用單界點(diǎn)P值最小法分類后的自變量有統(tǒng)計(jì)學(xué)意義(P=0.004、OR=0.451);使用雙界點(diǎn)OR值最大法分類后擬合模型自變量亦有統(tǒng)計(jì)學(xué)意義(P=0.024、OR=3.322)。

實(shí)例數(shù)據(jù)分析結(jié)果顯示,采用連續(xù)型變量法和中位數(shù)法分析,年齡均無(wú)統(tǒng)計(jì)學(xué)意義(P=0.172和P=0.451);使用單界點(diǎn)P值最小法分類后的自變量有統(tǒng)計(jì)學(xué)意義(P=0.003、OR=0.479),由此結(jié)果獲得的提示是35歲以上個(gè)體對(duì)乳腺癌相關(guān)知識(shí)的了解程度低于35歲以下個(gè)體。使用雙界點(diǎn)OR值最大法分類后擬合模型年齡具有統(tǒng)計(jì)學(xué)意義(P=0.019、OR=12.073),說(shuō)明中青年個(gè)體較低年齡和高年齡的個(gè)體對(duì)乳腺癌相關(guān)知識(shí)得分高。

模擬研究和實(shí)例分析均可見(jiàn),對(duì)于自變量和logitπ為非單調(diào)變化關(guān)系的數(shù)據(jù),基于OR值最大化的分類方法均能更好地捕捉到與結(jié)局有關(guān)聯(lián)關(guān)系的影響因素。與單界點(diǎn)P值最小法相比,雙界點(diǎn)OR值最大法能夠更合理地量化自變量和結(jié)局之間的聯(lián)系,且模型的擬合優(yōu)度、變異的解釋程度均比目前常用的連續(xù)型變量法和中位數(shù)分類法效果好。

表1 模擬數(shù)據(jù)擬合logistic回歸模型信息匯總表

表2 實(shí)例數(shù)據(jù)(乳腺癌知識(shí)調(diào)查)擬合logistic回歸模型信息匯總表

討論與建議

在醫(yī)學(xué)研究中連續(xù)型自變量很常見(jiàn),如年齡、腫瘤大小等。研究者常利用這些變量,采用多因素回歸模型刻畫其與結(jié)局間的關(guān)聯(lián),進(jìn)而探索疾病的危險(xiǎn)因素、估計(jì)預(yù)后、指導(dǎo)治療等[11]。研究者從臨床應(yīng)用的角度考慮,經(jīng)常將連續(xù)型的自變量轉(zhuǎn)化為二分類變量后擬合回歸模型[10],目前最常用的分類方法為中位數(shù)法[12]?;诓煌难芯繑?shù)據(jù),可得到不同的中位數(shù)估計(jì)值。因此,中位數(shù)法會(huì)導(dǎo)致不同的研究有不同的分界點(diǎn),從而使各研究結(jié)果橫向?qū)Ρ壤щy[13]。為了解決這一問(wèn)題,Lausen等提出了單界點(diǎn)P值最小法[14],試圖利用客觀的統(tǒng)計(jì)指標(biāo)去尋找分界點(diǎn)。因?yàn)檫B續(xù)型變量轉(zhuǎn)化為分類變量后,被分到同一組內(nèi)的個(gè)體均具有相同(或相近)的概率風(fēng)險(xiǎn)[15-16],而單界點(diǎn)P值最小法會(huì)使具有相同(或相近)概率風(fēng)險(xiǎn)的個(gè)體被分到不同組,從而造成不同組進(jìn)行比較時(shí)高低風(fēng)險(xiǎn)有所抵消。

針對(duì)連續(xù)型自變量如何選擇分界點(diǎn)的問(wèn)題,為了使不同研究結(jié)果具有可比性,同時(shí)能夠兼顧不同個(gè)體發(fā)生結(jié)局事件的概率風(fēng)險(xiǎn),本文提出雙界點(diǎn)OR值最大法,其要旨在于將OR值最大化作為尋找分界點(diǎn)的判定原則。之所以選擇OR值,是因?yàn)槠洳粌H能反映自變量和結(jié)局有無(wú)關(guān)系,而且能夠充分概括這種關(guān)系的強(qiáng)弱;當(dāng)篩選多個(gè)影響因素時(shí),可以根據(jù)OR值的大小排序,對(duì)應(yīng)于各影響因素的風(fēng)險(xiǎn)高低,便于在制定干預(yù)措施時(shí)把握輕重緩急,做到有的放矢。對(duì)于連續(xù)型自變量和logitπ為非單調(diào)變化關(guān)系的數(shù)據(jù)類型,建議借助OR值最大化的原則,對(duì)連續(xù)型自變量進(jìn)行分類后擬合logistic回歸模型。

1.Bagley SC,White H,Golomb BA.Logistic regression in the medical literature:standards for use and reporting,with particular attention to one medical domain.Journal of Clinical Epidemiology,2001,54(10):979-985.

2.Jewell NP.Statistics for Epidemiology.Boca Raton:Chapman and Hall/CRC,2003:179-198.

3.馮國(guó)雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個(gè)問(wèn)題.中華流行病學(xué)雜志,2004,25(6):544-545.

4.陳長(zhǎng)生,徐勇勇,夏結(jié)來(lái).半?yún)?shù)回歸模型及模擬實(shí)例分析.中國(guó)衛(wèi)生統(tǒng)計(jì),2001,18(6):338-340.

5.Ruppert D,Wand MP,Carroll RJ.Semiparametric Regression.New York:Cambridge University Press,2003:186-192.

6.Wand MP,Coull BA,F(xiàn)rench JL,et al.(2005).SemiPar 1.0.R package.http://cran.r-project.org.

7.Wand H,Ramjee G.Analyzing continuous measures in HIV prevention research using semiparametric regression and parametric regression models:how to use data to get the(right)answer?.AIDS and Behavior,2012,16(6):1448-1453.

8.Schellingerhout JM,Heymans MW,et al.Categorizing continuous variables resulted in different predictors in a prognostic model for nonspecific neck pain.Journal of Clinical Epidemiology,2009,62(8):868-874.

9.Knüppel L,Hermsen O.Median split,k-group split,and optimality in continuous populations.Advances in Statistical Analysis,2010,94(1):53-74.

10.Williams B,Mandrekar J,Mandrekar S,et al.Finding Optimal Cutpoints for Continuous Covariates with Binary and Time-to-Event Outcomes.In Technical Reports Series#79Rochester,MN:Department of Health Science Research,Mayo Clinic,2006.

11.Sauerbrei W,Royston P.Continuous variables:to categorize or to model?.Eighth International Conference on Teaching Statistics-Data and context in statistics education:Towards an evidence-based society,2010.

12.Maccallum RC,Zhang S,Preacher KJ,et al.On the practice of dichotomization of quantitative variables.Psychological Methods,2002,7(1):19-40.

13.Baneshi MR,Talei AR.Dichotomisation of continuous data:review of methods,advantages,and disadvantages.Iranian Journal of Cancer Prevention,2011,4(1):26-32.

14.Berthold Lausen,Martin Schumacher.Maximally selected rank statistics.Biometrics,1992,73-85.

15.Abdolell M,Leblanc M,Stephens D,et al.Binary partitioning for continuous longitudinal data:categorizing a prognostic variable.Statistics in Medicine,2002,21(22):3395-3409.

16.Schulgen G,Lausen B,Olsen JH,et al.Outcome-oriented cutpoints in analysis of quantitative exposures.American Journal of Epidemiology,1994,140(2):172-184.

(責(zé)任編輯:郭海強(qiáng))

廣東省高等教育教學(xué)改革重點(diǎn)項(xiàng)目(2013-113-11)

△通信作者:張晉昕,E-mail:zhjinx@m(xù)ail.sysu.edu.cn

猜你喜歡
連續(xù)型中位數(shù)實(shí)例
思維建模在連續(xù)型隨機(jī)變量中的應(yīng)用
連續(xù)型美式分期付款看跌期權(quán)
中位數(shù)計(jì)算公式及數(shù)學(xué)性質(zhì)的新認(rèn)識(shí)
基于晶圓優(yōu)先級(jí)的連續(xù)型Interbay搬運(yùn)系統(tǒng)性能分析
中位數(shù)教學(xué)設(shè)計(jì)
關(guān)于二維連續(xù)型隨機(jī)變量函數(shù)分布的推廣和運(yùn)算
完形填空Ⅱ
完形填空Ⅰ
临猗县| 格尔木市| 青岛市| 哈尔滨市| 孟连| 唐河县| 乌鲁木齐市| 格尔木市| 正镶白旗| 双牌县| 威信县| 贵德县| 柯坪县| 稷山县| 文化| 师宗县| 西林县| 日土县| 新乡县| 吉林省| 布尔津县| 黄冈市| 任丘市| 彝良县| 固镇县| 青海省| 平阳县| 永仁县| 盖州市| 衡南县| 怀柔区| 湖口县| 太白县| 灵石县| 顺昌县| 湖南省| 黄平县| 区。| 阳东县| 华容县| 郧西县|