關(guān) 雪,劉 冰,胡良平
Logistic回歸分析是定量描述多因素對定性結(jié)局變量影響情況的一種回歸分析方法,常用于研究致病因子與疾病之間的聯(lián)系[1]。在護(hù)理科研工作中,也可用于相關(guān)因素是否引起某些護(hù)理事件(如壓瘡、院內(nèi)感染、并發(fā)癥等)發(fā)生之間關(guān)系的研究。隨著護(hù)理學(xué)科的發(fā)展,Logistic回歸分析的應(yīng)用越來越廣泛,筆者回顧分析近年來涉及到Logistic回歸分析的護(hù)理論文,揭示Logistic回歸分析在應(yīng)用中存在一些值得商榷的問題,提出一些合理運(yùn)用Logistic回歸分析的改進(jìn)策略,為護(hù)理科研工作者更好地開展多因素護(hù)理研究、提高護(hù)理工作的質(zhì)量和效益提供一些有意義的參考。
1.1 應(yīng)用現(xiàn)狀概述 從統(tǒng)計(jì)學(xué)的角度進(jìn)行分類,Logistic回歸分析的應(yīng)用主要有3個(gè)方面[2],一是校正非試驗(yàn)因素對結(jié)果的影響,即將試驗(yàn)因素、非試驗(yàn)因素及其交互項(xiàng)(它們被統(tǒng)稱為協(xié)變量)全部納入回歸模型,能夠在控制眾多非試驗(yàn)因素的作用下,對試驗(yàn)因素與因變量之間的聯(lián)系做出更精確的定量描述,例如文獻(xiàn)3[3];二是篩選危險(xiǎn)因素,根據(jù)專業(yè)知識(shí)和基本常識(shí)納入對結(jié)局變量可能有影響的一切自變量,按照事先規(guī)定的檢驗(yàn)水準(zhǔn),將有統(tǒng)計(jì)學(xué)意義的自變量納入回歸模型,例如文獻(xiàn)4[4],這一類應(yīng)用在護(hù)理論文中最多;三是預(yù)測與判別,這是非條件Logistic回歸的重要應(yīng)用之一,通過檢驗(yàn),建立回歸方程,給定自變量數(shù)值,即可代入回歸方程計(jì)算相應(yīng)的概率預(yù)測值,對個(gè)體所屬類別作出概率性判別,例如文獻(xiàn)5[5]。
筆者按時(shí)間由近及遠(yuǎn),查詢了24篇運(yùn)用Logistic回歸分析的護(hù)理論文,從護(hù)理專業(yè)角度來看,Logistic回歸分析多見于臨床護(hù)理研究,社區(qū)護(hù)理、護(hù)理管理方面應(yīng)用較少;從Logistic回歸的分類來看,因變量為二值變量的非條件Logistic回歸應(yīng)用最多,配對設(shè)計(jì)條件Logistic回歸分析、因變量為多值有序變量的Logistic回歸分析的應(yīng)用較為少見。
1.2 存在問題舉例
1.2.1Logistic回歸分析名稱不祥 【例1】文獻(xiàn)《妊娠期糖尿病病人發(fā)生泌乳啟動(dòng)延遲的因素分析》[6],在摘要中寫道:“多變量Logistic回歸模型”;在其正文中又寫道:“多因素Logistic回歸分析”,這兩種描述都不夠貼切,也很不完整。
【辨析與釋疑】研究者在論文中應(yīng)寫明所采用的Logistic回歸分析的具體名稱,通常應(yīng)交代3個(gè)方面,即“設(shè)計(jì)類型(分為‘配對設(shè)計(jì)’與‘非配對設(shè)計(jì)’)”“因變量的類型(分為‘二值因變量’‘多值有序因變量’和‘多值名義因變量’)”和“自變量個(gè)數(shù)(分為‘一重’與‘多重’)”。例如:非配對設(shè)計(jì)二值因變量的多重Logistic回歸分析,而不應(yīng)簡單地寫作“Logistic回歸分析”。
【例2】在文獻(xiàn)7中[7],作者回顧分析320例重型顱腦損傷患者的臨床資料,將并發(fā)肺部感染的101例重型顱腦損傷患者作為病例組,其中男62例,女39例,年齡28~68歲;按1∶1的比例選擇同期未并發(fā)肺部感染的101例重型顱腦損傷患者作為對照組,其中男59例,女42例,年齡17~70歲。
【辨析與釋疑】顯然,該研究未按照年齡、性別進(jìn)行一一配對,也未說明按其他因素進(jìn)行配對,就不是嚴(yán)格的配對設(shè)計(jì)。事實(shí)上,作者也寫明了“采用的是非條件Logistic回歸分析”。也就是說,該文作者在描述臨床資料方面存在與事實(shí)不符的問題。需要注意的是在配對設(shè)計(jì)研究中,研究者應(yīng)當(dāng)說明病例組和對照組按照哪些因素進(jìn)行(1∶1或1∶r或m∶n)配對,如果沒有對研究對象按病例和對照進(jìn)行一一配對,僅僅是病例組和對照組在數(shù)量上以1∶1或其他比例納入研究,就不是真正的配對設(shè)計(jì),不能應(yīng)用條件Logistic回歸分析。文獻(xiàn)3[3],研究者按照產(chǎn)次、年齡、體質(zhì)指數(shù)對患妊娠期高血壓疾?。℉PD)孕婦和正常孕婦進(jìn)行1∶1配對,研究妊娠期膳食對HPD的影響,應(yīng)用了條件Logistic回歸分析。這是一個(gè)合理選擇統(tǒng)計(jì)分析方法的實(shí)例。
1.2.2 缺乏對模型整體的假設(shè)檢驗(yàn)和擬合優(yōu)度評(píng)價(jià)
【例3】文獻(xiàn) 《臨床護(hù)士心理授權(quán)與同情心疲乏程度的關(guān)系》[8],在數(shù)據(jù)處理部分描述了模型整體的假設(shè)檢驗(yàn)和擬合優(yōu)度評(píng)價(jià),“進(jìn)行似然比檢驗(yàn),P<0.05為模型有意義;進(jìn)行Pearson擬合優(yōu)度檢驗(yàn),P>0.05為模型擬合良好”。
【辨析與釋疑】Logistic回歸分析的假設(shè)檢驗(yàn)包括兩個(gè)方面的內(nèi)容[2],除了對模型中自變量的回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)之外,還需要對整個(gè)模型進(jìn)行假設(shè)檢驗(yàn),通常用似然比檢驗(yàn)(likelihood ratio test)。除了假設(shè)檢驗(yàn),還要對整個(gè)模型的擬合優(yōu)度(goodness-of-fit)進(jìn)行評(píng)價(jià),即考察基于回歸模型計(jì)算得到的預(yù)測值與實(shí)際數(shù)據(jù)之間是否有較高的一致性[9],一般采用偏差檢驗(yàn)、Pearsonχ2檢驗(yàn)、Homser-Lemeshow統(tǒng)計(jì)量和信息測量指標(biāo)(AIC、BIC)。然而在筆者收集的眾多論文中,只有例3這一篇論文說明對模型的擬合優(yōu)度進(jìn)行了檢驗(yàn)。
1.2.3 用單因素分析代替變量篩選 【例4】文獻(xiàn)《鼻咽癌患者放射治療后張口困難危險(xiǎn)因素的Logistic回歸分析》[10],文中描述了變量篩選的方法,“采用后退逐步法,在α=0.05水準(zhǔn)上,所研究的5個(gè)因素中,入選模型有3個(gè)因素:文化程度、功能鍛煉依從性、放射性口腔黏膜炎及皮炎,而與性別、年齡因素?zé)o顯著相關(guān),P>0.05。”文中雖然寫了變量篩選方法,“后退逐步法”這種說法是不準(zhǔn)確的。
【辨析與釋疑】Logistic回歸分析的資料通常會(huì)涉及到很多因素,如果都納入回歸模型進(jìn)行分析,由于可能存在一些對因變量影響無統(tǒng)計(jì)學(xué)意義的自變量,不僅增加了回歸模型的復(fù)雜度,而且會(huì)嚴(yán)重降低回歸模型的預(yù)測精度。因此,當(dāng)自變量個(gè)數(shù)≥2時(shí),應(yīng)采用合理的變量篩選方法,對自變量進(jìn)行初步篩選。自變量篩選的方法有很多,有逐步法、前進(jìn)法、后退法、最優(yōu)子集法,應(yīng)在論文中加以說明。如果自變量較多,可以選擇單因素分析中P值<0.25的自變量,納入研究,再采用上述4種變量篩選方法選擇變量進(jìn)入回歸模型[11]。
在筆者收集的論文中,大多數(shù)論文都是將單因素分析P<0.05的變量納入回歸模型,這種做法欠妥,因?yàn)閱我蛩胤治鲋袥]有統(tǒng)計(jì)學(xué)意義的變量不一定在多因素分析中也沒有統(tǒng)計(jì)學(xué)意義[11]。
1.2.4 無標(biāo)準(zhǔn)化回歸系數(shù) 【例5】文獻(xiàn)《重型顱腦損傷患者肺部感染危險(xiǎn)因素的Logistic回歸分析及護(hù)理對策》中討論部分[7],作者根據(jù)OR值判斷哪一個(gè)自變量是最危險(xiǎn)的因素,“呼吸機(jī)應(yīng)用是引起重型顱腦損傷患者肺部感染的最危險(xiǎn)因素(OR=2.704)”。
【辨析與釋疑】當(dāng)擬合出合適的回歸模型后,要計(jì)算自變量的標(biāo)準(zhǔn)化回歸系數(shù)(STB),以判斷各自變量對因變量的影響大小[2],而不是用OR值進(jìn)行判斷,也不是用未標(biāo)準(zhǔn)化自變量回歸系數(shù)進(jìn)行判斷。標(biāo)準(zhǔn)化回歸系數(shù)是消除了自變量計(jì)量單位及其離散程度的影響后計(jì)算其回歸系數(shù)得到的,標(biāo)準(zhǔn)化回歸系數(shù)的絕對值越大,該自變量對因變量的影響就越大。護(hù)理論文中,幾乎沒有作者給出標(biāo)準(zhǔn)化回歸系數(shù),這就不能正確評(píng)價(jià)各自變量對因變量的影響大小了。
1.2.5OR值的解釋欠合理 【例6】文獻(xiàn)《經(jīng)皮腎鏡碎石取石患者術(shù)后全身炎癥反應(yīng)綜合征的影響因素分析及護(hù)理對策》[12],文中將OR值解釋為“手術(shù)時(shí)間>2 h的全身炎癥反應(yīng)綜合征發(fā)生率為手術(shù)時(shí)間<2 h的2.003倍”,這種說法值得商榷,較為貼切的表述是“手術(shù)時(shí)間>2 h的全身炎癥反應(yīng)綜合征發(fā)生風(fēng)險(xiǎn)是手術(shù)時(shí)間<2 h的全身炎癥反應(yīng)綜合征發(fā)生風(fēng)險(xiǎn)的2.003倍”。
【辨析與釋疑】筆者查閱的每一篇文獻(xiàn)中,作者都列出了自變量的OR值(odds ratio,譯為“優(yōu)勢比”),但不是每一篇文獻(xiàn)都對OR值做出了合理的解釋。在回歸模型中,應(yīng)解釋為在其他變量保持不變的情況下,某自變量增加一個(gè)單位,結(jié)局事件發(fā)生的危險(xiǎn)度(或風(fēng)險(xiǎn))增加多少倍。這里切不可將危險(xiǎn)度(或風(fēng)險(xiǎn))理解為發(fā)生率,只有在發(fā)生率小于5%的情況下,OR值才接近RR值(relative risk,譯為“相對危險(xiǎn)度”),此處RR值才是暴露組與非暴露組發(fā)生率之比[13]。
2.1 合理選擇Logistic回歸方法 合理選擇Logistic回歸分析有關(guān)的基本要素有2個(gè):其一,資料所取自的設(shè)計(jì)類型,配對設(shè)計(jì)對應(yīng)的方法是配對設(shè)計(jì)資料Logistic回歸分析,也叫條件Logistic回歸分析,非配對設(shè)計(jì)對應(yīng)的是非配對設(shè)計(jì)資料Logistic回歸分析,常簡稱為一般Logistic回歸分析[6];其二,資料中因變量的類型,二值變量應(yīng)選擇“因變量為二值變量的Logistic回歸分析”;多值有序變量應(yīng)選擇 “因變量為多值有序變量的累計(jì)Logistic回歸分析”;名義變量應(yīng)選擇 “因變量為多值名義變量的擴(kuò)展Logistic回歸分析[14]”。
特殊情形下用到的嵌套 (或巢式)Logistic回歸模型和多水平Logistic回歸模型應(yīng)用較少,可詳細(xì)參閱相關(guān)文獻(xiàn)[15-16]。
2.2 了解自變量的集合是否具有完備性 在進(jìn)行回歸分析時(shí),納入研究的自變量不一定涵蓋對因變量有影響的全部自變量。因此,需努力提高研究設(shè)計(jì)水平,盡可能不遺漏掉重要的影響因素。此外還可以“引入派生自變量”,即在現(xiàn)有自變量的基礎(chǔ)上,產(chǎn)生出一系列派生的“自變量”,如原有自變量的平方項(xiàng)或立方項(xiàng)、某兩個(gè)原有自變量的乘積項(xiàng)(或稱交互作用項(xiàng)),某一自變量的對數(shù)、倒數(shù)、平方根等??梢試L試采用“原有自變量”和“派生自變量”作為“全部自變量”,參與回歸模型自變量的篩選過程[17]。
2.3 全面把握篩選自變量的策略 前文提到篩選自變量的方法有4種,除最優(yōu)回歸子集法外,其他3種篩選自變量方法所得到的篩選結(jié)果不盡相同,研究者可以在保留截距項(xiàng)和不保留截距項(xiàng)的前提條件下,都采取 “前進(jìn)法”“后退法”和“逐步法”篩選自變量,共有6種篩選策略,最優(yōu)回歸子集法可以探索出含不同數(shù)目自變量的多個(gè)“最佳回歸模型”,再結(jié)合專業(yè)知識(shí)和擬合優(yōu)度檢驗(yàn),從中選擇最合適的回歸模型。具體實(shí)施方法可參閱相關(guān)文獻(xiàn)[17]。
在回歸分析中,還有一個(gè)帶有共性的問題,就是“名詞概念混亂”。例如:多因素回歸分析、多變量回歸分析、多元回歸分析。“多因素回歸分析”強(qiáng)調(diào)的是影響因素(即自變量)有多個(gè)而不是一個(gè);“多變量回歸分析”中的“變量”究竟是指“自變量”還是“因變量”,不得而知;“多元回歸分析”強(qiáng)調(diào)的是因變量有多個(gè)而不是一個(gè),但很多人卻認(rèn)為這里的“多元”指多個(gè)“自變量”。在統(tǒng)計(jì)學(xué)中,“元”指因變量的個(gè)數(shù)、“重”指自變量的個(gè)數(shù)。事實(shí)上,研究者使用這些詞匯表達(dá)的都是一元多重回歸分析,簡稱多重回歸分析即可[17]。
綜上所述,可以看出,Logistic回歸分析是一個(gè)在臨床科研中非常實(shí)用且又難以全面準(zhǔn)確把握的統(tǒng)計(jì)分析方法。筆者回顧性總結(jié)了發(fā)表在護(hù)理雜志上與Logistic回歸分析有關(guān)的論文,指出其存在的問題,并給出了辨析與釋疑;呈現(xiàn)了合理選擇Logistic回歸分析和構(gòu)建Logistic回歸模型的基本要素,但愿這些內(nèi)容能給讀者提供一些有益的幫助和啟迪。