国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于因果關(guān)系圖進(jìn)行多因素回歸分析的變量篩選*

2014-03-10 07:04:25鄭衛(wèi)軍王曉燕王
中國衛(wèi)生統(tǒng)計(jì) 2014年5期
關(guān)鍵詞:因果關(guān)系工具變量

鄭衛(wèi)軍王曉燕王 憓

基于因果關(guān)系圖進(jìn)行多因素回歸分析的變量篩選*

鄭衛(wèi)軍1△王曉燕1王 憓2

在流行病學(xué)研究中,常見的是采用建立線性或者logistic回歸的方法分析兩種或者多種現(xiàn)象之間的因果關(guān)系。觀察性的研究中,研究者期望分析某種健康/疾病產(chǎn)生的多種原因,因此在構(gòu)建線性或者分類回歸(如logistic)模型上,往往采用同時納入多種變量的方式模擬真實(shí)場景來分析這種健康/疾病現(xiàn)象產(chǎn)生的可能原因;臨床試驗(yàn)中,雖然研究者主要關(guān)注干預(yù)或者實(shí)驗(yàn)措施的有效性,但是多因素回歸模型往往也是最受歡迎的統(tǒng)計(jì)學(xué)方法。

存在的變量選擇問題

由于回歸分析方法的積極作用和其使用的相對簡單性,采用多因素線性回歸特別是logistic回歸分析的論文汗牛充棟,研究人員樂此不彼,但是由此產(chǎn)生了大量濫用、錯用、誤用的論文[1],即便是國家級核心期刊也無法幸免??v觀文獻(xiàn),鑒于本文主要關(guān)注的是模型變量篩選問題,從變量篩選方面來看,最大的問題是很多論文希望能夠更加真實(shí)地模擬現(xiàn)實(shí)狀況,把回歸方程建成一個龐大的因果關(guān)系體系。因此,一個模型往往包括十幾個甚至數(shù)十個自變量。由此產(chǎn)生很多問題[2-3],如:①由于樣本量有限,造成模型系數(shù)的標(biāo)準(zhǔn)誤過大,②多重共線性的問題普遍存在,③大量多余的變量納入到模型中,最終導(dǎo)致模型擬合效果較差,所構(gòu)建的模型無法反映真實(shí)狀況。針對這種情況,很多學(xué)者也提出了一些建議[2,4],包括調(diào)整樣本量與模型自變量數(shù)量的比例、處理多重共線性、設(shè)置納入變量的標(biāo)準(zhǔn)(如單因素分析中P值小于一定水平的變量納入到多因素回歸模型)。筆者看來,上述方法具有一定的效果,但是依然只是從統(tǒng)計(jì)學(xué)層面而未能更深層次地探討多因素回歸變量篩選的困惑。

因果關(guān)系圖

因果關(guān)系圖特別是有向無環(huán)圖(directed acyclic graphs,DAGs)是流行病學(xué)研究中分析疾病因果關(guān)系一種重要的理論框架[5-6]。因此,本文將通過構(gòu)建DAGs的方式來闡述行之有效的多因素回歸變量選擇方法。

一個簡單的DAGs如圖1。

圖1 基本的DAGs示意圖

從圖1可以描述以下幾種因果關(guān)系。

(1)X、U都是Y的影響因素,對Y有直接的影響

(2)Y是Z的直接影響因素

(3)X、U都是Z的影響因素,對Z有間接的影響

從統(tǒng)計(jì)學(xué)角度來說,該DAGs將存在下述的現(xiàn)象:

(1)X、U與Y、Z都存在著統(tǒng)計(jì)學(xué)相關(guān)

(2)X、U在統(tǒng)計(jì)學(xué)上相互獨(dú)立

(3)DAGs模型存在著連接點(diǎn)和障礙點(diǎn)。X、Z本身相關(guān),兩者存在著相關(guān)通路,然而,當(dāng)建立條件相關(guān)模型時,即整個統(tǒng)計(jì)分析存在著另外一個變量Y時,X、Z不再存在統(tǒng)計(jì)學(xué)相關(guān),即因此Y又稱X、Z的障礙點(diǎn)(blocker);另外一種情況,X、U本身在統(tǒng)計(jì)學(xué)上獨(dú)立,然而整個模型存在著Y或者Z時,同時X、U箭頭均指向因此Y和Z在這種情況可被稱之為X、U的連接點(diǎn)(collider)。

從DAGs模型,可以一窺多因素模型中,因素與因素之間的關(guān)系。認(rèn)真考慮因素之間的關(guān)系和其中存在著的障礙點(diǎn)、連接點(diǎn),完全可以從更深層次的角度來進(jìn)行變量的篩選。

DAGs與統(tǒng)計(jì)變量的篩選

為了更詳細(xì)展示借助DAGs進(jìn)行回歸模型變量的篩選,本文對圖1模型進(jìn)行更為復(fù)雜的構(gòu)建(見圖2)

若Z為一種發(fā)病或者不發(fā)病的狀態(tài),欲研究Z疾病產(chǎn)生的危險(xiǎn)因素,是否可以將X、W、T、S、U、Y都納入進(jìn)來?目前大量的論文采取的策略便是全部納入到logistic回歸模型,采用逐步回歸法進(jìn)行分析。這是一種錯誤的策略。

(1)如果X、Y同時在場,其結(jié)果如何?在這種情況下,Z、Y的統(tǒng)計(jì)學(xué)關(guān)聯(lián)將不受影響,然而Z、X的關(guān)系本來是直接和間接關(guān)系的總和,但由于因此Z、X的關(guān)系只剩下直接關(guān)系,而間接的關(guān)系因?yàn)檎系K點(diǎn)的存在已經(jīng)無法在統(tǒng)計(jì)學(xué)上體現(xiàn)出來了。

圖2 多層次、多因素復(fù)雜DAGs示意圖

(2)S與Z存在著什么樣的關(guān)系?從DAGs的理論來說,由于S和Z都受到X的影響,因此兩者存在著相關(guān)性,然而,兩者卻不存在因果關(guān)系。

(3)W、T與Z的關(guān)系呢?此時,可以發(fā)現(xiàn),W、T與Z本身是統(tǒng)計(jì)學(xué)上獨(dú)立,兩者不存在著相關(guān)性,但是X、S都為連接點(diǎn),因此當(dāng)四者同時存在時W、T將建立與Y的相關(guān)性。

(4)如果研究Y、Z的關(guān)系,需要不需要U的存在?從DAGs模型,可以很容易發(fā)現(xiàn),U是一個重要的混雜因素(U既影響Z,也影響Y),根據(jù)DAGs理論,Y和Z的關(guān)系因?yàn)閁的存在而發(fā)生了偏倚,模型必須要納入U(xiǎn),剔除U的影響,才可以正確描述Y和Z的因果關(guān)系。

因此,如果要研究Y和Z的關(guān)系,不能過多地考慮S、W、T的關(guān)系,從理論上它們與Z不存在因果關(guān)系;同時,必須考慮混雜因素U的存在,將其納入到模型中來。在模型中X和Y的關(guān)系非常微妙,若要研究X和Z的關(guān)系,便不能允許Y這個變量在模型中,否則X的影響力將被改變,但此時不影響Y和Z的關(guān)系。

工具變量和未知混雜因素的研究

在流行病學(xué)研究中,往往所分析的因素有限,一些未知的混雜因素在很大程度上將影響對若干重要變量的評估。這種情況在觀察性研究和干預(yù)性研究中較為常見。比較典型的一個例子出現(xiàn)在臨床試驗(yàn)中意向性治療現(xiàn)象中(the intent-to-treat,ITT)[7]。某一些群體由于未知的原因未能按照臨床試驗(yàn)的要求接受治療或成為對照組,造成臨床隨機(jī)狀態(tài)不復(fù)存在,但又無法將未知的混雜因素納入到模型中,所以干預(yù)結(jié)果可能存在一定的偏倚。針對這種情況,近年來,學(xué)者根據(jù)DAGs提出了一個工具變量(instrumental variables,IV)的概念,用于調(diào)整流行病學(xué)中的未知混雜變量[8]。

工具變量是一類符合下列條件之一的變量:①對干預(yù)(暴露)因素有作用,也只能通過干預(yù)(暴露)因素與結(jié)局的發(fā)生關(guān)聯(lián),②與干預(yù)(暴露)因素相關(guān),也只能通過干預(yù)(暴露)的因素與結(jié)局發(fā)生關(guān)聯(lián)。但凡可以通過影響其他變量或與其他變量相關(guān)的方式與干預(yù)(暴露)因素或者結(jié)局建立關(guān)聯(lián)的變量,就不再是工具變量。結(jié)合圖2來看,X是一類工具變量,符合條件①,而S是另外一類工具變量,符合條件②。深入探討工具變量,可以從圖2中X(工具變量)、Y(干預(yù)變量)、Z(結(jié)局變量)、U(混雜變量)四者的概率關(guān)系予以分析:

假如欲分析干預(yù)變量Y和結(jié)局變量Z的因果關(guān)系,那么,

(1)Y、Z的關(guān)系包括了Y和Z真實(shí)的因果關(guān)系以及由于混雜因素U存在,Y、Z建立起來的虛假因果關(guān)系。由于混雜因素U未知,Y、Z真實(shí)的關(guān)系將存在偏倚。

(2)已知的情況有兩種(均不受U影響),X與Y的真實(shí)關(guān)聯(lián)性,X與Z的真實(shí)關(guān)聯(lián)性。其中,X與Y的關(guān)系可以表述為因此,由于從而我們可以算出真實(shí)的建立Y和Z真實(shí)關(guān)系。

例如:進(jìn)行臨床某新型降血糖藥物的干預(yù)研究,采用隨機(jī)雙盲實(shí)驗(yàn),將研究對象隨機(jī)分為藥物組和安慰劑,而結(jié)局為血糖降到正常水平(是/否),然而,由于某種原因,導(dǎo)致病情好轉(zhuǎn)或惡化,研究對象選擇了放棄或者改變藥物治療手段,從而導(dǎo)致隨機(jī)化這一努力失敗。無論是排除這一特殊群體,還是根據(jù)所有人群實(shí)際情況進(jìn)行分析,其真實(shí)的藥物效果都可能受到干擾。

從工具變量的角度可以發(fā)現(xiàn),隨機(jī)化分組對療效具有明顯的作用,但是它不會影響其他任何的行為,只通過影響研究對象是否進(jìn)行干預(yù)而最終影響療效,所以它是一個比較好的工具變量。

舉例:為什么人口社會經(jīng)濟(jì)學(xué)特征一般不作為解釋變量進(jìn)行討論

筆者將以往論文的數(shù)據(jù)作為例子進(jìn)行再分析[9],探討糖調(diào)節(jié)受損者糖尿病發(fā)病的主要發(fā)病因素,假設(shè)待研究的包括自變量性別、年齡、家族糖尿病史、基線血糖水平,和因變量糖調(diào)節(jié)受損者轉(zhuǎn)歸結(jié)局(2年后)。

常規(guī)的方法是將上述所有自變量放在logistic回歸模型中進(jìn)行多因素回歸分析。如果同時列入性別、年齡、家族史、基線血糖水平,logistic模型將得到以下結(jié)果(表1):除了基線血糖水平,其他因素都沒有統(tǒng)計(jì)學(xué)意義。那么如果根據(jù)這個結(jié)果,是否可以暫時認(rèn)為性別、年齡、家族史對糖調(diào)節(jié)受損者的轉(zhuǎn)歸沒有影響?然而,如果去掉基線血糖水平這個因素再重新建模,結(jié)果發(fā)現(xiàn),三個因素都有統(tǒng)計(jì)學(xué)意義。

表1 兩個logistic回歸模型的分析結(jié)果

理論上,上述變量的因果關(guān)系圖較為明確(圖3)。年齡、性別、家族史將先通過影響基線血糖水平從而影響糖調(diào)節(jié)受損者轉(zhuǎn)歸,但是在本例中發(fā)揮著非直接,而是間接的作用?;€血糖扮演的角色則是障礙點(diǎn),采用logistic回歸分析,在基線血糖這個變量存在的情況下,年齡、性別、家族史的作用無法體現(xiàn)出來。在這種情況下,如果討論年齡、家族史和性別的作用,那么就將產(chǎn)生錯誤結(jié)論。因此,考慮到混雜偏倚的情況,較為妥善的思路是,人口社會經(jīng)濟(jì)學(xué)特征只是作為協(xié)變量或者調(diào)解變量存在,在論文的討論中不應(yīng)著墨分析。

圖3 糖尿病發(fā)病因素簡單DAGs示意圖

討論和建議

從上述分析可以發(fā)現(xiàn),DAGs模型在回歸分析中發(fā)揮了一定的作用。它可以較為清晰地展現(xiàn)變量與變量之間的關(guān)系,了解自變量的層次結(jié)構(gòu)、變量之間的因果或者相關(guān)關(guān)聯(lián)、自變量與因變量的直接和間接關(guān)系,從而有助于統(tǒng)計(jì)分析中進(jìn)行模型變量納入篩選。通過比較DAGs模型和目前文獻(xiàn)中多因素回歸分析現(xiàn)狀,可以發(fā)現(xiàn)當(dāng)前很多論文中:①很多只是存在相關(guān)的變量,被納入到模型中建立了因果關(guān)聯(lián)性如圖2中S變量;②一些事實(shí)上與結(jié)局沒有因果甚至是相關(guān)的變量,由于連接點(diǎn)的存在,統(tǒng)計(jì)分析中成為了有統(tǒng)計(jì)學(xué)意義的因素,如W、T變量;③由于另外變量的存在,一些因素的作用被改變,比如由于Y的存在,導(dǎo)致了X的作用被誤解;④混雜因素被放大或者被忽略,如將任何其他變量都作為潛在混雜因素放入模型,或者完全不考慮重要的混雜變量。

從DAGs中,筆者歸納總結(jié)出以下幾點(diǎn)想法:第一,構(gòu)建多因素回歸模型之前,認(rèn)真進(jìn)行理論因果模型的構(gòu)建勢在必行,必須改變目前只看數(shù)據(jù)不論因果進(jìn)行統(tǒng)計(jì)推斷的現(xiàn)狀。采用DAGs的方法可控制模型的因素,納入合適的主要變量進(jìn)行分析,提高統(tǒng)計(jì)模型的效能。第二,不同水平的變量盡量分別建模,如X、Y盡量在不同模型去考慮對Z的影響,這將減少多重共線性對模型的影響。特別需要考慮人體一些疾病標(biāo)志物因素。這些因素與結(jié)局變量存在著高度相關(guān)(如本文舉例的“基線血糖”),一旦其進(jìn)入回歸模型,其他因素的作用將很難體現(xiàn)出來。第三,混雜因素已經(jīng)成為流行病學(xué)研究中考慮的關(guān)鍵因素,在統(tǒng)計(jì)分析中應(yīng)重點(diǎn)考慮。在統(tǒng)計(jì)推斷之前,需認(rèn)真分析潛在混雜變量與干預(yù)(暴露)因素和結(jié)局變量的關(guān)系,一旦與兩者都不存在著關(guān)聯(lián)性,可以初步認(rèn)定為非混雜因素,可以考慮不納入到模型中。在模型分析階段,目前有一些已知混雜因素處理方法,如逐步回歸法、傾向性匹配技術(shù)等,這些方法已經(jīng)成熟,不再贅述。筆者認(rèn)為,在可能的情況下,可以試圖考慮未知混雜因素的處理,嘗試尋找工具變量的方法進(jìn)行分析。當(dāng)然,必須承認(rèn)的事實(shí)是,工具變量是一類較難發(fā)現(xiàn)的變量,一般情況下,那些類似于隨機(jī)分組的變量,往往最有可能成為工具變量,這是尋找的一種策略。

1.馮國雙,陳景武,周春蓮.logistic回歸應(yīng)用中容易忽視的幾個問題.中華流行病學(xué)雜志,2004,25(6):544-545.

2.劉宏杰.Logistic回歸模型使用注意事項(xiàng)和結(jié)果表達(dá).中國公共衛(wèi)生,2001,17(5):466-467.

3.金水高.第十五講logistic回歸方法的正確應(yīng)用及結(jié)果的正確解釋.中華預(yù)防醫(yī)學(xué)雜志,2003,37(3):204-206.

4.楊梅,肖靜,蔡輝.多元分析中的多重共線性及其處理方法.中國衛(wèi)生統(tǒng)計(jì),2012,29(4):620-624.

5.Greenland S,Pearl J,Robins JM.Causal diagrams for epidem iologic research.Epidem iology,1999,10(1):37-48.

6.Weng HY,Hsueh YH,Messam LL,etal.Methods of covariate selection:directed acyclic graphs and the change-in-estimate procedure.Am JEpidemiol,2009,169(10):1182-1190.

7.Hollis S,Campbell F.What ismeant by intention to treat analysis?Survey of published randomised controlled trials.BMJ,1999,319(7211):670-674.

8.Davies NM,Sm ith GD,W indmeijer F,et al.Issues in the reporting and conduct of instrumental variable studies:a systematic review.Epidem iology,2013,24(3):363-9.

9.鄭衛(wèi)軍,沈祥峰,周馳.糖調(diào)節(jié)受損者睡眠質(zhì)量與糖尿病發(fā)病關(guān)系的研究.中華流行病學(xué)雜志,2012,33(11):31-33.

(責(zé)任編輯:劉 壯)

*基金支持:浙江省自然科學(xué)基金(LQ13H260001)

1.浙江中醫(yī)藥大學(xué)基礎(chǔ)醫(yī)學(xué)院預(yù)防教研室(310053)

2.浙江省疾病預(yù)防控制中心

△通信作者:鄭衛(wèi)軍,E-mail:deardangjun@163.com

猜你喜歡
因果關(guān)系工具變量
抓住不變量解題
玩忽職守型瀆職罪中嚴(yán)重不負(fù)責(zé)任與重大損害后果的因果關(guān)系
波比的工具
波比的工具
也談分離變量
做完形填空題,需考慮的邏輯關(guān)系
“巧用”工具
讀者(2017年18期)2017-08-29 21:22:03
幫助犯因果關(guān)系芻議
SL(3,3n)和SU(3,3n)的第一Cartan不變量
介入因素對因果關(guān)系認(rèn)定的影響
阿巴嘎旗| 枣强县| 云龙县| 宜宾市| 克什克腾旗| 南昌县| 台安县| 治多县| 龙门县| 澄江县| 西盟| 黄骅市| 和林格尔县| 广丰县| 平武县| 六盘水市| 鄯善县| 宝鸡市| 壤塘县| 昭平县| 上思县| 湖北省| 闵行区| 叶城县| 梧州市| 静安区| 江川县| 临江市| 永靖县| 宜阳县| 玛沁县| 莱州市| 靖边县| 旌德县| 荥经县| 内丘县| 中江县| 水富县| 富源县| 贵定县| 内江市|