胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在傳統(tǒng)的多重線性回歸分析中,有3個隱含的前提條件,即假定全部自變量是同時存在的、地位平等的、互相獨立的。而在許多實際問題中,某些自變量可能與另一些自變量之間并不獨立,甚至存在顯著的依賴關(guān)系[1]。因此,有必要將自變量劃分成3種類型:處理變量(T)、中介變量(M)和協(xié)變量(C)。劃分的依據(jù)、如何定義和識別變量之間的因果中介效應(yīng),是因果中介效應(yīng)分析的基本內(nèi)容。本文先介紹因果中介效應(yīng)分析的理論基礎(chǔ),再結(jié)合一個實例,分別采用傳統(tǒng)的多重線性回歸分析[2]、不考慮協(xié)變量和考慮協(xié)變量的因果中介效應(yīng)分析[3],展示協(xié)變量在因果中介效應(yīng)分析中的作用,并對分析結(jié)果進(jìn)行比較和解釋。
在研究變量之間的依賴關(guān)系時,最簡單的做法是將全部變量劃分為自變量和因變量。這種劃分是基于前述提及的3個隱含的前提條件,但在很多實際問題中,這些前提條件并不能滿足。于是,統(tǒng)計學(xué)家將自變量劃分為處理變量、中介變量和協(xié)變量[3]。處理變量:對結(jié)果變量Y有直接和間接因果效應(yīng)的變量。在流行病學(xué)中,處理變量常被稱為暴露與否。中介變量:處理變量T對其有直接因果效應(yīng),而它本身對結(jié)果變量Y又有直接因果效應(yīng)。協(xié)變量:對處理變量T、中介變量M和結(jié)果變量Y都可能有影響的一組預(yù)處理或背景變量,它們混淆了觀測到的Y、T和M之間的關(guān)系。
最簡單的因果中介效應(yīng)包括以下兩種因果途徑。直接途徑:T→Y;中介途徑:T→M→Y。第一個因果途徑產(chǎn)生T對Y的直接效應(yīng),第二個因果途徑產(chǎn)生T對Y的間接效應(yīng)。假設(shè)Y、T和M都是連續(xù)變量,如果研究者忽略了因果關(guān)系,使用線性模型的形式構(gòu)建Y關(guān)于T的回歸模型,見式(1)。
式(1)中,e是一個誤差項,其期望值為0,γ0是一個截距,則γ1被稱為T對Y的總效應(yīng)。該總效應(yīng)是T對Y的總效應(yīng),而不涉及特定路徑。一般來說,Y、T和M之間的關(guān)系由兩個線性回歸模型描述。見式(2)、式(3)。
式(2)和式(3)中,ε和δ是期望值為0的誤差項,這兩個回歸模型的參數(shù)如下:β0是預(yù)測M的回歸模型的截距,θ0是預(yù)測Y的回歸模型的截距,β1是T→M路徑的效應(yīng),θ1是T→Y路徑的效應(yīng),θ2是M→Y路徑的效應(yīng)。將預(yù)測M的回歸模型[式(2)]代入預(yù)測Y的回歸模型[式(3)]中,得到式(4)。
回歸模型(4)是回歸模型(1)的另一種表現(xiàn)形式,故它們等號右邊的三項是對應(yīng)相等的,于是,第二項的系數(shù)可寫成如下關(guān)系式,見式(5)。
假設(shè)線性回歸模型為真,則式(5)等號右側(cè)的兩個分量相加表示總效應(yīng)。因為第一個分量θ1代表T→Y路徑的直接效應(yīng),第二個分量θ2β1代表T對Y的非直接效應(yīng),或者只是T對Y的間接效應(yīng)。研究者也可以直觀地解釋這個間接效應(yīng)(θ2β1),它是沿著間接路徑T→M→Y而產(chǎn)生的效應(yīng)。因此,從概念上講,總效應(yīng)分解可寫作式(6)。
直接和間接效應(yīng)分量也由連續(xù)變量Y、T和M的線性回歸模型中的參數(shù)定義。然而,總效應(yīng)分解的說明在本質(zhì)上是非常特別的,它基于對連續(xù)變量的線性回歸模型進(jìn)行比較,沒有直接和間接效應(yīng)的先驗定義。因此,對于T和M之間存在相互作用效應(yīng)的非線性模型或線性模型,式(6)將不成立。一個原因是分解中可能有2個以上的項,故直接-間接分解是不準(zhǔn)確的;另一個原因是,在非線性模型中,各種效應(yīng)會變得更加復(fù)雜,如何獲得這些直接和間接效應(yīng)分量尚不清楚。
通常情況下,協(xié)變量C會成為前述提及的三類變量Y、T和M的共同原因。在觀察性研究中,Y、T和M之間的關(guān)聯(lián)分為兩部分:一部分是它們之間的實際因果關(guān)系;另一部分是C誘導(dǎo)的關(guān)聯(lián),這部分誘導(dǎo)的關(guān)聯(lián)通常被稱為混淆關(guān)聯(lián)。為了在觀察性研究中獲得因果中介和相關(guān)效應(yīng)的無偏估計,統(tǒng)計分析方法必須能夠“消除”混淆關(guān)聯(lián)。
傳統(tǒng)回歸分析方法的一個問題是:缺乏一個提供因果中介和相關(guān)效應(yīng)的明確定義的總體框架,故無法有效處理交互效應(yīng),無法在統(tǒng)一的框架內(nèi)處理二值結(jié)果變量和二值中介變量。反事實框架為這個問題提供了解決方案[4-5]。在反事實框架內(nèi),直接和間接的效應(yīng)都是根據(jù)反事實的結(jié)果來定義的。根據(jù)這些定義得出了分析結(jié)果,用于計算各種類型處理變量和結(jié)果變量的廣泛參數(shù)模型下的因果中介效應(yīng)[6]。有學(xué)者將這些結(jié)果擴(kuò)展到了二值中介變量和計數(shù)結(jié)果變量,這一發(fā)展路線為因果過程提供了理論基礎(chǔ)[7]。
反事實結(jié)果是研究者在假設(shè)干預(yù)下觀察到的結(jié)果,即可能與事實結(jié)果相反的情景。以下符號用于表示干預(yù)措施的反事實結(jié)果:Yt是處理變量的水平被設(shè)置為T=t時,受試者的結(jié)果變量Y的反事實結(jié)果;Mt是處理變量的水平被設(shè)置為T=t時,受試者的中介變量M的反事實結(jié)果;Ytm是處理變量的水平被設(shè)置為T=t以及中介變量的水平被設(shè)置為M=m時,受試者的結(jié)果變量Y的反事實結(jié)果。這些符號對變量類型沒有限制,變量Y、T和M可以是連續(xù)的,也可以是二值的。
假設(shè)處理變量是二值變量,t的取值是0或1,分別表示對照組和處理組。受試者的總效應(yīng)(Total effect,TE)被定義為處理和對照水平的反事實結(jié)果的差異。見式(7)。
式(7)等號右邊的2項中,Y的第一個下標(biāo)表示處理變量的具體取值(為1或0);第二個下標(biāo)表示中介變量的具體取值(為M1或M0),M1為T=1條件下中介變量的取值,M0為T=0條件下中介變量的取值。
受試者的受控直接效應(yīng)(controlled direct effect,CDE)被定義為兩個處理水平的反事實結(jié)果的差異,即中介變量被設(shè)置為特定水平M=m時,見式(8)。
受試者的自然直接效應(yīng)(natural direct effect,NDE)被定義為兩個處理水平的反事實結(jié)果的差異,即中介變量的水平被設(shè)置為M=M0,這是沒有中介變量參與時處理變量的自然水平,見式(9)。
受試者的自然間接效應(yīng)(natural indirect effect,NIE)被定義為處理變量的水平被設(shè)置為T=1時,M1和M0兩個中介水平的反事實結(jié)果的差異,見式(10)。
如果處理變量是連續(xù)的,那么必須根據(jù)感興趣的處理和控制水平來定義處理變量的水平。例如,如果t1和t0是連續(xù)變量的處理和控制水平,并且,它們代表了實質(zhì)性關(guān)注的水平,則它們應(yīng)分別替換定義中處理和控制水平的1和0值。
以上給出的定義有兩個重要屬性:①它們導(dǎo)致總效應(yīng)TE的以下常規(guī)雙向分解,見式(11);②它們獨立于結(jié)果或中介模型。因此,它們和總效應(yīng)分解適用于線性或非線性模型,無論T和M之間是否存在交互效應(yīng)。
中介的總效應(yīng)百分比(percentage of total effect that is mediated,PM)計算方法見式(12)。
VanderWeele[8]進(jìn)一步介紹了總效應(yīng)的以下四向分解,見式(13)。
式(13)中,CDE為受控直接效應(yīng),IRF為參考相互作用,IMD為中介相互作用,PIE為純間接效應(yīng),這4個組成部分的效應(yīng)也被定義為反事實結(jié)果。
2.1.1 資料來源與背景信息
【例1】文獻(xiàn)[3]提供的例子:仿照Marjoribanks討論的理論教育模式[9],模擬了一組數(shù)據(jù),旨在了解父母提供的鼓勵性環(huán)境(Encourage)是否會影響兒童的認(rèn)知發(fā)展(CogPerform)。一個關(guān)鍵問題是,父母鼓勵的效應(yīng)是否部分歸因于它增強(qiáng)了兒童的學(xué)習(xí)動機(jī)(Motivation)。父母鼓勵效應(yīng)可能通過以下兩種途徑來體現(xiàn),直接途徑:Encourage→CogPerform;中介途徑:Encourage→Motivation→CogPerform。在中介分析的術(shù)語中,Encourage是處理變量或暴露變量,Motivation是中介變量,CogPerform是結(jié)果變量。假定已按照某種規(guī)則產(chǎn)生出300個觀測數(shù)據(jù)的模擬樣本,保存在名為Cognitive的數(shù)據(jù)集中,在此數(shù)據(jù)集中,每個觀測有六個變量值,其名稱和含義如下。CogPerform:兒童在認(rèn)知測試中的得分;Encourage:問卷中關(guān)于父母鼓勵行為的三個項目的總分;FamSize:兒童所在家庭的規(guī)模;Motivation:兒童、教師和主要監(jiān)護(hù)人對兒童動機(jī)水平的評分;SocStatus:兒童的社會地位,是家庭收入、父母職業(yè)和父母受教育程度的綜合衡量標(biāo)準(zhǔn);StudentID:兒童的編號。其中,F(xiàn)amSize和SocStatus是背景或預(yù)處理變量(簡稱協(xié)變量),研究者希望在觀測各種因果效應(yīng)時對其進(jìn)行控制。試基于以上資料,分析處理變量、中介變量和協(xié)變量對結(jié)果變量的因果中介效應(yīng)。
2.1.2 創(chuàng)建用于因果中介效應(yīng)分析的數(shù)據(jù)集
設(shè)所需要的SAS程序如下:
【說明】詳細(xì)數(shù)據(jù)見文獻(xiàn)[3],此處從略。
2.2.1 基于傳統(tǒng)的多重線性回歸分析方法計算
【分析與解答】設(shè)所需要的SAS程序如下:
【SAS程序說明】model語句的等號后列出了4個變量,即把協(xié)變量(FamSize和SocStatus)、處理變量(Encourage)和中介變量(Motivation)視為地位平等的自變量。
【SAS主要輸出結(jié)果及解釋】因篇幅所限,輸出結(jié)果從略?,F(xiàn)將主要內(nèi)容解釋如下:兩個協(xié)變量(FamSize和 SocStatus)對結(jié)果變量(CogPerform)的影響無統(tǒng)計學(xué)意義,將它們刪除后重新建模,主要輸出結(jié)果見表1。
表1 精簡后的傳統(tǒng)多重線性回歸分析結(jié)果Table 1 Simplified traditional multiple linear regression analysis results
與模型中保留2個協(xié)變量所得到的結(jié)果(此處未輸出)相比,由表1可看出:處理變量(Encourage)和中介變量(Motivation)對結(jié)果變量(CogPerform)的影響略有提升,說明被刪除的兩個協(xié)變量對處理變量(Encourage)和中介變量(Motivation)的混淆作用似乎不嚴(yán)重。
2.2.2 因果中介效應(yīng)回歸分析的計算
2.2.2.1 不考慮協(xié)變量的影響
【分析與解答】以下語句調(diào)用proc causalmed來估計各種效應(yīng),而不控制協(xié)變量。設(shè)所需要的SAS程序如下:
【SAS程序說明】proc causalmed語句中的all選項顯示所有可用輸出。model語句指定了CogPerform的結(jié)果模型,該模型受Encourage和Motivation變量的影響。mediator語句指定了Motivation的中介模型,該模型僅受Encourage變量的影響。
【SAS主要輸出結(jié)果及解釋】總共有三部分輸出結(jié)果。第一部分主要輸出結(jié)果見表2。所有效應(yīng)估計和百分比估計都具有統(tǒng)計學(xué)意義??傂?yīng)估計值為8.042,分解為自然直接效應(yīng)(NDE=4.284)和自然間接效應(yīng)(NIE=3.759)。估計的受控直接效應(yīng)(CDE)為4.284,在默認(rèn)情況下,以中介變量動機(jī)的平均值進(jìn)行評估。在當(dāng)前模型中,CDE與NDE相同。中介變量所占百分比為46.738%。表明在父母鼓勵對兒童認(rèn)知發(fā)展的效應(yīng)中,只有不到一半可歸因于兒童學(xué)習(xí)動機(jī)的增強(qiáng)。
表2 計算所得的總效應(yīng)、直接效應(yīng)和中介效應(yīng)的匯總Table 2 Summary of calculated total,direct and mediated effects
第二部分主要輸出結(jié)果見表3。結(jié)果變量(CogPerform)模型的參數(shù)估計和假設(shè)檢驗的結(jié)果,截距項和兩個回歸系數(shù)與0之間差異均有統(tǒng)計學(xué)意義。說明處理變量和中介變量對結(jié)果變量(CogPerform)的正向影響是不可忽視的。
表3 含處理變量和中介變量的模型中參數(shù)的估計結(jié)果Table 3 Estimation results of parameters in the model with treatment variable and mediated variable
第三部分主要輸出結(jié)果見表4。由結(jié)果可知:父母的鼓勵(Encourage)對中介變量(Motivation)的積極影響是不可忽視的。
2.2.2.2 考慮協(xié)變量的影響
雖然前面的分析結(jié)果是可以解釋的,但它沒有充分利用因果中介效應(yīng)分析過程中可用的因果分析技術(shù)。為了從觀測數(shù)據(jù)中得出有效的因果解釋,研究者必須對所有重要的混雜背景變量(即協(xié)變量)進(jìn)行統(tǒng)計控制。假設(shè)FamSize和SocStatus是需要控制的混雜變量,設(shè)所需要的SAS過程步程序如下:
主要輸出結(jié)果見表5。由表5可知,處理變量對結(jié)果變量的總效應(yīng)為6.844,比分析中不包括混雜協(xié)變量的總效應(yīng)8.042(表2中的第二行第二列)低了約1.200。這種差異表明,所觀測到的處理變量和結(jié)果變量之間的關(guān)聯(lián),部分是由它們和協(xié)變量之間的關(guān)聯(lián)所致。未對協(xié)變量進(jìn)行調(diào)整,導(dǎo)致表2中對總因果效應(yīng)的估計過高。當(dāng)前分析中的NDE為4.296,與之前的分析結(jié)果接近。然而,NIE為2.547,比表2中的NIE低1.212。此外,中介變量所占百分比為37.222%,比表2中的中介變量所占百分比(46.738%)低9.516%。
表5 考慮協(xié)變量的總效應(yīng)、直接效應(yīng)和中介效應(yīng)匯總Table 5 Summary of total,direct and mediated effects considering covariates
因此,進(jìn)行因果中介效應(yīng)分析應(yīng)考慮以下3點:①當(dāng)資料中包含中介變量時,不適合采取傳統(tǒng)的多重線性回歸分析;②當(dāng)資料中包含協(xié)變量時,不應(yīng)在忽視協(xié)變量的情況下進(jìn)行因果中介效應(yīng)分析;③觀測數(shù)據(jù)的因果分析可能涉及許多其他需要關(guān)注的假設(shè),因篇幅所限,此處從略。
在對本文例1的分析中,有一個隱含的假設(shè),即處理變量和中介變量與結(jié)果變量之間沒有交互作用。事實上,該假設(shè)不一定成立。Proc causalmed過程支持具有交互作用的結(jié)果模型;在許多實際問題中,數(shù)據(jù)必須滿足時間條件,以便觀測處理變量對結(jié)果變量的效應(yīng)、處理變量對中介變量的效應(yīng)以及中介變量對結(jié)果變量的效應(yīng)。有時,多重線性回歸分析顯示,協(xié)變量對結(jié)果變量的影響無統(tǒng)計學(xué)意義,而因果中介效應(yīng)分析則顯示協(xié)變量的作用不可忽視。
本文介紹了因果中介效應(yīng)分析的理論基礎(chǔ),通過一個實例演示了如何使用SAS實現(xiàn)因果中介效應(yīng)分析。理論基礎(chǔ)主要包括基本概念和定義因果中介效應(yīng)的反事實框架兩個部分;通過采用多種方法分析例1,其結(jié)果提示應(yīng)注意以下兩點:其一,當(dāng)資料中存在中介變量時,不適合采用傳統(tǒng)的多重線性回歸模型進(jìn)行分析;其二,在因果中介效應(yīng)分析中,不應(yīng)忽視協(xié)變量的作用。