国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

因果作用評價與因果關(guān)系發(fā)現(xiàn)

2022-11-15 07:54英乃文苗旺耿直
關(guān)鍵詞:歸因代理觀測

英乃文 苗旺 耿直

(1.北京大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,北京100871 ;2.北京工商大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,北京100048)

1 引言

因果關(guān)系是推動重大科學(xué)發(fā)現(xiàn)的關(guān)鍵,深度挖掘因果作用的機(jī)制更是科學(xué)研究所尋求的“可解釋性”的重要一環(huán)。因果推斷是利用數(shù)據(jù)評價變量之間因果作用、學(xué)習(xí)因果關(guān)系的統(tǒng)計理論和方法。近年來,有關(guān)因果推斷的理論、方法和應(yīng)用的研究成果多次獲得了諾貝爾經(jīng)濟(jì)學(xué)獎和圖靈獎。大數(shù)據(jù)和人工智能研究向因果推斷提出了越來越多的挑戰(zhàn)性問題,因果推斷已成為人工智能領(lǐng)域有關(guān)不確定性推理的關(guān)鍵研究方向之一。現(xiàn)代大數(shù)據(jù)為因果推斷提供了豐富的應(yīng)用場景,人們需要一場“因果革命”來推動科學(xué)發(fā)現(xiàn)與應(yīng)用技術(shù)的發(fā)展,而非單純地從事物之間相關(guān)性的角度進(jìn)行科學(xué)研究。利用隨機(jī)試驗(yàn)設(shè)計可以有效地評估因果作用[1]。在醫(yī)學(xué)中,隨機(jī)化試驗(yàn)被視為評價藥物有效性和安全性的“金標(biāo)準(zhǔn)”。在社會科學(xué)中,隨機(jī)化試驗(yàn)也有越來越廣泛的應(yīng)用,例如,阿比吉特·巴納吉、埃絲特·迪弗洛和邁克爾·克雷默使用隨機(jī)化試驗(yàn)研究發(fā)展中國家的教育問題和貧困問題[2],相關(guān)的研究成果獲得了2019 年諾貝爾經(jīng)濟(jì)學(xué)獎。在許多實(shí)際問題中,由于成本、倫理問題等限制,無法開展隨機(jī)化試驗(yàn),只能使用觀察性研究得到的數(shù)據(jù)探索因果問題。觀察性研究中必須考慮存在那些可能的協(xié)變量,它們既與暴露因素(或接受的處理)相關(guān),又與結(jié)果變量相關(guān),這些協(xié)變量稱為混雜因素(Confounders)。例如,在研究教育程度對收入的影響時,家庭背景和社會環(huán)境等變量都是重要的混雜因素?;祀s因素導(dǎo)致處理組和對照組個體存在差異,導(dǎo)致觀察數(shù)據(jù)中的相關(guān)性和真正的因果作用有偏差,這是觀察性研究的核心難題??坍嫽祀s因素問題的著名例子是Yule-Simpson 悖論——處理和結(jié)果的相關(guān)性會由于調(diào)整混雜因素而發(fā)生改變或逆轉(zhuǎn)。更具有挑戰(zhàn)性的是,在現(xiàn)代很多大數(shù)據(jù)研究中并不存在合理的對照組。大數(shù)據(jù)的一個重要來源是關(guān)于某一區(qū)域或群體的長時間、多維度的宏觀數(shù)據(jù),例如,每個城市多年以來每天的出生、患病、死亡人數(shù)等數(shù)據(jù)。在這些宏觀數(shù)據(jù)中,人們關(guān)心的是在某一群體里施行的宏觀干預(yù)措施的作用,例如,在傳染病疫情防控中,評價對疫情嚴(yán)重城市采取的防控措施是否有效。是否能找到恰當(dāng)?shù)膶φ帐怯^察性研究的關(guān)鍵,如何科學(xué)地評價無合理對照研究中的因果作用更加具有挑戰(zhàn)性。

科學(xué)研究不僅關(guān)心因果作用大小,進(jìn)一步,還需要關(guān)心因果作用的機(jī)制。例如,關(guān)于吸煙和肺癌的研究,人們不僅關(guān)心吸煙是否導(dǎo)致肺癌,還關(guān)心吸煙是否通過血壓、肺部尼古丁含量等中間變量引起肺癌。因果網(wǎng)絡(luò)學(xué)習(xí)是挖掘多個變量之間因果機(jī)制的因果推斷方法,但是因果網(wǎng)絡(luò)的結(jié)構(gòu)通常不能由數(shù)據(jù)唯一確定,而只能得到一些網(wǎng)絡(luò)的Markov等價類,同一等價類中的因果關(guān)系和混雜結(jié)構(gòu)不完全相同,這為多變量之間的因果關(guān)系學(xué)習(xí)和因果作用評價帶來挑戰(zhàn)。因果推斷的另一個研究內(nèi)容是反事實(shí)歸因。例如,一位在石棉工廠工作的60 歲工人得了肺癌,他患肺癌由石棉引起的概率有多大。這是一個反事實(shí)推理,需要想象:“假若該工人沒有在石棉廠工作,是否就不會患肺癌?”法庭上利用證據(jù)如何歸因和量刑,如何根據(jù)一個人出現(xiàn)的各種癥狀和醫(yī)學(xué)檢查結(jié)果進(jìn)行疾病診斷,一個系統(tǒng)不能正常工作,更可能是由于哪個部件發(fā)生了故障等,都需要進(jìn)行歸因分析。但目前常用的方法都是基于貝葉斯條件概率和相關(guān)性的統(tǒng)計方法,缺乏基于因果關(guān)系的歸因分析方法。大數(shù)據(jù)時代,數(shù)據(jù)驅(qū)動及統(tǒng)計學(xué)理論支撐的定量化歸因方法將會越來越重要。

2 因果模型與因果作用的定義

潛在結(jié)果模型由內(nèi)曼[3]在設(shè)計農(nóng)業(yè)隨機(jī)試驗(yàn)比較不同作物品種的產(chǎn)量時引入,并由魯賓[4]進(jìn)一步延拓到觀察性研究中。潛在結(jié)果模型能夠直接和清晰地定義因果作用和表述因果假定,目前已經(jīng)在統(tǒng)計學(xué)、流行病學(xué)以及社會科學(xué)研究中得到了廣泛的認(rèn)可。用X表示一個處理或暴露變量,Y表示觀察到的結(jié)果變量,用Yx表示個體如果接受處理X =x后的結(jié)果,稱為潛在結(jié)果(Potential Outcome)。潛在結(jié)果模型一般需要個體處理值穩(wěn)定假定:每個個體的潛在結(jié)果不受其他個體處理的影響,且每個個體在每一種處理下只有一個潛在結(jié)果;還需要一致性假定[5]:當(dāng)X =x時,Y =Y(jié)x。對任意兩種不同的處理水平x和x',可以通過潛在結(jié)果之差定義處理對結(jié)果的因果作用。為了研究某種處理的影響,人們常常關(guān)心處理在所研究總體上的平均因果作用(Average Causal Effect,ACE):

通常考慮一個二值變量(X=1 或0)的因果作用。因果推斷的核心目標(biāo)是識別和估計因果作用,識別性是指感興趣的因果作用能夠從觀測數(shù)據(jù)分布中唯一決定。由于對每個個體,潛在結(jié)果{Y1,Y0} 不能同時觀測到,為了識別因果作用通常需要額外的假定。

珀?duì)柦柚邢驘o環(huán)圖(Directed Acyclic Graph,DAG)表示變量間的因果關(guān)系[6],用do 算子形式化定義因果概念,根據(jù)圖結(jié)構(gòu)建立因果作用的識別和估計理論,建立了因果圖模型。這項(xiàng)工作獲得了2011 年的圖靈獎。一個因果圖中的每個節(jié)點(diǎn)表示一個變量,節(jié)點(diǎn)之間的有向邊表示由原因到結(jié)果的因果關(guān)系,一個沒有環(huán)的有向圖稱為有向無環(huán)圖。對于一組可觀測的變量X1,X2,…,Xn,用pai表示變量Xi的父節(jié)點(diǎn)變量的集合。每個節(jié)點(diǎn)的取值由它的父節(jié)點(diǎn)pai和隨機(jī)誤差εi的函數(shù)確定Xi =fi(pai,εi)。給定一個有向無環(huán)圖,那么(X1,…,Xn)的聯(lián)合概率分布為:

珀?duì)柺褂胐o 算子表示外部干預(yù)。對某個變量用do(Xi =x'i)表示強(qiáng)制設(shè)定其值為x'i,即,刪除指向被干預(yù)變量的所有有向邊,并將該變量的值設(shè)置為x'i。干預(yù)后的聯(lián)合分布變?yōu)椋?/p>

其中,I(·)為示性函數(shù)。特別地,原因X對結(jié)果Y的因果作用為。與條件概率不同,do 算子使用外部干預(yù)X =x下Y的分布形式化定義了X對Y的因果作用,與潛在結(jié)果模型定義的因果作用具有等價性[7,8]。

3 代理推斷

3.1 平均因果作用的代理推斷

當(dāng)混雜因素可觀測時,羅森鮑姆和魯賓[9]提出的可忽略性假定和傾向得分是調(diào)整混雜因素和識別因果作用的最重要工具。如果所有混雜因素都被觀測到,那么條件在混雜因素的每一層上,處理可以看作隨機(jī)分配的,因此因果作用可識別。在可忽略性假定下,匹配、逆概率加權(quán)估計、回歸等方法已廣泛用于因果作用的估計。但是,如果存在未觀測的混雜因素,可忽略性假定不成立,因果作用不可識別。工具變量方法[10,11]是調(diào)整未觀測混雜因素的一種重要方法,在社會經(jīng)濟(jì)和生物醫(yī)學(xué)中有廣泛應(yīng)用,Angrist 和Imbens 因?yàn)楣ぞ咦兞糠椒ǚ矫娴墓ぷ鳙@得了2021 年諾貝爾經(jīng)濟(jì)學(xué)獎,但是該方法需要較強(qiáng)假定,弱工具變量或無效工具變量仍然會導(dǎo)致因果推斷的偏差。最近研究者提出和發(fā)展了代理推斷方法[12~15],該方法有效利用觀察性數(shù)據(jù)中存在的混雜代理變量做混雜因素調(diào)整,識別因果作用,已被用于平均因果作用的推斷、縱向研究、合成對照、測試-陰性研究中。以下我們簡要回顧代理推斷方面的研究。

代理推斷(Proximal Inference)方法是文獻(xiàn)[12]提出的處理未觀測混雜因素的方法,其原理是在一定條件下,觀測到的協(xié)變量可以作為未觀測混雜因素的代理變量(Proxies),進(jìn)而可消除混雜因素導(dǎo)致的偏差并識別因果作用。用U表示未觀測的混雜因素,我們把觀測到的協(xié)變量分為三類:①處理變量和結(jié)果變量的共同原因V;②處理誘導(dǎo)的混雜代理變量(Treatment-inducing Confounding Proxies)Z;③結(jié)果誘導(dǎo)的混雜代理變量(Outcome-inducing Confounding Proxies)W,這三類協(xié)變量滿足如下條件。下面用表示給定U條件下X與Y獨(dú)立。

假定3.1(潛在可忽略性):;對任意x,,f是概率密度函數(shù)。

假定3.2(混雜代理):;。

假定3.3(結(jié)果混雜橋函數(shù)):存在函數(shù)h,對所有x均有:

假定3.4(處理混雜橋函數(shù)):存在函數(shù)q,對所有x均有:

假定3.5(完備性):

(1)對任 意v,x及所有平方可積函數(shù)g,,V =v,X =x}=0 當(dāng)且僅當(dāng)g =0。

(2)對任 意v,x及所有平方可積函數(shù)g,,V =v,X =x}=0 當(dāng)且僅當(dāng)g =0。

(3)對任 意v,x及所有平方可積函數(shù)g,,V =v,X =x}=0 當(dāng)且僅當(dāng)g =0。

(4)對任 意v,x及所有平方可積函 數(shù)g,,V =v,X =x}=0 當(dāng)且僅當(dāng)g =0。

假定3.1 表示U包含了影響X和Y的所有未觀測混雜因素,且處理組和對照組人群有充分的重疊。在這個假定下,有,U,V)},但是,由于U未觀測,無法直接從觀測數(shù)據(jù)中計算E(Yx)。假定3.2 刻畫了混雜代理變量滿足的條件,要求Z對(W,Y)沒有直接因果作用,X對W沒有直接因果作用,而在觀測數(shù)據(jù)中,Z和(W,Y)以及X和W的關(guān)聯(lián)性完全由混雜因素U導(dǎo)致。這樣的混雜代理變量在流行病學(xué)中也稱為陰性對照變量,Z稱為陰性對照暴露(Negative Control Exposure),W稱為陰性對照結(jié)果(Negative Control Outcome)。陰性對照或混雜代理的例子在實(shí)際研究中經(jīng)常存在,例如,在空氣污染對死亡率影響的時間序列研究中,未來的空氣污染水平可以作為陰性對照暴露,過去的死亡率可以作為陰性對照結(jié)果[16,17]。工具變量可以看作陰性對照暴露的特例。在流行病學(xué)研究中,陰性對照變量曾被用于檢驗(yàn)混雜因素是否存在,但通常需要較強(qiáng)的模型假定[16,18]。假定3.3 引入混雜橋函數(shù)(Confounding Bridge Function)h刻畫U對Y和W的混雜作用的關(guān)系,類似地,假定3.4 使用混雜橋函數(shù)q刻畫U對X和Z的混雜作用的關(guān)系?;祀s橋函數(shù)是代理推斷的一個關(guān)鍵概念,實(shí)際上刻畫的不僅是混雜作用之間的關(guān)系,還代表了變量之間因果作用,以及觀測到的關(guān)聯(lián)性之間的關(guān)系?;祀s橋函數(shù)不需要已知,可以從觀測數(shù)據(jù)識別。

定理3.1[12,15]

(1)在假定3.1~3.3 下,有:

在假定3.5(1)也成立時,E(Yx)可由任意滿足式(1)的函數(shù)h識別,即:

(2)在假定3.1~3.2 和假定3.4 下,有:

在假定3.5(2)也成立時,E(Yx)可由任意滿足式(2)的函數(shù)q識別,即:

其中,I(X =x)是示性函數(shù)。

定理3.1 表明混雜橋函數(shù)也刻畫了觀測數(shù)據(jù)之間由于混雜因素導(dǎo)致的虛假相關(guān)性,可以使用觀測數(shù)據(jù)解方程(1)和(2)得到混雜橋函數(shù)h和q,然后識別潛在結(jié)果期望或因果作用。定理3.1 并不需要h和q的唯一性,方程(1)和(2)的所有解都可以識別平均因果作用。特別地,在假定3.5(3)(4)也成立時,混雜橋函數(shù)h和q可由觀測數(shù)據(jù)唯一確定。完備性假定是識別性問題中常見的假定,許多常用的參數(shù)或半?yún)?shù)模型滿足完備性條件,如指數(shù)族分布[19]。非參數(shù)模型中的完備性條件可參見文獻(xiàn)[20]。在代理推斷問題中,完備性假定在離散和連續(xù)情形有相應(yīng)解釋[15]。

定理3.1 對觀測數(shù)據(jù)的分布沒有約束,但在實(shí)際問題中,可以對混雜橋函數(shù)指定一個參數(shù)模型,利用廣義矩等方法估計混雜橋函數(shù),然后估計因果作用。在一定正則條件下可以證明相合性和漸近正態(tài)性。文獻(xiàn)[13][15]進(jìn)一步建立了代理推斷的半?yún)?shù)理論和雙穩(wěn)健估計。

3.2 合成對照的代理推斷

在一些觀察性研究中,研究目標(biāo)是考察干預(yù)措施對大型的實(shí)體的因果作用,例如,提高煙草稅收對某個國家或地區(qū)煙草消費(fèi)的影響,東德西德合并對西德經(jīng)濟(jì)發(fā)展的影響。在這類研究中,往往只有一個個體接受處理,而作為對照的個體都與接受處理的個體有較大差異,由于時間趨勢的影響,接受處理的個體在處理前后的差異并不等同于因果作用。這種比較案例研究在政治學(xué)、公共衛(wèi)生和經(jīng)濟(jì)學(xué)等多個領(lǐng)域有重要應(yīng)用。

為了消除混雜因素和時間趨勢的影響,文獻(xiàn)[21]使用合成對照(Synthetic Control)方法,將多個對照個體加權(quán)組合成一個新的虛擬對照,用來近似處理個體假如沒有接受處理的狀態(tài),基于處理個體與合成對照的比較評價干預(yù)措施對處理個體的因果作用。假定數(shù)據(jù)由個體i =0,1,…,N在t =1,…,T共T個時期上的觀測組成,令Y(t)和W(it)分別表示處理組個體和編號為i的對照個體在時間t的觀測結(jié)果,處理施加在時間T0和T0+1 之間,只有個體i =0 接受處理,編號i =1,…,N的個體屬于對照組。令X(t)表示個體i =0 在時間t接受處理的狀態(tài),用{Y1(t),Y0(t)} 和{W1(it),W0(it)} 表示相應(yīng)的潛在結(jié)果。

使用一組權(quán)重{αi} 給對照組加權(quán),并用∑αiW(it)近似Y0(t),從而用Y(t)-∑αiW(it)估計處理在時刻t對個體i =0 的因果作用。

估計權(quán)重{αi} 是合成對照的關(guān)鍵,文獻(xiàn)[21]使用處理前數(shù)據(jù)Y(t)對W(it)做回歸估計權(quán)重。但這一方法已被指出是有偏的[22]。文獻(xiàn)[23]提出了合成權(quán)重的代理推斷估計,在如下的假定下,該方法能得到權(quán)重的相合估計。

假定3.6(交互固定效應(yīng)模型):對任意t有:

其中,β(t)是未知的隨時間變化的因果作用;λ(t)是未觀測混雜因素,μ(i)是未知的混雜作用;ε(it),i =0,…,N,t =1,…,T是隨機(jī)誤差項(xiàng),滿足

假定3.7(合成對照的存在性):給定對照組的一個子集D,存在一組權(quán)重αi(i∈D)使得μ(0)=

假定3.8(對照個體無干涉):令Z(t)={W(jt),j?D},W(t)={W(it),i∈D},滿足,X(t)=0},t =1,…,T0。

假定3.9(完備性):對所有平方可積函數(shù)g和任意t≤T0,,Z(t)}=0 當(dāng)且僅當(dāng)g =0。

假定3.6 是合成對照問題中常用的模型,由于未觀測混雜因素λ(t)的存在,接受處理的個體i =0 的結(jié)果在處理前后的差同時包含處理因果作用和混雜作用。而由于混雜因素對不同個體的作用不同,使用單個對照個體無法消除混雜作用。但在假定3.7 下,可以使用對照組的一個子集,通過加權(quán)構(gòu)造出一個虛擬對照,混雜因素對該虛擬對照和處理個體有相同的作用,因此可以用來消除混雜作用。合成對照的關(guān)鍵在于識別合成權(quán)重{αi} ??梢园裌(t)看作結(jié)果誘導(dǎo)的混雜代理,而在對照組中,除了用作合成對照的子集D,對照組的其他不參與合成對照的個體Z(t)同樣受到混雜因素的作用,但是假定Z(t)和W(t)之間互相沒有直接影響,即假定3.8,那么其余個體的觀測結(jié)果Z(t)可看作處理誘導(dǎo)的混雜代理。根據(jù)合成對照的存在性,可以把看作是混雜橋函數(shù),因而可以使用代理推斷的方法識別合成權(quán)重{αi} 。

定理3.2:在假定3.6~3.9 下,對任意t有。其中,αi(i∈D)是方程,Z(t)}=0,t≤T0的唯一解。即,αi(i∈D)可識別。

利用觀測數(shù)據(jù)樣本,可以采用廣義矩方法估計合成權(quán)重和進(jìn)一步估計因果作用。此外,文獻(xiàn)[23]還建立了非參數(shù)合成對照模型的識別與估計。

除了平均因果作用評價與合成對照,代理推斷在生物醫(yī)學(xué)、公共衛(wèi)生和社會經(jīng)濟(jì)領(lǐng)域得到快速發(fā)展和應(yīng)用。例如空氣污染對健康影響的研究[17,24];電子病歷數(shù)據(jù)和疫苗安全性評價[14]等等。文獻(xiàn)[13][25]最近將代理推斷方法推廣到更為復(fù)雜的縱向數(shù)據(jù)研究中,其中處理、協(xié)變量和未觀測的混雜因素都是隨時間變化的,且過去接受的處理會影響觀測或未觀測的時變協(xié)變量。其識別性和半?yún)?shù)估計理論可以平行地建立。文獻(xiàn)[26]將代理推斷應(yīng)用于測試-陰性研究(Test-negative Design,TND)。測試-陰性研究是實(shí)踐中評價傳染病疫苗有效性的一種重要方法。該方法將有相關(guān)癥狀并尋求治療的疑似病例納入研究,通過實(shí)驗(yàn)室檢測確認(rèn)他們是否被感染,通過比較檢測陽性和檢測陰性的兩組人群的疫苗接種率來評價疫苗有效性。但是這種方法容易受到混雜因素和選擇偏差的影響,論文建立了可以同時調(diào)整混雜和選擇偏差的代理推斷方法,并應(yīng)用其評價多個新冠疫苗的有效性。

4 因果網(wǎng)絡(luò)學(xué)習(xí)與因果作用評價結(jié)合的方法

傳統(tǒng)的預(yù)測方法,不論是統(tǒng)計方法還是機(jī)器學(xué)習(xí)方法,都不需要確定各個變量在因果機(jī)制中的位置,只要利用更多的變量能提高預(yù)測精度就可以了。但是,在因果推斷和決策時,需要確定各個變量在因果機(jī)制中的地位。評價因果作用時,通常需要已知觀測變量之間的因果關(guān)系。例如正確區(qū)分混雜因素和處理與結(jié)果變量相關(guān)的中間變量。在實(shí)際應(yīng)用中,如果不能正確判斷混雜因素與中間變量,可能會導(dǎo)致錯誤地評價因果作用。下面以吸煙X與肺癌Y為例,假設(shè)還觀測了第三個二值變量Z,得到表1 的觀測數(shù)據(jù)。分析該數(shù)據(jù)需要了解變量Z是混雜因素,還是中間變量。

表1 吸煙與肺癌及第三個變量Z 人數(shù)觀測數(shù)據(jù)

如果把變量Z當(dāng)作混雜因素,例如性別(圖1a)),應(yīng)對它分層分析,得到吸煙對肺癌有正的平均因果作用:

如果把變量Z當(dāng)作中間變量,例如肺中煙油量(圖1b)),那么不應(yīng)分層,正確的吸煙對肺癌的總平均因果作用應(yīng)該是負(fù)的:

圖1 吸煙與肺癌及第三個變量Z

當(dāng)觀測數(shù)據(jù)包含很多變量,且它們之間的因果關(guān)系未知,可以利用數(shù)據(jù)先確定變量之間的因果關(guān)系。下面我們探討因果網(wǎng)絡(luò)學(xué)習(xí)與因果作用評價結(jié)合的方法。首先,利用數(shù)據(jù)進(jìn)行因果網(wǎng)絡(luò)學(xué)習(xí),通常不能確定唯一的因果網(wǎng)絡(luò),而是得到Markov等價類,包括若干個因果網(wǎng)絡(luò),不能僅利用數(shù)據(jù)進(jìn)一步區(qū)別某些變量之間的因果關(guān)系。圖2a)為一個生成觀測數(shù)據(jù)的因果網(wǎng)絡(luò)DAG。利用因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法可以得到圖2b)所示的CPDAG,其中有3 條無向邊,要求不能構(gòu)成有向環(huán)或新的V-結(jié)構(gòu),它們的箭頭方向共6 種組合,對應(yīng)Markov 等價類的6 個因果網(wǎng)絡(luò)。

然后,針對等價類中每個因果網(wǎng)絡(luò),確定處理變量X的父節(jié)點(diǎn)集合pa(X)和結(jié)果變量Y的父節(jié)點(diǎn)集合pa(Y)。6 個因果網(wǎng)絡(luò)中,有4 種可能的(pa(X),pa(Y))對:

最后,根據(jù)得到的(pa(X),pa(Y))對,評價X對Y的總因果作用和直接因果作用。評價總因果作用(Total Effect)時,將pa(X)作為混雜因素:

評價直接因果作用(Direct Effect),將Z =pa(Y)\{X} 作為混雜因素,切斷X到Y(jié)其他路徑:

注意不能引入新的混雜,例如,在X→Z1←Z2→Y中,不能用Z ={Z1} 。假定圖2a)中的因果網(wǎng)絡(luò)表示的是線性的因果結(jié)構(gòu)方程:

圖2 因果網(wǎng)絡(luò)與Markov 等價類

其中,總因果作用為TE =α1,直接因果作用為DE =β1。那么,等價類中6 個因果網(wǎng)絡(luò)的所有可能的X對Y的總因果作用有4 個:

這個集合包含真的總因果作用即β+αγ,但從數(shù)據(jù)無法確定哪個是真。直接因果作用可以唯一確定,即β。

對于高維變量,學(xué)習(xí)完整的因果網(wǎng)絡(luò)是非常困難的。但僅為了評價處理變量X對結(jié)果變量Y的因果作用,沒有必要學(xué)習(xí)完整的因果網(wǎng)絡(luò),只需要學(xué)習(xí)處理變量X和結(jié)果變量Y的父節(jié)點(diǎn)對(pa(X),pa(Y))。利用文獻(xiàn)[27]提出的因果網(wǎng)絡(luò)局部學(xué)習(xí)的MB-by-MB 算法,文獻(xiàn)[28]提出了局部因果網(wǎng)絡(luò)學(xué)習(xí)與因果作用評價的結(jié)合方法,可以避免學(xué)習(xí)完整的因果網(wǎng)絡(luò)。

5 基于因果推斷的歸因方法

珀?duì)柼岢隽巳斯ぶ悄芤蚬茢嗟娜齻€層級:基于相關(guān)性的預(yù)測、基于因果作用的決策、基于反事實(shí)的歸因。并指出當(dāng)今大多數(shù)機(jī)器學(xué)習(xí)方法屬于第一層級基于相關(guān)性的預(yù)測。近年來,因果推斷受到了越來越多的關(guān)注,絕大多數(shù)方法是關(guān)于第二層級的因果作用(Effect of Cause)的研究,即評價干預(yù)決策有什么效果。例如,某種治療方法是否有效、某種暴露環(huán)境是否有致病危險。關(guān)于第三個層級的反事實(shí)歸因問題的研究還很少。反事實(shí)歸因的問題是如何評價結(jié)果的原因(Cause of Effect)。例如,圖3 描繪了兒童白血病與危險因素的因果網(wǎng)絡(luò)。某兒童患了白血病,已知裝修過房間、接觸過油漆涂料、不愛吃蔬菜和水果。他患白血病應(yīng)該歸因于其中哪一項(xiàng)。在法律、環(huán)境、人工智能、生命科學(xué)等多個領(lǐng)域利用歸因發(fā)現(xiàn)結(jié)果的原因都有非常重要的意義。

圖3 兒童白血病的危險因素:家里裝修、接觸油漆涂料、不愛吃蔬菜和水果

目前,大多數(shù)歸因方法是基于相關(guān)性或貝葉斯條件概率的方法。下面簡要說明根據(jù)相關(guān)性、貝葉斯概率和因果作用進(jìn)行歸因的問題。歸因是關(guān)于由某個個體的結(jié)果發(fā)現(xiàn)其原因的問題,既需要考慮因果作用,又需要考慮先驗(yàn)概率和條件概率。

首先,討論概率專家系統(tǒng)根據(jù)條件概率推斷原因的可能出現(xiàn)的問題。給定Y =1 條件下,計算Xk=1 的后驗(yàn)概率:

其與先驗(yàn)概率pr(Xk =1)有關(guān),而Xk不一定會導(dǎo)致Y =1。例如,圖4 描述了高血壓的因果網(wǎng)絡(luò)。盡管胸痛X3不是高血壓Y的原因,但出現(xiàn)高血壓Y =1時,胸痛X3=1 的條件概率可能會比高血壓的原因(不運(yùn)動、心臟?。┑臈l件概率都大:

圖4 高血壓的因果網(wǎng)絡(luò)

而ACE(X3→Y)=0< ACE(X1→Y)和ACE(X2→Y)。貝葉斯條件概率的推理依賴于先驗(yàn)概率,某事件的先驗(yàn)概率大會導(dǎo)致其后驗(yàn)概率較大,但沒有事件之間的因果關(guān)系。

其次,討論根據(jù)因果作用來推斷事件的原因可能出現(xiàn)的問題。例如,污染食品與毒藥都可能致死。毒藥X1致命的因果作用比污染商品X2致命的因果作用大很多。當(dāng)一個人死亡Y =1 時,在沒有是否服毒的證據(jù)時,不能將死亡歸因于服毒X1,因?yàn)榉镜南闰?yàn)概率很小?;谝蚬饔玫脑蛲茢嗖豢紤]原因事件的先驗(yàn)概率。

目前,統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域已有很多評價因果作用的方法,但關(guān)于事件歸因的研究卻未得到應(yīng)有的重視。有少數(shù)學(xué)者探討了如何定義結(jié)果事件的原因的問題。18 世紀(jì)哲學(xué)家休謨,以及后來的劉易斯[29]描述了因果關(guān)系的反事實(shí)定義:假若當(dāng)初事件X沒出現(xiàn),則隨后的事件Y就不會出現(xiàn),那么事件X是事件Y的原因。珀?duì)枺?0]形式化定義了反事實(shí)因果概率:

其中,“1”表示事件出現(xiàn),“0”表示事件未出現(xiàn)。并定義了如下的必要原因的概率(Probability of Necessity)。

在對處理或暴露X進(jìn)行隨機(jī)試驗(yàn)的情況,即時,

原因的概率PC和PN的可識別性比因果作用的可識別性需要更強(qiáng)的條件,即使是隨機(jī)化試驗(yàn)和無混雜因素的情況,原因的概率也不可識別,只能得到其上下界。文獻(xiàn)[31]給出了PC的下界:

文獻(xiàn)[32]將某個個體出現(xiàn)的結(jié)果事件和暴露因素作為證據(jù)(X =x,Y =1),定義了給定證據(jù)下處理X對結(jié)果Y的后驗(yàn)因果作用:

當(dāng)證據(jù)為(x =1,Y =1)時,Y =1)=PN。

后驗(yàn)因果作用將如何評價結(jié)果的原因看為已知證據(jù)下的評價因果作用的問題。給定證據(jù)為(Y=1)時,處理X對結(jié)果Y的后驗(yàn)因果作用為:

文獻(xiàn)[32]進(jìn)一步提出了多個危險因素對結(jié)果變量的后驗(yàn)因果作用的定義。令Y為二值結(jié)果變量,X =(X1,…,Xp)為p個二值原因變量,滿足因果排序,即Xj不是Xi的原因(i < j)。記X-k =X\{Xk},X =(Ak,Xk,Dk)。令x =(x1,…,xp)x'=(x'1,…,x'p)表示xi≤x'i,對任意i。給定證據(jù)E=e,其中變量集合E為變量X和Y的子集,后驗(yàn)因果作用:

表示根據(jù)觀測到的證據(jù)E =e,度量Xk導(dǎo)致結(jié)局Y =1的因果作用。特別地,p =1 時,

后驗(yàn)因果作用的識別假定沒有未觀測的混雜因素。并假定單調(diào)性:

(1)X有單調(diào)性:對,有(Xi)Ai =a*i≤(Xi)Ai =ai(i >k)。

(2)Y有單調(diào)性:對,有YX =x*≤YX =x。

在兒童白血病的歸因問題中,X有單調(diào)性意味著由于家裝導(dǎo)致接觸油漆涂料的單調(diào)性:(X2)X1=0≤(X2)X1=1。Y有單調(diào)性意味著家裝、接觸油漆涂料和不愛吃蔬菜水果對白血病沒有預(yù)防性:YX1=0,X2=0,X3=0≤YX1=0,X2=0,X3=1≤YX1=0,X2=1,X3=1≤YX1=1,X2=1,X3=1,YX1=0,X2=0,X3=0≤YX1=1,X2=0,X3=0≤YX1=1,X2=0,X3=1≤YX1=1,X2=1,X3=1,等。

在單調(diào)假定下,可以得到下面等式:

進(jìn)一步在無混雜假定下,上面潛在結(jié)果YXk =0的概率可識別

這里ck+1:p =(ck+1,…,cp)。

當(dāng)只觀測到原因變量X的子集X'時,證據(jù)(X'=x',Y =1)的后驗(yàn)因果作用等于

有關(guān)后驗(yàn)因果作用的其他應(yīng)用可參見文獻(xiàn)[32]。

6 結(jié)束語

除了本文已介紹的代理推斷、因果網(wǎng)絡(luò)學(xué)習(xí)和歸因問題,因果推斷研究的中介分析(Mediation Analysis)、干涉分析(Interference)、數(shù)據(jù)融合(Data Fusion)、選擇偏差(Selection Bias)和個體化處理(Individualized Treatment Regime)等在社會經(jīng)濟(jì)、生物醫(yī)學(xué)研究中都有很重要的應(yīng)用。限于文章篇幅,未一一述及??傊蚬茢酁榭茖W(xué)研究中評價因果作用、發(fā)現(xiàn)因果關(guān)系、挖掘因果機(jī)制、反事實(shí)歸因提供了一套嚴(yán)謹(jǐn)?shù)?、可行的理論與方法,因果推斷與機(jī)器學(xué)習(xí)等方法相結(jié)合將大大提高人工智能的可解釋性、可遷移性和穩(wěn)健性;因果推斷與應(yīng)用學(xué)科的前沿發(fā)展相結(jié)合,將推動各個科學(xué)領(lǐng)域?qū)σ蚬麢C(jī)制的深度認(rèn)識。因果推斷從理論走向應(yīng)用面臨著相關(guān)領(lǐng)域中許多挑戰(zhàn)問題,如何確定混雜因素、如何找對照群體、如何找工具變量、如何利用數(shù)據(jù)之外的領(lǐng)域知識等。在深化因果推斷理論方法研究的同時,需要加強(qiáng)因果推斷在現(xiàn)實(shí)問題中的應(yīng)用研究。

猜你喜歡
歸因代理觀測
國外智能化對地觀測衛(wèi)星發(fā)展研究
班主任引導(dǎo)高三學(xué)生考后積極歸因的探索
1號異星球餐館·不可思議的代理老板
基于“地理實(shí)踐力”的天文觀測活動的探索與思考
為何越來越愛
積極歸因方式:當(dāng)船漏水了
為什么有些人喜歡把成功歸因于自己 把失敗怪罪給別人?
《航空模型》團(tuán)體代理招募
2018年18個值得觀測的營銷趨勢
澳航貨運(yùn)代理有限公司船期表