張勤
(1.清華大學(xué) 核能與新能源技術(shù)研究院,北京102202;2.清華大學(xué) 計(jì)算機(jī)系,北京100084)
中國科協(xié)在2022 年6 月27 日召開的科協(xié)年會上發(fā)布了“2022 十大前沿科學(xué)問題”,其中第2個(gè)問題是:“如何實(shí)現(xiàn)可信可靠可解釋人工智能技術(shù)路線和方案”[1]??萍疾吭凇翱萍紕?chuàng)新2030——‘新一代人工智能’重大項(xiàng)目2021 年度項(xiàng)目申報(bào)指南”中的第一章“新一代人工智能理論基礎(chǔ)”中,將“因果推理與決策理論模型研究”列為第1.1 節(jié)的標(biāo)題,要求“突破模型泛化瓶頸問題,提升模型系統(tǒng)的安全性、魯棒性及可解釋性”,“降低對數(shù)據(jù)獨(dú)立同分布的依賴,提升泛化能力和可解釋性”[2]。顯然,當(dāng)前流行的深度學(xué)習(xí)模型存在的泛化和不可解釋等問題,導(dǎo)致了不可信、不可靠和魯棒性等問題??萍疾恐改咸岢隽恕耙蚬评砼c決策”的技術(shù)路線,是對第一代基于知識的人工智能技術(shù)路線的某種回歸,因?yàn)橹R主要就是對事物間因果關(guān)系的描述。
但細(xì)觀內(nèi)容,科技部的指南仍然在數(shù)據(jù)驅(qū)動的框架內(nèi),因?yàn)橹改现?.1 節(jié)的內(nèi)容要求構(gòu)建“數(shù)據(jù)驅(qū)動的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)理論”。網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)當(dāng)然也是應(yīng)有之義,但不是重點(diǎn)。這反映了科技部指南希望新一代人工智能既吸收第一代知識驅(qū)動的人工智能的優(yōu)點(diǎn),又保留第二代大數(shù)據(jù)深度學(xué)習(xí)優(yōu)點(diǎn)的樸素想法。
當(dāng)前,最流行的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)模型是圖靈獎獲得者美國加利福亞尼大學(xué)洛杉磯分校的朱迪亞·珀?duì)柦淌趧?chuàng)立的因果貝葉斯網(wǎng)絡(luò)(Causal Bayesian Network,CBN)[3],即將貝葉斯網(wǎng)絡(luò)(Bayesian Network,BN)[4]具體化為CBN。
BN 也是珀?duì)枮橹鲃?chuàng)立的,其定義為:
式(1)中,Pr{}是求概率的算符,Xi是網(wǎng)絡(luò)節(jié)點(diǎn)變量,xi是Xi的一個(gè)取值或?qū)嵗?,pai是Xi的父變量取值的組合。實(shí)際上,是Xi的一個(gè)條件概率。在變量狀態(tài)離散情況下,由Xi =xi和pai的各種取值構(gòu)成的條件概率構(gòu)成一個(gè)條件概率表(Conditional Probability Table,CPT),用以表達(dá)子變量Xi與其父變量(準(zhǔn)確地說應(yīng)該是條件變量)之間的條件概率關(guān)系。
在變量狀態(tài)離散情況下,我們可以將Xi =xi簡記為Xi,ji或Xiji,即Xi處于ji狀態(tài)或取值。這樣,式(1)可改寫為式(2):
根據(jù)式(1)或式(2)對BN 的定義,BN/CBN 的結(jié)構(gòu)必然是有向無環(huán)圖(Directed Acyclic Graph,DAG),也就是說,BN/CBN 的結(jié)構(gòu)不能出現(xiàn)有向有環(huán)圖(Directed Cyclic Graph,DCG)。例如,圖1 是基于DAG 的BN 示例圖,圖2 是DCG 示例圖,是不被允許的(沒有定義)。
圖1 基于DAG 的BN 示例
圖2 DCG 示例
式(1)或式(2)表達(dá)了BN 中的節(jié)點(diǎn)變量的聯(lián)合概率分布(Joint Probability Distribution,JPD),但節(jié)點(diǎn)的排序可以是任意的。例如:
式(3)中的第一個(gè)等式可用圖1a)表達(dá),第二個(gè)等式可用圖1b)表達(dá)。在不指定變量狀態(tài)的情況下,圖1a)成為圖1c),圖1b)成為圖1d)。箭頭指向?yàn)楦缸兞俊幼兞俊8缸兞颗c子變量之間的不確定性由CPT 表達(dá)。也就是說,同一個(gè)JPD 可以有不同但等價(jià)的BN。這說明BN 只是JPD 的因式分解表達(dá),并不必然表達(dá)變量間的因果關(guān)系,從而難以表達(dá)知識、難以可解釋。僅當(dāng)BN 中的父節(jié)點(diǎn)是子節(jié)點(diǎn)的真正直接原因變量而非僅僅是條件變量時(shí),BN 才成為CBN,才能表達(dá)變量間的因果關(guān)系,才具有可解釋性。
要獲得CBN,需要從反映JPD 的統(tǒng)計(jì)數(shù)據(jù)中學(xué)習(xí)CBN 的結(jié)構(gòu)和參數(shù)[1]。這一過程通常被稱為因果發(fā)現(xiàn),其中需要通過存在于數(shù)據(jù)中的獨(dú)立性和相關(guān)性并通過do 干預(yù)算子來確定變量間的因果關(guān)系。在有多個(gè)可能CBN 的情況下,用奧卡姆剃刀(最簡化)原則和穩(wěn)定性原則來選擇最可能的CBN,且根據(jù)BN 的定義,CBN 不能有DCG。
盡管CBN 具有數(shù)學(xué)理論嚴(yán)謹(jǐn)?shù)葍?yōu)點(diǎn),但CBN也存在如下缺點(diǎn),導(dǎo)致其難以普遍應(yīng)用:
(1)對數(shù)據(jù)質(zhì)量要求高(要體現(xiàn)各種獨(dú)立性和相關(guān)性),數(shù)據(jù)獲取難。
(2)從數(shù)據(jù)學(xué)出的因果結(jié)構(gòu)未必符合領(lǐng)域?qū)<业恼J(rèn)知,從而難以被接受。
(3)用來選擇候選結(jié)構(gòu)的奧卡姆剃刀(最簡化)和穩(wěn)定性原則是經(jīng)驗(yàn)原則,科學(xué)性不夠。
(4)不適用于存在靜態(tài)邏輯循環(huán)DCG 的情況,這是BN/CBN 的定義所決定的。
(5)因不允許DCG,無法通過模塊化的方式構(gòu)建CBN,導(dǎo)致構(gòu)建模型困難和構(gòu)建了也難以理解。
(6)父變量之間的邏輯關(guān)系隱藏在CPT 中(Implicit 表達(dá))[5],可解釋性不足,父變量間以及概率參數(shù)相互耦合(CPT 表達(dá)的是父變量的狀態(tài)組合與子變量狀態(tài)之間的條件概率)。
(7)難以利用領(lǐng)域?qū)<乙延械囊蚬R。
(8)計(jì)算復(fù)雜度高,計(jì)算效率低,難以用于大型復(fù)雜系統(tǒng)。
此外,其是否避免了數(shù)據(jù)獨(dú)立同分布假設(shè)從而避免了泛化問題存疑。
一般來說,大型復(fù)雜系統(tǒng)的建模是一項(xiàng)艱巨的任務(wù)。理想的方法是模塊化建模,即分別構(gòu)建多個(gè)小的模塊(局部),然后合成為完整模型(全局),這樣可以以指數(shù)規(guī)模減少收集樣本數(shù)據(jù)[4]。但這種方法很可能導(dǎo)致全局模型中出現(xiàn)DCG,這是BN/CBN 的定義所不允許的。例如,在不考慮氣候因素的情況下,環(huán)境學(xué)者研究地表水X1減少的原因,發(fā)現(xiàn)植被覆蓋率低X2和人類浪費(fèi)水X5是主要原因(如圖3a)所示),并進(jìn)行了統(tǒng)計(jì),得到了三者之間的CPT(X2、X5是X1的父變量);植物學(xué)者研究植被覆蓋率低X2、土壤沙化X3和人類砍伐森林X4之間的關(guān)系(如圖3b)所示),得到了三者之間的CPT;土壤學(xué)者研究土壤沙化X3、地表水缺乏X1和植被覆蓋率低X2之間的關(guān)系(如圖3c)所示),統(tǒng)計(jì)出了三者之間的CPT。將三個(gè)模塊合成(相同變量合并),可得圖3d),但其中存在DCG(X2→X3→X2;X1→X3→X2→X1)。根據(jù)BN/CBN 的定義,圖3d)是無定義的。也就是說,BN/CBN 難以采用模塊化的方式構(gòu)建。
圖3 模塊化合成全局模型示例
為克服BN/CBN 的不足,筆者及其團(tuán)隊(duì)創(chuàng)立了DUCG 理論[5~17],其基本思想是從因果關(guān)系的底層而非表象層表達(dá)和處理不確定因果關(guān)系。
所謂表象層,就是數(shù)據(jù)統(tǒng)計(jì)層面。例如BN/CBN 就是用統(tǒng)計(jì)得來的CPT 表達(dá)變量之間基于DAG 結(jié)構(gòu)的因果關(guān)系的不確定性,既無法顯式(Explicit)表達(dá)父變量之間的邏輯關(guān)系,也不允許DCG,各變量和參數(shù)相互耦合,難以模塊化建模、難以動態(tài)和局部增刪修改模型、難以高效推理計(jì)算。
所謂底層,就是父子間因果作用機(jī)理層。DUCG 用獨(dú)立的虛擬因果作用隨機(jī)事件變量P(用于單賦值DUCG:S-DUCG)或A(用于多賦值DUCG:M-DUCG)表達(dá)每個(gè)父變量對子變量的不確定因果作用機(jī)理,多個(gè)父變量對子變量的關(guān)系為簡單邏輯或(S-DUCG)或者權(quán)重邏輯或(M-DUCG),復(fù)雜的關(guān)系由邏輯門變量G顯式表達(dá),并將G作為一個(gè)父變量對待。獨(dú)立的P或A事件的發(fā)生概率表達(dá)因果關(guān)系的不確定性,這些獨(dú)立事件及其概率的組合構(gòu)成DUCG 的JPD 和CPT,從而將統(tǒng)計(jì)意義上耦合在一起的各個(gè)變量和參數(shù)解耦,進(jìn)而在推理計(jì)算中引入邏輯化簡(去掉與當(dāng)前問題無關(guān)部分),引入由獨(dú)立事件組成的因果鏈展開和邏輯運(yùn)算,用矛盾律(結(jié)果不能同時(shí)是自己的原因)在因果鏈展開中解環(huán),引入不確定證據(jù)算法、遞歸算法等,大幅提高計(jì)算效率和精準(zhǔn)度,既可溯源,又可預(yù)測,也可反事實(shí)(Counterfactual)推理。其自動歸一化定理保證了DUCG 可在不完備表達(dá)情況下精確推理。
所謂單賦值S-DUCG,是指子變量的一個(gè)狀態(tài)(狀態(tài)1)的原因被表達(dá),另一個(gè)狀態(tài)(狀態(tài)0)只能是狀態(tài)1 的補(bǔ)集,其原因不能被單獨(dú)表達(dá);所謂多賦值M-DUCG,是指子變量的任何一個(gè)狀態(tài)的原因可以被單獨(dú)表達(dá)。從數(shù)學(xué)上看,S-DUCG 完全滿足概率論(集合論);M-DUCG 則有所突破,需要建立一個(gè)新的數(shù)學(xué)模型——權(quán)重集合論,來處理同一變量不同狀態(tài)互斥(相關(guān))和各狀態(tài)原因獨(dú)立表達(dá)之間的矛盾。兩者可以混合,統(tǒng)稱為DUCG(詳見文獻(xiàn)[7]和[8])。
圖4 是與圖3 對應(yīng)的M-DUCG,其中根原因變量用字母B表達(dá),獨(dú)立的虛擬因果作用隨機(jī)事件變量用加粗有向弧表達(dá),以區(qū)別于BN/CBN。注意,DUCG 允許DCG,使得模塊化構(gòu)建DUCG 成為可能。如何用圖3a)、b)和c)的局部統(tǒng)計(jì)數(shù)據(jù)構(gòu)建圖4d)那樣的全局DUCG、JPD 和CPT,進(jìn)而定義和計(jì)算圖3d)的帶DCG 的BN/CBN,參見文獻(xiàn)[6]和[17]。
圖4 模塊化合成全局M-DUCG 的示例
模塊化建模的優(yōu)勢明顯:除每個(gè)局部(模塊)可解釋性強(qiáng)、可隨時(shí)通過修改局部而重構(gòu)全局模型外,還可顯著降低統(tǒng)計(jì)數(shù)據(jù)的收集量和難度。例如一個(gè)包含20 個(gè)模塊的系統(tǒng),每個(gè)模塊有10 個(gè)變量,去重后共計(jì)100 個(gè)變量,每個(gè)變量有2 個(gè)狀態(tài)。按照100 個(gè)變量狀態(tài)的每個(gè)組合收集10 個(gè)樣本計(jì),共需收集2100×10 =1.267×1031個(gè)樣本。如果采用模塊化方式建模和收集樣本,按照相同的標(biāo)準(zhǔn),僅需收集20×210×10 =2.048×105個(gè)樣本。
圖5 是M-DUCG 的數(shù)學(xué)模型(S-DUCG 類似,參見文獻(xiàn)[7])。
圖5 M-DUCG 模型
其中,D是缺省原因(或未知原因)事件,SX是特異性(金標(biāo)準(zhǔn))子事件變量,BX是集成或受風(fēng)險(xiǎn)因素影響后的B變量;Ank;iji是父事件Viji導(dǎo)致子事件Xnk發(fā)生(即Xnk;iji發(fā)生)的獨(dú)立的虛擬因果作用隨機(jī)事件,其發(fā)生概率ank;iji =Pr{Ank;iji}表達(dá)Viji導(dǎo)致Xnk發(fā)生的不確定性;rn;i表達(dá)Vi與Xn之間是否存在因果關(guān)系的不確定性。“+”是權(quán)重邏輯或算符,其作用與互斥或EOR 相似,但含義不同。Fnk;iji是權(quán)重虛擬因果作用隨機(jī)事件,Pr{Xnk;iji}=Pr{Fnk;ijiViji} 是Viji對Xnk發(fā)生的概率的貢獻(xiàn)。
用公式表達(dá)M-DUCG,就是式(4):
如果V =X,可重復(fù)使用式(4),直到V∈{B,D} 。
作為一個(gè)原創(chuàng)的理論體系,DUCG 還有很多內(nèi)容,不在此一一介紹。有興趣的讀者可參閱文獻(xiàn)[15]~[17]。
目前DUCG 已在大型復(fù)雜工業(yè)系統(tǒng)故障監(jiān)測、預(yù)報(bào)、診斷、發(fā)展預(yù)測、決策支持、安全評價(jià)、臨床輔助診斷等領(lǐng)域投入實(shí)際應(yīng)用。以全科臨床診斷為例,已覆蓋發(fā)熱、腹痛等43 個(gè)主訴癥狀、每個(gè)主訴含跨科室的數(shù)十到上百個(gè)疾病,去重后覆蓋1 400多個(gè)疾病、10 000 多個(gè)ICD-10 疾病代碼,在基層醫(yī)院實(shí)際診病已逾30 萬例,只在早期出現(xiàn)過8 例診斷錯誤(已糾正無再錯),具有天然的可解釋性,算法透明,無泛化問題,安全可靠魯棒,還能精確推薦下一步該做的檢查,動態(tài)生成患者個(gè)體優(yōu)化臨床路徑,顯著節(jié)省檢查費(fèi)用。
如珀?duì)査觯?8],因果關(guān)系是打開可信人工智能的鑰匙。當(dāng)然,筆者認(rèn)為基于因果關(guān)系的可信人工智能未必是全能的。只要能夠可信地解決應(yīng)用領(lǐng)域的實(shí)際問題,包括可解釋性和泛化問題,就實(shí)現(xiàn)了新一代人工智能的初衷。