基于因果關(guān)系的人工智能

2022-11-15 07:54張勤

軍事運(yùn)籌與系統(tǒng)工程 2022年2期

張勤

（1.清華大學(xué) 核能與新能源技術(shù)研究院，北京102202；2.清華大學(xué) 計(jì)算機(jī)系，北京100084）

1 引言

中國科協(xié)在2022 年6 月27 日召開的科協(xié)年會上發(fā)布了“2022 十大前沿科學(xué)問題”，其中第2個(gè)問題是：“如何實(shí)現(xiàn)可信可靠可解釋人工智能技術(shù)路線和方案”［1］?？萍疾吭凇翱萍紕?chuàng)新2030——‘新一代人工智能’重大項(xiàng)目2021 年度項(xiàng)目申報(bào)指南”中的第一章“新一代人工智能理論基礎(chǔ)”中，將“因果推理與決策理論模型研究”列為第1.1 節(jié)的標(biāo)題，要求“突破模型泛化瓶頸問題，提升模型系統(tǒng)的安全性、魯棒性及可解釋性”，“降低對數(shù)據(jù)獨(dú)立同分布的依賴，提升泛化能力和可解釋性”［2］。顯然，當(dāng)前流行的深度學(xué)習(xí)模型存在的泛化和不可解釋等問題，導(dǎo)致了不可信、不可靠和魯棒性等問題?？萍疾恐改咸岢隽恕耙蚬评砼c決策”的技術(shù)路線，是對第一代基于知識的人工智能技術(shù)路線的某種回歸，因?yàn)橹R主要就是對事物間因果關(guān)系的描述。

但細(xì)觀內(nèi)容，科技部的指南仍然在數(shù)據(jù)驅(qū)動的框架內(nèi)，因?yàn)橹改现?.1 節(jié)的內(nèi)容要求構(gòu)建“數(shù)據(jù)驅(qū)動的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)理論”。網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)當(dāng)然也是應(yīng)有之義，但不是重點(diǎn)。這反映了科技部指南希望新一代人工智能既吸收第一代知識驅(qū)動的人工智能的優(yōu)點(diǎn)，又保留第二代大數(shù)據(jù)深度學(xué)習(xí)優(yōu)點(diǎn)的樸素想法。

2 因果貝葉斯網(wǎng)絡(luò)

當(dāng)前，最流行的因果網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)模型是圖靈獎獲得者美國加利福亞尼大學(xué)洛杉磯分校的朱迪亞·珀?duì)柦淌趧?chuàng)立的因果貝葉斯網(wǎng)絡(luò)（Causal Bayesian Network，CBN）［3］，即將貝葉斯網(wǎng)絡(luò)（Bayesian Network，BN）［4］具體化為CBN。

BN 也是珀?duì)枮橹鲃?chuàng)立的，其定義為：

式（1）中，Pr｛｝是求概率的算符，Xi是網(wǎng)絡(luò)節(jié)點(diǎn)變量，xi是Xi的一個(gè)取值或?qū)嵗?，pai是Xi的父變量取值的組合。實(shí)際上，是Xi的一個(gè)條件概率。在變量狀態(tài)離散情況下，由Xi ＝xi和pai的各種取值構(gòu)成的條件概率構(gòu)成一個(gè)條件概率表（Conditional Probability Table，CPT），用以表達(dá)子變量Xi與其父變量（準(zhǔn)確地說應(yīng)該是條件變量）之間的條件概率關(guān)系。

在變量狀態(tài)離散情況下，我們可以將Xi ＝xi簡記為Xi，ji或Xiji，即Xi處于ji狀態(tài)或取值。這樣，式（1）可改寫為式（2）：

根據(jù)式（1）或式（2）對BN 的定義，BN／CBN 的結(jié)構(gòu)必然是有向無環(huán)圖（Directed Acyclic Graph，DAG），也就是說，BN／CBN 的結(jié)構(gòu)不能出現(xiàn)有向有環(huán)圖（Directed Cyclic Graph，DCG）。例如，圖1 是基于DAG 的BN 示例圖，圖2 是DCG 示例圖，是不被允許的（沒有定義）。

圖1 基于DAG 的BN 示例

圖2 DCG 示例

式（1）或式（2）表達(dá)了BN 中的節(jié)點(diǎn)變量的聯(lián)合概率分布（Joint Probability Distribution，JPD），但節(jié)點(diǎn)的排序可以是任意的。例如：

式（3）中的第一個(gè)等式可用圖1a）表達(dá)，第二個(gè)等式可用圖1b）表達(dá)。在不指定變量狀態(tài)的情況下，圖1a）成為圖1c），圖1b）成為圖1d）。箭頭指向?yàn)楦缸兞俊幼兞俊８缸兞颗c子變量之間的不確定性由CPT 表達(dá)。也就是說，同一個(gè)JPD 可以有不同但等價(jià)的BN。這說明BN 只是JPD 的因式分解表達(dá)，并不必然表達(dá)變量間的因果關(guān)系，從而難以表達(dá)知識、難以可解釋。僅當(dāng)BN 中的父節(jié)點(diǎn)是子節(jié)點(diǎn)的真正直接原因變量而非僅僅是條件變量時(shí)，BN 才成為CBN，才能表達(dá)變量間的因果關(guān)系，才具有可解釋性。

要獲得CBN，需要從反映JPD 的統(tǒng)計(jì)數(shù)據(jù)中學(xué)習(xí)CBN 的結(jié)構(gòu)和參數(shù)［1］。這一過程通常被稱為因果發(fā)現(xiàn)，其中需要通過存在于數(shù)據(jù)中的獨(dú)立性和相關(guān)性并通過do 干預(yù)算子來確定變量間的因果關(guān)系。在有多個(gè)可能CBN 的情況下，用奧卡姆剃刀（最簡化）原則和穩(wěn)定性原則來選擇最可能的CBN，且根據(jù)BN 的定義，CBN 不能有DCG。

3 因果貝葉斯網(wǎng)絡(luò)的不足

盡管CBN 具有數(shù)學(xué)理論嚴(yán)謹(jǐn)?shù)葍?yōu)點(diǎn)，但CBN也存在如下缺點(diǎn)，導(dǎo)致其難以普遍應(yīng)用：

（1）對數(shù)據(jù)質(zhì)量要求高（要體現(xiàn)各種獨(dú)立性和相關(guān)性），數(shù)據(jù)獲取難。

（2）從數(shù)據(jù)學(xué)出的因果結(jié)構(gòu)未必符合領(lǐng)域?qū)＜业恼J(rèn)知，從而難以被接受。

（3）用來選擇候選結(jié)構(gòu)的奧卡姆剃刀（最簡化）和穩(wěn)定性原則是經(jīng)驗(yàn)原則，科學(xué)性不夠。

（4）不適用于存在靜態(tài)邏輯循環(huán)DCG 的情況，這是BN／CBN 的定義所決定的。

（5）因不允許DCG，無法通過模塊化的方式構(gòu)建CBN，導(dǎo)致構(gòu)建模型困難和構(gòu)建了也難以理解。

（6）父變量之間的邏輯關(guān)系隱藏在CPT 中（Implicit 表達(dá)）［5］，可解釋性不足，父變量間以及概率參數(shù)相互耦合（CPT 表達(dá)的是父變量的狀態(tài)組合與子變量狀態(tài)之間的條件概率）。

（7）難以利用領(lǐng)域?qū)＜乙延械囊蚬R。

（8）計(jì)算復(fù)雜度高，計(jì)算效率低，難以用于大型復(fù)雜系統(tǒng)。

此外，其是否避免了數(shù)據(jù)獨(dú)立同分布假設(shè)從而避免了泛化問題存疑。

一般來說，大型復(fù)雜系統(tǒng)的建模是一項(xiàng)艱巨的任務(wù)。理想的方法是模塊化建模，即分別構(gòu)建多個(gè)小的模塊（局部），然后合成為完整模型（全局），這樣可以以指數(shù)規(guī)模減少收集樣本數(shù)據(jù)［4］。但這種方法很可能導(dǎo)致全局模型中出現(xiàn)DCG，這是BN／CBN 的定義所不允許的。例如，在不考慮氣候因素的情況下，環(huán)境學(xué)者研究地表水X1減少的原因，發(fā)現(xiàn)植被覆蓋率低X2和人類浪費(fèi)水X5是主要原因（如圖3a）所示），并進(jìn)行了統(tǒng)計(jì)，得到了三者之間的CPT（X2、X5是X1的父變量）；植物學(xué)者研究植被覆蓋率低X2、土壤沙化X3和人類砍伐森林X4之間的關(guān)系（如圖3b）所示），得到了三者之間的CPT；土壤學(xué)者研究土壤沙化X3、地表水缺乏X1和植被覆蓋率低X2之間的關(guān)系（如圖3c）所示），統(tǒng)計(jì)出了三者之間的CPT。將三個(gè)模塊合成（相同變量合并），可得圖3d），但其中存在DCG（X2→X3→X2；X1→X3→X2→X1）。根據(jù)BN／CBN 的定義，圖3d）是無定義的。也就是說，BN／CBN 難以采用模塊化的方式構(gòu)建。

圖3 模塊化合成全局模型示例

4 動態(tài)不確定因果圖

為克服BN／CBN 的不足，筆者及其團(tuán)隊(duì)創(chuàng)立了DUCG 理論［5～17］，其基本思想是從因果關(guān)系的底層而非表象層表達(dá)和處理不確定因果關(guān)系。

所謂表象層，就是數(shù)據(jù)統(tǒng)計(jì)層面。例如BN／CBN 就是用統(tǒng)計(jì)得來的CPT 表達(dá)變量之間基于DAG 結(jié)構(gòu)的因果關(guān)系的不確定性，既無法顯式（Explicit）表達(dá)父變量之間的邏輯關(guān)系，也不允許DCG，各變量和參數(shù)相互耦合，難以模塊化建模、難以動態(tài)和局部增刪修改模型、難以高效推理計(jì)算。

所謂底層，就是父子間因果作用機(jī)理層。DUCG 用獨(dú)立的虛擬因果作用隨機(jī)事件變量P（用于單賦值DUCG：S-DUCG）或A（用于多賦值DUCG：M-DUCG）表達(dá)每個(gè)父變量對子變量的不確定因果作用機(jī)理，多個(gè)父變量對子變量的關(guān)系為簡單邏輯或（S-DUCG）或者權(quán)重邏輯或（M-DUCG），復(fù)雜的關(guān)系由邏輯門變量G顯式表達(dá)，并將G作為一個(gè)父變量對待。獨(dú)立的P或A事件的發(fā)生概率表達(dá)因果關(guān)系的不確定性，這些獨(dú)立事件及其概率的組合構(gòu)成DUCG 的JPD 和CPT，從而將統(tǒng)計(jì)意義上耦合在一起的各個(gè)變量和參數(shù)解耦，進(jìn)而在推理計(jì)算中引入邏輯化簡（去掉與當(dāng)前問題無關(guān)部分），引入由獨(dú)立事件組成的因果鏈展開和邏輯運(yùn)算，用矛盾律（結(jié)果不能同時(shí)是自己的原因）在因果鏈展開中解環(huán)，引入不確定證據(jù)算法、遞歸算法等，大幅提高計(jì)算效率和精準(zhǔn)度，既可溯源，又可預(yù)測，也可反事實(shí)（Counterfactual）推理。其自動歸一化定理保證了DUCG 可在不完備表達(dá)情況下精確推理。

所謂單賦值S-DUCG，是指子變量的一個(gè)狀態(tài)（狀態(tài)1）的原因被表達(dá)，另一個(gè)狀態(tài)（狀態(tài)0）只能是狀態(tài)1 的補(bǔ)集，其原因不能被單獨(dú)表達(dá)；所謂多賦值M-DUCG，是指子變量的任何一個(gè)狀態(tài)的原因可以被單獨(dú)表達(dá)。從數(shù)學(xué)上看，S-DUCG 完全滿足概率論（集合論）；M-DUCG 則有所突破，需要建立一個(gè)新的數(shù)學(xué)模型——權(quán)重集合論，來處理同一變量不同狀態(tài)互斥（相關(guān)）和各狀態(tài)原因獨(dú)立表達(dá)之間的矛盾。兩者可以混合，統(tǒng)稱為DUCG（詳見文獻(xiàn)［7］和［8］）。

圖4 是與圖3 對應(yīng)的M-DUCG，其中根原因變量用字母B表達(dá)，獨(dú)立的虛擬因果作用隨機(jī)事件變量用加粗有向弧表達(dá)，以區(qū)別于BN／CBN。注意，DUCG 允許DCG，使得模塊化構(gòu)建DUCG 成為可能。如何用圖3a）、b）和c）的局部統(tǒng)計(jì)數(shù)據(jù)構(gòu)建圖4d）那樣的全局DUCG、JPD 和CPT，進(jìn)而定義和計(jì)算圖3d）的帶DCG 的BN／CBN，參見文獻(xiàn)［6］和［17］。

圖4 模塊化合成全局M-DUCG 的示例

模塊化建模的優(yōu)勢明顯：除每個(gè)局部（模塊）可解釋性強(qiáng)、可隨時(shí)通過修改局部而重構(gòu)全局模型外，還可顯著降低統(tǒng)計(jì)數(shù)據(jù)的收集量和難度。例如一個(gè)包含20 個(gè)模塊的系統(tǒng)，每個(gè)模塊有10 個(gè)變量，去重后共計(jì)100 個(gè)變量，每個(gè)變量有2 個(gè)狀態(tài)。按照100 個(gè)變量狀態(tài)的每個(gè)組合收集10 個(gè)樣本計(jì)，共需收集2100×10 ＝1.267×1031個(gè)樣本。如果采用模塊化方式建模和收集樣本，按照相同的標(biāo)準(zhǔn)，僅需收集20×210×10 ＝2.048×105個(gè)樣本。

圖5 是M-DUCG 的數(shù)學(xué)模型（S-DUCG 類似，參見文獻(xiàn)［7］）。

圖5 M-DUCG 模型

其中，D是缺省原因（或未知原因）事件，SX是特異性（金標(biāo)準(zhǔn)）子事件變量，BX是集成或受風(fēng)險(xiǎn)因素影響后的B變量；Ank；iji是父事件Viji導(dǎo)致子事件Xnk發(fā)生（即Xnk；iji發(fā)生）的獨(dú)立的虛擬因果作用隨機(jī)事件，其發(fā)生概率ank；iji ＝Pr｛Ank；iji｝表達(dá)Viji導(dǎo)致Xnk發(fā)生的不確定性；rn；i表達(dá)Vi與Xn之間是否存在因果關(guān)系的不確定性。“+”是權(quán)重邏輯或算符，其作用與互斥或EOR 相似，但含義不同。Fnk；iji是權(quán)重虛擬因果作用隨機(jī)事件，Pr｛Xnk；iji｝＝Pr｛Fnk；ijiViji｝是Viji對Xnk發(fā)生的概率的貢獻(xiàn)。

用公式表達(dá)M-DUCG，就是式（4）：

如果V ＝X，可重復(fù)使用式（4），直到V∈｛B，D｝。

作為一個(gè)原創(chuàng)的理論體系，DUCG 還有很多內(nèi)容，不在此一一介紹。有興趣的讀者可參閱文獻(xiàn)［15］～［17］。

目前DUCG 已在大型復(fù)雜工業(yè)系統(tǒng)故障監(jiān)測、預(yù)報(bào)、診斷、發(fā)展預(yù)測、決策支持、安全評價(jià)、臨床輔助診斷等領(lǐng)域投入實(shí)際應(yīng)用。以全科臨床診斷為例，已覆蓋發(fā)熱、腹痛等43 個(gè)主訴癥狀、每個(gè)主訴含跨科室的數(shù)十到上百個(gè)疾病，去重后覆蓋1 400多個(gè)疾病、10 000 多個(gè)ICD-10 疾病代碼，在基層醫(yī)院實(shí)際診病已逾30 萬例，只在早期出現(xiàn)過8 例診斷錯誤（已糾正無再錯），具有天然的可解釋性，算法透明，無泛化問題，安全可靠魯棒，還能精確推薦下一步該做的檢查，動態(tài)生成患者個(gè)體優(yōu)化臨床路徑，顯著節(jié)省檢查費(fèi)用。

5 結(jié)束語