張有興 李平 烏嶸 楊曉麗 李玉東 孟亮
DOI:10.16246/j.issn.1673-5072.2024.04.012
收稿日期:2023-03-15? 基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(62276099)
作者簡介:張有興(1980—),男,高級工程師,主要從事天然氣勘探開發(fā)與人工智能研究。
通信作者:李平(1979—),女,教授,主要從事數(shù)據(jù)挖掘、智能油田技術(shù)研究。E-mail:pingkly@163.com
引文格式:張有興,李平,烏嶸,等.基于多組件圖神經(jīng)網(wǎng)絡(luò)的多元序列因果推斷[J].西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,45(4):430-437.[ZHANG Y X,LI P,WU R,et al.Causality inference for multivariate series based on multi-component graph neural network[J].Journal of China West Normal University (Natural Sciences),2024,45(4):430-437.]
摘? 要:圖神經(jīng)網(wǎng)絡(luò)對非線性及高階交互作用具有強(qiáng)大的表征能力,提高了格蘭杰因果推斷的可解釋性和準(zhǔn)確性。本文提出了一種基于多組件圖神經(jīng)網(wǎng)絡(luò)的多元時間序列格蘭杰因果關(guān)系推斷方法(MCGNN),利用多組件圖卷積神經(jīng)網(wǎng)絡(luò)分別獲取多元序列之間的非線性作用關(guān)系,同時引入門控循環(huán)單元對時間序列進(jìn)行建模,將多元時間序列之間的因果關(guān)系問題轉(zhuǎn)化為時間序列之間的預(yù)測問題。在公開的模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)集上的試驗(yàn)結(jié)果表明,相比于當(dāng)前已知最好的模型,MCGNN具有更高的準(zhǔn)確性。特別地,將模型應(yīng)用于天然氣深冷工藝數(shù)據(jù)集中,能夠動態(tài)發(fā)現(xiàn)深冷工藝中位點(diǎn)傳感器之間的因果關(guān)系,并與深冷工藝專家的判斷一致。
關(guān)鍵詞:格蘭杰因果;圖神經(jīng)網(wǎng)絡(luò);多元時間序列;非線性作用;高階交互作用
中圖分類號:TP391??? 文獻(xiàn)標(biāo)志碼:A??? 文章編號:1673-5072(2024)04-0430-08
在多元時間序列數(shù)據(jù)挖掘任務(wù)中,解釋多元時間序列之間的相互作用關(guān)系是其重要組成部分,對理解數(shù)據(jù)挖掘結(jié)果具有重要意義。例如,在神經(jīng)科學(xué)領(lǐng)域,研究人員試圖分析各個腦區(qū)活動的相互作用對后續(xù)腦區(qū)
活動的影響[1-2];在社交媒體分析中,了解各個話題之間的相互影響可以為信息傳播預(yù)測提供有力依據(jù)[3];在基因組學(xué)中,探索基因表達(dá)的時間序列間的相互影響有助于推斷基因調(diào)控網(wǎng)絡(luò)的作用機(jī)制[4-5]。目前,格蘭杰因果[6]是理解時間序列間關(guān)系的常用框架。圖1描述了多元時間序列到因果圖的轉(zhuǎn)化過程,其中,因果結(jié)構(gòu)中每個節(jié)點(diǎn)表示系統(tǒng)中的一個序列(變量),每條邊描述了兩個節(jié)點(diǎn)間的因果關(guān)系,且邊是有向的。
格蘭杰因果推斷方法大致可以分為兩類,一類是無模型的方法,另一類是基于模型的方法。無模型的方法能夠通過對預(yù)測關(guān)系的最小假設(shè)來檢測時間序列過去和未來之間的非線性依賴關(guān)系,如傳遞熵[7]、有向信息[8]等。然而,這種無模型的方法在進(jìn)行可靠的因果關(guān)系估計(jì)時需要大量數(shù)據(jù),同時這些方法難以應(yīng)對高維數(shù)據(jù),容易遭受維度災(zāi)難。目前絕大多數(shù)的格蘭杰因果推理方法采用基于模型的推理方法,即:使用參數(shù)化生成模型對可觀測的時間序列數(shù)據(jù)進(jìn)行建模,該模型的推斷參數(shù)用于反映格蘭杰因果關(guān)系的真實(shí)拓?fù)浣Y(jié)構(gòu)。早期的格蘭杰因果關(guān)系推理技術(shù)包括動態(tài)貝葉斯網(wǎng)絡(luò)[9]和具有時變系數(shù)的正則化邏輯回歸[10]等。然而,這些方法對于數(shù)據(jù)的非線性建模能力有限且只能推斷無向的因果關(guān)系。近年來,神經(jīng)網(wǎng)絡(luò)因其在表示輸入與輸出之間復(fù)雜的非線性相互作用上展現(xiàn)出強(qiáng)大的特征表達(dá)能力而被廣泛用于推斷格蘭杰因果關(guān)系[11-13]。例如,Xu等[14]提出了一種可擴(kuò)展因果圖學(xué)習(xí)網(wǎng)絡(luò),該模型通過低秩逼近降低了噪聲的影響,并在模擬和真實(shí)數(shù)據(jù)集上實(shí)現(xiàn)了更好的精度和高擴(kuò)展性。Marcinkevis等[15]將自解釋神經(jīng)網(wǎng)絡(luò)[16]拓展到時間序列分析,提出了一種廣義向量自回歸模型,并通過稀疏誘導(dǎo)和時間平滑懲罰來找到時序數(shù)據(jù)中穩(wěn)定的格蘭杰因果關(guān)系。
基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的模型雖然能有效推斷出多元時間序列間的因果關(guān)系,但是其解釋性較差。格蘭杰因果關(guān)系挖掘的挑戰(zhàn)是對于包含多元變量的系統(tǒng)而言,變量(即序列)間存在著未知且復(fù)雜的非線性關(guān)系。傳統(tǒng)的因果發(fā)現(xiàn)方法主要通過干預(yù)或現(xiàn)實(shí)生活中的實(shí)驗(yàn)來操縱變量的值,同時控制目標(biāo)變量的所有其他影響因素不變,以測試目標(biāo)變量是否會隨著操作變量的變化而變化。其他方法如基于功能因果模型的因果發(fā)現(xiàn)算法[17]建立在非對稱獨(dú)立性假設(shè)基礎(chǔ)上,即因變量的分布與結(jié)果變量的分布條件獨(dú)立。
為提高因果關(guān)系推斷的準(zhǔn)確性和可解釋性,本文提出了一種基于多組件圖神經(jīng)網(wǎng)絡(luò)的多元時間序列格蘭杰因果關(guān)系推斷方法(Multi-Component Graph Neural Networks,MCGNN),該方法首次將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于格蘭杰因果推斷任務(wù),使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)[18]表征多元變量之間的可能關(guān)系,并結(jié)合門控循環(huán)單元(Gated Recurrent Unit,GRU)[19]捕捉單個變量的時變特征,提高推斷能力。此外,考慮到基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的因果推斷模型缺乏解釋能力,受文獻(xiàn)[20]的啟發(fā),采用組件級模型架構(gòu),增強(qiáng)模型的可解釋性。最后,將MCGNN模型和其他基線模型在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),并將該模型應(yīng)用于實(shí)際天然氣生產(chǎn)工藝中。
1? 模? 型
1.1? 問題定義
多元時間序列間的格蘭杰因果關(guān)系通常由一組有向的依賴關(guān)系給出。例如,文獻(xiàn)[21]給出了格蘭杰因果關(guān)系的經(jīng)典定義。本文根據(jù)Tank等[20]的拓展來定義非線性格蘭杰因果關(guān)系。若存在一組具有N個變量的時間序列X={x1,x2,…,xN},假設(shè)變量之間的格蘭杰因果關(guān)系由以下結(jié)構(gòu)方程模型給出。
第45卷第4期????? 張有興,等:基于多組件圖神經(jīng)網(wǎng)絡(luò)的多元序列因果推斷
西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版)http:∥igne.cbpt.cnki.net/2024年
x(t+1)(t+τ)j∶=fi(x(t+1):(t+τ)1,…,x(t-l+1):ti,…,x(t-l+1):tN)+εtj,
式中:1jN,τ為溫度系數(shù),x(t-l+1):ti表示含有前l(fā)個時間步歷史信息的第i個變量,fi(·)是一個非線性函數(shù),指定了變量xj的未來值如何依賴于X的過去值,而εtj是一個附加項(xiàng)。
多元序列之間的格蘭杰因果關(guān)系可以通過一個有向圖G=(V,E,A)進(jìn)行概括[22],其中V={x1,x2,…,xN}是時間序列對應(yīng)的節(jié)點(diǎn)集合,E={(xi,xj):xi→xj}表示存在格蘭杰因果關(guān)系的時間序列之間的連邊集合,A∈{0,1}N×N表示圖G的鄰接矩陣。因此,格蘭杰因果推斷任務(wù)是從多元時間序列的歷史觀測數(shù)據(jù)中發(fā)現(xiàn)內(nèi)在的依賴關(guān)系來,從而實(shí)現(xiàn)對A的估計(jì)。
1.2? 模型總體架構(gòu)
MCGNN的整體框架如圖2所示。具體來講,在因果推斷階段使用GCN和GRU網(wǎng)絡(luò)進(jìn)行時間序列預(yù)測,自動學(xué)習(xí)每個目標(biāo)變量的因果關(guān)系矩陣。再將因果關(guān)系矩陣送入到因果關(guān)系抽取階段,利用異常值檢測方法對生成的因果關(guān)系進(jìn)行二元決策,從而得到序列間的格蘭杰因果關(guān)系。該方法主要包含因果關(guān)系推斷與因果關(guān)系抽取兩階段處理過程。在因果關(guān)系推斷過程中,利用多元時間序列X={x1,x2,…,xN}的歷史數(shù)據(jù)分別預(yù)測各個序列未來一段時間內(nèi)的演變趨勢。在模型訓(xùn)練過程中,通過減少預(yù)測誤差,學(xué)習(xí)時間序列之間的因果關(guān)系矩陣Ai,其中i=1,2,…,N。由于在反向傳播過程中,每一個變量的時間序列所學(xué)習(xí)到的因果關(guān)系矩陣Ai之間存在偏差,所以無法明確判斷出序列之間存在的關(guān)系是否為因果關(guān)系。因此,需要進(jìn)一步對因果關(guān)系矩陣Ai進(jìn)行因果關(guān)系抽取,得到可靠的序列間因果關(guān)系矩陣A。在因果關(guān)系抽取過程中,本文采用異常檢測中的離群點(diǎn)檢測方式來提取具體的格蘭杰因果關(guān)系圖A??偟膩碚f,模型整體處理流程以多元時間序列X={x1,x2,…,xN}作為輸入,先經(jīng)過多組件的因果關(guān)系推斷模塊得到因果關(guān)系推斷矩陣Ai,再將Ai送入到因果關(guān)系抽取模塊得到多元時間序列間的格蘭杰因果關(guān)系圖A。
1.3? 因果關(guān)系推斷
因果關(guān)系推斷階段的目的是通過多組件時間序列預(yù)測來學(xué)習(xí)各組件的多元序列之間的格蘭杰因果關(guān)系矩陣Ai。其具體操作過程如圖3所示。由于神經(jīng)網(wǎng)絡(luò)在非線性自回歸模型中往往采用參數(shù)共享,因此難以通過網(wǎng)絡(luò)參數(shù)來判定某個序列xi是另一個序列xj的格蘭杰因果的充分條件,且這種方式也導(dǎo)致得到格蘭杰因果關(guān)系矩陣缺乏可解釋性[20]。因此,本文提出的MCGNN模型借鑒了文獻(xiàn)[20]的組件架構(gòu)思想。在因果關(guān)系推斷中,對于每一個變量的時間序列數(shù)據(jù),分別采用一個組件模型對其進(jìn)行建模。將全部的多變量時間序列送入每一個組件中,并以預(yù)測其中一個時間序列的未來演變作為目標(biāo)。這樣,多組件模型架構(gòu)就增強(qiáng)了整個模型的可解釋性。
每個組件模型包含GCN和GRU兩部分。首先利用GCN來聚合含有格蘭杰因果關(guān)系的節(jié)點(diǎn),表征多元序列之間的可能關(guān)系。在第i個組件中的GCN聚合過程如下式所示,GCN的原始輸入為多元時間序列X={x1,x2,…,xN}和隨機(jī)初始化的自適應(yīng)參數(shù)矩陣Ai∈N×N,經(jīng)過一次GCN卷積得到序列的表示Zi,該表示中包含了多元時間序列間的關(guān)系信息,公式為:
Zi=ReLU(AiXWi)。
式中:Wi為可學(xué)習(xí)的權(quán)重參數(shù),Ai是模型訓(xùn)練過程中需要學(xué)習(xí)的時間序列間的因果關(guān)系矩陣,在模型訓(xùn)練過程中,通過最小化預(yù)測誤差來不斷更新Ai,從而迫使Ai不斷逼近真實(shí)的格蘭杰因果關(guān)系。
將當(dāng)前t時刻GCN得到的表示Zti送入到GRU中,如下式所示。然后采用GRU學(xué)習(xí)單個時間序列的時變特征,捕獲各個序列上的時間依賴關(guān)系。其具體的計(jì)算過程如下公式所示:
Hti=GRUi(Ht-1i,Zti)。
在GRU中,接收兩個輸入,分別是上一時刻隱藏狀態(tài)Ut-1i和當(dāng)前t時刻輸入Zti,在第i個組件中的GRU詳細(xì)計(jì)算過程如下。
uti=σ(WiuZti+UiuHt-1i+biu),
rti=σ(WirZti+UirHt-1i+bir),
ti=tanh(WihZti+Uih(rhi⊙Ht-1i)+bih),
Hti=uti⊙ti+(1-uti)⊙Ht-1i,
式中:uti表示更新門,biu表示更新門的偏置,rti表示重置門,bir表示重置門的偏置,ti表示候選隱藏狀態(tài),bih表示隱藏狀態(tài)的偏置,σ表示Sigmoid激活函數(shù),Hti為GRU輸出的時間序列的表示,該表示不僅包含了單個時間序列的時序信息,還包含了各時序變量間的關(guān)系信息。最后,模型經(jīng)過一個全連接層得到預(yù)測輸出,如下式所示。
y^i=WHti+bi,
式中:bi表示預(yù)測輸出的偏置。因果關(guān)系推斷模型的損失函數(shù)由兩部分構(gòu)成,第一部分是采用均方誤差(MSE)計(jì)算時間序列的預(yù)測值與真實(shí)值的誤差,第二部分采用了L2正則項(xiàng)來保證格蘭杰因果關(guān)系的稀疏性,其公式如下所示。
loss=1M∑Ni=1∑Mj=1(yij-y^ij)2+λ∑Ni=1‖Ai‖2,
式中:M表示樣本數(shù)量,N表示序列個數(shù),yij表示第i個序列第j個樣本的真實(shí)值,y^ij表示第i個序列的第j個樣本的預(yù)測值,λ表示懲罰系數(shù),在實(shí)驗(yàn)中取值為0.01。
1.4? 因果關(guān)系抽取
在因果關(guān)系推斷模型的訓(xùn)練過程中,雖然能夠通過最小化模型的損失函數(shù)找到每一個組件中最優(yōu)的格蘭杰因果矩陣Ai,但是這會造成每個組件中的格蘭杰因果矩陣Ai不一致,仍然無法對序列間關(guān)系進(jìn)行確切的因果定義。為明確序列之間的因果關(guān)系,需要對學(xué)習(xí)到的格蘭杰因果矩陣Ai做出二元決策,判斷出兩個時間序列是否存在因果關(guān)系。這里采用圖4所示的因果關(guān)系抽取模塊提取出具體的因果關(guān)系矩陣A。
首先對每個組件中的因果矩陣Ai先取絕對值,再按列求均值,得到其余時間序列對于預(yù)測目標(biāo)序列的平均貢獻(xiàn)度ai。
ai=1N∑NM=1AMi′,
在得到平均貢獻(xiàn)度ai后,采用一種異常值判斷方式對ai進(jìn)行二元決策。二元決策的具體公式如下所示:
Mi=MEAN(ai),Si=STD(ai)? ,
ai=1,aiMi+γSi0,ai 計(jì)算每個向量ai的平均值Mi和標(biāo)準(zhǔn)差Si,然后根據(jù)每個序列的平均貢獻(xiàn)度與Mi+γSi(實(shí)驗(yàn)中γ取值為2)的比值進(jìn)行判斷,若貢獻(xiàn)度大于等于Mi+γSi,則表示存在因果關(guān)系,并設(shè)為1;若小于Mi+γSi,則不存在因果關(guān)系,值設(shè)為0。最后將二元決策后的結(jié)果進(jìn)行拼接,A=1‖2‖…‖N,得到最終的因果圖A。 2? 試? 驗(yàn) 為驗(yàn)證MCGNN模型的有效性,分別在模擬數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上進(jìn)行了相關(guān)試驗(yàn)。 2.1? 數(shù)據(jù)集 本文沿用文獻(xiàn)[20]的做法,分別采用模擬數(shù)據(jù)集Lorenz-96和真實(shí)數(shù)據(jù)集DREAM3評估MCGNN模型的有效性?,F(xiàn)對兩種數(shù)據(jù)集分別進(jìn)行介紹。 2.1.1? Lorenz-96模擬數(shù)據(jù) Lorenz-96是1996年Lorenz和Saltzman提出的一種時間連續(xù)、空間離散的非線性氣候動力學(xué)模型[23],其第i個變量的表達(dá)式為 dxtidt=(xt(i+1)-xt(i-2))xt(i-1)-xti+F , 式中:F是一個強(qiáng)迫常數(shù),它決定了時間序列數(shù)據(jù)中非線性和混沌的程度,F(xiàn)越大,數(shù)據(jù)變得越混沌。根據(jù)文獻(xiàn)[20]所述的模擬數(shù)據(jù)生成方法,在本實(shí)驗(yàn)中設(shè)置F=10和F=40,并以Δt=0.05的采樣率對N=20的Lorenz-96模型進(jìn)行數(shù)值模擬,生成具有稀疏格蘭杰因果關(guān)系的多元非線性時間序列。 2.1.2? DREAM3數(shù)據(jù)集 DREAM3數(shù)據(jù)集來源于一個基因調(diào)控網(wǎng)絡(luò)推理挑戰(zhàn),該挑戰(zhàn)旨在從隨時間變化的基因表達(dá)數(shù)據(jù)集中估計(jì)格蘭杰因果網(wǎng)絡(luò)。DREAM3數(shù)據(jù)集是一個困難的、復(fù)雜的非線性數(shù)據(jù)集,其中包含5個不同的子數(shù)據(jù)集,分別是2個大腸桿菌(E.coli-1、E.coli-2)數(shù)據(jù)集和3個酵母(Yeast-1、Yeast-2、Yeast-3)數(shù)據(jù)集,每個數(shù)據(jù)集都表現(xiàn)出了不同的稀疏模式和因果拓?fù)浣Y(jié)構(gòu)。在每個數(shù)據(jù)集中包含了N=100個不同的時間序列,每個序列有46個擾動,每個擾動持續(xù)21個時間點(diǎn),總共有966個時間點(diǎn)。 2.2? 試驗(yàn)設(shè)置 本文所有試驗(yàn)均采用Python編程語言和Pytorch深度學(xué)習(xí)框架,且在具有16 GB RAM的單個NVIDIA Tesla T4 GPU上進(jìn)行運(yùn)算。在訓(xùn)練過程中,學(xué)習(xí)率設(shè)置為0.01,epoch設(shè)置為2 000。為了防止模型過擬合,采用Adam優(yōu)化器[24]“早停法”(Early Stopping)進(jìn)行訓(xùn)練。同時,采用時間序列間的因果關(guān)系準(zhǔn)確率(Accuracy)和接受者操作特征曲線下的面積(AUROC)這兩種評價指標(biāo)對模型的推理結(jié)果進(jìn)行評估,驗(yàn)證模型有效性。 2.3? 基線模型 本文選取5種流行的生成序列間的格蘭杰因果關(guān)系的方法與本文所提出的MCGNN模型進(jìn)行比較。(1)IMV_LSTM[25]:使用注意力權(quán)重來提供比標(biāo)準(zhǔn)LSTM更好的可解釋性,通過聚合注意力權(quán)重來檢測格蘭杰因果關(guān)系。(2)TCDF[26]:時間因果發(fā)現(xiàn)框架使用基于注意力的卷積神經(jīng)網(wǎng)絡(luò)和因果驗(yàn)證步驟相結(jié)合,通過解釋卷積網(wǎng)絡(luò)的內(nèi)部參數(shù)來發(fā)現(xiàn)序列間的因果關(guān)系。(3)cLSTM[20]:利用LSTM和對權(quán)重的稀疏性懲罰,激勵特定的權(quán)重集為零的方式來生成序列間的格蘭杰因果關(guān)系。(4)cMLP[20]:利用多層感知機(jī)(Multipe Layer Perceptron,MLP)與lasso正則對權(quán)重參數(shù)進(jìn)行稀疏性誘導(dǎo),從而生成蘭杰因果關(guān)系。(5)SRU[27]:統(tǒng)計(jì)循環(huán)單元采用組件級預(yù)測模型對觀測數(shù)據(jù)的非線性進(jìn)行建模,格蘭杰因果關(guān)系的網(wǎng)絡(luò)拓?fù)淇梢詮腟RU網(wǎng)絡(luò)的內(nèi)部參數(shù)結(jié)構(gòu)化稀疏估計(jì)中推斷出來。 2.4? 模型的性能表現(xiàn) 2.4.1? 模擬數(shù)據(jù)試驗(yàn) 為驗(yàn)證所提出的MCGNN模型對模擬數(shù)據(jù)的有效性,在時間序列長度為500(即T=500)且不同混沌程度(即F=10,F(xiàn)=40)的Lorenz-96數(shù)據(jù)集上進(jìn)行了對比試驗(yàn),其中F值越大,表示該系統(tǒng)動力學(xué)變得越混亂。該試驗(yàn)均選擇前5個時間步的序列數(shù)據(jù)作為輸入,預(yù)測下一時間步的序列數(shù)據(jù)。同時,本試驗(yàn)以5次試驗(yàn)的平均值作為試驗(yàn)結(jié)果,并展示了其標(biāo)準(zhǔn)差,具體的實(shí)驗(yàn)結(jié)果如表1所示。MCGNN模型相比于其他的基線模型在不同混沌程度的Lorenz-96模擬數(shù)據(jù)集上均表現(xiàn)出了最優(yōu)的試驗(yàn)結(jié)果。特別是當(dāng)F=40時,大部分基線模型的格蘭杰因果檢測性能都顯著降低,如TCDF、cLSTM模型等。SRU模型在F=40時卻相較F=10時得到了較大提升,其原因?yàn)楫?dāng)時間序列的混沌程度較低、序列間的相互作用較弱時,該模型的正則化方法沒有充分發(fā)揮作用[25]。而MCGNN模型無論數(shù)據(jù)處于何種混沌程度,都保持著較強(qiáng)的競爭性,且格蘭杰因果關(guān)系檢測性能也相對平穩(wěn)。 2.4.2? 真實(shí)數(shù)據(jù)集試驗(yàn) 為驗(yàn)證MCGNN模型在真實(shí)的復(fù)雜數(shù)據(jù)集中的格蘭杰因果推斷性能,采用因果關(guān)系推斷模型評價常用的基準(zhǔn)數(shù)據(jù)(DREAM3基因表達(dá)數(shù)據(jù))進(jìn)行相關(guān)試驗(yàn)。在試驗(yàn)中,采用前5個時間步的序列數(shù)據(jù)作為輸入,預(yù)測下一時間步的序列數(shù)據(jù), 在cLSTM和cMLP模型中分別設(shè)置隱藏單元為10個和5個,在MCGNN模型中設(shè)置隱藏單元為16個。采用AUROC作為性能指標(biāo)比較各模型的因果推斷表現(xiàn),結(jié)果如圖5所示:MCGNN模型在5個子數(shù)據(jù)集中均取得了不錯的表現(xiàn),對于5個基因調(diào)控網(wǎng)絡(luò)中的E.coli-1、Yeast-1、Yeast-3數(shù)據(jù)集,MCGNN模型取得了最佳的AUROC,在Yeast-2上也表現(xiàn)優(yōu)秀。 2.4.3? 樣本數(shù)量的影響 為驗(yàn)證不同樣本數(shù)量對模型因果檢測性能的影響,分別在不同的時間序列長度(即T分別為250,500,1 000)的Lorenz-96數(shù)據(jù)集上進(jìn)行了對比試驗(yàn),試驗(yàn)結(jié)果如圖6所示。當(dāng)F=10時,MCGNN模型在各個樣本數(shù)目中都取得了最佳的AUROC,且樣本數(shù)量越多,格蘭杰因果檢測的效果越好。并且,當(dāng)可用的數(shù)據(jù)序列長度較少時(T=250),MCGNN模型性能表現(xiàn)明顯優(yōu)于所有基線模型。當(dāng)F=40時,即使時間序列的混沌程度增加,且在少樣本情況下,MCGNN模型的性能提升幅度明顯要優(yōu)于大部分基線模型。 2.4.4? 模型參數(shù)量比較 為檢驗(yàn)所提出的MCGNN模型的復(fù)雜度,在真實(shí)數(shù)據(jù)集DREAM3的子數(shù)據(jù)集E.coli-1上比較了不同方法在進(jìn)行計(jì)算時所使用的參數(shù)量,其試驗(yàn)結(jié)果如表2所示。TCDF模型在計(jì)算時參數(shù)量最少,但從模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的試驗(yàn)結(jié)果來看,其效果表現(xiàn)得并不是很好。IMV_LSTM模型參數(shù)量最多,模型復(fù)雜,從表1和圖5的試驗(yàn)結(jié)果來看,IMV_LSTM的性能表現(xiàn)也是最差的。本文所提出的MCGNN模型的參數(shù)量第二多,這主要是因?yàn)楸灸P筒捎昧私M件式結(jié)構(gòu),且每個組件模型包含了GCN和GRU,結(jié)構(gòu)相對復(fù)雜。雖然cMLP和cLSTM模型也采用了組件式結(jié)構(gòu),結(jié)構(gòu)相對簡單,但是綜合的表現(xiàn)性能卻不如MCGNN??偟膩砜矗疚乃岢龅腗CGNN模型去解決因果推斷任務(wù)相對于基線模型是有效且可行的。 2.5? MCGNN的工業(yè)應(yīng)用 工業(yè)生產(chǎn)中往往涉及多維(即多變量)數(shù)據(jù)的監(jiān)控和關(guān)系發(fā)現(xiàn)。如在天然氣生產(chǎn)工藝實(shí)時監(jiān)測中,脫甲烷塔工藝過程所涉及的塔底、塔中及塔頂溫度和壓力等多維度參數(shù),是影響產(chǎn)品回收率以及純度的關(guān)鍵因素。掌握脫甲烷塔工藝中各傳感位點(diǎn)之間溫度相互影響的規(guī)律是控制產(chǎn)品生產(chǎn)效能的有效途徑。在本實(shí)驗(yàn)中,選取了脫甲烷塔中13個不同位置溫度傳感器點(diǎn)位的一個月數(shù)據(jù)記錄,共計(jì)732個時間點(diǎn),部分點(diǎn)位溫度序列如圖7(a)所示。通過MCGNN模型挖掘這些點(diǎn)位之間的非線性依賴關(guān)系,從而為調(diào)控各個位置的溫度作出建議。 經(jīng)MCGNN模型推斷,脫甲烷塔中溫度傳感器的因果網(wǎng)絡(luò)結(jié)構(gòu)如圖7(b)所示,已知TT_016和TT_017點(diǎn)位處于脫甲烷塔的輸入部分,該位置的溫度是導(dǎo)致后續(xù)點(diǎn)位溫度變化的重要原因;TT_013、TT_014處于脫甲烷塔中部,該位置溫度容易受到塔頂和塔底溫度的影響;TT_021和TT_022處于脫甲烷塔的輸出部分,與塔內(nèi)多個位置的溫度存在非線性依賴關(guān)系。這意味著,調(diào)節(jié)輸入位置以及塔頂、塔底點(diǎn)位的溫度,對于提升脫甲烷塔工藝效果相對重要。該結(jié)論經(jīng)與采氣廠內(nèi)部工藝專家校驗(yàn),證明多組件圖神經(jīng)網(wǎng)絡(luò)方法較傳統(tǒng)基于LSTM的方法能更準(zhǔn)確地識別出關(guān)鍵位點(diǎn)TT_021與TT_022,對于生產(chǎn)實(shí)踐具有一定指導(dǎo)意義。 3? 結(jié)? 論 本文提出的MCGNN模型首次將GCN和GRU網(wǎng)絡(luò)相結(jié)合應(yīng)用到格蘭杰因果推斷任務(wù)中,同時考慮表征多元變量之間的可能關(guān)系和學(xué)習(xí)單個變量的時變特征。此外,為避免神經(jīng)網(wǎng)絡(luò)的“黑盒”特性,MCGNN采用組件級模型架構(gòu),提高整個模型的可解釋性。該模型通過因果關(guān)系推斷和關(guān)系抽取2個過程實(shí)現(xiàn)多元序列間的因果關(guān)系推斷,即首先通過圖卷積和GRU網(wǎng)絡(luò)自動學(xué)習(xí)針對每個目標(biāo)變量的因果結(jié)構(gòu),然后通過異常值檢測方法對生成的因果關(guān)系進(jìn)行二元決策,從而得到序列間的格蘭杰因果關(guān)系。在模擬數(shù)據(jù)集和真實(shí)的基因調(diào)控網(wǎng)絡(luò)數(shù)據(jù)集上,該方法都獲得了最高準(zhǔn)確率。將該方法應(yīng)用于實(shí)際的天然氣生產(chǎn)工藝流程分析中,對脫甲烷塔中的溫度傳感器點(diǎn)位進(jìn)行相關(guān)試驗(yàn)分析,試驗(yàn)結(jié)果與經(jīng)驗(yàn)知識吻合。然而,本方法的一個缺點(diǎn)在于計(jì)算復(fù)雜度較高。因此,在未來的工作中,將重點(diǎn)探索更高效的解決方案,減少模型復(fù)雜度。 參考文獻(xiàn): [1]? SHEIKHATTAR A,MIRAN S,LIU J,et al.Extracting neuronal functional network dynamics via adaptive Granger causality analysis[J].Proceedings of the National Academy of Sciences,2018,115(17):3869-3878. [2]? WEIN S,MALLONI W M,TOM A M,et al.A graph neural network framework for causal inference in brain networks[J].Scientific Reports,2021,11(1):1-18. [3]? XIU Y,REN X,ZHANG T,et al.Time labeled visibility graph for privacy-preserved physiological time series classification[C]//2022 7th International Conference on Cloud Computing and Big Data Analytics (ICCCBDA).IEEE,Chengdu,China,2022:280-284. [4]? ZHANG S,BAI Y,WU G,et al.The forecasting model for time series of transformer DGA data based on WNN-GNN-SVM combined algorithm[C]//2017 1st International Conference on Electrical Materials and Power Equipment (ICEMPE).IEEE,Xian,China,2017:292-295. [5]? ZHANG W,ZHANG C,TSUNG F.GRELEN:multivariate time series anomaly detection from the perspective of graph relational learning[C]//Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence,IJCAI-22.Messe Wien,Vienna,Austria.2022:2390-2397. [6]? ZHOU L W,ZENG Q K,LI B.Hybrid anomaly detection via multihead dynamic graph attention networks for multivariate time series[J].IEEE Access 2022,10:40967-40978. [7]? VICENTE R,WIBRAL M,LINDNER M,et al.Transfer entropy—a model-free measure of effective connectivity for the neurosciences[J].Journal of Computational Neuroscience,2011,30(1):45-67. [8]? AMBLARD P O,MICHEL O J J.On directed information theory and Granger causality graphs[J].Journal of Computational Neuroscience,2011,30(1):7-16. [9]? SONG L,KOLAR M,XING E.Time-varying dynamic bayesian networks[J].Advances in Neural Information Processing Systems,2009,22:1732-1740. [10]KOLAR M,SONG L,AHMED A,et al.Estimating time-varying networks[J].The Annals of Applied Statistics,2010:94-123. [11]WANG Y,LIN K,QI Y,et al.Estimating brain connectivity with varying-length time lags using a recurrent neural network[J].IEEE Transactions on Biomedical Engineering,2018,65(9):1953-1963. [12]KYONO T,ZHANG Y,VAN DER SCHAAR M.CASTLE:regularization via auxiliary causal graph discovery[J].Advances in Neural Information Processing Systems,2020,33 :1501-1512. [13]HU W,YANG Y,CHENG Z,et al.Time-series event prediction with evolutionary state graph[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining.Jerusalem,Israel,2021:580-588. [14]XU C,HUANG H,YOO S.Scalable causal graph learning through a deep neural network [C]// Proc of the 28th ACM international conference on information and knowledge management.New York:ACM Press,2019:1853-1862. [15]MARCINKEVIS R,VOGT J E.Interpretable models for granger causality using self-explaining neural networks [C]// Proc of the 9th International Conference on Learning Representations.2021. [16]HUANG B,ZHANG K,ZHANG J,et al.Causal discovery from heterogeneous/nonstationary data[J].The Journal of Machine Learning Research,2020,21(1):3482-3534. [17]KIPF T,WELLING M.Semi-supervised classification with graph convolutional networks[C]// International Conference on Learning Representation,San Juan,Puerto Rico,ICLR:1609.02907,2016. [18]HUANG Y,KLEINBERG S.Fast and accurate causal inference from time series data[C]//FLAIRS Conference.The Diplomat Beach Resort Hollywood Curio Collection By Hilton,Hollywood,USA,2015:49-54. [19]CHO K,VAN MERRIENBOER B,GULCEHRE C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proc of EMNLP.Stroudsburg,PA:ACL,Eighth Street,Stroudsburg PA 18360,2014:1724-1734. [20]TANK A,COVERT I,F(xiàn)OTI N,et al.Neural granger causality[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2021,44(8):4267-4279. [21]LI C,MO L,YAN R.Rolling bearing fault diagnosis based on horizontal visibility graph and graph neural networks[C]//2020 international conference on sensing,measurement & data analytics in the era of artificial intelligence (icsmd).IEEE,2020:275-279. [22]LORENZ E N,EMANUEL K A.Optimal sites for supplementary weather observations:Simulation with a small model[J].Journal of the Atmospheric Sciences,1998,55(3):399-414. [23]KINGMA D P,BA J.Adam:a method for stochastic optimization [C]// International Conference on Learning Representation,San Diego,CA,USA.ICLR:2015. [24]GUO T,LIN T,ANTULOV-FANTULIN N.Exploring interpretable lstm neural networks over multi-variable data [C]// International conference on machine learning.Long Beach,California,USAPMLR,2019:2494-2504. [25]PLETNEV A,RIVERA-CASTRO R,BURNAEV E.Graph Neural Networks for Model Recommendation using Time Series Data[C]//2020 19th IEEE International Conference on Machine Learning and Applications (ICMLA).IEEE,2020:1534-1541. [26]KHANNA S,TAN V Y F.Economy statistical recurrent units for inferring nonlinear granger causality[C]// International Conference on Learning Representation,Addis Ababa 2020. [27]CUI Y,ZHENG K,CUI D,et al.METRO:a generic graph neural network framework for multivariate time series forecasting[J].Proceedings of the VLDB Endowment,2021,15(2):224-236. Causality Inference for Multivariate SeriesBased on Multi-component Graph Neural Network ZHANG You-xing1,LI Ping2,WU Rong1,YANG Xiao-li1,LI Yu-dong1,MENG Liang1 (1.Information Management Station,No.1 Gas Production Plant of Xinjiang Oilfield Company,Karamay Xinjiang 834000,China;2.College of Computer Science,Southwest Petroleum University,Chengdu Sichuan 610500,China) Abstract:Considering that graph neural networks are capable of capturing nonlinear and high-order interactions,this paper proposes a Granger causality inference method (MCGNN) for multivariate time series based on multi-component graph neural network to improve the interpretability and accuracy of Granger causal inference.Multi-component graph convolution neural network is utilized to obtain the nonlinear effects between multivariate time series and Gated Recurrent Unit model is introduced to model the time series,translating the causality inference into time series predictions.The experimental results indicate that MCGNN is significantly better in accuracy than the current best models in both open simulated data and real data sets.In particular,when it is applied to the data set of natural gas cryogenic process,the method can dynamically find the causal relationship between the site sensors in cryogenic process,which is consistent with the judgment of cryogenic process experts. Keywords:Granger causality;graph neural network;multi-variable time series; nonlinear effects; high-order interaction