曲璐渲, 郭上慧, 王之瓊,2, 信俊昌
(1. 東北大學 醫(yī)學與生物信息工程學院, 遼寧 沈陽 110169; 2. 沈陽東軟智能醫(yī)療科技研究院有限公司, 遼寧 沈陽 110179; 3. 東北大學 計算機科學與工程學院, 遼寧 沈陽 110169; 4. 遼寧省大數(shù)據(jù)管理與分析重點實驗室, 遼寧 沈陽 110169)
人類常見疾病,如神經(jīng)退行性疾病、惡性腫瘤疾病等,究其原因都是由于基因表達異常所導致的結果.而基因并不是孤立存在的,基因間促進和抑制的調(diào)控關系形成了基因調(diào)控網(wǎng)絡[1].通過構建相對精準的基因調(diào)控網(wǎng)絡來研究基因間的表達關系,對人體機制和疾病治療的探索有著重要意義.而如何構建一個更加準確有效的網(wǎng)絡成為基因調(diào)控網(wǎng)絡研究的首要難題[2].目前,基因調(diào)控網(wǎng)絡建模的研究方法主要包括:關聯(lián)模型[3]、布爾網(wǎng)絡模型[4]、微分方程模型[5]和貝葉斯網(wǎng)絡模型[6].近年來,關聯(lián)模型和貝葉斯網(wǎng)絡模型廣泛應用于基因調(diào)控網(wǎng)絡的構建.在關聯(lián)模型方面,文獻[7]基于自適應分塊策略來估計互信息并構建基因調(diào)控網(wǎng)絡.在貝葉斯網(wǎng)絡模型方面,Frolova和 Wilczynski[8]提出了一種可以支持動態(tài)貝葉斯網(wǎng)絡的BNFinder2 軟件來構建基因調(diào)控網(wǎng)絡.
關聯(lián)模型可以支持構建大規(guī)模的基因調(diào)控網(wǎng)絡,但構建出的網(wǎng)絡不能描述調(diào)控方向[9];而貝葉斯網(wǎng)絡模型既可以描述調(diào)控關系又可以描述調(diào)控方向,但由于其計算復雜度很高,限制了網(wǎng)絡構建的規(guī)模和效率[10].基于此,本文將兩種模型的優(yōu)點相結合,提出了基于父節(jié)點篩選的貝葉斯網(wǎng)絡模型方法來構建基因調(diào)控網(wǎng)絡.首先,對于每個節(jié)點,利用皮爾遜相關系數(shù)計算節(jié)點間的關聯(lián)程度,篩選出與該節(jié)點具有強相關性的若干節(jié)點;其次,將篩選出的節(jié)點作為貝葉斯網(wǎng)絡模型中結構學習時的候選父節(jié)點以縮小搜索空間,并基于此構建基因調(diào)控網(wǎng)絡.最后,通過實驗驗證了該方法在準確率和計算效率上均優(yōu)于傳統(tǒng)的貝葉斯網(wǎng)絡模型,并且該方法可以支持大規(guī)?;蛘{(diào)控網(wǎng)絡的構建.
貝葉斯網(wǎng)絡(Bayesian network,BN)[10]借助有向無環(huán)圖來刻畫基因之間的依賴關系.對于任一變量Xi,通??梢哉业揭粋€與Xi都不獨立的最小子集Parent(Xi)?{X1,X2,…,Xi-1},使得P(Xi|X1,X2,…,Xi-1)=P(Xi|Parent(Xi)).因此,當網(wǎng)絡變量元組〈X1,X2,…,Xn〉賦予具體數(shù)據(jù)值〈x1,x2,…,xn〉時,貝葉斯網(wǎng)絡的聯(lián)合概率分布為
(1)
建立貝葉斯網(wǎng)絡通常需要2個步驟:結構學習和參數(shù)學習.結構學習的方法是針對每個節(jié)點,遍歷并通過評分函數(shù)評價所有可能的結構,進而找出最好的結構作為該節(jié)點的父節(jié)點集;該方法的尋優(yōu)策略可以保證所構建出的網(wǎng)絡結構的精確性,然而,其復雜度也極高.因此,利用傳統(tǒng)貝葉斯網(wǎng)絡模型的結構學習構建基因調(diào)控網(wǎng)絡,不僅效率非常低且網(wǎng)絡規(guī)模也有限.本文提出一種基于父節(jié)點篩選的貝葉斯網(wǎng)絡建模方法,該方法可以縮小結構學習的搜索空間,同時,充分利用結構學習搜索策略的優(yōu)勢保證所構建的基因調(diào)控網(wǎng)絡的精確性.網(wǎng)絡總體框架如圖1所示.
由圖1可以看到,基于父節(jié)點篩選的貝葉斯網(wǎng)絡建模方法在貝葉斯網(wǎng)絡結構學習前,先利用皮爾遜相關系數(shù)方法按照節(jié)點間的關聯(lián)程度,針對每個節(jié)點篩選出若干個候選父節(jié)點,然后,將這些父節(jié)點作為結構學習時的搜索空間,但不改變結構學習的搜索策略,從而在結構學習過程中準確、高效地得出父節(jié)點集;經(jīng)過結構學習后即可得到貝葉斯網(wǎng)絡模型所構建出的基因調(diào)控網(wǎng)絡.最后,通過參數(shù)學習得到節(jié)點間邊的權重,進而得出既有調(diào)控方向又有概率值的基因調(diào)控網(wǎng)絡.
父節(jié)點篩選方法采用皮爾遜相關系數(shù)對節(jié)點間的關系進行描述.皮爾遜相關系數(shù)衡量了兩個變量Xi和Yi的相似度,可由式(2)定義:
(2)
根據(jù)式(2)得到兩個節(jié)點的相關程度后,將具有一定相關程度的父節(jié)點作為候選父節(jié)點.基于父節(jié)點篩選的貝葉斯網(wǎng)絡建模過程如算法1所示.
算法1 基于父節(jié)點篩選的貝葉斯網(wǎng)絡建模方法
輸出:基因調(diào)控網(wǎng)絡矩陣G.
算法描述:
1) 父節(jié)點篩選個數(shù)λ=α×n;
2) fori=1 tondo
4) forj=1 ton-1 do
6) 根據(jù)式(2)計算皮爾遜相關系數(shù)rj;
7) 將[rj,Yj]添加到父節(jié)點集合Pfather;
9) fork=1 toλdo
10) 將Pak中的Yj存入Xi的候選父節(jié)點集合Pi中;
11) 計算Xi父節(jié)點集為空的BDE分數(shù)emptyscore;
12) 設置最優(yōu)父節(jié)點集optimal_set =
[Xi,[ ]];
13) 設置最優(yōu)父節(jié)點分數(shù)optimal_score=emptyscore;
14) forp=1 tomdo
15) 計算可能的父節(jié)點組合數(shù)
16) forq=1 to pc do
17) 在候選父節(jié)點集合Pi中計算父節(jié)
點集組合Paq的BDE分數(shù)score;
18) if score>optimal_score
19) optimal_set = [Xi,[Paq]];
20) optimal_score = score
21) 將[optimal_set,optimal_score]保存到Gi;
22)Gi添加到G;
23) 輸出G.
實驗選用的數(shù)據(jù)為GeneNetWeaver上獲取的大腸桿菌基因調(diào)控網(wǎng)絡.選取了其中20個基因的子網(wǎng)絡,對父節(jié)點篩選的貝葉斯網(wǎng)絡模型(PS-BN)和傳統(tǒng)的貝葉斯網(wǎng)絡模型(BN)的性能進行評價;還分別選取了包含100,200,300,400和500個基因的子網(wǎng)絡對PS-BN的大規(guī)?;蛘{(diào)控網(wǎng)絡構建效率進行評價.
在對PS-BN和BN進行性能評價時,選用了準確率、精確率、召回率、F值4項評估指標,另外還對兩種方法的運行時間進行了比較,驗證了PS-BN的效率.
準確率描述了構建基因調(diào)控網(wǎng)絡時判斷為有邊或無邊的總體的準確率,可由式(3)計算:
(3)
精確率描述了判斷為有邊的結果中,預測正確的概率,可由式(4)計算:
(4)
召回率描述的是在所有標簽為有邊的金標準中,實驗結果也判斷為有邊的概率,可由式(5)計算:
(5)
F值是一個綜合評價指標,表示的是精確率和召回率的調(diào)和平均評估指標,可由式(6)計算:
(6)
上述評估指標中,TP表示調(diào)控網(wǎng)絡真實為有邊,構建結果也為有邊;TN表示真實為無邊,結果也為無邊;FP表示真實為無邊,結果卻為有邊;FN表示真實為有邊,結果卻為無邊.
將父節(jié)點篩選比例分別設置為總節(jié)點個數(shù)的10%,20%,30%,40%和50%,BN和PS-BN兩種方法的評估指標與運行時間的實驗結果對比如表1所示.可以看出,對于PS-BN方法,父節(jié)點篩選比例高的評估指標優(yōu)于篩選比例較低的;當篩選比例大于或等于30%時,各項評估指標值相同.與BN方法相比,PS-BN方法篩選比例大于或等于20%時的實驗結果均優(yōu)于BN方法.在運行時間方面,各個比例的PS-BN方法的運行時間均遠遠少于BN方法.因此,PS-BN方法在保證評估指標優(yōu)于BN方法的前提下,計算效率得到了顯著提高.
表1 評估指標與運行時間比較Table 1 Comparison of the evaluation indices and the operating time
在準確率方面,BN方法與篩選比例為10%的PS-BN方法的準確率相同.因為,在經(jīng)過父節(jié)點篩選后,貝葉斯網(wǎng)絡搜索空間中的絕大部分冗余信息都被過濾掉,因而假陽邊非常少;但由于篩選比例過小而導致部分真陽邊也被過濾掉.因此,準確率是在犧牲真陽邊數(shù)量的前提下得以保證的.篩選比例為20%和30%時,準確率逐漸升高,且均高于BN方法.隨著篩選比例的增高,搜索空間中對應的真陽邊越來越多,使得所構建的基因調(diào)控網(wǎng)絡真陽邊也增加,而大部分冗余信息仍會被過濾掉;因此在保證真陽邊數(shù)量的前提下,假陽邊的比例少于BN方法,從而提升其準確率.而繼續(xù)增加父節(jié)點篩選比例后,由于有效節(jié)點已經(jīng)被篩選進搜索空間,而增加少部分冗余信息并沒有使假陽邊增多,因此,其準確率與30%時相比不變.
精確率和召回率的評估考慮的均是真陽邊的預測情況.當PS-BN方法的父節(jié)點篩選比例設置為10%時,精確率和召回率均低于BN方法,說明該比例所得到的真陽邊數(shù)量少于BN方法.當篩選比例增加至20%及以上時,精確率和召回率得到提升并高于BN方法,也就是說,篩選比例增加,真陽邊數(shù)量也隨之增多,并且超過了BN方法所得到的真陽邊.當篩選比例高于30%時,真陽邊數(shù)量不再增加,并且網(wǎng)絡結構沒有變化,因此,精確率和召回率保持不變.
評估指標F值是平衡精確率和召回率的一項綜合指標,因此該指標與精確率和召回率的相關程度較高,F值的變化趨勢與精確率和召回率的變化趨勢一致.篩選比例為10%的PS-BN方法在精確率和召回率上均低于BN方法,因此其F值也較低.當篩選比例為20%和30%時,兩項評估指標均高于BN方法,因而其F值也所有提高.當篩選比例為40%和50%時,兩項評估指標均與30%相同,故其F值也與30%相同.
在運行時間方面,PS-BN方法均優(yōu)于BN方法.因為父節(jié)點經(jīng)過篩選后,貝葉斯網(wǎng)絡的搜索空間大幅縮小,在搜索空間中進行父節(jié)點集遍歷搜索的結構學習時,搜索的節(jié)點數(shù)量和各節(jié)點的組合數(shù)目都大量減少,因此,PS-BN方法的運行時間大大縮短.隨著篩選比例的增加,貝葉斯網(wǎng)絡模型的搜索空間逐漸增大,不但導致需要搜索的節(jié)點數(shù)量增加,還導致需要進行評分計算的組合數(shù)目大量增多,使結構學習耗費的時間呈指數(shù)增長.因此,隨著篩選比例的增加,運行時間也呈指數(shù)增長.
由表1可知,在評估指標值較高的篩選比例中,比例為30%時運行時間最短.因此,在對大規(guī)?;蛘{(diào)控網(wǎng)絡的構建進行效率評估時,選用的篩選比例為30%.大規(guī)?;蛘{(diào)控網(wǎng)絡構建運行時間如圖2所示,其中帶標記的實線為運行時間,虛線表示運行時間增加的趨勢線.由圖2可知,隨著基因數(shù)量的增加,運行時間呈冪增長趨勢.這是由于基因數(shù)量增加,同樣的篩選比例所篩選出的基因數(shù)量也隨之增加;但由于篩選比例較小,基因數(shù)量增加有限,因此,在該搜索空間進行結構學習時,運行時間呈冪增長趨勢.
為解決貝葉斯網(wǎng)絡模型在構建基因調(diào)控網(wǎng)絡時效率低且構建規(guī)模有限的問題,本文提出了基于父節(jié)點篩選的貝葉斯網(wǎng)絡(PS-BN)建模方法.PS-BN方法充分利用傳統(tǒng)貝葉斯網(wǎng)絡建模方法在結構學習中的搜索策略,同時,通過篩選父節(jié)點縮小了搜索空間且去除了部分冗余信息,從而在極大提高效率的同時,準確率等4項評估指標也均有所提升.實驗證明了上述結論.