王春宇,宋建春,郭茂祖,邢林林,劉曉燕
(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,150001哈爾濱)
基于加性噪聲模型的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法
王春宇,宋建春,郭茂祖,邢林林,劉曉燕
(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,150001哈爾濱)
為在統(tǒng)計推斷方法通過相關(guān)性來篩選基因?qū)r,能夠體現(xiàn)調(diào)控關(guān)系的因果性,受因果定向算法能夠有效定向調(diào)控關(guān)系的啟發(fā),將加性噪聲模型與因果定向算法相結(jié)合,用基于加性噪聲的定向算法度量因果關(guān)系的程度,提出了一種基因調(diào)控網(wǎng)絡(luò)構(gòu)建的算法.該算法首先將加性噪聲模型的因果定向算法擴(kuò)展為一個特征選擇算法,并通過建立調(diào)控因子集合與每個基因間的加性噪聲模型來選擇基因的調(diào)控因子.在DREAM5的3個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示,結(jié)果比其他算法有明顯提升,該算法可有效構(gòu)建基因調(diào)控網(wǎng)絡(luò).
加性噪聲模型;因果定向;基因調(diào)控網(wǎng)絡(luò);特征選擇
基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法通過基因表達(dá)的觀測數(shù)據(jù)發(fā)現(xiàn)基因間的調(diào)控關(guān)系,調(diào)控網(wǎng)絡(luò)有助于理解生物基因轉(zhuǎn)錄、翻譯的深層調(diào)控機(jī)制,同時,基因調(diào)控網(wǎng)絡(luò)的變化能夠體現(xiàn)細(xì)胞分化和癌癥生成等生物現(xiàn)象.由于生物體是一個復(fù)雜的有機(jī)體,基因在生物體中并不是孤立的,基因之間的相互作用非常復(fù)雜.這種作用表現(xiàn)為一個基因的表達(dá)受其它基因直接或間接影響,同時又影響其它基因的表達(dá),這種相互影響與制約的關(guān)系構(gòu)成了復(fù)雜的調(diào)控網(wǎng)絡(luò).
基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法常用DNA基因表達(dá)微陣列數(shù)據(jù).DNA微陣列是一種能夠快速、高效檢測DNA片段序列、基因型多態(tài)性或基因表達(dá)水平的技術(shù),可并行檢測上千萬個基因的活動,通過檢測mRNA水平來指示基因表達(dá)情況.
利用基因表達(dá)數(shù)據(jù)和調(diào)控因子信息,本文提出一種基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法,該算法將基于加性噪聲模型ANM(additive noisemodel)的因果定向算法擴(kuò)展為特征選擇算法,以此構(gòu)建調(diào)控網(wǎng)絡(luò).該算法的特點(diǎn)是利用加性噪聲模型得到的噪聲變量與自變量的相關(guān)性來選擇特征,即基因的調(diào)控因子,以降低的假陽性.結(jié)果表明基于加性噪聲模型的因果算法可以反映變量間因果關(guān)系的程度,通過擴(kuò)展的特征選擇算法在一定程度能夠提取變量的原因變量,在基因調(diào)控網(wǎng)絡(luò)構(gòu)建問題中,表現(xiàn)為能夠提取出基因的受調(diào)控因子.
1.1 基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法
目前,已有很多模型和方法用于構(gòu)建基因調(diào)控網(wǎng)絡(luò),文獻(xiàn)[1]從模型構(gòu)建的角度對這些方法進(jìn)行總結(jié)和比較.主要的調(diào)控網(wǎng)絡(luò)構(gòu)建模型包括邏輯模型、微分方程模型和貝葉斯模型等.文獻(xiàn)[1]提出的布爾模型,將基因間相互作用理解為邏輯規(guī)則,但只能定性地描述調(diào)控網(wǎng)絡(luò),很難準(zhǔn)確描述基因間的復(fù)雜關(guān)系.文獻(xiàn)[2]用線性常微分方程來描述網(wǎng)絡(luò)系統(tǒng),能定量的表示調(diào)控網(wǎng)絡(luò)的復(fù)雜關(guān)系,但缺乏抗噪聲能力,且計算量較大.貝葉斯網(wǎng)模型可作為上述兩種方法的折中,其原本就表示不確定事物的相互作用,可用來表示復(fù)雜的基因調(diào)控關(guān)系,而且能自然融入先驗(yàn)知識.文獻(xiàn)[3]用爬山法和BDe評分函數(shù)學(xué)習(xí)酵母細(xì)胞周期的調(diào)控網(wǎng)絡(luò),并用“sparse candidate”減小搜索空間.為更好的描述調(diào)控關(guān)系的動態(tài)特征,文獻(xiàn)[4]引入動態(tài)貝葉斯模型(DBNs),理論分析DBNs從時序基因表達(dá)數(shù)據(jù)中學(xué)習(xí)調(diào)控網(wǎng)絡(luò)的問題.貝葉斯網(wǎng)雖能夠較精確的描述調(diào)控網(wǎng)絡(luò),但時間復(fù)雜度高,無法構(gòu)建大規(guī)模網(wǎng)絡(luò).文獻(xiàn)[5]從統(tǒng)計推斷的角度分析和比較了基因調(diào)控構(gòu)建算法,根據(jù)所用統(tǒng)計量的不同,將統(tǒng)計推斷方法分為基于相關(guān)性和基于互信息兩類.
統(tǒng)計推斷構(gòu)建基因調(diào)控網(wǎng)絡(luò)的基本思路是:計算每對基因間的相關(guān)性或互信息,通過閾值篩選統(tǒng)計顯著的基因?qū)?,并認(rèn)為具有調(diào)控關(guān)系.如Relevance Network算法[6]和互信息快速算法[7]等.為提高構(gòu)建網(wǎng)絡(luò)的精度并降低假陽性,Aracne算法[8]利用了DPI(data processing inequality)過濾假陽性的調(diào)控關(guān)系;CLR算法[9]利用自適應(yīng)的閾值選擇方法,通過背景分布篩選基因;C3NET(conservative causal core)算法[10]選各基因最顯著連接為調(diào)控網(wǎng)絡(luò)的邊.統(tǒng)計推斷方法假設(shè)基因間的相關(guān)性反映調(diào)控關(guān)系,準(zhǔn)確的說,基因間的調(diào)控關(guān)系是調(diào)控因子表達(dá)量與基因表達(dá)量的一種因果關(guān)系,即調(diào)控因子是被調(diào)控基因表達(dá)量的原因.統(tǒng)計學(xué)認(rèn)為相關(guān)關(guān)系不等價于因果關(guān)系,所以有必要研究以因果關(guān)系為基礎(chǔ)的基因調(diào)控構(gòu)建算法.
值得一提的是,很多基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法來自DREAM(dialogue on reverse engineering assessment andmethods)計劃[11],其目標(biāo)是促進(jìn)系統(tǒng)生物學(xué)的分子網(wǎng)絡(luò)推導(dǎo)、加強(qiáng)定量模型構(gòu)建與實(shí)驗(yàn)的相互作用.該計劃通過實(shí)驗(yàn)數(shù)據(jù)來推導(dǎo)分子網(wǎng)絡(luò)并構(gòu)建定量模型,再利用這些網(wǎng)絡(luò)和模型來指導(dǎo)實(shí)驗(yàn),將理論與實(shí)驗(yàn)相結(jié)合.文獻(xiàn)[11]總結(jié)DREAM5中出現(xiàn)的各種調(diào)控網(wǎng)絡(luò)構(gòu)建算法,并使用幾個標(biāo)準(zhǔn)數(shù)據(jù)集比較和分析不同的算法,并通過主成分分析法說明幾類方法的不同偏向.
研究表明[12],基因的表達(dá)由一些特殊的蛋白質(zhì)轉(zhuǎn)錄因子控制,轉(zhuǎn)錄因子形成美杜莎結(jié)構(gòu)(medusa structure)調(diào)控基因網(wǎng)絡(luò).因此,結(jié)合物種的轉(zhuǎn)錄因子信息,可將基因調(diào)控網(wǎng)絡(luò)的構(gòu)建問題簡化成每個基因的調(diào)控因子選擇問題.如果將物種已知的調(diào)控因子作為特征,基因調(diào)控網(wǎng)絡(luò)構(gòu)建就是對每個基因做特征選擇,篩選出其調(diào)控因子. TIGRESS[13]利用Lasso回歸作為特征選擇方法,并采用bootstrap抽樣克服Lasso選擇的不穩(wěn)定性;GENIE3[14]通過訓(xùn)練以調(diào)控因子為節(jié)點(diǎn)的隨機(jī)森林預(yù)測目標(biāo)基因的表達(dá)水平,根據(jù)構(gòu)建的隨機(jī)森林構(gòu)建基因調(diào)控網(wǎng)絡(luò).目前,大多數(shù)的特征選擇算法是為了提高分類或回歸模型的精度和泛化能力,而不是從因果關(guān)系的角度提取目標(biāo)變量的原因變量,本文認(rèn)為因果定向算法在某種程度上可用于提取原因變量.
1.2 基于加性噪聲模型因果定向算法
因果定向算法的目的是識別兩個觀測變量的因果方向,最近幾年已有相關(guān)模型和方法.可描述為:假設(shè)有觀測變量X和Y,取值為連續(xù)或離散的,通過它們的觀測值集合
確定X和Y的因果關(guān)系.
現(xiàn)有的模型和方法假定:若cause為成因變量,effect為結(jié)果變量,那么觀察數(shù)據(jù)聯(lián)合概率分布p(cause,effect)沿因果方向(causal→effect)的分解p(cause)p(effect|c(diǎn)ause)比其反方向(effect→causal)的分解p(effect)p(cause|effect)復(fù)雜度更低,可通過比較兩個方向分解的復(fù)雜度來識別因果方向[15].
根據(jù)復(fù)雜度表示法的不同,可將模型分為兩類.第一類通過獨(dú)立性測試識別因果方向,如加性噪聲模型[16]和PNL(post non-linear)方法[17].這兩個模型都是通過檢驗(yàn)假設(shè)的成因變量與噪聲之間的獨(dú)立性來判別因果方向,加性噪聲模型通過回歸獲得噪聲,而PNL利用了獨(dú)立成分分析(ICA)技術(shù).第二類定義復(fù)雜性度量,直接計算兩個方向的復(fù)雜度.復(fù)雜度小的為因果方向,包括GPI方法[18]和IGCI(information geometric causal inference)方法[19].GPI方法利用貝葉斯網(wǎng)絡(luò)作為因果產(chǎn)生的機(jī)制,通過計算網(wǎng)絡(luò)的復(fù)雜性識別因果方向,而IGCI方法通過相對熵來計算因果關(guān)系的復(fù)雜性.研究表明因果定向算法可較為準(zhǔn)確的判別基因間的調(diào)控方向[15],由于很多現(xiàn)有的基因調(diào)控網(wǎng)絡(luò)構(gòu)建算法對調(diào)控方向沒有判別性,因此利用因果定向算法可對預(yù)測的調(diào)控關(guān)系定向.
基于加性噪聲模型的因果發(fā)現(xiàn)模型假設(shè)因果關(guān)系的產(chǎn)生過程為
式中:xi為觀測變量,ni為其雙親節(jié)點(diǎn)的函數(shù)加上相互獨(dú)立的噪聲變量,fi為任意函數(shù).
在滿足一定條件下,加性噪聲模型可判斷觀測變量X、Y間的因果關(guān)系.首先,測試兩變量間的統(tǒng)計獨(dú)立性,若相互獨(dú)立則說明兩變量間不存在因果關(guān)系.其次,若不相互獨(dú)立,則測試模型Y=f(X)+n是否和數(shù)據(jù)一致,方法是檢驗(yàn)通過非線性回歸分析得到的噪聲變量n是否和X相互獨(dú)立,如果相互獨(dú)立則認(rèn)為是一致的,否則不一致.如果一致,則接受該模型,即X→Y的因果關(guān)系成立.如果兩方向的模型均不成立,則兩個觀測變量沒有因果關(guān)系.
受到因果定向算法能夠有效定位基因調(diào)控關(guān)系的啟發(fā),本文認(rèn)為基因間的調(diào)控關(guān)系可用因果定向算法度量,通過計算每個基因?qū)σ蚬较虻膹?fù)雜性可識別出調(diào)控關(guān)系.
假設(shè)調(diào)控因子調(diào)控基因表達(dá)的過程符合加性噪聲模型,通過檢驗(yàn)觀測數(shù)據(jù)與模型的一致性來判別調(diào)控關(guān)系.構(gòu)建調(diào)控因子與基因間的ANM模型,并用模型得到p-value作為調(diào)控關(guān)系強(qiáng)弱的表示,利用閾值篩選出預(yù)測的顯著調(diào)控關(guān)系.但是,基因調(diào)控關(guān)系復(fù)雜,每個基因的調(diào)控因子可能有多個,單純的考慮基因與單調(diào)控因子間的作用不夠準(zhǔn)確,需要同時考慮多調(diào)控因子對基因的作用.本文的方法是建立式(3)所示所有調(diào)控因子與基因間的ANM模型.然后通過算法檢驗(yàn)每個調(diào)控因子與噪聲變量n的獨(dú)立性來篩選調(diào)控因子.
算法如下.
輸入:基因表達(dá)數(shù)據(jù)D(行為實(shí)驗(yàn),列為基因),基因索引數(shù)組G,調(diào)控因子索引數(shù)組TFs(基因表達(dá)數(shù)據(jù)的索引),自定義閾值T.
輸出:基因調(diào)控關(guān)系集R
begin
1.將G劃分為TFs和非調(diào)控因子索引數(shù)組non -TFs;
2.對D的每列規(guī)范化,使每列均值為0、L1-范數(shù)為1,即(i為列號);
3.初始化集合R=?
4.for each g∈G do
5.建立所有調(diào)控因子與g的ANM模型,即
如果構(gòu)建網(wǎng)絡(luò)的基因數(shù)為N調(diào)控因子數(shù)為M時,需要構(gòu)建N次ANM模型和M×N次獨(dú)立性檢驗(yàn),而由ANM模型中回歸算法獲得噪聲變量的復(fù)雜性,可得算法1時間復(fù)雜度是N次回歸與M×N次獨(dú)立性檢驗(yàn)之和.
當(dāng)用兩個成因變量的ANM模型分析時,該模型為
利用皮爾森相關(guān)系數(shù)說明變量間的獨(dú)立性,并歸一化變量X1、X2和Y,使E(X1)=E(X2)=0,,那么歸一化后變量的相關(guān)系數(shù)等于兩變量的余弦值,另外假設(shè)函數(shù)f為簡單的線性函數(shù),即N=Y-W1X1-W2X2,那么
其中,ρX1,Y=X1·Y,ρX2,Y=X2·Y,上述兩個相關(guān)性比值為
3.1 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)見表1,采用3個數(shù)據(jù)集,均來自DREAM5,包括由GNW(gene net weaver)[20]生成的模擬數(shù)據(jù)集、酵母細(xì)胞和大腸桿菌數(shù)據(jù)集,包括用于構(gòu)建調(diào)控網(wǎng)絡(luò)的基因表達(dá)數(shù)據(jù)集和用于驗(yàn)證的調(diào)控關(guān)系數(shù)據(jù)集,調(diào)控關(guān)系數(shù)據(jù)指定了基因間驗(yàn)證過的調(diào)控關(guān)系.另外,還有對應(yīng)的調(diào)控因子數(shù)據(jù)庫,結(jié)合已知的調(diào)控因子,可降低程序運(yùn)行時間和提高預(yù)測的精度.
GNW是第一個能夠生成模擬基準(zhǔn)和分析網(wǎng)絡(luò)推導(dǎo)算法性能的工具,很容易生成基因調(diào)控網(wǎng)絡(luò)的精細(xì)模型.相對于活體的實(shí)驗(yàn),GNW能夠快速和簡單的產(chǎn)生表達(dá)數(shù)據(jù),而且其數(shù)量和質(zhì)量能夠得到控制.大腸桿菌調(diào)控關(guān)系驗(yàn)證數(shù)據(jù)來自RegulonDB(version 6.4)數(shù)據(jù)庫,這些調(diào)控關(guān)系主要是通過手工從文獻(xiàn)中檢索,Chip-qPCR數(shù)據(jù)顯示RegulonDB具有85%的完整性.酵母細(xì)胞的驗(yàn)證數(shù)據(jù)集通過在ChIP-on-chip數(shù)據(jù)集定位啟動子序列.
表1 實(shí)驗(yàn)數(shù)據(jù)集
3.2 實(shí)驗(yàn)方法與評價
實(shí)驗(yàn)分別用Lasso回歸和SVR(support vector pegression)回歸構(gòu)建ANM模型,用LARS算法[21]求解Lasso回歸模型,用libsvm工具包[22]求解SVR回歸,用皮爾森相關(guān)系數(shù)計算變量間的相關(guān)性.
Lasso回歸是一種收縮和選擇方法,給定一組輸出變量Y的觀測值和輸入變量X1,X2,…,Xp的觀測值,優(yōu)化線性模型為
且滿足(ωTφ(xi)+b )-zi≤ε+ξi和zi-其中1,…,l).實(shí)際上不直接求解該優(yōu)化問題,而是通過轉(zhuǎn)化成對偶問題來求解.
實(shí)驗(yàn)結(jié)果用ROC曲線及AUROC來說明算法的效果,首先定義兩個變量RTP(true position rate)和RFP(false position rate),分別定義為RTP= NTP/(NTP+NFN)和RFP=NFP/(NFP+NTN),其中NTP和NFN分別為預(yù)測正確和錯誤的調(diào)控關(guān)系數(shù),NTN和NFP分別為預(yù)測正確和錯誤的非調(diào)控關(guān)系數(shù).
通過設(shè)定不同閾值,獲得不同閾值條件下的RTP和RFP,根據(jù)這些數(shù)據(jù)繪制ROC曲線,并計算ROC曲線下的面積AUROC.為說明算法的有效性,給出了兩個對比實(shí)驗(yàn).
1)說明加性噪聲模型得到的p-value可作為調(diào)控關(guān)系的度量,建立每個調(diào)控因子與目標(biāo)基因的ANM模型,并計算p-value作為之間調(diào)控關(guān)系的度量,通過閾值篩選出顯著的調(diào)控關(guān)系,并與多調(diào)控因子對目標(biāo)基因的ANM模型比較.
2)用Lasso和SVR實(shí)現(xiàn)了ANM模型,并與asso回歸和皮爾森相關(guān)系數(shù)方法進(jìn)行比較,皮爾森相關(guān)系數(shù)方法是計算每對調(diào)控因子與非調(diào)控因子的皮爾森相關(guān)系數(shù),再通過閾值篩選出相關(guān)性比較大的基因?qū)ψ鳛轭A(yù)測,而Lasso回歸選擇對應(yīng)回歸系數(shù)不為零的調(diào)控因子作為目標(biāo)基因的調(diào)控因子.
3.3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一的ROC曲線位于y=x上方如圖1說明單個調(diào)控因子與目標(biāo)基因的p-value作為度量是可以的,并且所有的調(diào)控因子的ANM模型(All TFs)比單個ANM模型(Single TF)能更準(zhǔn)確的度量調(diào)控關(guān)系.由實(shí)驗(yàn)二的ROC曲線(見圖2)和AUROC結(jié)果(見表2),可看出基于ANM的特征選擇方法比Pearson和Lasso特征選擇的預(yù)測效果好,模擬數(shù)據(jù)GNW上ANM效果比Pearson方法差,而且Lasso方法比Pearson方法差,說明ANM能夠提高Lasso特征選擇的能力,其中在Ecoli數(shù)據(jù)集上,本文方法提高的效果很明顯.
圖1 單調(diào)控因子與多調(diào)控因子作用
圖2 基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法的ROC曲線比較實(shí)驗(yàn)
表2 基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法的AUROC
本文在加性噪聲模型的基礎(chǔ)上,提出基于加性噪聲的特征選擇,并用該算法構(gòu)建基因調(diào)控網(wǎng)絡(luò),算法將加性噪聲模型中產(chǎn)生的p-value作為因果強(qiáng)度的度量,而不僅僅是判別因果方向.為了綜合多個調(diào)控因子的作用,本文擴(kuò)展該模型,適用于多個調(diào)控因子與目標(biāo)基因的加性噪聲模型,實(shí)驗(yàn)結(jié)果表明,這樣做能夠提高預(yù)測的效果.將改進(jìn)后的多調(diào)控因子的加性噪聲模型與皮爾森相關(guān)系數(shù)和Lasso方法比較,在ROC曲線上和AUROC上可以看出本文方法比后兩種方法好.對此,本文給出相關(guān)的理論解釋,公式推導(dǎo)的結(jié)果看出多調(diào)控因子的加性噪聲模型綜合了目標(biāo)基因與調(diào)控因子的皮爾森相關(guān)系數(shù)和回歸系數(shù)的作用.當(dāng)然,這種解釋不夠精確,需要進(jìn)一步說明超參數(shù)對權(quán)值的影響.
[1]KARLEBACH G,SHAMIR R.Modelling and analysis of gene regulatory networks[J].Nature Reviews Molecular Cell Biology,2008,9(10):770-80.
[2]CHEN T,HE H,CHURCH M.Modeling gene expression with differential equations[C]//Pacific symposium on biocomputing.Hawaii,USA:UC San Francisco,1999:4-16.
[3]FRIEDMAN N,LINIAL M,NACHMAN I,et al.Using Bayesian networks to analyze expression data[J].Journal of computational biology,2000,7(3/4):601-20.
[4]MURPHY K,SAIRA M.Modelling Gene Expression Data Using Dynamic Bayesian Networks[R].Technical report,Berkeley:Computer Science Division University of California,1999.
[5]EMMERT-STREIB F,GLAZKO G,DE MATOS SIMOES R,et al.Statistical inference and reverse engineering of gene regulatory networks from observational expression data[J].Frontiers in genetics,2012,3:8-23.
[6]BUTTE A,KOHANE I.Mutual information relevance networks:functional genomic clustering using pairwise entropymeasurements[C]//Pac Symp Biocomput.Stanford USA:Stanford University,2000:418-429.
[7]QIU P,GENTLES A,PLEVRITIS S.Fast calculation of pairwise mutual information for gene regulatory network reconstruction[J].Computer methods and programs in biomedicine,2009,94(2):177-180.
[8]MARGOLIN A,NEMENMAN I,BASSO K,et al. ARACNE:an algorithm for the reconstruction of gene regulatory networks in a mammalian cellular context[J]. BMC Bioinformatics,2006,7(Suppl 1):7-22.
[9]FAITH J,HAYETE B,THADEN J,et al.Large-scale mapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles[J]. PLoS biology,2007,5(1):8-21.
[10]ALTAY G,EMMERT-STREIB F.Structural influence of gene networks on their inference:analysis of C3NET[J]. Biol Direct,2011(6):31-47.
[11]MARBACH D,COSTELLO J,et al.Wisdom of crowds for robust gene network inference[J].Naturemethods,2012,9(8):796-804.
[12]GUO Y,F(xiàn)ENG Y,TRIVEDIN,et al.Medusa structure of the gene regulatory network:dominance of transcription factors in cancer subtype classification[J].Experimental biology and medicine,2011,236(5):628-636.
[13]HAURY A,MORDELET F,VERA-LICONA P,et al. TIGRESS:Trustful Inference of Gene REgulation using Stability Selection[J].BMC systems biology,2012,6(1):145-162.
[14]IRRTHUM A,WEHENKEL L,GEURTS P.Inferring regulatory networks from expression data using tree-based methods[J].PloS one,2010,5(9):12776-12786.
[15]STATNIKOV A,HENAFF M,LYTKIN N,et al.New methods for separating causes from effects in genomics data[J].BMC Genomics,2012,13:(Suppl 8):22-38.
[16]HOYER P,DOMINIK J,MOOIJJ,etal.Nonlinear Causal Discovery with Additive Noise Models[C]//In Advances in Neural Information Processing Systems.Vancouver,Canada:NIPSFoundation,2009:689-96.
[17]ZHANG K,HYV?RINEN A.Distinguishing causes from effects using nonlinear acyclic causalmodels[C]//Journal of Machine Learning Research,Workshop and Conference Proceedings(NIPS 2008 causality workshop). Vancouver,Canada:NIPS Foundation,2008:157-164.
[18]STEGLE O,DOMINIK J,ZHANG K,et al.Probabilistic Latent Variable Models for Distinguishing between Cause and Effect[C]//In Advances in Neural Information Processing Systems.Granada,Spain:NIPS Foundation,2010:1687-95.
[19]JANZING D,MOOIJ J,ZHANG K,et al.Informationgeometric approach to inferring causal directions[J]. Artificial Intelligence,2012,182:1-31.
[20]SCHAFFTER T,MARBACH D,F(xiàn)LOREANO D. GeneNetWeaver:in silico benchmark generation and performance profiling of network inference methods[J]. Bioinformatics,2011,27(16):2263-2270.
[21]EFRON B,HASTIE T,JOHNSTONE I,et al.Least angle regression[J].The Annals of statistics,2004,32(2):407-499.
[22]CHANG C,LIN C.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology(TIST),2011,2(3):27-66.
(編輯苗秀芝)
Additive noisemodel based gene regulatory network construction algorithm
WANG Chunyu,SONG Jianchun,GUO Maozu,XING Linlin,LIU Xiaoyan
(School of Computer Science and Technology,Harbin Institute of Technology,150001 Harbin,China)
In order to represent causal relationship when relevancemeasure is used in statistic inferencemethods to filter gene pair,inspired by the research that casual-effect orientation algorithm can identify direction of causaleffect variables effectively,we propose an additive noise model based on the gene regulatory network construction algorithm by using additive noisemodel orientation algorithm tomeasure degree of causal relationship.The algorithm extends additive noisemodel based orientation algorithm to a feature selective algorithm,and builds ANM model of transcription factors set and each gene to select transcription factors of gene.In the experiments of three datasets DREAM5,the method has clear improvement in comparison with other algorithms,and could be used as an efficient algorithm to build gene regulatory networks.
additive noisemodel;causal-effect orientation;gene regulatory network;feature selection
TP391
:A
:0367-6234(2015)11-0022-05
10.11918/j.issn.0367-6234.2015.11.004
2014-09-26.
國家自然科學(xué)基金(913351122,61172098,61271346,61402132);高等學(xué)校博士學(xué)科點(diǎn)專項(xiàng)科研基金氏族12302110040);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(HIT.KISTP. 201418).
王春宇(1979—),男,博士研究生,講師;郭茂祖(1966—),男,教授,博士生導(dǎo)師.
王春宇,chunyu@hit.edu.cn.