哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081) 王文杰 謝宏宇 侯 艷 李 康
基于解卷積的網(wǎng)絡(luò)優(yōu)化算法研究及應用*
哈爾濱醫(yī)科大學衛(wèi)生統(tǒng)計學教研室(150081) 王文杰 謝宏宇 侯 艷 李 康△
目的探討網(wǎng)絡(luò)解卷積算法對網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化效果。方法模擬研究采用四種網(wǎng)絡(luò)算法對具有金標準的DREAM 5平臺數(shù)據(jù)進行網(wǎng)絡(luò)構(gòu)建,并評價解卷積優(yōu)化前后的網(wǎng)絡(luò)準確性。實例研究使用RF回歸對卵巢癌晚期化療敏感性患者的基因表達數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),再通過網(wǎng)絡(luò)解卷積算法優(yōu)化。結(jié)果模擬研究結(jié)果表明,四種網(wǎng)絡(luò)構(gòu)建方法推斷出來的網(wǎng)絡(luò)結(jié)構(gòu)在解卷積算法優(yōu)化后,其準確性均有不同程度的提高,其中基于線性相關(guān)的網(wǎng)絡(luò)構(gòu)建方法提高幅度明顯大于CLR和RF算法;實例分析結(jié)果表明,采用RF-ND方法構(gòu)建的網(wǎng)絡(luò)移除了部分間接邊,其優(yōu)化后能得到與現(xiàn)有數(shù)據(jù)庫較為一致的網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)論應用解卷積算法能夠優(yōu)化不同網(wǎng)絡(luò)構(gòu)建方法得到的網(wǎng)絡(luò),實際中能得到準確度較高的網(wǎng)絡(luò)結(jié)構(gòu)。
調(diào)控網(wǎng)絡(luò) 解卷積 網(wǎng)絡(luò)優(yōu)化
網(wǎng)絡(luò)研究能夠直觀地反映變量間的作用關(guān)系,有助于特征標志物的篩選,并能從分子水平闡述復雜的生物過程,因此成為了近年的研究熱點之一。目前有很多基因調(diào)控網(wǎng)絡(luò)的構(gòu)建方法,如基于變量間相關(guān)或偏相關(guān)系數(shù)的方法,計算變量間信息熵的互信息法,基于圖形及信息傳遞的高斯圖論模型,以及基于因果概率的貝葉斯網(wǎng)絡(luò)模型等[1-4]。由于高維組學數(shù)據(jù)變量間具有復雜的關(guān)聯(lián)傳遞效應,一般的網(wǎng)絡(luò)構(gòu)建方法很難識別出變量間真正的直接調(diào)控關(guān)系,如由于A→B→C→D強相關(guān),使得A→C、A→D這種本身并無真正調(diào)控關(guān)系的間接邊也表現(xiàn)出強相關(guān)(圖1左);或者由于A→B→D和A→C→D的兩個傳遞效應,使得A→D的關(guān)系增強(圖1右)。隨著網(wǎng)絡(luò)中變量個數(shù)的增多和級聯(lián)關(guān)系的增加,這種由傳遞效應產(chǎn)生的間接邊會隨之增加,容易出現(xiàn)假陽性結(jié)果,使得網(wǎng)絡(luò)推斷的準確性大幅降低。本文引入一種基于解卷積的網(wǎng)絡(luò)優(yōu)化算法,可以進一步優(yōu)化推斷出來的網(wǎng)絡(luò)結(jié)構(gòu),移除間接邊,解決上述問題。
圖1 四個節(jié)點在兩種傳遞效應機制下的網(wǎng)絡(luò)構(gòu)建可能出現(xiàn)假陽性結(jié)果
網(wǎng)絡(luò)解卷積算法是一種網(wǎng)絡(luò)優(yōu)化方法,其基本思想是:根據(jù)不同網(wǎng)絡(luò)推斷方法(如Pearson相關(guān)系數(shù))得到網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù),建立一個網(wǎng)絡(luò)拓撲圖的鄰接矩陣Gobs,并將其分解為具有直接關(guān)聯(lián)和各種長度的間接關(guān)聯(lián)矩陣之和,即
而Gindir根據(jù)關(guān)系矩陣的傳遞閉包運算有
其中U和U-1分別為直接關(guān)聯(lián)矩陣Gdir的特征向量矩陣及其逆陣,Λdir為相應特征值的對角矩陣。通過對關(guān)聯(lián)矩陣進行線性尺度變換,可以將所有特征值的取值范圍限定在1至-1,可以根據(jù)無窮泰勒級數(shù),導出近似公式:
實際數(shù)據(jù)獲得的關(guān)聯(lián)矩陣同樣可以分解為
上述基于特征分解的網(wǎng)絡(luò)解卷積運算需滿足兩個假設(shè):間接邊權(quán)重等于直接邊權(quán)重的乘積;觀察到的邊權(quán)重等于直接邊和間接邊之和。Feizi研究證明,理想情況下,當網(wǎng)絡(luò)結(jié)構(gòu)的所有邊完全滿足這兩個假設(shè)時,基于特征分解的解卷積運算能移除所有間接邊;而當網(wǎng)絡(luò)結(jié)構(gòu)不全滿足假設(shè)時,該算法也能準確推斷出87%的直接邊[5]。
網(wǎng)絡(luò)解卷積算法先通過對網(wǎng)絡(luò)結(jié)構(gòu)圖的鄰接矩陣的特征分解,利用無窮泰勒系數(shù)和,最終完成對網(wǎng)絡(luò)各邊權(quán)重的重新賦值。通過限定一個閾值,可以把權(quán)重較高,置信度較強的邊篩選出來。從而可以移除間接邊,準確推斷出直接網(wǎng)絡(luò)結(jié)構(gòu)。
1.研究目的
使用解卷積算法對四種不同的網(wǎng)絡(luò)構(gòu)建方法得到的網(wǎng)絡(luò)進行優(yōu)化,并評價其效果。四種方法分別采用基于Pearson相關(guān)系數(shù)、Spearson相關(guān)系數(shù)、互信息的環(huán)境相關(guān)似然度算法(context likelihood of relatedness,CLR)及隨機森林回歸算法。對三組數(shù)據(jù)進行網(wǎng)絡(luò)構(gòu)建,然后應用解卷積算法優(yōu)化,得到優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu),最后評價解卷積算法優(yōu)化前后的效果。
2.數(shù)據(jù)來源
使用基因逆向工程評估與方法對話平臺(dialogue on reverse engineering assessment and methods project,DREAM)的數(shù)據(jù)進行評價。該平臺用于評價網(wǎng)絡(luò)推斷性能的數(shù)據(jù)主要包括In silico、E.coli和S.cerevisiae等,其中In silico是通過Genenetweaver軟件模擬出來的具有金標準的調(diào)控網(wǎng)絡(luò)數(shù)據(jù),其余兩個是用生物學實驗測序得到的調(diào)控網(wǎng)絡(luò)數(shù)據(jù)[6]。
表1 DREAM 5網(wǎng)絡(luò)數(shù)據(jù)驗證平臺
3.評價指標
(1)ROC曲線下面積AUC,即綜合評價真陽性率和假陽性率的指標。其中真陽性率也稱回召率,即TPR(k)=TP(k)/P,TP(k)為網(wǎng)絡(luò)算法得出的k條邊在與金標準比較后正確邊的數(shù)量,k值可根據(jù)網(wǎng)絡(luò)構(gòu)建時選擇不同的閾值而改變,P為金標準中陽性邊的數(shù)量。假陽性率為FPR(k)=FP(k)/N,F(xiàn)P(k)為網(wǎng)絡(luò)算法得出的k條邊在與金標準比較后錯誤邊的數(shù)量,N為金標準中陰性邊的數(shù)量。FPR(k),c為根據(jù)構(gòu)建網(wǎng)絡(luò)的閾值得到的網(wǎng)絡(luò)邊數(shù)。
(2)準確度-回召率曲線下面積(area under the precision-recall curve,AUPR),即綜合評價準確度和回召率的指標。準確度為PRE=TP(k)/k,即網(wǎng)絡(luò)算法得出的k條邊中正確邊的比例。
4.網(wǎng)絡(luò)優(yōu)化的評價結(jié)果
四種網(wǎng)絡(luò)構(gòu)建方法、三組網(wǎng)絡(luò)數(shù)據(jù)的評價結(jié)果如表2。結(jié)果顯示:對于三組不同的網(wǎng)絡(luò)數(shù)據(jù),其還原程度不盡相同,In silico的AUROC與AUPR均最高,表明構(gòu)造出來的網(wǎng)絡(luò)結(jié)構(gòu)相比另外兩個更接近于金標準結(jié)構(gòu);對于四種不同的網(wǎng)絡(luò)構(gòu)建方法,基于隨機森林回歸算法的AUROC,AUPR均比其他構(gòu)建方法要高,尤其是在In silico數(shù)據(jù)集上表現(xiàn)遠高于其他算法,ROC值達到0.815,顯示了該方法良好的網(wǎng)絡(luò)重構(gòu)性能;對于不同的網(wǎng)絡(luò)構(gòu)建方法,解卷積優(yōu)化前后其AUROC,AUPR在三個數(shù)據(jù)集上均有不同程度的提高??傮w而言,經(jīng)由解卷積算法優(yōu)化后,基于相關(guān)的網(wǎng)絡(luò)構(gòu)建方法,其AUROC與AUPR的提高幅度明顯大于CLR和RF算法。
表2 不同網(wǎng)絡(luò)構(gòu)建方法及不同數(shù)據(jù),解卷積優(yōu)化前后性能比較
本研究通過對卵巢癌晚期化療患者的基因表達數(shù)據(jù)進行分析,使用RF回歸方法構(gòu)建網(wǎng)絡(luò),再通過網(wǎng)絡(luò)解卷積算法優(yōu)化,得出基因間的調(diào)控關(guān)系網(wǎng)絡(luò)。最后,結(jié)合生物學知識、通路數(shù)據(jù)庫及文獻查詢,對網(wǎng)絡(luò)進行生物學解釋,從基因組學的角度,為卵巢癌化療敏感性的生物學機制研究提供依據(jù)。
本研究從TCGA數(shù)據(jù)庫下載348例基于卡鉑-紫杉醇化療方案的晚期卵巢癌患者的基因表達譜數(shù)據(jù),根據(jù)化療藥物反應的敏感程度分為化療藥物敏感組310例和化療藥物不敏感組38例。全基因組表達譜數(shù)據(jù)一共測得12042個基因的表達值,使用基于W ilcoxon秩和檢驗的置換檢驗,進行1000次置換,篩選出P<0.05(校正后)的基因431個,并將這部分數(shù)據(jù)進行KEGG通路富集分析,結(jié)果有10個基因顯著富集在Wnt信號通路以及溶酶體通路。對所富集的10個基因的表達數(shù)據(jù),采用RF回歸方法構(gòu)建網(wǎng)絡(luò),通過置換檢驗方法確定網(wǎng)絡(luò)閾值,經(jīng)100次隨機置換后的VIM值的99%分位數(shù)為0.1148,從而確定邊數(shù)目的閾值為c(VIM)=0.1148,獲得20條可能具有調(diào)控關(guān)系的邊,網(wǎng)絡(luò)結(jié)構(gòu)如圖2左所示。再通過網(wǎng)絡(luò)解卷積算法對這20條邊所構(gòu)成的網(wǎng)絡(luò)進行優(yōu)化,重新對各邊權(quán)重賦值,經(jīng)由置換檢驗得到的新閾值為0.2016,獲得16條關(guān)系邊,移除了4條邊,解卷積優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2右所示。
圖2 卵巢癌患者化療敏感性相關(guān)的基因調(diào)控網(wǎng)絡(luò)解卷積前后結(jié)構(gòu)(左為ND前,右為ND后)
通過查詢GeneMANIA及KEGG基因數(shù)據(jù)庫,發(fā)現(xiàn)這10個基因中,有8條邊出現(xiàn)在數(shù)據(jù)庫中。例如ATP6V0C調(diào)控NAGLU、CLN3、RAC1和PPP3CA四個基因。NAGLU和CLN3兩個基因與ATP6V0C同屬于溶酶體通路,RAC1、PPP3CA基因與ATP6V0C同屬Wnt信號轉(zhuǎn)導通路。并且已有文獻報道ATP6V0C、NAGLU和CLN3基因在溶酶體的內(nèi)吞以及物質(zhì)轉(zhuǎn)運過程中發(fā)揮重要作用[7];ATP6V0C調(diào)控的RAC1和PPP3CA基因編碼合成Wnt通路中重要的反應酶,參與調(diào)節(jié)多個細胞活動,如控制細胞生長、細胞骨架重組,以及激活蛋白激酶等[8-9]。該結(jié)果與隨機森林回歸構(gòu)建的網(wǎng)絡(luò)結(jié)構(gòu)一致,對于這些重要的調(diào)控關(guān)系,基于隨機森林回歸的網(wǎng)絡(luò)構(gòu)建算法均能很好地還原出來,并且在經(jīng)解卷積算法優(yōu)化后,這些調(diào)控關(guān)系都得以保留。經(jīng)由解卷積算法移除的4條邊,即PPP3CA、RAC1、CLN3、GUSB基因間的間接調(diào)控關(guān)系,在數(shù)據(jù)庫中均未查詢到,并且暫時也無相應文獻報道,這就體現(xiàn)了解卷積算法在移除間接調(diào)控關(guān)系的優(yōu)化作用。而在剩余的邊中,與ATP6V0C有關(guān)的基因還有CXXC4,此調(diào)控關(guān)系在geneMANIA并沒有找到相應的調(diào)控關(guān)系,提示這一調(diào)控關(guān)系需要進一步研究。
本文在簡要介紹解卷積算法原理的基礎(chǔ)上,通過DREAM 5數(shù)據(jù)驗證平臺的模擬數(shù)據(jù),研究其對不同網(wǎng)絡(luò)構(gòu)建方法,不同網(wǎng)絡(luò)數(shù)據(jù)集的優(yōu)化性能。研究使用目前常見的四種基因調(diào)控網(wǎng)絡(luò)構(gòu)建方法:基于兩種相關(guān)系數(shù)的網(wǎng)絡(luò)分析方法,基于互信息的構(gòu)建方法,基于隨機森林(RF)回歸的方法等。其中,基于線性相關(guān)的調(diào)控網(wǎng)絡(luò)模型計算任意兩基因表達水平的相關(guān)系數(shù)(Pearson或Spearman相關(guān)系數(shù)),對相關(guān)系數(shù)進行排序,進而構(gòu)建出網(wǎng)絡(luò);基于互信息(M I)的方法主要通過計算變量間的邊際概率和聯(lián)合概率,從而得出變量間的互信息值,并根據(jù)其構(gòu)建網(wǎng)絡(luò);基于隨機森林回歸的算法,通過回歸樹對每個目標基因都擬合了回歸模型,計算出變量重要性評分(VIM),可得到兩基因間調(diào)控關(guān)系的大小,并根據(jù)VIM值排序從而重建整個網(wǎng)絡(luò)。最后將基于RF-ND的方法應用到實際卵巢癌化療敏感性的基因表達數(shù)據(jù),并作出生物學解釋。關(guān)于網(wǎng)絡(luò)解卷積優(yōu)化方法的實際應用,需要注意以下幾個問題:
1.本研究使用的網(wǎng)絡(luò)解卷積算法是基于網(wǎng)絡(luò)鄰接矩陣的特征分解及無窮泰勒級數(shù)和得到,如果所優(yōu)化的網(wǎng)絡(luò)鄰接矩陣不可進行特征分解,則無法繼續(xù)使用本方法優(yōu)化。這種情況下,可以使用基于迭代共軛梯度遞減的算法來進行網(wǎng)絡(luò)解卷積的優(yōu)化運算[5,10-11],其結(jié)合了共軛性和最速下降兩種方法,不僅解決了一般網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化問題,還可處理高維情況下的大型計算問題。
2.解卷積算法屬于網(wǎng)絡(luò)優(yōu)化方法,最終得到的網(wǎng)絡(luò)結(jié)構(gòu)的準確性也受所選擇網(wǎng)絡(luò)構(gòu)建方法的影響。在模擬研究中,四種網(wǎng)絡(luò)構(gòu)建方法所重構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),在解卷積優(yōu)化后均有不同程度的提高,其中基于線性相關(guān)的方法優(yōu)化幅度最大,其主要原因是線性相關(guān)類方法在衡量任意兩基因間的相關(guān)性時,并未考慮其他中介基因存在時造成的間接傳遞效應,因此其構(gòu)建出來的網(wǎng)絡(luò)可能包含較多的假陽性間接邊,而解卷積算法正好解決該問題,因此獲得較佳的優(yōu)化效果。而RF回歸算法,在計算兩變量間的VIM值時,考慮了其他變量的相互影響,構(gòu)造出來的網(wǎng)絡(luò)結(jié)構(gòu)較為準確,因此其優(yōu)化前得分本身較高,優(yōu)化后提升幅度并不大,但總的準確度仍然最高。說明使用隨機森林(RF)回歸構(gòu)建網(wǎng)絡(luò),再使用網(wǎng)絡(luò)解卷積進行優(yōu)化,即RF-ND方法,是一種值得推薦的網(wǎng)絡(luò)構(gòu)建方法。
3.使用RF-ND方法的最大特點是對變量的數(shù)目沒有限制,可以在高維數(shù)據(jù)上構(gòu)建網(wǎng)絡(luò),而且可以給出基因之間的調(diào)控方向。
4.由于實際基因組數(shù)據(jù)往往缺乏完整準確的調(diào)控關(guān)系(即金標準),因此僅基于目前的數(shù)據(jù)庫和文獻查詢只能驗證部分調(diào)控關(guān)系,用于評價一個構(gòu)建方法的優(yōu)劣本身并不夠嚴謹全面,對此尚需進一步研究。另外,如何構(gòu)造既包含差異基因也包含非差異基因的全局調(diào)控網(wǎng)絡(luò),還原生物體內(nèi)完整的基因調(diào)控過程也極具挑戰(zhàn)性。
[1]Tibshirani R.Regression shrinkage and selection via the lasso.J R Stat Soc Series B Stat Methodol,1996,58:267-288.
[2]Pesch R,Lysenko A,Hindle M,et al.Graph-based sequence annotation using a data integration approach.Journal of integrative bioinformatics,2008,5(2),doi:10.2390/biecoll-jib-2008-94.
[3]Butte AJ,Kohane IS.Mutual information relevance networks:functional genom ic clustering using pairw ise entropy measuerments,2000,5:418-429.
[4]Mani S,Cooper GF.A Bayesian local causal discovery algorithm,2004:731-735.
[5]Feizi S,Marbach D,Medard M,et al.Network deconvolution as a generalmethod to distinguish direct dependencies in networks.Nat Biotechnol,2013,31(8):726-733.
[6]Stolovitzky G,Monroe D,Califano A.Dialogue on reverse-engineering assessment and methods:the DREAM of high-throughput pathway inference.Ann.NY Acad.Sci,2007,1115:1-22.
[7]You H,Jin J,Shu H,et al.Small interfering RNA targeting the subunit ATP6L of proton pump V-ATPase overcomes chemoresistance of breast cancer cells.Cancer Lett,2009,280(1):110-119.
[8]Ji J,F(xiàn)eng X,ShiM,et al.Rac1 is correlated with aggressiveness and a potential therapeutic target for gastric cancer.Int JOncol,2015,46(3):343-353.
[9]Dokmanovic M,Hirsch DS,Shen Y,et al.Rac1 as a potential therapeutic target for the treatment of target for thetreatment of trastuzumab-resistant breast cancer.Mol Cancer Ther,2009,8(6):1557-1569.
[10]Horn R,Johnson C.Matrix analysis.Cambridge Univ Pr,1990.
[11]Faith JJ,Hayete B,Thaden JT,etal.Large-scalemapping and validation of Escherichia coli transcriptional regulation from a compendium of expression profiles.PLoSBiol,2007,5(1):e8.
(責任編輯:郭海強)
Network Optim ization Algorithm Based on Network Deconvolution and its Application
Wang Wenjie,Xie Hongyu,Hou Yan,et al
(Department of Health Statistics,School of Public Health,Harbin Medical University(150081),Harbin)
ObjectiveTo investigate the performance of the network optim ization based on network deconvolution.MethodsIn simulation studies,we performed four network reconstructionmethods to construct the gene regulatory network on the data from DREAM 5 platform which have contained the gold standard.Then we compared the accuracy of before and after optim ization based on network deconvolution algorithm.In pritical studies,we applied random forest regression to construct an original network on gene expression data which comes from the advanced ovarian cancer patients thatwas susceptible to chem ical therapy.Finally,we performed the network deconvolution method to optim ize the structure of it.ResultsSimulation studies demonstrated that the accuracy of networks that reconstructed by fourmethods was increased to some degree.For the range of improvement,method that based on linear correlation was greater than CLR and RF.In practice,themethod based on RF-ND removes some indirected edges and achieves satisfactory network structure that consistent to the existing database.ConclusionThe algorithm of network deconvolution could optimize the structure of network constructed by the differentmethods and obtain the network w ith higher accuracy.
Regulatory network;Network deconvolution;Network optimization
國家自然科學基金資助(81473072,81573256);中國博士后基金資助(2015M571445)
△通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn