劉飛
摘 要: 大量調(diào)控網(wǎng)絡(luò)重構(gòu)的模型和方法被研究,但是數(shù)據(jù)大小對算法精度的影響問題涉及很少。通過研究數(shù)據(jù)尺寸大小對延遲信息論方法構(gòu)建基因調(diào)控網(wǎng)絡(luò)精度的影響,表明基因調(diào)控網(wǎng)絡(luò)構(gòu)建的精度會(huì)在一定數(shù)據(jù)尺寸規(guī)模下達(dá)到一個(gè)穩(wěn)態(tài)。為了克服互信息的一些缺點(diǎn),引入了多時(shí)延互信息值計(jì)算兩個(gè)基因之間的調(diào)控關(guān)系,構(gòu)建的基因調(diào)控網(wǎng)絡(luò)取得了很好的查全率和查準(zhǔn)率。并用真實(shí)的生物分子網(wǎng)絡(luò)進(jìn)行測試,實(shí)驗(yàn)表明,基于多時(shí)延的策略在構(gòu)建基因調(diào)控網(wǎng)絡(luò)中扮演了一個(gè)重要角色。
關(guān)鍵詞: 延遲效應(yīng); 網(wǎng)絡(luò)重構(gòu); 信息論; 基因表達(dá)數(shù)據(jù)
中圖分類號(hào): TN711?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)17?0124?03
Research on network construction algorithm with delayed effect
LIU Fei
(Institute of Physics and Optoelectronics Technology, Baoji University of Arts and Science, Baoji 721016, China)
Abstract: Since a large number of models and methods of gene regulatory network (GRN) construction have been studied, the problem of data size influencing on the accuracy of the algorithm involved little. Data size influencing on the accuracy of GRN constructed by delayed information theory is studied. The experimental results show that the accuracy the GRN construction can reach the steady state in a certain data size. To overcome some defects of mutual information, the mutual information value with multi?delay is introduced to calculate the regulatory relations between two genes. The constructed GRN obtained better recall ratio and precision ratio. The actual biology molecular network is tested. The experimental results verify that the multi?delay scheme plays an important role in constructing GRN.
Keywords: delayed effect; network reconfiguration; information theory; gene expression data
0 引 言
基因調(diào)控網(wǎng)絡(luò)(Gene Regulatory Network,GRN)是目前生物信息學(xué)研究的一個(gè)熱門領(lǐng)域。GRN的構(gòu)建對揭示基因功能,解析基因間的相互作用,理解支配基因表達(dá),認(rèn)識(shí)生命活動(dòng)的規(guī)律和一些疾病發(fā)病機(jī)理和相關(guān)藥物設(shè)計(jì)上有很重要的意義。大量基因調(diào)控網(wǎng)絡(luò)的構(gòu)建方法被提出,如:動(dòng)態(tài)的貝葉斯網(wǎng)絡(luò)[1]、偏微分方程模型[2]、信息論模型[3]、統(tǒng)計(jì)回歸模型等。文獻(xiàn)[4]首次提出了動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)的概念,用它來分析構(gòu)建GRN發(fā)現(xiàn)基因之間存在著一定的時(shí)延調(diào)控,一些研究還表明,不同的基因之間存在不同的時(shí)延調(diào)控。本文首先研究了基因時(shí)序數(shù)據(jù)尺寸大小對網(wǎng)絡(luò)構(gòu)建精度的影響,使其在最小的數(shù)據(jù)尺寸下得出最大的網(wǎng)絡(luò)構(gòu)建精度,以此來降低算法的時(shí)間和空間復(fù)雜度。其次,研究采用多時(shí)延的策略,用互信息和延時(shí)的互信息方法構(gòu)建基因調(diào)控網(wǎng)絡(luò),結(jié)果顯示延時(shí)的互信息方法對構(gòu)建基因調(diào)控網(wǎng)絡(luò)在精度上有明顯的提高。
1 實(shí)驗(yàn)數(shù)據(jù)集和理論方法
本文基因數(shù)據(jù)來自文獻(xiàn)[5],其實(shí)驗(yàn)數(shù)據(jù)提供了完整的酵母細(xì)胞周期基因表達(dá)數(shù)據(jù),數(shù)據(jù)包含了elutriation,alpha?factor,cdc28和cdc15四種時(shí)序表達(dá)基因數(shù)據(jù),它們分別有14,18,17和24個(gè)時(shí)間點(diǎn),其中alpha?factor數(shù)據(jù)集的時(shí)間點(diǎn)比cdc28和elutriation的都多一些,而且它的數(shù)據(jù)相對比較完整,綜合考慮,本文選取alpha?factor的實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建基因調(diào)控網(wǎng)絡(luò)。
1.1 時(shí)延效應(yīng)的度量
文獻(xiàn)[6]研究了基因之間的互信息值越大,則在生物學(xué)意義上它們的調(diào)控關(guān)系越密切?;虻霓D(zhuǎn)錄表達(dá)數(shù)據(jù)往往是在同一個(gè)時(shí)刻進(jìn)行測量的,但是不同的基因之間調(diào)控可能存在不同的時(shí)間延遲。給定基因[X,Y]的時(shí)序表達(dá)譜數(shù)據(jù)分別為:[X=(x[1], x[2], … , x[m]),Y=][(y[1], y[2], … , y[m])],這里[m]代表時(shí)間點(diǎn)數(shù)。假定[τ]為基因[X]和[Y]之間的時(shí)間延遲,[τ=0, 1, 2, … ,m-1。]取[X(τ)=(x[1], x[2], … , x[m-τ]),][Y(τ)=(y[τ+1], y[τ+2], … , y[m]),]根據(jù)互信息的公式,在給定[m]值的情況下,可計(jì)算出基因[X,Y]之間的互信息[I(X(τ):Y(τ))],當(dāng)互信息[I(X(τ):Y(τ))]的值最大時(shí),[τ]值作為基因[X,Y]之間的調(diào)控轉(zhuǎn)錄時(shí)延。
1.2 互信息的定義
信息熵是一個(gè)隨機(jī)變量的平均不確定性,它用[H]表示,[p(Xi)]為[Xi]出現(xiàn)的概率,其公式如下:[H(X)=-p(Xi)logp(Xi)] (1)
基因的時(shí)序數(shù)據(jù)表示為[(X1, X2, …, Xm),]一般計(jì)算熵時(shí)所有的數(shù)據(jù)時(shí)間點(diǎn)都被采用,而本文中采用了多時(shí)延的概念,計(jì)算時(shí)只采用了[m-τ]個(gè)時(shí)間點(diǎn),基因[X]和[Y]計(jì)算熵時(shí)采用的數(shù)據(jù)為[X(τ)=(x[1], x[2], … , ][x[m-τ])],[Y(τ)=(y[τ+1], y[τ+2], … , y[m])]。
基因[X]和[Y]之間的聯(lián)合熵(Joint Entropy)被定義為:
[H(X,Y)=-p(Xi, Yi)logp(Xi, Yi)] (2)
基因[X]和[Y]之間的互信息(Mutual Information)被定義為:
[I(X,Y)=H(X)+H(Y)-H(X,Y)] (3)
2 結(jié)果仿真
2.1 數(shù)據(jù)量大小和網(wǎng)絡(luò)構(gòu)建精度的關(guān)系
采用文獻(xiàn)[7]的網(wǎng)絡(luò)基因時(shí)序數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),并和原始的真實(shí)網(wǎng)絡(luò)進(jìn)行比對,得出構(gòu)建網(wǎng)絡(luò)的查準(zhǔn)率和查全率。不同基因數(shù)用不同時(shí)間點(diǎn)構(gòu)建網(wǎng)絡(luò)得到的查準(zhǔn)率和查全率如圖1,圖2所示。在圖1中20個(gè)基因的網(wǎng)絡(luò)查準(zhǔn)率一直在增加;在40個(gè)時(shí)間點(diǎn)時(shí)達(dá)到最大值;在50個(gè)時(shí)間點(diǎn)以后查準(zhǔn)率一直處于一個(gè)平穩(wěn)的狀態(tài);30個(gè)基因點(diǎn)的網(wǎng)絡(luò)查準(zhǔn)率在整個(gè)過程中一直波動(dòng)緩慢上升;50個(gè)基因點(diǎn)的網(wǎng)絡(luò)查準(zhǔn)率在45個(gè)時(shí)間點(diǎn)以后基本處于平穩(wěn)狀態(tài),圖2亦然。
為了進(jìn)一步說明基因時(shí)序數(shù)據(jù)尺寸大小對網(wǎng)絡(luò)推斷精度的影響,提出用查全率和查準(zhǔn)率的比值來度量網(wǎng)絡(luò)構(gòu)建的精度,如圖3所示。20個(gè)基因的網(wǎng)絡(luò)查全率和查準(zhǔn)率的比率一直在下降,當(dāng)取50個(gè)時(shí)間點(diǎn)時(shí)其比率基本趨于穩(wěn)定狀態(tài)。對于40個(gè)基因的網(wǎng)絡(luò)構(gòu)建來說,當(dāng)時(shí)間點(diǎn)取到50個(gè)以上時(shí),其網(wǎng)絡(luò)構(gòu)建的精度基本保持不變,時(shí)間點(diǎn)取得越多只會(huì)增加算法的時(shí)間和空間復(fù)雜度。這樣就可以在基因時(shí)序數(shù)據(jù)尺寸最小的情況下取得網(wǎng)絡(luò)構(gòu)建的最大精度。
2.2 真實(shí)網(wǎng)絡(luò)模擬
由完整的酵母細(xì)胞周期基因表達(dá)數(shù)據(jù)來構(gòu)建基因調(diào)控網(wǎng)絡(luò),如圖4所示,分別列出了用互信息構(gòu)建的網(wǎng)絡(luò)和用時(shí)延互信息構(gòu)建的網(wǎng)絡(luò),實(shí)線表示預(yù)測正確的邊,虛線表示預(yù)測錯(cuò)誤的邊,箭頭表示基因調(diào)控的方向。網(wǎng)絡(luò)預(yù)測的結(jié)果用敏感度(Sn),特異度(Sp)和精確度(Acc)指標(biāo)來衡量,其公式定義為:[Sn=TP(TP+FN),][Sp=TN(FP+TN),][Acc=(TP+TN)(TP+FP+TN+FN) 。]網(wǎng)絡(luò)中用TLMI方法識(shí)別出正確的邊數(shù)多了1條,識(shí)別出錯(cuò)誤的邊數(shù)少了3條,因此它的特異度從88.05%增加到89.53%,精確度從73.64%增加到77.27%。因此得出用TLMI方法比MI方法在基因調(diào)控網(wǎng)絡(luò)構(gòu)建精度上明顯提高,TLMI對基因調(diào)控網(wǎng)絡(luò)構(gòu)建精度是一個(gè)更好的衡量指標(biāo)。
3 結(jié) 論
本文首先研究了基因時(shí)序數(shù)據(jù)尺寸大小對網(wǎng)絡(luò)構(gòu)建精度的影響,研究顯示,數(shù)據(jù)尺寸的大小在網(wǎng)絡(luò)構(gòu)建精度中扮演了一個(gè)很重要的角色。目標(biāo)是在最小的數(shù)據(jù)尺寸下得出最大的網(wǎng)絡(luò)構(gòu)建精度,以此降低算法的時(shí)間和空間復(fù)雜度。其次研究了用互信息和延時(shí)互信息方法構(gòu)建基因調(diào)控網(wǎng)絡(luò),結(jié)果顯示,采用多時(shí)延的策略下,基因之間多時(shí)延的轉(zhuǎn)錄調(diào)控對網(wǎng)絡(luò)構(gòu)建有很大影響,延時(shí)的互信息方法對構(gòu)建基因調(diào)控網(wǎng)絡(luò)在特異度和精確度上都有明顯的提高。
參考文獻(xiàn)
[1] YOUNG W C, RAFTERY A E, YEUNG K Y. Fast Bayesian inference for gene regulatory networks using ScanBMA [J]. BMC Systems Biology, 2014, 8(47): 324?335.
[2] LI Z, LI P, KRISHNAN A, et al. Large?scale dynamic gene regulatory network inference combining differential equation models with local dynamic Bayesian network analysis [J]. Bioinformatics, 2011, 27(19): 2686?2691.
[3] ZHANG X, ZHAO X M, HE K, et al. Inferring gene regulatory networks from gene expression data by path consistency algorithm based on conditional mutual information [J]. Bioinforma?tics, 2012, 28(1): 98?104.
[4] MURPHY K, MIAN S. Modelling gene expression data using dynamic Bayesian networks [R]. Berkeley: University of California, 1999.
[5] SPELLMAN P T, SHERLOCK G, ZHANG M Q, et al. Comprehensive identification of cell cycle?regulated genes of the yeast Saccharomyces cerevisiae by microarray hybridization [J]. Molecular biology of the cell, 1998, 9(12): 3273?3297.
[6] BUTTE A J, KOHANE I S. Mutual information relevance networks: functional genomic clustering using pairwise entropy measurements [J]. Pacific Symposium Biocomputing. 2000, 5(2): 415?426.
[7] ZHAO W, SERPEDIN E, DOUGHERTY E R. Inferring gene regulatory networks from time series data using the minimum description length principle [J]. Bioinformatics, 2006, 22(17): 2129?2135.