李 鵬 閔 慧 羅愛靜 許家祺 顏湘茹 伊 娜 劉 杰
(1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院 長沙 410208)(2.中南大學(xué)湘雅三醫(yī)院 長沙 410006)(3.醫(yī)學(xué)信息研究湖南省普通高等學(xué)校重點(diǎn)實(shí)驗(yàn)室(中南大學(xué)) 長沙 410006)(4.湖南信息職業(yè)技術(shù)學(xué)院軟件學(xué)院 長沙 410200)
自從人類基因測序工程完成后,生命科學(xué)研究的重點(diǎn)已經(jīng)從基因組學(xué)轉(zhuǎn)到了蛋白組學(xué)[1]。同時(shí)隨著計(jì)算機(jī)硬件的發(fā)展以及智能信息處理技術(shù)的進(jìn)步,采用計(jì)算機(jī)相關(guān)技術(shù)對蛋白組學(xué)中的諸多問題展開分析和研究是目前的熱點(diǎn)。其中,關(guān)于蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein-Protein Interaction Network,PPIN)[2~3]的研究是一項(xiàng)基礎(chǔ)性的工作。
眾所周知,生物體內(nèi)蛋白質(zhì)之間的相互作用總是動態(tài)變化的[4],這種變化體現(xiàn)著生命進(jìn)化與發(fā)展的一種自然趨勢和必然結(jié)果。然而,動態(tài)變化的蛋白質(zhì)網(wǎng)絡(luò)給基于計(jì)算機(jī)技術(shù)的蛋白組學(xué)研究帶來巨大的挑戰(zhàn),如何準(zhǔn)確地對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模和分析已經(jīng)成為制約該領(lǐng)域中很多問題研究的瓶頸。為此,國內(nèi)外相關(guān)學(xué)者對蛋白質(zhì)網(wǎng)絡(luò)的建模問題進(jìn)行了大量的研究,提出了一系列有代表性的建模方案,例如,文獻(xiàn)[7]從多維角度出發(fā)綜述了構(gòu)建蛋白質(zhì)網(wǎng)絡(luò)的常見方法,并展望了動態(tài)蛋白質(zhì)網(wǎng)絡(luò)研究的發(fā)展趨勢。文獻(xiàn)[8]根據(jù)蛋白質(zhì)的基因表達(dá)變化情況將蛋白質(zhì)分為動態(tài)和靜態(tài)兩類,進(jìn)而提出了一種動態(tài)-靜態(tài)蛋白質(zhì)混合的時(shí)序網(wǎng)絡(luò)構(gòu)建新方法。然而該方法缺少對噪音的系統(tǒng)化分析,網(wǎng)絡(luò)構(gòu)建結(jié)果容易受到假陽性和假陰性數(shù)據(jù)的干擾。文獻(xiàn)[9]利用概率統(tǒng)計(jì)中常見的3-σ 法則來判斷蛋白質(zhì)的活性,進(jìn)而提出了基于活性周期的蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法。但是這種方法經(jīng)常會過濾掉一些一直有較高表達(dá)信息的蛋白質(zhì),造成數(shù)據(jù)的丟失。胡塞等[10]分析了蛋白質(zhì)相互作用數(shù)據(jù)和基因表達(dá)數(shù)據(jù)對于網(wǎng)絡(luò)構(gòu)建的作用,建立了一種改進(jìn)的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)D-PIN(Dynamic Protein Interaction Networks)。然而該文對于采樣周期的選擇主要通過實(shí)驗(yàn)設(shè)定,不具有普適性。針對以上方法的不足,本文對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建問題進(jìn)行了研究,提出了一種基于連接強(qiáng)度的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法。并最后通過仿真實(shí)驗(yàn)驗(yàn)證了所提算法的有效性。
本文借鑒進(jìn)化圖[11]在描述復(fù)雜動態(tài)網(wǎng)絡(luò)方面的優(yōu)勢,采用進(jìn)化圖來完成動態(tài)蛋白質(zhì)網(wǎng)絡(luò)建模過程。為了便于理解,下面給出一些相關(guān)的定義:
定義1 進(jìn)化圖假設(shè)有一動態(tài)圖G=(V,E),V是G 的頂點(diǎn),E 是G 的邊。它的子圖包含:GS={},有。設(shè)TS=t1,t2,…,tT表示所有子圖存續(xù)時(shí)間,則稱Θ=(G,GS,TSi)是進(jìn)化圖,其中i=1,2,…,T 。
定義2 活性蛋白質(zhì)設(shè)Pr 表示某一生物體內(nèi)的一個(gè)蛋白質(zhì),PrAGE表示Pr 的基因表達(dá)均值,如果在某一時(shí)間段T 內(nèi),都存在關(guān)系:PrAGE≥ε,其中ε 是閾值因子。則稱Pr 是活性蛋白質(zhì),并記Ac(Pr)為Pr 的活性周期。
緊接著上述定義,我們分為如下的三個(gè)階段來構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò):1)基于基因表達(dá)均值計(jì)算來判斷各個(gè)蛋白質(zhì)的活性,確定各自的活性周期;2)對各個(gè)活性蛋白質(zhì)劃分時(shí)間片,具有相同活性周期的蛋白質(zhì)擁有同一時(shí)間。對于同一時(shí)間的所有活性蛋白質(zhì),依據(jù)后續(xù)定義的連接強(qiáng)度來構(gòu)建蛋白質(zhì)子網(wǎng);3)采用進(jìn)化圖理論對各個(gè)蛋白質(zhì)子網(wǎng)進(jìn)行建模,從而構(gòu)建得到動態(tài)蛋白質(zhì)網(wǎng)絡(luò)。
2.1.1 計(jì)算蛋白質(zhì)的活性周期
蛋白質(zhì)活性周期的計(jì)算是構(gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的第一步。假設(shè),蛋白質(zhì)Pr 在時(shí)刻i 的基因表達(dá)值為,1 ≤i ≤n。Pr 的基因表達(dá)值的標(biāo)準(zhǔn)差為(Pr)。則有如下的計(jì)算公式:
根據(jù)式(1)和式(2),文中定義了函數(shù)V(Pr)表示蛋白質(zhì)Pr 的基因表達(dá)情況的變化:
一般而言,0 ≤V(Pr)≤1。緊接著,我們利用經(jīng)典的3-sigma 準(zhǔn)則[9]來確定活性閾值ε ,其計(jì)算公式為
對于任意給定的一個(gè)時(shí)間片,若有PrAGE(Pr1,Pr2,…,Prk)>ε(ε 為活性閾值),則認(rèn)為這k 個(gè)蛋白質(zhì)具有相同的活性,用它們來構(gòu)建同一個(gè)蛋白質(zhì)子網(wǎng)。對于生物體內(nèi)的所有蛋白質(zhì)而言,利用蛋白質(zhì)活性計(jì)算可以統(tǒng)計(jì)得到具有不同活性周期的蛋白質(zhì)集合S_Pr={T1,T2,…,Tk}。最后我們根據(jù)S_Pr 中元素的個(gè)數(shù)來決定劃分出多少個(gè)蛋白質(zhì)子網(wǎng)。
2.1.2 構(gòu)建子網(wǎng)
計(jì)算得到所有蛋白質(zhì)的不同活性之后,可以構(gòu)建出不同的蛋白質(zhì)子網(wǎng)。下面僅以其中的任意一個(gè)子網(wǎng)為例來闡述其構(gòu)建過程。假設(shè){Pr1,Pr2,…,Prl}表示具有相同活性的l 個(gè)蛋白質(zhì),現(xiàn)在對它們構(gòu)建子網(wǎng)。要準(zhǔn)確地構(gòu)建出蛋白質(zhì)子網(wǎng)的關(guān)鍵在于發(fā)現(xiàn)這l 個(gè)蛋白質(zhì)的相互作用關(guān)系。文中通過定義連接強(qiáng)度這一個(gè)概念來對蛋白質(zhì)之間是否具有相互作用來進(jìn)行評價(jià)。具體而言,文中從兩個(gè)方面考慮蛋白質(zhì)與蛋白質(zhì)之間的連接強(qiáng)度:1)公共鄰居數(shù)量。如果兩個(gè)蛋白質(zhì)之間存在越多的公共鄰居,這表明它們之間具有更為緊密的相互作用關(guān)系;2)邊和度的比例。如果某兩個(gè)蛋白質(zhì)之間的鄰接邊越多,并且度越小。則它們之間具有更緊密的相互作用關(guān)系。綜上所述,可以采用下面的公式計(jì)算連接強(qiáng)度:
定義3 連接強(qiáng)度
其中,CS(Pri,Prj)表示任意兩個(gè)蛋白質(zhì)Pri和Prj之間的連接強(qiáng)度;表示Pri和Prj之間存在的鄰接邊個(gè)數(shù);nn(Pri)表示Pri的鄰居節(jié)點(diǎn);di表示Pri的度;式(5)中的是一個(gè)Sigmoid 函數(shù)[12],使用該函數(shù)的好處在于:它可以將影響蛋白質(zhì)之間相互作用強(qiáng)弱的諸多因素(鄰接邊個(gè)數(shù)、節(jié)點(diǎn)的度等)最終轉(zhuǎn)為一個(gè)概率值,能夠較好地刻畫不同蛋白質(zhì)之間的連接關(guān)系。
相對于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)而言,動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)會隨著蛋白質(zhì)合成或降解、生物環(huán)境等因素的變化而動態(tài)變化。對蛋白質(zhì)網(wǎng)絡(luò)準(zhǔn)確建模的關(guān)鍵是采用合適的模型來表示這個(gè)動態(tài)變化因素。考慮到網(wǎng)絡(luò)中大多數(shù)蛋白質(zhì)的基因表達(dá)具有時(shí)間周期特性,并不是完全隨機(jī)的,因此文中從時(shí)間維度出發(fā)對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行建模,首先基于時(shí)間片的概念對整個(gè)網(wǎng)絡(luò)進(jìn)行劃分,定義出每個(gè)時(shí)間片內(nèi)的網(wǎng)絡(luò)連通性,然后基于進(jìn)化圖理論將多個(gè)時(shí)間片內(nèi)的子網(wǎng)構(gòu)建成動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型,具體細(xì)節(jié)見算法1。
算法1 動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法(DPPN-CC)
輸入:基本表達(dá)值數(shù)據(jù),PPI數(shù)據(jù),閾值th
輸出:動態(tài)蛋白質(zhì)網(wǎng)絡(luò)模型Θ=(G,GS,TSi)
步驟1. 根據(jù)所有蛋白質(zhì)的基因表達(dá)值數(shù)據(jù),采用式(1~3)計(jì)算生物體內(nèi)所有蛋白質(zhì)的活性周期Ac(Pr),并采用列表對其結(jié)果進(jìn)行存儲,可得:
步驟2.根據(jù)蛋白質(zhì)的活性周期來構(gòu)造子網(wǎng):
For Aci(Pr),i=1,2,…,k in L[Ac(Pr)]:
在Aci(Pr)中計(jì)算CS(Pri,Prj);
If CS(Pri,Prj)≥th,則在Pri和Prj之間增加邊<Pri,Prj>,并記錄<Pri,Prj>所在的時(shí)間片TSi;
步驟3.如果L[Ac(Pr)]不為空,則重復(fù)執(zhí)行步驟2;否則算法終止。
下面以蛋白質(zhì)復(fù)合物的識別作為測試應(yīng)用,在經(jīng) 典 的DIP 數(shù) 據(jù) 集[13]和CYC2008 數(shù) 據(jù) 集[14]上 對DPNC-CC 算法的性能進(jìn)行了評價(jià)。其中,算法的實(shí)現(xiàn)采用Python語言;評價(jià)指標(biāo)采用:查全率、查準(zhǔn)率和F-measure。仿真實(shí)驗(yàn)環(huán)境為:64 位的Windows10操作系統(tǒng)+anaconda平臺。
從算法1中的描述可知,參數(shù)th 的取值大小直接影響著構(gòu)建出來的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),因此為了衡量DPNC-CC 算法的可靠性,有必要對該算法的參數(shù)敏感性做出詳細(xì)的分析。我們以CYC2008數(shù)據(jù)集為測試數(shù)據(jù)集,在構(gòu)建出來的網(wǎng)絡(luò)上依次運(yùn)行MPC-TPW[15]和DPC-NADPIN[16]等兩種復(fù)合物識別算法,采用F-measure 指標(biāo)來評價(jià)DPNC-CC 算法的性能。實(shí)驗(yàn)結(jié)果見圖1。仔細(xì)觀察圖1 可以發(fā)現(xiàn),隨著th 取值的增大,兩種識別算法的識別性能也在逐步上升,但當(dāng)th 取值超過0.7之后,兩種識別算法的F-measure 值基本不再波動,這表明通過DPNC-CC 算法構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)不具有參數(shù)敏感性,可以推廣到蛋白組學(xué)的眾多應(yīng)用問題中去。
圖1 DPNC-CC算法的參數(shù)敏感性分析
以DIP 數(shù)據(jù)集為實(shí)驗(yàn)對象,下面以DPNC-CC算法與文獻(xiàn)[4~6]中的算法構(gòu)建得到的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)上運(yùn)行MPC-TPW 算法進(jìn)行復(fù)合物識別,來測試不同的網(wǎng)絡(luò)構(gòu)建算法的有效性。文中采用K 折交叉驗(yàn)證(K=10)來進(jìn)行仿真實(shí)驗(yàn),取10 次實(shí)驗(yàn)結(jié)果的均值作為各個(gè)算法在DIP 數(shù)據(jù)集的復(fù)合物識別結(jié)果,見表1。
表1 MPC-TPW算法在各個(gè)網(wǎng)絡(luò)上的性能比較
從表1 可以看到,MPC-TPW 算法在本文構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)(DPNC-CC)上進(jìn)行復(fù)合物識別的查全率和查準(zhǔn)率都要優(yōu)于另外的四種算法。F-measure 值要比文獻(xiàn)[4]的算法、文獻(xiàn)[5]的算法和文獻(xiàn)[6]的算法分別高約53%、24%和21%。這主要是因?yàn)椋罕疚乃惴ㄔ跇?gòu)建動態(tài)蛋白質(zhì)網(wǎng)絡(luò)時(shí),不僅從物理上考慮了蛋白質(zhì)與蛋白質(zhì)之間的距離、拓?fù)浣Y(jié)構(gòu)等信息對網(wǎng)絡(luò)構(gòu)建的影響,還利用了蛋白質(zhì)的活性周期這一生物信息來衡量蛋白質(zhì)之間的相互作用關(guān)系,較為全面地規(guī)避了蛋白質(zhì)網(wǎng)絡(luò)中可能存在的虛假信息,從而能夠更好地識別蛋白質(zhì)復(fù)合物。這也從側(cè)面印證了DPNC-CC算法構(gòu)建的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)更優(yōu)。
下面進(jìn)一步對DPNC-CC 算法在包含噪聲(假陽性和假陰性)的蛋白質(zhì)相互數(shù)據(jù)集上的性能表現(xiàn)進(jìn)行實(shí)驗(yàn)分析。首先,我們通過在已經(jīng)構(gòu)建好的蛋白質(zhì)網(wǎng)絡(luò)上隨機(jī)增加一定比例的邊數(shù)來模擬數(shù)據(jù)的假陽性。邊數(shù)每次增加20%,增加的尺度從20%上升到100%,可以得到五組包含假陽性的蛋白質(zhì)相互作用數(shù)據(jù),然后采用DPNC-CC 算法對這五組數(shù)據(jù)進(jìn)行復(fù)合物的識別,識別結(jié)果的查準(zhǔn)率和查全率如圖2 所示。從圖2 可以明顯觀察到,數(shù)據(jù)假陽性的增加,只會輕微降低DPNC-CC算法的查準(zhǔn)率,對于DPNC-CC算法的查全率基本沒有影響。
圖2 數(shù)據(jù)包含假陽性時(shí)的DPNC-CC算法性能
最后,我們再次在已經(jīng)構(gòu)建好的蛋白質(zhì)網(wǎng)絡(luò)上隨機(jī)刪除一定比例的邊數(shù)來模擬數(shù)據(jù)的假陰性。刪除的邊數(shù)每次增加20%,增加的尺度從20%上升到100%,可以得到五組包含假陰性的蛋白質(zhì)相互作用數(shù)據(jù),然后采用DPNC-CC 算法對這五組數(shù)據(jù)進(jìn)行復(fù)合物的識別,識別結(jié)果的查準(zhǔn)率和查全率如圖3 所示。從圖3 可以明顯觀察到,隨著數(shù)據(jù)假陰性的增加,DPNC-CC 算法在前期的查全率和查準(zhǔn)率基本保持不變,但當(dāng)刪除的邊的比例超過45%之后,DPNC-CC 算法的識別質(zhì)量則呈現(xiàn)著明顯下降的趨勢,這主要是由于隨著邊的刪除將會使得蛋白質(zhì)相互作用數(shù)據(jù)中大量真實(shí)存在的相互作用被刪除,從而導(dǎo)致算法的識別結(jié)果大大地降低??偟膩砜?,本文算法在包含噪聲的蛋白質(zhì)相互作用數(shù)據(jù)集中的表現(xiàn)是可信的,算法能夠?qū)?shù)據(jù)的動態(tài)變化做出正確響應(yīng),具有較好的魯棒性。
圖3 數(shù)據(jù)包含假陰性時(shí)的DPNC-CC算法性能
蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建是蛋白組學(xué)中眾多問題研究的基礎(chǔ),文中針對現(xiàn)有構(gòu)建算法存在的不足,提出了一種基于連接強(qiáng)度的動態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建算法,并通過仿真實(shí)驗(yàn)驗(yàn)證了該方法在蛋白質(zhì)復(fù)合物識別上的有效性。下一步,我們將在本文的基礎(chǔ)上進(jìn)一步對動態(tài)蛋白質(zhì)網(wǎng)絡(luò)中的復(fù)合物挖掘問題展開研究,力爭為生物學(xué)家或醫(yī)學(xué)家的工作提供更多的技術(shù)支撐。