毛伊敏,劉銀萍
江西理工大學(xué) 信息工程學(xué)院,江西 贛州341000
在蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)網(wǎng)絡(luò)中,蛋白質(zhì)復(fù)合物是指在相同時間和空間通過相互作用組成一個多分子機制的蛋白質(zhì)集合[1]。大量的生物實驗和計算方法實驗產(chǎn)生了許多高質(zhì)量、大規(guī)模的PPI 網(wǎng)絡(luò)數(shù)據(jù),這些數(shù)據(jù)為識別蛋白質(zhì)復(fù)合物奠定了基礎(chǔ),而蛋白質(zhì)復(fù)合物的識別能夠幫助人類預(yù)測未知的蛋白質(zhì)功能,解釋特定的生物進程,并為研究疾病的發(fā)生機理,尋找新的藥物靶標(biāo),提供重要的理論基礎(chǔ)[2]。因此,識別蛋白質(zhì)復(fù)合物是生物信息領(lǐng)域中的一項研究熱點。
迄今為止,早期識別蛋白質(zhì)復(fù)合物的方法是生物實驗方法。雖然生物實驗方法挖掘復(fù)合物的精度較高,但是該方法不僅費時費力,檢測效率也已經(jīng)不能滿足后基因組時代的發(fā)展。隨著高通量生物蛋白信息學(xué)的發(fā)展,產(chǎn)生了許多高質(zhì)量和大規(guī)模的蛋白質(zhì)相互作用數(shù)據(jù),這些數(shù)據(jù)為采用計算方法識別蛋白質(zhì)復(fù)合物奠定了基礎(chǔ)[3]。因此,出現(xiàn)了大量基于計算方法識別復(fù)合物的算法。由于生物網(wǎng)絡(luò)中每個蛋白質(zhì)有著不同的功能,不同的邊的重要性也不同,為了更真實、詳盡地表達出蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性和多樣性,目前從加權(quán)PPI網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物越來越受到人們的關(guān)注[4]。Dimitrakopoulos等人[5]提出一種從加權(quán)蛋白質(zhì)網(wǎng)絡(luò)之中預(yù)測重疊蛋白質(zhì)復(fù)合物的算法GENA(Gradually expanding dense neighborhoods)?;贑OACH(Core-attachment method)方法,Kouhsar 等人[6]提出一種快速高性能的預(yù)測加權(quán)蛋白質(zhì)復(fù)合體檢測算法WCOACH。Ama 等人[7]提出一種跨模塊中心移除的加權(quán)蛋白質(zhì)復(fù)合物識別算法IMHRC(Inter module hub removal clustering)。雖然這些加權(quán)網(wǎng)絡(luò)蛋白質(zhì)復(fù)合物檢測算法具有一定的成效,但是由于相互作用數(shù)據(jù)中存在著較高比例的假陽性和假陰性,以及蛋白質(zhì)相互作用數(shù)據(jù)中包含不穩(wěn)定或發(fā)生在不同時間點的相互作用,導(dǎo)致識別蛋白質(zhì)復(fù)合物的精確度不高[8]。為了進一步提高識別的準(zhǔn)確性,研究者們開始結(jié)合蛋白質(zhì)相互作用以及多元生物數(shù)據(jù)來識別復(fù)合物。例如,在蛋白質(zhì)相互作用網(wǎng)絡(luò)中,胡偉等人[9]提出蛋白質(zhì)復(fù)合物識別ICMDS算法(Predicting complexes based on multiple biological data sources)。該算法整合了基因表達譜、關(guān)鍵蛋白信息和蛋白質(zhì)相互作用數(shù)據(jù)?;诘鞍踪|(zhì)相互作用數(shù)據(jù)以及異構(gòu)生物數(shù)據(jù),趙碧海等人[10]提出一種基于多關(guān)系網(wǎng)絡(luò)中關(guān)鍵模塊挖掘的蛋白質(zhì)功能預(yù)測算法PEFM(Prediction of protein functions based on essential functional modules mining)。多元生物數(shù)據(jù)整合能夠有效地彌補相互作用網(wǎng)絡(luò)不完整性和噪聲的問題,使得識別蛋白質(zhì)復(fù)合物的精確度得到提高。除此之外,由于模塊度函數(shù)充分考慮PPI網(wǎng)絡(luò)的節(jié)點分布情況,可以通過優(yōu)化該函數(shù)將連接緊密的節(jié)點聚到相同的模塊中,符合蛋白質(zhì)復(fù)合物的結(jié)構(gòu)特征,因此研究者提出了許多基于模塊度函數(shù)的蛋白質(zhì)復(fù)合物挖掘算法[11]。Becker 等人[12]提出基于層次聚類的OCG(Overlapping cluster generator)算法,該算法根據(jù)Newman 的模塊度函數(shù)將初始的重疊類迭代地融合到層次結(jié)構(gòu)中,進而實現(xiàn)蛋白質(zhì)聚類過程,然而該算法對復(fù)合物的模塊規(guī)模較敏感,難以識別規(guī)模較小的復(fù)合物。郭茂祖等人[13]首先將識別稠密子圖作為初始模塊,然后根據(jù)模塊度函數(shù)來合并初始模塊,提出了復(fù)合物識別算法BMM(Based on protein complexes modularity function for merging modules)。Shen 等人[14]在引入外部緊密關(guān)聯(lián)度和內(nèi)部模塊緊密關(guān)聯(lián)度的基礎(chǔ)上,設(shè)計了一種基于自適應(yīng)密度模塊化的蛋白質(zhì)功能模塊檢測算法ADM(Adaptive density modularity)。在這個算法中,蛋白質(zhì)可以自適應(yīng)地選擇留在當(dāng)前的模塊還是轉(zhuǎn)移到另一個模塊中。Shen 等人[15]設(shè)計了一種基于最佳鄰節(jié)點和全局量化的復(fù)合物檢測算法BN-LGQ(Best neighbour and local-global quantification)。該算法通過搜索當(dāng)前簇的最佳鄰節(jié)點和計算模塊函數(shù)增量,進而確定是否將最佳鄰節(jié)點加入簇中來擴展復(fù)合物。雖然基于模塊度函數(shù)的蛋白質(zhì)復(fù)合物挖掘算法已有了很大的進步,但是這些算法僅僅考慮了網(wǎng)絡(luò)的拓?fù)涮匦?,未考慮到PPI網(wǎng)絡(luò)中富含的生物信息;且難以識別出重疊和規(guī)模較小的蛋白質(zhì)復(fù)合物,算法的識別精度較低。雖然基于加權(quán)PPI網(wǎng)絡(luò)的復(fù)合物識別取得了一定的成效,但是如何有效地構(gòu)建加權(quán)PPI網(wǎng)絡(luò),如何降低復(fù)合物識別效果受假陽性和噪聲數(shù)據(jù)的影響;如何解決基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息,以及難以識別出重疊和規(guī)模較小的復(fù)合物等導(dǎo)致的準(zhǔn)確率、召回率不高以及執(zhí)行效率低等缺陷,仍是亟待解決的問題。
針對以上問題,本文提出了一種基于模塊度函數(shù)的加權(quán)蛋白質(zhì)復(fù)合物識別算法IWPC-MF(Algorithm for identifying weighted protein complexes based on modularity function)。主要工作為:(1)融合點聚集系數(shù)改進邊聚集系數(shù),將改進后的邊點聚集系數(shù)與基因共表達的皮爾遜相關(guān)系數(shù)相結(jié)合來構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò);(2)基于節(jié)點權(quán)重選取種子節(jié)點,遍歷種子的鄰居節(jié)點,設(shè)計節(jié)點間的相似度度量和蛋白質(zhì)附著度來獲取初始聚類模塊;(3)設(shè)計基于緊密度的蛋白質(zhì)復(fù)合物模塊度函數(shù)來合并初始模塊,并最終完成復(fù)合物的識別。實驗結(jié)果表明本文算法運行效率高,聚類結(jié)果的準(zhǔn)確率以及召回率較高。
定義1(加權(quán)蛋白質(zhì)網(wǎng)絡(luò))[16]設(shè)G=( )V,E,P 代表加權(quán)PPI 網(wǎng)絡(luò),V=( v1,v2,…,vn)代表蛋白質(zhì)節(jié)點E=(e1,)代表蛋白質(zhì)之間的相互作用,P=(p( e1),p( e2),…,是每條邊存在的概率權(quán)重。
定義2(邊聚集系數(shù))[17]設(shè)無向圖G=(V ,E,P ),其中表示節(jié)點u 和v 所共有的鄰居節(jié)點數(shù),Nu和Nv分別代表節(jié)點u 和v 的包括自身的鄰居節(jié)點集合。則對于無向圖中(u,v)的邊聚集系數(shù)(Edge Clustering Coefficient,ECC)定義為:
定義3(皮爾遜相關(guān)系數(shù))[18]給定k 個不同時刻的基因表達數(shù)據(jù)樣本,則兩個蛋白質(zhì)節(jié)點u 和v 之間的皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)計算方式如式(2)所示:
定義4(模塊度函數(shù))[19]給定PPI 網(wǎng)絡(luò)G=(V ,E ),其中Aij表示節(jié)點i 和j 鄰接關(guān)系,θ( ci,cj)表示節(jié)點i和j 的模塊關(guān)系,di和dj分別代表節(jié)點i 和j 節(jié)點的度。則模塊度函數(shù)(Modularity Function,MF)的定義如式(3)所示:
針對蛋白質(zhì)相互作用網(wǎng)絡(luò)存在不穩(wěn)定性,復(fù)合物的識別效果容易受到假陽性和噪聲數(shù)據(jù)的影響;基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識別出重疊和規(guī)模較小的復(fù)合物等問題,為提高算法的準(zhǔn)確率、召回率、執(zhí)行效率和降低假陽性的影響,本文提出了一種加權(quán)蛋白質(zhì)復(fù)合物識別算法IWPC-MF。具體IWPC-MF算法思想為:首先以蛋白質(zhì)相互作用網(wǎng)絡(luò)為框架,融合點聚集系數(shù)改進邊聚集系數(shù)得到邊點聚集系數(shù),利用邊點聚集系數(shù)與基因共表達的皮爾遜相關(guān)系數(shù)衡量相互作用邊的可靠性進而構(gòu)建加權(quán)網(wǎng)絡(luò);其次利用節(jié)點權(quán)重選取種子節(jié)點,遍歷種子節(jié)點的鄰域節(jié)點,利用本文設(shè)計的節(jié)點間的相似度度量和蛋白質(zhì)附著度來獲取初始聚類模塊;最后基于節(jié)點緊密度改進模塊度函數(shù),進而利用模塊度函數(shù)將有重疊的初始模塊進行合并,并最終完成復(fù)合物識別。
針對蛋白質(zhì)相互作用網(wǎng)絡(luò)存在不穩(wěn)定性,復(fù)合物的識別效果容易受到假陽性假陰性和噪聲數(shù)據(jù)的影響,本文基于PPI網(wǎng)絡(luò)的拓?fù)涮匦?,結(jié)合基因共表達的皮爾遜相關(guān)系數(shù),對蛋白質(zhì)相互作用網(wǎng)絡(luò)進行加權(quán),并且添加新的相互作用,能一定程度上增加蛋白質(zhì)相互作用的可信度。
3.2.1 PPI網(wǎng)絡(luò)的拓?fù)涮匦?/p>
由于蛋白質(zhì)相互作用網(wǎng)絡(luò)具有小世界特性和稀疏性,且存在一定比例的假陽性和假陰性,若兩個蛋白質(zhì)都同時第三個蛋白質(zhì)發(fā)生相互作用,則這兩個蛋白質(zhì)間相互作用假陽性的可能性比較小,共同參與模塊執(zhí)行相同功能的概率比較大,因此,一對蛋白質(zhì)之間相互作用的概率可以通過它們共有的鄰居節(jié)點數(shù)量確定[20]?;诠?jié)點間共有的鄰居數(shù)量的邊聚集系數(shù)是PPI 網(wǎng)絡(luò)中重要的拓?fù)涮匦?,可以用于衡量測度圖中的邊聚集在一起的程度,還可以評估節(jié)點鄰居之間的緊密程度。但是邊聚集系數(shù)僅僅考慮邊的重要性,沒有考慮節(jié)點的重要性。因此,引入能夠反映節(jié)點聚集程度的點聚集系數(shù)[21]對邊聚集系數(shù)加以改進,提出一種融合節(jié)點和邊的雙重拓?fù)涮匦缘倪咟c聚集系數(shù),則邊點聚集系數(shù)度量如式(4)所示:
式(4)中,| Nu∩Nv|表示集合Nu除去和集合Nv的交集部分所剩余的蛋白質(zhì)個數(shù),| Nv-Nu|表示集合Nv除去和集合Nu的交集部分所剩余的蛋白質(zhì)個數(shù),Cu和Cv分別表示節(jié)點u 和v 的點聚集系數(shù),其度量方式如式(5)所示:
式(5)中,i 可分別代表節(jié)點u 和v,| |Ni代表節(jié)點u 或v 的度,| |Ei表示由節(jié)點u 或v 的鄰居節(jié)點之間組成的邊的數(shù)目。
3.2.2 蛋白質(zhì)的皮爾遜相關(guān)系數(shù)
由于高通量實驗獲得的蛋白質(zhì)相互作用數(shù)據(jù)中存在著一定比例的假陽性和噪聲數(shù)據(jù),如果僅僅用網(wǎng)絡(luò)的拓?fù)涮匦詠砗饬績蓚€蛋白質(zhì)之間的相互作用程度是比較片面的,因此本文引入定義3的基因共表達皮爾遜相關(guān)系數(shù)來衡量兩個蛋白質(zhì)之間的共表達程度進而增強相互作用之間的可靠性。
3.2.3 蛋白質(zhì)網(wǎng)絡(luò)的加權(quán)
基于蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)涮匦?,整合皮爾遜相關(guān)系數(shù)對網(wǎng)絡(luò)進行加權(quán),該加權(quán)策略不僅考慮了邊和點聚集的重要性,還考慮到相互作用的蛋白質(zhì)之間的基因共表達程度,共同體現(xiàn)蛋白質(zhì)相互作用的可信度,其邊加權(quán)的權(quán)重越大,可信度就越高。則對于PPI網(wǎng)絡(luò)中任意兩個蛋白質(zhì)之間的相互作用(u,v)的權(quán)重計算如式(6)所示:
本文根據(jù)網(wǎng)絡(luò)的拓?fù)涮匦院蜕锘蚬脖磉_皮爾遜相關(guān)系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò),將邊權(quán)值為0的邊刪除來降低噪聲數(shù)據(jù)對挖掘蛋白質(zhì)復(fù)合物檢測結(jié)果造成的負(fù)面影響。
權(quán)值為0的邊刪除的必要性分析如下:
大量研究表明,通過高通量的生物實驗方法獲得的蛋白質(zhì)相互作用數(shù)據(jù)中包含著較高比例的假陽性和假陰性,為了減少假陽性和假陰性造成的負(fù)面影響,本文通過綜合考慮蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦约吹鞍踪|(zhì)相互作用邊之間的緊密聯(lián)系以及節(jié)點的聚集系數(shù)來降低假陽性的影響,以及生物數(shù)據(jù)即皮爾遜相關(guān)數(shù)據(jù)來添加新的蛋白質(zhì)相互作用,進而減少假陰性的影響。綜合分析蛋白質(zhì)相互作用的拓?fù)涮匦院蜕锾匦詠順?gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò),故將邊權(quán)值為0的邊作為假陽性而進行刪除。
降低噪聲數(shù)據(jù)對挖掘蛋白質(zhì)復(fù)合物檢測結(jié)果造成的負(fù)面影響等方面的作用分析:
為了進一步分析降低噪聲數(shù)據(jù)對挖掘蛋白質(zhì)復(fù)合物檢測結(jié)果造成的負(fù)面影響,分別將邊權(quán)重為0的邊刪除以及不刪除邊權(quán)重為0的邊,利用本文改進的方法來挖掘蛋白質(zhì)復(fù)合物,具體識別出的復(fù)合物的基本信息如表1所示。
表1 復(fù)合物的基本信息
從表1 可以看出,未刪除邊權(quán)重為0 的邊的蛋白質(zhì)復(fù)合物的平均蛋白質(zhì)的個數(shù)為11.6,比刪除邊權(quán)重為0的邊挖掘的復(fù)合物的平均個數(shù)要少,以及識別出的復(fù)合物比刪除邊權(quán)重為0 的復(fù)合物的個數(shù)要少。這是由于未刪除邊權(quán)重為0 的邊中存在噪聲數(shù)據(jù)實驗結(jié)果容易受到假陽性的影響。故本文方法將邊權(quán)重為0 的邊刪除可以有效地減少和控制噪聲對于蛋白質(zhì)復(fù)合物檢測所產(chǎn)生的負(fù)面影響。
初始模塊的形成過程主要包括節(jié)點種子的選取,根據(jù)節(jié)點間的相似性,遍歷種子節(jié)點的鄰域,計算蛋白質(zhì)間的附著度進而形成初始模塊。
基于蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院推栠d相關(guān)系數(shù)構(gòu)建的加權(quán)網(wǎng)絡(luò),節(jié)點u 所有關(guān)聯(lián)的邊點聚集系數(shù)之和即節(jié)點權(quán)重定義如式(7)所示:
基于蛋白質(zhì)復(fù)合物成簇出現(xiàn)且高度共表達,則蛋白質(zhì)間的相似度度量如式(8)所示:
式(8)中,PCC( i,j )表示節(jié)點間的皮爾遜相關(guān)系數(shù),PECC( i,j )表示節(jié)點i 和j 之間的結(jié)構(gòu)相似性,Ni代表節(jié)點i 的鄰居節(jié)點集合。PCC( i,j )和PECC( i,j )的差值表示節(jié)點共表達程度與拓?fù)浣Y(jié)構(gòu)相似性的差異,差異越小,說明這兩個蛋白質(zhì)無論是拓?fù)浣Y(jié)構(gòu)還是基因共表達信息的相似度都很接近,模塊劃分結(jié)構(gòu)越加穩(wěn)定。其值越大,說明這兩個節(jié)點越有可能在同一模塊內(nèi)。
根據(jù)蛋白質(zhì)節(jié)點之間的相似度度量,綜合考慮節(jié)點與鄰域節(jié)點間以及節(jié)點與鄰域節(jié)點的鄰接節(jié)點的相似度,設(shè)計出蛋白質(zhì)附著度度量公式。
給定加權(quán)蛋白質(zhì)子網(wǎng)絡(luò)WG1=( )V1,E1,P1和節(jié)點i ∈V1,SM( )i,j 為節(jié)點間的相似性度量,加權(quán)網(wǎng)絡(luò)G2=(V2,E2,P2)是包含G1中所有節(jié)點的鄰居節(jié)點以及對應(yīng)的相互作用邊。則節(jié)點i 的的附著度計算如式(9)所示:
初始模塊的形成思想如下:首先,基于蛋白質(zhì)復(fù)合物是成簇出現(xiàn)且傾向于共表達的事實,利用式(6)來計算邊的存在概率,構(gòu)建加權(quán)網(wǎng)絡(luò);接著充分考慮節(jié)點之間的緊密程度以及共表達程度,對于加權(quán)網(wǎng)絡(luò)中的任意一個節(jié)點,利用式(7)來計算該節(jié)點在其鄰居圖中的節(jié)點的權(quán)重,將加權(quán)網(wǎng)絡(luò)中的邊權(quán)值為0 和節(jié)點權(quán)重為0的作為噪聲移除,同時按照WP( )u 值進行降序排列作為擴張的種子節(jié)點;最后遍歷種子節(jié)點的鄰域,根據(jù)相似度度量式(8)來計算節(jié)點間的相似性,同時根據(jù)式(9)計算蛋白質(zhì)節(jié)點的附著度,將附著度大于閾值的節(jié)點加入到種子節(jié)點中,重復(fù)進行操作形成初始模塊。
初始模塊的形成過程形式化如下:
輸入:蛋白質(zhì)網(wǎng)絡(luò)G( )
V,E ,附著度閾值δ,基因表達數(shù)據(jù)
輸出:初始模塊集合EM(1)構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)
①For each ( u,v )∈E do
② Compute PECC( u,v )by Eq(.4)
③ Compute PCC( u,v )by Eq(.2)④ Compute P( u,v )by Eq(.6)
⑤ If P( u,v )=0 do
⑥ Remove()//除去權(quán)值為0的相互作用邊
⑦ End if
⑧End for
(2)選取種子節(jié)點
①L=? //種子節(jié)點集合
②For each vi∈V do
③ Compute WP( vi)by Eq(.7)
④ Sort()//將蛋白質(zhì)節(jié)點按照WP( vi)值非遞減排序WP( v1)≥WP( v2)≥…≥WP( vk)進入種子節(jié)點集合L 中。
⑤End for
(3)初始模塊形成
①EM=?,L={v1,v2,…,vk}
②For each vi∈L do
③G1={vi|dis( vi,va=1) }∪{vi}
④ If DS( vi,G1)>δ do
⑤ EM=EM ∪{vi}
⑥ End if
⑦End for
⑧ Return EM //輸出蛋白質(zhì)初始模塊
大量研究發(fā)現(xiàn),不同的蛋白質(zhì)復(fù)合物之間可能存在重疊;大多數(shù)蛋白質(zhì)復(fù)合物所包含的蛋白質(zhì)節(jié)點數(shù)目較少;而且蛋白質(zhì)復(fù)合物往往是傾向于成簇和高度共表達出現(xiàn)[13]。然而基于模塊度函數(shù)的蛋白復(fù)合物挖掘算法存在僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識別出重疊和規(guī)模較小的復(fù)合物等問題,為提高算法的準(zhǔn)確率和召回率,基于蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院突蚬脖磉_皮爾遜相關(guān)系數(shù)構(gòu)建的加權(quán)網(wǎng)絡(luò),考慮到蛋白質(zhì)復(fù)合物是節(jié)點緊密連接的稠密子圖和蛋白質(zhì)網(wǎng)絡(luò)本身具有的小世界特性,提出基于緊密度[22]的蛋白質(zhì)復(fù)合物合并模塊度函數(shù),若相鄰的模塊能夠使模塊度函數(shù)增加,則對模塊進行合并進而得到蛋白質(zhì)復(fù)合物。
緊密度是保證形成高內(nèi)聚復(fù)合物的形成條件之一,則一個蛋白質(zhì)節(jié)點v 到模塊S 的緊密度F(v)的計算方式如式(10)所示:
基于緊密度的模塊度函數(shù)計算公式如式(11)所示:
式(11)中,網(wǎng)絡(luò)中邊的數(shù)目為 ||E ,當(dāng)前網(wǎng)絡(luò)的模塊數(shù)為| EM |,Si和Sj分別表示節(jié)點i 和j 所在的模塊。
為了能夠識別出更多規(guī)模較小和重疊的蛋白質(zhì)復(fù)合物進而提高識別的精度,基于改進后的模塊度函數(shù),若初始兩個模塊合并能使模塊度函數(shù)值增加,則合并這兩個模塊,并更新模塊度函數(shù)值。
基于緊密度的模塊度函數(shù),具體模塊合并過程形式化如下:
輸入:加權(quán)蛋白質(zhì)網(wǎng)絡(luò)WG(V,E),初始模塊集合EM
輸出:蛋白質(zhì)復(fù)合物集合C
(1)C=?
(2)For i =1 to| EM |-1
(3)Compute DMF( EM′ )//計 算EMi和EMi+1合并后的EM′的模塊度函數(shù)值
(4) If FMF( EM′ )>FMF( EM )do
(5) EMi=EMi∪EMi+1//刪除EMi+1
(6) FMF( EM )=FMF( EM′)
(7) C=EM
(8) End if
(9)End for
(10)Return C //輸出蛋白質(zhì)復(fù)合物
IWPC-MF算法具體的實現(xiàn)步驟如下所示:
輸入:蛋白質(zhì)網(wǎng)絡(luò)G(V,E,基因表達數(shù)據(jù)
輸出:蛋白質(zhì)復(fù)合物C
(1)初始化參數(shù):附著度閾值δ
(2)蛋白質(zhì)復(fù)合物的挖掘
①For each ( u,v )∈E do
② 調(diào)用加權(quán)網(wǎng)絡(luò)形成過程,獲得加權(quán)網(wǎng)絡(luò)WG(V,E)
③ For each vi∈V do
④ 調(diào)用種子節(jié)點形成過程,獲得種子節(jié)點集合L
⑤ For each vi∈L do
⑥ 調(diào)用初始模塊形成過程,獲得初始模塊集合EM
⑦For i=1 to| EM |-1
⑧調(diào)用初始模塊合并過程,獲得蛋白質(zhì)復(fù)合物集合C
⑨End for
⑩ End for
? End for
?End for
?Return C //得到蛋白質(zhì)復(fù)合物
IWPC-MF 算法的計算復(fù)雜度由以下幾個步驟構(gòu)成:假設(shè)PPI 網(wǎng)絡(luò)中節(jié)點數(shù)目為n,依據(jù)邊點聚集系數(shù)以及基因表達數(shù)據(jù)構(gòu)建加權(quán)PPI 網(wǎng)路的時間復(fù)雜度為O(n2);基于節(jié)點權(quán)重來選取種子節(jié)點的時間復(fù)雜度為O(n2);遍歷種子節(jié)點的鄰域,通過計算蛋白質(zhì)節(jié)點之間的相似性,采用蛋白質(zhì)附著度來形成初始模塊的時間復(fù)雜度為O(n2);假設(shè)初始的模塊數(shù)為h,則模塊合并的時間復(fù)雜度為O(h2)。因此,IWPC-MF算法的時間復(fù)雜度為O(n2+h2)。由于h <n,所以IWPC-MF 算法的時間復(fù)雜度近似為O(n2)。而在GENA 算法中,算法的時間復(fù)雜度主要取決于初始化以及優(yōu)化集群的過程,即O(Bn3);在WCOACH 算法中,算法的時間復(fù)雜度主要取決于初始核的檢測和添加附件形成蛋白質(zhì)復(fù)合物的過程,即O(τn3);在IMHRC 算法中,算法的時間復(fù)雜度主要取決于主要蛋白質(zhì)集群形成以及合并修復(fù)集群的過程,即O(pγβn2);在ICMDS 算法中,算法的時間復(fù)雜度主要取決于復(fù)合核的形成以及冗余過濾,即O(n3);在OCG 算法中,算法的時間復(fù)雜度主要取決于極大團的形成以及合并模塊的過程,即O(hn2);在BMM算法中,算法的時間復(fù)雜度主要取決于初始模塊的形成以及合并模塊的過程,即O(n2+h2),雖然該算法的復(fù)雜度和本文算法的時間復(fù)雜度一樣,但該算法的識別精度以及匹配率較低;在ADM算法中,算法的時間復(fù)雜度主要取決于外部和內(nèi)部緊密關(guān)聯(lián)度的計算以及合并模塊的過程,即O(n3);在BN-LGQ算法中,算法的時間復(fù)雜度主要取決于模塊化增量計算以及模塊形成過程,即O(n+φn+)。上述提及的nc、T 、τ、γ、β、B、φ 和χ 分別表示最大的復(fù)合物的蛋白質(zhì)數(shù)目、基因表達時刻數(shù)、鄰域親和力閾值、中心獲取閾值、中心移除閾值、預(yù)測到的模塊數(shù)目、復(fù)合物形成前的數(shù)量和合并過程中蛋白質(zhì)復(fù)合物減少的數(shù)量。
IWPC-MF 算法實驗的編程環(huán)境為Python3.5.2;操作系統(tǒng)為Windows10 家庭中文版;內(nèi)存12 GB;處理器為Intel?CoreTMi5-4200H CPU @ 2.8 GHz。
為驗證本文提出算法的有效性,選用蛋白質(zhì)相互作用數(shù)據(jù)相對完整和可靠的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)作為實驗數(shù)據(jù)。具體實驗數(shù)據(jù)如下所示:
(1)酵母PPI網(wǎng)絡(luò)數(shù)據(jù)來源于DIP數(shù)據(jù)庫[23],去除重復(fù)以及自相互作用,該數(shù)據(jù)庫包含4 995個蛋白質(zhì)和21 554對相互作用。
(2)實驗采用的時序基因表達數(shù)據(jù)為GSE3431[24],包含7 079個蛋白質(zhì)和36個時刻下的基因表達值。
(3)本文采用CYC2008[25]作為標(biāo)準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含408個通過生物實驗預(yù)測得到的蛋白質(zhì)復(fù)合物。
4.3.1 精度、召回率和F-measure 度量
為了評價本文算法的有效性,采用文獻[26]的基于鄰域親和評分的精度(Precision)、召回率(Recall)和F度量(F-measure)指標(biāo)來評價算法性能。鄰域親和評分是用來衡量預(yù)測的復(fù)合物與實際復(fù)合物的匹配度即重疊率,當(dāng)重疊率OS(p,b)≥ω,輸出最終的復(fù)合物,否則將該復(fù)合物刪除,其定義為:
綜合考慮精度和召回率對聚類結(jié)果的影響,采用F-measure 綜合評估整體算法的性能。其計算公式如下:
4.3.2P-value值度量
隨著蛋白質(zhì)組學(xué)研究的深入,使得一個蛋白質(zhì)與其功能注釋相對應(yīng)成為可能,蛋白質(zhì)簇發(fā)生對于一個給定功能注釋在統(tǒng)計學(xué)上的意義就可以通過一個超幾何分布的等式來進行計算[28]:
其中,V 代表PPI 網(wǎng)絡(luò)中包含的蛋白質(zhì)總數(shù),C 為預(yù)測挖掘出的復(fù)合物數(shù)目,F(xiàn) 為一個功能組數(shù)量,k 為C 中包含F(xiàn) 中的蛋白質(zhì)數(shù)目。
IWPC-MF 算法中,由于參數(shù)δ 的取值影響實驗的聚類效果,因此本文在不同的δ 參數(shù)取值上獨立運行20次實驗,取20次實驗的平均值進行分析。在圖1中展示了δ 在不同取值下的F-measure 值和被識別匹配的蛋白質(zhì)復(fù)合物比例變化情況,具體的實驗結(jié)果如圖1所示。
圖1 F-measure 值和匹配的蛋白質(zhì)復(fù)合物比例變化圖
圖1 可知,隨著δ 從0 到0.2 逐漸增大,F(xiàn)-measure的值在δ 不同取值之下也逐漸增大,且F-measure 達到最大值0.482 9,實驗識別的復(fù)合物和已知的復(fù)合物的匹配比例也逐漸增加,且達到最大值65.51%;隨著δ 從0.2到1逐漸增大,F(xiàn)-measure 的值在δ 不同取值之下逐漸降低,實驗識別出的復(fù)合物和已知的復(fù)合物的匹配比例也逐漸降低。這是因為本文融合邊點聚集系數(shù)與基因表達數(shù)據(jù)構(gòu)建加權(quán)網(wǎng)絡(luò),同時利用節(jié)點權(quán)重來選取種子節(jié)點,遍歷種子節(jié)點的鄰居時,計算節(jié)點之間的相似度,根據(jù)蛋白質(zhì)附著度來形成初始模塊,充分考慮了內(nèi)部節(jié)點與外部節(jié)點之間的聯(lián)系即全局一致性。隨著附著度閾值的增大,算法識別的聚類數(shù)目逐漸增加,每個復(fù)合物中包含的蛋白質(zhì)數(shù)目越少,相對應(yīng)復(fù)合物的個數(shù)就會增加,但是當(dāng)閾值增大到一定值時,擴展的種子鄰域節(jié)點和種子節(jié)點之間的相互作用要求提高,導(dǎo)致挖掘復(fù)合物的精度逐漸增加,對挖掘出的蛋白質(zhì)復(fù)合物會更嚴(yán)格,導(dǎo)致算法F-measure 值和匹配比例先增加后降低。通過觀察發(fā)現(xiàn)存在一對合理取值即δ=0.2,使F-measure達到最大值0.482 9且匹配比例達到65.51%。故本文設(shè)置δ=0.2。
為了驗證IWPC-MF 算法使用邊點聚集系數(shù)PECC度量公式的有效性,分別基于使用邊點聚集系數(shù)度量和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC加權(quán)的IWPC-MF算法和未使用邊點聚集系數(shù)即使用邊聚集系數(shù)ECC和皮爾遜相關(guān)系數(shù)IWPC-MF-ECC-PCC加權(quán)的IWPC-MF算法,比較在算法識別的復(fù)合物與已知的復(fù)合物的匹配重疊率不同閾值下得到的F-measure 值和匹配比例,具體的實驗結(jié)果如圖2所示。
圖2 不同加權(quán)策略挖掘的復(fù)合物對比結(jié)果
由圖2 顯示,使用邊點聚集系數(shù)度量的IWPC-MF算法的F-measure 取值和匹配的蛋白質(zhì)復(fù)合物比例都比未使用邊點聚集系數(shù)的取值要高。在本文取值重疊率閾值為0.2 時,F(xiàn)-measure 的取值比未使用邊點聚集系數(shù)提高3.62%,匹配的蛋白質(zhì)復(fù)合物比未使用邊點聚集系數(shù)度量加權(quán)提高4.65%。實驗結(jié)果說明,使用改進的邊點聚集系數(shù)的算法的聚類效果得到了提高。這是因為:基于復(fù)合物內(nèi)部節(jié)點之間的緊密聯(lián)系,IWPC-M算法在充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎蚬脖磉_程度時,還考慮到節(jié)點的聚集程度對復(fù)合物挖掘的影響,利用邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)對蛋白質(zhì)網(wǎng)絡(luò)進行加權(quán),進而利用種子節(jié)點實現(xiàn)復(fù)合物的挖掘。也進一步證明利用種子蛋白質(zhì)能很好擴展為一個復(fù)合物。
為進一步檢驗邊點聚集系數(shù)的有效性,分別使用不同加權(quán)方法與本文的IWPC-MF-PECC-PCC加權(quán)方法進行對比實驗,圖3是采用不同加權(quán)方法檢測到蛋白質(zhì)復(fù)合物與標(biāo)準(zhǔn)數(shù)據(jù)庫的對比結(jié)果。從圖3可以看出,使用IWPC-MF-ECC 加權(quán)的方法未識別出YHR081W 和YOL142W 兩個蛋白質(zhì),是因為邊聚集系數(shù)只考慮節(jié)點間邊的緊密度,對網(wǎng)絡(luò)的拓?fù)湫苑治霰容^單一;使用IWPC-MF-PECC 加權(quán)的方法未識別出一個蛋白質(zhì),這是因為邊點聚集系數(shù)不僅考慮了節(jié)點間邊的緊密關(guān)系,還考慮到了每個節(jié)點的重要性,對蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦钥紤]得較全面,但忽略了蛋白質(zhì)之間的生物特性;使用IWPC-MF-PECC-PCC加權(quán)的方法既考慮到網(wǎng)絡(luò)的拓?fù)涮匦裕瑫r又結(jié)合基因共表達的皮爾遜相關(guān)系數(shù),對蛋白質(zhì)網(wǎng)絡(luò)的分析比較全面,能夠更加貼近真實網(wǎng)絡(luò),因此最終的聚類效果較好。
為了進一步分析IWPC-MF算法結(jié)合邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò)的性能,分別基于邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC加權(quán)的蛋白質(zhì)網(wǎng)絡(luò)、邊點聚集系數(shù)IWPC-MF-PECC 構(gòu)建的加權(quán)網(wǎng)絡(luò)和皮爾遜相關(guān)系數(shù)IWPC-MF-PCC 構(gòu)建的加權(quán)網(wǎng)絡(luò)來挖掘蛋白質(zhì)復(fù)合物,比較算法識別的復(fù)合物與已知的復(fù)合物在不同匹配重疊率閾值之下的匹配比例,具體的實驗結(jié)果如圖4所示。
由圖4顯示,本文使用邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)IWPC-MF-PECC-PCC構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)挖掘復(fù)合物的檢測效果明顯優(yōu)于其他加權(quán)策略,尤其在匹配重疊率閾值為0.2時,IWPC-MF算法使用IWPC-MF-PECCPCC加權(quán)識別的蛋白質(zhì)復(fù)合物匹配比例分別比使用PECC加權(quán)和PCC加權(quán)識別的匹配比例高3.00%和5.83%。實驗結(jié)果說明,結(jié)合邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)的算法的聚類效果得到了提高。這是因為:基于邊點聚集系數(shù)加權(quán)的蛋白質(zhì)網(wǎng)絡(luò)僅僅整合了邊聚集系數(shù)和點聚集系數(shù),因此只能反映PPI 網(wǎng)絡(luò)的拓?fù)涮匦?,考慮得比較單一;基于皮爾遜相關(guān)系數(shù)加權(quán)的網(wǎng)絡(luò)僅僅只考慮到基因共表達程度,沒有考慮網(wǎng)絡(luò)的拓?fù)涮匦?,實驗結(jié)果存在較高的假陽性和假陰性數(shù)據(jù);而基于復(fù)合物內(nèi)部節(jié)點之間的緊密聯(lián)系,IWPC-MF 算法在充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎蚬脖磉_程度時,還考慮到節(jié)點的聚集程度對復(fù)合物挖掘的影響,結(jié)合邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)對蛋白質(zhì)網(wǎng)絡(luò)進行加權(quán),有效地減少假陰性和假陽性帶來的負(fù)面影響,因此本文的加權(quán)蛋白質(zhì)網(wǎng)絡(luò)的性能較好。
圖3 不同加權(quán)方法識別nuclear exosome complex復(fù)合物
圖4 不同加權(quán)網(wǎng)絡(luò)策略的蛋白質(zhì)匹配比例值的對比分析
為了減少假陽性和假陰性造成的負(fù)面影響,本文通過綜合考慮蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦约吹鞍踪|(zhì)相互作用邊之間的緊密聯(lián)系以及節(jié)點的聚集系數(shù)來降低假陽性的影響,以及生物數(shù)據(jù)即皮爾遜相關(guān)數(shù)據(jù)來添加新的蛋白質(zhì)相互作用,進而減少假陰性的影響。綜合分析蛋白質(zhì)相互作用的拓?fù)涮匦院蜕锾匦詠順?gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)。為了進一步分析本文方法PPI 網(wǎng)絡(luò)任意兩個蛋白質(zhì)之間的相互作用權(quán)重計算方式設(shè)計的準(zhǔn)確性,采用本文的加權(quán)方式以及采用邊點聚集系數(shù)構(gòu)建加權(quán)網(wǎng)絡(luò)來挖掘蛋白質(zhì)復(fù)合物,具體檢測結(jié)果如圖5所示。通過具體實例分析DNA-directed RNA polymerase II complex復(fù)合物中任意邊的相互作用,發(fā)現(xiàn)本文加權(quán)識別的復(fù)合物更加貼近真實網(wǎng)絡(luò)。本文設(shè)計的加權(quán)方法更加準(zhǔn)確。
為了驗證IWPC-MF算法使用優(yōu)化的模塊度函數(shù)FMF的有效性,分別基于優(yōu)化的模塊度函數(shù)FMF 的IWPCMF算法和未使用該優(yōu)化函數(shù)即使用MF函數(shù)的IWPCMF算法,在DIP數(shù)據(jù)庫獨立執(zhí)行20次進行復(fù)合物的識別,實驗檢測結(jié)果對比分析如圖6所示。
圖6 顯示的是使用優(yōu)化的模塊度函數(shù)FMF 的IWPC-MF算法在precision、recall、F-measure 取值和匹配的蛋白質(zhì)復(fù)合物比例與未使用該優(yōu)化函數(shù)即使用MF函數(shù)的對比情況,其中使用FMF的precision 的取值比使用MF函數(shù)提高6.73%,recall 的取值比使用MF函數(shù)提高7.80%,F(xiàn)-measure 的取值比使用MF 函數(shù)提高7.40%,匹配的蛋白質(zhì)復(fù)合物比使用MF函數(shù)提高6.73%。這是因為,本文根據(jù)使用FMF 函數(shù)來對初始模塊進行合并,充分考慮網(wǎng)絡(luò)的拓?fù)涮匦砸约盎虮磉_程度的同時,也考慮到復(fù)合物的重疊性以及復(fù)合物規(guī)模較小的性質(zhì),使得挖掘的復(fù)合物較準(zhǔn)確,避免存在較高比例的復(fù)合物之間功能相似的模塊,實驗結(jié)果說明,使用FMF函數(shù)的算法的聚類效果較優(yōu)。
圖5 蛋白質(zhì)邊權(quán)重的準(zhǔn)確性對比分析
在PPI 網(wǎng)絡(luò)中,通過對蛋白質(zhì)復(fù)合物的結(jié)構(gòu)分析,可以發(fā)現(xiàn)多數(shù)蛋白質(zhì)復(fù)合物的規(guī)模較小[13];而且同一個蛋白質(zhì)可能屬于不同功能的復(fù)合物,這些蛋白質(zhì)往往具有多個生物功能,即蛋白質(zhì)復(fù)合物之間可能會存在重疊。
圖6 優(yōu)化的模塊度函數(shù)的對比分析
在標(biāo)準(zhǔn)408個復(fù)合物中,根據(jù)文獻[13]的記錄,標(biāo)準(zhǔn)復(fù)合物實際體積大于20 的只有不到10 個,半數(shù)以上的蛋白質(zhì)復(fù)合物體積不大于3。為了驗證本文識別蛋白質(zhì)復(fù)合物的改進方法對規(guī)模較小復(fù)合物的識別能力,采用復(fù)合物體積來表示復(fù)合物中包含的蛋白質(zhì)的個數(shù),具體的蛋白質(zhì)復(fù)合物體積分布直方圖如圖7所示。
圖7 蛋白質(zhì)復(fù)合物體積分布直方圖
從圖7可以看出,利用本文改進的方法檢測到的體積大于21的不到9個,但是半數(shù)以上的復(fù)合物的體積不大于6。這說明多數(shù)蛋白質(zhì)復(fù)合物的規(guī)模較小,且本文改進的方法可以識別出規(guī)模較小的復(fù)合物。
圖8 蛋白質(zhì)復(fù)合物體積分布直方圖
從圖8可以看出蛋白質(zhì)復(fù)合物的重疊分布情況,其中重疊的蛋白質(zhì)個數(shù)為2個和3個的蛋白質(zhì)復(fù)合物數(shù)目最多,分別達到了124個和121,分別占本文識別的374個復(fù)合物的33.16%和32.35%。從圖7和圖8可知,本文改進的方法對規(guī)模較小和重疊蛋白質(zhì)復(fù)合物的識別能力較優(yōu)。這是因為本文綜合考慮網(wǎng)絡(luò)的拓?fù)涮匦潞蜕锾匦裕约笆褂没诰o密度的改進的模塊度函數(shù)來合并初始模塊,能夠識別出重疊和規(guī)模較小的復(fù)合物。
本節(jié)將IWPC-MF 算法分別從精度、召回率和F-measure 的比較分析、聚類效果的比較分析和功能富集的比較分析與GENA[5]、WCOACH[6]、IMHRC[7]、ICMDS[9]、OCG[12]、BMM[13]、ADM[14]、BN-LGQ[15]算法進行比較分析。重復(fù)迭代次數(shù)20次。實驗使用到的參數(shù)設(shè)置δ=0.2。
(1)精度、召回率和F-measure 的比較分析
為了驗證本文算法的性能,將IWPC-MF 算法與其他8種算法在DIP數(shù)據(jù)上獨立運行20次,取實驗結(jié)果的平均值進行分析,得到各個算法識別的復(fù)合物基本信息以及實驗評價指標(biāo)對比分析如表2和圖9所示。
表2 各算法識別的復(fù)合物的基本信息
圖9 算法性能比較關(guān)系圖
在表2 中,PM 表示算法識別出的復(fù)合物總數(shù),average 是指每個簇中的蛋白質(zhì)平均個數(shù)。由表2可以知道,IWPC-MF 算法共識別374 個復(fù)合物,每個復(fù)合物平均包含13.5 個蛋白質(zhì),其中245 個預(yù)測結(jié)果較準(zhǔn)確,標(biāo)準(zhǔn)集合中的156個復(fù)合物可以被算法準(zhǔn)確識別到,是所有算法中識別匹配最多的。這是因為IWPC-MF算法在構(gòu)建加權(quán)蛋白質(zhì)網(wǎng)絡(luò)的時候不僅考慮了蛋白質(zhì)網(wǎng)絡(luò)本身的拓?fù)涮匦裕€考慮到蛋白質(zhì)之間的基于共表達程度,這樣降低了假陽性和噪聲數(shù)據(jù)對實驗結(jié)果產(chǎn)生的負(fù)面影響;同時利用優(yōu)化后的模塊度函數(shù)合并初始模塊時,充分考慮蛋白質(zhì)復(fù)合物之間的重疊性以及大多數(shù)復(fù)合物規(guī)模較小的特性,這樣可以提高識別的準(zhǔn)確性。因此,本文提出的IWPC-MF算法的挖掘效果較好。
圖9顯示了各種算法在DIP數(shù)據(jù)集中識別的復(fù)合物的結(jié)果。從圖中可以清晰地發(fā)現(xiàn)IWPC-MF 算法在精度、召回率和F 度量指標(biāo)上取得較好的結(jié)果。具體來說,IWPC-MF 算法的精度為65.51%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BNLGQ 算法分別提高了39.69%、57.75%、14.17%、3.74%、43.93%、40.44%、44.66%和40.67%;召回率為38.24%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BN-LGQ 算法分別提高了79.31%、90.24%、52.94%、8.33%、65.96%、59.18%、83.53%和54.46%;F 值度量為48.29%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、ADM 和BN-LGQ 算法分別提高了64.71%、78.27%、38.65%、6.64%、57.84%、52.27%、69.21%和49.38%。實驗結(jié)果表明,使用本文算法挖掘蛋白質(zhì)復(fù)合物的聚類精度、召回率和F-measure 相比較其他8種算法都得到了提高。這是因為,在GENA算法中,使用貪婪方法初始化集群,在聚類系數(shù)的基礎(chǔ)上選取種子節(jié)點,僅僅考慮了網(wǎng)絡(luò)的拓?fù)涮匦裕诰虻男Ч嬖诖罅康闹丿B模塊;在WCOACH 算法中,僅僅利用GO 信息來構(gòu)建加權(quán)網(wǎng)絡(luò),缺乏考慮蛋白質(zhì)網(wǎng)絡(luò)本身的拓?fù)涮匦砸约疤卣?,且在聚類的時候,若選取的核心節(jié)點較為相似,則會挖掘出大量重疊的模塊,最終導(dǎo)致挖掘的準(zhǔn)確性降低;在IMHRC算法中,構(gòu)建加權(quán)PPI網(wǎng)絡(luò)時,僅僅考慮節(jié)點度即網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),沒有融合生物信息,考慮構(gòu)建的加權(quán)PPI 網(wǎng)絡(luò)比較單一,使得挖掘聚類效果不佳。在ICMDS 算法中,基于邊聚集系數(shù)和皮爾遜相關(guān)系數(shù),在計算相互作用的功能相似性時引入了自定義的參數(shù),導(dǎo)致挖掘效果受參數(shù)的影響比較大;在OCG、BMM、ADM和BN-LGQ算法中,僅僅只考慮網(wǎng)絡(luò)的拓?fù)涮匦远纯紤]生物信息以及難以識別出重疊和規(guī)模較小的復(fù)合物。而本文是綜合考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和生物基因表達信息,基于邊點聚集系數(shù)和皮爾遜相關(guān)系數(shù)來構(gòu)建加權(quán)網(wǎng)絡(luò);同時根據(jù)節(jié)點權(quán)重選擇種子節(jié)點,遍歷種子節(jié)點的鄰域,利用蛋白附著度來形成初始模塊;最后利用改進的模塊度函數(shù)合并有重疊的模塊,可以較為精確和快速地挖掘出蛋白質(zhì)復(fù)合物。因此,本文提出的算法的聚類效果較好。
(2)聚類效果的比較分析
為了評估本文提出的IWPC-MF 算法的聚類效果,將本文算法與其他8種算法挖掘的Elongator holoenzyme復(fù)合物可視化,對比分析聚類效果,聚類聚類結(jié)果的對比如圖10所示。
圖10 各個算法的復(fù)合物挖掘可視化比較圖
圖10 顯示了不同算法檢測到的Elongator holoenzyme復(fù)合物結(jié)果,圖(a)是該標(biāo)準(zhǔn)復(fù)合物所包含的蛋白質(zhì)相互作用情況;圖(b)是本文算法的檢測結(jié)果;圖(c)是GENA 算法的檢測結(jié)果;圖(d)是算法WCOACH 的檢測結(jié)果;圖(e)是IMHRC算法的檢測結(jié)果;圖(f)是算法ICMDS的檢測結(jié)果;圖(g)是OCG算法的檢測結(jié)果;圖(h)是BMM算法的檢測結(jié)果;圖(i)是ADM算法的檢測結(jié)果;圖(j)是BN-LGQ 算法的檢測結(jié)果。通過圖10顯示,本文算法能夠準(zhǔn)確地識別蛋白質(zhì)復(fù)合物;GENA算法識別出標(biāo)準(zhǔn)復(fù)合物中的6個蛋白質(zhì),但是也包含了2 個非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);算法WCOACH 識別出標(biāo)準(zhǔn)復(fù)合物中的5 個蛋白質(zhì);算法IMHRC識別出標(biāo)準(zhǔn)復(fù)合物中的6個蛋白質(zhì),但是也包含了3 個非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);ICMDS算法也正確識別出標(biāo)準(zhǔn)復(fù)合物中的6個蛋白質(zhì);OCG 算法識別出標(biāo)準(zhǔn)復(fù)合物,但是也包含了4 個非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì);BMM算法識別出標(biāo)準(zhǔn)復(fù)合物中的6 個蛋白質(zhì),但是也包含了5 個非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì);ADM算法識別出標(biāo)準(zhǔn)復(fù)合物中的6 個蛋白質(zhì),但是包含了4 個非Elongator holoenzyme 復(fù)合物內(nèi)的蛋白質(zhì);BN-LGQ 算法識別出標(biāo)準(zhǔn)復(fù)合物中的6 個蛋白質(zhì),但是也包含了1個非Elongator holoenzyme復(fù)合物內(nèi)的蛋白質(zhì)。實驗結(jié)果表明,本文算法挖掘的蛋白質(zhì)復(fù)合物聚類效果較好。這是因為,本文通過蛋白質(zhì)網(wǎng)絡(luò)的拓?fù)涮匦院突虮磉_信息來構(gòu)建加權(quán)網(wǎng)絡(luò),可以降低假陽性和噪聲數(shù)據(jù)的負(fù)面影響;同時根據(jù)節(jié)點權(quán)重選擇種子節(jié)點,遍歷種子節(jié)點的鄰域,利用蛋白質(zhì)附著度來形成初始模塊,綜合考慮蛋白質(zhì)復(fù)合物是稠密且內(nèi)部緊密連接的特性,以及蛋白質(zhì)復(fù)合物成簇出現(xiàn)和高度共表達的特性;將得到的初始模塊利用改進的模塊度函數(shù)進行合并,充分考慮到蛋白質(zhì)復(fù)合物的重疊性以及規(guī)模較小的特性,同時也避免算法重復(fù)的挖掘過程。實驗結(jié)果表明,本文算法在識別蛋白質(zhì)復(fù)合物上具有較好的聚類效果。
(3)功能富集的比較分析
為了測試算法識別的復(fù)合物的生物學(xué)意義,采用復(fù)合物的低P-value 值的功能富集分析。 P-value 值越小表明該復(fù)合物具有很高的統(tǒng)計學(xué)意義。若一個模塊的P-value <0.01,則認(rèn)為這個復(fù)合物是顯著的[29]。顯著的復(fù)合物數(shù)量在識別出的復(fù)合物總數(shù)中所占的比例可以很好地評價各個算法的整體性。具體各個算法性能比較如表3所示。
表4 IWPC-MF算法識別的復(fù)合物實例
表3 各個算法識別的復(fù)合物的顯著性統(tǒng)計信息
在表3中,PM 表示算法識別出的復(fù)合物總數(shù),SC表示具有生物顯著意義的蛋白質(zhì)復(fù)合物數(shù)目。IWPCMF算法識別的復(fù)合物數(shù)目中顯著性復(fù)合物的比例達到85.29%,相比較GENA、WCOACH、IMHRC、ICMDS、OCG、BMM、AD 和BN-LGQ 算法分別提高了83.22%、14.81%、73.42%、3.19%、82.24%、70.58%、77.28%和53.62%。由此可見,IWPC-MF 算法識別出的復(fù)合物具有很強的生物統(tǒng)計學(xué)意義。這是因為本文算法在構(gòu)建加權(quán)網(wǎng)絡(luò)的時候,綜合考慮網(wǎng)絡(luò)的拓?fù)涮匦院突蚬脖磉_程度,同時根據(jù)蛋白質(zhì)附著度利用種子節(jié)點形成初始模塊,最后綜合考慮復(fù)合物的重疊性和規(guī)模較小的性質(zhì),利用基于緊密度的模塊度函數(shù)實現(xiàn)復(fù)合物的挖掘。最終導(dǎo)致聚類效果較好,執(zhí)行效率高,挖掘的生物蛋白質(zhì)復(fù)合物更具有生物統(tǒng)計意義。
表4具體給出本文IWPC-MF算法識別出的復(fù)合物實例,其中OA 表示算法識別復(fù)合物的匹配率,OM 表示的是正確匹配的蛋白質(zhì)個數(shù),Predicted protein 表示組成復(fù)合物的所有蛋白質(zhì),加粗部分表示被匹配的蛋白質(zhì)。從表4 可以看出,當(dāng)P-value=2.22E-18 時,本文算法識別的NatC 復(fù)合物的匹配率達到了0.82,正確匹配的蛋白質(zhì)個數(shù)是9,這是因為YGR134W和YNL288W蛋白質(zhì)與復(fù)合物內(nèi)部連接比較松散。由此可見,IWPCMF算法識別的蛋白質(zhì)復(fù)合物效果更好。
本文在結(jié)合邊點聚集系數(shù)與基因表達數(shù)據(jù)構(gòu)建的加權(quán)蛋白質(zhì)網(wǎng)絡(luò)基礎(chǔ)上,提出一種基于模塊度函數(shù)的加權(quán)蛋白質(zhì)復(fù)合物識別算法IWPC-MF。基于節(jié)點權(quán)重選取種子節(jié)點,遍歷種子的鄰居節(jié)點,設(shè)計節(jié)點間的相似度度量和蛋白質(zhì)附著度來獲取初始聚類模塊;設(shè)計基于緊密度的蛋白質(zhì)復(fù)合物模塊度函數(shù)來合并初始模塊,并最終完成復(fù)合物的識別。為了評估算法的性能,本文將IWPC-MF算法與其他8種算法進行了對比,實驗結(jié)果表明,IWPC-MF 算法具有更高的準(zhǔn)確率、召回率,識別的復(fù)合物具有更強的生物統(tǒng)計意義。今后可以將IWPC-MF算法應(yīng)用于疾病預(yù)測和關(guān)鍵蛋白質(zhì)識別等相關(guān)研究中。