萬(wàn) 杰, 武子惠, 彭雨萱, 李 羚, 李子正, 丁彥蕊
(江南大學(xué) 理學(xué)院信息與計(jì)算科學(xué)系,江蘇, 無(wú)錫 214122)
識(shí)別關(guān)鍵蛋白質(zhì)對(duì)疾病治療、藥物設(shè)計(jì)等領(lǐng)域有重要作用。生物實(shí)驗(yàn)方法確定關(guān)鍵蛋白質(zhì)具有實(shí)驗(yàn)周期長(zhǎng)、成本高和研究成功率低等弊端。借助計(jì)算機(jī)技術(shù)識(shí)別關(guān)鍵蛋白質(zhì)越來(lái)越成為生物研究方法的有效輔助,尤其體現(xiàn)在從復(fù)雜的蛋白質(zhì)-蛋白質(zhì)相互作用(protein protein interaction, PPI)中確定關(guān)鍵蛋白質(zhì)方面。結(jié)合復(fù)雜網(wǎng)絡(luò)理論來(lái)分析PPI網(wǎng)絡(luò)[1],通過(guò)PPI網(wǎng)絡(luò)的拓?fù)涮卣髯R(shí)別關(guān)鍵蛋白質(zhì)是研究蛋白質(zhì)功能的有效方法。
在PPI網(wǎng)絡(luò)中,每個(gè)蛋白質(zhì)是網(wǎng)絡(luò)的1個(gè)節(jié)點(diǎn),蛋白質(zhì)間的相互作用是網(wǎng)絡(luò)的邊。為了識(shí)別關(guān)鍵蛋白質(zhì)節(jié)點(diǎn),Jeong等人[2]提出了中心性-致死性法則,指出蛋白質(zhì)節(jié)點(diǎn)在網(wǎng)絡(luò)中的中心性越高,成為關(guān)鍵蛋白質(zhì)的可能性越大?;谠摲▌t,較多學(xué)者將復(fù)雜網(wǎng)絡(luò)中的一系列節(jié)點(diǎn)重要性排序算法[3-5]用于研究蛋白質(zhì)的重要性,例如,Hahn等人通過(guò)度中心性(degree centrality, DC)[6]發(fā)現(xiàn)3種真核蛋白質(zhì)相互作用網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì);Joy等人將介數(shù)中心性 (betweenness centrality, BC)[7]應(yīng)用到酵母菌蛋白質(zhì)相互作用網(wǎng)絡(luò)中;Manimaran等人將度中心性、介數(shù)中心性和接近中心性 (closeness centrality, CC)[8]用于分析基因網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)。不同的節(jié)點(diǎn)重要性指標(biāo)分別從不同角度衡量節(jié)點(diǎn)的重要性。度中心性是基于節(jié)點(diǎn)鄰居的排序方法,介數(shù)中心性和接近中心性是基于最短路徑的排序方法,特征向量中心性( eigenvector centrality, EC)是基于特征向量的排序方法[9],k-殼分解法(k-shell)是基于節(jié)點(diǎn)位置的排序方法[10-14]。由于采用不同的衡量指標(biāo)可以獲得互補(bǔ)的信息,因此,綜合考慮以上5種指標(biāo)是有必要的。本文以Nature期刊報(bào)道的Gavin、Babu、Krogan(LCMS)和Krogan(MALDI) 4種酵母菌PPI網(wǎng)絡(luò)為研究對(duì)象[15-17],采取度中心性、介數(shù)中心性、接近中心性、特征向量中心性以及k-殼分解法這5種節(jié)點(diǎn)重要性評(píng)估指標(biāo),對(duì)PPI網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行重要性排序,挖掘關(guān)鍵蛋白質(zhì)。
通過(guò)中心性指標(biāo),本文篩選出了4種網(wǎng)絡(luò)中的關(guān)鍵蛋白質(zhì),并構(gòu)建了關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng)。為了進(jìn)一步篩選出子網(wǎng)中緊密關(guān)聯(lián)的關(guān)鍵蛋白質(zhì)對(duì),引入杰卡德相似度指標(biāo)(Jaccard index)[15],計(jì)算分析子網(wǎng)中的關(guān)鍵蛋白質(zhì)之間的相似性,得到拓?fù)浣Y(jié)構(gòu)相似的關(guān)鍵蛋白質(zhì)對(duì),并獲得核心子網(wǎng)以發(fā)現(xiàn)不同的酵母菌 PPI 網(wǎng)絡(luò)中蛋白質(zhì)相互作用的異同。
本文使用了4個(gè)高質(zhì)量的酵母菌PPI網(wǎng)絡(luò)作為研究對(duì)象[15-17],分別為Gavin、Babu、Krogan(LCMS)和Krogan(MALDI)酵母菌PPI網(wǎng)絡(luò)。Gavin網(wǎng)絡(luò)是第1個(gè)全基因組水平上的PPI網(wǎng)絡(luò),包含有膜蛋白質(zhì)的相互作用。Babu網(wǎng)絡(luò)是膜蛋白相互作用網(wǎng)絡(luò),包含有1 726個(gè)膜蛋白質(zhì)的相互作用。LCMS和MALDI網(wǎng)絡(luò)來(lái)自Krogan等的研究,MALDI網(wǎng)絡(luò)采用MALDI-TOF質(zhì)譜方法測(cè)定,共有2 708個(gè)蛋白質(zhì)的7 123個(gè)相互作用。LCMS通過(guò)LC-MS/MS方法測(cè)定,網(wǎng)絡(luò)中含有更多的小蛋白質(zhì)。
針對(duì)上述4種酵母菌PPI網(wǎng)絡(luò),通過(guò)度中心性、介數(shù)中心性、接近中心性、特征向量中心性和k-殼分解法這5個(gè)指標(biāo)對(duì)關(guān)鍵蛋白質(zhì)進(jìn)行識(shí)別。
介數(shù)中心性是用最短路徑的思想對(duì)圖進(jìn)行評(píng)價(jià)的一種度量。對(duì)于酵母菌PPI網(wǎng)絡(luò)中的每一對(duì)節(jié)點(diǎn),在節(jié)點(diǎn)之間至少存在一條最短路徑,使得路徑通過(guò)的邊數(shù)(未加權(quán)圖)或者邊權(quán)重的和(加權(quán)圖)最小。酵母菌PPI網(wǎng)絡(luò)節(jié)點(diǎn)的介數(shù)中心性即為經(jīng)過(guò)該節(jié)點(diǎn)的最短路徑的數(shù)量。介數(shù)中心性反映了某節(jié)點(diǎn)在圖中的關(guān)鍵程度,某節(jié)點(diǎn)的介數(shù)中心性越大,意味著該節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)中越重要。對(duì)于一個(gè)節(jié)點(diǎn)i,其介數(shù)中心性計(jì)算式為:
接近中心性用于發(fā)現(xiàn)可通過(guò)圖高效傳播信息的節(jié)點(diǎn)。對(duì)于每個(gè)酵母菌PPI網(wǎng)絡(luò)的蛋白質(zhì)節(jié)點(diǎn),在計(jì)算所有節(jié)點(diǎn)對(duì)之間的最短路徑的基礎(chǔ)上,再計(jì)算它到其他各節(jié)點(diǎn)的最短路徑之和,然后對(duì)得到的和求倒數(shù),得到節(jié)點(diǎn)的接近中心性數(shù)值。節(jié)點(diǎn)的接近中心性計(jì)算公式為:
其中:u為待計(jì)算接近中心性的節(jié)點(diǎn),v為圖中除u外的任意一個(gè)節(jié)點(diǎn),d(u,v)表示節(jié)點(diǎn)u和節(jié)點(diǎn)v的最短路徑。
特征向量中心性是基于網(wǎng)絡(luò)鄰接矩陣的特征向量和特征值的概念衡量重要性的方法。它表明1個(gè)節(jié)點(diǎn)的重要性既取決于其鄰居節(jié)點(diǎn)的數(shù)量,也取決于其鄰居節(jié)點(diǎn)的重要性。與之相連的鄰居節(jié)點(diǎn)越重要,則該節(jié)點(diǎn)就越重要。特征向量中心性的計(jì)算公式為:
其中,c為比例常數(shù),xi表示網(wǎng)絡(luò)中節(jié)點(diǎn)i的重要性,N為網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù),aij等于1當(dāng)且僅當(dāng)節(jié)點(diǎn)i 與j相連,否則為0。
村小在李打油眼里,是李灣唯一的最高學(xué)府。帶我去報(bào)到那天,他當(dāng)著全校師生鄭重宣布,學(xué)?!敖桢X做衫褲——一身是債”的日子一去不復(fù)返啦!而且,當(dāng)場(chǎng)給每位師生發(fā)一套服裝。我記得很清楚,當(dāng)時(shí)有二百五十三個(gè)學(xué)生,十九位老師,無(wú)論男女、師生,一律的白襯衣藍(lán)長(zhǎng)褲。是的確良的,大家都美滋滋地叫真涼快。
k-殼分解法迭代地移除度值低于k的節(jié)點(diǎn),直到所有剩余節(jié)點(diǎn)的度值至少為k。根據(jù)連接到的剩余節(jié)點(diǎn)的數(shù)量,為每個(gè)步驟移除的節(jié)點(diǎn)分配“殼指數(shù)”或“k-殼指數(shù)”。因此,具有高殼層索引的節(jié)點(diǎn)與網(wǎng)絡(luò)中的剩余節(jié)點(diǎn)高度連接,對(duì)于維持網(wǎng)絡(luò)的整體連接性和結(jié)構(gòu)非常重要,對(duì)網(wǎng)絡(luò)的行為和功能具有更大的影響力。
相關(guān)研究表明,度中心性指標(biāo)篩選關(guān)鍵節(jié)點(diǎn)時(shí)在大規(guī)模網(wǎng)絡(luò)中應(yīng)用受限;介數(shù)中心性無(wú)法準(zhǔn)確區(qū)分不在最短路徑上的節(jié)點(diǎn)重要性;接近中心性對(duì)于大型網(wǎng)絡(luò)計(jì)算時(shí)間復(fù)雜度較高;特征向量中心性篩選的網(wǎng)絡(luò)收斂速度較慢,傾向于關(guān)注節(jié)點(diǎn)在網(wǎng)絡(luò)中的局部結(jié)構(gòu);k-殼分解法對(duì)同層的節(jié)點(diǎn)的重要程度無(wú)法區(qū)分。因此,本研究采用綜合5種節(jié)點(diǎn)中心性評(píng)估指標(biāo)的方法來(lái)篩選關(guān)鍵節(jié)點(diǎn)。計(jì)算每個(gè)網(wǎng)絡(luò)的節(jié)點(diǎn)的度中心性、介數(shù)中心性、接近中心性、特征向量中心性和k-殼分解值,發(fā)現(xiàn)4種酵母菌PPI網(wǎng)絡(luò)的k-殼分解中k值達(dá)到上百層,說(shuō)明蛋白質(zhì)網(wǎng)絡(luò)中存在相當(dāng)多層級(jí)結(jié)構(gòu),并且有一些高度連接的核心節(jié)點(diǎn)。因此,在通過(guò)不斷嘗試后認(rèn)為選取前4種中心性指標(biāo)降序排列后都處于前2%,且k殼位于內(nèi)10層的節(jié)點(diǎn)為關(guān)鍵節(jié)點(diǎn)較為合適,便于研究分析,并將由所有關(guān)鍵節(jié)點(diǎn)構(gòu)成的網(wǎng)絡(luò)作為關(guān)鍵子網(wǎng)。
為了篩選出關(guān)鍵子網(wǎng)中緊密聯(lián)系的關(guān)鍵蛋白質(zhì)對(duì),本文引入了杰卡德相似度指標(biāo)。杰卡德相似度指標(biāo)是一種常用于數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和網(wǎng)絡(luò)分析的相似性度量,用于比較網(wǎng)絡(luò)中兩組數(shù)據(jù)或2個(gè)節(jié)點(diǎn)的相似性。在PPI網(wǎng)絡(luò)中,由于高度連接的蛋白質(zhì)通常有更多共同的相鄰邊,因此,杰卡德相似度指標(biāo)可基于2種蛋白質(zhì)相互作用的其他蛋白質(zhì)的數(shù)量來(lái)測(cè)量2種蛋白質(zhì)之間的相似性。杰卡德相似度指標(biāo)的計(jì)算公式如下:
J(A,B)=|A∩B|/|A∪B|
若a、b 為酵母菌PPI網(wǎng)絡(luò)中的2個(gè)蛋白質(zhì),A表示基于與蛋白質(zhì)a相互作用的其他蛋白質(zhì)的集合,B表示基于與蛋白質(zhì)b相互作用的其他蛋白質(zhì)的集合,∩表示共同基于與a、b 2個(gè)蛋白質(zhì)相互作用的蛋白質(zhì)數(shù)量,∪表示基于與a、b 2個(gè)蛋白質(zhì)相互作用的所有蛋白質(zhì)數(shù)量。通過(guò)杰卡德相似度指標(biāo)計(jì)算并分析關(guān)鍵蛋白質(zhì)之間的相似性,以獲得關(guān)鍵的節(jié)點(diǎn)對(duì)。
本文對(duì)Gavin、Babu、LCMS和MALDI 4種酵母菌PPI網(wǎng)絡(luò)進(jìn)行度中心性、介數(shù)中心性、接近中心性、特征向量中心性、k-殼分解法5個(gè)指標(biāo)的計(jì)算,獲得前4種中心性指標(biāo)處于前2%和k殼位于內(nèi)10層的節(jié)點(diǎn),并將此作為關(guān)鍵蛋白質(zhì)篩選條件。
隨后提取網(wǎng)絡(luò)中滿足關(guān)鍵蛋白質(zhì)篩選條件的節(jié)點(diǎn),并分析酵母菌PPI網(wǎng)絡(luò)之間共有的關(guān)鍵蛋白質(zhì),發(fā)現(xiàn)不存在4個(gè)PPI網(wǎng)絡(luò)共有的蛋白質(zhì),但3個(gè)PPI網(wǎng)絡(luò)中存在共有的關(guān)鍵蛋白質(zhì),見(jiàn)韋恩圖(Fig.1)。由Fig.1顯示,在Babu、MALDI、LCMS網(wǎng)絡(luò)中以及在Gavin、MALDI、LCMS網(wǎng)絡(luò)中各共有1個(gè)關(guān)鍵蛋白質(zhì);在Babu、Gavin、MALD網(wǎng)絡(luò)中共有5個(gè)關(guān)鍵蛋白質(zhì);Gavin、Babu、LCMS未見(jiàn)共有的關(guān)鍵蛋白質(zhì)。
Fig.1 Venn diagram of the distribution of essential proteins shared between the three yeast PPI networks Each color represents a network, and the overlapping parts of the different colors represent essential proteins shared by the different networks
進(jìn)一步構(gòu)建關(guān)鍵蛋白質(zhì)子網(wǎng),結(jié)果正如Fig.2 A-D。分析結(jié)果表明,Babu、MALDI、LCMS網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)為YOR204W;Gavin、MALDI、LCMS網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)為YER165W;Babu、Gavin、MALDI網(wǎng)絡(luò)中共有的關(guān)鍵蛋白質(zhì)則有5個(gè),它們分別是YOR063W、YPL198W、YGL076C、YDR012W和YBR031W。結(jié)合關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng)分析發(fā)現(xiàn)(Fig.2),它們的連接性和中心性較高,均占據(jù)著網(wǎng)絡(luò)的重要位置,是網(wǎng)絡(luò)中信息流動(dòng)的關(guān)鍵樞紐。
Fig.2 The subnetworks of essential proteins of the four yeast PPI network Orange, red, and green represent essential proteins that are repeated in different networks
對(duì)Fig.2中關(guān)鍵蛋白質(zhì)構(gòu)成的子網(wǎng),本文通過(guò)計(jì)算關(guān)鍵蛋白質(zhì)之間的杰卡德相似度指標(biāo),選取閾值在0.55以上的蛋白質(zhì)對(duì),獲得了拓?fù)浣Y(jié)構(gòu)相似的關(guān)鍵蛋白質(zhì)對(duì),這些關(guān)鍵蛋白質(zhì)對(duì)構(gòu)成酵母菌PPI網(wǎng)絡(luò)的核心子網(wǎng)。
Fig.3分別是Gavin, Babu, LCMS和MALDI 4種酵母菌PPI網(wǎng)絡(luò)的核心子網(wǎng)。
Fig.3 The core subnetworks of the four yeast PPI network The edge between the nodes indicates the Jaccard index above 0.55 between the two proteins
對(duì)于Gavin網(wǎng)絡(luò),由Fig.3 A顯示:YGL076C、YPL131W、YPL198W、 YLR340W、YOR312C和YBR031W構(gòu)成了一個(gè)聯(lián)系緊密的關(guān)鍵蛋白質(zhì)組,而YLL024C和YDL229W為另一組,將前一組稱為Gavin核心蛋白質(zhì)組1,簡(jiǎn)寫為Gavin-EPG 1(essential protein group),后一組稱為Gavin-EPG 2。
對(duì)于Babu網(wǎng)絡(luò),由Fig.3 B顯示:YBR031W、 YPL198W、YPL249C-A、YLR448W、YGL030W、YIL133C、YLR029C、YGL076C、YDR471W、 YOR063W、YML073C、YIL018W、和YMR242C是一組聯(lián)系緊密的蛋白質(zhì)組,YNL132W、YHR203C、YBR048W、YBL072C和YJR145C 為另一組,前一組稱為Babu-EPG 1,后一組稱為Babu-EPG 2。
對(duì)于LCMS網(wǎng)絡(luò),由Fig.3 C的結(jié)果表明:YDR064W、YGR027C、YBR181C、YOL040C、YNL302C、YOR096W、YDR174W和YHL015W是一組相互作用很強(qiáng)的蛋白質(zhì)組,稱為L(zhǎng)CMS-EPG。
對(duì)于MALDI網(wǎng)絡(luò),由Fig.3 D的結(jié)果顯示:YGL076W、YPL198W、YLL045C、YOR063W、YBR031W、YDR012W、YMR229C和YDL014W是一組相互作用很強(qiáng)的蛋白質(zhì)組,稱為MALDI-EPG。
這些核心蛋白質(zhì)組中的蛋白質(zhì)間有著緊密連接,處在網(wǎng)絡(luò)中的核心地位,它們共同作用影響著網(wǎng)絡(luò)的穩(wěn)定性。
通過(guò)Fig.2的結(jié)果發(fā)現(xiàn),YOR204W、YER165W、YOR063W、YPL198W、YGL076C、YDR012W和YBR031W是不同網(wǎng)絡(luò)共有的關(guān)鍵蛋白質(zhì),其功能見(jiàn)Table 1。
從Table 1可知,Babu、MALDI、LCMS共有的關(guān)鍵蛋白質(zhì)是依賴ATP的RNA解旋酶,Gavin、MALDI、LCMS共有的關(guān)鍵蛋白質(zhì)是PolyA的結(jié)合蛋白質(zhì),Babu、Gavin、MALD網(wǎng)絡(luò)共有的5個(gè)關(guān)鍵蛋白質(zhì)都是核糖體60S大亞基的組成蛋白質(zhì)。這些關(guān)鍵蛋白質(zhì)都參與了蛋白質(zhì)合成過(guò)程中將mRNA轉(zhuǎn)化為多肽鏈[24]。
通過(guò)2.2節(jié)分析發(fā)現(xiàn),Gavin和Babu網(wǎng)絡(luò)各有2個(gè)核心蛋白質(zhì)組Gavin-EPG 1和Gavin-EPG 2,Babu-EPG 1和Babu-EPG 2;LCMS和MALDI網(wǎng)絡(luò)各有1個(gè)核心蛋白質(zhì)組LCMS-EPG和MALDI-EPG,具體結(jié)果見(jiàn)Table 2。
Table 2的結(jié)果表明,Gavin-EPG 1和Babu-EPG 1全部由屬于大亞基的核糖體蛋白質(zhì)組成。盡管這些蛋白質(zhì)都是細(xì)胞質(zhì)核糖體蛋白質(zhì),但是不同的核糖體蛋白質(zhì)在不同的酵母菌PPI網(wǎng)絡(luò)中形成了不同的核心蛋白質(zhì)組。Gavin-EPG 2是由細(xì)胞質(zhì)ATP酶和HSP70家族ATP-結(jié)合蛋白質(zhì)構(gòu)成,2個(gè)蛋白質(zhì)都參與新生肽鏈的折疊[25]。Babu-EPG 2中除了YNL132W,其他都是屬于小亞基的核糖體蛋白質(zhì),LCMS-EPG中除了YDR174W,其他也都屬于小亞基的核糖體蛋白質(zhì)。YNL132W是小核糖體亞基生物發(fā)生所必需的乙酰轉(zhuǎn)移酶[26],YDR174W是染色質(zhì)相關(guān)高遷移基團(tuán)((high-mobility group,HMG)家族成員,其對(duì)染色質(zhì)的組裝很重要[27]。MALDI-EPG中除了屬于大亞基的核糖體蛋白質(zhì),還有YMR229C和YDL014W,前者是DNA結(jié)合蛋白質(zhì),參與18S和5.8S rRNAs的合成[28],后者是組蛋白谷氨酰胺甲基轉(zhuǎn)移酶,參與pre-18S rRNA的加工[29]。
Table 1 Essential proteins and their functions
Table 2 The core protein groups
To the next page
Continued Table 2
本文對(duì)4個(gè)酵母菌PPI網(wǎng)絡(luò)進(jìn)行了關(guān)鍵蛋白質(zhì)和核心蛋白質(zhì)組的識(shí)別,發(fā)現(xiàn)不同酵母菌PPI網(wǎng)絡(luò)中共有的7個(gè)關(guān)鍵蛋白質(zhì)和6個(gè)核心蛋白質(zhì)組,這些關(guān)鍵蛋白質(zhì)均在將mRNA轉(zhuǎn)化為多肽鏈的過(guò)程中發(fā)揮著重要作用。通過(guò)采用5種節(jié)點(diǎn)重要性排序算法識(shí)別關(guān)鍵蛋白質(zhì),本文能夠準(zhǔn)確捕捉到蛋白質(zhì)在網(wǎng)絡(luò)中的位置和影響力,成功識(shí)別出在維持網(wǎng)絡(luò)功能和結(jié)構(gòu)穩(wěn)定性方面起關(guān)鍵作用的蛋白質(zhì)。面對(duì)大規(guī)模蛋白質(zhì)相互作用網(wǎng)絡(luò)的分析,本文能夠高效地篩選出潛在的重要蛋白質(zhì)。通過(guò)杰卡德相似度指標(biāo)識(shí)別核心蛋白質(zhì)組,本文能夠比較蛋白質(zhì)間的相似性與差異性,捕捉到具有高相似性的蛋白質(zhì)組成員。然而,本研究忽略了蛋白質(zhì)的生物學(xué)特征和功能信息,僅基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)來(lái)進(jìn)行分析,可能遺漏了一些在生物學(xué)上具有重要功能的蛋白質(zhì)。
本文揭示了關(guān)鍵蛋白質(zhì)在細(xì)胞代謝和調(diào)控中的關(guān)鍵作用,并構(gòu)建了關(guān)鍵蛋白質(zhì)對(duì)應(yīng)的核心蛋白質(zhì)組,為進(jìn)一步研究這4個(gè)酵母菌PPI網(wǎng)絡(luò)提供了具體的蛋白質(zhì)組合。這些關(guān)鍵蛋白質(zhì)和核心蛋白質(zhì)組為深入研究核糖體上蛋白質(zhì)相互作用對(duì)肽鏈合成和折疊的影響提供了重要的理論基礎(chǔ)。
中國(guó)生物化學(xué)與分子生物學(xué)報(bào)2024年4期