丁霞,張曉飛,易鳴
(1.武漢大學數(shù)學與統(tǒng)計學院,湖北武漢430072)
(2.華中師范大學數(shù)學與統(tǒng)計學學院,湖北武漢430079)
(3.華中農(nóng)業(yè)大學理學院,湖北武漢430070)
組織特異性蛋白質(zhì)復合體的識別
丁霞1,張曉飛2,易鳴3
(1.武漢大學數(shù)學與統(tǒng)計學院,湖北武漢430072)
(2.華中師范大學數(shù)學與統(tǒng)計學學院,湖北武漢430079)
(3.華中農(nóng)業(yè)大學理學院,湖北武漢430070)
本文研究了組織特異性蛋白質(zhì)復合體的識別問題.利用蛋白質(zhì)相互作用網(wǎng)絡數(shù)據(jù)以及組織特異性基因表達數(shù)據(jù)構(gòu)建組織特異性蛋白網(wǎng)絡,利用多種代表性聚類算法對該網(wǎng)絡進行聚類,并利用非負矩陣分解對聚類結(jié)果進行合并聚類,得到了組織特異性蛋白質(zhì)復合體.結(jié)果表明,聚類效果得到明顯提升,并且能識別出組織特異性蛋白質(zhì)復合體.
蛋白質(zhì)相互作用網(wǎng)絡;復合體識別;組織特異性;非負矩陣分解
在現(xiàn)如今的后基因組時代,對細胞間模塊以及基因的關(guān)系進行系統(tǒng)分析和全面了解是一個非常重要的課題.隨著生物信息學的高速發(fā)展,基因組學中大規(guī)模的高通量技術(shù),如基于質(zhì)譜的串聯(lián)親和純化[1,2]、酵母雙雜交[3,4]以及蛋白芯片技術(shù)為我們提供了海量的大規(guī)模生物網(wǎng)絡,也為我們對生物網(wǎng)絡進行系統(tǒng)的分析創(chuàng)造了可能.
眾所周知,蛋白質(zhì)很少單獨行動,它們往往結(jié)合在一起形成復合體在生命體中進行生物功能[5].蛋白質(zhì)復合體的綜合研究有助于揭示蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡的結(jié)構(gòu)、預測蛋白質(zhì)的功能,更有助于闡明各種疾病的細胞機制[6].經(jīng)過10多年的快速發(fā)展,已經(jīng)涌現(xiàn)出了許多基于不同聚類機理的蛋白質(zhì)相互作用網(wǎng)絡功能模塊檢驗方法.
盡管在此方面已經(jīng)有不少研究,但是這些方法主要關(guān)注靜態(tài)的蛋白質(zhì)相互作用網(wǎng)絡,而忽略了蛋白質(zhì)功能作用的動態(tài)變化及組織特異機制.幸運的是,DNA微陣列技術(shù)的出現(xiàn),使數(shù)以千計的基因的差異表達的各種實驗條件被同時且定量監(jiān)視,它提供了許多有關(guān)于時間以及組織特異的信息[7].目前也有少許算法研究動態(tài)網(wǎng)絡,并探測動態(tài)復合體,但還沒有算法涉及到組織特異的復合體偵測.
本文通過結(jié)合組織特異性基因表達數(shù)據(jù)以及人類蛋白質(zhì)相互作用網(wǎng)絡構(gòu)建出一系列組織特異性蛋白網(wǎng)絡,嘗試探索組織特異功能模塊的研究.本文的主要方法為對所構(gòu)建的組織特異性蛋白網(wǎng)絡利用多種方法對其進行聚類,并對結(jié)果進行組裝,最后使用非負矩陣分解模型對組裝的結(jié)果進行有效合并.實驗結(jié)果表明,本文的方法與其他聚類方法相比,在檢測蛋白質(zhì)復合體上結(jié)果更好.
因為組織特異性蛋白復合體對于理解生物學功能以及確定生物標志物和功能靶標十分重要[8],因此探索組織特異功能模塊很有必要.
在本節(jié)中,本文首先介紹如何構(gòu)建組織特異性蛋白網(wǎng)絡,隨后介紹如何檢測組織特異性復合體.
組織特異性蛋白網(wǎng)絡是結(jié)合蛋白質(zhì)相互作用網(wǎng)絡以及組織特異性基因表達數(shù)據(jù)兩者來構(gòu)建的.給定一個PPI網(wǎng)絡,可以用圖G=(V,E)來表示[9],其中V包含|V|=N個蛋白質(zhì),而E包含|E|條邊.圖G可以表示成一個鄰接矩陣A,其中若有一條邊連接蛋白質(zhì)i與j,則Aij=1,否則Aij=0,在這種情況下,識別蛋白質(zhì)復合體這一問題就轉(zhuǎn)化為點的聚類問題.組織特異性基因表達數(shù)據(jù)是這N個蛋白質(zhì)在T個組織中的基因水平,可以用一個N×T維矩陣F表示.
本文將利用矩陣A以及矩陣F來構(gòu)建組織特異性蛋白網(wǎng)絡.若蛋白質(zhì)i與j有相關(guān)關(guān)系,即Aij=1,并且在組織t中,蛋白質(zhì)i與蛋白質(zhì)j均顯著表達,即Fit>0并且Fjt>0,則蛋白質(zhì)i與蛋白質(zhì)j在組織t中存在相關(guān)關(guān)系.根據(jù)上述方法,對T個組織進行構(gòu)建,則可得到T個組織特異性蛋白網(wǎng)絡.
在本節(jié)中,本文先對組織特異性蛋白質(zhì)相關(guān)關(guān)系網(wǎng)絡中的每一個組織分別使用基本聚類方法,并使用非負矩陣分解模型來合并相似組織特異性蛋白質(zhì)復合物,得到新的復合體,算法的基本流程如圖1所示.
2.2.1 基本聚類方法
本文首先利用7種基本的聚類方法分別對這T個組織特異蛋白網(wǎng)絡進行聚類,構(gòu)建蛋白質(zhì)復合體,所用的7種方法分別為MCL、MCODE、MINE、ClusterONE、DPClus、SPICi、CoAch.
MCL是通過模擬在PPI網(wǎng)絡中流的自由行走來檢測蛋白質(zhì)復合體的經(jīng)典算法,它定義了指派節(jié)點概率的Expansion操作和改變節(jié)點游走概率的In fl ation操作來模擬隨機游走的擴展和收縮行為[10,11].
MCODE是一種基于蛋白質(zhì)的連接值來檢測蛋白質(zhì)復合體的計算方法,它首先利用節(jié)點的局部鄰域密度給PPI網(wǎng)絡中每個節(jié)點進行加權(quán),然后選擇具有最高權(quán)值的節(jié)點作為初始聚類的種子節(jié)點,并由種子節(jié)點向外擴張形成最后的簇(蛋白質(zhì)模塊)[11,14].
MINE是一種類似于MCODE的凝聚聚類算法,但它使用了一個改進的頂點加權(quán)策略,并且可以衡量網(wǎng)絡模塊性,而這兩者都有助于避免使用生長群內(nèi)包含的臨界點來定義模塊的邊界[13].
DPClus是一種通過簇邊界的跟蹤進行聚類的算法,它不僅利用模塊密度而且利用新定義的粗特性CP完成復合體檢驗[11,14].
ClusterONE是一種能識別帶重疊的蛋白質(zhì)復合體的一種算法,它依賴于重疊領域擴張[15].
CoAch是一種利用核心依附關(guān)系進行復合體檢測的算法,該算法分為兩個階段,第1階段從鄰接圖中定義核心頂點,然后從中檢測蛋白質(zhì)復合體的核心蛋白質(zhì),第2階段為將附屬蛋白質(zhì)逐個連接到核心蛋白質(zhì)所代表的復合體中[11,16].
SPICi是一種高效算法,SPICi種子集群根據(jù)其加權(quán)度的節(jié)點,如果支撐足夠高,并且集群的密度低于用戶定義的閾值,則此非集群節(jié)點將會添加到集群中,否則,群集被輸出,這個簇的節(jié)點將會從網(wǎng)絡中移除[17].
2.2.2 非負矩陣分解模型
對每一個組織,分別使用上述7種聚類方法,可以得到7個復合體矩陣V1,V2,···,V7,Vi(i=1:7)為N×Pi(i=1:7)矩陣,其中N代表蛋白質(zhì)的個數(shù),Pi為第i種聚類方法所識別的蛋白質(zhì)復合體的個數(shù).對于矩陣Vi,若蛋白質(zhì)Ni,Nj,···,Nk組成第e個復合體(1<=e<=Pi),則在第e列中,除了蛋白質(zhì)Ni,Nj,···,Nk所對應的元素為1外,其余元素為0.將這7個復合體矩陣V1,V2,···,V7橫向排列,得到矩陣V=[V1,V2,···,V7],V為N行P列的矩陣依造此方法,可構(gòu)建出T個矩陣.
接著,我們使用了非負矩陣分解模型來合并相似瞬時蛋白質(zhì)復合物.它提供了一種對非負矩陣的低秩逼近,并且已被廣泛地運用到聚類當中[18,19].Lee和Seung的非負矩陣分解方法,設定模型為
利用更新法則
最后得到矩陣W(N×K)和H(K×P),本文只對矩陣W進行研究,將其橫向歸一,即令Uik=Wik/Wi..得到U之后,設定過濾閾值τ,若Uij>τ,則蛋白質(zhì)Ni是復合體Kj的組成部分.由上可知,本次算法共有兩個參數(shù),所識別的復合體的個數(shù)K以及過濾閾值τ.由于復合體大多是由3個及3個以上的蛋白質(zhì)組合而成,因此對所識別出的復合體進行過濾,將蛋白質(zhì)個數(shù)<2的復合體舍去.
本文從BIOGPS項目中的Af f ymetrix數(shù)據(jù)集中獲得了83個人體組織和細胞系的轉(zhuǎn)錄水平[20],并從BioGrid網(wǎng)站[21]中下載到人體蛋白質(zhì)-蛋白質(zhì)相互作用關(guān)系,構(gòu)建了83個組織特異性蛋白網(wǎng)絡,具體處理數(shù)據(jù)以及構(gòu)造方法詳見文獻[20],本文挑選了蛋白質(zhì)對個數(shù)>10000的26個組織進行分析,這26個組織或者細胞分別為:BDCA 4+樹突狀細胞、支氣管上皮細胞、CD105+內(nèi)皮、CD19+B細胞、髓細胞、造血干細胞、CD4+T細胞、CD56+自然殺傷細胞、CD71+早期紅細胞前體細胞、CD8+T細胞、心臟肌細胞、腸和直腸腺癌、慢性粒細胞性白血病k-562、早幼粒細胞性白血病淋巴細胞(MOLT-4)、白血病HL-60、淋巴瘤burkitt(Daudi)、淋巴瘤burkitt(Raji)、日間松果體、夜間松果體、前額葉皮層、視網(wǎng)膜、前列腺、平滑肌、甲狀腺、全血.
為了衡量所檢測出的復合體的精確性,本文選擇了一個廣泛使用的復合體標準作為黃金標準,該標準是從哺乳動物蛋白質(zhì)復合體的CORUM[22]數(shù)據(jù)庫中得到,最終獲得由2151個蛋白質(zhì)組成的324個復合體,本文中只選取其中蛋白質(zhì)個數(shù)大于3個的復合體.
我們將判斷預測的復合體是否能很好地對應到已知的復合體作為評判標準.ACC[23]是用來測量幾何精度的,在這項研究中,它被用來評估預測的復合體與參考的復合體之間的相似性.MMR(the Maximum Matching Ratio)由Paccanaro提出的用來評估相對于參考蛋白質(zhì)復合體來說預測的蛋白質(zhì)復合體是否符合期望的一個評價標準.
圖2:參數(shù)τ在不同組織識別出不同復合體的曲線圖
MCL有一個用來調(diào)整聚類的間隔尺寸的參數(shù),俗稱膨脹率,本文設定其取值范圍從3.0到5.0,步長為0.2;MCODE設定蛋白質(zhì)個數(shù)為3,其余參數(shù)默認;MINE設定蛋白質(zhì)個數(shù)為3,其余參數(shù)默認;DPCLUS有兩個參數(shù),最小密度d以及最小聚類性質(zhì)參數(shù)cp,本文設定其值分別為0.7以及0.5;ClusterOne參數(shù)設為默認;CoAch有一個參數(shù)ω,用來過濾冗余的核心蛋白質(zhì),本文設定取值范圍為0.225到0.925,步長為0.05;SPICi有兩個參數(shù),其中我們設定密度閾值這一參數(shù)的取值范圍為0.1到1,步長為0.1.
對于以上7種算法,挑選出使得每種算法的ACC和MMR的調(diào)和平均數(shù)最大的參數(shù)值作為最后選定的參數(shù)值.
本文的算法中,共有兩個參數(shù)K以及τ,K為所識別的蛋白質(zhì)復合體的個數(shù),根據(jù)過往者的經(jīng)驗,設定其取值范圍從600到1600,步長為200,τ為過濾閾值,設置其取值范圍為0到0.9,步長為0.1.在對26個組織分別進行上述算法后,得到表1.
表1:ACC-結(jié)果比較
在對所有組織計算中發(fā)現(xiàn),一般復合體個數(shù)在600-2000并且閾值在0或者0.1的情況下表現(xiàn)良好,由于篇幅有限,僅挑選出4個組織進行參數(shù)分析,分別為:甲狀腺、B細胞、前額葉皮層、T細胞,如圖2.
在這一章中,我們將本文的算法與其他7種算法對這26個組織或者細胞的蛋白質(zhì)網(wǎng)絡進行聚類之后的結(jié)果進行比較.對于其他7種基本聚類方法,我們?nèi)∑銩CC和MMR的調(diào)和平均數(shù)為這26個組織最后的結(jié)果,從表1中可以看出,本文的算法最后得到的ACC值在24個組織中處于最大值,兩個組織中居于第二.
本文將26個組織所用的7種方法得到的最高值與本文所用的方法進行比較,提升最高的組織是前列腺,提高值為13%.在與其他7種方法分別單獨比較時,提高最高的百分比分別為:51.61%、33.33%、39.53%、122.22%、27.03%、25.00%、27.91%,具體提升情況可參見圖3,從圖中我們可以看出,MCODE算法所得到的結(jié)果最差,在26個組織中,使用非負矩陣分解得到的結(jié)果均比其提高30%以上;其次是MCL,提高了8%到40%;而CLusterONE表現(xiàn)最好,有兩個組織比本文的算法分別高出1.96%、3.08%.
圖3:與其他組織比較,NMF提升百分比的頻數(shù)圖
從上述結(jié)果中可以看出,本文所提出的算法與其他7種方法相比是具有優(yōu)越性的.
組織特異性蛋白質(zhì)復合體對于理解生物學功能以及確定生物標志物和功能靶標十分重要,這也是本文的研究動機.同一個蛋白質(zhì)在不同的組織中會與不同的蛋白質(zhì)相結(jié)合,舉例來說,轉(zhuǎn)運蛋白1(TNPO1)在樹突狀細胞中與蛋白質(zhì)CD4、PPP3CA、TNPO3結(jié)合,在髓細胞中與SRP19、TNPO3相結(jié)合,而在平滑肌中則與蛋白質(zhì)IPO5、IPO7、NUTF2、RAN、SRP19結(jié)合形成復合體,由此可以看出在不同的組織中其會與不同的蛋白質(zhì)相結(jié)合,而TNPO1與TNPO3則同時出現(xiàn)在不同組織的同一個復合體中,這與生命活動也是相符合的.
在真正的生命活動中,蛋白質(zhì)會在不同的組織中與不同的蛋白質(zhì)相結(jié)合,而許多現(xiàn)有的檢測蛋白質(zhì)復合物模型都是在靜態(tài)PPI網(wǎng)絡模型中直接檢測,而忽略了蛋白質(zhì)復合體的空間特異性.本文利用多種方法對不同的組織構(gòu)建組織特異性蛋白質(zhì)相互作用網(wǎng)絡,并使用非負矩陣分解模型對其他聚類結(jié)果進行合并聚類,并在獲取組織特異性蛋白質(zhì)復合體時得到了良好的結(jié)果.同時,本文也有一些不足,雖然本文的結(jié)果在ACC標準中表現(xiàn)良好,但在MMR這一標準中仍需改進,同時,本文僅選取一個黃金標準復合體,在接下來的工作中,我們可以參考多組黃金標準復合體進行方法之間的比較.
[1]Aebersold R,Mann M.Mass spectrometry-based proteomics[J].Nature,2003,422(6928):198-207.
[2]Ho Y,Gruhler A,Heilbut A,et al.Systematic identif i cation of protein complexes in Saccharomyces cerevisiae by mass spectrometry[J].Nature,2002,415(6868):180-183.
[3]Ito T,Chiba T,Ozawa R,Yoshida M,Hattori M,Sakaki Y.A comprehensive two-hybrid analysis to explore the yeast protein interactome[J].Proceed.National Acad.Sci.United States America, 2001,98(8):4569-4574.
[4]Uetz P,Giot L,Cagney G,Mansf i eld T A,et al.A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae[J].Nature,2000,403(6770):623-627.
[5]Gavin A C,B sche M,Krause R,et al.Functional organization of the yeast proteome by systematic analysis of protein complexes[J].Nature,2002,415(6868):141-147.
[6]Lage K,Karlberg E O,St?rling Z M,et al.A human phenome-interactome network of protein complexes implicated in genetic disorders[J].Nature Biotechnology,2007,25(3):309-316.
[7]Lo K,Raftery A E,Dombek K M,et al.Integrating external biological knowledge in the construction of regulatory networks from time-series expression data[J].BMC Sys.Bio.,2012,6(2):101.
[8]Vasmatzis G,Klee E W,Kube D M,Therneau T M,Kosari F.Quantitating tissue specif i city of human genes to facilitate biomarker discovery[J].Bioinformatics,2007,23(11):1348-1355.
[9]Li D,Li J,Ouyang S,Wang J,Wu S,Wan P,Zhu Y,Xu X,He F.Protein interaction networks of Saccharomyces cerevisiae,Caenorhabditis elegans and Drosophila melanogaster:large-scale organization and robustness[J].Proteomics,2006,6(2):456-461.
[10]Enright A J,Dongen S V,Ouzounis C A.An efficient algorithm for largescale detection of protein families[J].Nucleic Acids Res,2012,30(7):1575-1584.
[11]冀俊忠,劉志軍,劉紅欣,劉椿年.蛋白質(zhì)相互作用網(wǎng)絡功能模塊檢測的研究綜述[J].自動化學報,2014, 40(4):577-593.
[12]Bader G D,Hogue C W V.An automated method for f i nding molecular complexes in large protein interaction networks[J].BMC Bioinformatics,2003,4(1):2.
[13]Rhrissorrakrai K,Gunsalus K C.MINE:module identif i cation in networks[J].BMC Bioinformatics, 2011,12(1):192.
[14]Altaf-Ul-Amin M,Shinbo Y,Mihara K,Kurokawa K,Kanaya S.Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J].BMC Bioinformatics,2006,7(1):207.
[15]Nepusz T,Yu H,Paccanaro A.Detecting overlapping protein complexes in protein-protein interaction networks[J].Nature Methods,2012,9(5):471-472.
[16]Wu M,Li X L,Kwoh C K,Ng C K.A core-attachment based method to detect protein complexes in PPI networks[J].BMC Bioinformatics,2009,10(1):169.
[17]Jiang P,Singh M.SPICi:a fast clustering algorithm for large biological networks[J].Bioinformatics, 2010,26(8):1105-1111.
[18]Lee D D,Seung H S.Learning the parts of objects by non-negative matrix factorization[J].Nature, 1999,401(6755):788-791.
[19]Ding C,He X F,Simon H D.On the equivalence of nonnegative matrix factorization and spectral clustering[J].Siam Intern.Confer.Data Min.,2005,5:606-610.
[20]Lopes T J,Schaefer M,Shoemaker J,Matsuoka Y,Fontaine J F,Neumann G,Andrade-Navarro M A,Kawaoka Y,Kitano H.Tissue-specif i c subnetworks and characteristics of publicly available human protein interaction databases[J].Bioinformatics,2011,27(17):2414-2421.
[21]Chatr-aryamontri A,Breitkreutz B J,Heinicke S,et al.The Biogrid interaction database:2013 update[J].Nucleic Acids Research,2013,41(2):816-823.
[22]Havugimana P C,Hart G T,Nepusz T,et al.A census of human soluble protein complexes[J].Cell, 2012,150(5):1068-1081.
[23]Li X,Wu M,Kwoh C K,et al.Computational approaches for detecting protein complexes from protein interaction networks:a survey[J].BMC Genomics,2010,11(4):S3.
[24]Ou-Yang L,Dai D Q,Zhang X F.Protein complex detection via weighted ensemble clustering based on bayesian nonnegative matrix factorization[J].Plos One,2013,8(5):639-642.
[25]Ou-Yang L,Dai D Q,Li X L,Wu M,Zhang X F,Yang P.Detecting temporal protein complexes from dynamic protein-protein interaction networks[J].BMC Bioinformatics,2014,15(1):16001-16005.
[26]Zhang X F,Dai D Q,Ou-Yang L,Yan H.Detecting overlapping protein complexes based on a generative model with functional and topological properties[J].BMC Bioinformatics,2014,15(2):836-842.
[27]Zhang W,Zou X F.A new method for detecting protein complexes based on the three node cliques[J]. IEEE/ACM Trans Comput.Biol.Bioinform,2015,12(4):879-886.
[28]涂俐蘭.兩兩序列比對的一種新方法[J].數(shù)學雜志,2006,26(1):67-70.
IDENTIFICATION OF THE TISSUE SPECIFIC PROTEIN COMPLEXES
DING Xia1,ZHANG Xiao-fei2,YI Ming3
(1.School of Mathematics and Statistics,Wuhan University,Wuhan 430072,China)
(2.School of Mathematics and Statistics,Central China Normal University,Wuhan 430079,China)
(3.School of Science,Huazhong Agricultural University,Wuhan 430070,China)
In this paper,we study the identif i cation problem of tissue-specif i c protein complexes.By using a variety of typical clustering algorithm to cluster the network,we construct a tissue-specif i c protein-protein interaction network based on the protein-protein interaction networks as well as the tissue-specif i c gene expression data,then merge the results with non-negative matrix factorization model to obtain tissue-specif i c protein complexes.The results show that clustering ef f ect has been signif i cantly improved,and can identify tissue-specif i c protein complexes.
protein-protein interaction networks;complexes identif i cation;tissue-specif i c; non-negative matrix factorization
O212.4;O212.5
A
0255-7797(2017)05-1093-08
2015-01-06接收日期:2015-05-06
國家自然科學基金資助(11275259);國家自然科學基金資助(91330113).
丁霞(1990-),女,湖北鄂州,碩士,主要研究方向:生物信息.
2010 MR Subject Classif i cation:92B05