国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合蛋白質復合體的人類蛋白互作網絡功能模塊發(fā)現(xiàn)

2016-12-24 08:47:43劉光明楊柳高盼盼王邦軍周雪忠于劍
智能系統(tǒng)學報 2016年5期
關鍵詞:同質性復合體功能模塊

劉光明,楊柳,高盼盼,王邦軍,周雪忠,于劍

( 北京交通大學 計算機與信息技術學院,北京 100044)

?

融合蛋白質復合體的人類蛋白互作網絡功能模塊發(fā)現(xiàn)

劉光明,楊柳,高盼盼,王邦軍,周雪忠,于劍

( 北京交通大學 計算機與信息技術學院,北京 100044)

人類蛋白互作網絡中功能模塊的檢測是目前網絡醫(yī)學研究的一個熱點問題。好的功能模塊可以幫助我們更好地去理解和認識蛋白質相互作用的分子機理。近年來的一些研究大多數(shù)是基于復雜網絡中的拓撲模塊發(fā)現(xiàn)算法對蛋白質相互作用網絡進行模塊劃分,然后對其進行生物學上的功能研究。由于PPI網絡中的蛋白之間相互作用的數(shù)據(jù)獲取的不完整,相關研究表明目前人類只獲得了人類蛋白之間相互作用數(shù)據(jù)的10%~20%,其中已經獲取的數(shù)據(jù)中還包含著一些噪聲,這就導致基于拓撲結構的社團檢測算法的精度降低。為了克服這個問題,本文將蛋白質復合體數(shù)據(jù)融入到模塊檢測算法中,分別使用K-Means和NMF算法對PPI網絡進行模塊劃分,然后從基因本體和通路2個方面對檢測到的模塊進行功能分析。實驗結果表明融合了蛋白質復合體的PPI網絡更容易得到具有生物學意義的功能模塊。

蛋白質相互作用網絡;蛋白質復合體;功能模塊;模塊檢測;基因本體;通路

蛋白質分子是通過與其他蛋白質分子相互作用發(fā)揮功能的,近年來隨著高通量技術的快速發(fā)展,海量的蛋白質相互作用數(shù)據(jù)被挖掘出來,從而形成蛋白質相互作用網絡(protein-protein interaction,PPI)。網絡醫(yī)學近年來在計算醫(yī)學領域發(fā)展迅速,PPI網絡中的蛋白模塊往往具有特定的生物功能。Barabasi等認為疾病的產生是由于PPI中某個局部的蛋白鏈接關系發(fā)生了紊亂[1],并進一步提出了拓撲模塊、功能模塊和疾病模塊是存在相同的共有蛋白成員的。大家普遍認為在拓撲結構上鏈接比較緊密的蛋白在生物功能上也更加相似。基于這個假設,為了可以精確地尋找到與疾病相關的蛋白模塊,需要先從PPI網絡中檢測出具有比較顯著生物意義的功能模塊。

目前功能模塊的檢測方法主要是使用復雜網絡領域中的社團劃分方法將PPI網絡劃分為多個拓撲模塊,然后對這些拓撲模塊再進行生物功能的檢測。Bader等提出了一種叫做MCODE的方法,該方法首先根據(jù)節(jié)點的鄰居對每一個節(jié)點賦一個權重,然后選擇權重較大的節(jié)點作為種子節(jié)點進行社團劃分[2]。該方法可以發(fā)現(xiàn)重疊的蛋白質功能模塊。DPClus等使用類似的方法對網絡中的每條邊賦權重,然后選擇權重最大的邊的節(jié)點作為初始種子節(jié)點進行社團劃分[3]。Edward等提出了一種基于熵的方法進行功能模塊的檢測,該方法首先隨機選擇一個節(jié)點作為種子節(jié)點,然后將該種子節(jié)點和其周圍的鄰居作為一個種子類,通過熵的減少來移除邊界點和增加新節(jié)點形成蛋白模塊,直到遍歷完網絡中的所有節(jié)點[4]。

上述功能模塊劃分算法主要是根據(jù)PPI中的鏈接關系,也就是只找到了在拓撲結構上鏈接緊密的模塊。由于目前人類所獲取的蛋白相互作用數(shù)據(jù)只獲取了實際相互作用的10%~20%[5],所以PPI網絡是比較稀疏的,使用傳統(tǒng)的復雜網絡中的社團劃分方法并不能保證精確地找到具有某種生物功能的模塊。蛋白質復合體(protein complex)是2個及其以上的蛋白相互作用而形成的復合物,一般分為結構型的蛋白質復合體和功能型蛋白質復合體2大類。目前關于蛋白質復合體的數(shù)據(jù)已經可以方便地獲取,因此可以考慮將蛋白質復合體的數(shù)據(jù)融合到PPI網絡中,從而可以提高功能模塊的發(fā)現(xiàn)精度。

本文首先將蛋白質復合體數(shù)據(jù)融合到PPI網絡中,然后使用K均值(K-Means)和非負矩陣分解(non-negative matrix factorization,NMF)2種算法對融合后的數(shù)據(jù)進行模塊劃分,針對得到的模塊進行基因本體(gene ontology,GO)和通路(pathway)富集分析并進一步計算模塊的GO同質性。

1 社團劃分及模塊生物學分析

1.1 PPI網絡的表示

PPI網絡可以表示為一個無向無權圖,其中V表示頂點集、E表示邊集。矩陣A表示鄰接矩陣,A的定義為

式中:Aij表示節(jié)點i和節(jié)點j有連邊,vi和vj表示節(jié)點i和節(jié)點j。

1.2 模塊檢測算法

模塊目前還沒有一個統(tǒng)一的定義,大家對模塊的共識是:模塊內部的邊比較緊密而模塊之間的邊要盡量稀疏[6]。本文主要使用K均值和非負矩陣分解2種算法對PPI網絡進行模塊檢測。

1) K均值[7]

K均值算法的主要思想就是所有樣本點到各自的類中心的距離最短,其目標函數(shù)為

根據(jù)式(2)可以得到類中心的迭代公式為

其代表的物理含義是第k個類中所有樣本點的均值作為該類的類中心,然后其他節(jié)點根據(jù)與該類中心的距離來判斷是不是屬于這個類。通過不停地迭代,直到所有的類中心不在改變?yōu)橹埂?/p>

2)非負矩陣分解

非負矩陣分解最早是由Lee 和Seung[8]提出的。若一個矩陣其所有的元素沒有負數(shù),這樣的矩陣叫做非負矩陣。對一個n×m的非負矩陣X,其行向量代表特征,列向量代表樣本。非負矩陣分解的任務就是把X分解為兩個非負矩陣使得X≈FGT,其中F是一個n×k的矩陣,G是m×k的矩陣(k為類的個數(shù))。其目標函數(shù)為

式中:G為最后的劃分矩陣。F和G的迭代規(guī)則如下:

當誤差小于某個閾值a或達到最大迭代次數(shù)時算法終止,F(xiàn)矩陣描述了網絡中節(jié)點隸屬于某個社區(qū)的概率。

1.3 模塊的富集分析

為了確定每一個模塊具體的生物功能,對每個模塊分別進行GO和Pathway富集分析。每個模塊會對所有的GO術語或者Pathway進行分析,并且返回具有最小P-value的GO術語或Pathway表示模塊中的蛋白質在該GO術語或者Pathway中出現(xiàn)了富集,即該GO術語描述了這個模塊的功能或者這個模塊中的蛋白共同參與了該Pathway。P-value的計算為

式中:k代表模塊中蛋白的數(shù)量,q是模塊中被注解的蛋白質數(shù)量,m是整個網絡中的蛋白質的數(shù)量。

1.4 模塊的同質性分析

一個蛋白質可能被多個GO術語注解,同時一條GO術語也會注解多個蛋白質。一個模塊中的蛋白經常會出現(xiàn)多個GO術語描述其功能,因此使用同質性去衡量模塊內所有的蛋白質相互作用產生的生物功能的強弱,同質性高則說明該模塊內的蛋白質的功能越相近,其計算公式為

2 融合蛋白質復合體的功能模塊檢測

2.1 數(shù)據(jù)的來源及整理

STRING 9.1[9]提供了蛋白質與蛋白質相互作用關系的數(shù)據(jù),該數(shù)據(jù)中包含了一些通過生物實驗獲得的數(shù)據(jù),也包括一些使用計算方法預測出來的數(shù)據(jù)并使用Score值量化。為了提高PPI網絡數(shù)據(jù)的可靠性,篩選出與人類有關且Score大于700的蛋白相互作用數(shù)據(jù),然后將蛋白編碼轉換為NCBI中名稱,最終得到的PPI網絡里包括14 380個蛋白質和218 163條蛋白質相互作用。

CORUM[10]存儲的是哺乳動物組織器官內經過人工審核過的蛋白質復合體數(shù)據(jù),這些數(shù)據(jù)都是通過個體實驗獲取的,所以數(shù)據(jù)噪聲少并且準確度高。蛋白質復合體是具有相同功能的蛋白質高度交互的集合,具有較強的生物特性。而蛋白質復合體本身是PPI的一部分,因此將蛋白質復合體數(shù)據(jù)引入到PPI中,可以彌補其相互作用數(shù)據(jù)少并且存在噪聲的缺陷。本文提取了1 653個與人類相關的蛋白質復合體數(shù)據(jù),并且形成了31 550條蛋白質相互作用數(shù)據(jù)。

2.2 融合蛋白質復合體的PPI網絡模塊檢測

將從蛋白質復合體數(shù)據(jù)中抽取的31 550條蛋白質相互作用數(shù)據(jù)融入到PPI網絡中,從而在一定程度上彌補了PPI數(shù)據(jù)不足的缺點。由于從蛋白質復合體數(shù)據(jù)中抽取的這些數(shù)據(jù)具有很高的精確度,融入這些數(shù)據(jù)后可以在一定程度上減少PPI中的噪聲數(shù)據(jù)對后續(xù)分析的影響。

主要是將抽取到的蛋白質之間的相互作用數(shù)據(jù)融入到從String9提取的蛋白網絡對應的鄰接矩陣A中,具體融入方法參照Zhang等[11]提出的方式,將從蛋白復合體中提取出的蛋白質互作數(shù)據(jù)集合記為C,然后通過融合C和A得到新的鄰接矩陣:

圖1 蛋白互作網絡生成過程

算法1蛋白模塊檢測算法

2)fori= 1:N//每一行代表一個數(shù)據(jù)點的屬性

3)輸出Gnew:每個蛋白質對應的類標號

算法1將融合了蛋白質復合體的PPI網絡劃分為K個模塊,圖2是分別使用NMF和K-Means社團檢測算法檢測到的模塊238與模塊76的拓撲結構圖。

圖2 模塊238和模塊76的拓撲結構

圖2中節(jié)點的名字就是PPI中蛋白質在NCBI中對應的名字,這個名字是唯一的,本文中就是根據(jù)這個名字將從Sring9數(shù)據(jù)中抽取到的PPI同蛋白質復合體數(shù)據(jù)融合到了一起??梢钥闯鰴z測到的模塊在內部的連接比較緊密。接下來對使用算法1檢測到的拓撲模塊進行生物學意義上的分析。

2.3 模塊的富集分析及同質性分析

1)GO術語和Pathway富集結果

對原始的PPI網絡和通過融合蛋白質復合體之后的新網絡分別進行模塊檢測,然后對這些模塊進行富集分析。為了更好地反應模塊的富集結果及同質性,只考慮個數(shù)多于2的模塊,因為個數(shù)為2的模塊就只包含一條邊,容易對富集結果產生噪聲。通過對原始的PPI網絡和融合蛋白質復合體的網絡分別使用K-Means和NMF對其進行模塊劃分,并篩選出模塊個數(shù)大于2的模塊,最終檢測結果如表1所示。

表1 不同方法劃分的模塊個數(shù)及最大、最小模塊

Table 1 The number of modules and the size of maximal and minimal module by different approaches

模塊檢測算法模塊個數(shù)最小模塊最大模塊K-Means26638122IncreK-means27738157NMF3013307IncreNMF3003328

從表1 可以觀察到K-Means算法容易產生比較大的模塊,其蛋白質的規(guī)模約占整個網絡的56%,一般來說這種規(guī)模比較大的模塊對蛋白質的生物功能分析意義不是很大,而且模塊個數(shù)在10以下的模塊占所有模塊的27%左右;而NMF算法檢測到的最大模塊的規(guī)模只占PPI網絡的2.28%,而且模塊規(guī)模小于10的模塊占所有模塊的比率只有10%,更容易檢測到相對規(guī)模較中等的模塊,更容易獲得比較統(tǒng)一的生物功能。

基因本體聯(lián)合建立了一套適用于不同物種的語義詞匯標準,該標準對蛋白質功能等方面進行限定及描述,該標準能夠隨著研究的深入和時間的發(fā)展而不斷完善。GO[12]術語就是這個不斷增長完善的語義詞匯標準的數(shù)據(jù)庫,主要對基因和蛋白質進行注釋并且進一步闡明了蛋白質和用于定義它們的GO術語之間的關系。GO術語是生物過程(biological process,BP)、細胞組件(cellular component,CC)和分子功能(molecular function,MF)。每個種類都是一種樹形結構,我們總共抽取了40 848條GO術語,其中生物過程有26 958條、細胞組件有3 653條、分子功能包括10 697條。

根據(jù)式(6)對每個模塊根據(jù)GO術語的3個種類分別進行了富集分析,也就是為每一個蛋白質拓撲模塊進行了p-value值的計算,然后選取最小的p-value值對應的GO術語作為該模塊的生物功能描述,從而確定該模塊中的生物功能。

為了方便比較融合蛋白質復合體數(shù)據(jù)后檢測到的模塊與原始PPI網絡檢測到的模塊之間的GO術語富集情況,分別使用GO術語的3個類別對應的所有的GO術語,使用K-Means和NMF兩種算法對原始PPI網絡和融合了蛋白質復合體的PPI網絡劃分的模塊進行了富集分析,然后對比分析結果。實驗表明,融合了蛋白質復合體后劃分得到的模塊在GO術語上的富集程度要比直接使用原始PPI網絡的模塊富集程度有顯著的提升。

表2列舉了4種方法對應的前20個最小的模塊富集結果,分別從生物過程、細胞組件和生物功能3個方面羅列了實驗結果,可以看到融合了蛋白質復合體之后的PPI網絡得到的模塊,在富集程度上比原始模塊的p-value值要低,這說明模塊的富集程度更好,融合蛋白質復合體的模塊更具有顯著生物功能上的意義。

表2 融合蛋白質復合體的模塊與原始PPI模塊的GO富集(p-value)

同GO的富集分析一樣,我們也對模塊中蛋白質在Pathway上進行了相應的富集分析,主要是統(tǒng)計一個模塊內的蛋白質參與同一條Pathway的程度。Pathway數(shù)據(jù)主要使用PID[13](pathway interaction database),該數(shù)據(jù)庫由NCI-Nature、BioCarta和Reactome3個數(shù)據(jù)庫整合而成。在本文中只使用分子類型為“蛋白質”和“蛋白質復合體”的數(shù)據(jù)。最終提取了1 513條Pathway數(shù)據(jù),其中223條來自NCI-Nature數(shù)據(jù)庫、254條來自BioCarta數(shù)據(jù)庫、838條來自Reactome數(shù)據(jù)庫。表3列舉了4種方法中對應的前20個最小的模塊在Pathway上的富集結果,從中可以看到融合了蛋白質復合體之后的PPI網絡的模塊,在Pathway上的富集程度比原始的模塊的p-value值要低,這說明模塊內的蛋白質更多地參與了同一條Pathway,從而可以證明融合了蛋白質復合體的模塊更傾向于在同樣的Pathway中發(fā)揮生物作用,識別Pathway可以幫助人們進一步認識蛋白分子之間相互作用的分子機理。

表3 融合蛋白質復合體的模塊與原始PPI模塊的Pathway富集(p-value)

Table 3 Pathway enrichment of topological modules comparing mixed protein complex with the original PPI network

K-MeansIncreK-MeansNMFIncreNMF8.27×10-412.58×10-421.60×10-301.43×10-388.63×10-415.23×10-412.63×10-234.29×10-277.00×10-332.48×10-404.15×10-231.18×10-262.46×10-304.16×10-342.89×10-227.79×10-231.05×10-226.62×10-253.12×10-228.00×10-233.09×10-195.38×10-201.02×10-211.64×10-225.41×10-181.06×10-172.22×10-206.98×10-185.89×10-181.95×10-171.52×10-165.22×10-171.53×10-173.18×10-172.60×10-151.08×10-161.72×10-164.47×10-176.42×10-151.22×10-152.94×10-151.59×10-163.75×10-148.31×10-151.03×10-148.01×10-162.61×10-132.61×10-141.90×10-144.45×10-152.68×10-136.34×10-149.56×10-141.82×10-141.19×10-121.64×10-132.54×10-137.16×10-141.09×10-116.62×10-131.03×10-129.74×10-146.33×10-112.34×10-122.11×10-121.33×10-131.32×10-101.02×10-112.20×10-124.10×10-132.66×10-102.26×10-115.14×10-124.10×10-133.12×10-102.30×10-111.18×10-116.00×10-134.02×10-102.50×10-11

2) 蛋白質拓撲模塊同質性

對每個模塊使用最小的p-value對應的GO術語或者Pathway作為其富集的對象,從而進一步發(fā)現(xiàn)該模塊中的蛋白質分子的功能。從統(tǒng)計學意義上講,p-value < 0.01的GO術語及Pathway都可以作為模塊的富集對象。為了更好地衡量模塊中的蛋白質在生物功能上發(fā)揮相同或相似功能的程度,使用同質性去衡量,其計算方法如式(7)所示。同質性更好地說明了一個模塊內的蛋白在功能上的相似程度,同質性越高說明該模塊中的蛋白質在生物功能上更趨于一致性,也就是該模塊具有很強的生物功能。

本文對比了融入蛋白質復合體數(shù)據(jù)之后PPI網絡劃分得到的模塊與原始PPI劃分得到的模塊之間的同質性的差別。GO術語同質性根據(jù)生物過程、細胞組件和分子功能3個方面進行分析。圖3是不同模塊劃分方法產生模塊的分子功能的同質性在不同區(qū)間上的對比。

圖3 模塊分子功能同質性

圖3橫坐標是同質性區(qū)間,縱坐標是該區(qū)間內的模塊數(shù)量占所有模塊數(shù)量的比率。不論是K-Means還是NMF,融合了蛋白質復合體數(shù)據(jù)的模塊在分子功能的同質性方面要高于原始PPI得到的模塊。在K-Means算法中,融合了蛋白質復合體數(shù)據(jù)的模塊中同質性高于0.5的模塊占15%,而原始PPI模塊同質性高于0.5的模塊占11%;在NMF中,融合了蛋白質復合體數(shù)據(jù)的模塊中同質性高于0.5的模塊占13%,而原始PPI模塊同質性高于0.5的模塊占9.6%。

圖4是不同模塊劃分方法產生模塊的細胞組件同質性在不同區(qū)間上的對比。

圖4 模塊細胞組件同質性

在K-Means算法中,融合了蛋白質復合體數(shù)據(jù)的模塊中細胞組件同質性高于0.5的模塊占54.8%,而原始PPI模塊同質性高于0.5的模塊占48.9%;在NMF中,融合了蛋白質復合體數(shù)據(jù)的模塊中細胞組件同質性高于0.5的模塊占35%,而原始PPI模塊同質性高于0.5的模塊占31.5%。

圖5是不同模塊劃分方法產生模塊的生物過程同質性在不同區(qū)間上的對比。

圖5 模塊生物過程同質性

在K-Means算法中,融合了蛋白質復合體數(shù)據(jù)的模塊中生物過程同質性高于0.5的模塊占24.1%,而原始PPI模塊同質性高于0.5的模塊占17.7%;在NMF中,融合了蛋白質復合體數(shù)據(jù)的模塊中生物過程同質性高于0.5的模塊占15.7%,而原始PPI模塊同質性高于0.5的模塊占11.3%。

圖6是不同模塊劃分方法產生模塊的Pathway同質性在不同區(qū)間上的對比。

在K-Means算法中,融合了蛋白質復合體數(shù)據(jù)的模塊中Pathway同質性高于0.5的模塊占22.3%,而原始PPI模塊同質性高于0.5的模塊占18.7%;在NMF中,融合了蛋白質復合體數(shù)據(jù)的模塊中Pathway同質性高于0.5的模塊占19%,而原始PPI模塊同質性高于0.5的模塊占12%。

實驗結果說明,在GO術語和Pathway2個生物度量方面,不論是從最小富集角度還是從模塊同質性角度,都可以發(fā)現(xiàn)融合了蛋白質復合體后的PPI得到的模塊具有更強的生物功能,因此可以將這些模塊作為功能模塊,以便用于蛋白網絡分子作用機理的研究。

圖6 模塊Pathway同質性

3 結束語

本文將蛋白質復合體數(shù)據(jù)融合到PPI網絡中(例如:String 9蛋白質相互作用數(shù)據(jù)庫),然后使用K-Means和NMF 2種經典的算法分別對原始網絡和融合后的網絡進行社團劃分,從而得到多個蛋白質模塊;這些模塊通過在GO和Pathway2個方面的富集分析和同質性分析,實驗結果證明融合蛋白質復合體后得到了生物功能更強的模塊;這也在一定程度上說明引入蛋白質復合體數(shù)據(jù)彌補了PPI網絡數(shù)據(jù)不完整并且噪聲多等缺點。新劃分的模塊在GO和Pathway 2個方面都展現(xiàn)了良好的生物學統(tǒng)計特性,這說明結合多方面的數(shù)據(jù),有助于發(fā)現(xiàn)功能更強的蛋白質模塊。

鑒于目前的研究,下一步工作計劃將基因表達數(shù)據(jù)融入到PPI網絡中,然后根據(jù)不同的基因在不同組織上的表達情況來輔助PPI網絡進行功能模塊檢測。另一方面,疾病-癥狀關系數(shù)據(jù)(OMIM)和疾病-基因關系數(shù)據(jù)(disease-connect)的獲取技術發(fā)展比較迅速并且具有較高的可信度,因此可以將這些數(shù)據(jù)融入到PPI網絡中去發(fā)現(xiàn)與疾病或癥狀相關的功能模塊,從而為疾病機理研究和新藥研發(fā)提供一個新的思路。

[2]BADER G D, HOGUE C W V. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC bioinformatics, 2003, 4: 2.

[3]ALTAF-UL-AMIN M, SHINBO Y, MIHARA K, et al. Development and implementation of an algorithm for detection of protein complexes in large interaction networks[J]. BMC bioinformatics, 2006, 7: 207.

[4]KENLEY E C, CHO Y R. Detecting protein complexes and functional modules from protein interaction networks: A graph entropy approach[J]. Proteomics, 2011, 11(19): 3835-3844.

[5]MENCHE J, SHARMA A, KITSAK M, et al. Uncovering disease-disease relationships through the incomplete interactome[J]. Science, 2015, 347(6224): 1257601.

[6]NEWMAN M E J. Fast algorithm for detecting community structure in networks[J]. Physical review e, 2004, 69(6): 066133.

[7]WAGSTAFF K, CARDIE C, ROGERS S, et al. Constrained k-means clustering with background knowledge[C]//Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2001: 577-584.

[8]LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755): 788-791.

[9]TURANALP M E, CAN T. Discovering functional interaction patterns in protein-protein interaction networks[J]. BMC bioinformatics, 2008, 9: 276.

[10]RUEPP A, WAEGELE B, LECHNER M, et al. CORUM: the comprehensive resource of mammalian protein complexes-2009[J]. Nucleic acids research, 2010, 38(S1): D497-D501.

[11]ZHANG Z Y. Community structure detection in complex networks with partial background information[J]. EPL (europhysics letters), 2013, 101(4): 48005.

[12]ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: tool for the unification of biology[J]. Nature genetics, 2000, 25(1): 25-29.

[13]SCHAEFER C F, ANTHONY K, KRUPA S, et al. PID: the pathway interaction database[J]. Nucleic acids research, 2009, 37(S 1): D674-D679.

劉光明,男,1986年生,博士研究生,主要研究方向為復雜網絡、數(shù)據(jù)挖掘、蛋白質功能模塊。

楊柳,女,1980年生,博士研究生,主要研究方向為機器學習、數(shù)據(jù)挖掘。

高盼盼,女,1989年生,碩士研究生,主要研究方向為基于藥物副作用的分子機理的研究、數(shù)據(jù)挖掘。

The functional module detection of PPI network by incorporating protein complex data

LIU Guangming, YANG Liu, GAO Panpan, WANG Bangjun, ZHOU Xuezhong, YU Jian

(School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)

Functional module detection of protein-protein interaction (PPI) network has been a major challenge identified recently by medical researchers. It allows understanding and recognizing the interaction between proteins in an efficient manner. In this study, topological module detection methods, popular in the field of complex protein networks, were applied to the PPI network to obtain these modules, followed by a biological analysis of the topological modules. The interaction mechanism was observed for only 10%~20% of the protein pairs because of incomplete PPI data. Furthermore, the data for noise interaction always existed in PPI; therefore, the number of biologically precise modules decreased according to topological community-detection methods. In this study, the protein complex data was incorporated into the PPI network to identify more biologically precise protein modules. K-Means clustering and non-negative matrix factorization algorithms were used to segregate the PPI network into different modules. Gene ontology (GO) and pathway analysis were conducted for each of these modules to quantify their biological significance. The results of the experiments showed that the modules detected by combining the protein complex and PPI network demonstrate a higher tendency to achieve larger homogeneity values compared with those detected using GO and pathway analysis.

PPI; protein complex; functional module; module detection; gene ontology; pathway

2016-03-18.

日期:2016-09-26.

國家自然科學基金項目(61105055,81230086).

劉光明.E-mail:guangmingliu @bjtu.edu.cn.

TP391

A

1673-4785(2016)05-0703-08

10.11992/tis.201603034

http://www.cnki.net/kcms/detail/23.1538.TP.20160926.0920.002.html

劉光明,楊柳,高盼盼,等.融合蛋白質復合體的人類蛋白互作網絡功能模塊發(fā)現(xiàn)[J]. 智能系統(tǒng)學報, 2016, 11(5):703-710.

英文引用格式:LIU Guangming,YANG Liu,GAO Panpan,et al.The functional module detection of PPI network by incorporating protein complex data [J]. CAAI transactions on intelligent systems, 2016,11(5):703-710.

猜你喜歡
同質性復合體功能模塊
基于同質性審視的高職應用型本科工程教育研究
職教論壇(2017年4期)2017-03-13 16:43:19
基于ASP.NET標準的采購管理系統(tǒng)研究
軟件導刊(2016年9期)2016-11-07 21:35:42
輸電線路附著物測算系統(tǒng)測算功能模塊的研究
M市石油裝備公服平臺網站主要功能模塊設計與實現(xiàn)
石油知識(2016年2期)2016-02-28 16:20:16
CoFe2O4/空心微球復合體的制備與吸波性能
理性程度的異質性:基于理論與實踐的考察
財經科學(2014年7期)2015-04-20 20:48:44
功能模塊的設計與應用研究
高等工程教育與高等職業(yè)教育的同質性
3種多糖復合體外抗腫瘤協(xié)同增效作用
食品科學(2013年15期)2013-03-11 18:25:51
日本西南部四國增生復合體中的錳礦分布
地球學報(2012年1期)2012-09-20 00:46:42
凤冈县| 深州市| 武城县| 稻城县| 罗定市| 鄂托克前旗| 北宁市| 南澳县| 五家渠市| 平江县| 苍溪县| 花莲市| 沽源县| 鄂尔多斯市| 宣恩县| 安顺市| 桂平市| 大方县| 黄陵县| 兴文县| 丹寨县| 长葛市| 龙泉市| 镇原县| 日土县| 通许县| 泽库县| 东兰县| 昔阳县| 嘉禾县| 聂拉木县| 安徽省| 海南省| 大理市| 双江| 包头市| 双城市| 乐昌市| 砀山县| 香港| 航空|