王路寬 吳舜堯
摘要:基于“致病基因鄰居傾向于引起相似疾病”和“必需基因和致病基因關(guān)聯(lián)較少”的假設(shè),融合蛋白質(zhì)相互作用和代謝通路,構(gòu)建雙層生物分子網(wǎng)絡(luò),提出一種基于雙層生物分子網(wǎng)絡(luò)雙流量網(wǎng)絡(luò)傳播的致病基因排序方法。為致病基因和必需基因分配正流量和負(fù)流量,挖掘與已知致病基因相似的潛在致病基因。實(shí)驗(yàn)結(jié)果表明,本方法與基于經(jīng)典假設(shè)的單層網(wǎng)絡(luò)方法相比,在富集分?jǐn)?shù)1和富集分?jǐn)?shù)2分別提高11.66和13.66。
關(guān)鍵詞:致病基因預(yù)測(cè);網(wǎng)絡(luò)傳播;蛋白質(zhì)相互作用;代謝通路
中圖分類號(hào):TP391???????? 文獻(xiàn)標(biāo)志碼:A
人類基因組計(jì)劃的完成標(biāo)志后基因組時(shí)代到來(lái)[1]。相關(guān)研究表明,基因突變與變異是疾病發(fā)生的重要因素[2],大部分疾病都會(huì)受到遺傳變異的影響[3]。例如阿爾茲海默癥、糖尿病和乳腺癌等疾病通常是由一個(gè)或者一組基因突變引起的,這些基因被稱為致病基因[4]。識(shí)別致病基因是生物信息學(xué)領(lǐng)域的重要任務(wù)之一[5],有助于揭示遺傳疾病發(fā)病機(jī)理,提高疾病檢測(cè)[6]、預(yù)防及治療水平,還可為藥物研發(fā)提供靶標(biāo)[7]。致病基因預(yù)測(cè)一般可分為基因分類和基因排序?;蚍诸悓⒅虏』蝾A(yù)測(cè)轉(zhuǎn)化為二分類問(wèn)題,即將已知致病基因視為正樣本,隨機(jī)選擇一些未知基因(不確定是否為致病基因)作為負(fù)樣本,構(gòu)建二分類器判斷未知基因是否致病。Adie等[8]從基因序列中提取特征,利用決策樹構(gòu)建致病基因預(yù)測(cè)模型。Smalter等[9]從基因序列和蛋白質(zhì)拓?fù)浣Y(jié)構(gòu)中提取特征,采用支持向量機(jī)構(gòu)建致病基因預(yù)測(cè)模型。雖然基因分類取得了一定成果,但是在選擇未知基因做負(fù)樣本時(shí),若將未被發(fā)現(xiàn)的致病基因作為負(fù)樣本(假陰性樣本),這會(huì)干擾分類器的構(gòu)建[10]。基因排序則可以避免這一問(wèn)題,通常基于“致病基因的鄰居傾向引起相似疾病”經(jīng)典假設(shè)設(shè)計(jì)方法,給定一種疾病及其已知的致病基因,在蛋白質(zhì)相互作用等生物分子網(wǎng)絡(luò)中篩選與已知致病基因拓?fù)湎嗨菩愿叩暮蜻x基因。Kohler等[3]利用重啟隨機(jī)游走算法進(jìn)行基因排序,但僅利用了蛋白質(zhì)相互作用的數(shù)據(jù)。隨著高通量測(cè)序技術(shù)的快速發(fā)展,生命科學(xué)領(lǐng)域積累了大量的組學(xué)數(shù)據(jù),為致病基因預(yù)測(cè)帶來(lái)新的機(jī)遇和挑戰(zhàn)。Lage等[11]利用貝葉斯模型整合多源網(wǎng)絡(luò),提高了致病基因預(yù)測(cè)的可靠性,但無(wú)法識(shí)別與已知致病基因無(wú)連接的基因。Li等[12]基于二元網(wǎng)絡(luò)重啟游走算法實(shí)現(xiàn)致病基因的預(yù)測(cè),提高了預(yù)測(cè)準(zhǔn)確率,但沒(méi)有利用必需基因等其他組學(xué)數(shù)據(jù)。必需基因和其編碼的蛋白質(zhì)是維持人體生命活動(dòng)的基礎(chǔ),當(dāng)其受到影響時(shí)可能會(huì)導(dǎo)致嚴(yán)重疾病,甚至致死。Wu等[13]發(fā)現(xiàn)致病蛋白(致病基因編碼的蛋白質(zhì))與必需蛋白(必需基因編碼的蛋白質(zhì))的拓?fù)潢P(guān)聯(lián)較少,設(shè)計(jì)雙流量網(wǎng)絡(luò)傳播方法用于基因排序,提高了致病基因的預(yù)測(cè)效果,為基于多組學(xué)數(shù)據(jù)預(yù)測(cè)致病基因提供了新思路。以往研究缺乏對(duì)多種組學(xué)數(shù)據(jù)或者必需基因的利用,為此,本文使用蛋白質(zhì)相互作用和代謝通路等組學(xué)數(shù)據(jù),構(gòu)建兩層分子網(wǎng)絡(luò),采用雙流量網(wǎng)絡(luò)傳播,通過(guò)迭代更新達(dá)到穩(wěn)定狀態(tài),從而獲得基因排序以及預(yù)測(cè)的致病基因。
1 基于雙層生物分子網(wǎng)絡(luò)的致病基因預(yù)測(cè)
本文利用蛋白質(zhì)相互作用和代謝通路構(gòu)建雙層生物分子網(wǎng)絡(luò)。記雙層生物分子網(wǎng)絡(luò)為G=(V,E,L)。其中,V為節(jié)點(diǎn)集合,節(jié)點(diǎn)包括蛋白質(zhì)pi和基因gi。E為鏈路集合,包括網(wǎng)內(nèi)連邊和網(wǎng)間連邊。L為網(wǎng)絡(luò)層集合,包括蛋白質(zhì)網(wǎng)絡(luò)層LPPI和代謝通路網(wǎng)絡(luò)層LMP。E中任意一條鏈路均可表示為(u,v,Lα),其中u,
v∈V,Lα為該鏈路所屬的網(wǎng)絡(luò)層。Mp表示蛋白質(zhì)網(wǎng)絡(luò)的鄰接矩陣;Mg表示代謝通路網(wǎng)絡(luò)的鄰接矩陣;Mgp表示基因和蛋白質(zhì)對(duì)應(yīng)關(guān)系的鄰接矩陣;Mpg表示蛋白和基因?qū)?yīng)關(guān)系的鄰接矩陣。如圖1所示,上層LPPI為蛋白質(zhì)相互作用層,下層LMP為代謝通路層,兩層網(wǎng)絡(luò)通過(guò)基因編碼蛋白質(zhì)關(guān)系的映射。圖中候選蛋白質(zhì)p2、p3、p6與致病蛋白質(zhì)p4、p5有相互作用,傳統(tǒng)方法會(huì)認(rèn)為p2是致病蛋白質(zhì)??紤]到p2與必需蛋白質(zhì)關(guān)聯(lián)較多,違背了“必需基因與致病基因關(guān)聯(lián)少”的假設(shè)[14],而p3與必需蛋白質(zhì)關(guān)聯(lián)較少,因此降低誤認(rèn)為蛋白質(zhì)p2為致病蛋白質(zhì)的可能性,并使正確識(shí)別p3成為致病蛋白質(zhì)的可能。
基于雙層生物分子網(wǎng)絡(luò)設(shè)計(jì)一種雙流量網(wǎng)絡(luò)傳播方法。雙層網(wǎng)絡(luò)傳播[15]分別從LPPI中節(jié)點(diǎn)p和LMP層節(jié)點(diǎn)g出發(fā),連續(xù)將流量分配給鄰居節(jié)點(diǎn)(同層或者異層)。每個(gè)時(shí)間戳,節(jié)點(diǎn)將流量平均分配給鄰居。假設(shè)節(jié)點(diǎn)x擁有1單位的流量,則向其鄰居傳送的流量為Wx,y=M(x,y)/d(x),d(x)是節(jié)點(diǎn)x的度,M表示鄰接矩陣,W為M的歸一化矩陣。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)評(píng)估節(jié)點(diǎn)與節(jié)點(diǎn)x的相似性。網(wǎng)絡(luò)傳播定義為
Ft+1=1-λWFt+λY(1)
其中,F(xiàn)t是一個(gè)向量,記錄節(jié)點(diǎn)在時(shí)間戳t時(shí)擁有的流量,Y是先驗(yàn)信息,λ是控制Y重要程度參數(shù),F(xiàn)0=Y。雙層生物分子網(wǎng)絡(luò)中存在蛋白質(zhì)和基因兩種屬性的節(jié)點(diǎn),其鄰接矩陣定義為
M=(1-α)MpαMpg(MgpMpg)αMgp(MpgMgp)(1-α)Mg(2)
其中,參數(shù)α為L(zhǎng)PPI層和LMP層中分發(fā)流量概率;1-α為停留在上一時(shí)刻概率。若Ft=Ft+1,代入式(1)得
Ft+1=λ(I-1-λW)-1Y(3)
記λ(I-1-λM)-1為S,S(x, y)表示節(jié)點(diǎn)x和節(jié)點(diǎn)y的相似性,α和λ依據(jù)經(jīng)驗(yàn)設(shè)置為0.5。
基于“致病基因鄰居很有可能導(dǎo)致相同或者相似的疾病”經(jīng)典假設(shè),該方法為“NPMD”,給定一種疾病n及其已知的致病基因集合Tn,編碼蛋白質(zhì)集合Pn。設(shè)置先驗(yàn)信息
Y=μ0ν0(4)
其中,μ0為L(zhǎng)PPI初始化向量,若μi為致病蛋白質(zhì),則μ0i=1Pn。v0為L(zhǎng)MP初始化向量,若vi為致病基因,則v0i=1Tn。候選基因x與致病基因的相似性
Ft+1=∑y∈TnS(x,y)(5)
融合“致病基因鄰居很有可能導(dǎo)致相同或者相似的疾病”和“必需基因與致病基因關(guān)聯(lián)較少”兩個(gè)假設(shè),該方法稱為“NPMD&E”。本文將正流量分配給致病基因(蛋白質(zhì)),將負(fù)流量分配給非致病必需基因(蛋白質(zhì)),設(shè)置先驗(yàn)信息Y,式(4)中,非致病必需基因(D∩E),編碼蛋白質(zhì)有m個(gè),若μi為致病蛋白質(zhì),則μ0i=1Pn,若μj為非致病必需蛋白質(zhì),則μ0j=1m,若vi為致病基因,則v0i=1Tn,若vj為非致病必需基因,則v0j=1|D∩E|。候選基因排序
Ft+1=1Tn∑y∈TnS(x,y)-1|D∩E|∑y∈D∩ES(x,y)(6)
2 實(shí)驗(yàn)設(shè)計(jì)
2.1 數(shù)據(jù)
蛋白質(zhì)相互作用(Protein-Protein Interaction,PPI)數(shù)據(jù)來(lái)源于I2D和String[16]數(shù)據(jù)庫(kù)。蛋白質(zhì)互作網(wǎng)絡(luò)中含有16 456個(gè)節(jié)點(diǎn)和153 578個(gè)連邊,用鄰接矩陣Mp表示。代謝通路數(shù)據(jù)來(lái)源于京都基因和基因組百科全書(KEGG),通過(guò)基因組測(cè)序和高通量實(shí)驗(yàn)技術(shù)整合了基因組、化學(xué)和系統(tǒng)功能信息的大規(guī)模分子數(shù)據(jù)庫(kù)[17]。代謝通路中含有6 329個(gè)節(jié)點(diǎn)和56 759個(gè)連邊,用鄰接矩陣Mg表示。從Uniprot數(shù)據(jù)庫(kù)[18]獲取基因編碼蛋白質(zhì)映射關(guān)系。構(gòu)建兩層網(wǎng)絡(luò)間的連邊,雙層生物分子網(wǎng)絡(luò)中包含16 456個(gè)蛋白質(zhì)節(jié)點(diǎn)和6 329個(gè)基因節(jié)點(diǎn),經(jīng)過(guò)分析得到蛋白質(zhì)和基因之間直接相連的邊有5 699條。
疾病的致病基因從孟德?tīng)栠z傳數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)[19]獲得,選取通過(guò)醫(yī)學(xué)驗(yàn)證的9個(gè)疾病及其致病基因如表1所示。必需基因普遍存在于正常組織和細(xì)胞中,對(duì)于個(gè)體生命的正常生命活動(dòng)很重要。相關(guān)研究表明致病基因?qū)Ρ匦杌虻挠绊懪c其他基因相似,甚至更弱,這表明當(dāng)基因發(fā)生突變時(shí),可以最大限度地保護(hù)人體的正?;顒?dòng)。本文選用持家基因作為必需基因[20]。
2.2 評(píng)價(jià)標(biāo)準(zhǔn)
富集分?jǐn)?shù)(Enrichment Score,ES)[3]是基因優(yōu)先排序的典型評(píng)價(jià)指標(biāo)。選擇一個(gè)致病基因作為測(cè)試基因,候選基因列表是選擇同一染色體上該基因最接近的100個(gè)基因。若分配給測(cè)試基因的最終排在第r位,則富集分?jǐn)?shù)為50/r。若具有相同的流量,則測(cè)試基因排在最后。若測(cè)試基因不在網(wǎng)絡(luò)中,評(píng)分為100(富集分?jǐn)?shù)為0.5)。包含不在網(wǎng)絡(luò)中的致病基因稱為“富集分?jǐn)?shù)1”,剔除不在網(wǎng)絡(luò)中的致病基因稱為“富集分?jǐn)?shù)2”。接收者操作特征曲線(Receiver Operating Characteristic Curve,ROC)能有效地估計(jì)二進(jìn)制分類器的性能。通過(guò)設(shè)置等級(jí)閾值,認(rèn)為基因優(yōu)先排序是二進(jìn)制分類[21]。ROC曲線下的面積(Area Under Curve,AUC),通過(guò)給定的閾值評(píng)價(jià)該方法的敏感性和特異性。實(shí)驗(yàn)中采用留一交叉驗(yàn)證,給定一種疾病和相應(yīng)的致病基因(假設(shè)致病基因總數(shù)為n),依次選擇每個(gè)致病基因作為測(cè)試集,剩下的n-1個(gè)致病基因作為訓(xùn)練集,通過(guò)富集分?jǐn)?shù)和AUC分析[21]評(píng)估預(yù)測(cè)致病基因的性能。
2.3 實(shí)驗(yàn)結(jié)果及分析
從OMIM數(shù)據(jù)庫(kù)選用9種遺傳疾病的致病基因,對(duì)比預(yù)測(cè)效果,如表2所示。在橢圓細(xì)胞增多癥、掌跖角化病和阿爾茨海默癥疾病的致病基因預(yù)測(cè)能夠達(dá)到50,但在非胰島素依賴型糖尿病和青年發(fā)病的成年型糖尿病提升效果不明顯,總體NPMD&E的預(yù)測(cè)效果明顯優(yōu)于其他方法。
采用AUC、平均富集分?jǐn)?shù)1(AVE ES 1)和平均富集分?jǐn)?shù)2(AVE ES 2)進(jìn)一步評(píng)價(jià)方法性能。平均富集分?jǐn)?shù)1表示選取疾病所得富集分?jǐn)?shù)1的平均值,平均富集分?jǐn)?shù)2表示選取疾病所得富集分?jǐn)?shù)2的平均值。如表2和表3所示,基于假設(shè)“必需蛋白與致病蛋白關(guān)聯(lián)較少”,NPD&E預(yù)測(cè)效果優(yōu)于單層網(wǎng)絡(luò)的NPD,平均富集分?jǐn)?shù)1和平均富集分?jǐn)?shù)2分別提高了4.71和4.89,NPMD&E相比NPMD在平均富集分?jǐn)?shù)1和平均富集分?jǐn)?shù)2分別提高了11.77和13.34,表明考慮必需基因有利于提高預(yù)測(cè)準(zhǔn)確率。雙層生物分子網(wǎng)絡(luò)NPMD&E比單層蛋白質(zhì)網(wǎng)絡(luò)NPD&E的提高了11.66和13.66,說(shuō)明引入代謝的組學(xué)數(shù)據(jù)、構(gòu)造雙層生物分子網(wǎng)絡(luò)可有效提高致病基因的預(yù)測(cè)效果。
圖2中NPMD曲線下的面積要大于NPD,表明引入代謝通路可有效提高致病基因的預(yù)測(cè)準(zhǔn)確率。NPD&E的AUC要大于NPD和NPMD,表明兼顧“致病基因鄰居很有可能導(dǎo)致相同或者相似的疾病”和“必需蛋白與致病蛋白關(guān)聯(lián)較少”兩種假設(shè)可有效提高致病基因的預(yù)測(cè)效果。NPMD&E性能明顯優(yōu)于NPMD、NPD&E和NPD 3種方法,表明雙層生物網(wǎng)絡(luò)中引入“必需蛋白與致病蛋白關(guān)聯(lián)較少”假設(shè)可進(jìn)一步提升致病基因預(yù)測(cè)效果。
3 結(jié)論
本文提出基于雙層生物分子網(wǎng)絡(luò)的致病基因預(yù)測(cè)方法,運(yùn)用蛋白質(zhì)相互作用和代謝通路組學(xué)數(shù)據(jù),利用致病基因和必需基因在網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)差異性,采用正、負(fù)流量的網(wǎng)絡(luò)傳播預(yù)測(cè)致病基因。對(duì)比實(shí)驗(yàn)結(jié)果,本方法的AUC、富集分?jǐn)?shù)1和富集分?jǐn)?shù)2分別為0.86、28.66和31.16,提高了致病基因預(yù)測(cè)效果。今后將充分利用其他組學(xué)數(shù)據(jù)如疾病表型、基因調(diào)控和蛋白質(zhì)復(fù)合物預(yù)測(cè)其他疾病的致病基因。
參考文獻(xiàn)
[1]夏啟中. 基因工程[M]. 北京:高等教育出版社, 2017.
[2]KABIR M T, UDDIN M S, SETU J R, et al. Exploring the role of PSEN mutations in the pathogenesis of Alzheimer’s disease[J]. Neurotoxicity Research, 2020,38(4): 833-849.
[3]KOHLER S, BAUER S, HORN D, et al. Walking the interactome for prioritization of candidate disease genes[J]. American Journal of Human Genetics, 2008, 82(4): 949-958.
[4]PIRO R M, DI CUNTO F. Computational approaches to disease-gene prediction: Rationale, classification and successes[J]. Febs Journal, 2012, 279(5): 678-696.
[5]劉麗麗, 張紹武. 基于隨機(jī)游走的風(fēng)險(xiǎn)致病基因預(yù)測(cè)研究進(jìn)展[J]. 生物化學(xué)與生物物理進(jìn)展:2021,48(10):1184-1195.
[6]沈倩倩, 邵峰晶, 孫仁誠(chéng). 基于XGBoost的乳腺癌預(yù)測(cè)模型[J]. 青島大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 32(1):95-100.
[7]LUO P, TIAN L P, RUAN J S, et al. Disease gene prediction by integrating PPI networks, clinical RNA-Seq data and OMIM data[J]. IEEE-ACM Transactions on Computational Biology and Bioinformatics, 2019,16(1): 222-232.
[8]ADIE E A, ADAMS R R, EVANS K L, et al. Speeding disease gene discovery by sequence based candidate prioritization[J]. Biomed Central Bioinformatics, 2005, 6:55.
[9]SMALTER A, LEI S F, CHEN X W. Human disease-gene classification with integrative sequence-based and topological features of protein-protein interaction networks[C] // 2007 IEEE International Conference on Bioinformatics and Biomedicine, Fremont, 2007:209-214.
[10] NGUYEN T P, HO T B. Detecting disease genes based on semi-supervised learning and protein-protein interaction networks[J]. Artificial Intelligence in Medicine, 2012, 54(1):63-71.
[11] LAGE K, KARLBERG E O, STORLING Z M, et al. A human phenome-interactome network of protein complexes implicated in genetic disorders[J]. Nature Biotechnology, 2007, 25(3):309-316.
[12] LI Y J, PATRA J C. Genome-wide inferring gene-phenotype relationship by walking on the heterogeneous network[J]. Bioinformatics, 2010, 26(9) :1219-1224.
[13] WU S Y, SHAO F J, JI J, et al. Network propagation with dual flow for gene prioritization[J]. Plos One, 2015, 10(2): e0116505.
[14] WU S Y, SHAO F J, SUN R C, et al. Analysis of human genes with protein-protein interaction network for detecting disease genes[J]. Physica A: Statistical Mechanics and its Applications, 2014, 398:217-228.
[15] VANUNU O, MAGGER O, RUPPIN E, et al. Associating genes and protein complexes with disease via network propagation[J]. PLOS Computational Biology, 2010, 6(1): e1000641.
[16] SZKLARCZYK D, GABLE A L, NASTOU K C, et al. The string database in 2021: Customizable protein-protein networks, and functional characterization of user-uploaded gene/measurement sets[J]. Nucleic Acids Research, 2021, 49(D1): D605-D612.
[17] KANEHISA M, FURUMICHI M, TANABE M, et al. KEGG: New perspectives on genomes, pathways, diseases and drugs[J]. Nucleic Acids Research, 2017, 45(D1): D353-D361.
[18] 羅靜初. UniProt蛋白質(zhì)數(shù)據(jù)庫(kù)簡(jiǎn)介[J]. 生物信息學(xué), 2019, 17(3):131-144.
[19] AMBERGER J S, HAMOSH A. Searching online mendelian inheritance in man (OMIM): A knowledgebase of human genes and genetic phenotypes[J]. Current Protocols in Bioinformatics, 2017, 58: 1.2.1-1.2.12.
[20] CHANG C W, CHENG W C, CHEN C R, et al. Identification of human housekeeping genes and tissue-selective genes by microarray meta-analysis[J]. PLoS One, 2017, 6(7): e22859.
[21] GUALA D, SONNHAMMER E L L. A large-scale benchmark of gene prioritization methods[J]. Scientific Reports, 2017, 7: 46598.
Disease Gene Prediction Based in Two-layer Biomolecular Network
WANG Lu-kuan, WU Shun-yao
(School of Computer Science and Technology,Qingdao University,Qingdao 266071,China)
Abstract:
Based on the hypothesis that "the neighbors of pathogenic genes tend to cause similar diseases" and "the essential genes and disease genes are less related", a two-layer biomolecular network was constructed by fusing protein interaction and metabolic pathways. A method of sequencing disease genes? was proposed based on two-layer biomolecular network and dual flows network transmission. Positive flow and negative flow were allocated for disease genes and essential genes and potential pathogenic genes similar to known pathogenic genes were mined. Experimental results show that this method compared with single network method based on the classical assumptions, the enrichment score 1 and enrichment score 2 increased by 11.66 and 13.66 respectively.
Keywords:
disease gene prediction; network propagation; protein-protein interaction; metabolic pathway
收稿日期:2021-04-28
基金項(xiàng)目:
山東省自然科學(xué)基金(批準(zhǔn)號(hào):ZR2019PF012)資助;山東省高等學(xué)校科技計(jì)劃(批準(zhǔn)號(hào):J18KA356)資助。
通信作者:
吳舜堯,男,博士,講師,主要研究方向數(shù)據(jù)挖掘與復(fù)雜網(wǎng)絡(luò)。E-mail:wushunyao@qdu.edu.cn
2348501186342