馬金龍 翟美靜
摘?要:
為了解決利用單一生物數(shù)據(jù)無法揭示復(fù)雜的生物過程和疾病機(jī)制的問題,提出了一種多信息融合的DGPMIF致病基因預(yù)測方法。首先,構(gòu)建一個具有疾病-表型、疾病-基因、蛋白質(zhì)-蛋白質(zhì)和基因-本體關(guān)聯(lián)的異構(gòu)網(wǎng)絡(luò),利用網(wǎng)絡(luò)嵌入算法提取該異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維向量表示,同時結(jié)合網(wǎng)絡(luò)拓?fù)渌惴ㄌ崛【W(wǎng)絡(luò)結(jié)構(gòu)特征。其次,利用余弦相似性算法衡量節(jié)點(diǎn)向量的相似性,預(yù)測疾病與基因之間的關(guān)系。最后,通過對特定疾病的案例進(jìn)行研究,并與經(jīng)典致病基因預(yù)測方法進(jìn)行對比,驗(yàn)證DGPMIF方法的有效性。結(jié)果表明:不同類型的關(guān)聯(lián)數(shù)據(jù)對增強(qiáng)致病基因預(yù)測性能具有重要作用;經(jīng)過多層次信息融合,提高了致病基因預(yù)測的預(yù)測性能。DGPMIF預(yù)測方法能夠高效挖掘網(wǎng)絡(luò)中蘊(yùn)含的信息,對相關(guān)疾病基因關(guān)聯(lián)的預(yù)測研究具有重要的參考價值。
關(guān)鍵詞:
人工智能其他學(xué)科;致病基因;異構(gòu)網(wǎng)絡(luò);信息融合;網(wǎng)絡(luò)嵌入;網(wǎng)絡(luò)結(jié)構(gòu)特征
中圖分類號:TP29?文獻(xiàn)標(biāo)識碼:A
DOI: 10.7535/hbgykj.2024yx01004
A disease-gene association prediction method of DGPMIF based on multi-information fusion
MA Jinlong, ZHAI Meijing
(School of Information Science and Engineering, Hebei University of Science and Technology, Shijiazhuang, Hebei 050018, China)
Abstract:
In order to solve the problem of being unable to reveal complex biological processes and disease mechanisms using only a single biological data, proposed a disease-causing gene prediction method, DGPMIF, adopting a multi-information fusion strategy. Firstly, a heterogeneous network with disease-phenotype, disease-gene, protein-protein and gene-ontology associations was constructed. The network embedding algorithm was used to extract the low-dimensional vector representation of the nodes in the heterogeneous network. At the same time, the network topology algorithm was combined to extract network structural characteristics. Secondly, the cosine similarity algorithm was used to measure the similarity of node vectors and predict the relationship between diseases and genes. Finally, the effectiveness of the DGPMIF method was verified through case studies of specific diseases and comparison with classic disease-causing gene prediction methods. The results show that different types of associated data play an important role in enhancing the prediction performance of disease-causing genes, and the predictive performance of disease-causing gene prediction is improved through multi-level information fusion. DGPMIF prediction method can efficiently mine the information contained in the network, and has important reference value for prediction research on gene association of related diseases.
Keywords:
other disciplines of artificial intelligence; disease-causing genes; heterogeneous network; information fusion; network embedding; network structural characteristics
對致病基因的研究在醫(yī)學(xué)研究中發(fā)揮著重要作用。在臨床中,眾多疾病顯現(xiàn)出深刻而復(fù)雜的表型特征,為明確這些疾病與基因的隱秘關(guān)聯(lián),需要對候選致病基因進(jìn)行精確鑒定[1]。傳統(tǒng)方法(如連鎖分析)能夠確定這些基因之間的關(guān)聯(lián),但對于涉及數(shù)百甚至更多基因的復(fù)雜疾病,則成本高昂且耗時長[2]。因此,計(jì)算方法顯得尤為關(guān)鍵。在過去的幾十年里,人們利用計(jì)算方法對疾病基因之間的關(guān)聯(lián)進(jìn)行了大量研究。
網(wǎng)絡(luò)表示能夠簡化復(fù)雜多樣的生物數(shù)據(jù),使得基于網(wǎng)絡(luò)的方法在預(yù)測疾病基因關(guān)聯(lián)方面越來越受歡迎[3]。諸多研究表明,與相同或相似疾病相關(guān)的基因通常在功能上相關(guān),并且它們在蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)(PPI)中彼此相鄰或接近[4]。GONZALEZ等[5]設(shè)計(jì)了一種計(jì)算致病基因的方法,觀察疾病相關(guān)蛋白質(zhì)之間的相互作用關(guān)系以及這些蛋白質(zhì)節(jié)點(diǎn)在網(wǎng)絡(luò)中的聚集傾向,利用蛋白質(zhì)相互作用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來識別致病基因。PPI網(wǎng)絡(luò)上的重啟隨機(jī)游走(RWR)用于預(yù)測致病基因,基于網(wǎng)絡(luò)中隨機(jī)游走過程,探索候選基因和種子基因之間的網(wǎng)絡(luò)鄰近性[6]。然而,PPI網(wǎng)絡(luò)數(shù)據(jù)的單一性使其難以全面反映疾病與基因之間的相關(guān)信息。因此,越來越多的研究采用異構(gòu)網(wǎng)絡(luò)來解決復(fù)雜的疾病基因預(yù)測問題。相比于同構(gòu)網(wǎng)絡(luò),異構(gòu)網(wǎng)絡(luò)在疾病基因預(yù)測方面提供了更全面、多樣化和上下文感知的信息,能更好地處理生物系統(tǒng)的復(fù)雜性,并提供更準(zhǔn)確的致病基因預(yù)測算法。RWRH算法是通過將RWR算法擴(kuò)展到疾病基因異構(gòu)網(wǎng)絡(luò)而生成的[6-7]。VANUNU等[8]提出了基于類似異構(gòu)網(wǎng)絡(luò)的PRINCE算法,該算法可用于對所有疾病的致病基因進(jìn)行全局優(yōu)先排序。與此同時,XIE等[9]還提出了雙隨機(jī)游走(BiRW)算法來實(shí)現(xiàn)這一任務(wù)。基于異構(gòu)數(shù)據(jù)類型,ZAKERI 等[10]提出了異構(gòu)數(shù)據(jù)融合,并已被證明是可行的。異構(gòu)網(wǎng)絡(luò)與多源信息的結(jié)合可以提供多維互補(bǔ)的信息表示,在疾病基因預(yù)測方面比同質(zhì)數(shù)據(jù)更有優(yōu)勢。
近年來,圖嵌入方法逐漸嶄露頭角,成為從網(wǎng)絡(luò)數(shù)據(jù)中挖掘有用信息的一種顯著方法。這一方法也被稱為網(wǎng)絡(luò)嵌入,其旨在生成節(jié)點(diǎn)表示,確保在短隨機(jī)步行距離內(nèi)的節(jié)點(diǎn)擁有相近的嵌入,并能自動學(xué)習(xí)疾病和基因的潛在特征或嵌入。例如,DeepWalk[11]、Node2vec[12]和 LINE[13]在學(xué)習(xí)嵌入方面表現(xiàn)出了出色的性能。隨后,一些研究人員通過整合新的網(wǎng)絡(luò)嵌入技術(shù)開展了相關(guān)工作。XIANG等[14]提出了一種利用快速網(wǎng)絡(luò)嵌入預(yù)測疾病相關(guān)基因的新方法PrGeFNE,該方法利用快速網(wǎng)絡(luò)嵌入算法從網(wǎng)絡(luò)中提取節(jié)點(diǎn)的低維表示,并重建雙層異構(gòu)網(wǎng)絡(luò)。然而,如何從異構(gòu)網(wǎng)絡(luò)中提取有價值的信息來準(zhǔn)確、快速地預(yù)測致病基因仍是當(dāng)前一項(xiàng)具有挑戰(zhàn)性和有意義的任務(wù)。
針對異構(gòu)網(wǎng)絡(luò)中的疾病基因預(yù)測問題,本研究提出一種創(chuàng)新性的多信息融合方法,即DGPMIF。首先,建立一個異構(gòu)網(wǎng)絡(luò),涵蓋多種關(guān)聯(lián),包括疾病基因關(guān)系和其他相關(guān)關(guān)聯(lián)。其次,運(yùn)用先進(jìn)的網(wǎng)絡(luò)嵌入算法,將這些關(guān)聯(lián)轉(zhuǎn)化為節(jié)點(diǎn)的特征表示,并融合網(wǎng)絡(luò)結(jié)構(gòu)特征。通過對多信息融合、先進(jìn)的網(wǎng)絡(luò)嵌入算法以及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征的綜合運(yùn)用,DGPMIF方法有望在異構(gòu)網(wǎng)絡(luò)中更全面地捕獲重要特征,進(jìn)一步推動疾病基因預(yù)測領(lǐng)域的研究進(jìn)程。
1?DGPMIF方法概述
DGPMIF方法框架如圖1所示。
首先,以疾病基因?yàn)楹诵?,將來自多個信息源的數(shù)據(jù)(包括疾病基因之間的關(guān)聯(lián)數(shù)據(jù)、疾病相關(guān)信息以及基因相關(guān)信息)整合到一個網(wǎng)絡(luò)中。這一步驟的關(guān)鍵在于綜合不同類型的信息以全面考慮各種關(guān)聯(lián)性。其次,采用先進(jìn)的網(wǎng)絡(luò)嵌入算法處理這個異構(gòu)網(wǎng)絡(luò),將其中的節(jié)點(diǎn)映射為低維向量表示。這些向量包含節(jié)點(diǎn)之間的關(guān)系信息,更準(zhǔn)確地描述節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置和作用,有助于捕捉節(jié)點(diǎn)之間復(fù)雜的關(guān)聯(lián)關(guān)系,同時,充分利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征。通過網(wǎng)絡(luò)拓?fù)渌惴ㄌ崛∨c節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置以及連接模式相關(guān)的信息,這一過程為節(jié)點(diǎn)的描述提供更多維度,能進(jìn)一步豐富特征表示。最后,采用余弦相似度算法對增強(qiáng)的低維向量表示進(jìn)行相似性計(jì)算,以量化節(jié)點(diǎn)之間的相似性。DGPMIF方法在異構(gòu)網(wǎng)絡(luò)中更為深入地捕獲關(guān)鍵特征,從而提高疾病基因預(yù)測的準(zhǔn)確性和綜合性。
2?DGPMIF方法預(yù)測關(guān)鍵環(huán)節(jié)
2.1?構(gòu)建異構(gòu)網(wǎng)絡(luò)
本文的數(shù)據(jù)集使用YANG等[15]提取的疾病基因異構(gòu)網(wǎng)絡(luò),包括4種類型的節(jié)點(diǎn):疾病、疾病表型、基因和基因本體,以及多種不同類型的相互關(guān)聯(lián)關(guān)系。子網(wǎng)絡(luò)的具體基本信息如表1所示。在獲取表1中4類子網(wǎng)絡(luò)的原始數(shù)據(jù)后,需要對其進(jìn)行預(yù)處理,檢查數(shù)據(jù)并刪除缺失值。然后通過疾病節(jié)點(diǎn)和基因節(jié)點(diǎn)作為中間節(jié)點(diǎn)連接,對所有節(jié)點(diǎn)進(jìn)行統(tǒng)一映射,以保證最終集成網(wǎng)絡(luò)的準(zhǔn)確性。本文構(gòu)建的異構(gòu)網(wǎng)絡(luò)可為研究提供多種生物數(shù)據(jù)的復(fù)雜關(guān)聯(lián),有助于深入研究疾病基因的預(yù)測和相關(guān)性分析。此外,構(gòu)成的網(wǎng)絡(luò)都是無權(quán)無向圖。
通過對上述疾病基因數(shù)據(jù)的分析和整合,本文重新定義了6個不同的網(wǎng)絡(luò),其中每個網(wǎng)絡(luò)捕捉了不同類型的關(guān)聯(lián)信息。這6個網(wǎng)絡(luò)如下:1)疾病基因關(guān)聯(lián)(DGA,簡稱DG);2)DGA和PPI(簡稱[CM(22]DGG);3)DGA和疾病表型關(guān)聯(lián)(DSA)(簡稱[CM)]DGS);4) DGG和基因本體關(guān)聯(lián)(GOA)(簡稱DGGG);5)DGS和GOA(簡稱DGSG);6) DGA,PPI,DSA,GOA (簡稱DGSGG)。通過構(gòu)建這些網(wǎng)絡(luò),可以更全面地研究不同類型信息在致病基因預(yù)測中的作用,為疾病研究提供更多維度和角度。
2.2?網(wǎng)絡(luò)嵌入算法
網(wǎng)絡(luò)嵌入算法是在處理復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的低維向量時的重要方法,廣泛應(yīng)用于可視化、節(jié)點(diǎn)分類、鏈接預(yù)測等多種任務(wù)中。圖2展示了網(wǎng)絡(luò)嵌入算法的流程圖。為了在疾病基因的復(fù)雜網(wǎng)絡(luò)中更好地捕獲和保留網(wǎng)絡(luò)結(jié)構(gòu),本文采用了4種不同的網(wǎng)絡(luò)嵌入算法,分別是DeepWalk[11]、Node2vec[12]、LINE[13]和 SDNE[17]。這些方法被用于提取節(jié)點(diǎn)向量,以更好地捕獲和保留網(wǎng)絡(luò)結(jié)構(gòu)。
1)DeepWalk?是一種基于隨機(jī)游走的網(wǎng)絡(luò)嵌入算法,其通過在網(wǎng)絡(luò)上執(zhí)行隨機(jī)游走模擬節(jié)點(diǎn)間的隨機(jī)漫步過程。通過對這些隨機(jī)游走序列應(yīng)用Word2vec等詞嵌入技術(shù),將節(jié)點(diǎn)映射到一個低維向量空間中,使其在該空間中相似的節(jié)點(diǎn)保持相近的向量表示。
2)Node2vec?是DeepWalk的擴(kuò)展,引入了參數(shù)控制隨機(jī)游走策略,使得可以在節(jié)點(diǎn)之間平衡探索局部和全局結(jié)構(gòu)。Node2vec能夠更好地捕獲節(jié)點(diǎn)的多樣性和上下文信息,從而生成更具信息豐富性的節(jié)點(diǎn)嵌入表示。
3)LINE?是一種基于一階和二階鄰居的網(wǎng)絡(luò)嵌入算法。其通過最大化節(jié)點(diǎn)之間的一階和二階鄰居之間的相似性學(xué)習(xí)節(jié)點(diǎn)的向量表示。該方法在保留網(wǎng)絡(luò)結(jié)構(gòu)信息的同時,能夠有效捕獲節(jié)點(diǎn)之間的高階關(guān)聯(lián)。
4)SDNE?是一種基于深度學(xué)習(xí)的網(wǎng)絡(luò)嵌入算法,通過自編碼器結(jié)構(gòu)學(xué)習(xí)節(jié)點(diǎn)的嵌入表示。SDNE在保持網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息的同時,能夠捕獲節(jié)點(diǎn)之間的非線性關(guān)系,使得其在處理復(fù)雜網(wǎng)絡(luò)時具有較強(qiáng)的表達(dá)能力。
在疾病基因網(wǎng)絡(luò)中,上述算法都以將網(wǎng)絡(luò)中的節(jié)點(diǎn)映射到低維向量空間為共同目標(biāo),有助于更深入地理解和分析網(wǎng)絡(luò)的結(jié)構(gòu)、以及節(jié)點(diǎn)之間的關(guān)系。
2.3?網(wǎng)絡(luò)結(jié)構(gòu)特征
網(wǎng)絡(luò)的結(jié)構(gòu)信息與節(jié)點(diǎn)屬性緊密相關(guān)。常見的拓?fù)浣Y(jié)構(gòu)指標(biāo)包括節(jié)點(diǎn)間的最短路徑、共同鄰居以及節(jié)點(diǎn)的度等。疾病基因網(wǎng)絡(luò)是一個異構(gòu)網(wǎng)絡(luò),與同構(gòu)網(wǎng)絡(luò)相比,其擁有更為豐富的結(jié)構(gòu)信息。為了進(jìn)一步提高預(yù)測性能,將網(wǎng)絡(luò)的拓?fù)湫畔⒓{入訓(xùn)練樣本的特征中是至關(guān)重要的。
本文對一些具有代表性的結(jié)構(gòu)特征進(jìn)行詳細(xì)闡述,并給出其基本定義,包括度(degree,D)、度中心性(degree centrality, DC)、聚類系數(shù)(cluster coefficient,CC)、介數(shù)(betweenness,B)[18]、介數(shù)中心性(between centrality,BC)[19]、緊密中心性(closeness centrality,Cc)[20]和特征向量中心性(eigenvector centrality,EC)[21]。 對于給定的網(wǎng)絡(luò)G=(V,E),V是節(jié)點(diǎn)集合,E是邊的集合,用N(i)表示網(wǎng)絡(luò)中節(jié)點(diǎn)i的所有鄰居節(jié)點(diǎn)的集合,V是網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)。網(wǎng)絡(luò)中節(jié)點(diǎn)i的度D(i)和度中心性DC(i)定義如下:
D(i)=N(i),(1)
DC(i)=D(i)V-1。(2)
節(jié)點(diǎn)i的聚類系數(shù)CC(i)的定義如下:
CC(i)=2E(i)K(i)·(K(i)-1),(3)
式中:E(i)表示節(jié)點(diǎn)之間的邊數(shù);K(i)表示一階鄰域中的節(jié)點(diǎn)數(shù)。
節(jié)點(diǎn)的介數(shù)中心性是一種全局幾何度量,能夠有效反映網(wǎng)絡(luò)中單個節(jié)點(diǎn)的重要性。節(jié)點(diǎn)i的介數(shù)中心性BC(i)見式(4)。
BC(i)=∑s≠i≠tσst(i)σst。(4)
式中:σst是從節(jié)點(diǎn)s到節(jié)點(diǎn)t的最短路徑總數(shù);σst(i)是經(jīng)過節(jié)點(diǎn)i的路徑數(shù)。
緊密中心性反映了節(jié)點(diǎn)與網(wǎng)絡(luò)內(nèi)其他節(jié)點(diǎn)的接近度。節(jié)點(diǎn)i的緊密中心性基于從該節(jié)點(diǎn)到網(wǎng)絡(luò)中所有其他節(jié)點(diǎn)的平均距離di。di的倒數(shù)定義為節(jié)點(diǎn)i的緊密中心性Cc(i),見式(5)、式(6)。
di=1n-1∑j≠idij,(5)
Cc(i)=1di=n-1∑j≠idij,(6)
式中:n表示節(jié)點(diǎn)i所屬的網(wǎng)絡(luò)中的節(jié)點(diǎn)總數(shù);dij表示節(jié)點(diǎn)i和j之間的最短距離。
一個節(jié)點(diǎn)的重要性不僅取決于其鄰居節(jié)點(diǎn)的數(shù)量(即該節(jié)點(diǎn)的度),還取決于其鄰居節(jié)點(diǎn)的重要性。與之相連的鄰居節(jié)點(diǎn)越重要,則該節(jié)點(diǎn)就越重要。xi是節(jié)點(diǎn)i的重要性度量,該節(jié)點(diǎn)的特征向量中心性EC(i)表示為
EC(i)= [WTHX]x[WTBX]i=c∑nj≠i[WTHX]a[WTBX]ij[WTHX]x[WTBX]j,(7)
式中:c表示一個比例常數(shù);[WTHX]a[WTBX]ij是網(wǎng)絡(luò)的鄰接矩陣。記[WTHX]x[WTBX]=[x1,x2,x3,...,xn]T,經(jīng)過多次迭代達(dá)到穩(wěn)態(tài)后,[WTHX]x[WTBZ]可以寫成如下矩陣形式:
[WTHX]x[WTBX]=c[WTHX]Ax[WTBX],(8)
式中:[WTHX]x[WTBX]表示的是矩陣[WTHX]A[WTBX]的特征值c-1對應(yīng)的特征向量。
本文整合了疾病與基因的關(guān)聯(lián)數(shù)據(jù)及其相關(guān)信息,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)的復(fù)雜性和多樣性。將網(wǎng)絡(luò)結(jié)構(gòu)特征與網(wǎng)絡(luò)嵌入算法所得到的向量表示進(jìn)行融合,作為致病基因預(yù)測的最終特征輸入。鑒于網(wǎng)絡(luò)中節(jié)點(diǎn)的結(jié)構(gòu)特征通常以相似度值的形式體現(xiàn),直接采用拼接的策略以用于特征信息的融合,進(jìn)一步提升疾病相關(guān)基因預(yù)測的精度和可靠性。
2.4?余弦相似度計(jì)算
通過重建低維向量表示來測量節(jié)點(diǎn)對(疾病和基因)的余弦相似度。以疾病基因?qū)Φ南嗨贫扔?jì)算為例,給定疾病vdx和基因vdy,N(vdx)和N(vdy)是它們的向量表示。 然后,根據(jù)余弦相似度算法,可以計(jì)算出疾病-基因?qū)Φ挠嘞蚁嗨贫?,算法如式?)所示:
cos(N(vdx),N(vdy))=cos(x,y)=x·yx·y。(9)
在應(yīng)用基于向量表示的余弦相似度算法后,網(wǎng)絡(luò)中疾病與基因?qū)Φ南嗨贫瓤梢员粶?zhǔn)確地計(jì)算出,從而測量它們之間的相關(guān)性。再將查詢的疾病與候選基因的相關(guān)性進(jìn)行排序,可以得到特定疾病的候選基因的排名列表。
3?實(shí)驗(yàn)與結(jié)果分析
3.1?實(shí)驗(yàn)環(huán)境
本文的全部實(shí)驗(yàn)均在Window10操作系統(tǒng)下完成,所有的代碼均使用Python編程語言實(shí)現(xiàn),并在PyCharm 集成開發(fā)環(huán)境下進(jìn)行編寫與調(diào)試,實(shí)驗(yàn)所使用的軟件環(huán)境和硬件環(huán)境的相關(guān)信息分別如表2與表3所示。
3.2?設(shè)置參數(shù)
固定超參數(shù)能夠確保不同網(wǎng)絡(luò)嵌入算法之間具有可比性,并增強(qiáng)實(shí)驗(yàn)結(jié)果的穩(wěn)定性,減少隨機(jī)性對性能評估的影響。因此,對每個網(wǎng)絡(luò)嵌入算法選擇固定的超參數(shù)。對于DeepWalk,隨機(jī)游走的步數(shù)設(shè)置為80,每個節(jié)點(diǎn)隨機(jī)游走次數(shù)為40,窗口大小為10,嵌入維度為128;Node2vec與DeepWalk的參數(shù)設(shè)置大致相同,同時還需要考慮控制隨機(jī)游走策略的2個超參數(shù)p和q,本文設(shè)置p=1.5和q=1.5;LINE方法中的參數(shù)設(shè)置包括一階鄰居和二階鄰居,采樣數(shù)都設(shè)置為5,負(fù)采樣率為0.5;SDNE的參數(shù)設(shè)置:隱層節(jié)點(diǎn)數(shù)為128,迭代次數(shù)為100次,其他參數(shù)默認(rèn)。
3.3?評價指標(biāo)
在評估疾病基因預(yù)測方法性能上,本文采用以下指標(biāo):準(zhǔn)確率(accuracy,AC)、精確率(precision,PR)、召回率(recall,RE)、F1得分(F1-score,F(xiàn)1)和曲線下面積(area under the curve,AUC)。這些指標(biāo)是評估分類器質(zhì)量的常用指標(biāo),可以更全面地評估疾病基因預(yù)測方法的性能,其中F1得分通常用于綜合考慮精確率和召回率,特別適合在正負(fù)樣本不平衡的情況下進(jìn)行評估。
3.4?疾病基因恢復(fù)實(shí)驗(yàn)與結(jié)果分析
為了評估網(wǎng)絡(luò)嵌入算法在邊缺失情況下的性能,將已知的邊模擬為缺失,然后嘗試恢復(fù)這些缺失的邊。這有助于評估算法在網(wǎng)絡(luò)重建和邊預(yù)測方面的效果,以及其對網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的理解程度。如果網(wǎng)絡(luò)嵌入算法能夠在恢復(fù)實(shí)驗(yàn)中表現(xiàn)出色,那么其通常也能在預(yù)測任務(wù)中表現(xiàn)得更好。
首先,為了模擬網(wǎng)絡(luò)中邊的缺失情況,本文通過從疾病基因異構(gòu)網(wǎng)絡(luò)中隨機(jī)刪除一些邊來實(shí)現(xiàn)。這些已刪除的邊為后續(xù)恢復(fù)實(shí)驗(yàn)的樣本。其次,采用多種網(wǎng)絡(luò)嵌入算法,如DeepWalk、Node2vec、LINE和SDNE,以學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)的低維向量表示。這些向量表示有助于更好地理解網(wǎng)絡(luò)結(jié)構(gòu)。最后,分別在 DG、DGG 和 DGS 網(wǎng)絡(luò)上進(jìn)行恢復(fù)實(shí)驗(yàn),利用學(xué)習(xí)到的節(jié)點(diǎn)向量表示,試圖恢復(fù)已刪除的邊。計(jì)算每個已刪除的邊樣本在向量空間中的相似度分?jǐn)?shù),并將這些分?jǐn)?shù)用于預(yù)測是否應(yīng)該將邊恢復(fù)。如果計(jì)算出的2個節(jié)點(diǎn)的相似度的值大于0.5,則將邊恢復(fù);若低于0.5,則視為2個節(jié)點(diǎn)無關(guān)聯(lián)。這一系列實(shí)驗(yàn)評估了不同算法在恢復(fù)任務(wù)上的性能,從而更深入地了解它們在疾病基因網(wǎng)絡(luò)中的表現(xiàn)。每種算法的恢復(fù)性能如表4所示,每種算法在同一網(wǎng)絡(luò)上的最佳性能以粗體標(biāo)記。由表4可知,Node2vec 算法對邊的恢復(fù)性能最好。因此,本文后續(xù)實(shí)驗(yàn)都是基于Node2vec算法。此外,使用DGS和DGG網(wǎng)絡(luò)算法比使用DG網(wǎng)絡(luò)算法表現(xiàn)更好,這表明考慮更多信息后(例如疾病表型關(guān)聯(lián)或PPI網(wǎng)絡(luò)),可以提高疾病基因關(guān)聯(lián)的恢復(fù)性能。
3.5?致病基因預(yù)測實(shí)驗(yàn)與結(jié)果分析
為了提高疾病基因的預(yù)測性能,本文選擇與疾病或基因緊密相關(guān)的數(shù)據(jù)源進(jìn)行融合,例如PPI、基因本體和疾病表型。然而,不適當(dāng)?shù)臄?shù)據(jù)融合也會導(dǎo)致不利影響。因此,研究來自不同數(shù)據(jù)源的信息融合如何影響疾病基因預(yù)測方法的性能很有必要。
通過采用疾病基因及其相關(guān)數(shù)據(jù)的各種組合方式,本研究構(gòu)建了6種不同的網(wǎng)絡(luò)(DG、DGG、DGS、DGGG、DGSG 和 DGSGG),并將這些網(wǎng)絡(luò)用作實(shí)驗(yàn)數(shù)據(jù)集。由于預(yù)測階段主要針對疾病與基因之間的相關(guān)性,因此在提取訓(xùn)練樣本的過程中,隨機(jī)選擇了疾病基因子網(wǎng)絡(luò)中50%的連邊,將它們作為正樣本,并從原網(wǎng)絡(luò)中移除了這些選定的連邊。處理后的網(wǎng)絡(luò)用于接下來的特征提取環(huán)節(jié)。首先,在預(yù)測階段,隨機(jī)抽取一定數(shù)量的負(fù)樣本,正負(fù)樣本的比例為1∶1。其次,為所有提取的樣本分配相應(yīng)的標(biāo)簽。最后,采用五折交叉驗(yàn)證的方法,將數(shù)據(jù)集劃分為5個子集。每次實(shí)驗(yàn),其中4個子集用于訓(xùn)練模型,而剩余的1個子集用于測試。為了確保實(shí)驗(yàn)的可靠性和魯棒性,更準(zhǔn)確地評估DGPMIF方法在預(yù)測任務(wù)中的性能,實(shí)驗(yàn)重復(fù)5次,每次使用不同的子集作為測試集。最終,取5次實(shí)驗(yàn)結(jié)果的平均值作為最終的性能評估結(jié)果。此外,其他子網(wǎng)不會被處理。獲得4類節(jié)點(diǎn)(疾病、基因、疾病表型、基因本體)的向量表示以及對應(yīng)的結(jié)構(gòu)特征后,根據(jù)節(jié)點(diǎn)類型進(jìn)行拼接,作為測試樣本的特征表示。為了結(jié)果的一致性,將結(jié)構(gòu)特征拼接在疾病或基因節(jié)點(diǎn)向量表示的后面。
表5展示了使用每個網(wǎng)絡(luò)的疾病基因預(yù)測方法的性能,并用粗體文本標(biāo)記了所有網(wǎng)絡(luò)中的最佳性能。
由表5可知,相較于DG網(wǎng)絡(luò),DGG網(wǎng)絡(luò)的AUC增加了0.017 1,而DGS網(wǎng)絡(luò)的AUC增加了0.019 3,表現(xiàn)出更優(yōu)的預(yù)測表現(xiàn)。然而,在DGG網(wǎng)絡(luò)和DGS網(wǎng)絡(luò)的基礎(chǔ)上,
整合基因本體信息的DGGG網(wǎng)絡(luò)和DGSG網(wǎng)絡(luò)的改進(jìn)效果并不顯著。同時,DGSGG網(wǎng)絡(luò)的AUC低于除DG網(wǎng)絡(luò)之外的其他4個網(wǎng)絡(luò)。顯然,納入更多信息的DGSGG網(wǎng)絡(luò)并沒有顯著改善預(yù)測結(jié)果,這表明疾病表型關(guān)聯(lián)和PPI網(wǎng)絡(luò)信息之間可能存在干擾。此外,在所有實(shí)驗(yàn)結(jié)果中,融合網(wǎng)絡(luò)結(jié)構(gòu)特征的DGSG(DGSG+SF)網(wǎng)絡(luò)(AUC:0.954 1,AC:90.21%,F(xiàn)1:0.913 2,PR:0.923 8,RE:0.902 9)取得了最佳性能。在同一網(wǎng)絡(luò)中,融合網(wǎng)絡(luò)結(jié)構(gòu)特征的評價指標(biāo)優(yōu)于僅使用向量表示。這說明網(wǎng)絡(luò)的結(jié)構(gòu)特征能夠增強(qiáng)網(wǎng)絡(luò)嵌入算法得到的向量表示,對提升預(yù)測效果具有積極作用。
3.6?與其他方法對比實(shí)驗(yàn)與結(jié)果分析
所提出的DGPMIF方法通過融合網(wǎng)絡(luò)結(jié)構(gòu)特征增強(qiáng)低維向量表示來預(yù)測潛在的致病基因。為了驗(yàn)證此方法的優(yōu)越性,通過引入RWRH[6]、RWR[7]、BiRW[8]、PRINCE[8]和CIPHER[22]5種經(jīng)典算法進(jìn)行比較。而在致病基因預(yù)測中,通常會有大量的候選基因,但實(shí)際上只有其中的一小部分是真正的致病基因。為了提高預(yù)測的精確性,將每種疾病相關(guān)的基因排名列表獲得后,選擇前k個基因(TOP@k)作為候選基因,其中k分別取值為3、5、10,并使用精確度和召回率作為評價標(biāo)準(zhǔn)。
融合網(wǎng)絡(luò)結(jié)構(gòu)特征的DGPMIF方法與其他方法的預(yù)測結(jié)果詳見表6。通過考察前k個候選基因的精確率和召回率可知,融合網(wǎng)絡(luò)特征算法在這2個評估指標(biāo)上的表現(xiàn)均優(yōu)于未融合網(wǎng)絡(luò)特征的算法。對比5種經(jīng)典基線方法發(fā)現(xiàn),RWRH展現(xiàn)了最佳性能。從表6中可以看到,當(dāng)k設(shè)定為3時,RWRH的PR值為0.323 4,RE值達(dá)到0.546 9。采用DGG網(wǎng)絡(luò)的預(yù)測性能低于RWRH,但DGG+SF網(wǎng)絡(luò)的預(yù)測性能高于RWRH,表明網(wǎng)絡(luò)特征的融合可以在一定程度上提高疾病基因預(yù)測的性能。采用DGSG+SF網(wǎng)絡(luò)取得了最好的性能,與DG網(wǎng)絡(luò)相比,PR@3和RE@3分別提高了0.108 5和0.239 3,表明選擇與疾病或基因密切相關(guān)的數(shù)據(jù)進(jìn)行有效整合能夠增強(qiáng)疾病基因預(yù)測。將其與RWRH相比,PR@3和RE@3分別提高了0.105 0和0.142 8,表明與經(jīng)典算法相比,多信息融合方法在疾病基因預(yù)測方面展現(xiàn)出了更為優(yōu)異的表現(xiàn)。綜合來看,無論k取何值,幾種典型方法的預(yù)測性能均低于融合網(wǎng)絡(luò)特征的多信息融合方法。因此,DGPMIF方法確實(shí)能夠有效提升預(yù)測潛在致病基因的性能。
3.7?案例研究與結(jié)果分析
通過計(jì)算某種疾病與數(shù)據(jù)集中所有基因之間的相關(guān)性得分,得到此疾病的候選基因排名列表。為了闡明生物學(xué)意義,使用 DGSG+SF網(wǎng)絡(luò)評估了DGPMIF對肺癌 (C0007120)和胰腺癌 (C0346647)這2種疾病的預(yù)測效果。這2種疾病的前20個預(yù)測基因如表7所示。首先,從數(shù)據(jù)集中篩選出這2種疾病已知的關(guān)聯(lián)基因,以此作為標(biāo)記數(shù)據(jù)進(jìn)行模型訓(xùn)練。其次,模型訓(xùn)練完畢后,將其應(yīng)用于數(shù)據(jù)集中剩余的未標(biāo)記基因數(shù)據(jù),計(jì)算這些基因與特定疾病的關(guān)聯(lián)概率,進(jìn)而對未知關(guān)聯(lián)基因進(jìn)行排序。為驗(yàn)證模型的預(yù)測效果,參考了MalaCards在線生物數(shù)據(jù)庫,并查閱了相關(guān)的科學(xué)文獻(xiàn),核實(shí)預(yù)測出的候選基因與特定疾病是否存在已知關(guān)聯(lián)。
就肺癌而言,前 20 個候選基因中的 DLEC1(排序?yàn)?)、PIK3CA(排序?yàn)?2) 和 PARK2 (排序?yàn)?4)是數(shù)據(jù)集中的已知基因(標(biāo)記為 TS)。此外,在MalaCards數(shù)據(jù)庫中,SLC22A18(排序?yàn)?)、MXRA5(排序?yàn)?)、IRF1(排序?yàn)?)、MAP3K8(排序?yàn)?)、BRAF(排序?yàn)?)、PPP2R1B(排序?yàn)?)、KRAS (排序?yàn)?)、ERBB2 (排序?yàn)?)、TERT (排序?yàn)?3)、MIR4435-2HG (排序?yàn)?6)、LNCR3 (排序?yàn)?7) 和 MAP2K2 (排序?yàn)?0) 是已知的肺癌基因(標(biāo)記為MC)。為了全面評估候選基因,對已發(fā)表的生物醫(yī)學(xué)文獻(xiàn)進(jìn)行檢索以進(jìn)行驗(yàn)證。排除未驗(yàn)證的KLLN(排序?yàn)?0)和RNF6(排序?yàn)?1),剩余3個基因UGT2B17(排序?yàn)?5)、MIR494(排序?yàn)?8)和RAD54L(排序?yàn)?9)(標(biāo)記為DG)可以得到佐證并有相應(yīng)的文獻(xiàn)證據(jù)。GALLAGHER等[23]指出,UGT2B17的缺失與女性的肺癌風(fēng)險顯著增加有關(guān)。此外,文獻(xiàn)[24]也提到了MIR494與非小細(xì)胞肺癌的相關(guān)性。
與此同時,有研究進(jìn)一步揭示了RAD54L在肺癌進(jìn)展中所扮演的角色[25]。
此外,文獻(xiàn)[26]揭示了TSG101在胰腺癌的發(fā)生和進(jìn)展中的核心作用。有研究強(qiáng)調(diào)了KLF6通過上調(diào)轉(zhuǎn)錄因子3 (ATF3)的激活從而抑制胰腺癌進(jìn)展的機(jī)制[27]。文獻(xiàn)[28]指出了DLC-1可能在胰腺癌的致病機(jī)制中扮演關(guān)鍵角色。文獻(xiàn)[29]進(jìn)一步印證了胰腺癌與HTRA1之間的聯(lián)系。這些研究表明,DGPMIF方法預(yù)測出的新基因在很大程度上與特定疾病真正相關(guān),從而為多信息融合策略的有效性提供了進(jìn)一步的支撐。
4?結(jié)?語
本文提出的DGPMIF方法,通過構(gòu)建疾病基因異構(gòu)網(wǎng)絡(luò),整合更多與疾病或基因相關(guān)的信息,應(yīng)用融合網(wǎng)絡(luò)結(jié)構(gòu)特征的方式,致力于解決異構(gòu)網(wǎng)絡(luò)中致病基因的預(yù)測問題。
1)DGPMIF方法聚合了多個重要的信息源,創(chuàng)建了一個綜合網(wǎng)絡(luò),涵蓋了疾病與基因的關(guān)聯(lián)信息以及其他相關(guān)信息,從而深度挖掘和理解了疾病與基因之間的復(fù)雜關(guān)系。
2)DGPMIF方法不僅僅局限于單一層面的網(wǎng)絡(luò)分析,而是通過融合多層面的網(wǎng)絡(luò)結(jié)構(gòu)特征,準(zhǔn)確捕捉和呈現(xiàn)了網(wǎng)絡(luò)中節(jié)點(diǎn)間的關(guān)系。這一多層面特征融合方法使得模型更加精準(zhǔn)地理解了網(wǎng)絡(luò)的動態(tài)和復(fù)雜性,為研究提供了新的思路和可能性。
DGPMIF方法在疾病預(yù)測中取得了優(yōu)異成績,結(jié)合其他生物醫(yī)學(xué)特征,如藥物靶點(diǎn)網(wǎng)絡(luò)、組織特異性網(wǎng)絡(luò)和基因表達(dá)等,或許能夠進(jìn)一步增強(qiáng)其預(yù)測能力。這是未來研究的新方向和研究重點(diǎn)。
參考文獻(xiàn)/References:
[1]
HINDORFF L A,SETHUPATHY P,JUNKINS H A,et al.Potential etiologic and functional implications of genome-wide association loci for human diseases and traits[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(23):9362-9367.
[2]?VASIGHIZAKER A,JALILI S.C-PUGP:A cluster-based positive unlabeled learning method for disease gene prediction and prioritization[J].Computational Biology and Chemistry,2018,76:23-31.
[3]?ZHANG Yan,XIANG Ju,TANG Liang,et al.Pgagp:Predicting pathogenic genes based on adaptive network embedding algorithm[J].Frontiers in Genetics13,2022,13:1087784.
[4]?BARABASI A L,GULBAHCE N,LOSCALZO J.Network medicine:A network-based approach to human disease[J].Nature Reviews Genetics,2011,12(1):56-68.
[5]?GONZALEZ M W,KANN M G.Protein interactions and disease[J].PLoS Computational Biology,2012,8(12):e1002819.
[6]?LI Yongjin,JAGDISH C P.Genome-wide inferring gene-pheno-type relationship by walking on the heterogeneous network[J].Bioinformatics,2010,26(9):1219-1224.
[7]?KHLER S,SEBASTIAN B,DENISE H,et al.Walking the interactome for prioritization of candidate disease genes[J].The American Journal of Human Genetics,2008,82(4):949-958.
[HJ1.9mm]
[8]?VANUNU O,MAGGER O,RUPPIN E,et al.Associating genes and protein complexes with disease via network propagation[J].PLoS Computational Biology,2010,6(1):e1000641.
[9]?XIE Maoqiang,HWANG T,RUI K.Prioritizing disease genes by bi-random walk[C]// Knowledge Discovery and Data Mining.Berlin:Springer,2012:292-302.
[10]ZAKERI P,ELSHAL S,MOREAU Y.Gene prioritization through geometric-inspired kernel data fusion[C]//2015 IEEE International Conference on Bioinformatics and Biomedicine (BIBM).Washington:IEEE,2015:1559-1565.
[11]PEROZZI B,AL-RFOU R,SKIENA S.DeepWalk:Online learning of social representations[C]//In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:Association for computing machinery,2014:701-710.
[12]GROVER A,LESKOVEC J.Node2vec:Scalable feature lear-ning for networks[C]// KDD ′16:Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l.]:[s.n.],2016:855-864.
[13]TANG Jian,QU Meng,WANG Mingzhe,et al.LINE:Large-scale information network embedding[C]// Proceedings of the 24th International Conference on World Wide Web.Florence:International World Wide Web Conferences Steering Committee,2015:1067-1077.
[14]XIANG Ju,ZHANG Ningrui,ZHANG Jiashuai,et al.PrGeFNE:Predicting disease-related genes by fast network embedding[J].Methods,2021,192:3-12.
[15]YANG Kuo,WANG Ruyu,LIU Guangming,et al.HerGePred:Heterogeneous network embedding representation for disease gene prediction[J].IEEE Journal of Biomedical and Health Informatics,2019,23(4):1805-1815.
[16]MENCHE J,SHARMA A,KITSAK M,et al.Disease networks[J].Uncovering Disease-disease Relationships Through the Incomplete Interactome.Science,2015,347(6224):1257601.
[17]WANG Daixin,PENG Cui,ZHU Wenwu.Structural deep network embedding[C]//In Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.[S.l]:ACM,2016:1225-1234.
[18]GOH K I,OH E,KAHNG B,et al.Betweenness centrality correlation in social networks[J].Physical Review E,2003,67(1/2):017101.
[19]BARTHELEMY M.Betweenness centrality in large complex networks[J].The European Physical Journal.B,2004,38(2):163-168.
[20]SALAVATI C,ABDOLLAHPOURI A,MANBARI Z.Ranking nodes in complex networks based on local structure and improving closeness centrality[J].Neurocomputing,2019,336:36-45.
[21]BONACICH P.Some unique properties of eigenvector centra-lity[J].Social Networks,2007,29(4):555-564.
[22]WU X B,JIANG R,ZHANG M Q,et al.Network-based global inference of human disease genes[J].Molecular Systems Biology,2008,4:189.
[23]GALLAGHER C J,MUSCAT J E,HICKS A N,et al.The UDP-glucuronosyltransferase 2B17 gene deletion polymorphism:Sex-specific association with urinary 4-(methylnitrosamino)-1-(3-pyridyl)-1-butanol glucuronidation phenotype and risk for lung cancer[J].Cancer Epidemiology Biomarkers & Prevention,2007,16(4):823-828.
[24]LU Bing,LYU Hong,YANG Zhiqiang,et al.LncRNA PCAT29 up-regulates the expression of PTEN by down-regulating miR-494 in non-small-cell lung cancer to suppress tumor progression[J].Critical Reviews in Eukaryotic Gene Expre-ssion,2021,31(6):9-15.
[25]LIU Changjiang,REN Wei,ZHANG Zhixin,et al.DNA repair/recombination protein 54L promotes the progression of lung adenocarcinoma by activating mTORC1 pathway[J].Human Cell,2023,36(1):421-433.
[26]ZHU Yufu,XU Yang,CHEN Tianze,et al.TSG101 promotes the proliferation,migration,and invasion of human glioma cells by regulating the AKT/GSK3 β/β-Catenin and RhoC/cofilin pathways[J].Molecular Neurobiology,2021,58(5):2118-2132.
[27]XIONG Qunli,ZHANG Zhiwei.YANG Yang,et al.Krüppel-like factor 6 suppresses the progression of pancreatic cancer by upregulating activating transcription factor 3[J].Journal of Clinical Medicine,2023,12(1):200.
[28]ZHENG Zhenjiang,TAN Chunlu,XIANG Guangming,et al.Deleted in liver cancer-1 inhibits cell growth and tumorigenicity in human pancreatic cancer[J].Oncology Letters,2013,6(2):521-524.
[29]CHENG Hao,ZHU Hao,CAO Meng,et al.HtrA1 suppresses the growth of pancreatic cancer cells by modulating Notch-1 expression[J].Brazilian Journal of Medical and Biological Research,2018,52(1):e7718.
收稿日期:2023-09-09;修回日期:2023-12-26;責(zé)任編輯:王淑霞
基金項(xiàng)目:河北省省級科技計(jì)劃資助項(xiàng)目(23550801D)
第一作者簡介:
馬金龍(1981—),男,河北定州人,副教授,博士,主要從事生物信息學(xué)方面的研究。
E-mail:mzjinlong@163.com
馬金龍,翟美靜.基于多信息融合的DGPMIF致病基因關(guān)聯(lián)預(yù)測方法
[J].河北工業(yè)科技,2024,41(1):27-35.
MA Jinlong, ZHAI Meijing. A disease-gene association prediction method of DGPMIF based on multi-information fusion
[J]. Hebei Journal of Industrial Science and Technology,2024,41(1):27-35.