唐 智 劉志明 羅凌云 歐陽(yáng)純萍 萬(wàn)亞平
(南華大學(xué)計(jì)算機(jī)學(xué)院 衡陽(yáng) 421001)
基因本體(Gene Ontology,GO)是生物醫(yī)學(xué)領(lǐng)域最成功的本體之一,為描述基因(基因產(chǎn)物)的分子功能、生物過(guò)程等相關(guān)信息提供一個(gè)規(guī)范、準(zhǔn)確的術(shù)語(yǔ)集,目前被廣泛應(yīng)用于生物醫(yī)學(xué)相關(guān)研究領(lǐng)域[1]。主要體現(xiàn)在基因功能比較與分析、蛋白質(zhì)相互作用預(yù)測(cè)、基因集合富集分析等諸多領(lǐng)域,由此成為不可或缺的生物醫(yī)學(xué)本體?;虮倔w最初由基因本體組織(Gene Ontology Consortium)于1998年建立[2]。隨著基因本體的發(fā)展,越來(lái)越多的模式生物數(shù)據(jù)庫(kù)加入基因本體組織中,包括大多數(shù)主要的植物、動(dòng)物和微生物數(shù)據(jù)庫(kù),截至目前基因本體已經(jīng)能夠?yàn)?00多個(gè)物種提供注釋信息[3]。
在生物學(xué)中,從特定的功能信息出發(fā),查找與其功能相似或者相關(guān)的蛋白質(zhì),對(duì)這些蛋白質(zhì)間關(guān)聯(lián)程度進(jìn)行比較量化是生物信息學(xué)研究中經(jīng)常遇到的問(wèn)題[4]。然而功能相似或者相關(guān)的蛋白質(zhì)并不一定具有較強(qiáng)的序列上的相似性,基因本體的出現(xiàn)為解決這一問(wèn)題提供新的途徑。研究表明如果兩個(gè)基因產(chǎn)物的功能相似,那么它們?cè)贕O中注釋的術(shù)語(yǔ)就越相近[5]。所以GO應(yīng)用的一個(gè)重要方面就是對(duì)術(shù)語(yǔ)語(yǔ)義的相似性進(jìn)行度量,從而計(jì)算基因產(chǎn)物的相似度[6]。為更好地計(jì)算術(shù)語(yǔ)的相似度,本文提出一種基于融合高斯核函數(shù)的重啟隨機(jī)游走的基因本體術(shù)語(yǔ)相似度算法RWRSM。
近年來(lái)高通量生物學(xué)技術(shù)的顯著改進(jìn)導(dǎo)致生物學(xué)數(shù)據(jù)的指數(shù)增加?;虮倔w是用于解釋生物實(shí)驗(yàn)結(jié)果的最流行的生物信息學(xué)資源之一。GO提供結(jié)構(gòu)化、受控制的術(shù)語(yǔ)詞匯表,通過(guò)分子功能、生物過(guò)程和細(xì)胞成分3種屬性來(lái)描述基因[7]。在每個(gè)類(lèi)別中術(shù)語(yǔ)被構(gòu)造為有向無(wú)環(huán)圖(Directed Acyclic Graph,DAG)?;贕O的語(yǔ)義相似性已成功應(yīng)用于許多研究領(lǐng)域,如基因功能預(yù)測(cè)[8]、基因網(wǎng)絡(luò)分析[9-10]、同源性分析[11]、基因關(guān)聯(lián)可視化[12]和缺失價(jià)值估算[13-14]?;诨虮倔w來(lái)計(jì)算基因功能相似性的方法[15-20]可分為4種類(lèi)型:基于路徑長(zhǎng)度的方法、基于節(jié)點(diǎn)信息的方法、綜合方法和基于基因功能網(wǎng)絡(luò)的方法?;诼窂介L(zhǎng)度的方法通過(guò)考慮GO拓?fù)浣Y(jié)構(gòu)信息[21]來(lái)計(jì)算相似度。最近提出的方法稱(chēng)為相對(duì)特異性相似性(Relative Specificity Similarity,RSS),考慮兩種類(lèi)型的長(zhǎng)度信息:從給定術(shù)語(yǔ)對(duì)到其最接近的葉子術(shù)語(yǔ)的邊長(zhǎng)和到最低共同祖先(Lowest Common Ancestor,LCA)節(jié)點(diǎn)的邊長(zhǎng)關(guān)系。但是基于邊緣的方法完全依賴(lài)于基因本體的拓?fù)浣Y(jié)構(gòu)。這種方法不能在相同的拓?fù)渌缴蠀^(qū)分術(shù)語(yǔ)。對(duì)于基于節(jié)點(diǎn)的方法,這些方法依賴(lài)于特定的分類(lèi)法。該方法利用信息量最大的共同祖先(Most Informative Common Ancestor,MICA)的信息內(nèi)容(Information Content,IC)來(lái)測(cè)量?jī)蓚€(gè)GO術(shù)語(yǔ)之間的相似性[22]。評(píng)估測(cè)試顯示結(jié)果與蛋白質(zhì)序列相似性一致,但是基于節(jié)點(diǎn)的方法僅考慮注釋?zhuān)雎訥O的拓?fù)湫畔ⅰT诰C合組中,提出在GO中使用更多信息的方法?;旌舷鄬?duì)特異性相似度(Hybrid Relative Specificity Similarity,HRSS)使用4種類(lèi)型的信息(信息內(nèi)容、結(jié)構(gòu)拓?fù)洹⒆⑨尯蚆ICA)來(lái)計(jì)算語(yǔ)義相似性[21]。InteGO方法提出一種基于秩的方法來(lái)整合多種現(xiàn)有相似性方法,稱(chēng)為種子方法,以考慮GO的更多方面[16]。InteGO2方法通過(guò)投票方法從一組方法中選擇最合適的方法,并基于元啟發(fā)式搜索方法[12]整合這些選定的方法。評(píng)估測(cè)試表明綜合方法比種子方法表現(xiàn)更好。但是所有這些方法都只基于GO結(jié)構(gòu)信息,忽略GO的不準(zhǔn)確表示和缺失的信息等問(wèn)題。如只有37%的擬南芥基因具有GO的所有3個(gè)結(jié)構(gòu)域的實(shí)驗(yàn)注釋[23]。因此GO中的不完整信息可能導(dǎo)致低質(zhì)量的相似性。
最近提出一種基于網(wǎng)絡(luò)的計(jì)算方法(Network-based Similarity Measure,NETSIM),通過(guò)整合基因關(guān)聯(lián)和GO拓?fù)浣Y(jié)構(gòu)和注釋來(lái)解決這些問(wèn)題[18]?;诖x反應(yīng)圖的實(shí)驗(yàn)表明通過(guò)結(jié)合基因關(guān)聯(lián)可以增強(qiáng)語(yǔ)義相似性,但NETSIM只考慮網(wǎng)絡(luò)中的直接鏈路,使計(jì)算過(guò)程中只使用基因協(xié)同功能網(wǎng)絡(luò)中的部分信息,實(shí)際上除直接連接的基因?qū)ν膺€應(yīng)考慮基因功能網(wǎng)絡(luò)中包含的間接基因相互作用。因此一種新的基于網(wǎng)絡(luò)的NETSIM2被提出,通過(guò)隨機(jī)游走的方法考慮基因協(xié)同網(wǎng)絡(luò)中的直接和間接相互作用,代謝反應(yīng)圖的實(shí)驗(yàn)表明結(jié)果遠(yuǎn)高于之前所有算法,但是NETSIM2方法測(cè)量出的LFC值不夠穩(wěn)定,大部分LFC值很小。為解決這個(gè)問(wèn)題本文通過(guò)使用高斯核函數(shù)來(lái)計(jì)算邊權(quán)重,生成歸一化加權(quán)矩陣PT,通過(guò)隨機(jī)游走算法得到每對(duì)基因之間的相關(guān)性得分。最后基于NETSIM2原有算法計(jì)算術(shù)語(yǔ)對(duì)相似度。與之前方法相比本文算法融合高斯核函數(shù)與隨機(jī)游走計(jì)算基因相關(guān)性得分,以考慮直接和間接的交互,通過(guò)有效地整合基因功能網(wǎng)絡(luò)大大提高LFC值的穩(wěn)定性。
3.1.1 生成隨機(jī)游走圖 重啟隨機(jī)游走圖構(gòu)建基本思路是: 將訓(xùn)練集合D中的每個(gè)訓(xùn)練數(shù)據(jù)d∈D映射為圖中的一個(gè)點(diǎn), 根據(jù)兩點(diǎn)之間的相關(guān)程度決定是否用邊將兩點(diǎn)相連。為方便求解, 一般構(gòu)建成完全圖, 將兩點(diǎn)之間的相似度作為邊的權(quán)重。當(dāng)兩點(diǎn)之間的相似度很小或者為0時(shí), 節(jié)點(diǎn)之間邊的權(quán)重做零值處理。假設(shè)加權(quán)圖用G=(V,E)表示,V是圖G中的節(jié)點(diǎn)集合,E是圖G中邊的集合, 其中節(jié)點(diǎn)個(gè)數(shù)為n。邊權(quán)重使用高斯核函數(shù)計(jì)算, 公式如下:
(1)
其中σ是個(gè)參數(shù)變量,經(jīng)驗(yàn)設(shè)定σ=∑i≠i||xi-yi||/[n(n-1)]。dij為兩個(gè)圖像節(jié)點(diǎn)之間的歐式距離,表示為:
(2)
3.1.2 隨機(jī)游走過(guò)程 在使用重啟隨機(jī)游走算法之前先根據(jù)權(quán)重矩陣計(jì)算圖G的概率轉(zhuǎn)移矩陣P:
(3)
通過(guò)以下步驟計(jì)算基因之間的相關(guān)性得分。首先根據(jù)計(jì)算出的概率轉(zhuǎn)移矩陣P,然后生成歸一化加權(quán)矩陣PT。最后基于RWR的方法可以描述如下:
Di(t+1)=a·PTDi(t)+(1-a)ei
(4)
其中ei是表示初始狀態(tài)。公式(4)的穩(wěn)態(tài)解為:
Di=(1-a)(1-aPT)-1ei
(5)
其中Di是|V|×1向量,ei是|V|×1起始向量。(1-a)被定義為重啟概率,其值在0和1之間。之后可以得到矩陣S,保存N(V,E)中每對(duì)基因之間的相關(guān)性得分。
根據(jù)Peng等在以往的工作[24]中所表示的方法,計(jì)算兩個(gè)術(shù)語(yǔ)之間的相似性,這兩個(gè)基因本體術(shù)語(yǔ)對(duì)結(jié)合來(lái)自基因功能網(wǎng)絡(luò)和GO的信息。設(shè)t1和t2為兩個(gè)術(shù)語(yǔ)。將D(t1,t2)定義為基因集距離,以計(jì)算由t1和t2注釋的基因組之間的相似性。D(t1,t2)定義為:
(6)
其中G1和G2分別是由t1和t2注釋的基因集合。dij是兩個(gè)基因之間的距離得分,dij=1-Sij。Sij是基于RWR的方法計(jì)算基因i和j之間的相關(guān)性得分。所有術(shù)語(yǔ)對(duì)的基因集距離在0~1之間歸一化。然后基于標(biāo)記為U的路徑約束注釋來(lái)計(jì)算兩個(gè)術(shù)語(yǔ)之間的相似性。在傳統(tǒng)的基于LCA的方法中,考慮LCA的所有后代。路徑約束注釋方法僅使用與比較術(shù)語(yǔ)最相關(guān)的術(shù)語(yǔ)。相關(guān)術(shù)語(yǔ)集包括3個(gè)部分:由術(shù)語(yǔ)t1和t2注釋的基因集、由共同父節(jié)點(diǎn)注釋的基因集p及其后代項(xiàng)在t1或t2到p的路徑上。設(shè)t1和t2為兩個(gè)GO的兩個(gè)術(shù)語(yǔ)對(duì),p為它們的共同祖先。t1和t2之間的相似性根據(jù)Peng等在以往工作[24]中提出的方程定義。
(7)
其中Gp(或G)是由共同祖先術(shù)語(yǔ)p(或根詞)及其后代注釋的基因集。在等式中f(t1,t2,p)基于路徑約束注釋計(jì)算相似性,定義如下:
(8)
h(t1,t2)是測(cè)量共同父母的特異性,定義如下:
h(t1,t2)=D(t1,t2)2×|G|+(1-D(ti,t2)2)×
max(|G1|,|G2|)
(9)
在公式(9)中,左側(cè)部分測(cè)量從項(xiàng)t1和t2到p的距離,右側(cè)部分計(jì)算從p到根的距離。如果存在多于一個(gè)最低共同祖先則選擇最高得分作為t1和t2之間的相似性。
雖然有很多方法可以評(píng)價(jià)基因功能相似度,但是沒(méi)有直接的方法來(lái)衡量?jī)蓚€(gè)基因本體術(shù)語(yǔ)的相似度。因此首先基于術(shù)語(yǔ)相似度計(jì)算得到基因相似度,然后借助基因之間關(guān)系來(lái)衡量術(shù)語(yǔ)相似度計(jì)算模型性能。這一方法在相關(guān)研究中被廣泛使用。為保證公平性,對(duì)于所有被比較的模型,通過(guò)使用相同的基因本體術(shù)語(yǔ)相似度來(lái)計(jì)算基因相似度并用此結(jié)果衡量術(shù)語(yǔ)相似度計(jì)算模型性能。如果計(jì)算某一物種對(duì)應(yīng)的所有基因本體術(shù)語(yǔ)之間的相似度,就可以計(jì)算該物種中任意兩個(gè)至少被一個(gè)基因本體術(shù)語(yǔ)注釋的基因之間的相似度。給定兩個(gè)基因gi和gj以及注釋它們的術(shù)語(yǔ)集合Ti和Tj,為計(jì)算基因相似度,利用Wang等提出的方法將多對(duì)術(shù)語(yǔ)相似度累積成基因相似度,如公式(10)所示:
(10)
公式中對(duì)于屬于集合Ti的每個(gè)術(shù)語(yǔ),sim(t,Ti)表示術(shù)語(yǔ)t和術(shù)語(yǔ)集合Ti中術(shù)語(yǔ)之間相似度的最大值,如公式(11)所示:
sim(t,Tj)=,maxtj∈TjS(t,Tj)
(11)
公式中S(t,t1)表示t和tj的所有最小公共祖先中S(t,ti,p)的最大值。
基于EC編號(hào)(酶學(xué)委員會(huì))組信息進(jìn)行評(píng)估,由相同EC編號(hào)標(biāo)記的基因具有相似功能?;蚋鶕?jù)其EC編號(hào)(完整的4位數(shù))分組到不同類(lèi)別。然后測(cè)試同一類(lèi)別的基因是否具有更高的相似性。在數(shù)學(xué)上使用記錄的倍數(shù)變化(Logged Fold Change,LFC)度量[24]進(jìn)行定量評(píng)估。對(duì)EC編號(hào)的ei類(lèi)別LFC分?jǐn)?shù)計(jì)算如下:
(12)
其中G(ei)是基因組,是ei由標(biāo)記類(lèi)別的基因組成;其中滿足G(ei)∩G(ei)=?,diffa(ei,ej)定義如下:
(13)
其中G(ei)是不包括g的ei基因集;c是拉普拉斯平滑參數(shù);GS(g,g′)、GS(g,g*)由公式(10)定義。等式(13)測(cè)量EC間距離和EC內(nèi)部距離之間的差異?;诠?(12)中對(duì)對(duì)數(shù)差異倍數(shù)(LFC)得分的定義,如果一個(gè)模型的對(duì)數(shù)差異倍數(shù)得分越高,那么該模型的性能越好。
4.2.1 實(shí)驗(yàn)數(shù)據(jù) 2018年6月從GO網(wǎng)站下載GO結(jié)構(gòu)和注釋(www.geneontology.org/)工作中只使用“is-a”、“part-of”兩種術(shù)語(yǔ)之間的語(yǔ)義關(guān)系。考慮到數(shù)據(jù)量太大、時(shí)間復(fù)雜度過(guò)高,所以使用基因數(shù)目相對(duì)較少的YeastNet中包含的基因關(guān)聯(lián)對(duì)酵母菌進(jìn)行評(píng)估測(cè)試。酵母菌的EC分組可以從www.yeastgenome.org/下載。
4.2.2 實(shí)驗(yàn)結(jié)果 通過(guò)比較不同EC類(lèi)別和相同類(lèi)別的基因之間的關(guān)系,根據(jù)GO的相似性來(lái)評(píng)估本文提出的改進(jìn)算法性能。使用YeastNet中包含的基因關(guān)聯(lián)對(duì)酵母進(jìn)行評(píng)估測(cè)試。LFC評(píng)分作為標(biāo)準(zhǔn)與目前該領(lǐng)域LFC評(píng)分最高的兩種算法NETSIM和NETSIM2進(jìn)行比較。NETSIM、NETSIM2與本文中改進(jìn)的算法RWRSM測(cè)量比較每個(gè)EC組的LFC得分,結(jié)果顯示本文算法在所有104組EC編碼中有88組具有最高LFC得分,占所有分組的84.6%,而其他算法只有15個(gè)EC中具有最高LFC得分,基于NETSIM、NETSIM2及算法RWRSM對(duì)酵母菌數(shù)據(jù)表現(xiàn)最佳LFC評(píng)分的EC數(shù)量,見(jiàn)圖1。RWRSM算法的LFC評(píng)分針對(duì)與酵母菌的EC分組結(jié)果顯示在所有評(píng)估測(cè)量中RWRSM的平均值最高,見(jiàn)圖2。3種計(jì)算方法計(jì)算出的LFC平均值分別是RWRSM 0.575、NETSIM 20.547、NETSIM 0.534。3種算法的折線統(tǒng)計(jì),見(jiàn)圖3。其中RWRSM算法的折線趨于穩(wěn)定在0.6左右,并且在所有EC類(lèi)別中最高LFC分值占比達(dá)到85%以上,明顯優(yōu)于其他算法。
圖1 基于NETSIM、NETSIM2及RWRSM算法在酵母菌中表現(xiàn)最佳LFC評(píng)分的EC數(shù)量
圖2 GO酵母LFC相似性測(cè)量得分性能比較
圖3 3種算法LFC相似性得分性能折線
基因本體論是用于描述基因和基因產(chǎn)物特性的最流行的生物信息學(xué)資源之一。計(jì)算基于GO的基因功能相似性已被廣泛用于多個(gè)研究領(lǐng)域。然而低質(zhì)量的相似性可能源于GO的不完整信息和有限的注釋量。NETSIM通過(guò)考慮基因關(guān)聯(lián)、GO結(jié)構(gòu)和注釋來(lái)解決這些問(wèn)題。但其僅使用基因共功能網(wǎng)絡(luò)中的本地關(guān)聯(lián)信息,因?yàn)镹ETSIM僅考慮網(wǎng)絡(luò)中的直接鏈路。后來(lái)提出的NETSIM2雖然考率到網(wǎng)絡(luò)結(jié)構(gòu)的全局性,但是實(shí)驗(yàn)結(jié)果表明LFC評(píng)分不夠穩(wěn)定。本文提出一種新的基于NETSIM2網(wǎng)絡(luò)的改進(jìn)算法,對(duì)基于RWR的方法考慮共功能網(wǎng)絡(luò)全局結(jié)構(gòu),融合高斯核函數(shù)得到權(quán)重矩陣,包括3個(gè)步驟:首先,給定基因共功能網(wǎng)絡(luò)融合高斯核函數(shù)得到權(quán)重矩陣,基于隨機(jī)游走和重啟方法計(jì)算兩個(gè)基因之間的相關(guān)性得分矩陣;其次,通過(guò)組合來(lái)自共功能網(wǎng)絡(luò)和GO的信息計(jì)算兩個(gè)GO項(xiàng)之間的相似性;最后,選擇GO術(shù)語(yǔ)對(duì)使用基于標(biāo)準(zhǔn)分?jǐn)?shù)的方法測(cè)量?jī)蓚€(gè)基因的相似性。EC實(shí)驗(yàn)結(jié)果表明本文算法在酵母數(shù)據(jù)集的所有測(cè)量中表現(xiàn)最佳,LFC結(jié)果更加穩(wěn)定。在所有104個(gè)EC中有88個(gè)具有最高LFC得分,占所有分組的84.6%,而其他算法只有15個(gè)EC中具有最高LFC得分,平均值也明顯高于其他算法,測(cè)量出的LFC評(píng)分結(jié)果更加穩(wěn)定。