余眾澤,彭春祥,張貴軍
(浙江工業(yè)大學(xué) 信息工程學(xué)院,杭州 310023)
蛋白質(zhì)結(jié)構(gòu)域是蛋白質(zhì)結(jié)構(gòu)、折疊、功能、進(jìn)化和設(shè)計(jì)的基本單元.80%以上的真核蛋白和67%以上的原核蛋白含有多個(gè)結(jié)構(gòu)域,同時(shí)許多生物學(xué)功能也依賴(lài)于不同結(jié)構(gòu)域之間的相互作用[1].因此,推斷蛋白質(zhì)結(jié)構(gòu)域邊界是推斷蛋白質(zhì)折疊機(jī)理、理解生物功能和注釋進(jìn)化機(jī)制的重要步驟[2].此外,隨著AlphaFold2在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)中的革命性成功[3],在生物信息領(lǐng)域內(nèi)一致認(rèn)為單域蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)幾乎得到解決[4].在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)關(guān)鍵評(píng)估比賽CASP14中,AlphaFold2所預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)主鏈準(zhǔn)確性中位數(shù)為0.96?[3].然而,在缺乏共進(jìn)化信息的情況下,具有多域蛋白的全鏈建模仍然是一個(gè)挑戰(zhàn).當(dāng)前的多域蛋白結(jié)構(gòu)建模主要有兩種方法[5]:第1種是直接從蛋白質(zhì)序列來(lái)預(yù)測(cè)全鏈模型,例如AlphaFold[6]、RaptorX[7]和I-TASSER[8];第2種是將多域蛋白先劃分為單個(gè)域,然后通過(guò)域組裝方法將單獨(dú)建模的單域結(jié)構(gòu)組裝成全鏈模型,例如DEMO[1]和AIDA[9].隨著蛋白質(zhì)序列長(zhǎng)度的增加,直接預(yù)測(cè)全鏈模型變得非常困難且效率低下,然而組裝方法幾乎不受蛋白質(zhì)全鏈長(zhǎng)度的影響.因此,如何準(zhǔn)確預(yù)測(cè)結(jié)構(gòu)域邊界是域組裝方法的基礎(chǔ)和關(guān)鍵.通常來(lái)說(shuō),結(jié)構(gòu)域邊界預(yù)測(cè)方法可以分為基于結(jié)構(gòu)和基于序列的兩類(lèi)方法.
基于結(jié)構(gòu)的方法需要實(shí)驗(yàn)測(cè)定或預(yù)測(cè)的蛋白質(zhì)結(jié)構(gòu)來(lái)識(shí)別結(jié)構(gòu)域.CATHEDRAL[10]將目標(biāo)蛋白質(zhì)結(jié)構(gòu)與來(lái)自CATH[11]數(shù)據(jù)庫(kù)的模板結(jié)構(gòu)進(jìn)行比較來(lái)檢測(cè)結(jié)構(gòu)域.PDP[12]和DDOMAIN[13]根據(jù)域內(nèi)接觸多于域間接觸的假設(shè)將蛋白質(zhì)劃分為多個(gè)結(jié)構(gòu)域.DHcL[14]通過(guò)計(jì)算蛋白質(zhì)的范德華模型來(lái)分解蛋白質(zhì)結(jié)構(gòu)域.SWORD[15]通過(guò)蛋白質(zhì)單元的分層合并來(lái)分配結(jié)構(gòu)域,其中的蛋白質(zhì)單元是進(jìn)化保守的子結(jié)構(gòu),它是結(jié)構(gòu)域和二級(jí)結(jié)構(gòu)之間的一個(gè)中間級(jí)別,用來(lái)描述蛋白質(zhì)結(jié)構(gòu).此外,還有一些是基于蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的方法.例如,RosettaDom[16]使用Rosetta從頭結(jié)構(gòu)預(yù)測(cè)方法來(lái)構(gòu)建蛋白質(zhì)三維模型,然后應(yīng)用Taylor方法將預(yù)測(cè)的結(jié)構(gòu)解析為多個(gè)結(jié)構(gòu)域.這類(lèi)從蛋白質(zhì)結(jié)構(gòu)推斷結(jié)構(gòu)域的方法通常具有較高的準(zhǔn)確性,但是它高度依賴(lài)于蛋白質(zhì)模型的精度.然而,由于結(jié)構(gòu)預(yù)測(cè)能力有限和生物實(shí)驗(yàn)測(cè)定的局限性,它們只能應(yīng)用于小蛋白或具有已知實(shí)驗(yàn)結(jié)構(gòu)的蛋白質(zhì)[2].與結(jié)構(gòu)信息相比,蛋白質(zhì)序列信息更容易獲得[5].因此,從序列中預(yù)測(cè)結(jié)構(gòu)域邊界的方法更有意義和更具挑戰(zhàn)性[2].
基于序列的結(jié)構(gòu)域識(shí)別方法通??梢苑譃閮深?lèi).第一類(lèi)主要是基于同源性的方法,它通過(guò)將目標(biāo)序列與具有已知結(jié)構(gòu)域的同源序列進(jìn)行序列比對(duì)來(lái)檢測(cè)結(jié)構(gòu)域.例如,Pfam[17]、CHOP[18]和FIEFDOM[19],它們通過(guò)隱馬爾科夫(HMM)或PSI-BLAST程序在已知的蛋白質(zhì)結(jié)構(gòu)或家族數(shù)據(jù)庫(kù)中搜索目標(biāo)序列的同源信息,然后從同源模板或家族中獲取結(jié)構(gòu)域邊界信息.ThreaDom采用基于穿線的算法來(lái)提高遠(yuǎn)同源模板檢測(cè)[20].它首先使用LOMETS[21]程序在PDB中搜索目標(biāo)序列的同源模板,然后基于目標(biāo)序列構(gòu)建多序列比對(duì)(MSA).根據(jù)這些MSA,計(jì)算結(jié)構(gòu)域保守分?jǐn)?shù)來(lái)衡量每個(gè)殘基的保守水平,并用于進(jìn)一步判斷邊界區(qū)域.在此基礎(chǔ)上,ThreaDomEx[22]通過(guò)結(jié)構(gòu)域片段組裝來(lái)分配不連續(xù)結(jié)構(gòu)域.這些基于同源性的方法在識(shí)別到質(zhì)量高的模板時(shí),可以達(dá)到很高的預(yù)測(cè)準(zhǔn)確度,但是目標(biāo)和模板之間的序列一致性較低時(shí),準(zhǔn)確度會(huì)急劇下降[20].另一類(lèi)是從頭預(yù)測(cè)方法,它可以在一定程度上克服這種限制[5],代表性的方法包括DOMpro[23]、DoBo[24]、ConDo[25]和DNN-dom[26].DOMpro[23]訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)用于域識(shí)別,其輸入特征包括序列譜、預(yù)測(cè)的二級(jí)結(jié)構(gòu)和溶劑可及性.DoBo[24]將同源蛋白質(zhì)中包含的進(jìn)化結(jié)構(gòu)域信息引入到蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測(cè)中.ConDo[25]除了傳統(tǒng)的局部窗口特征外,還利用遠(yuǎn)程的共進(jìn)化特征訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)檢測(cè)結(jié)構(gòu)域.DNN-dom[26]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和雙向門(mén)循環(huán)單元模型來(lái)預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)域邊界.盡管基于序列的從頭預(yù)測(cè)方法更加實(shí)用,尤其是在沒(méi)有同源序列的情況下,但它的準(zhǔn)確性通常不高,需要進(jìn)一步提升[2].
本文提出了一種基于序列的蛋白質(zhì)結(jié)構(gòu)域邊界從頭預(yù)測(cè)算法GraphDom.該算法根據(jù)預(yù)測(cè)的殘基間距離分布將結(jié)構(gòu)域劃分問(wèn)題轉(zhuǎn)化為網(wǎng)絡(luò)流分割問(wèn)題,其中殘基表示為網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),殘基間的距離表示為具有一個(gè)特定容量的邊,通過(guò)找到網(wǎng)絡(luò)的一個(gè)最小切割來(lái)解決雙結(jié)構(gòu)域劃分問(wèn)題,再使用遞歸劃分的方法來(lái)解決復(fù)雜結(jié)構(gòu)域劃分問(wèn)題.在120個(gè)非冗余測(cè)試蛋白的實(shí)驗(yàn)結(jié)果表明,GraphDom在預(yù)測(cè)精度上優(yōu)于ThreaDomEx、ConDo和DoBo,是一種有效的蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測(cè)方法.
首先介紹蛋白質(zhì)的網(wǎng)絡(luò)表示,并基于Ford-Fulkerson網(wǎng)絡(luò)流算法,提出了一種結(jié)構(gòu)域劃分算法GraphDom,最后詳細(xì)描述GraphDom算法中的參數(shù).
一個(gè)網(wǎng)絡(luò)是由一組節(jié)點(diǎn)和一組邊構(gòu)成的有向圖.其中有兩個(gè)特殊的節(jié)點(diǎn),分別是源節(jié)點(diǎn)s和匯節(jié)點(diǎn)t.每條邊連接兩個(gè)節(jié)點(diǎn),并且邊的容量大于零.對(duì)于一個(gè)蛋白質(zhì),本文使用一個(gè)節(jié)點(diǎn)來(lái)表示蛋白質(zhì)的一個(gè)殘基,并使用一條邊來(lái)表示所連接的兩個(gè)殘基在空間上是接觸的,即兩個(gè)殘基間的距離小于或等于8?[27].同時(shí)本文通過(guò)定義一條邊的容量來(lái)衡量?jī)蓚€(gè)殘基在空間上的緊密程度.蛋白質(zhì)網(wǎng)絡(luò)如圖1所示,其中源節(jié)點(diǎn)s和匯節(jié)點(diǎn)t是兩個(gè)人為定義的節(jié)點(diǎn).
一個(gè)s-t切割是一組邊,將這組邊去除,則沒(méi)有從源s到匯t的路徑.例如在圖1中,邊{(s,1),(s,2),(s,3),(s,4),(s,5)}形成一個(gè)s-t切割.而一個(gè)最小s-t切割是指具有最小總邊容量的s-t切割,例如邊{(1,6),(2,6),(2,11),(7,8),(10,14),(10,15)}形成圖1中的最小s-t切割.
根據(jù)最大流/最小割定理[28],可以通過(guò)找到從源s到匯t的最大流來(lái)計(jì)算最小s-t切割.在此使用f(u,v)來(lái)表示分配給邊(u,v)的流值,用c(u,v)來(lái)表示分配給邊(u,v)的容量值.如果分配給有向網(wǎng)絡(luò)邊的一組值滿(mǎn)足以下3個(gè)條件,則形成一個(gè)s-t流.
1)容量限制:對(duì)于每條邊(u,v),f(u,v)≤c(u,v)
2)斜對(duì)稱(chēng):對(duì)于每條邊(u,v),f(u,v)=-f(v,u)
3)流守恒:對(duì)于除源s和匯t以外的每個(gè)節(jié)點(diǎn)u,節(jié)點(diǎn)u的總輸入流應(yīng)該等于總輸出流.即Σvf(u,v)=0,其中∑v表示對(duì)所有節(jié)點(diǎn)求和.
為了將預(yù)測(cè)的殘基間距離信息轉(zhuǎn)化為蛋白質(zhì)網(wǎng)絡(luò)中的邊容量,本文設(shè)計(jì)了邊容量公式,如公式(1)所示:
(1)
對(duì)于一個(gè)給定的流f,邊(u,v)的剩余容量定義為cf(u,v)=c(u,v)-f(u,v).根據(jù)上述流的定義,可知cf(u,v)是≥0是≥0.蛋白質(zhì)網(wǎng)絡(luò)表示圖的剩余容量圖如圖2所示,對(duì)于一個(gè)流定義如公式(2)所示:
圖2 蛋白質(zhì)網(wǎng)絡(luò)剩余容量圖Fig.2 Protein network residual capacity diagram
(2)
其中x→y表示從節(jié)點(diǎn)x到節(jié)點(diǎn)y的有向邊,需要注意的是剩余容量可能大于容量,因?yàn)榱髁靠赡芫哂胸?fù)值.在圖2中,具有零剩余容量的邊沒(méi)有繪制.
Ford-Fulkerson算法的基本思想是重復(fù)尋找從源s到匯t的有向路徑,它由具有Cf(u,v)>0的有向邊(u,v)組成,然后通過(guò)p的Cf(u,v)最小值來(lái)增加路徑p上的每條邊的流值,這個(gè)過(guò)程將持續(xù)進(jìn)行,直到找不到這樣的路徑為止,而一開(kāi)始所有有向邊的流值f(u,v)都設(shè)置為0.按照這個(gè)步驟,可以檢查出圖1中網(wǎng)絡(luò)的最大s-t流值為24,如圖2所示當(dāng)找到最大s-t流時(shí),標(biāo)記有剩余容量的蛋白質(zhì)網(wǎng)絡(luò).顯然,在圖2中沒(méi)有從源s到匯t的有向路徑.
然而最小s-t切割并不是唯一的,即存在多于一個(gè)切割的最小s-t切割,其邊的總?cè)萘繛?4.例如在圖2中,邊{(1,6),(2,6),(2,11),(7,8),(5,10),(9,10)}和邊{(1,6),(2,6),(2,11),(2,8),(3,9),(4,9),(4,5),(s,5)}也形成了最小s-t切割.因此當(dāng)?shù)鞍踪|(zhì)網(wǎng)絡(luò)的最小s-t切割不唯一時(shí),GraphDom將枚舉所有最小切割.
枚舉所有最小切割,等價(jià)于枚舉所有可能形成的分區(qū).然而,對(duì)于大的蛋白質(zhì)而言,直接在剩余容量圖上枚舉出所有可能的分區(qū)時(shí)間復(fù)雜度太高.因此,在這里本文利用強(qiáng)連接分量來(lái)降低時(shí)間復(fù)雜度.
首先將蛋白質(zhì)剩余容量圖中的強(qiáng)連接分量提取出來(lái)形成強(qiáng)連接分量圖,然后再在強(qiáng)連接分量上枚舉所有可能的最小切割.一個(gè)有向圖的強(qiáng)連接分量是指,強(qiáng)連接分量中的每個(gè)節(jié)點(diǎn)可以通過(guò)有向邊到達(dá)強(qiáng)連接分量的每一個(gè)其他節(jié)點(diǎn),即強(qiáng)連接分量中的所有節(jié)點(diǎn)都是聯(lián)通的,一個(gè)點(diǎn)可以到達(dá)任意其他節(jié)點(diǎn).在圖2中,節(jié)點(diǎn){5,8,9}形成一個(gè)強(qiáng)連接分量,但是節(jié)點(diǎn){5,9,10}并沒(méi)有形成強(qiáng)連接分量,因?yàn)楣?jié)點(diǎn)9不能到達(dá)節(jié)點(diǎn)10,節(jié)點(diǎn)5也不能到達(dá)節(jié)點(diǎn)10.關(guān)于最小s-t切割形成分區(qū)的一個(gè)簡(jiǎn)單觀察是,如果s分區(qū)包含某個(gè)節(jié)點(diǎn)u,則s分區(qū)必須包含含有u的強(qiáng)連接分量,對(duì)于t分區(qū)也是如此.因此可以將強(qiáng)連接分量視為一個(gè)節(jié)點(diǎn),合并后的蛋白質(zhì)強(qiáng)連接分量圖如圖3所示.
圖3 蛋白質(zhì)網(wǎng)絡(luò)強(qiáng)連接分量圖Fig.3 Strongly connected component diagram of protein network
圖3中的V1={s,1,2,3,4},V2={5,8,9},V3={10},V4={6,7,11,12,13,14,15,t},如果分別屬于兩個(gè)強(qiáng)連接分量的兩個(gè)節(jié)點(diǎn)之間存在有向邊,則在兩個(gè)強(qiáng)連接分量之間放置有向邊.
在本文中,將Spart定義為包含源s的強(qiáng)連接分量分區(qū),將Tpart定義為包含匯t的強(qiáng)連接分量分區(qū).通過(guò)回溯來(lái)考慮分配給Spart和Tpart的強(qiáng)連接分量組合,并在最小切割定義的約束下,即沒(méi)有從源s到達(dá)匯t的路徑,排除不合理的組合情況.以下列出圖3的所有合理的s-t分區(qū)情況:
1)Spart={V1}和Tpart={V2,V3,V4}
2)Spart={V1,V2}和Tpart={V3,V4}
3)Spart={V1,V2,V3}和Tpart={V4}
需要注意的是Spart={V1,V3}和Tpart={V2,V4}形成一個(gè)不合理的s-t分區(qū),因?yàn)镾part分區(qū)的節(jié)點(diǎn)V3可以到達(dá)Tpart分區(qū)的節(jié)點(diǎn)V2,這與最小切割的定義相駁,即沒(méi)有從源s到匯t的路徑.在結(jié)構(gòu)域邊界評(píng)估過(guò)程中,GraphDom將根據(jù)結(jié)構(gòu)域的一般特性和結(jié)構(gòu)域邊界評(píng)估函數(shù)對(duì)不同分區(qū)情況進(jìn)行評(píng)估和判斷.
根據(jù)蛋白質(zhì)結(jié)構(gòu)域的一般特性設(shè)計(jì)結(jié)構(gòu)域邊界評(píng)估函數(shù)來(lái)評(píng)估劃分的分區(qū)或區(qū)域,其遵循的原理是域內(nèi)殘基密度大域間殘基密度小,該函數(shù)定義如公式(3)所示:
(3)
(4)
(5)
其中u、v、i分別表示不同的殘基,SOu是Spart分區(qū)的殘基u相對(duì)于Tpart分區(qū)的外部緊密度分?jǐn)?shù),SIu是Spart分區(qū)的殘基u相對(duì)于Spart分區(qū)的內(nèi)部緊密度分?jǐn)?shù),dui是殘基u和殘基i的距離.在本文中,結(jié)構(gòu)域邊界評(píng)估函數(shù)值越低表示劃分的分區(qū)或區(qū)域越好.
在GraphDom中,如果劃分的分區(qū)結(jié)果同時(shí)滿(mǎn)足每個(gè)分區(qū)的殘基數(shù)量大于等于40個(gè)且結(jié)構(gòu)域邊界分?jǐn)?shù)值(DS)小于閾值DScutofff,則接收該次劃分.
所選擇的源匯點(diǎn)代表著需要識(shí)別的結(jié)構(gòu)域,不同的源匯點(diǎn)組合可能會(huì)導(dǎo)致不同的劃分結(jié)果.因此,本文中選擇許多不同的源匯點(diǎn)組合,為了獲得好的結(jié)構(gòu)域劃分結(jié)果.在GraphDom中,采用以下兩條規(guī)則來(lái)獲得源匯點(diǎn)的集合:
1)根據(jù)半徑12?以?xún)?nèi)的鄰域殘基密度,選擇目標(biāo)序列密度前10%的殘基作為候選的源匯點(diǎn);
2)為了避免密度靠前的殘基聚集在某一個(gè)域內(nèi),每隔20個(gè)殘基,選擇一個(gè)殘基作為候選的源匯點(diǎn).
全流程的詳細(xì)細(xì)節(jié)如圖4所示,首先根據(jù)輸入的目標(biāo)序列預(yù)測(cè)其殘基之間的距離分布,即預(yù)測(cè)距離圖.在本文中,殘基間距離分布圖來(lái)自于trRosetta[29].然后,將預(yù)測(cè)距離圖轉(zhuǎn)換成初始蛋白質(zhì)容量圖,對(duì)源匯點(diǎn)集合中的所有極點(diǎn)組合使用Ford-Fulkerson算法獲得蛋白質(zhì)剩余容量圖,再使用深度優(yōu)先算法獲得強(qiáng)連接分量和使用回溯算法枚舉所有可能的最小切割,最后根據(jù)結(jié)構(gòu)域的一般特性和域邊界評(píng)估函數(shù),對(duì)獲得的所有s-t分區(qū)結(jié)果進(jìn)行評(píng)估,并根據(jù)最優(yōu)的分區(qū)結(jié)果判斷是否需要繼續(xù)往下遞歸劃分.如果該次劃分有效,則將輸入的蛋白質(zhì)容量圖根據(jù)分區(qū)結(jié)果分成兩個(gè)蛋白質(zhì)容量圖,并繼續(xù)往下進(jìn)行劃分,劃分過(guò)程的停止條件就是劃分后的s-t分區(qū)不滿(mǎn)足每個(gè)分區(qū)至少包含40個(gè)殘基或結(jié)構(gòu)域邊界分?jǐn)?shù)DS大于等于閾值DScutoff.
圖4 GraphDom的管道圖Fig.4 Pipeline diagram for GraphDom
在GraphDom程序中有2類(lèi)參數(shù)需要確定:1)與邊容量有關(guān)的參數(shù)ω1和ω2;2)與遞歸劃分過(guò)程的停止條件有關(guān)的參數(shù)DScutoff,通過(guò)優(yōu)化GraphDom在訓(xùn)練集上的預(yù)測(cè)性能來(lái)對(duì)這些參數(shù)進(jìn)行調(diào)整.
為了訓(xùn)練和測(cè)試GraphDom,本文從SCOPe2.07-stable數(shù)據(jù)庫(kù)[30]中收集一組具有已知結(jié)構(gòu)域結(jié)構(gòu)的非冗余蛋白質(zhì),在收集過(guò)程中以序列相似度<30%和序列長(zhǎng)度>40個(gè)殘基進(jìn)行篩選過(guò)濾.該數(shù)據(jù)集包含240個(gè)多域蛋白質(zhì),這些蛋白質(zhì)被隨機(jī)分成120個(gè)訓(xùn)練蛋白和120個(gè)測(cè)試蛋白.在GraphDom中,ω1=5、ω2=10和DScutoff=0.45都是通過(guò)在訓(xùn)練蛋白上進(jìn)行訓(xùn)練得到的.
為了測(cè)試GraphDom的域邊界預(yù)測(cè)性能,本文在120個(gè)測(cè)試蛋白上比較GraphDom和其他3種方法.這120個(gè)測(cè)試蛋白來(lái)自SCOPe2.07-stable數(shù)據(jù)庫(kù)[30],它們包括104個(gè)兩域蛋白和16個(gè)三域蛋白,且序列相似度<30%.在這120個(gè)測(cè)試蛋白中還包含12個(gè)不連續(xù)域蛋白.該測(cè)試集由多種類(lèi)別的蛋白質(zhì)組成,可以公平地測(cè)試GraphDom和其他3種主流方法的性能.
NDO[31]和DBD[32]分?jǐn)?shù)用于在CASP[33]比賽中評(píng)估結(jié)構(gòu)域劃分和結(jié)構(gòu)域邊界預(yù)測(cè)的質(zhì)量,其中NDO分?jǐn)?shù)是通過(guò)計(jì)算預(yù)測(cè)的結(jié)構(gòu)域區(qū)域和真實(shí)的結(jié)構(gòu)域區(qū)域之間的重疊區(qū)域的歸一化獲得,而DBD分?jǐn)?shù)是通過(guò)計(jì)算預(yù)測(cè)的結(jié)構(gòu)域邊界和真實(shí)的結(jié)構(gòu)域邊界之間的距離獲得,其中如果真實(shí)的結(jié)構(gòu)域邊界位于Loop區(qū)域時(shí),則整個(gè)Loop區(qū)域都被視為結(jié)構(gòu)域邊界.
單域蛋白和多域蛋白是蛋白質(zhì)的兩種類(lèi)別,這里本文對(duì)GraphDom和其他3種先進(jìn)方法的結(jié)構(gòu)域識(shí)別能力進(jìn)行比較,比較結(jié)果如表1所示.
表1 在120個(gè)測(cè)試蛋白上的多域識(shí)別結(jié)果Table 1 Multi-domain classification results on 120 test proteins
在120個(gè)蛋白的測(cè)試集上,GraphDom的多域蛋白召回率為0.908,分別比ThreaDomEx和ConDo高11.1%和31.2%,然而比DoBo低2.7%.測(cè)試集的平均結(jié)構(gòu)域數(shù)量為2.117,GraphDom、ThreaDomEx、ConDo和DoBo的預(yù)測(cè)結(jié)果的平均結(jié)構(gòu)域數(shù)量分別為2.083、2.292、1.867和3.367,與測(cè)試集平均結(jié)構(gòu)域數(shù)量的差值分別為-0.034、0.175、-0.25和1.25.由此可見(jiàn),DoBo對(duì)結(jié)構(gòu)域有過(guò)度預(yù)測(cè)的傾向,平均每個(gè)蛋白質(zhì)多預(yù)測(cè)出一個(gè)結(jié)構(gòu)域,即DoBo傾向于高估多域蛋白的數(shù)量,所以在多域蛋白召回率上高于GraphDom.
為了測(cè)試不同方法預(yù)測(cè)結(jié)構(gòu)域邊界的能力,本文在測(cè)試集上比較GraphDom和其他3種先進(jìn)方法,并在表2中總結(jié)各個(gè)方法的平均NDO和DBD分?jǐn)?shù).
表2 在測(cè)試集上的多域蛋白質(zhì)預(yù)測(cè)結(jié)果總結(jié)Table 2 Summary of prediction results of multi-domain proteins in the test set
如表2所示,在120個(gè)蛋白質(zhì)的測(cè)試集上,GraphDom的平均NDO和DBD分?jǐn)?shù)分別為0.856和0.603,高于其他3種方法的NDO和DBD分?jǐn)?shù),通過(guò)單尾成對(duì)雙樣本t-校驗(yàn)計(jì)算GraphDom預(yù)測(cè)結(jié)果和其他3種方法預(yù)測(cè)結(jié)果之間的P-值,從中可以看到這些P-值都是<0.05,這表明GraphDom在域邊界預(yù)測(cè)能力上與其他3種比較方法具有顯著差異.在測(cè)試集蛋白上,GraphDom的NDO分?jǐn)?shù)分別比ThreaDomEx、ConDO和DoBo的NDO分?jǐn)?shù)高18.9%、13.8%和36.3%,GraphDom的DBD分?jǐn)?shù)分別比ThreaDomEx、ConDO和DoBo的DBD分?jǐn)?shù)高45.3%、66.6%和95.8%.
除此之外,從表2中可知,ThreaDomEx和ConDo在NDO分?jǐn)?shù)方面是接近相等的,它們NDO分?jǐn)?shù)之間的P-值為0.09,然而在DBD分?jǐn)?shù)方面,ThreaDomEx比ConDo高14.7%,說(shuō)明二者的預(yù)測(cè)結(jié)構(gòu)域區(qū)域與真實(shí)結(jié)構(gòu)域區(qū)域重疊比例相近,但是ThreaDomEx預(yù)測(cè)結(jié)構(gòu)域邊界能力強(qiáng)于ConDo.
由序列上不連續(xù)的片段組成的不連續(xù)結(jié)構(gòu)域相對(duì)于連續(xù)結(jié)構(gòu)域而言建模更加困難,這里本文在測(cè)試集中的12個(gè)不連續(xù)多域蛋白質(zhì)上,對(duì)GraphDom和其他3種主流方法的預(yù)測(cè)性能進(jìn)行了比較,具體比較結(jié)果如表3所示.
表3 在12個(gè)不連續(xù)域測(cè)試蛋白上的預(yù)測(cè)結(jié)果總結(jié)Table 3 Summary of prediction results on 12 discontinuous domain test proteins
如表3所示,在測(cè)試數(shù)據(jù)集的12個(gè)不連續(xù)多域蛋白質(zhì)中,GraphDom識(shí)別出其中9個(gè)蛋白包含不連續(xù)域,召回率為75%.ThreaDomEx是基于ThreaDom開(kāi)發(fā)的域邊界預(yù)測(cè)方法,并針對(duì)不連續(xù)域進(jìn)行優(yōu)化,然而它只檢測(cè)到33.4%的蛋白質(zhì)包含不連續(xù)域.其他兩種基于機(jī)器學(xué)習(xí)的方法ConDo和DoBo,沒(méi)有檢測(cè)出任何含有不連續(xù)域的蛋白質(zhì).
值得注意的是,對(duì)于連續(xù)域蛋白質(zhì)和不連續(xù)域蛋白質(zhì),GraphDom的結(jié)構(gòu)域邊界預(yù)測(cè)性能非常接近.更具體地說(shuō),GraphDom在連續(xù)域和不連續(xù)域蛋白質(zhì)的NDO和DBD分?jǐn)?shù)分別為0.860/0.813和0.602/0.616.這些結(jié)果表明,GraphDom的性能并不明顯依賴(lài)于多域蛋白質(zhì)的結(jié)構(gòu)域類(lèi)型,從而突出了GraphDom在迭代劃分過(guò)程中識(shí)別復(fù)雜結(jié)構(gòu)域的有效性.
本文提出一種基于網(wǎng)絡(luò)流的蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測(cè)算法GraphDom.首先,根據(jù)邊容量公式將預(yù)測(cè)的殘基間距離分布圖轉(zhuǎn)換為蛋白質(zhì)容量圖,然后根據(jù)最大流/最小割定理通過(guò)Ford-Fulkerson算法獲得目標(biāo)蛋白的剩余容量圖,對(duì)于具有非唯一最小切割的網(wǎng)絡(luò),先使用深度優(yōu)先算法獲得強(qiáng)連接分量圖,再使用回溯算法枚舉每一個(gè)可能的最小切割,最后基于蛋白質(zhì)結(jié)構(gòu)域的一般特性設(shè)計(jì)的結(jié)構(gòu)域邊界評(píng)估函數(shù)來(lái)對(duì)所有可能的劃分進(jìn)行評(píng)估,判斷是否可以繼續(xù)劃分,如果可以劃分則將輸入的蛋白質(zhì)容量圖分成兩個(gè),每一個(gè)蛋白質(zhì)容量圖繼續(xù)執(zhí)行上述步驟,直到不滿(mǎn)足每個(gè)分區(qū)至少包含40個(gè)殘基或結(jié)構(gòu)域邊界分?jǐn)?shù)小于閾值為止.在120個(gè)非冗余測(cè)試蛋白上的實(shí)驗(yàn)結(jié)果表明,GraphDom具有較強(qiáng)的結(jié)構(gòu)域邊界預(yù)測(cè)能力和復(fù)雜結(jié)構(gòu)域識(shí)別能力,是一種有效的結(jié)構(gòu)域邊界預(yù)測(cè)算法.在下一步研究中,我們將利用已知的結(jié)構(gòu)域序列信息來(lái)輔助識(shí)別目標(biāo)序列的結(jié)構(gòu)域數(shù)量和預(yù)測(cè)結(jié)構(gòu)域邊界可能存在的區(qū)域,進(jìn)一步提高蛋白質(zhì)結(jié)構(gòu)域邊界預(yù)測(cè)精度.