王攀文 龔新奇 李春華 陳慰祖 王存新
(1北京工業(yè)大學生命科學與生物工程學院,北京100124;2清華大學生命科學學院,北京100084)
蛋白質表面模塊劃分及其在結合位點預測中的應用
王攀文1,§龔新奇2,§李春華1,*陳慰祖1王存新1,*
(1北京工業(yè)大學生命科學與生物工程學院,北京100124;2清華大學生命科學學院,北京100084)
蛋白質-蛋白質復合物的結合位點預測是計算分子生物學的一個難題.本文對蛋白質-蛋白質復合物數(shù)據(jù)集Benchmark 3.0中的雙鏈蛋白質復合物進行了研究,計算了單體的殘基溶劑可接近表面積和殘基間的接觸面積,并據(jù)此提出了蛋白質表面模塊劃分方法.發(fā)現(xiàn)模塊的溶劑可接近表面積與其內部接觸面積的乘積(PSAIA)值能夠提供結合位點的信息.在78個雙鏈蛋白質復合物中,有74個體系其受體或配體上具有最大或次大PSAIA值的模塊是界面模塊.將該方法獲得的結合位點信息應用在CAPRI競賽Target 39的復合物結構預測中取得了較好的結果.本文提出的基于模塊的蛋白質結合位點預測方法不同于以殘基為基礎且僅考慮表面殘基的傳統(tǒng)預測方法,為蛋白質-蛋白質復合物結合位點預測提供了新思路.
蛋白質結合位點預測;模塊劃分;溶劑可接近表面積;內部接觸面積
在后基因組時代,蛋白質結構-功能關系的研究已成為生命科學領域的研究熱點.1-4隨著結構基因組計劃的進行和蛋白質結構解析技術的發(fā)展,已有大量蛋白質三維結構被測定.1但由于實驗測定有關蛋白質功能方面的信息仍存在諸多困難,發(fā)展用理論預測方法研究蛋白質-蛋白質相互作用是目前國際上十分關心的問題.4,5蛋白質結合位點的成功預測將帶動分子識別機理、復合物結構預測、蛋白質工程和藥物分子設計等相關領域研究的長足進展.所以,蛋白質復合物結合位點預測是蛋白質計算領域最重要的問題之一.3,4,6-9為推動蛋白質結構預測和蛋白質-蛋白質對接技術的發(fā)展,歐洲生物信息學研究所(European Bioinformatics Institute, EBI)于2001年開始舉辦蛋白質復合物結構預測競賽(Critical Assessment of Prediction of Interaction, CAPRI,網(wǎng)址:http://www.ebi.ac.uk/msd-srv/capri).在競賽中,競賽組委會選取尚未發(fā)表實驗結構數(shù)據(jù)的蛋白質復合物為競賽內容,要求參賽者在規(guī)定時間內,從蛋白質單體結構出發(fā),用分子對接方法對復合物結構進行預測,然后通過網(wǎng)絡提交10個預測結果.10
國際上提出的蛋白質結合位點的預測方法主要包括四大類:基于序列的預測;11,12基于結構的預測;13,14基于理化性質的預測15,16和綜合考慮以上信息的預測.17,18基于序列的預測方法認為,蛋白質分子進化重要的殘基(如結合位點殘基)往往具有較高的序列保守性.因此,這類方法常常通過多序列比對來獲得各位點氨基酸殘基的保守性,并據(jù)此預測蛋白質結合位點.基于結構的預測方法認為,蛋白質某些局域的特定結構是形成一定結合位點的基礎,如蛋白質結構的疏水口袋區(qū)常常結合底物或抑制劑,由于α螺旋結構的剛性較β折疊更強,所以出現(xiàn)在結合位點的幾率較小;由于β轉角和無規(guī)卷曲結構的高度可變性,它們出現(xiàn)在結合部位的可能性較大.基于理化性質的預測方法表明,蛋白質結合位點區(qū)域較其它表面在很多物理化學特性上(如疏水性和極性)都存在明顯的統(tǒng)計差異.這類預測常常通過機器學習方法對已知結合位點的蛋白質數(shù)據(jù)庫進行訓練,得到一定規(guī)律后再進行預測.
目前,大部分結合位點的預測方法是以殘基為基礎,且僅僅考慮蛋白質表面氨基酸殘基的性質,忽略了表面近鄰的內部殘基的貢獻.研究表明,蛋白質分子是一個通過殘基間各種相互作用共同維系的復雜系統(tǒng),蛋白質結合界面的殘基往往聚集成簇,19,20其堆積密度相對較高;21界面結構是模塊化的,模塊內殘基的內聚性強,模塊間的耦合作用不強;22,23結合界面殘基與內部殘基間的相互作用包含了界面區(qū)域的信息.10鑒于以上研究結果,我們認為在蛋白質-蛋白質結合位點預測中,對表面進行模塊劃分,且考慮內部殘基的作用將能夠提高預測成功率.
本文通過對Benchmark 3.0數(shù)據(jù)庫22中的蛋白質-蛋白質復合物進行分析研究,提出了一種能夠體現(xiàn)界面殘基間內聚性的表面模塊劃分方法,發(fā)現(xiàn)模塊的溶劑可接近表面積與其內部接觸面積的乘積可以提供蛋白質結合位點的信息.應用這一信息,在CAPRI Target 39復合物結構預測中取得了好的結果.
2.1 數(shù)據(jù)集
Benchmark 3.0數(shù)據(jù)庫22中共有124個蛋白質-蛋白質復合物結構,在Benchmark 2.0的基礎上增加了40個復合物,包括新增的34個雙鏈復合物.我們以其中的78個雙鏈復合物(表1)為研究對象進行統(tǒng)計分析.這些復合物包含了多種功能類型,如酶/抑制劑、抗原/抗體及其它類型.其單體的殘基數(shù)范圍為29-749.
2.2 蛋白質表面模塊劃分及參數(shù)提取
2.2.1 蛋白質表面模塊劃分
以蛋白質三維結構中的每個氨基酸殘基為中心,將與之有接觸的所有殘基(包括該中心殘基、蛋白質內部殘基以及表面殘基)劃分為一個模塊(patch).這里采用基于維里幾何的Qcontacts算法來判斷兩殘基是否接觸并計算它們之間的接觸面積.然后剔除所有的內部模塊(不包含任何表面殘基的模塊),保留表面模塊(至少有一個表面殘基的模塊)作為最后表面模塊劃分的結果(圖1).表面殘基定義為相對溶劑可接近面積≥15%的殘基,溶劑可接近表面積的計算采用NACCESS(http://www.bioinf.manchester.ac.uk/naccess/)算法,水分子探針半徑取0.14 nm.另外,定義界面模塊為表面模塊中的一部分,且其中至少含有一個與伙伴分子(partner molecule)相互作用的界面殘基.界面殘基定義為與伙伴分子中至少一個殘基有接觸的殘基.
表1 78個蛋白質-蛋白質復合物中單體的模塊分析結果Table 1 Patch analysis results of the monomers from 78 protein-protein complexes
2.2.2 表面模塊參數(shù)的定義
引入兩個表面模塊參數(shù):溶劑可接近表面積A和內部接觸面積C(圖1).模塊的溶劑可接近表面積A為模塊中所有殘基的溶劑可接近表面積之和
其中Ai是模塊中第i個殘基的溶劑可接近表面積.模塊的內部接觸面積C為模塊內所有殘基對的接觸面積之和
其中Cij是模塊中殘基i和殘基j之間的接觸面積.由以上兩個參數(shù)的乘積可得到模塊的PSAIA(溶劑可接近表面積與內部接觸面積的乘積)值,即溶劑可接近表面積乘以內部接觸面積
圖1 蛋白質表面模塊的劃分Fig.1 Definition of protein surface patchesResidue 0,which contacts with residues 1,2,3,and 4,is the central residue of this surface patch.Residue 4 is considered as one part of this patch even though it is an internal residue.The dotted lineA stands for the solvent accessible surface area of this patch and the bold solid line C represents the interior contact area.
根據(jù)對78個雙鏈復合物中所有單體表面模塊PSAIA值的統(tǒng)計分析,確定具有最大或次最大PSAIA值的表面模塊為界面模塊.
2.3 CAPRI競賽中Target 39的復合物結構預測
Target 39是CAPRI Round 17中提供的一個復合物結構預測題目,其受體和配體結構由加拿大多倫多大學PARK Hee-Won教授提供(http://www.ebi. ac.uk/msd-srv/capri/round17/round17.html).受體A鏈有357個氨基酸殘基,是蛋白質centaurin-alpha 1,又稱3,4,5-三磷酸磷脂酰肌醇(PIP3)結合蛋白,是一種在神經(jīng)系統(tǒng)中高表達的ADP核糖基化因子(ARF)激活蛋白;B鏈有98個氨基酸殘基,為KIF13B蛋白的叉狀(FHA)結構域,KIF13B屬于驅動蛋白超家族(KIF).
采用課題組最近發(fā)展的HoDock集成分子對接方法24,25對Target 39進行結構預測,基本步驟如下:第一步預測受體和配體的界面模塊,用本文提出的預測方法給出蛋白質單體中可能的結合位點區(qū)域;第二步采集初始復合物結構,在此過程中,一種方式是用蛋白質可能的結合部位約束復合物模式采集的范圍,另一種方式是在全局采樣后,把結合位點信息與能量打分綜合起來排除錯誤結構,通過這兩種方式挑出少數(shù)可能正確的復合物結構;第三步采集精細復合物結構,在上一步結果的基礎上做限制搜索范圍更加精細的局部對接,此時考慮結合界面上側鏈原子的柔性,同時對結構進行打分;第四步根據(jù)上面生成的復合物結構之間的相似度,對它們進行成簇聚類;最后綜合打分、成簇和結合位點信息挑出10個結構作為最終結果提交給CAPRI競賽委員會.
3.1 根據(jù)表面模塊的PSAIA值預測界面模塊
對Benchmark 3.0數(shù)據(jù)集中的78個雙鏈蛋白質復合物中的全部單體進行模塊劃分,剔除內部模塊,僅保留表面模塊.計算表面模塊的PSAIA值,并將其從大到小排序.表1給出了這些體系的界面模塊在全部表面模塊中的最高排序、界面模塊數(shù)及表面模塊數(shù).從表1可以看出,對于整個數(shù)據(jù)集的蛋白質單體,界面模塊數(shù)的范圍是19-95,表面模塊數(shù)的范圍為25-416,有150個單體的界面模塊在全部表面模塊中的最高排序在5以內(包括5),占全部單體的96.15%;有60個復合物的受體或配體上具有最大PSAIA值的表面模塊是界面模塊,占整個數(shù)據(jù)集的76.92%;有74個復合物的受體或配體上具有最大或次大PSAIA值的表面模塊是界面模塊,占整個數(shù)據(jù)集的94.87%;20個復合物的受體和配體的具有最大PSAIA值的模塊都是界面模塊.以上結果說明蛋白質單體中具有最大或次大PSAIA值的表面模塊傾向于參與蛋白質-蛋白質相互作用.換言之,即內部接觸緊密且對外暴露充分的表面模塊(表現(xiàn)為模塊內部接觸面積C與其溶劑可接近表面積A的乘積大)易出現(xiàn)在界面上,這在一定程度上體現(xiàn)了前人的觀點:蛋白質結合界面殘基往往聚集成簇,19,20堆積密度相對較高;21界面結構是模塊化的,模塊內殘基的內聚性強;22,23結合界面殘基與內部殘基間的相互作用包含了界面區(qū)域的信息.10進一步仔細分析發(fā)現(xiàn),這種傾向性對于受體和配體是有所不同的.在全部單體中,具有最大PSAIA值的表面模塊是界面模塊的受體數(shù)為33個,而具有這種情況的配體數(shù)是47個;具有最大或次大PSAIA值的模塊是界面模塊的受體數(shù)為50個,而具有這種情況的配體數(shù)是62個.這在一定程度上說明配體更傾向于擁有這種特性.這一點可作如下解釋:配體分子大多是較小的球形蛋白,受體分子大多是較大的不規(guī)則蛋白,結合界面常常呈凸形突出于表面,這樣與界面殘基接觸的內部殘基數(shù)相對于與凹陷的非界面殘基接觸的內部殘基數(shù)較少,導致界面模塊的內部接觸面積C變小,其PSAIA值也隨之變小,結果界面模塊就不容易被排到最前面.根據(jù)以上分析,得出擁有最大或次大PSAIA值的表面模塊易出現(xiàn)在界面上,因此可以利用這一性質來預測蛋白質的界面區(qū)域.
3.2 具體實例分析
圖2(a)和2(b)顯示了兩個蛋白質復合物1ATN和2C0L的單體上具有最大或次大PSAIA值的模塊在分子表面的位置.復合物1ATN由A鏈受體和D鏈配體組成,氨基酸殘基數(shù)分別是372和258;復合物2C0L由A鏈受體和B鏈配體組成,氨基酸殘基數(shù)分別是292和122.從圖2(a)看出,對于1ATN的兩個單體,其具有最大PSAIA值的模塊都是界面模塊.在該復合物中,受體和配體的形狀較為規(guī)則,特別是配體,更接近球形,界面模塊的預測相對容易.圖2(b)顯示,復合物2C0L的界面是由配體的一個柔性較大的無規(guī)卷曲結構插入受體的由多個α螺旋組成的腔洞形成的.除無規(guī)卷曲結構外,配體的整體形狀接近球形,具有次大PSAIA值的模塊在界面上.對于受體而言,它的結合部位包含了由多個α螺旋組成的腔洞,造成其內部殘基的堆積比較松散,界面模塊的PSAIA值不高,使得界面模塊預測錯誤.
3.3 CAPRI競賽中Target 39的結構預測
圖2 蛋白質-蛋白質復合物中單體上具有最大或次大PSAIA值的模塊所在的表面區(qū)域Fig.2 Surface areas of the patches with the first or second greatest product of the solvent accessible area and the interior contact area(PSAIA)value on monomers of protein-protein complexes(a)complex 1ATN.The pink monomer is the receptorAchain and the blue one is the ligand D chain.The deep pink and deep blue labeled surface areas are the interface patches with the first greatest PSAIAvalues.(b)complex 2C0L.The pink monomer is the receptor Achain and the blue one is the ligand B chain.The deep blue area of ligand is the interface patch with the second greatest PSAIAvalue, and the interface residues are labeled out.The receptor pink residues displayed by ball and stick compose the patch with the first greatest PSAIA,which is not an interface patch.
圖3 Target 39配體界面模塊預測和復合物結構預測結果Fig.3 Results on interface patch prediction of ligand and the complex structure prediction for Target 39(a)interface patch prediction of ligand.The pink monomer is the receptorAchain and the blue one is the ligand B chain.The deep blue area is the predicted interface patch with the first greatest PSAIAvalue,which really interacts with the receptor. (b)Superposition of the predicted best structure and the corresponding X-ray complex structure.The ligand in X-ray structure is drawn in red tubes,and the docked ligand in blue tubes.The interface residues ASN452,MET486,LEU533,ASN536,ASN537,and PHE539 are marked by ball and stick and colored in green,pink,yellow, blue,deep green,and brown,respectively.
從以上分析可以看出,用蛋白質表面模塊的PSAIA值來預測形狀較規(guī)則的球形蛋白的結合部位效果比較好.圖3顯示了CAPRI Target 39復合物結構預測與配體界面模塊預測結果.由圖可見,配體接近球形,受體不規(guī)則.因此,為了避免結構預測錯誤,在分子對接中,僅考慮配體的界面模塊預測信息,而未考慮受體的預測結果(實際上受體具有最大PSAIA值的模塊不在結合界面上).在圖3(a)中,配體最大PSAIA值模塊的表面被標記為深藍色.該模塊中的表面殘基有9個:ASN452、CYS484、GLY485、MET486、LEU533、ASN536、ASN537、HIS538和PHE539,其中真正參與相互作用的界面殘基有6個:ASN452、MET486、LEU533、ASN536、ASN537和PHE539.這說明我們提出的識別蛋白質界面模塊的方法可比較準確地預測配體的結合位點.最后綜合打分、成簇和結合位點信息挑出10個結構作為最終結果提交給CAPRI組委會.國際上有37個小組參加了該復合物的結構預測,共提交了366個結構,其中只有3個結構達到了CAPRI組委會制定的“好結構”的標準.26我們提交的一個結構為其中之一,其配體主鏈原子均方根偏差(L_rmsd)為0.25 nm(圖3(b)),被評為中等(Medium)好結構(http://www.ebi.ac.uk/msd-srv/capri/round17/round17. html).HoDock分子對接方法以及配體結合位點正確信息的獲取為該結構的成功預測提供了重要保障.
通過對蛋白質-蛋白質復合物數(shù)據(jù)集Bench-mark 3.0中的雙鏈復合物分析研究,提出了蛋白質表面模塊的劃分方法,并發(fā)現(xiàn)模塊的溶劑可接近表面積與其內部接觸面積的乘積值PSAIA,能夠提供結合位點信息,從而建立了界面模塊預測方法.用該方法預測形狀較規(guī)則的球形蛋白的結合部位效果較好.將該方法獲得的結合位點信息應用在CAPRI競賽Target 39的復合物結構預測中取得了較好的結果.傳統(tǒng)的結合位點預測方法大都是以殘基為基礎,且僅僅考慮表面殘基.本文提出的基于模塊的蛋白質結合位點預測方法不同于傳統(tǒng)方法,不僅考慮了表面殘基,而且考慮了內部殘基對的貢獻,并以模塊為基礎來預測結合位點,這為蛋白質-蛋白質相互作用中結合位點預測方法研究提供了新的思路.
(1) Teichmann,S.A.;Murzin,A.G.;Chothia,C.Curr.Opin.Struct. Biol.2001,11(3),354.doi:10.1016/S0959-440X(00)00215-3
(2) Baker,D.;Sali,A.Science 2001,294(5540),93.doi:10.1126/ science.1065659
(3) Stark,A.;Shkumatov,A.;Russell,R.B.Structure 2004,12(8), 1405.doi:10.1016/j.str.2004.05.012
(4) Jones,S.;Thornton,J.M.Curr.Opin.Chem.Biol.2004,8(1), 3.doi:10.1016/j.cbpa.2003.11.001
(5) Kinoshita,K.;Nakamura,H.Curr.Opin.Struct.Biol.2003,13 (3),396.doi:10.1016/S0959-440X(03)00074-5
(6)Tseng,Y.Y.;Li,W.H.Proc.Natl.Acad.Sci.U.S.A.2011,108 (13),5313.doi:10.1073/pnas.1102210108
(7)Amos-Binks,A.;Patulea,C.;Pitre,S.;Schoenrock,A.;Gui,Y.; Green,J.R.;Golshani,A.;Dehne,F.BMC Bioinformatics 2011, 12,225.doi:10.1186/1471-2105-12-225
(8) Xiong,Y.;Liu,J.;Wei,D.Q.Proteins 2011,79(2),509.doi: 10.1002/prot.v79.2
(9) He,X.;Chen,C.C.;Hong,F.;Fang,F.;Sinha,S.;Ng,H.H.; Zhong,S.PLoS One 2009,4(12),e8155.
(10) Lensink,M.F.;Mendez,R.;Wodak,S.J.Proteins 2007,69(4), 704.doi:10.1002/prot.21804
(11) Lichtarge,O.;Bourne,H.R.;Cohen,F.E.J.Mol.Biol.1996, 257(2),342.doi:10.1006/jmbi.1996.0167
(12) Ofran,Y.;Rost,B.FEBS Lett.2003,544(1-3),236.doi: 10.1016/S0014-5793(03)00456-3
(13)Laskowski,R.A.;Luscombe,N.M.;Swindells,M.B.; Thornton,J.M.Protein Sci.1996,5(12),2438.
(14) Torrance,J.W.;Bartlett,G.J.;Porter,C.T.;Thornton,J.M.J. Mol.Biol.2005,347(3),565.doi:10.1016/j.jmb.2005.01.044
(15) Gao,Y.;Wang,R.;Lai,L.J.Mol.Model.2004,10(1),44.doi: 10.1007/s00894-003-0168-3
(16) Innis,C.A.;Anand,A.P.;Sowdhamini,R.J.Mol.Biol.2004, 337(4),1053.doi:10.1016/j.jmb.2004.01.053
(17) de Vries,S.J.;Bonvin,A.M.Bioinformatics 2006,22(17), 2094.doi:10.1093/bioinformatics/btl275
(18) Madabushi,S.;Yao,H.;Marsh,M.;Kristensen,D.M.;Philippi, A.;Sowa,M.E.;Lichtarge,O.J.Mol.Biol.2002,316(1),139. doi:10.1006/jmbi.2001.5327
(19) Guharoy,M.;Chakrabarti,P.Proc.Natl Acad.Sci.U.S.A. 2005,102(43),15447.doi:10.1073/pnas.0505425102
(20) Li,X.;Keskin,O.;Ma,B.;Nussinov,R.;Liang,J.J.Mol.Biol. 2004,344(3),781.doi:10.1016/j.jmb.2004.09.051
(21) Hintze,A.;Adami,C.Plos Comput.Biol.2008,4(2),e23.
(22) Hwang,H.;Pierce,B.;Mintseris,J.;Janin,J.;Weng,Z.Proteins 2008,73(3),705.doi:10.1002/prot.22106
(23) Bai,H.J.;Lai,L.H.Acta Phys.-Chim.Sin.2010,26,1988. [白紅軍,來魯華.物理化學學報,2010,26,1988.]doi:10.3866/ PKU.WHXB20100725
(24)Gong,X.Q.;Liu,B.;Chang,S.;Li,C.H.;Chen,W.Z.;Wang, C.X.Sci.China Life Sci.2010,53(9),1152.doi:10.1007/ s11427-010-4050-0
(25)Gong,X.Q.;Wang,P.W.;Yang,F.;Chang,S.;Liu,B.;He,H. Q.;Cao,L.B.;Xu,X.J.;Li,C.H.;Chen,W.Z.;Wang,C.X. Proteins 2010,78(15),3150.doi:10.1002/prot.v78:15
(26) Janin,J.;Henrick,K.;Moult,J.;Eyck,L.T.;Sternberg,M.J.; Vajda,S.;Vakser,I.;Wodak,S.J.Proteins 2003,52(1),2. doi:10.1002/(ISSN)1097-0134
May 25,2012;Revised:August 16,2012;Published on Web:August 16,2012.
Division of Protein Surface Patches and Its Application in Protein Binding Site Prediction
WANG Pan-Wen1,§GONG Xin-Qi2,§LI Chun-Hua1,*CHEN Wei-Zu1WANG Cun-Xin1,*
(1College of Life Science and Bioengineering,Beijing University of Technology,Beijing 100124,P.R.China;2School of Life Sciences,Tsinghua University,Beijing 100084,P.R.China)
Binding site prediction for protein-protein complexes is a challenging problem in the area of computational molecular biology.Using a set of double-chain complexes in Benchmark 3.0,we calculated the solvent accessible surface areas and inter-residue contact areas for each monomer and propose a division method of protein surface patches.We found that the products of the solvent accessible surface areas and internal contact areas of patches,the PSAIA values,could provide protein binding site information.In a dataset of 78 complexes,either receptors or ligands of 74 complexes had interface patches with the first or second greatest PSAIA values among all surface patches.A good docking result was achieved when the binding site information obtained with this method was applied in Target 39 of the CAPRI experiment.This patch-based protein binding site prediction method differs from traditional methods,which are based on single residue and consider only surface residues.This provides a new method for binding site prediction in protein-protein interactions.
Protein binding site prediction;Patch division;Solvent accessible surface area; Interior contact area
10.3866/PKU.WHXB201208162
?Corresponding authors.LI Chun-Hua,Email:chunhuali@bjut.edu.cn.WANG Cun-Xin,Email:cxwang@bjut.edu.cn;Tel:+86-10-67392724.
§These authors contribute equally to this work.The current address of WANG Pan-Wen is Department of Biochemistry,Li Ka Shing Faculty of Medicine,the University of Hong Kong,Hong Kong,P.R.China.
The project was supported by the National Natural Science Foundation of China(31171267,10974008),Beijing Natural Science Foundation,China (4102006),International Science&Technology Cooperation Program of China(2010DFA31710),and Fundamental Research Fund for the Beijing Municipal Education Commission Science and Technology Innovation Platform,China.
國家自然科學基金(31171267,10974008),北京市自然科學基金(4102006),科技部國際合作項目(2010DFA31710)和北京市教委科技創(chuàng)新平臺-自然基礎研究項目資助
O641