劉洪偉 楊艷芳 熊王丹 吳平治 吳國(guó)江 邱德有*
(1.林木遺傳育種國(guó)家重點(diǎn)實(shí)驗(yàn)室,中國(guó)林業(yè)科學(xué)研究院林業(yè)研究所,北京 100091; 2.中國(guó)科學(xué)院華南植物園植物資源保護(hù)與可持續(xù)利用重點(diǎn)實(shí)驗(yàn)室,廣州 510650)
不同植物中推定蓖麻烯合酶基因的生物信息學(xué)分析
劉洪偉1楊艷芳1熊王丹2吳平治2吳國(guó)江2邱德有1*
(1.林木遺傳育種國(guó)家重點(diǎn)實(shí)驗(yàn)室,中國(guó)林業(yè)科學(xué)研究院林業(yè)研究所,北京 100091;2.中國(guó)科學(xué)院華南植物園植物資源保護(hù)與可持續(xù)利用重點(diǎn)實(shí)驗(yàn)室,廣州 510650)
利用GenBank中已登錄的完整的麻風(fēng)樹(shù)、乳漿大戟、蓖麻和烏桕中的13個(gè)蓖麻烯合酶(Casbene synthase,CS;EC 4.6.1.7)基因序列,通過(guò)生物信息學(xué)方法對(duì)其核酸及氨基酸序列、組成成分、導(dǎo)肽、信號(hào)肽、跨膜結(jié)構(gòu)域、疏水性/親水性、蛋白質(zhì)的二級(jí)結(jié)構(gòu)、三級(jí)結(jié)構(gòu)及功能域等進(jìn)行了分析預(yù)測(cè)。結(jié)果表明,13個(gè)CS基因的ORF長(zhǎng)度均在1 647~1 845 bp,蛋白分子量均在63.0~70.8 kD,終止密碼子為TGA或TAA,理論等電點(diǎn)均小于7.0,表明CS蛋白呈酸性。氨基酸含量最高的均為亮氨酸。核苷酸同源性比較分析表明,CS基因主要分為兩類。導(dǎo)肽預(yù)測(cè)發(fā)現(xiàn)其中6個(gè)CS具有導(dǎo)肽,均為葉綠體導(dǎo)肽。信號(hào)肽和擴(kuò)模結(jié)構(gòu)域預(yù)測(cè)發(fā)現(xiàn)這些CS不存在信號(hào)肽和跨膜結(jié)構(gòu)域,肽鏈整體呈現(xiàn)為親水性。這些CS的主要二級(jí)結(jié)構(gòu)元件為α-螺旋,并且都包含兩個(gè)萜類合酶功能域。以上研究為進(jìn)一步探索CS基因的功能提供一定理論依據(jù)。
巴豆烷;蓖麻烯合酶;生物信息學(xué)
二萜類化合物通常都是由牻牛兒基牻牛兒基焦磷酸(Geranylgeranyl pyrophosphate,GGPP)環(huán)化得到。巴豆烷是一類非常重要的二萜化合物的母核,這類化合物統(tǒng)稱為佛波酯類化合物,它是麻風(fēng)樹(shù)(JatrophacurcasL.)主要毒性因素之一,并因?yàn)樗陌┌Y誘導(dǎo)作用而受到廣泛關(guān)注[1]。近年熱門化合物prostratin也是一種佛波酯類化合物,它是在1992年由美國(guó)國(guó)立癌癥研究所(NCS)分離得到,并在2001年證實(shí)其具有抵抗艾滋病病毒的作用[2]。因此,研究佛波酯類化合物的母核的生物合成途徑很有必要,很多科學(xué)家也對(duì)這類化合物的母核生物合成途徑產(chǎn)生了濃厚的興趣。
巴豆烷類化合物的生物合成途徑涉及多個(gè)酶促反應(yīng),而且路徑尚不明晰,但是人們基本確定巴豆烷型二萜生物合成過(guò)程中的關(guān)鍵酶是蓖麻烯合酶(Casbene synthase,CS;EC 4.6.1.7),它首先催化GGPP環(huán)化生成反應(yīng)中間體西松烷(Cembrane),接著西松烷通過(guò)其他途徑變成蓖麻烯(Casbene),蓖麻烯再通過(guò)一系列電子轉(zhuǎn)移形成巴豆烷(Tigliane)[3]。目前科學(xué)家已從蓖麻(Ricinuscommunis)、烏桕(Triadicasebifera)、乳漿大戟(Euphorbiaesula)、白角麒麟(Euphorbiaresinifera)和Mamala樹(shù)(Homalanthusnutans)等多種植物中克隆得到CS基因[4]。由于麻風(fēng)樹(shù)具有作為生物能源材料的潛質(zhì),Sato等在2010年完成了其基因組測(cè)序,發(fā)現(xiàn)了9個(gè)CS類似基因(經(jīng)分析認(rèn)為其中一個(gè)為假基因),并公布了其中6個(gè)基因的氨基酸序列[5]。
生物信息學(xué)是當(dāng)代生命科學(xué)與信息科學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)、物理學(xué)、化學(xué)等多種學(xué)科彼此滲透而高度交織形成的一門新興的前沿學(xué)科[6]。它可以通過(guò)DNA或cDNA序列的信息分析作為出發(fā)點(diǎn),研究基因的功能,預(yù)測(cè)研究基因的產(chǎn)物即蛋白質(zhì),預(yù)測(cè)蛋白質(zhì)的定位及行使功能的區(qū)域,模擬蛋白質(zhì)的空間結(jié)構(gòu),分析蛋白質(zhì)的性質(zhì)等[7]。本研究通過(guò)生物信息學(xué)的方法,以麻風(fēng)樹(shù)的CS基因?yàn)橹攸c(diǎn),對(duì)從GenBank數(shù)據(jù)庫(kù)中得到的13個(gè)完整的麻風(fēng)樹(shù)、乳漿大戟、蓖麻和烏桕蓖麻烯合酶CS基因的核苷酸及氨基酸序列的組成、生化特性、結(jié)構(gòu)特點(diǎn)等進(jìn)行推測(cè)和分析,為今后深入研究該類酶的功能和結(jié)構(gòu)特征提供依據(jù)。
1.1 試驗(yàn)材料
利用GenBank數(shù)據(jù)庫(kù)進(jìn)行搜索,找到13個(gè)完整CS基因,其中乳漿大戟中1個(gè)(GenBank No.:ADB90273),麻風(fēng)樹(shù)中6個(gè)(BAJ53213、BAJ53216、BAJ53218、BAJ53219.1、BAJ53220、BAJ53221),蓖麻中5個(gè)(XP_002513369、XP_002513343、XP_002513340、XP_002513334、XP_002519897),烏桕中1個(gè)(ADB90272)。分別重新命名為:乳漿大戟EeCS,麻風(fēng)樹(shù)JcCS1-6,蓖麻RcCS1-5和烏桕TsCS。
1.2 試驗(yàn)方法
依據(jù)NCBI、CBS、ExPASy、SWISS-MODEL等網(wǎng)站提供的各類生物信息學(xué)軟件進(jìn)行在線分析。其中CS的查找在NCBI的GenBank(http://www.ncbi.nlm.nih.gov/genbank)進(jìn)行;CS開(kāi)放閱讀框(open reading frame,ORF)的確定使用NCBI-ORF Finder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html)完成;核酸和氨基酸序列的組成成分、理化性質(zhì)分析則利用ProtParam(http://www.expasy.ch/tools/protparam.html)在線工具進(jìn)行;氨基酸序列的同源性比對(duì)及進(jìn)化樹(shù)的構(gòu)建利用BioEdit和MEGA4.0完成;蛋白質(zhì)導(dǎo)肽預(yù)測(cè)通過(guò)TargetP1.1(http://www.cbs.dtu.dk/services/TargetP/)以及ChloroP 1.1(http://www.cbs.dtu.dk/services/ChloroP/)完成;蛋白的信號(hào)肽使用SignalP3.0(http://www.cbs.dtu.dk/services/SignalP/)進(jìn)行預(yù)測(cè);預(yù)測(cè)蛋白的跨膜結(jié)構(gòu)域以及親水性/疏水性時(shí)使用在線工具TMHMM2.0(http://www.cbs.dtu.dk/services/TMHMM/)和ProtScale(http://www.expasy.ch/tools/protscale.html)進(jìn)行;利用SMART(http://smart.embl-heidelberg.de/smart/set_mode.cgi?GENOMIC=1)完成蛋白功能域的預(yù)測(cè);蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)利用軟件SOPMA(http://npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page/NPSA/npsa_sopma.html)進(jìn)行;蛋白質(zhì)的三級(jí)結(jié)構(gòu)預(yù)測(cè)利用ESyPred3D(http://www.fundp.ac.be/sciences/biologie/urbm/bioinfo/esypred/)在線工具完成;蛋白質(zhì)三級(jí)結(jié)構(gòu)模型穩(wěn)定性分析利用Swiss-Model的ProCheck(http://swissmodel.expasy.org/workspace/index.php?func=tools_structureassessment1)。
2.1 核苷酸及氨基酸序列的組成及生化特性分析
用NCBI-ORF Finder、DNAMAN及ProtParam[8]在線工具對(duì)上述CS基因的核苷酸序列和氨基酸序列進(jìn)行分析,結(jié)果顯示(表1)13個(gè)CS基因編碼的完整ORF長(zhǎng)度在1 647~1 845 bp,預(yù)測(cè)蛋白分子量在63.0~70.8 kD,終止密碼子為TGA或TAA,在麻風(fēng)樹(shù)中使用TGA較多。預(yù)測(cè)蛋白理論等電點(diǎn)均小于7.0,說(shuō)明CS蛋白呈酸性。麻風(fēng)樹(shù)的JcCS 3蛋白中酸性氨基酸含量最高為15.3%,JcCS1蛋白中堿性氨基酸含量最高為12.1%。在這些植物CS蛋白中含量最高的氨基酸均為L(zhǎng)eu,但其他氨基酸含量變化較大。JcCS 1和RcCS 1為穩(wěn)定蛋白,其余CS蛋白均為不穩(wěn)定蛋白。
表1不同植物CS基因及對(duì)應(yīng)氨基酸序列的組成成分及理化性質(zhì)分析
Table1Compositionandphysicochemicalcharactercomparisonsofthe13CSgenesandthe13deducedproteins
基因Gene開(kāi)放閱讀框長(zhǎng)度Openreadingframe(bp)推導(dǎo)氨基酸殘基Deducedaminoacidsresidues(aa)分子量Molecularweight(kD)理論等電點(diǎn)值Theoreticalisoelectricpoint(PI)含量最豐富的氨基酸Themostabundantaminoacidsresidues酸性氨基酸比例Acidicaminoacidsratio(%)堿性氨基酸比例Basicaminoacidsratio(%)不穩(wěn)定系數(shù)Instabilityindex(%)終止密碼子TerminatorcodonEeCS179759869.27915.69LeuSerLysGluAsp13.911.743.49不穩(wěn)定TAAJcCS1180960269.44555.95LeuGluLysSerVal13.512.137.25穩(wěn)定TGAJcCS2165655163.9465.29LeuGluAlaLysSer14.511.341.82不穩(wěn)定TAAJcCS3167155664.30235.06LeuGluSerLysVal15.311.244.20不穩(wěn)定TGAJcCS4167155664.01695.25LeuGluSerLysAla14.711.345.14不穩(wěn)定TGAJcCS5164754863.01765.23LeuGluSerAlaLys14.610.945.94不穩(wěn)定TGAJcCS6166855564.20945.39LeuGluLysSerAla14.411.743.55不穩(wěn)定TGARcCS1166855564.35915.32LeuGluSerAlaIle14.811.737.29穩(wěn)定TAARcCS2180059968.77535.44LeuSerGluAlaVal14.010.942.01不穩(wěn)定TGARcCS3180660168.96555.35LeuSerGluAlaLys14.010.641.00不穩(wěn)定TGARcCS4184561470.81476.10LeuSerGluAlaLys12.911.643.28不穩(wěn)定TAARcCS5165655163.81965.29LeuGluAlaLysSer15.111.644.41不穩(wěn)定TAATsCS179459768.91455.40LeuGluSerValLys13.910.746.56不穩(wěn)定TGA
2.2氨基酸序列的多比對(duì)分析及系統(tǒng)進(jìn)化樹(shù)的構(gòu)建
根據(jù)氨基酸序列的相似性,利用BioEdit和MEGA4.0[9]軟件對(duì)13個(gè)CS氨基酸序列進(jìn)行多序列比對(duì),并對(duì)其構(gòu)建系統(tǒng)進(jìn)化樹(shù),采用默認(rèn)參數(shù),自檢1 000次。結(jié)果如圖1所示,13個(gè)CS基因被分成了兩大類,其中JcCS2-6、RcCS1和RcCS5八個(gè)CS基因被聚成了一大類,其中JcCS3-6聚成了一個(gè)亞類,RcCS5、JcCS2和RcCS1聚成了一個(gè)亞類;JcCS1、EeCS、TsCS及RcCS2-4為一大類,其中JcCS1單獨(dú)聚成了一個(gè)亞類,EeCS、TsCS和RcCS2-4聚成了一個(gè)亞類。這說(shuō)明麻風(fēng)樹(shù)和蓖麻中的CS基因都有兩個(gè)進(jìn)化起源,而且相互之間也出現(xiàn)了進(jìn)化分歧。
圖1 不同植物CS氨基酸序列的系統(tǒng)進(jìn)化樹(shù)Fig.1 Phylogenetic tree of 13 CS amino acid sequences
2.3 導(dǎo)肽的預(yù)測(cè)和分析
有些蛋白能夠在細(xì)胞中行使其特定功能,需要在合成多肽后先被定位運(yùn)輸?shù)教囟ǖ募?xì)胞部位,如葉綠體、線粒體等,再裝配形成具有一定結(jié)構(gòu)的蛋白質(zhì)。進(jìn)行新合成多肽定位的氨基酸序列就是導(dǎo)肽(leader peptite)[10]。導(dǎo)肽通常含有豐富的帶正電荷的堿性氨基酸(特別是精氨酸和賴氨酸),如果這些帶正電荷的氨基酸被不帶電荷的氨基酸取代,這段氨基酸序列就不起引導(dǎo)作用,說(shuō)明這些帶正電荷的氨基酸對(duì)于蛋白質(zhì)的定位具有非常重要的意義[11]。本實(shí)驗(yàn)中,利用在線工具TargetP1.1Server[12],選擇plant version及默認(rèn)參數(shù),對(duì)13個(gè)CS氨基酸系列進(jìn)行預(yù)測(cè),結(jié)果如表2所示。通過(guò)預(yù)測(cè)得到EeCS、JcCS1、RcCS2、RcCS3、RcCS4及TcCS可能具有葉綠體導(dǎo)肽,其中EeCS、JcCS1、RcCS3、RcCS4可靠級(jí)別在Ⅲ級(jí)以內(nèi),RcCS2和TcCS可靠級(jí)別為Ⅴ級(jí),預(yù)測(cè)導(dǎo)肽長(zhǎng)度在51~72個(gè)氨基酸殘基。JcCS2、JcCS3、JcCS4、JcCS5、JcCS6、RcCS1及RcCS5沒(méi)有氨基酸殘基分裂位點(diǎn),因此可能不存在導(dǎo)肽酶切位點(diǎn),不具導(dǎo)肽。再通過(guò)ChloroP 1.1[13]驗(yàn)證發(fā)現(xiàn),EeCS、JcCS1、JcCS2、RcCS3、RcCS4及TcCS具有葉綠體導(dǎo)肽,兩者數(shù)據(jù)并不完全統(tǒng)一。
表2 不同CS氨基酸序列的導(dǎo)肽預(yù)測(cè)
注:Len.長(zhǎng)度;cTP.葉綠體導(dǎo)肽;mTP.線粒體導(dǎo)肽;SP.分泌途徑;Loc.定位;C.葉綠體導(dǎo)肽;RC.可靠級(jí)別,越小越高;TPlen.預(yù)測(cè)導(dǎo)肽長(zhǎng)度;*. ChloroP 1.1預(yù)測(cè)結(jié)果
Note:Len. Sequence length; cTP. Chloroplast transit peptide; mTP. Mitochondrial targeting peptide; SP. Secretory pathway; Loc. Prediction of localization; C. Chloroplast; RC. Reliability class; TPlen. Predicted presequence length; *. The analysis results of ChloroP 1.1
圖2 JcCS1氨基酸序列信號(hào)肽的預(yù)測(cè)分析Fig.2 Predicted signal peptide of JcCS1 amino acid sequence
圖3 JcCS1氨基酸序列跨膜結(jié)構(gòu)域的預(yù)測(cè)分析Fig.3 Predicted transmembrane domain of JcCS 1 amino acid sequence
2.4 信號(hào)肽的預(yù)測(cè)與分析
信號(hào)肽指導(dǎo)分泌性蛋白到內(nèi)質(zhì)網(wǎng)膜上合成,它通常位于蛋白質(zhì)的N端,在蛋白質(zhì)合成結(jié)束之前就會(huì)被切除,它一般有16~26個(gè)氨基酸殘基。利用在線工具SignalP3.0Server[14]預(yù)測(cè)JcCS1氨基酸序列的信號(hào)肽存在位置及序列(圖2),結(jié)果表明JcCS1的氨基酸序列不存在信號(hào)肽。結(jié)合導(dǎo)肽預(yù)測(cè)的結(jié)果可以推測(cè)JcCS1在游離核糖體上合成以后,直接運(yùn)輸?shù)饺~綠體中發(fā)揮作用。運(yùn)用同樣的方法對(duì)另外12個(gè)CS的氨基酸序列進(jìn)行分析,均不存在信號(hào)肽。
2.5 跨膜結(jié)構(gòu)域的預(yù)測(cè)與分析
跨膜結(jié)構(gòu)域一般由20個(gè)左右疏水性氨基酸殘基組成,通常是跨膜蛋白的功能區(qū)域,主要形式為α-螺旋。利用TMHMM2.0 Server[15]在線預(yù)測(cè)JcCS1氨基酸序列的跨膜結(jié)構(gòu)域(圖3),結(jié)果表明JcCS1整條肽鏈都在膜的一側(cè),不具有跨膜結(jié)構(gòu)。運(yùn)用相同的方法對(duì)其他CS氨基酸序列進(jìn)行分析,均不存在跨膜結(jié)構(gòu)域。
2.6 疏水性/親水性的預(yù)測(cè)和分析
蛋白質(zhì)折疊時(shí)形成疏水內(nèi)核和親水表面,據(jù)此可以測(cè)定跨膜螺旋等二級(jí)結(jié)構(gòu)和蛋白質(zhì)表面氨基酸分布[16]。利用在線工具ProtScal[17],選定默認(rèn)參數(shù),預(yù)測(cè)JcCS1氨基酸序列的疏水性/親水性(圖4)。預(yù)測(cè)結(jié)果顯示,多肽鏈在第507位(Q)具有最小值-2.889,親水性最強(qiáng);在第345位(V)和第349位(I)具有最大值2.611,疏水性最強(qiáng)。從整體上來(lái)看,預(yù)測(cè)結(jié)果為親水性。運(yùn)用相同的方法對(duì)其余CS氨基酸序列進(jìn)行預(yù)測(cè),結(jié)果和JcCS1相似,均為親水性蛋白。
圖4 JcCS1氨基酸序列疏水性/親水性的預(yù)測(cè)分析Fig.4 Predicted hydrophobicity or hydrophilicity of JcCS1 amino acid sequence
2.7 二級(jí)結(jié)構(gòu)的預(yù)測(cè)與分析
蛋白質(zhì)的二級(jí)結(jié)構(gòu)通常有α-螺旋(α-helix)、β折疊(β-sheet)、轉(zhuǎn)角(turn)、無(wú)規(guī)則卷曲(coil)以及基序(motif)等[16]。用SOPMA[18]對(duì)JcCS 1氨基酸序列的二級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)(圖5),結(jié)果表明JcCS 1蛋白的主要結(jié)構(gòu)原件是α-螺旋,其次是無(wú)規(guī)則卷曲,β-轉(zhuǎn)角和延伸鏈的含量都很少。對(duì)其他CS蛋白進(jìn)行預(yù)測(cè),結(jié)果如表3所示,主要結(jié)構(gòu)原件都是α-螺旋和無(wú)規(guī)則卷曲。
表313個(gè)CS基因蛋白質(zhì)二級(jí)結(jié)構(gòu)主要構(gòu)成組件比例
Tabel3Constitutedthemaincomponentsofproteinsecondarystructureratioofthe13CSgenes
組件名稱Componentnameα?螺旋Alphahelix(%)β?轉(zhuǎn)角Betaturn(%)延伸鏈Extendedstrand(%)無(wú)規(guī)則卷曲Randomcoil(%)EeCS67.062.684.1826.09JcCS164.122.825.4827.57JcCS271.693.093.4521.78JcCS369.963.422.7023.92JcCS469.062.523.6024.82JcCS570.073.284.2022.45JcCS669.913.602.7023.78RcCS171.352.883.6022.16RcCS266.113.344.3426.21RcCS365.393.164.4926.96RcCS461.892.775.0530.29RcCS572.052.723.6321.60TsCS66.832.683.6926.80
圖5 JcCS1氨基酸序列二級(jí)結(jié)構(gòu)的預(yù)測(cè)Fig.5 Predicted second structure of JcCS1 amino acid sequence
2.8 功能域的預(yù)測(cè)和分析
功能域(functional domain)是能獨(dú)立存在于蛋白質(zhì)分子中的功能單位,功能域可以是一個(gè)或多個(gè)結(jié)構(gòu)域[19]。結(jié)構(gòu)域是一種介于二級(jí)與三級(jí)結(jié)構(gòu)之間的獨(dú)立的結(jié)構(gòu)和功能單位,具有一定的生物學(xué)功能[20]。利用在線工具SMART[21]分析JcCS1氨基酸序列功能結(jié)構(gòu)域的結(jié)果表明,它具有兩個(gè)結(jié)構(gòu)域Terpene-synth和Terpene-synth-C。Terpene-synth為N-末端結(jié)構(gòu)域從第72位氨基酸開(kāi)始到247位氨基酸結(jié)束,它行使轉(zhuǎn)運(yùn)肽功能,將蛋白轉(zhuǎn)運(yùn)到對(duì)應(yīng)的質(zhì)體中發(fā)揮作用;Terpene-synth-C為金屬結(jié)合位點(diǎn)區(qū)域從第277位氨基酸開(kāi)始到546位氨基酸結(jié)束,可以與Mn2+結(jié)合從而行使催化功能[22]。利用相同的方法對(duì)其他CS氨基酸序列進(jìn)行預(yù)測(cè),結(jié)果與JcCS1相同,均包含這兩個(gè)功能域,只是起始位置略有偏差。
2.9 三級(jí)結(jié)構(gòu)的預(yù)測(cè)與分析
利用ESyPred3D Web Server 1.0[23]同源建模的方法,選用神經(jīng)網(wǎng)絡(luò)和新展示技術(shù)預(yù)測(cè)CS蛋白的三級(jí)結(jié)構(gòu),如圖7所示為麻風(fēng)樹(shù)(JcCS 1)、乳漿大戟、蓖麻(RcCS 1)和烏桕CS蛋白質(zhì)的三級(jí)結(jié)構(gòu)。由三級(jí)結(jié)構(gòu)可以看出蓖麻烯合酶屬Ⅰ類萜類合酶(α區(qū),藍(lán)色區(qū))[24],其包含金屬離子結(jié)合區(qū)DDXXD和(N/D)DXX(S/T)XXXE(分別為紅色和橙色區(qū)域)[25];同時(shí)連著一個(gè)小的退化區(qū)(β區(qū),綠色區(qū)),這類區(qū)主要在Ⅱ類萜類合酶中發(fā)揮作用[26];紫色區(qū)域?yàn)榈谝粋€(gè)α螺旋,在I類萜類合酶中起給活性中心加蓋的作用[25]。
圖6 JcCS1蛋白結(jié)構(gòu)域位點(diǎn)預(yù)測(cè)Fig.6 Predicted protein domain sites of JcCS1 amino acid sequence
圖7 麻風(fēng)樹(shù)JcCS1(A)、乳漿大戟EeCS(B)、蓖麻RcCS1(C)和烏桕TsCS(D)CS的三維高級(jí)結(jié)構(gòu)預(yù)測(cè) 藍(lán)色. α區(qū);紅色. 金屬離子結(jié)合區(qū)DDXXD;橙色. 金屬離子結(jié)合區(qū)(N/D)DXX(S/T)XXXE;綠色. β區(qū);紫色. 第一個(gè)α螺旋Fig.7 Predicted three-dimensional structure of JcCS1(A),EeCS(B),RcCS1(C) and TsCS(D) Blue. α domain; Red. Metal-binding motif DDXXD; Orange. Metal-binding motif (N/D)DXX(S/T)XXXE; Green. β domain; Purple. The first α helix
利用ProCheck[27]對(duì)建模結(jié)果進(jìn)行監(jiān)測(cè),計(jì)算出Ramachandran圖。Ramachandran圖是反映立體化學(xué)質(zhì)量的參數(shù),它通過(guò)分析Phi(φ)角和Psi(ψ)角的分布方式大致評(píng)估模擬的結(jié)構(gòu)與自然結(jié)構(gòu)相同程度[11]。如果預(yù)測(cè)的蛋白質(zhì)殘基二面角(90%)位于黃色核心區(qū)域,則表明其空間結(jié)構(gòu)穩(wěn)定[16]。如圖8所示檢測(cè)麻風(fēng)樹(shù)(JcCS 1)、乳漿大戟、蓖麻(RcCS 1)和烏桕CS蛋白質(zhì)殘基的二面角有90%以上位于黃色區(qū)域,表明其有穩(wěn)定的空間構(gòu)象。對(duì)其余CS蛋白質(zhì)殘基的二面角進(jìn)行預(yù)測(cè),只有JcCS 4蛋白質(zhì)殘基的二面角為89.0%,略小于90%,存在不夠穩(wěn)定的可能性,其他均有穩(wěn)定空間構(gòu)象。
圖8 麻風(fēng)樹(shù)JcCS1(A)、乳漿大戟EeCS(B)、蓖麻RcCS1(C)和烏桕TsCS(D)CS Swiss-Model三維建模的Ramachandran圖Fig.8 Ramachandran map of JcCS1(A),EeCS(B),RcCS1(C) and TsCS(D) by using Swiss-Model method
作為一種潛在的可工業(yè)化開(kāi)發(fā)的生物能源植物,麻風(fēng)樹(shù)自身毒性對(duì)其開(kāi)發(fā)有很大限制,而它的毒性有一部分原因是由于其含有波酯類化合物。佛波酯類化合物的母核為巴豆烷,巴豆烷合成途徑中蓖麻烯合酶是一個(gè)關(guān)鍵酶,對(duì)它的了解有助于麻風(fēng)樹(shù)的去毒研究和進(jìn)一步的開(kāi)發(fā)利用。例如,可以在后續(xù)研究中可以通過(guò)敲除麻風(fēng)樹(shù)的CS基因,來(lái)試驗(yàn)是否可以幫助其完成去毒。
通過(guò)生物信息學(xué)分析,本文發(fā)現(xiàn)麻風(fēng)樹(shù)等13個(gè)CS都屬于酸性蛋白質(zhì),等電點(diǎn)在5.0~6.1,通過(guò)親水性/疏水性分析發(fā)現(xiàn)CS為親水性蛋白,為該蛋白的成功分離提供一定理論依據(jù)。由于CS在細(xì)胞中的底物GGPP主要存在于葉綠體當(dāng)中,其葉綠體導(dǎo)肽的存在與否將是行使其功能的關(guān)鍵[4],而預(yù)測(cè)數(shù)據(jù)顯示只有EeCS、JcCS1、RcCS2、RcCS3、RcCS4及TcCS具有葉綠體導(dǎo)肽,通過(guò)ChloroP 1.1驗(yàn)證發(fā)現(xiàn),EeCS、JcCS1、JcCS2、RcCS3、RcCS4及TcCS具有葉綠體導(dǎo)肽,兩者數(shù)據(jù)在對(duì)JcCS2和RcCS2兩個(gè)蛋白的預(yù)測(cè)有些出入。分析原因可能是由于現(xiàn)在導(dǎo)肽數(shù)據(jù)庫(kù)蛋白質(zhì)數(shù)量有限導(dǎo)致預(yù)測(cè)結(jié)果并不完全準(zhǔn)確,還需要進(jìn)一步實(shí)驗(yàn)驗(yàn)證。信號(hào)肽和擴(kuò)膜結(jié)構(gòu)域的預(yù)測(cè)都顯示CS是在細(xì)胞內(nèi)行使功能,這符合了我們對(duì)CS的預(yù)期判斷。對(duì)CS進(jìn)行的二級(jí)結(jié)構(gòu)和三級(jí)結(jié)構(gòu)分析顯示,CS是Ⅰ類萜類合酶,這為該酶的體外活性檢測(cè)提供了一定理論依據(jù)。本研究初步分析預(yù)測(cè)了來(lái)自麻風(fēng)樹(shù)等物種的13個(gè)CS基因的理化性質(zhì)和結(jié)構(gòu)特點(diǎn),為進(jìn)一步研究CS的功能、探索佛波酯類化合物合成途徑以及麻風(fēng)樹(shù)的開(kāi)發(fā)利用奠定了一定的理論基礎(chǔ)。
1.Adolf W,Opferkuch H J,Hecker E.Irritant phorbol derivatives from four Jatropha species[J].Phytochemistry,1984,23(1):129-132.
2.Gustafson K R,Cardellina J H,McMahon J B,et al.Non-promoting phorbol from the Samoan medicinal plant,Homalanthus nutans,inhibits cell killing by HIV-1[J].J Med Chem,1992,35(11):1978-1986.
3.Schmidt R J.The biosynthesis of tigliane and related diterpenoids:an intriguing problem[J].Bot J Linn Soc,1987,94(1):221-230.
4.Kirby J,Nishimoto M,Park J G,et al.Cloning of casbene and neocembrene synthases from Euphorbiaceae plants and expression in Saccharomyces cerevisiae[J].Phytochemistry,2010,71(13):1466-1473.
5.Sato S,Hirakawa H,Isobe S,et al.Sequence Analysis of the Genome of an Oil-Bearing Tree[J].Jatropha curcas L.DNA Res,2011,18(1):65-76.
6.徐建華,朱家勇.生物信息學(xué)在蛋白質(zhì)結(jié)構(gòu)與功能預(yù)測(cè)中的應(yīng)用[J].醫(yī)學(xué)分子生物學(xué)雜志,2005,2(3):227-232.
Xu J H,Zhu J Y.Bioinformatics and Its Application on Protein Structure and Function Prediction[J].J Med Mol Biol,2005,2(3):227-232.
7.許忠能.生物信息學(xué)[M].北京:清華大學(xué)出版社,2008:3-10.
Xu Z N.Bioinformatics[M].Beijing:Tsinghua University Press,2008:3-10.
8.Gasteiger E,Gattiker A,Hoogland C,et al.ExPASy:the proteomics server for in-depth protein knowledge and analysis[J].Nucl Acids Res,2003,31(13):3784-3788.
9.Tamura K,Dudley J,Nei M,et al.MEGA4:Molecular evolutionary genetics analysis(MEGA) software version 4.0[J].Mol Biol Evol,2007,24(8):1596-1599.
10.翟中和,王喜忠,丁明孝.細(xì)胞生物學(xué)[M].北京:高等教育出版社,2000:79-240.
Zhai Z H,Wang X Z,Ding M X.Cell biology[M].Beijing:Higher Education Press,2000:79-240.
11.董嬌,周軍,辛培堯等.不同植物L(fēng)DOX/ANS基因的生物信息學(xué)分析[J].基因組學(xué)與應(yīng)用生物學(xué),2010,29(5):815-822.
Dong J,Zhou J,Xin P Y,et al.Bioinformatics Analysis of LDOX/ANS Gene in Different Plants[J].Genomics and Applied Biology,2010,29(5):815-822.
12.Emanuelsson O,Nielsen H,Brunak S,et al.Predicting subcellular localization of proteins based on their N-terminal amino acid sequence[J].J Mol Biol,2000,300(4):1005-1016.
13.Emanuelsson O,Nielsen H,Heijne G V.ChloroP,a neural network-based method for predicting chloroplast transit peptides and their cleavage sites[J].Protein Science,1999,8(5):978-984.
14.Bendtsen J D,Nielsen H,Heijne G V,et al.Improved prediction of signal peptides:SingalP 3.0[J].J Mol Biol,2004,340(4):783-795.
15.Iked A M,Arai M,Lao D M.Transmembrane topology prediction methods:a reassessment and improvement by a consensus method using a dataset of experimentally characterized transmembrane topologies[J].In Silico Bio,2002,2(1):19-33.
16.薛慶中.DNA和蛋白質(zhì)序列數(shù)據(jù)分析工具[M].第2版.北京:科學(xué)出版社,2009:72-109.
Xue Q Z.Data analysis tools of DNA and Protein[M].2ed edition.Beijing:Science Press,2009:72-109.
17.Kyce J,Doolittle R F.A simple method for displaying the hydropathic character of a protein[J].J Mol Biol,1982,157(6):105-132.
18.Geourjon C,Deleage G.SOPMA:Significant improvement in protein secondary structure prediction by consensus prediction from multiple alignments[J].Bioinformatics,1995,11(6):681-684.
19.王鏡巖,朱圣庚,徐長(zhǎng)發(fā).生物化學(xué)[M].第3版.北京:高等教育出版社,2002.
Wang J Y,Zhu S G,Xu C F.Biochemistry[M].The third edition.Beijing:Higher Education Press,2002.
20.薛永常,聶會(huì)忠,劉長(zhǎng)斌.木質(zhì)素合酶C3H基因的生物信息學(xué)分析[J].生物信息學(xué),2009,7(1):13-17.
Xue Y C,Nie H Z,Liu C B.Bioinformatics analysis on C3H in different plants[J].Bioinformatics,2009,7(1):13-17.
21.Schultz J,Milpetz F,Bork P,et al.SMART,a simple modular architecture research tool:identification of signaling domains[J].Proc Natl Acad Sci,1998,95(11):5857-5864.
22.Bohlmann J,Steele C L,Croteau R.Monoterpene synthases from grand fir(Abiesgrandis):cDNA isolation,characterization, and functional expression of myrcene synthase,(-)-(4S)- limonene synthase,and(-)-(1S,5S)-pinene synthase[J].J Biol Chem,1997,272(35):21784-21792.
23.Lambert C,Leonard N,De Bolle X,et al.ESyPred3D:Prediction of proteins 3D structures[J].Bioinformatics,2002,18(9):1250-1256.
24.Cao R,Zhang Y H,Mann F M,et al.Diterpene cyclases and the nature of the isoprene fold[J].Proteins:Struct Funct Bioinf,2010,78(11):2417-2432.
25.K?ksal M,Jin Y,Coates R M,et al.Taxadiene synthase structure and evolution of modular architecture in terpene biosynthesis[J].Nature,2011,469(6):116-120.
26.Wendt K U,Poralla K,Schulz G E .Structure and function of a squalene cyclase[J].Science,1997,277(19):1811-1815.
27.Laskowski R A,Macarthur M W,Moss D,et al.PROCHECK:A program to check the stereo chemical quality of protein structures[J].J Appl Cryst,1993,26(2):283-291.
The National Natural Science Foundation of China(31270705);National non-profit Research Institutions of Chinese Academy of Forestry(RIF2014-01)
introduction:LIU Hong-Wei(1987—),male,Dr.,Maily engagerd in the study of plant secondary metabolism.
date:2016-01-13
BioinformaticsAnalysisofCasbeneSynthaseGenesinDifferentPlants
LIU Hong-Wei1YANG Yan-Fang1XIONG Wang-Dan2WU Ping-Zhi2WU Guo-Jiang2QIU De-You1*
(1.State Key Laboratory of Forest Tree Genetics and Breeding,the Research Institute of Forestry,Chinese Academy of Forestry,Beijing 100091;2.Key Laboratory of Plant Resources Conservation and Sustainable Utilization,South China Botanical Garden,Chinese Academy of Sciences,Guangzhou 510650)
We used bioinformatics to study 13 casbene synthase (CS; EC 4.6.1.7) full-length gene sequences registered in the GenBank fromEuphorbiaesula,JatrophacurcasL.,RicinuscommunisandTriadicasebifera, and predicted the composition of nucleic acid and amino acid sequences, leader peptides, signal peptide, trans-membrane topological structure, hydrophobicity or hydrophilicity, the secondary and tertiary structure as well as the function domains. The 13 genes encoding ORFs were 1 647-1 845 bp, the molecular weight of the 13 predicted proteins were 63.0-70.8 kD, and the termination codons were TGA or TAA. The theoretical isoelectric points of the 13 proteins were lower than 7.0, which suggested that CS proteins were acidic. Leu was the most contented amino acid. By the homologous alignment of nucleic acid, CS genes were divided into two groups. The prediction of leading peptides showed that at least 6 CSs had leader peptide (chloroplast leader peptide mainly) in common. All 13 CSs had no signal peptide and trans-membrane topological structure in and the peptide chains were hydrophilicity. α-helix was the dominant secondary structure constructional element of the 13 proteins which contained two terpenoid synthases function domains.
tigliane;casbene synthase;bioinformatics
國(guó)家自然科學(xué)基金(31270705);中國(guó)林業(yè)科學(xué)研究院林業(yè)研究所中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)專項(xiàng)(RIF2014-01)
劉洪偉(1987—),男,博士研究生,主要從事植物次生代謝方向的研究。
* 通信作者:E-mail:qiudy@caf.ac.cn
2016-01-13
* Corresponding author:E-mail:qiudy@caf.ac.cn
S565.6
A
10.7525/j.issn.1673-5102.2016.04.017