劉小健,王巍杰,顧婷,鄭強(qiáng)
(1.華北理工大學(xué) 生命科學(xué)學(xué)院,河北 唐山063000;2.山東大學(xué) 齊魯軟件學(xué)院,山東 濟(jì)南250101)
大豆是食用油和植物蛋白的重要來(lái)源,在農(nóng)業(yè)和經(jīng)濟(jì)領(lǐng)域越來(lái)越受到重視[1]。2008年12月8日在美國(guó)墨西哥州舉行的國(guó)際豆科基因組與遺傳會(huì)議上,美國(guó)能源部聯(lián)合基因組研究所(DOE/JGI)公布了大豆基因組序列的初步科學(xué)分析結(jié)果:大豆基因組由10億個(gè)堿基對(duì)組成,是人類(lèi)基因組的三分之一,大豆基因組中約有66 000個(gè)基因。2010年1月14日的《Nature》雜志公布了由美國(guó)農(nóng)業(yè)部、美國(guó)能源部聯(lián)合基因組研究所和普渡大學(xué)等多家科研機(jī)構(gòu)聯(lián)合完成的豆科植物最重要的物種大豆的完整基因組序列草圖[2]。
大豆基因組復(fù)制發(fā)生在距今5 900萬(wàn)年和1 300萬(wàn)年間[1],產(chǎn)生了一個(gè)復(fù)制率很高的基因組,其中近75%的基因以多版本存在,現(xiàn)代人為干預(yù)事件也使大豆基因組更加復(fù)雜[3]。擁有了大豆基因組序列,科學(xué)家們可以進(jìn)行大豆后基因組進(jìn)一步的研究,分析大豆相關(guān)蛋白的作用機(jī)制和功能,深入了解大豆的遺傳和生理特性,對(duì)挖掘物種重要功能基因及加快分子育種奠定重要的科研基礎(chǔ)。因此,大豆全基因組信息也會(huì)促進(jìn)根瘤菌遺傳特性的分析[4]。
自然界中,生物固氮約占自然固氮的90%,其中豆科植物與根瘤菌的共生固氮作用是重要的固氮方式。豆科植物與根瘤菌所形成的共生固氮體系必須要有豆科植物的根瘤素參與,根瘤素誘導(dǎo)根部形成的根瘤是固氮的前提條件。本研究就大豆的根瘤素蛋白家族23個(gè)蛋白進(jìn)行生物信息分析。
在NCBI(http://www.ncbi.nlm.nih.gov/)數(shù)據(jù)庫(kù)中通過(guò)E值為1e-15的blast搜索,確定大豆根瘤素基因。23個(gè)大豆根瘤素蛋白數(shù)據(jù)來(lái)源于NCBI中的蛋白數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/protein/)。
從GenaBank獲得大豆根瘤素基因在大豆染色體上的位置信息和整個(gè)大豆基因組的長(zhǎng)度及序列信息,利用MapInspect對(duì)大豆根瘤素基因進(jìn)行染色體物理定位。
對(duì)大豆根瘤素蛋白進(jìn)行亞細(xì)胞定位分析,研究中使用了在線分析軟件PSORT Prediction(http://psort.hgc.jp/form.html)。大豆根瘤素蛋白氨基酸基本理化性質(zhì)、氨基酸數(shù)目、分子量、等電點(diǎn)、不穩(wěn)定性指數(shù)和脂肪指數(shù)均采用在線分析工具 ProtParam (http://expasy.org./tools/protparam.html)[5]分析得到。二級(jí)結(jié)構(gòu)的分析采用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)[6]分析預(yù)測(cè)。大豆根瘤素蛋白信號(hào)肽相關(guān)信息由 CBS(http://www.cbs.dtu.dk/index.shtml)[8]在線分析獲得。
從NCBI得到大豆根瘤素蛋白的基因序列和cDNA序列,利用Spidey(http://www.ncbi.nlm.nih.gov/IEB/Research/Ostell/Spidey/)分析內(nèi)含子和外顯子組成。
對(duì)大豆根瘤素蛋白序列的多重對(duì)比,使用了ClustalX2軟件,參數(shù)均為默認(rèn)值。
利用ClustalX2軟件對(duì)大豆根瘤素蛋白序列的多重對(duì)比,將結(jié)果輸出保存,參數(shù)為默認(rèn)值。隨后,繼續(xù)使用MEGA6[7]選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進(jìn)化樹(shù),并進(jìn)行1 000次Bootsrat抽樣。
從GenBank中確定大豆根瘤素基因家族共有23個(gè)成員,從數(shù)據(jù)庫(kù)中序列信息分析基因位置,進(jìn)行了染色體物理定位。從染色體的物理定位看,23個(gè)大豆根瘤素基因在大豆染色體上分布不均勻,只在15條染色上有分布,1號(hào)染色體上分布2個(gè),2號(hào)染色體上分布2個(gè),5號(hào)染色體上分布1個(gè),6號(hào)染色體上分布2個(gè),7號(hào)染色體上分布2個(gè),8號(hào)染色體上分布1個(gè),10號(hào)染色體上分布3個(gè),12染色體上分布1個(gè),13號(hào)染色體上分布3個(gè),14號(hào)染色體上分布1個(gè),15號(hào)染色體上分布1個(gè),16號(hào)染色體上分布1個(gè),17號(hào)染色體上分布1個(gè),18號(hào)染色體上分布1個(gè),19號(hào)染色體上分布1個(gè),結(jié)果見(jiàn)圖1。
從表1統(tǒng)計(jì)數(shù)據(jù)可知,23個(gè)根瘤素蛋白的氨基酸數(shù)目差距較大,15個(gè)根瘤素蛋白序列長(zhǎng)度都在100~400個(gè)氨基酸之間,小于100個(gè)氨基酸的蛋白1個(gè),序列超過(guò)了400個(gè)氨基酸的蛋白7個(gè),最大的CLV1B有987個(gè)氨基酸。根瘤素蛋白家族成員的蛋白分子量在10186.1~108908.3。等電點(diǎn)分析表明:14個(gè)根瘤素蛋白等電點(diǎn)小于6.5,為酸性蛋白;9個(gè)根瘤素蛋白等電點(diǎn)大于7.5,為堿性蛋白。脂融指數(shù)分析表明,共有18個(gè)蛋白的脂溶性指數(shù)小于100,另外5個(gè)蛋白的脂溶性指數(shù)大于100,說(shuō)明大多數(shù)的根瘤素蛋白屬于親水性蛋白。不穩(wěn)定指數(shù)分析表明:NP_001235855.1、NP_001241451.1、NP_001238376.1、ABD77418.1、NP_001237636.1、NP_001237618.1、NP_001238498.1、NP_001237453.1和 NP_001235885.1這9個(gè)蛋白的不穩(wěn)定指數(shù)不小于40.00,為不穩(wěn)定蛋白。
如表2所示,對(duì)大豆根瘤素蛋白家族的23個(gè)成員二級(jí)結(jié)構(gòu)預(yù)測(cè)結(jié)果分析:根瘤素蛋白的二級(jí)結(jié)構(gòu)有α-螺旋、β-折疊、轉(zhuǎn)角、卷曲4個(gè)結(jié)構(gòu)。在 NP_001235855.1、NP_001236691.1、NP_001238376.1、ABD77418.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、NP_001235870.1、NP_001235885.1、XP_006572990.1、NP_001238004.1這11個(gè)蛋白中各組成成分的百分比卷曲>α-螺旋>β-折疊>轉(zhuǎn)角;在NP_001241451.1、NP_001237618.1中各組成成分的百分比卷曲>β-折疊>α-螺旋>轉(zhuǎn)角;在NP_001237525.1、NP_001237749.1、NP_001237653.1、NP_001237669.1、NP_001236825.1、AAA33993.1、XP_003535653.1、NP_001235599.1、NP_001237748.1共9個(gè)蛋白中各組成成分的百分比為α-螺旋>卷曲>β-折疊>轉(zhuǎn)角;在NP_001237636.1中各組成成分的百分比為卷曲=α-螺旋>β-折疊>轉(zhuǎn)角。
圖1 大豆根瘤素基因的染色體物理定位
表1 大豆根瘤素蛋白家族成員基本信息
表2 大豆根瘤素蛋白家族蛋白二級(jí)結(jié)構(gòu)和亞細(xì)胞定位
用PSORT Prediction對(duì)大豆根瘤素蛋白家族的蛋白進(jìn)行亞細(xì)胞定位,一部分蛋白屬于分泌蛋白,絕大多數(shù)的蛋白都屬于膜蛋白,其余的定位于細(xì)胞質(zhì)細(xì)胞漿和細(xì)胞器。定位于質(zhì)膜的8個(gè)蛋白:NP_001241451.1、NP_001237653.1、NP_001237669.1、NP_001236825.1、NP_001235870.1、NP_001235599.1、XP_006572990.1、NP_001238004.1。定位于胞外的7個(gè)蛋白:NP_001235855.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、AAA33993.1、NP_001235885.1。定位于微體5個(gè)蛋白:NP_001236691.1、NP_001237525.1、NP_001238376.1、ABD77418.1、NP_001237749.1。定位于細(xì)胞質(zhì)細(xì)胞漿的2個(gè)蛋白:NP_001237636.1、XP_003535653.1。定位于內(nèi)質(zhì)網(wǎng)膜有1個(gè)蛋白:NP_001237748.1。
表3 大豆根瘤素蛋白家族蛋白信號(hào)肽預(yù)測(cè)
利用CBS分析軟件分析大豆根瘤素蛋白家族蛋白,表3結(jié)果數(shù)據(jù)顯示出:NP_001235855.1、NP_001241451.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001237695.1、AAA33993.1、NP_001235885.1、NP_001235599.1、XP_006572990.1、NP_001238004.1這11個(gè)蛋白具有信號(hào)肽,其中包括亞細(xì)胞定位胞外的7個(gè)蛋白和定位到質(zhì)膜上的4個(gè)蛋白。
大豆根瘤素蛋白家族基因結(jié)構(gòu)分析以及外顯子的數(shù)量統(tǒng)計(jì)見(jiàn)表1。根據(jù)統(tǒng)計(jì)數(shù)據(jù)顯示出基因上外顯子數(shù)小于10個(gè)的有18個(gè)基因:NP_001235855.1、NP_001236691.1、NP_001236691.1、NP_001238376.1、ABD77418.1、NP_001237636.1、NP_001237669.1、NP_001237618.1、NP_001238498.1、NP_001237453.1、NP_001236825.1、NP_001237695.1、AAA33993.1、NP_001235870.1、NP_001235885.1、XP_003535653.1、NP_001237748.1、NP_001238004.1,其中LOC547771、LOC547974、N-22中都只有1個(gè)外顯子;其余5個(gè)基因外顯子的數(shù)目大于10個(gè):NP_001237525.1、NP_001237749.1、NP_001237653.1、NP_001235599.1、XP_006572990.1,其中LOC100781986中外顯子的數(shù)目最多,達(dá)到14個(gè)。所有的大豆根瘤素蛋白家族基因的結(jié)構(gòu)組成如圖2所示。
圖2 大豆根瘤素基因外顯子和內(nèi)含子組成分析
使用MEGA6對(duì)ClustalX2軟件對(duì)大豆根瘤素蛋白序列的多重對(duì)比結(jié)果選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進(jìn)化樹(shù),進(jìn)行系統(tǒng)的分析,由圖2可知,存在6個(gè)相對(duì)保守的區(qū)域。Motif1在6個(gè)相對(duì)保守的區(qū)域中是最優(yōu)的,Motif2、Motif3、Motif4、Motif5、Motif6這5個(gè)基序?qū)儆诖渭?jí)保守區(qū)。NP_001238498.1的 Motif2、Motif3、Motif4、Motif5、Motif6不完整。NP_001237636.1無(wú) Motif3、Motif4、Motif5、Motif6。NP_001237669.1無(wú) Motif5、Motif6基序,Motif4表現(xiàn)不完整。
圖3 大豆根瘤素家族蛋白序列的多重比較
利用MEGA6選用最大似然法(Maximum Likelihood)構(gòu)建系統(tǒng)進(jìn)化樹(shù),以便分析大豆根瘤素蛋白的差異和系統(tǒng)進(jìn)化關(guān)系。由圖3可知,23個(gè)大豆根瘤素蛋白6個(gè)亞族,最大的一個(gè)亞族擁有5個(gè)成員:NP_001237749.1、NP_001237748.1、XP_006572990.1、NP_001238004.1、NP_001236691.1。最小的一個(gè)亞族擁有2個(gè)成員:NP_001237636.1、NP_001237525.1。
在NCBI數(shù)據(jù)庫(kù)中,確定了23個(gè)大豆根瘤素蛋白,并且獲取對(duì)應(yīng)的基因信息。基因在染色體上的物理定位結(jié)果顯示23個(gè)大豆根瘤素基因在大豆染色體上分布并不均勻,并且每條染色體根瘤素基因所處位置也是變化無(wú)常的,基因表達(dá)與此相關(guān),是導(dǎo)致各個(gè)基因間發(fā)生變化的因素之一,與ClustalX2比對(duì)分析結(jié)果吻合。另外,23個(gè)大豆根瘤素蛋白亞細(xì)胞定位,發(fā)現(xiàn)定位于胞外的蛋白有7個(gè),這些蛋白可能參與誘導(dǎo)根瘤菌產(chǎn)生結(jié)瘤因子。
23個(gè)大豆根瘤素蛋白氨基酸數(shù)目有較大差距,大多數(shù)根瘤素蛋白序列長(zhǎng)度都在100~400之間;蛋白分子量在10186.1(NP_001237636.1)~108908.3(CLV1B)之間變化。等電點(diǎn)分析結(jié)果表明:變化范圍在5.0~10.13,14個(gè)根瘤素蛋白等電點(diǎn)小于6.5,表現(xiàn)出酸性,9個(gè)根瘤素蛋白等電點(diǎn)大于7.5,表現(xiàn)出堿性;脂融指數(shù)分析表明,共有18個(gè)蛋白的脂溶性指數(shù)小于100,另外5個(gè)蛋白的脂溶性指數(shù)大于100,說(shuō)明大多數(shù)的根瘤素蛋白屬于親水性蛋白。不穩(wěn)定指數(shù)分析表明:9個(gè)蛋白的不穩(wěn)定指數(shù)不小于40,為不穩(wěn)定蛋白。二級(jí)結(jié)構(gòu)預(yù)測(cè)α-螺旋與卷曲是大豆根瘤素蛋白的主要構(gòu)成原件;一部分蛋白被預(yù)測(cè)出來(lái)屬于分泌蛋白,定位于胞外的概率最大的有7個(gè)蛋白,沒(méi)有蛋白定位于細(xì)胞核中,絕大多數(shù)的蛋白都屬于膜蛋白,定位于質(zhì)膜的概率最大的有8個(gè)蛋白,定位于內(nèi)質(zhì)網(wǎng)膜的概率最大的有1個(gè)蛋白,其余的分貝定位于細(xì)胞質(zhì)細(xì)胞漿和細(xì)胞器,定位于微體的概率最大的有5個(gè)蛋白,定位于細(xì)胞質(zhì)細(xì)胞漿的概率最大的有2個(gè)蛋白;11個(gè)蛋白具有信號(hào)肽,其中包括亞細(xì)胞定位到胞外的7個(gè)蛋白,剩余的4個(gè)蛋白均是定位到質(zhì)膜上的蛋白;大豆根瘤素蛋白基因上外顯子數(shù)目在1~14變化。
到目前為止,大豆根瘤素蛋白的功能研究還不是很清楚,除少數(shù)根瘤素通過(guò)遺傳學(xué)方法確定遺傳學(xué)功能外,大多數(shù)根瘤素的功能仍是未知。本次研究對(duì)大豆根瘤素蛋白家族進(jìn)行初步分析,為深入了解該家族蛋白的合成調(diào)控、結(jié)構(gòu)和功能等提供了參考數(shù)據(jù)。加快了將大豆與根瘤菌這種共生固氮作用人為控制應(yīng)用于實(shí)踐的進(jìn)程,采用基因工程技術(shù)育種,有針對(duì)性地進(jìn)行固氮菌的遺傳改造,構(gòu)建高效的固氮菌株,以提高固氮效率,減少化肥施用,為作物提供更多的固氮。同時(shí),研究其他禾本科植物是否具有大豆根瘤素的同源基因具有更加潛在的意義。
圖4 大豆根瘤素蛋白系統(tǒng)進(jìn)化樹(shù)
[1] Gary Stacey,Lila Vodkin,Wayne A,et al.Parrott.National Science Foundation-Sponsored Workshop Report.Draft Plan for Soybean Genomics[J].Plant Physiology,2004,135(1):59-70.
[2] Jeremy Schmutz,Steven B.Cannon,Jessica Schlueter,et al.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463(7278):178-120.
[3] David L.Hyten,Qijian Song,Youlin Zhu,et al.Impacts of genetic bottlenecks on soybean genome diversity[J].PNAS,2006,103(45):16666-16671.
[4] Xiangyang Xua,Liang Zeng,Ye Tao,et al.Pinpointing genes underlying the quantitative trait loci for root-knot nematode resistance in palaeopolyploid soybean by whole genome resequencing[J].PNAS,2013,110(33):13469-13474.
[5] Wilkins MR,Gasteiger E,Bairoch A,et al.Protein Identification and Analysis Tools on the ExPASy Server[J].Methods Mol Biol.1999,112:571-607.
[6] Geourjon C,Deléage G.SOPMA:Significant improvement in protein secondary structure prediction by cprediction from alignments and joint prediction[J].CABIOS,1995,11(6):681-684.
[7] Koichiro Tamura,Glen Stecher,Daniel Peterson,et al.MEGA6:Molecular Evolutionary Genetics Analysis Version 6.0[J].Mol.Biol.2013,30(12):2725-2729.