鄒 智,楊禮富,安 鋒,林位夫
(中國(guó)熱帶農(nóng)業(yè)科學(xué)院橡膠研究所/農(nóng)業(yè)部儋州熱帶作物科學(xué)觀測(cè)實(shí)驗(yàn)站,海南 儋州 571737)
4種大戟科植物L(fēng)hca基因家族的全基因組鑒定、分類與進(jìn)化分析
鄒 智,楊禮富,安 鋒,林位夫
(中國(guó)熱帶農(nóng)業(yè)科學(xué)院橡膠研究所/農(nóng)業(yè)部儋州熱帶作物科學(xué)觀測(cè)實(shí)驗(yàn)站,海南 儋州 571737)
LHCI是植物光系統(tǒng)I(PSI)中與色素分子結(jié)合的一系列膜蛋白,由Lhca基因家族編碼,主要參與光能的捕獲與傳遞。雖然Lhca基因家族已在擬南芥、水稻、楊樹等模式植物中得到了系統(tǒng)鑒定,但在以高光效和高生物量著稱的大戟科植物中,至今還未見Lhca類基因的報(bào)道。研究基于蓖麻、麻風(fēng)樹、木薯和橡膠樹等4種大戟科植物已公布的基因組和EST數(shù)據(jù)對(duì)Lhca基因家族進(jìn)行全面鑒定,并分析了其基因結(jié)構(gòu)、生化特性及進(jìn)化關(guān)系。結(jié)果表明,蓖麻、麻風(fēng)樹、木薯和橡膠樹分別含有6、6、9和9個(gè)Lhca基因,分屬于Lhca1、Lhca2、
Lhca3、Lhca4、Lhca5和Lhca6等6個(gè)亞家族,每個(gè)亞家族含有1~2個(gè)成員不等,基因的內(nèi)含子數(shù)目在2~5個(gè)之間,部分基因還存在可變剪接形式。進(jìn)化分析顯示,Lhca1和Lhca3亞族具有較早的起源,Lhca2和Lhca6存在于陸生生物中,Lhca4和Lhca5則只存在于高等植物中;在木薯和橡膠樹中,Lhca1、Lhca2和Lhca4亞族都出現(xiàn)了基因的擴(kuò)增。
大戟科植物;全基因組;Lhca基因家族;鑒定;進(jìn)化分析
LHCI(light-harvesting chlorophyll a/b-binding proteins of photosystem I)是植物光系統(tǒng)I(PSI)中與色素分子結(jié)合的一系列膜蛋白,由Lhca基因家族編碼,含有3個(gè)跨膜螺旋,每個(gè)跨膜螺旋包含1個(gè)保守的葉綠素結(jié)合(chlorophyllbinding, CB)結(jié)構(gòu)域[1]。雖然Lhca基因家族已在擬南芥(Arabidopsis thaliana)、水稻(Oryza sativa)和楊樹(Populus trichocarpa)等模式植物中得到了系統(tǒng)的鑒定[2-4],主要包含Lhca1、Lhca2、Lhca3、Lhca4、Lhca5和Lhca6等 6個(gè)亞家族,但在以高光效和高生物量著稱的大戟科(Euphorbiaceae)植物中,至今還未見Lhca類基因的報(bào)道。最近,蓖麻(Ricinus communisL.)、麻 風(fēng) 樹(Jatropha curcasL.)、 木 薯(Manihot esculentaCrantz)、 橡 膠 樹(Hevea brasiliensisMuell. Arg.)等4種大戟科植物全基因組序列的釋放[5-8]為基因組范圍內(nèi)鑒定和分析這一基因家族創(chuàng)造了條件。研究在全面鑒定這4種大戟科植物L(fēng)hc基因基礎(chǔ)上,深入分析了基因的結(jié)構(gòu)、編碼蛋白的生化特性及進(jìn)化關(guān)系,以期為下一步的功能研究與利用提供參考。
萊茵衣藻(Chlamydomonas reinhardtii)、小立碗蘚(Physcomitrella patens)、擬南芥、水稻、蓖麻、木薯的全基因組序列下載于phytozome v9.0(http://www.phytozome.net/);麻風(fēng)樹和橡膠樹的全基因組序列,蓖麻、麻風(fēng)樹、木薯和橡膠樹的cDNA與EST序列下載于NCBI(http://www.ncbi.nlm.nih.gov/)。
1.2.1 蓖麻、麻風(fēng)樹、木薯和橡膠樹Lhca基因的鑒別與分類
根據(jù)先前的研究結(jié)果,首先從萊茵衣藻、小立碗蘚、水稻和擬南芥的基因組中調(diào)取了已報(bào)道的Lhca基因[2-4,9-10],然后從每個(gè)亞家族中選取1個(gè)成員作為查詢序列,采用tBLASTn[11]程序(E值設(shè)為10-5)分別搜索萊茵衣藻、小立碗蘚、水稻和擬南芥的基因組,蓖麻、麻風(fēng)樹、木薯和橡膠樹的基因組、cDNA及EST序列,候選基因翻譯成蛋白后再確認(rèn)其是否存在跨膜螺旋和CB結(jié)構(gòu)域。
1.2.2 蓖麻、麻風(fēng)樹、木薯和橡膠樹LHCI的生化特性、進(jìn)化分析及系統(tǒng)命名
采用在線軟件ProtParam(http://web.expasy.org/protparam/)預(yù)測(cè)蛋白的理論分子量(molecular weight, Mw)、等電點(diǎn)(theoretical pI)、GRAVY(grand average of hydropathy);采用在線軟件ChloroP軟件(http://www.cbs.dtu.dk/services/ChloroP/) 預(yù) 測(cè)蛋白的信號(hào)肽。用ClustalW2[12]進(jìn)行多序列比對(duì)后,采用MEGA 4.0[13]采用Neighbor-Joing法構(gòu)建系統(tǒng)發(fā)生樹,bootstrap值設(shè)為1000;最后遵循擬南芥中的命名規(guī)則及進(jìn)化關(guān)系對(duì)基因進(jìn)行系統(tǒng)命名。
綜合同源搜索及已報(bào)道的研究結(jié)果,分別從萊茵衣藻、小立碗蘚、水稻和擬南芥的基因組中鑒定出9、12、6和7個(gè)Lhca基因(表1)。
綜合同源搜索和CB結(jié)構(gòu)域分析,研究分別從蓖麻、麻風(fēng)樹、木薯和橡膠樹的基因組和EST序列中鑒定出6、6、9和9個(gè)Lhca基因,分屬于Lhca1、Lhca2、Lhca3、Lhca4、Lhca5 和Lhca6 等6個(gè)亞家族(表2)。
表 1 萊茵衣藻、小立碗蘚、水稻和擬南芥基因組中鑒定的Lhca基因Table 1 List of Lhca gene family identified from Creinhardtii, moss, Arabidopsis and rice
從基因結(jié)構(gòu)來看,這些基因包含2~5個(gè)內(nèi)含子不等,同一亞族的基因具有相同的內(nèi)含子數(shù)目,如Lhca1亞族基因都含有3個(gè)內(nèi)含子,Lhca2和Lhca6亞族基因都含有4個(gè)內(nèi)含子,Lhca3和Lhca4亞族基因都含有2個(gè)內(nèi)含子,Lhca5亞族基因都含有5個(gè)內(nèi)含子。基因編碼區(qū)長(zhǎng)度在917-1 972 bp之間,cDNA編碼區(qū)長(zhǎng)度在732~945 bp之間(表2)。
從基因分布來看,在4個(gè)物種中,這些基因都散布于不同的scaffold上,即便是木薯和橡膠樹中同一亞族的兩個(gè)成員也是如此(表2)。
從EST分布來看,蓖麻和木薯所有的Lhca基因在NCBI中都有存在的EST,麻風(fēng)樹中有3個(gè)(即50%)存在EST,而橡膠樹中所有基因都缺乏對(duì)應(yīng)的EST。此外,目前的EST數(shù)據(jù)顯示,蓖麻、麻風(fēng)樹和木薯分別有1、1和4個(gè)基因存在可變剪接(表2)。
表2 蓖麻、麻風(fēng)樹、木薯和橡膠樹基因組中鑒定的Lhca基因Table 2 List of Lhca genes identified from Castor bean, Physic nut, Cassava and rubber tree
蓖麻L(zhǎng)HCI蛋白最長(zhǎng)的包含297個(gè)氨基酸殘基,最短的有244個(gè)殘基,其Mw值在26.43到33.00 kDa之間;pI值在5.96到8.45之間;GRAVY值在-0.134到0.071之間,其中,親水性蛋白(即GRAVY<0)的約占83.33%;AI值在81.17到89.18之間;II值在33.89到47.22之間,不穩(wěn)定蛋白(即II>40)約占50.00%(表3)。
麻風(fēng)樹LHCI蛋白最長(zhǎng)的包含271個(gè)氨基酸殘基,最短的有245個(gè)殘基,其Mw值在26.67到29.34 kDa之間;pI值在5.41到9.32之間;GRAVY值在-0.146到0.049之間,其中,親水性蛋白約占50.00%;AI值在82.65到92.05之間;II值在34.81到47.44之間,不穩(wěn)定蛋白約占66.67%(表3)。
木薯LHCI蛋白最長(zhǎng)的包含314個(gè)氨基酸殘基,最短的有243個(gè)殘基,其Mw值在26.40到34.88 kDa之間;pI值在5.14到9.41之間;GRAVY值在-0.230到0.049之間,其中,親水性蛋白的約占66.67%;AI值在82.35到94.31之間;II值在28.84到50.41之間,不穩(wěn)定蛋白約占44.44%(表3)。
橡膠樹LHCI蛋白最長(zhǎng)的包含274個(gè)氨基酸殘基,最短的有243個(gè)殘基,其Mw值在26.44到29.69 kDa之間;pI值在5.48到8.90之間;GRAVY值在-0.123到0.071之間,其中,親水性蛋白的約占66.67%;AI值在81.67到89.18之間;II值在26.93到53.30之間,不穩(wěn)定蛋白約占55.56%(表3)。
為揭示大戟科植物L(fēng)hca基因的起源與進(jìn)化,研究將萊茵衣藻、小立碗蘚、水稻、擬南芥與蓖麻、麻風(fēng)樹、木薯和橡膠樹的LHCI蛋白共同構(gòu)建進(jìn)化樹,結(jié)果表明,這些蛋白聚成4大類,即Lhca2與Lhca6亞族聚成1類,Lhca4與Lhca5亞族聚成1類,Lhca1和Lhca3亞族分別單獨(dú)聚成1類(圖1)。
圖1 LHCI蛋白的進(jìn)化分析Fig. 1 Phylogenetic tree of Lhcas from Castor bean, Physic nut, Cassava and rubber tree with homologous proteins from other species such as Creinhardtii, moss, Arabidopsis and rice
Lhca1和Lhca3亞族具有較近的親緣關(guān)系。由于全部萊茵衣藻和大部分小立碗蘚的LHCI蛋白都聚在這2類,這表明它們應(yīng)為L(zhǎng)hca家族的最早起源。由于水稻、擬南芥、蓖麻和麻風(fēng)樹的Lhca1和Lhca3亞族都只有一個(gè)成員,且其與萊茵衣藻和小立碗蘚的同亞族成員具有較遠(yuǎn)的親緣關(guān)系,這表明Lhca1和Lhca3亞族在分化后,早期是以單拷貝的形式在不同物種中進(jìn)化:在萊茵衣藻中,Lhca3亞族只有1個(gè)成員,基因沒有出現(xiàn)擴(kuò)增,但在Lhca1亞族中,基因成員數(shù)增加到8個(gè)(約占總基因數(shù)的88.89%),出現(xiàn)了明顯的擴(kuò)增,并呈現(xiàn)出新的分支(圖1);在小立碗蘚中,Lhca1和Lhca3亞族都出現(xiàn)了基因擴(kuò)增,其中,Lhca3亞族的擴(kuò)增速度相對(duì)較快;在木薯和橡膠樹中,Lhca3亞族沒有出現(xiàn)基因擴(kuò)增,而Lhca1亞族則增加了1倍。
Lhca2與Lhca6亞族具有較近的親緣關(guān)系,小立碗蘚中有4個(gè)成員屬于該大類,它們與Lhca2與Lhca6亞族形成2個(gè)獨(dú)立的分支(圖1)。由于水稻、蓖麻和麻風(fēng)樹的Lhca2和Lhca6亞族都只有一個(gè)成員,這表明該類最先應(yīng)該是以單拷貝的形式在不同物種中進(jìn)化:在小立碗蘚中,基因擴(kuò)增和進(jìn)化速度都很快;在水稻、蓖麻和麻風(fēng)樹中,Lhca2亞族基因沒有出現(xiàn)擴(kuò)增,而在擬南芥、木薯和橡膠樹中,基因在物種的分化后出現(xiàn)了基因的加倍;與Lhca2亞族相比,Lhca6亞族相對(duì)保守,基因在水稻、擬南芥、蓖麻、麻風(fēng)樹、木薯和橡膠樹中都沒有出現(xiàn)擴(kuò)增(圖1)。
Lhca4與Lhca5亞族只存在于高等植物中,屬于進(jìn)化后期產(chǎn)生的大類。相對(duì)而言,Lhca5亞族較為保守,基因在水稻、擬南芥、蓖麻、麻風(fēng)樹、木薯和橡膠樹中都為單拷貝;而Lhca4亞族則在木薯和橡膠樹中都出現(xiàn)了基因的加倍(圖1)。
最后,遵循擬南芥中的命名規(guī)則,將蓖麻、麻風(fēng)樹、木薯和橡膠樹的Lhca基因按著進(jìn)化關(guān)系依次命名為如表2和圖1所示。
大戟科是一個(gè)包含300余屬8 000多種植物的大科,其中不乏蓖麻、麻風(fēng)樹、木薯和橡膠樹等重要經(jīng)濟(jì)作物。研究基于已公布的基因組和EST數(shù)據(jù),首次對(duì)蓖麻、麻風(fēng)樹、木薯和橡膠樹等4種大戟科植物的Lhca基因家族進(jìn)行全面鑒定:
蓖麻、麻風(fēng)樹、木薯和橡膠樹的基因組中分別含有6、6、9和9個(gè)Lhca基因,分屬于Lhca1、Lhca2、Lhca3、Lhca4、Lhca5 和Lhca6 等6個(gè)亞家族,其中蓖麻和麻風(fēng)樹的基因數(shù)目和組成都與水稻和擬南芥相近,而在木薯和橡膠樹中,Lhca1、Lhca2和Lhca4亞族都出現(xiàn)了基因的加倍,考慮到這些基因都散布于不同的scaffold上,且蓖麻、麻風(fēng)樹、木薯和橡膠樹都屬于大戟科,而木薯(2n= 36)和橡膠樹(2n= 36)的染色體數(shù)目差不多是蓖麻(2n= 20)和麻風(fēng)樹(2n= 22)的2倍,推測(cè)Lhca1、Lhca2和Lhca4亞族基因的加倍可能是染色體水平的加倍造成的,相反,加倍的Lhca3、Lhca5和Lhca6亞族則在進(jìn)化中丟失了另一個(gè)拷貝(甚至極可能是隨著整條染色體的丟失而丟失),不過這種推測(cè)還有待進(jìn)一步的證實(shí),因?yàn)檫@4個(gè)物種至今還只存在基因組草圖,相關(guān)基因都未能精確地定位到染色體上[5-8]。
為探討Lhca基因家族的起源與進(jìn)化,研究用生物進(jìn)化史上的重要物種——萊茵衣藻(可進(jìn)行光合作用的單細(xì)胞生物)、小立碗蘚(早期的陸地生物)、水稻(單子葉模式植物)、擬南芥(雙子葉模式植物)與蓖麻、麻風(fēng)樹、木薯和橡膠樹的LHCI蛋白共同構(gòu)建了進(jìn)化樹,結(jié)果表明,Lhca的6個(gè)亞家族具有不同的起源和進(jìn)化速度。Lhca1和Lhca3亞族早在單細(xì)胞的藻類中就已存在,早先以單拷貝的形式在不同物種中進(jìn)化。Lhca3亞族在萊茵衣藻和高等植物中的進(jìn)化較為保守,而在小立碗蘚中則出現(xiàn)了明顯的擴(kuò)增。相對(duì)而言,Lhca1亞族整體的進(jìn)化速度都比較快,其在萊茵衣藻、小立碗蘚、楊樹、木薯和橡膠樹中都有擴(kuò)增[3,9,10],其中尤以萊茵衣藻為甚(基因數(shù)目增加了8倍),并且快速的進(jìn)化使其呈現(xiàn)出明顯的分支(圖1)。
Lhca2與Lhca6亞族在光合生物向陸地進(jìn)化過程中產(chǎn)生,并在小立碗蘚中快速擴(kuò)增。在高等植物中,早期的祖先先產(chǎn)生Lhca2亞族,并在此基礎(chǔ)上進(jìn)化形成Lhcv6亞族(圖1)。相對(duì)而言,Lhca6亞族較為保守,而Lhca2亞族則保持著原來較快的進(jìn)化速度,在擬南芥、楊樹、木薯和橡膠樹中都出現(xiàn)了基因加倍[3](圖1)。
隨著Lhca基因家族的進(jìn)一步分化,最終在高等植物中進(jìn)化產(chǎn)生了Lhca4與Lhca5亞族,其中,Lhca5亞族相對(duì)保守,而Lhca4亞族則以較快的速度進(jìn)化著,并在楊樹、木薯和橡膠樹中出現(xiàn)了基因加倍的現(xiàn)象[3](圖1)。
總之,蓖麻、麻風(fēng)樹、木薯和橡膠樹的鑒定不僅豐富了Lhca基因家族的成員數(shù),同時(shí)也為下一步闡明這4種植物乃至大戟科植物高光效的分子機(jī)理奠定了良好的基礎(chǔ)。
[1] Nelson N, Ben Shem A. The structure of photosystem I and evolution of photosynthesis[J]. Bioessays, 2005, 27: 914-922.
[2] Jansson S. A guide to the Lhc genes and their relatives inArabidopsis. Trends Plant Sci, 1999, 4(6): 236-240.
[3] Klimmek F, Sj?din A, Noutsos C,et al.Abundantly and rarely expressed Lhc protein genes exhibit distinct regulation patterns in plants[J]. Plant Physiol, 2006, 140(3): 793-804.
[4] Umate P. Genome-wide analysis of the family of light-harvesting chlorophyll a/b-binding proteins inArabidopsisand rice[J]. Plant Signal Behav, 2010, 5(12): 1537-1542.
[5] Chan AP, Crabtree J, Zhao Q,et al. Draft genome sequence of the oilseed speciesRicinus communis[J]. Nat Biotechnol, 2010,28(9): 951-956.
[6] Sato S, Hirakawa H, Isobe S,et al. Sequence analysis of the genome of an oil-bearing tree,Jatropha curcasL[J]. DNA Res,2011, 18(1): 65-76.
[7] Prochnik S, Marri P R, Desany B,et al.The Cassava Genome:Current Progress, Future Directions[J]. Trop Plant Biol, 2012,5(1): 88-94.
[8] Rahman A Y, Usharraj A O, Misra B B,et al. Draft genome sequence of the rubber treeHevea brasiliensis[J]. BMC Genomics, 2013, 14: 75.
[9] Tokutsu R, Teramoto H, Takahashi Y, Ono TA, Minagawa J. The light-harvesting complex of photosystem I inChlamydomonas reinhardtii: protein composition, gene structures and phylogenic implications. Plant Cell Physiol, 2004, 45(2): 138-145.
[10] Alboresi A, Caffarri S, Nogue F,et al.In silico and biochemical analysis ofPhyscomitrella patensphotosynthetic antenna:identif i cation of subunits which evolved upon land adaptation[J].PLoS One, 2008, 3(4): e2033.
[11] Altschul S F, Madden T L, Sch?ffer A A,et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs[J]. Nucleic Acids Res, 1997, 25(17): 3389-3402.
[12] Thompson J D, Higgins D G, Gibson T J. CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice[J]. Nucleic Acids Res, 1994,22(22): 4673-4680.
[13] Tamura K, Dudley J, Nei M,et al.MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0[J].Mol Biol Evol, 2007, 24(8): 1596-1599.
[14] 鄒 智, 安 鋒, 楊禮富, 等. 大戟科Lhcb基因家族的全基因組鑒定、分類與進(jìn)化分析[J]. 中南林業(yè)科技大學(xué)學(xué)報(bào), 2013,33(12): 46-52.
Genome-wide identif i cation, classif i cation and phylogenetic analysis of Lhca gene family in four Euphorbiaceae plants
ZOU Zhi, YANG Li-fu, AN Feng, LIN Wei-Fu
(Danzhou Investigation & Experiment Station of Tropical Crops, Ministry of Agriculture/Rubber Research Institute (RRI), Chinese Academy of Tropical Agricultural Sciences (CATAS), Danzhou 571737, Hainan, China)
TheLhcagene family in green plants encodes several light-harvesting chlorophyll a/b-binding (LHC) proteins that collect and transfer light energy to the reaction centers of photosystem I (PSI). Although this gene family is well documented in model plants such arabidopsis, rice and poplar, little information is available in Euphorbiaceae plants which are characterized with high photosynthesis and high biomass. In this study, a genome-wide search was carried out to identifyLhcagenes in four genome sequenced Euphorbiaceae plants. As a result, a number of 6, 6, 9 and 9Lhcagenes representing 6 subgene families denotedLhca1,Lhca2,Lhca3,Lhca4,Lhca5 andLhca6 were identif i ed from castor bean, physic nut, cassava and rubber tree, respectively. These genes contain 2~5 introns, and some of them were found to have alternative splicing isoforms. The phylogenetic analysis suggests an early origin of sub-gene familyLhca1 andLhca3 up to unicellular algae, and the subfamilyLhca2 andLhca6 appeared in land organisms, while the subfamilyLhca4 andLhca5 presented only in high plants. In cassava and rubber tree plants, the gene amplif i cation was found in the subfamilyLhca1,Lhca2 andLhca4.
Euphorbiaceae plant; genome-wide;Lhcagene family; identif i cation; phylogenetic analysis
S759.95
A
1673-923X(2014)10-0056-05
2013-09-03
國(guó)家自然科學(xué)資金(31371556);海南省重點(diǎn)科技項(xiàng)目(90107);海南省自然科學(xué)基金(312026);中國(guó)熱帶農(nóng)業(yè)科學(xué)院橡膠研究所基本科研業(yè)務(wù)費(fèi)專項(xiàng)(1630022011014)
鄒 智(1982-),男,助理研究員,研究方向:植物分子生物學(xué);E-mail: zouzhi2008@126.com
[本文編校:吳 彬]