馬曉君,郭宗雷,王信宏,玄靜,田靜,劉歡,隋園園,束靖
貝母屬植物葉綠體基因組結(jié)構(gòu)與系統(tǒng)發(fā)育的關(guān)系
馬曉君,郭宗雷,王信宏,玄靜,田靜,劉歡,隋園園,束靖*
山東農(nóng)業(yè)工程學院, 山東 濟南 250000
貝母屬植物形態(tài)相似,難以區(qū)分。通過對葉綠體基因組進行分析,可以為貝母屬植物的系統(tǒng)發(fā)育、分子鑒定和開發(fā)利用提供理論依據(jù)。我們基于已發(fā)表的貝母屬物種的葉綠體基因組序列,利用相關(guān)生物信息學方法對其葉綠體基因組進行分析。結(jié)果顯示,貝母屬29個物種葉綠體基因組大小在151058~152434 bp?;驍?shù)量為128~133個,rRNA編碼基因數(shù)目穩(wěn)定,蛋白質(zhì)編碼基因和tRNA編碼基因存在差異。四分區(qū)分析發(fā)現(xiàn),IRb/SSC邊界存在明顯差異。串聯(lián)重復和單核苷酸重復含量最豐富。共線性分析未檢測到基因重排,其葉綠體基因組高度保守?;谌~綠體基因組的系統(tǒng)發(fā)育分析表明,貝母屬植物分為4個主要分支。對貝母葉綠體基因組進行核苷酸多態(tài)性分析,發(fā)現(xiàn)IR比單拷貝區(qū)更保守,非編碼區(qū)的突變頻率比編碼區(qū)高。
貝母屬植物; 葉綠體; 基因; 系統(tǒng)發(fā)育
中藥材“貝母”屬百合科(Liliaceae)貝母屬(),絕大多數(shù)是多年生草本植物。入藥部分為的鱗莖,具有清熱潤肺、化痰止咳等功效[1]。近年來,多位學者已經(jīng)對國產(chǎn)貝母屬的植物進行了系統(tǒng)分類研究,發(fā)表了許多新種和新變種,使國產(chǎn)貝母屬植物“種”數(shù)已達80個,“變種”名稱數(shù)已達52個[2]。由于貝母屬植物在形態(tài)上十分相近,難以在形態(tài)上進行區(qū)分,在中藥材市場中常出現(xiàn)以次充好、以偽充真等問題[3]。
被子植物葉綠體通常具有由一對倒置重復(inverted repeat, IR)區(qū),小單拷貝(small single-copy, SSC)區(qū),大單拷貝(large single-copy, LSC)區(qū)組成的四分體結(jié)構(gòu)。眾多研究表明,葉綠體基因組結(jié)構(gòu)和序列保守,在分子標記開發(fā)、遺傳育種、物種鑒定及系統(tǒng)進化研究等方面具有重要作用[4, 5]。尤其是隨著DNA測序技術(shù)的快速發(fā)展,越來越多地物種完成葉綠體基因組測序[6]。并且葉綠體基因組相較于DNA條形碼具有更高的分辨率,已成為中草藥鑒定、分類的重要工具[7]。本試驗基于已發(fā)表的貝母屬葉綠體基因組序列,利用生物信息學方法對其葉綠體基因組的特征、基因數(shù)量與長度、結(jié)構(gòu)變異、重復序列、基因重排、系統(tǒng)發(fā)育和序列多態(tài)性進行分析,為貝母屬植物的系統(tǒng)發(fā)育、分子鑒定和開發(fā)利用提供理論依據(jù)。
在Genbank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/genome/organelle/)下載已發(fā)表的29個百合科貝母屬植物的葉綠體基因組序列信息,收集其物種名稱、GenBank登錄號等(見表1)。
表1 29種貝母屬植物葉綠體基因組注釋信息
利用在線網(wǎng)站CPGAVAS2(http://47.96.249.172:16019/analyzer/home)進行葉綠體基因組的注釋[8]。Excel統(tǒng)計葉綠體基因組長度、基因數(shù)量、四分區(qū)長度等信息。
通過IRSCOPE(https://irscope.shinyapps.io/irapp/)對葉綠體基因組四分區(qū)進行可視化[9]。以葉綠體基因組作為參考序列,通過在線網(wǎng)站mVISTA(http://genome.lbl.gov/vista/mvista/submit.shtml)中的Shuffle-Lagan模式進行全基因組比較[10];利用Mauve軟件對葉綠體基因組進行全局比對,并進行共線性分析[11]。
通過在線分析網(wǎng)站REPuter(https://bibiserv.cebitec.uni-bielefeld.de/reputer/)查找散在重復序列和回文重復序列[12],參數(shù)設(shè)置為:漢明距離3,最大計算重復次數(shù)90,最小重復單元長度30。串聯(lián)序列通過TRF(Tandem Repeats Finder)(http://tandem.bu.edu/trf/trf.html)查找[13],使用默認參數(shù)。簡單重復序列(Simple Sequence Repeats, SSRs)通過MISA網(wǎng)站(https://webblast.ipk-gatersleben.de/misa/)查找[14],重復次數(shù)閾值設(shè)置為:單核苷酸10、二核苷酸5、三核苷酸4、四核苷酸3、五核苷酸3、六核苷酸3。
本研究中29個物種的葉綠體基因組長度和四分區(qū)長度差異不大,選擇葉綠體全基因組數(shù)據(jù)進行分析,通過最大似然法(maximum likelihood, ML)構(gòu)建系統(tǒng)發(fā)育樹。使用百合科百合屬的、、作為外類群[15],與貝母屬一起構(gòu)建系統(tǒng)發(fā)育樹。使用MAFFT軟件對葉綠體基因組進行多序列比對[16],通過MEGA獲得最佳替代模型并構(gòu)建ML系統(tǒng)發(fā)育樹[17],bootstrap次數(shù)為1000次。
使用MAFFT進行多序列比對[16],將比對結(jié)果導入DNAsp[18],計算葉綠體基因組序列的核苷酸多態(tài)性(pi),參數(shù)設(shè)置為:window length 600,step size 200。
通過葉綠體基因組注釋信息(見表1)發(fā)現(xiàn),本研究中29個物種的葉綠體基因組總長度差距不大,最長的長度為152434 bp,最短的長度為151058 bp,相差約1.4 kb。葉綠體基因組包括一對反向重復區(qū)(IR)、大單拷貝區(qū)(LSC)和小單拷貝區(qū)(SSC)。本研究中LSC區(qū)長度在81339~82130 bp之間,最長的為,最短的是,相差791 bp;SSC區(qū)長度在16962~17684 bp之間,最長的為,最短的為,相差722 bp;兩個IR區(qū)域等長,在26123~26574 bp之間,其中長度最長,長度最短,相差451 bp。
29個百合科貝母屬植物的葉綠體基因總數(shù)在128~133之間(表1),其中17個物種的基因數(shù)量為129,占大多數(shù)。rRNA編碼基因數(shù)目穩(wěn)定,全部為8個;tRAN數(shù)大多數(shù)為38,只有3個物種含有37個tRNA;蛋白質(zhì)編碼基因數(shù)量在82~87之間,其中14個物種含有83個(見表1),可見基因總數(shù)差異主要是由蛋白編碼基因差異引起的。
葉綠體四分區(qū)邊界為LSC/IRb、IRb/SSC、SSC/IRa、IRa/LSC。通過分析各邊界葉綠體基因的分布狀況,可以分析貝母葉綠體在進化過程中IR區(qū)收縮與擴張現(xiàn)象。如圖1可以得知,LSC/IRb邊界位于和基因內(nèi),由于IR區(qū)域的收縮和擴張,有5個物種的全部位于LSC區(qū)域;中的在邊界幾乎均勻分布;其余23個物種的有236~268 bp位于LSC區(qū)域,11~43 bp進入IRb區(qū)域。IRb/SSC邊界處、基因分布存在較大差異,有16個物種的全部位于IRb區(qū)內(nèi),其中的長度更短;12個物種的大部分位于IRb區(qū),16~121 bp進入SSC區(qū)域;的基因丟失;大多數(shù)物種位于SSC區(qū)內(nèi),5個物種的跨過IRb/SSC邊界,有8~33 bp位于IRb區(qū)。SSC/IRa邊界處長度與分布大致相似,均為4245~4394 bp位于SSC區(qū),1147~1263 bp位于IRa區(qū);但和的長度較短且位于SSC區(qū)的長度發(fā)生變化。IRa/LSC邊界位于和之間,只有的IRa/LSC邊界位于基因內(nèi)。
圖1 29個貝母屬植物葉綠體基因組四分區(qū)邊界比較
在貝母屬29個物種中共發(fā)現(xiàn)1853個重復序列,包括28.87%散在重復、33.51%回文重復和37.61%串聯(lián)重復(圖2A,B)。單個物種的重復序列數(shù)目大多在57~67之間,但僅含有51個,4個物種的重復序列數(shù)超過70個。SSR共發(fā)現(xiàn)2176個。其中單核苷酸數(shù)目最多,占67.69%(1473個),二核苷酸占17.88%(389個),三核苷酸占3.08%(67個),四核苷酸占10.11%(220個),五核苷酸占1.19%(26個),僅有含有1個六核苷酸(圖2C,D)。29個物種中,SSR總數(shù)在59~83之間,其中數(shù)目最少,數(shù)目最多。單核苷酸數(shù)為39~58;二核苷酸數(shù)為9~16;三核苷酸數(shù)為1~6;四核苷酸數(shù)為6~9;五核苷酸數(shù)目為0~3之間,其中9種貝母不含五核苷酸重復。
(A)3種重復類型的比例The ratio of three repeated types;(B)3種重復類型的數(shù)目The number of three repeats types;(C)不同類型SSR的比例The ratio of different SSR;(D)不同類型SSR的數(shù)目The number of different SSR
全基因組比對結(jié)果表明(圖3),整個葉綠體基因組高度保守,且IR比單拷貝區(qū)更保守,非編碼區(qū)的突變頻率比編碼區(qū)高。、、基因的編碼區(qū)比其他基因的編碼區(qū)更具可變性。共線性分析結(jié)果顯示沒有檢測到大片斷基因重排現(xiàn)象(圖4),也表明貝母屬的29個物種相對保守。
圖3 29種貝母屬植物葉綠體基因組比對
注:軸代表葉綠體基因組中的坐標,軸表示對齊區(qū)域的序列相似性在50%~100%。箭頭表示基因及轉(zhuǎn)錄方向。
Note: The x-axis represents the coordinate in the chloroplast genome. The y-axis indicates that the sequence similarity of the aligned region is between 50% and 100%. Arrows indicate genes and transcriptional direction.
圖4 29種貝母屬植物葉綠體基因組共線性分析
使用ML法對29種貝母屬植物及3種百合科植物的葉綠體全基因組序列進行系統(tǒng)發(fā)育樹分析,最佳替代模型為GTR+G+I。進化樹各節(jié)點分支分辨率高(圖5),位于進化樹基部,屬于較早分化的類群,且與百合屬聚類為一支;是單獨的一支,與其他物種為姐妹類群;、、、聚為一支;與聚為一支;、、、、聚為一支;其余16種貝母聚類為一支。
圖5 基于葉綠體全基因組序列構(gòu)建的ML樹
共檢測到718個核苷酸多態(tài)性位點,核苷酸多態(tài)性范圍為0~0.02176(圖6),平均值為0.005254248,-、-、-等基因或基因間隔區(qū)具有較高的變異,它們的核苷酸多態(tài)性均大于0.02,其中-的多態(tài)性最高,為0.02176,-和-的多態(tài)性分別為0.02106和0.02033。
圖6 29種貝母屬植物葉綠體基因組滑動窗口分析
貝母屬29個物種葉綠體基因組的大小在152434~151058 bp之間,LSC區(qū)、SSC區(qū)、IR區(qū)長度與被子植物葉綠體基因組長度相吻合[19]。本研究中,各物種間基因組大小相差約1.4 kb左右,LSC、SSC以及IR區(qū)域相差分別為0.8 kb、0.7 kb以及0.45 kb左右。葉綠體基因組IR區(qū)的收縮與擴張普遍發(fā)生在被子植物進化過程中[20],是基因組結(jié)構(gòu)變異的重要原因。貝母屬葉綠體基因組結(jié)構(gòu)、基因數(shù)量和順序高度保守[21]。29種貝母屬植物的4個邊界區(qū)分別跨過、-、、-。但IRb/SSC邊界處、的分布在不同物種中存在一定差異,貝母屬葉綠體基因組長度變異可能是IR和SSC邊界變化引起的[22]。與百合科植物類似,貝母屬植物葉綠體基因組中的LSC/IRb邊界大多擴展到基因,這可能是百合科貝母屬植物的共同祖征[23,24]。
葉綠體共線性分析沒有檢測到基因重排現(xiàn)象,全基因組序列比對也顯示葉綠體基因組序列相似度很高,其IR區(qū)比單拷貝區(qū)更保守,非編碼區(qū)的突變頻率比編碼區(qū)高,與前人研究結(jié)果一致[21,25]。長重復序列與SSR在葉綠體基因組結(jié)構(gòu)變異中具有重要作用,常用于藥用植物物種鑒定、群體遺傳學研究[26,27]。在29種貝母屬植物葉綠體基因組中單核苷酸數(shù)目最多,因此單核苷酸可能比其他類型的SSR對貝母遺傳變異的貢獻更大。有研究表明、-、能更好地識別分辨貝母屬植物[28],但在本研究中-、的pi值不高,的pi值為0.01938。也被認為是陸地植物最有可能的葉綠體DNA條形碼[29],有望于開發(fā)成為高效鑒別貝母屬植物DNA條形碼。
本研究構(gòu)建的構(gòu)建ML樹中,大部分系統(tǒng)發(fā)育關(guān)系與Zhang T、Chen Q等的結(jié)果相似[27,28],除與外,主要聚為4個主要分支,與百合屬聚類為一支,并且分辨率達到100 BP而非Zhang T等的75 BP[27]。其余不同可能是因為所使用的葉綠體基因組數(shù)據(jù)不同導致。
[1] 徐順連,曾中蘭,林青,等.貝母化學成分及藥理作用的研究[J].青海草業(yè),2021,30(1):43-46
[2] 肖培根,姜艷,李萍,等.中藥貝母的基原植物和藥用親緣學的研究[J].植物分類學報,2007(4):473-487
[3] 羅焜,馬培,姚輝,等.基于ITS2序列鑒定川貝母及其混偽品基原植物[J].世界科學技術(shù)(中醫(yī)藥現(xiàn)代化),2012,14(1):1153-1158
[4] Li HT, Yi TS, Gao LM,. Origin of angiosperms and the puzzle of the Jurassic gap [J]. Nat Plants, 2019,5(5):461-70
[5] Nie Y, Foster CSP, Zhu T,Accounting for uncertainty in the evolutionary timescale of green plants through clock-partitioning and fossil calibration strategies [J]. Syst Biol, 2020,69(1):1-16
[6] Dobrogojski J, Adamiec M, Luciński R. The chloroplast genome: a review [J]. Acta Physiologiae Plantarum, 2020,42(6):98
[7] 林小涵,劉志華,李卿,等.藥用植物葉綠體基因組研究[J].世界科學技術(shù)(中醫(yī)藥現(xiàn)代化),2010,12(3):442-446
[8] Shi L, Chen H, Jiang M,. CPGAVAS2, an integrated plastome sequence annotator and analyzer [J]. Nucleic Acids Res, 2019,47(1):65-73
[9] Amiryousefi A, Hyvonen J, Poczai P. IRscope: an online program to visualize the junction sites of chloroplast genomes [J]. Bioinformatics, 2018,34(17):3030-3031
[10] Frazer KA, Pachter L, Poliakov A,. VISTA: computational tools for comparative genomics [J]. Nucleic Acids Res, 2004,32:273-279
[11] Darling AC, Mau B, Blattner FR,. Mauve: multiple alignment of conserved genomic sequence with rearrangements [J]. Genome Res, 2004,14(7):1394-1403
[12] Kurtz S, Choudhuri JV, Ohlebusch E,. REPuter: the manifold applications of repeat analysis on a genomic scale [J]. Nucleic Acids Res, 2001,29(22):4633-4642
[13] Benson G. Tandem repeats finder: a program to analyze DNA sequences [J]. Nucleic Acids Res, 1999,27(2):573-580
[14] Beier S, Thiel T, Munch T,. MISA-web: a web server for microsatellite prediction [J]. Bioinformatics, 2017,33(16):2583-2585
[15] Li Y, Zhang Z, Lv G. The complete chloroplast genome of, a rare and endangered species endemic to China [J]. Mitochondrial DNA B Resour, 2017,2(2):913-914
[16] Katoh K, Misawa K, Kuma K,. MAFFT: a novel method for rapid multiple sequence alignment based on fast fourier transform [J]. Nucleic Acids Res, 2002,30(14):3059-3066
[17] Tamura K, Stecher G, Kumar S. MEGA11: Molecular evolutionary genetics analysis version 11 [J]. Mol Biol Evol, 2021,38(7):3022-3027
[18] Rozas J, Ferrer-Mata A, Sanchez-Delbarrio JC,. DnaSP 6: DNA sequence polymorphism analysis of large data sets [J]. Mol Biol Evol, 2017,34(12):3299-3302
[19] Zhang T, Fang Y, Wang X,. The complete chloroplast and mitochondrial genome sequences of: insights into the evolution of plant organellar genomes [J]. PLoS One, 2012,7(1):e30531
[20] Fu CN, Li HT, Milne R,. Comparative analyses of plastid genomes from fourteen Cornales species: inferences for phylogenetic relationships and genome evolution [J]. BMC Genomics, 2017,18(1):956
[21] Huang J, Yu Y, Liu YM,. Comparative chloroplast genomics of(liliaceae), inferences for phylogenetic relationships betweenandand plastome evolution [J]. Plants, 2020,9(2):133-148
[22] Bi Y, Zhang MF, Xue J,. Chloroplast genomic resources for phylogeny and DNA barcoding: a case study on Fritillaria [J]. Sci Rep, 2018,8(1):1184
[23] Li P, Lu RS, Xu WQ,. Comparative genomics and phylogenomics of east asian tulips (Amana, Liliaceae) [J]. Front Plant Sci, 2017,8:451
[24] Li Q, Li Y, Song J,. High-accuracy de novo assembly and SNP detection of chloroplast genomes using a SMRT circular consensus sequencing strategy [J]. New Phytologist, 2014,204(4):1041-1049
[25] Park I, Kim WJ, Yeo SM,. The complete chloroplast genome sequences ofmaxim. andD. don, and comparative analysis with otherspecies [J]. Molecules, 2017,22(6):982
[26] 田星,劉瑩瑩,張穎敏,等.藜蘆屬藥用植物的葉綠體基因組比較分析和系統(tǒng)發(fā)育研究[J].中草藥,2022,53(4):1127-1137
[27] Zhang T, Huang S, Song S,. Identification of evolutionary relationships and DNA markers in the medicinally important genusbased on chloroplast genomics [J]. PeerJ, 2021,9:e12612
[28] Chen Q, Hu H, Zhang D. DNA Barcoding and phylogenomic analysis of the genusin China based on complete chloroplast genomes [J]. Front Plant Sci, 2022,13:764255
[29] Dong W, Xu C, Li C,. ycf1, the most promising plastid DNA barcode of land plants [J]. Sci Rep, 2015,5:8348
Relationship between Chloroplast Genomes Structures fromPlantsand Phylogeny
MA Xiao-jun, GUO Zong-lei, WANG Xin-hong, XUAN Jing, TIAN Jing, LIU Huan, SUI Yuan-yuan, SHU Jing*
,250000,
It is difficult to distinguish between plants of thebecause of their morphological similarity. Characteristics and phylogeny of chloroplast genomes, can provide a theoretical basis for study of the phylogeny, molecular identification, and resource exploitation of the. Based on the published chloroplast genome sequences of 29species, their chloroplast genomes were analyzed using bioinformatics methods. The results showed that, the chloroplast genome is between 151058 bp and 152434 bp. There are 128 to 133 genes in the, with a stable number of rRNA-coding genes, and differences in protein-encoding and tRNA-encoding genes. Significant differences exist at the IRb/SSC boundary. The highest content of tandem repeats and mononucleotide. No gene rearrangements were detected by covariance analysis, reflecting the high degree of conservation in the chloroplast genome of the. Phylogenetic analysis based on the chloroplast genome indicates that thecan be divided into four major phylogenetic clades. Nucleotide polymorphism analysis of the chloroplast genome offound that the IR was more conserved than the single-copy regions, and the non-coding region was mutated more frequently than the coding region.
; chloroplast; gene; phylogeny
Q75
A
1000-2324(2022)05-0811-08
2022-09-24
2022-10-11
國家重點研發(fā)計劃(2019YFD1000102);山東省良種工程(2019LZGC009);山東農(nóng)業(yè)工程學院校企科研創(chuàng)新團隊(YBZR202204)
馬曉君(1997-),女,研究生,助教,研究方向:基因工程. E-mail:mxjun7@163.com
通訊作者:Author for correspondence. E-mail:shujing79@163.com