金鑫 程書 楊拓 余慷 段肖霞 倪雪梅 李世明 張耕耘
摘 要:系統(tǒng)發(fā)育關系的構建對被子植物分類及進化研究非常重要。長期以來,被子植物系統(tǒng)發(fā)育的研究,大多使用質(zhì)體基因、線粒體基因或少數(shù)保守的單拷貝核基因。該研究從已注釋基因組或轉(zhuǎn)錄組中搜集88種被子植物(包含58目)的核基因集;通過對其進行同源基因聚類及去旁系同源基因,獲得了5 993個一對一的直系同源基因家族(即對于每個基因家族,每種植物最多一條序列,最少包含50個物種);使用截取各種不同數(shù)目基因集的DNA或氨基酸序列,采用串聯(lián)法(concatenation)和溯祖法(coalescence),共構建了20棵進化樹。比較這些進化樹,雖然大部分結果支持APG IV中描述的被子植物主要支系之間的關系[(真雙子葉植物,單子葉植物),木蘭類植物],但真雙子葉植物內(nèi)部各目分支的演化關系與APG IV有一個很大的不同,即認為檀香目和石竹目是薔薇類植物的姊妹群?;谶@些進化樹,估算了被子植物各目分支的分化時間,結果表明被子植物的起源時間為237.78百萬年前(95%置信區(qū)間為202.6~278.08),與主流觀點認為的225百萬年至240百萬年前一致。以上結果為構建進化樹提供了一種可行性策略,這種方法允許使用基因數(shù)目更多而計算速度更快。
關鍵詞:系統(tǒng)發(fā)育關系,被子植物,核基因,同源基因聚類,串聯(lián)法,溯祖法,分化時間
中圖分類號:Q949.4文獻標識碼:A
文章編號:1000-3142(2020)01-0044-16
Abstract:Construction of phylogeny is important for classification and research of angiosperms. For a long time,angiosperm phylogeny has been analysed using plastid genes,mitochondrial genes or a few conserved single-copy nuclear genes. We collected nuclear gene sets of 88 species of angiosperm (contains 58 orders) from annotated genomes or transcriptomes. By using a combined homology- and phylogeny tree-based approach,we obtained a total of 5 993 one-to-one ortholog groups (one sequence of each species for each ortholog group),each of which was represented by at least 50 species. Then,a total of 20 species trees were reconstructed using? methods with different combinations of reconstruction (concatenation-based and coalescence-based) and sequence type (nucleotide or amino acid) for gene data sets with different gene occupancy values. Most of the resulting topologies support the relationships of the major clades of angiosperm as described in APG IV,but present different deep relationships among major clades in eudicots phylogeny such as the placement of Santalales and Caryophyllales as sisters to Rosids. We estimate the divergence times of the major clades of angiosperm and conclude that the origin of angiosperm is about 237.78 million years ago(95% confidence interval is 202.6-278.08),which is in accordance with the previously accepted 225 million years to 240 million years ago. This study provides an efficient strategy for building phylogenetic trees using thousands of genes with ultrafast calculation.
Key words:phylogeny,angiosperms,nuclear genes,ortholog inference,concatenation,coalescence,divergence time
系統(tǒng)發(fā)育樹的正確構建對植物分類及進化研究非常重要。進化樹構建的準確度主要受以下因素的影響。其一,所使用的數(shù)據(jù)集的種類及大小。不僅使用形態(tài)性狀數(shù)據(jù)、質(zhì)體基因、線粒體基因及核基因序列建立的進化樹不一樣(Endress & Doyle,2009; Soltis et al.,2011; Ruhfel et al.,2014; Zeng et al.,2014),使用全長核酸序列或僅使用基因密碼子某個位點的核酸序列及氨基酸序列所構建的進化樹也有所不同(Wickett et al.,2014);其二,構建樹的方法及模型。方法有串聯(lián)法(concatenation)和溯祖法(coalescence)。串聯(lián)法是將所有基因串聯(lián)作為一個整體,使用軟件RAxML(Stamatakis,2014)或iqtree(Nguyen et al.,2015)構建系統(tǒng)發(fā)育樹;溯祖法是先對每個基因建樹,再使用軟件ASTRAL(Zhang et al.,2017)建立所有基因樹的共有樹(Wickett et al.,2014)。而構建系統(tǒng)發(fā)育樹使用的模型更是多種多樣,如核酸模型GTR、HKY、JC、F81、K2P、K3P、K81uf等,蛋白質(zhì)模型LG、Poisson、cpREV、mtREV、Dayhoff、mtMAM、JTT、WAG等(Nguyen et al.,2015)。
被子植物是植物界最高等且種類最多的一類,它們在地球上占據(jù)著絕對優(yōu)勢?,F(xiàn)在已報道被子植物有352 000種(http://www.theplantlist.org/),屬于416科和64目,各目之間的演化關系一直是研究的熱點和爭論的焦點。被子植物除了最基部的三個目:無油樟目(Amborellales)、睡蓮目(Amborellales)和木蘭藤目(Austrobaileyales),又稱ANITA組,其余的(99.95%)可以分為五類:木蘭類植物(magnoliids)、單子葉植物(monocots)、真雙子葉植物(eudicots)、金栗蘭科(Chloranthaceae)和金魚藻科(Ceratophyllaceae)。這五類的系統(tǒng)演化拓撲關系一直存在爭論,Zeng et al.(2014)總結了已經(jīng)發(fā)表的五種主要的拓撲關系(圖1:A-E),其中A是最主流的,也是APG IV(The Angiosperm Phylogeny Group,2016)的拓撲結構。Soltie et al.(2011)使用17個基因串聯(lián)(包括質(zhì)體基因、線粒體基因和核基因)為640種植物構建的系統(tǒng)發(fā)育進化樹和Ruhfel et al.(2014)使用78個質(zhì)體基因串聯(lián)為360種植物構建的進化樹,支持主流A拓撲結構。Wickett et al.(2014)使用674個核基因串聯(lián)為92種植物構建的進化樹和Zeng et al.(2014)使用59個核基因串聯(lián)為61種植物構建的進化樹,支持B拓撲結構。除此之外,Qiu et al.(2010)使用4個線粒體基因為380種植物構建的進化樹,支持C拓撲結構;Endress & Doyle(2009)使用形態(tài)性狀構建的進化樹,支持D拓撲結構;Zhang et al.(2012)使用5個核基因為91種植物構建的進化樹,支持E拓撲結構。
去掉金栗蘭科和金魚藻科后,單子葉植物、木蘭類植物、真雙子葉植物之間的系統(tǒng)發(fā)育關系有三種:(真雙子葉植物,單子葉植物),木蘭類植物;(真雙子葉植物,木蘭類植物),單子葉植物;(單子葉植物,木蘭類植物),真雙子葉植物。Lu et al.(2018)使用4個質(zhì)體基因和1個線粒體基因分析了5 864種中國被子植物(幾乎包括所有中國地區(qū)被子植物)的系統(tǒng)發(fā)育關系,其構建的進化樹支持拓撲結構[(真雙子葉植物,單子葉植物),木蘭類植物]。Chen et al.(2019)發(fā)布了木蘭類植物鵝掌楸(Liriodendron)基因組,使用其502個核基因及溯祖法為18種植物構建的進化樹,同樣支持拓撲結構[(真雙子葉植物,單子葉植物),木蘭類植物]。Chaw et al.(2019)發(fā)布了另一個木蘭類植物牛樟(stout camphor tree)基因組,使用其211個核基因為13種植物構建的進化樹,支持拓撲結構[(真雙子葉植物,木蘭類植物),單子葉植物]。Li et al.(2019)使用2 881種被子植物的質(zhì)體基因組的80個基因重建了被子植物高分辨率的系統(tǒng)發(fā)育樹,支持拓撲結構[(真雙子葉植物,單子葉植物),木蘭類植物]。從上述已有的研究中,我們發(fā)現(xiàn),使用核基因串聯(lián)法建立的進化樹基本都支持拓撲結構[(真雙子葉植物,木蘭類植物),單子葉植物],使用核基因溯祖法、質(zhì)體和線粒體基因建立的進化樹基本都支持拓撲結構[(真雙子葉植物,單子葉植物),木蘭類植物]。
真雙子葉植物內(nèi)部各目的系統(tǒng)發(fā)育關系也存在爭論(圖1:F-K),真雙子葉植物除了最基部的毛茛目(Ranunculales)、山龍眼目(Proteales)、昆欄樹目(Trochodendrales)、黃楊目(Buxales)和洋二仙草目(Gunnerales),其余的可以分為兩類:薔薇類植物(Rosids)和菊類植物(Asterids)。這兩類植物的基部有6個目的系統(tǒng)發(fā)育關系比較混亂,即五椏果目(Dilleniales)、虎耳草目(Saxifragales)、葡萄目(Vitales)、檀香目(Santalales)、智利藤目(Berberidopsidales)及石竹目(Caryophyllales)。Zeng et al.(2017)總結了已經(jīng)發(fā)表的六種主要的拓撲關系(圖1:F-K),其中K是APG IV中所認可的拓撲結構。Moore et al.(2010)使用83個質(zhì)體基因為86種植物構建的進化樹,支持“五椏果目是薔薇類植物的姊妹群”;Soltie et al.(2011)使用17個基因串聯(lián)(包括質(zhì)體基因、線粒體基因和核基因)為640種植物構建的進化樹和Moore et al.(2011)使用質(zhì)體IR序列為87種植物構建的進化樹,支持“五椏果目是菊類植物的姊妹群”;Worberg et al.(2007)等使用五個基因組區(qū)域序列為56種植物構建的進化樹和Moore et al.(2011)使用質(zhì)體IR序列為244種植物構建的進化樹,及APG IV都支持“五椏果目是薔薇類植物和菊類植物共同的姊妹群”。大部分研究都支持“葡萄目和虎耳草目是薔薇類植物的姊妹群,智利藤目、檀香目和石竹目是菊類植物的姊妹群”(Worberg et al.,2007; Moore et al.,2010,2011; Yang et al.,2015);Zeng et al.(2017)使用504個核基因和溯祖法為100種植物構建的進化樹,支持“檀香目和智利藤目是薔薇類植物的姊妹群”。
被子植物的起源及進化一直是植物學界研究和爭論的熱點。在古生物學界,很長時期內(nèi),被子植物的最早化石記錄都是白堊紀125百萬年前,也是最早的真雙子葉植物化石記錄(Herendeen,1995)。Fu et al.(2018)發(fā)現(xiàn)了早侏羅紀地層(約175百萬年前)中的“南京花”,其具有花萼、花瓣、雌蕊,有明顯的杯托、下位子房上位花、樹狀的花柱,其種子/胚珠確實是被完全包裹著,子房壁將種子與外界完全隔絕,這都滿足了被子植物判斷標準。“南京花”的發(fā)現(xiàn),將被子植物最早化石記錄向前推進了約5 000萬年,并填補了被子植物化石記錄(125百萬年前)與分子鐘推算時間(225百萬年至240百萬年前)之間的“侏羅紀空缺”(Jurassic gap)(Li et al.,2019)。目前,大多數(shù)基于系統(tǒng)進化樹的被子植物分化時間估計研究,都認為被子植物的起源為三疊紀225百萬年至240百萬年前(Magallon,2010; Smith et al.,2010; Zeng et al.,2014; Mandel,2019),這與起傳粉作用的核心植食性鱗翅目昆蟲的起源時間(約230百萬年前)一致(Zeng et al.,2014; Li et al.,2019)。
本研究使用超過5 000個核基因的核酸及蛋白序列,用兩種進化樹構建方法分析了88種被子植物的系統(tǒng)發(fā)育關系(包括87科58目),并對各進化分支的分化時間進行了估計(總流程如圖2)。為了得到準確可靠的被子植物系統(tǒng)發(fā)育進化樹,我們對5 000多個核基因進行了拆分,得到了包含不同基因數(shù)量的多個數(shù)據(jù)集,并對各個數(shù)據(jù)集進行系統(tǒng)發(fā)育樹的構建,最后比較了所得到的20棵系統(tǒng)發(fā)育進化樹之間的一致性。
1 材料與方法
1.1 材料
我們收集了1個裸子植物(Ginkgo biloba作為外類群)基因組、43個被子植物基因組(主要來自NCBI和PHYTOZOME數(shù)據(jù)庫)、43個被子植物已拼接轉(zhuǎn)錄組(http://www.onekp.com/public_data.html )及2個被子植物RNA-seq數(shù)據(jù)(其中無葉蓮Petrosavia sakurai是本研究測序的物種),A-E. 五類被子植物間[金栗蘭科(Chl)、金魚藻科(Cer)、木蘭類植物(Mag)、單子葉植物(Mon)及真雙子葉植物(Eud)]5種代表性拓撲結構; F-K. 真雙子葉植物內(nèi)部各目間6種代表性拓撲結構。
A-E. Five representative topologies among eudicots (Eud),monocots (Mon),magnoliids (Mag),Ceratophyllaceae (Cer) and Chloranthaceae (Chl); F-K. Six representative topologies among eudicots.其中被子植物共包含87科58目(表1)。
1.2 基于基因組序列的直系同源基因鑒定
我們使用Yang & Smith(2014)報道的方法,對43個植物基因組的基因集進行同源基因聚類分析。首先,使用軟件BLASTN v2.6.0+ 對43個基因集CDS序列進行all-by-all blast,每條序列取最佳的1 000條比對結果,去掉比對長度小于1/3總長的序列,修剪未比對上的末端序列。然后,使用MCL軟件(Van,2000)進行同源基因聚類(inflation value = 1.4),去除少于20個植物的基因家族,剩余基因家族使用MAFFT v7.310軟件(Katoh & Standley,2013)進行多序列比對(maximum iterative refinement cycles = 1 000),使用PHYUTILITY v2.2.6軟件(Smith & Dunn,2008)修剪缺失率大于90%的位點,使用軟件RAXML v8.2.11(Stamatakis,2014)對修剪后的多序列比對數(shù)據(jù)估算系統(tǒng)進化樹(model = GTRCAT)。最后修剪掉進化樹上的所有旁系同源基因枝,修剪枝長大于0.6的枝、比姐妹枝長十倍的末端枝,單源且全部同樣品的枝只保留一個,修剪枝長比預期堿基替換率大0.3倍的內(nèi)部枝,再使用MO方法(Yang & Smith,2014)去除所有剩余的旁系同源枝,獲得one-to-one同源基因家族(即每個樣品最多一條序列),只保留大于20個樣品的基因家族。
1.3 轉(zhuǎn)錄組及外類群數(shù)據(jù)處理
我們對兩個來自兩個科(無葉蓮科Petrosavia sakurai和鴉跖草科Cyanotis arachnoidea)的RNA-seq數(shù)據(jù)從頭拼接。首先使用Trimmomatic v0.38軟件(Bolger et al.,2014)過濾原始reads數(shù)據(jù)(參數(shù)HEADCROP:15 LEADING:20 TRAILING:20 SLIDINGWINDOW:5:20 MINLEN:50 AVGQUAL:20),再使用Trinity v2.6.6軟件(Grabherr et al.,2011)拼接(min contig length=150 bp),最后使用TransDecoder v5.5.0(https://github.com/TransDecoder/TransDecoder/releases/tag/TransDecoder-v5.5.0 )進行CDS和蛋白質(zhì)序列預測(參考數(shù)據(jù)庫為Swissprot和Pfam-A)。將得到的這兩個物種的基因集、從onekp數(shù)據(jù)庫下載得到的43種被子植物的基因集和1個裸子植物(Ginkgo biloba)的基因集,使用HaMStR v13.2.6軟件(Ebersberger et al.,2009)合并到利用基因組數(shù)據(jù)得到的同源基因家族中,最終只保留大于50個樣品的基因家族。
1.4 系統(tǒng)發(fā)育進化樹構建
我們采用兩種方法串聯(lián)法 (concatenation)和溯祖法(coalescence),并分別使用CDS序列和氨基酸序列構建進化樹。無論是CDS序列還是蛋白質(zhì)序列,都使用PRANK v.170427軟件(http://wasabiapp.org/software/prank/)進行多序列比對,使用PHYUTILITY v2.2.6軟件(Smith & Dunn,2008)修剪缺失率大于70%的位點,其中CDS序列需去除長度小于300個堿基的序列,蛋白質(zhì)序列需去除長度小于100個氨基酸的序列。
溯祖法,先對每個基因使用RAxML v8.2.11軟件(默認參數(shù))(Stamatakis,2014)畫樹,再使用ASTRAL v5.5.9軟件(Zhang et al.,2017)處理所有基因樹,得到共有樹,參數(shù)設置“-t 1--gene-only”以獲得bootstrap值和基因支持率,枝長使用iqtree v1.5.5軟件(Nguyen et al.,2015)獲得。
串聯(lián)法,先使用PartitionFinder v2.1.1軟件(Lanfear et al.,2009)對串聯(lián)序列進行分區(qū)和進化模型檢測,從而設置較合理的分區(qū)和為每個分區(qū)選擇合理的進化模型。對CDS序列檢測下列的四個分區(qū)策略(表2):no partitioning,partitioning by each codon position (three partitions),partitioning by gene和partitioning by each codon position within each gene。對蛋白質(zhì)序列檢測下列兩個分區(qū)策略:no partitioning和 partitioning by gene。參數(shù)設置如下:branch lengths = linked;model_selection = aicc;search = user;models = GTR,GTR+G,GTR+I+G(CDS序列)或者models = LG+G,LG+I+G,WAG+G,WAG+I+G(蛋白質(zhì)序列)。再使用iqtree v1.5.5軟件畫樹[1000 ultrafast bootstrap replicates(Von Haeseler et al.,2013),-spp設置最優(yōu)分區(qū)策略],基因支持率使用ASTRAL v5.5.9軟件(-t 1)獲得。最后使用軟件Evolview v2(He et al.,2016)對獲得的所有進化樹進行美化。
A. 每個同源基因家族含有的基因數(shù)目; B. 每個樣品含有的同源基因家族數(shù)目。
A. Gene number of each orthologous gene family; B. Number of orthologous genes for each sample.
1.5 分化時間估計
我們使用PAML v4.9軟件包 (Yang,2007)的MCMCTREE程序進行分化時間估計,輸入拓撲結構為綜合20棵進化樹的最佳拓撲結構(即使用742個基因的CDS序列串聯(lián)法獲得的拓撲結構),輸入序列為742個基因的CDS序列。我們先對每個基因都分別估計分化時間,再綜合742個基因的分析結果(即每個節(jié)點取所有基因的平均值)獲得最終的分化時間樹。拓撲結構的枝長使用JONES+gamma堿基替換模型獲得;rgene gamma設定為G(1,4.5);sigma2 gamma設定為G(1,4.5);clock設定為3;Markov chain Monte Carlo(MCMC)設定為burnin=50 000,sampfreq=100,nsample=10 000。對每個基因,都是分別運行兩次獨立的MCMC(即不同的random seeds),使用Tracer v1.7軟件(https://github.com/beast-dev/tracer/releases/tag/v1.7.1 )觀察運行結果是否穩(wěn)定和收斂,所有節(jié)點及參數(shù)的effective sample size是否大于200。九個化石校準設定如下:銀杏分化時間為290百萬年至310百萬年前(Gao et al.,1989);單子葉植物和真雙子葉植物分化時間為130百萬年至200百萬年前(Kumar et al.,2017);真雙子葉植物共同祖先(即最早的雙子葉植物化石記錄)為125 百萬年前(Herendeen,1995; Zeng et al.,2014);山龍眼目(Proteales)的共同祖先為108.8百萬年前(Crane et al.,1996);葡萄目(Vitales)與其余薔薇類植物間分化時間為105百萬年至115百萬年前(Fawcett et al.,2009; Kumar et al.,2017);Arabidopsis thaliana與Populus trichocarpa間分化時間為97百萬年至109百萬年前(Kumar et al.,2017);豆目(Fabales)與殼斗目(Fagales)間分化時間為93.5百萬年前(Friis et al.,1996);山茱萸目(Cornales)共同祖先為85.8百萬年前(Takahashi et al.,2002);唇形目(Lamiales)共同祖先為44.3百萬年前(Call et al.,1992)。
2 結果與分析
2.1 直系同源基因鑒定
我們對44個植物基因組基因集和45個已拼接轉(zhuǎn)錄組CDS序列進行同源基因聚類,并使用Yang & Smith(2014)報道的方法,去除所有旁系同源基因,最終獲得大于50個樣品的one-to-one 基因家族(即每個樣品最多一條序列)共5 993個(圖3:A),各種植物的基因覆蓋率從33.57%到97.85%,平均為80.40%(圖3:B)。
2.2 系統(tǒng)發(fā)育進化樹構建
我們采用串聯(lián)和溯祖法共構建了20棵進化樹,并比較它們之間的不同(圖4),以評估樹的穩(wěn)定性。CDS序列和蛋白質(zhì)序列,都分別使用五個數(shù)據(jù)集,總共構建20棵樹(5棵CDS串聯(lián)法樹,5棵CDS溯祖法樹,5棵AA串聯(lián)法樹和5棵AA溯祖法樹)。這5個數(shù)據(jù)集分別包含5 928個orthologs(≥50 samples)、3 384個orthologs(≥70 samples)、1 791個orthologs(≥80 samples)、742個orthologs(≥85 samples)及42個orthologs(≥89 samples)。
這20棵進化樹主要是為了進一步確定圖1中五類被子植物間演化關系和真雙子葉植物內(nèi)部各目間系統(tǒng)發(fā)育關系。這些進化樹中的大多數(shù),是與使用742個基因CDS序列(共4 069 848位點)串聯(lián)方法建立的進化樹高度一致的(圖5)(使用3 384個基因AA序列建立的進化樹,和使用1 791個基因AA序列建立的進化樹,也是相同的最佳拓撲結構)。
2.2.1 木蘭類植物、單子葉植物及雙子葉植物間演化關系 無論核酸序列還是蛋白質(zhì)序列,使用串聯(lián)法和溯祖法建立的進化樹基本都支持拓撲結構[(真雙子葉植物,單子葉植物),木蘭類植物](圖4)。
2.2.2 金栗蘭科與金魚藻科 我們的研究表示,金魚藻科是真雙子葉植物的姊妹群,這與前人的研究結果一致(圖4)。但金栗蘭科是所有被子植物(除ANITA外)的基底旁系群,這與APG IV認為的“金栗蘭科是木蘭類植物的姊妹群”是不同的。
2.2.3 雙子葉植物內(nèi)部各目的系統(tǒng)發(fā)育關系 我們的研究認為,五椏果科是薔薇類植物和菊類植物共同的姊妹群,虎耳草目是薔薇類植物的姊妹群,這都與APG IV一致(圖4)。
APG IV認為“檀香目和石竹目是菊類植物的姊妹群”,而我們的研究否定了這一結論:20棵進化樹中,所有結果都支持“石竹目是薔薇類植物的姊妹群”;大部分支持“檀香目是薔薇類植物的姊妹群”,這與Zeng et al.( 2017)的研究結果一致;少部分支持“檀香目是薔薇類植物和菊類植物共同的姊妹群”(圖4)。
APG IV認為“智利藤目是菊類植物的姊妹群”,而我們的研究只有少部分支持這一結論。使用蛋白質(zhì)序列建立的進化樹,無論串聯(lián)還是溯祖法,都支持“智利藤目是薔薇類植物和菊類植物共同的姊妹群”。使用核酸序列建立的進化樹,隨著基因數(shù)目的增多,逐漸轉(zhuǎn)變?yōu)橹С帧爸抢倌渴蔷疹愔参锏逆⒚萌骸?,與APG IV一致(圖4)。
2.3 分化時間估計
基于742個基因CDS序列串聯(lián)方法建立的進化樹,我們估計了被子植物的分化時間(圖6)。我們認為被子植物的起源時間為237.78百萬年前(95%置信區(qū)間為202.6~278.08),與主流觀點認為的225百萬年至240百萬年前一致 (Magallon,2010; Smith et al.,2010; Zeng et al.,2014)。木蘭類植物與單子葉植物和真雙子葉植物的分化時間約為166.11百萬年前;五椏果科與薔薇類和菊類植物的分化時間約為124.23百萬年前;薔薇類植物與菊類植物的分化時間約為116.98百萬年前;唇形類植物(Lmiids)與桔梗類植物(Campanulids)的分化時間約為102.37百萬年前。
3 討論與結論
長期以來,被子植物的系統(tǒng)發(fā)育關系重建,都是使用質(zhì)體基因、線粒體基因或少數(shù)保守的單拷貝核基因。Yang & Smith(2014)報道了一種基于系統(tǒng)進化樹的同源基因聚類及去旁系同源基因的方法,我們使用此種方法對收集的88種植物核基因集進行聚類,共獲得了多達5 993個one-to-one基因家族,并從這個數(shù)據(jù)集里面截取各種大小的數(shù)據(jù)進行進化樹重建,以測定進化樹的穩(wěn)定性。
獲得比以前更多的核基因家族后,制約系統(tǒng)演化關系構建的另一個因素就是大量的計算資源和計算時間。構建系統(tǒng)進化樹時,一般需要設置bootstrap值(100~1 000)迭代,此步驟非常耗費計算時間。Nguyen et al.(2015)發(fā)表的軟件iqtree,采用ultrafast bootstrap approximation(UFBoot)方法獲得bootstrap值(Von Haeseler et al.,2013),比RAxML軟件的傳統(tǒng)方法,計算速度快10~40倍,并且獲得的bootstrap值更精確。
我們使用多達5 993個one-to-one基因家族構建的進化樹,與APG IV報道的主要差異為檀香目和石竹目在系統(tǒng)發(fā)育樹中的位置,本研究認為“檀香目和石竹目是薔薇類植物的姊妹群”,而APG IV認為“檀香目和石竹目是菊類植物的姊妹群”??赡茉蛴幸韵聝蓚€:一是基因數(shù)目的增多;二是本研究所選88個植物只有一半使用的基因組序列,另一半為轉(zhuǎn)錄組序列,而轉(zhuǎn)錄組序列一般存在大量的基因缺失(即未表達基因較多)。
A. Bootstrap值; B. 基因支持率。紅色表示支持,藍色表示拒絕,紅色星星表示支持率最高的拓撲結構。
A. Bootstrap value; B. Gene trees support ratio. Red represents support,blue represents rejection,the topology labeled with a red star represents the most support.枝上斜線左邊數(shù)字為bootstrap值,右邊數(shù)字為基因支持率。
灰色條紋為分化時間的95%置信區(qū)間,九個化石校準時間為(1)銀杏分化時間為290百萬年至310百萬年前;(2)單子葉植物和真雙子葉植物分化時間為130百萬年至200百萬年前;(3)真雙子葉植物共同祖先(即最早的雙子葉植物化石記錄)為125 百萬年前;(4)山龍眼目(Proteales)的共同祖先為108.8百萬年前;(5)山茱萸目(Cornales)共同祖先為85.8百萬年前;(6)唇形目(Lamiales)共同祖先為44.3百萬年前;(7)葡萄目(Vitales)與其余薔薇類植物間分化時間為105百萬年至115百萬年前;(8)豆目(Fabales)與殼斗目(Fagales)間分化時間為93.5百萬年前;(9)Arabidopsis thaliana與Populus trichocarpa間分化時間為97百萬年至109百萬年前。
Grey bars are 95% confidence intervals,nine fossil calibration points are as follows:(1) The divergence time of Ginkgo biloba is 290 million years to 310 million years ago; (2) The divergence time of eudicots and monocots is 130 million years to 200 million years ago; (3) The divergence time of eudicots is 125 million years ago; (4) The divergence time of Proteales is 108.8 million years ago; (5) The divergence time of Cornales is 85.8 million years ago; (6) The divergence time of Lamiales is 44.3 million years ago; (7) The divergence time of Vitales from Rosids is 105 million years to 115 million years ago; (8) The divergence time of Fabales and Fagales is 93.5 million years ago; (9) The divergence time of Arabidopsis thaliana and Populus trichocarpa is 97 million years to 109 million years ago.總的來說,本研究不僅進一步確定了被子植物各目間系統(tǒng)發(fā)育關系,而且為“使用更多的基因和計算速度更快的方法構建進化樹”探討了一種可行性策略:即使用Yang & Smith(2014)報道的同源基因聚類及去旁系同源基因方法,獲得大量的one-to-one基因家族,再使用IQ-TREE(串聯(lián)法)和ASTRAL(溯祖法)軟件,能快速精確的計算出進化樹。隨著更多植物基因組的測序和基因聚類及系統(tǒng)發(fā)育關系構建方法的進一步優(yōu)化,被子植物系統(tǒng)發(fā)育關系將越來越精確,例如進一步準確確定檀香目和石竹目在被子植物中與其他進化分支之間的關系。
參考文獻:
BOLGERAM,LOHSE M,USADEL B,2014. Trimmomatic:A flexible trimmer for Illumina sequence data[J]. Bioinforma-tics,30(15):2114-2120.
CALL VB,DILCHER DL,1992. Investigations of angiosperms from the Eocene of southeastern North America:Samaras of Fraxinus wilcoxiana Berry[J]. Rev Palaeobot Palynol,74:249-266.
CHAW SM,LIU YC,WU YW,et al.,2019. Stout camphor tree genome fills gaps in understanding of flowering plant genome evolution[J]. Natl Plants,5(1):63-73.
CHEN JH,HAO ZD,GUANG XM,et al.,2019. Liriodendron genome sheds light on angiosperm phylogeny and species-pair differentiation[J]. Nat Plants,5(1):18-25.
CRANE PR,HERENDEEN PS,1996. Cretaceous floras containing angiosperm flowers and fruits from eastern North America[J]. Rev Palaeobot Palynol,90:319-337.
EBERSBERGER I,STRAUSS S,VON HAESELER A,2009. HaMStR:Profile hidden markov model based search for orthologs in ESTs[J]. Bmc Evol Biol,9(1):157-157.
ENDRESS PK,DOYLE JA,2009. Reconstructing the ancestral angiosperm flower and its initial specializations[J]. Am J Bot,96(1):22-66.
FAWCETT JA,MAERE S,VAN DE PEER Y,2009. Plants with double genomes might have had a better chance to survive the Cretaceous-Tertiary extinction event[J]. Proc Natl Acad Sci USA,106(14):5737-5742.
FRIIS EM,PEDERSEN KR,SCHNENBERGER J,2006. Normapolles plants:A prominent component of the Cretaceous rosid diversification[J]. Plant Syst Evol,260:107-140.
FU Q,DIEZ JB,POLE M,et al.,2018. An unexpected noncarpellate epigynous flower from the Jurassic of China[J]. Elife,7:e38827.
GAO Z,BARRY AT,1989. A review of fossil cycad megasporophylls,with new evidence of Crossozamia pomel and its associated leaves from the lower permian of Taiyuan,China[J]. REV Palaeobot Palynol,60(3-4):205-223.
GRABHERR MG,HAAS BJ,YASSOUR M,et al.,2011. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol,29(7):644-652.
HE ZL,ZHANG HK,GAO SH,et al.,2016. Evolview v2:An online visualization and management tool for customized and annotated phylogenetic trees[J]. Nucl Acid Res,44(W1):236-241.
HERENDEEN PS,1995. The enigma of angiosperm origins[J]. Earth-Sci Rev,39(1):253-254.
KATOH K,STANDLEY DM,2013. MAFFT multiple sequence alignment software version 7:Improvements in performance and usability[J]. Mol Biol Evol,30(4):772-780.
KUMAR S,STECHER G,SULESKI M,et al.,2017. TimeTree:A Resource for 598 timelines,timetrees,and divergence times[J]. Mol Biol Evol,34:1812-1819.
LANFEAR R,F(xiàn)RANDSEN PB,WRIGHT AM,et al.,2016. PartitionFinder 2:New methods for selecting partitioned models of evolution formolecular and morphological phylogenetic analyses[J]. Mol Biol Evol,34(3): 772-773.
LU LM,MAO LF,YANG T,et al.,2018. Evolutionary history of the angiosperm flora of China[J]. Nature,554(1):234-238.
LI HT,YI TS,GAO LM,et al.,2019. Origin of angiosperms and the puzzle of the Jurassic gap[J]. Nat Plants,5(1):461-470.
MAGALLON S,2010. Using fossils to break long branches in molecular dating:A comparison of relaxed clocks applied to the origin of angiosperms[J]. Syst Biol,59(4):384-399.
MOORE MJ,HASSAN N,GITZENDANNER MA,et al.,2011. Phylogenetic analysis of the plastid inverted repeat for 244 species:Insights into deeper-level angiosperm relationships from a long,slowly evolving sequence region[J]. Int J Plant Sci,172(4):541-558.
MOORE MJ,SOLTIS PS,BELL CD,et al.,2010. Phylogenetic analysis of 83 plastid genes further resolves the early diversification of eudicots[J]. Proc Natl Acad Sci USA,107(10):4623-4628.
NGUYEN LT,SCHMIDT HA,VON HAESELER A,et al.,2015. IQ-TREE:A fast and effective stochastic algorithm for estimating maximum-likelihood phylogenies[J]. Mol Biol Evol,32(1):268-274.
QIU YL,LI LB,WANG B,et al.,2010. Angiosperm phylogeny inferred from sequences of four mitochondrial genes[J]. JSE,48(6):391-425.
RUHFEL BR,GITZENDANNER MA,SOLTIS PS,et al.,2014. From algae to angiosperms-inferring the phylogeny of green plants (Viridiplantae) from 360 plastid genomes[J]. Bmc Evol Biol,14(1):23.
SMITH SA,BEAULIEU JM,DONOGHUE MJ,2010. An uncorrelated relaxed-clock analysis suggests an earlier origin for flowering plants[J]. Proc Natl Acad Sci USA,107(13): 5897-5902.
SMITH SA,DUNN CW,2008. Phyutility:A phyloinformatics tool for trees,alignments and molecular data[J]. Bioinformatics,24(5):715-716.
SOLTIS DE,SMITH SA,CELLINESE N,et al.,2011. Angiosperm phylogeny:17 genes,640taxa[J]. Am J Bot,98(4): 704-730.
STAMATAKIS A,2014. RAxML Version 8:A tool for phylogenetic analysis and post—analysis of large phylogenies[J]. Bioinformatics,30(9):1312-1313.
TAKAHASHI M,CRANE PR,MANCHESTER SR,2002. Hironoia fusiformis gen. et sp. nov.,a cornalean fruit from the Kamikitaba locality (Upper Cretaceous,Lower Coniacian) in northeastern Japan[J]. J Plant Res,115:463-473.
THE ANGIOSPERM PHYLOGENY GROUP,2016. An update of the angiosperm phylogeny group classification for the orders and families of flowering plants:APGIV[J]. Bot J Linn Soc,181(1):1-20.
VANDS,2000. Graph Clustering by Flow Simulation[M]. University of Utrecht.
VONHAESELER A,MINH BQ,NGUYEN MAT,2013. Ultrafast approximation for phylogenetic bootstrap[J]. Mol Biol Evol,30(5):1188-1195.
WICKETT NJ,MIRARAB S,NGUYEN N,et al.,2014. Phylotranscriptomic analysis of the origin and early diversification of land plants[J]. Proc Natl Acad Sci USA,111(45): 4859-4868.
WORBERG A,QUANDT D,BARNISKE AM,et al.,2007. Phylogeny of basal eudicots:Insights from non-coding and rapidly evolving DNA[J]. Org Divers Evol,7(1):55-77.
YANG Z,2007. PAML 4:Phylogenetic analysis by maximum likelihood[J]. Mol Biol Evol,24:1586-1591.
YANG Y,MOORE MJ,BROCKINGTON SF,et al.,2015. Dissecting molecular evolution in the highly diverse plant clade caryophyllales using transcriptome sequencing[J]. Mol Biol Evol,32(8):2001-2014.
YANG Y,SMITH SA,2014. Orthology inference in nonmodel organisms using transcriptomes and low-coverage genomes:Improving accuracy and matrix occupancy for phylogenomics[J]. Mol Biol Evol,31(11):3081-3092.
ZENG LP,ZHANG N,ZHANG Q,et al.,2017. Resolution of deep eudicot phylogeny and their temporal diversification using nuclear genes from transcriptomic and genomic datasets[J]. New Phytol,214(3):1338-1354.
ZENG LP,ZHANG Q,SUN RR,et al.,2014. Resolution of deep angiosperm phylogeny using conserved nuclear genes and estimates of early divergence times[J]. Nat Comm,5(1): 4956.
ZHANG C,SAYYARI E,MIRARAB S,2017. ASTRAL-III:Increased scalability and impacts of contracting low support branches[J]. RECOMB-CG,Springer,Cham:53-75.
ZHANG N,ZENG LP,SHAN HY,et al.,2012. Highly conserved low-copy nuclear genes as effective markers for phylogenetic analyses in angiosperms[J]. New Phytol,195(4):923-937.
(責任編輯 周翠鳴)