尹彥棚 丁喬嬌 羅加偉 林新娜 張敏 彭成 高繼海
摘 要:厚樸為著名的傳統(tǒng)藥用植物,歸于木蘭科、木蘭屬,于我國廣泛種植,其樹皮、根皮、枝皮、葉片、花、果實均能入藥或食用。為獲取厚樸全基因組序列信息,該文以厚樸葉片DNA為材料,采用Pacbio Sequel第三代測序技術(shù)構(gòu)建厚樸全基因組數(shù)據(jù)庫,并利用生物信息學(xué)方法對獲得的核苷酸序列進行組裝、功能注釋以及進化分析研究。結(jié)果表明:(1)原始測序數(shù)據(jù)過濾后獲得140.91 Gb三代數(shù)據(jù),Read N50約為13 784 bp,經(jīng)過組裝得到厚樸基因組大小為1.68 Gb,Contig N50約為222 069 bp,單拷貝基因完整性為81.0%。(2)組裝后的序列通過與NR、KOG、KEGG等功能數(shù)據(jù)庫比對,共有98.40%的基因得到了功能注釋,其中KOG功能注釋結(jié)果發(fā)現(xiàn)厚樸的蛋白功能主要集中在一般功能預(yù)測、翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶以及信號轉(zhuǎn)導(dǎo)機制;GO功能分類表明厚樸的基因集中在細胞組分及生物學(xué)過程;KEGG分析發(fā)現(xiàn)厚樸參與代謝通路的基因占主要地位。(3)通過與葡萄、擬南芥、水稻、楊樹、銀杏、無油樟、茶樹及牛樟基因組的比對分析,發(fā)現(xiàn)厚樸23 424個基因中有20 801個基因可以分類到12 129個家族,其中有515個基因家族為厚樸所特有,而厚樸與牛樟(樟科)親緣關(guān)系較近,兩者的分化時間約在122.5百萬年前(mya)。該研究首次利用第三代測序技術(shù)對厚樸全基因組解析,有利于對其進一步進行深入的開發(fā)與利用,也為研究其他藥用植物全基因組奠定了基礎(chǔ)。
關(guān)鍵詞:厚樸,基因組,第三代測序技術(shù),基因注釋,藥用植物
中圖分類號:Q943.2
文獻標識碼:A
文章編號:1000-3142(2021)08-1251-12
Abstract: ?Magnolia officinalis is a famous traditional medicinal plant, belonging to the Magnoliaceae family and Magnolia L. genus and being widely cultivated in China. Its barks, root barks, branch barks, leaves, flowers and fruits could be used as medicine or food. However, the whole genome information is little known for this plant species. In order to obtain the whole genome sequence information of M. officinalis, the leaf DNA was used as the material, and the third-generation sequencing technology of Pacbio Sequel was used to establish its nucleotide sequence database. Then genome assembly, function annotation and evolution analysis were carried out by bioinformatic methods. The results were as follows: (1) 140.91 Gb the third-generation data were obtained after the original sequencing data, with the Read N50 about 13 784 bp. The assembled M. officinals genome size was 1.68 Gb, contig N50 being about 222 069 bp, and the integrity of single-copy gene being 81.0%. (2) 98.40% of the genes from the assembled sequence got gene annotation after being compared with functional databases such as NR, KOG and KEGG. The result of KOG gene annotation was that the protein function of M. officinalis concentrated in the general functional prediction only, posttranslational modification, protein turnover, chaperones signal transduction mechanisms. GO functional classification indicated that the genes of M. officinalis concentrated on cell components and biological processes. KEGG analysis found that the M. officinalis genes mostly involved in metabolic pathways. (3) By comparative genomics analysis, the genomes of Vitis vinifera, Arabidopsis thaliana, Oryza sativa, Poplar trichocarpa, Ginkgo biloba, Amborella trichopoda, Camellia sinensis and Cinnamomum kanehirae were aligned. It was found that 20 801 of 23 424 genes in M. officinalis could be classified into 12 129 families, 515 gene families being unique to M. officinalis. The genetic evolution tree constructed from the genomes of the selected reference species pointed that the M. officinalis (Magnoliaceae) was closely related to Cinnamomum kanehirae (Lauraceae), and the divergence time between the two species was about 122.5 mya. It is the first time to use the third-generation sequencing technology to analyze the whole genome of M. officinalis in the study, which is conducive to its further development and utilization, and also provides the information for the study of the whole genome of other medicinal plants.
Key words: Magnolia officinalis,genome,the third-generation sequencing technology,gene annotation, medicinal plant
隨著人類基因組計劃的完成,基因組測序技術(shù)的不斷發(fā)展和逐漸成熟,尤其以第三代測序技術(shù)發(fā)展為單分子實時測序,這加速了植物全基因組研究的進程。基因組大小是指某個物種單倍體基因組的全部DNA堿基對數(shù),是研究物種基因組學(xué)的基礎(chǔ)。木蘭科在植物進化及分類學(xué)中的地位屬于比較原始的科,近年來關(guān)于木蘭屬物種葉綠體基因組測序在國內(nèi)外研究較多,如李西文等(2012)、Li et al.(2013)通過454 FLX第二代高通量測序平臺建立一種厚樸葉綠體基因組的標準測序流程用于區(qū)分厚樸及近緣物種,并利用測序平臺獲得了木蘭屬物種荷花玉蘭(Magnolia grandiflora)的葉綠體全基因組序列,為其優(yōu)良品種的選育、葉綠體基因工程、分子標記的開發(fā)和系統(tǒng)發(fā)育分析提供了有價值的信息;Cui et al.(2019)對厚樸同屬物種天女木蘭(M. sieboldii)進行葉綠體全基因組測序,獲得了111個獨特的基因,包括78個蛋白編碼基因、29個tRNA 基因和4個rRNA 基因。
厚樸 (Magnolia officinalis) 為木蘭科(Magnoliaceae)木蘭屬(Magnolia L.)植物,主產(chǎn)于四川東部、湖北西部等地,野生厚樸是我國二級保護植物(薛珍珍等,2019)。厚樸樹皮、枝皮、根皮、芽等均可入藥,在臨床中廣泛使用。此外,厚樸花大美麗,被列入保健食品名錄,其種子可榨油,有明目益氣之功效。同時厚樸作為道地藥材,其主要活性成分是以厚樸酚及和厚樸酚代表的酚類,研究表明這兩種活性成分具有良好抗菌、抗炎、抗腫瘤和抗病毒等藥理作用(王立青等,2005)。查良平等(2015)通過轉(zhuǎn)錄組學(xué)研究了厚樸萜類化合物的生物合成途徑,揭示其中的甲羥戊酸 (MVA)途徑相關(guān)基因調(diào)控萜類次級代謝產(chǎn)物的合成機制;時小東等(2018)在此基礎(chǔ)上深入研究厚樸次級代謝產(chǎn)物中苯丙素途徑和萜類合成途徑,獲得了代謝途徑中相關(guān)酶和基因的信息。
厚樸在自然環(huán)境下生長周期長,產(chǎn)量低,但市場需求量較大,所以人工繁殖培育的厚樸較多,種質(zhì)資源豐富(張龍輝等,2013)。然而,當前關(guān)于厚樸的研究對其遺傳信息、進化歷程及性狀形成等相關(guān)分子生物學(xué)基礎(chǔ)缺乏認識和了解,導(dǎo)致厚樸的厚樸酚、和厚樸酚等核心次級代謝產(chǎn)物的合成調(diào)控機理尚有諸多不清楚,對其在分子輔助育種,發(fā)掘相關(guān)生長發(fā)育、抗病抗逆等優(yōu)良性狀基因等方面的問題也得不到有效解決,造成厚樸資源利用度低,開發(fā)不夠深入。因此,本研究基于厚樸遺傳基因組信息匱乏,初步對厚樸進行全基因組測序研究,獲得的基因組信息將會進一步豐富厚樸遺傳進化研究資料,為探索藥用植物優(yōu)良品種選育、有效成分的生物合成途徑與調(diào)控機制及綜合開發(fā)利用等奠定基礎(chǔ)。
1 材料與方法
1.1 厚樸樣品及DNA提取
厚樸植株選取于成都中醫(yī)藥大學(xué)藥用植物園,采摘新鮮幼嫩無病害的葉片,蒸餾水清洗表面后,再使用75%乙醇清洗3次,擦干,-80 ℃凍存?zhèn)溆谩?/p>
采用CTAB法(沙麗萍,2018)提取厚樸葉片DNA,步驟如下:(1)樣品使用液氮研磨后分裝至離心管;(2)向離心管中加入十六烷基三甲基溴化銨溶液(CTAB),65 ℃水浴1 h,10 800 r·min-1離心10 min,取上清;(3)離心后加入等體積氯仿∶異戊醇 (24∶1),充分混勻,4 ℃、10 800 r·min-1離心10 min,取上清,重復(fù)兩次;(4)向上清中加入異丙醇和乙酸鈉溶液,離心,棄上清;(5)加入75%乙醇,離心,棄上清;(6)晾干,加入TE緩沖液溶解,4 ℃保存?zhèn)溆谩?/p>
1.2 文庫構(gòu)建及測序
使用g-TUBE剪切管打斷厚樸DNA樣品,對打斷的DNA樣品(5 mg)使用建庫試劑盒(SMRTbell Template Prep Kit)進行損傷修復(fù)、末端修復(fù)及連接接頭;對連接接頭產(chǎn)物使用BluePippin Size-Selection System進行目的片段篩選,并通過AMpure PB磁珠進行純化回收;回收產(chǎn)物使用損傷修復(fù)試劑盒(SMRTbell Damage Repair Kit)進行二次損傷修復(fù),并對修復(fù)產(chǎn)物進行AMpure PB磁珠純化回收;最終文庫即二次損傷修復(fù)產(chǎn)物進行濃度(Qubit)及大?。ˋgilent 2100)的文庫質(zhì)量檢測,即得到測序文庫。采用第三代測序平臺Pacbio Sequel進行單分子測序,原始數(shù)據(jù)進行評估、過濾后得到高質(zhì)量的數(shù)據(jù)用于基因組組裝與質(zhì)量評估。
1.3 基因組組裝及評估
對PacBio測序平臺產(chǎn)生的原始數(shù)據(jù)進行過濾低質(zhì)量和短片段后,首先,利用Canu(Koren et al.,2017)軟件對過濾后的數(shù)據(jù)進行初步組裝;然后,采用LACHESIS(Belton et al.,2012)軟件對初步組裝后的序列進行群組的劃分、排序和定向。將每個Scaffold按照等長50 kb打斷,利用Hi-C(high-throughput chromosome conformation capture)技術(shù)(Marbout & Koszul,2015)重新組裝,將無法還原為最初組裝序列的位置列為候選錯誤區(qū)域,然后鑒定此區(qū)域中低Hi-C覆蓋深度的位置即為錯誤點,從而完成對初步組裝基因組的糾錯,以提高基因組組裝質(zhì)量。對組裝結(jié)果利用BUSCO v5.0(Simao et al.,2015)軟件來評估組裝基因組的完整性,與Embryophyta_odb10數(shù)據(jù)庫中含有的植物1 614個保守的核心基因比對,并繪制互作熱圖來評估Hi-C組裝結(jié)果。[LACHESIS軟件使用具體參數(shù)為(1) CLUSTER MIN RE SITES=52;(2)CLUSTER MAX LINK DENSITY=2;(3)CLUSTER NONINFORMATIVE RATIO = 2;(4) ORDER MIN N RES IN TRUN=46;(5) ORDER MIN N RES IN SHREDS=42。]
1.4 序列預(yù)測
使用LTR FINDER v1.05(Zhao & Wang,2007)、RepeatScout v1.0.5(Price et al.,2005)、PILER-DF v2.4(Edgar & Myers,2005)軟件,首先,基于結(jié)構(gòu)預(yù)測和從頭預(yù)測(Ab initio)的原理構(gòu)建重復(fù)序列數(shù)據(jù)庫,對構(gòu)建好的重復(fù)序列庫通過PASTEClassifier(Wicker et al.,2007)進行分類;然后,基于重復(fù)序列數(shù)據(jù)庫Repbase(https://www.girinst.org/repbase/)合并作為最終的厚樸基因組的重復(fù)序列數(shù)據(jù)庫;最后,通過RepeatMasker v4.0.6(Tarailo & Chen,2009)軟件基于構(gòu)建好的數(shù)據(jù)庫對厚樸進行重復(fù)序列的預(yù)測。
基于從頭預(yù)測(Ab initio)和同源物種預(yù)測(Homolog)兩種原理對厚樸基因組進行基因預(yù)測,并對預(yù)測結(jié)果進行評估。首先,使用Genscan(Burge & Karlin,1997)、Augustus v2.4(Stanke & Waack,2003)、GlimmerHMM v3.0.4(Majoros et al.,2004)、GeneID v1.4(Blanco et al.,2007)、SNAP(version 2006-07-28) (Blanco et al.,2007)進行從頭預(yù)測;然后,使用GeMoMa v1.3.1(Jens et al.,2016)進行基于同源物種的預(yù)測;最后,利用EVM v1.1.1整合上述方法得到的預(yù)測結(jié)果。同時針對非編碼RNA預(yù)測,包括了microRNA、rRNA及tRNA等已知功能的RNA,分別基于Rfam(Griffithsjones et al.,2005)數(shù)據(jù)庫和miRBase(Griffithsjones et al.,2006)數(shù)據(jù)庫并利用Infenal 1.1(Nawrocki & Eddy,2013)進行rRNA和microRNA預(yù)測;利用tRNAscan-SE v1.3.1 (http://lowelab.ucsc.edu/tRNAscan-SE/)(Lowe & Eddy,1997)識別tRNA。
1.5 功能基因注釋
對預(yù)測得到的基因序列與NR(Non-Redundant Protein Database)(Aron et al.,2011)、KOG(EuKaryotic Orthologous Groups)(Tatusov et al.,2001)、KEGG(Kyoto Encyclopedia of Genes and Genomes)(Minoru & Susumu,2000)、TrEMBL(Boeckmann et al.,2003)等功能數(shù)據(jù)庫做BLAST v2.2.31(Altschul et al.,1990)比對(設(shè)置比對篩選閾值e-value<1e-5),得到基因功能注釋?;贜R數(shù)據(jù)庫比對結(jié)果,應(yīng)用軟件Blast2GO(Conesa et al.,2005)進行GO(Dimmer et al.,2012)數(shù)據(jù)庫的功能注釋。
1.6 比較基因組學(xué)分析
擬南芥(Arabidopsis thaliana)、水稻(Oryza sativa)、楊樹(Populus trichocarpa)、銀杏(Ginkgo biloba)、無油樟(Amborella trichopoda)、茶樹(Camellia sinensis)、牛樟(Cinnamomum kanehirae)]的蛋白序列比對(NCBI數(shù)據(jù)庫https://www.ncbi.nlm.nih.gov/),基于序列比對結(jié)果,對已知基因的序列和結(jié)構(gòu)進行比較,分析物種間的進化以及物種特有基因的分類。
使用OrthoMCL(Li et al.,2003)軟件(參數(shù):Pep_length: 10, Stop_coden: 20, PercentMatchCutoff: 50, EvalueExponentCutoff: -5, Mcl: 1.5 #1.2-4.0)對上述9個物種的蛋白序列進行家族分類,尋找厚樸基因組特有的基因家族。先利用OrthoMCL聚類的結(jié)果提取單拷貝蛋白序列,再將單拷貝蛋白序列使用Muscle(http://www.ebi.ac.uk/Tools/msa/muscle/)軟件進行序列比對,使用PHYML(Stéphane et al.,2010)軟件(參數(shù):-gapRatio 0.5, -badRatio 0.25, -model HKY 85, -bootstrap 1 000)通過ML(最大似然法)構(gòu)建進化樹,研究物種間的進化關(guān)系。利用Timetree(http://www.timetree.org/)查詢已有物種之間的化石時間,并通過mcmctree(http://abacus.gene.ucl.ac.uk/software/paml.html)估算出物種間的分化時間。采用MCScanX(Wang et al.,2012)軟件分別對自身(參數(shù):-s 10 ,-b 1, 其他參數(shù)默認)及與近緣物種牛樟(Cinnamomum kanehirae)(參數(shù):-s 10 ,-b 2, 其他參數(shù)默認)基因組做共線性分析,統(tǒng)計相應(yīng)的共線性基因數(shù)目和共線性區(qū)塊(Block)數(shù)目。
2 結(jié)果與分析
2.1 基因組測序
通過三代測序平臺對厚樸葉片進行全基因組測序,對原始數(shù)據(jù)的reads質(zhì)量值進行初步過濾,去掉低質(zhì)量和短片段的reads,統(tǒng)計得到140.91 Gb三代原始數(shù)據(jù),Read N50為13 784 bp,最長reads的長度為128 492 bp,平均長度為8 654 bp,測序質(zhì)量符合后續(xù)組裝要求。
2.2 基因組組裝及評估
借助Canu軟件對厚樸的初步組裝結(jié)果見表1,初步組裝的序列經(jīng)過Hi-C糾錯組裝后基因組大小約為1.68 Gb,Contig N50為222 069 bp,最長的Contig為2 700 203 bp,GC含量為40.65%。Hi-C組裝后其中共有1.67 Gb的序列長度的基因組序列被定位到19條染色體上,占比99.66%,而對應(yīng)的序列數(shù)目為11 470條,占比99.20%。在定位到染色體上的序列中,能夠確定順序和方向序列長度為1.53 Gb,占定位染色體序列總長度的91.21%,對應(yīng)的序列數(shù)目為8 689條,占定位染色體序列總數(shù)目的75.75%。
組裝后的基因組采用BUSCO軟件評估,在組裝的基因中共找到1 391個完整的BUSCO基因,其中完整單拷貝的1 307個,F(xiàn)ragmented BUSCO 75個基因,有148個基因在Embryophyta_odb10數(shù)據(jù)庫中沒有找到,BUSCO評估基因組完整度為86.2%,說明組裝結(jié)果較完整。通過Hi-C輔助組裝熱圖分析(圖1),厚樸19個染色體分組可以明顯區(qū)分,且每一分組對角線的交互強度信號要高于非對角線位置,說明Hi-C組裝的染色體結(jié)果中鄰近的序列間(對角線位置)交互強度高,而非鄰近的序列之間(非對角線位置)的交互信號強度弱,證明基因組組裝效果較好。
2.3 基因預(yù)測結(jié)果
利用RepeatMasker v4.0.6軟件進行重復(fù)序列預(yù)測得到包含1.37 Gb重復(fù)序列的厚樸基因組,占比81.60%。其中長散在重復(fù)序列(LINE)得到重復(fù)序列數(shù)目為450 863條,占比 8.47%;短散在重復(fù)序列(SINE)數(shù)目為18 530條,占比0.2%;長末端重復(fù)序列(LTR)數(shù)目為997 318 條,占比44.04%;末端反向重復(fù)序列(TIR)數(shù)目為145 539條,占比 4.5%;簡單重復(fù)序列(SSR)數(shù)目為10 506條,占比0.47%。
對厚樸的基因預(yù)測結(jié)果(表2)顯示,獲得了23 424個蛋白編碼基因及1 096個非蛋白編碼基因,包括72個microRNA基因,575個tRNA基因和449個rRNA基因。
2.4 基因功能注釋與分析
通過KOG功能注釋(圖2),厚樸基因組的13 845個基因獲得注釋,占預(yù)測到的總基因數(shù)的59.11%。從圖中可以看出,厚樸的蛋白功能主要集中在“翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶”(posttranslational modification, protein turnover, chaperones)(O),占比10%;“信號轉(zhuǎn)導(dǎo)機制”(signal transduction mechanisms)(T)占比9%,其次為“碳水化合物轉(zhuǎn)運和代謝”(carbohydrate transport and metabolism)(G)與“轉(zhuǎn)錄”(transcription)(K)等功能,各占比5%?!耙话愎δ茴A(yù)測”(general function prediction only)(R)占比22%。這些基因差異性表達可以對今后深入探究厚樸在進化過程中對環(huán)境響應(yīng)的機制提供數(shù)據(jù)支持。
通過厚樸基因組GO注釋(圖3),共有13 438個基因具有GO注釋功能,占預(yù)測到的總基因數(shù)的57.37%。功能分布在“細胞”(cell)、“結(jié)合”(binding)、“催化活性”(catalytic activity)、“細胞過程”(cellular process)、“代謝過程”(metabolic process)等功能的基因占據(jù)優(yōu)勢地位,而在整個分類中細胞組分占33%,分子功能占21%,生物學(xué)過程占45%。由此可見,初探到厚樸的基因主要富集在生物學(xué)過程中的代謝過程。
通過KEGG通路注釋(圖4),對厚樸的8 253個基因進行了通路注釋,占預(yù)測到的總基因數(shù)的35.23%。其注釋結(jié)果分別為5.40%的“細胞過程”(cellular process)、4.50%的“環(huán)境信息處理”(environmental information processing)、29.85%的“遺傳信息處理”(genetic information processing)、55.09%的“代謝” (metabolism)、5.16%的“機體系統(tǒng)”(organismal systems)。通過KEGG的通路注釋進一步了解厚樸基因在生物學(xué)過程上的功能,其中參與代謝通路上的基因占主要地位,淀粉和蔗糖代謝(ko00500)、氨基酸的生物合成(ko01230)及碳代謝(ko01200)為主要的代謝通路。
2.5 比較基因組學(xué)分析
通過對厚樸與葡萄、擬南芥、水稻、楊樹、銀杏、無油樟、茶樹及牛樟的蛋白序列比對,發(fā)現(xiàn)在預(yù)測得到的23 424個基因中有20 801個基因可以分類到12 129個家族,其中有515個基因家族是厚樸所特有的,蛋白預(yù)測分類結(jié)果見圖5和表3。
為進一步確定厚樸的種屬關(guān)系,以單拷貝蛋白序列進行比較分析,選擇上述8個已知基因組信息的物種,構(gòu)建出遺傳進化樹(圖6),結(jié)果表明厚樸與牛樟聚為一支,兩者間物種親緣關(guān)系較近。根據(jù)物種分化時間分析(圖7),兩者分化時間約在122.5百萬年前(mya)。通過繪制出的共線性圖(圖8),比較厚樸與牛樟基因組的同源性。比對結(jié)果的共線性圖中的每一條線代表同源基因之間的連線,沒有線條的空白區(qū)域代表沒有比對上的序列,代表物種之間存在差別的基因區(qū)域。從圖中看出兩者基因組片段能比對上的片段較少,發(fā)現(xiàn)兩者基因組存在較大差異。
3 討論與結(jié)論
基因組測序技術(shù)和生物信息學(xué)技術(shù)的進一步發(fā)展、測序成本的降低和分析方法的完善極大地推動了厚樸這種非模式藥用植物的基因組測序研究。目前常用的測定基因組大小的方法有流式細胞術(shù)(林瀚等,2019)、第二代高通量測序技術(shù)(李西文等,2012)及已發(fā)展至第三代的單分子測序技術(shù)(柳延虎等,2015),本研究通過第三代測序技術(shù)測得的厚樸全基因組大小約為1.68 Gb,與葉林江等(2015)通過流式細胞術(shù)檢測的木蘭屬物種凹葉厚樸 (M. officinalis subsp.biloba) (2n=2x=38)的基因組大小為1.59 Gb相符合。物種的基因組大小與其倍性水平和染色體數(shù)目存在一定的正相關(guān)性(葉林江等,2015),王躍華等(2005)利用厚樸新生的愈傷組織制作染色體切片,顯微觀察結(jié)果顯示其染色體數(shù)為2n=38,上述提到的凹葉厚樸也屬于二倍體,染色體數(shù)為38條,表明本次測得的厚樸基因組大小符合其倍性水平和染色體數(shù)目。
基因組功能注釋是對物種功能基因解析的一重要方面。本研究通對厚樸的基因組功能注釋分析發(fā)現(xiàn),在GO功能注釋中厚樸的基因集中在生物學(xué)過程中 “代謝過程”,這與KEGG通路注釋的結(jié)果顯示在“代謝通路”上的基因占主要地位相符,其中淀粉和蔗糖代謝、氨基酸的生物合成及碳代謝為主要的代謝通路。楊旭等(2019)利用Illumina高通量測序技術(shù)對厚樸根、莖、葉不同組織進行轉(zhuǎn)錄組分析,功能注釋的結(jié)果顯示厚樸的主要生物代謝途徑為碳水化合物代謝、氨基酸代謝和能量代謝,與本研究得到的厚樸代謝通路注釋結(jié)果相對應(yīng)。厚樸基因組和轉(zhuǎn)錄組分析相結(jié)合,有利于厚樸的功能基因的進一步發(fā)掘和分析。
目前,關(guān)于厚樸等藥用植物研究較多還是其葉綠體基因組。由于核基因組包含豐富的遺傳信息,所以基因組很大,組成結(jié)構(gòu)復(fù)雜,且多倍性與高度的重復(fù)序列片段也給測序帶來很大困難(陳勇等,2014)。本研究獲得的厚樸全基因組序列是較高質(zhì)量的序列,這也是木蘭屬物種中首個核DNA全基因組序列,為后續(xù)分析研究木蘭屬甚至木蘭科物種起源和進化關(guān)系提供了參考基因組序列。厚樸全基因組測序的完成,是進行藥物植物的分子輔助育種的重要一步,基于基因組學(xué)、蛋白組學(xué)和種質(zhì)信息等相關(guān)數(shù)據(jù),利用生物信息學(xué)方法分析,最終篩選出最佳基因型和育種方案(馬小軍和莫長明,2017),這對在臨床上需求較大的藥用植物是一個新穎的培育方法。全基因組序列也為后續(xù)研究厚樸的功能基因組學(xué)(王勇波等,2009)提供了數(shù)據(jù)支撐。通過轉(zhuǎn)錄組學(xué)和代謝組學(xué)對藥用植物的次生代謝產(chǎn)物合成的關(guān)鍵酶鑒定和代謝途徑解析,并篩選出關(guān)于生長發(fā)育、抗病抗逆等優(yōu)良性狀基因位點,是解決對厚樸資源開發(fā)利用不夠深入的一個有效策略。本研究通過對厚樸的全基因組測序可以從分子層面加深對物種的認識,為其他藥用植物的全基因組測序提供參考,也為今后進一步開發(fā)利用中藥資源提供相關(guān)分子生物學(xué)基礎(chǔ),且對促進中藥材的現(xiàn)代化具有重要作用。
參考文獻:
ALTSCHUL SF, GISH W, MILLER W,et al., 1990. Lipman DJ: Basic local alignment search tool [J]. J Mol Biol, 215: 403-410.
ARON MB, SHENNAN L,ANDERSON JB, et al., 2010. CDD: A conserved domain database for the functional annotation of proteins [J]. Nucl Acid Res, 39(Suppl.1): D225-D229.
BELTON JM, MCCORD RP, GIBCUS JH, et al., 2012. Hi–C: A comprehensive technique to capture the conformation of genomes [J]. Methods, 58(3): 268-276.
BLANCO E, GENIS P, RODERIC G, 2007. Using geneid to identify genes [J]. Current Protocols, 18(1): 4-3.
BOECKMANN B, BAIROCH A, APWEILER R, et al., 2003. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003 [J]. Nucl Acid Res, 31(1): 365-370.
BURGE C, KARLIN S, 1997. Prediction of complete gene structure in human genomic DNA [J]. J Mol Biol, 268(1): 78-94.
CONESA A, GOTZ S, GARCIA-GOMEZ JM, et al., 2005. Blast2GO: A universal tool for annotation, visualization and analysis in functional genomics research [J]. Bioinformatics, 21(18): 3674-3676.
CUI YF, LI C, ZHANG Y, et al., 2019. The complete chloroplast genome of Siebolds magnolia: Magnolia sieboldii (Magnoliaceae), a highly ornamental species with attractive aromatic flowers [J]. Conserv Genet Resour, 11(3): 299-301.
CHEN Y, LIU YS, ZENG JG, 2014. Progress in plant genome sequencing [J]. Life Sci Res, 18(1): 66-74. [陳勇, 柳亦松, 曾建國, 2014. 植物基因組測序的研究進展 [J].生命科學(xué)研究, 18(1): 66-74.]
DIMMER, EMILY C, 2012. Eberhardt R: The UniProt-GO annotation database in 2011 [J]. Nucl Acid Res, 40(D1): 565-570.
EDGAR RC, MYERS EW, 2005. PILER: Identification and classification of genomic repeats [J]. Bioinformatics, 21(Suppl. 1): i152-i158.
GRIFFITHSJONES S, GROCOCK RJ, DONGEN SV, et al., 2006. miRBase: MicroRNA sequences, targets and gene nomenclature [J]. Nucl Acid Res, 34(Suppl. 1): 140-144.
GRIFFITHSJONES S, MOXON S, MARSHALL M, et al., 2005. Rfam: Annotating Non-Coding RNAs in complete genomes [J]. Nucl Acid Res, 33(Database issue): D121-124.
JENS K, MICHAEL W, ERICKSON JL, et al., 2016. Using intron position conservation for homology-based gene prediction [J]. Nucl Acid Res, 44(9): e89-e89.
KOREN S, WALENZ BP,BERLIN K, et al., 2017. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation [J]. Genome Res, 27(5): 722-736.
LI XW, GAO HH, WANG YT, et al., 2012. High throughput sequencing and structural analysis of the whole chloroplast genome of Evergreen magnolia [J]. Chin Sci: Life Sci, 42 (12): 947-956. [李西文, 高歡歡, 王一濤, 等, 2012. 荷花玉蘭葉綠體全基因組高通量測序及結(jié)構(gòu)解析 [J]. 中國科學(xué): 生命科學(xué), 42(12): 947-956.]
LI XW, GAO H, WANG Y, et al., 2013. Complete chloroplast genome sequence of Magnolia grandiflora and comparative analysis with related species [J]. Sci Chin Life Sci, 56(2): 189-198.
LI XW, HU ZG, LIN XH, et al., 2012. Whole chloroplast genome sequencing of Magnolia officinalis based on 454 FLX high throughput technology and its application [J]. Acta Pharm Sin, 47(1): 124-130. [李西文, 胡志剛, 林小涵, 等, 2012. 基于454FLX高通量技術(shù)的厚樸葉綠體全基因組測序及應(yīng)用研究 [J]. 藥學(xué)學(xué)報, 47(1): 124-130.]
LI L, STOECKERT CJ, ROOS DS, 2003. OrthoMCL: Identification of ortholog groups for eukaryotic genomes [J]. Genome Res, 13(9): 2178-2189.
LIN H, HAN XW, LAN SR, et al., 2019. Determination of genome size of two orchids based on flow cytometry [J]. J For Environ, 39(6): 616-620. [林瀚, 韓曉文, 蘭思仁, 等, 2019. 基于流式細胞技術(shù)兩種蘭屬植物基因組大小的測定 [J]. 森林與環(huán)境學(xué)報, 39(6): 616-620.]
LIU YH, WANG L, YU L, 2015. Principle and application of single molecule real-time sequencing [J]. Genetics, 37(3): 259-268. [柳延虎, 王璐, 于黎, 2015. 單分子實時測序技術(shù)的原理與應(yīng)用 [J]. 遺傳, 37(3): 259-268.]
LOWE TM, EDDY SR, 1997. tRNAscan-SE: A program for improved detection of transfer RNA genes in genomic sequence [J]. Nucl Acid Res, 25(5): 955-964.
MAJOROS WH, PERTEA M, SALZBERG SL, 2004. TigrScan and GlimmerHMM: Two open source ab initio eukaryotic gene-finders [J]. Bioinformatics, 20(16): 2878-2879.
MARBOUTY M, KOSZUL R, 2015. Metagenome analysis exploiting high-throughput chromosome conformation capture (3C) data [J]. Trends Genet, 31(12): 673-682.
MINORU K, SUSUMU G, 2000. KEGG: Kyoto Encyclopedia of Genes and Genomes [J]. Nucl Acid Res, 28(1): 27-30.
MA XJ, MO CM, 2017. Prospects for molecular breeding of medicinal plants [J]. Chin J Trad Chin Med, 42(11): 2021-2031. [馬小軍, 莫長明, 2017. 藥用植物分子育種展望 [J]. 中國中藥雜志, 42(11): 2021-2031.]
NAWROCKI EP, EDDY SR, 2013. Infernal 1.1: 100-fold faster RNA homology searches [J]. Bioinformatics, 29(22): 2933-2935.
PRICE AL, JONES NC, PEVZNER PA, 2005. De novo identification of repeat families in large genomes [J]. Bioinformatics, 21(Suppl. 1): i351-i358.
SHA LP, 2018. Examples of CTAB method, SDS method and salting-out method for crude extraction of plant DNA [J]. Teachnol Midd School Biol, (21): 65-67. [沙麗萍, 2018. 例談植物DNA粗提取的CTAB法、SDS法與鹽析法 [J]. 中學(xué)生物教學(xué), (21): 65-67.]
SHI XD, GU YX, DAI J, et al., 2018. Gene mining and analysis of Magnolia officinalis secondary metabolite pathway based on transcriptome [J]. Lishizhen Med Mat Med Res, 29(1): 247-250. [時小東, 顧雨熹, 代嬌, 等, 2018. 基于轉(zhuǎn)錄組的厚樸次級代謝產(chǎn)物途徑基因挖掘及分析 [J]. 時珍國醫(yī)國藥, 29(1): 247-250.]
SIMAO FA, WATERHOUSE RM, IOANNIDIS P, et al., 2015. BUSCO: Assessing genome assembly and annotation completeness with single-copy orthologs [J]. Bioinformatics, 31(19): 3210-3212.
STANKE M, WAACK S, 2003. Gene prediction with a hidden Markov model and a new intron submodel [J]. Bioinformatics, 19(Suppl. 2): ii215-ii225.
STEPHANE G, DUFAYARD JF, LEFORT V, et al., 2010. New algorithms and methods to estimate maximum-likelihood phylogenies: Assessing the performance of PhyML 3.0 [J]. Syst Biol, 59(3): 307-321.
TATUSOV RL, NATALE DA, GARKAVTSEV IV, et al., 2001. The COG database: New developments in phylogenetic classification of proteins from complete genomes [J]. Nucl Acid Res, 29(1): 22-28.
TARAILO GM, CHEN N, 2009. Using RepeatMasker to identify repetitive elements in genomic sequences [J]. Current Protocols, 25(1): 4.10. 1-4.10. 14.
WICKER T, SABOT F, HUA V, et al., 2007. A unified classification system for eukaryotic transposable elements [J]. Nat Rev Genet, 8(12): 973-982.
WANG LQ, JIANG RG, CHEN HF, 2005. Research progress on pharmacological effects of magnolol and honokiol [J]. Chin Trad Herb Drugs, (10): 155-158. [王立青, 江榮高, 陳蕙芳, 2005. 厚樸酚與和厚樸酚藥理作用的研究進展 [J]. 中草藥, (10): 155-158.]
WANG YB, LIU Z, ZHAO AH, et al., 2009. Application of functional genomics in the study of secondary metabolites of medicinal plants [J]. Chin J Trad Chin Med, 34(1): 6-10. [王勇波, 劉忠, 趙愛華, 等, 2009. 功能基因組學(xué)方法在藥用植物次生代謝物研究中的
應(yīng)用 [J]. 中國中藥雜志, 34(1): 6-10.]
WANG Y, TANG H , DEBARRY JD, et al., 2012. MCScanX: A toolkit for detection and evolutionary analysis of gene synteny and collinearity [J]. Nucl Acid Res, 40(7): e49-e49.
WANG YH, XU WJ, MA DW, et al., 2005. Chromosome production and karyotype analysis of Magnolia officinalis [J]. J Sichuan Norm Univ (Nat Sci Ed), 28(2): 242-244. [王躍華, 徐文俊, 馬丹煒, 等, 2005. 川厚樸染色體制作和核型分析研究 [J]. 四川師范大學(xué)學(xué)報(自然科學(xué)版), 28(2): 242-244.]
XUE ZZ, ZHANG RX, YANG B, 2019. Research progress of Magnolia officinalis authenticity [J]. Chin J Chin Mat Med, 44(17): 3601-3607. [薛珍珍, 張瑞賢, 楊濱, 2019. 厚樸道地性研究進展 [J]. 中國中藥雜志, 44(17): 3601-3607.]
YANG X, YANG ZL, TAN M, et al., 2019. Analysis of transcriptome characteristics of Magnolia officinalis and development of EST-SSR markers [J]. J Nucl Agric, 33 (7): 1318-1329. [楊旭, 楊志玲, 譚美, 等, 2019. 厚樸轉(zhuǎn)錄組特征分析及EST-SSR標記的開發(fā) [J]. 核農(nóng)學(xué)報, 33(7): 1318-1329.]
YE LJ, ZHANG ZR, SUN ZX, et al., 2015. Determination of nuclear DNA content (2C value) in the main genera of Magnoliaceae [J]. J Plant Classif Resour, 37(5): 605-610. [葉林江, 張志榮, 孫志霞, 2015. 木蘭科主要屬種核DNA含量(2C-值)的檢測 [J]. 植物分類與資源學(xué)報, 37(5): 605-610.]
ZHA LP, YUAN Y, HUANG LQ, et al., 2015. Identification and bioinformatics analysis of Magnolia officinalis MVA related genes [J]. Chin J Chin Mat Med, 40(11): 2077-2083. [查良平, 袁媛, 黃璐琦, 等, 2015. 厚樸MVA途徑相關(guān)基因鑒定及生物信息學(xué)分析 [J]. 中國中藥雜志, 40(11): 2077-2083.]
ZHANG LF, HUANG SJ, JIANG JL, et al., 2013. Study on the current situation and resource development of Magnolia officinalis forest [J]. Fujian For, (2): 28-30. [張龍輝, 黃樹軍, 蔣建立, 等, 2013. 厚樸營林現(xiàn)狀及資源開發(fā)的研究 [J]. 福建林業(yè), (2): 28-30.]
ZHAO X, WANG H, 2007. LTR_FINDER: An efficient tool for the prediction of full-length LTR retrotransposons [J]. Nucl Acid Res, 35(Suppl. 2): W265-W268.
(責(zé)任編輯 李 莉)