左瑞華,蔣平,孫傳伯,陳存武,婁新建
·生物技術(shù)與方法·
基于全基因組從頭測序技術(shù)鹽膚木葉綠體基因組的測序分析
左瑞華1,2,蔣平1,2,孫傳伯1,2,陳存武1,2,婁新建1
1 皖西學院 生物與制藥工程學院, 安徽 六安 237012 2 安徽省中藥資源保護與持續(xù)利用工程實驗室, 安徽 六安 237012
鹽膚木是一種重要的經(jīng)濟樹種,可為醫(yī)藥和工業(yè)染料提供原料。鹽膚木具有較強的抗旱、耐寒、耐鹽,可在溫帶、暖溫帶和亞熱帶地區(qū)生長。本研究首次對鹽膚木葉綠體基因組進行從頭測序 (sequencing) 組裝研究。結(jié)果表明,鹽膚木葉綠體基因組長度為159 082 bp,具有典型的四部分結(jié)構(gòu),兩個單拷貝區(qū)被一對反向重復區(qū)分隔。LSC和SSC的長度分別為85 394 bp和18 663 bp。葉綠體基因組總共編碼126個基因,其中包括88個蛋白編碼基因,8個rRNA基因,30個tRNA基因。在葉綠體基因組中,61.97%的序列為基因編碼區(qū)。在鹽膚木葉綠體基因組中,只有8個基因含有內(nèi)含子,除基因 (2個內(nèi)含子) 外,其余均含有1個內(nèi)含子。鹽膚木葉綠體基因組總共存在755個SSR位點。SSR主要由二核苷酸和單核苷酸組成,分別占60% (453) 和28.74% (217)。聚類分析結(jié)果表明,漆樹科與鹽膚木最為接近,其次為槭樹科和無患子科。本研究為鹽膚木的分類提供了分子基礎(chǔ)。本研究是關(guān)于鹽膚木葉綠體基因組的首次報道,對了解其光合作用、進化和葉綠體轉(zhuǎn)基因工程具有重要意義。
鹽膚木,葉綠體,基因進化
鹽膚木() 隸屬于漆樹科鹽膚木屬,是中國分布最為廣泛和重要的經(jīng)濟樹種之一,是重要的制藥、榨油和工業(yè)染料的原料[1]。同時鹽膚木的根、葉、花及果實均可作為中藥材,具有活血化瘀、舒經(jīng)活絡(luò)、澀腸止瀉及止血的功效[1],此外,寄生在鹽膚木上的五倍子蚜蟲便是我國傳統(tǒng)中藥五倍子[2-3]。由于鹽膚木具有抗旱、耐寒和耐鹽堿等特性[4-5],廣泛分布于東亞及東南亞各國,是一種優(yōu)良的經(jīng)濟樹種[6-7]。
葉綠體是植物細胞質(zhì)中重要的細胞器,可發(fā)生光合作用,為植物的生長發(fā)育提供能量,是植物生長發(fā)育的基礎(chǔ)及生產(chǎn)力構(gòu)成的主要因素[8-9]。在植物中,葉綠體基因組包含大量的遺傳信息,且具有高度保守的特性;其基因組的自我復制和進化相對于物種而言,保持著相對獨立。因而,葉綠體基因組常被用于探索植物基因組學和生物信息學的發(fā)生、發(fā)展和進化[10-11]。到目前為止,已經(jīng)有超過1 000多種植物完成了葉綠體基因組測序,極大地推進了葉綠體基因組學的發(fā)展。然而到目前為止,鹽膚木葉綠體基因組的相關(guān)研究未見報道。因此,本研究以鹽膚木葉綠體為研究對象,對其進行基因組學研究,確定鹽膚木的葉綠體基因組的特征及其在鹽膚木系統(tǒng)進化地位,并為鹽膚木的系統(tǒng)進化和遺傳多樣性分析等提供參考。
新鮮鹽膚木葉由皖西學院生物制藥工程學院中藥種植基地提供,將新鮮葉片用無菌水清洗干凈后,立即進行干冰凍存,–80℃冰箱保存,用于后續(xù)分析。
1.2.1 葉綠體基因組測序
采用高鹽低pH法提取葉綠體基因組,即將獲得的新鮮葉片經(jīng)勻漿過濾和純化處理以獲得鹽膚木葉綠體,同時使用顯微鏡對鹽膚木葉綠體的完整性進行檢測。為了消除細胞核及線粒體等其他DNA的干擾,使用DNase消化。之后使用裂解液充分裂解鹽膚木葉綠體,經(jīng)離心、抽提、純化后獲得cpDNA。cpDNA檢測合格后,由北京源宜基因科技有限公司負責對其進行高通量測序。
1.2.2 原始測序數(shù)據(jù)質(zhì)控統(tǒng)計
為了提高原始測序數(shù)據(jù)(Raw Data)的質(zhì)量,避免Raw Data的一部分Reads(即帶有測序引物、接頭等人工序列)對實驗分析產(chǎn)生干擾,需要先對Raw Data進行過濾,去除影響數(shù)據(jù)質(zhì)量和低質(zhì)量序列,即去除接頭、含有模糊堿基N及長度小于60 bp的序列,并使用BWA算法去除序列兩端的低質(zhì)量區(qū)域,質(zhì)量閾值為30。
圖1 鹽膚木葉綠體基因組環(huán)形基因圖 (內(nèi)側(cè)基因順時針轉(zhuǎn)錄,外側(cè)基因逆時針轉(zhuǎn)錄。不同功能的基因以不同 顏色)
1.2.3 葉綠體基因組組裝及注釋
對原始數(shù)據(jù)Raw Data進行過濾處理后得到高質(zhì)量數(shù)據(jù)Clean Data。首先,為了得到contig序列,使用SOAP(http://soap.genomics.org. cn/soapdenovo.html) 對Clean Data進行初步組裝。其次,使用BLAT軟件將其與近緣物種的葉綠體參考基因組進行定位比對,獲得contig序列之間的相對位置進行拼接并校正組裝錯誤,以獲得cpDNA全長框架圖。之后,利用GapCloser軟件將高質(zhì)量的短序列填補到框架圖序列上的gap,并利用一代測序?qū)κS嗟膅ap及可疑區(qū)域進行補充并確認,之后驗證LSC、SSC、IR區(qū)域連接處,最終得到一條環(huán)形的cpDNA完成圖序列,并使用CpGAVAS軟件對cpDNA序列進行注釋。同時采用DNAMAN和DNASTAR軟件對cpDNA序列進行GC和AT含量統(tǒng)計,采用MEGA軟件對密碼子使用情況進行統(tǒng)計分析。
1.2.4 葉綠體基因組組裝及注釋
使用MISA在線工具(http://pgrc.ikp-gatersleben. de/misa) 對鹽膚木cpDNA進行SSR位點搜索并設(shè)置單核苷酸(8次)、二核苷酸(3次)、三核苷酸(3次)、四核苷酸(3次)、五核苷酸(3次)、SSR側(cè)翼序列長度(≥50 bp) 和不同位點間最小間距(100 bp) 等搜索參數(shù)。根據(jù)搜索結(jié)果統(tǒng)計分析鹽膚木葉綠體SSR位點的數(shù)量和分布規(guī)律。
1.2.5 系統(tǒng)發(fā)育分析
根據(jù)鹽膚木葉綠體基因組注釋信息,以及從NCBI下載的其他10種無患子目植物葉綠體基因組,從基因組gb文件中分別提取其注釋的所有基因。通過比對,選擇66個共有蛋白編碼基因用于系統(tǒng)發(fā)育分析,首先將所有基因按照順序進行拼接,再用ClustalW軟件進行多序列全局比對,利用MEGA 5.0軟件構(gòu)建系統(tǒng)發(fā)育樹,使用最大似然法(Maximum likelihood,ML) 進行系統(tǒng)進化樹構(gòu)建,進化樹用1 000次重復bootstrap檢驗,構(gòu)建系統(tǒng)發(fā)育樹,分析鹽膚木的系統(tǒng)進化關(guān)系。
對鹽膚木葉綠體基因組進行分析可知 (圖1),鹽膚木和其他植物葉綠體基因組類似,其葉綠體基因組為典型的四段式結(jié)構(gòu),即包括一個大單拷貝區(qū)(LSC)、一個小單拷貝區(qū)(SSC) 和兩個反向重復區(qū)(IR)。如表1所示,鹽膚木葉綠體基因組的全長為158 809 bp,其中LSC區(qū)長度為 85 394 bp,SSC長度27 376 bp,兩個IR區(qū)長度為27 376 bp?;蚪M的GC含量為37.86%,與其他植物葉綠體基因組GC含量接近。鹽膚木cpDNA共編碼126個基因,其中蛋白編碼基因88個,rRNA編碼基因8個和tRNA編碼基因30個。在葉綠體基因組中,有48.80%的序列為基因編碼區(qū)。在基因編碼區(qū)序列中,絕大多數(shù)序列為蛋白質(zhì)編碼區(qū),占84.90% (65 799 bp),其次是rRNA (12.13%,9 400 bp) 和tRNA (2.97%,2 302 bp)。非編碼區(qū)占葉綠體總數(shù)的51.20%,大部分為間質(zhì)間隔序列(IGS),其余為內(nèi)含子(12 898 bp,15.86%)。
由表2可知,在鹽膚木cpDNA功能分類過程中發(fā)現(xiàn),絕大多數(shù)基因都與鹽膚木的光合作用(Genes for photosynthesis) 和自我復制(Self replication) 功能有關(guān)。光合作用相關(guān)的基因主要聚集在ATP合酶亞基(Subunits of ATP synthase)、NADH-脫氫酶亞基(Subunits of NADH-dehydrogenase)、細胞色素b/f復合物亞基 (Subunits of cytochrome b/f complex)、光系統(tǒng)Ⅰ亞基(Subunits of photosystemⅠ)、光系統(tǒng)Ⅱ亞基(Subunits of photosystemⅡ) 和二磷酸核酮糖氧合酶/羧化酶亞基(Subunit of rubisco) 這些類別中,其中有15個基因聚集在光系統(tǒng)Ⅱ亞基中,其相關(guān)基因的數(shù)量最多。而與鹽膚木葉綠體自我復制相關(guān)的基因主要聚集在核糖體大亞基(Large subunit of ribosome)、DNA依賴性RNA聚合酶(DNA dependent RNA polymerase)、核糖體小亞基 (Small subunit of ribosome)、rRNA基因(rRNA genes) 和tRNA基因(tRNA genes) 中,其中tRNA基因(tRNA genes) 家族包含的基因最多,有30個基因。
表1 鹽膚木葉綠體基因組基本特性
對鹽膚木葉綠體的蛋白編碼基因進行分析可知,鹽膚木葉綠體白編碼基因絕大多數(shù)基因均不含有內(nèi)含子,這與其他植物類似。鹽膚木葉綠體中總共有8個基因含有內(nèi)含子,除了3基因含有2個內(nèi)含子,其余7個基因(、、、、、1、) 均含有1個內(nèi)含子。不同基因的內(nèi)含子長度差異較大,其長度在539– 2 815 bp范圍內(nèi)變化,基因內(nèi)含子最長,基因內(nèi)含子最短 (圖2)。
表2 鹽膚木葉綠體基因組表達基因
圖2 鹽膚木葉綠體基因組內(nèi)含子基因長度
在鹽膚木葉綠體基因組中,61.97%的序列為基因編碼區(qū),包括88個蛋白質(zhì)編碼基因(表3)。對氨基酸組成進行分析可知,亮氨酸(2345)編碼率最高,半胱氨酸(253)編碼率最低。密碼子的核苷酸具有明顯的選擇性。密碼子第1位、第2位和第3位的A/T含量分別為52.60%、60.54%和69.43%。第3位密碼子具有明顯的偏好,這在其他高等植物的葉綠體基因組中非常常見。這也可能是不同植物保存葉綠體基因組的主要原因。
生物體內(nèi)的氨基酸一般有兩個或兩個以上的密碼子,這些密碼子是同義密碼子,同義密碼子編碼相同的氨基酸,這就是密碼子的簡并性。密碼子的簡并性能有效地降低有害突變對植物的影響,具有重要的生物學意義。在沒有選擇性壓力或突變偏好的情況下,同義密碼子的概率是相同的,每個氨基酸位點的核苷酸突變是隨機的。然而,在實踐中,同義密碼子的使用并不是隨機的,但是同一物種的不同物種或不同基因在編碼氨基酸時往往使用特定的同義密碼子。這種現(xiàn)象被稱為同義密碼子使用偏好。密碼子使用率(RSCU)的相對比較是指特定密碼子的使用頻率與預(yù)期頻率的比值,這是衡量密碼子偏好程度的有效方法。本研究中鹽膚木葉綠體編碼基因共有64個密碼子。除色氨酸和蛋氨酸外,所有氨基酸同義密碼子都是預(yù)先確定的,共有29個密碼子,涉及18個氨基酸和1個終止密碼子(圖3)。高密碼子偏好在高等植物葉綠體基因中很常見,是葉綠體基因相對保守的主要原因。
表3 鹽膚木葉綠體基因密碼子統(tǒng)計表
對鹽膚木葉綠體基因組的SSR位點進行分析可知,其葉綠體的SSR基因位點總共有755個,由49個重復單元組成。不同類型SSR位點的重復單元數(shù)目不同。SSR位點主要由二核苷酸和單核苷酸組成,分別占總數(shù)的60% (453) 和28.74% (217)。SSR序列的長度主要由6 bp到8 bp的短序列組成,占64.50% (487) (圖4)。
圖3 20個氨基酸終止密碼子含量
圖4 SSR位點類型和長度
對所有SSR位點的分析表明,不同類型的SSR重復單元中的SSR重復單元數(shù)目有顯著差異(表4)。單核苷酸重復單位主要由A/T組成,占95.10%。在二核苷酸重復序列中,AT/AT和AG/CT最常見,分別占43.91%和37.28%。然而,三核苷酸、四核苷酸和五核苷酸重復序列的數(shù)量相對較少。
表4 鹽膚木葉綠體基因組SSR位點
為了確定鹽膚木在無患子目植物中的系統(tǒng)發(fā)育位置,我們利用NCBI中發(fā)表的其他10種無患子目植物的66個常見葉綠體蛋白編碼基因進行了系統(tǒng)發(fā)育分析。聚類的支持率較高,大多數(shù)分支節(jié)點的檢驗分值都達到了100%,表明聚類結(jié)果的可靠性很高(圖5)。通過分析,將所有11種植物分為4大類。第一大類由5個槭樹科物種和1個無患科物種,表明槭科和無患子科的親緣關(guān)系密切;第二大類由腰果和鹽膚木組成,說明鹽膚木和腰果的親緣關(guān)系最近;第三大類同樣由兩個物種組成:小葉黃楊和云南黃柏;而大葉黃楊與其他植物相距甚遠,單獨分為一類。聚類分析結(jié)果表明,漆樹科與鹽膚木的親緣關(guān)系最近,其次為槭樹科和無患子科。本研究為鹽膚木的分類提供了分子基礎(chǔ)。
葉綠體是植物細胞內(nèi)半自主的細胞器,在植物細胞光合作用和為植物生長提供營養(yǎng)物質(zhì)等方面發(fā)揮著重要作用[12-13]。因此,通過基因組學等方法,研究鹽膚木的葉綠體基因組的特征及其在鹽膚木系統(tǒng)進化地位,對鹽膚木的系統(tǒng)進化和遺傳多樣性分析等具有重要的理論意義。本研究對鹽膚木葉綠體基因組進行測序,首次完成了高質(zhì)量葉綠體基因組的組裝和注釋并獲得了總長度為159 082 bp鹽膚木葉綠體基因組,其具有典型被子植物葉綠體基因組環(huán)狀四分體結(jié)構(gòu),即包含4個不同的區(qū)域:一對為27 376 bp 的反向重復區(qū)(IR),85 394 bp 的大單拷貝區(qū)(LSC) 和一個小單拷貝區(qū)(SSC) 18 663 bp。具有典型的四部分結(jié)構(gòu),兩個單拷貝區(qū)被一對反向重復(IRs) 分隔。在鹽膚木葉綠體基因組中,只有8個基因含有內(nèi)含子,除基因含有2個內(nèi)含子外,其余均含有1個內(nèi)含子。鹽膚木葉綠體基因組包含755個SSR位點。聚類分析結(jié)果表明,漆樹科與鹽膚木最為接近,其次為槭樹和漆樹科。本研究為鹽膚木的分類提供了分子基礎(chǔ),對了解其光合作用、進化和葉綠體轉(zhuǎn)基因工程具有重要意義。
圖5 基于共有蛋白的鹽膚木ML系統(tǒng)發(fā)育樹
[1] Wu M. Molecular cloning of a phenylalanine ammonia-lyase gene fromand the study on its function and quality[D]. Taiyuan: Shanxi University, 2012 (in Chinese).武敏. 鹽膚木苯丙氨酸解氨酶基因的克隆及其功能性質(zhì)研究[D]. 太原: 山西大學, 2012.
[2] Chen XL. Study on the treatment of proteinuria with.2017, 25(4): 92–93 (in Chinese).陳小蕾. 五倍子治療蛋白尿的研究. 中國民間療法, 2017, 25(4): 92–93.
[3] Liu P, Ren WB, Yang Y, et al. Polymorphism analysis of cytochrome oxidase I (COⅠ) gene in horned gall aphid Schlechtendalia chinensis. Amino Acids Biot Resour, 2018, 40(1): 36–40 (in Chinese).劉平, 任維賓, 楊瑛, 等. 角倍蚜細胞色素氧化酶(COⅠ)基因的多樣性分析. 生物資源, 2018, 40(1): 36–40.
[4] Zhao J, Cui CB, Cai B, et al. Research progress of Rhus plants in China. Pharm J Chin PLA, 2006, 22(1): 48–50 (in Chinese). 趙軍, 崔承彬, 蔡兵, 等. 國產(chǎn)鹽膚木屬植物的研究進展. 解放軍藥學學報, 2006, 22(1): 48–50.
[5] Liu CQ. Basic research and utilization of Rhus chinensis Mill. Forestry of China, 2008, (23): 53 (in Chinese).劉春強. 鹽膚木基礎(chǔ)研究及利用. 中國林業(yè), 2008, (23): 53.
[6] Wang L, Wang N, Li T, et al. Sumac (Mill) biomass refinery engineering. Chin J Biotech, 2014, 30(5): 695–706 (in Chinese).王嵐, 王寧, 李坦, 等. 鹽膚木生物質(zhì)煉制工程. 生物工程學報, 2014, 30(5): 695–706.
[7] Hu FM, Tan XF, Liu HM. Culture and Utilization of Chinese Non-Wood Product Forest Trees. Beijing: China Forestry Publishing House, 2006: 719–723 (in Chinese). 胡芳名, 譚曉鳳, 劉惠民. 中國主要經(jīng)濟樹種栽培與利用. 北京: 中國林業(yè)出版社, 2006: 719–723.
[8] Chumley TW, Palmer JD, Mower JP, et al. The complete chloroplast genome sequence ofx: organization and evolution of the largest and most highly rearranged chloroplast genome of land plants. Mol Biol Evol, 2006, 23(11): 2175–2190.
[9] Zhang YX, Iaffaldano BJ, Zhuang XF, et al. Chloroplast genome resources and molecular markers differentiate rubber dandelion species from weedy relatives. BMC Plant Biol, 2017, 17: 34.
[10] Katayama H, Tachibana M, Iketani H, et al. Phylogenetic utility of structural alterations found in the chloroplast genome of pear: hypervariable regions in a highly conserved genome. Tree Genet Genom, 2012, 8(2): 313–326.
[11] Haberle RC, Fourcade HM, Boore JL, et al. Extensive rearrangements in the chloroplast genome ofare associated with repeats and tRNA genes. J Mol Evol, 2008, 66(4): 350–361.
[12] Cui CJ. Studies on chloroplast genetic engineering and plant organelle genomes evolution[D]. Wuhan: Huazhong University of Science and Technology, 2010 (in Chinese).崔翠菊. 葉綠體基因工程與植物細胞器基因組進化研究[D]. 武漢: 華中科技大學, 2010.
[13] Gao XP. Function analysis of theWXR1, WXR3 proteins during the starch metabolism[D]. Tai’an: Shandong Agricultural University, 2015 (in Chinese).高雪萍. 擬南芥WXR1和WXR3蛋白參與淀粉代謝作用機理的研究[D]. 泰安: 山東農(nóng)業(yè)大學, 2015.
Analysis of the chloroplast genome characteristics ofbysequencing
Ruihua Zuo1,2, Ping Jiang1,2, Chuanbo Sun1,2, Cunwu Chen1,2, and Xinjian Lou1
1 College of Biological and Pharmaceutical Engineering, West Anhui University, Lu’an 237012, Anhui China 2 Anhui Engineering Laboratory for Conservation and Sustainable Utilization of Traditional Chinese Medicine Resources, Lu’an 237012,Anhui China
is an important economic species, which could provide raw materials for pharmaceutical and industrial dyes.is famous for its resistance to drought, cold, and salt. It grows in temperate, warm temperate, and subtropical regions. We report herechloroplast genomes bysequencing. The results show that the length ofwas 159 082 bp, exhibiting a typical four-part structure with two single-copy regions (long single copy [LSC] and short single copy [SSC] sections) separated by a pair of inverted repeats (IRs). The length of LSC and SSC was 85 394 bp and 18 663 bp, respectively. The genomes contained 126 genes, including 88 protein encoding genes, 8 rRNA and 30 tRNA genes. In the chloroplast genome, 61.97% of the sequence were gene coding region. In the sequence of gene encoding region, the vast majority of sequences were protein encoding region, accounting for 86.65%, followed by rRNA (10 620 bp, 10.77%) and tRNA (2 540 bp, 2.58%). Inchloroplast genome, only 8 genes contain introns, all containing 1 intron exceptgene (2 introns). Thechloroplast genome contains 755 SSR locies. SSR mainly consists of dinucleotide and mononucleotide, accounting for 60% (453) and 28.74% (217) respectively. The clustering results show thatwere closest to, followed byand. This study provides a molecular basis for the classification of.
, chloroplast, genetic evolution
August 8, 2019;
February 2, 2020
Supported by: National Technical system of Chinese Medicinal Materials Industry (No. CARS-21), Anhui Provincial Quality of Undergraduate project (Nos. 2016sjjd079, 2018zygc075, 2018jyxm1153, 2018jyxm1155), Key Natural Science Projects of West Anhui University (No. WXZR201932), Teaching and Research Projects of West Anhui University (Nos. wxxy2018026, wxxy2017078), Pilot Project on the Reform of the Training Mode of Innovative Entrepreneurship in West Anhui University (No. wxxy2017116).
Ping Jiang. Tel: +86-564-3305043; E-mail: 837264050@qq.com
國家中藥材產(chǎn)業(yè)技術(shù)體系 (No. CARS-21),安徽省本科質(zhì)量工程項目 (Nos. 2016sjjd079,2018zygc075,2018jyxm1153,2018jyxm1155),皖西學院自然科學重點項目 (No. WXZR201932),皖西學院教學研究項目 (Nos. wxxy2018026,wxxy2017078),皖西學院創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)模式改革試驗區(qū)項目 (No. wxxy2017116) 資助。
2020-01-30
http://kns.cnki.net/kcms/detail/11.1998.Q.20200309.1046.002.html
10.13345/j.cjb.190354
左瑞華, 蔣平, 孫傳伯, 等. 基于全基因組從頭測序技術(shù)鹽膚木葉綠體基因組的測序分析. 生物工程學報, 2020, 36(4): 772–781.
Zuo RH, Jiang P, Sun CB, et al. Analysis of the chloroplast genome characteristics ofbysequencing. Chin J Biotech, 2020, 36(4): 772–781.
(本文責編 郝麗芳)