李丹 陳曉慧 賴鐘雄
摘 ?要??基于全基因組測(cè)序結(jié)果,探討了包括熱帶水果香蕉(Musa spp.)、龍眼(Dimocarpus longan)、番木瓜(Carica papaya)、菠蘿(Ananas comosus)、椰子(Cocos nucifera)、榴蓮(Durio zibethinus),經(jīng)濟(jì)作物橡膠(Hevea brasiliensis)、木薯(Manihot esculenta)、棗椰(Phoenix dactylifera)、可可(Theobroma cacao)、油棕(Elaeis guineensis)、咖啡(Coffea canephora)以及藥用植物鐵皮石斛(Dendrobium officinale)在內(nèi)的13種熱帶植物的全基因組測(cè)序的發(fā)展歷程,并對(duì)熱帶植物基因組研究進(jìn)行了概述。
關(guān)鍵詞 ?熱帶植物;全基因組;第二代測(cè)序;遺傳育種;功能基因中圖分類號(hào)??Q943.2??????文獻(xiàn)標(biāo)識(shí)碼??A
Research Progresses of Tropical Plant Genome
LI Dan, CHEN Xiaohui*, LAI Zhongxiong**
Institute of Horticultural Biotechnology, Fujian Agriculture and Forestry University, Fuzhou,?Fujian 350002,?China
Abstract ?Based on genome-wide sequencing results, the development of genome-wide sequencing of 13?tropical plants including banana (Musaspp.), longan (Dimocarpus longan), papaya (Carica papaya), pineapple (Ananas comosus), coconut (Cocos nucifera), durian (Durio zibethinus), rubber (Hevea brasiliensis),?cassava?(Manihot esculenta), date palm (Phoenix dactylifera), cocoa (Theobroma cacao), oil palm(Elaeis guineensis), coffee (Coffea canephra) Tiepi-shihu (Dendrobium officinale) was discussed, and the tropical plant genome research was summarized.
Keywords ?tropical plants; whole genome; next?generation sequencing; genetic breeding; functional genes
DOI10.3969/j.issn.1000-2561.2019.10.001
20世紀(jì)末,以Sanger技術(shù)為核心的第一代測(cè)序技術(shù)誕生,單鏈DNA噬菌體φX174全基因組序列的測(cè)定標(biāo)志著人類正式步入基因組學(xué)時(shí)代[1]。第一代測(cè)序技術(shù)準(zhǔn)確性高、序列讀長可達(dá)1?kb,但其測(cè)序技術(shù)復(fù)雜、成本高、通量低,無法滿足大規(guī)模應(yīng)用。2000年首個(gè)植物基因圖譜擬南芥基因組通過一代測(cè)序技術(shù)破譯完成,取得了植物科學(xué)研究領(lǐng)域里程碑式突破[2]。2005年之后,測(cè)序技術(shù)發(fā)生革命性進(jìn)步,通過邊合成邊測(cè)序的方法,以Roche 454、Illumina?Solexa/HiSeq和ABI SOLiD技術(shù)為代表的第二代測(cè)序技術(shù)(又稱高通量測(cè)序)興起,雖然第二代測(cè)序的序列存在讀長較短的不足,但也難以掩蓋其與第一代相比的顯著優(yōu)勢(shì),尤以高通量、高速率、低成本的Illumina HiSeq為代表的測(cè)序技術(shù)為代表,極大推動(dòng)了基因組和轉(zhuǎn)錄組測(cè)序的應(yīng)用與發(fā)展,成為大規(guī)模全基因組測(cè)序技術(shù)的主導(dǎo)。與前兩代相比,Helicos Heliscope單分子測(cè)序儀和PacBio SMRT、Oxford Nanopore Technologies的GridION等納米孔單分子第三代測(cè)序技術(shù),超長讀長、測(cè)序速率更高、測(cè)序過程無需進(jìn)行PCR擴(kuò)增,但配套軟件平臺(tái)和技術(shù)算法的商業(yè)化應(yīng)用尚未成熟,測(cè)序錯(cuò)誤率明顯高于第二代。隨著多種測(cè)序技術(shù)的開發(fā)和應(yīng)用,加速并擴(kuò)大了研究人員對(duì)植物演化及性狀的認(rèn)識(shí),大量植物基因組序列被測(cè)定并取得里程碑式的研究成果。
以Sanger測(cè)序技術(shù)組裝的葡萄(Vitis vinifera)基因組測(cè)序工作于2007年完成[3-4],為果樹基因組測(cè)序建立了良好開端,隨后Sanger測(cè)序又運(yùn)用到番木瓜(Carica papaya)基因組測(cè)序中[5],Roche?454結(jié)合Sanger、Illumina測(cè)序技術(shù)代替了單一Sanger組裝完成了可可(Theobroma cacao)[6]、香蕉(Musa acuminata)[7]等復(fù)雜的基因組測(cè)序,之后多種熱帶植物的全基因組測(cè)序工作在測(cè)序技術(shù)大發(fā)展的背景下相繼完成并公布,獲得了高質(zhì)量的全基因組數(shù)據(jù),為熱帶植物分子育種提供了優(yōu)良的數(shù)據(jù)基礎(chǔ)。本文以plaBiPD在線網(wǎng)站(https://www.plabipd.de/index.ep)為查詢數(shù)據(jù)庫,回顧并分析了包括熱帶水果、熱帶經(jīng)濟(jì)作物和藥用植物在內(nèi)的13種具代表性的熱帶植物的全基因組測(cè)序研究結(jié)果,探討了各植物間全基因組測(cè)序歷程和面臨的難題,以及基于基因組關(guān)聯(lián)轉(zhuǎn)錄組學(xué)挖掘的重要研究。
通過比較香蕉(Musa spp.)、龍眼(Dimocarpus longan)、番木瓜(Carica papaya)、菠蘿(Ananas comosus)、椰子(Cocos nucifera)、榴蓮(Durio zibeth inus)、橡膠(Hevea brasiliensis)、木薯(Manihot esculenta)、棗椰(Phoenix dactylifera)、可可(Theobroma cacao)、油棕(Elaeis guine ensis)、咖啡(Coffea canephora)、鐵皮石斛(Dendr obium officinale)等在內(nèi)的13種熱帶植物的基因組信息(表1),發(fā)現(xiàn)最先測(cè)序組裝的番木瓜基因組大小在13種植物中最小,且采用第一代Sanger測(cè)序技術(shù)。香蕉和龍眼基因組大小相當(dāng),多以第二代測(cè)序技術(shù)為主要測(cè)序方式。而較為復(fù)雜的大型喬木椰子、橡膠和菠蘿基因組數(shù)據(jù)較大,均采用了第二代測(cè)序技術(shù)與第三代測(cè)序技術(shù)相結(jié)合的方法。在起步較晚的香蕉B基因組、矮種椰Catigan Green Dwarf以及云南普洱F3代GREEN均啟用了第三代測(cè)序PacBio SMRT或Hi-C技術(shù)。從測(cè)序技術(shù)來看,熱帶植物多采用主流的第二代Illumina Hiseq 2000。從基因數(shù)目來看,番木瓜基因組注釋的數(shù)量最少,咖啡(阿拉比卡)基因組注釋的數(shù)量最多,達(dá)99?829。但是基因最大的椰樹基因組上注釋的基因數(shù)目遠(yuǎn)小于咖啡(阿拉比卡),可見基因組大小和基因數(shù)目之間并沒有直接關(guān)系。
多數(shù)植物基因組由于遠(yuǎn)緣雜交、自交不親和及基因組較大且基因組雜合度、倍性高等原因,導(dǎo)致基因組組裝難度加大。N50指的是將所有組裝的基因組序列從長到短依次排列,從最長的序列開始疊加,當(dāng)疊加總長達(dá)到所有序列總長的50%時(shí),被疊加的那條序列即為N50長度,N50越大代表序列組裝質(zhì)量越好。在具有高度相似序列重復(fù)和高雜合度的植物中,基因組序列分布分散且重復(fù)出現(xiàn)導(dǎo)致Scaffold N50相對(duì)較短,這使得即使對(duì)于長插入片段精準(zhǔn)度下降,因此可能導(dǎo)致Scaffold延伸的破壞,N50指標(biāo)下降。香蕉B基因組PKW、橡膠RRIM?600、木薯KU50、鐵皮石斛云南普洱F3代GREEN和棗椰(Khalas(雌)、Deglet Noor & Medjool)的測(cè)序組裝Scaffold N50和Contig N50指標(biāo)均較低,其主要原因在香蕉PKW基因組上,主要是由于測(cè)序采用基因組讀數(shù)映射導(dǎo)致組裝質(zhì)量欠佳,而在橡膠RRIM 600、木薯KU50和鐵皮石斛云南普洱F3代GREEN則由于基因組測(cè)序覆蓋度較低、測(cè)序材料不理想而致使組裝難度加大??梢?,為確保高質(zhì)量的基因組測(cè)序,應(yīng)特別注意測(cè)序材料的選擇。
1.1熱帶水果
1.1.1 ?香蕉??香蕉是芭蕉科大型單子葉植物,是重要熱帶水果,同時(shí)也是世界第四大糧食作物。香蕉存在4種基因組,A基因組(Musa acuminata)[7]、B基因組(M.balbisiana)[8]、S基因組(M. schizo carpa)[29]和T基因組(Australimusa)。自然演化和種間雜交導(dǎo)致A和B基因組產(chǎn)生多種基因型(二倍體:AA、BB、AB;三倍體:AAA、AAB、ABB;四倍體:AAAB、AABB、ABBB),大多數(shù)可食用栽培品種是三倍體。在人為馴化過程中培育出野生二倍體雜交的三倍體單性結(jié)實(shí)雜種,通過營養(yǎng)繁殖進(jìn)行擴(kuò)繁。雜交基因組含有不確定數(shù)量的A和B基因組等位基因,使香蕉遺傳性狀的研究復(fù)雜化。香蕉在生產(chǎn)過程中面臨的毀滅性威脅是來自于由尖孢鐮刀菌古巴?;停?em>Fusar ium oxys porumf. sp.cubense,Foc)引起的枯萎病,?又稱巴拿馬病,且該病原菌熱帶型4號(hào)小種(TR4)危害最為嚴(yán)重,尚無有效的根治方法。因此,選育抗生物和非生物脅迫的優(yōu)良香蕉品系迫在眉睫,而基因組測(cè)序?yàn)橥诰騼?yōu)良基因信息提供了重要的參考依據(jù)。本文主要介紹了A、B和阿寬蕉基因組。
香蕉全基因組測(cè)序在2012年首次報(bào)道,DHont等[7]利用Roche 454 GSFLX組合Sanger、Illumina GAIIx測(cè)序技術(shù)以20.5倍覆蓋度讀取了二倍體馬來西亞小果野蕉DH-Pahang(AA)基因組序列523?Mb基因組序列草圖,Illumina讀數(shù)50倍覆蓋度進(jìn)行數(shù)據(jù)校正,最終組裝了24?425個(gè)contig和7513個(gè)Scaffold,總長為472.2?Mb,覆蓋90%的全基因組序列和92%的注釋基因,注釋蛋白編碼基因36?542個(gè),非編碼RNA含819個(gè)轉(zhuǎn)運(yùn)RNA(tRNA)、235個(gè)微小RNA(miRNA)?;诒容^基因組和轉(zhuǎn)錄組數(shù)據(jù)解析了芭蕉科的基因組進(jìn)化特征,為后續(xù)香蕉遺傳改良研究奠定了重要基礎(chǔ)。
隨后,香蕉B基因組公布。野生二倍體Pisang Klutuk Wulung(PKW)是B基因組組合三倍體的最早祖先親本,對(duì)香蕉黑條葉斑病具一定抗性。Davey等[8]利用Illumina HiSeq 2000 II對(duì)PKW進(jìn)行測(cè)序,通過將PKW gDNA讀數(shù)映射到A基因組中提取共有序列和De novo組裝分別得出341.4、339.3 Mb的基因組序列,注釋蛋白編碼基因36 638個(gè),獲得的B基因組的序列大小是A基因組的79%,與A基因組存在大量序列差異,每23.1?bp存在1個(gè)純合單核苷酸多態(tài)性(SNP),且每55.9 bp存在1個(gè)雜合SNP,表明香蕉基因組的高度雜合。將香蕉PKW基因組讀數(shù)與已報(bào)道的A基因組進(jìn)行映射比對(duì),共發(fā)現(xiàn)PKW重復(fù)區(qū)域占B基因組的26.85%(108.1 Mb),且A、B基因組中miRNA數(shù)量較接近,B基因組中存在一定數(shù)量的新miRNA。異源多倍體香蕉基因在所有染色體基因分布的差異性,及A和B基因組重復(fù)序列表征在分子遺傳學(xué)研究中具有重要價(jià)值,譜系特異的多樣化機(jī)制和基因組多樣性,為后續(xù)更加深入理解種間或種內(nèi)三倍體香蕉雜種代謝研究提供了寶貴的參考資源,彌補(bǔ)了B基因組研究的空白。但由于從頭組裝和映射讀取使得組裝質(zhì)量和注釋基因文庫有效性較低。
近期,金志強(qiáng)團(tuán)隊(duì)Wang等[9]對(duì)B基因組進(jìn)行了更高質(zhì)量的組裝,利用Illumina HiSeq 2000結(jié)合PacBio SMRT、Illumina NovaSeq 6000、Hi-C獲得492.77?Mb的Scaffold,覆蓋全基因組的95%,最終組裝了430 Mb的全基因組序列。在11條染色體上,注釋蛋白編碼基因35 148個(gè),86%的基因與轉(zhuǎn)錄組數(shù)據(jù)匹配。A、B基因組的基因家族擴(kuò)張和收縮分析顯示,與其他測(cè)序的基因組相比,在A和B基因組中顯著擴(kuò)張的基因家族分別有83和33個(gè),相反,這些擴(kuò)張的家族又在對(duì)立基因組中顯著收縮。為研究多倍體香蕉中亞基因組的進(jìn)化、遺傳多樣性和亞基因組的功能差異,進(jìn)一步比較了A和B基因組,發(fā)現(xiàn)它們的分化發(fā)生在全基因組復(fù)制之后。而多倍體香蕉中亞基因組的功能分化主要是由A和B基因組之間染色體重排和基因缺失的結(jié)構(gòu)變異等造成。三倍體粉蕉(Musa ABB group, cv Pisang Awak)在乙烯生物合成和淀粉代謝通路中的相關(guān)基因家族顯著擴(kuò)張,并且在同源三倍體的B亞基因組中表現(xiàn)出更廣泛的同源基因表達(dá)優(yōu)勢(shì)。B基因組的高質(zhì)量測(cè)序?yàn)锳、B及同源多倍體香蕉的進(jìn)化研究提供了新的見解,同時(shí)解析了B基因組相關(guān)功能基因在香蕉果實(shí)成熟過程的演變與調(diào)節(jié)。
野生近緣種含有栽培種的有益等位基因,是未來香蕉育種的重要基因庫。有研究顯示,中國亞熱帶地區(qū)廣泛分布的香蕉野生近緣種云南香蕉(阿寬蕉)M. itinerans,是芭蕉屬中最具FocTR4抗性和耐寒性的物種之一,這為香蕉育種中的抗病性和抗寒性提供了寶貴的資源[30]。2016年Wu等[10]利用Illumina Hiseq 2000對(duì)阿寬蕉進(jìn)行測(cè)序,從頭組裝獲得462.1 Mb基因組序列,覆蓋75.2%的全基因組(615.2 Mb),預(yù)測(cè)蛋白編碼基因32 456個(gè),雜合率為0.25%,注釋蛋白編碼基因占比86.9%,非編碼RNA中注釋了345個(gè)miRNA、977個(gè)tRNA、278個(gè)核糖體RNA(rRNA)和299個(gè)小核RNA(snRNA)。組裝后質(zhì)量評(píng)估顯示GC含量分布多在38.8%左右,與A基因組分布一致。同時(shí),韋恩聚類分析發(fā)現(xiàn)阿寬蕉與A基因組含共有直系同源基因家族2727個(gè),揭示兩基因組具有更高的相似性。
1.1.2??龍眼??龍眼是無患子科(Sapindaceae)熱帶亞熱帶名貴特產(chǎn)水果,其果實(shí)風(fēng)味獨(dú)特、富含酚類等次生代謝物質(zhì),藥用保健價(jià)值高。由于龍眼的遺傳雜合性較高,常規(guī)育種手段改良其遺傳特性耗時(shí)長、穩(wěn)定性差。賴鐘雄課題組Lin等[11]利用Illumina HiSeq?2000全基因組測(cè)序組裝了“紅核子”龍眼基因組序列445?Mb,雜合度為0.88%;并基于13個(gè)栽培龍眼種質(zhì)登錄的全基因組de novo從頭測(cè)序,組裝全長471.88?Mb的基因組圖譜,覆蓋106.4%的全基因組,配對(duì)末端測(cè)序獲得273.44倍的覆蓋度,注釋蛋白編碼基因310?07個(gè),其中262?61個(gè)基因組成149?61個(gè)基因家族,非蛋白編碼?RNA中共注釋359個(gè)miRNA、212個(gè)rRNA、506個(gè)tRNA和399個(gè)snRNA。Scaffold N50和Contig N50分別為566.62?kb和26.04?kb,表明龍眼基因組組裝質(zhì)量高。SNP和插入缺失位點(diǎn)(InDel)分別為357737與23225。利用比較基因組學(xué)結(jié)合轉(zhuǎn)錄組分析,揭示了龍眼基因組的結(jié)構(gòu)及其進(jìn)化規(guī)律,同時(shí)明確了龍眼富含酚類等次生代謝物質(zhì)及對(duì)植物病原體產(chǎn)生抗性的機(jī)制。
1.1.3??番木瓜??番木瓜是熱帶亞熱帶地區(qū)經(jīng)濟(jì)作物,其富含維生素A和木瓜蛋白酶,營養(yǎng)價(jià)值和藥用價(jià)值較高。番木瓜與擬南芥同屬于十字花目(Brassicales),在被子植物進(jìn)化史上與擬南芥祖先相同[31]。轉(zhuǎn)基因(抗環(huán)斑病毒)栽培種SunUp雌株的全基因組測(cè)序[5]是商業(yè)抗病毒轉(zhuǎn)基因果樹的首次測(cè)序,該基因組測(cè)序大小372?Mb,3倍測(cè)序深度覆蓋75%的全基因組,組裝基因組大小為271?Mb,雜合度為0.06%。注釋基因數(shù)量為24 746個(gè),已知DNA轉(zhuǎn)座子的豐度相對(duì)較低(0.2%),轉(zhuǎn)錄因子家族和超家族數(shù)量為2438個(gè),非蛋白編碼RNA中注釋tRNA和snRNA分別為388和47個(gè),總體數(shù)量及多數(shù)家族數(shù)目均比擬南芥和其他常見熱帶植物少。
通過與現(xiàn)統(tǒng)計(jì)的主要熱帶植物的比較發(fā)現(xiàn)(表1),番木瓜基因組大小及基因數(shù)量最低,功能基因僅包含少量抗病相關(guān)基因,Ming等[5]認(rèn)為是由多代近親人工栽培繁殖導(dǎo)致番木瓜進(jìn)化出特殊防御機(jī)制。進(jìn)化分析結(jié)果顯示,番木瓜與擬南芥在7200萬年前分歧進(jìn)化后,其進(jìn)化分支較保守,基因譜系中基因組復(fù)制事件較少,甚至未發(fā)生。值得注意的是,盡管在大多數(shù)生物合成途徑中基因數(shù)量減少,但番木瓜中預(yù)測(cè)與控制生長和繁殖相關(guān)的MADS-box家族成員的數(shù)量(205個(gè),占基因組數(shù)量的47%)明顯高于其他測(cè)序植物基因組中的水平(橡膠中在基因組僅占比12.5%[17])。番木瓜特異性基因顯著擴(kuò)增,對(duì)有關(guān)番木瓜淀粉積累運(yùn)輸、種子傳播媒介的吸引、長日照適應(yīng)、抗環(huán)斑病毒、纖維素與木質(zhì)素合成、性別決定等基因研究具重要作用。番木瓜作為典型轉(zhuǎn)基因植物,其核基因組中有3個(gè)位置與葉綠體插入、拓?fù)洚悩?gòu)酶I識(shí)別位點(diǎn)密切相關(guān),這對(duì)解析轉(zhuǎn)基因植株中目的基因插入、表達(dá)及功能研究具重要意義。
1.1.4??菠蘿??菠蘿為鳳梨科(Bromeliaceae)喜光植物,是世界第二大熱帶水果,同時(shí)屬于景天酸代謝途徑(CAM)植物。CAM途徑是指生長在熱帶及亞熱帶干旱及半干旱地區(qū)的一些肉質(zhì)植物(最早發(fā)現(xiàn)在景天科植物)所具有的一種光合作用固定二氧化碳的附加途徑,其葉片氣孔白天關(guān)閉,夜間開放。由于菠蘿同高粱以及水稻等禾草植物共有一個(gè)遙遠(yuǎn)的祖先,菠蘿成為禾谷類作物基因組研究的最優(yōu)對(duì)照組。Ming等[5]利用F153品種、MD-2和1個(gè)野生品系雜交并進(jìn)行了測(cè)序,組裝了382?Mb的基因組,占基因組估計(jì)總長526 Mb的72.6%,并構(gòu)建了25條染色體。通過與已測(cè)序的禾本科植物共線性分析發(fā)現(xiàn),菠蘿基因組少了一次古老的全基因組復(fù)制事件(WGD),即菠蘿在歷史上經(jīng)歷了2個(gè)全基因組復(fù)制而禾草植物中存在3次這種復(fù)制。研究人員重建了單子葉植物的7條原始染色體,推測(cè)出了從古到今的核型變化,在菠蘿中第1次WGD使7條原始染色體變成14條,而后其中2條5號(hào)染色體轉(zhuǎn)到了其他染色體上,使得染色體剩下12條。第2次基因組復(fù)制事件使12條染色體再次加倍變成24條,最后經(jīng)歷了一些融合和裂變,成為25條染色體。
另外,Ming等[5]對(duì)其中發(fā)生的景天酸代謝光合作用機(jī)制進(jìn)行了詳細(xì)的分析,首先結(jié)合轉(zhuǎn)錄組數(shù)據(jù)鑒定出了38個(gè)參與景天酸代謝途徑的基因,并觀察CAM相關(guān)的基因在夜間和白天是如何表達(dá)的,最終挖掘到了最重要的CA基因,它在菠蘿里存在3個(gè)拷貝(α、β和γ)。其中βCA基因明顯可以看出晝夜節(jié)律,在夜間和早晨有較高的表達(dá)量,而在下午到晚間表達(dá)量降低。在βCA基因中,找到了1個(gè)CCA1的結(jié)合位點(diǎn),這個(gè)結(jié)合位點(diǎn)可以結(jié)合兩個(gè)晝夜節(jié)律的關(guān)鍵基因CIRCA DIAN CLOCK ASSOCIATED 1(CCA1)和LATE ELONGATEDHYPOCOTYL(LHY)。即通過這個(gè)結(jié)合位點(diǎn),可以控制CA基因的表達(dá)量,從而控制整個(gè)通路,使之與氣孔的開放、閉合同步。除此之外,還有其他的有關(guān)晝夜調(diào)控的順式作用元件都有在光合作用基因的拷貝中發(fā)現(xiàn)富集,說明CAM光合作用受晝夜節(jié)律基因順式作用元件的調(diào)控[5]。這項(xiàng)發(fā)現(xiàn)為C3作物通過基因改造景天酸光合代謝創(chuàng)造新的抗旱節(jié)水作物奠定了基礎(chǔ)。
2016年Redwan等[13]對(duì)重要商業(yè)菠蘿品種MD-2進(jìn)行了基因組測(cè)序,通過使用二代和三代2個(gè)測(cè)序平臺(tái),即PacBio長測(cè)序讀取和Illumina精確短讀取相結(jié)合,獲得了估計(jì)基因組99.6%的覆蓋率,注釋27 017個(gè)蛋白質(zhì)編碼基因,確定了占基因組45.21%的重復(fù)序列。此外,菠蘿果成熟RNASeq文庫的差異表達(dá)揭示了與乙烯合成途徑中相關(guān)的轉(zhuǎn)錄本,發(fā)現(xiàn)它們?cè)趨⑴c調(diào)節(jié)菠蘿非躍變型果實(shí)的成熟過程中發(fā)揮著重要作用。該項(xiàng)研究通過以MD-2菠蘿基因組為例子,通過2種測(cè)序手段對(duì)1個(gè)復(fù)雜的雜合基因組進(jìn)行測(cè)序,證明了混合技術(shù)相結(jié)合既經(jīng)濟(jì)又準(zhǔn)確,為了解植物復(fù)雜生物學(xué)過程提供了更加可行的方法。
1.1.5??椰子??椰子為棕櫚科(Arecaceae)喬木,是重要的熱帶水果及油料作物,在熱帶地區(qū)近百個(gè)國家廣泛種植。椰子繁育周期較長,有高種、矮種和介于兩者間的雜交種椰子3種生態(tài)型。高種椰子高度異交、種植范圍商品性最大;矮種椰子高度自交、營養(yǎng)生長周期較短;中間型的雜種椰子則具有生長周期短的雜種優(yōu)勢(shì)。
中國熱帶農(nóng)業(yè)科學(xué)院牽頭的研究團(tuán)隊(duì)利用Illumina HiSeq 2000測(cè)序技術(shù)完成“海南高”椰子的全基因組測(cè)序工作,最終組裝了2.20?Gb,讀取深度173.32倍,覆蓋90.91%的全基因組和96.78%的基因編碼區(qū),注釋蛋白編碼基因28 039個(gè)?;蚪M注釋結(jié)果顯示,72.75%的椰子基因組由轉(zhuǎn)座因子組成,其中長末端重復(fù)序列(LTRs)反轉(zhuǎn)錄轉(zhuǎn)座子元件占最大比例(92.23%),這一數(shù)量遠(yuǎn)高于之后的矮種椰子[14-15]。K-mer分析顯示椰子是一種低雜合度、高比例重復(fù)序列的二倍體植物。在椰子中共鑒定出119個(gè)反向轉(zhuǎn)運(yùn)蛋白基因和67個(gè)離子通道基因,2個(gè)基因家族均發(fā)生了顯著擴(kuò)張,涉及與椰樹耐鹽脅迫有關(guān)的Na+/H+反向轉(zhuǎn)運(yùn)蛋白、與椰漿中脂肪酸積累相關(guān)的肉毒堿/?;鈮A轉(zhuǎn)位酶、椰汁中鉀離子積累相關(guān)的鉀依賴性鈉-鈣交換蛋白和鉀通道基因。同時(shí)進(jìn)化關(guān)系顯示這2個(gè)基因家族的多數(shù)亞家族的數(shù)目與擬南芥相當(dāng),均能與擬南芥中的功能基因相聚集。
近期,Lantican等[15]利用Illumina Miseq組合PacBio SMRT對(duì)矮椰子品種Catigan Green Dwarf進(jìn)行測(cè)序,測(cè)序深度15倍組裝2.15 Gb基因組,覆蓋97.6%的全基因組。注釋蛋白編碼基因34?985個(gè),注釋基因占總預(yù)測(cè)基因數(shù)量的85.3%,高于“海南高”高種椰(81.2%)。同時(shí)矮種椰子基因組結(jié)構(gòu)高度純合且更簡單,基因組大小遠(yuǎn)低于高種椰。高種椰和矮種椰基因組中均發(fā)現(xiàn)大量與椰樹抗逆性及生物合成相關(guān)的基因擴(kuò)張。Lantican等[15]通過對(duì)棕櫚科椰子、油棕[23]、棗椰[22]之間的基因組變異及共線性分析發(fā)現(xiàn),3種植物的基因組大?。?.15~2.42、0.66~0.67、1.8?Gb)和染色體數(shù)目(32、32、36)差別較大,油棕基因組中與棗椰特有的Scaffolds共線的重復(fù)基因顯示,油棕與棗椰的祖先為多倍體物種,在發(fā)現(xiàn)矮種椰與高種椰的全基因組比對(duì)高度共線的同時(shí),還指出椰子樹起源于一種常見的多倍體祖先的再二倍化。基因組中所存在的海量信息為椰子功能基因組的挖掘、農(nóng)藝性狀的解析及全基因組關(guān)聯(lián)分析提供了參考體系。
1.1.6??榴蓮??榴蓮為錦葵目錦葵亞科巨型熱帶常綠喬木,其果實(shí)極具經(jīng)濟(jì)價(jià)值,是東南亞特有的熱帶著名水果之一,素有“水果之王”之稱,因具特殊濃郁氣味而聞名。新加坡研究團(tuán)隊(duì)Teh等[16]利用PacBio首次對(duì)Musang King榴蓮基因組進(jìn)行de novo組裝,153倍測(cè)序深度得到183 Gb的數(shù)據(jù)量,最終組裝獲得榴蓮基因組大小為715?Mb,K-mer分析和流式細(xì)胞儀預(yù)估基因組大小分別為738和800 Mb,雜合度為1.14%。利用CHiCAGO技術(shù)將組裝成的contig連接成Scaffold,Scaffold N50為22.7 Mb,利用Hi-C技術(shù)將Scaffold掛載到染色體水平,最終將榴蓮基因組組裝成30條染色體,掛載率為95%。通過聯(lián)合從頭注釋和轉(zhuǎn)錄組共發(fā)現(xiàn)榴蓮含有注釋基因45?335個(gè),其中42?747個(gè)基因可以被同源或已知蛋白數(shù)據(jù)支持。GO注釋到35?975個(gè)基因,多數(shù)基因富集到防御反應(yīng)、果實(shí)發(fā)育、碳水化合物和脂質(zhì)代謝通路中。榴蓮中包含了90.3%的高保守核心蛋白,其中68.1%為單拷貝,22.2%為重復(fù)基因。獨(dú)立重復(fù)基因的保守基因暗示榴蓮在進(jìn)化過程中經(jīng)歷了1次WGD。且在進(jìn)化關(guān)系上,再一次證實(shí)了榴蓮與棉花間的進(jìn)化分歧遠(yuǎn)晚于可可的錦葵亞科進(jìn)化順序[32]。榴蓮譜系中的WGD導(dǎo)致與榴蓮揮發(fā)物相關(guān)途徑的擴(kuò)展和多樣化,例如涉及硫處理(包括MGL)、脂質(zhì)揮發(fā)物和乙烯的途徑。榴蓮中這些基因的上調(diào)可能與榴蓮氣味中的重要成分VSC的產(chǎn)生增加有關(guān),從而導(dǎo)致榴蓮氣味,榴蓮的復(fù)雜香氣可能與榴蓮果實(shí)成熟有關(guān)。該研究將基因組、轉(zhuǎn)錄組和代謝組相結(jié)合,揭示了榴蓮特殊香氣的可能分子機(jī)制,打通了結(jié)構(gòu)基因組、比較基因組、功能基因組研究的鏈條,對(duì)后續(xù)的基因組研究,尤其是涉及物種特異的次級(jí)代謝產(chǎn)物功能分析具有指導(dǎo)意義。
1.2熱帶經(jīng)濟(jì)作物
1.2.1 ?橡膠??橡膠樹是天然橡膠生產(chǎn)的主要來源,作為熱帶地區(qū)重要的經(jīng)濟(jì)作物,其產(chǎn)生的膠乳和橡膠木材均具有重要商業(yè)價(jià)值,在東南亞出口貿(mào)易市場(chǎng)占主要份額[33]。橡膠樹的基因組研究起步較晚,落后于大戟科的其他物種。高通量測(cè)序結(jié)果加深了對(duì)橡膠樹遺傳資源的理解,而全基因組測(cè)序則彌補(bǔ)了在基因組非編碼區(qū)信息的空白[17]。
馬來西亞研究團(tuán)隊(duì)Rahman等[17]利用Roche?454、Illumina和SOLiD技術(shù)首次對(duì)橡膠樹進(jìn)行全基因組測(cè)序,13倍覆蓋度最終組裝了橡膠樹RRIM 600的1.1 Gb基因組序列,Scaffold N50大小為2972?bp。橡膠樹基因組DNA高度重復(fù)(約78%),多為長末端重復(fù)反轉(zhuǎn)錄轉(zhuǎn)座子,這也為橡膠基因組的組裝增加了難度。預(yù)測(cè)基因68 955個(gè),KEGG注釋蛋白編碼基因52?825個(gè),非編碼RNA中含729個(gè)tRNA。系統(tǒng)發(fā)育分析表明橡膠樹與木薯在進(jìn)化上關(guān)系密切,二者具有相同祖先,這與橡膠樹葉綠體基因組揭示的結(jié)果一致[34]。但其測(cè)序研究中序列覆蓋度低,且缺乏基于fosmid或BAC等較大的插入文庫,導(dǎo)致基因組組裝欠佳。
2016年,Tang等[18]基于RRIM 600的測(cè)序,采用Illumina GA2和Hiseq 2000對(duì)中國廣泛種植的橡膠栽培種Reyan7-33-97進(jìn)行全基因組測(cè)序,測(cè)序深度94倍覆蓋93.8%全基因組(1.46?Gb),最終組裝了1.37?Gb的高質(zhì)量基因組序列,Scaffold N50為1.28?Mb,注釋蛋白編碼基因43?792個(gè),非編碼RNA中注釋了167個(gè)rRNA、591個(gè)miRNA、697個(gè)tRNA和219個(gè)snRNA。組裝比對(duì)顯示由于品種間的差異導(dǎo)致馬來西亞RRIM 600與Reyan7-33-97基因組差異較大,存在25.2?Mb的未匹配序列。對(duì)另外5個(gè)品種(PR107、Reyan8-79、RRIM600、Wenchang11和Yunyan77-4)的重測(cè)序獲得1.41~1.55?Gb全基因組序列,組裝的84 241個(gè)轉(zhuǎn)錄本與基因組高度匹配,說明基因組組裝質(zhì)量較好;另一方面,基于SNP的系統(tǒng)發(fā)育顯示品種之間的遺傳關(guān)系與其育種歷史關(guān)系密切。通過高質(zhì)量基因組裝配聯(lián)合轉(zhuǎn)錄組學(xué)數(shù)據(jù)進(jìn)行分析,構(gòu)建了多個(gè)與膠乳生物合成相關(guān)的基因家族,尤其發(fā)現(xiàn)了REF/SRPP家族顯著擴(kuò)張,豐富了膠乳生長發(fā)育生理學(xué)及乙烯刺激膠乳生物合產(chǎn)機(jī)制的認(rèn)識(shí)。同樣,在馬來西亞橡膠樹基因組中,生長素基因家族成員數(shù)量較少,乙烯響應(yīng)元件結(jié)合因子(ERF)相關(guān)基因數(shù)量占較大比例,這與RRIM 600中發(fā)現(xiàn)的乙烯促進(jìn)膠乳生物合成的結(jié)果相吻合。橡膠基因組信息的揭示為改善橡膠樹乳膠的高生產(chǎn)能力和品種遺傳選育提供了良好的基礎(chǔ)。
1.2.2??木薯??木薯為大戟科多年生灌木,是生長在非洲、美洲、亞洲熱帶地區(qū)的高淀粉類塊根經(jīng)濟(jì)作物和生物能源[19]。其抗干旱、耐貧瘠、低投入、高產(chǎn)出的特性,使之成為三大洲超7億人的碳水化合物主要攝入來源[20]。常規(guī)育種手段無法突破由木薯異交及廣泛的熱帶地理分布而導(dǎo)致的基因組高度雜合的障礙[35]。塊根含氰酸毒素而需長時(shí)間浸泡漂洗才可食用、易受細(xì)菌性和病毒性病害,以及收獲后易變質(zhì)等缺點(diǎn)制約著其種植農(nóng)業(yè)的經(jīng)濟(jì)發(fā)展[36-38]。木薯基因組測(cè)序工作始于2003年,僅取得約700?bp的序列。與轉(zhuǎn)座子相關(guān)的重復(fù)序列在木薯臨近基因間散布,以及作為遠(yuǎn)緣雜交種的木薯由于具有等位基因變異、SNP和結(jié)構(gòu)多態(tài)性而令每個(gè)位點(diǎn)的單一參考序列推導(dǎo)復(fù)雜化,成為木薯基因組組裝中的難題。
2009年11月,由Roche 454 FLX與FLX+超長讀取技術(shù)完成了近交木薯品系A(chǔ)M560-2的基因組測(cè)序(http://www.phytozome.net/cassava.?php/),預(yù)測(cè)基因組大小為770?Mb,組裝532.5?Mb的Scaffolds,覆蓋70%的木薯基因組和96%的蛋白編碼基因,注釋蛋白編碼基因30?666個(gè),可變剪接3485個(gè)[19]。
隨后在2014年,由中國熱帶農(nóng)業(yè)科學(xué)院熱帶生物技術(shù)研究所的研究團(tuán)隊(duì)利用Illumina HiSeq 2000和Roche 454 GSFLX對(duì)野生祖先種W14和栽培種KU50的基因組序列及之前報(bào)道的AM560基因組序列進(jìn)行了比較分析,W14和KU50基因組大小和測(cè)序覆蓋度分別為742?Mb/58.2%、495?Mb/66.7%,組裝注釋蛋白編碼基因數(shù)量分別為34?483和38?845[20]。基于非編碼RNA在木薯野生亞種和栽培種中的分布情況,發(fā)現(xiàn)W14和KU50非蛋白編碼RNA中較大比例為長鏈非編碼RNA(lncRNA),分別占基因組大小的12.6%和30.1%。W14、KU50與AM560基因組非蛋白編碼基因分別共注釋143/126/146個(gè)miRNA、861/707/743個(gè)tRNA、337/192/237個(gè)rRNA、139/106/89個(gè)snRNA,可看出野生亞種W14基因組中注釋的非編碼RNA均低于栽培種。這3個(gè)基因組序列和注釋的轉(zhuǎn)錄組的比較分析,揭示了野生和栽培木薯在自然選擇過程中,基因組中與脅迫相關(guān)、光合產(chǎn)物運(yùn)輸、淀粉高效積累及氰基化合物生物合成途徑基因的進(jìn)化特征,闡明了木薯進(jìn)化馴化及基因組功能,為后續(xù)木薯基礎(chǔ)生物學(xué)研究及遺傳育種改良提供了重要理論基礎(chǔ)。
1.2.3??棗椰??棗椰是棕櫚科(Arecaceae)的第一個(gè)被公布基因組的物種,是中東和北非地區(qū)廣泛種植的木本抗旱經(jīng)濟(jì)作物之一,其樹齡可達(dá)百年,無性繁殖,多為雌雄異株,具有重要的經(jīng)濟(jì)價(jià)值和歷史文化意義。但由于棗椰生長周期長,且在棗椰生長早期階段難以區(qū)分雌株和雄株而限制了棗椰育種的發(fā)展。Al-Dous等[21]利用Illumina GAIIx對(duì)Khalas雌株進(jìn)行平行測(cè)序,SOAPde novo組裝獲得381?Mb的基因組序列,覆蓋預(yù)估棗椰基因組大小(658 Mb)的60%和90%的基因,預(yù)測(cè)蛋白編碼基因28?890個(gè),雜合率為0.7%。同時(shí)對(duì)另外8個(gè)品種進(jìn)行測(cè)序,利用比較基因組學(xué)分析并揭示了350萬個(gè)SNP,其中有37個(gè)SNP能夠用于棗椰品種區(qū)分,除此之外還確定了與棗椰性別相關(guān)的基因組區(qū)域,為棗椰性別鑒定及遺傳多樣性研究提供了重要的數(shù)據(jù)支撐。
此后,Bourgis等[39]利用Roche 454 (GS FLX Titanium System) 的焦磷酸測(cè)序數(shù)據(jù)對(duì)油棕和椰棗果皮進(jìn)行了比較轉(zhuǎn)錄組學(xué)和代謝組學(xué)研究。緊接著Al-Mssallem等[22]利用Roche 454、GSFLX和SOLiD對(duì)Khalas棗椰進(jìn)行了測(cè)序,獲得的高通量讀數(shù)覆蓋棗椰預(yù)估基因組(671.2?Mb)的90.2%,最終組裝獲得558.02?Mb基因組序列,注釋蛋白編碼基因41?660個(gè),非編碼RNA中注釋了414個(gè)tRNA、677個(gè)rRNA、62個(gè)snRNA。遺傳多樣性分析表明,棗椰抗逆性和糖代謝相關(guān)基因在SNP密度相對(duì)較低的染色體區(qū)域富集。研究揭示了棗椰基因組的倍增與進(jìn)化,以及棗椰果實(shí)糖類代謝和累積的過程和機(jī)制,聯(lián)合基因組和轉(zhuǎn)錄組數(shù)據(jù)為棗椰及棕櫚科植物基因組的進(jìn)一步研究奠定了重要基礎(chǔ)。此外,該研究團(tuán)隊(duì)還對(duì)棗椰的產(chǎn)能和光合作用的細(xì)胞器(線粒體與葉綠體)基因組,以及棗椰基因模型和棗椰果實(shí)發(fā)育分析進(jìn)行了重要研究。
Hazzouri等[40]以Al-Mssallem等[22]組裝的Khalas基因組為參考基因組,利用Illumina HiSeq 2500對(duì)來自12個(gè)國家的62種棗椰樹的基因組進(jìn)行了全基因組重測(cè)序,平均測(cè)序深度為20.8倍,得出栽培棗椰中第一個(gè)完整的超過717萬個(gè)高質(zhì)量的SNP綜合目錄。利用全基因組SNP及比較基因組揭示了物種遺傳和表型多樣性可能機(jī)制,有望應(yīng)用于棗椰重要農(nóng)藝性狀改良。另外確定了棗椰果實(shí)顏色多態(tài)性的等位基因,發(fā)現(xiàn)棗椰和油棕進(jìn)化上雖有差異,但存在遺傳平行性,可共享遺傳信息促進(jìn)二者的育種改良。
1.2.4??可可??可可是重要的熱帶經(jīng)濟(jì)作物,是巧克力的原材料,同時(shí)也是錦葵科(Malvaceae)最早完成基因組測(cè)序的物種。高品質(zhì)可可市場(chǎng)需求高,但傳統(tǒng)風(fēng)味可可品種產(chǎn)量低抗病性差,改良育種成為必然需要。Argout等[6]利用Roche 454 GS FLX、Illumina GAIIx和Sanger測(cè)序技術(shù)對(duì)多代自體受精而高度純合的Belizean Criollo基因型B97-61/B2的基因組進(jìn)行了測(cè)序,產(chǎn)生了26 Gb原始數(shù)據(jù),組裝出25 912個(gè)Contig和4792個(gè)Scaffold,總長326.9 Mb,占可可基因組預(yù)估大?。?30 Mb)的76%。注釋蛋白編碼基因28 798個(gè),其中23 529個(gè)(82%)錨定在10條染色體上,非編碼RNA中含83個(gè)miRNA。可可在進(jìn)化過程中經(jīng)歷從古六倍體祖先的21條染色體進(jìn)化到實(shí)際數(shù)量上的10條染色體的重組。同時(shí)發(fā)現(xiàn)黃酮類和萜類化合物等相關(guān)基因家族在進(jìn)化過程中發(fā)生擴(kuò)張,與可可風(fēng)味品質(zhì)及抗性關(guān)系密切,為可可改良育種提供了優(yōu)良的候選基因。
1.2.5??油棕??油棕是產(chǎn)量最高的油料作物,被譽(yù)為“世界油王”。2016年公布的油棕基因組數(shù)據(jù)中,研究者采用了Illumina HiSeq?2500和Miseq,Roche 454等二代高通量測(cè)序技術(shù),對(duì)東南亞重要的高產(chǎn)母本厚殼Dura材料進(jìn)行了全基因組測(cè)序,組裝出了10?971個(gè)Scaffold,長度為1.701?Gb的基因組,覆蓋了94.49%的高質(zhì)量油棕基因組序列草圖[24]。并且對(duì)17種油棕主要組織器官進(jìn)行深度轉(zhuǎn)錄組測(cè)序,預(yù)測(cè)了近36?105個(gè)高度可靠的油棕基因,并獲得了1800萬個(gè)SNP,在不同地理區(qū)域的油棕中,研究者發(fā)現(xiàn)它們之間存在較高的基因變異,而在東南亞的Dura和Pisifera油棕樹中則存在較低的變異。并在油棕的基因組中連鎖圖上繪制了10 000個(gè)SNP分子標(biāo)記。此外,在東南亞油棕育種群體中發(fā)現(xiàn)了高連鎖不平衡(LD),這表明LD作圖在這一重要油料作物中可能是可行的。
從Dura基因組中共鑒定出566個(gè)R基因,遠(yuǎn)遠(yuǎn)少于水稻基因組中1085個(gè)R基因數(shù)量。雖然水稻基因組的大小僅為油棕的25%,但R基因的平均Ka/Ks(1.7)遠(yuǎn)高于油棕基因組中所有基因的平均Ka/Ks(1.4),表明油棕中R基因具有很強(qiáng)的正向選擇[24]。這些研究結(jié)果為加速遺傳改良和研究重要油棕性狀表型變異的機(jī)制提供了寶貴的資源。
1.2.6??咖啡??咖啡是世界上消費(fèi)人群最大的飲料之一,種植面積超過1100萬hm2,世界商業(yè)咖啡生產(chǎn)樹種主要為2種,分別為異交高度雜合的二倍體羅布斯塔種(Coffea canephora)和優(yōu)勢(shì)種異源四倍體阿拉比卡(C. arabica)。由法國研究團(tuán)隊(duì)Denoeud等[25]利用Roche 454 GS FLX和Sanger以30倍覆蓋度產(chǎn)生了710?Mb基因組序列,以Illumina GAIIx測(cè)序數(shù)據(jù)60倍覆蓋度改進(jìn)組裝得到25 216個(gè)Contig和13 345個(gè)Scaffold,總長度為568.6 Mb,占全長(710 Mb)的80%,注釋蛋白編碼基因25 574個(gè)。幾種特異性基因家族,如參與咖啡因生成的N-甲基轉(zhuǎn)移酶(NMTs)、防御相關(guān)基因以及參與次級(jí)代謝物生物合成的生物堿和黃酮類相關(guān)基因在羅布斯塔咖啡中顯著擴(kuò)張。同時(shí),咖啡中編碼NMT合成咖啡因的途徑與可可、茶存在差別,這些基因通過連續(xù)串聯(lián)重復(fù)擴(kuò)張,使得咖啡中咖啡因含量高居多種植物之首。該研究通過對(duì)羅布斯塔咖啡的基因組結(jié)構(gòu)分析,確定了植物譜系中咖啡因生物合成的趨同進(jìn)化,并將咖啡作為菊亞綱被子植物中基因組結(jié)構(gòu)演變的參考物種,也能夠幫助咖啡適應(yīng)氣候變化。
由于阿拉比卡咖啡基因庫較小,其遺傳改良進(jìn)程因此而受限。鑒定能夠控制咖啡因含量的相關(guān)基因,將有助于育種過程中使用分子標(biāo)記有選擇地進(jìn)行性狀基因遺傳改良。為獲取咖啡因含量相關(guān)的SNP,Tran等[26]從232個(gè)基因型群體中選擇了具極端表型的18個(gè)基因型(咖啡因含量極高或極低)進(jìn)行DNA群體測(cè)序。同時(shí),結(jié)合137倍Illumina HiSeq 2000和6倍PacBio測(cè)序深度對(duì)阿拉比卡咖啡K7品種進(jìn)行基因組測(cè)序,通過SOAPde novo組裝獲得76?409個(gè)Scaffold,總長度為1448 Mb,高于預(yù)估的1300?Mb。此外,超過99%的轉(zhuǎn)錄組序列能比對(duì)到基因組上,確定了超過89%的完整BUSCO,表明高倍性雜合的阿拉比卡咖啡基因組質(zhì)量較好。以咖啡相近物種番茄基因組數(shù)據(jù)作為參考,預(yù)測(cè)注釋基因99 829個(gè)(數(shù)量是二倍體羅布斯塔咖啡的4倍)。鑒定了1444個(gè)與咖啡因含量相關(guān)聯(lián)的非同義SNP,進(jìn)一步基于KEGG代謝通路分析,發(fā)現(xiàn)嘌呤代謝為最常見途徑,同時(shí)發(fā)現(xiàn)66個(gè)與咖啡因含量相關(guān)的SNP,其中10個(gè)與參與咖啡因生物合成通路上底物轉(zhuǎn)化酶相關(guān)。該研究揭示了咖啡中關(guān)于咖啡因含量性狀復(fù)雜的遺傳背景,為阿拉比卡咖啡遺傳改良提供了優(yōu)良的數(shù)據(jù)基礎(chǔ)。
1.2.7 ?香莢蘭??香莢蘭[Vanilla fragrans(Salisb.) Ames]是一種名貴的食用香料,被譽(yù)為“香料皇后”。據(jù)2015年2月8日《光明日?qǐng)?bào)》報(bào)道,福建農(nóng)林大學(xué)聯(lián)合國家蘭科植物種質(zhì)資源保護(hù)中心(深圳)宣布完成了深圳香莢蘭基因組的測(cè)序。這意味著香莢蘭成為第一個(gè)完成測(cè)序的蘭科藤本植物,同時(shí)為揭示蘭科植物起源和研究其系統(tǒng)演化過程及提高香莢蘭的產(chǎn)量和品質(zhì)奠定了重要基礎(chǔ)。
1.2.8 ?瑪卡??瑪卡(Lepidium meyeniiWalp, 2n=8x=64)是十字花科草本植物,生長在秘魯中部海拔4000~4500米的山區(qū),被譽(yù)為“南美人參”、“秘魯人參”,具有很好的藥用和經(jīng)濟(jì)價(jià)值,目前在我國云南和四川也廣泛種植。2016年瑪卡的高質(zhì)量基因組組裝結(jié)果公布[41]:研究者組裝了743?Mb的基因組,覆蓋了估計(jì)基因組的98.93%,Contig和Scaffold?N50序列的分別為81?Kb和2.4?Mb。注釋了96?417個(gè)編碼蛋白基因,轉(zhuǎn)座元素占比47.65%。通過對(duì)瑪咖與親緣關(guān)系較近的十字花科植物的比較基因組學(xué)研究表明,瑪卡基因組發(fā)生了2次WGD。瑪咖基因及其家族通過WGD參與非生物脅迫反應(yīng)、激素信號(hào)通路和次生代謝物生物合成。WGD導(dǎo)致許多重復(fù)基因被保留并且隨后發(fā)生了進(jìn)化,這解釋了瑪咖在高海拔環(huán)境下的形態(tài)和生理變化(即葉片形狀變小和春化喪失)。此外,還鑒定了一些陽性選擇下的重復(fù)瑪卡基因具有形態(tài)適應(yīng)(MYB59)和發(fā)育(GDPD5和HDA9)功能。總的來說,八倍體瑪卡基因組揭示了WGD在安第斯山脈植物高海拔適應(yīng)性中的重要作用[41]。
1.3藥用植物
1.3.1 ?鐵皮石斛 ?鐵皮石斛是蘭科(Orchidaceae)石斛屬名貴珍稀瀕危藥材,極具觀賞和藥用價(jià)值,其富含多糖、生物堿和氨基酸等化學(xué)成分,具有降血糖、抗氧化和抗腫瘤等藥理作用[42]。近年來,有關(guān)石斛屬藥理成分提取工藝改進(jìn)和功能基因挖掘鑒定的研究日益豐富[43-46]?;蚪M測(cè)序工作對(duì)深層次分析鐵皮石斛性狀及分子育種尤為重要。
Yan等[27]結(jié)合第二代Illumina Hiseq 2000和第三代PacBio SMRT測(cè)序技術(shù)首次組裝了云南普洱人工自交的GREEN F3代鐵皮石斛1.35?Gb的基因組序列,覆蓋94%的全基因組和91.5%的基因編碼區(qū),Scaffold?N50和Contig N50大小分別為25.1?kb和76.5?bp,注釋蛋白編碼基因34?699個(gè),非蛋白編碼RNA中共注釋396個(gè)rRNA、545個(gè)tRNA、16個(gè)sRNA、89個(gè)snRNA和1005個(gè)miRNA。鑒定了鐵皮石斛基因組中一些重要生物學(xué)特征,如多個(gè)與抗旱性及真菌共生相關(guān)基因家族的擴(kuò)張、與轉(zhuǎn)運(yùn)相關(guān)基因(蛋白質(zhì)轉(zhuǎn)運(yùn)、有機(jī)物質(zhì)轉(zhuǎn)運(yùn)和細(xì)胞內(nèi)蛋白質(zhì)轉(zhuǎn)運(yùn))進(jìn)化速率加快、藥用成分生物合成途徑相關(guān)基因,并確定了蘭花完整的花序基因集。但由于測(cè)序選材為人工自交品系,使得基因組組裝復(fù)雜化。
之后,Zhang等[28]利用第二代Illumina HiSeq 2000技術(shù)對(duì)采自云南廣南縣同物異名的野生鐵皮石斛(Dendrobium catenatum)進(jìn)行全基因組測(cè)序,繪制出高質(zhì)量的鐵皮石斛基因圖譜,最終組裝1.01 Gb的基因組,覆蓋93%的全基因組和97%的基因編碼區(qū),Scaffold N50和Contig N50大小分別為391 kb和33.1 kb,最終注釋蛋白編碼基因?yàn)?8 910個(gè),有74.9%的基因與轉(zhuǎn)錄組數(shù)據(jù)的匹配,非編碼RNA中注釋了248個(gè)rRNA、310個(gè)tRNA、144個(gè)snRNA和49個(gè)miRNA?;蚪M大小及基因數(shù)量均低于GREEN F3代鐵皮石斛。Yan等[27]和Zhang等[28]的測(cè)序結(jié)果均顯示出石斛屬基因組高度雜合,兩者SNP分別為5?432?657與5?758?781,雜合率分別為0.48%和0.63%。且2個(gè)基因組的測(cè)序組裝結(jié)果表明石斛基因組中與抗性、多糖生物合成相關(guān)基因存在大量串聯(lián)重復(fù)而顯著擴(kuò)張。更重要的是,鐵皮石斛的測(cè)序工作能為大型復(fù)雜基因組的從頭測(cè)序和組裝提供具成本效益的參考。
1.3.2 ?辣木、丹參和三七??近幾年來,云南農(nóng)業(yè)大學(xué)建立的云南省生物大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,以現(xiàn)代分子生物學(xué)技術(shù)為研究手段,選取云南特色生物資源為研究對(duì)象,進(jìn)行全基因組測(cè)序,完成了辣木(Moringa oleiferaLam.)[47-48]、丹參(Salvia miltiorrhiza Bge.)[49]和三七[Panax notoginseng(Burk.)?F.?H.?Chen][50]基因組相關(guān)分析,為藥材的育種、藥理研究、病蟲害防治等提供了重要的分子生物學(xué)依據(jù)。
2.1抗性(R)基因
抗性(R)基因能夠幫助植物產(chǎn)生對(duì)多種病原體和害蟲的抗性,在植物病原體感知、宿主防御和細(xì)胞周期進(jìn)展中起關(guān)鍵作用[51]。多為編碼具有細(xì)胞質(zhì)核苷酸結(jié)合位點(diǎn)-羧基末端富含亮氨酸重復(fù)序列(NBS-LRR)結(jié)構(gòu)域的特定蛋白質(zhì)組,NBS-LRR基因家族在植物基因組中相當(dāng)豐富,約占總基因組的0.6%至約2%[51-52]?;贜-末端和C-末端結(jié)構(gòu)域的結(jié)構(gòu),進(jìn)一步劃分為N-末端結(jié)構(gòu)域或不具有CC(卷曲螺旋)/TIR(Toll-白細(xì)胞介素受體)基序、C末端結(jié)構(gòu)域含或不含有LRR(富含亮氨酸的重復(fù))基序等[53]。
基于轉(zhuǎn)錄組分析(表2),龍眼基因組中含有大量差異表達(dá)的植物病原體抗性基因,包括編碼NBS和NBS-LRR蛋白的基因,其數(shù)量分別為122和258個(gè),數(shù)量高于番木瓜(26/20)、鐵皮石斛(83/47)、香蕉(117/89)。番木瓜中NBS型R基因數(shù)量最少[5]。香蕉基因組序列中,防御相關(guān)基因NBS基因含有117個(gè),NBS-LRR為89個(gè),CC-NBS-LRR為27個(gè)。對(duì)香蕉的比較基因組研究中[10],在A、B、阿寬蕉基因組中分別鑒定出117、93、62個(gè)編碼NBS-基因,研究結(jié)果顯示編碼NBS基因數(shù)量隨著各種質(zhì)棲息地從潮濕熱帶到?jīng)鏊瑏啛釒У倪^渡而減少,即與緯度上升密切相關(guān)。另一方面,單子葉植物中多不含有TIR-NBS-LRR型R基因,研究比較發(fā)現(xiàn)這種現(xiàn)象在香蕉基因組中同樣存在。羅布斯塔咖啡中NBS基因存在大量基因復(fù)制,該基因家族中,42個(gè)NBS基因分布于8號(hào)染色體上,且36個(gè)NBS基因存在于基因簇中,研究推測(cè)可能是由于連鎖基因家族的重復(fù)和分化進(jìn)化而來[25]。
2.2次生代謝產(chǎn)物及活性成分相關(guān)基因
龍眼基因組中富含酚類化合物,酚類化合物主要通過莽草酸、苯丙烷類和類黃酮合成途徑衍生。Lin等[11]通過比較轉(zhuǎn)錄組學(xué)和全基因組分析顯示,龍眼基因組中3大途徑結(jié)構(gòu)基因顯著擴(kuò)張的是DHS、SDH、F3'H、ANR和UFGT等基因家族,顯著較少的結(jié)構(gòu)基因?yàn)?em>PAL、CHS和F3'5'H等基因家族,這些結(jié)構(gòu)基因家族均具組織特異性。其中,PAL參與木質(zhì)素合成,在龍眼細(xì)胞壁中扮演重要角色,CHS參與花芽和種子中黃酮類色素合成,F3'H和F3'5'H在龍眼花色形成中起主要作用,ANR和LAR在果皮和種子中高表達(dá)、果肉中低表達(dá)表明龍眼果實(shí)的單寧組分較高。此外龍眼R2R3-MYB基因數(shù)量達(dá)94個(gè),與擬南芥已知參與類黃酮合成的R2R3-MYB基因同源的有4個(gè)。這都為后續(xù)深入開展龍眼中次生代謝物質(zhì)的研究提供了平臺(tái)和機(jī)遇。黃酮類化合物參與植物多種生長發(fā)育過程,原花青素是在可可種子中大量存在的類黃酮聚合物,可可基因組中編碼二氫黃酮醇-4-還原酶(DFR)及參與類黃酮生物合成途徑的直系同源基因大量擴(kuò)增,是可可種子中富含原花青素的重要原因[6]。
萜類化合物作為初生和次生代謝產(chǎn)物在植物中功能眾多,除維持植物生長發(fā)育外,作為次生代謝產(chǎn)物在植物防御反應(yīng)和信號(hào)傳遞過程中起重要作用[54]。鐵皮石斛基因組中含有植物萜烯合成酶基因(TPS)39個(gè),可分為7個(gè)亞家族,其中被子植物特異分支TPS-a亞家族在進(jìn)化過程中經(jīng)歷大量串聯(lián)復(fù)制而快速擴(kuò)增[28]。菠蘿基因組中共鑒定出5個(gè)亞家族的21個(gè)TPS成員,串聯(lián)重復(fù)同樣是菠蘿TPS 基因重復(fù)的主要原因[55]。研究表明TPS-a亞家族成員多表達(dá)為倍半萜合成酶,在棉屬植物中同樣在祖先基因發(fā)生串聯(lián)復(fù)制后而顯著擴(kuò)增[54]。而可可基因組中TPS含57個(gè),其亞類中單萜和倍半萜數(shù)量較大,其中芳樟醇合成酶(單萜)和杜松烯合成酶(倍半萜烯)家族顯著擴(kuò)增,成為優(yōu)良的可可昆蟲抗性反應(yīng)候選基因[6]。
多糖具抗氧化、增強(qiáng)免疫性等多種功能,其生物合成機(jī)理復(fù)雜,植物體內(nèi)多糖合成與積累相關(guān)基因及其分子機(jī)制可利用基因組注釋信息結(jié)合轉(zhuǎn)錄組學(xué)挖掘解析。鐵皮石斛中存在2種主要的藥用多糖,葡甘露聚糖(GM)和半乳葡甘露聚糖(GGM)。Zhang等[28]從鐵皮石斛基因組發(fā)現(xiàn)糖基轉(zhuǎn)移酶(GT)家族的13個(gè)類纖維素合成酶A(CslA)基因,該基因在鐵皮石斛基因組中經(jīng)歷串聯(lián)重復(fù)而顯著擴(kuò)增,認(rèn)為其合成酶糖基轉(zhuǎn)移與擬南芥相同來參與GM骨架合成。He等[56]基于D. offcinale基因組,利用數(shù)字基因表達(dá)譜分析鑒定出8個(gè)CslA參與甘露聚糖生物合成。
2.3脅迫響應(yīng)及生長發(fā)育相關(guān)基因
基于基因組信息挖掘植物中與生長發(fā)育聯(lián)系密切的基因家族成為近幾年的研究熱點(diǎn),家族鑒定研究層出不窮。Li等[57]基于橡膠樹基因組公開信息,共鑒定了81個(gè)WRKY基因,對(duì)廣泛參與調(diào)節(jié)植物生長發(fā)育、抵抗生物或非生物脅迫過程的WRKY基因家族進(jìn)行全基因組分析,表明HbWRKY蛋白可能參與天然橡膠生物合成的轉(zhuǎn)錄調(diào)控。馮新[58]基于A基因組和B基因組,對(duì)栽培蕉中與抗逆相關(guān)的SOD基因家族進(jìn)行了系統(tǒng)鑒定,探討了SOD在香蕉抵抗多種非生物脅迫和激素處理下調(diào)控機(jī)制。類似的研究還包括龍眼LAC家族[59]、香蕉Ran家族[60]、香蕉β-1,3葡聚糖酶基因[61]、野生蕉果皮顏色差異研究[62]和野生蕉低溫響應(yīng)機(jī)制研究[63]。菠蘿中參與景天酸代謝光合作用中CA基因[5]、果實(shí)成熟的過程中的乙烯相關(guān)基因[13]等的挖掘?yàn)閯?chuàng)造新的抗旱節(jié)水作物及果實(shí)的風(fēng)味品質(zhì)奠定了基礎(chǔ)。木薯基因組中參與脅迫響應(yīng)和生長發(fā)育的基因資源和功能研究為提高作物在脅迫、光合產(chǎn)物運(yùn)輸、淀粉高效積累等途徑提供了重要的理論基礎(chǔ)[20]。鐵皮石斛基因組中一些具重要生物學(xué)特征的基因家族,如與抗旱性及真菌共生、轉(zhuǎn)運(yùn)相關(guān)、藥用成分生物合成途徑相關(guān)基因?yàn)檫z傳工程育種和藥用成分的開發(fā)利用、規(guī)范產(chǎn)業(yè)發(fā)展研究提供重要資源和基礎(chǔ)[27-28]。綜上,通過植物基因組測(cè)序并從中挖掘重要農(nóng)藝性狀的基因,為改良作物的遺傳特質(zhì)提供了重要的數(shù)據(jù)支撐。
從本文統(tǒng)計(jì)的13種已完成全基因組測(cè)序的熱帶植物分析結(jié)果可以看出,雖然熱帶植物基因組的測(cè)序和組裝均面臨一定程度的困難,但各植物的基因組均有較高的組裝質(zhì)量。且部分植物目前已生成獨(dú)立基因組數(shù)據(jù)庫面向研究人員公開,如香蕉全基因組數(shù)據(jù)庫(https://banana- genome-?hub.southgreen.fr)、木薯全基因組數(shù)據(jù)庫(https://?cas sa vagenome.org)、菠蘿基因組數(shù)據(jù)庫(http://?pin e apple.angiosperms.org/pineapple/html/index.?html)[64]等?;诨蚪M數(shù)據(jù)信息,通過生物信息學(xué)分析技術(shù)和高通量測(cè)序技術(shù),能夠深入解析物種起源,挖掘改良遺傳育種和控制植物性狀等相關(guān)基因,為熱帶植物基因組學(xué)的研究提供序列數(shù)據(jù)參考。多倍體基因組內(nèi)各單倍型序列相似性較高,使得同源多倍體組裝到染色體水平的難度加大。如荔枝、枇杷、火龍果和芒果等植物基因組測(cè)序還未完成,其中芒果基因組的研究目前主要集中在基因組大小測(cè)定、變異分析以及微衛(wèi)星標(biāo)記[65-66],未來在前列技術(shù)研究基礎(chǔ)上有望揭示全基因組信息。第三代測(cè)序中Hi-C(染色質(zhì)構(gòu)象捕獲)技術(shù)掛載到染色體水平能夠?yàn)榻鉀Q這種難題提供技術(shù)支持,利用最新的ALLHiC算法組裝多倍體、高雜合等復(fù)雜基因組[67-68]。同時(shí),對(duì)于異源多倍體基因組的組裝,使用WGS和超高密度連鎖作圖的組合方法也能解決其組裝障礙[69-70]。這都可為植物重要性狀相關(guān)基因的發(fā)現(xiàn)、克隆、功能驗(yàn)證和進(jìn)化分析方面的研究提供極大便利。
隨著全基因組測(cè)序技術(shù)的快速發(fā)展,測(cè)序成本大大降低、測(cè)序速率顯著提高,高通量測(cè)序技術(shù)應(yīng)用范圍更廣。擺脫單一基因組研究而深入基因組關(guān)聯(lián)分析研究,更重要的是,如同香蕉基因組測(cè)序?qū)σ吧壏N香蕉進(jìn)行測(cè)序組裝,利用日益優(yōu)良的測(cè)序技術(shù)深度挖掘重要野生近緣物種,將極大促進(jìn)熱帶或更多地區(qū)野生植物寶貴基因資源的保護(hù)和利用,壯大奧秘的植物基因資源庫。
參考文獻(xiàn)
[1]Sanger F, Air G M, Barrell B G,?et al.Nucleotide sequence of bacteriophage φX174 DNA[J]. Nature,?1977, 265(5596): 687-695.
[2]The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plantArabidopsis thaliana[J]. Nature, 2000, 408(6814): 796-815.
[3]Jaillon O, Aury J?M, Noel B,et al. The grapevine genome sequence suggests ancestral hexaploidization in major angiosperm phyla[J]. Nature, 2007, 449(7161): 463-467.
[4]Velasco R, Zharkikh A, Troggio M,et al. A high quality draft consensus sequence of the genome of a heterozygous grapevine variety[J]. PLoS One, 2007, 2(12): e1326.
[5]Ming R, Hou S, Feng Y,et al. The draft genome of the transgenic tropical fruit tree papaya (Carica papaya Linnaeus)[J]. Nature, 2008, 452(7190): 991-996.
[6]Argout X, Salse J, Aury J,et al. The genome ofTheobroma cacao[J]. Nature Genetics, 2011, 43(2): 101-108.
[7]DHont A, Denoeud F, Aury J-M,et al. The banana (Musa acuminata) genome and the evolution of monocotyledonous plants[J]. Nature, 2012, 488(7410): 213-217.
[8]Davey M W, Gudimella R, Harikrishna J A,et al. A draftMusa balbisiana genome sequence for molecular genetics in polyploid, inter- and intra-specificMusahybrids[J]. BMC Genomics,?2013, 14: 683.
[9]Wang Z, Miao H?X, Liu J?H,?et al.Musa balbisianagenome reveals subgenome evolution and functional divergence[J]. Nature Plants, 2019, 5(8): 810-821.
[10]Wu W, Yang Y?L, He W?M,et al. Whole genome sequencing of a banana wild relativeMusa itineransprovides insights into lineage-specific diversification of theMusa genus[J]. Scientific Reports, 2016, 6: 31586.
[11]Lin Y?L, Min J?M, Lai R?L,et al. Genome-wide sequencing of longan (Dimocarpus longan Lour.) provides insights into molecular basis of its polyphenol-rich characteristics[J]. GigaScience,?2017, 6(5): 1-14.
[12]Ming R, Vanburen R, Wai C M,et al. The pineapple genome and the evolution of CAM photosynthesis[J]. Nature Genetics, 2015, 47(12): 1435-1442.
[13]Redwan R M, Saidin A, Kumar S V. The draft genome of MD-2 pineapple using hybrid error correction of long reads[J]. DNA Research,?2016, 23(5): 427-439.
[14]Xiao Y, Xu P, Fan H,et al. The genome draft of coconut (Cocos nucifera)[J]. GigaScience,?2017, 6(11): 1-11.
[15]Lantican D V, Strickler S R, Canama A O,et al.De novogenome sequence assembly of dwarf coconut (Cocos nuciferaL. ‘Catigan Green Dwarf) provides insights into genomic variation between Coconut types and related palm species[J]. G3: Genes, Genomes, Genetics, 2019, 9(8): 2377-2393.
[16]Teh B T, Lim K, Young?C H,et al.The draft genome of tropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11): 1633-1641.
[17]Rahman A Y?A, Usharraj A O, Misra B B,et al. Draft genome sequence of the rubber treeHevea brasiliensis[J]. BMC Genomics, 2013, 14: 75.
[18]Tang C, Yang M, Fang Y?J,et al. The rubber tree genome reveals new insights into rubber production and species adaptation[J]. Nature Plants, 2016, 2(6): 16073.
[19]Prochnik S, Marri P R, Desany B,et al. The cassava genome: Current progress, future directions[J]. Tropical Plant Biology, 2012, 5(1): 88-94.
[20]Wang W Q, Feng B X, Xiao J F,et al. Cassava genome from a wild ancestor to cultivated varieties[J]. Nature Communications, 2014, 5(1): 5110.
[21]Al-Dous E K, George B, Al-Mahmoud M E,et al.De novogenome sequencing and comparative genomics of date palm (Phoenix dactylifera)[J]. Nature?Biotechnology, 2011, 29(6): 521-527.
[22]Al-Mssallem I S, Hu S, Zhang X,et al. Genome sequence of the date palmPhoenix dactyliferaL.[J]. Nature Communications. 2013, 4(1): 2274.
[23]Singh R, Ong-Abdullah M, Low E L,et al. Oil palm genome sequence reveals divergence of interfertile species in Old and New worlds[J]. Nature, 2013, 500(7462): 335-339.
[24]Jin J, Lee M, Bai B,et al. Draft genome sequence of an eliteDurapalm and whole-genome patterns of DNA variation in oil palm[J]. DNA Research, 2016, 23(6): 527-533.
[25]Denoeud F, Carretero-Paulet L, Dereeper A,et al. The coffee genome provides insight into the convergent evolution of caffeine biosynthesis[J]. Science,?2014, 345(6201): 1181-1184.
[26]Tran H T M, Ramaraj T, Furtado A,et al. Use of a draft genome of coffee (Coffea arabica) to identify SNPs associated with caffeine content[J]. Plant Biotechnology Journal,?2018, 16(10): 1756-1766.
[27]Yan L, Wang X, Liu H,et al.The Genome ofDendrobium officinaleilluminates the biology of the important traditional Chinese orchid herb[J]. Molecular?Plant, 2015, 8(6): 922-934.
[28]Zhang G Q, Xu Q, Bian C,et al. TheDendrobium catenatumLindl. genome sequence provides insights into polysaccharide synthase, floral development and adaptive evolution[J]. Scientific Reports, 2016, 6: 19029.
[29]Belser C, Istace B, Denis E,et al. Chromosome-scale assemblies of plant genomes using nanopore long reads and optical maps[J]. Nature?Plants, 2018, 4(11): 879-887.
[30]Li W M, Dita M, Wu W,et al. Resistance sources toFusarium oxysporumf. sp.cubensetropical race 4 in banana wild relatives[J]. Plant Pathology, 2015, 64(5): 1061-1067.
[31]Wikstr?m N, Savolainen V, Chase M W. Evolution of the angiosperms: calibrating the family tree[J]. Proceedings of the Royal Society of London. Series B: Biological Sciences, 2001, 268(1482): 2211-2220.
[32]Alverson W S, Whitlock B A, Nyffeler R,et al.Phylogeny of the core Malvales: evidence fromndhFsequence data[J]. American Journal of?Botany, 1999, 86(10): 1474-1486.
[33]Prabhakaran Nair K P. The agronomy and economy of important tree crops of the developing world[M]. Burlington: Elsevier,?2010.
[34]Tangphatsornruang S, Uthaipaisanwong P, Sangsrakru D,et al. Characterization of the complete chloroplast genome ofHevea brasiliensisreveals genome rearrangement, RNA editing sites and phylogenetic relationships[J]. Gene, 2011, 475(2):104-112.
[35]De Carvalho R, Guerra M. Cytogenetics ofManihot esculentaCrantz (cassava) and eight related species[J]. Hereditas. 2002, 136(2): 159-168.
[36]Boher B, Verdier V. Cassava bacterial blight in Africa: the state of knowledge and implications for designing control strategies[J]. African Crop Science Journal, 1994, 2(4): 505-509.
[37]Reilly K, Bernal D, Cortés D F,et al. Towards identifying the full set of genes expressed during cassava post-harvest physiological deterioration[J]. Plant Molecular Biology, 2007, 64(1-2): 187-203.
[38]Patil B L, Fauquet C M. Cassava mosaic geminiviruses: actual knowledge and perspectives[J]. Molecular Plant Pathology. 2009, 10(5): 685-701.
[39]Bourgis F, Kilaru A, Cao X,et al. Comparative transcriptome and metabolite analysis of oil palm and date palm mesocarp that differ dramatically in carbon partitioning[J]. Proceedings of the National Academy of Sciences of the United States of America, 2011, 108(44): 12527-12532.
[40] Hazzouri K M, Flowers J M, Visser H J, et al. Whole genomere-sequencing of date palms yields insights into diversificationof a fruit tree crop[J]. Nature Communications,2015, 6: 8824.
[41] Zhang J, Tian Y, Yan L, et al. Genome of plant maca(Lepidium meyenii) illuminates genomic basis for high- altitudeadaptation in the central Andes[J]. Molecular Plant,2016, 9(7): 1066-1077.
[42] 孫 恒, 胡 強(qiáng), 金 航, 等. 鐵皮石斛化學(xué)成分及藥理活性研究進(jìn)展[J]. 中國實(shí)驗(yàn)方劑學(xué)雜志, 2017, 23(11):225-234.
[43] 王叢巧, 王培育, 郭艷芳, 等. 晝夜溫差處理下鐵皮石斛原球莖松柏苷和紫丁香苷含量的測(cè)定[J]. 熱帶作物學(xué)報(bào),2019, 40(2): 261-268.
[44] 林小蘋, 賴鐘雄. 不同光質(zhì)條件下鐵皮石斛多糖含量與磷酸烯醇式丙酮酸羧化酶基因表達(dá)變化[J]. 熱帶作物學(xué)報(bào),2017, 38(5): 838-842.
[45] 黃曉君, 聶少平, 王玉婷, 等. 鐵皮石斛多糖提取工藝優(yōu)化及其成分分析[J]. 食品科學(xué), 2013, 34(22): 21-26.
[46] 蔡璨璨, 李 卿, 段承俐, 等. 鐵皮石斛Csl 基因家族生物信息學(xué)及表達(dá)分析[J]. 基因組學(xué)與應(yīng)用生物學(xué), 2019,38(5): 2159-2166.
[47] Tian Y, Zeng Y, Zhang J, et al. High quality reference genomeof drumstick tree (Moringa oleifera Lam.), a potentialperennial crop[J]. Science China Life Sciences, 2015, 58(7):627-638.
[48] Chang Y, Liu H, Liu M, et al. The draft genomes of fiveagriculturally important African orphan crops[J/OL]. GigaScience,2019, 8(3). https://doi.org/10.1093/gigascience/giy152.
[49] Zhang G, Tian Y, Zhang J, et al. Hybrid de novo genomeassembly of the Chinese herbal plant danshen (Salviamiltiorrhiza Bunge)[J]. GigaScience, 2015, 4: 62.
[50] Chen W, Kui L, Zhang G, et al. Whole-genome sequencingand analysis of the Chinese herbal plant Panax notoginseng[J]. Molecular Plant, 2017, 10(6): 899-902.
[51] DeYoung B J, Innes R W. Plant NBS-LRR proteins inpathogen sensing and host defense[J]. Nature Immunology,2006, 7(12): 1243.
[52] Mun J H, Yu H J, Park S, et al. Genome-wide identificationof NBS-encoding resistance genes in Brassica rapa[J]. MolecularGenetics & Genomics, 2009, 282: 617-631.
[53] McHale L, Tan X, Koehl P, et al. Plant NBS-LRR proteins:adaptable guards[J]. Genome Biology, 2006, 7(4): 212.
[54] 李 威. 雷蒙德氏棉和亞洲棉萜類化合物合成關(guān)鍵基因家族的全基因組鑒定和系統(tǒng)發(fā)育研究[D]. 杭州: 浙江大學(xué), 2014.
[55] Chen X, Yang W, Zhang L, et al. Genome-wide identification,functional and evolutionary analysis of terpene synthasesin pineapple[J]. Computational Biology and Chemistry,2017, 70: 40-48.
[56] He C, Zhang J, Liu X, et al. Identification of genes involvedin biosynthesis of mannan polysaccharides in Dendrobiumofficinale by RNA-seq analysis[J]. Plant Molecular Biology,2015, 88(3): 219-231.
[57] Li H L, Guo D, Yang Z P, et al. Genome-wide identificationand characterization of WRKY gene family in Hevea brasiliensis[J]. Genomics, 2014, 104(1): 14-23.
[58] 馮 新. 香蕉SOD 基因家族的全基因組鑒定及功能分析[D]. 福州: 福建農(nóng)林大學(xué), 2016.
[59] 徐小萍, 陳曉慧, 呂科良, 等. 龍眼漆酶家族成員全基因組結(jié)構(gòu)與功能分析[J]. 應(yīng)用與環(huán)境生物學(xué)報(bào), 2018, 24(4):833-844.
[60] 張雅玲, 方智振, 賴鐘雄. 香蕉Ran 家族基因的全基因組分析[J]. 江西農(nóng)業(yè)大學(xué)學(xué)報(bào), 2015, 37(1): 157-162.
[61] 陳芳蘭. 野生蕉β-1,3 葡聚糖酶基因克隆及抗寒相關(guān)功能分析[D]. 福州: 福建農(nóng)林大學(xué), 2016.
[62] 鄧素芳. 基于RNA-Seq 的野生蕉(Musa itinerans)果皮顏色差異形成的分子機(jī)制研究[D]. 福州: 福建農(nóng)林大學(xué),2018.
[63] 劉煒?gòu)O. 基于全轉(zhuǎn)錄組學(xué)的野生蕉(Musa itinerans)低溫脅迫響應(yīng)機(jī)制研究[D]. 福州: 福建農(nóng)林大學(xué), 2018.
[64] Xu H M, Yu Q Y, Shi Y, et al. PGD: Pineapple genomicsdatabase[J]. Horticulture Research, 2018, 5: 66.
[65] 柳 覲, 李開雄, 孔廣紅, 等. 云南芒果種質(zhì)基因組大小測(cè)定與變異分析[J]. 熱帶亞熱帶植物學(xué)報(bào), 2015, 23(4):386-390.
[66] Ravishankar K V, Dinesh M R, Nischita P, et al. Developmentand characterization of microsatellite markers in mango(Mangifera indica) using next-generation sequencing technologyand their transferability across species[J]. MolecularBreeding, 2015, 35(3): 93.
[67] Zhang J, Zhang X, Tang H, et al. Allele-defined genome ofthe autopolyploid sugarcane Saccharum spontaneum L.[J].Nature Genetics, 2018, 50(11): 1565-1573.
[68] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware,chromosomal-scale autopolyploid genomes based on Hi-Cdata[J]. Nature Plants, 2019, 5(8): 833-845.
[69] Chapman J A, Mascher M, Buluc A, et al. A whole-genomeshotgun approach for assembling and anchoring the hexaploidbread wheat genome[J]. Genome Biology, 2015, 16: 26.
[70] Ming R, Man Wai C. Assembling allopolyploid genomes: nolonger formidable[J]. Genome Biology, 2015, 16: 27.