桑世葉 任強(qiáng) 吳霜寒 劉長(zhǎng)寧
摘要 長(zhǎng)非編碼RNA(long non-coding RNA,lncRNA)的重要性在近年來(lái)的研究中日益凸顯。由于lncRNA的同源性、保守性和特異性可以間接反映其生物學(xué)功能,越來(lái)越多的研究聚焦于理解lncRNA的進(jìn)化過(guò)程?,F(xiàn)主要就lncRNA基本性質(zhì)、lncRNA鑒定方法、植物基因組進(jìn)化以及植物lncRNA功能與進(jìn)化的研究進(jìn)展進(jìn)行綜述,以期為更好地開(kāi)展植物lncRNA進(jìn)化研究提供參考。
關(guān)鍵詞 長(zhǎng)非編碼RNA;植物;基本性質(zhì);鑒定方法;功能;進(jìn)化
中圖分類(lèi)號(hào) Q943.2文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 0517-6611(2020)22-0019-06
doi:10.3969/j.issn.0517-6611.2020.22.006
Research Progress on the Evolution of Long Non-coding RNA in Plants
SANG Shi-ye1,2,REN Qiang1,2, WU Shuang-han3 et al
(1.Xishuangbanna Tropical Botanical Garden,Chinese Academy of Sciences, Xishuangbanna, Yunnan 666303;2. University of Chinese Academy of Sciences, Beijing 100049;3.Sichuan Agricultural University, Chengdu, Sichuan 611130)
Abstract The importance of long non-coding RNA (lncRNA) has become increasingly prominent in recent years. Since the homology, conservation and specificity of lncRNA can indirectly reflect its biological functions, more and more researches focus on understanding the evolution process of lncRNA.This paper mainly reviewed the research progress on the basic properties of lncRNA, the identification methods of lncRNA, the evolution of plant genome and the function and evolution of plant lncRNA, in order to provide reference for the better development of the evolution of plant lncRNA.
Key words Long non-coding RNA;Plant;Basic properties;Identification methods;Function;Evolution
基金項(xiàng)目 國(guó)家自然科學(xué)基金面上項(xiàng)目(31970609)。
作者簡(jiǎn)介 桑世葉(1994—),女,四川成都人,碩士研究生,研究方向:植物長(zhǎng)非編碼RNA的進(jìn)化分析。*通信作者,研究員,博士,博士生導(dǎo)師,從事長(zhǎng)非編碼RNA和生物信息學(xué)研究。
收稿日期 2020-04-03
轉(zhuǎn)錄組測(cè)序揭示了高等真核生物的絕大部分基因組序列是被轉(zhuǎn)錄的。然而大于75%的轉(zhuǎn)錄本不會(huì)被翻譯為蛋白質(zhì),這些轉(zhuǎn)錄本被稱(chēng)為非編碼RNAs(ncRNA)。長(zhǎng)非編碼RNAs(long non-coding RNAs,lncRNA)作為ncRNA的重要組成部分,被定義為長(zhǎng)度大于200個(gè)核苷酸(nt)的ncRNA,獨(dú)立轉(zhuǎn)錄,但不具有編碼功能蛋白的潛力。他們主要在RNA水平上發(fā)揮多種生物學(xué)功能,包括染色體劑量補(bǔ)償效應(yīng)、招募染色質(zhì)重塑復(fù)合物到特定位點(diǎn)、模擬miRNAs靶標(biāo)競(jìng)爭(zhēng)性結(jié)合miRNAs、產(chǎn)生siRNA介導(dǎo)靶基因啟動(dòng)子區(qū)甲基化水平升高等。lncRNA在進(jìn)化過(guò)程中具有保守性和特異性2個(gè)非常重要的生物學(xué)特征。lncRNA的保守性有3個(gè)維度,即序列保守性、結(jié)構(gòu)保守性和位置保守性。lncRNA的特異性則包括種系特異性和組織特異性。由于lncRNA的同源性、保守性和特異性可以間接反映其生物學(xué)功能,越來(lái)越多的研究聚焦于理解lncRNA的進(jìn)化過(guò)程。其中動(dòng)物lncRNA的進(jìn)化分析尤其受到關(guān)注,為理解動(dòng)物lncRNA的進(jìn)化歷史、功能以及調(diào)控網(wǎng)絡(luò)進(jìn)化做出了重要貢獻(xiàn)。反觀(guān)植物領(lǐng)域,lncRNA在多物種中大規(guī)模進(jìn)化分析的繁榮景象尚未出現(xiàn),但仍有一些研究進(jìn)行了相關(guān)探索。筆者通過(guò)對(duì)植物lncRNA的進(jìn)化研究,以及與其息息相關(guān)的lncRNA生物學(xué)功能、lncRNA基因進(jìn)化、植物基因組進(jìn)化等多個(gè)研究領(lǐng)域進(jìn)行闡述,以期為植物lncRNA的進(jìn)化研究提供理論支撐和新的思考。
1 長(zhǎng)非編碼RNA 概述
1.1 長(zhǎng)非編碼RNA的特征和分類(lèi)
遺傳信息從基因序列到蛋白質(zhì)的流動(dòng)過(guò)程中,RNA承擔(dān)著傳遞信息的重要角色。在測(cè)序技術(shù)尚未成熟時(shí),人們普遍認(rèn)為真核生物的基因組絕大部分是由編碼蛋白的基因序列組成,而非編碼區(qū)域則并不具有生物學(xué)功能。但事實(shí)證明,人們低估了非編碼RNA(ncRNA)種類(lèi)和功能的多樣性。常見(jiàn)的非編碼RNA 包括 tRNA、rRNA、microRNAs、piRNAs、snoRNAs、siRNAs、snRNAs、exRNAs、scaRNAs和lncRNAs等多種類(lèi)型,其能通過(guò)在各個(gè)層次上調(diào)節(jié)從蛋白編碼基因到蛋白質(zhì)的遺傳信息流,從而參與到生物體的各種生物學(xué)過(guò)程中。
lncRNA是一類(lèi)長(zhǎng)度大于200 nt,不具備編碼功能蛋白潛力,主要由RNA 聚合酶Ⅱ(PolⅡ)轉(zhuǎn)錄生成,并具備甲基鳥(niǎo)苷帽子和多聚腺苷酸(poly-A)結(jié)構(gòu)的ncRNA,其初級(jí)結(jié)構(gòu)保守性差,二三級(jí)結(jié)構(gòu)保守性很強(qiáng),且在表達(dá)上具有極強(qiáng)的時(shí)空特異性。
由于lncRNA的研究還處于起步階段,人們對(duì)它的認(rèn)識(shí)還不夠深入,科學(xué)界至今還沒(méi)有統(tǒng)一的生物學(xué)分類(lèi)標(biāo)準(zhǔn)。根據(jù)lncRNA與蛋白質(zhì)編碼基因的相對(duì)位置,可以將其分為:①反義型(antisense),此類(lèi)lncRNA的反義鏈位置上是一個(gè)已知的蛋白編碼基因;②內(nèi)含子型(intronic),此類(lèi)lncRNA處于蛋白編碼基因的內(nèi)含子區(qū)域;③正義型(divergent),此類(lèi)lncRNA是由蛋白編碼基因的正義鏈轉(zhuǎn)錄而來(lái),序列內(nèi)含蛋白編碼基因的外顯子;④基因間區(qū)型(intergenic),此類(lèi)lncRNA處于蛋白編碼基因之間,且與蛋白編碼基因的距離在人類(lèi)基因組上大于5 kb[1]。除此之外,還可以根據(jù)lncRNA的保守性,將其分為:①外顯子-內(nèi)含子結(jié)構(gòu)保守型(conserved exonic structure),此類(lèi)lncRNA的外顯子-內(nèi)含子結(jié)構(gòu)和此結(jié)構(gòu)處的多個(gè)序列在物種間保守;②序列保守型(conserved sequence),此類(lèi)lncRNA是一類(lèi)序列保守的lncRNA;③位置保守型(positionally conserved),此類(lèi)lncRNA的上游或下游相似位置處具有直系同源的編碼基因[2]。
1.2 長(zhǎng)非編碼RNA的生物學(xué)特性
在lncRNA發(fā)現(xiàn)的早期,人們對(duì)其生物學(xué)特性還缺乏充分的認(rèn)識(shí)。由于蛋白編碼基因的研究早已趨于成熟,所以研究者們嘗試運(yùn)用蛋白編碼基因的研究手段來(lái)探索lncRNA的特性。但研究者們很快發(fā)現(xiàn),lncRNA在序列結(jié)構(gòu)、保守性、進(jìn)化規(guī)律等方面都有很大的不同。近年來(lái)人們主要將對(duì)lncRNA生物學(xué)特性的研究重點(diǎn)放在保守性和特異性2個(gè)方面。
在lncRNA的保守性上,幾乎所有的研究都得出了一致的結(jié)論,即lncRNA的保守性相較蛋白編碼基因來(lái)說(shuō)非常低。但研究lncRNA的保守性依舊為理解lncRNA做出了重要貢獻(xiàn),所以仍然具有重要的意義。lncRNA的保守性主要可以從序列保守性、結(jié)構(gòu)保守性和位置保守性3個(gè)方面來(lái)研究[2]。lncRNA在這3個(gè)方面的保守性并非完全獨(dú)立的,需要研究者們綜合考慮并靈活選用。在序列保守性上,lncRNA序列保守性低僅是相較于蛋白編碼基因序列而言的,如果與內(nèi)含子序列和基因間區(qū)序列相比,lncRNA的序列仍具有較高的保守性。隨著近年來(lái)轉(zhuǎn)錄組測(cè)序技術(shù)的發(fā)展,lncRNA的分析進(jìn)入了超大規(guī)模的時(shí)代,對(duì)lncRNA的保守性低也出現(xiàn)了新的闡釋。有研究指出,大多l(xiāng)ncRNA的序列是具有保守性的,只是其保守性?xún)H僅體現(xiàn)在一些小段的序列斑塊上,且這些短序列大多出現(xiàn)在啟動(dòng)子區(qū)域,所以lncRNA的保守片段表現(xiàn)出5′端偏向性。在lncRNA行使功能時(shí),只需要這些短序列發(fā)揮作用,所以表現(xiàn)出該lncRNA序列能夠容忍基因結(jié)構(gòu)重大變化的現(xiàn)象[3]。在結(jié)構(gòu)保守性上,當(dāng)僅使用序列保守來(lái)定義同源性而無(wú)法完全識(shí)別物種間的同源基因?qū)r(shí),通過(guò)結(jié)構(gòu)保守就可以找到這些缺失的同源性的說(shuō)法至今還沒(méi)有證據(jù)可以證明。但是,利用全基因組比對(duì)的方法,可以預(yù)測(cè)序列中一些短的區(qū)域是在二級(jí)結(jié)構(gòu)的約束下進(jìn)化的,并且lncRNA外顯子和這些短的區(qū)域的重疊部分在人類(lèi)基因組和其他物種基因組中都很小。所以,雖然全基因組分析為尋找lncRNA中維持二級(jí)結(jié)構(gòu)的選擇壓力僅提供了有限的支持,但這并不意味著基于結(jié)構(gòu)的同源搜索對(duì)lncRNA同源檢測(cè)沒(méi)有用[2]。在位置保守性上,當(dāng)比較遠(yuǎn)緣的物種時(shí),有相當(dāng)數(shù)量的lncRNA是位置保守的,即與同源蛋白編碼基因和/或其他保守區(qū)域具有相同的相對(duì)方向,而它們中的大部分是不具有可檢測(cè)的序列同源性[3-5]。這些位置保守的基因?qū)赡軐?duì)應(yīng)于那些功能序列過(guò)短或因過(guò)短而無(wú)法檢測(cè)到序列同源性的lncRNA,也可能對(duì)應(yīng)于那些僅轉(zhuǎn)錄作用處于選擇壓力下的lncRNA。所以,位置保守性是對(duì)研究lncRNA保守性的有力補(bǔ)充。
在lncRNA的特異性上,其種系特異性和組織特異性則備受人們關(guān)注。在動(dòng)物和植物中,lncRNA的種系特異性均有所發(fā)現(xiàn)。Derrien等[6]和Necsulea等[7]各自在對(duì)哺乳動(dòng)物的lncRNA研究中均發(fā)現(xiàn)了大量靈長(zhǎng)類(lèi)特有的lncRNA。Washietl等[8]對(duì)6種哺乳動(dòng)物中9個(gè)組織的lincRNA進(jìn)行進(jìn)化分析,發(fā)現(xiàn)一類(lèi)人特有的富集于睪丸且進(jìn)化速度非??斓膌ncRNA。Liu等[9]在擬南芥和其他植物物種間的比較分析表明,有98%的lncRNA是擬南芥特有的,只有少于2%的lncRNA是序列保守的。同時(shí),還有很多研究證實(shí)了即使是同一組織中的lncRNA,它們?cè)诓煌锓N中的表達(dá)水平也會(huì)呈現(xiàn)出種系差異。由于lncRNA位點(diǎn)在進(jìn)化過(guò)程中的獲得和丟失是非常常見(jiàn)的,所以lncRNA的種系特異性往往被認(rèn)為與物種的適應(yīng)性進(jìn)化有關(guān)。除了lncRNA的種系特異性外,其組織特異性的特征也尤為顯著。Washietl等[8]研究發(fā)現(xiàn)在哺乳動(dòng)物層面表達(dá)的lincRNAs表現(xiàn)出非常強(qiáng)的組織特異性。Hezroni等[3]通過(guò)對(duì)睪丸、腦、肝臟和腎4個(gè)組織的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行比較分析,發(fā)現(xiàn)lncRNA在睪丸中的表達(dá)水平遠(yuǎn)遠(yuǎn)高于另外3個(gè)組織。Deng等[10]在植物中的研究也發(fā)現(xiàn)大量組織特異性表達(dá)的lncRNA,同時(shí)還發(fā)現(xiàn)不保守的lncRNA組織特異表達(dá)的比例高于保守的lncRNA。
1.3 長(zhǎng)非編碼RNA的生物學(xué)功能及調(diào)控方式
起初,lncRNA被認(rèn)為是基因組轉(zhuǎn)錄的“噪音”,是RNA聚合酶Ⅱ的副產(chǎn)物,是不具有生物學(xué)功能的“垃圾”序列[11]。但越來(lái)越多的研究已經(jīng)證實(shí),lncRNA在生命調(diào)控網(wǎng)絡(luò)中起著至關(guān)重要的作用,廣泛參與DNA甲基化、組蛋白修飾、染色質(zhì)重塑、細(xì)胞周期調(diào)控、mRNA降解、基因印記、增加mRNA的穩(wěn)定性、調(diào)控絲氨酸、精氨酸剪接因子磷酸化等生物學(xué)過(guò)程,能與DNA、RNA、蛋白質(zhì)分子作用,順式或反式調(diào)控靶基因表達(dá)[12]。雖然人們已經(jīng)逐漸意識(shí)到lncRNA在生命過(guò)程中發(fā)揮的巨大作用,但目前仍只有一小部分lncRNA被證實(shí)具有重大的生物學(xué)意義。例如,Xist 首先從X失活中心(X inactivation center,Xist)轉(zhuǎn)錄,通過(guò)招募PRC2靶向作用于X染色體特定位點(diǎn),促進(jìn)組蛋白H3第27位賴(lài)氨酸三甲基化(histone H3 lysine K27 trimethylation,H3K27me3),介導(dǎo)相關(guān)基因沉默[13-16]。而嚴(yán)重危害人類(lèi)健康的癌癥也被證實(shí)與lncRNA的調(diào)控密切相關(guān),如印記基因H19,與正常組織相比在患癌組織中均呈現(xiàn)出高表達(dá)[17]。在水稻“農(nóng)墾58S”中,一條名為L(zhǎng)DMAR的lncRNA通過(guò)產(chǎn)生許多siRNAs使自身啟動(dòng)子甲基化水平升高從而無(wú)法轉(zhuǎn)錄,導(dǎo)致雄性光敏不育[18]。有研究表明,在植物的春化過(guò)程中,開(kāi)花抑制基因FLC上轉(zhuǎn)錄的反義lncRNA(COLDAIR、COOLAIR)可以通過(guò)招募染色質(zhì)重塑復(fù)合體PRC介導(dǎo)FLC染色質(zhì)重塑來(lái)抑制FLC的表達(dá),從而調(diào)控開(kāi)花時(shí)間[19-20]。
盡管現(xiàn)有研究表明這些lncRNA可以通過(guò)直接或間接調(diào)控基因的表達(dá)來(lái)參與各種生物學(xué)過(guò)程,但絕大部分lncRNA的功能機(jī)制及其與生物體生長(zhǎng)發(fā)育的關(guān)系尚不清楚。為了更好地理解lncRNA對(duì)基因表達(dá)的調(diào)控,有研究將lncRNA行使功能的作用方式分為以下幾種:①在基因上游區(qū)域轉(zhuǎn)錄,從而干擾編碼基因的轉(zhuǎn)錄;②介導(dǎo)染色質(zhì)重塑和組蛋白修飾影響基因的表達(dá);③調(diào)控可變剪切模式;④與Dicer酶共同作用產(chǎn)生內(nèi)源siRNA調(diào)控基因的表達(dá);⑤直接調(diào)節(jié)相關(guān)蛋白的活性影響蛋白發(fā)揮作用;⑥作為結(jié)構(gòu)成分促使核酸蛋白復(fù)合體的形成;⑦改變蛋白質(zhì)的定位;⑧與相關(guān)小分子如miRNA相互作用[21-22]。此后,李睿等[12]、王國(guó)峰[21]又將lncRNA調(diào)控基因表達(dá)分為3個(gè)層面:lncRNA參與基因表觀(guān)遺傳調(diào)控、lncRNA參與基因轉(zhuǎn)錄調(diào)控、lncRNA參與基因轉(zhuǎn)錄后調(diào)控,揭示了lncRNA可以在多個(gè)層面上以不同方式調(diào)控編碼基因的表達(dá),更加系統(tǒng)全面地概括了lncRNA參與生物學(xué)途徑的方式。隨著人們對(duì)lncRNA的了解更加深入,Wang等[23]在2011年首次提出將lncRNA行使生物學(xué)功能的方式分為4類(lèi):信號(hào)分子、誘餌分子、引導(dǎo)分子、支架分子,為推進(jìn)lncRNA研究的發(fā)展做出了重大貢獻(xiàn)。
1.4 長(zhǎng)非編碼RNA的起源
大量研究發(fā)現(xiàn),無(wú)論是在動(dòng)物還是植物基因組中的大多數(shù)lncRNA在經(jīng)過(guò)千萬(wàn)年進(jìn)化而分離的物種中沒(méi)有同源物,表明lncRNA序列在物種間的保守性很低,這預(yù)示著新的lncRNA起源頻率非常高。對(duì)于 lncRNA 的起源,Ulitsky[2]研究提出,物種進(jìn)化過(guò)程中l(wèi)ncRNA的形成有5種機(jī)制:
①lncRNA序列復(fù)制產(chǎn)生新的lncRNA;
②蛋白質(zhì)編碼基因失去編碼潛力產(chǎn)生新的lncRNA;
③經(jīng)轉(zhuǎn)座子整合后形成新的轉(zhuǎn)錄單元產(chǎn)生新的lncRNA;
④增強(qiáng)剪接信號(hào)的突變將具有轉(zhuǎn)錄潛力的序列轉(zhuǎn)化為穩(wěn)定的RNA,隨后獲得功能形成新的lncRNA;
⑤一系列適應(yīng)成為新的lncRNA。
1.5 長(zhǎng)非編碼RNA的鑒定方法及鑒定流程
由于lncRNA的進(jìn)化速率很快,序列保守性很低,且具有復(fù)雜多樣的行使生物學(xué)功能的方式,所以很難尋求在基因組層面上鑒定lncRNA的算法。目前人們主要通過(guò)微陣芯片技術(shù)和轉(zhuǎn)錄組測(cè)序分析2種方法來(lái)鑒定lncRNA,由于微陣芯片技術(shù)存在交叉雜交和不能鑒定新的lncRNA等問(wèn)題,所以?xún)H僅用于早期的lncRNA鑒定。反之,隨著近年來(lái)高通量測(cè)序技術(shù)和生物信息學(xué)的飛速發(fā)展,測(cè)序成本逐年降低,通過(guò)基因組和轉(zhuǎn)錄組測(cè)序來(lái)研究基因的進(jìn)化和表達(dá)成為最主流的研究手段之一[24-25],相關(guān)的研究報(bào)道也是越來(lái)越多,使通過(guò)生物信息學(xué)方法分析RNA-seq數(shù)據(jù),挖掘lncRNA序列、結(jié)構(gòu)、進(jìn)化、表達(dá)及功能等重要信息,并結(jié)合試驗(yàn)驗(yàn)證解析具有重要功能lncRNA調(diào)控機(jī)理的研究方法得到十分廣泛的應(yīng)用。
典型的RNA-seq工作流程的主要步驟包括總RNA提取、RNA富集、文庫(kù)制備和測(cè)序。對(duì)于RNA富集,有2種方法,一是富集具有poly-A尾的RNA,二是去除核糖體RNA,保留剩余RNA。Poly-A RNA-Seq獲得的RNA大約占一個(gè)物種總RNA的1/3,用于檢測(cè)lncRNA的表達(dá)時(shí)是一種性?xún)r(jià)比較高的技術(shù),但會(huì)遺漏掉不含有 poly-A 尾的 lncRNA。所以,目前使用較多的方法是去除核糖體RNA,此方法可以保留樣本中完整的轉(zhuǎn)錄組,包括poly- A +和poly-A-轉(zhuǎn)錄本 。由于測(cè)序技術(shù)在實(shí)踐過(guò)程中不能直接對(duì)RNA分子進(jìn)行測(cè)序(目前已有技術(shù)可以做到,如納米單分子測(cè)序技術(shù)),所以文庫(kù)制備是進(jìn)行測(cè)序之前的必要步驟,其目的主要有2個(gè):①文庫(kù)制備可以如實(shí)地代表樣品中的RNA;②將RNA分子轉(zhuǎn)化為更穩(wěn)定的cDNA進(jìn)行測(cè)序。
測(cè)序技術(shù)不斷進(jìn)步,第三代測(cè)序技術(shù)已經(jīng)應(yīng)運(yùn)而生,也稱(chēng)下一代測(cè)序技術(shù)。第三代測(cè)序技術(shù)憑借著片段讀長(zhǎng)更長(zhǎng)的優(yōu)勢(shì)在基因組研究中得到廣泛應(yīng)用,但由于測(cè)序通量低、測(cè)序成本貴、測(cè)序錯(cuò)誤率高等缺點(diǎn),它并沒(méi)有完全占據(jù)市場(chǎng),以Illumina平臺(tái)為代表的第二代測(cè)序技術(shù)仍然普遍被應(yīng)用。所以根據(jù)測(cè)序數(shù)據(jù)的來(lái)源,主要將lncRNA的鑒定分析流程大體上分為兩類(lèi)(圖1):①通過(guò)Illumina測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù)的鑒定分析流程;②依靠第三代測(cè)序技術(shù)進(jìn)行的數(shù)據(jù)的鑒定分析。
鑒定分析流程中所涉及到的lncRNA的識(shí)別和預(yù)測(cè),主要包含基本篩選和潛在編碼能力篩選2個(gè)部分?;竞Y選主要是根據(jù)lncRNA定義中對(duì)其長(zhǎng)度大于200 nt的規(guī)定。潛在編碼能力篩選所依據(jù)的原理主要是通過(guò)lncRNA的序列特征如堿基的排列、密碼子的分布情況、組蛋白的修飾位點(diǎn)、序列的保守性等來(lái)預(yù)測(cè)該基因的蛋白編碼潛能,從而區(qū)分蛋白編碼基因和非蛋白編碼基因。目前有多種lncRNA預(yù)測(cè)軟件供研究者們使用,主要包括CPC2(coding potential calculator 2)、CNCI(coding-non-coding index)、PfamScan、CPAT(coding-potential assessment tool)等。 CPC2是一款非常流行的lncRNA預(yù)測(cè)軟件,主要是利用Fickett TESTCODE分?jǐn)?shù)、開(kāi)放閱讀框(ORF)長(zhǎng)度、ORF完整性和等電點(diǎn)(pI)4個(gè)內(nèi)在特征訓(xùn)練一個(gè)支持向量機(jī)(SVM)模型,從而預(yù)測(cè)轉(zhuǎn)錄本編碼蛋白的潛力并對(duì)其進(jìn)行分類(lèi)。CPC2的運(yùn)行速度比它的上一代CPC1快約1 000倍,并且與CPC1相比顯示出更高的準(zhǔn)確性,尤其是對(duì)于長(zhǎng)非編碼轉(zhuǎn)錄本而言[26]。此外,CPC2的模型是物種中性的,使其對(duì)于不斷增長(zhǎng)的非模式生物轉(zhuǎn)錄組是可行的。CNCI是中科院計(jì)算所趙屹團(tuán)隊(duì)開(kāi)發(fā)的一款lncRNA預(yù)測(cè)工具,通過(guò)解析相鄰的核苷酸三聯(lián)體(adjoining nucleotide triplets,ANT),包括核苷酸三聯(lián)體在編碼域序列(CDS)和非編碼RNA序列中的使用頻率來(lái)構(gòu)建SVM分類(lèi)器,從而有效地區(qū)分蛋白質(zhì)編碼和非編碼序列,而不依賴(lài)于已知的注釋;這個(gè)工具適用于不完整的序列,如EST序列或從頭拼接的轉(zhuǎn)錄本。Pfam是一個(gè)大型蛋白結(jié)構(gòu)域家族的數(shù)據(jù)庫(kù),每個(gè)蛋白家族都由多個(gè)序列比對(duì)和隱馬爾可夫模型(hidden Markovmodels,HMMs)所體現(xiàn)[27]。PfamScan可以通過(guò)分析基因的蛋白結(jié)構(gòu)域來(lái)預(yù)測(cè)該基因的蛋白編碼潛力,從而區(qū)分蛋白編碼基因和非蛋白編碼基因。CPAT使用了一個(gè)免比對(duì)的邏輯回歸模型,該模型具有開(kāi)放閱讀框大小、開(kāi)放閱讀框覆蓋率、Fickett TESTCODE統(tǒng)計(jì)量和六聚體使用偏差4個(gè)序列指標(biāo)[28]。CPAT預(yù)測(cè)lncRNA具有優(yōu)異的性能,準(zhǔn)確度高,速度快。lncRNA的預(yù)測(cè)除了以上介紹的4種工具以外還有很多其他的預(yù)測(cè)工具,他們的核心思想都是通過(guò)估計(jì)基因的蛋白編碼潛力來(lái)實(shí)現(xiàn)分類(lèi),只是具體的計(jì)算方式不一樣。根據(jù)所持?jǐn)?shù)據(jù)的不同情況,這些工具的預(yù)測(cè)準(zhǔn)確度各有優(yōu)劣,可以通過(guò)計(jì)算幾種工具預(yù)測(cè)結(jié)果的交集作為最佳結(jié)果進(jìn)行后續(xù)分析。
2 植物長(zhǎng)非編碼RNA進(jìn)化與基因組進(jìn)化的研究現(xiàn)狀
2.1 長(zhǎng)非編碼RNA基因進(jìn)化
現(xiàn)有動(dòng)植物lncRNA進(jìn)化的研究表明,與蛋白編碼基因和miRNAs相比,lncRNA序列在物種間的保守性很低。例如,在小鼠和人類(lèi)基因組中,大部分lncRNA在序列上的一致性都低于70%[29]。Liu等[9]研究發(fā)現(xiàn),在擬南芥和其他植物物種間只有少于2%的lncRNA是序列保守的。這預(yù)示著新lncRNA的產(chǎn)生頻率非常高,這種快速進(jìn)化有助于組織和譜系特異性的 lncRNA 的出現(xiàn),從而有利于物種之間形態(tài)差異的產(chǎn)生[30]。在真核生物中,生物體的復(fù)雜程度與基因組中 lncRNA含量的多少有關(guān),而不是與整體 DNA 含量或編碼基因的數(shù)目相關(guān)。因此,在基因組中l(wèi)ncRNA的擴(kuò)增有利于復(fù)雜生物的進(jìn)化[31]。由于 lncRNA 功能和分子進(jìn)化的研究還處于初級(jí)階段,lncRNA進(jìn)化與物種特異特征之間的關(guān)系還有待進(jìn)一步的研究。
2.2 植物長(zhǎng)非編碼RNA生物學(xué)功能
lncRNA 最先在人類(lèi)中發(fā)現(xiàn)并報(bào)道,目前在人和動(dòng)物中已經(jīng)發(fā)現(xiàn)了很多l(xiāng)ncRNA具有重要功能,如染色體劑量補(bǔ)償效應(yīng)、基因印記、器官形成、癌癥等[32-33]。但在植物中僅少量lncRNA的功能被研究,大部分的研究都集中在對(duì) lncRNA 的鑒定和功能預(yù)測(cè)上,包括其參與植物的生長(zhǎng)發(fā)育過(guò)程、代謝過(guò)程和各種激素及脅迫的響應(yīng)。最初,lncRNA的鑒定都集中在擬南芥、玉米、水稻等模式植物中,但隨著測(cè)序成本的降低,目前有很多植物的lncRNA已經(jīng)被鑒定,發(fā)展了很多關(guān)于植物lncRNA的數(shù)據(jù)庫(kù),典型的有GREENC、CANTATAdb、RefSeq等。
lncRNA開(kāi)始對(duì)植物科學(xué)家們產(chǎn)生巨大吸引力很大程度上來(lái)自于人們對(duì)lncRNA調(diào)控植物開(kāi)花過(guò)程的發(fā)現(xiàn),這一過(guò)程是通過(guò)lncRNA調(diào)節(jié)春化作用來(lái)實(shí)現(xiàn)的,COOLAIR、COLDAIR和COLDWRAP就是這一過(guò)程中的典型代表。FLOWERING LOCUS C(FLC)基因是調(diào)控植物春化作用的關(guān)鍵基因,COOLAIR是FLC的反向轉(zhuǎn)錄本(NAT lncRNA),COLDAIR是來(lái)自于FLC的內(nèi)含子區(qū)域的lincRNA,而COLDWRAP是轉(zhuǎn)錄于FLC的啟動(dòng)子上游的一條正義lncRNA。COOLAIR 的表達(dá)會(huì)招募相關(guān)蛋白清除FLC 上激活型組蛋白甲基標(biāo)記,從而沉默F(xiàn)LC 轉(zhuǎn)錄本[34]。COLDAIR 則是通過(guò)結(jié)合PcG 蛋白復(fù)合體形成FLC染色質(zhì)組蛋白抑制型甲基化,引起FLC 的沉默[35]。COLDWRAP可以參與調(diào)節(jié)春化作用介導(dǎo)的多梳復(fù)合物或影響FLC基因內(nèi)染色質(zhì)環(huán)的形成沉默或抑制FLC的表達(dá)[36]。3條lncRNA 都通過(guò)抑制FLC基因的表達(dá)參與調(diào)節(jié)春化作用,從而影響植物從營(yíng)養(yǎng)生長(zhǎng)向生殖生長(zhǎng)的轉(zhuǎn)變以及開(kāi)花時(shí)間的早晚。除了上述3條與FLC有關(guān)的lncRNA外,擬南芥中還有一條名為FLORE的lncRNA也與開(kāi)花過(guò)程相關(guān),它可以通過(guò)抑制幾種CDFs(CDF1、CDF3、CDF5)和增加FT轉(zhuǎn)錄水平來(lái)促進(jìn)開(kāi)花[36]。
生殖轉(zhuǎn)變是植物生殖發(fā)育的第一步,lncRNA在生殖轉(zhuǎn)變中具有如此重要的調(diào)控作用,暗示著lncRNA在植物生殖發(fā)育過(guò)程中的重要性。目前功能研究清楚的lncRNA中很多都有參與調(diào)控這一過(guò)程。例如,調(diào)控水稻長(zhǎng)日照特異雄性不育的一個(gè)重要lncRNA LDMAR。LDMAR 會(huì)產(chǎn)生許多的siRNAs調(diào)控自身啟動(dòng)子甲基化水平升高從而無(wú)法轉(zhuǎn)錄,表達(dá)量的降低會(huì)造成未成熟花藥的過(guò)早程序性細(xì)胞死亡,從而造成光敏型雄性不育[18]。擬南芥中的一條反義lncRNA asHSFB2a受熱誘導(dǎo)會(huì)上調(diào)表達(dá),從而調(diào)控?cái)M南芥配子體發(fā)育過(guò)程中的熱休克因子HSFB2a,最終影響配子體的發(fā)育[37]。除此之外,人們?cè)谄渌锓N中也發(fā)現(xiàn)有調(diào)節(jié)花粉發(fā)育的lncRNA,如在玉米中的一個(gè)雄蕊特異表達(dá)的lncRNA Zm401。Zm401基因的表達(dá)下調(diào)會(huì)顯著影響花粉發(fā)育的關(guān)鍵基因ZmMADS2、MZm3-3和ZmC5的表達(dá);導(dǎo)致小孢子和為花粉粒發(fā)育供應(yīng)養(yǎng)分的絨氈層發(fā)育異常,最終導(dǎo)致玉米的雄性不育[38]。大白菜中也有一類(lèi)名為BcMF11 的lncRNA 在調(diào)節(jié)花粉發(fā)育和雄蕊育性中行使功能,該lncRNA 長(zhǎng)828 nt,在整個(gè)花粉發(fā)育階段都有表達(dá),當(dāng)其表達(dá)降低時(shí),絨氈層降解會(huì)延遲,造成花粉粒無(wú)法成熟[39-40]。
2.3 植物長(zhǎng)非編碼RNA進(jìn)化
隨著高通量測(cè)序技術(shù)的發(fā)展,越來(lái)越多的物種基因組被測(cè)序,使通過(guò)蛋白編碼基因序列和表達(dá)圖譜進(jìn)化分析來(lái)研究家系特異表型遺傳基礎(chǔ)和單個(gè)基因功能成為可能。對(duì)于lncRNA,盡管轉(zhuǎn)錄組測(cè)序技術(shù)日漸成熟,但由于lncRNA沒(méi)有易于計(jì)算的特征,注釋不全,所以此類(lèi)進(jìn)化分析的研究仍然很匱乏,尤其是在植物中。近年來(lái)在人類(lèi)、小鼠、擬南芥、水稻等生物中鑒定出了成千上萬(wàn)的lncRNA,盡管大部分lncRNA的功能還不清楚,但已經(jīng)發(fā)現(xiàn)一部分lncRNA參與非常重要的生物學(xué)過(guò)程。所以發(fā)現(xiàn)哪些lncRNA有功能以及它們?nèi)绾涡惺构δ艹蔀橐粋€(gè)熱門(mén)的科學(xué)問(wèn)題,而lncRNA的進(jìn)化研究是探索這一問(wèn)題的重要科學(xué)手段。在基因的進(jìn)化研究中,基因的同源性為比較不同物種在特定功能上或某個(gè)基因的遺傳背景相似性提供了一個(gè)重要的研究線(xiàn)索。同源基因(homologous gene)是指由一個(gè)共同祖先在不同物種中遺傳下來(lái)的基因,可以劃分為直系同源基因和旁系同源基因。直系同源基因(orthologs)被定義為從同一祖先垂直進(jìn)化而來(lái)的,作為物種形成的伴隨事件而被重復(fù),并通常繼續(xù)保有相同生物學(xué)功能的基因[41]。旁系同源基因(paralogs)分為兩類(lèi),一類(lèi)是指由單個(gè)物種基因組中發(fā)生的各類(lèi)復(fù)制事件而產(chǎn)生的基因,另一類(lèi)旁系同源基因是指由于共同祖先的基因復(fù)制產(chǎn)生的并遺傳到不同物種中的基因。旁系同源基因在功能上要么出現(xiàn)分化,要么產(chǎn)生計(jì)量補(bǔ)償效應(yīng)[41]。因?yàn)橹毕低椿蚓哂谢蛲诰?、基因注釋、分子?biāo)記、協(xié)助構(gòu)建基因間系統(tǒng)發(fā)生關(guān)系和追溯基因的進(jìn)化歷史等作用,所以目前已經(jīng)被用于大量研究中,其鑒定方法也更加成熟。直系同源基因的識(shí)別方法主要可以總結(jié)為3類(lèi):①通過(guò)對(duì)比基因序列間的相似性來(lái)識(shí)別直系同源基因;②通過(guò)構(gòu)建系統(tǒng)發(fā)育樹(shù)推測(cè)直系同源關(guān)系;③結(jié)合基因序列比對(duì)和構(gòu)建系統(tǒng)發(fā)育樹(shù)2種方法來(lái)鑒定直系同源基因。
在動(dòng)物中,Washietl等[8]分析發(fā)現(xiàn)在哺乳動(dòng)物層面表達(dá)的lincRNAs表現(xiàn)出非常強(qiáng)的組織特異性的保守性,且相對(duì)于進(jìn)化較年輕的lincRNA,在哺乳動(dòng)物層面的lincRNA在啟動(dòng)子和外顯子中表現(xiàn)出更高一級(jí)的序列保守性,還發(fā)現(xiàn)了一類(lèi)人特有的富集于睪丸且進(jìn)化速度非??斓膌ncRNA 。Necsulea等[7]對(duì)四足動(dòng)物lncRNA進(jìn)化的研究表明,尤其是古老的lncRNA,通常是被活躍調(diào)控的,可能主要在胚胎發(fā)育中起作用;lncRNA可能在精子發(fā)生、突觸傳遞等基礎(chǔ)過(guò)程和胎盤(pán)發(fā)育等具體機(jī)制中發(fā)揮功能。Hezroni等[3]研究發(fā)現(xiàn),功能保守的lncRNA在序列上的保守性?xún)H體現(xiàn)在一些小段的序列斑塊的保守性上,該lncRNA行使功能只需要這些短序列發(fā)揮作用,以至于可以容忍基因結(jié)構(gòu)的重大變化。Chen等[42]研究提出了一個(gè)可以鑒定高質(zhì)量lncRNA并對(duì)其進(jìn)行進(jìn)化分析的工具slncky,進(jìn)一步推進(jìn)了lncRNA研究的發(fā)展。
在植物中,Liu等[9]研究發(fā)現(xiàn)在擬南芥中鑒定出的lncRNA一部分是器官特異性表達(dá)的,而其余的則是響應(yīng)生物和非生物脅迫的,與其他6個(gè)植物物種相比,僅少于2%的lncRNA是進(jìn)化保守的。Li等[43]通過(guò)對(duì)玉米和高粱lncRNA進(jìn)行比較分析,發(fā)現(xiàn)只有25%的lncRNA是保守的。盡管大多數(shù)lncRNA的序列保守性很低,但對(duì)lncRNA進(jìn)行全局性統(tǒng)計(jì)分析的研究表明,lncRNA在共線(xiàn)性和基因結(jié)構(gòu)上具有進(jìn)化保守性[4,10,24]。例如,Nitsche等[24]研究通過(guò)剪接位點(diǎn)的保守性來(lái)追蹤lncRNA的進(jìn)化,發(fā)現(xiàn)超過(guò)85%的人類(lèi)lncRNA出現(xiàn)在胎盤(pán)哺乳動(dòng)物的分化中。Deng等[10]對(duì)10種植物保守性分析的研究發(fā)現(xiàn),序列和位置不保守的lncRNA組織特異表達(dá)的比例高于保守的lncRNA,表明保守的lncRNA比不保守的lncRNA更傾向于構(gòu)成表達(dá)。
2.4 植物基因組進(jìn)化
與其他真核生物基因組不同,植物基因組往往以更高的速率進(jìn)化,從而導(dǎo)致更高的基因組多樣性[44-45]。例如,親緣關(guān)系密切的植物物種之間基因組大小的差異要比親緣關(guān)系密切的動(dòng)物物種之間的差異大得多[46]。同時(shí),與動(dòng)物不同,古老的復(fù)制事件、復(fù)制基因的高保存率以及全基因組加倍事件導(dǎo)致了植物基因組中存在大量的復(fù)制基因[46]。
基因復(fù)制是基因組序列和蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)生長(zhǎng)的重大進(jìn)化事件。它被認(rèn)為是形成和重構(gòu)生物體功能的主要貢獻(xiàn)者,因此得到了廣泛的研究,特別是就其在進(jìn)化中的作用而言[47]。基因復(fù)制最初具有冗余功能,可能改變基因劑量和/或重塑基因組結(jié)構(gòu),對(duì)基因的進(jìn)化起到了至關(guān)重要的作用[48]。lncRNA基因的進(jìn)化作為基因組進(jìn)化的一部分,復(fù)制事件也必然與其有著密不可分的聯(lián)系。
就對(duì)基因組的影響程度而言,全基因組復(fù)制是最具顛覆性的基因復(fù)制形式,它涉及到整個(gè)染色體或整個(gè)基因組的復(fù)制,對(duì)現(xiàn)存的復(fù)制基因貢獻(xiàn)最大[46],因此被認(rèn)為是物種多樣性的主要驅(qū)動(dòng)力[48]。在動(dòng)物中,最近的全基因組加倍事件發(fā)生在大約450百萬(wàn)年前的人類(lèi)譜系和大約200百萬(wàn)年前的出芽酵母譜系中[49-50]。而在被子植物中,全基因組加倍事件在過(guò)去200百萬(wàn)年的進(jìn)化過(guò)程中發(fā)生了很多次[51-55],并且基因組測(cè)序還在繼續(xù)揭露更多的全基因組加倍事件[56-61],這可以合理地解釋多倍體和旁系同源基因在植物物種中的普遍存在。例如,全基因組復(fù)制導(dǎo)致蕪菁[62]、野蘿卜[63]、小麥[64]的三倍體化以及栽培草莓[65]的八倍體化。一項(xiàng)鑒定41個(gè)陸地植物基因組序列中重復(fù)基因的研究表明,平均64.5%的植物基因是旁系同源的,從苔蘚植物小立碗蘚的45.5%到蘋(píng)果的84.4%[46]。
從以上研究可以看出,相對(duì)于動(dòng)物來(lái)說(shuō),植物基因組的進(jìn)化要快得多,這可以合理地解釋植物lncRNA保守性較差、起源時(shí)間較晚的現(xiàn)象。所以,植物基因組的進(jìn)化對(duì)研究植物lncRNA的進(jìn)化保守性是具有很大的啟發(fā)和指導(dǎo)意義的。
3 總結(jié)
越來(lái)越多的研究表明,lncRNA可以以多種調(diào)控方式調(diào)節(jié)基因的表達(dá),參與各種各樣的生物學(xué)過(guò)程,無(wú)論是在基礎(chǔ)理論還是在實(shí)際應(yīng)用中,都足以證明lncRNA的重要性和對(duì)其進(jìn)行研究的必要性。目前對(duì)lncRNA的研究大部分都集中在某些物種的某些lncRNA的功能研究或者lncRNA的序列結(jié)構(gòu)和鑒定上,對(duì)lncRNA進(jìn)化的研究很少,且注意力大多都放在了動(dòng)物中。所以植物lncRNA的進(jìn)化研究仍是一個(gè)重要、新穎且急待人們?nèi)ヌ剿鞯目茖W(xué)問(wèn)題。目前高通量測(cè)序技術(shù)飛速發(fā)展,越來(lái)越多的植物物種被測(cè)序,有了完整的基因組數(shù)據(jù)。同時(shí),基于表達(dá)序列標(biāo)簽(expressed sequence tag)和全長(zhǎng)cDNA測(cè)序(full length cDNA sequencing),微陣列芯片技術(shù)(tiling microarrays)和轉(zhuǎn)錄組測(cè)序(RNA-seq)的基因組學(xué)研究也已經(jīng)逐步完善,為研究lncRNA的進(jìn)化研究提供了良好的數(shù)據(jù)基礎(chǔ)。因此,采用生物信息學(xué)的方法大規(guī)模分析植物lncRNA數(shù)據(jù),探尋植物lncRNA的進(jìn)化規(guī)律成為一個(gè)重要的研究方向。此問(wèn)題上的突破,必將推動(dòng)植物全基因組水平上進(jìn)化系統(tǒng)的研究,發(fā)掘和研究出更多植物lncRNA的功能,從而對(duì)lncRNA產(chǎn)生更加深刻的認(rèn)識(shí)。
參考文獻(xiàn)
[1] MA L N,BAJIC V B,ZHANG Z.On the classification of long non-coding RNAs[J].RNA Biol,2013,10(6):925-933.
[2] ULITSKY I.Evolution to the rescue:Using comparative genomics to understand long non-coding RNAs[J].Nat Rev Genet,2016,17(10):601-614.
[3] HEZRONI H,KOPPSTEIN D,SCHWARTZ M,et al.Principles of long noncoding RNA evolution derived from direct comparison of transcriptomes in 17 species[J].Cell Rep,2015,11(7):1110-1122.
[4] MOHAMMADIN S,EDGER P P,PIRES J C,et al.Positionally-conserved but sequence-diverged:Identification of long non-coding RNAs in the Brassicaceae and Cleomaceae[J].BMC Plant Biol,2015,15:1-12.
[5] ULITSKY I,SHKUMATAVA A,JAN C H,et al.Conserved function of lincRNAs in vertebrate embryonic development despite rapid sequence evolution[J].Cell,2011,147(7):1537-1550.
[6] DERRIEN T,JOHNSON R,BUSSOTTI G,et al.The GENCODE v7 catalog of human long noncoding RNAs:Analysis of their gene structure,evolution,and expression[J].Genome Res,2012,22(9):1775-1789.
[7] NECSULEA A,SOUMILLON M,WARNEFORS M,et al.The evolution of lncRNA repertoires and expression patterns in tetrapods[J].Nature,2014,505(7485):635-640.
[8] WASHIETL S,KELLIS M,GARBER M.Evolutionary dynamics and tissue specificity of human long noncoding RNAs in six mammals[J].Genome Res,2014,24(4):616-628.
[9] LIU J,JUNG C,XU J,et al.Genome-wide analysis uncovers regulation of long intergenic noncoding RNAs in Arabidopsis[J].Plant Cell,2012,24(11):4333-4345.
[10] DENG P C,LIU S,NIE X J,et al.Conservation analysis of long non-coding RNAs in plants[J].Sci China Life Sci,2018,61(2):190-198.
[11] PONTING C P,OLIVER P L,REIK W.Evolution and functions of long noncoding RNAs[J].Cell,2009,136(4):629-641.
[12] 李睿,楊永芳,李冉,等.長(zhǎng)鏈非編碼RNA的功能及其作用機(jī)制[J].生命科學(xué),2016,28(6):703-711.
[13] MAENNER S,BLAUD M,F(xiàn)OUILLEN L,et al.2-D structure of the A region of Xist RNA and its implication for PRC2 association[J].PLoS Biol,2010,8(1):1-16.
[14] ARTHOLD S,KUROWSKI A,WUTZ A.Mechanistic insights into chromosome-wide silencing in X inactivation[J].Hum Genet,2011,130(2):295-305.
[15] ESCAMILLA-DEL-ARENAL M,DA ROCHA S T,HEARD E.Evolutionary diversity and developmental regulation of X-chromosome inactivation[J].Hum Genet,2011,130(2):307-327.
[16] JEON Y,LEE J T.YY1 tethers Xist RNA to the inactive X nucleation center[J].Cell,2011,146(1):119-133.
[17] GIBB E A,BROWN C J,LAM W L.The functional role of long non-coding RNA in human carcinomas[J].Molecular cancer,2011,10(1):1-17.
[18] DING J H,LU Q,OUYANG Y D,et al.A long noncoding RNA regulates photoperiod-sensitive male sterility,an essential component of hybrid rice[J].Proc Natl Acad Sci USA,2012,109(7):2654-2659.
[19]? KIM D H,XI Y P,SUNG S.Modular function of long noncoding RNA,COLDAIR,in the vernalization response[J].PLoS Genet,2017,13(7):1-18.
[20] CSORBA T,QUESTA J I,SUN Q W,et al.Antisense COOLAIR mediates the coordinated switching of chromatin states at FLC during vernalization[J].Proc Natl Acad Sci USA,2014,111(45):16160-16165.
[21] 王國(guó)峰.禾本科植物lncRNA的鑒定與分析[D].福州:福建農(nóng)林大學(xué),2018:2.
[22] LIN T,ZHU G T,ZHANG J H,et al.Genomic analyses provide insights into the history of tomato breeding[J].Nature genetics,2014,46(11):1220-1226.
[23] WANG K C,CHANG H Y.Molecular mechanisms of long noncoding RNAs[J].Mol Cell,2011,43(6):904-914.
[24] NITSCHE A,ROSE D,F(xiàn)ASOLD M,et al.Comparison of splice sites reveals that long noncoding RNAs are evolutionarily well conserved[J].RNA,2015,21(5):801-812.
[25] LIN T,ZHU G T,ZHANG J H,et al.Genomic analyses provide insights into the history of tomato breeding[J].Nat Genet,2014,46(11):1220-1226.
[26] KANG Y J,YANG D C,KONG L,et al.CPC2:A fast and accurate coding potential calculator based on sequence intrinsic features[J].Nucleic Acids Res,2017,45:W12-W16.
[27] EL-GEBALI S,MISTRY J,BATEMAN A,et al.The Pfam protein families database in 2019[J].Nucleic Acids Res,2019,47:D427-D432.
[28] WANG L G,PARK H J,DASARI S,et al.CPAT:Coding-potential assessment tool using an alignment-free logistic regression model[J].Nucleic Acids Res,2013,41(6):1-7.
[29] PANG K C,F(xiàn)RITH M C,MATTICK J S.Rapid evolution of noncoding RNAs:Lack of conservation does not mean lack of function[J].Trends Genet,2006,22(1):1-5.
[30] KUTTER C,WATT S,STEFFLOVA K,et al.Rapid turnover of long noncoding RNAs and the evolution of gene expression[J].PLoS Genet,2012,8(7):1-15.
[31] SUN? X M,TANG Y P,MENG X Z,et al.Sequencing and analysis of a genomic fragment provide an insight into the Dunaliella viridis genomic sequence[J].Acta Biochim Biophys Sin,2006,38(11):812-820.
[32] AZEVEDO-MARTINS A C,MACHADO A C L,KLEIN C C,et al.Mitochondrial respiration and genomic analysis provide insight into the influence of the symbiotic bacterium on host trypanosomatid oxygen consumption[J].Parasitology,2015,142(2):352-362.
[33] EWART K M,JOHNSON R N,OGDEN R,et al.Museum specimens provide reliable SNP data for population genomic analysis of a widely distributed but threatened cockatoo species[J].Mol Ecol Resour,2019,19(6):1578-1592.
[34] HAN S Y,LIANG Y C,LI Y,et al.Lncident:A tool for rapid identification of long noncoding RNAs utilizing sequence intrinsic composition and open reading frame information[J].Int J Genomics,2016,2016:1-11.
[50] DEHAL P,BOORE J L.Two rounds of whole genome duplication in the ancestral vertebrate[J].PLoS Biol,2005,3(10):1700-1708.
[51] LYONS E,PEDERSEN B,KANE J,et al.Finding and comparing syntenic regions among Arabidopsis and the outgroups papaya,poplar,and grape:CoGe with rosids[J].Plant Physiol,2008,148(4):1772-1781.
[52] SOLTIS D E,ALBERT V A,LEEBENS-MACK J,et al.Polyploidy and angiosperm diversification[J].Am J Bot,2009,96(1):336-348.
[53] LEE T H,TANG H B,WANG X Y,et al.PGDD:A database of gene and genome duplication in plants[J].Nucleic Acids Res,2013,41:1152-1158.
[54] RENNY-BYFIELD S,WENDEL J F.Doubling down on genomes:Polyploidy and crop plants[J].Am J Bot,2014,101(10):1711-1725.
[55]? SOLTIS D E,VISGER C J,SOLTIS P S.The polyploidy revolution then...and now:Stebbins revisited[J].Am J Bot,2014,101(7):1057-1078.
[56]? VELASCO R,ZHARKIKH A,AFFOURTIT J,et al.The genome of the domesticated apple(Malus x domestica Borkh.)[J].Nat Genet,2010,42(10):833-839.
[57]? DHONT A,DENOEUD F,AURY J M,et al.The banana(Musa acuminata)genome and the evolution of monocotyledonous plants[J].Nature,2012,488(7410):213-217.
[58]? WANG Z W,HOBSON N,GALINDO L,et al.The genome of flax(Linum usitatissimum)assembled de novo from short shotgun sequence reads[J].Plant J,2012,72(3):461-473.
[59]? LU F,LIPKA A E,GLAUBITZ J,et al.Switchgrass genomic diversity,ploidy,and evolution:Novel insights from a network-based SNP discovery protocol[J].PLoS Genet,2013,9(1):1-14.
[60]? MYBURG A A,GRATTAPAGLIA D,TUSKAN G A,et al.The genome of Eucalyptus grandis[J].Nature,2014,510(7505):356-362.
[61]? WANG W,HABERER G,GUNDLACH H,et al.The Spirodela polyrhiza genome reveals insights into its neotenous reduction fast growth and aquatic lifestyle[J].Nat Commun,2014,5:1-13.
[62]? LYSAK M A,KOCH M A,PECINKA A,et al.Chromosome triplication found across the tribe Brassiceae[J].Genome Res,2005,15(4):516-525.
[63]? MOGHE G D,SHIU S H.The causes and molecular consequences of polyploidy in flowering plants[J].Ann N Y Acad Sci,2014,1320(1):16-34.
[64] SALSE J,BOLOT S,THROUDE M,et al.Identification and characterization of shared duplications between rice and wheat provide new insight into grass genome evolution[J].Plant Cell,2008,20(1):11-24.
[65] BYRNE D H,JELENKOVIC G.Cytological diploidization in the cultivated octoploid strawberry Fragaria × ananassa[J].Can J Genet Cytol,1976,18(4):653-659.