王 玥,程大友,代翠紅,崔 杰,羅成飛
(哈爾濱工業(yè)大學(xué)化工與化學(xué)學(xué)院)
大量的轉(zhuǎn)錄組數(shù)據(jù)分析表明,真核生物基因組中高達(dá)90%被轉(zhuǎn)錄[1],而只有1-2%的基因組編碼蛋白質(zhì)[2]。這說明大部分真核生物基因組產(chǎn)生的大部分RNA分子沒有蛋白質(zhì)編碼潛力。這些RNA統(tǒng)稱為非編碼RNA(ncRNA)。根據(jù)轉(zhuǎn)錄本的大小,NcRNA可以分為兩類。具有超過200個(gè)核苷酸的NcRNA被認(rèn)為是長(zhǎng)的ncRNA(lncRNA),而短的ncRNA少于200個(gè)核苷酸。短的ncRNA包括microRNA(miRNA),小干擾RNA(siRNA)和Piwi-interacting RNAs(piRNA)[3]。短ncRNA在真核生物中轉(zhuǎn)錄和轉(zhuǎn)錄后調(diào)控中作用的機(jī)制已經(jīng)研究的比較透徹[4],而lncRNAs調(diào)控基因的分子機(jī)制尚不清楚。大多數(shù)已表征的lncRNA參與基因表達(dá)調(diào)控。這些lncRNA的一個(gè)普遍的調(diào)控機(jī)制是它們通過與調(diào)控蛋白復(fù)合物的相互作用來調(diào)節(jié)轉(zhuǎn)錄活性[5-7]。lncRNA位于細(xì)胞核內(nèi)或胞漿中,與mRNA的結(jié)構(gòu)相似,具有5’帽子、3’poly A尾及選擇性剪接位點(diǎn)等特點(diǎn)[8]。根據(jù)基因組起源及其相對(duì)于附近蛋白質(zhì)編碼基因的位置,lncRNA可分為五組:(1)長(zhǎng)義非編碼RNA,(2)來自內(nèi)含子的天然反義轉(zhuǎn)錄物(NAT),(3)長(zhǎng)基因間非編碼ncRNAs(lincRNAs),(4)內(nèi)含子ncRNAs(incRNAs)和(5)雙向長(zhǎng)ncRNA[9]。
大多數(shù)lncRNAs是由RNAPII產(chǎn)生的,而先前在擬南芥中的研究發(fā)現(xiàn)了一些由RNAPIII轉(zhuǎn)錄的lncRNAs,它們是由特定的應(yīng)激如缺氧引起的[10]。大多數(shù)lncRNA在植物中是多聚腺苷酸化的[poly(A)+],然而,也有一些非聚腺苷酸化的[poly(A)- ] lncRNAs[11]。在擬南芥中發(fā)現(xiàn)了數(shù)百個(gè)poly(A)- lncRNAs被特定的非生物脅迫誘導(dǎo)[12]。lncRNA功能的分析表明,它們參與轉(zhuǎn)錄后一系列復(fù)雜的機(jī)制,如基因表達(dá)的轉(zhuǎn)錄調(diào)控。他們可以在順式或反式互補(bǔ)的序列或同源RNA或DNA,通過結(jié)構(gòu)和/或分子框架和支架,形成大分子復(fù)合物的組裝[13]。到目前為止,雖然lncRNAs在近年來受到更多的關(guān)注,但只有少數(shù)已在植物中充分研究。靶擬態(tài)是最近發(fā)現(xiàn)的一種microRNA(miRNAs)功能的調(diào)節(jié)機(jī)制,在植物中首次被發(fā)現(xiàn)。作為一種內(nèi)源性的lncRNA,由磷酸鹽饑餓引起的(IPS1)與miRNAs相互作用,通常在轉(zhuǎn)錄后通過植物的分裂來調(diào)節(jié)其mRNA目標(biāo)的豐度,并作為miRNA靶標(biāo)模擬物。IPS1與miR399結(jié)合,配對(duì)三核苷酸突起,并破壞miR399介導(dǎo)的靶向PHO2基因的分裂[14]。還通過生物信息學(xué)方法預(yù)測(cè)了許多內(nèi)源性的miRNA靶標(biāo)模擬物[15]。miR160和miR166的一些靶標(biāo)模擬物已被實(shí)驗(yàn)證實(shí)其在調(diào)控植物發(fā)育中的作用[16,17]。
為了檢測(cè)和發(fā)現(xiàn)新的lncRNA,已經(jīng)采用了許多策略,包括計(jì)算和實(shí)驗(yàn)篩選[18]。最近的全基因組轉(zhuǎn)錄組分析方法,如微陣列和全長(zhǎng)cDNA文庫(kù)的下一代測(cè)序,在模式生物體中發(fā)現(xiàn)了比以前認(rèn)為的更多的非編碼轉(zhuǎn)錄本。迄今為止,通過分析RNA測(cè)序(RNA-seq)數(shù)據(jù),已經(jīng)在許多物種中鑒定了數(shù)千種lncRNA。例如,在非編碼數(shù)據(jù)庫(kù)(Gree NC數(shù)據(jù)庫(kù))中,有超過120,000個(gè)lncRNA被鑒定,注釋了37個(gè)植物物種和6個(gè)藻類[19]。在擬南芥中,從200個(gè)轉(zhuǎn)錄組數(shù)據(jù)集中發(fā)現(xiàn)了大約6500個(gè)lncRNA,其具有器官特異性或應(yīng)激誘導(dǎo)表達(dá)模式[20]。王等人[21]共發(fā)現(xiàn)37,238個(gè)lncNAT,其中有70%的注釋mRNA。在水稻中,通過進(jìn)行整個(gè)轉(zhuǎn)錄組鏈特異性RNA測(cè)序(ssRNA-seq),驗(yàn)證了涉及生殖過程的2 224個(gè)lncRNA[16]。類似地,通過利用30個(gè)不同實(shí)驗(yàn)的EST和RNA-seq數(shù)據(jù)集,在玉米中發(fā)現(xiàn)了1 704個(gè)高可信度的lncRNA[22]。本文將主要從lncRNA在植物中對(duì)生物和非生物脅迫的作用進(jìn)行總結(jié),并簡(jiǎn)要介紹近些年來建立的與lncRNA相關(guān)的數(shù)據(jù)庫(kù)。
近年來,在各種植物中發(fā)現(xiàn)了許多與脅迫反應(yīng)相關(guān)的lncRNA。在擬南芥中,lincRNA在響應(yīng)干旱,寒冷,鹽和/或脫落酸時(shí)差異表達(dá)[20]。在玉米中鑒定了包括基因內(nèi),基因間,反義和與基因間和基因內(nèi)序列重疊的各種干旱響應(yīng)性lncRNA[23]。此外,許多由內(nèi)含子,基因間,正義和反義lncRNAs組成的lncRNA在模式豆科植物蒺藜苜蓿中被調(diào)控以響應(yīng)滲透和鹽脅迫[24]。在擬南芥中發(fā)現(xiàn)的包含poly(A)+和poly(A)-的幾種lncRNA[12]在小麥中對(duì)非生物脅迫如干旱,鹽度,寒冷和高溫以及對(duì)生物脅迫條銹病病原體均有響應(yīng)[25]。這些研究表明,雖然lncRNA的功能,分子機(jī)制和相互作用大部分是未知的,但是所有不同類型的lncRNA都參與對(duì)一系列脅迫的防御反應(yīng),并且可能具有不同的功能。揭開各種與脅迫反應(yīng)相關(guān)的lncRNAs的功能可能提供有力的工具來增強(qiáng)植物對(duì)脅迫反應(yīng)的耐受性并產(chǎn)生抗逆性植物。
植物對(duì)病原體攻擊的反應(yīng)是復(fù)雜的,并且已經(jīng)發(fā)展出一套防御機(jī)制,以有效的抑制疾病,從而將其所造成的損害降至最低。植物對(duì)病原體攻擊的反應(yīng)依賴于細(xì)胞水平上的病原體識(shí)別,然后在分子水平觸發(fā)復(fù)雜的防御信號(hào)網(wǎng)絡(luò)以協(xié)調(diào)轉(zhuǎn)錄[26]。最近的研究表明,作為植物防御機(jī)制的一部分,lncRNAs對(duì)植物病原體的反應(yīng)至關(guān)重要。
2.1.1 lncRNAs和致病真菌
近年來普遍使用鏈特異性RNA測(cè)序方法來研究lncRNA在真菌疾病抗性中的作用。在最近的一項(xiàng)研究中,預(yù)測(cè)了13個(gè)lncRNA參與抗甘藍(lán)型油菜菌核病菌感染[27]。在白粉病感染小麥分離株的研究中揭示了許多差異表達(dá)的lncRNA。有趣的是,在響應(yīng)于病原體的敏感品種和抗性品種中鑒定了相同的lncRNA表達(dá)模式。例如,TapmlnRNA19,TapmlnRNA30,TalnRNA5和TalnRNA9上調(diào),而TalnRNA21下調(diào)。另外,lncRNA以組織特異性方式表達(dá)。TapmlnRNA30只在種子中上調(diào),而TalnRNA5則在所有組織中表達(dá),包括葉片、根、種子、芒和幼穗,其種子的含量高于其他組織。TalnRNA9僅在葉片、根和種子中有顯著的表達(dá)[28]。在擬南芥中發(fā)現(xiàn)了一些與鐮刀菌枯萎病相關(guān)的lncRNA和LncNATs[29]。使用敲除或敲低擬南芥進(jìn)行功能分析確定了lincRNA在疾病防御中的作用。在RNAi和T-DNA插入系中l(wèi)incRNAs TAR(轉(zhuǎn)錄活性區(qū))-191,-197和-212的誘導(dǎo)被消除。 同樣地,TAR-224的表達(dá)在其RNAi植物中嚴(yán)重減少,并且TAR-191,-197,-212和-224的所有敲除突變體表現(xiàn)出顯著增強(qiáng)的疾病癥狀[29]。在棉花的研究中第一次表征了涉及植物對(duì)黃萎病感染反應(yīng)的lncRNA表達(dá)情況的特征。沉默lncRNA后,棉花對(duì)大麗輪枝菌和B. cinerea的抗性增強(qiáng)[30]。盡管大部分lncRNA的調(diào)控機(jī)制仍然是未知的,但是通過這些研究我們可以發(fā)現(xiàn)lncRNA的確參與了植物的基礎(chǔ)防御。
2.1.2 lncRNAs和病毒感染
最近的一項(xiàng)研究證實(shí)了lncRNAs可以參與植物防御病毒感染[31]。使用鏈特異性配對(duì)末端RNA測(cè)序分析lncRNA表明,在TYLCV抗性番茄品系CLN2777A中,包含lincRNA和lncNATs的幾種lncRNA響應(yīng)于番茄黃色卷曲病毒(TYLCV)而被差異調(diào)節(jié)[31]。幾種lincRNAs如slylnc0048,slylnc0049,slylnc0483,slylnc0531和slyinc0934的表達(dá)增加,而在TYLCV接種后CLN2777A番茄品系中大量lincRNAs,例如slylnc0475,slylnc0476,slylnc0673和slylnc1052下調(diào)。他們的研究結(jié)果表明,lincRNA參與防御病毒感染。lincRNAs是否賦予對(duì)病毒病原體的抗性還需要通過比較抗病毒和易感番茄品系之間的lincRNA表達(dá)來研究。
有趣的是,lincRNA和miRNA的表達(dá)呈負(fù)相關(guān),而lincRNA和相應(yīng)的miRNA靶基因的表達(dá)在TYLCV感染的番茄中呈正相關(guān)。使用病毒誘導(dǎo)基因沉默(VIGS)技術(shù)的功能分析驗(yàn)證了lncRNA在控制感染TYLCV病毒的番茄葉片的miRNA表達(dá)和防御信號(hào)傳導(dǎo)中的作用。作為miR166的推定靶標(biāo)的slylnc0195的表達(dá)在slylnc0195-VIGS植物中嚴(yán)重減少并且病毒在VIGS植物中高度積累。這些結(jié)果表明lncRNA通過在轉(zhuǎn)錄水平上的miRNA靶向模擬物正向調(diào)節(jié)miRNA靶蛋白編碼基因的表達(dá)??傊M管與lncRNA介導(dǎo)的基因表達(dá)相關(guān)的機(jī)制尚未確定,但這些結(jié)果表明了lncRNA在防御信號(hào)傳導(dǎo)途徑中的復(fù)雜性質(zhì),并且表明它們?cè)谡{(diào)節(jié)防御反應(yīng)基因中的關(guān)鍵功能。
在自然界中,植物暴露于各種非生物脅迫因素,如鹽,干旱,寒冷和炎熱,限制植物生長(zhǎng)和生產(chǎn)力。為了在這種不利情況下適應(yīng)和生存,植物利用多種基因調(diào)控機(jī)制來恢復(fù)和重建細(xì)胞穩(wěn)態(tài)。最近,與蛋白質(zhì)編碼基因和miRNA一起,許多l(xiāng)ncRNA已經(jīng)被證實(shí)與植物對(duì)非生物脅迫的反應(yīng)相關(guān)聯(lián)。
2.2.1 lncRNA與鹽和滲透脅迫
在早期的研究中,lncRNAs(265-1879nt)被鑒定為在擬南芥生態(tài)型Columbia(Col-0)中響應(yīng)鹽脅迫,并且在根和葉中差異性和特異性表達(dá)[32]。功能分析證明,過表達(dá)npc536的轉(zhuǎn)基因品系具有耐鹽性,npc536對(duì)鹽脅迫有響應(yīng)并能增加初級(jí)和次級(jí)根生長(zhǎng)。此外,反義Npc536的誘導(dǎo)獨(dú)立于其相應(yīng)的正義轉(zhuǎn)錄物AT1G67930基因,其編碼高爾基體轉(zhuǎn)運(yùn)復(fù)合物相關(guān)蛋白。這個(gè)結(jié)果表明lncRNAs響應(yīng)鹽脅迫而且可以調(diào)節(jié)根生長(zhǎng)[32]。然而,lncRNAs是否通過激素信號(hào)傳導(dǎo)來控制根或芽的生長(zhǎng)是一個(gè)至關(guān)重要的問題,還需要實(shí)驗(yàn)來闡明。此外,它們與其他植物生長(zhǎng)調(diào)節(jié)劑的相互作用,特別是對(duì)于非生物脅迫耐受性至關(guān)重要的ABA信號(hào)傳導(dǎo)仍有待研究。
最近,使用全基因組高通量測(cè)序分析lncRNA對(duì)蒺藜苜蓿中的滲透和鹽脅迫的響應(yīng)[24]。值得注意的是,響應(yīng)于鹽度差異表達(dá)的lncRNA的數(shù)量在根中比在葉中高,而在響應(yīng)滲透脅迫時(shí)在葉中顯示倍數(shù)變化的lncRNA的數(shù)量遠(yuǎn)大于根中的lncRNA的數(shù)量。此外,一些lncRNAs在葉和根中差異表達(dá)以響應(yīng)滲透壓和鹽脅迫。這些lncRNA表現(xiàn)出一定程度的組織特異性,這與先前鑒定組織特異性lncRNAs的研究一致[9,23,28]。在棉花的研究中,使用RNA測(cè)序,鑒定出1117種獨(dú)特的lncRNAs,并鑒定出44種在鹽脅迫下差異表達(dá)的基因間lncRNAs(lincRNA),分析了順式作用靶標(biāo)的基因本體富集,發(fā)現(xiàn)順式作用靶蛋白編碼基因主要在應(yīng)激相關(guān)類別中富集,發(fā)現(xiàn)lnc_388可能是Gh_A09G1182的調(diào)節(jié)者。并且lnc_883可能通過調(diào)節(jié)Gh_D03G0339 MS_channel的表達(dá)來參與調(diào)節(jié)對(duì)鹽脅迫的耐受性[33]。這些發(fā)現(xiàn)表明,lncRNA在不同的調(diào)控過程和防御相關(guān)信號(hào)通路的調(diào)節(jié)中發(fā)揮重要作用。然而,還需要揭示與響應(yīng)于不同脅迫的lncRNA的組織特異性調(diào)節(jié)相關(guān)的機(jī)制。
2.2.2 lncRNA與干旱、寒冷和熱脅迫
在粟、玉米和毛果楊中發(fā)現(xiàn)了干旱誘導(dǎo)的幾種lncRNAs[23,34,35]。使用深度測(cè)序分析lncRNA表達(dá),說明各種lncRNAs(包括lincRNA和lncNATs)在粟(Setaria italica)中通過干旱脅迫差異表達(dá)。有趣的是,兩個(gè)干旱敏感的lncNATs和它們的正義轉(zhuǎn)錄物Si003758m(一種干旱誘導(dǎo)基因)和Si038715m(一種防御反應(yīng)基因)一致地差異表達(dá)[35]。在木薯中對(duì)冷和/或干旱反應(yīng)的lncRNAs進(jìn)行全基因組識(shí)別和功能預(yù)測(cè),確定了對(duì)冷和/或干旱脅迫反應(yīng)的318種lncRNA,發(fā)現(xiàn)42個(gè)lncNAT和有義基因?qū)梢援a(chǎn)生nat-siRNAs,跨調(diào)節(jié)網(wǎng)絡(luò)分析表明,許多l(xiāng)ncRNA與激素信號(hào)轉(zhuǎn)導(dǎo),次生代謝物生物合成和蔗糖代謝途徑相關(guān)[36]。這些發(fā)現(xiàn)表明,lncNAT參與與非生物相關(guān)的防御相關(guān)過程,并且在抗脅迫的基礎(chǔ)防御中發(fā)揮關(guān)鍵作用。lncNAT介導(dǎo)的防御反應(yīng)是否影響植物抗性仍有待闡明。
在熱脅迫下,擬南芥中l(wèi)nc-173未被誘導(dǎo),而其靶基因蔗糖合成酶4對(duì)高溫有響應(yīng)[12]。在小麥中在白粉病感染和熱脅迫過程中鑒定了125個(gè)假定的lncRNA[28],其中四個(gè)是miRNA前體(TalnRNA5,TalnRNA8,TalnRNA19和TahlnRNA27)。其中,TalnRNA27和TalnRNA5在熱脅迫下上調(diào)。有研究確定了擬南芥中熱脅迫下差異表達(dá)的245個(gè)poly(A)+和58個(gè)poly(A)- lncRNAs[12]。此外,通過qRT-PCR驗(yàn)證了15個(gè)熱響應(yīng)性lncRNA。在白菜中熱脅迫下,鑒定了34個(gè)特異表達(dá)的lncRNAs,192個(gè)靶基因受lncRNAs調(diào)控,其中大多數(shù)屬于熱響應(yīng)基因[37]。另外,在小黑楊中,PsiLncRNA00268512的表達(dá)水平對(duì)熱脅迫響應(yīng)是動(dòng)態(tài)的[38]。盡管一些關(guān)于lncRNA在植物中的作用的研究已經(jīng)進(jìn)行,但仍缺乏lncRNA對(duì)熱脅迫反應(yīng)的全面分析。
全基因組關(guān)聯(lián)研究已經(jīng)確定TFs是調(diào)節(jié)基因表達(dá)的復(fù)雜基因調(diào)控網(wǎng)絡(luò)的重要組成部分。轉(zhuǎn)錄因子不僅是細(xì)胞命運(yùn)的關(guān)鍵調(diào)節(jié)因子,而且它們還能影響脅迫作用下的靶基因表達(dá)[39]。最近的研究已經(jīng)證實(shí)TFs不僅調(diào)節(jié)蛋白質(zhì)編碼基因的表達(dá),而且還響應(yīng)于生物和非生物脅迫而正向或負(fù)向調(diào)節(jié)lncRNA的表達(dá)[12,29]。啟動(dòng)子分析顯示At1g47395,At1g47400和lincRNA TAR-83含有相同的水楊酸響應(yīng)性TCA元件,用于響應(yīng)真菌感染[29]。因此,真菌誘導(dǎo)的lincRNA TAR可能是防御反應(yīng)性TFs的直接靶點(diǎn)。
此外,lncRNAs通過lncRNA介導(dǎo)的miRNAs來調(diào)節(jié)TFs的表達(dá)[31]。在番茄中,上調(diào)的slylnc0195通過抑制miR166介導(dǎo)的TF基因的表達(dá)而誘導(dǎo)III類HD-ZIP TFs中的基因?qū)YLCV的響應(yīng)的表達(dá)[31]。這些轉(zhuǎn)錄因子在根系發(fā)育和植物防御中對(duì)非生物脅迫如鹽度和干旱發(fā)揮著重要作用[40]。因此,脅迫反應(yīng)的lncRNAs可能間接調(diào)節(jié)防御相關(guān)TFs的表達(dá)。
這些結(jié)果證實(shí)lncRNA,miRNA,蛋白質(zhì)編碼基因和TFs之間存在復(fù)雜的相互作用。lncRNAs含有潛在的TF結(jié)合位點(diǎn),TFs可能在lncRNA和蛋白質(zhì)編碼基因啟動(dòng)子中使用不同的TF結(jié)合位點(diǎn)[41]。lncRNA啟動(dòng)子中的TF和TF結(jié)合位點(diǎn)之間的相互作用以及雙向調(diào)節(jié)網(wǎng)絡(luò)可以響應(yīng)于環(huán)境脅迫而發(fā)生。因此,lncRNA可能與TFs相互作用以促進(jìn)靶基因表達(dá)[42]。然而,植物中l(wèi)ncRNAs和TFs之間的相互作用機(jī)制仍不清楚,因此lncRNA-TF介導(dǎo)的調(diào)節(jié)網(wǎng)絡(luò)對(duì)生物和非生物脅迫的響應(yīng)以及它們與其他TFs的串?dāng)_仍有待研究。
在植物中,雙鏈RNA可被加工成21-24nt的小RNAs(smRNAs),可能啟動(dòng)轉(zhuǎn)錄后基因沉默(PTGS)或轉(zhuǎn)錄基因沉默(TGS)[43]。鑒于這些過程的重要性,lncRNAs被認(rèn)為是重要的調(diào)控者。
一些lncRNA或mRNA可以與天然反義轉(zhuǎn)錄物形成雙鏈RNA雙鏈體以產(chǎn)生smRNA并執(zhí)行它們的非編碼功能。NAT衍生的smRNA被稱為NAT-siRNAs[44]。一個(gè)深入研究的例子是病原體誘導(dǎo)的內(nèi)源性NAT-siRNA[45]。用細(xì)菌病原體丁香假單胞菌感染擬南芥植株攜帶效應(yīng)子avrRpt2,特異地誘導(dǎo)由NAT對(duì)的互補(bǔ)區(qū)產(chǎn)生的內(nèi)源性siRNA,其由來自Rab2樣小GTP結(jié)合蛋白基因和五角肽重復(fù)蛋白樣基因的轉(zhuǎn)錄物組成。這種NAT-siRNA通過抑制PPRL(RPS2抗性途徑的推定負(fù)調(diào)節(jié)劑)的表達(dá)來促成RPS2介導(dǎo)的物種特異性疾病抗性。
lncRNA可以充當(dāng)植物中的miRNA和siRNA前體[23,28]。作為miRNA前體的TalnRNA5,TapmlnRNA8和TapmlnRNA19以及作為siRNA前體的幾種lncRNA在感染和抗性小麥基因型的PM感染后上調(diào)。事實(shí)上,TalnRNA5和TapmlnRNA19 lncRNA及其相應(yīng)的miRNA(miR2004)以及TapmlnRNA11及其相應(yīng)的siRNA在響應(yīng)PM感染時(shí)被共誘導(dǎo)[28]。這些發(fā)現(xiàn)表明,lncRNA可能導(dǎo)致植物中mi-RNA和si-RNA的產(chǎn)生,以調(diào)節(jié)對(duì)環(huán)境刺激的防御反應(yīng)。
另一方面,一些lincRNA被鑒定為推定的靶標(biāo)并靶向已知毛果楊miRNA的模擬物。ptc-miR482a.1通過降解調(diào)節(jié)四種lincRNA(lincRNA1078,lincRNA1203,lincRNA2213和lincRNA2252)和許多防御轉(zhuǎn)錄物。此外,作為ptc-miR482a.1的靶模擬物的lincRNA1128,lincRNA1828和lincRNA2623抑制其功能[34]。
總之,這些研究表明lncRNAs在非生物和生物脅迫信號(hào)傳導(dǎo)中起著關(guān)鍵的復(fù)雜作用,lincRNAs與miRNA之間存在串?dāng)_,并且存在復(fù)雜的相互作用,可調(diào)控防御相關(guān)基因的表達(dá)。
哺乳動(dòng)物lncRNAs,特別是人類和小鼠lncRNA,被詳細(xì)記錄在公共數(shù)據(jù)庫(kù)中[46,47]。除基本的注釋信息外,其lncRNAs的表達(dá)水平和印跡信息也存放在特定的數(shù)據(jù)庫(kù)中[48-50]。與哺乳動(dòng)物lncRNAs不同,植物中鑒定的lncRNA并未全面及時(shí)記錄在公共數(shù)據(jù)庫(kù)中。目前約有11個(gè)可用的植物lncRNA數(shù)據(jù)庫(kù)。
NONCODE是除tRNA和rRNA外,真核非編碼RNA的精制數(shù)據(jù)庫(kù)[51]。由于各種生物體中發(fā)現(xiàn)的lncRNAs數(shù)量迅速增加,數(shù)據(jù)庫(kù)的更新版本NONCODE v5于2017年發(fā)布。它包括17種廣泛物種的信息(例如人,小鼠,大猩猩,果蠅,擬南芥等)。它不僅提供了lncRNA的基本信息,例如位置,鏈,外顯子編號(hào),長(zhǎng)度和序列,還提供了諸如表達(dá)譜,外來體表達(dá)譜,保守信息,預(yù)測(cè)功能和疾病關(guān)系。簡(jiǎn)而言之,NONCODE是一個(gè)綜合數(shù)據(jù)庫(kù),它包含對(duì)lncRNA的全面收集和注釋。然而,它并不特別關(guān)注植物lncRNAs。實(shí)際上,數(shù)據(jù)庫(kù)中僅有擬南芥的3853個(gè)lncRNA轉(zhuǎn)錄本和2477個(gè)lncRNA基因[52]。這表明數(shù)據(jù)庫(kù)中包括的唯一植物物種,即擬南芥僅占NONCODE中總lncRNA的0.7%。
像NONCODE一樣,lncRNAdb是真核生物lncRNA的綜合庫(kù)[53]。它包括特異的序列結(jié)構(gòu)信息,如轉(zhuǎn)錄本、基因組位置、表達(dá)、亞細(xì)胞定位和保守位點(diǎn)以及相關(guān)的功能和疾病。同時(shí)還將給出lncRNA相關(guān)的文獻(xiàn)證據(jù)的pubmedl鏈接以及在基因組位置信息的UCSC鏈接。由于這些特點(diǎn),lncRNAdb收錄的lncRNA資料可信度很高,并已被納入其他綜合數(shù)據(jù)庫(kù),如NONCODE和RNAcentral[54]。 該數(shù)據(jù)庫(kù)于2011年首次發(fā)布,最新更新版本(LncRNAdb v2.0)于2015年發(fā)布。目前,lncRNAdb v2.0包含近283個(gè)條目,涵蓋71種不同的生物體。該信息由921個(gè)參考文獻(xiàn)和260個(gè)核苷酸序列支持。此外,還引入了新功能。例如,具有潛在lncRNA序列的用戶可利用lncRNAdb blast搜索將其序列與任何已知的功能性lncRNA進(jìn)行比較。盡管lncRNAdb v2.0具有顯著的優(yōu)點(diǎn),但它的適用性對(duì)于研究植物lncRNA的生物學(xué)家來說顯然是有限的。數(shù)據(jù)庫(kù)中約75%的lncRNA來自哺乳動(dòng)物。與擬南芥、水稻和蒺藜苜蓿等物種的lncRNA相關(guān)的信息很少。
與上面討論的兩個(gè)數(shù)據(jù)庫(kù)不同,RNAcentral聚集所有生物體的所有ncRNA類型的數(shù)據(jù),即包括原核和真核ncRNA[54]。數(shù)據(jù)主要可以通過三種方式進(jìn)行訪問:文本搜索,序列相似性搜索和基因組瀏覽器。在適用的情況下,ncRNA序列已映射到選定物種的參考基因組。因此,可以查看具有特定物種的用基因組注釋的序列。此外,已經(jīng)提供了新的物種特異性標(biāo)識(shí)符來指代單個(gè)物種的獨(dú)特RNA序列。數(shù)據(jù)庫(kù)網(wǎng)站上提供的統(tǒng)計(jì)數(shù)據(jù)表明有209,384個(gè)lncRNA序列可用。然而,除此之外,分別只有670個(gè)和lncRNA可用于玉米和擬南芥。
擬南芥信息資源(TAIR)旨在以擬南芥屬的遺傳和分子生物學(xué)數(shù)據(jù)形式提供綜合信息[55]。最新版本的資源TAIR10將有關(guān)擬南芥基因組的結(jié)構(gòu)和組織相關(guān)信息結(jié)合起來。此外,它還考慮了其估計(jì)的33,602個(gè)基因的功能。TAIR是一個(gè)關(guān)系數(shù)據(jù)庫(kù),它還提供訪問基于Web的工具來查詢和分析存儲(chǔ)的數(shù)據(jù)。對(duì)用戶而言,TAIR是擬南芥數(shù)據(jù)的中央接入點(diǎn),這些數(shù)據(jù)的來源包括大規(guī)模測(cè)序、功能基因組學(xué)項(xiàng)目、獨(dú)立研究人員和文獻(xiàn)。
天然反義轉(zhuǎn)錄物(NAT)指蛋白質(zhì)編碼轉(zhuǎn)錄物的互補(bǔ)轉(zhuǎn)錄物。這些包括一類RNA,包括蛋白質(zhì)編碼和非編碼轉(zhuǎn)錄物[56]。反義轉(zhuǎn)錄物是lncRNA的一種生物型,其特征是與相反鏈上的外顯子部分/完全重疊。PlantNATsdb或植物NAT數(shù)據(jù)庫(kù)專門用作參考數(shù)據(jù)庫(kù)來研究NAT在植物界的調(diào)節(jié)功能[57]。通過整合各種數(shù)據(jù)來源,大約有來自70個(gè)植物物種的2138498個(gè)NAT被包括在數(shù)據(jù)庫(kù)中。
PLNlncRbase是一種易于使用的資源,專門為植物lncRNAs提供信息,特別是那些已經(jīng)通過實(shí)驗(yàn)鑒定的信息[58]。在當(dāng)前版本中,PLNlncRbase已經(jīng)手動(dòng)收集了近200篇已發(fā)表文獻(xiàn)的數(shù)據(jù),涵蓋了43種植物物種中共1187種植物lncRNAs。用戶可以通過使用植物物種名稱或lncRNA標(biāo)識(shí)符通過關(guān)鍵字檢索植物lncRNA條目。查詢后的每個(gè)條目將返回特定植物lncRNA的詳細(xì)信息,包括物種名稱,lncRNA標(biāo)識(shí)符,潛在生物學(xué)作用的簡(jiǎn)要說明,lncRNA序列,lncRNA分類,lncRNA的表達(dá)模式, lncRNA表達(dá)的組織/發(fā)育階段/條件,lncRNA表達(dá)的檢測(cè)方法,參考文獻(xiàn)以及從原始參考文獻(xiàn)中提取的lncRNA的潛在靶基因。
綠色非編碼(GreeNC)數(shù)據(jù)庫(kù)包含植物和藻類注釋的lncRNAs[59]。目前,GreeNC數(shù)據(jù)庫(kù)包含大約200,000頁(yè)的關(guān)于來自37個(gè)植物和6個(gè)藻類的超過190,000個(gè)lncRNA轉(zhuǎn)錄物的信息。其中,120,000個(gè)轉(zhuǎn)錄本被注釋為高信度lncRNAs。而且,這些lncRNA中有30%已經(jīng)在小麥和玉米中鑒定出來。GreeNC數(shù)據(jù)庫(kù)提供關(guān)于序列,基因組坐標(biāo),編碼潛力和lncRNA折疊能量的信息。
CANTATAdb包含10種模式植物物種中的植物lncRNAs,如擬南芥,水稻,馬鈴薯等[60]。在表達(dá)水平,編碼潛力和序列比對(duì)方面進(jìn)行仔細(xì)評(píng)估和策劃的數(shù)據(jù)可以免費(fèi)用于搜索,瀏覽和下載目的。CANTATAdb的一個(gè)顯著特征是注釋數(shù)據(jù),包括lncRNA-miRNA相互作用背景下的預(yù)測(cè)功能??偣灿?1,896個(gè)lncRNA分配了功能,包括440個(gè)被認(rèn)為參與miRNA功能失調(diào)的lncRNAs和11,659個(gè)lncRNAs,它們可以通過掩蔽剪接信號(hào)起到剪接調(diào)節(jié)劑的作用。
與上述植物特異性數(shù)據(jù)庫(kù)相比,植物ncRNA數(shù)據(jù)庫(kù)(PNRD)是一個(gè)綜合的在線平臺(tái),用于研究各種植物物種中不同類型的ncRNA[61]。數(shù)據(jù)庫(kù)中目前有來自150種植物物種的11種不同類型ncRNA的25,739個(gè)條目。然而,關(guān)于lncRNAs信息可用于只有四個(gè)品種,即擬南芥、稻,毛果楊和玉米。
PLncRNAdb是一個(gè)簡(jiǎn)單但信息豐富的數(shù)據(jù)庫(kù),包含從四種植物物種(擬南芥、琴葉擬南芥、毛果楊和玉米)收集的超過5000種lncRNAs[62]。PLncRNAdb的一個(gè)顯著特征是提供lncRNA和各種RNA結(jié)合蛋白(RBPs)之間的關(guān)系,可以將其視為lncRNA-蛋白網(wǎng)絡(luò)。
植物長(zhǎng)非編碼RNA數(shù)據(jù)庫(kù)(PLncDB)是為從各種資源收集的大量植物lncRNAs提供信息的最初嘗試之一[63]。然而,迄今為止,該數(shù)據(jù)庫(kù)僅提供了擬南芥lncRNA的全面基因組視圖。
最近的研究表明,lncRNAs在基因調(diào)控網(wǎng)絡(luò)中起著重要的調(diào)控因子的作用,并在植物的各種生物過程中發(fā)揮重要作用。盡管已經(jīng)從擬南芥、小麥、玉米和水稻中鑒定了許多l(xiāng)ncRNAs,并且已經(jīng)表征了幾種lncRNA的功能,但是仍有許多機(jī)制尚未了解。挖掘越來越多的lncRNAs在植物發(fā)育和脅迫反應(yīng)中的調(diào)控作用,不僅可以擴(kuò)大我們對(duì)植物細(xì)胞中l(wèi)ncRNAs相互作用的理解,而且還可以揭示植物發(fā)育過程中的機(jī)制。未來有必要進(jìn)一步研究lncRNAs的功能基序和二級(jí)或三級(jí)結(jié)構(gòu),以充分闡明lncRNAs的各種基因調(diào)控機(jī)制,并開發(fā)新的有效方法來調(diào)查lncRNAs的靶基因。在數(shù)據(jù)庫(kù)方面,雖然已經(jīng)建立了許多植物lncRNA相關(guān)的數(shù)據(jù)庫(kù),但其所涵蓋的lncRNA并不全面。這些數(shù)據(jù)庫(kù)還需要整合各種資源以涵蓋所有鑒定到的lncRNA。