胡豪 藺珍 薛彥斌 毛美琴 向奕璇 劉加文 周徐子鑫 馬均
摘 要:為了揭示lncRNA在紅苞鳳梨嵌合葉片形成和生長(zhǎng)發(fā)育過(guò)程中的調(diào)控作用機(jī)制,該文以金邊紅苞鳳梨為材料,采用Hiseq2500測(cè)序和SMRT三代全長(zhǎng)轉(zhuǎn)錄組測(cè)序聯(lián)合測(cè)序分析技術(shù),分析挖掘紅苞鳳梨lncRNA信息。結(jié)果表明:(1)鑒定得到6 018條lncRNA,包含3 298個(gè)基因間lncRNA,870個(gè)反義lncRNA,717個(gè)內(nèi)含子lncRNA和1 109個(gè)正義lncRNA,數(shù)據(jù)量較二代測(cè)序有了極大的提高。(2)結(jié)構(gòu)分析表明,紅苞鳳梨lncRNA的總體表達(dá)豐度低于mRNA;序列長(zhǎng)度在 400~1 200 nt區(qū)間比例高于mRNA,而在>1 600 nt區(qū)間,lncRNA分布的比例顯著小于mRNA;lncRNA中的外顯子數(shù)量總體少于mRNA,開(kāi)放閱讀框長(zhǎng)度總體上也短于mRNA。(3)差異表達(dá)分析表明,在全綠、全白葉片發(fā)育過(guò)程中鑒定到1 710個(gè)差異表達(dá)lncRNA。(4)靶基因預(yù)測(cè)結(jié)果表明,5 441個(gè)lncRNA通過(guò)cis作用方式預(yù)測(cè)到靶基因,1 544個(gè)lncRNA通過(guò)trans方式預(yù)測(cè)到靶基因。(5)靶基因的功能注釋和富集分析顯示,差異表達(dá)lncRNA的靶基因主要作為酶蛋白參與調(diào)節(jié)葉片代謝活動(dòng)和信號(hào)轉(zhuǎn)導(dǎo)等方面,與葉片的顏色形成、光合作用和生長(zhǎng)發(fā)育密切相關(guān)。該文鑒定出的lncRNA信息以及對(duì)其結(jié)構(gòu)和功能的分析,為紅苞鳳梨以及鳳梨科其他植物的lncRNA表觀遺傳調(diào)控機(jī)理研究提供了數(shù)據(jù)基礎(chǔ),篩選出的差異表達(dá)lncRNA在金邊紅苞鳳梨葉片嵌合性狀的形成和生長(zhǎng)發(fā)育中具有重要的調(diào)控作用。
關(guān)鍵詞:紅苞鳳梨,Hiseq2500測(cè)序,SMRT全長(zhǎng)轉(zhuǎn)錄組測(cè)序,lncRNA鑒定
中圖分類號(hào):Q943
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1000-3142(2021)08-1237-14
Abstract: In order to reveal the regulation function of lncRNA on the chimeric character formation and development of the leaf of Ananas comosus var. bracteatus, Hiseq2500 sequencing and SMRT the third-generation full-length transcriptome sequencing were applyed to identify lncRNA of Ananas comosus var. bracteatus. The results were as follows: (1) A total of 6 018 lncRNA were identified, containing 3 298 intergenic lncRNA, 870 antisense lncRNA, 717 intron lncRNA and 1 109 sense lncRNA, which were greatly improved compared with the second-generation information. (2) Structural analysis showed that the overall expression level of lncRNA was lower than that of mRNA. The transcript length distribution of lncRNA in the range of 400-1 200 nt was higher than that of mRNA, while in the range > 1 600 nt, the proportion of lncRNA distribution was significantly lower than that of mRNA. The number of exons in lncRNA was generally less than that of mRNA, and the open reading frame was also shorter in length than that of mRNA. (3) For analysis of differential expression, 1 710 differentially expressed lncRNA were identified during the development of complete green and complete white leaves. (4) Target gene prediction results showed that 5 441 lncRNA were predicted target genes by Cis action, and 1 544 lncRNA were predicted target genes by Trans action. (5) Functional annotation and enrichment analysis of target genes revealed that the target genes of differentially expressed lncRNA mainly act on metabolic activities and signal transduction of leaves as enzyme proteins, and were closely related to leaf color formation, photosynthesis and leaf growth. The lncRNA information identified in this paper and, as well as the analysis of its structure and functions, provide the data basis for the study of the epigenetic regulation mechanism of lncRNA in Ananas comosus var. bracteatus and other plants in Bromeliaceae. The identified differentially expression of lncRNA plays an important role in the chimeric character formation and development of leaf of Ananas comosus var. bracteatus.
Key words: ?Ananas comosus var. bracteatus, Hiseq2500, SMRT full length transcriptome sequence, lncRNA identification
紅苞鳳梨 (Ananas comosus var. ?bracteatus)因其葉片綠白鑲嵌、花果顏色艷麗且觀賞期長(zhǎng),己成為一種重要的新型觀賞植物。紅苞鳳梨自交不親和,在生產(chǎn)中以吸芽進(jìn)行繁殖,繁殖系數(shù)低、苗木整齊度差,限制了紅苞鳳梨的規(guī)模化應(yīng)用。組織培養(yǎng)能快速繁殖紅苞鳳梨,但繁殖過(guò)程中葉片嵌合性狀不穩(wěn)定,再生植株葉片常失去嵌合性狀而變?yōu)槿G植株(曹莉,2011)。細(xì)胞白化突變是金邊嵌合葉片形成的基礎(chǔ),研究紅苞鳳梨葉片細(xì)胞白化突變的分子機(jī)理,對(duì)揭示紅苞鳳梨嵌合性狀的形成機(jī)理,提高嵌合性狀的穩(wěn)定性,培育新的嵌合性狀品種具有重要的理論和實(shí)踐意義。
本課題組前期研究結(jié)果表明,紅苞鳳梨白化細(xì)胞中葉綠素含量極顯著下降,但葉綠素合成代謝的結(jié)構(gòu)基因表達(dá)上調(diào)(Li et al.,2017;Xue et al.,2019),說(shuō)明轉(zhuǎn)錄后調(diào)控在紅苞鳳梨細(xì)胞白化失綠、金邊嵌合性狀形成中發(fā)揮了重要調(diào)控作用。lncRNA具有類似mRNA的結(jié)構(gòu)特征,可在多個(gè)層面調(diào)控目標(biāo)基因的表達(dá)??勺鳛樾盘?hào)分子、誘餌分子、引導(dǎo)分子以及支架分子,在表觀遺傳、轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控等多個(gè)水平發(fā)揮功能(Zhang et al., 2018)。目前,lncRNA在人類和動(dòng)物中研究較為廣泛,與人類疾病的發(fā)生及生物體的生長(zhǎng)發(fā)育密切相關(guān)(Johnson,2012;余鋮亮等,2015;王艷芳等,2018),而植物lncRNA的研究還處于起步階段。研究結(jié)果表明lncRNA在植物的開(kāi)花誘導(dǎo)(Csorba et al.,2014)、花粉發(fā)育(Ding et al.,2012)、逆境脅迫(Qin et al.,2017)中具有重要功能,然而其具體作用機(jī)制及調(diào)節(jié)功能等尚不清楚。由于紅苞鳳梨沒(méi)有基因組數(shù)據(jù),且Hiseq2500二代測(cè)序技術(shù)讀長(zhǎng)較短,使得紅苞鳳梨非編碼RNA的挖掘具有一定的局限性。隨著測(cè)序技術(shù)的發(fā)展,SMRT(single-molecule real-time)三代測(cè)序技術(shù)的出現(xiàn),因其無(wú)需進(jìn)行PCR擴(kuò)增,大幅降低了因PCR反應(yīng)引入的堿基錯(cuò)誤,操作更為簡(jiǎn)單等優(yōu)點(diǎn),已得到廣泛應(yīng)用(Flusberg et al.,2010)。目前,SMRT三代測(cè)序技術(shù)在基因組、甲基化識(shí)別、SNP 的鑒定、基因重測(cè)序和轉(zhuǎn)錄組學(xué)等方面的優(yōu)勢(shì)越來(lái)越明顯(Smith et al.,2012;Guo et al.,2018)。此外,SMRT測(cè)序技術(shù)得到幾千kb的數(shù)據(jù),讀長(zhǎng)顯著增長(zhǎng),大大減少了測(cè)序后的 Contig數(shù)量,使得基因組和轉(zhuǎn)錄組的組裝得到極大改善(English et al.,2012)。但是,第三代測(cè)序技術(shù)也存在一定的缺點(diǎn),測(cè)序錯(cuò)誤率普遍偏高,測(cè)序產(chǎn)生的錯(cuò)誤率可高達(dá)15%(Koren et al.,2017)。因此,采取二代測(cè)序和三代測(cè)序聯(lián)合分析已成為當(dāng)下基因組研究的主要方法。一般有兩種聯(lián)合手段,可以選擇以三代測(cè)序?yàn)橹?,進(jìn)行組裝,再通過(guò)二代測(cè)序得到的高質(zhì)量短片段對(duì)三代的數(shù)據(jù)進(jìn)行堿基糾錯(cuò)和矯正;也可以選擇以二代測(cè)序?yàn)橹?,用三代測(cè)序得到的長(zhǎng)片段Reads 進(jìn)行輔助組裝(馬建超,2018)。最為通常的手段是利用短的但準(zhǔn)確度高的二代數(shù)據(jù)去輔助校正長(zhǎng)的但準(zhǔn)確度較低的三代數(shù)據(jù),并在此基礎(chǔ)上進(jìn)行混合組裝。經(jīng)驗(yàn)證,通過(guò)這種混合組裝校正方法得到的數(shù)據(jù)準(zhǔn)確性可達(dá)99%(馬東娜等,2018)。因此,這種“2 + 3”的聯(lián)合模式已被廣泛認(rèn)可并應(yīng)用于動(dòng)物、植物和微生物的基因組研究(Koren et al.,2012;Hackl et al.,2014;徐偉南等,2018)。
本研究以紅苞鳳梨為材料,利用二代和三代測(cè)序數(shù)據(jù)混合組裝校正方法,鑒定紅苞鳳梨葉片中存在的lncRNA,分析在全綠和全白突變?nèi)~片生長(zhǎng)發(fā)育過(guò)程中差異表達(dá)的lncRNA,通過(guò)靶基因的功能注釋和富集分析,揭示lncRNA在紅苞鳳梨葉片細(xì)胞失綠白化及生長(zhǎng)發(fā)育過(guò)程中的作用。本研究結(jié)果為紅苞鳳梨lncRNA表觀遺傳調(diào)控機(jī)理研究提供數(shù)據(jù)基礎(chǔ)。
1 材料與方法
1.1 試驗(yàn)材料
本研究以金邊紅苞鳳梨莖段為外植體,通過(guò)組織培養(yǎng)獲得的全白和全綠植株為試驗(yàn)材料。選取長(zhǎng)勢(shì)均一的未展葉期、4~5葉期和10~12葉期三個(gè)發(fā)育時(shí)期的全綠及全白植株各10株的葉片作為樣本提取RNA(圖1)。樣本取下后立即轉(zhuǎn)入液氮速凍,后儲(chǔ)存于-80 ℃用于提取RNA進(jìn)行Hiseq2500二代轉(zhuǎn)錄組測(cè)序。
1.2 紅苞鳳梨RNA提取及二代Illumina Hiseq2500測(cè)序文庫(kù)構(gòu)建
1.2.1 紅苞鳳梨RNA提取及檢測(cè) 取-80 ℃凍存的紅苞鳳梨樣品,采用LABGENETM plant RNA Isolation kit多糖多酚植物RNA提取試劑盒分離總RNA,操作方法參考使用說(shuō)明。高質(zhì)量的RNA是實(shí)驗(yàn)成功的基礎(chǔ),為保證測(cè)序的準(zhǔn)確性,對(duì)樣品RNA進(jìn)行了檢測(cè),分別采用熒光定量?jī)x(Qubit 2.0)、微量分光光度計(jì)(Nanodrop)、生物分析儀(Aglient 2100)、電泳方法檢測(cè)RNA樣品的純度、濃度、完整性和是否有基因組DNA污染等,達(dá)到質(zhì)控要求的RNA樣品用于后續(xù)試驗(yàn)。
1.2.2 Illumina Hiseq2500 cDNA文庫(kù)構(gòu)建及上機(jī)測(cè)序 利用epicentre Ribo-ZeroTM試劑盒去除樣品中的rRNA。以rRNA-depleted RNA為模板,用六堿基隨機(jī)引物(random hexamers)合成cDNA第一條鏈和第二條鏈。cDNA純化后進(jìn)行末端修復(fù)、加A尾并連接測(cè)序接頭,然后用AMPure XP beads進(jìn)行片段大小選擇。降解含U鏈,通過(guò)PCR富集得到cDNA文庫(kù)。文庫(kù)構(gòu)建后,經(jīng)Qubit 2.0定量,Agilent 2100檢測(cè)文庫(kù)的insert size質(zhì)量;釆用QPCR對(duì)文庫(kù)的濃度(文庫(kù)有效濃度>2nmol·L-1)進(jìn)行準(zhǔn)確定量,完成庫(kù)檢。庫(kù)撿完成后,采用Illumina Hiseq2500平臺(tái)對(duì)文庫(kù)進(jìn)行測(cè)序。
1.3 數(shù)據(jù)質(zhì)量監(jiān)控
測(cè)序所得Reads的過(guò)濾與修剪是保證分析數(shù)據(jù)可靠性的關(guān)鍵,結(jié)合前期SMRT測(cè)序結(jié)果(Ma et al.,2018)進(jìn)行混合組裝校正后,刪除Raw Reads中包含adapter、ploy-N的Reads和低質(zhì)量的Reads以獲得Clean Reads。以菠蘿基因組(Acomosus_321_v3https://phytozome.jgi.doe.gov/pz/portal.html#!info?alias=Org_Acomosus_er)為參考基因組,利用TopHat v2.0.9(Kim et al.,2013)軟件對(duì)Clean Reads進(jìn)行比對(duì)。采用Scripture(beta2)(Langmead et al.,2009)和Cuffiinks(v2.1.1)軟件對(duì)每個(gè)樣品比對(duì)上的Reads進(jìn)行裝配獲得轉(zhuǎn)錄本。
1.4 轉(zhuǎn)錄本表達(dá)水平和編碼潛能分析
使用Cufflinks軟件的Cuffdiff組件,對(duì)轉(zhuǎn)錄本表達(dá)水平進(jìn)行分析。根據(jù)lncRNA編碼的特點(diǎn)進(jìn)行基本篩選:選擇長(zhǎng)度≥200 bp,Exon個(gè)數(shù)≥2及FPKM≥0.1的轉(zhuǎn)錄本。
因lncRNA不編碼蛋白,因此,通過(guò)對(duì)基本篩選得到的轉(zhuǎn)錄本進(jìn)行編碼潛能篩選,判斷其是否具有編碼潛能,從而可以判定該轉(zhuǎn)錄本是否為lncRNA。主要利用CPC分析、CNCI分析、CPAT分析、Pfam蛋白結(jié)構(gòu)域四種分析方法分析lncRNA的編碼能力。去掉基本篩選中具有潛在編碼能力的轉(zhuǎn)錄本,余下的即為預(yù)測(cè)的lncRNA。
通過(guò)與已知mRNA進(jìn)行比較,利用Cuff-compare分析結(jié)果中的class codes對(duì)篩選的lncRNA進(jìn)行分類。
1.5 lncRNA靶基因預(yù)測(cè)及功能富集分析
基于lncRNA與其靶基因的作用方式(cis和trans),采用兩種預(yù)測(cè)方法:第一種是根據(jù)lncRNA與mRNA的位置關(guān)系預(yù)測(cè)lncRNA的靶基因,即lncRNA 100 kb范圍內(nèi)的鄰近基因?yàn)槠浒谢?第二種是使用LncTar靶基因預(yù)測(cè)工具進(jìn)行預(yù)測(cè),其原理是利用lncRNA與mRNA之間堿基互補(bǔ)配對(duì)產(chǎn)生的作用來(lái)預(yù)測(cè)。
對(duì)差異表達(dá)IncRNA的靶基因利用KEGG(Kyoto Encyclopedia of Genesand Genomes)、GO(gene ontology)、NR (Non-Redundant Protein Sequences Database)、COG (clusters of orthologous groups of proteins)和 Swiss-Prot 數(shù)據(jù)庫(kù)進(jìn)行功能注釋和富集分析,分析結(jié)果顯著性用P值表示。
1.6 差異表達(dá)基因分析
以差異倍數(shù)(Fold Change)≥2且錯(cuò)誤發(fā)現(xiàn)率FDR(False Discovery Rate)<0.05作為差異表達(dá)的篩選標(biāo)準(zhǔn),使用EBseq分析6個(gè)樣本間差異表達(dá)的lncRNA及mRNA。
2 結(jié)果與分析
2.1 測(cè)序數(shù)據(jù)與參考基因組比對(duì)效率分析
長(zhǎng)鏈非編碼數(shù)據(jù)利用率的直接體現(xiàn)就是比對(duì)效率,即Mapped Reads占Clean Reads的百分比。經(jīng)SMRT全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)(NCBI提交號(hào)PRJNA564223)(Ma et al.,2018)修正后,6個(gè)樣品的Reads與所選參考基因組的比對(duì)效率為67.74%~78.58%,比單獨(dú)使用Hiseq2500二代測(cè)序數(shù)據(jù)的比對(duì)效率提高了約5%(藺珍,2019)(表1)。說(shuō)明三代數(shù)據(jù)的修正,有效提高了lncRNA測(cè)序數(shù)據(jù)的利用效率,有利于進(jìn)一步深入挖掘紅苞鳳梨lncRNA信息。
2.2 紅苞鳳梨lncRNA的鑒定
對(duì)測(cè)序樣品Cuffiinks的拼接結(jié)果第一步經(jīng)過(guò)Cuffcompare軟件分析合并,篩選出轉(zhuǎn)錄本長(zhǎng)度≥200 bp,外顯子個(gè)數(shù)≥2,F(xiàn)PKM ≥ 0.1的轉(zhuǎn)錄本,根據(jù)已知mRNA數(shù)據(jù)庫(kù),進(jìn)行比較過(guò)濾mRNA,然后通過(guò)CNCI、CPC、CPAT 和Pfam四個(gè)軟件進(jìn)行蛋白編碼潛能篩選,最終鑒定得到6 018條lncRNA,其中新lncRNA 5 689條(圖2)。比利用Hiseq二代測(cè)序數(shù)據(jù)鑒定到的lncRNA數(shù)量增加了約70%(藺珍,2019),極大地提高了紅苞鳳梨lncRNA的數(shù)據(jù)信息量,為進(jìn)一步研究紅苞鳳梨的非編碼RNA調(diào)控機(jī)理提供了數(shù)據(jù)基礎(chǔ)。
鑒定得到的6 018個(gè)lncRNA中,包括了3 298個(gè)基因間lncRNA(intergenic lncRNA),870個(gè)反義lncRNA(antisense lncRNA),717個(gè)內(nèi)含子lncRNA(intronic lncRNA)和1 109個(gè)正義lncRNA(sense lncRNA)(圖2:B)。與二代測(cè)序分析鑒定結(jié)果相比,intergenic lncRNA所在比例顯著提高,由17%增加到55%。而sense lncRNA所占比例顯著下降,由76%下降到18.5%(藺珍,2019)。
2.3 紅苞鳳梨lncRNA結(jié)構(gòu)分析
為了進(jìn)一步分析紅苞鳳梨lncRNA的結(jié)構(gòu)特點(diǎn),將lncRNA與蛋白質(zhì)編碼RNA在整體表達(dá)水平、序列長(zhǎng)度分布、外顯子數(shù)目分布以及開(kāi)放閱讀框長(zhǎng)度分布情況進(jìn)行了比較分析(圖3)。分析結(jié)果表明,在總體表達(dá)水平上,mRNA的表達(dá)豐度高于lncRNA的表達(dá)豐度(圖3:A)。在轉(zhuǎn)錄本的長(zhǎng)度分布上,lncRNA在400~1 200 nt區(qū)間分布比例高于mRNA(圖3:B),二代測(cè)序結(jié)果中則是表現(xiàn)在400~600 nt和1 400~1 600 nt區(qū)間(藺珍,2019);而在轉(zhuǎn)錄本長(zhǎng)度>1 600 nt區(qū)間,lncRNA分布的比例顯著小于mRNA,尤其在>=3 000 nt區(qū)間(圖3:B)。lncRNA中的外顯子數(shù)量總體少于mRNA,約82%的lncRNA只含有2個(gè)外顯子(圖3:C)。而二代測(cè)序分析中有41.80%的lncRNA只有2個(gè)外顯子,而 31.62%的mRNA的外顯子數(shù)超過(guò) 5 個(gè)(藺珍,2019)。lncRNA的開(kāi)放閱讀框長(zhǎng)度總體上也短于mRNA。約99%的lncRNA開(kāi)放閱讀框長(zhǎng)度<=100 nt(圖3:D),而二代測(cè)序分析中66%的lncRNA的開(kāi)放閱讀框在 0~100 nt之間(藺珍,2019)。
2.4 紅苞鳳梨lncRNA的差異表達(dá)分析
以Fold Change≥2.0且FDR<0.05作為篩選標(biāo)準(zhǔn),共鑒定得到了1 710個(gè)差異表達(dá)的lncRNA。對(duì)篩選出的差異表達(dá)lncRNA進(jìn)行了層次聚類分析(圖4:A)。在未展葉期,全綠和全白葉片中,大量差異表達(dá)的lncRNA表達(dá)豐度較高,在全白苗和全綠苗的發(fā)育到4~5葉期時(shí),多數(shù)差異表達(dá)的lncRNA表達(dá)水平下降。而全白苗在第三發(fā)育時(shí)期有部分差異表達(dá)lncRNA表達(dá)水平顯著上調(diào)。在三個(gè)發(fā)育時(shí)期全綠和全白葉片間顯著差異表達(dá)的lncRNA可能是紅苞鳳梨嵌合性狀形成的關(guān)鍵調(diào)控因子。
同一發(fā)育時(shí)期的全綠和全白葉片差異表達(dá)的lncRNA數(shù)量和mRNA數(shù)量見(jiàn)圖4:B。在未展葉期,差異表達(dá)lncRNA共476個(gè),其中在全白葉片中上調(diào)表達(dá)的lncRNA 192個(gè),占比約40%;差異表達(dá)的mRNA共3 911個(gè),其中上調(diào)表達(dá)的mRNA 2 152個(gè),占比55%。在4~5葉期,差異表達(dá)lncRNA共397個(gè),其中在全白葉片中上調(diào)表達(dá)的lncRNA 216個(gè),占比約54%;差異表達(dá)的mRNA共2 300個(gè),其中上調(diào)表達(dá)的1 036個(gè),占比45%。在10~12葉期,差異表達(dá)lncRNA共594個(gè),其中在全白葉片中上調(diào)表達(dá)的lncRNA 452個(gè),占比約76%;差異表達(dá)的mRNA共2 100個(gè),其中上調(diào)表達(dá)的856個(gè),占比約41%??梢钥闯?,隨著植株的生長(zhǎng),lncRNA在全綠植株與全白植株間的差異表達(dá)越發(fā)顯著,在全白植株中上調(diào)表達(dá)的lncRNA顯著增加,lncRNA的差異表達(dá)可能在綠、白葉色的差異形成過(guò)程中起著重要的調(diào)控作用。而這個(gè)過(guò)程中,差異表達(dá)的mRNA數(shù)量在減少,上調(diào)表達(dá)的基因占比也在減少。
2.5 紅苞鳳梨lncRNA靶基因預(yù)測(cè)
lncRNA調(diào)控其靶基因的方式有兩種,分為cis作用和trans作用。根據(jù)cis作用,我們將lncRNA 100 kb范圍內(nèi)的鄰近蛋白質(zhì)編碼基因?yàn)槠浒谢?,?jīng)過(guò)分析預(yù)測(cè),5 441個(gè)lncRNA通過(guò)cis作用方式預(yù)測(cè)到靶基因;trans作用是指lncRNA與mRNA由于堿基互補(bǔ)配對(duì)而產(chǎn)生作用,LncTar(Li et al.,2015)正是利用lncRNA和mRNA之間存在的互補(bǔ)配對(duì)關(guān)系進(jìn)行預(yù)測(cè),通過(guò)計(jì)算配對(duì)位點(diǎn)自由能和標(biāo)準(zhǔn)化自由能,標(biāo)準(zhǔn)化自由能閾值以下的則認(rèn)為是lncRNA的靶基因。1 544個(gè)lncRNA通過(guò)trans方式預(yù)測(cè)到靶基因。靶基因的預(yù)測(cè)可以幫助理解lncRNA的功能,揭示lncRNA在紅苞鳳梨生長(zhǎng)發(fā)育過(guò)程中的調(diào)控作用。
2.6 紅苞鳳梨差異表達(dá)lncRNA靶基因功能注釋和富集分析
2.6.1 差異表達(dá)lncRNA順式靶基因功能注釋和富集分析 對(duì)差異表達(dá)lncRNA的順式靶基因進(jìn)行了COG、GO、KEGG、KOG、NR和Swiss-Prot功能富集分析,富集分析結(jié)果如表2所示。
GO數(shù)據(jù)庫(kù)是一個(gè)結(jié)構(gòu)化的標(biāo)準(zhǔn)生物學(xué)注釋系統(tǒng),在GO分析中,基因注釋在三個(gè)層次上,即生物過(guò)程(biological process)、分子功能(molecular function)和細(xì)胞組分(cellular component)(圖5)。在未展葉期,差異表達(dá)lncRNA的靶基因主要富集在生物過(guò)程中的生物相、節(jié)律過(guò)程和移動(dòng),細(xì)胞組分方面的細(xì)胞外基質(zhì)和類核,分子功能方面的營(yíng)養(yǎng)庫(kù)活性、蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥(niǎo)苷酸交換因子活性。在4~5葉期,差異表達(dá)lncRNA的靶基因主要富集在細(xì)胞組分的類核和分子功能的蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥(niǎo)苷酸交換因子活性。在10~12葉期,差異表達(dá)lncRNA的靶基因主要富集在生物過(guò)程中的生物粘附、節(jié)律過(guò)程和移動(dòng),分子功能的營(yíng)養(yǎng)庫(kù)活性、蛋白質(zhì)結(jié)合轉(zhuǎn)錄因子活性、鳥(niǎo)苷酸交換因子活性。
在生物體內(nèi),不同的基因產(chǎn)物相互協(xié)調(diào)以執(zhí)行生物學(xué)功能,在GO分析基礎(chǔ)上,對(duì)差異表達(dá)lncRNA反式靶基因的信號(hào)通路注釋分析能夠進(jìn)一步解讀基因的功能(圖7)。在未展葉期,全綠葉片與全白葉片間的差異表達(dá)lncRNA的靶基因主要富集在核糖體、碳代謝、氧化磷酸化、淀粉和糖代謝、氨基酸代謝、脂類代謝等這些基礎(chǔ)代謝和植物激素信號(hào)轉(zhuǎn)錄通路上。同時(shí),在卟啉和葉綠素代謝途徑中也富集了7個(gè)差異表達(dá)基因。在4~5葉期,差異表達(dá)lncRNA的靶基因主要富集在碳代謝、氧化磷酸化、氨基酸代謝、核糖體這些基礎(chǔ)代謝上。同時(shí),也富集在植物激素信號(hào)轉(zhuǎn)導(dǎo)、嘌呤代謝、內(nèi)質(zhì)網(wǎng)蛋白過(guò)程、RNA降解、光合作用、淀粉和糖代謝方面。在10~12葉期,差異表達(dá)lncRNA的靶基因主要富集在核糖體、 碳代謝、 氨基酸代謝、氧化磷酸化、內(nèi)質(zhì)網(wǎng)蛋白過(guò)程、嘌呤代謝、RNA降解、RNA轉(zhuǎn)運(yùn)等方面,在卟啉和葉綠素合成代謝途徑、光合作用途徑中也富集了差異表達(dá)基因。與二代測(cè)序結(jié)果(藺珍,2019)對(duì)比發(fā)現(xiàn),聯(lián)合測(cè)序分析增加的靶基因主要富集在碳代謝、氨基酸代謝、氧化磷酸化、RNA降解等通路上。差異表達(dá)基因的富集結(jié)果充分說(shuō)明lncRNA參與了紅苞鳳梨葉片色素的合成、光合作用、物質(zhì)代謝、生長(zhǎng)發(fā)育調(diào)控等生理過(guò)程的調(diào)控。
2.6.2 差異表達(dá)lncRNA反式靶基因功能注釋和富集分析 對(duì)差異表達(dá)lncRNA反式靶基因進(jìn)行COG、GO、KEGG、KOG、NR和Swiss-Prot功能富集分析,富集分析結(jié)果如表3所示。
功能注釋和富集分析結(jié)果表明,差異表達(dá)lncRNA反式靶基因功能注釋到的基因數(shù)量不多,在葉片發(fā)育過(guò)程中,全綠和全白葉片間差異表達(dá)lncRNA順式靶基因主要富集在核糖體、碳代謝、氨基酸的生物合成、氧化磷酸化、內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工以及淀粉與蔗糖代謝等方面;而差異表達(dá)lncRNA反式靶基因主要富集在TCA循環(huán)、淀粉和糖代謝、氨基糖和核糖代謝、RNA降解、氨基酸代謝等方面。兩類lncRNA在不同的生理代謝過(guò)程中發(fā)揮著調(diào)控作用。
3 討論與結(jié)論
植物葉色嵌合體嵌合性狀明顯,嵌合方式多樣且易于觀察,是研究植物生長(zhǎng)發(fā)育以及遺傳育種的優(yōu)良材料。對(duì)植物葉色嵌合體的研究,己經(jīng)成為嵌合體研究的重要方向,深入研究植物嵌合體形成機(jī)理,對(duì)于植物生長(zhǎng)發(fā)育過(guò)程中細(xì)胞間的相互作用、植物嵌合性狀穩(wěn)定繁殖以及植物遺傳育種具有十分重要的意義。紅苞鳳梨葉花果具有艷麗的顏色,是重要的新型觀賞植物,是研究葉色鑲嵌形成機(jī)理的理想材料。葉肉細(xì)胞的白化突變是金邊嵌合葉色形成的基礎(chǔ)和關(guān)鍵環(huán)節(jié),是多基因協(xié)同作用的結(jié)果。嵌合性狀的形成與穩(wěn)定,與基因表達(dá)的有序調(diào)控是密切相關(guān)的。前期研究表明,轉(zhuǎn)錄后調(diào)控在紅苞鳳梨金邊嵌合性狀形成過(guò)程中具有重要作用,而lncRNA可在表觀遺傳調(diào)控、轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控等水平發(fā)揮功能,構(gòu)建紅苞鳳梨lncRNA表達(dá)譜,揭示lncRNA的調(diào)控機(jī)制對(duì)于明確紅苞鳳梨金邊嵌合性狀形成機(jī)理具有重要意義。由于紅苞鳳梨基因組信息的缺乏,lncRNA的鑒定分析以二代轉(zhuǎn)錄組測(cè)序數(shù)據(jù)為基礎(chǔ),以菠蘿基因組作為參考基因組進(jìn)行分析。紅苞鳳梨與菠蘿為同屬同種不同變種植物,親緣關(guān)系很近(Bartholomew et al.,2003),采用菠蘿基因組數(shù)據(jù)作為參考基因組能有效鑒定紅苞鳳梨的lncRNA,為紅苞鳳梨的表觀遺傳調(diào)控研究提供基礎(chǔ)數(shù)據(jù)。而二代測(cè)序技術(shù)由于其讀長(zhǎng)短,不能提供完整的轉(zhuǎn)錄本(Koren et al.,2012),很難正確預(yù)測(cè)基因的結(jié)構(gòu)(Coghlan et al.,2008)。SMRT全長(zhǎng)轉(zhuǎn)錄組測(cè)序克服了二代測(cè)序讀長(zhǎng)短的缺點(diǎn),是研究基因結(jié)構(gòu)、基因功能和比較基因組學(xué)的基本方法(Sharon et al.,2013;Luo et al.,2017)。本研究采用SMRT全長(zhǎng)轉(zhuǎn)錄組測(cè)序數(shù)據(jù)和二代測(cè)序數(shù)據(jù)混合組裝修正后進(jìn)行l(wèi)ncRNA分析,以提高lncRNA分析的準(zhǔn)確性。
經(jīng)混合組裝校正后的Clean Reads比對(duì)到菠蘿參考基因組,比對(duì)效率達(dá)到67.74%~78.58%,比二代數(shù)據(jù)分析提高了約5%,有效地提高了長(zhǎng)鏈非編碼數(shù)據(jù)的利用率(藺珍,2019)。經(jīng)CPC分析、CNCI分析、CPAT分析、pfam蛋白結(jié)構(gòu)域分析,共鑒定得到6 018個(gè)lncRNA,比之前鑒定得到的lncRNA數(shù)量提高了約70%,極大地豐富了紅苞鳳梨lncRNA數(shù)據(jù)庫(kù),為紅苞鳳梨表觀遺傳調(diào)控的研究提供了基礎(chǔ)數(shù)據(jù)。在鑒定得到的6 018個(gè)lncRNA中,最多的是intergenic lncRNA,占比約55%,比之前結(jié)果提高了約2倍。而sense lncRNA的數(shù)量極顯著下降,由之前的75%下降到18.5%(藺珍,2019)。本次分析結(jié)果中4種lncRNA的數(shù)量分布與玉米(Zea mays)(Wang et al.,2016)基本相似,修正了之前分析結(jié)果中,sense lncRNA比例太高的情況。SMRT全長(zhǎng)轉(zhuǎn)錄組測(cè)序數(shù)據(jù)與lncRNA二代轉(zhuǎn)錄組測(cè)序數(shù)據(jù)的聯(lián)合分析,有效地提高了lncRNA測(cè)序數(shù)據(jù)的利用效率,很大程度上彌補(bǔ)了以近緣種菠蘿基因組作為參考基因組鑒定lncRNA所帶來(lái)的缺陷,鑒定得到的lncRNA數(shù)量極顯著提高,豐富了紅苞鳳梨lncRNA數(shù)據(jù)庫(kù)信息。聯(lián)合分析結(jié)果中,修正了4種lncRNA數(shù)量分布的異常,提高了lncRNA鑒定結(jié)果的準(zhǔn)確性,有效地提高了后期相關(guān)研究的可行性和可靠性。lncRNA和mRNA序列結(jié)構(gòu)對(duì)比分析表明,與編碼基因相比,lncRNA具有表達(dá)豐度較低、序列長(zhǎng)度較短、外顯子數(shù)目較少、ORF長(zhǎng)度較短等結(jié)構(gòu)特點(diǎn)。這與斑馬魚(yú)(Brachydanio rerio)(高霄霄,2017)、臭橘(Poncirus trifoliata)(Wang et al.,2017)、楊樹(shù)(Populus)(田凈凈,2016)的分析結(jié)果一致,說(shuō)明lncRNA的這些結(jié)構(gòu)特征在生物中具有普遍性。
lncRNA靶基因的預(yù)測(cè)以及靶基因的功能注釋和富集分析,是研究lncRNA功能的重要途徑(藺珍,2019)。本研究中GO和KEGG聯(lián)合分析結(jié)果表明,在葉片發(fā)育的三個(gè)時(shí)期,差異表達(dá)lncRNA的靶基因注釋到了葉片生長(zhǎng)發(fā)育的多個(gè)方面,包括了碳代謝、氨基酸代謝、脂代謝、核糖體、淀粉和糖代謝等這些基礎(chǔ)代謝方面,也包括了植物激素信號(hào)轉(zhuǎn)導(dǎo)等調(diào)控機(jī)制方面。在未展葉期,差異表達(dá)lncRNA的靶基因注釋到了卟啉和葉綠素代謝途徑,說(shuō)明在葉片發(fā)育的早期,全綠和全白葉片的葉綠素合成代謝就已出現(xiàn)差異,從而導(dǎo)致了葉片顏色的差異。在4~5葉期和10~12葉期,光合作用途徑富集了差異表達(dá)基因,說(shuō)明由于葉片的失綠白化,光合作用受到抑制,相關(guān)基因差異表達(dá)。同時(shí),由于光合作用能力的差異,全綠和全白葉片在各個(gè)生理代謝方面都表現(xiàn)出差異,在很多基礎(chǔ)代謝、調(diào)控途徑、核酸代謝等方面都富集了差異表達(dá)基因。這些基因表達(dá)模式說(shuō)明,lncRNA對(duì)靶基因表達(dá)的調(diào)控作用可能在紅苞鳳梨葉片發(fā)育早期葉綠素合成代謝差異以及后期光合作用差異和其他生理代謝差異方面都起著重要的調(diào)控作用。本研究鑒定出的相關(guān)差異表達(dá)lncRNA信息,為進(jìn)一步研究lncRNA對(duì)靶基因的調(diào)控作用及靶基因在紅苞鳳梨葉片失綠白化突變機(jī)制,以及全面揭示紅苞鳳梨金邊嵌合體形成的機(jī)理提供了重要的數(shù)據(jù)基礎(chǔ)。
參考文獻(xiàn):
BARTHOLOMEW DP, PAULL RE, ROHRBACH KG, 2003, The pineapple: Botany, production and uses [M]. Wallingford: CABI Publishing.
CAO L, 2011. A study on in vitro culture of chimera cultivars of Ananas bracteatus schultes and their stability of chimeric traits [D]. Guangzhou: South China Agricultural University: 1-57. [曹莉, 2011. 紅苞鳳梨嵌合體品種離體培養(yǎng)及其穩(wěn)定性的研究 [D]. 廣州: 華南農(nóng)業(yè)大學(xué): 1-57.]
CSORBA T, QUESTA JI, SUN Q, et al., 2014. Antisense COOLAIR mediates the coordinated switching of chromatin states at FLC during vernalization [J]. Proc Natl Acad Sci USA, 111(45): 16160-16165.
COGHLAN A, FIEDLER TJ, MCKAY SJ, et al., 2008. nGASP—the nematode genome annotation assessment project [J]. BMC Bioinformatics, 9: 549DOI 10.1186/1471-2105-9-549.
DING JH, LU Q, OUYANG YD, et al., 2012. A long noncoding RNA regulates photoperiod-sensitive male sterility, an essential component of hybrid rice [J]. Proc Natl Acad Sci USA, 109(7): 2654-2659.
ENGLISH AC, RICHARDS S, HAN Y, et al., 2012. Mind the gap: Upgrading genomes with Pacific biosciences RS long-read sequencing technology [J]. PLoS ONE, 7(11): e47768.
FLUSBERG BA, WEBSTER DR, LEE JH, et al., 2010. Direct detection of DNA methylation during single-molecule, real-time sequencing [J]. Nat Methods, 7(6): 461-465.
FINN RD, BATEMAN A, CLEMENTS J, et al., 2014. Pfam: The protein families database [J]. Nucl Acid Res, 42(Database issue): D222-D230.
GUO F, WANG D, WANG LS, 2018. Progressive approach for SNP calling and haplotype assembly using single molecular sequencing data [J]. Bioinformatics, 34(12): 2012-2018.
GAO XX, 2017. Screening and identification of long noncoding RNAs in thepubertal female goats [D]. Hefei: Anhui Agricultural University: 1-39. [高霄霄, 2017. 初情期雌性山羊 lncRNA 的篩選與鑒定 [D]. 合肥: 安徽農(nóng)業(yè)大學(xué): 1-39.]
HACKL T, HEDRICH R, SCHULTZ J, et al., 2014. Proovread: Large-scale high-accuracy PacBio correction through iterative short read consensus [J]. Bioinformatics, 30(21):3004-3011.
JOHNSON R, 2012. Long non-coding RNAs in Huntingtons disease neurodegeneration [J]. Neurobiol Disease, 46(2):245-254.
KOREN S, WALENZ BP, BERLIN K, et al., 2017. Canu: Scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation [J]. Genome Res, 27(5):722-736.
KOREN S, SCHATZ MC, WALENZ BP, et al., 2012. Hybrid error correction and de novo assembly of single-molecule sequencing reads [J]. Nat Biotechnol, 30(7): 693-700.
KIM D, PERTEA G, TRAPNELL C, et al., 2013. TopHat2: Accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions [J]. Genome Biol, 14(4): R36.
KONG L, ZHANG Y, YE ZQ, et al., 2007. CPC: Assess the protein-coding potential of transcripts using sequence features and support vector machine [J]. Nucl Acid Res, 35(Web Server issue): W345-W349.
KOREN S, SCHATZ MC, WALENZ BP, et al., 2012. Hybrid error correction and de novo assembly of single-molecule sequencing reads [J]. Nat Biotechnol, 30(7): 693-700 DOI 10.1038/nbt.2280.
LIN Z, 2019. Identification of A. comosus var. bracteatus lncRNAs and functional verification of lncABCG11 [D]. Yaan: Sichuan Agricultural University: 1-113 [藺珍, 2019. 紅苞鳳梨lncRNAs的鑒定及l(fā)ncABCG11的功能驗(yàn)證 [D]. 雅安: 四川農(nóng)業(yè)大學(xué): 1-113.]
LI X, KANAKALA S , HE YH, et al., 2017. Physiological characterization and comparative transcriptome analysis of white and green leaves of Ananas comosus var. bracteatus [J]. PLoS ONE, 12(1): e0169838.
LANGMEAD B, TRAPNELL C, POP M, et al., 2009. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome [J]. Genome Biol, 10(3): R25.
LI JW, MA W, ZENG P, et al., 2015. LncTar: A tool for predicting the RNA targets of long noncoding RNAs [J]. Brief Bioinform, 16(5): 806-812.
LUO YH, DING N, SHI X, et al., 2017. Generation and comparative analysis of full-length transcriptomes in sweetpotato and its putative wild ancestor I. trifida [J]. BioRxiv, https://doi.org/10.1101/112425
MA DN, ZHANG XT, WEI LF, et al., 2018. Benchmarking hybrid correction and assembly using short Illumina reads and long pac bio reads [J]. Genom Appl Biol, 37(4):1547-1555. [馬東娜, 張興坦, 魏柳鋒, 等, 2018. 基因組二代測(cè)序數(shù)據(jù)與三代測(cè)序數(shù)據(jù)的混合校正和組裝 [J]. 基因組學(xué)與應(yīng)用生物學(xué), 37(4): 1547-1555.]
MA J, XIANG YX, XIONG YY, et al., 2018. SMRT sequencing analysis reveals the full-length transcripts and alternativesplicing patterns in ?Ananas comosus var.bracteatus [J]. Peer J, 7: e7062
MA JC, 2018. Genome sequence of a widely cultivated poplar and its lnc RNAs response to salt stress [D].Lanzhou: Lanzhou University: 1-82. [馬建超, 2018. 新疆楊基因組及其lncRNA響應(yīng)鹽脅迫的研究 [D]. 蘭州: 蘭州大學(xué): 1-82.]
QIN T, ZHAO HY, CUI P, et al., 2017. A nucleus-localized long non-coding RNA enhances drought and salt stress tolerance [J]. Plant Physiol, 175(3): 1321-1336.
SMITH CC, WANG Q, CHIN CS, et al., 2012. Validation of ITD mutations in FLT3 as a therapeutic target in human acute myeloid leukaemia [J]. Nature, 485(7397): 260-263.
SUN L, LUO HT, BU DC, et al., 2013. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts [J]. Nucl Acid Res, 41(17): e166.
SHARON D, TILGNER H, GRUBERT F, et al., 2013. A single-molecule long-readsurvey of the human transcriptome [J]. Nat Biotechnol, 31:1009-1014. DOI: 10.1038/nbt.2705.
TRAPNELL C, WILLIAMS BA, PERTEA G, et al., 2010. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation [J]. Nat Biotechnol, 28(5): 511-515.
TIAN JJ, 2016. The application of CRISPR/Cas9 system in the zebrafish gene editing [D]. Yangzhou: Yangzhou University: 1-68. [田凈凈, 2016CRISPR/Cas9 系統(tǒng)在斑馬魚(yú)基因編輯研究中的應(yīng)用 [D]. 揚(yáng)州: 揚(yáng)州大學(xué): 1-68.]
WANG YF,SU WY, ZHANG L, et al., 2018. Advances of long non-coding RNA in plants [J]. Acta Bot Boreal-Occident Sin, (3): 582-588. [王艷芳, 蘇婉玉, 張琳, 等, 2018. 植物中l(wèi)ncRNAs的研究進(jìn)展 [J]. 西北植物學(xué)報(bào), (3): 582-588.]
WANG LG, PARK HJ, DASARI S, et al., 2013. CPAT: Coding-potential assessment tool using an alignment-free logistic regression model [J]. Nucl Acid Res, 41(6): e74.
WANG B , TSENG E , REGULSKI M , et al., 2016. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing [J]. Nat Comm, 7: 11708.
WANG CY, LIU SR, ZHANG XY, et al., 2017. Genome-wide screening and characterization of long non-coding RNAs involved in flowering development of trifoliate orange (Poncirus trifoliata L. Raf.) [J]. Sci Rep, 7: 43226.
XIONG YY, MA J, HE YH , et al., 2018. High-throughput sequencing analysis revealed the regulation patterns of small RNAs on the development of Ananas comosus var. bracteatus leaves [J]. Sci Rep, 8(1):1947.
XIONG YY, 2019. MicroRNAs identification and screening and functional verification of key microRNAs involved in the albino of Ananas comosus var. ?bracteatus [D]. Yaan: Sichuan Agricultural University: 1-95. [熊穎媛, 2019. 紅苞鳳梨microRNA的鑒定及白化關(guān)鍵microRNA的篩選與功能驗(yàn)證 [D]. 雅安: 四川農(nóng)業(yè)大學(xué): 1-95.]
XUE YB, MA J, HE YH, et al., 2019. Comparative transcriptomic and proteomic analyses of the green and white parts of chimeric leaves in Ananas comosus var. bracteatus [J]. PeerJ, 7: e7261.
XU WN, HUANG RM, LIU YY, et al., 2018. Genome sequencing and assembly strategy analyses of Flammulina filiformis [J]. Mycosystema, 37(12): 1578-1585. [徐偉南, 黃蓉梅, 劉媛媛, 等, 2018. 金針菇基因組測(cè)序與組裝策略分析 [J]. 菌物學(xué)報(bào), 37(12): 1578-1585.]
YU CL, LUO L, LIAO Q, 2015. Annotation and functional prediction of lncRNAs [J]. Chin J Biochem Mol Biol, (3): 239-243. [余鋮亮, 駱亮, 廖奇, 2015. lncRNAs功能注釋和預(yù)測(cè) [J]. 中國(guó)生物化學(xué)與分子生物學(xué)報(bào), (3): 239-243.]
ZHANG YW, TAO Y, LIAO Q, 2018. Long noncoding RNA: A crosslink in biological regulatory network [J]. Brief Bioinform, 19(5): 930-945.
(責(zé)任編輯 李 莉)