張賢,王建紅,喻曼,曹凱,莊俐,徐昌旭,曹衛(wèi)東
?
基于RNA-seq的能源植物芒轉(zhuǎn)錄組分析
張賢1,王建紅1,喻曼1,曹凱1,莊俐1,徐昌旭2,曹衛(wèi)東3
1 浙江省農(nóng)業(yè)科學(xué)院環(huán)境資源與土壤肥料研究所,浙江 杭州 310021 2 江西省農(nóng)業(yè)科學(xué)院土壤肥料與資源環(huán)境研究所,江西 南昌 330200 3 中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所,北京 100081
張賢, 王建紅, 喻曼, 等. 基于RNA-seq的能源植物芒轉(zhuǎn)錄組分析. 生物工程學(xué)報(bào), 2015, 31(10): 1437–1448.Zhang X, Wang JH, Yu M, et al. Transcriptome analysis of bioenergy plant Miscanthus sinensis Anderss by RNA-Seq. Chin J Biotech, 2015, 31(10): 1437–1448.
芒(Anderss)是多年生C4草本植物,可為能量和纖維素產(chǎn)品生產(chǎn)提供高品質(zhì)的木質(zhì)纖維素材料,是一種理想的能源植物。采用Illumina HiSeq? 2000 高通量測(cè)序技術(shù),對(duì)芒花芽和葉芽進(jìn)行轉(zhuǎn)錄組分析。經(jīng)拼接組裝共獲得98 326個(gè)Unigene,序列平均長(zhǎng)度822 bp, N50為1 337 bp。將Unigene 序列與NR、NT、Swiss-Prot、KEGG、GO和COG數(shù)據(jù)庫(kù)進(jìn)行比對(duì) (Evalue<1e-5),共有74 134 條Unigene 獲得了基因注釋,占總Unigene的75.40%。其中,通過(guò)GO功能分類,45 507個(gè)Unigene映射到GO不同的功能節(jié)點(diǎn)上;通過(guò)KEGG pathways分析,共有36 710個(gè)Unigene參與了128個(gè)代謝通路;比對(duì)到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%),共占所有同源序列的92.02%。此外,獲得了芒C4關(guān)鍵酶相關(guān)基因24個(gè)。這些注釋信息的完成為芒功能基因及相關(guān)候選基因的發(fā)掘提供了重要依據(jù)。
芒,轉(zhuǎn)錄組,RNA-seq,基因注釋
芒 (Anderss),禾本科黍亞科,原產(chǎn)于東亞,是一種具有木質(zhì)地下莖的多年生C4草本植物,自然分布從東南亞到中國(guó)、日本,直至玻利尼西亞,有一些種在非洲也有生長(zhǎng)[1]。芒植株高大,莖稈粗壯,根莖發(fā)達(dá),具有產(chǎn)量高[2],光照、水分和氮素利用率高[3],不易受病蟲(chóng)害侵染等特點(diǎn),對(duì)不適于糧食作物生產(chǎn)的邊際土地適應(yīng)性強(qiáng)[4-5],可為能量和纖維素產(chǎn)品生產(chǎn)提供高品質(zhì)的木質(zhì)纖維素材料,是一種理想的能源植物[6-7]。作為一種新興作物,芒基因資源及遺傳改良的資料還非常有限[8-9],至今芒基因組學(xué)的研究仍十分缺乏,嚴(yán)重阻礙了芒的遺傳改良[10],對(duì)于該作物基因資源的研究也有待進(jìn)一步深入。我國(guó)是世界芒的多樣性中心,但大量?jī)?yōu)良的種質(zhì)資源尚處于野生狀態(tài),未被馴化栽培,豐富的基因資源沒(méi)有被有效利用。
轉(zhuǎn)錄組測(cè)序技術(shù) (又稱RNA-Seq)可以在沒(méi)有完整基因組序列的前提下,研究所有的mRNA 轉(zhuǎn)錄本的豐度信息,發(fā)掘新的轉(zhuǎn)錄本和可變剪接體[11-12],且可以得到定量更準(zhǔn)確、分析更可靠、重復(fù)性更高及檢測(cè)范圍更廣的結(jié)果[13]。
選取我國(guó)野生芒種質(zhì)資源,運(yùn)用RNA-Seq技術(shù),對(duì)芒花芽和葉芽轉(zhuǎn)錄組進(jìn)行測(cè)序,測(cè)序得到的大量Unigene 進(jìn)行GO、COG 和KEGG 分類統(tǒng)計(jì),給出功能注釋和Pathway 注釋。研究旨在挖掘我國(guó)野生芒種質(zhì)中的珍貴基因資源,發(fā)現(xiàn)芒控制優(yōu)良性狀的重要功能基因,為芒的基因改良提供理論依據(jù)和物質(zhì)基礎(chǔ)。
野生芒種質(zhì)資源采集于浙江省臨安市郊區(qū),生境為林緣邊際土地,于孕蕾期在其生長(zhǎng)地直接取花芽和葉芽,分別經(jīng)液氮速凍后儲(chǔ)存于–70 ℃超低溫冰箱備用。
1.2.1 文庫(kù)構(gòu)建及測(cè)序
采用通用植物總RNA 提取試劑盒提取芒花芽和葉芽總RNA,瓊脂糖凝膠電泳檢測(cè)RNA 完整性,Agilent 2100 Bioanalyzer檢測(cè)總RNA 濃度。用帶有Oligo(dT) 的磁珠富集mRNA;加入片段化緩沖液將mRNA打斷成短片段,以打斷后的mRNA為模板合成一鏈cDNA,然后加入緩沖液、dNTPs、RNase H和DNA polymeraseⅠ配制二鏈合成反應(yīng)體系合成二鏈cDNA,經(jīng)過(guò)PCR 擴(kuò)增,建立測(cè)序文庫(kù);構(gòu)建好的文庫(kù)用Agilent 2100 Bioanalyzer和ABI StepOnePlus Real-Time PCR System質(zhì)檢合格后,使用Illumina HiSeq? 2000進(jìn)行測(cè)序。
1.2.2 數(shù)據(jù)分析
對(duì)測(cè)序后得到的原始數(shù)據(jù)total Raw reads進(jìn)行質(zhì)量分析,去除重復(fù)、含接頭、測(cè)序質(zhì)量低的reads,獲得Clean reads。使用短reads組裝軟件Trinity[10]做轉(zhuǎn)錄組從頭組裝。首先將具有一定長(zhǎng)度重疊的reads連成更長(zhǎng)的片段,通過(guò)reads重疊關(guān)系得到的組裝片段Contig。然后,將reads比對(duì)回Contig,通過(guò)paired-end reads確定來(lái)自同一轉(zhuǎn)錄本的不同Contig以及這些Contig之間的距離,Trinity將這些Contig連在一起,最后得到兩端不能再延長(zhǎng)的序列,即為Unigene。
1.2.3 功能注釋
利用Blastx 將Unigene 序列與NR (Non-redundant Protein Sequence Database in GenBank)、Swiss-Prot (Swiss-Prot Protein Sequence Database)、KEGG (Kyoto Encyclopedia of Genes and Genomes)和COG (Cluster of Orthologous Groups of proteins) 數(shù)據(jù)庫(kù)進(jìn)行比對(duì) (Evalue<1e-5),獲取與Unigene 具有最高序列相似性的蛋白,從而得到該Unigene 的蛋白功能注釋信息。根據(jù)NR 注釋信息,使用Blast2GO 軟件進(jìn)行GO 注釋,得到每個(gè)Unigene 的GO 信息后,用WEGO 軟件進(jìn)行GO 功能分類統(tǒng)計(jì)。
按Nr、SwissProt、KEGG、COG 的優(yōu)先級(jí)順序?qū)nigene 序列與以上蛋白庫(kù)進(jìn)行Blastx比對(duì)(Evalue<1e–5),取比對(duì)結(jié)果中等級(jí)最高的蛋白確定該Unigene的編碼區(qū)序列,然后根據(jù)標(biāo)準(zhǔn)密碼子表將編碼區(qū)序列翻譯成氨基酸序列,從而得到該Unigene編碼區(qū)的核酸序列 (序列方向5'–3') 和氨基酸序列。最后,跟以上蛋白庫(kù)皆比對(duì)不上的Unigene我們用軟件ESTScan預(yù)測(cè)其編碼區(qū),得到其編碼區(qū)的核酸序列 (序列方向5'–3') 和氨基酸序列。
芒花芽和葉芽文庫(kù)測(cè)序得到的Raw reads 及去除雜質(zhì)過(guò)濾之后的Clean reads 統(tǒng)計(jì)見(jiàn)表1,后續(xù)分析均基于Clean reads?;ㄑ亢腿~芽分別生成68 136 340個(gè)和68 452 222個(gè)Clean reads,總數(shù)量均高于68 M。花芽和葉芽Q20分別為97.78%和97.62%,Q20 比例大于80%,N 均為0.01%,比例小于0.5%,GC 比例為49.73%和51.43%,在35%–65%之間,結(jié)果表明測(cè)序質(zhì)量較好,滿足下一步分析的要求。
經(jīng)過(guò)Trinity 從頭組裝,芒花芽和葉芽測(cè)序文庫(kù)分別獲得重疊群Contig、Unigene及All-Unigene?;ㄑ亢腿~芽各獲得180 118個(gè)和159 514個(gè)Contig(表2),平均長(zhǎng)度分別為314 nt和319 nt,花芽Contig個(gè)數(shù)高于葉芽;經(jīng)過(guò)拼接最終獲得98 326個(gè)All-Unigene,總長(zhǎng)度 80 794 573 nt,平均長(zhǎng)度822 nt,N50長(zhǎng)1 337 nt。
組裝序列長(zhǎng)度是組裝質(zhì)量的一個(gè)評(píng)估標(biāo)準(zhǔn)。對(duì)組裝出來(lái)的All-Unigene 進(jìn)行長(zhǎng)度分布特征分析 (表3)。All-Unigene 的長(zhǎng)度均大于 200 bp,長(zhǎng)度為100–500 bp 的Unigene 所占比例最大,約占50.67%;長(zhǎng)度大于1 000 bp 的Unigene比例達(dá)到28.3%。與花芽和葉芽相比,進(jìn)一步組裝后的All-Unigene短序列減少了,而長(zhǎng)序列分布增多。
表1 測(cè)序產(chǎn)量統(tǒng)計(jì)表
表2 組裝長(zhǎng)度統(tǒng)計(jì)
表3 Unigene長(zhǎng)度分布
為了預(yù)測(cè)Unigene功能,分別將Unigene與主要的生物學(xué)數(shù)據(jù)庫(kù)NR、NT、SwissProt、KEGG、COG、GO 庫(kù)進(jìn)行比對(duì)。通過(guò)Blast 搜索比對(duì) (表4),共有74 134 條Unigene 獲得了基因注釋,占All-Unigene的75.40%;有24 192 條Unigene (24.6%) 未被注釋。NT數(shù)據(jù)庫(kù)比對(duì)注釋的信息最多,注釋了70 122 條Unigene,COG 注釋的信息最少,僅23 653 條Unigene得到了注釋。在與蛋白數(shù)據(jù)庫(kù)有同源比對(duì)信息的Unigene中,比對(duì)到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%) 占所有同源序列的92.02%;其中,相似性95%以上的19 009個(gè),80%–95%的2 577個(gè),60%–80%的8 997個(gè),相似性60%以上的占總注釋Unigene數(shù)的85%以上。
將Unigene和COG數(shù)據(jù)庫(kù)比對(duì),對(duì)其所編碼的蛋白進(jìn)行直系同源分類。23 653條All-Unigene被分成了25個(gè)類別 (圖1)。其中,比對(duì)到一般功能預(yù)測(cè) (General function prediction only) 的基因數(shù)量最多 (8 506,35.96%),其次是未知功能基因 (Function unknown) (6 275,26.53%),轉(zhuǎn)錄 (Transcription)(5 958,25.19%)及復(fù)制、重組和修復(fù) (Replication, recombination and repair) (5 487,23.20 %);而參與核酸結(jié)構(gòu) (Nuclear structure) (10,0.04%)和細(xì)胞外結(jié)構(gòu) (Extracellular structures) (40,0.17%) 分類的基因數(shù)目較少。
GO (Gene ontology) 是一個(gè)國(guó)際標(biāo)準(zhǔn)化的基因功能分類體系,根據(jù)NR數(shù)據(jù)庫(kù)注釋的信息,有45 507條All-Unigene映射到GO不同的功節(jié)點(diǎn) (Term) 上,使用Blast2GO軟件將這些注釋的基因按照基因的分子功能 (Molecular function)、參與的生物過(guò)程 (Biological process)和所處的細(xì)胞位置 (Cellular component) 進(jìn)行分類 (圖2),從宏觀上認(rèn)識(shí)芒基因功能分布特征,全方位地注釋基因信息。由于經(jīng)常存在同一個(gè)轉(zhuǎn)錄本映射到不同節(jié)點(diǎn)現(xiàn)象,所以共有135 445條All-Unigene歸入生物學(xué)過(guò)程,其中,參與細(xì)胞過(guò)程 (Cellular process)(25 147,55.26%)和代謝過(guò)程 (Metabolic process)(25 361,55.73%) 的Unigene最多,均占55%以上;有127 037條All-Unigene歸入到細(xì)胞組分,細(xì)胞 (Cell) (32 798,72.07%) 和細(xì)胞構(gòu)成 (Cell part) (32 798,72.07%) Unigene最多,其次是細(xì)胞器 (Organelle)(28 377,62.36%);52 742條All-Unigene歸入分子功能,其中結(jié)合 (Binding)(24 070,52.89%) 和催化活性 (Catalytic activity)(21 759,47.81%) 最高,其余所占比例均在10%以下。
表4 注釋結(jié)果統(tǒng)計(jì)
圖1 COG功能分類表
圖2 GO分類圖
為了系統(tǒng)分析測(cè)序所得到轉(zhuǎn)錄本在芒花和葉片形成過(guò)程中參與的代謝途徑以及這些基因產(chǎn)物的功能,將Unigene比對(duì)到KEGG數(shù)據(jù)庫(kù),發(fā)現(xiàn)共有36 710個(gè)Unigene參與了128個(gè)代謝通路 (表5)。其中參與代謝途徑 (Metabolic pathways) 的轉(zhuǎn)錄本最多(共9 628個(gè),占比對(duì)總數(shù)的26.23%),其次是參與RNA 轉(zhuǎn)運(yùn)的轉(zhuǎn)錄本5 066個(gè)(13.8%),而參與mRNA surveillance 途徑4 305 (11.73%) 的轉(zhuǎn)錄本位居三。
分離和鑒定芒C4核心酶基因,是深入了解和調(diào)控芒生長(zhǎng)發(fā)育重要方法。通過(guò)同源性搜索比對(duì),在測(cè)序結(jié)果中獲得了芒基因中C4重要的酶基因。其中,功能注釋為碳酸酐酶 (Carbonic anhydrase) 的Unigene 5個(gè),磷酸烯醇丙酮酸羧激酶(Phosphoenolpyruvate carboxylase) 10個(gè),NADP-依賴蘋(píng)果酸酶 (NADP-dependent malic enzyme) 6個(gè),丙酮酸磷酸雙激酶 (Pyruvate orthophosphate dikinas) 的基因3個(gè) (表6)。這些Unigene 的注釋信息將為進(jìn)一步克隆功能基因的全長(zhǎng)、研究其功能提供基礎(chǔ)數(shù)據(jù)。
將Unigene 序列按Nr、SwissProt、KEGG 和COG數(shù)據(jù)庫(kù)的優(yōu)先級(jí)順序分別進(jìn)行Blastx 比對(duì)(E 值<1e–5),確定該Unigene 的編碼區(qū)序列,然后根據(jù)標(biāo)準(zhǔn)密碼子表將編碼區(qū)序列翻譯成氨基酸序列,從而得到該Unigene 編碼區(qū)的核酸序列(序列方向5′–3′) 和氨基酸序列。最后,跟以上4 個(gè)數(shù)據(jù)庫(kù)皆比對(duì)不上的Unigene 用ESTscan 軟件預(yù)測(cè)其編碼區(qū),得到其編碼區(qū)核酸序列(序列方向?yàn)?′–3′) 和氨基酸序列。比對(duì)上Nr、SwissProt、KEGG和COG數(shù)據(jù)庫(kù)的Unigene序列,對(duì)其中的61 870個(gè)序列預(yù)測(cè)了編碼蛋白框 (CDS),圖3表示所預(yù)測(cè)CDS的長(zhǎng)度統(tǒng)計(jì),及根據(jù)預(yù)測(cè)的CDS翻譯成氨基酸后的長(zhǎng)度統(tǒng)計(jì)。其中有22 175個(gè)基因預(yù)測(cè)氨基酸長(zhǎng)度大于300,占35.84%所預(yù)測(cè)的基因,有1 124個(gè)基因預(yù)測(cè)的氨基酸長(zhǎng)度超過(guò)1 000,占1.82%所預(yù)測(cè)的基因。另外,用ESTScan軟件對(duì)未比對(duì)上數(shù)據(jù)庫(kù)的2 480個(gè)基因進(jìn)行了編碼框的預(yù)測(cè),有128個(gè)基因預(yù)測(cè)的氨基酸長(zhǎng)度大于300,占所預(yù)測(cè)基因的5.16%,有1個(gè)基因預(yù)測(cè)的氨基酸長(zhǎng)度超過(guò)1 000。
表5 KEGG pathway 注釋結(jié)果統(tǒng)計(jì)表
表6 光合作用相關(guān)酶基因
圖3 CDS 的長(zhǎng)度分布統(tǒng)計(jì)圖
轉(zhuǎn)錄組學(xué)(Transcriptomics) 是功能基因組學(xué)研究的一個(gè)重要內(nèi)容,它是從整體水平上研究細(xì)胞中基因轉(zhuǎn)錄的情況及其轉(zhuǎn)錄調(diào)控規(guī)律?;诟咄繙y(cè)序技術(shù)的轉(zhuǎn)錄組測(cè)序 (RNA-seq) 通過(guò)對(duì)組織中的RNA (包括mRNA和非編碼RNA) 進(jìn)行測(cè)序,能夠全面快速地獲得某一物種特殊組織或器官在某一特定狀態(tài)下的幾乎所有轉(zhuǎn)錄本信息,具有高準(zhǔn)確性、高通量、高靈敏度和低運(yùn)行成本等突出優(yōu)勢(shì),已經(jīng)廣泛應(yīng)用于各種生物轉(zhuǎn)錄組的研究[14-16]。應(yīng)用Illumina高通量測(cè)序技術(shù)對(duì)芒花芽和葉芽進(jìn)行轉(zhuǎn)錄組測(cè)序,分別獲得68 136 340個(gè)和68 452 222個(gè)Clean reads,經(jīng)拼接組裝,花芽和葉芽分別獲得180 118個(gè)和159 514個(gè)Contig,平均長(zhǎng)度314和319 nt,最終共生成All- Unigene 98 326個(gè)。Changsoo等[17]采用454平臺(tái)進(jìn)行的芒根莖和葉片轉(zhuǎn)錄組測(cè)序,葉片和根莖各獲得 457 891和512 950個(gè) reads,以及12 166 和13 170 個(gè)Contigs,平均長(zhǎng)度970和923 nt。其所獲得reads數(shù)及Contig數(shù)較低,但平均長(zhǎng)度較高。454 平臺(tái)讀長(zhǎng)長(zhǎng),但準(zhǔn)確率較低。Illumina快速、高效、測(cè)序片段較短,但通過(guò)短序列有效地被組裝,序列讀長(zhǎng)增加而且更精確[18-19]。本研究采用了Illumina高通量測(cè)序,雖然測(cè)序片段較短,但是組裝后得到的Unigene平均長(zhǎng)度超過(guò)了800 bp,獲得的數(shù)據(jù)產(chǎn)量和組裝質(zhì)量完全可以滿足轉(zhuǎn)錄組分析的要求,且產(chǎn)生的數(shù)據(jù)量遠(yuǎn)高于Changsoo等[17]的研究。
由于芒沒(méi)有全基因組數(shù)據(jù),已知的生物信息量又很匱乏,這給轉(zhuǎn)錄組數(shù)據(jù)的分析帶來(lái)了困難。目前對(duì)沒(méi)有基因組物種的研究,主要采取將獲得的數(shù)據(jù)與已知的蛋白數(shù)據(jù)庫(kù) (NR、Swiss-Prot、COG、KEGG) 進(jìn)行比對(duì),以強(qiáng)大的生物信息學(xué)平臺(tái)作支撐,根據(jù)“基因結(jié)構(gòu)相似,功能同源”的原理,對(duì)基因的功能進(jìn)行注釋。本研究釆用同樣的方法,將獲得的數(shù)據(jù)與已知的蛋白數(shù)據(jù)庫(kù)進(jìn)行Blast 搜索比對(duì),共有74 134 條Unigene 獲得了基因注釋,占All-Unigene 的75.40%;有24 192 條Unigene (24.6%) 未被注釋。對(duì)于沒(méi)有得到注釋的Unigene,有可能是芒特有的新基因,或由于數(shù)據(jù)庫(kù)現(xiàn)有的基因資源有限,基因功能注釋信息不豐富,從而造成部分序列暫時(shí)無(wú)法獲得對(duì)應(yīng)的功能注釋信息。
對(duì)于有參考基因組的物種,通常選擇已經(jīng)公布的相同或相近物種的基因組和基因信息為參考,將所測(cè)數(shù)據(jù)映射至參考基因組的數(shù)據(jù)中,進(jìn)行比對(duì)分析。Barling等[20]在對(duì)芒屬植物芒和荻的種間雜交種根莖的轉(zhuǎn)錄組研究中,就采用高粱基因組作為參考序列對(duì)轉(zhuǎn)錄組進(jìn)行有參分析,63%的reads 映射到高粱基因組中。本研究中選取的植物材料芒,是的親本之一[20],采用無(wú)參轉(zhuǎn)錄組分析,通過(guò)拼接組裝得到Unigene,與NT 蛋白數(shù)據(jù)庫(kù)有同源比對(duì)信息的Unigene中,比對(duì)到同源序列比例最高的物種分別為高粱 (37 731,60.86%)、玉米 (16 258,26.22%)、水稻 (3 065,4.94%) 占所有同源序列的92.02%,其中芒與高粱同源序列最多高達(dá)60.86%,這與有參轉(zhuǎn)錄組比對(duì)數(shù)據(jù)相似,芒及其與荻的種類雜交后代與高粱具有較高的同源性。
芒是多年生C4草本植物,光合作用效率高,CO2補(bǔ)償點(diǎn)低,氮素和水分利用效率高,植株高大[21]。C4植物能通過(guò)C4途徑的酶系統(tǒng)保持較高的光合效率。CO2被吸收后,反應(yīng)過(guò)程的速率主要受C4途徑中酶的數(shù)量和活性以及可利用的CO2的量的限制[22]。本研究通過(guò)NR同源性搜索比對(duì),在測(cè)序結(jié)果中獲得了芒基因中C4重要的酶基因。包括C4核心循環(huán)相關(guān)的主要酶碳酸酐酶(Carbonic anhydrase,CA)、磷酸烯醇式丙酮酸羧化酶(Phosphoenolpyruvate carboxylase,PEPC)、依賴NADP的蘋(píng)果酸脫氫酶(NADP-dependent malic enzyme,NADP-ME)、丙酮酸二激酶(Pyruvate,orthophosphate dikinase,PPDK)。其中功能注釋為磷酸烯醇式丙酮酸羧化酶的Unigenes 10個(gè),數(shù)目最多。PEPC是C4光合途徑關(guān)鍵酶之一,存在于葉肉細(xì)胞的細(xì)胞質(zhì)中,形成CO2濃縮機(jī)制,為維管束鞘細(xì)胞進(jìn)行的C3途徑提供CO2[23]。C4植物基因家族共有3個(gè)成員組成,其基本結(jié)構(gòu)很相似,分別是:C4型 (綠葉型),主要在葉片中大量表達(dá),并且受光照調(diào)控;根 (莖) 型,主要在根組織中特異表達(dá);黃化葉型或 C3型,主要在黃色葉片、莖等許多部位表達(dá)[24]。Barling等[14,20]在芒屬植物根莖轉(zhuǎn)錄組研究中也發(fā)現(xiàn)了高表達(dá)的基因。但本研究中通過(guò)同源比對(duì)所得到的10個(gè)PEPC相關(guān)基因,與玉米、高粱、黍表現(xiàn)出了高同源性,而非芒屬植物。在其他C4植物中,通過(guò)序列比較發(fā)現(xiàn),同一種植物來(lái)源的不同類型基因同源性較小,而存在于不同植物的同一類型的基因具有較高的同源性[25]。由此推測(cè),本研究與Barling等[14,20]所得的基因可能為不同類型。這些C4代謝相關(guān)基因的注釋為研究芒C4光合途徑提供了重要依據(jù)。同時(shí),了解芒光合作用相關(guān)酶基因的表達(dá)調(diào)控,對(duì)未來(lái)作物設(shè)計(jì)與改良具有重要意義。
[1] Lewandowski I, Clifton-Brown JC, Scurlock JMO, et al. Miscanthus: European experience with a novel energy crop. Biomass Bioenergy, 2000, 19(4): 209–227.
[2] Vermerris W. Genetic Improvement of Bioenergy Crops. New York: Springer, 2008: 274–290.
[3] Yan J, Chen W, Luo F, et al. Variability and adaptability ofspecies evaluated for energy crop domestication. GCB Bioenergy, 2012, 4(1): 49–60.
[4] Somerville C, Youngs H, Taylor C, et al. Feedstocks for lignocellulosic biofuels. Science, 2010, 329(5993): 790–792.
[5] Jones MB, Mary W.for Energy and Fiber. London: James & James (Science Publishers), 2001: 1–10.
[6] Heaton EA, Dohleman FG, Long SP. Meeting US biofuel goals with less land: the potential of. GCB Bioenergy, 2008, 14: 2000–2014.
[7] Naidu SL, Moose SP, AL-Shoaibi AK, et al. Cold Tolerance of C4photosynthesis in: adaptation in amounts and sequence of C4photosynthetic enzymes. Plant Physiol, 2003, 132(3): 1688–1697.
[8] Heaton EA, Long SP, Voigt TB, et al.for renewable energy generation: European union experience and projections for Illinois. Mitig Adapt Strategy Glob Chang, 2004, 9(4): 433–451.
[9] Vermerris W. Genetic Improvement of Bioenergy Crops. New York: Springer, 2008: 287.
[10] Glowacka K. A review of the genetic study of the energy crop. Biomass Bioenergy, 2011, 35(7): 2445–2454.
[11] Zhang GJ, Guo GW, Hu XD, et al. Deep RNA sequencing at single base-pair resolution reveals high complexity of the rice transcriptome. Genome Res, 2010, 20(5): 646–654.
[12] Lu TT, Lu GJ, Fan DL, et al. Function annotation of the rice transcriptome at single-nucleotide resolution by RNA-seq. Genome Res, 2010, 20(9): 1238–1249.
[13] Hao DC, Ge GB, Xiao PG, et al. The first insight into the tissue specifictranscriptome via Illumina second generation sequencing. PLoS ONE, 2011, 6(6): e21220.
[14] Grabherr MG, Haas BJ, Yassour M, et al. "Full-length transcriptome assembly from RNA-Seq data without a reference genome." Nat Biotechnol, 2011, 29(7): 644–652.
[15] Zhang CL, Qin ZJ, Wang GZ, et al. Transcriptome and RNA-Seq technology. Biotechnol Bull, 2012, (12): 51–56 (in Chinese).張春蘭, 秦孜娟, 王桂芝, 等. 轉(zhuǎn)錄組與RNA-Seq 技術(shù). 生物技術(shù)通報(bào), 2012, (12): 51–56.
[16] Shendure J. The beginning of the end for microarrays? Nat Methods, 2008, 5(7): 585–587.
[17] Kim C, Lee TH, Guo H, et al. Sequencing of transcriptomes from twospecies reveals functional specificity in rhizomes, and clarifies evolutionary relationships. BMC Plant Biol, 2014, 14: 134.
[18] Wilhelm BT, Landry JR. RNA-Seq quantitative measurement of expression through massively parallel RNA sequencing. Methods, 2009, 48(3): 249–257.
[19] Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 2009, 10(1): 57–63.
[20] Barling A, Kankshita S, Therese M,et al. A detailed gene expression study of thereveals changes in the transcriptome associated with the rejuvenation of spring rhizomes. BMC Genomics, 2013, 14: 864.
[21] Hodkinson TR, Renvoize S. Nomenclature of(Poaceae). Kew Bull, 2011, 56: 759–760.
[22] Beale CV, Long SP. Can perennial C4grasses attain high efficiencies of radiant energy conversion in cool climates? Plant Cell Environ, 1995, 18(6): 641–650.
[23] Wu H. Photosynthetic characteristic identification of& the functional study of C3/C4differentially expressed genes [D]. Wuhan: Huazhong Agricultural University, 2014 (in Chinese). 伍歡. 大莎草的光合模式鑒定及C3/C4差異表達(dá)基因的功能研究[D]. 武漢: 華中農(nóng)業(yè)大學(xué), 2014.
[24] Zhang GF. Cloning key enzyme (PEPC、PPDK) genes of C4photosynthesis from barnyardgrass () and PEPC gene transformation in rice () and tobacco () [D]. Beijing: China Agricultural University, 2005 (in Chinese).張桂芳. 稗草C4關(guān)鍵酶 (PEPC、PPDK) 基因的克隆及PEPC基因?qū)λ竞蜔煵莸倪z傳轉(zhuǎn)化[D]. 北京: 中國(guó)農(nóng)業(yè)大學(xué), 2005.
[25] Sch?ffner AR, Sheen J. Maize C4photosynthesis involves differential regulation of phosphoenolpyruvate carboxylas egenes. Plant J, 1992, 2(2): 221–232.
(本文責(zé)編 郝麗芳)
Transcriptome analysis of bioenergy plantAnderss by RNA-Seq
Xian Zhang1, Jianhong Wang1, Man Yu1, Kai Cao1, Li Zhuang1, Changxu Xu2, and Weidong Cao3
1 Institute of Environment, Resource, Soil & Fertilizer, Zhejiang Academy of Agricultural Sciences, Hangzhou 310021, Zhejiang, China 2 Institute of Soil, Fertilizer, and Environment Resource, Jiangxi Academy of Agricultural Sciences, Nanchang 330200, Jiangxi, China 3 Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081, China
Anderss is a perennial C4-grass. It is a promising bioenergy plant, which has been proposed as general feedstock for biomass and lignocellulosic biofuel production. In this study, the flower and leaf buds transcriptomes ofAnderss were sequenced by the platform of Illumina HiSeq? 2000. In total 98 326 Unigenes were generated byassembly with an average length of 822 bp and N50 of 1 023 bp. Based on the NR, NT, Swiss-Prot, KEGG, GO and COG databases (Evalue<1e-5), 74 134 (75.40%) Unigenes were annotated. A total of 45 507 Unigenes were mapped into different GO terms. In KEGG pathways identification, 36 710 sequences were assigned to 128 KEGG pathways.(37 731, 60.86%),(16 258, 26.22%), and(3 065, 4.94%) showed high similarity toAnderss. And 24 photosynthesis-related enzyme genes were identified. The result provides a foundation for further characterizing the functional genes inAnderss.
Anderss, transcriptome, RNA-seq, gene annotation
10.13345/j.cjb.150026
January 16, 2015; Accepted: March 30, 2015
Special Fund for Agro-scientific Research in the Public Interest (No. 201103005), Zhejiang Provincial Natural Science Foundation (No. LY14D010004).
Xian Zhang. Tel/Fax: +86-571-86404042; E-mail: zhangxian0399@126.com
公益性行業(yè) (農(nóng)業(yè)) 科研專項(xiàng) (No. 201103005),浙江省自然科學(xué)基金(No. LY14D010004) 資助。