易官美,包燕春1.寧波城市職業(yè)技術(shù)學(xué)院,浙江寧波31550.江西省南昌市青山湖風(fēng)景區(qū)管理處,江西南昌330039
?
香榧轉(zhuǎn)錄組測(cè)序及生物信息學(xué)基礎(chǔ)分析
易官美1*,包燕春2
1.寧波城市職業(yè)技術(shù)學(xué)院,浙江寧波315502
2.江西省南昌市青山湖風(fēng)景區(qū)管理處,江西南昌330039
摘要:香榧具有重要的經(jīng)濟(jì)價(jià)值,但其基因組信息相對(duì)匱乏,限制了其分子生物學(xué)和基因功能的研究。本文以不同組織的香榧作為研究對(duì)象,采用新一代高通量測(cè)序技術(shù)平臺(tái)Illumina HiSeq?2000對(duì)香榧轉(zhuǎn)錄組進(jìn)行測(cè)序和數(shù)據(jù)分析,共得到37,349,086個(gè)reads片段,總堿基數(shù)為4.35 G。利用組裝軟件,對(duì)獲得的高質(zhì)量序列進(jìn)行組裝,共得到104,636個(gè)Unigene,平均長(zhǎng)度為784 nt,N50為1,702。將Unigene序列與公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì),28,766個(gè)Unigenes獲得了注釋。其中26,856個(gè)Unigene在NR蛋白數(shù)據(jù)庫(kù)中獲得注釋,24,003個(gè)Unigenes在NT數(shù)據(jù)庫(kù)中獲得注釋,21,401個(gè)Unigene在Swiss-Prot蛋白數(shù)據(jù)庫(kù)中獲得注釋,16,137個(gè)Unigene在COG數(shù)據(jù)庫(kù)中獲得注釋,11,410個(gè)Unigene在GO數(shù)據(jù)庫(kù)中獲得注釋。根據(jù)KEGG注釋信息,18,564個(gè)Unigene被劃分到256個(gè)代謝途徑中。SSR位點(diǎn)搜索發(fā)現(xiàn),在4,217個(gè)Unigene中含有4,706個(gè)SSR位點(diǎn)。分析所獲得的轉(zhuǎn)錄組數(shù)據(jù),將為香榧功能基因的克隆,基因的表達(dá),指紋圖譜構(gòu)建和分子標(biāo)記輔助選育奠定基礎(chǔ)。
關(guān)鍵詞:香榧;轉(zhuǎn)錄組;高通量測(cè)序;SSR
香榧(Torreya grandis Fort. ex Lindl. cv. merrillii)為紅豆杉科(Taxaceae)榧樹屬(Torreya)榧樹(Torreya grandi Fort. ex Lindl.)的栽培變種。榧樹起源于中國(guó),在中國(guó)的湖南、江西、安徽、江蘇、浙江和福建等省均有自然分布。榧樹是世界上比較稀有的經(jīng)濟(jì)樹種之一,既可以食用,也可以藥用,還是綠化觀賞的常用樹種。香榧干果風(fēng)味獨(dú)特,富含營(yíng)養(yǎng),有止咳化痰、潤(rùn)肺明目、殺蟲殺菌等多種功效;另外,香榧中含有的紫杉醇是一種具有抗癌活性的生理活性物質(zhì)[1,2]。
利用基因組、轉(zhuǎn)錄組及蛋白質(zhì)組學(xué)等各種組學(xué)技術(shù)可以揭示細(xì)胞生理活動(dòng)的規(guī)律、探明生物代謝的機(jī)理[3]。轉(zhuǎn)錄組是某一物種或特定的細(xì)胞在某一個(gè)時(shí)間段或特定的環(huán)境條件下產(chǎn)生的所有轉(zhuǎn)錄物的集合。利用轉(zhuǎn)錄組學(xué)技術(shù)可以了解到基因的功能和基因的結(jié)構(gòu),可以揭示器官以及細(xì)胞在特定生物學(xué)過程中的分子機(jī)制[4]。近年來,轉(zhuǎn)錄組學(xué)的研究應(yīng)用廣泛,已應(yīng)用于多種樹木,主要有紅豆杉(Taxus mairei)[5]、木欖(Bruguiera gymnorrhiza)[6]、剛毛檉柳(Tamarix hispida)[7]、桉樹(Eucalyptus robusta)[8]、日本落葉松(Larix leptolepis)[9]、油桐(Vernicia fordii)[10]、橡膠樹(Hevea brasiliensis)[11]和茶樹(Camellia sinensis)[12]等。
目前,對(duì)香榧的研究主要集中在生理生化特性、栽培技術(shù)[1,2]和居群遺傳學(xué)[13]等方面,缺少對(duì)其基因組學(xué)以及轉(zhuǎn)錄組學(xué)的研究。本研究利用Illumina高通量測(cè)序技術(shù)對(duì)香榧的轉(zhuǎn)錄組進(jìn)行測(cè)序,利用生物學(xué)軟件將獲得的數(shù)據(jù)進(jìn)行拼接組裝,再利用生物信息學(xué)技術(shù)將獲得的Unigene進(jìn)行基因功能注釋、基因功能分類以及代謝途徑的分析,以期為香榧重要性狀基因的克隆及基因功能的分析、分子標(biāo)記的開發(fā)以及遺傳圖譜的構(gòu)建奠定良好的基礎(chǔ)。
1.1材料來源
香榧的葉片、幼果和枝干組織采集于浙江省寧波市奉化市錦溪村香榧種植基地(北緯29°32′24",東經(jīng)121°11′50.8",海拔540 m)屬亞熱帶季風(fēng)性氣候,四季分明,溫和濕潤(rùn),年均氣溫16.3℃,最高氣溫40.5℃,最低氣溫為-11.1℃。年平均降水量1500 mm。日照時(shí)數(shù)1850 h,無霜期232 d,生長(zhǎng)于海拔500 m左右的山坡。采集8年生正常健壯的香榧嫁接苗,同一株香榧個(gè)體上的葉片,幼果,枝干組織各2 g,進(jìn)行等量混樣。立即用液氮速凍,在-80°C冰箱中冷凍保存?zhèn)溆谩?/p>
1.2方法
1.2.1RNA提取總RNA的提取方法按照Invitrogen公司的Trizol Reagent說明書進(jìn)行。DNA的消化處理按Promega公司DNaseⅠ的方法進(jìn)行。RNA完整性檢測(cè)利用Agilent的BioAnalyzer 2 100,樣品RIN≥8。
1.2.2轉(zhuǎn)錄組測(cè)序及序列組裝香榧cDNA文庫(kù)的構(gòu)建采用TruSeq RNA Sample Preparation Kit (Illumina)進(jìn)行。利用帶有Oligo(dT)的磁珠對(duì)mRNA進(jìn)行富集。然后將打斷成短片段的mRNA為模板,合成cDNA的第一條鏈。然后將cDNA第一條鏈與緩沖液、RNase H、dNTPs以及DNA Polymerase I配制成第二鏈合成的反應(yīng)體系,合成cDNA第二條鏈。cDNA的純化使用QiaQuick PCR試劑盒進(jìn)行,然后純化后的cDNA做末端修復(fù)。將修復(fù)后的cDNA 3’末端加上堿基“A”并連接上接頭,隨后對(duì)片段的大小進(jìn)行選擇。最后一步進(jìn)行PCR反應(yīng),構(gòu)建測(cè)序文庫(kù)。利用Illumina HiSeq?2000對(duì)建好的測(cè)序文庫(kù)進(jìn)行測(cè)序。將測(cè)序獲得的原始數(shù)據(jù)去除接頭的序列、兩端低質(zhì)量的序列以及低度復(fù)雜的序列,數(shù)據(jù)的組裝利用Trinity[14]軟件進(jìn)行。
1.2.3功能注釋首先,通過Blastx程序?qū)nigene序列與蛋白數(shù)據(jù)庫(kù)NR、Swiss-Prot(Evalue<0.00001)進(jìn)行比對(duì),并通過Blastn程序?qū)nigene與核酸數(shù)據(jù)庫(kù)nt(Evalue<0.00001)進(jìn)行比對(duì),獲得Unigene最高序列相似性的蛋白,便獲得了該Unigene的蛋白質(zhì)功能注釋信息[14]。然后用Blastx將所得Unigene序列比對(duì)到COG(Clusters of Orthologous Groups of Proteins)數(shù)據(jù)庫(kù)(Evalue<0.00001),獲得COG數(shù)據(jù)庫(kù)的功能注釋及其功能分類。Gene Ontology(GO)注釋信息使用軟件Blast2GO[15]獲得,然后使用WEGO軟件[16]對(duì)Unigene進(jìn)行GO功能的分類統(tǒng)計(jì)。根據(jù)KEGG的注釋信息可進(jìn)一步得到Unigene的Pathway途徑注釋。
1.2.4香榧SSR位點(diǎn)分析利用MISA軟件(http://pgrc.ipk-gatersleben. de/misa/misa.html)進(jìn)行SSR位點(diǎn)搜索,搜索參數(shù)設(shè)置為單、二、三、四、五和六堿基重復(fù)。
2.1轉(zhuǎn)錄組測(cè)序與組裝
采用Illumina HiSeq?2000對(duì)香榧轉(zhuǎn)錄組進(jìn)行測(cè)序,共得到reads片段37,349,086個(gè),總堿基數(shù)約為4.35 G,GC的含量是42.31%,Q20(堿基測(cè)序錯(cuò)誤率小于1%)是96.63%。這些結(jié)果說明,轉(zhuǎn)錄組測(cè)序質(zhì)量良好,獲得的數(shù)據(jù)可進(jìn)一步分析。利用組裝軟件Trinity,對(duì)測(cè)序得到的高品質(zhì)序列進(jìn)行de novo從頭組裝,共獲得了172,949個(gè)Contigs,平均的長(zhǎng)度為359 nt,N50為776。其中,40,581個(gè)Contig長(zhǎng)度為200~500 bp,占23.46%;10,650個(gè)Contig長(zhǎng)度為500~1000 bp,占6.16%;14,086個(gè)Contig的長(zhǎng)度為1,000bp以上,占8.14%(表1)。使用組裝軟件將Contig進(jìn)一步的組裝,獲得了104,636個(gè)Unigene,平均長(zhǎng)度為784 nt,N50為1,702。其中,37,945個(gè)Unigene長(zhǎng)度為200~500 bp,占36.26%;13,293個(gè)Unigene長(zhǎng)度500~1000 bp,占12.7%;8,818個(gè)Unigene長(zhǎng)度為1000~1500 bp,占8.43%;6,776個(gè)Unigene長(zhǎng)度為1000~1500 bp,占6.48%;2000 bp以上的Unigene有11,389個(gè),占10.88%(表1)。N50長(zhǎng)度可以用來衡量組裝的完整度,Contig和Unigene的N50分別達(dá)到了776和1,702,表明了組裝效果良好。
2.2Unigene的功能注釋
將Unigene序列通過Blast程序比對(duì)到數(shù)據(jù)庫(kù)NR,NT,Swiss-Prot,KEGG,COG,GO (Evalue<0.00001),獲得Unigene的功能注釋。在上述數(shù)據(jù)庫(kù)中獲得注釋的Unigenes有28,766個(gè),其中在NR蛋白數(shù)據(jù)庫(kù)中獲得注釋的Unigene有26,856個(gè),在NT數(shù)據(jù)庫(kù)中獲得注釋的Unigenes有24,003個(gè),在Swiss-Prot蛋白數(shù)據(jù)庫(kù)中獲得注釋的Unigene有21,401個(gè)(表2)。
2.3香榧轉(zhuǎn)錄組Unigene的COG功能分類
利用COG數(shù)據(jù)庫(kù)可以對(duì)基因產(chǎn)物進(jìn)行系統(tǒng)進(jìn)化關(guān)系分類。本研究將獲得的Unigene比對(duì)到COG數(shù)據(jù)庫(kù),16,137個(gè)Unigene獲得了分類,根據(jù)功能可將這些Unigene分為25類(表3),涉及了大多數(shù)的生命活動(dòng)。5,358個(gè)Unigene被歸到一般功能預(yù)測(cè)類,占總數(shù)的33.20%。2,959個(gè)Unigene被歸到翻譯,核糖體結(jié)構(gòu)及生物發(fā)生類,占總數(shù)的18.34%。2,654個(gè)Unigene被歸到轉(zhuǎn)錄類,占總數(shù)的16.45%。2,106個(gè)Unigene被歸到翻譯后修飾,蛋白質(zhì)折疊及分子伴侶類,占總數(shù)的13.05%。2,098個(gè)Unigene被歸到信號(hào)傳導(dǎo)機(jī)制類,占總數(shù)的13.00%。而被歸到胞外結(jié)構(gòu)類和核結(jié)構(gòu)類的Unigene最少,分別為10個(gè)和3個(gè)。
表3 香榧轉(zhuǎn)錄組的COG分類Table 3 COG functional distribution of the Torreya grandis transcriptome
2.4香榧轉(zhuǎn)錄組Unigene的GO功能分類
Gene Ontology(GO)基因功能分類是國(guó)際上標(biāo)準(zhǔn)化的分類體系之一,生物體中基因與基因產(chǎn)物的屬性由一套標(biāo)準(zhǔn)詞匯表(Controlled vocabulary)來全面描。本研究中11,410個(gè)Unigene被歸為55類(圖1)。在參與的生物過程分類中歸類為細(xì)胞過程(6,738個(gè)),代謝過程(5,684個(gè)),單一的生物過程(4,494個(gè)),生物調(diào)控(2,783個(gè))中的Unigene最多。在所處的細(xì)胞位置分類中歸類為細(xì)胞(5,260個(gè)),細(xì)胞器(3,921個(gè)),大分子復(fù)合物(1,851個(gè)),膜(1,388個(gè))中的Unigene最多。在分子功能分類中參與催化活性(6,426個(gè))、結(jié)合(5,310個(gè))和轉(zhuǎn)運(yùn)活性(380個(gè))的Unigene最多。
圖1 香榧轉(zhuǎn)錄組的GO分類Fig.1 Gene ontology classification of the Torreya grandis transcriptome備注:生物學(xué)過程:1:生物附著2:生物調(diào)控3: cell killing細(xì)胞殺傷4:細(xì)胞成分和生物合成5:細(xì)胞過程6:發(fā)育過程7:定位系統(tǒng)建立8:生長(zhǎng);9:免疫系統(tǒng)過程10:定位11:移動(dòng)12:代謝過程13:多機(jī)體過程14:多細(xì)胞組織過程15:生物過程的負(fù)調(diào)控16:生物過程的正調(diào)控17:生物過程的調(diào)控18:再生19:再生過程20:刺激應(yīng)答21:律動(dòng)過程22:信號(hào)傳導(dǎo)23:單一的生物過程;細(xì)胞組成24:細(xì)胞25:細(xì)胞連接26:細(xì)胞部分27:細(xì)胞外基質(zhì)28:胞外區(qū)要素29:胞外區(qū)30:胞外區(qū)部分31:大分子復(fù)合物32:膜33:膜要素34:膜附著腔35:核仁36:細(xì)胞器37:細(xì)胞器部分38:突觸39:突觸部分40:病毒體41:病毒體部分;分子功能42:抗氧化活性43:結(jié)合44:催化活性45:頻道調(diào)節(jié)器活動(dòng)46:電子載體活性47:酶調(diào)節(jié)活性48:通道活性的調(diào)節(jié)49:分子轉(zhuǎn)導(dǎo)活性50:核酸結(jié)合的轉(zhuǎn)錄因子的活性51:蛋白結(jié)合轉(zhuǎn)錄因子活性52:刺激應(yīng)答53:結(jié)構(gòu)分子活性54:翻譯調(diào)控因子活性55:轉(zhuǎn)運(yùn)活性.Note:Biological process:1: biological adhesion 2: biological regulation 3: cell killing 4: cellular component organization or biogenesis 5: cellular process 6: developmental process 7:establishment of localization 8: growth 9: immune system process 10: localization 11: locomotion 12: metabolic process 13: multi-organism process 14: multicellular organismal process 15: negative regulation of biological process 16: positive regulation of biological process 17: regulation of biological process 18: reproduction 19: reproductive process 20: response to stimulus 21: rhythmic process 22: signaling 23: single-organism process;Cellular component 24: cell 25: cell junction 26: cell part 27: extracellular matrix 28: extracellular matrix part 29: extracellular region 30: extracellular region part 31: macromolecular complex 32: membrane 33: membrane part 34: membrane-enclosed lumen 35: nucleoid 36: organelle 37: organelle part 38: synapse 39: synapse part 40: virion 41: virion part;Molecular function 42: antioxidant activity 43: binding 44: catalytic activity 45: channel regulator activity 46: electron carrier activity 47: enzyme regulator activity 48metallochaperone activity 49: molecular transducer activity 50: nucleic acid binding transcription factor activity 51: protein binding transcription factor activity 52: receptor activity 53: structural molecule activity 54: translation regulator activity 55: transporter activity
2.5香榧轉(zhuǎn)錄組Unigene的KEGG功能分類
利用KEGG數(shù)據(jù)庫(kù)可以探索基因產(chǎn)物在細(xì)胞中的功能及所處的代謝通路,可以用來統(tǒng)計(jì)分析基因的產(chǎn)物在生物學(xué)上復(fù)雜的行為[17]。本次研究中18,564個(gè)Unigene被歸到256個(gè)小類中。被歸為代謝途徑(Metabolicpathways)的Unigene數(shù)量最多,有3,123個(gè),占16.82%。其次是剪接體(Spliceosome),有749個(gè)Unigene,占4.03%。第三大類是植物與病原物的互作,有723個(gè)Unigene,占3.89%(表4)。
表4 Unigene數(shù)量最多的10個(gè)代謝通路Table 4 Top ten metabolic pathways involving Torreya grandis
2.6SSR分析
利用軟件MISA搜索香榧Unigene的SSR位點(diǎn),從104,636個(gè)Unigene檢測(cè)到了4,706個(gè)SSR位點(diǎn),出現(xiàn)的頻率(檢出的SSR個(gè)數(shù)和總Unigene的數(shù)目之比)為4.5%(表5)。在4,217個(gè)Unigene中分布著4,706 個(gè)SSR位點(diǎn),其中414個(gè)Unigene含有1個(gè)及以上的SSR位點(diǎn)。SSR種類呈現(xiàn)多樣化,單到六核苷酸的重復(fù)類型均檢測(cè)到。其中位點(diǎn)數(shù)量多的SSR類型為三核苷酸,有1,677個(gè);其次為二核苷酸,有1,139個(gè);1,139個(gè)SSR位點(diǎn)為單核苷酸;四、五、六核苷酸SSR位點(diǎn)的數(shù)量相對(duì)較少,分別有69,257,614個(gè)。單核苷酸SSR的重復(fù)類型主要是A/T(945個(gè));二核苷酸重復(fù)的主要類型是AT/AT(507個(gè))、AG/CT (412個(gè))、AC/GT(219個(gè));三核苷酸重復(fù)主要類型是AAG/CTT(361個(gè))、AGG/CCT(329個(gè))、AGC/CTG(286個(gè))、AAT/ATT(207個(gè))。對(duì)這些SSR的鑒定,有助于開展香榧及其同屬物種的遺傳圖譜構(gòu)建及基因組差異分析研究。
表5 香榧SSR位點(diǎn)統(tǒng)計(jì)結(jié)果Table 5 Statistics of SSRs identified in Torreya grandis transcriptome
隨著新一代高通量測(cè)序技術(shù)的不斷進(jìn)步,植物基因組的測(cè)序研究得到了快速的發(fā)展,但對(duì)香榧基因組的研究非常少。相對(duì)于全基因組序列的測(cè)定,轉(zhuǎn)錄組測(cè)序技術(shù)具有一定的優(yōu)勢(shì),其一是從頭裝配轉(zhuǎn)錄本,不需要利用任何以前的基因序列信息;其次測(cè)序費(fèi)用較低,普通的實(shí)驗(yàn)室也能承擔(dān)。與其它測(cè)序技術(shù)相比,Illumina高通量測(cè)序技術(shù)獲得的數(shù)據(jù)量大、測(cè)序速度快、效率比較高、成本相對(duì)較低,已在多種植物上得到應(yīng)用[18]。本研究利用Illumina測(cè)序技術(shù)對(duì)香榧轉(zhuǎn)錄組進(jìn)行了測(cè)序,共獲得約4.4 G的原始數(shù)據(jù),獲得的數(shù)據(jù)量比較大,獲得37,349,086個(gè)長(zhǎng)度為90 bp的序列。利用生物學(xué)組裝軟件對(duì)這些90 bp的短序列進(jìn)行了組裝,共獲得Unigene 104,636個(gè)。這些研究結(jié)果說明Illumina測(cè)序技術(shù)可以應(yīng)用在香榧等基因組信息相對(duì)匱乏的物種上,并能有效得到轉(zhuǎn)錄組的信息。
將Unigene序列通過Blast程序與公共數(shù)據(jù)庫(kù)Swiss-Prot、KEGG、NR、NT和COG進(jìn)行比對(duì),從中獲得注釋的Unigene有28,766個(gè),其中在NR蛋白數(shù)據(jù)庫(kù)中得到注釋的Unigene有26,856個(gè),在Swiss-Prot蛋白數(shù)據(jù)庫(kù)中得到注釋的Unigene有21,401個(gè)。104,636個(gè)Unigene中只有28,766個(gè)在上述的公共數(shù)據(jù)庫(kù)中獲得了注釋信息。造成這樣結(jié)果的原因有幾種,一方面是有的Unigene的序列過短,而無法獲得比對(duì)信息,另一方面有些Unigene可能是香榧特有的基因。本研究中獲得的Unigene被歸類到多個(gè)GO、COG以及KEGG子類中,說明這些組裝的Unigene具有豐富的類型。
SSR分子標(biāo)記操作相對(duì)簡(jiǎn)便、具有較好的重復(fù)性、獲得的信息量高、覆蓋廣,已經(jīng)應(yīng)用在多個(gè)方面,包括植物分子輔助育種、遺傳圖譜的構(gòu)建等方面[19-20]。本研究利用MISA軟件分析了香榧轉(zhuǎn)錄組,獲得了4,706個(gè)SSR位點(diǎn)。其中三核苷酸重復(fù)最多,其次是二核苷酸重復(fù)和單核苷酸重復(fù),四、五、六核苷酸重復(fù)類型的數(shù)量較少。根據(jù)已有的報(bào)道,大多數(shù)植物的SSR類型主要以二核苷酸和三核苷酸為主,但是優(yōu)勢(shì)的重復(fù)單元也存在差異[21]。本次研究獲得的優(yōu)勢(shì)重復(fù)單元是三核苷酸,其次是二核苷酸,這與葡萄(Vitis vinifera)[22]、大麥(Hordeum vulgare L.)[23]等植物一致,比松類高,低于經(jīng)濟(jì)樹種茶。與其親緣關(guān)系相近的紅豆杉中以三核苷酸和六核苷酸為主,而且與模式植物擬南芥以三核苷酸為主也相近。水稻中的研究表明相對(duì)于三核苷酸和六核苷酸位于基因區(qū)而言,二核苷酸和四核苷酸主要位于非編碼區(qū),即基因間區(qū)域。從檢出的頻率來看,二核苷酸重復(fù)基元中出現(xiàn)最多的是AT/AT、其次是AG/CT和AC/GT,三核苷酸重復(fù)中的主要類型是AAG/CTT和AGG/CCT,這些重復(fù)基元在大多數(shù)雙子葉植物中的出現(xiàn)頻率較高[24]。香榧SSR重復(fù)基序的組成與雙子葉植物更加接近,造成這種原因可能與密碼子的偏倚性以及搜索條件的設(shè)置有關(guān)。由于香榧為非模式植物,可供參考的遺傳信息相對(duì)比較少,因此對(duì)于其特異性的新基因的挖掘還有待進(jìn)一步的研究。以本研究獲得的轉(zhuǎn)錄組為基礎(chǔ),今后可以開展進(jìn)一步的開發(fā)研究榧樹的分子標(biāo)記,從而對(duì)榧樹的遺傳結(jié)構(gòu)和多樣性展開研究,評(píng)估和保護(hù)其遺傳資源;還可以克隆榧樹中重要的生物活性成分的合成關(guān)鍵基因,以更好地利用其保健、藥用價(jià)值和綜合開發(fā)利用價(jià)值;也為功能基因的挖掘及優(yōu)良性狀的遺傳改良等提供了大量的遺傳數(shù)據(jù)資源[25]。
參考文獻(xiàn)
[1]易官美,邱迎君.榧樹的研究現(xiàn)狀與展望[J].資源開發(fā)與市場(chǎng),2013,29(8):844-847
[2]易官美,邱迎君,李曉花,等.榧樹的地理分布與資源調(diào)查[J].安徽農(nóng)業(yè)科學(xué),2013,41(19):8200-8202
[3] Sun X,Zhou S,Meng F,et al. De novo assembly and characterization of the garlic(Allium sativum)bud transcriptome by Illumina sequencing[J]. Plant cell reports,2012,31:1823-1828
[4] Seungill K,Myung-Shin K,Yong-Min K,et al. Integrative structural annotation of de novo RNA-Seq provides an accurate reference gene set of the enormous genome of the onion(Allium cepa L.)[J]. DNARes,2015,22(1):19-27
[5] Da Cheng H,Guangbo G,Peigen X,et al. The first insight into the tissue specific taxus transcriptome via Illumina second generation sequencing[J]. PLoS one,2011,6(6):e21220
[6] Miyama M,Tada Y. Transcriptional and physiological study of the response of Burma mangrove(Bruguiera gymnorhiza)to salt and osmotic stress[J]. Plant molecular biology,2008,68(1-2):119-129
[7] Gao C,Wang Y,Liu G,et al. Expression profiling of salinity-alkali stress responses by large-scale expressed sequence tag analysis in Tamarix hispid[J]. Plant molecular biology,2008,66(3):245-258
[8] Mizrachi E,Hefer CA,Ranik M,et al. De novo assembled expressed gene catalog of a fast-growing Eucalyptus tree produced by Illumina mRNA-Seq[J]. BMC genomics,2010,11(6):681
[9] Zhang Y,Zhang S,Han S,et al. Transcriptome profiling and in silico analysis of somatic embryos in Japanese larch (Larix leptolepis)[J]. Plant cell reports,2012,31(9):1637-1657
[10]孫穎,譚曉風(fēng),羅敏,等.油桐花芽2個(gè)不同發(fā)育時(shí)期轉(zhuǎn)錄組分析[J].林業(yè)科學(xué),2014,50(5):70-74
[11] Li D,Zhi D,Bi Q,et al. De novo assembly and characterization of bark transcriptome using Illumina sequencing and developmentof EST-SSRmarkersinrubbertree(Heveabrasiliensis Muell.Arg.)[J].BMCgenomics,2012,13(19):1-14
[12] Shi CY,Yang H,Wei CL,et al. Deep sequencing of the Camellia sinensis transcriptome revealed candidate genes for major metabolic pathways of tea-specific compounds[J]. BMC genomics,2011,12(1):1-19
[13]易官美,邱迎君.榧樹居群遺傳多樣性的cpSSR分析[J].果樹學(xué)報(bào),2014,31(4):583-588
[14] Grabherr MG,Haas BJ,Yassour M,et al. Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nature biotechnology,2011,29(7):644-652
[15] Conesa A,G?tz S,García-Gómez JM,et al. Blast2GO: a universal tool for annotation,visualization and analysis in functional genomics research[J]. Bioinformatics,2005,21(18):3674-3676
[16] JiaY,LinF,HongkunZ,etal.WEGO:awebtoolforplottingGOannotations[J].Nucleicacidsresearch,2006,34(2):W293-W297
[17] Kanehisa M,Araki M,Goto S,et al. KEGG for linking genomes to life and the environment[J]. Nucleic acids research,2008,36(1):D480-D484
[18] Bie V,Clement L,Reumers J,et al. ViVaMBC: estimating viral sequence variation in complex populations from illumina deep-sequencing data using model-based clustering[J]. BMC bioinformatics,2015,16(1):1-11
[19] Agarwal M,Shrivastava N,Padh H. Advances in molecular marker techniques and their applications in plant sciences[J]. Plant cell reports,2008,27(4):617-631
[20]李炎林,楊星星,張家銀,等.南方紅豆杉轉(zhuǎn)錄組SSR挖掘及分子標(biāo)記的研究[J].園藝學(xué)報(bào),2014,4(4):735-745
[21] Wei W,Qi X,Wang L,et al. Characterization of the sesame(Sesamum indicum L.)global transcriptome using Illumina paired-end sequencing and development of EST-SSR markers[J]. BMC genomics,2011,12:451
[22] Hong H,Jiang L,Ren Z,et al. Mining and validating grape(Vitis vinifera L.)ESTs to develop EST-SSR markers for genotyping and mapping[J]. Molecular Breeding,2011,28(2):241-254
[23] Varshney RK,Grosse I,H?hnel U,et al. Genetic mapping and BAC assignment of EST-derived SSR markers shows non-uniform distribution of genes in the barley genome[J]. Theoretical and Applied Genetics,2006,113(2):239-250
[24] Chagné D,Chaumeil P,Ramboer A,et al. Cross-species transferability and mapping of genomic and cDNA SSRs in pines[J]. Theoretical and Applied Genetics,2004,109(6):1204-1214
[25]鄧楠,史勝青,常二梅,等.膜果麻黃種子不同發(fā)育時(shí)期的轉(zhuǎn)錄組測(cè)序分析[J].東北林業(yè)大學(xué)學(xué)報(bào),2015,43(2):28-32
Sequencingand BioinformaticAnalysisfor Transcriptomeof Torreya grandis Fort.ex Lindl.cv.merrillii
YI Guan-mei1,BAO Yan-chun2
1. Ningbo City College of Vocational Technology, Ningbo 315502,China
2. Qingshanhu Landscape Adminstration Office of Nanchang City Jiangxi Province, Nanchang 330039,China
Abstract:Torreya grandis Fort. ex Lindl. cv. Merrillii is an economically important plant on both agriculture and ecology. However,the genomic information of this species has been less studied,leading to limited researching progresses in both molecular biology and gene functions. In the present study,we have sampled different tissues of T. grandi to conduct a transcriptomic analysis using the Illumina HiSeq?2000 technical platform. As a result,a total of 37,349,086 reads were obtained with the whole base number of 4.35 G. Based on the assembling of high quality reads,we identified a total of 104,636 Unigenes with an average length of 784 nt and N50 was 1,702 nt. Comparing these Unigene sequences with those in the public database,28,766 Unigenes were annotated in the Nr database,24,003 Unigenes were in the NT database,and 21,401 Unigenes were in the Swiss-Prot database. Moreover,based on the COG database and the GO database,we also found 16,137 Unigenes and 11,410 Unigenes were in both databases respectively. We further classified 18,564 Unigenes into 256 pathways according to the KEGG annotation information. Finally,we identified 4,706 SSR loci in 4,217 Unigenes via SSR loci searching. The obtained transcriptome data was thus as the first genomic-wide database serving for future studies of T. grandis in terms of functional gene cloning,gene expression,fingerprint construction and molecular marker-assisted breeding.
Keywords:Torreya grandis;transcriptome;Illumina sequencing;SSR
*通訊作者:Author for correspondence. E-mail:yiguanmei@nbcc.cn
作者簡(jiǎn)介:易官美(1968-),男,江西進(jìn)賢人,碩士,副教授.主要從事植物資源學(xué)研究. E-mail:875013268@qq.com
基金項(xiàng)目:寧波市科技局農(nóng)業(yè)重大專項(xiàng)項(xiàng)目(2014C11006);寧波市自然科學(xué)基金(2015A610267)
收稿日期:2015-05-13修回日期:2015-11-14
中圖法分類號(hào):Q37;S791.53
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1000-2324(2016)01-0019-06