王德富,成媛媛,楊 鋒,牛二波,牛顏冰
(山西農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,山西太谷030801)
黃芩高通量轉(zhuǎn)錄組測(cè)序數(shù)據(jù)組裝和分析
王德富,成媛媛,楊 鋒,牛二波,牛顏冰
(山西農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,山西太谷030801)
采用高通量測(cè)序技術(shù)對(duì)黃芩的轉(zhuǎn)錄組進(jìn)行測(cè)序,獲得了29 099 899條reads數(shù)據(jù),拼接后得到53 353條Unigene;將所獲得的Unigene與COG,GO,KEGG,Swiss-Prot,NR這5個(gè)公共數(shù)據(jù)庫(kù)進(jìn)行比對(duì),結(jié)果發(fā)現(xiàn),分別有10 756,21 950,8 101,20 339,29 288條Unigene可比對(duì)到以上5個(gè)數(shù)據(jù)庫(kù)中;已注釋的Unigene與COG數(shù)據(jù)庫(kù)比對(duì)后按功能可分為25類(lèi);根據(jù)GO功能可分為三大類(lèi)57個(gè)亞類(lèi);經(jīng)過(guò)與KEGG數(shù)據(jù)庫(kù)比對(duì)后按照代謝通路可分為116類(lèi);利用GetORF軟件進(jìn)行ORF預(yù)測(cè),獲得長(zhǎng)度大于300 nt的ORF共20 552個(gè);通過(guò)SSR分析,共獲得5 658個(gè)SSR標(biāo)記。獲得的轉(zhuǎn)錄組信息可為今后進(jìn)行黃芩分子標(biāo)記的開(kāi)發(fā)和關(guān)鍵基因的克隆及功能分析等研究提供基礎(chǔ)數(shù)據(jù)。
黃芩;轉(zhuǎn)錄組測(cè)序;生物信息學(xué)分析
黃芩(Scutellaria baicalensis Georgi)為唇形科黃芩屬植物的干燥根[1-3],具有清熱燥濕、涼血安胎、解毒等功效,常用于治療胸悶嘔惡、濕熱痞滿(mǎn)、瀉痢、胎動(dòng)不安等癥[4-6],臨床療效極為廣泛。隨著黃芩在藥物開(kāi)發(fā)中的廣泛應(yīng)用,其需求量逐年上升,為了滿(mǎn)足日益膨脹的市場(chǎng)需求和減輕對(duì)黃芩野生資源的掠奪式采挖壓力,采用生物技術(shù)大規(guī)模合成有效成分,已成為藥物生產(chǎn)和新藥開(kāi)發(fā)的重要途徑。但由于黃芩目前還未進(jìn)行全基因組測(cè)序,相關(guān)基因資料不全,導(dǎo)致黃芩中有效成分生物合成途徑方面的研究比較滯后。而高通量轉(zhuǎn)錄組測(cè)序技術(shù)的出現(xiàn),為研究黃芩活性成分生物代謝途徑提供了重要的基因資源,并為開(kāi)展黃芩功能基因組學(xué)研究提供了全新的思路和方法[7-8]。
轉(zhuǎn)錄組分析可在不知道物種基因信息的情況下,直接從RNA水平分析細(xì)胞代謝規(guī)律,揭示基因表達(dá)與一些生命現(xiàn)象之間的關(guān)系,進(jìn)而對(duì)細(xì)胞進(jìn)行修飾和改造[9-11]。該法特別適合基因信息十分匱乏的物種[12-14],并已在人類(lèi)[15]、酵母[16]、玉米[17]、擬南芥[18]、大豆[19]、蝴蝶[20]等多個(gè)物種中得到廣泛應(yīng)用。在中藥材方面,郝大程等[21]、李鐵柱等[22]、李瀅等[23]、郭溆[24]分別對(duì)虎杖根、杜仲果實(shí)和葉片、丹參根、鐵皮石斛和人參進(jìn)行了轉(zhuǎn)錄組測(cè)序,并發(fā)現(xiàn)了一些參與藥效成分生物合成相關(guān)的轉(zhuǎn)錄本和關(guān)鍵酶序列。這些研究結(jié)果說(shuō)明,RNA-Seq技術(shù)在藥用植物研究中也得到了極其廣泛的應(yīng)用。
本研究利用Illumina HiSeqTM2500對(duì)黃芩進(jìn)行轉(zhuǎn)錄組測(cè)序和分析,從黃芩轉(zhuǎn)錄組中識(shí)別出與黃芩苷生物合成相關(guān)的關(guān)鍵基因,并發(fā)現(xiàn)了大量的簡(jiǎn)單重復(fù)序列(SSR)。這些重要基因和SSR序列的發(fā)現(xiàn),為進(jìn)一步克隆其全長(zhǎng)、研究其功能和進(jìn)行分子標(biāo)記的開(kāi)發(fā)提供了基礎(chǔ)數(shù)據(jù),同時(shí)也為藥效成分的生物合成研究奠定了基礎(chǔ)。
1.1 材料
2014年8月在山西絳縣2年生黃芩種植基地,分別采集最新長(zhǎng)出的黃芩根、莖、葉和花,每個(gè)組織選取10株取樣,用蒸餾水沖洗干凈后,置于液氮中冷凍保存,備用。
1.2 方法
1.2.1 總RNA提取及檢測(cè) 使用TRIzol(Invitrogen)法提取黃芩4種不同組織的總RNA,并測(cè)定其質(zhì)量。若RIN(RNA完整值)大于8.5,28S/18S大于2,OD260/OD280在1.8~2.2,OD260/OD230大于1.8,則樣品合格,然后將質(zhì)量較好的RNA樣本等比例混合后進(jìn)行轉(zhuǎn)錄組測(cè)序。
1.2.2 黃芩cDNA文庫(kù)的建立和測(cè)序 cDNA文庫(kù)構(gòu)建和轉(zhuǎn)錄組測(cè)序工作委托北京百邁客生物科技有限公司完成。
1.2.3 黃芩轉(zhuǎn)錄組數(shù)據(jù)處理和組裝 將測(cè)序得到的原始圖像數(shù)據(jù)轉(zhuǎn)化為原始讀序(rawreads),去除其中的接頭序列和低質(zhì)量的reads,即可獲得高質(zhì)量的干凈讀序(clean reads)。利用Trinity[25]軟件對(duì)clean reads進(jìn)行de novo組裝。
1.2.4 功能注釋和分類(lèi) 首先通過(guò)BLASTX將得到的Unigene分別與核酸和蛋白數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(E-value<10-5),獲得最佳注釋信息;接著用Blast2GO和WEGO軟件對(duì)所有GO注釋信息進(jìn)行GO功能分類(lèi)統(tǒng)計(jì)[26];用COG數(shù)據(jù)庫(kù)進(jìn)行Unigene功能注釋和分類(lèi),了解基因功能分布特性;用KEGG數(shù)據(jù)庫(kù)對(duì)Unigene進(jìn)行功能注釋?zhuān)治瞿硞€(gè)Unigene在細(xì)胞代謝通路中的功能定位[27]。
1.2.5 ORF預(yù)測(cè)與SSR位點(diǎn)搜索 利用GetORF軟件對(duì)Unigene進(jìn)行ORF(Open ReadingFrame)預(yù)測(cè),選取預(yù)測(cè)結(jié)果中最長(zhǎng)的序列作為該Unigene最終的ORF。使用MISA(http://pgrc.ipk-gatersleben. de/misa/misa.htmlt/)軟件對(duì)篩選得到的1 kb以上的Unigenes做SSR序列分析,檢測(cè)Unigene序列中SSR的分布特征。
2.1 RNA質(zhì)量檢測(cè)
利用Agilent 2100生物分析儀(Agilent Technology,USA)和NanoDrop分光光度計(jì)(Thermo,USA)對(duì)提取的黃芩RNA進(jìn)行檢測(cè),結(jié)果表明,其RIN值大于8.5,OD260/OD280在1.8~2.2,OD260/OD230大于1.8,28S/18S大于2,說(shuō)明所得到的RNA質(zhì)量較好,能夠滿(mǎn)足后續(xù)的轉(zhuǎn)錄組測(cè)序試驗(yàn)(表1)。
表1 RNA質(zhì)量檢測(cè)結(jié)果
2.2 黃芩測(cè)序數(shù)據(jù)質(zhì)量評(píng)價(jià)及序列組裝分析
經(jīng)HiSeqTM2500高通量測(cè)序獲得29 099 899條讀序(clean data),總核苷酸數(shù)達(dá)7 326 522 924個(gè),數(shù)據(jù)量為7.33 G,GC含量為45.87%,Q30(測(cè)序錯(cuò)誤率<1%)值為90.743%(圖1-a);同時(shí)堿基分布分析表明,除了由于在read 5′端前十幾個(gè)堿基存在明顯的偏向性而導(dǎo)致前端波動(dòng)較大外,每個(gè)測(cè)序循環(huán)中AT和GC的含量在整個(gè)測(cè)序過(guò)程中基本呈水平線(xiàn),含量穩(wěn)定不變(圖1-b),說(shuō)明所得到的測(cè)序數(shù)據(jù)質(zhì)量較好,可進(jìn)行后續(xù)分析。
利用Trinity軟件對(duì)上述獲得的clean reads進(jìn)行組裝,得到4538775條contigs,平均長(zhǎng)149.51 bp,N50為148 bp;然后再通過(guò)contigs之間的相似性以及雙末端信息將其組裝得到107 533條transcripts,平均長(zhǎng)2 038 bp,N50為1 257.69 bp;進(jìn)一步的去冗組裝獲得53 353條Unigenes,平均長(zhǎng)1 467 bp,N50為797.64 bp(表2)。所得到transcript和Unigene的N50分別達(dá)到1 257.69,797.64 bp,表明組裝片段的完整性比較高。
表2 黃芩轉(zhuǎn)錄組數(shù)據(jù)組裝統(tǒng)計(jì)結(jié)果
2.3 Unigene的功能注釋
表3 Unigenes在5個(gè)數(shù)據(jù)庫(kù)中的分布情況
將組裝得到的53 353條Unigene與已知的COG,GO,KEGG,Swiss-Prot和NR這5個(gè)公共數(shù)據(jù)庫(kù)進(jìn)行序列比對(duì)。從表3可以看出,Unigene在5個(gè)不同數(shù)據(jù)庫(kù)中的同源比對(duì)數(shù)目不同,分別為10 756,21 950,8 101,20 339,29 288條??偣菜@得的同源比對(duì)信息數(shù)量為29 382條,占Unigene總數(shù)量的55.07%,但仍有23 971條(44.93%)序列定位不清楚,這可能與公共數(shù)據(jù)庫(kù)中沒(méi)有黃芩全基因組序列有關(guān)。
從圖2-A可以看出,比對(duì)到NR數(shù)據(jù)庫(kù)中的29 288條Unigenes,有40%的E值分布在10-50~10-5,20%位于 10-100~10-50,12%位于 10-150~10-100,小于10-150的占5%。從匹配的物種來(lái)源分析(圖2-B),發(fā)現(xiàn)注釋到番茄中Unigene占26%,注釋到葡萄中Unigene占25%,注釋到其他物種中的Unigene相對(duì)較少,如注釋到大豆和麻風(fēng)樹(shù)中的Unigene均為3%,蓖麻、野草莓和櫻桃的Unigene均為4%,毛果楊為6%,黃瓜為2%,其余23%注釋到其他物種。
2.4 Unigene的功能分類(lèi)
由表3可知,有21 950條Unigene(41.14%)獲得GO數(shù)據(jù)庫(kù)注釋。這些Unigene被分在上述3大類(lèi)的57個(gè)亞類(lèi)中(圖3),其中,生物過(guò)程分為25個(gè)亞類(lèi),獲得的注釋信息最多,共有65749條Unigene,占全部注釋信息的44.33%,這里涉及代謝過(guò)程、細(xì)胞過(guò)程和對(duì)刺激的應(yīng)激效應(yīng)的Unigene比較多,分別有14 564,13 416,6 291條;其次是細(xì)胞成分,分為16個(gè)亞類(lèi),共有57 243條Unigene,占全部注釋信息的38.60%,涉及到細(xì)胞部分、細(xì)胞和細(xì)胞器的Unigene比較多,分別有13 930,13 802,11 606條;分子功能的注釋信息最少,共有25 315條Unigene,占17.07%,這其中的催化活性與結(jié)合排在前2位,分別有11 123,10 106條Unigene。
另外,對(duì)獲取的Unigene進(jìn)行了COG數(shù)據(jù)庫(kù)功能注釋?zhuān)w入不同的分類(lèi)中,共有15 159條Unigene歸入了25種COG分類(lèi)中(圖4)。其中,一般功能預(yù)測(cè)類(lèi)包含Unigene最多(2 817條),其次是轉(zhuǎn)錄(1 329條)、復(fù)制、重組和修復(fù)(1 313條)、信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(1 122條)、翻譯、核糖體結(jié)構(gòu)和生物合成(1 111條);涉及細(xì)胞活性和細(xì)胞核結(jié)構(gòu)的Unigene較少,分別僅有13,5條;沒(méi)有發(fā)現(xiàn)細(xì)胞外結(jié)構(gòu)的功能基因。另外,有453條Unigene未被注釋上,該注釋與其他物種注釋結(jié)果比較相似。
2.5 Unigene代謝途徑分析
將所獲得的53 353條Unigene映射到KEGG數(shù)據(jù)庫(kù)中,有8 101條(15.18%)Unigene得到注釋?zhuān)w入116種KEGG代謝途徑中。從表4可看出,涉及核糖體代謝途徑的Unigene數(shù)量最多(410條/ 5.06%),其次是氧化磷酸化(287條/3.54%)、內(nèi)質(zhì)網(wǎng)蛋白加工(270條/3.33%)、剪接體(252條/3.11%)和嘌呤代謝(245條/3.02%)等代謝通路。但歸入生物素代謝和油菜素內(nèi)酯合成等中的Unigene較少,數(shù)量不超過(guò)10條。
2.6 ORF與SSR位點(diǎn)分析
為進(jìn)一步解析黃芩轉(zhuǎn)錄組編碼的基因信息,利用GetORF軟件預(yù)測(cè)了已得到注釋的Unigene,共得到53 028個(gè)ORF,其中,長(zhǎng)度大于300 nt的Unigene最多,占38.81%(20 552條)(圖5)。另外,本研究還利用MISA軟件找出5 658個(gè)SSR標(biāo)記位點(diǎn),其中,雙堿基型重復(fù)最為豐富(2 928個(gè)/51.75%),其他類(lèi)型依次為:?jiǎn)螇A基型(1 540個(gè)/27.22%)、三堿基型(1 127個(gè)/19.92%)、四堿基型(37個(gè)/0.65%),五堿基型和六堿基型分別為11,15個(gè),各占0.19%和0.27%(表5)。黃芩SSR位點(diǎn)的分析,將為黃芩的遺傳標(biāo)記研究提供非常重要的物質(zhì)資源和依據(jù)。
表4 黃芩轉(zhuǎn)錄組Unigene KEGG代謝途徑分類(lèi)
續(xù)表4
表5 SSR分析統(tǒng)計(jì)結(jié)果
目前,RNA-seq技術(shù)已被廣泛應(yīng)用于各物種的轉(zhuǎn)錄組分析中[15,11,17,20-21]。本試驗(yàn)采用高通量測(cè)序技術(shù)對(duì)黃芩轉(zhuǎn)錄組進(jìn)行測(cè)序,經(jīng)過(guò)數(shù)據(jù)組裝共得到53 353條Unigenes,平均序列長(zhǎng)度為797.64 bp,其中,長(zhǎng)度在1 kb以上的Unigenes有13 439條。經(jīng)過(guò)生物信息學(xué)分析,成功獲得功能注釋的Unigene有29 382條(55.07%),但仍有23 971條(44.93%)Unigene未能獲得注釋。分析其原因可能有2個(gè):一是本試驗(yàn)得到的Unigene序列長(zhǎng)度較短,超過(guò)1/2的長(zhǎng)度分布在500 nt以下,難以獲得同源性比對(duì),這在一定程度上增加了基因功能注釋的難度;二是基因數(shù)據(jù)庫(kù)中的生物信息暫時(shí)缺乏,一些表達(dá)不豐富的基因可能無(wú)法獲得準(zhǔn)確的功能注釋。本試驗(yàn)所獲得的黃芩轉(zhuǎn)錄組數(shù)據(jù),可豐富黃芩的基因組信息和公共數(shù)據(jù)庫(kù)信息,為進(jìn)一步挖掘和鑒定出更多的黃芩功能基因奠定基礎(chǔ)。
本研究利用生物信息學(xué)手段對(duì)所有獲得的53 353條Unigenes進(jìn)行了功能分類(lèi)和代謝途徑分析。有10 756條Unigenes得到COG功能注釋?zhuān)w入25種COG分類(lèi)中,但仍有453條Unigenes未得到功能注釋?zhuān)@可能與黃芩的基因組信息不完整有關(guān)。隨著更多物種基因組和轉(zhuǎn)錄組測(cè)序結(jié)果的出現(xiàn),使公共數(shù)據(jù)庫(kù)不斷得到補(bǔ)充和完善,這些功能未知的基因?qū)⒈粶?zhǔn)確注釋?zhuān)⒖赡軓闹邪l(fā)現(xiàn)一些新的功能基因。另外,通過(guò)KEGG數(shù)據(jù)庫(kù)分析,發(fā)現(xiàn)了一些與黃芩有效成分合成有關(guān)的關(guān)鍵酶序列,這不僅為基因的克隆和功能研究提供了一定的基礎(chǔ)數(shù)據(jù),還為進(jìn)一步研究該有效成分生物合成途徑中關(guān)鍵基因的調(diào)控機(jī)制奠定基礎(chǔ),同時(shí)也為應(yīng)用生物學(xué)技術(shù)來(lái)合成黃芩中的有效成分提供可行性。
高通量測(cè)序技術(shù)與傳統(tǒng)測(cè)序方法相比,操作簡(jiǎn)單,效率高,能夠挖掘出大量的SSR資源。本研究利用MISA軟件查找黃芩轉(zhuǎn)錄組測(cè)序數(shù)據(jù),共發(fā)現(xiàn)了5 658個(gè)SSR位點(diǎn),而且發(fā)現(xiàn)黃芩轉(zhuǎn)錄組SSR重復(fù)堿基以雙堿基型重復(fù)最多,占所有SSR的51.75%,這與其他研究結(jié)果類(lèi)似[28-29]。黃芩SSR位點(diǎn)的發(fā)現(xiàn)可為黃芩分子標(biāo)記的開(kāi)發(fā)、群體遺傳多樣性分析、遺傳連鎖圖譜構(gòu)建等后續(xù)試驗(yàn)研究奠定理論基礎(chǔ)。本試驗(yàn)對(duì)黃芩轉(zhuǎn)錄組進(jìn)行了初步的探究,彌補(bǔ)了黃芩基因組信息十分缺乏的局面,為將來(lái)進(jìn)行黃芩分子生物學(xué)方面的相關(guān)研究打下基礎(chǔ),但要想深入了解黃芩的更多信息,今后仍需要加快黃芩轉(zhuǎn)錄組學(xué)和基因組學(xué)的相關(guān)研究步伐。
[1]李錫文,Hedge I C.中國(guó)植物志[M].北京:科學(xué)出版社&圣路易斯:密蘇里植物園出版社,1994.
[2]黃爽.神農(nóng)本草經(jīng)[M].北京:中醫(yī)古籍出版社,1982.
[3]中華人民共和國(guó)藥典委員會(huì).中華人民共和國(guó)藥典 [M].北京:化學(xué)工業(yè)出版社,2005.
[4]中華本草編委.中華本草[M].上海:上??茖W(xué)技術(shù)出版社,1998.
[5]Huang J M,Wang C J,Chou F P,et al.Protective effect of baicalin on tert-butyl hydroperoxide-induced rat hepatotoxicity[J].Arch Toxicol,2005,79(2):102-109.
[6]Zhang D Y,Wu J,Ye F,et al.Inhibition of cancer cell proliferation and prostaglandin E2 synthesis byScutellaria baicalensis[J].Cancer Res,2003,63(14):4037-4043.
[7]Marioni J C,Mason C E,Mane S M,et al.RNA-seq:An assessment oftechnical reproducibilityand comparison with gene expression arrays[J].Genome Res,2008,18(9):1509-1517.
[8]Fullwood M J,Wei C L,Liu E T,et al.Next-generation DNA sequencing of paired-end tags(PET)for transcriptome and genome analyses[J].Genome Res,2009,19(4):521-532.
[9]井趙斌,魏琳,俞靚,等.轉(zhuǎn)錄組測(cè)序及其在牧草基因資源發(fā)掘中的應(yīng)用前景[J].草業(yè)科學(xué),2011,28(7):1364-1369.
[10] Jewett M C,Oliveira A P,Patil K R,et al.The role of high-throughput transcriptome analysis in metabolic engineering [J].Biotechnol Bioproc Eng,2005,10:385-399.
[11]Donson J,F(xiàn)ang Y,Espiritu-Santo G,et al.Comprehensive gene expression analysis by transcript profiling[J].Plant Mol Biol,2002,48(1/2):75-97.
[12]Sultan M,Schulz MH,Richard H,et al.A global viewof gene activity and alternative splicing by deep sequencing of the human transcriptome[J].Science,2008,321:956-960.
[13]Wang E T,Sandberg R,Luo S,et al.Alternative isoform regulation in human tissue transcriptomes[J].Nature,2008,456:470-476.
[14]Birzele F,Schaub J,Rust W,et al.Into the unknown:Expression profiling without genome sequence information in CHO by next generation sequencing[J].Nucleic Acids Res,2010,38(12):3999-4010.
[15]Pan Q,Shai O,Lee L J,et al.Deep surveyingof alternative splicing complexity in the human transcriptome by high throughput sequencing[J].Nat Genet,2008,40(12):1413-1415.
[16]Nagalakshmi U,Wang Z,Waern K,et al.The transcriptional landscape ofthe yeast genome defined byRNA sequencing[J].Science,2008,320:1344-1349.
[17]Kakumanu A,AmbavaramMM,Klumas C,et al.Effects of drought on gene expression in maize reproductive and leaf meristem tissue revealed byRNA-Seq[J].Plant Physiol,2012,160(2):846-867.
[18]Filichkin S A,Priest H D,Givan S A,et al.Genome-wide mapping of alternative splicing in Arabidopsis thaliana[J].Genome Res,2010,20(1):45-58.
[19]WangL,Cao C,Ma Q,et al.RNA-Seq analyses of multiple meristems of soybean:novel and alternative transcripts,evolutionary and functional implications[J].BMCPlant Biol,2014,14:169.
[20]Vera J C,Wheat C W,F(xiàn)escemyer H W,et al.Rapid transcriptome characterization for a nonmodel organismusing454 pyrosequencing [J].Mol Ecol,2008,17(7):1636-1647.
[21]郝大程,馬培,穆軍,等.中藥植物虎杖根的高通量轉(zhuǎn)錄組測(cè)序及轉(zhuǎn)錄組特性分析 [J].中國(guó)科學(xué):生命科學(xué),2012,42(5):398-412.
[22]李鐵柱,杜紅巖,劉慧敏,等.杜仲果實(shí)和葉片轉(zhuǎn)錄組數(shù)據(jù)組裝及基因功能注釋 [J].中南林業(yè)科技大學(xué)學(xué)報(bào),2012,32(11):122-130.
[23]李瀅,孫超,羅紅梅,等.基于高通量測(cè)序454 GS FLX的丹參轉(zhuǎn)錄組學(xué)研究[J].藥學(xué)學(xué)報(bào),2010,45(4):524-529.
[24]郭溆.基于轉(zhuǎn)錄組測(cè)序的石斛生物堿和人參皂苷生物合成相關(guān)基因的發(fā)掘、克隆及鑒定[D].北京:北京協(xié)和醫(yī)學(xué)院,2013.
[25]Grabherr M G,Haas B J,Yassour M,et al.Full-length transcriptome assembly from RNA-Seq data without a reference genome[J]. Nat Biotechnol,2011,29(7):644-652.
[26]G?tz S,García-Gómez J M,Terol J,et al.High-throughput functional annotation and data miningwith the Blast2GOsuite[J].Nucleic Acids Res,2008,36(10):3420-3435.
[27] Kanehisa M,Goto S.KEGG:Kyoto encyclopedia of genes and genomes[J].Nucleic Acids Res,2000,28:27-30.
[28]鄭紀(jì)偉.柳樹(shù)轉(zhuǎn)錄組高通量測(cè)序及SSR標(biāo)記開(kāi)發(fā)研究 [D].南京:南京林業(yè)大學(xué),2013.
[29]陳浩東.達(dá)爾文氏棉旱脅迫轉(zhuǎn)錄組測(cè)序、EST-SSR開(kāi)發(fā)及高密度遺傳圖譜構(gòu)建[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2013.
Transcriptome Data Assembly and Analysis ofScutellaria baicalensisthrough High-throughput Sequencing
WANGDefu,CHENGYuanyuan,YANGFeng,NIUErbo,NIUYanbing
(College ofLife Sciences,Shanxi Agricultural University,Taigu 030801,China)
To study the transcriptome data of Scutellaria baicalensis Georgi,the root,stem,flower and leaf organs were used as the experimental material for the transcriptome sequencing,and analyzed by bioinformatics method.The transcriptome library of Scutellaria baicalensis contained 29 099 899 reads,and 53 353 Unigenes were obtained by assembling the Scaffolds in the transcriptome library; Unigene in the transcriptome of Scutellaria baicalensis could be divided into 25 classes according to the function by comparing Unigene and the COG database.The Unigene GO functions in the transcriptome library were classificated into 3 categories and 57 branches; Unigene in the transcriptome could be divided into116 classes accordingtothe metabolic pathway.Meanwhile,the paper alsogot number of 20 552 ORF using the GetORF software and got a number of 5 658 SSR markers by SSR analysis.Data presented in this study will constitute an important genomic resource for Scutellaria baicalensis Georgi and laya solid foundation for future gene clone and regulation research about the biosynthesis ofbaicalin.
Scutellaria baicalensis Georgi;transcriptome sequencing;bioinformatics analysis
S567.23+9
A
1002-2481(2016)08-1065-08
10.3969/j.issn.1002-2481.2016.08.04
2016-07-22
國(guó)家自然科學(xué)基金項(xiàng)目(31540050);山西農(nóng)業(yè)大學(xué)科技創(chuàng)新基金項(xiàng)目(20142-10);山西農(nóng)業(yè)大學(xué)引進(jìn)人才科研啟動(dòng)基金項(xiàng)目(2014YJ05)
王德富(1983-),男,甘肅慶陽(yáng)人,講師,博士,主要從事分子植物病毒學(xué)研究工作。牛顏冰為通信作者。