宋菊+黃劍+李志棟+龍?jiān)录t+邢朝斌
[摘要] 多穗柯具有甜味和保健功效,其中黃酮類化物是主要活性物質(zhì)。為獲取多穗柯轉(zhuǎn)錄組數(shù)據(jù)庫(kù)以及黃酮類化合物生物合成相關(guān)基因,該研究用RNA-Seq中的Illumina HiSeq 4000對(duì)多穗柯嫩葉進(jìn)行轉(zhuǎn)錄組測(cè)序,共獲得6 Gb數(shù)據(jù),拼接后得到41 043條Unigene,與7個(gè)基因數(shù)據(jù)庫(kù)進(jìn)行比對(duì),可歸類于51個(gè)GO分類中,涉及到237個(gè)KEGG標(biāo)準(zhǔn)代謝通路。找到黃酮合成相關(guān)基因28條。通過(guò)MicroSatallite(MISA)軟件分析篩選到18 161個(gè)SSR,其中單堿基重復(fù)最豐富,有7 346個(gè)。此研究得到大量轉(zhuǎn)錄本信息,為多穗柯的分子生物學(xué)研究提供了寶貴的轉(zhuǎn)錄組數(shù)據(jù)庫(kù)資源。
[關(guān)鍵詞] 多穗柯; 轉(zhuǎn)錄組; 高通量測(cè)序; 黃酮類化合物
[Abstract] The sweet taste and health effect of Lithocarpus polystachyus are mainly related flavonoid. To obtain Lithocarpus transcriptome database and flavonoid biosynthesis-related genes, the RNA-Seq techology (Illumina HiSeq 4000) was used to sequence its transcriptome. Six Gb database was assembled after assembly steps, and 41 043 of L. polystachyus unigenes were obtained. With blasting them with 7 data banks, all unigenes were involved in 51 GO-terms and 237 metabolic pathways. And furthermore 28 genes of the flavonoid biosynthesis-related were found. After using the MicroSatallite, 18 161 SSR were obtained, the single-nucleotide-repeated was the richest at 7 346. These data represent abundant messages about transcripts and provide valuable genome data sources in molecular biology of L. polystachyus.
[Key words] Lithocarpus polystachyus; transcriptome; high-throughput sequencing; flavonoids
多穗柯Lithocarpus polystachyrus Rehd,別名甜茶,是殼斗科石柯屬常綠喬木[1]。因其具有強(qiáng)烈的甜味和保健功能而被廣泛關(guān)注,其中二氫查耳酮類化合物根皮苷和三葉苷是其主要活性物質(zhì),具有降血糖、保肝、抗氧化、抗腫瘤等生物活性[2]。三葉苷的含量在多穗柯二氫查二酮苷類中最高,占95%,且根皮苷和三葉苷互為異構(gòu)體。目前,僅有根皮苷受到較高關(guān)注,它的合成途徑[3]、作用[4]等都已有相關(guān)報(bào)道,但是關(guān)于多穗柯中根皮苷和三葉苷的合成、代謝以及它們相互轉(zhuǎn)化的途徑尚不夠明確。因此,利用轉(zhuǎn)錄組測(cè)序技術(shù),對(duì)多穗柯轉(zhuǎn)錄組進(jìn)行分析,找出黃酮類化合物合成相關(guān)基因,為后續(xù)對(duì)根皮苷和三葉苷的研究提供資源。
轉(zhuǎn)錄組是指特定生物體在某種狀態(tài)下所有基因轉(zhuǎn)錄產(chǎn)物的總和,轉(zhuǎn)錄組研究屬于功能基因組學(xué)研究的范疇,是連接基因組與蛋白質(zhì)組的紐帶[5]。它能反映生物個(gè)體在特定器官、組織或某一特定發(fā)育、生理階段細(xì)胞中所有基因表達(dá)水平的數(shù)據(jù)??捎脕?lái)比較不同組織或生理狀況下基因表達(dá)水平差異,發(fā)現(xiàn)與特定生理功能相關(guān)的基因,推測(cè)未知基因[6]。因此,采用轉(zhuǎn)錄組測(cè)序技術(shù),對(duì)多穗柯轉(zhuǎn)錄組進(jìn)行測(cè)序分析,建立起轉(zhuǎn)錄組數(shù)據(jù)庫(kù),為多穗柯中黃酮類化合物二氫查耳酮類的根皮苷和三葉苷生物合成研究打下基礎(chǔ)。
1 材料與方法
1.1 cDNA制備
以多穗柯嫩葉為本研究原材料提取植物總RNA,再逆轉(zhuǎn)錄為cDNA,用于構(gòu)建轉(zhuǎn)錄組數(shù)據(jù)庫(kù)。植物總RNA 提取試劑盒和逆轉(zhuǎn)錄試劑盒購(gòu)自天根生化科技(北京)有限公司。
1.2 轉(zhuǎn)錄組數(shù)據(jù)的組裝與分析
1.2.1 組裝 采用Illumina HiSeq 4000測(cè)序技術(shù)平臺(tái)的PE150技術(shù)進(jìn)行測(cè)序,將得到的Raw Data進(jìn)行過(guò)濾處理,獲得高質(zhì)量的Clean Reads,使用trinity軟件進(jìn)行組裝,得到Unigene。
1.2.2 功能預(yù)測(cè) 利用BlastX將All-Unigene與nr[7],Swiss-Prot[8],GO[9],KOG[10],KEGG[11]等6個(gè)數(shù)據(jù)庫(kù)進(jìn)行比對(duì)。又使用KOBAS2.0[12]去獲取序列在KEGG中比對(duì)KEGG Orthology結(jié)果,預(yù)測(cè)出序列的氨基酸序列之后,使用HMMER[13]軟件與Pfam[14]數(shù)據(jù)庫(kù)比對(duì),獲得注釋信息。
1.2.3 黃酮類化合物合成相關(guān)基因的挖掘 根據(jù)康亞蘭[15]和郭欣慰[16]提出的黃酮類化合物合成途徑中的結(jié)構(gòu)基因與調(diào)節(jié)基因,以及KEGG注釋的結(jié)果和數(shù)據(jù)庫(kù)中已知的基因信息,利用本地Blast進(jìn)行檢索比對(duì),確定本轉(zhuǎn)錄組數(shù)據(jù)中與黃酮合成相關(guān)的基因。
1.2.4 SSR分析 微衛(wèi)星序列(microsatellite DNA)又稱為簡(jiǎn)單序列重復(fù)(simple sequence repeats,SSR) 或簡(jiǎn)單序列(simple sequences),是指以1~6個(gè)核苷酸為基本重復(fù)單位的串聯(lián)重復(fù)序列,其長(zhǎng)度大多在 100 bp 以內(nèi)。它們廣泛存在于各類真核生物基因組中,原核生物基因組中也含有少量的微衛(wèi)星序列[17]。SSR作為分子標(biāo)記的一種,被廣發(fā)用于雜交育種、種群遺傳多樣性、遺傳連鎖圖譜的構(gòu)建等研究領(lǐng)域。目前關(guān)于多穗柯的分子標(biāo)記十分有限,本研究利用MicroSatallite(MISA)軟件找出全部的SSR,為多穗柯的遺傳標(biāo)記研究提供非常重要物質(zhì)資源和依據(jù)。
2 結(jié)果與分析
2.1 組裝
總共得到6 Gb的Clean Date,組裝獲得Unigene 41 043條,N50長(zhǎng)度為1 472 bp,長(zhǎng)度大于N50的Unigene 有8 977條,組裝完整性較高,具體組裝結(jié)果見(jiàn)表1。
通過(guò)BlastX與nr數(shù)據(jù)庫(kù)進(jìn)行比對(duì),有28 970 條Unigene獲得注釋,從匹配的物種來(lái)源分析,有10.91%的Unigene注釋到葡萄中,8.51%注釋到可可中,其余分別為梅花8.19%、桃6.51%、白僵菌5.38%、麻風(fēng)樹(shù)4.85%、桑樹(shù)4.24%、蓖麻4.12%、野草莓4.05%,橙子3.39%,其余39.85%注釋到其他物種中,見(jiàn)圖1。
隨后將所有的Unigene比對(duì)到KOG數(shù)據(jù)庫(kù)中,結(jié)果顯示有15 957條序列獲得17 067個(gè)注釋信息,劃分為25個(gè)功能分類。從基因功能分布特征中可以發(fā)現(xiàn)一般功能預(yù)測(cè)基因分布最多,多達(dá)3 751條,涉及翻譯后修飾、蛋白翻轉(zhuǎn)、分子伴侶功能的基因次之,有1 736條,而涉及核結(jié)構(gòu)、胞外結(jié)構(gòu)和細(xì)胞運(yùn)動(dòng)的基因很少,僅有59條、56條和5條。此物種的KOG功能注釋分布結(jié)構(gòu)與其他物種不盡相同,見(jiàn)圖2。
A.RNA加工和修飾;B.染色體結(jié)構(gòu)和動(dòng)力學(xué);C.能源產(chǎn)生和轉(zhuǎn)化;D.細(xì)胞周期調(diào)控,細(xì)胞分裂,染色體分離;E.氨基酸轉(zhuǎn)運(yùn)和代謝;F.核算轉(zhuǎn)運(yùn)和代謝;G.碳水化合物轉(zhuǎn)運(yùn)和代謝;H.輔酶轉(zhuǎn)運(yùn)和代謝;I.脂類轉(zhuǎn)運(yùn)和代謝;J.翻譯,核糖體結(jié)構(gòu)和生源;K.轉(zhuǎn)錄;L.復(fù)制,重組,修飾;M.細(xì)胞壁,細(xì)胞膜,被膜生源;N.細(xì)胞活性;O.翻譯后修飾,蛋白反轉(zhuǎn),伴侶;P.無(wú)機(jī)離子;Q.次生代謝物的生物合成,轉(zhuǎn)運(yùn)和代謝;R.一般功能預(yù)測(cè);S.未知功能;T.信號(hào)傳遞機(jī)制;U.細(xì)胞內(nèi)運(yùn)輸,分泌和囊泡轉(zhuǎn)運(yùn);V.防御機(jī)制;W.細(xì)胞外結(jié)果;Y.核結(jié)構(gòu);Z細(xì)胞骨架。
通過(guò)使用Blast2GO與GO數(shù)據(jù)庫(kù)的比對(duì),21 777條Unigene獲注釋信息,在利用WEGO對(duì)注釋信息進(jìn)行分類統(tǒng)計(jì),得到136 004個(gè)GO功能注釋。由分類結(jié)果可知:生物學(xué)過(guò)程最多60 216條,占44.27%,其次是細(xì)胞組分,49 219條,占36.19%,最后是分子功能,26 569條,占19.54%。這三大功能分類又可分為51個(gè)亞類,其中生物學(xué)過(guò)程19個(gè)亞類,細(xì)胞組分15個(gè)亞類,分子功能17個(gè)亞類。生物學(xué)過(guò)程中,涉及代謝過(guò)程、細(xì)胞過(guò)程和單一有機(jī)體進(jìn)程的Unigene較多,分別有14 761,12 924,10 871條;細(xì)胞組分中涉及較多的是細(xì)胞、細(xì)胞部分和膜類,分別有10 018,9 976,8 784條;分子功能中涉及較多的有催化活性和結(jié)合功能,分別有11 902,10 544條。與其他物種的表達(dá)豐度基本一致。具體種類和數(shù)量見(jiàn)圖3。
將Unigene 與KEGG比對(duì),進(jìn)行Pathway注釋,獲得基因產(chǎn)物在細(xì)胞的代謝途徑以及這些基因產(chǎn)物的功能。比對(duì)結(jié)果顯示有9 648條序列得到9 325個(gè)注釋,共涉及到237個(gè)KEGG標(biāo)準(zhǔn)代謝通路。按基因獲得注釋量的多少進(jìn)行排序,選取前10個(gè)見(jiàn)表3,涉及碳代謝的Unigene數(shù)量最多有392條,占4.20%,其次是與氨基酸的生物合成相關(guān)的Unigene,有343條,占3.68%,其余主要富集于核糖體、嘌呤代謝、糖酵解和糖異生等代謝途徑。
通過(guò)在數(shù)據(jù)庫(kù)中查找已有的基因信息和本地Blast比對(duì),共找出黃酮合成相關(guān)基因28條,結(jié)構(gòu)基因21條,調(diào)節(jié)基因7條,見(jiàn)表4。根據(jù)蘋果[3]中根皮苷的合成途徑可知,苯丙氨酸經(jīng)過(guò)苯丙氨酸解氨酶(47968_c1_g1)、肉桂酸羥化酶(46682_c0_g1)、4香豆酰CoA連接酶(42305_c0_g1)的催化,生成香豆酰CoA;乙酰CoA被乙酰CoA羧化酶羧化而成丙二酸單酰CoA。二者經(jīng)查耳酮合成酶(43222_c0_g1)催化縮合而成查耳酮,緊接著被糖基轉(zhuǎn)移酶(38697_c0_g1)糖基化而成根皮苷。
本研究利用MicroSatallite(MISA)軟件找出全部的SSR,總計(jì)18 161個(gè),其中單堿基型重復(fù)最為豐富,有7 346個(gè),占總量40.45%,在這之中A/T類型分布占其96.31%。其次是雙堿基型重復(fù),6 618個(gè),占總量36.44%,其中AG/CT類型分布占其總量78.57%。其他類型依次為:三堿基型重復(fù),3 843個(gè),占21.16%;四堿基型重復(fù),191個(gè),占1.05%;五堿基型重復(fù),66個(gè),占0.36%;最后是六堿基型重復(fù),97個(gè),占0.53%,見(jiàn)圖4。通過(guò)對(duì)多穗柯SSR的研究,將為多穗柯的遺傳標(biāo)記研究提供非常重要物質(zhì)資源和依據(jù)。
3 討論
近年來(lái),隨著多穗柯的甜味和保健作用,尤其是降糖作用被發(fā)現(xiàn),市場(chǎng)需求逐漸變大,研究工作也不斷的深入。為更好地探索多穗柯中黃酮類化合物合成,本研究采用RNA-seq技術(shù),獲得6 Gb多穗柯轉(zhuǎn)錄組數(shù)據(jù),經(jīng)過(guò)拼接組裝得到41 043條Unigene,N50的長(zhǎng)度為1 472 bp,相對(duì)于其他已測(cè)序的物種,如油松的N50是744 bp[18];芝麻的是1 006 bp[19],組裝效果好,完整性高。
通過(guò)與7個(gè)數(shù)據(jù)庫(kù)比對(duì),總共有30 223條Unigene獲得注釋信息。根據(jù)KEGG pathway分析和已知的基因信息,找出28條黃酮合成相關(guān)基因,不僅有CHS(查耳酮合成酶)、CHI(查耳酮異構(gòu)酶)、IFS(異黃酮合成酶)等關(guān)鍵酶基因,還有一些比較重要的基因,如PAL(苯丙氨酸解氨酶)基因、AAC(乙酰輔酶A羧化酶)基因、ANS(花青素苷合成酶)基因,與草麻黃[20]轉(zhuǎn)錄組中發(fā)現(xiàn)的黃酮合成相關(guān)基因大部分一致。通過(guò)轉(zhuǎn)錄組的組裝分析以及黃酮合成相關(guān)基因的挖掘,為后續(xù)對(duì)多穗柯的研究奠定了基礎(chǔ)。
[參考文獻(xiàn)]
[1] 何春年, 彭勇, 肖偉, 等. 多穗柯甜茶的研究進(jìn)展[J]. 時(shí)珍國(guó)醫(yī)國(guó)藥, 2012, 23(5): 1253.
[2] 周瑤, 李偉, 曲欣楠, 等. 天然二氫查耳酮類化合物分布及生物活性研究進(jìn)展[J]. 中國(guó)野生植物資源, 2014, 33(6): 35.
[3] Gosch C, Halbwirth H, Stich K. Phloridzin: biosynthesis, distribution and physiological relevance in plants[J]. Phytochemistry, 2010, 71(8/9): 838.
[4] 譚飔, 周志欽. 根皮苷研究進(jìn)展[J]. 食品與發(fā)酵工業(yè), 2013, 39(8):182.
[5] 張召寶, 侯林, 潘晴, 等. 中草藥高通量轉(zhuǎn)錄組研究進(jìn)展[J]. 中國(guó)中藥雜志, 2014, 39(9): 1553.
[6] 吳瓊, 孫超, 陳士林, 等. 轉(zhuǎn)錄組學(xué)在藥用植物中的研究應(yīng)用[J]. 世界科學(xué)技術(shù)——中醫(yī)藥現(xiàn)代化, 2010, 12(3): 457.
[7] Deng Y Y, Li J Q, Wu S F, et al. Integrated nr database in protein annotation system and its localization[J]. Comput Eng, 2006, 32(5): 71.
[8] Apweiler R, Bairoch A, Wu C H, et al. UniProt: the universal protein knowledge base[J]. Nucleic Acids Res, 2004, 32(1):115.
[9] Ashbuener M, Ball C A, Blake J A, et al. Gene ontology: tool for the unification of biology[J]. Nat Genet, 2000, 25(1): 25.
[10] Koonin E V, Fedorova N D, Jackson J D, et al. A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes[J]. Genome Biol, 2004, 5(2): R7.
[11] Kanehisa M, Goto S, Kawashima S, et al. The KEGG resource for deciphering the genome[J]. Nucleic Acids Res, 2004, 31(1): 277.
[12] Xie C, Mao X, Huang J, et al. KOBAS 2.0: a web server for annotation and identification of enriched pathways and diseases[J]. Nucleic Acids Res, 2001, 39(2): 316.
[13] Eddy S R. Profile hidden Markov models[J]. Bioinformatics, 1998, 14(9): 755.
[14] Finn D R, Bateman A, Clements J, et al. Pfam: the protein families database[J]. Nucleic Acids Res, 2014,42 (Database issue):222.
[15] 康亞蘭, 裴瑾, 蔡文龍, 等. 藥用植物黃酮類化合物代謝合成途徑及相關(guān)功能基因的研究進(jìn)展[J]. 中草藥, 2014, 45(9): 1336.
[16] 郭欣慰, 黃叢林, 吳忠義, 等. 植物類黃酮生物合成的分子調(diào)控[J]. 北方園藝, 2011(4): 204.
[17] 羅文永, 胡駿, 李曉方. 微衛(wèi)星序列及其應(yīng)用[J]. 遺傳, 2003, 25(5): 615.
[18] Niu S H, Li Z X, Yuan H W, et al. Transcriptome characterisation of Pinus tabuliformis and evolution of genes in the Pinus phyloheny[J]. BMC Genomics, 2013, 14(1): 167.
[19] 魏利斌, 苗紅梅, 張海洋. 芝麻發(fā)育轉(zhuǎn)錄組分析[J]. 中國(guó)農(nóng)業(yè)科學(xué), 2012, 45(7): 1246.
[20] 馬婧, 成鐵龍, 孫燦岳, 等. 草麻黃高通量轉(zhuǎn)錄組分析及黃酮類代謝途徑相關(guān)基因的鑒定[J]. 浙江農(nóng)業(yè)學(xué)報(bào), 2016, 28(4): 609.