印度南瓜高通量轉(zhuǎn)錄組測(cè)序與數(shù)據(jù)分析

2020-02-25 08:27劉建汀溫文旭朱海生白昌輝張前榮溫慶放

西南農(nóng)業(yè)學(xué)報(bào) 2020年10期

劉建汀，溫文旭，朱海生*，王彬，白昌輝，張前榮，溫慶放*

(1. 福建省蔬菜遺傳育種重點(diǎn)實(shí)驗(yàn)室，福建福州 350013；2. 福建省農(nóng)業(yè)科學(xué)院作物研究所，福建福州 350013；3. 福建省蔬菜工程技術(shù)研究中心，福建福州 350013)

【研究意義】印度南瓜(CucurbitamaximaDuch.)作為葫蘆科(Cueurbitaceae)南瓜屬(Cucurbita)重要的蔬菜作物，在我國(guó)各地普遍栽培，種植面積和產(chǎn)量均居世界前列[1]。印度南瓜肉質(zhì)致密，富含維生素C、胡蘿卜素和多糖多酚等，栽培面積逐年擴(kuò)大，具有良好的市場(chǎng)效益[2]。目前印度南瓜的研究多集中于營(yíng)養(yǎng)成分[3-4]、遺傳育種[5-9]、栽培技術(shù)[10]和采后生理[11-13]等方面。了解印度南瓜農(nóng)藝性狀的基因定位及其控制次生代謝途徑基因的類(lèi)型和功能[14-16]，有助于推進(jìn)印度南瓜營(yíng)養(yǎng)價(jià)值的開(kāi)發(fā)及利用和優(yōu)良品種的選育研究?！颈狙芯壳腥朦c(diǎn)】近年來(lái)，關(guān)于印度南瓜在醫(yī)療保健方面研究已受到廣泛關(guān)注，并逐漸成為研究印度南瓜的一個(gè)熱點(diǎn)，這對(duì)于印度南瓜優(yōu)良品種選育、各類(lèi)生物代謝合成途徑以及基因資源豐富程度提出了更高要求。高通量測(cè)序技術(shù)極大地推動(dòng)了非模式物種的全基因組測(cè)序工作，能夠快速、精準(zhǔn)地獲得所需豐富分子標(biāo)記信息、目的基因資源和代謝通路類(lèi)型。【前人研究進(jìn)展】利用Illumina HiSeq 2000高通量測(cè)序平臺(tái)獲得的轉(zhuǎn)錄組信息可以為后續(xù)開(kāi)展印度南瓜功能基因功能鑒定、分子標(biāo)記以及相關(guān)代謝途徑的鑒定提供參考[17-18]。林艷玲[19]利用Illumina Hi SeqTM2000系統(tǒng)進(jìn)行轉(zhuǎn)錄組測(cè)序，共獲得73 434條Unigenes，平均長(zhǎng)度為877 nt，分別有51 407、37 640、17 735、29 197條Unigenes比對(duì)到Nr、GO、COG功能分類(lèi)以及KEGG經(jīng)典代謝通路當(dāng)中。Wyatt等[20]報(bào)道了美洲南瓜果實(shí)和種子的轉(zhuǎn)錄組，通過(guò)Illumina HiSeqTM2000測(cè)序得到141 838 600個(gè)讀序，組裝獲得55 949個(gè)Unigene，在公共數(shù)據(jù)庫(kù)(Swiss-prot，TrEMBL，TAIR10，Nr)注釋到的功能基因超過(guò)62 %。近兩年，印度南瓜相關(guān)的轉(zhuǎn)錄組測(cè)序已陸續(xù)開(kāi)展，這對(duì)于印度南瓜基因資源挖掘、基因功能鑒定以及基因組學(xué)相關(guān)的研究分析提供了可靠的科學(xué)基礎(chǔ)[21-22]?！緮M解決的關(guān)鍵問(wèn)題】本研究通過(guò)Illumina HiSeq 2000高通量測(cè)序平臺(tái)對(duì)印度南瓜轉(zhuǎn)錄組進(jìn)行測(cè)序，利用公共數(shù)據(jù)庫(kù)對(duì)測(cè)序結(jié)果進(jìn)行生物信息學(xué)分析，為印度南瓜多糖多酚、類(lèi)黃酮、莨菪烷、哌啶和吡啶生物堿等重要的生物代謝途徑及其相關(guān)功能基因和分子標(biāo)記信息的開(kāi)發(fā)奠定基礎(chǔ)。

1 材料與方法

1.1 試驗(yàn)材料

測(cè)序材料印度南瓜取自福建省農(nóng)業(yè)科學(xué)院作物所蔬菜中心福清東張基地蔬菜育苗大棚。試驗(yàn)于2017年3月1號(hào)選取50粒飽滿(mǎn)的印度南瓜種子，清洗干凈后用次氯酸鈣溶液(100～200 mL/L)消毒10 min，再次用清水洗凈殘留的次氯酸鈣后播種到育苗盤(pán)中。于2017年3月15日上午9時(shí)從20株生長(zhǎng)正常、大小相似的印度南瓜幼苗中隨機(jī)選取3株作為生物學(xué)重復(fù)，活體包裝后送至北京百邁客生物科技有限公司(Biomarker Technologies Co，LTD，Beijing)測(cè)序。研究采用Trizol法分別提取3株印度南瓜幼苗葉片總RNA，各樣本分別取等量混合組成3個(gè)RNA池，并依次采用Qubit 2.0、Nanodrop和Aglient 2100分析檢測(cè)印度南瓜RNA樣品的濃度、純度和完整性。通過(guò)以下3個(gè)步驟構(gòu)建印度南瓜cDNA文庫(kù)：①用磁珠和磁分離器分離并純化出mRNA，將純化后的mRNA進(jìn)行隨機(jī)打斷并作為模板，利用random hexamers作為引物反轉(zhuǎn)錄合成第一條cDNA鏈；②加入反應(yīng)液(由緩沖液、dNTPs、RNA聚合酶H和DNA聚合酶I)合成第二條cDNA鏈；③利用AMPure XP beads核酸試劑純化cDNA，再加EB緩沖液洗脫之后進(jìn)行末端修復(fù)、C端加A尾并連接測(cè)序接頭、利用瓊脂糖凝膠電泳選擇片段大小，最后通過(guò)PCR擴(kuò)增得到印度南瓜轉(zhuǎn)錄組cDNA文庫(kù)。

1.2 印度南瓜轉(zhuǎn)錄組測(cè)序

通過(guò)Illumina HiSeq 2000測(cè)序平臺(tái)和PE125測(cè)序方法對(duì)1.1中構(gòu)建好的印度南瓜cDNA文庫(kù)進(jìn)行高通量測(cè)序，測(cè)序得到的原始圖像數(shù)據(jù)經(jīng)過(guò)濾得到純化后到高質(zhì)量的讀序(clean reads)，再利用Trinity軟件進(jìn)行轉(zhuǎn)錄組de dovo分析組裝。Trinity通過(guò)序列之間的overlap信息組裝得到Transcripts，最后用TGICL聚類(lèi)和Phrap拼接軟件分別對(duì)Transcripts進(jìn)行同源聚類(lèi)和拼接獲得不含N的組裝片段(Unigene)。印度南瓜轉(zhuǎn)錄組分析項(xiàng)目包括測(cè)序組裝結(jié)果分析、Unigene基因功能注釋及分類(lèi)、基因表達(dá)量(FPKM，F(xiàn)ragments Per Kilobase of transcript per Million mapped reads)統(tǒng)計(jì)分析以及SSRs特征分析等。

1.3 印度南瓜基因功能注釋

通過(guò)Blastx(https://blast.ncbi.nlm.nih.gov/Blast.cgi)下線(xiàn)比對(duì)工具，將印度南瓜Unigene與蛋白數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(設(shè)定E值≤1E-5)，匹配相似性>30 %的基因功能注釋信息，選取與其Unigene序列編碼具備最高相似性的蛋白作為該Unigene的蛋白功能注釋信息。蛋白比對(duì)數(shù)據(jù)庫(kù)包括非冗余蛋白數(shù)據(jù)庫(kù)Nr(Non-redundant protein database，ftp://ftp.ncbi.nih.gov/blast/db/)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)SwissProt(http://www.uniprot.org/，SwissProt protein database)、蛋白質(zhì)直系同源和功能注釋數(shù)據(jù)庫(kù)eggNOG(v4.5)(A database of orthologous groups and functional annotation，http://eggnogdb.embl.de/)、真核生物蛋白質(zhì)同源數(shù)據(jù)庫(kù)KOG(euKaryotic Orthologous Groups，http://www.ncbi.nlm.nih.gov/KOG/)、蛋白質(zhì)直系同源數(shù)據(jù)庫(kù)COG(Cluster of Orthologous Groups，http://www.ncbi.nlm.nih.gov/COG/)、蛋白質(zhì)家族域數(shù)據(jù)庫(kù)Pfam(Protein families database，http://pfam.xfam.org/)、基因本體論數(shù)據(jù)庫(kù)GO(Gene Ontology，http://www.geneontology.org/)、東京基因與基金組百科全書(shū)KEGG(Kyoto Encyclopedia of Genes and Genomes，http://www.genome.jp/kegg/)。

2 結(jié)果與分析

2.1 印度南瓜轉(zhuǎn)錄組測(cè)序結(jié)果分析與組裝

通對(duì)印度南瓜嫩葉進(jìn)行轉(zhuǎn)錄組測(cè)序，共獲得26 083 711個(gè)片段(reads)，其中包含7789 098 902(7.79 Gb)個(gè)核苷酸序列信息；各樣品Q(chēng)30堿基百分比均不小于93.11 %，GC含量為46.64 %。該結(jié)果表明，印度南瓜轉(zhuǎn)錄組測(cè)序數(shù)據(jù)量和質(zhì)量都很高，因此，可用于為后續(xù)的數(shù)據(jù)組裝提供原始數(shù)據(jù)。

隨后利用Trinity軟件進(jìn)行序列組裝，組裝共獲得179 524條Transcript?？傂蛄行畔⑦_(dá)222 022 708 bp(0.22 Gb)，平均長(zhǎng)度1236.73 nt，Transcript的N50為1947 bp。其中各長(zhǎng)度占比如圖1所示，長(zhǎng)度200～300、300～500、500～1000、1000～2000 bp、≥2000 bp分別占17.81 %、15.74 %、18.49 %、27.25 %、20.72 %。所得Transcript序列再次組裝后得到68 073條Unigene，Unigene總序列信息達(dá)44 206 542 bp(44.2 Mb),平均長(zhǎng)度649.40 bp，長(zhǎng)度200～300、300～500、500～1000、1000～2000 bp、≥2000 bp分別占38.47 %、27.60 %、16.48 %、11.19 %、6.25 %。本研究中Unigene的N50為1070 bp，表明印度南瓜轉(zhuǎn)錄組測(cè)序組裝完整性較高。

圖1 Transcript和Unigene長(zhǎng)度分布Fig.1 Transcript and Unigene length distribution

將建庫(kù)后的各印度南瓜樣品Clean Data與組裝得到的Transcript或Unigene庫(kù)進(jìn)行序列比對(duì)，結(jié)果表明，測(cè)序得到的26 083 711個(gè)reads中有19 901 135個(gè)reads具有表達(dá)量，占總量的76.3 %，其中僅比對(duì)到1個(gè)位置的reads有9521 986個(gè)(占47.85 %)，而比對(duì)到2個(gè)或2個(gè)以上位置的reads(多基因家族序列)為10 379 149個(gè)(占52.15 %)。所有印度南瓜68 073個(gè)Unigene的FPKM平均值為14.03，其中最大值為59 317.29(ID：c27343.graph_c0)，最小值(除0外)為0.10(ID：c48851.graph_c0)，F(xiàn)PKM值為0的Unigene有10 699個(gè)，其中有11 659個(gè)Unigene的FPKM值大于10，另有18 038個(gè)Unigene基因的FPKM值小于1。

2.2 印度南瓜Unigene功能注釋

使用BLAST[23]軟件將西葫蘆轉(zhuǎn)錄組測(cè)序獲得的Unigene序列分別與六大數(shù)據(jù)庫(kù)Nr、Swiss-Prot、GO、COG、KOG、eggNOG 4.5和KEGG進(jìn)行比對(duì)。利用KOBAS 2.0和HMMER軟件分別與KEGG、Pfam數(shù)據(jù)庫(kù)比對(duì)獲取Unigene響應(yīng)的注釋信息。在各數(shù)據(jù)庫(kù)獲得的功能注釋Unigene統(tǒng)計(jì)數(shù)如圖2所示，總共有38 177條Unigene在上述8個(gè)數(shù)據(jù)庫(kù)得到注釋?zhuān)渲?，Nr數(shù)據(jù)庫(kù)注釋的Unigene最多，為37 542條(占總Unigenes的98.34 %)，其次為Pfam數(shù)據(jù)庫(kù)，為33 927條，在COG數(shù)據(jù)庫(kù)中注釋的結(jié)果最少，為9938條(僅占總Unigenes的26.03 %)。

圖2 Unigene注釋統(tǒng)計(jì)Fig.2 Annotation statistics of Unigene

2.3 印度南瓜Unigene的Nr及SwissProt數(shù)據(jù)庫(kù)比對(duì)分析

通過(guò)BLAST程序?qū)τ《饶瞎蠝y(cè)序后獲得的68 073個(gè)Unigene進(jìn)行Nr和SwissPort數(shù)據(jù)庫(kù)比對(duì)分析(E≤1E-5)，由圖3-A可知，37 542個(gè)(55.15 %)Unigene在Nr數(shù)據(jù)庫(kù)中能找到相似序列。其中E值小于1E-150的Unigene有7986個(gè)(21.27 %)，E值介于1E-100～1E-150的Unigene有3622個(gè)(9.65 %)，E值介于1E-50～1E-100的Unigene有8389個(gè)(22.35 %)，E值介于1E-5～1E-50的Unigene有17 545個(gè)(46.73 %)。Nr功能注釋匹配的物種如圖3-B所示，其中香瓜13 737個(gè)Unigene(36.62 %)、黃瓜13 347個(gè)Unigene(35.58 %)、可可2346個(gè)Unigene(6.25 %)、擬南芥720個(gè)Unigene(1.92 %)、葡萄662個(gè)Unigene(1.76 %)、木棉595個(gè)Unigene(1.59 %)、香橙(287個(gè)Unigene(0.77 %)、毛果楊215個(gè)Unigene(0.57 %)、巴旦木210個(gè)Unigene(0.56 %)、芝麻210個(gè)Unigene(0.56 %)等。匹配序列相似度(identity)如圖3-C所示，相似度80 %以上的Unigene有25 848個(gè)(68.85 %)，相似度40 %～80 %的Unigene有11 532個(gè)(30.72 %)，相似度低于40 %的Unigene有162個(gè)(0.43 %)。

與Nr相比SwissProt數(shù)據(jù)來(lái)源較少，因此可找到相似度高(E<1e-150，相似度>80 %)序列的Unigene大幅減少。本研究中印度南瓜Unigene在SwissPort數(shù)據(jù)庫(kù)共找到23 946個(gè)(35.18 %)相似序列。如圖3-D所示，其中E值小于1E-150的Unigene有3257個(gè)(13.60 %)，E值介于1E-100～1E-150的Unigene有2125個(gè)(8.87 %)，E值介于1E-50～1E-100的Unigene有4891個(gè)(20.43 %)，E值介于1E-5到1E-50的Unigene有13 673個(gè)(57.10 %)；SwissPort功能注釋匹配的物種圖3-E，其中擬南芥18 422個(gè)(76.93 %)、水稻1109個(gè)(4.63 %)、番茄253個(gè)(1.06 %)、大豆250個(gè)(1.04 %)、豌豆230個(gè)(0.96 %)、馬鈴薯226個(gè)(0.94 %)、玉米182個(gè)(0.76 %)、黃瓜136個(gè)(0.57 %)、菠菜123個(gè)(0.51 %)等。由圖3-F可知，相似度80 %以上的Unigene有6417個(gè)(26.80 %)，相似度40 %～80 %的Unigene有15 485個(gè)(64.67 %)，相似度低于40 %的Unigene有2044個(gè)(8.54 %)。

2.4 印度南瓜Unigene的Go數(shù)據(jù)庫(kù)分類(lèi)

GO(Gene Ontology)數(shù)據(jù)庫(kù)是基因功能?chē)?guó)際標(biāo)準(zhǔn)化分類(lèi)體系，包含生物學(xué)過(guò)程(Biological Process)、細(xì)胞組分(Cellular Component)和分子功能(Molecular Function)3個(gè)部分，分別描述了基因產(chǎn)物可能參與的生物學(xué)過(guò)程、所處的細(xì)胞環(huán)境和行使的分子功能。由圖4可知，21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組，46 420個(gè)GO條目被分類(lèi)到細(xì)胞組分的17個(gè)功能組中，其中細(xì)胞部分(1036 422.33 %)、細(xì)胞(1036 422.33 %)、細(xì)胞器(775 316.70 %)以及膜(589 812.71 %)功能組中涉及的Unigene較多；26 165個(gè)GO條目分類(lèi)到16個(gè)分子功能組，其中催化活性(1133 843.33 %)和結(jié)合活性(1053 340.26 %)功能組中涉及的Unigene較多；65 232個(gè)GO條目被分類(lèi)到20個(gè)生物學(xué)過(guò)程功能組，代謝進(jìn)程(1476 122.63 %)、細(xì)胞進(jìn)程(1303 119.98 %)以及單一生物進(jìn)程(1124 717.24 %)功能組中涉及的Unigene較多。

由圖4可知，21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組，46 420個(gè)GO條目被分類(lèi)到細(xì)胞組分的17個(gè)功能組中，其中細(xì)胞部分(10 364，22.33 %)、細(xì)胞(10 364，22.33 %)、細(xì)胞器(7753，16.70 %)以及膜(5898，12.71 %)功能組中涉及的Unigene較多；26 165個(gè)GO條目分類(lèi)到16個(gè)分子功能組，其中催化活性(11 338，43.33 %)和結(jié)合活性(10 533，40.26 %)功能組中涉及的Unigene較多；65 232個(gè)GO條目被分類(lèi)到20個(gè)生物學(xué)過(guò)程功能組，代謝進(jìn)程(14 761，22.63 %)、細(xì)胞進(jìn)程(13 031，19.98 %)以及單一生物進(jìn)程(11 247，17.24 %)功能組中涉及的Unigene較多。

2.5 印度南瓜Unigene的KOG、COG和eggNOG數(shù)據(jù)庫(kù)分類(lèi)

通過(guò)KOG、COG和eggNOG數(shù)據(jù)庫(kù)比對(duì)Unigene，可對(duì)獲得注釋的Unigene進(jìn)行蛋白功能描述和功能分類(lèi)。本研究將印度南瓜Unigene與KOG、COG和eggNOG數(shù)據(jù)庫(kù)進(jìn)行比對(duì)，并對(duì)其結(jié)果進(jìn)行功能分類(lèi)統(tǒng)計(jì)。結(jié)果表明，KOG、COG和eggNOG數(shù)據(jù)庫(kù)分別注釋到20 011個(gè)、9938個(gè)和33 927個(gè)Unigene，根據(jù)其功能劃分為25個(gè)類(lèi)(表1)。其中KOG數(shù)據(jù)庫(kù)中一般功能預(yù)測(cè)(3456個(gè))注釋到的Unigene最多，其次是翻譯后修飾、蛋白折疊和分子伴侶(2017個(gè))，而細(xì)胞運(yùn)動(dòng)(7個(gè))注釋到的Unigene最少；COG數(shù)據(jù)庫(kù)中同樣是一般功能預(yù)測(cè)(2551個(gè))注釋到的Unigene最多，而胞外結(jié)構(gòu)未注釋到Unigene，核結(jié)構(gòu)中僅注釋到1個(gè)Unigene；eggNOG數(shù)據(jù)庫(kù)中功能未知的Unigene有7665個(gè)，其次是一般功能預(yù)測(cè)6165個(gè)，而細(xì)胞運(yùn)動(dòng)僅注釋到3個(gè)Unigene。由表1可知，印度南瓜轉(zhuǎn)錄組測(cè)序結(jié)果極為豐富，獲得的Unigenes涉及到了植物生長(zhǎng)發(fā)育過(guò)程中的所有生命活動(dòng)。

表1 印度南瓜Unigene的KOG、COG和eggNOG數(shù)據(jù)庫(kù)分類(lèi)

2.6 印度南瓜Unigene的Pfam數(shù)據(jù)庫(kù)分析

Pfam(Protein family)數(shù)據(jù)庫(kù)建立了每個(gè)蛋白質(zhì)家族的氨基酸序列的HMM(Hidden Markov Model)統(tǒng)計(jì)模型，是目前最全面的蛋白質(zhì)結(jié)構(gòu)域注釋的分類(lèi)系統(tǒng)，可用于識(shí)別蛋白的結(jié)構(gòu)域序列，從而初步預(yù)測(cè)蛋白質(zhì)的功能。將印度南瓜的68 073個(gè)Unigene進(jìn)行Pfam數(shù)據(jù)庫(kù)編碼蛋白結(jié)構(gòu)域功能分析，Pfam數(shù)據(jù)庫(kù)注釋到21 823個(gè)Unigene，共分為7311類(lèi)。Pfam數(shù)據(jù)庫(kù)注釋到最多的蛋白結(jié)構(gòu)域?yàn)榈鞍准っ附Y(jié)構(gòu)域(Protein kinase domain)共計(jì)906個(gè)Unigene，其次為蛋白酪氨酸激酶(Protein tyrosine kinase)872個(gè)Unigene和PPR重復(fù)家族(PPR repeat family)632個(gè)Unigene；其他注釋到的數(shù)量較多的蛋白功能區(qū)域分別為WD結(jié)構(gòu)域(WD domain)243個(gè)、G-beta重復(fù)(G-beta repeat)228個(gè)、細(xì)胞色素P450(Cytochrome P450)214個(gè)、反轉(zhuǎn)錄酶(Reverse transcriptase)47個(gè)、線(xiàn)粒體載體蛋白(Mitochondrial carrier protein)93個(gè)、AP2結(jié)構(gòu)域(AP2 domain)99個(gè)、轉(zhuǎn)移酶家族(Transferase family)271個(gè)、RNA識(shí)別基序(RNA recognition motif)259個(gè)、WRKY轉(zhuǎn)錄因子結(jié)構(gòu)域(WRKY DNA-binding domain)56個(gè)、螺旋-環(huán)-螺旋結(jié)構(gòu)域(Helix-loop-helix DNA-binding domain)80個(gè)、NB-ARC結(jié)構(gòu)域(NB-ARC domain)25個(gè)、GRAS家族(GRAS domain family)59個(gè)、類(lèi)GDSL脂肪酶/?；饷?GDSL-like Lipase/Acylhydrolase)60個(gè)。

2.7 印度南瓜Unigene的KEGG數(shù)據(jù)庫(kù)功能注釋

KEGG是系統(tǒng)分析基因產(chǎn)物功能及其在細(xì)胞中參與代謝途徑的數(shù)據(jù)庫(kù)，通過(guò)KEGG分析能夠把基因及其表達(dá)信息形成一個(gè)整體的研究網(wǎng)絡(luò)。本研究中印度南瓜轉(zhuǎn)錄組測(cè)序獲得68 073個(gè)Unigene序列，其中有15 074個(gè)Unigene在KEGG數(shù)據(jù)庫(kù)中得到注釋?zhuān)⒐采婕暗降?27個(gè)代謝途徑(表2)。其中注釋較多Unigene的有：核糖體代謝途徑(676個(gè)，ID：ko03010)、碳代謝代謝途徑(665個(gè)，ID：ko01200)、氨基酸的生物合成代謝途徑(595個(gè)，ID：ko01230)、植物激素信號(hào)傳導(dǎo)代謝途徑(529個(gè)，ID：ko04075)、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)處理代謝途徑(429個(gè)，ID：ko04141)等。注釋較少的Unigene有：花色素苷生物合成代謝途徑(ID：ko00942)和芥子油苷的生物合成代謝途徑(ID：ko00966)僅識(shí)別到1個(gè)Unigene。另外，類(lèi)胡蘿卜素生物合成代謝途徑(86個(gè)，ID：00906)、N-多糖生物合成代謝途徑(82個(gè)，ID：ko00510)以及類(lèi)黃酮生物合成代謝途徑(52個(gè)，ID：ko00941)，這些代謝途徑中的Unigene為之后開(kāi)展印度南瓜次生代謝產(chǎn)物合成途徑及其分子調(diào)控奠定了基礎(chǔ)。

表2 印度南瓜Unigene的KEGG代謝途徑分析

續(xù)表2 Continued table 2

2.8 印度南瓜轉(zhuǎn)錄組SSRs特征分析

從印度南瓜68 073個(gè)Unigene中篩選出大于1 Kb以上的Unigene共11 871個(gè)，借助MISA(A MIcroSAtellite identification tool，http://pgrc.ipk-gatersleben.de/misa/misa.html)軟件，分別按單堿基類(lèi)型(Mono-nucleotide type)、雙堿基類(lèi)型(Di-nucleotide type)、三堿基類(lèi)型(Tri-nucleotide type)、四堿基類(lèi)型(Tetra-nucleotide type)、五堿基類(lèi)型(Penta-nucleotide type)、六堿基類(lèi)型(Hexa-nucleotide type)重復(fù)和混合類(lèi)型(Compound type，位點(diǎn)≥2)SSR等進(jìn)行搜索，搜索結(jié)果標(biāo)記為p1、p2、p3、p4、p5、p6和c(表3～4)。印度南瓜含有SSR位點(diǎn)的Unigene共5391個(gè)，其中含有單堿基重復(fù)(p1)類(lèi)型的Unigene最多，共2906個(gè)占總數(shù)的53.90 %；雙堿基重復(fù)(p2)類(lèi)型的Unigene共942個(gè)，三堿基重復(fù)(p3)類(lèi)型的Unigene有1096個(gè)，四堿基重復(fù)(p4)類(lèi)型的Unigene共89個(gè)，五堿基重復(fù)(p5)類(lèi)型的Unigene共10個(gè)，六堿基重復(fù)(p6)類(lèi)型的Unigene共18個(gè)。含有至少2個(gè)SSR位點(diǎn)的Unigene共319個(gè)，含有至少2個(gè)位點(diǎn)且存在共用堿基的類(lèi)型有11個(gè)。通過(guò)對(duì)印度南瓜SSR位點(diǎn)進(jìn)行分析，了解其組成和類(lèi)型分布特征，可為進(jìn)一步開(kāi)展印度南瓜及其近緣種遺傳圖譜構(gòu)建、基因組差異表達(dá)分析及其通用性引物設(shè)計(jì)等奠定科學(xué)基礎(chǔ)。

表3 印度南瓜SSR優(yōu)勢(shì)堿基組成

3 討論

近年來(lái)，轉(zhuǎn)錄組測(cè)序技術(shù)在多種植物基因組及合成生物學(xué)等研究方面應(yīng)用廣泛，并取得重大進(jìn)展。Zhu等[24]利用轉(zhuǎn)錄組測(cè)序(RNA-seq)技術(shù)對(duì)普通絲瓜品種“福絲3號(hào)”進(jìn)行鮮切褐變差異分析，獲得58 073條有效序列，從中篩選出27 301條Unigene在絲瓜鮮切褐變不同時(shí)間段差異表達(dá)基因(DEGs)，并獲得了15條差異表達(dá)全長(zhǎng)基因序列。在南瓜屬作物中，Wu等[25]使用Illumina HiSeqTM2000對(duì)中國(guó)南瓜進(jìn)行了轉(zhuǎn)錄組測(cè)序，得到52 849 316個(gè)讀序組裝后得到62 480個(gè)Unigene，在Nr、Swiss Port和COG中分別注釋到了47 596、34 368和16 700個(gè)功能基因，通過(guò)篩選獲得了4794對(duì)SSR引物。本研究對(duì)印度南瓜進(jìn)行轉(zhuǎn)錄組測(cè)序，從3個(gè)RNA池中共獲得26 083 711個(gè)reads，包含了7 789 098 902(7.79 Gb)個(gè)核苷酸序列信息，Q30小于93.11 %，GC含量為46.64 %。組裝獲得179 524條Transcript，Transcript序列再次組裝后得到68 073個(gè)Unigene，平均長(zhǎng)度649.40 bp，N50為1070 bp，表明印度南瓜測(cè)序測(cè)序質(zhì)量較好，能為后續(xù)數(shù)據(jù)分析提供很好的原始數(shù)據(jù)。

表4 印度南瓜SSR重復(fù)基序分布情況

前人研究表明，在不同植物的轉(zhuǎn)錄組數(shù)據(jù)結(jié)果分析中，皆存在大量Unigene未獲得匹配的情況，如：玉米[26]、亞麻芥[27]、龍眼[28]、喀西茄[29]等，未注釋到的Unigene與其長(zhǎng)度和數(shù)據(jù)庫(kù)信息缺乏有關(guān)。本研究通過(guò)Illumina HiSeqTM2000測(cè)序平臺(tái)對(duì)印度南瓜轉(zhuǎn)錄組進(jìn)行測(cè)序，通過(guò)拼接獲得了68 073個(gè)印度南瓜Unigene。研究通過(guò)進(jìn)一步對(duì)組裝獲得的Unigene在Nr、Swiss-Prot、GO、COG、KOG、eggNOG4.5、KEGG、Pfam等公共數(shù)據(jù)庫(kù)進(jìn)行了比對(duì)，獲得功能注釋的Unigene共計(jì)38 177個(gè)，占Unigene總數(shù)56.08 %。進(jìn)一步分析發(fā)現(xiàn)，在Nr數(shù)據(jù)庫(kù)中找到37 542個(gè)相似序列，其中36.62 %(13 737個(gè))的Unigene注釋匹配到甜瓜；35.58 %(13 347個(gè))Unigene注釋匹配到黃瓜；在GO數(shù)據(jù)庫(kù)中21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組，印度南瓜的Unigene幾乎涵蓋了植物所有功能，但是仍然存在較多的Unigene未被注釋需要利用其他數(shù)據(jù)庫(kù)進(jìn)一步補(bǔ)充。研究表明，印度南瓜提取物中含有抗癌、抗糖尿病和抗肥胖等重要功效[30-33]。本研究獲得注釋到的Unigene廣泛涉及各類(lèi)生命代謝活動(dòng)，KEGG數(shù)據(jù)庫(kù)中共注釋到15 074個(gè)Unigene分布在127個(gè)代謝途徑中，其中涉及到了類(lèi)黃酮、莨菪烷、哌啶、吡啶生物堿、花色素苷和芥子油苷等次生代謝產(chǎn)物合成途徑。印度南瓜轉(zhuǎn)錄組測(cè)序KEGG代謝通路分析表明共有52條Unigene參與到類(lèi)黃酮代謝通路中，該代謝途徑能夠有效合成許多具有抗癌、抗氧化、抗病毒、增強(qiáng)免疫力等多種功能的黃酮類(lèi)化合物，這為今后從印度南瓜成熟果實(shí)入手挖掘控制黃酮類(lèi)化合物的生物合成關(guān)鍵基因提供了重要的基因資源[34]。

目前已開(kāi)發(fā)的南瓜屬SSR標(biāo)記主要來(lái)自于美洲南瓜的基因組以及轉(zhuǎn)錄組[35-36]、印度南瓜基因組以及轉(zhuǎn)錄組[37-38]和中國(guó)南瓜轉(zhuǎn)錄組[39-40]數(shù)據(jù)，這些SSR標(biāo)記具有一定通用性，由于同一個(gè)屬內(nèi)不同種之間具有一定保守性，且在印度南瓜上表現(xiàn)為多態(tài)性較低，限制了其在印度南瓜上的應(yīng)用?；谵D(zhuǎn)錄組的SSR標(biāo)記較一般的分子標(biāo)記具有信息量大和通用性好的優(yōu)勢(shì)。朱海生等[41]對(duì)美洲南瓜轉(zhuǎn)錄組測(cè)序獲得的SSR種類(lèi)較為豐富，共檢測(cè)出7478個(gè)SSR位點(diǎn)，各種重復(fù)類(lèi)型的出現(xiàn)頻率有較大差異，含6種SSR重復(fù)類(lèi)型，其中單核苷酸占總SSR的47.90 %。本研究從印度南瓜68 073個(gè)Unigene中篩選出5391個(gè)SSR位點(diǎn)，其中含有單堿基重復(fù)類(lèi)型的Unigene最多，共2906個(gè)占總數(shù)的53.90 %，表明在印度南瓜中和美洲南瓜測(cè)序獲得的結(jié)果相似，均以單堿基型重復(fù)所占比例居多。本研究為印度南瓜種質(zhì)資源遺傳多樣性分析、遺傳圖譜構(gòu)建、基因定位與克隆及分子標(biāo)記輔助育種等奠定了基礎(chǔ)。現(xiàn)有的印度南瓜SSR分子標(biāo)記數(shù)量遠(yuǎn)遠(yuǎn)不能滿(mǎn)足印度南瓜分子生物學(xué)研究的需求，因此，大量開(kāi)發(fā)SSR標(biāo)記仍是目前印度南瓜研究的重要工作之一，今后需增加南瓜品種測(cè)試包括中國(guó)南瓜和美洲南瓜，以進(jìn)一步獲得較高頻率的SSR位點(diǎn)和豐富的SSR類(lèi)型。

4 結(jié) 論

研究獲得印度南瓜獲得質(zhì)量較好的轉(zhuǎn)錄組測(cè)序，并對(duì)組裝獲得的Unigene進(jìn)行基因功能注釋以及KEGG代謝通路和SSR序列基本特征分析，為后續(xù)基因資源挖掘、基因功能鑒定以及遺傳多樣性分析和遺傳圖譜構(gòu)建提共依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡