許端祥 趙瑞麗 陳中釤 杜文麗 徐同偉 高 山
(福州市蔬菜科學(xué)研究所,福建 福州 350111)
瓠瓜[Lagenaria siceraria(Molina) Standl. ]是原產(chǎn)于熱帶的葫蘆科葫蘆屬的一年生草本植物,又稱瓠子、扁蒲、葫蘆,其嫩果品質(zhì)柔嫩,味道鮮美,富含多種營養(yǎng)物質(zhì),具有美容、清熱、解毒、治療肺炎等功效,深受人們歡迎[1-2]。 瓠瓜根系發(fā)達(dá),耐熱性好、抗病性強(qiáng),常用作西甜瓜等瓜果類蔬菜的砧木[1]。 瓠瓜在中國栽培歷史悠久,主要分布在長江及其以南地區(qū),近幾年北方也開始引種栽培[3]。
近年來,隨著高通量轉(zhuǎn)錄組測序技術(shù)的快速發(fā)展,紫背天葵[4]、黨參[5]、青籬柴[6]、黃秋葵[7]、番茄[8]等物種已完成了轉(zhuǎn)錄組功能基因組測序和功能注釋,并從中發(fā)掘出一些重要功能基因加以利用。 戎利勤等[9]完成了小花草玉梅的轉(zhuǎn)錄組測序,并從中篩選出12 個與花發(fā)育緊密相關(guān)的MADS基因,AGL6、SEP3、FUL1、PI2、SEP1 的表達(dá)量均為花形態(tài)建成的主要指標(biāo);林琿等[10]對青?;ㄒ撕桶坠;ㄒ说霓D(zhuǎn)錄組數(shù)據(jù)分析,發(fā)現(xiàn)有6 個差異基因與類胡蘿卜素生物合成有關(guān),類黃酮生物合成途徑中得到9 個差異基因以及在葉綠素代謝途徑中發(fā)現(xiàn)1 個差異基因與花梗顏色相關(guān);葉新如等[11]以冬瓜嫩葉為材料,利用高通量測序技術(shù)獲得大量冬瓜轉(zhuǎn)錄組信息,從中挖掘冬瓜基因數(shù)據(jù)及SSR 分子標(biāo)記,有助于從分子水平對冬瓜進(jìn)行深入研究;吳新義等[12]采用細(xì)胞流式技術(shù)測定了4 種中國瓠瓜的基因組大??;Wu 等[13]首次對瓠瓜自交系USVL1VR-Ls 基因組序列進(jìn)行De Novo 測序分析,揭示了葫蘆科植物基因組進(jìn)化史,為葫蘆科植物比較基因組學(xué)研究和品種改良提供了依據(jù);Wang 等[14]建立瓠瓜基因組信息相關(guān)數(shù)據(jù)庫,為瓠瓜基因組學(xué)研究提供了幫助。 由此可見,高通量轉(zhuǎn)錄組測序已經(jīng)成為功能基因研究的高效手段。 本研究采用高通量測序技術(shù)對福州特有地方品種福州芋瓠瓠瓜葉片進(jìn)行轉(zhuǎn)錄組測序,對獲得的數(shù)據(jù)進(jìn)行分析、組裝、注釋,從中發(fā)掘瓠瓜功能基因數(shù)據(jù)和SSR 分子標(biāo)記,旨在為進(jìn)一步研究瓠瓜各類功能基因奠定基礎(chǔ),為福州芋瓠品種保護(hù)和利用奠定基礎(chǔ)。
以福州本地瓠瓜品種福州芋瓠為材料,于2017 年11 月上旬播種于32 孔穴盤中,待幼苗長至3 ~4 片真葉時將4 株完整植株剪碎,混合取樣,設(shè)3 次重復(fù),液氮速凍-80℃保存?zhèn)溆谩?樣品委托上海凌恩生物科技有限公司進(jìn)行轉(zhuǎn)錄組測序。
采用Trizol 法提取瓠瓜葉片的總RNA,檢測RNA的濃度和完整性;采用磁珠法分離mRNA,將得到的mRNA 逆轉(zhuǎn)錄成dsDNA,加入dA 堿基,連接接頭,PCR富集測序樣本。
采用Illumina Hiseqxten 測序平臺進(jìn)行轉(zhuǎn)錄組測序,獲得的圖像數(shù)據(jù)經(jīng)Base Calling 轉(zhuǎn)化為原始序列(reads),使用Trimmomatic (version 0.36, http:/ /www.usadellab.org/cms/index.php? page =trimmomatic)軟件(LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:75)參數(shù)獲得高質(zhì)量的reads 序列。 再利用Trinity 軟件從頭組裝生成contig,然后拼接組裝成Transcript,最后使用Tgicl 和Phrap 軟件進(jìn)行同源聚類和拼接得到單基因簇(Unigene)。
通過BLAST 比對工具,將瓠瓜轉(zhuǎn)錄組獲得的Unigene 與公共數(shù)據(jù)庫進(jìn)行比對,將E 值設(shè)置為≤1E-5,根據(jù)基因的相似性進(jìn)行功能注釋,得到與給定Unigene 具有最高序列相似性的蛋白,從而得到該Unigene 的蛋白功能注釋信息。 公共數(shù)據(jù)庫包括非冗余蛋白數(shù)據(jù)庫(non-redundant protein database,Nr)、直系同源蛋白質(zhì)家族數(shù)據(jù)庫 (cluster of orthologous groups,COG)、基因本體論數(shù)據(jù)庫(gene ontology,GO)、東京基因與基金組百科全書(kyoto encyclopedia of genes and genomes,KEGG)。
采用MISA 軟件對獲得的Unigene 進(jìn)行SSR 位點(diǎn)搜索,以一、二、三、四、五和六核苷酸的重復(fù)次數(shù)分別不小于11、6、5、5、5 和5 次為搜索標(biāo)準(zhǔn),運(yùn)用MISA 軟件識別SSR 及進(jìn)行引物設(shè)計。
福州芋瓠是福州特有地方保護(hù)品種,其種植歷史悠久,為更好地研究保護(hù)利用福州芋瓠,首先以Wu等[13]拼接的USVL1VR-Ls 基因組序列為參考基因組,進(jìn)行有參轉(zhuǎn)錄組分析,共獲得664 252 268 個原始reads片段,經(jīng)過濾后得到高質(zhì)量的測序數(shù)據(jù)525 959 048 個reads 片段,共計77 337 803 108 bp(77.34 Gb)個核苷酸,堿基Q20 大于98%,Q30 大于94%,說明測序質(zhì)量較高,該測序結(jié)果可用于后續(xù)分析,但mapping 到參考基因組上的比對率很低,絕大部分的樣品比對率在50%~60%,均低于70%,猜測導(dǎo)致這種結(jié)果的原因可能是本研究測序的福州芋瓠與Wu 等[13]所測序的瓠瓜基因組的品種USVL1VR-Ls 遺傳差異較大,為此轉(zhuǎn)而實施無參轉(zhuǎn)錄組分析。
將獲得的高質(zhì)量的數(shù)據(jù)經(jīng)組裝后共獲得107 600個Transcript,總長度達(dá)127 115 912 bp,Transcript 序列再次聚類和組裝后共獲得87 518 個Unigene,總長度高達(dá)91 405 320 bp,平均長度為1 044 bp,N50 為1 386 bp, 其中最長的Unigene 為60 483 bp。 87 518個Unigene,長度主要集中在1 ~1 000 bp 的有66 538個,占總Unigene 的76.03%,1 000 ~2 000、2 000 ~4 000 bp、>4 000 bp 的Unigene 分別占15.77%、5.01%、3.20%(圖1)。
圖1 瓠瓜Unigene 的長度分布Fig.1 Length distribution of bottle gourd Unigenes
2.2.1 Nr 功能注釋 將組裝后得到的87 518 個Unigene 在Nr 數(shù)據(jù)庫進(jìn)行注釋,共注釋到55 725 個Unigene。 在Nr 注釋中,E 值介于1E-50~1E-10 之間的Unigene 數(shù)量最多,占總Unigene 的41.71%(23 242個),其次是1E-100 ~1E-50,為25.38%(14 144 個)(表1)。 Nr 注釋中相似度相對較高,高于90%的Unigene 有23 412 個(42.01%)。 Nr 功能注釋到葫蘆科的Unigene 數(shù)量較多,有26 354 個,占總Unigene 的47.29%,其中注釋到甜瓜上的Unigene 最多,有10 505個(18.85%),注釋到黃瓜上的Unigene 有9 166 個(16.45%),注釋到南瓜上的Unigene 有4 888 個(8.77%),注釋到苦瓜上的Unigene 有1 795 個(3.22%)。 此外,Unigene 在其他植物中也有注釋到,如注釋到蓖麻上的Unigene 有4 785 個(8.59%),注釋到水桔梗上的Unigene 有2 818 個(5.06%),注釋到牛頭蠣球菌上的Unigene 有1 621 個(2.91%),注釋到棗上的Unigene 有1 276 個(2.29%),注釋到水稻上的Unigene 有1 227 個(2.20%)(圖2)。
表1 瓠瓜Unigene 在Nr 數(shù)據(jù)庫中的E 值分布和相似度分布Table 1 E-value and identity distribution of bottle gourd in Nr database
圖2 瓠瓜Unigene 的Nr 庫物種分布Fig.2 Species distribution in Nr library of bottle gourd Unigene
2.2.2 GO 功能分析 由表2 可知,瓠瓜Unigene 在GO 數(shù)據(jù)庫中共注釋到18 278 個Unigene,占總Unigene 的20.93%。 注釋到的Unigene 根據(jù)其功能可以分為分子功能、細(xì)胞組分和生物學(xué)過程三大類和55個亞類,其中分子功能包含14 個亞類,結(jié)合活性、催化活性的Unigene 較多,分別有8 059(44.09%)、9 517個(52.07%),而歸類到蛋白標(biāo)簽、金屬蛋白活性、營養(yǎng)儲存活性、抗氧化活性、分子轉(zhuǎn)導(dǎo)活性、轉(zhuǎn)錄因子活性-蛋白結(jié)合的Unigene 較少。 在細(xì)胞組分中,歸類到細(xì)胞器、膜部分、膜結(jié)構(gòu)、細(xì)胞、細(xì)胞部分的Unigene 較多,分別為3 075(16.82%)、4 269(23.36%)、4 974(27.21%)、4 723(25.84%)、4 598 個(25.16%),歸類到其他亞類的Unigene 較少。 在生物學(xué)過程功能中,歸類到單一有機(jī)體進(jìn)程、細(xì)胞過程、代謝進(jìn)程的Unigene較多,分別為5 666 (31.00%)、 8 307(45.45%)、9 118 個(49.89%),歸類到其他類別的Unigene 均較少。
2.2.3 COG 功能分類 由表3 可知,瓠瓜葉片轉(zhuǎn)錄組測序中有41 635 個Unigene 在COG 數(shù)據(jù)庫中獲得注釋,占總Unigene 的47.67%,可分為信息存儲與處理、細(xì)胞過程和信號傳遞、新陳代謝、無特征基因四大類,其中新陳代謝、細(xì)胞過程和信號傳遞類的Unigene較多,分別為19 438(46.69%)、8 679 個(20.85%),信息存儲與處理類有7 620 個(18.30%),無特征基因類5 898 個(14.17%)。 四大類中的Unigene 可根據(jù)其功能分為25 個功能區(qū)域,其中參與氨基酸運(yùn)輸和代謝的Unigene 數(shù)量最多,占10.82%,翻譯、核糖體結(jié)構(gòu)和生物合成(6.03%)、重復(fù)/重組和修飾(7.37%)、能量生成和轉(zhuǎn)換(8.26%)、 碳水化合物運(yùn)輸和代謝(7.18%)、無機(jī)離子運(yùn)輸和代謝(7.39%)功能區(qū)域的Unigene 也較為豐富,而其他功能區(qū)域的Unigene 數(shù)量相對較少。 此外,還有2 584 個Unigene 的功能未知。
2.2.4 KEGG 代謝通路分析 將獲得的瓠瓜Unigene與KEGG 數(shù)據(jù)庫進(jìn)行比對, 由表4 可知,有24 770 個Unigene 獲得注釋,占總Unigene 的28.4%。 統(tǒng)計分析顯示,注釋到的Unigene 共涉及到220 個KEGG 代謝途徑,其中參與代謝途徑的Unigene 最多,為9 456 個,占比38.18%;參與次生代謝產(chǎn)物的生物合成的Unigene 有4 841 個,占比19.54%;生態(tài)環(huán)境下的微生物代謝作用的Unigene 有2 528 個,占比10.21%;氨基酸生物合成的Unigene 有1 990 個,占比8.03%;碳代謝的Unigene 有1 828 個,占比7.43%;參與其他代謝途徑的Unigene 相對較少。 上述結(jié)果說明,瓠瓜的代謝活動較為活躍。
表2 瓠瓜Unigene 的GO 功能分類Table 2 GO functional categories of bottle gourd Unigene
表2(續(xù))
表3 瓠瓜Unigene 的COG 功能分類Table 3 COG functional categories of bottle gourd Unigene
表3(續(xù))
表4 瓠瓜Unigene 的KEGG 代謝通路分析Table 4 KEGG pathway analysis of bottle gourd Unigene
表4(續(xù))
表4(續(xù))
表4(續(xù))
表4(續(xù))
表4(續(xù))
MISA 軟件檢索結(jié)果顯示,瓠瓜87 518 條Unigene中有8 617 條Unigene 中存在SSR 序列,共檢索到11 029 個SSR 位點(diǎn),發(fā)生頻率為9.846%,平均每8.16 kb 出現(xiàn)1 個SSR。 其中1 858 條Unigene 含有2 個或2 個以上的SSR 位點(diǎn),920 條Unigene 屬于復(fù)合SSR。在6 種 SSR 重復(fù)類型中, 單核苷酸比例最高(55.51%),其次是三核苷酸(25.41%),二核苷酸占17.07%(表5)。 瓠瓜6 種SSR 重復(fù)類型中包含有87種重復(fù)基序,單、二、三、四、五、六核苷酸6 種重復(fù)類型分別包含2、4、10、20、18、33 種重復(fù)基序類型。 其中,單核苷酸以A/T 為主,發(fā)生頻率為98.22%,總體占比54.52%;二核苷酸以AG/CT,其次為AT/AT;三核苷酸以AAG/CTT 為主,四、五、六核苷酸重復(fù)基序類型多,數(shù)量少(表6)。
表5 瓠瓜轉(zhuǎn)錄組的SSR 類型、數(shù)量及分布頻率Table 5 Type, number and frequency of SSRs in bottle gourd
隨著瓠瓜商品化,其種植面積逐年擴(kuò)大,瓠瓜種質(zhì)繁育和病蟲害方面的研究已受到廣泛關(guān)注[15-16],關(guān)于分子生物技術(shù)的研究主要集中在種質(zhì)資源的遺傳多樣性方面[17-19],對瓠瓜功能表達(dá)基因克隆方面的研究也有部分報道[3]。 2016 年吳新義等[12]采用細(xì)胞流式技術(shù)測定了4 種中國瓠瓜的基因組大小為29.11 ~344.56 Mb;Wu 等[13]首次對瓠瓜自交系USVL1VR-Ls進(jìn)行基因組De Novo 測序分析,揭示了葫蘆科植物基因組進(jìn)化史;Wang 等[14]建立了瓠瓜基因組信息相關(guān)數(shù)據(jù)庫,為瓠瓜基因組學(xué)研究提供幫助。
本研究采用Illumina Hiseqxten 測序平臺對瓠瓜葉片進(jìn)行轉(zhuǎn)錄組測序分析,獲得的Q20 和Q30 分別為98%和94%,N50 為1 386 bp,說明本次測序質(zhì)量較高,滿足后續(xù)分析的質(zhì)量要求,但以Wu 等[13]拼接的USVL1VR-Ls 基因組序列為參考基因組,進(jìn)行有參轉(zhuǎn)錄組分析時的比對率很低,絕大部分的樣品比對率為50%~60%,均低于70%,猜測導(dǎo)致這種結(jié)果的原因可能是本研究所測序的福州芋瓠與Wu 等[13]所測序的瓠瓜品種USVL1VR-Ls 遺傳差異較大,因此,本研究進(jìn)行無參轉(zhuǎn)錄組分析來分析福州芋瓠的特異性。 將獲得的序列進(jìn)行拼接組裝后共獲得87 518 個Unigene,平均長度為1 044 bp,序列相對較長,其中≥1 kb 的Unigene 有20 980 個,遠(yuǎn)高于紫色黃秋葵[20]、黑油椿香椿[21]和紫背天葵[4],其原因可能是不同物種中大片段Unigene 的數(shù)量不同。
將組裝后獲得的全部Unigene 與Nr 公共數(shù)據(jù)庫比對,有55 725 個Unigene 獲得功能注釋,占63.81%,36.19%的Unigene 未獲得相關(guān)注釋信息,此現(xiàn)象在其他植物中也存在[22-23],其原因可能是Unigene 片段太小未匹配到單數(shù)據(jù)序列,也可能是瓠瓜中存在新的功能基因。 在GO 數(shù)據(jù)庫中有18 278 個Unigene 獲得注釋,占總Unigene 的20.93%,相對注釋率較低,這與GO 數(shù)據(jù)庫信息不夠完善有關(guān)[4]。 COG 數(shù)據(jù)庫注釋到的Unigene 較多,占總Unigene 的72.24%,功能涉及到信息存儲與處理、細(xì)胞過程和信號傳遞、新陳代謝等各類生命活動,其中與新陳代謝有關(guān)的Unigene 占46.69%,說明瓠瓜自身具有較強(qiáng)的代謝能力。 KEGG全局通路注釋到24 770 個Unigene 涉及到220 個KEGG 代謝途徑,參與次生代謝產(chǎn)物的生物合成、微生物代謝、氨基酸生物合成、碳代謝等代謝途徑的Unigene 最多,這與COG 分析結(jié)果相一致,此結(jié)果為研究瓠瓜代謝途徑相關(guān)功能基因提供了依據(jù)。
根據(jù)葫蘆科植物中部分SSR 引物具有通用性的特點(diǎn),前人已成功篩選出一些適用于瓠瓜種子純度鑒定的SSR 引物[24],但仍不能滿足研究和應(yīng)用的需求,許多研究表明,可以從轉(zhuǎn)錄組序列數(shù)據(jù)中發(fā)掘、開發(fā)出豐富的SSR 標(biāo)記[25-27]。 本研究從瓠瓜轉(zhuǎn)錄組87 518條Unigenes 中篩選出11 029 個SSR 位點(diǎn),發(fā)生頻率為9.846%,該結(jié)果高于南瓜[25]和杏鮑菇[26],但低于絲瓜[27],這可能與物種基因組差異、測序方法、SSR 篩選條件等因素有關(guān)。 本試驗中,瓠瓜6 種SSR 重復(fù)類型中單、二、三核苷酸出現(xiàn)頻率較高,四、五、六核苷酸出現(xiàn)頻率相對較低,這與李榮華等[28]、李海波等[29]的研究結(jié)果相似。 本研究中,瓠瓜包含87 種SSR 重復(fù)基序類型,以A/T、AG/CT 和AAG/CTT 含量最為豐富,這與朱海生等[27]、李海波等[29]的研究結(jié)果相似。
表6 瓠瓜轉(zhuǎn)錄組的SSR 重復(fù)基序類型及頻率Table 6 Motif type and frequency of SSRs in bottle gourd
本研究利用Illumina Hiseq 高通量測序平臺對福州芋瓠瓠瓜葉片進(jìn)行無參轉(zhuǎn)錄組分析,共獲得87 518個Unigene, 55 725 個Unigene 在Nr 數(shù)據(jù)庫獲得注釋,其中26 354 個Unigene 注釋到葫蘆科作物中;GO 數(shù)據(jù)庫中注釋到18 278 個Unigene 可以分為分子功能、細(xì)胞組分和生物學(xué)過程功能三大類和55 個亞類;COG數(shù)據(jù)庫中有41 635 個Unigene 獲得注釋,分布在信息存儲與處理、細(xì)胞過程和信號傳遞、新陳代謝、無特征基因四大類的25 個功能區(qū)域;KEGG 數(shù)據(jù)庫中有注釋到的24 770 個Unigene 涉及到220 個KEGG 代謝途徑,可以全面了解瓠瓜葉片的代謝途徑信息;在瓠瓜葉片轉(zhuǎn)錄組中存在11 029 個SSR 位點(diǎn),發(fā)生頻率為9.846%。 本研究得到大量福州芋瓠瓠瓜葉片基因序列,了解了瓠瓜葉片基因的表達(dá)情況,為后續(xù)深入開展瓠瓜功能基因研究及SSR 分子標(biāo)記開發(fā)奠定了基礎(chǔ)。