付蘇宏,雷 鳴,張勇群*,施 靜,郝豆豆
(1. 西藏自治區(qū)人民政府駐成都辦事處醫(yī)院,四川 成都 610000;2. 西藏大學(xué),西藏 拉薩 850000)
【研究意義】菊葉香藜(Dysphaniaschraderiana),具有強(qiáng)烈的氣味因此又稱(chēng)之為臭菜,為藜科(Chenopodiaceae)刺藜屬一年生草本植物,廣泛分布于我國(guó)高海拔地區(qū)如西藏、內(nèi)蒙古、甘肅、青海、陜西等省份。菊葉香藜被用作蒙藥(蒙文名稱(chēng):烏努日特-諾衣樂(lè))[1],具有平喘解痙、清熱解毒、止痛、止癢等功效[2]。此外,菊葉香藜富含植物精油,表現(xiàn)出良好的生物活性,對(duì)植物螨蟲(chóng)、昆蟲(chóng)、細(xì)菌均具有顯著的抑制活性[3-5],菊葉香藜中最具有潛在天然藥物開(kāi)發(fā)價(jià)值的是其中的活性化合物。此外,由于菊葉香藜對(duì)極端環(huán)境具有較好的耐受性,也有研究報(bào)道稱(chēng)菊葉香藜可以改善其生存的生態(tài)環(huán)境[6]。然而,菊葉香藜的研究主要局限在傳統(tǒng)民族藥物方面,近幾年才逐漸開(kāi)展植物學(xué)、植物化學(xué)以及生物活性研究,在遺傳學(xué)與基因組學(xué)方面的研究更是相當(dāng)匱乏。單核苷酸多態(tài)性(single nucleotide polymorphism, SNP)指的是基因組DNA上的單個(gè)堿基發(fā)生變異且變異頻率不小于1 %所引起的DNA序列多態(tài)性[7]。SNP可以作為DNA分子標(biāo)記,具有位點(diǎn)豐富、分布廣泛、高遺傳穩(wěn)定性、易于檢測(cè)和分型等優(yōu)點(diǎn),現(xiàn)已成為最常用的分子標(biāo)記之一,可廣泛用于構(gòu)建高密度遺傳圖譜、植物分子輔助育種、品種鑒定、個(gè)體性狀遺傳等方面的研究[8-11]。因此,通過(guò)對(duì)菊葉香藜SNP分子標(biāo)記的開(kāi)發(fā),可以為鑒定活性物質(zhì)高產(chǎn)性狀以及極端環(huán)境耐受性狀的亞型提供參考依據(jù)?!厩叭搜芯窟M(jìn)展】菊葉香藜不是模式植物,目前還未獲得其基因組數(shù)據(jù)以及其他近緣屬植物的基因組測(cè)序數(shù)據(jù),NCBI數(shù)據(jù)庫(kù)中也尚無(wú)菊葉香藜的SNP信息登錄,因此大大限制了菊葉香藜SNP分子標(biāo)記的開(kāi)發(fā)?!颈狙芯壳腥朦c(diǎn)】由于基因測(cè)序技術(shù)發(fā)展迅猛,非模式植物可以進(jìn)行轉(zhuǎn)錄組測(cè)序,其轉(zhuǎn)錄組數(shù)據(jù)是開(kāi)發(fā)SNP分子標(biāo)記的良好資源,并且這些基于轉(zhuǎn)錄組SNP分子標(biāo)記具有信息量大、通用性好的優(yōu)點(diǎn)[12]?!緮M解決的關(guān)鍵問(wèn)題】本研究利用菊葉香藜花和葉組織的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)對(duì)其基因內(nèi)部單核苷酸多態(tài)性(genic SNP)位點(diǎn)進(jìn)行搜索,分析這些SNP的基本特征,并對(duì)SNP-unigene進(jìn)行功能注釋?zhuān)瑸榫杖~香藜的SNP分子標(biāo)記的開(kāi)發(fā)及其功能研究奠定基礎(chǔ)。
菊葉香藜的花和葉組織采集于西藏拉薩市(N29°38′,E91°10′),采集后立即進(jìn)行液氮速凍,然后送上海美吉生物醫(yī)藥科技有限公司于IlluminaHiseq4000平臺(tái)上進(jìn)行轉(zhuǎn)錄組測(cè)序,花和葉組織分別獲得24 187 800和27 832 004條干凈數(shù)據(jù)(Clean reads),所有的Clean reads通過(guò)組裝后共獲得40 142條Unigene (4.72 Gb)。菊葉香藜花和葉組織的轉(zhuǎn)錄組測(cè)序數(shù)據(jù)已上傳至NCBI數(shù)據(jù)庫(kù),登錄號(hào)分別為SRX3145241和SRX3145242。
以組裝好的轉(zhuǎn)錄本為模板序列,將原始序列與其進(jìn)行比對(duì),利用Samtools (http://samtools.sourceforge.net/)[13]和VarScan v.2.2.7 (http://varscan.sourceforge.net/)[14]軟件尋找候選的SNP位點(diǎn)。
對(duì)含有SNP的unigene序列(SNP-unigene)進(jìn)行功能注釋?zhuān)骄縎NP-unigene的生物學(xué)功能,注釋所選數(shù)據(jù)庫(kù)有基因本體數(shù)據(jù)庫(kù)(gene ontology database, GO)、蛋白直系同源簇?cái)?shù)據(jù)庫(kù)(Clusters of Orthologous Groups of proteins, COG)、京都基因和基因組百科全書(shū)數(shù)據(jù)庫(kù)(kyoto encyclopedia of genes and genomes, KEGG)數(shù)據(jù)庫(kù),期望值E設(shè)定為1e-5[15]。
使用Samtools軟件和VarScan v.2.2.7軟件對(duì)菊葉香藜花和葉的轉(zhuǎn)錄組序列進(jìn)行SNP位點(diǎn)檢測(cè),在花和葉轉(zhuǎn)錄組中分別鑒定到889個(gè)和673個(gè)SNP位點(diǎn)。菊葉香藜花轉(zhuǎn)錄組中的889個(gè)SNP位點(diǎn)中轉(zhuǎn)換(Transition)占有560個(gè),顛換(Transversion)占有329個(gè);6種核苷酸變異中屬于轉(zhuǎn)換的A/G和C/T發(fā)生頻率最高,所占比例均為31.50 %,屬于顛換的A/T、A/C、T/G和C/G的比例則分別為15.00 %、6.07 %、7.76 %和8.21 % (圖1A);889個(gè)SNP中分布在密碼子的第3位(Third codon)的比例最高,占花轉(zhuǎn)錄組SNP總數(shù)的40.16 %,然后依次為3端非編碼區(qū)(3-UTR,15.52 %)、密碼子第1位(First codon,12.60 %)、密碼子第2位(Second codon,12.26 %)和5端非翻譯區(qū)(5-UTR,5.62 %),有13.84 %分布位置無(wú)法確定(圖1B)。菊葉香藜葉轉(zhuǎn)錄組中SNP變異類(lèi)型與分布位置趨勢(shì)與花組織轉(zhuǎn)錄組SNP類(lèi)似,但數(shù)量較少(圖1)。
圖1 菊葉香藜轉(zhuǎn)錄組中g(shù)enic SNP概況Fig.1 Summary of genic SNP within transcriptome ofD.schraderiana
從菊葉香藜花和葉組織中鑒定出的SNP位點(diǎn)總共位于643條SNP-unigene上,為進(jìn)一步探索這些SNP-unigene的生物學(xué)功能,將這643條SNP-unigene進(jìn)行GO注釋、COG注釋和KEGG注釋?zhuān)Y(jié)果顯示,643條SNP-unigene中總共有440 (68.43 %)條SNP-unigene注釋到了GO數(shù)據(jù)庫(kù)、COG數(shù)據(jù)庫(kù)和KEGG數(shù)據(jù)庫(kù)。在有注釋信息的440條SNP-unigene中,注釋到KEGG數(shù)據(jù)庫(kù)的有232條,注釋到COG數(shù)據(jù)庫(kù)的有370條,注釋到GO數(shù)據(jù)庫(kù)的有343條;同時(shí)注釋到GO數(shù)據(jù)庫(kù)、COG數(shù)據(jù)庫(kù)和KEGG數(shù)據(jù)庫(kù)的總共有179條(40.7 %);同時(shí)注釋到KEGG數(shù)據(jù)庫(kù)和COG數(shù)據(jù)庫(kù)197條(44.8 %),同時(shí)注釋到COG數(shù)據(jù)庫(kù)和GO數(shù)據(jù)庫(kù)285條(64.8 %),同時(shí)注釋到GO數(shù)據(jù)庫(kù)和KEGG數(shù)據(jù)庫(kù)201條(45.7 %);只注釋到KEGG數(shù)據(jù)庫(kù)的有13條(64.8 %),只注釋到COG數(shù)據(jù)庫(kù)的有67條(15.2 %),只注釋到GO數(shù)據(jù)庫(kù)的有35條(8.0 %) (圖2)。
GO分類(lèi)可分為3個(gè)方面:生物過(guò)程(Biological Process,BP)、分子功能(Molecular Function,MF)及細(xì)胞組分(Cellular Component,CC),而在該3個(gè)大分支下又可分為更加細(xì)致的功能,通過(guò)對(duì)SNP-unigene進(jìn)行GO注釋有助于理解基因背后所代表的生物學(xué)意義。使用blast2go軟件將643條SNP-unigene與GO數(shù)據(jù)庫(kù)比對(duì),其中總共有342條SNP-unigene (53.19 %)注釋到GO條目中,分布于分子功能、細(xì)胞組分和生物學(xué)過(guò)程的level2 GO條目分別有397、477和756個(gè)。在生物過(guò)程中,結(jié)合活性(162條)和催化活性(168條)中所涉及的SNP-unigene較多;在細(xì)胞組分中,細(xì)胞(358條)中所涉及的SNP-unigene較多;在生物學(xué)過(guò)程中,代謝過(guò)程(379條)和細(xì)胞過(guò)程(165條)中所涉及的SNP-unigene較多(圖3)。
圖2 SNP-unigene注釋信息統(tǒng)計(jì)Venn圖Fig.2 Venn diagram of annotation information of SNP-unigene
將SNP-unigene與COG數(shù)據(jù)庫(kù)的比對(duì),可以獲取序列的功能注釋、歸類(lèi)以及蛋白進(jìn)化等信息。COG注釋根據(jù)功能可分為25類(lèi)(圖3,A-Z表示,除X),總共有370條(57.54 %)SNP-unigene在COG
圖3 GO功能分類(lèi)統(tǒng)計(jì)Fig.3 GO functional classifications
A:RNA加工和修飾;B:染色質(zhì)結(jié)構(gòu)和動(dòng)力學(xué);C:能量產(chǎn)生和轉(zhuǎn)換;D:細(xì)胞周期控制、細(xì)胞分裂和染色體分離;E:氨基酸轉(zhuǎn)運(yùn)和新陳代謝;F:核酸轉(zhuǎn)運(yùn)和代謝;G:碳運(yùn)輸和新陳代謝;H:輔酶運(yùn)輸和代謝;I:脂類(lèi)轉(zhuǎn)運(yùn)和代謝;J:翻譯,核糖體結(jié)構(gòu)和合成;K:轉(zhuǎn)錄;L:復(fù)制,重組和修復(fù);M:細(xì)胞壁膜核膜的合成;N:細(xì)胞機(jī)動(dòng)性;O:翻譯后修飾,蛋白翻轉(zhuǎn)和分子伴侶;P:無(wú)機(jī)離子轉(zhuǎn)運(yùn)和代謝;Q:二級(jí)代謝生物加工,轉(zhuǎn)運(yùn)和分解代謝;R:一般預(yù)測(cè)功能組;S:未知功能;T:信號(hào)傳導(dǎo)機(jī)制;U:胞內(nèi)的交換,分泌和膜泡輸送;V:防御機(jī)制;W:胞外結(jié)構(gòu);Y:核結(jié)構(gòu);Z:細(xì)胞骨架圖4 COG分類(lèi)統(tǒng)計(jì)Fig.4 COG functional classification
圖5 KEGG注釋統(tǒng)計(jì)Fig.5 Summary of SNP-unigene with mainly KEGG annotation
數(shù)據(jù)庫(kù)中找到了相對(duì)應(yīng)的注釋信息,得到385個(gè)COG注釋結(jié)果。通過(guò)對(duì)每一類(lèi)功能的數(shù)量進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),除了“細(xì)胞機(jī)動(dòng)性”(N)和“核結(jié)構(gòu)”(Y)兩個(gè)功能沒(méi)有注釋有SNP-unigene以外,其余的23個(gè)COG功能均注釋有SNP-unigene,由此可見(jiàn),被注釋的370條SNP-unigene功能種類(lèi)比較全面,覆蓋了大多數(shù)(23/25)的生命活動(dòng)過(guò)程及功能。在注釋有SNP-unigene的COG功能分類(lèi)中,“翻譯,核糖體結(jié)構(gòu)和合成”是數(shù)量最多的一大類(lèi),包括65個(gè)SNP-unigene;然后依次為“翻譯后修飾,蛋白翻轉(zhuǎn)和分子伴侶”、“一般預(yù)測(cè)功能組”、“轉(zhuǎn)錄”,包含的SNP-unigene分別為32、31、27條(圖4)。
KEGG數(shù)據(jù)庫(kù)可以將基因組的信息與功能信息聯(lián)系起來(lái),更加系統(tǒng)地分析和破譯基因的功能。將unigene與KEGG數(shù)據(jù)庫(kù)進(jìn)行比對(duì),可以獲得與unigene相對(duì)應(yīng)的KO編號(hào),根據(jù)KO編號(hào)則可進(jìn)一步獲得該unigene可能參與的具體生物學(xué)通路。對(duì)643條SNP-unigene進(jìn)行KEGG通路注釋?zhuān)渲锌偣灿?32條SNP-unigene注釋到241條KEGG代謝通路中。將這232條SNP-unigene根據(jù)所參與的KEGG代謝通路劃分為5個(gè)分支:代謝(A, Metabolism)、遺傳信息處理(B, Genetic Information Processing)、環(huán)境信息處理(C, Environmental Information Processing)、細(xì)胞過(guò)程(D, Cellular Processes)、有機(jī)系統(tǒng)(E, Organismal Systems),其五大類(lèi)的KEGG通路統(tǒng)計(jì)情況如圖5所示。
篩選注釋基因比例(占所有KEGG注釋unigene)大于1 %的71條KEGG通路列于表1。從表1可知,注釋到“代謝途徑”的SNP-unigene最多,可達(dá)到78條,占所有KEGG注釋SNP-unigene的33.62 %,然后依次為“核糖體”、“次級(jí)代謝產(chǎn)物的生物合成”、“微生物在不同環(huán)境中的代謝”、“嘌呤代謝”以及“RNA運(yùn)輸”,分別注釋有48、36、19、13和13條SNP-unigene。通過(guò)KEGG的注釋分析,可以著重研究這些具有代表性的生物學(xué)進(jìn)程,探索菊葉香藜中這些生物學(xué)進(jìn)程所涉及的功能。
表1 主要KEGG pathway注釋統(tǒng)計(jì)
續(xù)表1 Continued table 1
序號(hào)No.通路IDPathway ID通路PathwaySNP-unigene數(shù)量No. of SNP-unigene比例(%)Ratio 序號(hào)No.通路IDPathway ID通路PathwaySNP-unigene數(shù)量No. of SNP-unigene比例(%)Ratio20path:ko05169EB病毒感染Epstein-Barr virus infection62.5956path:ko02010ABC轉(zhuǎn)運(yùn)蛋白ABC transporters31.2921path:ko05205癌癥中的蛋白聚糖Proteoglycans in cancer52.1657path:ko04010MAPK信號(hào)通路MAPK signaling pathway31.2922path:ko00480谷胱甘肽代謝Glutathione metabolism52.1658path:ko04510焦點(diǎn)黏連Focal adhesion31.2923path:ko05145弓形體病Toxoplasmosis52.1659path:ko00900萜骨架生物合成Terpenoid backbone biosynthesis31.2924path:ko00240嘧啶代謝Pyrimidine metabolism52.1660path:ko04066HIF-1信號(hào)通路HIF-1 signaling pathway31.2925path:ko04144內(nèi)吞作用Endocytosis52.1661path:ko05200癌癥中的信號(hào)通路Pathways in cancer31.2926path:ko04141內(nèi)質(zhì)網(wǎng)蛋白加工Protein processing in endoplasmic reticulum52.1662path:ko00620丙酮酸鹽代謝Pyruvate metabolism31.2927path:ko04712晝夜節(jié)律-植物Circadian rhythm - plant41.7263path:ko04113減數(shù)分裂-酵母Meiosis - yeast31.2928path:ko05204化學(xué)致癌性Chemical carcinogenesis41.7264path:ko04722神經(jīng)營(yíng)養(yǎng)蛋白信號(hào)通路Neurotrophin signaling pathway31.2929path:ko00982藥物代謝-細(xì)胞色素P450Drug metabolism - cytochrome P45041.7265path:ko00360苯丙氨酸代謝Phenylalanine metabolism31.2930path:ko00980細(xì)胞色素P450的異種生物代謝Metabolism of xenobiotics by cytochrome P45041.7266path:ko00520氨基糖和核苷酸糖代謝Amino sugar and nucleotide sugar metabolism31.2931path:ko00250丙氨酸,天冬氨酸和谷氨酸代謝Alanine, aspartate and glutamate metabolism41.7267path:ko03018RNA降解RNA degradation31.2932path:ko04921催產(chǎn)素信號(hào)通路Oxytocin signaling pathway41.7268path:ko05166HTLV-I 感染HTLV-I infection31.2933path:ko00680甲烷代謝Methane metabolism41.7269path:ko04110細(xì)胞周期Cell cycle31.2934path:ko00630乙醛酸和二羧酸代謝Glyoxylate and dicarboxylate metabolism41.7270path:ko00010糖酵解/葡萄糖異生作用Glycolysis/Gluconeogenesis31.2935path:ko05034酒精中毒Alcoholism41.7271path:ko04626植物-病原體相互作用Plant-pathogen interaction31.2936path:ko05168單純性皰疹感染Herpes simplex infection41.72
隨著新一代測(cè)序技術(shù)的成熟以及成本的降低,對(duì)于非模式生物來(lái)說(shuō),轉(zhuǎn)錄組序列是開(kāi)發(fā)SNP分子標(biāo)記最有效的策略之一[16]。目前,已經(jīng)有大量的非模式生物通過(guò)轉(zhuǎn)錄組序列進(jìn)行了SNP分子標(biāo)記的研究和開(kāi)發(fā),在松蘿鳳梨葉片轉(zhuǎn)錄組數(shù)據(jù)中總共挖掘到了69 570個(gè)基因內(nèi)部SNP,發(fā)生頻率為1/579 bp[17];同時(shí),在龍眼轉(zhuǎn)錄組數(shù)據(jù)中挖掘并驗(yàn)證了60個(gè)SNP分子標(biāo)記并進(jìn)行了基因型鑒定[18];通過(guò)對(duì)盾葉薯蕷轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行挖掘,得到了124 692個(gè)SNP位點(diǎn),每條unigene中平均含有3.36個(gè)SNP位點(diǎn)[19]。大量研究表明,挖掘轉(zhuǎn)錄組數(shù)據(jù)中的SNP信息是非模式生物開(kāi)發(fā)SNP分子標(biāo)記可行且有效的方法。
本次研究中,菊葉香藜SNP位點(diǎn)處堿基變異類(lèi)型主要為C/T和A/G,以轉(zhuǎn)換為主,花組織和葉組織中轉(zhuǎn)換和顛換的比值分別為1.70和1.68,均遠(yuǎn)遠(yuǎn)大于理論值的0.5。生物中SNP位點(diǎn)堿基變異的轉(zhuǎn)換和顛換的比值往往會(huì)大于理論值的0.5,這種現(xiàn)象稱(chēng)為“轉(zhuǎn)換偏差”[20],而這一現(xiàn)象也恰恰說(shuō)明了SNP位點(diǎn)的堿基突變并不是隨機(jī)發(fā)生的,可能與環(huán)境選擇和進(jìn)化有關(guān)。除了有少量的SNP分布位置不確定以外,位于非編碼區(qū)的SNP在花和葉轉(zhuǎn)錄組序列中分別占21.15 %和21.10 %,而位于編碼區(qū)的SNP在花和葉轉(zhuǎn)錄組序列中則分別占到了67.27 %和67.46 %。由此可見(jiàn),菊葉香藜的SNP位點(diǎn)大多位于編碼區(qū)內(nèi),此類(lèi)SNP位點(diǎn)處的堿基變異可能會(huì)引起氨基酸序列的變化,進(jìn)一步引起菊葉香藜生物性狀的變化,因此,開(kāi)發(fā)此類(lèi)的SNP標(biāo)記具有重要意義。
挖掘菊葉香藜轉(zhuǎn)錄組數(shù)據(jù)獲得了大量的SNP信息,通過(guò)對(duì)這些SNP-unigene進(jìn)行功能注釋則有利于探索菊葉香藜在哪些生物和代謝途徑中可能存在個(gè)體性狀差異,從而將這些SNP和其表型關(guān)聯(lián)起來(lái)進(jìn)行更深入的研究。在菊葉香藜SNP-unigene功能注釋中,菊葉香藜SNP-unigene涉及較多的功能主要與代謝、核糖體、次生代謝產(chǎn)物的生物合成相關(guān),可針對(duì)這些SNP-unigene設(shè)計(jì)引物進(jìn)行SNP驗(yàn)證并做表型關(guān)聯(lián)研究,所以針對(duì)這類(lèi)功能的SNP分子標(biāo)記進(jìn)行開(kāi)發(fā)研究,可以為以后分子標(biāo)記輔助育種等工作奠定堅(jiān)實(shí)的基礎(chǔ)。
本研究挖掘獲得了菊葉香藜轉(zhuǎn)錄組測(cè)序數(shù)據(jù)中的SNP信息,并獲取了SNP-unigene的GO功能注釋和KEGG通路注釋信息,本研究成果將積極地促進(jìn)菊葉香藜的遺傳圖譜構(gòu)建、遺傳育種、遺傳多樣性分析等方面的研究。