呂中睿,劉宏,張國昀,于立洋,羅紅梅,何彩云*
(1.國家林業(yè)和草原局林木培育重點實驗室,中國林業(yè)科學(xué)研究院林業(yè)研究所,北京 100091;2.中國林業(yè)科學(xué)研究院沙漠林業(yè)實驗中心,內(nèi)蒙古 磴口 015200)
沙棘(Hippophae rhamnoidesL.)屬胡頹子科多年生落葉灌木、小喬木或喬木[1],原產(chǎn)于俄羅斯、中國和北歐[2]。沙棘營養(yǎng)極高,富含維生素、類胡蘿卜素、脂類、甾醇和類黃酮[3]。類黃酮是植物最主要的次生代謝物之一[4],在沙棘葉和果實中大量存在,具有降血糖、降血脂、抗衰老、抗氧化等多種生理活性[5],在食藥保健領(lǐng)域受到廣泛關(guān)注。類黃酮在沙棘中通常以糖基衍生物的形式出現(xiàn)[6],Teleszko 等研究發(fā)現(xiàn),黃酮醇糖苷是沙棘中最豐富的酚類化合物[7]。然而,類黃酮在沙棘中的糖基化作用機理仍不清楚。
糖基化修飾是類黃酮生物合成的關(guān)鍵修飾之一,這種修飾促進類黃酮的溶解性、穩(wěn)定性和生物活性,以防御和適應(yīng)環(huán)境變化[8]。植物次生代謝物的糖基化是由UDP 糖基轉(zhuǎn)移酶(UGT,UDPglycosyltransferase)催化的[9],可以催化糖基加到底物的特定位置或特定區(qū)域。植物中UGT 基因長度約為1 000~1 500 bp,UGT 基因在植物中保守性較強,尤其在終止密碼子附近有一段編碼44 個氨基酸的極強保守序列,稱為PSPG box[10],可以作為挑選UGT 基因的依據(jù)。作為模式植物,擬南芥UGT 家族最早被研究,Li 等發(fā)現(xiàn),擬南芥中共有107 個成員,根據(jù)序列同源性被劃分為 14 個系統(tǒng)發(fā)育組,命名為A-N[11]。隨后,在毛果楊、玉米、葡萄、蘋果和茶等植物中陸續(xù)發(fā)現(xiàn)了O、P、Q和 R組[12-13]。近期,Wilson 等分析了65 個全序列的植物基因組,應(yīng)用嚴(yán)格的標(biāo)準(zhǔn)來選擇候選的UGTs,并進行系統(tǒng)發(fā)育分析,重建了被子植物原有的18 個系統(tǒng)發(fā)育組(A-R)和OG[14]。在高等植物的進化過程中,A、D、E、G 和L 這5 個組群擴展較快,E組擴展最快,不同物種中E組中的基因占UGT 家族的 20%~25%[15]。
迄今,多個物種中的數(shù)百個UGT 基因已經(jīng)被克隆出來,并對其功能進行了表征。如Lim 等以槲皮素為底物,對擬南芥中91 個糖基轉(zhuǎn)移酶進行了鑒定,其中,29 個能夠催化相關(guān)的糖基化反應(yīng)[16]。Trapero 等對番紅花中糖基轉(zhuǎn)移酶功能驗證發(fā)現(xiàn),UGT707B1 可以催化山奈酚、槲皮素生成相應(yīng)的糖苷衍生物[17]。然而,與植物基因組中UGT 基因龐大的數(shù)量相比,功能被驗證的特征蛋白的數(shù)量仍然相對較低[15]。
本研究基于沙棘基因組信息,對UGT 基因家族進行了鑒定和分析,共鑒定到89 個沙棘UGT 基因成員,劃分為16 個系統(tǒng)發(fā)育分組。本研究對沙棘UGT 基因家族的蛋白理化性質(zhì)、亞細(xì)胞定位、染色體分布、基因結(jié)構(gòu)和基因復(fù)制進行了預(yù)測分析。在此基礎(chǔ)上,分析了UGT 基因在沙棘果實不同發(fā)育時期的表達(dá)模式,并通過實時熒光定量PCR 進行驗證,對日后解析沙棘類黃酮糖苷生物合成機制及其積累模式奠定了基礎(chǔ)。
113 條擬南芥UGT 氨基酸序列下載自擬南芥基因組網(wǎng)站(https://www.arabidopsis.org/),UGT基因家族保守結(jié)構(gòu)域隱馬爾科夫模型HMM 文件(PF00201,UDPGT.HMM)下載自Pfam(http://pfam.xfam.org/)。首先以擬南芥UGT 氨基酸序列作為query 序列,使用BLASTP 程序搜索沙棘基因組蛋白數(shù)據(jù)庫(未發(fā)表),evalue=1 e?15,構(gòu)建沙棘候選UGT 數(shù)據(jù)集1。通過HMM 文件對沙棘基因組蛋白數(shù)據(jù)庫進行hmmsearch 搜索,evalue=1 e?20,提取結(jié)果文件中比對一致的序列通過hmmbuild程序構(gòu)建沙棘UGT 保守結(jié)構(gòu)域隱馬爾科夫模型,并再次進行hmmsearch,構(gòu)建沙棘候選UGT 數(shù)據(jù)集2。合并2 個數(shù)據(jù)集,提交至CDD、Pfam 和SMART 數(shù)據(jù)庫驗證保守結(jié)構(gòu)域,然后手動刪除氨基酸序列小于250 aa 和PSPG box 不完整的序列。
利用Expasy server 的ProtParam 工具(https://web.expasy.org/protparam/)計算沙棘中各UGT 蛋白的分子量、氨基酸長度和等電點。使用DeepLoc(http://www.cbs.dtu.dk/services/DeepLoc/)預(yù)測沙棘UGT 蛋白的亞細(xì)胞定位。
通過MUSCLE 對沙棘UGT 蛋白序列進行多重序列比對(http://www.ebi.ac.uk/Tools/msa/muscle/),刪除gap 區(qū)域。利用MEGA 7.0 軟件,基于比對后的UGT 蛋白序列,采用neighbor-joining 法,設(shè)置bootstrap 值為1000,構(gòu)建系統(tǒng)發(fā)育樹[18]。
通過GSDS 在線工具(v2.0 http://gsds.cbi.pku.edu.cn/),輸入沙棘基因注釋GFF 文件,將沙棘UGT 的編碼序列與其對應(yīng)的基因組序列進行比較,展示沙棘UGT 的外顯子內(nèi)含子信息。為了比較沙棘UGT 的差異,本研究利用MEME 在線工具對沙棘UGT 蛋白的保守基序進行分析,參數(shù)設(shè)置為:site distribution:zero or one occurrence (of a contributing motif site) per sequence,maximum number of motifs:10,and optimum motif width ≥ 6 and ≤ 60。
通過自建腳本,從沙棘基因組注釋文件中提取沙棘UGT 位置信息。使用MCScanX 軟件分析基因加倍事件。染色體定位和基因加倍信息通過Circos 軟件繪圖展示。
2 個沙棘亞種(中國沙棘,“FN”;蒙古沙棘,“XY”)不同果實發(fā)育階段的轉(zhuǎn)錄組數(shù)據(jù)下載自沙棘基因組數(shù)據(jù)庫,使用每百萬映射reads 的千堿基片段(FPKM)來估計表達(dá)水平。利用TBtools軟件對數(shù)據(jù)進行標(biāo)準(zhǔn)化和聚類,并繪制表達(dá)量熱圖[19]。
實時熒光定量PCR 分析所用樣品為中國林業(yè)科學(xué)研究院沙漠林業(yè)實驗中心種植的蒙古沙棘花后21、63、91 d 果實,每批樣品設(shè)置3 個生物學(xué)重復(fù),采樣后迅速使用液氮速凍,并置于?80℃?zhèn)溆???俁NA 的提取采用天根公司RNAprep Pure 多糖多酚植物總RNA 提取試劑盒,參照使用說明書的方法進行提取。反轉(zhuǎn)錄試劑盒為TAKARA 公司的PrimeScript? 1st Strand cDNA Synthesis Kit,并按照使用說明進行。用primer Premier 5.0 軟件對選定的9 個HrUGTs 進行特異性引物設(shè)計,引物信息見表1。實時熒光定量PCR 反應(yīng)體系按照TAKARA公司TB Green?Premix Ex Taq ? II 試劑盒使用說明書配置,PCR 反應(yīng)程序為:95℃ 30 s 預(yù)變性,95℃ 5 s,60℃ 30 s,40 個循環(huán)擴增。使用2?ΔΔCT法計算HrUGT 基因的相對表達(dá)水平[20],使用Origin 8.0 軟件作圖。
表1 實時熒光定量PCR 引物信息表Table 1 The primer sequence for quantitative real-time PCR (RT-qPCR)
對利用BLASTP 和hmmsearch 兩種方法搜索沙棘基因組蛋白數(shù)據(jù)庫獲得的110 個候選沙棘UGT 基因成員,經(jīng)過驗證保守結(jié)構(gòu)域和手動篩選,共鑒定出89 個沙棘UGT 基因。蛋白理化性質(zhì)分析結(jié)果(表2)表明:沙棘UGT 家族各成員蛋白質(zhì)長度為266~533 aa,平均長度462 aa,蛋白理論分子量平均值為52.00 KDa,平均等電點5.89。82 個沙棘UGT 家族成員定位于細(xì)胞質(zhì),6 個成員定位于線粒體,1 個成員定位于質(zhì)體。
表2 沙棘UGT 基因家族成員信息 Table 2 The information of HrUGTs
基于蛋白同源序列的相似性進行功能預(yù)測是基因功能研究的重要手段,本研究以沙棘和擬南芥、玉米、山柳蘭等植物UGT 蛋白序列為基礎(chǔ),構(gòu)建了系統(tǒng)發(fā)育樹。圖1 表明:89 個沙棘UGT 可被聚類為16 個先前鑒定的類群[13],沙棘UGT 在O組和Q組均沒有分布,大部分沙棘UGT 聚集在E(8)、G(8)、D(11)、L(16)和A(17)組。多序列比對分析表明:89 個沙棘UGT 的C 端序列均存在PSPG box,并在 1(W)、4(Q)、8(L)、10(H)、12(S/A)、14(G)、16(F)、19-24(HCGWNS)、27(E)、32-34(GVP)、39(P)、43(D/E)、44(Q)位點高度保守。
圖1 沙棘、擬南芥、玉米和山柳蘭UGT 系統(tǒng)發(fā)育樹Fig.1 Phylogenetic tree of UGT proteins of sea buckthorn,Arabidopsis,maize and mouse-ear hawkweed
為了進一步確定沙棘UGT 家族的保守結(jié)構(gòu)域特征,利用在線工具MEME 創(chuàng)建了10 個基序,并從1 到10 列出(圖2)?;? 和基序3為UGT 家族保守結(jié)構(gòu)域PSPG box。La4g1035、La5g0208、La11g1107、La5g1327、La4g1118、La10g1561 和La10g1574 由于1 或2 個氨基酸的插入并沒有匹配到基序3,在后續(xù)的分析中發(fā)現(xiàn),這些基因除La5g0208 外均未發(fā)現(xiàn)表達(dá)或表達(dá)量極低。A組和R組成員均未發(fā)現(xiàn)基序9 的存在,這一基序中3 個氨基酸(GSS)之前被認(rèn)為在單糖基轉(zhuǎn)移酶中高度保守[21]。
圖2 沙棘UGT 家族基因蛋白基序及基因結(jié)構(gòu)的構(gòu)建Fig.2 Gene structure and architecture of conserved protein motifs in UGT family genes of sea buckthorn
內(nèi)含子外顯子結(jié)構(gòu)的多樣性通常在基因家族的進化中發(fā)揮關(guān)鍵作用,并為支持系統(tǒng)發(fā)育類群提供了額外的證據(jù)[22]。為了進一步了解基因結(jié)構(gòu),對沙棘UGT 的內(nèi)含子外顯子結(jié)構(gòu)進行了分析。在本研究鑒定的89 個UGT 基因中,45 個UGT 基因含有內(nèi)含子(50.6%),其中,40 個UGT 基因有1 個內(nèi)含子,5 個UGT 有2 個內(nèi)含子。G組、P組和F組成員大多具有較長的內(nèi)含子插入。M組、B組和R組成員均不含內(nèi)含子。
在鑒定出的89 個沙棘UGT 中,84 個UGT 被定位于沙棘染色體上。圖3 表明:在12 條沙棘染色體中,只有11 條沙棘染色體包含UGT 基因。11 號染色體包含最多的共13 個UGT 家族成員,而7 號染色體中沒有UGT 基因存在。12 號染色體含有12 個UGT 基因,10 號染色體包含11 個UGT基因,4 號、8 號和9 號染色體均只含3 個UGT 基因。沙棘UGT 基因在染色體上的這種不平衡分布,說明沙棘在進化過程中存在遺傳變異。
為了揭示沙棘UGT 基因家族的擴展和進化機制,對沙棘基因組中潛在的基因復(fù)制事件進行了分析。本研究利用MCScanX 軟件基于氨基酸序列同源性在沙棘全基因組內(nèi)進行了比對,發(fā)現(xiàn)UGT 基因家族成員中存在12 個串聯(lián)重復(fù)基因簇和11 個共線基因?qū)Γ▓D3),這一結(jié)果表明,串聯(lián)重復(fù)是導(dǎo)致沙棘UGT 基因家族擴張的主要復(fù)制事件。本研究計算了復(fù)制基因間的Ka 和Ks 值,其比值均小于1,說明UGT 基因在進化過程中受到純化選擇。
圖3 沙棘UGT 基因的染色體分布和基因重復(fù)Fig.3 Chromosomal distribution and gene duplications of the HrUGTs
本研究利用兩個沙棘亞種果實3 個發(fā)育階段的轉(zhuǎn)錄組數(shù)據(jù),來進一步了解沙棘UGT 基因的表達(dá)模式,結(jié)果發(fā)現(xiàn):沙棘各UGT 在種間和時間上的表達(dá)表現(xiàn)出顯著差異(圖4)。La10g1046,La10g2527和La3g0035 只在中國沙棘果實中微量表達(dá),在蒙古沙棘果實中不表達(dá)。La2g0165,La3g0199 和La1g2297 則表現(xiàn)相反;而La9g0469 在蒙古沙棘果實中高表達(dá),在中國沙棘中不表達(dá)。La5g0668在兩個亞種不同發(fā)育時期均高表達(dá)。La11g2592、HrUGT0002、La12g1442 等基因在兩個亞種果實中表達(dá)較高且隨著果實發(fā)育表達(dá)量逐漸升高。大多數(shù)UGT 基因主要在果實發(fā)育的前期或中期表達(dá)量較高,而在果實發(fā)育后期表達(dá)量降低。
圖4 沙棘UGT 基因在兩個亞種不同發(fā)育時期的表達(dá)模式Fig.4 Expression profiles of HrUGTs in various developmental stages of two sea buckthorn subspecies
從沙棘UGT 基因所處的系統(tǒng)發(fā)育分組看,A組中,La5g0208 和La12g2361 兩個基因表達(dá)水平相對較高,且均隨果實發(fā)育表達(dá)量逐漸降低。相似的,La5g0951 只在果實發(fā)育初期表達(dá),而在果實發(fā)育的中到后期均不表達(dá)。C組中,La11g1107在兩個沙棘亞種果實中均不表達(dá),而La12g1442 在兩個沙棘中表達(dá)量相對較高且主要在果實發(fā)育的中后期表達(dá)。D組和E組均包含較多的沙棘UGT 基因家族成員,但兩組基因的表達(dá)模式卻有著巨大差異。在D組中,除La2g1189 外,其他10 個基因在中國沙棘中均不表達(dá),這些基因在蒙古沙棘果實中的表達(dá)水平也相對較低甚至不表達(dá)。而在E組中,除La9g0469 在中國沙棘果實中不表達(dá),其余基因在兩個沙棘亞種果實中均有一定程度的表達(dá)。La11g0447 和La11g0570 在兩個沙棘亞種果實中表達(dá)量相對較高,La11g0447 在蒙古沙棘中表達(dá)量隨著果實發(fā)育先升高后降低,而在中國沙棘中表現(xiàn)出相反的趨勢;La11g0570 在中國沙棘中隨著果實發(fā)育表達(dá)量逐漸降低,而在蒙古沙棘果實中的表達(dá)水平先小幅升高,在果實成熟時下降到較低水平。F組成員在沙棘果實中除前期有少量表達(dá)外,其余時期表達(dá)水平較低或不表達(dá)。G組中,La12g0737表達(dá)量整體較高,在兩個沙棘亞種果實中均表現(xiàn)為隨著果實發(fā)育表達(dá)量先升高后降低;La2g2279 在中國沙棘果實中有著較高的表達(dá)水平,且隨著果實發(fā)育表達(dá)量逐漸升高,而在蒙古沙棘果實發(fā)育末期表達(dá)量下降到較低水平。L組中,La10g1081 和La10g1082 均在果實發(fā)育中期表達(dá)量較高,且蒙古沙棘高于中國沙棘;HrUGT0002 隨著果實發(fā)育表達(dá)量逐漸增加,且與發(fā)育初期相比HrUGT0002 在蒙古沙棘果實成熟期的表達(dá)水平提高了16.7 倍,而在中國沙棘中達(dá)到了25 倍。J組和R組中的沙棘UGT 基因在果實發(fā)育的各個時期均有相對較高的表達(dá)水平,H組、I組、K組、M組和N組中各成員在沙棘果實中表達(dá)量均相對較低。
本研究對部分表達(dá)差異較大的沙棘UGT 利用實時熒光定量PCR 進行驗證,結(jié)果(圖5)表明:在蒙古沙棘中HrUGT0002、La2g0900、La9g0469和La11g2592 均隨果實成熟表達(dá)量逐漸上升,而La2g3104、La10g1923、La12g2361 總體呈下降趨勢,La11g0447 和La11g0570 基因則在果實發(fā)育的中期表達(dá)較高。總體來看,實時熒光定量PCR 結(jié)果與轉(zhuǎn)錄組結(jié)果基本一致。
圖5 沙棘UGT 基因在果實不同發(fā)育時期的實時熒光定量PCR 分析Fig.5 Expression analysis of selected HrUGTsin various developmental stages using RT-qPCR.
為了從功能上對沙棘UGT 進行鑒定,通過系統(tǒng)發(fā)育分析將鑒定到的89 個沙棘UGT 基因聚類為16 個組。沙棘中的UGT 基因約占沙棘全基因組基因總數(shù)的0.29%,低于桃(0.6%)[23]和擬南芥(0.44%)[11],高于石斛(0.28%)[24]和玉米(0.23%)[12]的UGT 基因占比。A組、L組、D組、G組和E組被認(rèn)為是高等植物進化過程中進化最快的分組[15],在沙棘中這些分組包含了最多的UGT 基因家族成員,這一結(jié)果與Ren 等[24]和Cui 等[13]的研究高度一致。A組中的多數(shù)UGT 被鑒定為能夠催化類黃酮糖苷再次糖基化的糖基轉(zhuǎn)移酶[25-27],本研究發(fā)現(xiàn),沙棘UGT 家族A組成員均不含單糖基轉(zhuǎn)移酶中高度保守的C 端GSS 基序,這一結(jié)構(gòu)特征也暗示著沙棘UGT 家族A組成員可能和多糖基類黃酮糖苷的生物合成存在重要聯(lián)系。O組和Q組在沙棘中未發(fā)現(xiàn)有成員存在,這兩個分組最早在玉米中鑒定出來[12]并被認(rèn)為可能與細(xì)胞分裂素的糖基化有關(guān)。La12g1195、La11g1196 和La5g0668 被劃分為UGT95 亞家族,這一亞家族在山柳蘭中首先被鑒定出來,能夠催化木犀草素和槲皮素的3′-OH 基團和山萘酚的7-OH 基團糖基化[28]。在石榴[29]和茶樹[13]中均發(fā)現(xiàn)了UGT95 亞家族成員的存在,Cui 等將其劃為R組[13],在本研究中延續(xù)了這一分組的劃分。
在鑒定到的89 沙棘UGT 基因中,有84 個基因被定位到染色體上。這些基因在染色體上通常成簇存在且表現(xiàn)出較高的序列相似性,這一特征與石斛和棉花表現(xiàn)一致[24,30]。本研究基于序列相似性和基因間距鑒定出12 個串聯(lián)重復(fù)基因簇和11 個共線基因?qū)?,證明串聯(lián)重復(fù)是導(dǎo)致沙棘UGT 基因家族擴張的主要復(fù)制事件。內(nèi)含子的位置、丟失和獲得可以作為了解基因家族在系統(tǒng)發(fā)育類群內(nèi)進化的重要指標(biāo)。超過一半(50.6%)的沙棘UGT 有內(nèi)含子插入,低于玉米(60%)[12]和擬南芥(58%)[11]的內(nèi)含子數(shù)量。利用MEME 在線工具來搜索UGT 蛋白之間共享的保守基序,共發(fā)現(xiàn)了10 個不同的保守基序,其中,在所有鑒定的UGT 中都發(fā)現(xiàn)了編碼UGT 結(jié)構(gòu)域的基序1。這些基序在組間有著顯著差異,特別是R組和A組均不含在其他分組中普遍存在的基序9。這些特定的基序可能會導(dǎo)致沙棘UGTs 功能的分化。
了解基因的時空表達(dá)模式有助于推測基因的功能。在蒙古沙棘中,48 個UGT 基因在果實發(fā)育過程中表達(dá)(FPKM >1),在中國沙棘中這一數(shù)字為51。R組3 個成員表達(dá)量在兩個亞種果實發(fā)育時期均較高。除La9g0469 外,E組成員在兩個亞種果實中均有不同程度的表達(dá)。La9g0469 在中國沙棘中不表達(dá),而在蒙古沙棘中高表達(dá),且隨著果實發(fā)育表達(dá)量逐漸上升,這種特異性的表達(dá)可能對兩個亞種果實中代謝物組成造成一定影響。
本研究在沙棘全基因組范圍內(nèi)鑒定獲得89 條含有UGT 保守結(jié)構(gòu)域的HrUGTs 蛋白序列,并劃分為16 個系統(tǒng)發(fā)育分組。同一分組內(nèi)沙棘UGT 具有相似的蛋白基序和基因結(jié)構(gòu),但在組間存在著巨大差異。沙棘UGT 家族在進化過程中受到純化選擇。沙棘UGT 基因家族成員在兩個沙棘亞種和果實不同發(fā)育階段的表達(dá)模式具有顯著差異。沙棘UGT 基因家族的表達(dá)模式和生物信息學(xué)分析將為進一步鑒定沙棘類黃酮糖基轉(zhuǎn)移酶功能和催化機理奠定基礎(chǔ)。