王玥寧, 張世杰, 張志國, 倪迪安, 秦巧平, 劉 翔
(上海應(yīng)用技術(shù)大學(xué) 生態(tài)技術(shù)與工程學(xué)院, 上海 201418)
遺傳密碼是將DNA或mRNA基因序列中編碼的遺傳信息翻譯為蛋白質(zhì)時使用的規(guī)則,除線粒體與葉綠體外,幾乎所有活細(xì)胞均使用同一套密碼子表。密碼子具有簡并特征,通常多個密碼子共同編碼同一個氨基酸,稱為同義密碼子[1]。密碼子第3位堿基是搖擺位點,該堿基的改變不改變氨基酸種類,該特性有利于減少有害突變,保證遺傳信息的穩(wěn)定表達(dá)。有研究表明,不同物種在使用同義密碼子編碼氨基酸時并非隨機(jī),而是具有一定密碼子使用偏向性(codon usage bias,CUB)[2],而這些被偏好使用的密碼子被定義為最優(yōu)密碼子(optimal codons)[3]。物種間親緣關(guān)系相近,通常密碼子偏好性也相似[4]。此外,基因表達(dá)受密碼子偏好性調(diào)控,高表達(dá)的基因密碼子的使用偏好性一般比較大,最優(yōu)密碼子的使用可以提高基因的翻譯效率和準(zhǔn)確率。轉(zhuǎn)基因研究中,采用優(yōu)勢密碼子可顯著提高目的基因的表達(dá)效率[5-6]。有關(guān)密碼子使用偏好性的形成,有“中性學(xué)說”和“選擇學(xué)說”之爭,但目前普遍認(rèn)為是生物在進(jìn)化過程中受到堿基突變和選擇壓力等多種因素共同影響[7]。
bZIP轉(zhuǎn)錄因子普遍存在于動、植物及微生物中,有大量針對其調(diào)控脅迫響應(yīng)、植物生長發(fā)育及能量代謝的功能研究[8]。bZIP轉(zhuǎn)錄因子有一個由約16個氨基酸的N-x7-R/K基序構(gòu)成的DNA結(jié)合區(qū)和一個由亮氨酸重復(fù)構(gòu)成的拉鏈區(qū)[9]。植物bZIP轉(zhuǎn)錄因子可響應(yīng)植物激素ABA信號、赤霉酸信號、金屬離子信號、病原體感知和蔗糖信號等[10],大多數(shù)bZIP轉(zhuǎn)錄因子在脅迫條件下可與ABA應(yīng)答元件ABRE結(jié)合因子ABFs或結(jié)合蛋白AREBs結(jié)合,調(diào)節(jié)下游脅迫響應(yīng)基因的表達(dá)[11]。萱草Hemerocallis fulva(L.)L.為阿福花科萱草屬的多年生宿根草本植物,自古被譽為中國的母親花。萱草適應(yīng)性強(qiáng),是濱海綠化中常用的植物之一。因此研究萱草中bZIP家族成員的密碼子特性,對揭示萱草bZIP成員的功能具有重要意義?;诖耍狙芯吭凇岸?三代轉(zhuǎn)錄組”測序基礎(chǔ)上,篩選出37條基因分析萱草bZIP基因家族的密碼子構(gòu)成特性及密碼子使用模式進(jìn)行分析,預(yù)測HfbZIP基因可能使用的最優(yōu)密碼子,為萱草bZIP基因家族的轉(zhuǎn)基因研究及功能研究提供理論基礎(chǔ)。
萱草bZIP基因家族核酸序列由萱草經(jīng)海水脅迫后,測序獲得。保留以ATG為起始密碼子,以TAA、TAG和TGA為終止密碼子的序列,并刪除其中的重復(fù)序列,最終確定37條萱草bZIP基因用于后續(xù)密碼子偏向性分析。
有 效 密 碼 子 數(shù)(effective number of codon,ENC)為基因中有效密碼子數(shù)量,該參數(shù)能反映密碼子家族中同義密碼子非均衡使用的偏好程度,是評價基因整體密碼子偏好性中最具有參考價值的參數(shù)[12]。密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)指編碼該蛋白的所有密碼子均為最優(yōu)密碼子時的適應(yīng)系數(shù),數(shù)值介于0~1之間,該值越高則適應(yīng)性越強(qiáng)。ENC值與CAI值被廣泛應(yīng)用于基因表達(dá)水平的評估中[13]。GC3是G和C出現(xiàn)在密碼子第3個位置的頻率,密碼子的使用偏性與密碼子第3位的GC含量有很大關(guān)系。
用Emboss1.5求出HfbZIP的ENC值,GC總含量,GC1、GC2及GC3,再用CodonW軟件求得HfbZIP的CAI值及密碼子第3位堿基中A、T、C、G的占比值,分別用A3s、T3s、C3s、G3s表示。
利用Microsoft Excel2016對萱草bZIP基因的CGC12與CGC3進(jìn)行中性繪圖分析,其中CGC12為CGC1與CGC2的平均值,以CGC3為橫坐標(biāo),以CGC12為縱坐標(biāo)繪制散點圖。通過分析密碼子第1、2位堿基和第3位堿基的GC含量相關(guān)性高低,分析HfbZIP基因密碼子使用偏向性的主要影響因素。
ENC-plot圖即以CGC3為橫坐標(biāo),以ENC值為縱坐標(biāo)繪制的二維散點圖。將ENC實測值的散點分布與ENC值期望曲線重合作圖對比,根據(jù)其分布情況推測密碼子偏向性形成的主要影響因素。ENC期望曲線為[14]:
PR2-plot圖即以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)為縱坐標(biāo)繪制的二維散點圖,一定程度上反映DNA的組成規(guī)律。根據(jù)散點的分布及平均值判定密碼子第3位堿基的組成差異對密碼子使用偏向性的影響。
相對同義密碼子使用度(relative synonymous codon usage, RSCU)是指某一個同義密碼子的使用次數(shù)與該密碼子預(yù)期出現(xiàn)的次數(shù)的比值,該參數(shù)反映密碼子使用偏好性。其中,預(yù)測出現(xiàn)的次數(shù)為該密碼子所編碼氨基酸的所有密碼子的平均使用次數(shù)。若RSCU=1,說明該密碼子無使用偏好性;若RSCU>1,表明該密碼子的使用頻率相對較高。篩選RSCU>1的密碼子,分析其第3位堿基的組成偏好。
采用高表達(dá)優(yōu)越密碼子分析法確定萱草bZIP家族的最優(yōu)密碼子。根據(jù)ENC數(shù)值大小篩選出前5條與后5條基因序列分別作為高表達(dá)組與低表達(dá)組,將2組密碼子的RSCU作差得到ΔRSCU,篩選其中滿足高表達(dá)組RSCU>1、低表達(dá)組RSCU<1且ΔRSCU≥0.30的密碼子定義為最優(yōu)密碼子。
通過CodonW分析得出HfbZIP基因密碼子第3位堿基的組成及CAI值,利用Emboss1.5對各HfbZIP基因GC總含量、GC1、GC2、GC3及ENC值進(jìn)行統(tǒng)計,如表1所示。
表1 萱草bZIP基因家族密碼子組成分析Tab. 1 Analysis of the codon composition of the HfbZIP gene family
HfbZIP基因GC含量存在一定差異,范圍在43.59%~58.41%之間,均值為48.52%;GC1、GC2、GC3的平均含量分別為54.04%、43.32%和48.18%,大小順序為GC1>GC3>GC2??傮w來看,萱草bZIP基因家族密碼子以A/T堿基為主,且第3位更偏向使用A/T結(jié)尾,這一特性與紫花苜蓿bZIP家族及獨行菜DREB家族一致[15-16]。ENC及CAI的值均與基因表達(dá)水平有關(guān),通常高表達(dá)基因的密碼子偏好性更強(qiáng)且ENC值較小,而CAI值則同基因的表達(dá)水平呈正相關(guān)關(guān)系[12,17]。所以,可以通過比較ENC值與CAI值來確定內(nèi)源基因表達(dá)量的相對高低。HfbZIP基因ENC值所在范圍為37.40~61.00,平均值為51.50,因此認(rèn)為HfbZIP基因家族密碼子使用偏向性較弱。HfbZIP基因CAI值取值范圍為0.14~0.21,均值為0.19,表明該家族基因整體表達(dá)水平不高,這也與bZIP家族基因多在脅迫條件下被誘導(dǎo)表達(dá)的現(xiàn)象一致。
通過SPSS22.0對HfbZIP基因的密碼子組成、GC含量、CAI與ENC值等數(shù)據(jù)進(jìn)行兩兩Pearson關(guān)聯(lián)分析,雙尾檢驗顯著性,如表2所示。
由表2可知,密碼子第3位堿基G3s與ENC及CAI值均成極顯著負(fù)相關(guān)(p<0.01),A3s與ENC值呈極顯著正相關(guān)(p<0.01);T3s與C3s分別與CAI值和ENC值呈顯著正相關(guān)(p<0.05),且GC3與CAI值呈顯著負(fù)相關(guān)(p<0.05)。表明GC含量與密碼子堿基組成(特別是第3位堿基)不僅對bZIP基因密碼子使用偏性有一定影響,還與基因表達(dá)情況密切相關(guān)。
表2 HfbZIP密碼子各參數(shù)間相關(guān)性分析Tab. 2 Correlation coefficients of the HfbZIP codon factors
利用Microsoft Excel2016對萱草bZIP基因的GC12與GC3進(jìn)行中性繪圖分析,如圖1所示。若GC3與GC12呈顯著相關(guān),表明密碼子偏性主要受突變影響。若 GC3與GC12無相關(guān)性,且斜率接近0,密碼子偏性受選擇壓力的影響[18]。HfbZIP密碼子的GC3與GC12的取值范圍在0.27~0.66和0.38~0.58之間,回歸系數(shù)為0.474 1,相關(guān)系數(shù)為0.828。SPSS22.0檢驗知GC3與GC12呈現(xiàn)極顯著正相關(guān),如表3所示。由此可以推測出萱草bZIP家族密碼子第1、2、3位的堿基組成所存差異較小,具有明顯的相關(guān)性,在進(jìn)化過程中所受到的選擇壓力情況大致相同。
表3 HfbZIP密碼子GC12與GC3s相關(guān)性檢驗Tab. 3 GC12 and GC3s correlation test for the HfbZIP
圖1 fbZIP中性繪圖分析Fig. 1 Neutrality plot analysis in HfbZIP transcription factors
ENC-plot繪圖分析被廣泛應(yīng)用于檢測密碼子堿基組成與偏向性形成關(guān)系,探討密碼子偏向性形成的影響因素。以各bZIP基因的GC3s值為橫坐標(biāo),ENC值為縱坐標(biāo)構(gòu)建散點圖,如圖2所示。
若點落在ENC期望曲線上或者曲線的附近位置,就表明該基因的密碼子偏向性僅受到堿基突變的影響,并未受到進(jìn)化壓力的影響;而如果基因相應(yīng)的點落在了曲線下較遠(yuǎn)的地方,則說明該基因存在選擇壓力[19]。由圖2可知,大部分基因ENC值并未沿期望曲線分布,即ENC實測值與期望值相差較大。在所有HfbZIP基因中,HfbZIP1、HfbZIP5、HfbZIP6、HfbZIP17與HfbZIP33這5條基因?qū)?yīng)的點落在理論曲線上或位于附近(ENC差值<1),表明這些基因的密碼子偏向性僅受堿基突變的影響;只有HfbZIP10對應(yīng)點落在標(biāo)準(zhǔn)曲線上方,說明該基因傾向于隨機(jī)使用密碼子;而其余的31個HfbZIP基因?qū)?yīng)的點全部落在期望曲線下方,說明絕大部分HfbZIP密碼子使用偏向性均受自然選擇等壓力影響。
圖2 HfbZIP的ENC-plot繪圖分析Fig. 2 ENC-plot analysis in HfbZIP transcription factors
數(shù)值PR2反映DNA的堿基組成規(guī)律,當(dāng)基因所受的突變和選擇壓力相同時時,其嘌呤堿基和嘧
啶堿基的含量也應(yīng)相等,即A=T,G=C。對密碼子第3位堿基含量作PR2-plot分析如圖3所示。
根據(jù)各點的大致分布情況可推測自然選擇和基因突變對密碼子偏好性影響的強(qiáng)弱,若僅有突變壓力影響,密碼子第3位堿基上AT和CG堿基的使用頻率應(yīng)一致[20]。由圖3可知,HfbZIP基因主要分布于右下方(A3/(A3+T3)<0.5,G3/(G3+C3)>0.5),表明密碼子堿基上A/T與C/G并非同等頻率出現(xiàn),說明HfbZIP密碼子偏向性除受到突變作用的影響外,還受到自然選擇等其他作用力的影響。
圖3 HfbZIP的PR2-plot繪圖分析Fig. 3 Analysis of PR2-plot in HfbZIP transcription factors
利用CodonW軟件對HfbZIP基因同義密碼子進(jìn)行統(tǒng)計分析,結(jié)果如表4所示。
表4 HfbZIP基因相對同義密碼子使用度Tab. 4 The relative synonymous codon usage (RSCU) of HfbZIP genes
RSCU指的是相對同義密碼子使用度,表示某個氨基酸所對應(yīng)的密碼子實際運用個數(shù)與理論運用個數(shù)之間的比值。若RSCU=1,則密碼子實際運用的次數(shù)與理論值相同,表示該密碼子被隨機(jī)使用;RSCU>1表示該密碼子被使用的頻率較高,具有一定偏好性;反之則該密碼子較少被使用[7,19]。根據(jù)HfbZIP密碼子整體統(tǒng)計分析情況知,密碼子AGG的RSCU值最高,為2.44,CGC的RSCU值最低,為0.36。除終止密碼子之外,共有24個同義密碼子RSCU>1,為HfbZIP基因使用偏性較強(qiáng)的密碼子,這些密碼子中除UUG、CUG等8個密碼子以以C/G結(jié)尾外,其余16個密碼子均以A/T(U)結(jié)尾,進(jìn)一步驗證HfbZIP基因密碼子偏好以A/T(U)結(jié)尾。
研究表明NCG型密碼子中胞嘧啶(C)易發(fā)生甲基化脫去氨基而突變成胸腺嘧啶(T),且第3位的G堿基穩(wěn)定程度低,因此,NCG型密碼子的RSCU值高低可預(yù)測基因由DNA甲基化導(dǎo)致突變的程度。其RSCU值越小,對應(yīng)基因堿基突變的可能性相對較小。此外,NCG/NCC比值可以反映mRNA編碼基因序列的甲基化水平,NCG/NCC的比值越低則基因甲基化水平越高,反之則越低[21]。在HfbZIP基因家族中,NCG型密碼子的RSCU值相對偏低,UCG、CCG、ACG和GCG的RSCU值分別為0.95、0.77、0.41及0.67,平均值為0.70,同時NCG/NGG值為0.9,說明HfbZIP基因家族整體甲基化水平一般,由DNA甲基化引起的密碼子突變可能性相對較低。
最優(yōu)密碼子的確定方法參考高表達(dá)優(yōu)越密碼子分析法居多[22],并在此方法的基礎(chǔ)上稍作修改。根據(jù)ENC值大小對HfbZIP基因進(jìn)行排序,排序前5條基因序列作為低表達(dá)組,后5條基因序列作高表達(dá)組求2組密碼子的平均RSCU值,高低組RSCU平均值作差得ΔRSCU值,將以上數(shù)據(jù)整理成表,如表5所示。
表5 HfbZIP基因高、低表達(dá)組RSCUTab. 5 RSCU of HfbZIP gene high and low expression group
篩選出ΔRSCU≥0.30,且滿足高表達(dá)組RSCU>1、低表達(dá)組RSCU<1的最優(yōu)密碼子。其中,由于AUG(僅對應(yīng)甲硫氨酸Met)、UGG(僅對應(yīng)色氨酸Trp)及終止密碼子UAA、UAG和UGA的翻譯結(jié)果唯一,且不存在密碼子使用偏向性,不參與密碼子偏向性分析。最終共篩選出7個HfbZIP的最優(yōu)密碼子,分別為AUC、UCG、ACU、GCG、CAC、GAG、GGA。
本研究對所篩選出的37條萱草海水脅迫相關(guān)bZIP家族基因密碼子進(jìn)行偏向性分析,從堿基組成來看,HfbZIPs的GC 含量均值為48.52,且GC3值為48.18,說明HfbZIP家族偏向使用A/T(U)為末尾的密碼子,雖然這一偏向性并不明顯。研究表明,親緣關(guān)系相近物種的密碼子第3位堿基組成也較為相似,大部分雙子葉植物的最優(yōu)密碼子偏向以A/T堿基結(jié)尾,而單子葉植物密碼子第3位堿基多為G/C[23-24]。萱草為單子葉植物,且其bZIP家族基因最優(yōu)密碼子偏好以G/C結(jié)尾。也有研究證實,第3位堿基組成與基因行使功能相關(guān),主要參與新陳代謝過程的基因末位堿基傾向于使用G/C,而功能基因(或核結(jié)構(gòu)基因)更偏向選擇以A/T(U)結(jié)尾的密碼子[25],印證萱草bZIP基因受鹽脅迫誘導(dǎo)表達(dá)且參與鹽脅迫響應(yīng)。紫花苜蓿bZIP基因家族的最優(yōu)密碼子偏好以A/T結(jié)尾[15],推測這一差異可能與海水脅迫后篩選出的HfbZIP基因家族的類型和功能不同有關(guān)。
密碼子使用偏好性與物種進(jìn)化過程相關(guān),主要受基因突變和自然選擇壓力的影響,此外還與基因長短,堿基組成,甲基化水平,tRNA豐度,基因表達(dá)水平和mRNA二級結(jié)構(gòu)等有關(guān),但影響較微弱[26-27]。HfbZIP基因ENC值所在范圍為37.40~61.00,平均值為51.50,CAI值取值范圍為0.14~0.21,均值為0.19,表明該家族密碼子使用偏向性較弱且整體的表達(dá)水平不高,這也與bZIP家族基因多在脅迫條件下被誘導(dǎo)表達(dá)的現(xiàn)象一致[14,28]。通過中性繪圖分析,ENC-plot曲線分析及PR2-plot分析發(fā)現(xiàn),HfbZIP基因家族密碼子CGC3與CGC12之間的相關(guān)性并不顯著,大部分HfbZIP基因的ENC值偏離了理論值,且其中的A/T與G/C堿基分布并不平均。
綜上所述,HfbZIP家族基因密碼子偏好性形成受堿基組成,突變與自然選擇壓力等多因素共同影響,就影響程度而言,自然選擇作用的影響較大。使用高表達(dá)優(yōu)越密碼子分析法對HfbZIP家族基因進(jìn)行最優(yōu)密碼子分析,共計得到7個最優(yōu)密碼子,可為萱草bZIP基因家族轉(zhuǎn)基因研究過程中密碼子優(yōu)化和宿主選擇提供理論支持。