雷夢(mèng)林,馮瑞云,郝雅萍,劉 霞,王慧杰,楊生權(quán)
(1.山西省農(nóng)業(yè)科學(xué)院農(nóng)作物品種資源研究所/農(nóng)業(yè)部黃土高原作物基因資源與種質(zhì)創(chuàng)制重點(diǎn)實(shí)驗(yàn)室/雜糧種質(zhì)資源發(fā)掘與遺傳改良山西省重點(diǎn)實(shí)驗(yàn)室,山西太原 030001; 2.山西省農(nóng)業(yè)科學(xué)院作物科學(xué)研究所/作物遺傳與分子改良山西省重點(diǎn)實(shí)驗(yàn)室,山西太原 030031; 3.山西省生物研究所,山西太原 030006)
干旱、高鹽、低溫等是影響作物產(chǎn)量提高的主要非生物脅迫因素[1]。DREB轉(zhuǎn)錄因子是一個(gè)應(yīng)答非生物逆境的重要結(jié)合蛋白,能特異結(jié)合DRE/CRT順式元件,并調(diào)控下游一系列抗逆基因的轉(zhuǎn)錄表達(dá),從而增強(qiáng)植物的耐逆性。目前,已從擬南芥[2]、水稻[3]、蘋(píng)果[4]、山葡萄[5]、大豆[6]、玉米[7]和小麥[8]等植物中分離到DREB類(lèi)基因,但該基因最佳外源表達(dá)系統(tǒng)的選擇和表達(dá)水平的預(yù)測(cè)等問(wèn)題有待解決,分析密碼子的使用偏好性有助于指導(dǎo)其異源表達(dá)和遺傳轉(zhuǎn)化等后續(xù)研究的開(kāi)展。
密碼子是聯(lián)系基因核苷酸序列與蛋白質(zhì)氨基酸序列的途徑,在生物體遺傳信息的傳遞過(guò)程中發(fā)揮著關(guān)鍵性作用。密碼子偏性[9]是指某一特定基因、物種對(duì)某種或多種同義密碼子的使用偏好,普遍存在于生物體中,并與特定基因的堿基組成、表達(dá)水平等因素關(guān)聯(lián)。進(jìn)行密碼子的偏性分析有助于預(yù)測(cè)特定基因的功能及其表達(dá)調(diào)控機(jī)制和分子進(jìn)化水平。近年來(lái),有關(guān)密碼子偏性在水稻[10]、擬南芥[11]、葡萄[12]等植物中均有研究,還未見(jiàn)小麥DREB基因密碼子使用偏性的相關(guān)報(bào)道。本研究擬通過(guò)CodonW和EMBOSS在線程序,分析小麥DREB密碼子偏性,并與其他13種植物的DREB密碼子偏性進(jìn)行比較,以明確物種間的親緣關(guān)系與密碼子使用頻率之間的關(guān)系;最后與大腸桿菌、酵母、擬南芥、煙草和番茄基因組密碼子偏性進(jìn)行比較,為DREB基因在轉(zhuǎn)基因研究中選擇最佳受體植物提供參考,也為深入開(kāi)展DREB的蛋白質(zhì)結(jié)構(gòu)、功能和轉(zhuǎn)基因功能驗(yàn)證提供基礎(chǔ)數(shù)據(jù)。
小麥DREB mRNA克隆于中國(guó)春,序列全長(zhǎng)1 088 bp,其中ORF長(zhǎng)度837 bp,編碼278個(gè)氨基酸,GenBank(https://www.ncbi.nlm.nih.gov/)登錄號(hào)為AF303376.1。
玉米、擬南芥、濱藜、燕麥、榛子、大豆、亞洲棉、黃花苜蓿、水稻、堿蓬、剛毛檉柳、橡膠草和中間偃麥草等13種植物的DREB序列來(lái)源于GenBank(表1)。
大腸桿菌和酵母基因組的密碼子偏性數(shù)據(jù)來(lái)源于Codon Usage Database(http://www. kazusa. or. jp/codon)。
表1 DREB基因的編碼區(qū)序列來(lái)源Table 1 Sources of coding sequence of DREB genes
密碼子的使用頻率采用CodonW軟件和EMBOSS在線程序(http://vmbioinfo. toulouse. inra. fr/emboss) 中的CHIPS(Codon heterozygosity in a protein coding sequence)、CUSP(create a codon usage table) 分析。
密碼子使用的偏性程度用同義密碼子的相對(duì)使用度(relative synonymous codon usage,RSCU)評(píng)價(jià),RSCU值=某一密碼子所使用的頻率/其在無(wú)偏使用時(shí)預(yù)期頻率,若RSCU值=1,則表明該密碼子的使用沒(méi)有偏好;RSCU值>l,表明該密碼子使用頻率相對(duì)較高;RSCU值 基因的堿基組成偏好性通過(guò)GC3s來(lái)評(píng)價(jià),GC3s=密碼子的第3位堿基中GC的含量/第3位堿基總量[14]。 密碼子使用頻率是衡量物種間密碼子使用偏性差異的指標(biāo)之一,為各密碼子占編碼該氨基酸的密碼子的比例,比值在0.5~2.0之間表示二者的密碼子偏好性接近,比值≤0.5或比值≥2.0,表示二者的密碼子偏性差異較大[15]。 基因整體密碼子偏性用有效密碼子數(shù)(effective number of codons,ENc)評(píng)價(jià),其值在20~61之間,越靠近20偏性越強(qiáng),而值越大,其基因?qū)γ艽a子的選擇偏性相對(duì)較弱,且稀有密碼子增多[16]。 編碼區(qū)同義密碼子與密碼子最佳使用相符合的程度通過(guò)密碼子適應(yīng)指數(shù)(codon adaptation index,CAI)來(lái)反映,取值范圍在0~1之間。 將14個(gè)DREB轉(zhuǎn)錄因子的密碼子使用偏性利用SPSS 18.0軟件進(jìn)行聚類(lèi)分析。對(duì)基因密碼子使用概率分析時(shí),將每一個(gè)基因定義為一個(gè)對(duì)象。采用RSCU的歐氏平方距離表示基因間的距離,采用離差平方和法[17]表示類(lèi)與類(lèi)間的距離。DREB基因CDS編碼區(qū)序列系統(tǒng)發(fā)育樹(shù)是利用MEGA 5.1軟件并結(jié)合組間鄰接法(neighbour joining)來(lái)構(gòu)建。 2.1.1 小麥DREB的 ENc、GC、GC3s和CAI分析 運(yùn)用CodonW和CHIPS在線程序,計(jì)算得出小麥DREB的ENc值、GC含量和GC3s值分別為54.00、0.518和0.481,其中,ENc值大于35,偏向于61,表明在小麥中該基因?qū)γ艽a子選擇偏性比較弱,且表達(dá)水平偏低(表2)。DREB編碼區(qū)GC含量為51.8%,基因編碼區(qū)序列中AT(48.2%)與GC含量(51.8%)含量基本相當(dāng),略微偏好于使用以GC結(jié)尾的密碼子。小麥DREB的GC3s為0.481,表明了小麥DREB密碼子第三位堿基偏好使用以AT結(jié)尾。小麥DREB的CAI值為0.262,遠(yuǎn)小于1,進(jìn)一步表明小麥DREB對(duì)密碼子的偏好性偏弱,可能在不同組織中的表達(dá)水平普遍偏低。 表2 不同物種DREB的ENc、GC、GC3s和CAI分析Table 2 Analysis of ENc,GC,GC3s and CAI for DREB in different species 2.1.2 DREB同義密碼子相對(duì)使用度 運(yùn)用CodonW和EMBOSS在線程序分別計(jì)算各基因的RSCU值和密碼子使用頻率,結(jié)果表明,小麥DREB基因密碼子中,RSCU值>l的有25個(gè)密碼子,RSCU值>l.5的有14個(gè)密碼子,其中,密碼子ACC的RSCU值達(dá)到2.550,偏好性最強(qiáng);而TGG的RSCU值為1,表明該密碼子不具有使用偏好性,可以隨機(jī)被選用。I(Ile)、V(Val)、K(Lys)、Y(Tyr)、Q(Gln)、N(Asn)、E(Glu)和A(Ala)8種氨基酸的密碼子偏好性相同;F(Phe)、H(His) 和D(Asp) 3種氨基酸的同義密碼子偏性完全相反(表3)。 2.2.1 不同物種ENc、RSCU及GC含量分析 表3 小麥DREB的密碼子偏性分析Table 3 Analysis of codon bias of DREB in Wheat 14個(gè)物種DREB的ENc平均值為52.770,其中,水稻的ENc為34.160,小于35;其余13個(gè)物種ENc值均大于35,說(shuō)明這些物種的密碼子偏好性及基因表達(dá)水平雖有一定差異性,但密碼子選擇偏好性和基因表達(dá)水平普遍較低,與CAI指數(shù)驗(yàn)證結(jié)果相同。濱藜的ENc值為61,表明其密碼子堿基選擇不具有偏好性。14個(gè)物種GC3s值介于0.304~0.853,均值為0.518;GC含量值介于0.414~0.724,均值為0.527。不同物種DREB對(duì)GC和GC結(jié)尾的密碼子的偏好性不同,其中,4個(gè)雙子葉植物(大豆、黃花苜蓿、堿蓬、橡膠草)GC含量小于0.5,偏向于AT結(jié)尾的密碼子,而5種單子葉植物的DREB和剩余5種雙子葉植物均對(duì)GC有一定的偏好性,其中,單子葉植物玉米對(duì)GC的偏性最強(qiáng)。利用RSCU值分析14個(gè)物種DREB密碼子使用偏好性,結(jié)果表明,RSCU值>1的密碼子數(shù)目最多的是榛子,為30個(gè);最少的是剛毛檉柳,為20個(gè)。RSCU值>1.5的密碼子數(shù)目最多的是水稻,為21個(gè);最少的是剛毛怪柳,為6個(gè)(表2)。 2.2.2 密碼子選用偏好性和CDS序列的系統(tǒng)聚類(lèi) 通過(guò)對(duì)14個(gè)不同物種DREB基因的密碼子使用偏性進(jìn)行聚類(lèi)分析。結(jié)果(圖1)表明,14個(gè)物種可聚為2個(gè)大類(lèi),單子葉植物玉米和水稻屬于Ⅰ類(lèi),剩余的12種屬于Ⅱ類(lèi)。在Ⅱ類(lèi)中,單子葉植物小麥、中間堰麥草和燕麥單獨(dú)歸為一小類(lèi)。單子葉植物玉米和水稻與單子葉植物小麥、中間堰麥草和燕麥分別屬于禾本科的不同類(lèi)群,說(shuō)明親緣關(guān)系較近的物種密碼子使用頻率也相似。而同屬于藜科的堿蓬和濱藜沒(méi)有聚為一小類(lèi),可見(jiàn)物種之間DREB的密碼子使用偏性與物種之間進(jìn)化并不一定有必然的聯(lián)系。雙子葉植物同屬于Ⅱ類(lèi),說(shuō)明雙子葉植物DREB基因的密碼子偏好性相對(duì)一致,而單子葉植物內(nèi)部在長(zhǎng)期進(jìn)化過(guò)程中逐漸朝不同的方向進(jìn)化,存在更為豐富的密碼子偏好性。 14個(gè)不同物種DREB基因CDS序列構(gòu)建系統(tǒng)發(fā)育樹(shù)的分析結(jié)果(圖2)表明,14個(gè)物種基本按照單子葉植物和雙子葉植物進(jìn)行分類(lèi),禾本科的單子葉植物小麥、中間堰麥草和燕麥與禾本科的單子葉植物玉米和水稻各歸為一個(gè)小類(lèi)。與密碼子偏性的聚類(lèi)分析結(jié)果相比,藜科的堿蓬和濱藜從不同類(lèi)歸到同一類(lèi)中,并且進(jìn)化距離較小。分屬于不同科的雙子葉植物歸類(lèi)可能是由于研究樣本數(shù)量較少,導(dǎo)致不同科歸于同一個(gè)分類(lèi)。 通過(guò)將小麥DREB與擬南芥、煙草、番茄、大腸桿菌、酵母菌基因組中不同密碼子出現(xiàn)的頻率進(jìn)行比較分析發(fā)現(xiàn)(表4),小麥DREB與大腸桿菌、酵母菌分別有26和22個(gè)密碼子存在較大的選用偏好性差異,說(shuō)明酵母菌真核異源表達(dá)系統(tǒng)更適用于小麥DREB異源表達(dá)試驗(yàn)。分析比較小麥DREB與遺傳轉(zhuǎn)化模式植物擬南芥、煙草和番茄的密碼子偏好性發(fā)現(xiàn),與擬南芥、煙草和番茄基因組密碼子選用頻率差異較大的密碼子個(gè)數(shù)分別為16、22和24,表明在小麥DREB基因遺傳轉(zhuǎn)化功能驗(yàn)證中,擬南芥更適用于異源受體。 圖1 基于DREB密碼子使用偏性的聚類(lèi)分析 歐氏距離 Euclidean distance 圖2基于DREB密碼子CDS序列的系統(tǒng)聚類(lèi) Fig.2ClusteranalysisdendrogramofCDSsequencesofDREB 表4 小麥DREB基因與部分模式生物基因組密碼子使用偏性比較Table 4 Comparison of codon usage preference between DREB in Triticum aestivum and other representative organisms (續(xù)表4Continuedtable4) 密碼子Codon氨基酸Amino acidDREBAtNtSlEcScDREB/AtDREB/NtDREB/SlDREB/EcDREB/ScAAAK(Lys)39.4330.832.631.133.242.21.28 1.21 1.27 1.19 0.93 AAGK50.1832.733.531.010.730.71.53 1.50 1.62 4.691.63 CTAL(Leu)0.009.99.410.04.013.3 0.00 0.00 0.00 0.00 0.00CTCL3.5816.112.311.211.05.4 0.22 0.29 0.32 0.33 0.66 CTGL14.349.810.210.550.910.41.46 1.41 1.37 0.28 1.38 CTTL14.3424.124.024.911.712.10.60 0.60 0.58 1.23 1.19 TTAL3.5812.713.414.413.926.7 0.28 0.27 0.25 0.26 0.13 TTGL10.7520.922.324.214.027.00.51 0.48 0.44 0.77 0.40 ATGM(Met)21.5124.525.024.727.020.90.88 0.86 0.87 0.80 1.03 AACN(Asn)25.0920.917.917.321.424.91.20 1.40 1.45 1.17 1.01 AATN21.5122.328.030.518.636.30.96 0.77 0.71 1.16 0.59 CCAP(Pro)10.7516.219.819.28.518.20.66 0.54 0.56 1.26 0.59 CCCP7.175.36.65.75.86.81.35 1.09 1.26 1.24 1.05 CCGP14.348.65.04.621.85.31.67 2.87 3.12 0.66 2.71 CCTP21.5118.718.719.27.313.61.15 1.15 1.12 2.951.58 CAAQ(Glu)10.7519.520.721.015.027.50.55 0.52 0.51 0.72 0.39 CAGQ17.9215.215.014.029.512.11.18 1.19 1.28 0.61 1.48 AGAR(Arg)7.1719.016.016.42.921.3 0.38 0.45 0.44 2.470.34 AGGR17.9211.012.211.91.99.21.63 1.47 1.51 9.43 1.95 CGAR0.006.35.35.43.93.0 0.00 0.00 0.00 0.00 0.00 CGCR7.173.83.93.121.02.61.89 1.84 2.310.34 2.76CGGR14.344.93.73.16.31.72.933.884.632.28 8.44CGTR17.929.07.56.920.36.51.99 2.392.600.88 2.76AGCS(Ser)10.7511.310.09.316.09.70.95 1.08 1.16 0.67 1.11 AGTS14.3414.013.315.29.514.21.02 1.08 0.94 1.51 1.01 TCAS21.5118.317.620.77.818.81.18 1.22 1.04 2.76 1.14 TCCS14.3411.210.29.98.914.21.28 1.41 1.45 1.61 1.01 TCGS7.179.35.35.68.78.50.77 1.35 1.28 0.82 0.84 TCTS28.6725.220.021.28.723.51.14 1.43 1.35 3.301.22 ACAT(Thr)3.5815.717.417.98.217.80.230.210.20 0.44 0.20ACCT25.0910.39.78.622.812.62.442.592.92 1.10 1.99 ACGT7.177.74.54.614.87.90.93 1.59 1.56 0.480.91 ACTT3.5817.520.319.99.120.30.200.180.180.390.18GTAV(Val)10.759.911.411.211.111.81.09 0.94 0.96 0.97 0.91 GTCV10.7512.811.110.115.111.60.84 0.97 1.06 0.71 0.93 GTGV21.5117.416.716.025.510.61.24 1.29 1.34 0.84 2.03GTTV10.7527.226.828.018.522.00.400.400.380.58 0.49 TGGW(Trp)14.3412.512.213.515.210.31.15 1.18 1.06 0.94 1.39 TACY(Tyr)10.7513.713.512.412.114.60.78 0.80 0.87 0.89 0.74 TATY14.3414.617.818.616.518.90.98 0.81 0.77 0.87 0.76 At、Nt、Sl、Ec、Sc分別表示擬南芥、煙草、番茄、大腸桿菌、酵母菌;下劃線表示兩個(gè)物種密碼子比較具有明顯偏差(≤0.5,≥2.0)的分值。 At,Nt,Sl,Ec,and Sc representArabidopsisthaliana,Nicotianasylvestris,Solanumlycopersicum,EscherichiacoliandSaccharomycescerevisiae. The underlines mean there are obvious differences between the codons of two species(≤0.5,≥2.0). 生物在長(zhǎng)期的進(jìn)化過(guò)程中,會(huì)形成一套使核苷酸和氨基酸之間保持遺傳信息傳遞的特定密碼子用法,由于基因的突變和選擇等因素的影響[18-21],自然選擇通常使生物體偏向于使用最優(yōu)密碼子,突變會(huì)導(dǎo)致部分非最優(yōu)密碼子存在,經(jīng)過(guò)長(zhǎng)期進(jìn)化,同一物種或不同物種的不同基因?qū)γ艽a子的使用表現(xiàn)為不同的偏好性。 本研究通過(guò)對(duì)小麥DREB的密碼子偏性分析,發(fā)現(xiàn)該基因堿基選擇時(shí)偏好GC,但其密碼子第3位堿基偏好AT結(jié)尾。深入研究發(fā)現(xiàn),在單、雙子葉植物分化之后,DREB的堿基組成發(fā)生了較大變化,單子葉植物的GC含量和GC3s值比較大,部分雙子葉植物的GC3s值大于0.5,符合雙子葉植物GC3s值通常大于0.5的規(guī)律[22],而有些雙子葉植物的GC3s值小于0.5,可能是由于單子葉植物向雙子葉植物進(jìn)化過(guò)程中,GC到AT突變壓力比AT到GC突變壓力高,這一效應(yīng)同時(shí)會(huì)反映在同義密碼子的第3位堿基上,導(dǎo)致密碼子的第3位不是A就是T,反之亦然[23]。 聚類(lèi)分析和密碼子偏好性分析結(jié)果存在一定差異,但都可以將單、雙子葉植物分別歸類(lèi),而且將屬于禾本科、藜科的不同物種優(yōu)先聚類(lèi)在一起。與植物傳統(tǒng)分類(lèi)相比,基于密碼子使用偏性的聚類(lèi)分析可能反映了DREB特殊的進(jìn)化規(guī)律,在一定程度上反映基因特殊的個(gè)體進(jìn)化規(guī)律[24],可能是物種進(jìn)化關(guān)系分析中對(duì)系統(tǒng)發(fā)育分析的重要補(bǔ)充。而基于DREB的CDS序列系統(tǒng)進(jìn)化樹(shù)正確反映了物種間的進(jìn)化關(guān)系,在一定程度上優(yōu)于密碼子使用頻率的聚類(lèi)樹(shù)狀圖[25],與傳統(tǒng)植物分類(lèi)學(xué)結(jié)果更接近。利用密碼子使用偏性進(jìn)行聚類(lèi)分析結(jié)合基于CDS序列和基于密碼子使用偏性相結(jié)合的分析有助于提高分析結(jié)果的準(zhǔn)確度,更加客觀地說(shuō)明物種的進(jìn)化進(jìn)程。 基因的表達(dá)效率與受體系統(tǒng)密碼子使用偏性息息相關(guān)。根據(jù)受體生物密碼子使用偏好性,對(duì)目標(biāo)基因進(jìn)行序列改造和修飾,是提高表達(dá)效率的有效途徑之一[26]。通過(guò)比較常用異源表達(dá)受體、模式植物與小麥DREB密碼子使用頻率發(fā)現(xiàn),與小麥密碼子使用頻率差異更小是酵母菌,更適合做小麥DREB的表達(dá)受體,但是密碼子使用頻率差異的存在預(yù)示在做異源表達(dá)時(shí)需要對(duì)小麥DREB基因進(jìn)行適當(dāng)?shù)母脑?。小麥DREB基因與煙草和番茄基因組密碼子使用頻率差異較大,在遺傳轉(zhuǎn)化過(guò)程中可能需要更進(jìn)一步的序列改造和優(yōu)化;與擬南芥基因組密碼子使用頻率差異較小,表明擬南芥更適宜作為遺傳轉(zhuǎn)化的受體。 本研究利用生物信息學(xué)的手段,明確了小麥DREB基因密碼子的使用偏好特性,并找到了較合適的異源表達(dá)受體。下一步還需適當(dāng)改造和優(yōu)化DREB基因,以提高DREB基因在轉(zhuǎn)基因工程研究中表達(dá)效率。1.4 DREB基因的聚類(lèi)分析
2 結(jié)果與分析
2.1 小麥DREB密碼子的偏性分析
2.2 不同物種的DREB密碼子選用偏好性分析
2.3 小麥DREB受體系統(tǒng)的選擇
3 討 論