包國媛, 李文辛, 楊鑫光, 王雅瓊,2,3,4
(1.青海民族大學生態(tài)環(huán)境與資源學院,青海 西寧 810007; 2.青海省特色經濟植物高值化利用重點實驗室,青海 西寧 810007; 3.青海省生物技術與分析測試重點實驗室,青海 西寧 810007; 4.青藏高原資源化學與生態(tài)環(huán)境保護國家民委重點實驗室,青海 西寧 810007)
密碼子偏好性是生物基因組進化的一個重要特征[1],植物密碼子偏好性研究對探究植物分子進化和外源蛋白質表達有著重要的意義[2]。植物在進化過程中密碼子的使用會受到環(huán)境選擇、堿基突變、基因漂變等因素的影響[3-4]。作為傳遞生物遺傳信息的序列單位,密碼子具有簡并性,常出現2個或多個密碼子編碼同一種氨基酸的現象[5]。編碼同一種氨基酸的不同密碼子稱為同義密碼子 (synonymous codon)[6]。64個密碼子編碼20種氨基酸和3個終止密碼子[6]。同義密碼子在不同基因組中使用的頻率并不相同,甚至在同一基因組的不同基因中也不相同,這種不平等使用同義密碼子的現象被稱為同義密碼子使用偏好性[7]。
海甜菜(Betavulgarissubsp.)是所有馴化甜菜的祖先[8-9],通常被稱為野生甜菜,起源于馬德拉群島[10-11]。海甜菜亞種主要有4個,而全部的栽培種屬于Betavulgarissubsp.vulgaris亞種[12-13]。海甜菜種群在干旱和鹽堿化高的地區(qū)有較好的適應性[14]。中國海甜菜栽培種(甜菜)主要分布在東北、西北和華北等地區(qū)[15]。海甜菜根富含多種營養(yǎng)成分、維生素和生物活性物質,具有較高的抗氧化性能,在食品生產中得到了較多的應用[16-17]。
葉綠體和線粒體是植物能量利用和轉化的主要細胞器[18-19]。線粒體基因組具有重排進化快、DNA插入容易等特點[20-21],而葉綠體基因組具有較小的進化率和較大的保守性,基因拷貝數較多、單親遺傳等特點[22]。目前,對植物線粒體基因組的研究主要側重于基因結構與功能、基因表達水平調控、核質互作及線粒體的起源進化等領域[23-24],對葉綠體基因組的研究側重植物葉綠體遺傳進化等方面[25]。
目前海甜菜完整線粒體和葉綠體基因組已經公布[26],但海甜菜細胞器基因組密碼子使用偏好性還缺乏分析。本研究利用Codon W 和CUSP軟件和海甜菜線粒體和葉綠體細胞器基因組的蛋白質編碼序列(CDS),結合密碼子使用的中性繪圖分析、有效密碼子數(ENC-plot)分析、偏倚性(PR2-plot)分析,明確海甜菜細胞器基因組密碼子使用的偏好性及最優(yōu)密碼子。以期為海甜菜基因資源的利用和其他相關研究提供依據。
海甜菜線粒體和葉綠體基因組完整序列均來自NCBI數據庫(GenBank接收號為:FP885845.1和ON641300.1)。依據密碼子偏好性分析的序列選擇標準[27],在基因編碼序列(CDS)中,選擇長度>300 bp,以ATG開始,TAG、TAA、TGA結尾,內部不存在終止密碼子及重復序列的編碼序列進行分析。
利用Codon W 軟件分析線粒體和葉綠體基因組中符合密碼子偏好性分析條件的CDS序列,獲得各CDS的有效密碼子數(ENC)、同義密碼子相對使用度(RSCU)[28]。利用CUSP在線軟件(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析密碼子第1位堿基G+C含量(GC1)、第2位堿基G+C含量(GC2)、第3位堿基G+C含量(GC3)、3位堿基平均G+C含量(GCall)、第3位堿基上A、T、C、G堿基的含量A3、T3、C3、G3及同義密碼子第3位堿基G+C含量(GC3S)等參數[29-30]。
以線粒體和葉綠體基因密碼子GC1和GC2平均值GC12為縱坐標,GC3為橫坐標制作中性圖[31]。若GC12與GC3之間顯著相關,回歸曲線斜率接近于1,表明密碼子偏好性的成因主要源于堿基突變,反之則說明密碼子偏好性受到自然選擇影響較大[32]。
以線粒體和葉綠體基因密碼子GC3為橫坐標,ENC為縱坐標繪制ENC-plot圖。以公式ENCexp=2+GC3+29/[GC3+(1-GC3)2][33]繪制標準曲線。以(ENCexp-ENCobs)/ENCexp計算各基因有效密碼子比值(ENCobs為各基因實際ENC),并進行海甜菜線粒體和葉綠體基因組有效密碼子比值頻數分布分析?;蛎艽a子ENC取值范圍為20~61。當ENC取值為20時,表示每個氨基酸只使用一個密碼子,為極端偏好;ENC取值為61時,表示密碼子偏向隨機使用,不存在使用偏好[34-35]。
以海甜菜線粒體和葉綠體基因組G3/(G3+C3)為橫坐標,A3/(A3+U3)為縱坐標,制作基因密碼子偏倚分析圖(PR2-plot)[28]。PR2-plot圖中心點代表無偏性使用時的密碼子狀態(tài),即A=U且C=G,其余點與中心點的矢量距離則代表各基因密碼子堿基偏倚程度和方向[36]。
以海甜菜線粒體和葉綠體各基因的ENC排序,從前后兩端各選取10%的基因,分別建立高表達基因庫和低表達基因庫,利用軟件Codon W計算高表達和低表達基因同義密碼子相對使用度(RSCU)及其差值(△RSCU),定義△RSCU≥0.08且高表達基因RSCU≥1.00的密碼子為最優(yōu)密碼子[37-38]。
本研究共篩選得到136個海甜菜線粒體基因編碼序列(CDS)和52個葉綠體基因編碼序列。線粒體基因組密碼子3位堿基平均G+C含量(GCall)為43.42%,GC1、GC2、GC3及GC3S分別為46.98%、41.21%、42.06%及42.23%(表1)。葉綠體基因組密碼子3位堿基平均G+C含量(GCall)為37.92%,GC1、GC2、GC3及GC3S分別為 46.67%、39.11%、27.97%及28.13%(表2)。線粒體基因組ENC的均值為52.23,介于36.44~61.00,ENC>45的基因有121個;葉綠體基因組有效密碼子數(ENC)介于35.00~52.01,均值為46.10,ENC>45的基因有35個。本研究中海甜菜線粒體基因組ENC均值為52.23,葉綠體均值為46.10,更加接近61,說明海甜菜線粒體和葉綠體基因組密碼子偏好性較弱。
表1 海甜菜線粒體基因編碼序列(CDS)密碼子各位置的G+C含量及有效密碼子數
續(xù)表1 Continued 1
續(xù)表1 Continued 1
續(xù)表1 Continued 1
表2 海甜菜葉綠體基因編碼序列(CDS)密碼子各位置的G+C含量及有效密碼子數
續(xù)表2 Continued 2
線粒體基因組密碼子參數間的相關性如表3所示。GCall和GC1、GC2、GC3都呈極顯著相關,GC1和GC2呈顯著相關,GC1和GC3呈極顯著相關,GC2與GC3呈極顯著相關;ENC與GC1呈顯著相關,與GC2不相關,與GC3和GCall呈極顯著相關;ENC、GC1、GC3和密碼子數均不相關,GC2與密碼子數呈極顯著負相關。ENC與密碼子第1位堿基組成密切相關,與密碼子數不相關,可能的原因是基因序列長度對密碼子使用偏好性的影響很小,這與蔡元保等研究結果一致[32]。葉綠體基因組密碼子參數間的相關性如表4所示。GCall和GC1、GC2、GC3呈極顯著相關,GC1和GC2呈極顯著相關,與GC3呈顯著相關,GC2與GC3無顯著相關性;ENC與GC3呈極顯著相關,與GC1、GC2、GCall不相關;密碼子數與ENC、GC1、GC2、GC3均不相關。海甜菜線粒體和葉綠體基因組密碼子的使用偏好性均受到G+C含量、ENC和密碼子第1位堿基的影響。其中,線粒體基因組密碼子的使用偏好性與G+C含量密切相關,而葉綠體基因組密碼子的使用偏好性則與ENC和GC3密切相關。
海甜菜線粒體和葉綠體基因同義密碼子相對使用度如表5所示。線粒體基因高頻密碼子(RSCU>1)有28個,其中11個以A結尾,2個以G結尾,15個以U結尾;低頻密碼子(RSCU<1)共有34個,其中5個以A結尾,16個以C結尾,12個以G結尾,1個以U結尾。葉綠體基因高頻密碼子有30個,其中11個以A結尾,12個U結尾,4個以G結尾,3個以C結尾;RSCU為1的密碼子共2個,分別為AUG和UGG;低頻密碼子共有32個,這表明海甜菜線粒體和葉綠體基因組中使用度較高的密碼子是以A和U結尾,此結果與沙棗葉綠體基因組相同[39]。
表4 海甜菜葉綠體基因密碼子參數間的相關性
表5 海甜菜線粒體基因和葉綠體基因同義密碼子相對使用度(RSCU)
續(xù)表5 Continued 5
海甜菜線粒體和葉綠體基因組中除甲硫氨酸(Met)和色氨酸(Trp)分別由1個密碼子AUG和UGG編碼之外,剩余氨基酸由2~6個密碼子編碼,且都表現出明顯的使用偏好性。在編碼亮氨酸(Leu)的6個密碼子中,UUA的RSCU最大,線粒體基因組中為1.264 8,葉綠體基因組中為2.065 2,表明UUA具有很高的偏好性,是海甜菜線粒體和葉綠體基因組中常用的密碼子。
海甜菜線粒體基因組GC12的取值范圍在33.12%~58.91%,GC3的取值范圍在21.37%~60.38%,GC12與GC3的相關系數為0.346,無顯著相關性(圖1A)。這說明海甜菜線粒體基因組密碼子第3位與第1、2位堿基突變模式不相同,比起堿基突變密碼子偏好性更易受到自然選擇的影響,這與睡蓮屬植物的結果相似[40]。葉綠體基因組GC12的取值范圍在32.46%~55.04%,GC3的取值范圍在21.43%~36.01%,GC12與GC3的相關系數為0.286,也無顯著相關性(圖1B)。此外,圖1B所有點均在1∶1線上方,說明所有基因GC12>GC3,即密碼子第3位的G+C含量偏低,密碼子偏好性受自然選擇的影響大。
A:線粒體;B葉綠體。圖1 海甜菜線粒體和葉綠體基因密碼子中性繪圖Fig.1 The neutral mapping of mitochondrial and chloroplast gene codons in Beta vulgaris subsp.
海甜菜線粒體和葉綠體基因組有效密碼子比值頻數分布及ENC與GC3的關系圖(ENC-plot)分別如表6和圖2所示。海甜菜線粒體基因ENC大多偏離標準曲線(圖2A),僅有39個基因有效密碼子比值頻數分布在-0.05~0.05區(qū),這39個基因與預期ENC較接近,其余的97個基因分布在-0.05~0.05之外。葉綠體基因ENC也大多數偏離標準曲線(圖2B),分布在-0.05~0.05的基因14個,其余38個基因分布在-0.05~0.05之外。與葉綠體基因組相比,線粒體基因組有更多基因遠離標準曲線,表明線粒體基因組密碼子偏好性更易受到堿基突變影響。
表6 有效密碼子比值頻數分布
海甜菜線粒體和葉綠體各基因密碼子第3位上堿基偏倚性如圖3所示。各基因不均勻地分布在4個不同區(qū)域,大部分位于平面圖的下半部和右半部。這說明海甜菜線粒體和葉綠體基因密碼子第3位上U(T)堿基出現頻率大于A堿基,G堿基出現頻率大于C 堿基。海甜菜細胞器基因組密碼子偏好性不但受到了突變的影響,還受到了自然選擇的影響。
A:線粒體;B:葉綠體。圖2 海甜菜線粒體和葉綠體基因組有效密碼子數(ENC)與GC3的關系圖(ENC-plot)Fig.2 The relationship between GC3 and the effective number of codons (ENC) in mitochondrial and chloroplast genomes of Beta vulgaris subsp.
A:線粒體;B:葉綠體。圖3 海甜菜線粒體和葉綠體基因密碼子偏倚性分析(PR2-plot)Fig.3 Analysis of codon bias of mitochondrial and chloroplast genomes in Beta vulgaris subsp.
海甜菜線粒體和葉綠體高、低表達基因的數量及同義密碼子相對使用度如表7所示。從表中可以看出,線粒體和葉綠體△RSCU不小于0.08的高表達優(yōu)越密碼子分別有18個和17個。線粒體基因組中以A、U、C、G結尾的優(yōu)越密碼子分別有6個、10個、1個和1個;線粒體△RSCU不小于0.30且小于0.50的優(yōu)越密碼子有2個,△RSCU不小于0.50的優(yōu)越密碼子有6個。葉綠體基因組中以A、U、C、G結尾的優(yōu)越密碼子分別有5個、12個、0個和0個;葉綠體△RSCU不小于0.30且小于0.50的優(yōu)越密碼子有4個;△RSCU不小于0.50的優(yōu)越密碼子有8個。海甜菜線粒體和葉綠體基因組密碼子中共有27個既滿足高頻率也滿足高表達的條件,可視為最優(yōu)密碼子。
海甜菜線粒體和葉綠體基因密碼子的平均G+C含量分別為43.42%和37.92%,第3位堿基G+C含量(GC3)大多在50% 以下,說明海甜菜線粒體和葉綠體基因密碼子第3位堿基以A、U為主,這與水稻線粒體基因組[41]、玉米線粒體基因組[42],大粒香水稻葉綠體基因組[43]、茍當3號水稻葉綠體基因組[44]、白羊草葉綠體基因組[45]的密碼子偏好性一致。由此可以看出植物細胞器基因組進化趨勢大致相同。
表7 海甜菜線粒體和葉綠體各基因的RSCU和最優(yōu)密碼子
續(xù)表7 Continued 7
RSCU是評價生物細胞器基因組密碼子使用模式的重要指標[46]。本研究中,海甜菜線粒體和葉綠體基因組RSCU>1.00的高頻密碼子有28個和30個,其中線粒體基因組有26個,葉綠體有23個以 A/U 結尾;這與紫花苜蓿(Medicagosativa)葉綠體基因組密碼子使用模式[47]一致。中性繪圖分析、ENC-plot分析、PR2-plot分析結果均顯示海甜菜線粒體和葉綠體基因組密碼子受自然選擇的影響較大[24],與人參屬植物(PanaxLinn)[48]、烏頭屬藥用植物(Aconiutm)[49]葉綠體基因組密碼子一致,不同于楊樹(PopulusprzewalskiiMaxim.)葉綠體基因組密碼子主要受堿基突變的影響[50],說明物種密碼子偏好性影響因素的多元化[51-58]。
本研究初步揭示了海甜菜線粒體和葉綠體基因組密碼子偏好性形成的主要原因是自然選擇,篩選出27個最優(yōu)密碼子。本研究結果為探索海甜菜的分子特性和遺傳多樣性,弄清基因的進化壓力以及分子育種具有重要意義。