季凱凱, 宋希強, 陳春國, 李革, 謝尚潛*
(1.海南大學(xué),熱帶特色林木花卉遺傳與種質(zhì)創(chuàng)新教育部重點實驗室, 海南省熱帶特色花木資源生物學(xué)重點實驗室, 海口 570228; 2.大衛(wèi)集團大衛(wèi)(海南)股份發(fā)展有限公司, 海口 570228)
中心法則是重要的生物學(xué)規(guī)律,三聯(lián)體密碼子在翻譯過程中將遺傳信息從mRNA傳遞至蛋白質(zhì),在生物體的生命活動中發(fā)揮重要作用[1]。在蛋白質(zhì)的翻譯過程中,有61個密碼子編碼不同的氨基酸,除了甲硫氨酸(Met,M)和色氨酸(Trp,W)以外的所有氨基酸均由一個以上同義密碼子編碼,保證了翻譯過程的穩(wěn)定性[2-3]。然而同義密碼子在編碼氨基酸時使用頻率存在差異,即密碼子偏好性(codon usage bias, CUB)[4-5],比如玉米[6]、菠蘿[7]、香蕉[8]等單子葉物種密碼子常以G/C結(jié)尾,在茶樹[9]、楊樹[10]等雙子葉植物中常以A/U結(jié)尾。
自然選擇、基因突變以及遺傳漂移是引起密碼子使用偏好的重要原因[11],不同生物體密碼子偏好的影響因素也不盡相同。已有研究表明,大腸桿菌、釀酒酵母、枯草芽孢桿菌等單細胞生物中密碼子的偏好是由基因突變和自然選擇共同引起[12-13]。在一些編碼區(qū)包含極高GC或AT堿基含量的原核生物[14]和哺乳動物[15]中突變是主要影響因素,但在玉米[6]、擬南芥[16]等植物中自然選擇起著重要的作用。此外,密碼子的偏好還受其他因素影響,如基因的表達和基因的長度等[17-19]。
木蘭科(Magnoliaceae)植物是現(xiàn)存木本被子植物較為原始的種群,對研究被子植物的起源及進化具有重要作用。木蘭科狹義分為木蘭亞科和鵝掌楸亞科,主要分布在亞洲熱帶和亞熱帶區(qū)域,少數(shù)分布在北美南部和中美洲[20]。我國是木蘭科植物資源最為豐富的國家,有14屬160余種,分別占全科屬和種總數(shù)的77%和49%[21]。由于人們對森林資源的過度利用,致使許多木蘭科物種處于瀕危處境,如鵝掌楸(L.chinense)、厚樸(M.officinalis)和西康玉蘭(M.wilsonii)等[22]。目前,木蘭科植物的研究相對比較薄弱,主要集中于其藥用成分分析、物種分布及保護措施上,比如從厚樸中提取具有抗腫瘤、抗癡呆和降血壓功能的活性物質(zhì)厚樸酚,以及保護和培育單性木蘭、香港木蘭等[23-25]。
隨著測序技術(shù)的發(fā)展以及基因組研究的興起,木蘭科植物在基因組水平也開展了相關(guān)工作,中國的鵝掌楸(L.chinense)和北美稀有木蘭M.ashei的全基因組信息被解析[26]。相對于復(fù)雜的全基因組信息,大小僅約為160 kb的葉綠體基因組被研究的更為廣泛。目前,木蘭科已報道了29種植物的參考葉綠體基因組,均由二代測序Illumina平臺完成,采用NOVOPlasty、SOAPdenovo等方法完成了葉綠體基因組的組裝[27-28],并且各葉綠體基因組的編碼區(qū)也被成功注釋和解析。由于葉綠體存在于細胞質(zhì)中,具有結(jié)構(gòu)完整和序列保守等特點,常用于物種系統(tǒng)發(fā)育研究[29]。針對目前木蘭科植物葉綠體基因組以個體的縱向水平研究為主,缺乏群體內(nèi)個體間的橫向水平的系統(tǒng)研究。因此,本研究搜集已有的29種木蘭科植物葉綠體基因組,以編碼區(qū)形成蛋白的核心元件密碼子作為分析對象,首次系統(tǒng)地比較分析葉綠體基因組編碼區(qū)的密碼子使用特征,并闡釋了29種木蘭科植物間的系統(tǒng)發(fā)生關(guān)系,為進一步深入研究木蘭科植物的基因組學(xué)和系統(tǒng)進化分析提供重要的基礎(chǔ)和參考。
本研究從NCBI(National Center for Biotechnology Information,https://www.ncbi.nlm.nih.gov)數(shù)據(jù)庫中收集29種木蘭科植物的葉綠體基因組,包括27種木蘭亞科和2種鵝掌楸亞科(表1)。根據(jù)GeneBank的注釋信息提取29種葉綠體基因組的編碼區(qū)域(coding sequence,CDS)序列,并參考已有CDS序列[30],選取序列長度大于300 bp的CDS序列用于密碼子使用特征分析。
表1 本研究所收集的29種木蘭科葉綠體基因組Table 1 29 chloroplast genomes of Magnoliaceae collected
1.2.1特征參數(shù) 使用分析軟件CodonW1.4.2(http://codonw.sourceforge.net)[31]計算每種木蘭科植物葉綠體基因組的密碼子使用偏差相關(guān)參數(shù),包括相對同義密碼子使用度(relative synonymous codon usage,RSCU)、有效密碼子數(shù)(effective number of codon,ENC)、第三位核苷酸G+C頻率(GC3)、密碼子第三位置每個堿基的含量(A3、T3、G3、C3)、密碼子第一、第二和第三位置的G+C含量(GC1、GC2、GC3)等。
①RSCU值大于1的密碼子被認為是高頻密碼子[32-33],RSCU計算公式如下。
式中,xij為編碼第i個氨基酸使用密碼子j的頻率,ni為第i個氨基酸的同義密碼子的個數(shù)。
②ENC是衡量同義密碼子偏好程度的重要指標(biāo),范圍在20~61之間,低于35表示密碼子的使用具有高偏好性,反之則低偏好性,計算公式如下[34]。
ENC期望=2+s+29/[s2+(1-s)2]
式中,s為密碼子第三個位置G和C出現(xiàn)的頻率。
1.2.2ENC-plot分析 用ENC值和GC3s值做散點圖,將結(jié)果用于分析產(chǎn)生密碼子偏好的影響因素。ENC與GC3s期望值之間的標(biāo)準(zhǔn)曲線可通過以下公式計算[30]。
如果每個CDS序列的真實ENC值完全符合或接近理論標(biāo)準(zhǔn)曲線,則密碼子堿基突變可能是產(chǎn)生密碼子使用偏好的重要因素;而偏離標(biāo)準(zhǔn)曲線區(qū)域,則自然選擇可能是影響密碼子使用偏好的因素[30]。
1.2.3中性繪圖 為了進一步研究密碼子偏好的因素,本研究對29種木蘭葉綠體基因組進行中性繪圖,將葉綠體中每個基因的GC3含量作為橫坐標(biāo),GC12含量作為縱坐標(biāo),使用R繪散點制圖并作直線擬合。在直線擬合分析中,如果回歸系數(shù)接近1,說明密碼子偏好性主要受突變影響,反之,回歸系數(shù)接近于0,則密碼子偏好性主要受自然選擇的影響[35]。
1.2.4PR2(parity rule 2)分析 已有研究表明,密碼子第三堿基與密碼子使用偏好的形成密切相關(guān)[36]。為了進一步分析蛋白編碼CDS序列中密碼子第三個堿基的組成特征,本研究選擇具有4個同義密碼子的8個氨基酸進行分析,包括絲氨酸(S)、亮氨酸(L)、脯氨酸(P)、精氨酸(R)、蘇氨酸(T)、纈氨酸(V)、丙氨酸(A)和甘氨酸(G)。以G3/(G3+C3)和A3/(A3+T3)分別作為橫坐標(biāo)和縱坐標(biāo),分析上述8個氨基氨酸的密碼子第三位堿基分布情況。若密碼子使用只受到突變的影響,理論上使用密碼子第三位堿基A/T和G/C的頻率應(yīng)相等。否則,密碼子的偏好可能受自然選擇及其他因素影響[37]。
1.2.5最優(yōu)密碼子計算 最優(yōu)密碼子是指使用頻率高且ENC差異大于某個臨界值的密碼子[38]。ENC的差異指選取ENC值最高(high)和最低(low)兩端各5%的基因分別作為密碼子低偏好性組和高偏好性組,然后計算兩組RSCU值分別記為RSCUhigh和RSCUlow,并計算密碼子的△RSCU值(RSCUhigh-RSCUlow)作為ENC的差異。參照已有研究進展將0.08作為臨界值[39],本研究將△RSCU>0.08且RSCU值>1的密碼子確定為最優(yōu)密碼子。
1.2.6密碼子使用偏好的聚類與系統(tǒng)進化分析
為了探討29種木蘭科葉綠體基因組密碼子的使用偏好性與系統(tǒng)進化的關(guān)系,以每種木蘭植物為一個對象,其相應(yīng)的RSCU值為一個變量,使用SPSS 25.0軟件(http://www.spss.com/)聚類分析的組間聯(lián)接法繪制聚類圖[40],利用MEGA 7.0的系統(tǒng)鄰接法(Neighbor-Joining,NJ)對葉綠體基因組構(gòu)建系統(tǒng)進化樹[41]。此外,本研究根據(jù)葉綠體基因組和CDS序列也分別利用MEGA 7.0構(gòu)建了相應(yīng)的系統(tǒng)進化樹,并將其與基于密碼子偏好特征RSCU值的進化樹進行比較。
29種木蘭科植物葉綠體基因組密碼子數(shù)平均21 528個,其中鵝掌楸(L.chinense)最多(21 574),日本辛夷(M.kobus)最少(21 316)(表2)。每種葉綠體基因組的密碼子不同堿基位置的GC含量均小于0.5,即密碼子的三個位置堿基均偏向于A和U。對于三個堿基位置的GC1、GC2和GC3含量的特征比較,除了北美鵝掌楸(L.tulipifera)和玉蘭(M.denudata)外,其余全部葉綠體基因組密碼子中GC2含量均小于GC1和GC3,且ENC值均大于55(表2)。北美鵝掌楸(L.tulipifera)和玉蘭(M.denudata)兩種葉綠體的GC含量與ENC值明顯不同于其他物種,其中GC3含量在同組密碼子三個堿基位置中含量最低,且ENC值均低于55,分別為53.74和52.39(表2)。上述的密碼子GC含量及ENC值特征有可能影響基于密碼子使用特征的聚類結(jié)果。
表2 葉綠體基因組密碼子的參數(shù)特征Table 2 Codon features of chloroplast genomes
分析29種木蘭科葉綠體基因組的59個同義密碼子,結(jié)果表明木蘭科植物葉綠體基因組的同義密碼子(RSCU>1)數(shù)為28~32個(圖1),其中偏好相同的密碼子24個,且均以A和U結(jié)尾(圖1)。在氨基酸水平上,編碼精氨酸(R)的AGA在所有木蘭科植物中都表現(xiàn)出強烈的偏好性(RSCU>2),其次是編碼甘氨酸(G)的GGA。結(jié)果表明,29個木蘭科物種葉綠體基因組有相似的同義密碼子使用,且密碼子第三位堿基普遍偏向于A/U(圖1)。
圖1 29種木蘭科植物葉綠體基因組同義密碼子分析Fig.1 Analysis of synonymous codons in 29 chloroplast genomes of Magnoliaceae
2.3.1ENC-plot分析 29種木蘭科植物葉綠體基因組的基因分布在標(biāo)準(zhǔn)曲線兩側(cè),呈分散小簇狀,且主要分布在標(biāo)準(zhǔn)曲線附近,部分基因分布在距標(biāo)準(zhǔn)曲線較遠位置(圖2)。該分析結(jié)果說明,29種木蘭科植物葉綠體基因組的密碼子使用模式不僅受到自然選擇的影響,同時也受到突變壓力作用的影響。
圖2 ENC-plot分析Fig.2 ENC-plot analysis
2.3.2PR2 plot分析 本研究對29個木蘭科葉綠體基因組密碼子的第三位堿基A/T(A3和T3)和C/G(G3和C3)的關(guān)系奇偶校驗分析(parity rule 2,PR2),結(jié)果(圖3)表明,坐標(biāo)點非均勻的分布在四個區(qū)域內(nèi),其中主要分布于G3/(G3+C3)>0.5和A3/(A3+T3)<0.5的區(qū)域,表現(xiàn)出密碼子第三位堿基T的使用頻率比A高,G的使用頻率比C高 (圖3)。該研究結(jié)果進一步說明了密碼子的使用偏好性特征受堿基突變的作用。
圖3 PR2-plot分析Fig.3 PR2-plot analysis
為了進一步確定影響木蘭科植物葉綠體基因組密碼子偏好的主要因素,分別對29種木蘭科葉綠體基因組做中性繪圖分析(圖4),發(fā)現(xiàn)GC12分布于0.312 0~0.507 5,GC3分布于0.242~0.602?;貧w系數(shù)在-0.127 5~-0.304 5間,GC12和GC3呈負相關(guān)關(guān)系。在29種木蘭植物中,日本辛夷(M.kobus,回歸系數(shù)為-0.127 5)受到自然選擇的影響最大,厚樸(M.officinalis,回歸系數(shù)為-0.304 5)是受自然選擇最小(圖4)。結(jié)果說明,29種木蘭科植物葉綠體基因組密碼子的使用不僅受到了自然選擇的作用,還受突變的影響。
圖4 29種木蘭科植物葉綠體中性繪圖分析Fig.4 Neutrality plot analysis of 29 chloroplast genomes of Magnoliaceae
根據(jù)29種蘭科物種葉綠體基因組的使用頻率RSCU和ENC值,進行了最優(yōu)密碼子分析(圖5)。研究表明,葉綠體基因組的最優(yōu)密碼子數(shù)介于14~22之間,其中鵝掌楸(L.chinense)、厚樸(M.officinalis)和天女木蘭(M.sieboldii)三個物種具有最多的最優(yōu)密碼子數(shù)(22個),而云南含笑(M.yunnanensis)的最優(yōu)密碼子數(shù)最少(14個),并且最優(yōu)密碼子的第三位堿基偏向于A和U。此外,29種木蘭植物葉綠體基因組共同擁有的最優(yōu)密碼子有4個:纈氨酸(GUU,V)、纈氨酸(GUA,V)、谷氨酰胺(GAA,Q)和丙氨酸(GCU,A),密碼子第三位堿基與同義密碼子的偏好分析相同(圖1),均偏好于A和U(圖5)。該結(jié)果也說明了木蘭科29個物種間的葉綠體基因組的最優(yōu)密碼子差異明顯(圖5),與同義密碼子的分析結(jié)果(24個相同密碼子)不同(圖1)。
圖5 最優(yōu)密碼子分析Fig.5 Optimal codon analysis
2.6.1基于葉綠體基因RSCU的進化分析 基于葉綠體基因組的密碼子使用特征RSCU值進行聚類,構(gòu)建了29種木蘭的進化親緣關(guān)系(圖6)。結(jié)果表明,聚類結(jié)果分成兩大分支:第一分支是玉蘭(M.denudata)和北美鵝掌楸(L.tulipifera)聚為一類;第二分支為其余27個木蘭科物種,包括鵝掌楸(L.chinense)和其他26個木蘭亞科物種。該聚類分支結(jié)果與玉蘭(M.denudata)和北美鵝掌楸(L.tulipifera)具有相類似的密碼子特征有關(guān)(表2和圖1),上述基于密碼子特征構(gòu)建的進化關(guān)系明顯與真實的物種分類不同。
圖6 基于RSCU的29種木蘭科植物葉綠體基因樹狀聚類Fig.6 Cluster of 29 chloroplast genomes based on RSCU value
2.6.2基于葉綠體序列的進化分析 本研究構(gòu)建了29種木蘭科葉綠體蛋白編碼序列(CDS)和全部葉綠體基因組序列特征的系統(tǒng)進化樹(圖7)。結(jié)果顯示,兩種進化樹分類極為相似,都具有兩個大分支,第一分支包括鵝掌楸和北美鵝掌楸兩個物種,屬于鵝掌楸亞科。第二分支包括剩余的27個物種,屬于木蘭亞科。結(jié)果與根據(jù)RSCU值的聚類結(jié)果表現(xiàn)出較大的差異,葉綠體基因組系統(tǒng)發(fā)育進化樹和蛋白編碼系統(tǒng)發(fā)育進樹系關(guān)系更接近29個木蘭科物種的真實分類。這也很好地說明了序列的位點突變特征和非編碼區(qū)序列在生物體的進化過程中也具有重要的作用。
密碼子作為基因編碼區(qū)翻譯形成蛋白過程的重要核心元件,其使用特征對蛋白的翻譯以及相應(yīng)的功能研究具有重要作用。目前,已有多個物種的葉綠體基因組密碼子特征分析報道,而木蘭作為具有重要的經(jīng)濟、藥用、觀賞等價值的原始被子植物,已有29種木蘭科植物的葉綠體基因組相關(guān)注釋和個體分析研究,但對于它們密碼子使用特征及物種間的系統(tǒng)進化關(guān)系缺乏系統(tǒng)的比較分析。因此,本研究分析了29種木蘭科植物的葉綠體基因組編碼區(qū)的密碼子使用特征及其系統(tǒng)發(fā)生關(guān)系。
A:基于葉綠體蛋白編碼序列的系統(tǒng)進化樹;B:基于葉綠體全基因組的系統(tǒng)進化樹。A: Phylogenetic tree based on chloroplast protein coding sequences; B: Phylogenetic tree based on chloroplast genome sequences.圖7 29種木蘭科植物葉綠體系統(tǒng)進化樹Fig.7 Phylogenetic tree of 29 chloroplasts from Magnoliaceae
本研究發(fā)現(xiàn),基于密碼子偏好性的系統(tǒng)發(fā)育樹與基于葉綠體基因組和基因組編碼序列(CDS)的進化樹差別很大,只有部分聚類分支相同(圖6、圖7)。已有研究表明,基于密碼子偏好性的聚類結(jié)果并不能準(zhǔn)確反映真實的系統(tǒng)分類和親緣關(guān)系[42],本研究也證實了這個結(jié)論。存在差異的原因可能與密碼子的不同位置的堿基(GC1、GC2和GC3)含量以及同義密碼子的使用不同相關(guān),如玉蘭(M.denudata)和北美鵝掌楸(L.tulipifera)是29種木蘭科植物中僅有兩個葉綠體基因組GC2含量高于GC1和GC3(表2),而且它們的同義密碼子的使用明顯不同于其他木蘭科植物(圖1)。此外,葉綠體全基因組系統(tǒng)進化樹和蛋白編碼序列(CDS)的進化樹分類極為相似,更能反映29種木蘭科植物的真實分類。這也進一步說明了在物種的進化過程中,基因組的位點突變特征以及非編碼區(qū)的序列信息也起到相應(yīng)作用,這些信息為深入研究生物體的進化過程提供幫助。
29種木蘭科植物的葉綠體基因組密碼子偏好于A和U結(jié)尾,并且偏好因素受自然選擇的影響,這與高等雙子葉植物茶樹[9]和楊樹[10]等葉綠體密碼子偏好分析結(jié)論一致。此外,在分析木蘭科物種進化關(guān)系中,基于RSCU構(gòu)建的聚類關(guān)系與蛋白編碼序列進化樹的分類差異較大。基于CDS序列進化樹與基于密碼子RSCU特征構(gòu)建的聚類關(guān)系均存在較大差別,該結(jié)果也說明了基于密碼子偏好特征的進化關(guān)系可能遺漏了一些有用信息,比如CDS序列中無偏好密碼子信息,這也間接說明無偏好密碼子在進化中也發(fā)揮重要的作用。