趙月梅, 楊貴清, 徐其碧, 尹 鑫, 徐 林, 丁 波
(貴州師范學(xué)院生物科學(xué)學(xué)院,貴州 貴陽 550018)
密碼子(codon)是生命最基礎(chǔ)的信息單元,在生物體內(nèi)的DNA轉(zhuǎn)錄與蛋白翻譯中起著非常重要的作用.在翻譯過程中,大部分氨基酸由兩個(gè)或多個(gè)密碼子編碼,而對(duì)同一氨基酸編碼的密碼子叫同義密碼子[1],氨基酸在翻譯時(shí)對(duì)同義密碼子的使用傾向叫密碼子偏性(codon usage bias)[2].造成密碼子偏好性的原因有多種,如轉(zhuǎn)運(yùn)RNA豐度[3]、基因復(fù)制原點(diǎn)[4]、核苷酸堿基對(duì)總數(shù)[5]以及基因轉(zhuǎn)錄和翻譯水平高低[6]等.但在大多數(shù)植物的研究中,突變壓力和自然選擇是影響密碼子使用偏好的主要因素[7-8].密碼子使用模式是揭示物種演化的先決條件,而對(duì)其選擇機(jī)制的深入研究可為探究生物演化與環(huán)境的適應(yīng)性提供依據(jù).
葉綠體(chloroplast)是一種獨(dú)特的半自主性植物細(xì)胞器,除能進(jìn)行光合作用和能量轉(zhuǎn)換外,還具有復(fù)制、轉(zhuǎn)錄、翻譯等生命活動(dòng)功能.葉綠體基因組具高保守性、進(jìn)化速度慢、拷貝數(shù)多、規(guī)模小、基因組數(shù)多等特點(diǎn)[9],目前被廣泛應(yīng)用于植物進(jìn)化[10-11]和物種鑒定[12]等方面的研究.隨著基因組測(cè)序的進(jìn)步和發(fā)展,葉綠體基因組密碼子使用模式的相關(guān)研究在藻類[13-14]、蕨類[15]、裸子植物[16]和被子植物[17-18]中都已有報(bào)道.
建始槭(Acerhenryi)屬于槭樹科(Aceraceae)槭屬(Acer),主要生長(zhǎng)于海拔500~1 500 m的疏林中[19],廣泛分布于中國(guó)各地.建始槭是我國(guó)特有的槭樹科野生彩葉樹種,因樹姿美觀、果序下垂、果實(shí)形狀奇特、果尖鮮紅、秋葉金黃等特點(diǎn)[20],在我國(guó)西北部,常被用作造林和園林綠化的優(yōu)良景觀材料.近年來,關(guān)于該物種的研究多集中于栽培[21]、繁殖[22-23]等方面,對(duì)其遺傳信息方面的研究很有限,僅有部分研究集中于槭屬[24]或槭樹科[25-26]等.這些研究均豐富了槭屬的遺傳信息,但有關(guān)建始槭的葉綠體基因組密碼子信息較少.本研究在獲得葉綠體基因組信息基礎(chǔ)上分析建始槭葉綠體基因組密碼子偏好選擇的方式和來源,有助于后期了解其密碼子偏好選擇的潛在分子機(jī)制以及相關(guān)物種進(jìn)化和環(huán)境的適應(yīng)性.
建始槭葉片為課題組成員于2020年6月采自陜西咸陽(108°05′E, 34°05′N),將干燥葉片送至北京百邁客生物科技有限公司進(jìn)行二代測(cè)序、文庫構(gòu)建等工作,將得到的reads進(jìn)行拼接、注釋后得到156 970 bp的葉綠體基因組序列,將序列上傳至NCBI數(shù)據(jù)庫,登錄信息為MT246196.該序列共86條CDS(coding DNA sequence),去除了7條重復(fù)CDS、27條小于300 bp的CDS以及2條非ATG起始的CDS,最后選取50條蛋白質(zhì)編碼序列用于后續(xù)分析.
1.2.1 同義密碼子偏性分析 利用軟件CodonW1.4.2 (https://sourceforge.net/projects/codonw/)和在線程序EMBOSS(https://www.bioinformatics.nl/emboss-explorer/)中的CUSP程序,統(tǒng)計(jì)分析50條建始槭葉綠體基因組密碼子中的同義密碼子相對(duì)使用頻率(relative synonymous codon usage, RSCU)、有效密碼子數(shù)(effective number of codon, ENC)、密碼子最后位點(diǎn)堿基含量 (A3、T3、C3、G3)、密碼子上總GC含量(GCall)、密碼子各位點(diǎn)GC含量(GC1、GC2、GC3)以及密碼子出現(xiàn)次數(shù)(codon number, CN)等.同時(shí),用SPSS 20.0分析GCall、GC1、GC2、GC3、CN、ENC值之間的相關(guān)性.
1.2.2 中性繪圖分析 中性繪圖分析(neutrality plot)可以初步判定突變壓力和自然選擇對(duì)密碼子使用偏性的作用,主要通過以GC3值為X坐標(biāo),以GC12[(GC1+GC2)/2]值為Y坐標(biāo),利用Excel繪制二維散點(diǎn)圖(X-Y),并對(duì)GC12和GC3進(jìn)行線性擬合分析進(jìn)而判斷兩者相關(guān)性,根據(jù)相關(guān)性判斷影響密碼子使用偏性的主要因素.當(dāng)R2越大且趨于1時(shí),GC12與GC3的相關(guān)程度越強(qiáng),密碼子3個(gè)位點(diǎn)上的核糖核苷酸組成越相似,這時(shí)密碼子使用存在偏性是受突變壓力的作用;當(dāng)R2越小且趨于0時(shí),GC3與GC12越不相關(guān),密碼子的3個(gè)相鄰核糖核苷酸的組成存在較大差異,這時(shí)密碼子使用偏性主要是受自然選擇的作用[27].
1.2.4 PR2-plot分析 PR2-plot分析(偏倚分析)是為了防止A/T及C/G之間在密碼子最后位點(diǎn)上的組成發(fā)生突變不平衡.通過Excel作二維散點(diǎn)圖(X-Y),變量X為G3/(G3+C3),變量Y為A3/(A3+T3),通過觀察各基因在散點(diǎn)圖4個(gè)平面上的分布,統(tǒng)計(jì)分析每個(gè)基因密碼子的最后位點(diǎn)上A、T、C、G堿基的分布情況.以A=T、C=G為中心軸,根據(jù)基因在4個(gè)平面上發(fā)散程度判定該基因密碼子堿基的偏向及其偏向程度[32].
1.2.5 最優(yōu)密碼子分析 通過指標(biāo)高頻率密碼子和高表達(dá)密碼子確定建始槭葉綠體基因組的最優(yōu)密碼子.具體操作如下:(1)利用CodonW1.4.2軟件算出50條建始槭葉綠體基因序列各氨基酸同義密碼子RSCU,RSCU>1的密碼子為高頻率密碼子;(2)將ENC從小到大排序,將前10%(5個(gè))的基因建成高基因表達(dá)庫,將后10%(5個(gè))的基因建成低基因表達(dá)庫[17].利用CodonW1.4.2軟件分別算出高、低庫的同義密碼子RSCU,通過ΔRSCU=(RSCU高表達(dá)-RSCU低表達(dá))計(jì)算,ΔRSCU≥0.08的密碼子為高表達(dá)密碼子.最后,符合RSCU>1和ΔRSCU≥0.08的密碼子作為建始槭葉綠體基因組的最優(yōu)密碼子[33-34].
通過對(duì)50條建始槭葉綠體基因序列進(jìn)行分析(表1),統(tǒng)計(jì)了密碼子各位點(diǎn)上的GC含量分布,結(jié)果表明:3個(gè)位置GC含量的平均值為39.10%,GC1、GC2、GC3分別為47.46%、39.08%、30.77%.這說明GC在密碼子3個(gè)位點(diǎn)上的分布存在顯著差異,呈GC3
表1 建始槭葉綠體基因組各基因密碼子不同位置的GC含量1)Table 1 GC content in different parts of A.henryi chloroplast genome
通過SPSS 20.0進(jìn)行相關(guān)性分析,結(jié)果表明(表2):GCall與GC1、GC2在0.01水平上均存在極強(qiáng)的正相關(guān),GCall與GC3在0.05水平上顯著相關(guān);GC1與GC2關(guān)系在0.01水平上存在強(qiáng)正相關(guān),但兩者均與GC3不相關(guān).以上結(jié)論說明建始槭葉綠體基因組密碼子前兩位的堿基組成相似,而與第3位不相似.ENC與GC1不相關(guān),與GC2在0.01水平上存在極強(qiáng)的負(fù)相關(guān),與GC3在0.01水平上存在強(qiáng)正相關(guān)關(guān)系,說明密碼子上的堿基組成對(duì)ENC值有影響,即對(duì)密碼子偏性有影響.CN值除與GC3在0.01水平上存在很強(qiáng)的正相關(guān)關(guān)系外,與其他參數(shù)都不相關(guān),說明建始槭葉綠體基因組中的基因序列長(zhǎng)度對(duì)GC3有一定的影響,而對(duì)密碼子的使用模式則沒有明顯的影響.
表2 建始槭葉綠體基因組中各基因參數(shù)的相關(guān)性1)Table 2 Correlation analysis on gene parameters of A.henryi chloroplast genome
通過CodonW1.4.2軟件分析出50條建始槭葉綠體基因組序列RSCU(表3),共有30個(gè)RSCU>1的密碼子,其中,除UUG外,其余都以A、U 結(jié)尾.該結(jié)果表明:A、U堿基在密碼子最后位點(diǎn)上出現(xiàn)的頻率最高,建始槭葉綠體基因組密碼子偏好以A、U結(jié)尾.
表3 建始槭葉綠體同義密碼子的使用頻率(RSCU)Table 3 Relative synonymous codon usage (RSCU) analysis on coding region of A.henryi chloroplast genome
建始槭葉綠體基因組中各基因中性繪圖分析結(jié)果表明(圖1),GC3含量為0.219 8~0.371 8,GC12含量為0.347 7~0.579 2,R2為0.013 2,雙尾檢驗(yàn)兩者相關(guān)性不顯著,回歸斜率為0.151 6,說明GC12與GC3不相關(guān).密碼子上的堿基組成中最后1個(gè)位點(diǎn)不同于其他2個(gè)位點(diǎn),表明建始槭葉綠體基因組密碼子使用偏性很大程度上受自然選擇的影響,而受突變壓力的影響小.
ENC-plot分析如(圖2)所示:建始槭葉綠體50個(gè)基因中,僅有少數(shù)基因分布在期望曲線上或曲線附近,而大部分基因分布在期望曲線下方較遠(yuǎn)處,說明大部分基因的實(shí)際ENC值與理論ENC值存在差異.為更具體地看到實(shí)際ENC值和理論ENC值的差異程度,計(jì)算了ENC比值頻數(shù)即(ENCexp-ENCobs)/ENCexp,數(shù)據(jù)顯示(表4):建始槭葉綠體50個(gè)基因中,有36%(18個(gè))的基因分布在-0.05~0.05區(qū)間,表明這部分基因分布于期望曲線上或曲線附近,即ENCobs值接近于ENCexp值.這18個(gè)基因中,9個(gè)基因與光合作用相關(guān),8個(gè)基因?yàn)樽晕覐?fù)制基因,1個(gè)為其他基因.有64%的基因分布在-0.05~0.05區(qū)間外,遠(yuǎn)離期望曲線分布,即ENCexp和ENCobs相差較大.以上結(jié)果說明自然選擇是影響建始槭葉綠體基因組密碼子使用偏性的主要因素,而突變壓力的作用較小.
GC12表示密碼子第1、2位GC含量的平均值;GC3表示密碼子第3位的GC含量.圖1 建始槭葉綠體基因中性繪圖分析Fig.1 Neutrality plot analysis on A.henryi chloroplast genome
表4 ENC比值頻數(shù)分布Table 4 Distribution of ENC ratio
建始槭葉綠體基因組密碼子的PR2-plot繪圖分析結(jié)果表明(圖3),X、Y坐標(biāo)軸均以0.5為界限,發(fā)現(xiàn)4個(gè)平面內(nèi)基因分布不均衡.從G3/(G3+C3)軸看,有26個(gè)基因位于左側(cè)(<0.5),24個(gè)基因位于右側(cè)(>0.5);從A3/(A3+T3)軸看,有31個(gè)基因位于下方(<0.5),19個(gè)基因位于上方(>0.5).該結(jié)果表明4種堿基在同義密碼子第3位上呈現(xiàn)出C>G、T>A的分布趨勢(shì).當(dāng)密碼子使用存在偏性完全受突變壓力影響時(shí),C和G以及A和T同義密碼子在第3位上的分布應(yīng)相等.因此,除突變壓力外,建始槭葉綠體基因組密碼子使用偏性還受到自然選擇等其他因素的影響.
圖3 PR2-plot繪圖分析Fig.3 Analysis of PR2 bias plot
根據(jù)分析結(jié)果,選出30個(gè)高頻率密碼子(RSCU>1)(表3)、27個(gè)(ΔRSCU≥0.08)高表達(dá)密碼子(表5).其中,同時(shí)滿足條件RSCU>1和ΔRSCU≥0.08的密碼子共16個(gè),即UUA、CUU、GUU、GUA、UCU、CCU、GCU、UAA、CAA、AAA、GAA、UGU、CGU、AGU、AGA、GGU,這些密碼子都以A、U結(jié)尾,被確定為建始槭葉綠體基因組的最優(yōu)密碼子.
G、C堿基之間由3個(gè)氫鍵相連,比A、T多1個(gè),所以在DNA分子中GC含量越高,說明DNA雙鏈越穩(wěn)定,因此在基因測(cè)序中GC通常被用來衡量生物體基因組堿基組成差異的重要指標(biāo).密碼子由3個(gè)相鄰排列的堿基組成,在翻譯過程中,密碼子第1、2位堿基發(fā)生變化時(shí),其編碼的氨基酸通常發(fā)生變化,而第3位堿基具有一定的自由度,可以被多個(gè)tRNA上的反密碼子的首位堿基所識(shí)別,所以,密碼子第3位的突變一般不會(huì)導(dǎo)致編碼的氨基酸發(fā)生變化,這種特性確保了基因密碼子在編碼過程中的穩(wěn)定性,降低了選擇壓力的影響[35].在建始槭葉綠體基因組密碼子各位置的堿基分布中,第1、2、3位上GC被使用的頻率不同,呈GC3 表5 建始槭葉綠體基因組最優(yōu)密碼子分析1)Table 5 Putative optimal codons in A.henryi chloroplast genome 中性繪圖和ENC-plot分析均表明:建始槭葉綠體基因組密碼子偏性的產(chǎn)生主要受自然選擇的影響,這與蒜頭果(Malaniaoleifera)[38]、樟樹[36]、思茅松[37]、杜梨(Pyrusbetulifolia)[18]、鐵核桃(Juglanssigillata)[39]、燈盞花(Erigeronbreviscapus)[28]、大花香水月季(Rosaodoratavar.gigantea)[40]等植物的密碼子偏好性一致;而在西南樺(Betulaalnoides)[41]、籽粒莧(Amaranthushypochondriacus)[42]、乳油木(Sheanut)[43]等植物中,突變是影響其葉綠體基因組密碼子偏性的主要因素;在糜子(Panicummiliaceum)[27]、闊葉獼猴桃(Actinidialatifolia)[44]、巨桉(Eucalyptusgrandis)[45]、鐮翅羊耳蒜(Liparisbootanensis)[46]等植物中,其葉綠體基因組密碼子編碼存在偏性是受自然選擇和突變壓力的雙重影響;在蝴蝶蘭(Phalaenopsisaphrodite)[47]中,自然選擇和堿基組成的差異是影響其葉綠體基因組密碼子使用偏性的主要因素;在禾本科植物水稻(Oryzasativa)[48]中,除堿基組成的差異外,基因表達(dá)水平(即轉(zhuǎn)錄和翻譯水平)也是影響其葉綠體基因組密碼子使用的因素.因此,在不同的植物中,葉綠體基因組密碼子使用偏性的影響因素存在差異.在大多數(shù)植物中,葉綠體基因組密碼子使用的偏性受到多種因素的共同作用. PR2-plot分析表明:密碼子第3位上堿基組成呈現(xiàn)出T>A、C>G的趨勢(shì),這與糜子[27]、闊葉獼猴桃[44]、燈盞花[28]、乳油木[43]、大花香水月季[40]、劍麻(Agavesisalana)[49]等植物結(jié)果一致;在杜梨[18]、思茅松[37]、蒜頭果[38]、鐵核桃[39]等植物中葉綠體基因組密碼子第3位堿基組成中呈T>A、G>C;在樟樹[36]中呈A>T,C>G;在籽粒莧[42]和鐮翅羊耳蒜[46]中呈A>T、G>C;在紅松(Pinuskoraiensis)和蘇鐵(Cycasrevoluta)[50]的研究中,結(jié)果均呈A=T與G=C使用均等的現(xiàn)象.綜上所述,不同植物的葉綠體基因組密碼子上的堿基分布可能存在類似或不同的結(jié)果,從而導(dǎo)致影響密碼子使用偏性的主要因素不同. 通過對(duì)高頻率密碼子、高表達(dá)密碼子的計(jì)算統(tǒng)計(jì)分析,最終共篩選出16個(gè)滿足RSCU>1和ΔRSCU≥0.08且均以A、U結(jié)尾的密碼子,即UUA、CUU、GUU、GUA、UCU、CCU、GCU、UAA、CAA、AAA、GAA、UGU、CGU、AGU、AGA、GGU,將這16個(gè)密碼子確定為建始槭葉綠體基因組的最優(yōu)密碼子,這與杜梨[18]、樟樹[36]、思茅松[37]、蒜頭果[38]、鐵核桃[39]、巨桉[45]等植物中密碼子偏好NAA和NUU型研究結(jié)果一致. 本試驗(yàn)以建始槭葉綠體基因序列為研究對(duì)象,對(duì)建始槭葉綠體基因組密碼子使用的偏性進(jìn)行了分析,并對(duì)其最優(yōu)密碼子進(jìn)行了篩選.該結(jié)果可預(yù)測(cè)外源基因片段的最適受體,并選用最優(yōu)密碼子從而提高外源基因在受體中的表達(dá)水平,為建始槭的葉綠體基因工程研究奠定基礎(chǔ).