賴瑞聯(lián), 陳 瑾, 馮 新, 覃振師, 陳義挺, 沈朝貴, 田奇琳, 吳如健
(1.福建省農(nóng)業(yè)科學(xué)院果樹研究所,福建 福州 350013;2.廣西農(nóng)業(yè)科學(xué)院廣西南亞熱帶農(nóng)業(yè)科學(xué)研究所,廣西 崇左532415;3.閩南師范大學(xué)生物科學(xué)與技術(shù)學(xué)院,福建 漳州 363000)
密碼子是生物體遺傳信息的基本單元,自然界中的20種氨基酸除酪氨酸和甲硫氨酸外,其余氨基酸均對(duì)應(yīng)多個(gè)密碼子,稱為同義密碼子.同義密碼子在生物體中的使用并不是隨機(jī)和均等的,這種使用頻率的差異便形成了密碼子偏好性.在生物體中,同義密碼子的選擇并不會(huì)改變蛋白質(zhì)的種類和特征,但會(huì)影響蛋白質(zhì)的翻譯效率,在長期的物種進(jìn)化過程中,形成的最優(yōu)密碼子往往集中在高表達(dá)基因或多態(tài)性位點(diǎn)中,從而維持選擇的有效性[1-2].在密碼子偏好性特征的形成機(jī)理研究中,比較公認(rèn)的是中性理論和選擇—突變—漂移假說,即密碼子偏好性是對(duì)非同義密碼子的突變—漂移以及對(duì)最優(yōu)密碼子選擇壓力綜合作用的結(jié)果.因此,目前廣泛認(rèn)為,突變壓力和自然選擇是密碼子偏好性形成的最主要的影響因素[3].不同生物體密碼子偏好性模式不同,通常近緣物種的偏好模式較為一致,開展密碼子偏好性研究有利于進(jìn)一步揭示物種的起源和進(jìn)化規(guī)律[4-6].
葉綠體是高等植物或藻類特有的能量轉(zhuǎn)換系統(tǒng),葉綠體基因組是存在于葉綠體中,呈雙鏈環(huán)狀,能夠進(jìn)行基因轉(zhuǎn)錄和翻譯的相對(duì)獨(dú)立的遺傳信息載體.由于植物中的葉綠體基因組往往具有高保守性和低進(jìn)化速率等特征,其常常被用于物種進(jìn)化規(guī)律和遺傳鑒定等方面的研究.其中,葉綠體基因組密碼子編碼規(guī)律的研究可為揭示植物的分子特征提供重要的參考依據(jù)[7].
橄欖(Canariumalbum)是我國熱帶和亞熱帶地區(qū)的特色果樹,其果實(shí)兼具藥食兩用,具有很好的開發(fā)利用前景.通常認(rèn)為,中國是橄欖種質(zhì)資源起源和遺傳多樣性分布中心,然而,目前橄欖的相關(guān)研究工作主要集中在種質(zhì)資源、栽培技術(shù)、藥理活性、保鮮加工和果實(shí)品質(zhì)等方面[8].橄欖遺傳背景的研究較少,其密碼子偏好性的研究僅在基因個(gè)體或轉(zhuǎn)錄本中有少數(shù)報(bào)道[9-10].鑒于此,本研究在前期組裝的橄欖葉綠體基因組的基礎(chǔ)上,進(jìn)一步對(duì)其密碼子偏好性及其影響因素進(jìn)行研究,同時(shí)確定橄欖葉綠體基因組最優(yōu)密碼子,旨在為橄欖葉綠體基因組的進(jìn)化遺傳學(xué)和葉綠體基因工程研究提供參考.
在前期工作中,本項(xiàng)目組采用BGISEQ-500測序平臺(tái)完成了橄欖葉綠體基因組的測序,組裝獲得了163 140 bp基因組序列(附件圖Ⅰ,掃OSID碼可見),包含83個(gè)蛋白編碼基因,GenBank登錄號(hào)為MN217684[11].在基因篩選時(shí),首先剔除重復(fù)序列,隨后選擇以ATG作為起始密碼子,TAA、TAG和TGA為終止密碼子,且編碼區(qū)總長度超過300 bp的葉綠體基因序列用于密碼子偏好性分析,最終獲得54個(gè)符合條件的蛋白編碼基因.篩選結(jié)果如表1所示.
1.2.1 密碼子偏好性參數(shù)分析 采用CodonW程序和EMBOSS在線軟件(http://bioinformatics.nl/emboss-explorer/)分析橄欖葉綠體基因組密碼子的偏好性參數(shù),包括有效密碼子數(shù)(effective number of codons, ENc)、密碼子第1、2、3位上的GC含量(GC1s、GC2s、GC3s)、總GC含量(GC)、同義密碼子相對(duì)使用度(relative synonymous codon usage, RSCU)、密碼子出現(xiàn)次數(shù)(codon number, CN)、密碼子適應(yīng)指數(shù)(codon adaptation index, CAI)、密碼子偏好指數(shù)(codon bias index, CBI)和最優(yōu)密碼子使用頻率(frequency of optimal codons, FOP).同時(shí),采用統(tǒng)計(jì)學(xué)軟件SPSS 19.0進(jìn)行各參數(shù)間的相關(guān)性和顯著性分析.
1.2.2 中性繪圖分析 密碼子第1、2位上的堿基通常會(huì)發(fā)生非同義突變,改變編碼蛋白,影響基因的功能,而第3位上的堿基通常會(huì)發(fā)生同義突變.中性繪圖分析通過比較GC12(密碼子第1、2位上的平均GC含量)與GC3s的相關(guān)性,衡量密碼子偏好性形成的影響因素.通常認(rèn)為,GC12與GC3s之間存在顯著相關(guān)性,且回歸系數(shù)近似1.0時(shí),密碼子不同位點(diǎn)上的堿基組成沒有差異,密碼子偏好性的形成主要受突變壓力的影響;反之,密碼子不同位點(diǎn)上的堿基組成存在差異,密碼子偏好性的形成主要受自然選擇的影響.
1.2.3 ENc對(duì)應(yīng)分析 ENc是衡量密碼子偏好性程度的重要指標(biāo),取值20~61,值越小說明密碼子偏好性越強(qiáng),反之則偏好性越弱.根據(jù)Wright[12]提出的理論,通過GC3s可以計(jì)算獲得ENc的理論值.ENc對(duì)應(yīng)分析的是ENc與GC3s之間的關(guān)系,以GC3s為橫坐標(biāo),若ENc分布在標(biāo)準(zhǔn)曲線附近,則說明密碼子偏好性受突變壓力的影響;若ENc分布在標(biāo)準(zhǔn)曲線下方較遠(yuǎn)的位置,則說明密碼子偏好性主要受自然選擇的影響.
1.2.4 偏倚分析 偏倚用于衡量密碼子第3位上的AT與GC之間的突變是否平衡.以A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo),由中心點(diǎn)(A=T、C=G)發(fā)出的矢量反映該堿基的偏移程度和方向.若基因集中分布在中心位置附近,則說明4種堿基使用的頻率相對(duì)一致,密碼子偏好性主要受突變壓力的影響;若基因偏離中心,位置較遠(yuǎn),說明可能還存在其他影響因素.
1.2.5 RSCU對(duì)應(yīng)性分析 采用CodonW程序計(jì)算各基因的RSCU,基于各葉綠體基因的功能分類將RSCU分布到一個(gè)59維的向量空間,進(jìn)行各指標(biāo)間的對(duì)應(yīng)性分析.
1.2.6 最優(yōu)密碼子分析 以CAI作為參考標(biāo)準(zhǔn),參照Liu[13]的方法將54個(gè)基因的CAI由高到低排序,篩選前10%和后10%的基因分別作為高、低表達(dá)的基因,分析不同基因組間各密碼子RSCU的差異,同時(shí)采用統(tǒng)計(jì)學(xué)軟件SPSS 19.0分析組間的差異顯著性.若高表達(dá)基因的RSCU大于低表達(dá)基因,且存在差異顯著性,則將該密碼子確定為基因組的最優(yōu)密碼子.
橄欖葉綠體基因組密碼子偏好性參數(shù)如表2所示.首先,以54個(gè)基因作為一個(gè)整體進(jìn)行分析時(shí),基因組整體的ENc、CAI和CBI分別為50.360、0.186和0.167.不同基因之間的ENc差異較大,取值36.797~58.462,ENc均大于35.0,且CAI和CBI遠(yuǎn)小于1.0,說明無論是基因組還是基因個(gè)體,密碼子偏好性均較弱,但所有基因的ENc均小于61.0,說明所有基因均存在一定程度的密碼子偏好性.從堿基組成上看,GC、GC1s、GC2s和GC3s分別為0.385、0.466、0.383和0.305,其中,GC1s、GC2s、GC3s和GC在不同基因個(gè)體間的取值分別為0.344~0.585、0.283~0.612、0.219~0.480和0.320~0.488,說明GC在密碼子不同位置上的含量并不均勻.從整體上看,基因組更偏向使用A和T,并以A或T結(jié)尾的密碼子.
表2 橄欖葉綠體基因密碼子的偏好性參數(shù)Table 2 Parameters of codon usage preference in C.album chloroplast genome
橄欖葉綠體基因組密碼子偏好性參數(shù)間的相關(guān)性如表3所示.從堿基組成上看,GC與GC1s、GC2s、GC3s之間存在極顯著正相關(guān),GC1s與GC2s之間也存在顯著相關(guān),GC3s與GC1s、GC2s之間的相關(guān)性則不顯著,說明密碼子第1位與第2位的堿基組成較相似,但與第3位之間存在較大差異,但任意位置上的堿基組成均會(huì)影響密碼子GC含量;ENc只與GC3s存在極顯著相關(guān),表明密碼子第3位上的堿基組成會(huì)影響ENc;CN與所有指標(biāo)之間的相關(guān)性都不顯著,說明密碼子出現(xiàn)次數(shù)對(duì)整體偏好性沒有影響;GC1s、GC均與CAI、CBI、FOP之間存在顯著或極顯著相關(guān),GC3s與FOP之間也存在顯著相關(guān),說明GC1s和GC會(huì)影響CAI和CBI,而GC1s、GC3s和GC均會(huì)影響FOP.此外,CAI、CBI、FOP兩兩之間的相關(guān)性均達(dá)到極顯著水平,說明3個(gè)指標(biāo)間均會(huì)互相影響.
表3 橄欖葉綠體基因密碼子偏好性參數(shù)間的相關(guān)系數(shù)1)Table 3 Correlation analysis on parameters of codon usage preference for C.album chloroplast genome
橄欖葉綠體基因組密碼子中性繪圖分析結(jié)果(圖1)顯示,GC3s和GC12分別為0.219~0.480和0.344~0.568,所有基因在平面圖上的分布范圍較為分散,許多基因分布在回歸曲線[y=0.268x+0.356(R2=0.054)]的兩側(cè),此外,也有部分基因的分布位置距離回歸曲線較遠(yuǎn).表明基因組密碼子偏好性在受到突變壓力影響的同時(shí),可能還受到其他作用力的共同影響.
橄欖葉綠體基因組密碼子ENc對(duì)應(yīng)分析結(jié)果(圖2)顯示:大部分基因均勻分布在ENc理論值曲線附近,表明這些基因ENc的實(shí)際值與理論值較為相近;此外,也有部分基因分布在ENc理論值下方較遠(yuǎn)的位置,說明ENc的實(shí)際值與理論值之間仍然存在一定的差異.進(jìn)一步分析發(fā)現(xiàn),ENc比值頻率[(ENc理論值-ENc實(shí)際值)/ENc理論值)]為-0.085~0.320.其中,多數(shù)基因分布在-0.1~0.1(表4),占所有基因的74.07%,說明大部分基因ENc的實(shí)際值與理論值相差較小,即基因組密碼子偏好性與第3位上堿基組成的差異相關(guān).由此可見,基因組密碼子偏好性受突變壓力的影響,同時(shí)可能還受自然選擇的影響.
橄欖葉綠體基因組密碼子偏倚分析結(jié)果(圖3)顯示,所有基因G3/(G3+C3)、A3/(A3+T3)平均取值的分布位置為(0.479、0.514),說明在總體上,基因組密碼子中A與T的比例接近,G與C的比例接近.然而,從圖4也可以看出,很多基因并非聚集在平面圖中心,而是分布在距離中心點(diǎn)較遠(yuǎn)的位置.其中,處于平面圖上半部分基因的A的使用頻率高于T,處于左半圖基因的C的使用頻率高于G,反之亦然.研究認(rèn)為,當(dāng)密碼子使用偏好只受突變壓力的影響時(shí),不同堿基的使用頻率相似[14].由此可見,基因組密碼子的偏好性除了受突變壓力的影響,還受自然選擇等其他作用力的影響.
以RSCU大于1.0為標(biāo)準(zhǔn),獲得橄欖葉綠體基因組中偏好性較強(qiáng)的密碼子有30個(gè),然而這些密碼子的RSCU均小于2.0,說明基因組中不存在極強(qiáng)偏好性的密碼子,可能也是造成基因組整體密碼子偏好性較弱的原因.進(jìn)一步基于基因功能,將54個(gè)基因分為4類(光合系統(tǒng)基因、遺傳系統(tǒng)基因、其他基因、未知功能基因),基于RSCU將各基因分布到一個(gè)59維的向量空間,第1向量軸(第1軸)、第2向量軸(第2軸)的分布結(jié)果(圖4)顯示,4個(gè)類型的基因在平面分布上相對(duì)分散.其中,第1向量軸顯示有9.71%的差異,第2、3、4向量軸分別存在9.09%、7.90%和6.98%的差異,前4個(gè)向量軸累計(jì)差異為33.68%.關(guān)聯(lián)分析發(fā)現(xiàn),除GC3s(R=0.269,P<0.05)外,各基因在第1軸上的坐標(biāo)值與ENc(R=0.266)、GC(R=0.046)、CAI(R=-0.325)、CBI(R=-0.216)、CN(R=0.058)之間的相關(guān)性并不顯著(P>0.05),進(jìn)一步說明基因組密碼子的偏好性不僅受單一因素的影響,可能還受突變壓力、自然選擇和其他因素的共同影響.
以CAI作為橄欖葉綠體高、低表達(dá)基因的衡量標(biāo)準(zhǔn),分析高、低表達(dá)基因之間的RSCU差異.結(jié)果(表5)顯示,高、低表達(dá)基因之間的RSCU普遍相似,可能與基因組密碼子偏好性普遍較弱有關(guān).在進(jìn)行差異顯著性分析后發(fā)現(xiàn),高表達(dá)基因CGT、CGC、TTG、CCT、GGT、CAC、TAC中的RSCU顯著高于低表達(dá)基因,其中,CGT、CCT、GGT在0.01水平上存在極顯著差異,且RSCU均大于1.0,可作為最優(yōu)密碼子.值得注意的是,這些密碼子均以A或T結(jié)尾,與基因組整體密碼子偏好性一致.此外,低表達(dá)基因中AGA、AGG、GGA、ATA、TAT的RSCU顯著高于高表達(dá)基因,可能是造成這些基因低表達(dá)的原因之一.
表5 橄欖葉綠體基因組高、低表達(dá)基因的RSCU比較1)Table 5 Comparison of RSCU in C.album chloroplast genome with high and low levels of expressions
基于RSCU對(duì)橄欖葉綠體基因進(jìn)行歸類.結(jié)果(圖5)顯示,54個(gè)基因整體上可以分為3個(gè)大類,分別包含26、13和15個(gè)基因.然而基于密碼子偏好性的聚類并非按基因功能或類別進(jìn)行劃分,不同家族成員之間的聚類結(jié)果相互交叉,說明基因個(gè)體間的密碼子偏好性存在特殊的進(jìn)化方式,與基因本身功能或所屬類別無明顯相關(guān).
同一基因在不同密碼子中的RSCU值轉(zhuǎn)換為Z-score值后以熱圖展示,顏色越紅,基因RSCU值越高;顏色越綠,基因RSCU值越低.圖5 橄欖葉綠體基因密碼子偏好性聚類結(jié)果Fig.5 Cluster analysis on preferred codons of C.album chloroplast genome
密碼子使用偏好性會(huì)影響生物體mRNA穩(wěn)定性、mRNA轉(zhuǎn)錄、蛋白質(zhì)翻譯準(zhǔn)確性以及蛋白折疊等,從而精細(xì)調(diào)控基因表達(dá)[15],其中,ENc、GC和GC3s是密碼子偏好性研究中最常用的指標(biāo).葉綠體基因組作為植物中相對(duì)獨(dú)立的遺傳系統(tǒng),往往具有高度保守性,開展葉綠體基因組密碼子偏好性研究對(duì)于揭示植物的分子特征具有重要意義.本研究中,橄欖葉綠體基因組的ENc為50.36,遠(yuǎn)遠(yuǎn)大于35.0,說明其密碼子偏好性較弱;而從密碼子組成上看,GC和GC3s分別為0.385和0.305,說明基因組偏好使用A和T,并以A或T結(jié)尾的密碼子,符合雙子葉植物密碼子偏好性規(guī)律[16].在劍麻(Agavehybrid)[17]、秋茄(Kandeliaobovata)[18]、灰毛漿果楝(Cipadessacinerascens)[19]和翠雀(Delphiniumgrandiflorum)[20]等其他雙子葉植物的研究中也發(fā)現(xiàn),其葉綠體基因組密碼子偏好以A或T結(jié)尾,與本研究結(jié)果一致.
RSCU指在編碼同一氨基酸時(shí),某一特定密碼子在所有同義密碼子中出現(xiàn)的相對(duì)概率,能夠直觀反映密碼子偏好性.基于對(duì)RSCU的分析發(fā)現(xiàn),橄欖葉綠體基因組不存在偏好性極強(qiáng)的密碼子,這可能也是導(dǎo)致整體密碼子偏好性較弱的直接因素.在橄欖葉綠體基因組編碼氨基酸的過程中,對(duì)所有類型的密碼子均有使用,與橄欖單基因密碼子編碼特征不同[10].在最優(yōu)密碼子選擇時(shí),橄欖葉綠體基因組偏好使用以A或T結(jié)尾的密碼子,與基因組整體堿基選擇偏好一致,而與核基因最優(yōu)密碼子的偏好規(guī)律存在一定的差異[9].研究表明,與核基因組相比,葉綠體基因組較小,結(jié)果相對(duì)穩(wěn)定,序列高度保守,遺傳重組率低[21],可能是造成橄欖葉綠體基因組和核基因組密碼子偏好性差異的重要原因.從橄欖葉綠體基因個(gè)體上看,這種進(jìn)化方式與基因本身功能或歸屬類別無明顯相關(guān)性,在枯草芽孢桿菌(Bacillussubtilis)中也曾發(fā)現(xiàn)不同基因間的密碼子偏好性不完全一致[22].表明橄欖葉綠體基因組與核基因組密碼子偏好性規(guī)律存在相似性和差異性,而基因個(gè)體之間的密碼子偏好性進(jìn)化方式也相對(duì)獨(dú)立.進(jìn)一步分析發(fā)現(xiàn),橄欖葉綠體基因組中4個(gè)NCG型密碼子的RSCU均遠(yuǎn)小于1.0.有研究認(rèn)為,密碼子CG中的C在甲基化過程中容易脫去氨基變成T,G也容易發(fā)生變異,物種中高NCG容易發(fā)生DNA甲基化導(dǎo)致突變[23].因此,橄欖葉綠體基因組中的NCG型密碼子偏好性維持在較低水平,可能與該物種本身甲基化程度有關(guān).
密碼子偏好性是研究植物基因組進(jìn)化規(guī)律的一項(xiàng)重要的參考依據(jù).目前廣泛認(rèn)為,突變壓力和自然選擇是導(dǎo)致物種密碼子偏好性差異形成的最重要的作用力,然而不同物種中密碼子偏好性形成的主導(dǎo)影響因素不一樣.已有的葉綠體基因組密碼子偏好性的相關(guān)研究認(rèn)為:刺榆(Hemipteleadavidii)和大戟科(Euphorbiaceae)植物主要受自然選擇壓力的影響[24-25];涼粉草(Mesonachinensis)同時(shí)受自然選擇和突變壓力的共同作用[26];紫菜(Porphyraumbilicalis)和沙棗(Elaeagnusangustifolia)除了受自然選擇、突變壓力的作用,可能還受堿基組成等其他因素的影響[27-28].本研究結(jié)果表明,橄欖葉綠體基因組密碼子偏好性不是單一因素影響的結(jié)果,可能受突變壓力、自然選擇和其他因素的共同作用.綜合前人[15,29-30]及本試驗(yàn)的研究結(jié)果認(rèn)為,在突變壓力、自然選擇和其他作用力的共同影響下,橄欖葉綠體基因組密碼子的部分堿基逐步由GC向AT方向突變,從而形成特定的偏好性特征.隨著生物技術(shù)的不斷發(fā)展,越來越多的果樹基因組被組裝完成,在基因組測序的基礎(chǔ)上,系統(tǒng)結(jié)合細(xì)胞核基因組和細(xì)胞器基因組深入研究密碼子使用規(guī)律,進(jìn)而揭示橄欖的起源和進(jìn)化也是后續(xù)研究的重要方向.