丁 銳,胡 兵,宗小雁,韓辰陽,張麗杰,陳旭輝*
(1.沈陽農(nóng)業(yè)大學(xué)土地與環(huán)境學(xué)院,遼寧 沈陽 110866;2.沈陽農(nóng)業(yè)大學(xué)生物科學(xué)技術(shù)學(xué)院,遼寧 沈陽 110866;3.沈陽農(nóng)業(yè)大學(xué)林學(xué)院,遼寧 沈陽 110866)
密碼子是自然界中承載生命信息的基本遺傳單位,是蛋白質(zhì)與核酸的橋梁和紐帶,在生物體傳遞遺傳信息的過程中起到重要作用。密碼子具備簡并性,編碼同種氨基酸的不同密碼子稱為同義密碼子;同時,同義密碼子在不同物種間的使用頻率具有不均一性,這種現(xiàn)象被稱為密碼子使用偏好性[1]。密碼子偏好性是生命體進(jìn)化的重要特征,在自然界普遍存在并受到自然選擇和基因突變等多種因素共同影響,自然選擇使得不同物種的基因在選擇同義密碼子時傾向于使用最優(yōu)密碼子,而基因突變則會使部分非最優(yōu)密碼子存在[2-3]。由于不同物種在進(jìn)化過程中受到的選擇作用和突變壓力的影響程度不同,因此,會形成自身獨(dú)特的密碼子使用偏好性[4-5]。研究表明,同一物種或親緣關(guān)系較近的物種中基因一般具有相似的密碼子使用模式[6-8],因此,對密碼子使用偏好性進(jìn)行研究有助于更好地了解物種的進(jìn)化。
葉綠體是植物進(jìn)行光合作用的場所,同時也是一種半自主性的細(xì)胞器,擁有相對獨(dú)立的一整套基因組,同時擁有復(fù)制、轉(zhuǎn)錄及翻譯的機(jī)制。被子植物的葉綠體基因組一般由4 部分組成環(huán)狀雙鏈結(jié)構(gòu),包括1 個短單拷貝區(qū)(SSC)、1 個長單拷貝區(qū)(LSC)及2 個相同的反向重復(fù)區(qū)(IR),且SSC 和LSC 之間被2 個IR 隔開[9]。與體細(xì)胞基因組相比,葉綠體基因組體量小,基因拷貝數(shù)多,進(jìn)化速率快且保守度高,這些特點(diǎn)使其在研究物種間遺傳差異和系統(tǒng)進(jìn)化關(guān)系的過程中充當(dāng)了理想的工具[10]。自從1986 年首次公開了煙草[11]和地錢[12]的葉綠體基因組序列以來,越來越多的葉綠體基因組信息被NCBI 數(shù)據(jù)庫收錄。
杓蘭屬(Cypripedium)隸屬于蘭科杓蘭亞科,是蘭科植物中較為原始的類型,全世界約50 種,我國有36 種和1 變種[13]。杓蘭屬植物花姿優(yōu)美、花色豐富,具有較高的觀賞價值。然而,隨著蘭花熱的興起以及生境破碎化的不斷加劇,濫采亂挖杓蘭屬植物的行為日益猖獗,不少種類已近瀕危[14]。杓蘭(Cypripedium calceolusL.)是杓蘭屬多年生地生植物,主要分布于我國東北、日本、韓國和歐洲地區(qū)。目前,該物種已被列入世界自然保護(hù)聯(lián)盟(IUCN)瀕危物種紅色名錄。杓蘭的葉綠體基因組序列已被提交至GenBank 數(shù)據(jù)庫[15],但目前尚未有關(guān)于杓蘭葉綠體基因組密碼子使用偏好性的研究。本研究通過生物信息學(xué)方法分析杓蘭葉綠體基因組密碼子的使用偏好性,旨在為杓蘭的葉綠體基因組學(xué)研究提供參考。
從NCBI 數(shù)據(jù)庫中下載完整的杓蘭葉綠體基因組序列(GenBank 登錄號:MN602053.1),序列長度為175 122 bp,包含78 條蛋白編碼基因。為了避免出現(xiàn)樣本誤差,移除其中的重復(fù)基因序列以及長度小于300 bp 的編碼序列,最終獲得53 條符合分析條件的蛋白編碼序列用于后續(xù)分析。
利用EMBOSS 程序(http://www.bioinformatics.nl/emboss-explorer)對各基因的GC 含量進(jìn)行在線分析,分析結(jié)果記為GC;同時對各基因的密碼子第1、2、3 位核苷酸上的GC 含量進(jìn)行在線分析,分析結(jié)果分別記為GC1、GC2、GC3。利用軟件CodonW 對各個基因的密碼子在第3 核苷酸上的A、G、C、T 含量進(jìn)行計算,計算結(jié)果分別記為A3、G3、C3、T3;同時利用該軟件對各基因的氨基酸長度(Laa)、有效密碼子數(shù)(ENC)、同義密碼子相對使用度(RSCU)及最優(yōu)密碼子使用頻率(FOP)進(jìn)行計算。
ENC 及RSCU 是密碼子使用偏好性的重要度量指標(biāo)[16]。RSCU 意為編碼某種特定氨基酸時,某一密碼子的實(shí)際使用頻率與不存在偏好性的狀態(tài)下其預(yù)期使用頻率間的比值[17]。RSCU=1 表明該密碼子的使用不存在偏好性;RSCU>1 表明該密碼子使用頻率偏高;RSCU<1 表明該密碼子使用頻率偏低。ENC 意為某個基因使用密碼子的偏好程度,ENC 值的范圍為20~61。若某基因的ENC 值為20,則表明該基因中各種氨基酸只使用特定密碼子,同一氨基酸密碼子使用無隨機(jī)性,偏好性高;若某基因的ENC 值為61,則表明該基因中各種氨基酸編碼時均衡使用其對應(yīng)的同義密碼子,密碼子使用隨機(jī)性高,偏好性低[18-19]。利用SPSS 軟件分析ENC 與各指標(biāo)之間的相關(guān)性。
取各基因GC1及GC2的平均值,記為GC12,以各基因的GC12為縱坐標(biāo)、GC3為橫坐標(biāo)繪制散點(diǎn)圖,并對二者的相關(guān)性進(jìn)行分析。若GC3與GC12顯著相關(guān),則表明密碼子3 個位點(diǎn)的堿基具有相同的變異模式,突變是密碼子使用偏好性的主要影響因素;若GC3與GC12相關(guān)性不顯著,則表明密碼子3 個位點(diǎn)堿基的變異模式差異較大,密碼子使用偏好性主要受自然選擇影響[20]。
取各基因的ENC 為縱坐標(biāo)、GC3為橫坐標(biāo)繪制散點(diǎn)圖。同時,根據(jù)公式ENC=2+GC3+29/[GC32+(1?GC3)2]計算各基因的理論ENC 值,并以GC3為橫坐標(biāo)、理論ENC 值為縱坐標(biāo)繪制標(biāo)準(zhǔn)曲線[21]。標(biāo)準(zhǔn)曲線可以顯示出ENC 及GC3在無選擇壓力狀態(tài)下的關(guān)聯(lián)情況,若基因位點(diǎn)在圖中分布貼近標(biāo)準(zhǔn)曲線,則突變是密碼子使用偏好性的主要影響因素;若基因位點(diǎn)在圖中分布遠(yuǎn)離標(biāo)準(zhǔn)曲線,則密碼子偏好性主要受自然選擇因素影響。
以各基因的G3/(G3+C3)為橫坐標(biāo)、A3/(A3+T3)為縱坐標(biāo)繪制散點(diǎn)圖,對密碼子第3 位核苷酸上的堿基組成情況進(jìn)行分析,從而探討突變和自然選擇對密碼子使用偏好性的影響。圖中中心點(diǎn)A=T,G=C,表示某一基因2 條互補(bǔ)鏈間不存在任何突變或選擇效應(yīng)上的偏倚,從中心點(diǎn)向其它位點(diǎn)分布的矢量則顯示該基因的偏倚程度及方向[22]。
將53 條基因按ENC 值由高至低排序,從兩端各選出10%的基因數(shù)作為高、低表達(dá)庫。根據(jù)各基因的RSCU 值篩選出各庫內(nèi)對應(yīng)密碼子ΔRSCU>0.08 的密碼子作為高表達(dá)密碼子,并將ΔRSCU>0.08 且RSCU>1 的密碼子作為最優(yōu)密碼子[23]。
基于各基因的RSCU 值,通過軟件CodonW 進(jìn)行分析,根據(jù)分析結(jié)果將所有基因在一個47 維的向量空間進(jìn)行分布,不同基因在向量空間中的相對分布位置可以表征影響密碼子使用偏好性的因素。基因在第1、2 向量軸(主向量軸)間的分散程度顯示出密碼子的主要變化趨勢,是推斷其密碼子使用變異的依據(jù)[24]。以第1 軸為橫坐標(biāo)、第2 軸為縱坐標(biāo)繪制散點(diǎn)圖,根據(jù)圖中點(diǎn)的分布情況判斷基因密碼子的使用模式。
杓蘭的葉綠體基因組去除長度小于300 bp 的蛋白編碼序列及重復(fù)序列后,共剩余53 條蛋白編碼基因,全長60618 bp,占基因組全長的35%,基因編碼的氨基酸序列長度范圍為100~2310,平均長度377。對這些基因的密碼子組成和偏好性進(jìn)行統(tǒng)計分析發(fā)現(xiàn),平均GC 含量為38%,其中,GC1(47%)大于GC2(39%)大于GC3(29%),表明GC 在密碼子3 個位置上的分布并不均勻,且偏向于以A 和T 堿基結(jié)尾。各基因的ENC 值介于37.92~61.00 之間,平均值為48.05,ENC 值大于45的基因有38 條,表明杓蘭葉綠體基因組密碼子的使用偏好性較弱(表1)。
表1 杓蘭葉綠體基因組的主要參數(shù)Table 1 Main parameters in chloroplast genomics of Cypripedium calceolus
基因密碼子各參數(shù)之間的相關(guān)性分析(表2)結(jié)果顯示:GC1與GC2呈極顯著相關(guān),但GC1與GC3及GC2與GC3均不顯著相關(guān),表明密碼子第1、2 位堿基組成情況相近,而第3 位上的堿基組成隨機(jī)性較大,與1、2 位堿基組成具有差異。ENC 與GC 不顯著相關(guān),但與GC2呈顯著負(fù)相關(guān),與GC3呈極顯著正相關(guān),表明密碼子第2、3 位上堿基組成的變化對密碼子的使用偏好性影響較大,GC2含量越高,密碼子的使用偏好性越強(qiáng);GC3含量越低,密碼子的使用偏好性越強(qiáng)。ENC 與Laa 相關(guān)不顯著,表明基因序列長度并未對密碼子使用偏好性造成較大影響。
表2 基因密碼子各參數(shù)之間的相關(guān)性分析Table 2 Correlation analysis between the indexes of codon use
RSCU 分析(表3)表明:RSCU>1.00 的密碼子共有34 個,其中,以A 和U 結(jié)尾的有29個,占85%,表明杓蘭葉綠體基因組偏向于使用以A 或U 結(jié)尾的同義密碼子。RSCU<1.00 的密碼子則多以C 或G 結(jié)尾。
表3 杓蘭葉綠體基因組各氨基酸的相對同義密碼子使用度Table 3 Relative synonymous codon usage (RSCU) analysis of genes on chloroplast genome in Cypripedium calceolus
中性繪圖分析(圖1)表明:GC12的取值范圍為0.338~0.536,GC3的取值范圍為0.190~0.372。所有基因都分布于中線對角線上方,GC12與GC3的相關(guān)系數(shù)為0.147,相關(guān)性不顯著,表明杓蘭葉綠體密碼子3 個位點(diǎn)的堿基組成具有較大差異,杓蘭葉綠體密碼子使用偏好性主要受自然選擇因素影響。
圖1 中性繪圖分析Fig.1 Analysis of neutrality plot
ENC-plot 分析(圖2)發(fā)現(xiàn):大部分基因位點(diǎn)都落在偏離標(biāo)準(zhǔn)曲線的位置,即ENC 實(shí)際值與ENC 預(yù)期值之間差異較大,表明杓蘭葉綠體基因組密碼子使用偏好性主要是外界自然選擇壓力等因素作用的結(jié)果。
圖2 ENC-plot 分析Fig.2 Analysis of ENC-plot
PR2-plot 分析結(jié)果(圖3)表明:基因位點(diǎn)在平面圖的4 個區(qū)域中分布較均勻,其中,右下方區(qū)域集中了相對較多的基因位點(diǎn),表明密碼子第3 位堿基使用T 頻率高于A,使用G 的頻率高于C,存在偏好性。因此,可推斷杓蘭葉綠體基因組密碼子的使用模式雖然在一定程度上受到自身突變影響,但該影響作用效果有限,并非密碼子偏好性產(chǎn)生的主要因素。
以ΔRSCU>0.08 為標(biāo)準(zhǔn)共確定25 個密碼子為杓蘭葉綠體基因組的高表達(dá)密碼子,其中,以A 結(jié)尾的有9 個,U 結(jié)尾的有8 個,C 結(jié)尾的有5 個,G 結(jié)尾的有3 個(表4)。結(jié)合杓蘭葉綠體基因的相對同義密碼子使用度(表3),最終分析得出16 個最優(yōu)密碼子,分別為GUA、GCA、UCU、UCC、ACU、CCU、CCA、GCU、UAU、UAA、CAU、AAU、CGA、AGU、AGA、GGA,其中,7 個以A 結(jié)尾,8 個以U 結(jié)尾,1 個以C 結(jié)尾(表4)。
基于RSCU 的對應(yīng)性分析結(jié)果顯示:第1、2、3、4 向量軸分別顯示了10.10%、9.00%、8.42%和6.89%的差異,四軸累積差異貢獻(xiàn)率為34.42%,第1 向量軸是影響密碼子使用偏好性的主效因素。從各基因位點(diǎn)在以第1、2 向量軸為坐標(biāo)系的平面圖(圖4)分布看,編碼光合系統(tǒng)蛋白的基因點(diǎn)分布較集中,說明該類基因的密碼子具有相似的使用模式;而編碼其它蛋白的基因點(diǎn)分布較分散,表明這些基因密碼子的使用模式相差較大。
大部分生物體在合成蛋白質(zhì)時都會偏好性地選擇使用同義密碼子,這一現(xiàn)象受多種因素共同影響,其中,密碼子的堿基組成是最普遍的因素[25-26]。由于密碼子第3 位的堿基改變通常不會引起編碼氨基酸的改變,因此,第3 位的堿基受到的選擇壓力相對較小,可以作為分析密碼子使用偏好性的重要參數(shù)[21]。與大部分研究結(jié)果相似,杓蘭葉綠體基因組各基因密碼子的第3 位堿基A 和T 的使用頻率高于G 和C,存在使用偏好性;同時,T 的使用頻率高于A,G 的使用頻率高于C,這與蒺藜苜蓿[21]和馬尾松[27]等植物葉綠體基因的第3 位密碼子偏好性一致,但不同于陸地棉[23]、酸棗[24]及樟樹[28]等植物葉綠體基因的分析結(jié)果。這表明葉綠體基因組的堿基組成在不同物種中具有各自的特點(diǎn),密碼子使用偏好性存在一定的差異。
突變和自然選擇也是影響密碼子使用偏好性的主要因素[3]。本研究結(jié)合中性繪圖分析、ENCplot 分析和PR2-plot 分析發(fā)現(xiàn),杓蘭葉綠體基因組密碼子偏好性主要受到自然選擇的影響,突變對密碼子的偏好性影響弱于自然選擇作用的影響。針對蘭科植物的葉綠體基因組密碼子偏好性進(jìn)行分析的研究報道相對較少,研究發(fā)現(xiàn),蝴蝶蘭葉綠體密碼子產(chǎn)生偏好性的主要原因是堿基差異和自然選擇,且堿基組成大于基因表達(dá)水平的影響[29]。文心蘭葉綠體密碼子的使用模式形成過程較復(fù)雜,是堿基組成、突變及自然選擇等多重因素共同作用的結(jié)果[30]。由此可見,不同蘭科物種具有不同的葉綠體密碼子使用模式,其影響因素并不是單一的。
在突變壓力及強(qiáng)正向選擇的共同作用下,往往容易形成大量的最優(yōu)密碼子,而突變壓力及純化選擇的共同作用,一般會抑制最優(yōu)密碼子的形成[4]。本研究結(jié)合杓蘭葉綠體高表達(dá)密碼子分析結(jié)果及高頻密碼子分析結(jié)果,共篩選出16 個最優(yōu)密碼子,且大部分密碼子以U 或A 結(jié)尾。目前,已見報道的絕大多數(shù)高等植物和藻類植物葉綠體基因的最優(yōu)密碼子都以U 或A 結(jié)尾,這一現(xiàn)象與葉綠體基因組進(jìn)化的相對保守性可能具有相關(guān)性[24]。與此同時,最優(yōu)密碼子及其數(shù)量在不同物種間又有所不同,表明不同物種在進(jìn)化過程中面臨的進(jìn)化壓力并不相同。
有研究表明,密碼子使用偏好性聚類在較小的分類單元中可能提供較為可靠的分類依據(jù),而當(dāng)樣本量較大時,由于不同基因特殊的密碼子偏好性導(dǎo)致這種聚類結(jié)果往往不能準(zhǔn)確地反映物種親緣關(guān)系[7-8]。本研究基于RSCU 的蘭科聚類呈現(xiàn)雜亂的混合分布(聚類圖未列出),不能完全正確地反映蘭科植物之間的親緣關(guān)系,因此,基因序列比密碼子偏好性更適合于蘭科物種分類及系統(tǒng)進(jìn)化研究。
本研究采用生物信息學(xué)方法,分析了杓蘭葉綠體基因組密碼子使用偏好性特點(diǎn),明確了自然選擇是影響杓蘭葉綠體基因組密碼子使用偏好性的主要因素。篩選出杓蘭葉綠體基因的最優(yōu)密碼子,有利于在分子水平上研究蘭科植物的進(jìn)化機(jī)制。后續(xù)的工作中可以考慮進(jìn)行同一基因在不同杓蘭屬植物之間的偏好性對比分析。