陳玲慧,王 慧,劉 巖,錢關澤
(1.聊城大學 生命科學學院,山東 聊城 252059;2.聊城大學 學報編輯部,山東 聊城 252059)
葉綠體是植物進行光合作用的細胞器,為植物生活提供能量,葉綠體基因組(cpDNA)通常大小為110~170 kb[1]。葉綠體基因組在進行物種鑒定與親緣關系分析時通常有以下優(yōu)勢:其基因組較小、序列簡單,較易通過測序組裝后獲得;同時其基因序列高度保守、且屬于母系遺傳,使得葉綠體基因組適用于親緣關系與系統(tǒng)發(fā)育分析[2]。目前NCBI數(shù)據(jù)庫中的葉綠體基因組數(shù)據(jù)不斷被補充,包括但不限于蘋果屬(Malus)[3]、蕨麻屬(Argentina)[4]、淫羊藿屬(Epimedium)[5]等屬內植物,這也從側面表明葉綠體基因組的廣泛應用。
蛋白質由氨基酸組成,20種氨基酸又由61個密碼子和3個終止密碼子所編碼[6],編碼同一種氨基酸的密碼子為同義密碼子。在蛋白質翻譯的過程中,盡管幾種不同密碼子可以編碼同種氨基酸,但是會出現(xiàn)某一氨基酸頻繁被同一密碼子編碼的現(xiàn)象,即密碼子偏好性[7],而不同密碼子會對基因的功能及表達產生影響[8]。不同物種葉綠體基因組密碼子偏好性具有差異,一般基因表達越強,其密碼子偏好性也越強,反之其偏好性則低[9]。此前研究表明,密碼子偏好性主要通過自然選擇與突變來進行平衡[10],因此對密碼子偏好性的研究在基因組水平,如分子進化等方面具有重要意義?,F(xiàn)已在云南油杉(keteleeria evelyniana)[11]、澳洲堅果光殼種(Macadamia integrifolia)[12]、菠蘿(Ananas comosus)[13]、睡蓮屬(Nymphaea)[14]等多種植物中展開密碼子偏好性分析。
錫金海棠(Malus sikkimensis)是蘋果屬(Malus)植物,屬于薔薇科(Rosaceae)蘋果亞科(Subfam.Maloideae Weber),主要分布于我國云南、四川西部及西藏地區(qū)。錫金海棠在《中國珍稀瀕危植物名錄》中被列為國家二級保護物種,同時還被IUCN(國家自然保護聯(lián)盟)分別評為易危物種,以及被《中國物種紅色名錄》收錄[15]。梁國魯[16]對錫金海棠進行帶型分析后發(fā)現(xiàn)其以著絲粒帶(C)為主,華利源[17]在染色體層面進行核型分析后發(fā)現(xiàn)錫金海棠染色體數(shù)目為68條,為四倍體。到目前錫金海棠葉綠體基因組結構及密碼子偏好性的研究還未見報道,因此,本文對錫金海棠的葉綠體基因組結構及密碼子偏好性進行分析,篩選出最優(yōu)密碼子,為今后對錫金海棠葉綠體基因組、系統(tǒng)發(fā)育研究及開發(fā)應用提供科學依據(jù)和理論參考。
從NCBI數(shù)據(jù)庫中下載錫金海棠(M.sikkimensis)原始測序數(shù)據(jù),SRR登錄號為SRR15691192。通過NOVOPlasty 4.3.1[18]組裝,PGA注釋后獲得其葉綠體全基因組。
將所獲數(shù)據(jù)導入geneious 2021.2.2[19],根據(jù)注釋結果,統(tǒng)計錫金海棠(M.sikkimensis)的蛋白編碼基因(CDS)數(shù)目、tRNA數(shù)目、r RNA數(shù)目以及GC含量。利用Chloroplot軟件繪制其葉綠體基因組物理圖譜。
使用geneious 2021.2.2篩選出53條長度大于300 bp的CDS序列。通過在線軟件CUSP(http:∥emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)統(tǒng)計各基因密碼子的第1位(GC1)、第二位(GC2)及第三位(GC3)的GC含量。使用codonW(http:∥codonw.sourceforge.Net)獲得GC含量、相對同義密碼子使用度(Relative Synonymous Codon Usage,RSCU)以及有效密碼子數(shù)(Effective Number of Codon,ENC)。當RSCU值大于1時,表明密碼子使用頻率較其他密碼子高,為高頻密碼子,并且偏好性強,反之偏好性則弱;當RSCU值等于1時,該密碼子無偏好性[20]。最終結果使用Excel和SPSS進行統(tǒng)計分析。
以GC3為橫坐標、GC12為縱坐標進行中性繪圖分析,散點圖中的每一個點均代表一個基因,當其沿對角線分布時則代表堿基未有顯著差異,此時的偏好性是由基因突變所導致,反之則是由選擇壓力所導致[11]。以GC3為橫坐標、ENC值為縱坐標做ENC-plot繪圖分析,并以公式ENC=2+GC3+29/[GC32+(1-GC3)2]繪制ENC期望值標準曲線。該標準曲線代表在沒有自然選擇時的ENC值[12]。以G3/(G3+C3)為橫坐標、A3/(A3+T3)為縱坐標進行PR2-plot分析,其平面中心代表密碼子無偏倚情況出現(xiàn),即A=T,C=G[13]。
為確定錫金海棠(M.sikkimensis)的最優(yōu)密碼子,根據(jù)53條CDS序列的ENC值,提取最低10%與最高值10%的基因,分別建立高、低表達基因庫,計算出二者的ΔRSCU值,當ΔRSCU≥0.08時的密碼子被定義為高表達優(yōu)越密碼子,若該密碼子同時為高頻密碼子,則將其定義為最優(yōu)密碼子[21]。
通過對錫金海棠組裝后分析,其cpDNA呈典型的環(huán)狀四分體結構,包括兩個反向重復區(qū)(IRA和IRB,26 358 bp),一個大單拷貝區(qū)(LSC,88 188 bp)和一個小單拷貝區(qū)(SSC,19 184 bp),全長為160 088 bp,總的GC含量為36.6%(圖1)。注釋結果顯示,錫金海棠葉綠體基因組含有132個基因,包括87個蛋白編碼基因,37個tRNA基因以及8個rRNA基因,其中有重復基因18個(7個為蛋白編碼基因,7個為tRNA基因,4個為r RNA基因)。
圖1 錫金海棠葉綠體基因組物理圖譜
2.2.1 密碼子組成分析。通過CodonW分析錫金海棠53條CDS序列的GC含量及ENC值(表1)發(fā)現(xiàn),其葉綠體基因組各基因GC含量平均為38.25%,其中第一位堿基GC平均含量為46.98%、第二位GC平均含量為39.46%、第三位GC平均含量為28.30%。GC3平均含量最低,這表明第三位堿基更傾向于以A/U結尾。
表1 錫金海棠葉綠體基因組53個CDS密碼子的GC含量及ENC值
ENC值可以用于衡量同義密碼子的偏好程度,取值范圍通常在20~61之間,以ENC值為45作為分界點,大于45說明密碼子偏好性低,反之則說明其偏好性較高。錫金海棠ENC值取值范圍為34.30~56.39,平均值為47.51,且53條CDS序列中存在41條ENC值大于45,表明錫金海棠的密碼子偏好性偏弱。
對密碼子GC含量、ENC值進行相關性分析后發(fā)現(xiàn)(表2),GC1、GC2、GC3均與GC呈極顯著相關,GC1與GC2也呈極顯著相關,但GC1、GC2均為表現(xiàn)出與GC3的顯著相關性。這表明密碼子第3位堿基組成有差異,錫金海棠密碼子偏好性受自然選擇影響較大。而ENC值與GC2、GC3呈極顯著相關關系,表明密碼子第2、3位對偏好性有一定影響。
表2 錫金海棠密碼子的GC含量及各參數(shù)相關性分析
進一步對錫金海棠53條CDS序列的密碼子(除甲硫氨酸與色氨酸)進行RSCU分析后顯示(表3),有29個密碼子的RSCU值大于1.00,其中15個以U結尾,13個以A結尾,1個以G結尾,這表明更多密碼子偏好以A和U結尾。
表3 錫金海棠葉綠體基因組氨基酸相對同義密碼子使用度
2.2.2 中性繪圖分析。中性繪圖分析(圖2)表明,錫金海棠密碼子GC12的值介于0.317 6~0.539 6之間,GC3的值介于0.222 1~0.365 8之間。其相關系數(shù)為0.146 8,未呈現(xiàn)顯著相關性,回歸系數(shù)為0.021 5,表明GC12與GC3未有明顯相關性,密碼子第1、2位堿基與第3位堿基存在一定差異,說明自然選擇對錫金海棠葉綠體基因密碼子偏好有較大影響。
圖2 錫金海棠葉綠體基因組中性繪圖分析
2.2.3 ENC-plot繪圖分析。ENC-plot繪圖分析(圖3)顯示,部分基因的實際ENC值與預期ENC值趨于一致,但也有部分基因的實際ENC值偏離標準曲線,位于標準曲線下方。為比較實際ENC值與預期ENC值之間的差異,計算ENC比值并得到以下結果(表4)。ENC值在-0.05~0.05區(qū)間內的基因有23個,在-0.05~0.05區(qū)間外的基因有30個,這表明大部分基因與預期ENC值存在一定差異,表明錫金海棠葉綠體基因密碼子偏好更受自然選擇影響。
圖3 錫金海棠葉綠體基因的ENC-plot分析
表4 ENC比值頻數(shù)分布
2.2.4 PR2-plot分析。通過PR2-plot分析編碼基因中密碼子A、G和T、C的使用頻率關系。結果如圖4所示,錫金海棠葉綠體基因多數(shù)分布于右下象限,這表明密碼子堿基的使用頻率有差異且T>A、G>C,這也說明錫金海棠密碼子偏好性不僅受自然選擇影響,同時也可能受其他因素影響。
圖4 錫金海棠葉綠體基因的PR2-plot分析
2.2.5 最優(yōu)密碼子的確定。通過分析錫金海棠葉綠體基因組氨基酸相對同義密碼子使用度,有29個密碼子RSCU值大于1,被確定為高頻密碼子。結合表5,篩選出22個ΔRSCU≥0.08的密碼子,被定為高表達密碼子,其中以A結尾的密碼子有5個,以U結尾的密碼子有8個,以C結尾的密碼子有6個,以G結尾的密碼子有3個。當密碼子滿足RSCU>1且ΔRSCU≥0.08條件時,我們將其確定為最優(yōu)密碼子。通過結合表3與表5分析,共確定14個最優(yōu)密碼子,分別為UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU,其中有8個以U結尾,有5個以A結尾,1個以G結尾。
表5 錫金海棠葉綠體基因組最優(yōu)密碼子的確定
cpDNA較小、結構保守,易于測序和組裝,同時葉綠體屬于單親遺傳,其基因組包含豐富的核苷酸信息,因此通常被認為是研究植物進化關系、系統(tǒng)發(fā)育的理想模型。密碼子在基因組與蛋白質的聯(lián)系中有重要作用,在物種進化過程中,其通常會形成特有的使用模式,因此不同物種的密碼子在使用偏性方面存在一定差異。密碼子的第3位具有兼并性特點,通常第3位堿基所受到的選擇壓力較前兩位堿基要小,因此,分析密碼子的第3位堿基對研究密碼子偏好性具有重要意義。
本研究通過對錫金海棠的cpDNA結構和密碼子使用模式進行分析,發(fā)現(xiàn)錫金海棠葉綠體基因組呈環(huán)狀四分體結構,包括兩個反向重復區(qū)(IRA和IRB)、一個大單拷貝區(qū)(LSC)和一個小單拷貝區(qū)(SSC),葉綠體基因組大小為160 088 bp,GC含量為36.6%。錫金海棠共含有132個基因,包括87個蛋白編碼基因,37個tRNA基因和8個r RNA基因。
在密碼子偏好性方面,發(fā)現(xiàn)錫金海棠葉綠體基因組密碼子第3位堿基的GC3含量為28.30%,遠低于GC1和GC2,即GC1(46.98%)>GC2(39.46%)>GC3(28.30%),這與西藏凹乳芹(Vicatia thibeticade Boiss)[22]、滇楸(Catalpa fargesiiBur.f.duclouxii)[23]植物一致,說明不同物種密碼子的使用特征具有相似性。中性繪圖分析顯示,GC12與GC3未有明顯相關性,說明自然選擇對其偏性影響更大,這與大山櫻(Prunus sargentii)[24]所得結果一致。在PR2-plot分析中發(fā)現(xiàn)堿基使用頻率T>A、G>C,這表明基因在受到選擇影響的同時還受到其他因素作用,這與杧果(Mangifera indica)[25]葉綠體基因組堿基使用頻率一致。在ENC-plot分析結果中顯示,有30個基因的ENC頻數(shù)比值在-0.05~0.05區(qū)間之外,說明錫金海棠的密碼子偏好性的產生更受由自然選擇影響。結合錫金海棠葉綠體基因組最優(yōu)密碼子分析,最終確定UAU、UUG、CUU、CAA、AUU、GUU、GAA、UCU、CGU、CGA、AGA、GGU、ACA、GCU共14個密碼子為錫金海棠葉綠體基因組的最優(yōu)密碼子。
本研究發(fā)現(xiàn)其葉綠體基因組結構與大多數(shù)被子植物的結構一致,在對密碼子偏好性進行分析后發(fā)現(xiàn),錫金海棠密碼子偏好性的產生主要受自然選擇影響,同時也篩選出錫金海棠葉綠體最優(yōu)密碼子。葉綠體基因組數(shù)據(jù)對今后研究錫金海棠親緣關系、系統(tǒng)發(fā)育、物種鑒定提供了數(shù)據(jù)支持,此后可通過結合屬內其它物種葉綠體基因組數(shù)據(jù)構建系統(tǒng)發(fā)育樹,分析錫金海棠在屬內種間的親緣關系與系統(tǒng)發(fā)育關系。最優(yōu)密碼子的確定也為優(yōu)化目標基因、種源鑒定以及異源表達基因改造提供了理論依據(jù)。