柳燕杰 田旭平 李倩
摘要:為了提高基因的表達效率,利用葉綠體基因工程提高美國紅梣的重要特性,利用Codon W 1.4.2和在線軟件CUSP分析了美國紅梣葉綠體基因組中的52條基因編碼序列密碼子偏好性。結(jié)果表明,美國紅梣葉綠體基因組密碼子的GC含量依次為GC1(45.23%)>GC2(39.23%)>GC3(26.19%);有效密碼子數(shù)(ENC)范圍為37.55~55.28,其中ENC值>45的有34個;RSCU>1的密碼子有29個,其中14個以U結(jié)尾、12個以A結(jié)尾,表明其偏好以A、U結(jié)尾,且偏倚很弱。中性點圖分析表明,GC12與GC3的相關系數(shù)為0.321 7,回歸系數(shù)為-0.538 5,相關性不顯著;美國紅梣葉綠體基因組的GC含量是高度保守的,密碼子偏好主要受環(huán)境選擇的影響;17個密碼子被確定最優(yōu)密碼子。本研究為美國紅梣葉綠體遺傳工程和遺傳多樣性分析提供了科學依據(jù)。
關鍵詞:美國紅梣;葉綠體基因組;密碼子偏好性;選擇
中圖分類號: S718.43 ?文獻標志碼: A ?文章編號:1002-1302(2020)15-0083-06
美國紅梣(Fraxinus pennsylvanica)是木犀科(Oleaceae)梣屬(Fraxinus)喬木,原產(chǎn)美國,雌雄異株,花先葉開放,喜光、抗寒、抗鹽堿、抗水濕,是我國重要的行道樹或庭園綠化樹種[1]。
在生物體傳遞遺傳信息的過程中,作為聯(lián)結(jié)核酸和蛋白質(zhì)的密碼子扮演著重要的角色[2],密碼子被稱為第二套遺傳密碼[3];密碼子使用的選擇方式不僅影響基因的表達[4],也影響基因相應的功能[5]。構成基因組的4種核苷酸可形成64種密碼子,各密碼子與氨基酸相對應,除甲硫氨酸和色氨酸外,其余18種氨基酸均有2~6個密碼子,這些編碼同一氨基酸的不同密碼子被稱為同義密碼子(synonymous codon)[6];在翻譯過程中,每個氨基酸相對應同義密碼子的使用頻率存在差異,即有的同義密碼子使用頻率高于其他同義密碼子,這種現(xiàn)象被稱為密碼子偏好性(codon usage bias)[7]。密碼子偏好性廣泛存在于不同生物中,是因為物種在長期進化過程中受環(huán)境選擇、堿基突變、基因漂變等因素共同作用,還受到基因組大小、tRNA豐度和基因表達水平等的影響[8]。密碼子偏好性通過對基因翻譯準確性和效率的調(diào)節(jié)影響基因的表達水平[9],葉綠體具有基因組小、基因拷貝數(shù)多等特點[10-11];根據(jù)最優(yōu)密碼子設計葉綠體基因表達載體,可迅速提高葉綠體基因組中基因表達量,利用目前已知的密碼子使用模式推斷未知基因的表達,或預測某些未知基因的功能[12];同時親緣關系較近的物種具有相近的密碼子使用模式[13],因此,研究葉綠體基因組密碼子的使用模式,對于探索物種進化、提高外源基因的表達水平具有重要意義。
與核基因組對比,關于葉綠體基因組的密碼子偏性的研究相對滯后,美國紅梣的葉綠體基因組測序工作已經(jīng)完成,但有關密碼子偏性的研究迄今尚無報道。研究美國紅梣葉綠體密碼子的偏性,對于預測基因的表達水平、確定未知基因的位置和改良外源基因有著重要意義。在本研究中,筆者通過對美國紅梣葉綠體基因組編碼DNA序列(CDS)的堿基組成和中性繪圖分析,推斷了影響美國紅梣葉綠體密碼子偏好性的主要因素,并確定了美國紅梣葉綠體基因組的最優(yōu)密碼子。本研究通過分析美國紅梣葉綠體基因組密碼子使用模式及影響密碼子使用偏好的因素,確定美國紅梣葉綠體基因組的密碼子偏好性和最優(yōu)密碼子,為美國紅梣葉綠體基因組的應用和研究提供科學參考。
1 材料與方法
1.1 材料
美國紅梣(Fraxinus pennsylvanica)葉綠體基因組序列來自NCBI數(shù)據(jù)庫,共下載到82條CDS(coding DNA sequence),剔除7條重復基因序列和23條長度小于300 bp的序列[14],其余52條序列用于本研究的分析。
1.2 方法
在葉綠體通用密碼子表中有64個密碼子,TAA、TGA和TAG是終止密碼子,不編碼任何氨基酸。ATG是蛋氨酸的唯一密碼子,TGG是色氨酸的唯一密碼子,這些密碼子沒有偏性,在分析時被剔除。
1.2.1 密碼子組成分析 將50條符合條件的CDS整合為1個.fasta文件中,應用Codon W 1.4.2軟件分析獲得各CDS的有效密碼子數(shù)(effective number of codon,ENC)和同義密碼子相對使用度(RSCU),并應用在線軟件CUSP(http://emboss.toulouse.inra.fr/cgi-bin/emboss/cusp)分析測定密碼子第1、第2、第3位堿基的GC含量(分別為GC1、GC2、GC3)和3位堿基的GC平均含量(GCall)等參數(shù),結(jié)果用SPSS和Excel進行統(tǒng)計分析。有效密碼子數(shù)(ENC)是衡量同義密碼子使用偏好的重要指標,ENC的取值范圍為20~61,ENC值可以反映密碼子偏倚的強弱,當ENC為20時,同義密碼子完全處于偏倚狀態(tài);當ENC值為61時,同義密碼子沒有偏倚;ENC值從小到大表示偏倚性由強變?nèi)?,通??梢訣NC值45作為區(qū)分偏倚性強弱的標準[15]。RSCU是一個密碼子的實際使用頻率與無使用偏性時理論頻率的比率,無偏倚時,RSCU為1;RSCU小于1則代表該密碼子的實際使用頻率低于其他同義密碼子的使用頻率,反之實際頻率高于其他同義密碼子的使用頻率[16]。用SPSS軟件對不同密碼子位置的GC1、GC2、GC3、GCall進行統(tǒng)計,分析密碼子數(shù)(N)與ENC的相關關系,進而判斷各因素對密碼子偏倚的影響。
1.2.2 中性繪圖分析 簡并密碼子第3堿基通常發(fā)生的為同義突變,而簡并密碼子第1位、第2位上突變通常會改變基因的功能或活性;也就是說,當沒有外壓時,密碼子3個位置的堿基組成應該沒有差別;而在存在一定選擇壓力情況下時,密碼子3個位置上的堿基組成是存在差異的[17]。在以GC1和GC2的平均值GC12和GC3分別作為縱坐標和橫坐標的中性繪圖中,每個散點代表一個基因。如果中性圖中的所有基因都沿對角線分布,即GC12和GC3的變異基本相同,則密碼子3個位置的堿基組成無顯著差異,選擇壓力弱,但受突變影響較大;回歸系數(shù)(對角線斜率)是衡量中性程度的指標之一,若回歸曲線斜率極小,GC12和GC3的變異的相關性同樣很低,說明影響密碼子偏好性的主要影響因素為選擇效應[17]。同時,通過分析不同位置密碼子堿基組成的相關性,可以分析突變或選擇對密碼子偏好性的影響,即當GC12與GC3顯著相關時,表明3個位置密碼子堿基組成無顯著差異,且偏好性主要受突變的影響;當GC12與GC3呈不顯著相關時,回歸系數(shù)趨近于0,表明密碼子的前2位堿基和第3位堿基的組成不同,基因組中的GC含量比較保守,密碼子的偏倚主要受到選擇的影響[13]。
1.2.3 最優(yōu)密碼子的確定 以美國紅梣每個葉綠體基因的ENC為參考標準,從兩端選擇10%的基因構建高、低偏倚庫,將2庫間ΔRSCU≥0.08的密碼子定義為高表達的優(yōu)越密碼子;將RSCU值大于1的密碼子確定為高頻密碼子[18]。將既能滿足高頻率密碼子又能滿足高表達優(yōu)越密碼子確定為最優(yōu)密碼子。
2 結(jié)果與分析
2.1 密碼子堿基組成
用CUSP軟件分析美國紅梣52條CDS的堿基組成,用Codon W 1.4.2分析其ENC值(表1),所有CDS密碼子的平均GC含量為36.93%,第1位GC含量為45.23%,第2位為39.23%,第3位為26.19%,GC含量在密碼子不同位置的分布頻率不同,由高到低,依次為第1位>第2位>第3位,第1、第2位的GC含量明顯高于第3位,結(jié)果表明,在美國紅梣中,葉綠體密碼子的最后1個堿基主要是A/U(T),這與植物葉綠體基因中A/U(T)含量較高的特點是一致的。表示偏好強度的ENC值的范圍為37.55~55.28,平均值為47.27;52個CDS中有34個ENC值>45,說明美國紅梣的大部分編碼序列具有弱的密碼子偏好性。對不同密碼子位置堿基的GC含量、密碼子數(shù)(N)和ENC數(shù)值的相關分析(表2)表明,GCall和GC1、GC2、GC3的相關性極顯著,GC1和GC2相關性極顯著,相關系數(shù)為0.513,GC3與GC1、GC2的相關性不顯著,說明密碼子的第1位和第2位堿基的組成與第3位堿基組成的相似和不同。ENC與GC1顯著相關,與GC2相關性不顯著,與GC3極顯著相關,說明ENC與密碼子第3位堿基的組成密切相關。ENC與密碼子數(shù)(N)顯著相關,說明基因編碼序列的長度對密碼子的偏倚有一定的影響。
編碼氨基酸的RSCU(表3)顯示,RSCU>1的密碼子中以A和U結(jié)尾的頻率較高,其中14個密碼子以U結(jié)尾、12個以A結(jié)尾、1個以G結(jié)尾,表明美國紅梣葉綠體基因組更傾向于以A和U結(jié)尾;而以C和G結(jié)尾的密碼子即為非偏性的密碼子。
2.2 中性繪圖分析
根據(jù)美國紅梣葉綠體基因組中每個基因的中性繪圖分析(圖1),GC12的取值范圍略大在0.314~0.529之間,GC3的取值范圍很小,為0.193~0.392之間,同時大多數(shù)基因均位于對角線以上;GC12與GC3的相關系數(shù)為0.321 7,相關性不顯著,回歸系數(shù)(趨勢線的斜率)為-0.538 5,表明在美國紅梣葉綠體基因組的中性繪圖分析中,GC12和GC3的相關性很弱,說明密碼子第1位、第2位和第3位堿基的組成存在差異,即美國紅梣葉綠體基因組的GC含量是高度保守的,而密碼子第3位的GC含量相對較低,其密碼子偏好性受選擇的影響較大。
2.3 最優(yōu)密碼子確定
將美國紅梣葉綠體基因組中的52個蛋白編碼基因并作一個整體在Codon W 1.4.2軟件上運行,通過構建高表達基因和低表達基因庫,對這2個基因數(shù)據(jù)庫的RSCU值進行了重新計算,結(jié)果(表4)表明,ΔRSCU≥0.08的密碼子包括UUU(TTT)、UUA(TTA)等23個密碼子,都是高表達的優(yōu)越密碼子,其中11個以A結(jié)尾,8個以U結(jié)尾,3個以C結(jié)尾,1個為G結(jié)尾;ΔRSCU≥0.3有11個密碼子;ΔRSCU≥0.5 的密碼子是UUU、 UUA。 以同時滿足高頻率密碼子和高表達優(yōu)越密碼子作為最優(yōu)密碼子,分別為UUU、UUA、GUA、UCA、CCA、UAU、GCA、CAU、CAA、AAU、AAA、GAA、UGU、CGA、AGA、GGU和GGA等17個,其中11個以A結(jié)尾,6個以U結(jié)尾。
3 討論與結(jié)論
在生物體內(nèi),密碼子在核酸和蛋白質(zhì)的翻譯中起著重要作用;植物中不同密碼子的使用頻率存在差異, 這種密碼子使用偏好性是物種和基因長期進化和對環(huán)境的適應過程中形成的,是多種因子共同作用的結(jié)果,其中突變和自然選擇是該現(xiàn)象形成的重要影響因素[7-8]。葉綠體是植物光合作用的細胞器,也包含相對獨立的母體遺傳基因組信息,因此葉綠體基因組在揭示物種進化、物種親緣關系、物種鑒定等方面具有重要價值;同時葉綠體基因工程因其可高效表達、安全等特點已成為植物基因工程的研究熱點[10]。因此,對植物葉綠體基因組密碼子使用偏好的研究可以揭示物種基因組的進化關系及其主要影響因素。
本研究中美國紅梣葉綠體基因組中的GC3與GC1和GC2沒有顯著相關性,且顯著小于GC1和GC2。這說明美國紅梣葉綠體基因的密碼子偏好以A和U結(jié)尾,RSCU分析結(jié)果從定量分析的角度充分證明了這一觀點。這與已報道的黃芩(Scutellaria baicalensis)[19]、普通油茶(Camellia oleifera)[20]、蒺藜苜蓿(Medicago truncatula)[15]的葉綠體基因特征相同;中性繪圖分析表明,密碼子的第1位和第2位與第3位堿基組成存在著顯著差異,由于密碼子的GC含量高度保守,密碼子的偏倚性主要受選擇的影響,與蒺藜苜蓿一致[13];美國紅梣葉綠體基因組密碼子偏好以AU結(jié)尾,且其最優(yōu)密碼子為UUU、UUA,與大多數(shù)高等植物的最優(yōu)密碼子NNA、NNU的模式一致[18]。本研究中,美國紅梣葉綠體基因組的密碼子偏好主要受到選擇的影響,同時與其他因素共同作用,確定了17個最優(yōu)密碼子,均為NNA和NNU模式。采取高表達的高頻密碼子作為最優(yōu)密碼子,在美國紅梣葉綠體基因組中選擇的17個最優(yōu)密碼子分別是UUU、UUA、GUA、UCA、CCA、UAU、GCA、CAU、CAA、AAU、AAA、GAA、UGU、CGA、AGA、GGU和GGA。美國紅梣葉綠體基因組最優(yōu)密碼子的確定,為優(yōu)化目標基因的高效表達密碼子,從而通過葉綠體基因工程改良美國紅梣的重要性狀提供了科學依據(jù)。
參考文獻:
[1]郭學明,高忠明,劉振林,等. 美國紅梣雄株和雌株莖導管分子的形態(tài)解剖比較[J]. 林業(yè)科學,2010,46(8):51-55.
[2]梁遠楠,陳水蓮,張麗君,等. 10個降香黃檀家系在肇慶地區(qū)的早期生長評價[J]. 林業(yè)與環(huán)境科學,2019,35(2):106-110.
[3]Nelson D L,Cox M M. Lehninger principles of biochemistr[M]. New York:W.H.Freeman and Company,2017.
[4]Zhou Z P,Dang Y K,Zhou M,et al. Codon usage is an important determinant of gene expression levels largely through its effects on transcription[J]. Proceedings of the National Academy of Sciences,2016,113(41):6117-6125.
[5]Hershberg R,Dmitri A P. Selection on codon bias[J]. Annual Review of Genetics,2008,42(1):287-299.
[6]Duret L. Evolution of synonymous codon usage in metazoans[J]. Curr Opin Genet Dev,2012,12(6):640-649.
[7]Romero H. Codon usage in Chlamydia trachomatis is the result of strand-specific mutational biases and a complex pattern of selective forces[J]. Nucleic Acids Research,2000,28(10):2084-2090.
[8]Chen X,Cai X N,Chen Q Z,et al. Factors affecting synonymous codon usage bias in chloroplast genome of Oncidium Gower Ramsey[J]. Evolutionary Bioinformatics,2011(7):271-278.
[9]邢朝斌,曹 蕾,周 秘,等. 刺五加葉綠體基因組密碼子的用法分析[J]. 中國中藥雜志,2013,38(5):661-665.
[10]Wright F. The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[11]牛 元,徐 瓊,王崳德,等. 大花香水月季葉綠體基因組密碼子使用偏性分析[J]. 西北林學院學報,2018,33(3):123-130.
[12]Wu X M. The analysis method and progress in the study of codon bias[J]. Hereditas,2007,29(4):420-426.
[13]Yang G F,Su K L,Zhao Y R,et al.Analysis of codon usage in the chloroplast genome of Medicago truncatula[J]. Acta Prataculturae Sinica,2015,35(3):362-371.
[14]Jiang Y,Deng F,Wang H,et al. An extensive analysis on the global codon usage pattern of baculoviruses[J]. Archives of Virology,2008,153(12):2273-2282.
[15]Qin Z,Zheng Y J,Gui L J,et al. Codon usage bias analysis of chloroplast genome of camphora tree(Cinnamomum camphora)[J]. Guihaia,2018,38(10):1346-1355.
[16]Chao Y,Chang Y,Wang M F,et al. Codon usage bias and cluster analysis on chloroplastic genes from seven crop species[J]. Acta Agric Bor Sin,2012,27(4):60-64.
[17]Sueoka N. Near homogeneity of PR2-Bias fingerprints in the human genome and their implications in phylogenetic analyses[J]. Journal of Molecular Evolution,2001,53(4/5):469-476.
[18]Shang M Z,Liu F,Hua J P,et al. Analysis on codon usage of chloroplast genome of Gossypium hirsutum[J]. Sci Agric Sin,2011,44(2):245-253.
[19]Wang W B,Yu H,Qiu X P. Analysis of repeat sequence and codon bias of chloroplast genome in Scutellaria baicalensis[J]. Molecular Plant Breeding,2018,16(8):2445-2452.
[20]Wang P L,Yang L P,Wu H Y,et al. Codon preference of chloroplast genome in Camellia oleifera[J]. Guihaia,2018(38):135-144.