李瀅 匡雪君 朱孝軒 朱英杰 孫超
[摘要] 以長春花為研究對象,分析其密碼子使用偏好性,以期為相關(guān)基因的異源表達(dá)、基因的預(yù)測、物種的進(jìn)化研究提供指導(dǎo)。該研究以長春花的30 437條蛋白質(zhì)編碼序列為數(shù)據(jù)來源,對長春花密碼子組成和密碼子偏性的各項(xiàng)參數(shù)進(jìn)行了計(jì)算和統(tǒng)計(jì)分析。計(jì)算了長春花萜類吲哚生物堿(terpenoid indole alkaloids, TIAs)生物合成途徑中25個關(guān)鍵酶基因含有大腸桿菌或釀酒酵母稀有密碼子的比例。結(jié)果顯示,長春花基因的平均GC量為42.47%,密碼子第3位堿基平均GC量為35.89%。長春花中共有28個密碼子的同義密碼子相對使用度(relative synonymous codon usage,RSCU)大于1,其中26個以A或T結(jié)尾。25個關(guān)鍵酶基因含有大腸桿菌稀有密碼子的比例明顯高于釀酒酵母稀有密碼子的比例。長春花主要偏愛使用以A和T結(jié)尾的密碼子;相比于釀酒酵母,其密碼子使用特點(diǎn)與大腸桿菌的差異更大,推測釀酒酵母可能是長春花基因更合適的異源表達(dá)宿主。
[關(guān)鍵詞] 長春花; 基因組; 密碼子偏好性; 萜類吲哚生物堿; 生物合成途徑
Codon usage bias of Catharanthus roseus
LI Ying1, KUANG Xuejun1, ZHU Xiaoxuan1, ZHU Yingjie2, SUN Chao1*
(1. Institute of Medicinal Plant Development, China Academy of Medical Sciences and Peking Union
Medical College, Beijing 100193, China;
2. Institute of Chinese Materia Medica, China Academy of Chinese Medical Sciences, Beijing 100700, China)
[Abstract] This study aimed to provide guidance for the heterogenous gene expression, gene prediction and species evolution by analyzing codon usage bias of Catharanthus roseus.The codon composition and usage bias of 30 437 highconfidence coding sequences from C.roseus were analyzed and the proportion of rare codons of Escherichia coli and Saccharomyces cerevisiae in 25 genes involved in the biosynthesis of terpenoid indole alkaloids (TIAs) in C.roseus were calculated.The results showed that the average GC content of the genes was 42.47%; the average GC content of the third bases in codon was 35.89%.The relative synonymous codon usage (RSCU) of 28 codons were greater than 1 and 26 of them ended with A or T.The above 25 genes involved in TIA biosynthesis contained much more rare condons of E.coli than that of S.cerevisiae.It was concluded that C.roseus mainly prefered the codons ending with A or T and the rule of codon usage was more different to E.coli than S.cerevisiae.Thus, S.cerevisiae may be more suitable host for heterologous expression of these genes.
[Key words] Catharanthus roseus; genome; codon bias; terpenoid indole alkaloids; biosynthetic pathways
doi:10.4268/cjcmm20162213
長春花Catharanthus roseus(L.) G . Don為夾竹桃科長春花屬多年生草本植物,既是一種廣泛栽培的觀賞花卉,也是研究萜類吲哚生物堿合成的重要藥用模式植物。到目前為止,已從長春花中分離出的生物堿達(dá)130 個以上[1],主要是TIAs,其中一些已經(jīng)在現(xiàn)代醫(yī)療領(lǐng)域得到了廣泛的應(yīng)用[2]。如長春堿和長春新堿,現(xiàn)已被廣泛應(yīng)用于何杰金氏病、惡性淋巴腫瘤、急性淋巴細(xì)胞型白血病、絨毛上皮細(xì)胞癌以及一些其他癌癥的治療;阿瑪堿和蛇根堿作為高效降壓藥物在臨床中使用;文多靈和長春質(zhì)堿具有明顯的降血脂作用[3]。
密碼子是生物體信息傳遞的基本單位,一個氨基酸的密碼子可以有1個或最多6個,編碼同一個氨基酸的密碼子叫同義密碼子[4]。同一個物種的不同基因或不同物種同義密碼子的使用頻率不同,一些密碼子使用頻率更高,這種不均衡使用的現(xiàn)象稱為密碼子使用偏好性(codon usage bias, CUB)[45]。許多證據(jù)表明,密碼子使用偏好性是突變壓力和自然選擇的結(jié)果[67]。此外,還和mRNA二級結(jié)構(gòu)和穩(wěn)定性[8],翻譯的速度和準(zhǔn)確度[9],蛋白質(zhì)折疊[10]等因素有關(guān)。
密碼子偏好性在基因的異源表達(dá)研究方面具有重要的作用。基因的表達(dá)量越高,密碼子偏好性越強(qiáng)[1112],根據(jù)這一原則,可以替換基因的低效密碼子來提高外源基因的表達(dá),還可以根據(jù)密碼子使用的偏好性選擇合適的宿主表達(dá)系統(tǒng)。研究密碼子偏好性能對分子水平的基因預(yù)測,分類和進(jìn)化提供重要的信息。
本文對長春花的密碼子使用偏好性進(jìn)行了系統(tǒng)研究, 并對長春花中TIAs 合成途徑25個關(guān)鍵酶編碼基因的密碼子偏好性與大腸桿菌和酵母基因組的密碼子偏好性進(jìn)行比較,以期為基因表達(dá)選擇合適的表達(dá)系統(tǒng)。
1 材料與方法
1.1 數(shù)據(jù)來源 長春花基因組數(shù)據(jù)參見文獻(xiàn)[13],通過編寫Perl語言程序?qū)?shù)據(jù)進(jìn)行篩選,共篩選出堿基數(shù)大于等于300 bp的蛋白質(zhì)編碼序列 (coding sequence, CDS) 30 437條,作為密碼子分析的數(shù)據(jù)來源。本文所采用的大腸桿菌、酵母基因組的密碼子偏好性數(shù)據(jù)來源于Codon Usage database(http://www.kazusa.or.jp/codon/)。
長春花TIA合成途徑中已被鑒定的25個關(guān)鍵酶編碼基因序列的NCBI登錄號分別為:AY352047.1,EF444544.1, X69791.1,AF053307.1,KF415115.1,AB733667.1,AF250235.1,KC625536.1,DQ848672.1,AJ011840.2,AJ251269.1,JN882024.1, M96068.1,EU135981.1,JX974564.1,EU057974.1,AF250236.1,HM462021.1,HM462019.1,HM462020.1,AM236087.1,AF112888.1,L10081.1,X53602.1,F(xiàn)J647 194.1。
1.2 參數(shù)統(tǒng)計(jì)方法 采用Codon W來對密碼子的組成以及密碼子使用偏好性的度量指標(biāo)進(jìn)行計(jì)算和統(tǒng)計(jì)分析。
密碼子組成的度量指標(biāo)包括GC量(鳥嘌呤和胞嘧啶量)、密碼子第3位堿基組成(G3,A3,T3,C3)、GC3s(同義密碼子第3位的G+C量)等;密碼子使用偏好性的度量指標(biāo)包括有效密碼子數(shù)(ENC)、同義密碼子相對使用度(RSCU)等。
有效密碼子數(shù)(effective number of codons,ENC)是檢測單個基因密碼子非均衡使用的偏好程度,取值在20(每個氨基酸只使用一個密碼子)~61(各個密碼子被均衡使用),ENC值越低,表示該基因的密碼子使用偏好性越強(qiáng)[14]。
RSCU是指某一個密碼子使用的頻率與平均使用期望值的比值,它去除了氨基酸組成對密碼子使用的影響。RSCU值為1,表示密碼子使用沒有偏好性;RSCU>1,表示該密碼子使用頻率較其他同義密碼子更高,反之亦然[15]。
2 結(jié)果
2.1 長春花基因的密碼子組成分析 長春花30 437條高置信蛋白編碼基因CDS區(qū)序列的GC量25.40%~60.90%,平均GC量42.47%,低于大腸桿菌基因組平均GC量52.35%,同時(shí)略高于釀酒酵母基因組平均GC量39.77%;第3位堿基平均GC量35.89%,低于平均GC量42.47%;密碼子第3位A 和 T 的使用頻率(分別為36.59%,43.16%)高于G和C的使用頻率(分別為25.12%,21.43%),這說明長春花較偏愛使用以A和T結(jié)尾的密碼子,而對G和C結(jié)尾的密碼子使用較少;第3位堿基平均GC量(35.89%)顯著低于大腸桿菌基因組密碼子第3位堿基平均GC量55.62%,并略低于釀酒酵母基因組密碼子第3位堿基平均GC量38.10%,可見長春花密碼子使用并無對GC堿基的特殊偏好,且相比于釀酒酵母,其密碼子使用特點(diǎn)與大腸桿菌的差異更大。
2.2 長春花基因有效密碼子數(shù)(ENC)分析 經(jīng)CodonW分析計(jì)算,ENC值為29.07~61.00,長春花基因整體的有效密碼子數(shù)為51.15,其中ENC值為61.00的CDS有1 123條,占所有CDS的3.690%,代表沒有密碼子使用偏好性的基因。根據(jù)Wright等[1617]的標(biāo)準(zhǔn),將ENC值35.00作為偏好性強(qiáng)弱的區(qū)分標(biāo)準(zhǔn),ENC值小于35.00的基因被認(rèn)為有較強(qiáng)的密碼子使用偏好。在長春花基因組CDS的分析結(jié)果中,取值從29.07~35.00的CDS共有125條,占所有CDS的0.410 7%;取值從35.01~61.00的CDS共有30 312條,占所有CDS的99.59%。這說明長春花中絕大多數(shù)基因(99.59%)的密碼子使用偏好性并不強(qiáng),并且有大量的基因(3.690%)對同義密碼子使用沒有偏好性,僅有一小部分基因(0.410 7%)表現(xiàn)出較強(qiáng)的密碼子使用偏好。整體而言,長春花大多數(shù)蛋白編碼基因的密碼子使用偏好性較弱。
2.3 長春花基因密碼子偏性分析 長春花中共有27個密碼子的RSCU值大于1(表1),表明有可能是長春花偏好使用的密碼子。除了只由一種密碼子編碼的Trp和Met外,編碼Phe,Leu,Ser,Tyr,Cys,Pro等的密碼子以及終止密碼子存在比較明顯的偏性。例如,Phe偏愛密碼子TTT;Leu偏愛密碼子TTG,CTT;Ser偏愛密碼子TCT,TCA,AGT。RSCU值大于1的28個密碼子中,有26個以A或T結(jié)尾,表明長春花基因?qū)和T堿基有明顯的偏好性;同時(shí)發(fā)現(xiàn)偏愛密碼子中一般含有較多的A或T,而G或C量較少,這一現(xiàn)象與長春花基因組中平均GC量較低(42.47%)的現(xiàn)象是一致的,所以密碼子的選擇上,占優(yōu)勢的密碼子中含有更多的A或T。
2.4 關(guān)鍵基因在大腸桿菌和酵母中的表達(dá) 根據(jù) Codon Usage Database 數(shù)據(jù), 大腸桿菌中最稀有的6個密碼子分別為:AGG,AGA,CGA,CTA,TGT,ATA,其中有3個稀有密碼子(AGA,CGA,TGT)是長春花偏好使用的密碼子。如果長春花基因中含有較多的AGA,CGA,TGT密碼子,該基因可能會在大腸桿菌中表達(dá)困難;釀酒酵母中最稀有的6個密碼子分別為:CGG,CGC,CGA,TGC,CCG,CTC,其中僅CGA為長春花偏好使用的密碼子。因此與酵母相比,大腸桿菌的密碼子使用偏好性與長春花的差別更大。
為了更直觀地預(yù)測長春花基因在宿主大腸桿菌和酵母中的表達(dá)情況,選取25個已被鑒定的長春花TIAs合成途徑關(guān)鍵酶編碼基因,分別計(jì)算其基因序列中大腸桿菌和釀酒酵母稀有密碼子所占比例。大腸桿菌稀有密碼子在TIAs基因中所占比例明顯高于釀酒酵母稀有密碼子(圖1),比值為:大腸桿菌4.167%~9.615%,釀酒酵母1.437%~6.319%,
這表明長春花TIAs合成途徑酶基因在大腸桿菌中表達(dá)可能會受到較大的限制。因此若需將TIAs基因在大腸桿菌中表達(dá),可以根據(jù)密碼子偏性部分改造密碼子,來適應(yīng)大腸桿菌的密碼子使用偏好性,從而提高表達(dá)效率。
3 討論
本研究首先對長春花基因組的密碼子組成、密碼子偏性進(jìn)行了綜合分析,發(fā)現(xiàn)長春花主要偏愛使用以A和T結(jié)尾的密碼子,且相比于釀酒酵母,其密碼子使用特點(diǎn)與大腸桿菌的差異更大。雖然影響外源基因在宿主中表達(dá)的因素較多, 但是密碼子的選用是影響表達(dá)的重要因素之一,選擇密碼子偏性相近的宿主,可能有利于外源蛋白質(zhì)的高效表達(dá)。通過分析長春花中25個TIAs合成途徑關(guān)鍵酶編碼基因中大腸桿菌和釀酒酵母稀有密碼子所占比例,發(fā)現(xiàn)其與釀酒酵母密碼子偏愛性差異較小,提示釀酒酵母可能是長春花基因更合適的異源表達(dá)宿主,若要實(shí)現(xiàn)該途徑基因在大腸桿菌中的高效表達(dá)則需對部分密碼子進(jìn)行改造。
[參考文獻(xiàn)]
[1] Uniyal G C, Bala S, Mathur A K, et al. Symmetry C18 column:a better choice for the analysis of indole alkaloids of Catharus roseus [J]. Phytochem Anal, 2001, 12(3):206.
[2] Vander H R, Jacobs D I, Snoeijer W, et al. The Catharus alkaloids:pharmacognosy and biotechnology[J]. Curr Med Chem, 2004, 11(5):607.
[3] Pasquali G, Porto D D, FettNeto A G. Metabolic engineering of cell cultures versus whole plant complexity in production of bioactive monoterpene indole alkaloids:recent progress related to old dilemma[J]. J Biosci Bioeng,2006, 101(4):287.
[4] Ikemura T. Codon usage and tRNA content in unicellular and multicellular organisms[J]. Mol Biol Evol, 1985,2(1):13.
[5] 朱孝軒,朱英杰,宋經(jīng)元,等.基于全基因組和轉(zhuǎn)錄組分析的赤芝密碼子使用偏好性比較研究[J].藥學(xué)學(xué)報(bào),2014,49(9):1340.
[6] Trotta E. Selection on codon bias in yeast:a transcriptional hypothesis[J].Nucleic Acids Res,2013,41(20):9382.
[7] Bulmer M. The selectionmutationdrift theory of synonymous codon usage[J]. Genetics, 1991, 129(3):897.
[8] Presnyak V,Alhusaini N, Chen Y H,et al. Codon optimality is a major determinant of mRNA stability[J]. Cell,2015, 160(6):1111.
[9] Yang J R, Chen X, Zhang J. Codonbycodon modulation of translational speed and accuracy via mRNA folding[J]. PLoS Biol, 2014, 12(7):e1001910.
[10] ForoughmandAraabi M H, Goliaei B, Alishahi K, et al.Dependency of codon usage on protein sequence patterns:a statistical study[J]. Theor Biol Med Model, 2014, 11:2.
[11] Quax T E, Claassens N J, Sll D, et al. Codon bias as a means to finetune gene expression[J].Mol Cell, 2015, 59(2):149.
[12] AcostaRivero N, Sanchez J C, Morales J. Improvement of human interferon HUIFNalpha2 and HCV core protein expression levels in Escherichia coli but not of HUIFNalpha8 by using the tRNA(AGA/AGG)[J]. Biochem Biophys Res Commun,2002,296(5):1303.
[13] Kellner F, Kim J, Clavijo B J, et al. Genomeguided investigation of plant natural product biosynthesis[J]. Plant J,2015, 82(4):680.
[14] Fuglsang A. The effective number of codons for individual amino acids:some codons are more optimal than others[J]. Gene, 2003, 320:185.
[15] Sau K, Gupta S K, Sau S, et al. Factors influencing synonymous codon and amino acid usage biases in mimivirus[J]. Biosystems, 2006, 85(2):107.
[16] Wright F. The ′effective number of codons′ used in a gene[J].Gene, 1990, 87(1) :23.
[17] Jiang Y, Deng F, Wang H, et al. An extensive analysis on the global codon usage pattern of baculoviruses[J].Arch Virol, 2008, 153(12):2273.
[責(zé)任編輯 孔晶晶]