馬 沖,祖 穎,朱 平
(江南大學理學院,中國江蘇無錫214122)
在生物體內(nèi),蛋白質(zhì)承載了所有生物功能的遺傳信息,在信息傳遞過程中起到了舉足輕重的作用。氨基酸是蛋白質(zhì)形成的最基本單位,并且與生物的生命活動息息相關(guān)。而堿基通過三聯(lián)體密碼子的形式來編碼氨基酸,密碼子決定著氨基酸的種類[1~4]。目前,常用的編碼方法有氨基酸編碼法[5]和擬氨基酸編碼法[6]。在氨基酸編碼法中,4個堿基通過三聯(lián)體方式自由組合成64個密碼子,其中tag、tga和taa為終止密碼子,剩余61個密碼子編碼20種氨基酸。而朱平等[6]運用代數(shù)知識提出的擬氨基酸編碼法中,將taa、tag、tac和tat標記為終止子,所有64個密碼子編碼成16種氨基酸。值得注意的是,氨基酸編碼法和擬氨基酸編碼法都采用atg為起始密碼子。
生物體中,編碼同一個氨基酸的兩個或者兩個以上的密碼子叫做同義密碼子[6]。研究表明,從原核生物到真核生物基因的編碼過程中,各生物體內(nèi)都普遍出現(xiàn)編碼同一個氨基酸的同義密碼子使用不均衡,即偏好性現(xiàn)象[7,8]。在研究基因的特異性表達時,密碼子偏好性就引起了科學家的重視。事實上,目前研究密碼子偏好性的方法有很多,比如層次聚類方法、圖論方法等[9],這些都與生物體中基因的分子進化、翻譯轉(zhuǎn)錄、遺傳突變有著重要的關(guān)系[10]。通過對不同物種密碼子使用情況的研究發(fā)現(xiàn),不同物種基因的密碼子使用都會出現(xiàn)偏好性。而同種生物中,不同功能的基因密碼子使用也會出現(xiàn)偏好性[11]。因此,研究密碼子偏好性對基因突變和物種進化分析有重要的作用。
目前,衡量密碼子偏好性的分析方法包括同義密碼子相對使用度(relative synonymous codon usage,RSCU)、密碼子適應指數(shù)(codon adaptation index,CAI)、有效密碼子數(shù)(effective number of codon,ENC)、最優(yōu)密碼子使用頻率(frequency of optimal codons,FOP)、密碼子偏愛指數(shù)(codon bias index,CBI)等[12,13]。其中,密碼子適應指數(shù)主要反映編碼區(qū)同義密碼子與密碼子之間的接近程度,其數(shù)值范圍在0~1之間。密碼子適應指數(shù)是衡量基因表達水平的重要參考指標,目前研究發(fā)現(xiàn),單細胞生物適用于此方法,而哺乳動物暫時還不能用密碼子適應指數(shù)來預測基因的表達水平[10],所以文中選取大腸桿菌、酵母菌、醋酸菌、鏈球菌、雙歧桿菌、枯草桿菌6個單細胞物種進行研究。
由于密碼子適應指數(shù)測量的是某個基因所用的密碼子與高表達基因所用密碼子的接近程度,但物種之間存在著巨大差異,所以研究偏好性的指標也層出不窮[14~16]。有些方法僅僅能運用于局限的物種或者某種特定的基因中,或者效果不明顯[12,13],因此,不斷開發(fā)與嘗試新方法、新指標一直是偏好性研究的熱點。本文將同義密碼子相對使用度與擬氨基酸編碼法進行對比,觀察6個物種的密碼子偏好性,得到密碼子偏好性的結(jié)果;同時,在密碼子適應指數(shù)的基礎上提出新的方法——擬密碼子適應指數(shù)方法(quasi-codon adaptation index,Q-CAI),并對這兩個方法進行對比,進一步研究密碼子偏好性的情況,這將對生物體的密碼子偏好研究有重要意義,對解釋基因突變和生物進化有重要參考價值。
Sharp等[17]提出同義密碼子的相對使用度(RSCU)。石秀凡等[5]利用基于氨基酸編碼下的同義密碼子相對使用度,對78條人類基因進行了研究,并且得到了很好的結(jié)果。
引理1:同義密碼子相對使用度是衡量密碼子偏好性的重要指標,計算公式如下:
RSCUij是指第i個氨基酸的第j個密碼子的同義密碼子相對使用度值,xij是指編碼第i個氨基酸的第j個密碼子出現(xiàn)的次數(shù),ni是指編碼第i個氨基酸的同義密碼子數(shù)量(n=1,2,…,6)[17]。
引理2:在RSCU的基礎上,Sharp等[17]提出了密碼子適應指數(shù)(CAI),Wij(the relative adaptiveness of a codon)表示密碼子適應度,其計算公式如下:
式中RSCUimax,ximax分別表示編碼第i個氨基酸的使用頻率最高的密碼子的RSCU值和x值。
L表示基因中所使用的密碼子數(shù),WK表示基因中每個密碼子的適應度,CAI值在0~1之間,CAI值越大,表明密碼子偏好性越強[17]。
朱平等[6]運用代數(shù)的相關(guān)知識,提出了擬氨基酸編碼方法:令ZU-16={G,V,ED,A,WC,LF,-Y,S’,RS,MI,KN,T,R’,L’,QH,P},稱 ZU 為擬氨基酸集,其中-Y為新終止子,但是(tga?WC)不是終止子。擬氨基酸編碼見表1。
同時,該團隊提出了基于擬氨基酸編碼方法下的相對同義密碼子使用度(quasi relative synonymous codon usage,QRSCU),并且對78條人類基因進行了研究[6],不但得到了石秀凡等[5]的研究結(jié)果,而且這些特征更加明顯,說明了擬氨基酸編碼方法的科學性與合理性。
引理3:擬氨基酸編碼方法下的同義密碼子相對使用度,其計算公式如下:
QRSCUij是第i個擬氨基酸的第j個密碼子的同義密碼子相對使用度值,yij是編碼第i個擬氨基酸的第j個密碼子出現(xiàn)次數(shù)[6]。
定義1:基于CAI提出了擬密碼子適應指數(shù)(QCAI),Q Wij表示擬密碼子適應度,其計算公式如下:
式中QRSCUimax,yimax分別表示編碼第i個擬氨基酸的使用頻率最高的密碼子的QRSCU值和y值。
式中L是指基因中所使用的密碼子數(shù),Q WK表示基因中每個擬密碼子的適應度,Q-CAI值在0~1之間,其值越大,表明密碼子偏好性越強。
密碼子偏好性一直被不斷的研究與發(fā)展,作為人類遺傳、進化的重要組成部分,衡量密碼子偏好性的方法也就應運而生[18]。由于密碼子在生物進化上具有復雜性和適應性,人們研究密碼子偏好性方法的道路還很漫長。
便于密碼子偏好性更加快速明顯的表示,基于密碼子適應指數(shù),在擬氨基酸編碼方法下,提出了擬密碼子適應指數(shù),其數(shù)值越高表示密碼子的偏好性越強,基因的表達水平越高。
選取單細胞生物作為研究材料,對CAI值預測基因的表達水平具有很好的適用性。從Gen-Bank/NCBI數(shù)據(jù)庫中下載了大腸桿菌、酵母菌、醋酸菌、鏈球菌、雙歧桿菌、枯草桿菌6個物種的90條mRNAs完整的全基因序列(序列信息見表2),通過計算RSCU值和QRSCU值,進一步計算出CAI值和Q-CAI值。
運用MATLAB軟件計算所選90條序列的堿基組成(表3),包括A、T、G、C在密碼子第3位結(jié)尾的數(shù)量(A3s,T3s,G3s,C3s),G/C的整體含量(GCs),G/C在密碼子第3位的堿基含量(GC3s)。
1~15屬于醋酸菌序列,16~30是大腸桿菌序列,31~45是酵母菌序列,46~60為枯草桿菌序列,61~75是鏈球菌序列,76~90條是雙歧桿菌序列。由表3分析得出下面結(jié)論:
表1 擬氨基酸編碼信息Table1 Quasi-amino acid coding information
表2 數(shù)據(jù)的序列編號Table2 Serial number of data
1)醋酸菌序列偏好使用以g/c結(jié)尾的密碼子,以g/c結(jié)尾的密碼子明顯多于以a/t結(jié)尾的密碼子,并且GC含量是50%~57%,GC3s是54%~64%。
表3 6個單細胞物種90條mRNA序列的堿基組成Table3 Base composition of 90 mRNA sequences from 6 single-celled species
(接上表)
2)大腸桿菌序列明顯偏好使用以g/c結(jié)尾的密碼子,但GC整體含量不高,其中GC含量是48%~49%,GC3s是55%~57%。
3)酵母菌和枯草桿菌序列偏好使用以a/t結(jié)尾的密碼子,GC含量低于AT含量,GC含量分別為39%~40%、28%~69%,而 GC3s分別為 44%~46%、23%~86%。
4)鏈球菌序列使用以a/t結(jié)尾的密碼子比使用以g/c結(jié)尾的密碼子的數(shù)量要高,且GC含量較低,為37%~50%,GC3s含量為36%~68%。
5)雙歧桿菌序列明顯偏好使用以g/c結(jié)尾的密碼子,GC及GC3s的含量明顯較高,分別為53%~63%和66%~80%。
同義密碼子的相對使用度能夠分析密碼子使用的偏好情況,密碼子適應指數(shù)是在同義密碼子相對使用度的基礎上得出來的,它是衡量密碼子偏好性的重要指標,其值越大,密碼子的偏好性越強。表3給出了90條序列的CAI值和Q-CAI值運算結(jié)果,從CAI值的運算結(jié)果得出:
1)90條序列的CAI值分布于0.29~0.75,只有4條序列的CAI值低于0.4,其余序列CAI值普遍高于0.5,表明這6個物種的密碼子偏好性很強。
2)酵母菌和大腸桿菌偏好性最強,醋酸菌、鏈球菌、枯草桿菌偏好性次之,雙歧桿菌的偏好性最差。其中,15條酵母菌序列的CAI值都高于0.7,說明酵母菌的偏好性極強。15條大腸桿菌序列的CAI值都在0.6~0.7,表明大腸桿菌是僅次于酵母菌的高偏好性物種。
3)醋酸菌、鏈球菌、枯草桿菌的15條序列CAI值并不是均勻分布在某一固定區(qū)域,而是0.2~0.7之間均有分布,提示不同物種其密碼子偏好性使用不同。
4)同一物種不同序列其CAI值分布也并不均勻,比如枯草桿菌的最高CAI值是0.74,最低值是0.29,即同一物種的不同序列其密碼子偏好性并不相同。
擬密碼子適應指數(shù)是在密碼子適應指數(shù)的基礎上,根據(jù)擬氨基酸編碼方法提出的新方法,將Q-CAI與CAI方法的計算數(shù)據(jù)分析對比,從90條序列的Q-CAI值分析得出:
1)90條序列的Q-CAI值分布在0.42~0.76,且大部分序列都高于0.5,說明6個物種密碼子偏好性很強,與CAI方法計算的結(jié)論相一致。
2)醋酸菌、大腸桿菌和酵母菌各自15條序列的Q-CAI值都比CAI值高,即在偏好性強的物種中,Q-CAI方法衡量密碼子偏好性比CAI方法的數(shù)據(jù)結(jié)果更顯著。
3)鏈球菌、枯草桿菌和雙歧桿菌的Q-CAI值也普遍比CAI值要高,只有極少部分序列的密碼子CAI值比Q-CAI值高,但極少部分序列的CAI值和Q-CAI值非常接近,即Q-CAI方法可以得到CAI方法的所有結(jié)論。
從上述分析可知,Q-CAI方法在衡量密碼子偏好性時,能夠得到CAI方法的所有結(jié)論,并且數(shù)據(jù)比前人提出的CAI值更高,即密碼子的表達水平更高,能夠更準確地得到密碼子的偏好性強弱。因此,Q-CAI方法比CAI方法更加合理有效,可以作為研究基因表達以及遺傳與變異的重要理論依據(jù)。
在氨基酸編碼法下,從90條序列的同義密碼子相對使用度數(shù)據(jù)中分析得出:6個物種的同義密碼子使用具有偏好性,醋酸菌、大腸桿菌和雙歧桿菌的密碼子偏好使用c/g結(jié)尾,GC整體含量也比較高。而酵母菌、枯草桿菌和鏈球菌的GC含量則相對較低。根據(jù)密碼子適應指數(shù)的研究,進一步證明了6個物種密碼子有較強的偏好性,其密碼子表達水平較高。
根據(jù)擬密碼子適應指數(shù)方法,對6個單細胞物種90條序列的數(shù)據(jù)進行分析,得到:所有數(shù)據(jù)的Q-CAI值普遍高于0.5,且偏好性較低的序列只有幾條,6個物種的密碼子同樣具有較強的偏好性,與CAI方法得到的結(jié)果相一致,說明此方法具有合理性。
進一步與CAI運算方法對比,偏好性強的物種——醋酸菌、大腸桿菌和酵母菌所有序列的QCAI方法運算結(jié)果都比CAI方法運算結(jié)果數(shù)值更高、更明顯。而且雙歧桿菌、枯草桿菌和鏈球菌的Q-CAI方法運算結(jié)果也普遍比CAI方法運算結(jié)果數(shù)值高,說明擬密碼子適應指數(shù)不僅能衡量密碼子使用的偏好性,而且運算結(jié)果比CAI方法更加明顯有效,因此,具有較好的適應性。這對密碼子偏好性研究,以及基因突變和物種進化研究都具有重要的意義。
參考文獻(References):
[1]Cristina J,Moreno P,Moratorio G,et al.Genome-wide analysis of codon usage bias inEbolavirus[J].Virus Research,2015,196:87-93.
[2]Camiolo S,Melito S,Porceddu A.New insights into the interplay between codon bias determinants in plants[J].DNA Research,2015,22(6):461-470.
[3]蘇惠,李永光,譚文雍,等.大腸桿菌gdhA基因的密碼子偏好性分析及優(yōu)化[J].基因組學與應用生物學(Su Hui,Li Yongguang,Tan Wen-yong,et al.Analysis of codon usage bias and optimization of codon ofgdhAgene inEscherichia coli[J].Genomics and Applied Biology),2015,34(3):521-529.
[4]郭承恩,柴志欣,鐘金城.人類1號、X、Y染色體基因密碼子偏好性研究[J].生命科學研究(Guo Cheng-en,Chai Zhi-xin,Zhong Jin-cheng.Study on codon usage bias in the gene of human 1,X and Y chromosomes[J].Life Science Research),2014,18(5):387-394.
[5]石秀凡,黃京飛,梁寵榮,等.人類基因中同義密碼子的偏好與密碼子-反密碼子間的結(jié)合強度密切相關(guān)嗎?[J].科學通報(Shi Xiu-fan,Huang Jing-fei,Liang Chong-rong,et al.Is the preference for synonymous codons in human genes closely related to the binding strength between codon-anti-codons?[J].Chinese Science Bulletin),2000,45(23):2520-2525.
[6]朱平,高雷,徐振源.基于擬氨基酸編碼方法的同義密碼子的偏好性與結(jié)合強度的相關(guān)性研究[J].物理學報(Zhu Ping,Gao Lei,Xu Zhen-yuan.Correlation between the usage degree of the synonymous codon and the strength of combination based on the quasi-amino acid coding[J].Acta Physica Sinica),2009,6:4295-4300.
[7]Rudorf S,Lipowsky R.Protein synthesis inE.coli:dependence of codon-specific elongation on tRNA concentration and codon usage[J].PLoS One,2015,10(3):e0134994.
[8]吳彥慶,趙大球,王靜,等.芍藥查爾酮異構(gòu)酶基因(CHI)克隆、密碼子偏好性分析以及蛋白結(jié)構(gòu)功能預測[J].華北農(nóng)學報(Wu Yan-qing,Zhao Da-qiu,Wang Jing,et al.Cloning,codon usage bias and protein structure and function prediction of CHI gene inPaeonia lactiflora[J].Acta Agriculturae Boreali-Sinica),2016,31(2):71-80.
[9]張連順,王吉華,姜萬祿.用圖論方法研究核酸序列的密碼子使用與基因表達水平的關(guān)系[J].生物數(shù)學學報(Zhang Lianshun,Wang Ji-hua,Jiang Wan-lu.Study on the relation between codon usage of nucleic acid sequences and gene expression level by graph theory method[J].Journal of Biomathematics),1998,13(1):65-73.
[10]吳憲明,吳松鋒,任大明,等.密碼子偏性的分析方法及相關(guān)研究進展[J].遺傳(Wu Xian-ming,Wu Song-feng,Ren Daming,et al.The analysis method and progress in the study of codon bias[J].Hereditas),2007,29(4):420-426.
[11]談承杰,朱平.抑癌基因p53密碼子偏好性分析及其突變致癌預測[J].計算機與應用化學(Tan Cheng-jie,Zhu Ping.Analysis of codon bias of tumor suppressor gene p53 with forecast to gene mutation[J].Computers and Applied Chemistry),2012,29(11):1299-1303.
[12]?najder M,Mihelic M,Turk D,et al.Codon optimisation is key for pernisine expression inEscherichia coli[J].PLoS One,2015,10(4):e0123288.
[13]Xiang H,Zhang R Z,Butler R R,et al.Comparative analysis of codon usage bias patterns in microsporidian genomes[J].PLoS One,2015,10(6):e0129223.
[14]招麗嬋,鄧雨修,王東東,等.不同PRRSV毒株間ORF1a基因密碼子偏愛性差異分析[J].生命科學研究(Zhao Li-chan,Deng Yu-xiu,Wang Dong-dong,et al.Analysis of theORF1agene codon bias disparity in different PRRSV strains[J].Life Science Research),2009,13(5):422-429.
[15]Zhang D L,Chen D F,Cao L R.The effect of codon mismatch on theproteintranslationsystem[J].PLoSOne,2016,11(2):e0148302.
[16]吳艷,仇建鄴,朱平.亞氨基酸編碼方法及其應用[J].生物數(shù)學學報(Wu Yan,Qiu Jian-ye,Zhu Ping.Subtypes amino acids coding method and application[J].Journal of Biomathematics),2013,28(4):725-737.
[17]Sharp P M,Li W H.The codon adaptation index--a measure of directional synonymous codon usage bias,and its potential applications[J].Nucleic Acids Research,1987,15(3):1281-1295.
[18]孔娟娟,朱平.人類p53腫瘤蛋白的偏好性分析及其應用[J].計算機應用研究(Kong Juan-juan,Zhu Ping.Research and application of codon bias of human p53 tumor protein[J].Application Research of Computers),2011,28(8):2987-2990.