人類組成型和可變外顯子的密碼子偏性及聚類分析

2014-09-10 18:06張占軍邢永強王成愛

湖北農(nóng)業(yè)科學 2014年11期

張占軍+邢永強+王成愛

摘要:通過計算人類組成型外顯子和可變外顯子的RSCU值,對兩種外顯子的RSCU值進行了比較?結果表明,除了UAG?UGA?UAA 3個終止密碼子外,兩種外顯子的密碼子偏性都是相同的?對30條可變外顯子和30條組成型外顯子序列的RSCU值進行聚類分析,聚類結果不能把兩種外顯子區(qū)別開,證明兩種外顯子之間的密碼子偏性是相同的?對這60條序列的HI進行了聚類分析,聚類結果沒有把兩種外顯子分開?所以外顯子序列中沒有組成型剪接和可變剪接的信息?

關鍵字:人類;組成型外顯子;可變外顯子;密碼子偏性;聚類

中圖分類號:Q52文獻標識碼:A文章編號:0439-8114(2014)11-2675-04

Codon Bias and Cluster Analysis of the Constitutive Exons and

the Alternative Exons of Human

ZHANG Zhan-jun,XING Yong-qiang,WANG Cheng-ai

(School of Mathematics, Physics and Biological Engineering,Inner Mogolia University of Science &

Technology,Baotou 014010, Inner Mogolia,China)

Abstract: RSCU of the constitutive exons and alternative exons of human were calculated. Two kinds of exons RSCU values were compared. The results showed that every codon bias was the same in two kinds of exons, except three stop codons(UAG,UGA,UAA). 30 constitutive exon sequences and 30 alternative exon sequences were selected to calculate RSCU values of them. The cluster analysis did not distinguish two kinds of exons, proving that the codon biases were the same between the two kinds of exons. HI of the 60 sequences were calculated and used to cluster analysis. It was not able to separate the two kinds of exons. It is indicated that there is no constitutive splicing and alternative splicing information in the exon sequences.

Key words: human;constitutive exons;alternative exons;codon bias;clustering

基金項目:國家自然科學基金項目(61271448)

可變剪接是多細胞真核生物蛋白質(zhì)多樣性的主要來源,且由于可變剪接的存在使得剪接機制變得異常復雜[1]?基于深度測序技術,估計超過95%的人類多外顯子基因存在可變剪接現(xiàn)象?可變剪接主要包括5種類型:可變5剪接(Alternative 5 splicing)?可變3剪接(Alternative 3 splicing)?外顯子跳躍(Exon skipping)?內(nèi)含子保留(Intron retention)?互斥外顯子(Mutually exclusive exons)?如果把外顯子分為兩類,可以分為組成型外顯子(Constitution exons)和可變外顯子(Variable exons)?上述5種外顯子均屬于可變外顯子?

密碼子具有簡并性,即組成蛋白質(zhì)的每個氨基酸可能由一個到多個密碼子編碼?在基因中, 同義密碼子的使用并不是完全均勻的?在不同物種?不同生物體中,密碼子的使用存在很大的差異[2]?在一些單細胞生物中,如在大腸桿菌和酵母中,高表達的基因密碼子使用的偏性一般比較大,主要是由于基因的堿基組成和mRNA翻譯時tRNA的選擇造成的?

目前,對于組成型和可變外顯子的研究主要集中在用IDQD?SVM以及自由能等進行分類?有些研究認為密碼子偏性與諸多因素有關, 如氨基酸組分[3]?mRNA的二級結構[4]?翻譯起始效應?G+C含量?基因長度[5,6]?tRNA的豐度[7]?蛋白質(zhì)的結構[8]等?

鑒于此,筆者研究了組成型外顯子和可變外顯子的密碼子偏向性?非均勻性及其聚類?研究組成型外顯子和可變外顯子的密碼子偏向性,以及通過RSCU值和HI值聚類檢驗其是否可以聚成兩類,有助于分析發(fā)生可變剪接的序列信息是在外顯子中還是在內(nèi)含子中,以及分析剪接的具體機制?

1材料與方法

所用的可變剪接的數(shù)據(jù)來源于ASTD數(shù)據(jù)庫(Release3)(ftp://ftp.ebi.edu.au/pub/databases/astd/altsplice /human/release3_36.35i/)[9,10],人類基因CDS序列數(shù)據(jù)來源于Ensembl(http://asia.ensembl.org/biomart/martview/04fb71801495bc0713760267933b

b8c3)?

1.1組成型外顯子和可變外顯子的來源

由ASTD庫的AltSplice-rel3.exon.txt庫?AltSplice-rel3.events.txt庫以及AltSplice-rel3.genes.txt庫得到4 624條人類的組成型外顯子序列;由Ensembl下載得到人類基因的CDS序列211 776條?對以上兩組序列進行比對,確定出具有三周期讀碼框的人類組成型外顯子3 847條?

由ASTD庫的AltSplice-rel3.events.txt庫和AltSplice-rel3.genes.txt庫分別得到盒式外顯子序列8 049條?內(nèi)含子保留序列5 926條?互斥外顯子序列1 509對?可變3′外顯子序列6 320對?可變5′外顯子序列3 391對?這5種序列都是可變外顯子序列?由上述5種可變外顯子序列庫和人類基因的CDS庫比對得到具有三周期讀碼框的可變外顯子9 738條?在組成型和可變外顯子密碼子偏向性分析時,確定了兩類外顯子的三周期讀碼框?

1.2密碼子偏向性計算

1.2.1密碼子使用的相對概率計算密碼子偏性常用的指標有密碼子使用的相對概率?密碼子有效數(shù)?密碼子偏好參數(shù)?GC3s值等?其中密碼子使用的相對概率(Relative synonymous codon usage,RSCU) 是指對于某一特定的密碼子在編碼對應氨基酸的同義密碼子間的相對概率[11]?密碼子使用的相對概率RSCUij的計算公式為:

RSCUij=(1)

式中,RSCUij表示第i個外顯子序列?第j個密碼子的相對使用概率,obsij表示密碼子j在外顯子i中出現(xiàn)的次數(shù),aaij表示密碼子j編碼的氨基酸在外顯子i編碼的氨基酸序列中出現(xiàn)的次數(shù),k表示與密碼子j同義的密碼子個數(shù)?

RSCU值等于1,表示這個密碼子沒有偏向性,大于1表示這個密碼子是使用較多的密碼子,小于1表示這個密碼子使用較少?RSCU值越大表示密碼子的偏向性越大?

1.2.2組成型外顯子和可變外顯子的RSCU值計算把“1.1”得到的組成型外顯子和可變外顯子分別連接起來,用CodonW軟件分別計算其RSCU值?

1.3用RSCU值進行聚類分析

1.3.1聚類分析使用的數(shù)據(jù)從“1.1”所述的具有三周期讀碼框的人類組成型外顯子3 847條,隨機選取超過大小500 bp的組成型外顯子30條,作為正集;隨機選取盒式外顯子6條?互斥外顯子6條?可變5′外顯子6條?可變3′外顯子6條?內(nèi)含子保留序列6條,序列長度都超過500 bp,共30條,把這些作為可變外顯子,作為負集?分別將上述組成型外顯子序列編號為1-30,可變外顯子序列編號為31-60?

1.3.2聚類方法對外顯子密碼子使用概率進行聚類分析,將每個外顯子序列作為研究對象,將密碼子的相對使用概率統(tǒng)計值作為變量?由于AUG(編碼蛋氨酸的密碼子)?UGG(編碼色氨酸的密碼子)的RSCU值始終為1,所以除去這兩個密碼子,同時除去3個終止密碼子,剩下59個密碼子,用這59個密碼子的RSCU值進行聚類分析?

這里外顯子間的距離規(guī)定為密碼子使用相對概率的歐拉平方距離?歐拉平方距離dij的計算公式為:

dij=(RSCUik-RSCUjk)2 (2)

式中,dij表示外顯子i與外顯子j之間的距離?RSCUik表示第i個外顯子的第k個密碼子的RSCU值,RSCUjk表示第j個外顯子的第k個密碼子的RSCU值?

1.3.3聚類分析用CodonW軟件分別計算這60條序列的RSCU值,并用公式(2)計算出其距離矩陣?用SPSS 13.0軟件進行聚類分析?

1.4用非均勻指數(shù)(HI)進行聚類

1.4.1非均勻指數(shù)(HI)非均勻指數(shù)(HI)定義為:

HI=(3)

式中,N?琢(α=1?2?3?4)表示序列的4種堿基A?G?T?C;N=N?琢為序列長度;N(l)(l=1?2?3)為3個子序列的長度;N(l)=N/3;Nα(l)為第l個子序列中第α種堿基數(shù)[12]?利用該參數(shù)研究堿基的非均勻分布?

1.4.2用非均勻指數(shù)聚類所使用的距離用非均勻指數(shù)聚類所使用的距離定義為:

dij=HIi-HIj(4)

式中,dij表示第i條外顯子和第j條外顯子的距離,HIi表示第i條外顯子序列的非均勻指數(shù),HIj表示第j條外顯子序列的非均勻指數(shù)?

1.4.3聚類分析用公式(3)計算“1.3.1”中所述的60條序列的HI值,然后用公式(4)計算其距離矩陣,最后用SPSS 13.0軟件進行聚類分析?

2結果與分析

2.1組成型和可變外顯子密碼子偏性結果

將找到的所有符合條件的組成型外顯子連成一條序列,計算其RSCU值,同時把找到的所有符合條件的可變外顯子連接成一條序列,計算其RSCU值?在計算結果中,剔除了UAA?UAG?UGA 3個終止密碼子,繪制折線圖,如圖1所示?從圖1中可以看出,組成型外顯子和可變外顯子之間偏性是相同的?每個外顯子的RSCU值稍有差異,可能是統(tǒng)計誤差的原因?

2.2用RSCU值對組成型外顯子和可變外顯子聚類的結果

1-30號序列為組成型外顯子,31-60號序列是可變外顯子,利用這60條序列的RSCU值,采用SPSS 13.0軟件進行聚類分析(通過計算距離矩陣),結果如圖2所示?由圖2可知,聚類結果沒有把組成型外顯子和可變外顯子區(qū)別開,進一步確認了組成型和可變外顯子的密碼子偏性是相同的?

2.3用HI指數(shù)對組成型外顯子和可變外顯子聚類的結果

計算了1-30號組成型外顯子和31-60號可變外顯子序列的HI指數(shù),并用HI指數(shù)對它們進行聚類分析,聚類結果如圖3所示?由圖3可知,聚類結果沒有把組成型外顯子和可變外顯子區(qū)別開,說明組成型外顯子和可變外顯子之間序列的不均勻性是相同的?

3結論與討論

本研究結果表明,組成型外顯子和可變外顯子的密碼子偏性是相同的?組成型外顯子和可變外顯子的非均勻性是相同的?可以推斷,組成型剪接和可變剪接與外顯子序列的特異性關系不大,或者組成型外顯子和可變外顯子在密碼子偏性或不均勻性上不存在特異性?

組成型外顯子和可變外顯子在密碼子的使用上沒有偏性,可以得出在剪接的時候外顯子一端是否發(fā)生剪接的信息不在外顯子里?為什么某個位點發(fā)生的是組成型剪接,而不是可變剪接,而另一個位點發(fā)生的是可變剪接,而不是組成型剪接,可能是大量的剪接信息是在內(nèi)含子序列?剪接因子?pre-mRNA?DNA大分子?非編碼RNA等的互相作用中產(chǎn)生的?

結合組成型外顯子和可變外顯子之間的密碼子偏性相同的信息進一步猜測,有可能由于進化的選擇,外顯子中的堿基序列是用來編碼蛋白質(zhì)的,這些序列已經(jīng)有了編碼蛋白質(zhì)的功能,不適合有太多的剪接信息;而就平均長度來說,內(nèi)含子比外顯子長得多,而且不需要編碼蛋白質(zhì),適宜于放置可變剪接的調(diào)控模體——剪接信息?

參考文獻:

[1] SMITH C W, VALCARCEL J. Alternative pre-mRNA splicing: The logic of combinatorial control[J].Trends Biochem Sci,2000,25(8):381-388.

[2] GRANTHAM R, GAUTIER C, GOUY M, et al.Codon catalog usage and the genome hypothesis[J]. Nucleic Acids Research,1980,8(1):49-62.

[3] ONOFRIO G D, MOUCHIROUD D, AISSANIi B ,et al. Correlations between the compositional properties of human genes, codon usage, and amino acid composition of proteins[J].J Mol Evol,1991,32(6):504-510.

[4] ZAMA M. Codon usage and secondary structure of mRNA[J]. Nucleic Acids Symp Ser,1990,22(3):93-94.

[5] EYRE-WALKER A. Synonymous codon bias is related to gene length in Escherichia coli:Selection for translational accuracy?[J]. Mol Biol Evol,1996,13(6):864-872.

[6] MORIYAMA E N, POWELL J R. Gene length and codon usage bias inDrosophila melanogaster, Saccharomyces cervisiae and Escherichia coli[J].Nucleic Acids Res,1998,26(13):3188-3193.

[7] BUCHAN J R, AUCOTT L S, STANSFIELD I. tRNA properties help shape codon pair preferences in open reading frames[J]. Nucleic Acids Res,2006,34(3):1015-1027.

[8] GUPTA S K, MAJUMDAR S K, BHATTACHARYA T, et al. Studies on the relationships between the synonymous codon usage and protein secondary structural units[J].Biochem Biophys Res Commun, 2000,269(3): 692-696.

[9] THANARAJ T A, STAMM S, CLARK F, et al. ASD: The alternative splicing database[J]. Nucleic Acids Res, 2004,32(1):64-69.

[10] STAMM S, RIETHOVEN J J, LE TEXIER V, et al. ASD: A bioinformatics resource on alternative splicing[J]. Nucleic Acids Res, 2006,34(S1):46-55.

[11] COMERON J, AGUADE M. An evaluation of measure of synonymous codon usage bias[J]. Journal of Molecular Evolution, 1998, 47(2): 268-274.

[12] 晉宏營,李宏. 核酸序列非均勻指數(shù)(HI)的約化[J].內(nèi)蒙古大學學報(自然科學版),2002,33(3):283-287.