尚方建,石哲芳,王 聰,劉 奇
2019年12月,中國武漢報道了一種由新型冠狀病毒(2019-nCoV)導(dǎo)致的肺炎流行,隨后該病毒在全球各地陸續(xù)發(fā)現(xiàn)。國際病毒分類委員會(International Committee on Taxonomy of Viruses,ICTV)將該病毒命名為嚴(yán)重急性呼吸綜合征冠狀病毒2(Severe acute respiratory syndrome coronavirus 2,SARS-CoV-2)[1]。同時,世界衛(wèi)生組織(WHO)將該病毒引起的肺炎命名為COVID-19(Coronavirus Disease 2019)[2]。截止2020年7月,作為第7種能感染人類的冠狀病毒,SARS-CoV-2已經(jīng)導(dǎo)致全世界15 581 009人確診感染,累計導(dǎo)致635 173人死亡,死亡率4.07%[3]。
在蛋白質(zhì)編碼過程中,某一物種或某一基因通常傾向于使用一種或幾種特定的同義密碼子,這種現(xiàn)象被稱為同義密碼子的使用偏愛性(Synonymous codon csage bias)[4-5]。特異性的核酸偏倚與病毒的致病性有關(guān),可增強其復(fù)制能力以及逃避適應(yīng)性免疫[6]。因此,研究密碼子使用模式的差異,有助于提供病毒進(jìn)化的證據(jù),豐富理解病毒與宿主相互之間的關(guān)系[7]。
因此,本研究分析了SARS-CoV-2影響密碼子使用偏性的因素,并在密碼子偏愛性的基礎(chǔ)上,分析來源于全球20多個國家和地區(qū)的SARS-CoV-2的進(jìn)化關(guān)系。從而了解SARS-CoV-2的基因動態(tài)變化,為其預(yù)防和監(jiān)控提供新的依據(jù)。
1.1.1材料序列來源 本研究選用SARS-CoV-2的基因編碼序列CDS均來源于NCBI(https://pubmed.ncbi.nlm.nih.gov/)。截止至2020年3月末,共下載931條序列,宿主均來源于人。經(jīng)過篩選,用于國家和地區(qū)分析的分別是:澳大利亞7條、巴西1條、中國95條、哥倫比亞1條、芬蘭1條、法國1條、希臘4條、印度4條、伊朗17條、以色列2條、伊拉克1條、秘魯1條、南非1條、菲律賓1條、韓國4條、西班牙24條、意大利7條、日本3條、馬來西亞3條、尼日利亞1條、巴基斯坦3條、泰國2條、土耳其1條、美國722條、越南6條、瑞典1條、中國臺灣3條。
1.1.2軟件 EMBOSS(http://emboss.toulouse.inra.fr/?tdsourcetag=s_pcqq_aiomsg)子程序CUSP計算各密碼子Frequency值,CodonW1.4.2用于計算密碼子各位置的GC含量及有效密碼子數(shù)(Effective number of codons,ENC),使用SigmaPlot14.0繪制ENC-Plot,奇偶規(guī)則分析、中性分析,SPSS Statistics 22.0繪制聚類分析。
1.2.1有效密碼子數(shù)ENC(Effective number of codons) ENC[8-9]被用來描述某個基因的密碼子偏好程度,ENC的取值在20~61范圍之間。20表示極端偏倚,即基因只使用每組同義密碼子中的一個,61表示每個密碼子均被使用,該值的大小與密碼子使用偏性的強弱成負(fù)相關(guān)。當(dāng)ENC>35,表示該基因密碼子使用偏性弱,反之,則確定密碼子偏性強。
1.2.2相對同義密碼子使用度RSCU(Relative synonymous codon usage) RSCU[10]是指某一特定的密碼子在編碼對應(yīng)氨基酸的同義密碼子間的相對使用概率。其計算方法為某一密碼子使用頻率與其在無偏好性使用時預(yù)期頻率之間的比值。若某一密碼子的RSCU值=1,表示該密碼子使用模式無偏好性;反之,提示該密碼子使用存在偏好性。當(dāng)RSCU>1時,表示該密碼子為偏愛密碼子;當(dāng)RSCU值≥1.5,說明該密碼子的使用頻率高,被稱為高頻密碼子。
1.2.3ENC-Plot分析 ENC-Plot關(guān)聯(lián)分析以GC3s為自變量、ENC為因變量構(gòu)建散點圖,分析ENC和GC3s之間的相關(guān)性[11]。同時,按照密碼子使用偏性在只受突變壓力影響而不受選擇壓力影響的條件下構(gòu)建標(biāo)準(zhǔn)曲線。若代表該基因的點在標(biāo)準(zhǔn)曲線上及其附近,表明密碼子使用偏性主要受突變影響而非選擇壓力影響;若代表基因的點落在標(biāo)準(zhǔn)曲線下方較遠(yuǎn)處,表明密碼子組成主要受選擇壓力的影響。
1.2.4中性繪圖分析 中性分析是衡量選擇對密碼子使用偏愛性影響強度的一種分析方法。該方法首先計算基因密碼子第1、2位的GC含量的平均值(GC12)與第3位的GC含量(GC3s)[12]。以GC3s為自變量、GC12為因變量繪制散點圖。代表基因的點分布于對角線上(斜率為1)或者附近,說明密碼子的使用模式受突變的影響大;反之,散點形成曲線斜率越小甚至與橫軸平行,表明基因在密碼子使用模式受環(huán)境選擇的影響大。
1.2.5Parity Rule 2分析 Parity Rule 2分析又稱奇偶規(guī)則分析[13],是研究密碼子堿基組成的一種方法?;蛟诓皇芡蛔兒铜h(huán)境選擇壓力時,堿基內(nèi)部組成是A=T、C=G。而現(xiàn)實中,由于受到基因突變和環(huán)境選擇壓力的影響,基因組編碼序列中的GC使用含量常常不均等,尤其密碼子的第3位明顯偏離鏈內(nèi)相等規(guī)則。該方法分析由4個同義密碼子編碼的氨基酸(丙氨酸、精氨酸、甘氨酸、亮氨酸、脯氨酸、絲氨酸、蘇氨酸和纈氨酸),將G3/(G3+C3)和A3/(A3+T3)的計算結(jié)果繪制成圖。坐標(biāo)(0.5,0.5)代表PR2原則(A=T,C=G)。散點偏離中心的距離與位置表示該基因偏離規(guī)則的程度與方向。
1.2.6聚類分析 根據(jù)密碼子Frequency計算值將來源全球20多個國家和地區(qū)的流行株進(jìn)行分組,相似性較高的數(shù)據(jù)組歸聚在同一組群,相似性較低或無相似性的數(shù)據(jù)組則單獨聚為一類,分析SARS-CoV-2密碼子的進(jìn)化關(guān)系。
2.1有效密碼子數(shù)目分析 SARS-CoV-2基因組是由4個結(jié)構(gòu)蛋白[S蛋白(spike glycoprotein)、E蛋白( envelope)、M蛋白( membrane)、N蛋白(nucleocapsid)]和8個非結(jié)構(gòu)蛋白(ORF1a、ORF1ab、ORF3a、ORF6、ORF7a、ORF7b、ORF8b、ORF10)組成,它們的ENC平均值見圖1。SARS-CoV-2的各蛋白的ENC均值分布在26.60~57.81之間(47.93±5.35)。說明SARS-CoV-2的各蛋白CDS的密碼子使用均存偏倚現(xiàn)象。其中,ORF7b基因的ENC均值是26.60,低于35接近20,提示該蛋白基因的密碼子有極強的偏愛性使用特征,且該蛋白被高度表達(dá)[14],推測其在感染過程中發(fā)揮重要的功能,應(yīng)該引起我們的重視。
圖1 SARS-CoV-2各蛋白ENC值比較Fig.1 Comparison of ENC values of proteins of SARS-CoV-2
2.2SARS-CoV-2的高頻密碼子與相對密碼子使用度 RSCU可直觀的說明密碼子使用偏好,結(jié)果見表1。SARS-CoV-2的12種蛋白的偏愛使用密碼子(RSCU>1)個數(shù)依次是27、24、25、16、27、26、24、20、24、12、28、0。SARS-CoV-2的偏好密碼子以A/U結(jié)尾約占84.98%(215/253)。多數(shù)蛋白(至少6種蛋白)共有的高頻密碼子有ACA、ACU、AGA、AUU、CCU、CUU、GCU、GGU、GUU、UCA、UCU、UUA,在基因工程中有助于提高基因組的表達(dá)量。ORF10沒有偏愛密碼子,表明該基因的密碼子沒有使用偏性。
表1 SARS-CoV-2各蛋白相對同義密碼子使用度(RSCU)Tab.1 SARS-CoV-2 proteins show a preference for synonymous codons
LysAAA1.25 1.14 1.31 1.29 1.26 1.27 1.50 1.71 0.00 2.00 0.00 AAG0.75 0.86 0.69 0.71 0.74 0.73 0.50 0.29 0.00 0.00 0.00 AspGAU1.38 0.33 1.12 1.29 1.26 1.08 1.49 1.00 1.00 1.14 0.00 GAC0.62 1.67 0.88 0.71 0.74 0.92 0.51 1.00 1.00 0.86 0.00 GluGAA1.42 1.71 1.60 1.46 1.47 1.82 0.40 1.00 2.00 1.33 0.00 GAG0.58 0.29 0.40 0.54 0.53 0.18 1.60 1.00 0.00 0.67 0.00 CysUGU1.40 2.00 0.47 1.63 1.64 0.86 0.00 1.00 1.00 1.43 0.07 UGC0.60 0.00 0.62 0.37 0.36 1.14 0.00 1.00 1.00 0.57 0.07 TrpUGG1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 1.00 1.00 0.00 ArgCGU1.282.141.111.451.561.000.00 1.20 0.00 3.000.00 CGC0.14 0.86 1.01 0.61 0.55 1.00 0.00 0.00 0.00 0.00 0.00 CGA0.00 0.43 0.47 0.25 0.320.00 0.00 0.00 0.00 0.00 0.00 CGG0.29 0.00 0.19 0.17 0.14 0.00 0.00 0.00 0.00 0.00 0.00 SerAGU1.03 1.60 1.41 1.57 1.56 1.36 0.00 0.00 0.00 1.28 0.00 AGC0.30 0.80 0.74 0.30 0.23 0.55 0.00 0.86 0.00 0.00 0.00 表1(續(xù))AACodonSMNORF1abORF1aORF3aORF6ORF7aORF7bORF8ORF10ArgAGA2.86 1.29 2.58 2.75 2.52 3.00 0.00 4.80 0.00 3.00 0.00 AGG1.43 1.29 0.64 0.76 0.92 1.00 6.00 0.00 0.00 0.00 0.00 GlyGGU2.30 1.43 1.51 2.55 2.61 2.00 0.00 1.00 0.00 2.40 0.14 GGC0.73 0.86 1.15 0.61 0.64 0.86 0.00 2.00 0.00 0.00 0.14 GGA0.82 1.71 1.17 0.74 0.67 1.14 0.00 1.00 0.00 1.60 0.00 GGG0.15 0.00 0.17 0.10 0.09 0.00 0.00 0.00 0.00 0.00 0.00
2.3ENC-Plot分析 通過ENC-Plot分析可以進(jìn)一步了解SARS-CoV-2密碼子使用偏性的影響因素。如圖2所示,SARS-CoV-2的多數(shù)蛋白位于標(biāo)準(zhǔn)曲線略下方,說明其密碼子偏倚除了受突變因素的影響,選擇壓力的影響對其也十分重要。值得關(guān)注的是,ORF10蛋白的基因位于標(biāo)準(zhǔn)曲線上,概率為99.6%(829/832),表明突變壓力對該蛋白的密碼子偏愛性的影響更為重要。571個ORF7b蛋白基因全部在距離標(biāo)準(zhǔn)曲線較遠(yuǎn)的下方,表明自然選擇是塑造ORF7b蛋白的密碼子使用方式的主要因素,而突變對該蛋白的作用極其微弱。
圖2 SARS-CoV-2的各蛋白ENC-Plot分析Fig.2 ENC-Plot analysis of each protein of SARS-CoV-2
2.4中性繪圖分析 進(jìn)一步分析影響SARS-CoV-2密碼子偏愛性的因素,如圖3所示,S、M、N、E和ORF1ab蛋白的線性回歸系數(shù)(RC)分別是0.363 0、0.090 0、3.482 8、0.034 8和0.226 7,回歸模型均有統(tǒng)計學(xué)意義(P<0.05)。從結(jié)果中可見,選擇壓力對S、M、N、E和ORF1ab等蛋白基因的作用強于突變壓力。
圖3 SARS-CoV-2部分蛋白的中性繪圖分析Fig.3 Neutral plot analysis of partial protein coding genes of SARS-CoV-2
2.5PR2分析 為了消除定向突變(排除2或6個同義密碼子的氨基酸)對密碼子偏倚的影響,繪制了PR2分析,結(jié)果見圖4。其中,所有CDS密碼子的第3位A≠U、C≠G,說明SARS-CoV-2的密碼子使用是不平等的。A3/(A3+T3)<0.5的概率是99.9%(8 279/8 282),G3/(G3+C3)<0.5的概率是80.0%(6 625/8 282)。即密碼子第3位T的使用頻率高于A,C的使用頻率高于G。多數(shù)點位于y<0.5以下,圖中顯示左下方有5 212個點,右下方有1 656個點。提示該病毒的第3位密碼子C/T的使用頻率較高,即嘧啶的使用頻率高于嘌呤。在調(diào)控SARS-CoV-2密碼子偏好性的影響因素中,突變和自然選擇對SARS-CoV-2的調(diào)控同時起著積極的作用。
圖4 SARS-CoV-2的各蛋白編碼基因的PR2分析Fig.4 PR2 analysis of each protein coding gene of SARS-CoV-2
2.6聚類分析 基于密碼子偏愛性指標(biāo)中各密碼子使用頻率(Frequency),將SARS-CoV-2以國家和地區(qū)分組做聚類分析,分析來自全球20多個國家和地區(qū)的SARS-CoV-2密碼子偏愛性進(jìn)化關(guān)系(圖5)。S蛋白基因有兩個聚集群,在第一個聚集群中,來源美國、以色列和希臘等國家的SARS-CoV-2緊密聚集為一類,緊密聚集表明密碼子使用偏愛性具有較高的相似性,而法國和秘魯則單獨聚為一類。ORF1ab蛋白基因中,來源美國的SARS-CoV-2單獨聚類。M蛋白基因中,來源越南的單獨聚類;N和E蛋白基因中,來源韓國的單獨聚類??梢?,SARS-CoV-2的各蛋白基因密碼子使用偏性在全球20多個國家和地區(qū)均有不同程度的聚類,提示SARS-CoV-2的密碼子在多個國家和地區(qū)的流行中逐步發(fā)生改變,這種改變可能與密碼子的同義替換和傳播路線有關(guān)。
圖5 SARS-CoV-2的部分蛋白聚類分析Fig.5 Cluster analysis of partial proteins of SARS-CoV-2
SARS-CoV-2的出現(xiàn)給全球公共衛(wèi)生帶來了嚴(yán)峻的挑戰(zhàn),SARS-CoV-2具有很強的傳染性,通過直接接觸和氣溶膠等途徑迅速傳播[15]。雖然疫情在中國得到有效控制,但是海外疫情仍十分嚴(yán)峻,研究SARS-CoV-2的密碼子偏愛性及其影響因素,對其監(jiān)控、預(yù)防和病毒溯源等有著深遠(yuǎn)的意義。
密碼子偏倚的影響因素諸多,包括突變壓力、環(huán)境選擇、基因長度[16]、tRNA豐富度[17]、器官特異性[18]等。研究表明,密碼子使用偏愛性弱的病毒更能適應(yīng)各種具有不同密碼子使用偏好的宿主[19]。ENC結(jié)果顯示,SARS-CoV-2的密碼子偏倚較弱,且密碼子使用偏性不穩(wěn)定,提示其在感染未知宿主方面仍有巨大潛能,這與Mahmoud等[20]研究冠狀病毒的論證相似。RSCU值提示SARS-CoV-2的密碼子多以A/U結(jié)尾。此外,總結(jié)各蛋白基因的高頻密碼子也有助于設(shè)計減毒疫苗和優(yōu)化基因的表達(dá)量。
ENC-Plot分析、中性繪圖分析和PR2分析顯示,SARS-CoV-2的密碼子偏愛性同時受突變壓力和自然選擇的雙重影響,且以自然選擇為主,與田明明等[21]對人源SARS-CoV的研究結(jié)果相似;而與Fernando早期研究認(rèn)為SARS-CoV-2的密碼子使用主要受突變影響的結(jié)論不同[22]。我們推測,自然選擇成為影響SARS-CoV-2密碼子偏愛性的主要因素,這可能與其跨物種傳播及近期快速在各地區(qū)、各種族人群之間的快速傳播有關(guān)。
來源全球20多個國家和地區(qū)的SARS-CoV-2密碼子偏愛性進(jìn)化關(guān)系的聚類分析顯示,韓國、越南、法國、秘魯、美國和西班牙的SARS-CoV-2的部分蛋白基因的密碼子使用偏性與其他國家有明顯差別,可能與病毒的本土起源及大量傳播有關(guān)。本研究還發(fā)現(xiàn),美國的SARS-CoV-2毒株與中國地區(qū)的流行株密碼子偏愛性差異較大,分屬不同聚類,而與以色列和希臘等國家來源的SARS-CoV-2密碼子偏性有著較高的相似性,該結(jié)果提示美國SARS-CoV-2流行毒株來源歐洲及亞洲其他國家。這也與Joseph R等的研究結(jié)論符合,即美國COVID-19疫情早期是由歐洲毒株傳入所致,并在美國國內(nèi)傳播[23]。
綜上所述,環(huán)境選擇對SARS-CoV-2多數(shù)蛋白基因的密碼子的偏愛性起主要作用,但突變也具有積極的推動作用。SARS-CoV-2在不同國家和種族之間的傳播很可能是加速基因變異的誘因,這提示我們?nèi)圆荒芊潘删瑁瑫r應(yīng)加強對SARS-CoV-2密碼子偏愛性進(jìn)化的檢測和分析。
利益沖突:無