楊 興,劉 西,盛夢(mèng)詩(shī),劉秋艷,姜丹丹
(大理大學(xué)基礎(chǔ)醫(yī)學(xué)院,云南大理 671000)
密碼子是核酸與蛋白質(zhì)之間信息傳遞的基本單位,在生命活動(dòng)中扮演著重要的角色。密碼子有64種,其中3種為終止密碼子,不編碼氨基酸,其余61種密碼子都參與氨基酸的編碼,它們共編碼20種氨基酸,由此造成了密碼子冗余的現(xiàn)象,即一種氨基酸對(duì)應(yīng)多種密碼子,這些編碼同一種氨基酸的密碼子稱為同義密碼子(synonymous codon)[1]。自20世紀(jì)60年代開始,科學(xué)家們就對(duì)密碼子的使用特性進(jìn)行了深入研究,發(fā)現(xiàn)同義密碼子的使用頻率并不相等,不同物種甚至同一物種不同基因間其同義密碼子的使用頻率大有不同,具有一定的偏愛性,這種現(xiàn)象稱為密碼子使用偏性(codon usage bias)[2]。影響密碼子使用偏性的因素有很多,包括突變壓力[3]、自然選擇[3]、基因長(zhǎng)度[4]、GC含量[5]、蛋白結(jié)構(gòu)[6]、內(nèi)含子長(zhǎng)度[7]、基因的進(jìn)化年齡[8]、環(huán)境壓力[9]、編碼蛋白的親水性與芳香性[10]等。研究物種的密碼子偏好性及其影響因素,對(duì)于理解生物適應(yīng)環(huán)境的分子機(jī)制,探討近緣物種間的進(jìn)化關(guān)系,發(fā)現(xiàn)新基因[11],預(yù)測(cè)未知基因的功能、預(yù)測(cè)基因表達(dá)水平以及基因的異源表達(dá)具有重要的意義。
亞洲帶絳蟲是人畜共患蠕蟲,廣泛分布于東南亞,包括韓國(guó)、泰國(guó)、印度尼西亞等國(guó)以及我國(guó)的云南、廣西、貴州、四川、臺(tái)灣等省份[12]。先前人們對(duì)亞洲帶絳蟲的研究主要集中在形態(tài)學(xué)、流行病學(xué)、線粒體遺傳學(xué)、蛋白表達(dá),而基于基因組水平的生物信息學(xué)研究卻鮮見報(bào)道。2016年,中國(guó)農(nóng)業(yè)科學(xué)院蘭州獸醫(yī)研究所家畜寄生蟲病創(chuàng)新團(tuán)隊(duì)成功解析了亞洲帶絳蟲基因組[13],并從中預(yù)測(cè)出13 323個(gè)基因,這為亞洲帶絳蟲基因表達(dá)和密碼子偏性研究打下了基礎(chǔ)。本研究以亞洲帶絳蟲基因組數(shù)據(jù)為材料,通過(guò)分析亞洲帶絳蟲基因密碼子組成的各項(xiàng)指標(biāo),研究其密碼子使用特性及影響密碼子使用偏性的因素,以期為亞洲帶絳蟲重要功能基因的表達(dá)、分子進(jìn)化和物種進(jìn)化研究提供參考。
從http://www.wormbase.org的亞洲帶絳蟲基因組數(shù)據(jù)中獲取了13 323條編碼序列,從中選擇以ATG為起始密碼子,TAA、TAG、TGA為終止密碼子,且長(zhǎng)度大于300 bp的11 203條亞洲帶絳蟲CDS序列作為分析樣本。
通過(guò)Perl語(yǔ)言程序?qū)π蛄羞M(jìn)行篩選和處理。
利用CodonW 1.4.4軟件(http://codonw.sourceforge.net)計(jì)算密碼子組成和偏性指標(biāo)。密碼子組成的相關(guān)指標(biāo):①GC含量;②同義密碼子第3位上各堿基含量(A3s、T3s、G3s、C3s);③密碼子第1、2、3位的G+C含量(GC1、GC2、GC3);④密碼子第1、2位上GC含量的平均值(GC12);⑤同義密碼子第3位上的GC含量(GC3s)。密碼子使用偏性的相關(guān)指標(biāo):①同義密碼子相對(duì)使用度;②有效密碼子數(shù)的取值范圍為20~61之間,值越小表明基因的密碼子使用偏性越大;③密碼子適應(yīng)指數(shù)等。
中性繪圖分析(neutrality plot)是一種衡量密碼子偏性形成原因的有效方法。中性繪圖分析是以GC12為縱坐標(biāo),GC3s為橫坐標(biāo),通過(guò)分析GC12與GC3s之間的相關(guān)性來(lái)研究密碼子偏性的影響因素。若GC12與GC3s顯著相關(guān)且回歸斜率接近1,則表明密碼子3個(gè)位置的堿基組成無(wú)差異,密碼子使用受到突變的影響。如果GC12與GC3s不相關(guān)且回歸線斜率接近0,則表明密碼子3個(gè)位置的堿基組成存在差異,選擇是密碼子使用偏性的主要力量[14]。
在DNA的兩條互補(bǔ)鏈之間,如果不存在任何突變或選擇壓力上的偏性,則堿基A的含量應(yīng)與T相等,G與C相等。這種方法針對(duì)的是有4種同義密碼子的氨基酸,包括絲氨酸(TCA、TCG、TCT、TCC)、亮氨酸(CTA、CTG、CTC、CTT)、精氨酸(CGA、CGT、CGC、CGG)、脯氨酸、蘇氨酸、纈氨酸、丙氨酸及甘氨酸。以各基因中上述氨基酸對(duì)應(yīng)密碼子的A3/(A3+T3)為縱坐標(biāo),G3/(G3+C3)為橫坐標(biāo)制圖,以(0.5,0.5)坐標(biāo)為中心,從這個(gè)中心出發(fā)的矢量代表了奇偶偏好的方向和程度[15]。
對(duì)應(yīng)性分析(corresponding analysis,COA)一種廣泛用于分析不同基因間同義密碼子使用偏性主要原因的方法。該方法是將所有基因分布到59維向量空間上,并從這個(gè)多維空間中選取影響力最大的2個(gè)軸來(lái)研究基因向量和基因間的RSCU差異,進(jìn)而推測(cè)影響密碼子使用偏好發(fā)生的原因[16]。
參照文獻(xiàn)[17]方法,以高表達(dá)基因(核糖體蛋白基因、翻譯延長(zhǎng)因子基因和Actin蛋白基因等)的序列作為參考,計(jì)算出亞洲帶絳蟲各基因的CAI值。再根據(jù)各基因CAI值的大小進(jìn)行排序,得到高表達(dá)組和低表達(dá)組(各占基因總數(shù)的5%),計(jì)算出各組的RSCU值,最后通過(guò)卡方檢驗(yàn)確定出最優(yōu)密碼子。
經(jīng)篩選,共獲得11 203條CDS序列用于密碼子分析,平均長(zhǎng)度為1 386 bp。結(jié)果顯示,CDS序列的平均GC含量為50.20%,高于整個(gè)基因組的GC含量(43.15%),各序列的GC含量分布范圍在25.9%~74.1%(圖1)。密碼子3個(gè)位置的平均GC含量分別為GC1(43.90%)、GC2(56.60%)、GC3(50.10%)。GC3s分布范圍在10.8%~97.5%,均值為50.11%。
圖1 亞洲帶絳蟲CDS序列的GC含量分布
有效密碼子數(shù)ENC反映的是一個(gè)基因中所有用到密碼子種類的多少,其數(shù)值范圍在20~61。一般情況下,ENC值越小,密碼子偏好程度越大,基因表達(dá)量越高。亞洲帶絳蟲基因ENC分布范圍為20.64~61,平均值56.08。ENC取值35是區(qū)分密碼子偏好性強(qiáng)弱的標(biāo)準(zhǔn)[18]。亞洲帶絳蟲基因中ENC<35的有61條,占總數(shù)量的0.54%,ENC>35的有11 142條,占總數(shù)的99.45%。結(jié)果表明,亞洲帶絳蟲基因密碼子使用偏好程度整體較低,僅有部分基因具有較強(qiáng)的偏好性。
由圖2分析結(jié)果可以看出,GC12與GC3s呈現(xiàn)出正相關(guān),但差異性不顯著(回歸系數(shù)為0.061 5),說(shuō)明亞洲帶絳蟲基因密碼子不同位置的堿基組成差異較大,其密碼子的使用更多地受到了選擇壓力的影響。
圖2 中性繪圖分析結(jié)果
以亞洲帶絳蟲基因組各基因的ENC值為縱坐標(biāo),GC3值為橫坐標(biāo)作圖(圖3)。圖中大部分點(diǎn)都分布在遠(yuǎn)離期望曲線的地方,只有少部分基因點(diǎn)分布在期望曲線周圍,說(shuō)明除了突變壓力影響亞洲帶絳蟲密碼子的使用外,選擇壓力等其他因素也在亞洲帶絳蟲密碼子使用偏性的形成中起到重要作用。
圖3 亞洲帶絳蟲ENC-plot曲線
為了更準(zhǔn)確的顯示觀測(cè)ENC與期望ENC之間的差異,進(jìn)行了(ENCexp-ENCobs)/ENCexp計(jì)算。如圖4所示,(ENCexp-ENCobs)/ENCexp的比值主要集中在-0.1~0.1之間,說(shuō)明觀測(cè)ENC與期望ENC之間存在較小的差異。這一結(jié)果說(shuō)明突變不是影響亞洲帶絳蟲密碼子使用的唯一因素,但確實(shí)是一個(gè)重要的因素。
圖4 ENC比值頻率分布
采用PR2-plot分析了亞洲帶絳蟲各基因密碼子中4個(gè)堿基組分嘌呤(A和G)與嘧啶(T和C)之間的關(guān)系。如圖5所示,大部分基因都集中在第3象限,表明密碼子的第3位中C和T使用頻率高于A和G,4種堿基均不均衡使用,暗示亞洲帶絳蟲密碼子使用模式除了受到突變影響外,還受到了其他因素(如選擇)的影響。
圖5 PR2分析
本研究基于RSCU對(duì)應(yīng)性分析發(fā)現(xiàn),第一軸存在6.54%的差異,另三軸依次分別為4.91%、4.07%、3.43%,說(shuō)明第一軸對(duì)亞洲帶絳蟲密碼子使用偏性影響最大。為了研究GC含量對(duì)密碼子偏性的影響,以第一、二軸為縱、橫坐標(biāo)將各基因分布于平面上(圖6),可以看出GC含量高于60%和GC含量低于45%的兩類基因集中分布在不同的區(qū)域,表明GC含量對(duì)密碼子使用模式起到了重要作用。
圖6 基于RSCU的對(duì)應(yīng)性分析
有研究表明,蛋白質(zhì)的親水性(Gravy)與芳香度(Aromaticity)影響著密碼子使用偏性[19-20]。為此,以亞洲帶絳蟲基因的ENC值為縱坐標(biāo)、Gravy和Aromaticity為橫坐標(biāo)作圖和相關(guān)性分析(圖7和圖8),結(jié)果顯示,亞洲帶絳蟲ENC值分別與Gravy和Aromaticity值顯著相關(guān)(r=-0.082 5,P<0.01;r=0.055,P<0.01),提示蛋白質(zhì)的親水性和芳香度與密碼子使用偏性有關(guān)。
圖7 ENC與蛋白親水性的關(guān)系繪圖
圖8 ENC與蛋白芳香性的關(guān)系繪圖
在果蠅[21]、豬帶絳蟲[19]、棘球絳蟲[22]等多種生物基因組中發(fā)現(xiàn),密碼子使用偏性與基因的長(zhǎng)度有關(guān)。為探究這一現(xiàn)象是否也存在于亞洲帶絳蟲中,以基因的ENC值為縱坐標(biāo)、蛋白長(zhǎng)度(protein length)為橫坐標(biāo)作圖并進(jìn)行相關(guān)性分析(圖9)。結(jié)果顯示,亞洲帶絳蟲基因的ENC值與蛋白質(zhì)長(zhǎng)度呈顯著正相關(guān)(P<0.01),提示蛋白長(zhǎng)度影響著亞洲帶絳蟲密碼子的使用模式,長(zhǎng)度越長(zhǎng),其密碼子的使用偏性越弱。
圖9 ENC與蛋白長(zhǎng)度的關(guān)系繪圖
采用Liu Q的方法對(duì)亞洲帶絳蟲基因組序列進(jìn)行最優(yōu)密碼子的確定,共篩選出UUC、CUC、CUG、AUC、GUC、GUG、UAC、CAC、CAG、AAC、AAG、GAC、GAG、UCC、UCG、CCC、CCG、ACG、GCG、UGC、CGU、CGA、CGG、GGU、GGC共25個(gè)最優(yōu)密碼子,分別編碼Phe、Leu、Ile、Val、Tyr、His、Gln、Asn、Lys、Asp、Glu、Ser、Pro、Thr、Ala、Cys、Arg、Gly共18種氨基酸(表1)。這25個(gè)最優(yōu)密碼子中以G、C結(jié)尾的有22個(gè),以U結(jié)尾的2個(gè),以A結(jié)尾的1個(gè),表明亞洲帶絳蟲合成蛋白質(zhì)時(shí)優(yōu)先使用以G或C結(jié)尾的密碼子。
表1 亞洲帶絳蟲基因組中高、低表達(dá)樣本的密碼子用法
生物最本質(zhì)的特征是進(jìn)化,而密碼子使用模式則是生物進(jìn)化過(guò)程中最重要的證據(jù)。研究不同物種基因組中密碼子的使用模式以及影響這種模式形成的因素,對(duì)于了解基因組特征和分子進(jìn)化具有重要的啟示作用。亞洲帶絳蟲作為重要的人獸共患寄生蟲,由于基因組數(shù)據(jù)的缺乏,其遺傳背景和分子進(jìn)化研究起步較晚,而國(guó)內(nèi)外對(duì)亞洲帶絳蟲密碼子偏好性相關(guān)報(bào)道更是少之又少。本研究為了了解亞洲帶絳蟲基因組密碼子使用偏好特征及其可能的影響因素,首先對(duì)預(yù)測(cè)的亞洲帶絳蟲CDS序列進(jìn)行篩選,去除長(zhǎng)度小于300 bp的序列,最后共獲得11 203條CDS用于密碼子分析。
目前,用于解釋密碼子使用偏性形成原因的理論主要有兩種,一種是中性理論,另一種是“選擇-突變-漂變”模型[23]。中性理論認(rèn)為密碼子第3位的突變是中性選擇結(jié)果,因此,同義密碼子使用頻率應(yīng)該是隨機(jī)的?!斑x擇-突變-漂變”模型認(rèn)為密碼子使用偏性是突變壓力、遺傳漂變和弱的自然選擇的3種力量共同作用的結(jié)果。然而,近年來(lái)隨著越來(lái)越多物種的基因組的測(cè)序完成,密碼子研究的不斷深入,發(fā)現(xiàn)這兩種理論已不足以解釋這一現(xiàn)象了,更多影響密碼子使用模式的因素被報(bào)道出來(lái)。在本研究中,影響絳蟲密碼子使用的因素至少包括以下幾種:突變、選擇、堿基組成、基因長(zhǎng)度、蛋白的親水性及芳香度。
堿基組成是基因組的一個(gè)重要特征,也是影響密碼子使用偏性的重要因素[19]。GC含量高的物種如細(xì)菌、古細(xì)菌、真菌、小麥、大麥和水稻等,其密碼子的第3位偏向于以G或C結(jié)尾[24-25]。同時(shí),AT含量較高的物種如旋盤尾絲蟲、山羊支原體和惡性瘧原蟲等物種密碼子偏向以A或T結(jié)尾[26-28]。在本研究中,亞洲帶絳蟲編碼區(qū)GC含量為50.20%,理論上密碼子第3位會(huì)稍偏好以G或C結(jié)尾,而本研究實(shí)際觀察結(jié)果與預(yù)期結(jié)果一致,提示堿基組成是影響亞洲帶絳蟲密碼子使用模式的重要因素。
通常,密碼子的使用偏性會(huì)受到基因長(zhǎng)度的影響[19]。在本文中,基因長(zhǎng)度似乎對(duì)亞洲帶絳蟲密碼子使用偏性起到了重要的作用(即密碼子使用偏性與基因長(zhǎng)度呈顯著負(fù)相關(guān))。相似的結(jié)果已在多種生物中發(fā)現(xiàn),如酵母、秀麗線蟲、果蠅、擬南芥、白花蠅子草等[20]。Moriyama E N等[29]認(rèn)為有一種理論可以解釋這種現(xiàn)象,即如果長(zhǎng)度較長(zhǎng)的基因和長(zhǎng)度較短的基因行使同樣的功能,則那些較長(zhǎng)的基因需要消耗更多的能量并且對(duì)機(jī)體是不利的,因此在選擇壓力的作用下,高表達(dá)基因縮短了長(zhǎng)度,最終導(dǎo)致了密碼子使用偏性與基因長(zhǎng)度呈負(fù)相關(guān)。
確定最優(yōu)密碼子的首要環(huán)節(jié)是建立高、低表達(dá)樣本庫(kù),而建立高、低表達(dá)樣本庫(kù)的方法有兩種,一種是根據(jù)ENC值的大小,另一種是根據(jù)CAI值的大小。建庫(kù)方法不同,結(jié)果亦略有差異。本研究是在后一種方法的基礎(chǔ)上,進(jìn)一步利用卡方顯著性檢驗(yàn)來(lái)確定最優(yōu)密碼子的。經(jīng)鑒定,共25種密碼子被確定為最優(yōu)密碼子,除CGU、CGA 和GGU外,其余均以G或C結(jié)尾。相似的結(jié)果已見于絳蟲綱的其他物種包括豬帶絳蟲[19]、牛帶絳蟲[20]、多房棘球絳蟲[22]、細(xì)粒棘球絳蟲[22]、微小膜殼絳蟲[22]等,這可能暗示著這些近緣物種間經(jīng)歷了相似選擇進(jìn)化壓。亞洲帶絳蟲最優(yōu)密碼子的確定對(duì)于今后功能基因的外源表達(dá)、簡(jiǎn)并引物的設(shè)計(jì)及生物學(xué)研究具有重要的理論和現(xiàn)實(shí)意義。