慎佩晶 張宇飛 李喜蓮 高強(qiáng) 徐洋 黃振遠(yuǎn) 蔣文枰 陳雪峰
摘要 ? ?以羅氏沼蝦轉(zhuǎn)錄組數(shù)據(jù)為數(shù)據(jù)來(lái)源,通過(guò)研究羅氏沼蝦轉(zhuǎn)錄組的密碼子使用參數(shù)(如有效密碼子的數(shù)量和相關(guān)密碼子堿基的具體組成信息等),并且采用Codon W 1.4.4深入開展了統(tǒng)計(jì)和計(jì)算。研究結(jié)果顯示,同義密碼子第三位核苷酸和表達(dá)基因密碼子GC含量均值分別為0.40和0.45。從整體上看,ENC的平均值等于52.72,其中絕大部分的ENC值小于35。采用高頻密碼子的研究方法獲得GAU、GAA、UUU、AAU、CCA等5個(gè)高頻密碼子。通過(guò)最優(yōu)碼子分析法確定16個(gè)最優(yōu)密碼子,編碼10個(gè)氨基酸,最優(yōu)密碼子除UUG外均以A/T結(jié)尾。而且把它和大腸桿菌、酵母、果蠅以及人類等6種生物的密碼子使用頻率開展比較,結(jié)果表明,與大腸桿菌和果蠅存在較大差異,而與酵母最為接近。研究結(jié)果可為羅氏沼蝦功能基因和分子育種等提供理論基礎(chǔ)。
關(guān)鍵詞 ? ?羅氏沼蝦;偏好性;轉(zhuǎn)錄組;密碼子
中圖分類號(hào) ? ?S968.12 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼 ? ?A
文章編號(hào) ? 1007-5739(2020)16-0175-04
Analysis of ?Codon ?Usage ?Bias ?Based ?on ?Macrobrachium ?rosenbergii ?Transcriptome
SHEN Pei-jing ? ?ZHANG Yu-fei ? ?LI Xi-lian ? ?GAO Qiang ? ?XU Yang ? ?HUANG Zhen-yuan ? ?JIANG Wen-ping ? ?CHEN Xue-feng *
(Genetics and Breeding Research Laboratory, Agriculture Ministry Key Laboratory of Healthy Freshwater Aquaculture, Key Laboratory of Freshwater Aquatic Animal Genetic and Breeding of Zhejiang province, Zhejiang Institute of Freshwater Fisheries,Huzhou Zhejiang 313001)
Abstract ? ?Using the transcriptome data of Macrobrachium rosenbergii as the data source, CodonW1.4.4 software was used to analyze and study the codon usage, and other codon usage parameters such as the transcript base composition and actual codon number of Macrobrachium rosenbergii, and the expression genes of Macrobrachium rosenbergii were found. The results showed that the average GC content of the codon was 0.45, and the average GC content of the third nucleotide of the synonym codon was 0.40. The mean ENC of the expressed gene was 52.72, and most of the ENC values were less than 35. Five high-frequency codons of GAU, GAA,UUU, AAU and CCA were determined by high-frequency codon analysis. Sixteen optimal codons were determined by optimal codon analysis and 10 amino acids were encoded. The optimal codons all ended in A/T except UUG. Comparing the codon usage frequency of Macrobrachium rosenbergii with six other species such as Escherichia coli, Saccharomyces cervisiae, Drosophila melanogaster, Homo sapiens, etc., it was found to be quite different from Escherichia coli and Drosophila melanogaster, but it was almost consistent with Saccharomyces cerevisiae. The research provided a theoretical basis for functional genome research and molecular breeding of Macrobrachium rosenbergii.
Key words ? ?Macrobrachium rosenbergii; usage bias; transcriptome; codon
羅氏沼蝦是我國(guó)重要的經(jīng)濟(jì)型甲殼動(dòng)物之一,目前,國(guó)內(nèi)的羅氏沼蝦養(yǎng)殖規(guī)模已高居全球首位,2018年我國(guó)羅氏沼蝦苗種生產(chǎn)量達(dá)到3 000億尾,養(yǎng)殖面積大約14萬(wàn)hm2,總產(chǎn)量60萬(wàn)t。羅氏沼蝦主產(chǎn)區(qū)集中在浙江湖州、嘉興和杭州,江蘇高郵和江都,廣東高要、中山和珠海等地,近年來(lái)呈現(xiàn)向內(nèi)陸及北方地區(qū)擴(kuò)展的趨勢(shì)[1]。隨著高通量測(cè)序技術(shù)的進(jìn)一步推廣,miRNA組學(xué)、轉(zhuǎn)錄組已知分子標(biāo)記的開發(fā)已運(yùn)用于羅氏沼蝦的高產(chǎn)、抗病等重要經(jīng)濟(jì)性狀的研究。
作為信使RNA最重要的編碼單元之一,三聯(lián)密碼子所對(duì)應(yīng)的氨基酸的翻譯起始或終止蛋白。研究團(tuán)隊(duì)開展密碼子偏好性研究,通過(guò)分子標(biāo)記的方式來(lái)進(jìn)行輔助性育種工作,有助于確定物種間的進(jìn)化關(guān)系,新基因的挖掘和其他生物學(xué)進(jìn)一步使用,我國(guó)在該領(lǐng)域已開展數(shù)十年的研究[2]。當(dāng)前密碼子的偏好性研究,在水生動(dòng)物研究中得到廣泛應(yīng)用。我國(guó)魚類研究大量使用了密碼子偏好性研究,例如團(tuán)頭魴密碼子使用偏好性差異與親緣關(guān)系相一致,因而遺傳密碼子的偏好性能夠較好地反映鲌亞科魚類的進(jìn)化關(guān)系,為探究屬內(nèi)遺傳變異及密碼子優(yōu)化和相關(guān)育種工作提供了分子材料[3]。金魚的密碼子偏好性與酵母的密碼子偏好性使用差異最大,而與斑馬魚的密碼子偏好性一致[4]。在貝類研究方面,由于優(yōu)化了太平洋牡蠣 fut2基因的相關(guān)密碼子,從而為其特異性富集諾如病毒方面的基礎(chǔ)科學(xué)研究,尤其是分子生物學(xué)機(jī)理方面的探索打下了良好的理論基礎(chǔ)[5]。鰲蝦次目功能基因密碼子偏好性研究,為螯蝦次目新基因的發(fā)現(xiàn)功能基因表達(dá)提供了可靠依據(jù)[6]。但是當(dāng)前尚未見到與羅氏沼蝦基因組序,蛋白質(zhì)編碼密碼子的偏好性研究分析,近年來(lái)隨著深度測(cè)序技術(shù)的進(jìn)一步發(fā)展,轉(zhuǎn)錄組測(cè)序?yàn)槊艽a子偏好性的進(jìn)一步研究提供了數(shù)據(jù)來(lái)源,本研究以羅氏沼蝦卵巢組織轉(zhuǎn)錄組測(cè)序結(jié)果為研究數(shù)據(jù),對(duì)羅氏沼蝦功能基因的密碼子偏好性特征進(jìn)行分析,以期為羅氏沼蝦新基因測(cè)序功能基因組研究、外源基因密碼子的改造以及優(yōu)化打下理論基礎(chǔ),同時(shí)促進(jìn)分子育種方面的深入研究。
1 ? ?材料與方法
1.1 ? ?試驗(yàn)材料
以本課題組羅氏沼蝦卵巢組織的轉(zhuǎn)錄組結(jié)果為原始數(shù)據(jù),為減少樣本誤差,篩選出6 629條具有完整開放閱讀框的序列,每條序列堿基長(zhǎng)度均大于300 bp,并且以ATG為起始密碼子,以TAA、TAG或TGA為終止密碼子,且序列中間無(wú)N或者終止密碼子。
1.2 ? ?試驗(yàn)方法
1.2.1 ? ?密碼子偏好性相關(guān)研究。通過(guò)在線CUSP程序以及Codon W 1.4.4(網(wǎng)址為http://codonw.sourceforge.net)對(duì)羅氏沼蝦6 629條具有完整閱讀框的序列進(jìn)行密碼子組成和偏好性研究。計(jì)算GC、GC1、GC2、GC3、GC3s、氨基酸數(shù)(L_AA)、最優(yōu)密碼子使用頻率(即FOP)、密碼子適應(yīng)指數(shù)(即CAI)、密碼子偏愛指數(shù)(即CBI)、有效密碼子數(shù)(即ENC)、芳香性(aromo)、平均親水性值(gravy)等。
1.2.2 ? ?中性分析。中性分析(neutrality plots)是以GC12(GC1和GC2的平均值)為縱坐標(biāo)、以GC3為橫坐標(biāo)繪圖,分析密碼這3個(gè)點(diǎn)位上GC含量之間的聯(lián)系,從而研究密碼子在突變作用和選擇中心理論作出的貢獻(xiàn)[7]。若GC3與GC12兩者間具有內(nèi)在的關(guān)聯(lián),表示密碼子的使用偏好性在進(jìn)化和遺傳過(guò)程中受到突變作用的影響;如果兩者不存在相關(guān)性,則表示在自然進(jìn)化的有關(guān)過(guò)程中,自然選擇壓力在一定的程度上影響了該偏好性[8]。
1.2.3 ? ?ENC曲線分析。ENC曲線是以GC3s為橫坐標(biāo)、以ENC為縱坐標(biāo),繪制ENC-GC3s分布圖,用來(lái)研究對(duì)該偏好性產(chǎn)生影響的主要因子,包括突變偏向性和突變壓力等[9]。一些密碼子僅受到突變偏向性即GC的約束,其ENC會(huì)在標(biāo)準(zhǔn)曲線的上方或附近位置。如果ENC在曲線的下方或遠(yuǎn)離曲線的位置,那么說(shuō)明自然選擇對(duì)該偏好性發(fā)揮了關(guān)鍵性作用。
1.2.4 ? ?最優(yōu)密碼子分析。它的確定過(guò)程如下[10]:針對(duì)以大小來(lái)排序的ENC數(shù)據(jù),進(jìn)行的下限及上限相關(guān)區(qū)域均為10%的基因編碼區(qū)序列的有效選擇,然后分析及對(duì)比它們各自的RSCU值,分析確定最優(yōu)密碼子。如果兩者RSCU值之差大于0.3,此外對(duì)于低表達(dá)以及高表達(dá)基因子集中,RSCU分別小于或是超過(guò)1.0,那么就認(rèn)為它是最優(yōu)密碼子[11]。
2 ? ?結(jié)果與分析
2.1 ? ?羅氏沼蝦轉(zhuǎn)錄組密碼子組成和使用
羅氏沼蝦轉(zhuǎn)錄組6 629個(gè)全長(zhǎng)基因序列的長(zhǎng)度變化范圍為303~9 351 bp,平均值為1 284 bp,所包含基因的G+C含量變化范圍為0.31~0.67,平均為0.45(表1);同義密碼子第3位G+C的含量變化范圍為0.19~0.93,平均數(shù)為0.40。這些數(shù)據(jù)證實(shí),在其第三位核苷酸中,相應(yīng)的GC含量并不存在非常顯著的偏好性;然而與GC總含量相比,各個(gè)基因之間所對(duì)應(yīng)的GC3含量則有著更為廣闊的分布區(qū)間范圍。從密碼子第3位的堿基組成來(lái)看,第3位的堿基含量非平均分布,其分布趨勢(shì)是T含量最高,A含量次之,G和C含量較低;芳香族氨基酸(Aro)的頻率范圍為0.00~0.22。
羅氏沼蝦密碼子第1、2、3位的GC含量分別為51.58%、40.19%、41.24%,其第1位的GC含量高于第2、3位,這表明第1位密碼子是密碼子發(fā)生偏向性的主要作用力之一。
2.2 ? ?中性分析
中性分析(Neutrality analysis)可以有效分析GC12和GC13之間的相對(duì)聯(lián)系,從而可以更好地分析在密碼子偏好性使用過(guò)程中突變作用和選擇中性理論所做出的貢獻(xiàn),中性分析可以有效分析密碼子的3個(gè)相對(duì)位置關(guān)系(GC12 vs GC3)(圖1)。分析結(jié)果表明,羅氏沼蝦基因組中的基因GC3含量的變化范圍(0.298 5~0.754 5)和GC12含量的變化范圍(0.207~0.933)都相對(duì)比較寬,并且GC3與GC12相關(guān)系數(shù)是0.168 5,相關(guān)性不顯著,同時(shí)回歸曲線斜率是0.070 9。
2.3 ? ?羅氏沼蝦密碼子使用參數(shù)相關(guān)性研究
以GC3s值為X軸、ENC值為Y軸,用SPSS 20.0繪制散點(diǎn)圖,所作出的連續(xù)性曲線反映了在沒有選擇壓力調(diào)節(jié)之下,兩者之間的相互關(guān)系,如圖2所示,大多數(shù)經(jīng)位點(diǎn)分布偏離希望曲線。密碼子使用的影響因素包括自然選擇以及核苷酸組成方面的偏好等,如果同義密碼子偏向以C或G作為其結(jié)尾,且GC3含量較高,以及那些處在曲線下面部分的基因,它們的該類偏好性都較為明顯。因此,圖2中ENC比例偏低,而如果基因密碼子出于曲線的上方區(qū)域,則其有相對(duì)較低的偏好性,因而主要傾向以隨機(jī)的方式來(lái)進(jìn)行密碼子的使用。
2.4 ? ?確定羅氏沼蝦的高頻密碼子
本文針對(duì)16 086個(gè)密碼子(來(lái)自篩選得到的6 629條表達(dá)基因),深入地分析了同義密碼子相對(duì)使用頻率(RFSC),發(fā)現(xiàn)對(duì)于各類密碼子而言,它們具有明顯不同的RFSC值(表2)。此處利用了高頻密碼子的相關(guān)篩選技術(shù)。經(jīng)過(guò)分析,確定高頻密碼子為GAU、GAA、UUU、AAU、CCA,同義密碼子2個(gè)大于0.6、3個(gè)大于0.5、4個(gè)大于37.5、6個(gè)大于25。
2.5 ? ?密碼子使用頻率研究和最優(yōu)密碼子的確定
相對(duì)頻率(RSCU)被認(rèn)為是科學(xué)進(jìn)行該類偏好性衡量的重要指標(biāo)。如果RSCU>1,說(shuō)明密碼子使用頻率較高;而如果RSCU<1,說(shuō)明其使用頻率較低;假如RSCU=1,則意味著其使用不具備明顯的偏好性。
最優(yōu)密碼子的確定參考STENICO等[12]的方法,最終確定了16個(gè)最優(yōu)密碼子,編碼10個(gè)氨基酸,分別為Gly、Arg、Ser、Asp、Ala、Val、Ile、Thr、Pro、Leu等。對(duì)于Leu,它具有3個(gè)最優(yōu)密碼子,即Ala、Pro、Ser,Thr為2個(gè)。16個(gè)最優(yōu)密碼子中,除UUG外,剩下的各個(gè)密碼子結(jié)尾均為A/T,這就意味著其最優(yōu)密碼子主要偏好結(jié)尾為A/T的形式(表2)。
2.6 ? ?羅氏沼蝦和相關(guān)的模式生物的密碼子偏好性對(duì)比研究
根據(jù)數(shù)據(jù)進(jìn)行羅氏沼蝦相關(guān)密碼子統(tǒng)計(jì)分析,并且和密碼子相關(guān)用法專業(yè)數(shù)據(jù)庫(kù)(來(lái)自Kazusa DNA研究中心)共享的不同生物(包括人類、果蠅以及大腸桿菌等)數(shù)據(jù)展開對(duì)比性研究。對(duì)于不同物種之間具體對(duì)應(yīng)的密碼子使用偏好性方面所存在差異性的有效衡量而言,密碼子的使用頻率比值是非常重要的一項(xiàng)科學(xué)指標(biāo)。如果比值≤0.5或≥2.0,說(shuō)明存在著較大差異的該類偏好性;而如果比值在0.5~2.0 之間,則意味著該類偏好性比較相似[12]。
根據(jù)表3所列出的研究結(jié)果可以發(fā)現(xiàn),羅氏沼蝦和其他物種在該類密碼子偏好性上存在著一定的區(qū)別。羅氏沼蝦與人、斑馬魚和酵母的相關(guān)使用頻率分別有11、6、5種密碼子的比值≥2.0或≤0.5;和大腸桿菌以及果蠅等2類生物有比較明顯的差異性,分別有24、23種密碼子的比值≥2.0或≤0.5;而與中華絨螯蟹相比,具有最高的差異性,比值≥2.0或≤0.5有39個(gè)。
3 ? ?結(jié)論與討論
通過(guò)對(duì)羅氏沼蝦相關(guān)的同義密碼子所具有的偏好性進(jìn)行深入地科學(xué)分析,發(fā)現(xiàn)其偏向于通過(guò)T或者是A來(lái)進(jìn)行結(jié)尾,和幾類生物進(jìn)行對(duì)比,羅氏沼蝦具有明顯不同的密碼子偏好性。與果蠅、中華絨螯蟹等生物具有顯著的差異性,而與酵母最為接近,但目前中華絨螯蟹公布的數(shù)據(jù)有限,可能密碼子偏好性有所偏差,有待數(shù)據(jù)進(jìn)一步完善。
物種進(jìn)化過(guò)程中,對(duì)同義密碼子的使用并不相似,物種會(huì)在特定的環(huán)境中,由于物種的適應(yīng)性而進(jìn)化出相應(yīng)的特定密碼子,從而形成密碼子的使用偏好性,自然選擇效應(yīng)以及突變性的壓力都對(duì)該類偏好性的產(chǎn)生具有較大影響[13]。其他多種因子如GC含量[14]尤其是與GC3s(密碼子第3位的G+C)含量、tRNA的豐富度[15]、密碼子位置、基因長(zhǎng)度[16]、環(huán)境壓力、群體數(shù)目、突變偏好性[17]、基因表達(dá)水平[18]、編碼蛋白的機(jī)構(gòu)與功能、翻譯效率[19]、mRNA二級(jí)結(jié)構(gòu)等,都會(huì)影響密碼子使用偏好性。本研究發(fā)現(xiàn),羅氏沼蝦基因組密碼子的使用偏好性受到了自然選擇壓力的影響。
密碼子的使用是了解基因遺傳和進(jìn)化事件的有用工具。密碼子使用模式的分析對(duì)于理解基因組的遺傳和進(jìn)化特征是重要的。采用密碼子偏好性的科學(xué)研究分析,一方面有助于給基因表達(dá)提供更為科學(xué)合理的表達(dá)系統(tǒng),另一方面還可以給通過(guò)密碼子的改造來(lái)進(jìn)行基因表達(dá)量的有效提升提供重要的基礎(chǔ)研究根據(jù)[20]。
4 ? ?參考文獻(xiàn)
[1] 陳雪峰,王春琳,顧志敏,等.羅氏沼蝦卵巢發(fā)育不同時(shí)期轉(zhuǎn)錄組分析[J].海洋與湖沼,2019,50(2):398-408.
[2] 馮超.基于楊梅RNA-Seq的密碼子偏好性與果實(shí)品質(zhì)功能基因轉(zhuǎn)錄特性分析[D].杭州:浙江大學(xué),2014.
[3] 段曉克.壯體長(zhǎng)春鳊線粒體基因組全長(zhǎng)測(cè)定及團(tuán)頭魴密碼子偏好模型分析[D].武漢:華中農(nóng)業(yè)大學(xué),2015.
[4] 張欣,尤宏?duì)帲顦s妮,等.金魚密碼子用法特點(diǎn)分析[J].華北農(nóng)學(xué)報(bào),2017,32(增刊1):30-36.
[5] 姚琳,江艷華,李風(fēng)鈴,等.太平洋牡蠣(Crassostrea gigas)類A-1,2-巖藻糖基轉(zhuǎn)移酶的密碼子優(yōu)化與原核表達(dá)[J].漁業(yè)科學(xué)進(jìn)展,2016,37(1):74-79.
[6] 李喜蓮,楊元杰,李倩,等.螯蝦次目功能基因密碼子偏好性研究[J].浙江農(nóng)業(yè)學(xué)報(bào),2014,26(4):862-867.
[7] 徐偉榮,張寧波,王振平.歐洲葡萄堿性螺旋-環(huán)-螺旋(bHLH)基因家族密碼子使用偏性分析[J].農(nóng)業(yè)生物技術(shù)學(xué)報(bào),2014,22(4):440-448.
[8] SUEOKAN.Translation-coupled violation of parity rule 2 in human genes is not the cause of heterogeneity of the DNA G+C content of third codon position[J].Gene,1999,238(1):53-58.
[9] 張?zhí)饑?guó)海,葉紅蓮,等.石榴轉(zhuǎn)錄組密碼子使用偏向性[J].園藝學(xué)報(bào),2017,44(4):675-690.
[10] JIANG Y,DENG F,WANG H,et al.An extensive analysis on the global codon usage pattern of baculoviruses[J].Archives of Virology,2008,153(12):2273-2282.
[11] STENICO M,LLOYD A T,SHARP P M.Codon usage in Caenorhabditis elegans:delineation of translational selection and mutational biases[J].Nucleic Acids Research,1994,22(13):2437-2446.
[12] 李平,白云鳳,馮瑞云,等.籽粒莧蘋果酸酶(Nad-Me)基因密碼子偏好性分析[J].應(yīng)用與環(huán)境生物學(xué)報(bào),2011,17(1):12-17.
[13] 牛元,徐瓊,王崳德,等.大花香水月季葉綠體基因組密碼子使用偏性分析[J].西北林學(xué)院學(xué)報(bào),2018,33(3):123-130.
[14] FAN S X,F(xiàn)EI H J,LIU S Q,et al.The features of synonymous codon bias and GC-content relationship in human genes[J].Progress in Biochemistry & Biophysics,2002,29(3):411-414.
[15] OLEJNICZAK M,UHLENBECK O C.tRNA residues that have coevolved with their anticodon to ensure uniform and accurate codon recognition[J].Biochimie,2006,88(8):943-950.
[16] 孫錚,馬亮,ROBERT M,等.Wolbachia Pipientis wMel基因組水平上的密碼子使用分析[J].中國(guó)科學(xué),2009,39(10):948-953.
[17] XUHUA X.Mutation and selection on the anticodon of tRNA genes in vertebrate mitochondrial genomes[J].Gene,2005,345(1):13-20.
[18] 石秀凡,黃京飛.人類基因同義密碼子偏好的特征以及與基因GC含量的關(guān)系[J].生物化學(xué)與生物物理進(jìn)展,2002,29(3):411-414.
[19] ZALUCKI Y M,POWER P M,JENNINGS M P. Selection for efficient translation initiation biases codon usage at second amino acid position in secretory proteins[J].Nucleic Acids Research,2007,35(17):5748-5754.
[20] 劉慶慧,黃倢,韓文君.Wssv 3個(gè)編碼蛋白的基因密碼子偏愛性分析[J].海洋水產(chǎn)研究,2005,26(4):1-7.
基金項(xiàng)目 ? 國(guó)家重點(diǎn)研發(fā)計(jì)劃“藍(lán)色糧倉(cāng)科技創(chuàng)新”專項(xiàng)(2018YFD090
1303);浙江省農(nóng)業(yè)(水產(chǎn))新品種選育重大科技專項(xiàng)(2016C02055-2)。
作者簡(jiǎn)介 ? 慎佩晶(1987-),女,浙江湖州人,碩士,工程師。研究方向:水產(chǎn)動(dòng)物遺傳育種。
通信作者
收稿日期 ? 2020-04-01