劉春雷,陳艾萌,劉燕琴,曹敏,陳強(qiáng)
論著·中藥研究與開發(fā)
大斑芫菁轉(zhuǎn)錄組編碼序列密碼子使用偏好性分析
劉春雷1,陳艾萌2,劉燕琴1,曹敏1,陳強(qiáng)1
1.重慶市藥物種植研究所,重慶 408435;2.內(nèi)江市農(nóng)業(yè)科學(xué)院,四川 內(nèi)江 641000
探討大斑芫菁轉(zhuǎn)錄組編碼序列的密碼子使用特點及其影響因素,為運用基因工程技術(shù)實現(xiàn)斑蝥素異源生物合成提供依據(jù)。利用Codon W和EMBOSS軟件分析10 264條大斑芫菁轉(zhuǎn)錄組編碼序列的密碼子使用模式。大斑芫菁轉(zhuǎn)錄組編碼序列的平均GC、GC3含量分別為0.387、0.321,GC12與GC3呈顯著正相關(guān)(=0.369,<0.001);ENc-GC3及偏倚性分析結(jié)果顯示,大部分基因分布于標(biāo)準(zhǔn)曲線和平面中心點周圍,有少部分基因偏離較遠(yuǎn)。通過基因高表達(dá)優(yōu)越密碼子方法確定了6個大斑芫菁最優(yōu)密碼子,分別為GCC、CGC、GGC、AUC、UUC、ACC。密碼子使用頻率分析結(jié)果顯示,大斑芫菁與果蠅整體密碼子使用偏好性差異最大,與酵母菌的差異最小。大斑芫菁轉(zhuǎn)錄組編碼序列的密碼子使用偏好性以突變影響為主,多種因素共同作用的結(jié)果。酵母菌可作為大斑芫菁目的基因異源轉(zhuǎn)化的理想受體系統(tǒng)。
大斑芫菁;轉(zhuǎn)錄組;密碼子偏好性;最優(yōu)密碼子
大斑芫菁Pallas又名南方大斑蝥,為鞘翅目芫菁科斑芫菁屬昆蟲,是現(xiàn)行《中華人民共和國藥典》收錄的斑蝥來源昆蟲之一,具有破血逐瘀、散結(jié)消癥、攻毒蝕瘡等功效[1]。斑蝥素(cantharidin,C10H12O4)為斑蝥體內(nèi)產(chǎn)生的一種防御物質(zhì),具有抗炎、抗腫瘤作用[2-3]。斑蝥素及其衍生物是許多抗癌制劑的原料藥[4-5]。目前斑蝥主要來源于野生,隨著過度搜捕,部分地區(qū)野生資源已經(jīng)瀕危。因此,開展天然斑蝥素生物合成機(jī)理研究,探索斑蝥素生物合成途徑,是解決斑蝥素資源匱乏的思路之一。
遺傳密碼子是DNA與蛋白之間信息傳遞的基本單位。大多數(shù)氨基酸由多個同義密碼子編碼,然而生物體對同義密碼子的選擇具有偏好性。物種間[6]、基因間[7-8]、組織間[9-10]的密碼子使用偏好性均存在差異。研究表明,生物體密碼子偏好性與GC含量[11]、基因表達(dá)水平[12]、RNA結(jié)構(gòu)[13]、蛋白結(jié)構(gòu)[14]、基因長度[15]、tRNA豐度[16-17]、環(huán)境壓力[18]等因素有關(guān)。隨著測序技術(shù)及天然產(chǎn)物研究的發(fā)展,藥用動植物的密碼子偏好性研究積累了一定成果[19-23],但鮮見藥用昆蟲的相關(guān)報道。生物體對密碼子的選擇能夠提高基因的翻譯效率及表達(dá)量[24],因此,研究密碼子偏好性有助于外源基因密碼子的優(yōu)化,篩選適宜宿主,并對轉(zhuǎn)錄、翻譯的調(diào)控機(jī)制研究具有重要意義[23-25]。
筆者通過對大斑芫菁轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行密碼子偏好性分析,揭示大斑芫菁基因的密碼子使用規(guī)律,并與4種模式生物進(jìn)行比較,以期為斑蝥目的基因選擇適宜的異源表達(dá)宿主及密碼子優(yōu)化提供依據(jù)。
大斑芫菁轉(zhuǎn)錄組數(shù)據(jù)來源于本課題組前期選取大斑芫菁蛹期、成蟲期、成熟期樣品,并基于Illumina HiSeq 2000平臺進(jìn)行轉(zhuǎn)錄組測序和組裝獲得的Unigene。采用TransDecoder軟件預(yù)測Unigene的編碼區(qū)序列及其對應(yīng)氨基酸序列,編寫perl程序篩選其中同時預(yù)測到起始密碼子和終止密碼子及長度>300 bp的完整編碼序列,用于密碼子偏好性分析。
4種模式生物大腸桿菌、酵母菌、果蠅、家蠶的密碼子偏好性數(shù)據(jù)來自Codon Usage Database在線數(shù)據(jù)庫(http://www.kazusa.or.jp/codon/)。
ENC-GC3關(guān)聯(lián)分析用于探究密碼子偏好性與堿基成分之間的關(guān)系。以ENC為縱坐標(biāo)、GC3為橫坐標(biāo)繪制散點圖,并進(jìn)行非線性擬合回歸分析。偏倚性分析以A3/(A3+U3)為縱坐標(biāo)、G3/(G3+C3)為橫坐標(biāo)繪制散點圖,計算基因平均分布位置,用于評價各基因密碼子中嘌呤與嘧啶之間的關(guān)系。
采用EMBOSS軟件的CUSP模塊計算大斑芫菁編碼序列密碼子使用頻率(frequency of optional codons,F(xiàn)OP),并與4種模式生物的密碼子進(jìn)行比較分析,當(dāng)兩兩之間密碼子使用頻率比值>2.0或<0.5時,表明兩者具有明顯的密碼子偏好差異。
參照Yang等[27]和李瀅等[21]的方法,將大斑芫菁的編碼序列按CAI值由高到低排序,提取前后各5%的序列分別代表高低表達(dá)的基因,然后計算各密碼子平均RSCU值。當(dāng)密碼子在高低表達(dá)基因中RSCU值的差異>0.3,且在高表達(dá)基因中RSCU≥1、在低表達(dá)基因中RSCU≤1,即為最優(yōu)密碼子。
從大斑芫菁轉(zhuǎn)錄組數(shù)據(jù)中共篩選獲得10 264條完整的編碼序列,密碼子使用模式分析結(jié)果見圖1。
圖1 大斑芫菁轉(zhuǎn)錄組編碼序列GC及GC3含量分析
平均GC含量為0.387,變化范圍為0.199~0.736。87.9%的基因GC含量為0.30~0.45。GC3含量為0.025~0.959,平均值僅為0.321,表明不同基因間密碼子使用偏好性具有一定差異。但93.9%的基因GC3含量為0.14~0.49,表明大斑芫菁轉(zhuǎn)錄組密碼子及末位堿基均偏好使用A或U。
GC12變化范圍為0.238~0.721,與GC3含量呈顯著正相關(guān)(=0.369,<0.001),回歸方程為=0.180 7+0.362 3,2=0.136 2,見圖2。表明大斑芫菁轉(zhuǎn)錄組密碼子的使用主要受突變壓力影響。但GC12與GC3含量的相關(guān)性較弱,表明選擇壓力可能同時影響著大斑芫菁轉(zhuǎn)錄組密碼子的使用偏好性。
圖2 大斑芫菁轉(zhuǎn)錄組編碼序列中性繪圖
ENC變化范圍為24.34~61,均值為46.86,其中ENC≤35的基因有312個(3.04%),ENC=61的基因有128個(1.25%)。CAI值介于0.093~0.635,均值為0.209,表明大斑芫菁轉(zhuǎn)錄組的編碼序列除少數(shù)具有較強(qiáng)的偏好性外,其整體密碼子的偏好性較弱。ENC與GC3關(guān)聯(lián)性分析結(jié)果顯示,大部分基因均勻分布在標(biāo)準(zhǔn)曲線周圍,其回歸方程為=-144.62+139.12+19.048,2=0.544 7,表明密碼子的偏好性主要來自突變壓力。少部分基因偏離曲線較遠(yuǎn),表明部分基因受到選擇壓力的影響。見圖3。
圖3 大斑芫菁轉(zhuǎn)錄組編碼序列ENC-GC3s相關(guān)性分析
偏倚性分析結(jié)果見圖4。大斑芫菁基因平均分布位置為(0.505,0.527),大部分基因樣本分布于中心點附近,其堿基中嘌呤與嘧啶出現(xiàn)的概率相對一致,少部分基因偏離中心點較遠(yuǎn),進(jìn)一步表明大斑芫菁密碼子使用偏好性主要受到突變壓力的影響。
注:☆為基因平均分布位置
大斑芫菁轉(zhuǎn)錄組高、低表達(dá)序列RSCU分析結(jié)果見表1。篩選到6個密碼子作為大斑芫菁轉(zhuǎn)錄組編碼序列的最優(yōu)密碼子,分別為GCC、CGC、GGC、AUC、UUC、ACC。這些密碼子均以C結(jié)尾,表明大斑芫菁轉(zhuǎn)錄組的最優(yōu)密碼子偏好以G或C結(jié)尾。
表1 大斑芫菁轉(zhuǎn)錄組高低表達(dá)基因的RSCU比較分析
氨基酸密碼子RSCU 氨基酸密碼子RSCU 高表達(dá)低表達(dá) 高表達(dá)低表達(dá) AlaGCA0.851.29 LeuCUA0.590.82 GCC*1.140.83 CUC0.870.28 GCG0.600.56 CUG0.880.32 GCU1.411.29 CUU0.600.41 ArgAGA0.881.39 UUA1.542.71 AGG0.520.57 UUG1.501.46 CGA0.811.25 LysAAA1.231.57 CGC*1.230.50 AAG0.760.43 CGG0.550.61 PheUUC*1.210.80 CGU1.921.67 UUU0.751.19 AsnAAC0.900.39 ProCCA1.371.78 AAU1.081.61 CCC0.740.37 AspGAC0.720.36 CCG1.201.22 GAU1.281.62 CCU0.670.62 CysUGC0.770.41 SerAGC0.870.45 UGU1.001.43 AGU1.101.58 GlnCAA1.221.61 UCA1.041.61 CAG0.760.38 UCC0.920.45 GAA1.191.44 UCG1.191.23 GAG0.800.54 UCU0.880.68 GlyGGA0.650.96 StopUAA1.831.71 GGC*1.250.74 UAG0.500.55 GGG0.300.39 UGA0.670.74 GGU1.801.88 ThrACA1.101.91 IleAUA0.491.07 ACC*1.140.52 AUC*1.270.62 ACG0.700.73 AUU1.221.32 ACU1.050.83 ValGUA0.781.20 TrpUGG0.780.85 GUC0.980.57 TyrUAC0.970.54 GUG0.820.65 UAU0.951.44 GUU1.411.57 HisCAC0.900.53 MetAUG1.001.00 CAU1.001.36
注:*最優(yōu)密碼子
大斑芫菁與大腸桿菌、酵母菌、果蠅、家蠶密碼子使用頻率比較結(jié)果見圖5。大斑芫菁與4種模式生物間的整體密碼子使用偏好性差異較大,與果蠅存在偏好性差異的密碼子數(shù)量最多,為29個,其中亮氨酸密碼子UUA使用頻率比值最高,達(dá)9.36;與大腸桿菌和家蠶存在偏好性差異的密碼子均為14個;與酵母菌存在偏好性差異的密碼子數(shù)量最少,為10個。因此,在開展大斑芫菁目標(biāo)基因異源表達(dá)研究時,可選擇酵母菌作為受體系統(tǒng),但仍需進(jìn)行密碼子優(yōu)化。
注:Mp.大斑芫菁;Ec.大腸桿菌;Sc.酵母菌;Dm.果蠅;Bm.家蠶
在復(fù)雜多樣的進(jìn)化過程中,各個物種均形成了一套特定的密碼子使用模式。近年來,隨著代謝工程及合成生物學(xué)研究的逐步深入及應(yīng)用,解析天然藥物成分的合成途徑,進(jìn)行異源表達(dá),成為研究熱點。因此,研究大斑芫菁轉(zhuǎn)錄組編碼序列的密碼子使用偏好性,可為揭示其密碼子使用規(guī)律、異源表達(dá)宿主系統(tǒng)的選擇及密碼子優(yōu)化提供理論基礎(chǔ)。
本研究對大斑芫菁轉(zhuǎn)錄組10 264條完整編碼序列的密碼子使用模式分析結(jié)果顯示,大斑芫菁轉(zhuǎn)錄組編碼序列的平均GC、GC3s含量分別為0.387、0.321,略低于眼斑芫菁轉(zhuǎn)錄組平均GC含量0.41[28],但均小于50%,表明大斑芫菁轉(zhuǎn)錄組偏好使用富含A、U且以A/U結(jié)尾的密碼子,這與斑翅草螽[29]、赤擬谷盜[30]、大頭金蠅[31]密碼子使用模式一致。研究表明,大多數(shù)昆蟲組線粒體基因組具有較高AU含量[32-35],而植物中的小麥()[36]、水稻()[37]、玉米()[38]等則富含GC堿基,且偏好以G/C結(jié)尾,川貝母轉(zhuǎn)錄組GC含量與GC3s平均值幾乎一致,均接近50%,整體上無明顯的密碼子使用偏性[21],表明堿基組成是影響密碼子偏好性的重要因素之一。
此外,突變和選擇也影響著密碼子使用的偏好性。本研究結(jié)果顯示,大斑芫菁轉(zhuǎn)錄組GC12s與GC3s含量具有顯著相關(guān)性,97%基因的ENC≥35,且ENc-GC3s關(guān)聯(lián)分析及偏倚性分析均發(fā)現(xiàn),大部分基因分布于標(biāo)準(zhǔn)曲線及平面中心點周圍,少部分基因偏離較遠(yuǎn),表明大斑芫菁密碼子偏好性是以突變壓力為主導(dǎo)因素,多種作用方式共同影響的結(jié)果。
在構(gòu)建異源表達(dá)體系中,不同基因密碼子偏好性差異較大,因此,分析外源基因和宿主生物的密碼子使用模式對于優(yōu)化改造密碼子及提高轉(zhuǎn)錄、翻譯效率等具有重要意義[24]。本研究篩選到6個大斑芫菁基因偏好的密碼子,分別為GCC、CGC、GGC、AUC、UUC、ACC,均以C結(jié)尾,表明大斑芫菁基因密碼子的偏好性可能與第3位堿基的GC含量呈正相關(guān)。有研究表明,高表達(dá)基因中偏好強(qiáng)烈的密碼子通常以G/C結(jié)尾[11],且對堿基C的偏好性強(qiáng)于堿基G,與本研究結(jié)果一致。密碼子使用頻率分析結(jié)果顯示,大斑芫菁與果蠅整體密碼子使用偏好性差異最大,與酵母菌差異最小,因此可選擇酵母菌作為大斑芫菁目的基因異源表達(dá)的受體系統(tǒng)。
本研究對大斑芫菁轉(zhuǎn)錄組編碼序列的密碼子使用模式進(jìn)行分析,探討了影響其密碼子使用偏好性的作用因素,并篩選出大斑芫菁基因的6個最優(yōu)密碼子及適宜異源表達(dá)受體酵母菌,可為大斑芫菁的基因工程和遺傳機(jī)理研究提供依據(jù)。
[1] 國家藥典委員會.中華人民共和國藥典:一部[M].北京:中國醫(yī)藥科技出版社,2015:331-332.
[2] JAEMOO C, KYOUNG P M, HYEJIN K, et al. Bioassay-guided isolation of cantharidin from blister beetles and its anticancer activity through inhibition of epidermal growth factor receptor-mediated STAT3 and Akt pathways[J]. Journal of Natural Medicines,2018, 72(4):937-945.
[3] LIU Y P, LI L, XU L, et al. Cantharidin suppresses cell growth and migration, and activates autophagy in human non-small cell lung cancer cells[J]. Oncology Letters,2018,15(5):6527-6532.
[4] 陳中建,茍菲,張?zhí)熹h.復(fù)方斑蝥注射液輔助結(jié)直腸癌根治術(shù)治療結(jié)直腸癌的效果及安全性分析[J].中華中醫(yī)藥學(xué)刊,2019,37(7):1718-1720.
[5] 王平,王曉晶,楊淬,等.去甲斑蝥素酰胺類衍生物的合成及抗肝癌活性評價[J].中國藥物化學(xué)雜志,2018,28(4):261-266.
[6] PALIDWOR G A, PERKINS T J, XIA X. A general model of codon bias due to GC mutational bias[J]. PLoS One,2010,5(10):101-105.
[7] 晁岳恩,吳政卿,楊會民,等.11種植物psbA基因的密碼子偏好性及聚類分析[J].核農(nóng)學(xué)報,2011,25(5):927-932.
[8] 李冠英,王政,張志燕,等.甘藍(lán)型油菜WRKY基因家族堿基組成及密碼子使用特性分析[J].生物學(xué)雜志,2013,30(4):42-45.
[9] LIU Q. Mutational bias and translational selection shaping the codon usage pattern of tissue-specific genes in rice[J]. PLoS One, 2012,7(10):e48295.
[10] SHOKRI E. Codon bias patterns in photosynthetic genes of halophytic grass[J]. Journal of Plant Molecular Breeding,2014,3(1):12-20.
[11] WANG L, ROOSSINCK M J. Comparative analysis of expressed sequences reveals a conserved pattern of optimal codon usage in plants[J]. Plant Molecular Biology,2006,61(4):699-710.
[12] PAUL P, MALAKAR A K, CHAKRABORTY S. Codon usage and amino acid usage influence genes expression level[J]. Genetica,2018,146(1):53-63.
[13] MARTíNEZ-PéREZ F, BENDENA W G, CHANG B S W, et al. Influence of codon usage bias on FGLamide-allatostatin mRNA secondary structure[J]. Peptides,2011,32(3):509-517.
[14] XU C, CAI X, CHEN Q, et al. Factors affecting synonymous codon usage bias in chloroplast genome of oncidium gower ramsey[J]. Evolutionary Bioinformatics,2011,2011(7):271-278.
[15] COMERON J M, KREITMAN M, AGUADE M. Natural selection on synonymous sites is correlated with gene length and recombination in drosophila[J]. Genetics,1999,151(1):239-249.
[16] NOVOA E M, DE POUPLANA L R. Speeding with control:codon usage, tRNAs, and ribosomes[J]. Trends in Genetics,2012,28(11):574-581.
[17] SHAH P, GILCHRIST M A, ALLAN D. Effect of correlated tRNA abundances on translation errors and evolution of codon usage bias[J]. PLoS Genetics,2010,6(9):e1001128.
[18] GOODARZI H, TORABI N, NAJAFABADI H S, et al. Amino acid and codon usage profiles:Adaptive changes in the frequency of amino acids and codons[J]. Gene,2008,407(1/2):30-41.
[19] 吳正常,王靖,趙喬輝,等.豬脂多糖結(jié)合蛋白基因(LBP)的密碼子偏好性分析[J].農(nóng)業(yè)生物技術(shù)學(xué)報,2013,21(10):1135-1144.
[20] 李瀅,匡雪君,朱孝軒,等.長春花密碼子使用偏好性分析[J].中國中藥雜志,2016,41(22):4165-4168.
[21] 李瀅,匡雪君,孫超,等.川貝母轉(zhuǎn)錄組密碼子使用偏好性分析[J].中國中藥雜志,2016,41(11):2055-2060.
[22] 梁娥,齊敏杰,丁延慶,等.竹節(jié)參轉(zhuǎn)錄組使用密碼子偏好性分析[J].江蘇農(nóng)業(yè)科學(xué),2019,47(2):67-71.
[23] 吳彥慶,趙大球,陶俊.芍藥花色調(diào)控基因的密碼子使用模式及其影響因素分析[J].中國農(nóng)業(yè)科學(xué),2016,49(12):2368-2378.
[24] ADI Y, SOPHIA K, RUTH H. The codon usage of lowly expressed genes is subject to natural selection[J]. Genome Biology and Evolution,2018,10(5):1237-1246.
[25] BEHURA S K, SEVERSON D W. Codon usage bias:causative factors, quantification methods and genome-wide patterns:with emphasis on insect genomes[J]. Biological Reviews,2013,88(1):49-61.
[26] 吳憲明,吳松鋒,朱云平,等.密碼子偏性的分析方法及相關(guān)研究進(jìn)展[J].遺傳,2007,29(4):420-426.
[27] YANG X, LUO X, CAI X. Analysis of codon usage pattern inbased on a transcriptome dataset[J]. Parasites & Vectors,2014,7(1):527.
[28] HUANG Y, WANG Z, ZHA S, et al. De novo transcriptome and expression profile analysis to reveal genes and pathways potentially involved in cantharidin biosynthesis in the blister beetle[J]. PLoS One,2016,11(1):e0146953.
[29] 周志軍,尚娜,黃原,等.斑翅草螽線粒體基因組序列測定與分析[J].昆蟲學(xué)報,2011,54(5):548-554.
[30] WILLIFORD A, DEMUTH J P. Gene expression levels are correlated with synonymous codon usage, amino acid composition, and gene architecture in the red flour beetle,[J]. Molecular Biology and Evolution,2012,29(12):3755-3766.
[31] 張玉波,周正湘,吳小玉,等.基于轉(zhuǎn)錄組的大頭金蠅密碼子的偏好性分析[J].江蘇農(nóng)業(yè)科學(xué),2019,47(11):78-81.
[32] JIA W, HIGGS P G. Codon usage in mitochondrial genomes:Distinguishing context-dependent mutation from translational selection[J]. Molecular Biology & Evolution,2007,25(2):339-351.
[33] 郭仲龍,袁明龍.半翅目昆蟲線粒體基因組學(xué)研究進(jìn)展[J].中國科學(xué):生命科學(xué),2016,46(2):151-166.
[34] GUO C, ZHANG Q, HUANG Y. The complete mitochondrial genome of the Oedaleus infernalis sauss (Orthoptera:Oedipodidae)[J]. Mitochondrial DNA Part A DNA Mapping Sequencing & Analysis, 2017,28(1):1-2.
[35] RICHARDS S, GIBBS R A, WEINSTOCK G M, et al. The genome of the model beetle and pest[J]. Nature,2008, 452(7190):949-955.
[36] ZHANG W, ZHOU J, LI Z, et al. Comparative analysis of codon usage patterns among mitochondrion, chloroplast and nuclear genes inL[J]. Journal of Integrative Plant Biology, 2007,49(2):246-254.
[37] LIU Q, FENG Y, ZHAO X, et al. Synonymous codon usage bias in Oryza sativa[J]. Plant Science,2004,167(1):101-105.
[38] 劉漢梅,何瑞,張懷渝,等.玉米同義密碼子偏愛性分析[J].農(nóng)業(yè)生物技術(shù)學(xué)報,2010,18(3):456-461.
Analysis on Codon Usage Bias ofPallas Transcriptome Coding Sequence
LIU Chunlei1, CHEN Aimeng2, LIU Yanqin1, CAO Min1, CHEN Qiang1
To explore the characteristics and influencing factors of the codon usage of the coding sequence of the transcriptome ofPallas, so as to provide a basis for the realization of heterologous biosynthesis of cantharidin by using genetic engineering technology.The codon usage bias patterns of 10 264 transcriptome coding sequences ofPallas were analyzed by Codon W and EMBOSS software.The average contents of GC and GC3 of the coding sequence ofPallas were 0.387 and 0.321, respectively. There was a significant positive correlation between GC12 and GC3 (=0.369,<0.001). The results of ENC-GC3 and bias analysis showed that most genes were distributed around the standard curve and the center point of the plane, and a small number of genes deviated far away. Six optimal codons ofPallas were determined through high gene expression and superior codon method, namely GCC, CGC, GGC, AUC, UUC, ACC. The results of codon usage frequency analysis showed that the difference of codon usage bias betweenandPallas was the largest, whileandPallas was the smallest.The codon usage bias ofPallas transcriptome coding sequences is mainly due to the effect of mutation pressure, but there are other factors.can be used as an ideal system for heterologous expression.
Pallas; transcriptome; codon usage bias; optimal codons
R282.3
A
1005-5304(2020)10-0064-05
10.19879/j.cnki.1005-5304.202002103
重慶市衛(wèi)生計生委中醫(yī)藥科技項目(ZY201802116)
陳強(qiáng),E-mail:157557589@qq.com
(2020-02-08)
(2020-02-20;編輯:陳靜)