余濤 蒲芬 管芹 范敏
摘要:為了揭示南歐大戟葉綠體基因組密碼子使用偏性及形成原因,以南歐大戟葉綠體基因組中長度大于300 bp的非重復蛋白質編碼序列為研究對象,利用Codon W 1.4.1、CUSP在線程序等生物信息學分析工具對其密碼子偏性及使用模式進行分析。結果表明,南歐大戟葉綠體基因組密碼子中相對同義密碼子使用度>1的有31個,其中以 A/U 結尾的占71%,表明其偏好使用以A/U結尾的密碼子;有效密碼子數均值為46.74,說明密碼子使用的偏好性較弱;GC1與GC2呈極顯著相關,GC3與GC2、GC1無顯著相關性,表明密碼子第3位堿基與其他位置堿基的組成有差異;此外,ENC與GC3呈極顯著相關,說明密碼子末尾堿基組成在一定程度上會影響密碼子使用偏好性。ENC-plot繪圖分析、中性繪圖分析、PR2-plot偏倚分析結果表明,影響南歐大戟葉綠體基因組同義密碼子使用偏性的主要因素是自然選擇,但同時也受到突變壓力等其他因素的影響;通過建庫分析,篩選出GAU、AUA、UUG等14個最優(yōu)密碼子。研究結果可為開展目的基因優(yōu)化、物種改良和系統進化分析等研究提供科學參考。
關鍵詞:南歐大戟;葉綠體基因組;密碼子偏好性;最優(yōu)密碼子
中圖分類號:S184 文獻標志碼:A
文章編號:1002-1302(2023)15-0035-07
基金項目:云南省鄉(xiāng)村振興科技專項(編號:202204BK090318);云南省地方高校聯合專項(編號:202001BA070001-104)。
作者簡介:余 濤(1997—),男,云南麗江人,碩士研究生,主要從事中藥資源化學研究。E-mail:2958263230@qq.com。
通信作者:范 敏,女,博士,講師,主要從事中藥資源化學研究。E-mail:fanmin@dali.edu.cn。
南歐大戟(Euphorbia peplus L.)為大戟科(Euphorbiaceae)大戟屬(Euphorbia)一年生草本植物,原產于地中海沿岸,在我國云南、廣西、廣東及臺灣等地區(qū)均有分布[1]。民間常用其治療哮喘、癌癥等疾?。?]。已有研究發(fā)現,南歐大戟含有二萜、三萜、甾醇、黃酮、酚酸和糖類等化學成分[3-5],具有抗炎[6]、抗腫瘤[7]、治療心血管疾病和改善多重耐藥性[8]等作用。目前,關于南歐大戟的研究主要涉及化學成分、藥理活性等方面,在核酸等生物大分子層面的研究較少。筆者所在課題組前期對南歐大戟葉綠體基因組特征和系統發(fā)育關系進行了闡述[9],但未對其葉綠體基因組密碼子使用偏性影響因素及使用模式進行分析。
密碼子由信使RNA上3個連續(xù)的核苷酸組成[10],又稱為遺傳密碼,是生物體遺傳信息傳遞的載體[11]。標準的64種密碼子由4個堿基隨機組合形成,其中包括不具有編碼功能的3個終止密碼子和61個編碼20種氨基酸的密碼子[12];除甲硫氨酸、色氨酸外,其余氨基酸均由1個以上同義密碼子編碼[13]。經過不斷的進化,不同物種在mRNA翻譯的過程中,編碼相同氨基酸的不同密碼子被選擇性地使用,從而形成其特有的使用模式,這種現象被稱為密碼子使用偏好性(codon usage bias,CUB)[14]。研究發(fā)現,特定基因的功能和蛋白表達水平受密碼子使用偏好性的影響[12],而CUB又受到自然選擇、基因表達水平、基因組長度、堿基突變和tRNA豐度等因素的綜合影響[13]。
葉綠體基因組具有規(guī)模小、多拷貝、分子結構相對保守[15]、母系遺傳[10]和序列易獲得的特點。近年來,測序技術飛速發(fā)展,被廣泛應用于系統發(fā)育分析、DNA條形碼鑒別研究和基因工程等領域[16]。基于葉綠體基因組進行密碼子使用模式研究及篩選最優(yōu)密碼子,對于提高遺傳轉化效率、基因表達水平和物種改良有重要意義[17-18]。因此,為了解南歐大戟葉綠體基因組密碼子使用偏好性及其形成的影響因素,本研究對南歐大戟葉綠體基因組密碼子使用模式進行探討,并篩選出最優(yōu)密碼子,以期為目的基因優(yōu)化、物種改良和分子育種等提供科學依據。
1 材料與方法
1.1 材料與方法
從云南省大理市(25°84′95″N,100°11′96″E)采集南歐大戟新鮮葉片,用液氮速凍后將樣品送至上海元莘生物醫(yī)藥科技有限公司進行測序,隨后對獲得的原始數據進行組裝注釋,將測序結果提交至美國國家生物技術中心數據庫(NCBI),登錄號:MZ 678242。南歐大戟葉綠體基因組序列大小為 159 466 bp,包含84條蛋白質編碼序列(coding sequences,CDS),將CDS中長度小于300 bp的基因和重復基因剔除[18],最終共獲得52條CDS用于后續(xù)分析。
1.2 密碼子偏好參數的計算
將篩選到的52條蛋白質編碼序列整合成1個fasta文件,用Codon W 1.4.1[19]軟件分析,獲取南歐大戟葉綠體基因組CDS的相對同義密碼子使用度(relative synonymous codon usage,RSCU)、有效密碼子數(effective number of codon,ENC)等相關信息。不同基因中各個密碼子第1、2、3位的GC含量(GC1、GC2、GC3)和基因序列總的GC含量(GCall)由EMBOSS在線程序CUSP計算得到。
1.3 ENC-plot繪圖分析
以各CDS的有效密碼子數為縱坐標、GC3為橫坐標繪制散點圖,并插入ENCexp=2+GC3+29/[GC23+(1-GC3)2]的標準曲線;然后通過公式計算得到ENC期望值(ENCexp),再利用ENCRatio=(ENCexp-ENCobs)/ENCexp公式獲得ENC比值(ENCRatio)頻數分布情況。結合以上2種分析結果,對密碼子偏好性受突變、自然選擇的影響程度進行評價[19]。
1.4 中性繪圖分析
以各CDS中密碼子第1、2位GC的平均值(GC12)為縱坐標、GC3為橫坐標構建坐標系,擬合GC12與GC3的線性關系,添加對角線,解析GC1、GC2和GC3的相關性,以進一步分析密碼子使用偏性的影響因素。
1.5 PR2-plot偏倚分析
為了揭示密碼子第3位4種堿基的數量和關系,用計算得到的G3/(G3+C3)、A3/(A3+T3)值分別作為x軸、y軸,繪制散點圖,以A=T且G=C作為圖中心點,基因的偏性程度和方向則用該基因點與中心點的矢量距離表示[21]。
1.6 最優(yōu)密碼子的分析
以ENC值作為指標,對南歐大戟葉綠體基因組的CDS序列進行由高到低的排序,篩選出前后10%的基因序列,分別構建高、低偏性庫。用Codon W 1.4.1 軟件獲取偏性庫中密碼子的RSCU值,ΔRSCU=RSCU高表達-RSCU低表達;高表達密碼子的ΔRSCU≥0.08,高頻密碼子的RSCU>1,最優(yōu)密碼子的ΔRSCU≥0.08且RSCU>1[22]。
2 結果與分析
2.1 密碼子的RSCU值分析
對南歐大戟葉綠體基因組中的52條蛋白質編碼序列的RSCU值進行分析,圖1結果顯示,在64個編碼氨基酸的密碼子中,RSCU值<1的密碼子有31個;RSCU值=1的密碼子有2個,分別為編碼Met、Trp的AUG、UGG;RSCU值>1的密碼子有31個,其中第3位堿基為G的密碼子有8個,第3位堿基為C的密碼子有1個,第3位堿基為A、U的密碼子有22個,占比為71%,表明南歐大戟葉綠體基因組密碼子偏好以A、U結尾。
2.2 密碼子組成分析
對南歐大戟葉綠體基因組各CDS序列的密碼子堿基組成情況及ENC值進行統計分析。表1結果顯示,在各基因序列的密碼子中,總GC含量平均值為37.80%,范圍為29.55%~46.04%;密碼子第1、2、3位的GC含量均值分別為46.73%、39.39%、27.28%,范圍分別為33.44%~57.56%、27.07%~56.83%、16.95%~36.41%。由此可知,密碼子不同位置的堿基數量有差異。在絕大多數密碼子中,GC1、GC2顯著高于GC3,表明南歐大戟葉綠體基因組密碼子偏好以A或U結尾。南歐大戟各CDS的ENC值為38.42~55.14,平均值為46.74,大于35[23]。由分析結果可知,南歐大戟葉綠體基因密碼子的使用偏性較弱。
對南歐大戟葉綠體基因組密碼子參數進行Pearson相關性分析,由圖2可知,GCall與GC3、GC2、GC1間相關系數分別為0.52、0.79、0.85,P值均<0.01,呈極顯著相關;GC1與GC2間也呈極顯著相關(P<0.01);而GC3與GC1、GC2之間相關系數分別為0.24、0.13,無顯著相關性,表明密碼子堿基組成第3位與其他位置間有一定差異,第1、2位間的堿基組成較相似。ENC與GCall呈顯著相關關系,與GC3呈極顯著相關關系說明密碼子末尾堿基組成在一定程度上會影響密碼子使用的偏好性。ENC與N(密碼子數)未呈顯著相關,表明基因序列長度對密碼子使用偏性的影響較弱。
2.3 ENC-plot繪圖分析
南歐大戟葉綠體基因組密碼子的ENC與GC3關聯分析結果如圖3所示,在標準曲線及曲線附近僅有小部分基因分布,表明該部分基因的實際ENC值與期望ENC值間差異較小,突變對這些基因序列密碼子的偏性起主要作用;其他大部分基因距標準曲線較遠,且大多數分布于曲線下方,說明該部分基因的實際ENC值與期望ENC值間有較大差異,CDS序列密碼子偏好性受自然選擇影響較大。此外,對參試基因ENC比值計算分析結果顯示,有15個基因分布在ENC比值為-0.05~<0.05的區(qū)間,占比為0.289;分布于-0.15~<-0.05、0.05~<0.15、0.15~<0.25、0.25~0.35區(qū)間的基因分別有3、27、6、1個,占比分別為0.058、0.519、0.115、0.019(表2),說明基因主要分布在 -0.05~<0.05區(qū)間外,其偏好性主要受到選擇壓力的影響。以上結果表明,南歐大戟葉綠體基因組密碼子偏好性在受堿基突變壓力影響的同時,更多受到自然選擇的影響。
2.4 中性繪圖分析
南歐大戟葉綠體基因組52個CDS序列中性繪圖分析結果(圖4)顯示,在對角線上分布的基因為atpF,在對角線下方分布的基因有ycf1、ycf2,其余基因則分布于對角線上方,表明絕大多數基因的GC3值小于其自身的GC12值。GC12、 GC3的取值范圍分別為0.316 6~0.554 0、0.169 5~0.364 1,Pearson相關系數=0.048 2,r=0.219 5,2個參數呈較低的相關性,表明密碼子不同位置的堿基組成存在差異。上述結果說明,自然選擇對南歐大戟葉綠體基因組密碼子偏性起主要作用。
2.5 PR2-plot偏倚分析
采用PR2繪圖對52條CDS序列密碼子第3位堿基的使用頻率進行分析。圖5顯示,各基因散布于以0.5為中心的4個象限中,且分布不均勻,表明密碼子第3位4種堿基的使用頻率有差異;多數基因位于水平中心線下方,表明密碼子中堿基使用頻率表現為G>C,T(U)>A。若堿基突變?yōu)橛绊懨艽a子使用偏性的唯一因素時,基因應位于中心位置,但分析結果表明,南歐大戟葉綠體基因組密碼子的使用偏性在受到突變影響的同時還受到自然選擇等其他因素的影響。
2.6 最優(yōu)密碼子篩選
將52條參試基因按ENC值的高低進行排序,選取首尾各10%的基因建立高、低基因表達庫,并計算ΔRSCU值。表3結果顯示,ΔRSCU≥0.08的高表達密碼子有27個,其中包括以G結尾的12個密碼子,以C結尾的7個密碼子,以A結尾的5個密碼子,以U結尾的3個密碼子。篩選ΔRSCU≥0.08且RSCU>1的密碼子作為南歐大戟葉綠體基因組的最優(yōu)密碼子,最終共獲得14個密碼子,分別為GCG、GAU、GGA、GGG、AUA、CUU、UUG、AAU、CCA、AGA、AGG、CGG、UCC和UCG,其中以G/C結尾和以A/U結尾的各占50%(圖1)。
3 討論與結論
密碼子由mRNA上3個連續(xù)排列的堿基構成[10],是生物傳遞遺傳信息不可或缺的部分[11]。密碼子使用偏好性是物種不斷進化過程中形成的特有結果,其形成機制受tRNA豐度、GC含量、堿基組成等生物因素的影響[13]。氨基酸的種類特征由密碼子第3位堿基決定,且其組成受到選擇的壓力較小,因此GC3對衡量密碼子偏好性具有重要作用[24]。本研究通過對南歐大戟葉綠體基因組52條CDS序列密碼子使用特征進行分析,發(fā)現GC3的含量明顯小于GC1、GC2,且各位置GC含量不同,表明密碼子第3位堿基偏好于使用A或U。在南歐大戟葉綠體基因組中,GC1、GC2與GC3無顯著相關性,可見密碼子末尾堿基的組成存在差異。這與燈盞花[25]、沙棗[26]、藿香[27]等植物的研究結果一致,也說明不同植物間葉綠體基因組密碼子使用模式具有相似性。ENC值范圍為20~61,通常將35作為邊界值,當ENC值>35時,表明密碼子偏性較弱,當ENC值越接近61時,表明密碼子的偏性越弱,基因表達量也越低[23,28]。在本研究中,南歐大戟葉綠體基因組密碼子ENC值為38.42~55.14,均值為46.71,表明其密碼子偏性較弱。
已有研究結果表明,影響生物密碼子偏性的主要因素為自然選擇力和突變壓力[18,29-30]。南歐大戟葉綠體基因組密碼子ENC-plot繪圖分析結果顯示,其多數基因位于曲線的下方,且分布于ENC比值在-0.05~<0.05區(qū)間的基因較少,說明南歐大戟葉綠體基因組密碼子偏性受自然選擇力主導的同時也受到堿基突變力的影響;中性繪圖分析中,GC3與GC12呈較低的相關性,說明GC堿基含量相對保守,自然選擇對其密碼子偏性起主導作用;PR2-plot 偏倚分析結果表明,密碼子偏性受自然選擇、突變等因素的共同影響。以上分析結果表明,南歐大戟葉綠體基因組密碼子偏性受自然選擇、突變壓力等因素的共同作用,但自然選擇占主導位置。這與燈盞花[25]、朝鮮淫羊藿[10]、西藏凹乳芹[18]等植物密碼子偏性影響特征一致,與葡萄[31]、竹節(jié)參[32]等研究中,突變是影響密碼偏好性的主要因素不同,表明不同物種密碼子偏性主要影響因素有差異,且不同影響因素作用大小亦存有差異,這可能與物種堿基組成及其生長環(huán)境有關。此外,本研究通過建庫分析,共篩選出14個最優(yōu)密碼子,其中以A/U、G/C結尾的各占50%,確定的最優(yōu)密碼子可為探索物種分子進化機制提供有用信息。
本研究首次對南歐大戟葉綠體基因組密碼子使用模式及其影響因素進行了系統的分析,并確定了最優(yōu)密碼子,為目標基因的優(yōu)化和開展南歐大戟葉綠體基因工程及系統進化分析提供了科學參考。
參考文獻:
[1]中國科學院中國植物志編輯委員會. 中國植物志:第44卷 第3分冊[M]. 北京:科學出版社,1997:111.
[2]萬落生,邱明華. 大戟屬南歐大戟的化學成分和生物活性研究[C]//陳紀軍. 中國化學會第十二屆全國天然有機化學學術會議論文摘要集. 昆明:中國化學會,2018:257.
[3]Chen Y N,Ding X,Li D M,et al. Diterpenoids with an unprecedented ring system from Euphorbia peplus and their activities in the lysosomal-autophagy pathway[J]. Organic & Biomolecular Chemistry,2021,19(7):1541-1545.
[4]Frezza C,Venditti A,Sciubba F,et al. Phytochemical profile of Euphorbia peplus L. collected in Central Italy and NMR semi-quantitative analysis of the diterpenoid fraction[J]. Journal of Pharmaceutical and Biomedical Analysis,2018,160:152-159.
[5]宋智琴,穆淑珍,鄧 彬,等. 藥用植物南歐大戟的化學成分研究[J]. 內蒙古中醫(yī)藥,2009,28(14):37-38.
[6]Corea G,Fattorusso E,Lanzotti V,et al. Discovery and biological evaluation of the novel naturally occurring diterpene pepluanone as antiinflammatory agent[J]. Journal of Medicinal Chemistry,2005,48(22):7055-7062.
[7]Lebwohl M,Shumack S,Stein G L,et al. Long-term follow-up study of ingenol mebutate gel for the treatment of actinic keratoses[J]. JAMA Dermatology,2013,149(6):666-670.
[8]王東妮. 南歐大戟中潛伏期HIV病毒再激活的活性成分研究[D]. 廈門:廈門大學,2019:22-24.
[9]余 濤,蒲 芬,管 芹,等. 南歐大戟葉綠體基因組特征及其系統發(fā)育分析[J]. 分子植物育種,2022,20(6):1828-1837.
[10]王英哲,國 坤,孟芳芳,等. 朝鮮淫羊藿葉綠體基因組密碼子偏好性分析[J/OL]. 分子植物育種:1-11. [2022-10-13]. http://kns.cnki.net/kcms/detail/46.1068.S.20220621.1951.010.html.
[11]Sahoo S,Das S S,Rakshit R. Codon usage pattern and predicted gene expression in Arabidopsis thaliana[J]. Gene X,2019,721:100012.
[12]Quax T E,Claassens N J,Soll D,et al. Codon bias as a means to fine-tune gene expression[J]. Molecular Cell,2015,59(2):149-161.
[13]Parvathy S T,Udayasuriyan V,Bhadana V. Codon usage bias[J]. Molecular Biology Reports,2022,49(1):539-565.
[14]Romero H,Zavala A,Musto H. Codon usage in Chlamydia trachomatis is the result of strand-specific mutational biases and a complex pattern of selective forces[J]. Nucleic Acids Research,2000,28(10):2084-2090.
[15]Xu C,Cai X,Chen Q,et al. Factors affecting synonymous codon usage bias in chloroplast genome of oncidium gower ramsey[J]. Evolutionary Bioinformatics Online,2011,7:271-278.
[16]李江飛,王 瑜,顏廷雨,等. 云南油杉葉綠體基因組密碼子偏好性分析[J]. 中南林業(yè)科技大學學報,2022,42(4):30-39.
[17]周 濤,楊 林,舒軍霞,等. 3種含笑屬植物葉綠體基因組密碼子偏好性分析[J]. 西部林業(yè)科學,2022,51(3):91-100.
[18]關云會,姚文燕,楊青淑,等. 西藏凹乳芹葉綠體基因組密碼子偏好性分析[J]. 分子植物育種,2021,19(23):7771-7781.
[19]Wright F. The ‘effective number of codons used in a gene[J]. Gene,1990,87(1):23-29.
[20]Rice P,Longden I,Bleasby A. EMBOSS:the European molecular biology open software suite[J]. Trends in Genetics,2000,16(6):276-277.
[21]Sueoka N. Near homogeneity of PR2-bias fingerprints in the human genome and their implications in phylogenetic analyses[J]. Journal of Molecular Evolution,2001,53(4/5):469-476.
[22]原曉龍,李云琴,張勁峰,等. 降香黃檀葉綠體基因組密碼子偏好性分析[J]. 廣西植物,2021,41(4):622-630.
[23]He Z,Gan H F,Liang X Y. Analysis of synonymous codon usage bias in potato virus m and its adaption to hosts[J]. Viruses,2019,11(8):752.
[24]Wang Z J,Xu B B,Li B,et al. Comparative analysis of codon usage patterns in chloroplast genomes of six Euphorbiaceae species[J]. Peer J,2020,8:e8251.
[25]李顯煌,楊生超,辛雅萱,等. 燈盞花葉綠體基因組密碼子偏好性分析[J]. 云南農業(yè)大學學報(自然科學),2021,36(3):384-392.
[26]王 婧,王天翼,王羅云,等. 沙棗葉綠體全基因組序列及其使用密碼子偏性分析[J]. 西北植物學報,2019,39(9):1559-1572. [HJ2mm]
[27]梁湘蘭,覃逸明,孫曉波,等. 藿香葉綠體基因組密碼子偏好性分析[J/OL]. 分子植物育種:1-23. [2022-10-13]. https://kns.cnki.net/kcms/detail/46.1068.S.20210325.0900.002.html.
[28]陳 哲,胡福初,王祥和,等. 菠蘿密碼子使用偏好性分析[J]. 果樹學報,2017,34(8):946-955.
[29]Chakraborty S,Yengkhom S,Uddin A. Analysis of codon usage bias of chloroplast genes in Oryza species:codon usage of chloroplast genes in Oryza species[J]. Planta,2020,252(4):67.
[30]張海霞,王玉道,許雪妮. 苜蓿質膜內在蛋白編碼基因MsPIPs家族的密碼子偏好性分析[J]. 江蘇農業(yè)學報,2021,37(6):1393-1399.
[31]續(xù) 晨,蔡小寧,錢保俐,等. 葡萄基因組密碼子使用偏好模式研究[J]. 西北植物學報,2012,32(2):409-415.
[32]梁 娥,齊敏杰,丁延慶,等. 竹節(jié)參轉錄組使用密碼子偏好性分析[J]. 江蘇農業(yè)科學,2019,47(2):59-63.