張海霞,王玉道,許雪妮
摘要:利用CodonW軟件分析苜蓿質(zhì)膜內(nèi)在蛋白編碼基因(MsPIPs)的密碼子組成,發(fā)現(xiàn)它們的密碼子在堿基使用中存在偏倚,偏好使用以T/A結(jié)尾的密碼子,其中T結(jié)尾的密碼子出現(xiàn)頻率為47%。MsPIPs密碼子的平均有效密碼子數(shù)(ENC)為45.47個(gè),偏好性較弱。通過主成分分析(PCA)、對應(yīng)性分析(COA)、偏倚分析(PR2)、有效密碼子數(shù)分析(ENC plot)和中性分析等多重分析方法對苜蓿MsPIPs密碼子偏好性的成因進(jìn)行分析,發(fā)現(xiàn)苜蓿MsPIPs的偏好性主要受自然選擇的影響。
關(guān)鍵詞:質(zhì)膜內(nèi)在蛋白;密碼子偏好性;自然選擇;突變
中圖分類號:S551+.7文獻(xiàn)標(biāo)識碼:A文章編號:1000-4440(2021)06-1393-07
Codon usage bias analysis of MsPIPs gene family which encode plasma membrane intrinsic proteins in alfalfa
ZHANG Hai-xia,WANG Yu-dao,XU Xue-ni
(Forestry Technology Popularization Station of Minqin County in Gansu Province, Minqin 733300, China)
Abstract:By using software CodonW to analyze the codon composition of plasma intrinsic protein encoded by MsPIPs gene in alfalfa, it was found that the codons showed bias in nucleobase use, the codons of MsPIPs preferred T/A endings, and the frequency of occurrence of T-ending codons was 47%. The average effective number of codons (ENC) of MsPIPs codons was 45.47, which had a weak codon bias. Through multivariate analytical methods combined by principal component analysis (PCA), corresponding analysis (COA), parity rule 2 plot mapping analysis (PR2), ENC plot analysis and neutrality plot analysis, the reason of the codon bias of the MsPIPs gene in alfalfa was analyzed, and it was found that the bias of MsPIPs in alfalfa might be driven by natural selection.
Key words:plasma membrane intrinsic proteins;codon usage bias;natural selection;mutation
密碼子在遺傳信息傳遞過程中起著至關(guān)重要的作用[1]。編碼不同氨基酸的密碼子的準(zhǔn)確識別是保證基因信息準(zhǔn)確表達(dá)的關(guān)鍵[2]。除了甲硫氨酸(Met)和色氨酸(Trp)由唯一的密碼子編碼外,大部分氨基酸均由2~6個(gè)同義密碼子編碼,同義密碼子在不同植物體內(nèi)的使用頻率有差異,形成了密碼子使用偏性[3]。密碼子使用偏性受群體中突變壓力、選擇壓力和基因漂變的影響,對研究基因功能、物種進(jìn)化等具有重要科學(xué)意義[4]。
質(zhì)膜內(nèi)在蛋白(Plasma membrane intrinsic proteins,PIPs)定位在質(zhì)膜上,是水通道蛋白(Aquaporins,AQPs)的亞家族成員,屬于主要內(nèi)在膜蛋白(Major intrinsic protein, MIP)家族[5]。目前,研究者們已經(jīng)從擬南芥、玉米和番茄等中分別鑒定到13個(gè)、13個(gè)和18個(gè)PIPs基因[6]。在植物生長發(fā)育過程中,PIPs主要負(fù)責(zé)植物體內(nèi)水分的吸收和運(yùn)輸,也參與植物體內(nèi)營養(yǎng)及元素的運(yùn)輸及細(xì)胞生長分化過程[7]。在干旱和鹽等非生物脅迫下,通過活性和表達(dá)情況的改變,PIPs在植物對非生物脅迫的應(yīng)答過程中發(fā)揮著重要作用[8]。對PIPs基因家族密碼子使用偏性的分析可為該家族編碼蛋白結(jié)構(gòu)和功能研究提供基礎(chǔ)數(shù)據(jù)。
2020年,苜?;蚪M全序列的公布[9]使得利用生物信息學(xué)手段在全基因組水平上研究苜蓿成為可能,但是苜蓿PIPs基因家族尚未見報(bào)道,且PIPs的密碼子使用偏性規(guī)律也不清楚。本研究以從苜?;蚪M中鑒定到的PIPs基因家族為基礎(chǔ),進(jìn)行密碼子偏好性分析,明確該基因家族的密碼子使用規(guī)律,為進(jìn)一步展開功能研究和苜??剐愿牧继峁├碚撘罁?jù)。
1材料和方法
1.1數(shù)據(jù)來源
在苜蓿基因組的Swissprot數(shù)據(jù)庫[9]中搜索包含“PIP”和編碼序列(CDS)長度大于300 bp的序列,并在NCBI網(wǎng)站上進(jìn)行這些序列的BLAST搜索,進(jìn)一步鑒定PIP序列。篩選出的26個(gè)MsPIPs基因序列按照MsPIP1~MsPIP26進(jìn)行命名(表1)。
1.2苜蓿PIPs基因家族密碼子組成分析
采用CondonW 1.3軟件(https://sourceforge.net/projects/codonw/)分析計(jì)算苜蓿PIPs基因家族基因的密碼子組成,包括同義密碼子相對使用度(Relative synonymous codon usage value,RSCU)值、有效密碼子數(shù)(Effective number of codons,ENC)、G+C含量、第3位堿基組成(A3S、T3S、G3S和C3S)等指標(biāo)[10]。第1位堿基的G+C含量(GC1)、第2位堿基的G+C含量(GC2)、第3位堿基的G+C含量(GC3)及第1和2位堿基的G+C含量(GC12)通過EMBOSS (http://imed.med.ucm.es/cgi-bin/emboss.pl?_action=input&_app=cusp)的Cusp功能計(jì)算得到[11]。
1.3最優(yōu)密碼子的確定
以ENC值為標(biāo)準(zhǔn)對上述篩選出的PIPs序列進(jìn)行排序,從排序結(jié)果的兩端各選取5%的基因建立高低偏性庫,計(jì)算高低偏性庫的△RSCU值,計(jì)算公式為:△RSCU=RSCU高偏性-RSCU低偏性。具有最高RSCU值的密碼子被稱為高頻密碼子,具有最大△RSCU值的密碼子被稱為高表達(dá)密碼子,同時(shí)滿足最高RSCU值和最大△RSCU值的密碼子被確定為最優(yōu)密碼子[12]。
1.4苜蓿MsPIPs基因家族密碼子的偏好性分析
按照Wei等[13]的方法進(jìn)行主成分分析(Principal component analysis,PCA),將密碼子的使用頻率分布在一個(gè)59維的向量空間中。利用對應(yīng)性分析(Corresponding analysis,COA),比較2個(gè)或更多類別的變量數(shù)據(jù),為密碼子使用趨勢和基因的主要變化研究提供直觀結(jié)果。利用偏倚分析(Parity rule 2 plot mapping analysis,PR2)分析各個(gè)密碼子第3位堿基組成(A3S、T3S、G3S和C3S)的情況。利用ENC-plot分析展示ENC和GC3的函數(shù)關(guān)系,使用中性分析(Neutrality plot mapping analysis)展示GC12和GC3的函數(shù)關(guān)系。
1.5數(shù)據(jù)統(tǒng)計(jì)分析
使用Excel 2016制圖。
2結(jié)果與分析
2.1苜蓿MsPIPs家族基因CDS序列的密碼子組成
從苜?;蚪M中篩選到26條MsPIPs基因,總GC含量為38%~50%,平均值為45%(表1)。MsPIPs的密碼子第3位堿基上A、T、C、G出現(xiàn)的平均頻率分別為28%、47%、26%和17%,表明苜蓿MsPIPs偏好使用以T/A結(jié)尾的密碼子。MsPIPs的ENC為38.87~49.54個(gè),平均值為45.47個(gè),表明苜蓿MsPIPs對密碼子使用的偏好性較弱。
2.2苜蓿MsPIPs的最優(yōu)密碼子
將苜蓿MsPIPs各成員氨基酸對應(yīng)密碼子的RSCU值整理求平均值后,得到MsPIPs家族密碼子的RSCU分析結(jié)果。各氨基酸中具有最高RSCU值的20個(gè)密碼子被確定為高頻密碼子(表2)。27個(gè)密碼子被確定為高表達(dá)密碼子(△RSCU>0.08)(表3)。10個(gè)密碼子被確定為最優(yōu)密碼子,分別是UUU、GUU、CCA、ACU、GCU、UAC、CAA、AAA、UGU和GGU。
2.3苜蓿MsPIPs密碼子的偏好性
基于RSCU值的PCA結(jié)果顯示,26個(gè)MsPIPs的密碼子使用頻率分布在25個(gè)軸上,向量軸1~4分別解釋了20.65%、16.18%、14.57%和13.81%的軸貢獻(xiàn),累計(jì)貢獻(xiàn)率為65.21%,表明向量軸1~4對密碼子偏好性有重要影響(圖1)。以第1和第2向量軸將MsPIPs分布在圖上,可以看出大部分成員分布在向量軸1的右半軸上(圖2)。進(jìn)一步通過COA分別分析了G+C含量(GC)、ENC值、GC3S和向量軸1~4的相關(guān)性。結(jié)果表明,GC3S與向量軸1和軸3呈極顯著負(fù)相關(guān),ENC值與向量軸2和軸4呈顯著或極顯著正相關(guān),G+C含量與向量軸3也呈顯著負(fù)相關(guān)(表4)。
T3S:第3位堿基上T出現(xiàn)的頻率;C3S:第3位堿基上G出現(xiàn)的頻率;A3S:第3位堿基上A出現(xiàn)的頻率;G3S:第3位堿基上G出現(xiàn)的頻率;GC3S:第3位堿基上G+C出現(xiàn)的頻率;GC:G+C含量;ENC:有效密碼子數(shù)。
GCG150.06TER:終止子;Phe:苯丙氨酸;Leu:亮氨酸;Ile:異亮氨酸;Met:甲硫氨酸;Val:纈氨酸;Ser:絲氨酸;Tyr:酪氨酸;His:組氨酸;Gln:谷氨酰胺;Asn:天冬酰胺;Lys:賴氨酸;Asp:天冬氨酸;Glu:谷氨酸;Cys:半胱氨酸;Pro:脯氨酸;Thr:蘇氨酸;Ala:丙氨酸;Trp:色氨酸;Arg:精氨酸;Gly:甘氨酸。
通過PR2分析組成MsPIPs氨基酸的第3位密碼子中A/G和T/C的關(guān)系(圖3)。除MsPIP17和MsPIP21分布在第4象限,MsPIP6分布在中軸線上,其余MsPIPs均分布在第3象限,表明MsPIPs的密碼子組成存在偏倚,且大部分MsPIPs結(jié)尾T的使用頻率高于A,C的使用頻率高于G。
如果基因密碼子的組成完全受突變的影響,則ENC的分析圖中,所有基因應(yīng)該落在標(biāo)準(zhǔn)曲線上。但是從ENC的分析結(jié)果可見,MsPIPs的所有基因成員均分布在預(yù)期ENC值的下方(圖4),表明MsPIPs的密碼子偏好受其他因素影響。此外,由表4可見,ENC和GC3s之間并無顯著相關(guān)性(r=0.113),表明第3位堿基上的G/C含量對密碼子的使用模式影響較小。
中性分析圖將GC12和GC3的關(guān)系可視化,并可進(jìn)一步幫助評估密碼子組成受突變和選擇壓力影響的程度。由圖5可見,MsPIPs的所有基因成員均分布在對角線上方。
A3/(A3+T3):第3位堿基上A的組成占第3位堿基上A、T組成的百分比;G3/(G3+C3):第3位堿基上G的組成占第3位堿基上G、C組成的百分比。
ENC:有效密碼子數(shù);GC3S:第3位堿基上G、C的組成。
GC12:第1和2位堿基的G+C含量;GC3:第3位堿基的G+C含量。
3討論
密碼子偏好性是多因素共同作用的結(jié)果,受自然選擇、堿基組成、基因表達(dá)水平、蛋白質(zhì)二級結(jié)構(gòu)等因素的影響[14-16],其中自然選擇和突變是主導(dǎo)密碼子偏好性的2類主要因素。楊國鋒等[17]發(fā)現(xiàn)蒺藜苜蓿葉綠體基因組的密碼子偏好性主要受到突變的影響。屈蒙蒙等[18]對香蕉質(zhì)膜內(nèi)在蛋白(PIPs)的密碼子偏好性分析結(jié)果表明,該家族基因受自然選擇的影響較大??梢?,不同物種、不同基因類型的同義密碼子偏好性不同。
本研究結(jié)果表明,苜蓿MsPIPs家族基因的密碼子多以T/A結(jié)尾。在得到的10個(gè)最優(yōu)密碼子中,有9個(gè)也是以T/A結(jié)尾。通過PR2分析,進(jìn)一步證實(shí)密碼子的第3位堿基組成存在偏倚。本研究結(jié)果與其他學(xué)者在翠雀[1]、沙棗[12]、蒺藜苜蓿[17]等植物中的研究結(jié)果一致。ENC值直接反映密碼子偏好性,以35為界,ENC值≤35表示密碼子偏好性強(qiáng),ENC值>35則表示密碼子偏好性弱[19]。苜蓿MsPIPs密碼子的平均ENC值為45.47,表明MsPIPs存在密碼子偏好性,只是程度較弱。
通過PCA、COA、ENC-plot和中性分析,進(jìn)一步分析造成MsPIPs密碼子偏好性的主要原因。從PCA和COA的結(jié)果可見,MsPIPs的成員主要分布在軸1的右半軸上,而軸1與GC3s呈顯著負(fù)相關(guān)關(guān)系,這表明第3位堿基組成(主要是A/T結(jié)尾)對MsPIPs的密碼子偏好性有影響。軸1僅解釋20.65%的密碼子使用頻率差異,可見除堿基組成外,還有其他因素對MsPIPs的密碼子偏好性產(chǎn)生影響。ENC-plot分析能通過基因和標(biāo)準(zhǔn)曲線的分布關(guān)系直接反映自然選擇和突變因素中的主導(dǎo)因素,如果基因落在標(biāo)準(zhǔn)曲線上,則表明基因的密碼子偏好性完全受突變的影響,反之則主要受自然選擇的影響[20]。本研究結(jié)果表明,MsPIPs所有成員均落在標(biāo)準(zhǔn)曲線下方,表明它們可能主要受到自然選擇的影響。這一推測也被中性分析進(jìn)一步證實(shí)。中性分析能有效地比較自然選擇和突變對密碼子偏好性的影響程度,當(dāng)GC12和GC3數(shù)值相同時(shí),基因會(huì)分布在回歸曲線上,且該基因不同位置的堿基組成無差異,密碼子使用更多地受突變影響,反之則主要受自然選擇的影響[21]。MsPIPs的中性分析中,所有基因均分布在回歸曲線的上方,表明所有成員主要受到自然選擇的影響。
4結(jié)論
苜蓿質(zhì)膜水通道蛋白家族編碼基因(MsPIPs)的密碼子偏好性較弱,堿基使用存在偏倚,偏好使用以A/T結(jié)尾的密碼子,且偏好性主要受自然選擇的影響。本研究結(jié)果可為通過密碼子改造MsPIPs提供理論依據(jù)。
參考文獻(xiàn):
[1]DUAN H R, ZHANG Q, WANG C M, et al. Analysis of codon usage patterns of the chloroplast genome in Delphinium grandiflorum L. reveals a preference for AT-ending codons as a result of major selection constraints [J]. PeerJ, 2021, 9(6): e10787.
[2]SAU K, GUPTA S K, SAU S, et al. Factors influencing synonymous codon and amino acid usage biases in Mimivirus [J]. Biosystems, 2006, 85: 107-113.
[3]GUAN D L, MA L B, KHAN M S, et al. Analysis of codon usage patterns in Hirudinaria manillensis reveals a preference for GC-ending codons caused by dominant selection constraints [J]. BMC Genomics, 2018, 19: 542.
[4]BULMER M. The selection mutation drift theory of synonymous codon usage [J]. Genetics, 1991, 129: 897-907.
[5]AYADI M, BRINI F, MASMOUDI K. Overexpression of a wheat aquaporin gene, TdPIP2;1, enhances salt and drought tolerance in transgenic durum wheat cv. Maali [J]. International Journal of Molecular Sciences, 2019, 20(10): 2389.
[6]孫天旭, 李玉花, 張旸. 逆境條件下水孔蛋白PIPs作用的研究進(jìn)展[J]. 植物生理學(xué)報(bào), 2014, 50(6): 749-757.
[7]劉海莉. 蘋果質(zhì)膜水通道蛋白基因PIP2;1的耐旱及耐鹽性功能分析[D]. 楊凌:西北農(nóng)林科技大學(xué), 2019.
[8]王星,張紀(jì)龍,馮秀秀,等. 植物質(zhì)膜水通道蛋白轉(zhuǎn)運(yùn)及逆境脅迫響應(yīng)的分子調(diào)控機(jī)制[J]. 遺傳, 2017, 39(4): 293-301.
[9]CHEN H T, ZENG Y, YANG Y Z, et al. Allele-aware chromosome-level genome assembly and efficient transgene-free genome editing for the autotetraploid cultivated alfalfa [J]. Nature Communications, 2020, 11: 2494.
[10]ZHANG Y Y, SHI E, YANG Z P, et al. Development and application of genomic resources in an endangered palaeoendemic tree, Parrotia subaequalis (Hamamelidaceae) from eastern China[J]. Frontiers in Plant Science, 2018, 9: 246.
[11]CUI G X, WANG C M, WEI X X, et al. Analysis of synonymous codon usage of the complete chloroplast genome in Phleum pratense cv. Minshan[J]. International Journal of Agriculture & Biology, 2020, 24(2): 352-358.
[12]王婧,王天翼,王羅云,等. 沙棗葉綠體全基因組序列及其使用密碼子偏性分析[J]. 西北植物學(xué)報(bào), 2019, 39(9): 1559-1572.
[13]WEI L, HE J, JIA X, et al. Analysis of codon usage bias of mitochondrial genome in Bombyx mori and its relation to evolution [J]. BMC Evolutionary Biology, 2014, 14: 262.
[14]惠小涵,程婷婷,柯衛(wèi)東,等. 蓮藕PPO基因密碼子偏好性特征分析[J]. 江蘇農(nóng)業(yè)學(xué)報(bào),2020,36(2):438-446.
[15]張玉波,周正湘,吳小玉,等. 基于轉(zhuǎn)錄組的大頭金蠅密碼子的偏好性分析[J]. 江蘇農(nóng)業(yè)科學(xué),2019,47(11):78-81.
[16]趙森,鄧力華,陳芬. 不同植物FERONIA基因密碼子使用偏好性分析[J].江蘇農(nóng)業(yè)學(xué)報(bào),2020,36(5):1073-1081.
[17]楊國鋒,蘇昆龍,趙怡然,等. 蒺藜苜蓿葉綠體密碼子偏好性分析[J]. 草業(yè)學(xué)報(bào), 2015, 24(12): 171-179.
[18]屈蒙蒙,孫雪麗,郝向陽,等. 香蕉水通道蛋白基因家族的密碼子偏好性分析[J]. 園藝與種苗, 2018(5): 4-10.
[19]SONG H, LIU J, CHEN T, et al. Synonymous codon usage pattern in model legume Medicago truncatula[J]. Journal of Integrative Agriculture, 2018, 17: 2074-2081.
[20]WRIGHT F. The effective number of codons used in a gene[J]. Gene, 1990, 87: 23-29.
[21]ZHANG D S, HU P, LIU T G, et al. GC bias lead to increased small amino acids and random coils of proteins in coldwater fishes[J]. BMC Genomics, 2018, 19: 315.
(責(zé)任編輯:張震林)
收稿日期:2021-03-29
作者簡介:張海霞(1975-),女,甘肅民勤人,本科,高級工程師,研究方向?yàn)榱植萦泻ι锓乐?。(E-mail)1098149863@qq.com
通訊作者:王玉道,(E-mail)1602239412@qq.com