龔婷婷 李維儀 陶媛 李少凡 王嘉文 楊柏云 羅火林
關(guān)鍵詞:蘭科;ABI3 基因;密碼子偏性
中圖分類(lèi)號(hào):Q943 文獻(xiàn)標(biāo)識(shí)碼:A
編碼同一氨基酸的不同密碼子稱(chēng)同義密碼子,在不存在外界壓力或者其他干擾因素條件下,同義密碼子的使用頻率是相同的。但是實(shí)際情況下,基因在編碼氨基酸時(shí)同義密碼子的使用頻率存在一定的傾向,這種現(xiàn)象稱(chēng)為密碼子偏好性[1]。生物在長(zhǎng)時(shí)間的進(jìn)化過(guò)程中由于基因突變和外界環(huán)境的影響會(huì)形成自身偏好的密碼子系統(tǒng),當(dāng)某一密碼子在編碼氨基酸受阻礙時(shí),它的同義密碼子能夠代替其行使功能從而保證蛋白質(zhì)合成的準(zhǔn)確性[2]。早在20 世紀(jì)70 年代,在對(duì)基因的異源表達(dá)進(jìn)行研究時(shí),人們就意識(shí)到密碼子偏性的重要性[3]。密碼子偏好性廣泛存在于生物界中,不僅可以用來(lái)描述基因進(jìn)化規(guī)律、基因表達(dá)過(guò)程中的調(diào)控機(jī)制,也可用于預(yù)測(cè)外源基因的最適宿主,通過(guò)密碼子優(yōu)化提高宿主中外源基因的表達(dá)量以及評(píng)估基因的表達(dá)水平等[4-5]。研究表明,原核生物和真核生物中均存在密碼子使用偏好性。目前已有人對(duì)辣椒[6]、芒果[7]、陸地棉[8]等高等植物進(jìn)行了密碼子偏性分析。分析生物對(duì)同義密碼子的使用情況特別是偏好性可為該生物的外源基因插入及表達(dá)提供一定的理論依據(jù)[9]。
蘭科(Orchidaceae)植物作為被子植物的大科之一,是植物保護(hù)中的“旗艦”類(lèi)群[10]。此外,很多蘭科植物具有極高的觀賞價(jià)值和藥用作用[11],受世人的喜愛(ài)與追捧。然而其種子細(xì)小無(wú)胚乳,自然條件下需與適宜的菌根真菌共生才能萌發(fā),萌發(fā)率低且萌發(fā)時(shí)間漫長(zhǎng)[12]。為了做好蘭科植物資源的保護(hù)與利用工作,針對(duì)其種子萌發(fā)的研究也引起越來(lái)越多的關(guān)注。ABI3 是ABA 信號(hào)轉(zhuǎn)導(dǎo)的中心調(diào)控因子,調(diào)節(jié)胚胎成熟和幼苗早期發(fā)育之間的過(guò)渡,是種子成熟所必需的[13]。目前國(guó)內(nèi)外對(duì)蘭科萌發(fā)基因ABI3 基因研究較少。本研究通過(guò)CodonW、MEGA 等程序?qū)μm科ABI3 基因密碼子進(jìn)行偏性分析,以期優(yōu)化密碼子來(lái)提高外源基因的表達(dá)量,然后對(duì)外源基因進(jìn)行密碼子改造,提高蘭科種子萌發(fā)率,為蘭科植物種子萌發(fā)的分子育種提供理論依據(jù)。
1 材料與方法
1.1 材料
以擬南芥ABI3 的基因序列(登錄號(hào)為NC_003074.8)為探針,在NCBI 的數(shù)據(jù)庫(kù)中,通過(guò)blastn 軟件查找同源的序列,獲得的序列經(jīng)CDHIT(http://www.bioinformatics.org/cd-hit/)在線軟件去冗余后,選擇包含300 bp 以上CDS(codingDNA sequence)的序列用于本研究(表1)。
1.2 方法
1.2.1 中性繪圖分析 以GC3為橫坐標(biāo),GC12(GC1和GC2的平均值)為縱坐標(biāo)繪圖,解析密碼子3 個(gè)位置堿基組成的相關(guān)性。若GC12與GC3值無(wú)顯著性差異,則所有點(diǎn)將沿對(duì)角線分布,說(shuō)明主要來(lái)自堿基突變,外界選擇影響弱或者無(wú);反之,則說(shuō)明選擇效應(yīng)是基因最主要的進(jìn)化約束力。
1.2.2 有效密碼子數(shù)(effective number of codons,ENC)繪圖分析 ENC 值反映同義密碼子的使用偏好,ENC 值范圍為20~61,當(dāng)ENC=20 時(shí)表示密碼子偏性最強(qiáng);ENC=61 表示同義密碼子被平均使用,不存在密碼子偏性。ENC 繪圖分析主要反映ENC 與GC3之間的分布關(guān)系,標(biāo)準(zhǔn)曲線ENC=2+GC3+29/(2×GC32?2×GC3+1)[14-15]。當(dāng)無(wú)自然選擇壓力影響時(shí),密碼子偏性?xún)H由堿基突變產(chǎn)生,散點(diǎn)則位于曲線之上,如散點(diǎn)遠(yuǎn)離曲線時(shí),則表示自然選擇壓力更多地參與了同義密碼子的使用頻率[16]。
1.2.3 PR2-plot 分析(parity rule 2, PR2) 密碼子奇偶偏好分析主要分析密碼子第三位的奇偶偏性。理論上DNA 的2 條互補(bǔ)鏈,如沒(méi)有發(fā)生突變則A=T,G=C。分別以基因A3/(A3+T3),G3/(G3+C3)為橫縱坐標(biāo)做散點(diǎn)圖,圖中中心A=T且C=G 橫縱坐標(biāo)均為0.5,從該中心出發(fā)的矢量表示奇偶性的方向與程度[17]。
1.2.4 最優(yōu)密碼子分析 相對(duì)同義密碼子使用度(relative synonymous codon usage, RSCU)是指對(duì)于某一特定的密碼子在編碼對(duì)應(yīng)氨基酸的同義密碼子間的相對(duì)概率,在某一密碼子和與其編碼相同氨基酸的多種同義密碼子之間(同一基因序列上)[18],是某一個(gè)密碼子使用的頻率與平均使用期望值的比值,它去除了氨基酸內(nèi)部組成對(duì)密碼子使用的影響[19]。如果密碼子的使用沒(méi)有偏好性,該密碼子的RSCU=1;若RSCU>1,表示密碼子偏性較強(qiáng),使用頻率相對(duì)較高;若RSCU<1,表示基因偏性較弱,基因低表達(dá)。由此可以確定基因的最優(yōu)密碼子,并進(jìn)一步判斷基因密碼子偏好A/T 或C/G 結(jié)尾。
將ENC 值由大到小排序,分別將前10%和后10%的基因設(shè)為高表達(dá)基因庫(kù)和低表達(dá)基因庫(kù),計(jì)算ΔRSCU 值。最優(yōu)密碼子確定:高表達(dá)基因庫(kù)中RSCU>1;低表達(dá)基因庫(kù)中RSCU<1;ΔRSCU≥0.2[20-21]。
1.3 數(shù)據(jù)處理
將獲得的序列整理后,用CodonW 軟件對(duì)45條序列進(jìn)行密碼子組成和偏好性參數(shù)分析;在Excel 軟件中對(duì)運(yùn)行獲得密碼子第1、2、3 位上的GC 含量,各堿基ENC、CAI 及RSCU 等值進(jìn)行整理;運(yùn)用SPSS13.0、MEGA5.1 軟件進(jìn)行數(shù)據(jù)分析和繪圖分析。
2 結(jié)果與分析
2.1 蘭科ABI3 基因的堿基組成及相關(guān)性分析
利用CodonW、MEGA 軟件獲得并計(jì)算ABI3基因編碼區(qū)序列不同位置的GC 含量、ENC 值和CAI 值(表2)??侴C(GCall)含量為42.8%~65.9%,平均值為49.45%,GC1 為43.8%~68.7%,平均值為50.58% ,GC2 為41.8%~61.4% , 平均值為48.48%,GC3為41.1%~67.6%,平均值為49.33%,接近50%,說(shuō)明其在編碼氨基酸堿基選擇上對(duì)于G/C 和A/T 沒(méi)有明顯的偏好性。同樣地,ENC 值范圍在40.84~58.46,平均值為49.81;CAI 平均值為0.203,遠(yuǎn)小于1,這些證據(jù)都表明這類(lèi)基因的密碼子偏性較弱。
2.2 中性繪圖分析
ABI3 基因的中性繪圖分析結(jié)果顯示(圖1),45 個(gè)ABI3 基因坐標(biāo)點(diǎn)幾乎均沿著圖中對(duì)角線分布,有些甚至位于對(duì)角線上,表明ABI3 基因主要受堿基突變的影響,來(lái)自外界的選擇壓力較小。GC12的范圍為43.50%~65.05%,GC12與GC3的回歸曲線的斜率為0.6103,R2=0.7928,P<0.05,有極高的相關(guān)性,說(shuō)明堿基組成對(duì)密碼子偏性在一定程度上受堿基組成的影響。
2.3 基因密碼子使用參數(shù)之間的相關(guān)性分析
對(duì)基因ENC 值以及密碼子不同位置堿基組成情況進(jìn)行相關(guān)性分析,分析結(jié)果如表3 所示,GC1、GC2、GC3任意二者之間均存在極顯著正相關(guān)性(P<0.01),說(shuō)明各基因密碼子三位堿基的組成之間密切相關(guān),受隨機(jī)突變或者有一定方向突變壓力的影響較大;這暗示著3 個(gè)位點(diǎn)的GC值(GC1、GC2、GC3)都可能對(duì)密碼子偏性產(chǎn)生一定程度的影響;而ENC 值與GC1存在顯著負(fù)相關(guān)性(P<0.05),與GC2、GC3和基因總的GC含量(GCall)都存在極顯著負(fù)相關(guān)性(P<0.01),與基因編碼氨基酸的長(zhǎng)度(Laa)存在極顯著正相關(guān)性。說(shuō)明在基因密碼子中,第3 位堿基組成對(duì)密碼子使用模式存在較大的影響。由參數(shù)間的相關(guān)性可知,同義密碼子堿基所在位置及含量對(duì)基因密碼子使用偏好性的影響從大到小排序:GC3>GCall>GC1>GC2(密碼子使用偏好性越強(qiáng),ENC值越?。?。
2.4 ENC 與GC3的關(guān)聯(lián)分析
以各基因ENC 值為縱坐標(biāo),GC3值為橫坐標(biāo)做散點(diǎn)圖(圖2)。ABI3 基因GC3值41.1%~67.6%之間,平均值為49.33%,表明密碼子第3 位堿基GC 變化頻率較大。ENC 值在40.84~58.46 之間,說(shuō)明不同基因密碼子偏性相差較大。部分分布在標(biāo)準(zhǔn)曲線周?chē)腁BI3 基因密碼子偏好性主要由突變?cè)斐桑欢谄x期望曲線位點(diǎn)基因密碼子偏好性受自然選擇影響大;沒(méi)有一個(gè)點(diǎn)落在曲線上,說(shuō)明不存在完全由堿基突變的密碼子偏性情況。
2.5 奇偶偏好分析
密碼子奇偶偏好性主要用于分析密碼子第3位發(fā)生奇偶偏性,圖中中心橫縱坐標(biāo)均是0.5,A=C 且G=C,表示DNA 兩條互補(bǔ)鏈之前不存在突變。由PR2 分析圖(圖3)可知,大多數(shù)基因A3/(A3+T3)或G3/(G3+C3)值都偏離了0.5,只有個(gè)別基因接近0.5,表明該基因密碼子偏性受基因突變影響大,其他因素的影響依然存在,例如自然選擇等。從橫坐標(biāo)來(lái)看,除個(gè)別基因小于0.5,大多數(shù)大于0.5,表明第3 位上A 的比例大于T(U),密碼子在A 和T(U)之間具有一定的偏好性;從縱坐標(biāo)來(lái)看,大多數(shù)大于0.5,表明第3位上G 的比例大于C。綜上進(jìn)一步說(shuō)明了ABI3基因密碼子偏性除了主要受基因突變影響以外還受其他因素的影響。
2.6 ABI3 基因相對(duì)同義密碼子使用度分析(RSCU)
通過(guò)CodonW 軟件計(jì)算45 條ABI3 基因序列的RSCU 值(表4)。結(jié)果顯示,RSCU=1 的密碼子有4 個(gè)(AAC、UGG、GCC、GCA),表明這幾個(gè)同義密碼子無(wú)偏性被隨機(jī)使用;RSCU>1的密碼子有28 個(gè)(占全部密碼子的46.67%),其中以T(U)結(jié)尾的有12 個(gè),A 結(jié)尾的有7 個(gè),C 結(jié)尾的有5 個(gè),G 結(jié)尾的有4 個(gè),以A/T(U)結(jié)尾的占比67.86%,表明蘭科ABI3 基因偏愛(ài)A/T(U)結(jié)尾的密碼子,顯著偏愛(ài)T(U)結(jié)尾的密碼子。
2.7 最優(yōu)密碼子分析
通過(guò)ENC 值大小排序,取前后10%值作為高低表達(dá)基因庫(kù),計(jì)算ΔRSCU 值(表5),確定最優(yōu)密碼子。最終確定了ABI3 基因編碼12 個(gè)氨基酸的26 個(gè)最優(yōu)密碼子,其中有編碼12 個(gè)氨基酸的22 個(gè)密碼子ΔRSCU≥0.5,G/C 結(jié)尾的有12個(gè),以A/T(U)結(jié)尾的有14 個(gè),其中以U 結(jié)尾的密碼子有10 個(gè),表明蘭科植物ABI3 基因偏好以A/T(U)結(jié)尾的最優(yōu)密碼子,尤其偏愛(ài)以T(U)結(jié)尾的密碼子。
3 討論
密碼子是基因傳遞信息中的基本結(jié)構(gòu)單位,自然界生物基因組中密碼子偏性使用現(xiàn)象廣泛存在[22]。不同物種在自然選擇中生存下來(lái),密碼子存在一定差異并且有其偏好性,因此對(duì)密碼子偏性研究可反映一定的進(jìn)化特征[23]。作為生物堿基組成重要指標(biāo)之一,GC 含量可反映密碼子使用偏性突變的整體趨勢(shì)[24],密碼子第3 位GC3 含量通??勺鳛榉治雒艽a子偏性的主要衡量標(biāo)準(zhǔn)之一。ENC 值可表示偏性的強(qiáng)弱,蘭科植物ABI3 基因的ENC 平均值為49.81,表明在蘭科植物中大部分ABI3 基因密碼子的偏性較弱。通過(guò)RSCU 和ΔRSCU 分析,發(fā)現(xiàn)ABI3 基因主要偏愛(ài)使用以A/T(U)結(jié)尾的密碼子,與KUMAR 等[25]研究馬流感病毒,陳哲等[26]研究菠蘿和WU 等[27]研究的芍藥密碼子偏性使用一致,尤其偏愛(ài)以T(U)結(jié)尾的密碼子;與其他多數(shù)單子葉植物主要偏愛(ài)C/G 結(jié)尾的密碼子不同,如小麥CBL4 基因密碼子[28],香蕉Aux/IAA 基因家族密碼子[29]等。在對(duì)多種植物基因組密碼子進(jìn)行偏好性分析中發(fā)現(xiàn),雙子葉植物的GC 含量最低,而單細(xì)胞藻類(lèi)GC含量最高,說(shuō)明密碼子使用偏性的程度可能隨物種進(jìn)化的程度而降低[30]。
影響密碼子偏性的因素主要包括:堿基組成差異、自然選擇、tRNA 豐富度、翻譯效率、蛋白質(zhì)功能,選擇突變漂變學(xué)說(shuō)等[31]。通過(guò)中性繪圖分析、ENC 與GC3 關(guān)聯(lián)分析和奇偶偏好分析,說(shuō)明蘭科植物ABI3 基因受堿基突變影響較大,同時(shí)也受到其他因素的影響,如選擇壓力。植物基因的密碼子偏性形成過(guò)程中,一般受由堿基突變和自然選擇等多重影響,如楊祥燕等[32]研究的菠蘿葉綠體基因密碼子、ZHOU 等[33]研究的一些種子植物葉綠體基因密碼子、梁娥等[34]研究的竹節(jié)參轉(zhuǎn)錄組密碼子、劉慧等[35]研究的糜子葉綠體基因組密碼子;有時(shí)也會(huì)其中一個(gè)占主導(dǎo)作用,如馬盛超等[18]研究的蓼科大黃屬植物CHS 基因,主要受自然選擇影響。另外,對(duì)基因ENC 值以及密碼子不同位置堿基組成情況進(jìn)行相關(guān)性分析發(fā)現(xiàn),GC1、GC2、GC3 顯著相關(guān),說(shuō)明同義密碼子3 個(gè)位置上堿基含量接近,受隨機(jī)突變或者有一定方向突變壓力的影響較大;ABI3 基因同義密碼子堿基所在位置及含量均對(duì)基因密碼子使用偏好性產(chǎn)生一定影響。
由于蘭科植物自然生境的破壞和資源的過(guò)度開(kāi)采,野生蘭科植物極度瀕危。瀕危蘭科植物的再生和合理利用有賴(lài)于種苗繁殖技術(shù)的蓬勃發(fā)展,而該技術(shù)的核心問(wèn)題之一便是種子萌發(fā)。ABI3是種子成熟所必需的,它調(diào)節(jié)胚胎成熟和幼苗早期發(fā)育之間的過(guò)渡,被視為假定的種子特異性轉(zhuǎn)錄激活劑[36]?;蚬δ苎芯勘砻髟摶蚩捎行岣叻N子萌發(fā)效率。因此,通過(guò)遺傳轉(zhuǎn)化技術(shù),提高蘭科植物ABI3 基因的表達(dá)水平,是解決蘭科植物種子萌發(fā)障礙的重要途徑之一。本研究通過(guò)分析ABI3 密碼子偏性并篩選出26 個(gè)最優(yōu)密碼子,為優(yōu)化育種提供理論依據(jù),在今后ABI3 基因轉(zhuǎn)化蘭科植物時(shí),可以對(duì)外源基因序列進(jìn)行適當(dāng)改造,然后轉(zhuǎn)化至蘭科植物中,有望提高其表達(dá)效率,更有利于培育出種子易萌發(fā)的蘭科花卉。