趙 森,鄧力華,陳 芬
(1.北部灣大學(xué)廣西北部灣海洋生物多樣性養(yǎng)護(hù)重點(diǎn)實(shí)驗(yàn)室,廣西 欽州 535011;2.中國科學(xué)院亞熱帶農(nóng)業(yè)生態(tài)研究所亞熱帶農(nóng)業(yè)生態(tài)過程重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410125)
密碼子是聯(lián)結(jié)生物體內(nèi)遺傳物質(zhì)和蛋白質(zhì)翻譯的紐帶。生物體內(nèi)的20種氨基酸,除了蛋氨酸(Met)和色氨酸(Trp)具有單一密碼子外,其余氨基酸均由2~6個同義密碼子編碼。同義密碼子的使用具有非均一性,某一物種或某一基因傾向使用一種或幾種特定的同義密碼子的現(xiàn)象稱為同義密碼子的使用偏好性[1]。密碼子使用偏好性是自然界廣泛存在的現(xiàn)象,是一種分子進(jìn)化形式,同一物種或親緣關(guān)系近的物種中基因一般表現(xiàn)為相似的密碼子使用模式。由于物種在進(jìn)化過程中受到的突變壓力和選擇作用影響不同,不同物種的密碼子使用偏好性不同。通過對密碼子偏好性的研究,能夠更好地了解物種的進(jìn)化發(fā)展[2]。越來越多的研究表明,密碼子使用偏好性與基因表達(dá)水平、基因長度、基因翻譯的起始信號、蛋白質(zhì)氨基酸的組成、蛋白質(zhì)結(jié)構(gòu)、tRNA的豐度、突變模式和頻率、GC含量等因素有關(guān)[3-5]。葉綠體基因組是核基因組之外相對獨(dú)立的遺傳物質(zhì),能夠半自主地進(jìn)行復(fù)制、轉(zhuǎn)錄和翻譯等生命過程。以葉綠體為受體的基因工程其遺傳方式為母性遺傳,與一般的核轉(zhuǎn)化體系相比具有外源基因高效表達(dá)、安全性高、多基因共表達(dá)、無位置效應(yīng)和基因沉默等多方面的優(yōu)勢[6-7]。已在植物抗性[8]、醫(yī)用蛋白高效表達(dá)[9-10]和農(nóng)藝性狀改良[11]等方面有重要應(yīng)用。目前,在油茶(CamelliaoleiferaAbel.)[12]、巨桉(EucalyptusgrandisHill ex Maiden)[13]、沙棗(ElaeagnusangustifoliaLinn.)[14]、酸棗[Ziziphusjujubavar.spinosa(Bunge) Hu ex H. F. Chow.][15]、灰毛漿果楝[Cipadessacinerascens(Pell.) Hand. -Mazz.][16]等林木樹種中開展了葉綠體基因組的相關(guān)研究。
秋茄(KandeliaobovataSheue, Liu & Yong)是一種生活在熱帶、亞熱帶潮間帶的紅樹植物,是紅樹林生態(tài)系統(tǒng)的重要組成部分,在海岸生態(tài)系統(tǒng)中發(fā)揮重要功能[17]。紅樹林除了具有重要的生態(tài)功能外,還是人類所需的食物、藥物以及化工原料的提供者[18-19]。近年來,我國紅樹林陸續(xù)出現(xiàn)多種害蟲種群爆發(fā)的現(xiàn)象,對紅樹林濕地的可持續(xù)利用帶來嚴(yán)峻挑戰(zhàn),如廣西北部灣地區(qū)的秋茄就遭受過小袋蛾(AcanthopsychesubferalbataHampson)、白囊袋蛾(ChalioideskondonisMatsumura)、蠟彩袋蛾(ChalialarminatiHeylaerts)等多種害蟲的危害[20]。通過葉綠體基因工程來提高植物抗蟲性是一種有效手段,但葉綠體基因密碼子使用偏好性一般與核基因不一致,直接轉(zhuǎn)化可能會造成轉(zhuǎn)化效率低和基因沉默現(xiàn)象。通過對葉綠體密碼子使用特性分析,有助于提高外源基因的轉(zhuǎn)化效率和高效表達(dá),同時,可為下一步開展葉綠體基因工程應(yīng)用和分子進(jìn)化研究奠定基礎(chǔ)。
從GenBank數(shù)據(jù)庫中搜索并下載秋茄葉綠體基因組序列(登錄號:MN117072),選擇長度大于300 bp的蛋白質(zhì)編碼序列為分析樣本[12]。
以篩選后的非重復(fù)的蛋白質(zhì)編碼序列為研究對象,利用CodonW 1.4.2計(jì)算樣本的同義密碼子相對使用度(relative synonymous codon usage,URSC)和有效密碼子數(shù)(effective number of codons,Nec);計(jì)算樣本中密碼子第3位核苷酸T、C、A和G的含量,分別記為T3、C3、A3和G3;利用CUSP在線程序(http://www.bioinformatics.nl/emboss-explorer/)計(jì)算樣本總體GC含量,記為GCall;計(jì)算密碼子第1、第2和第3位上GC含量,分別記為GC1、GC2和GC3。應(yīng)用SPSS 22.0軟件,基于Pearson相關(guān)系數(shù)法進(jìn)行各參數(shù)間的相關(guān)性分析。
1.3.1 中性繪圖分析 計(jì)算各基因密碼子第1、第2位核苷酸上GC含量的平均值GC12,即GC1和GC2的平均值,以GC12為縱坐標(biāo),以GC3為橫坐標(biāo)作散點(diǎn)圖,分析GC3和GC12之間的相關(guān)性[21]。
1.3.2 有效密碼子數(shù)繪圖分析 若同義密碼子使用頻率僅由堿基突變引起,則Nec=2+GC3+29/[GC32+(1-GC3)2],并繪制標(biāo)準(zhǔn)曲線,以各基因的GC3為橫坐標(biāo),實(shí)際Nec值為縱坐標(biāo),繪制各基因的散點(diǎn)圖進(jìn)行有效密碼子數(shù)繪圖(Nec-plot)分析,通過散點(diǎn)圖可以判斷造成密碼子使用偏好性的原因[22]。
1.3.3 奇偶偏好性分析 在分析計(jì)算各基因密碼子第3位上核苷酸含量(A3、T3、C3、G3)的基礎(chǔ)上,以G3/(G3+C3)為橫坐標(biāo),以A3/(A3+T3)為縱坐標(biāo)作散點(diǎn)圖進(jìn)行奇偶偏好性(PR2-plot)分析,對密碼子第3位上的4種堿基組成進(jìn)行分析[12]。
根據(jù)樣本Nec值大小進(jìn)行排序,分別選取排在前、后10%的基因定義為高偏性庫和低偏性庫,計(jì)算兩個庫的ΔURSC值。如果ΔURSC>0.3,同時在低偏性庫中URSC<1,在高偏性庫中URSC>1,則認(rèn)定為最優(yōu)密碼子[23-24]。
1.5.1 基于同義密碼子相對使用度的聚類分析 從GenBank中下載桐花樹[Aegicerascorniculatum(L.) Blanco]、白骨壤[Avicenniamarina(Forsk.) Vierh.]、銀葉樹(HeritieralittoralisDryand.)、紅欖李[Lumnitzeralittorea(Jack) Voigt]、欖李(LumnitzeraracemosaWilld.)、紅海欖(RhizophorastylosaGriff.)和木果楝(XylocarpusgranatumJ. Koenig)等紅樹植物葉綠體基因組CDS序列,按1.1的方法對各物種的CDS序列進(jìn)行篩選,連同秋茄的CDS序列,在CodonW軟件中計(jì)算各物種不同密碼子的URSC值,除去蛋氨酸(AUG)、色氨酸(UGG)和3個終止密碼子(UAA、UAG和UGA)后的59個密碼子用于分析。以每個物種作為一個分析對象,以各密碼子對應(yīng)的URSC值作為變量,在SPSS 22.0中采用系統(tǒng)聚類法進(jìn)行聚類分析。
1.5.2 基于rbcL基因序列的系統(tǒng)發(fā)育分析 以桐花樹、白骨壤、銀葉樹、紅欖李、欖李、紅海欖、秋茄和木果楝等紅樹植物的rbcL基因序列為分析對象,在MEGA 5.0軟件中對各物種的rbcL基因序列進(jìn)行Clustal W比對,分析中產(chǎn)生的空位處理為缺失,運(yùn)用最大似然法(maximum likelihood, ML)和鄰接法(neighbor joining, NJ)分別構(gòu)建系統(tǒng)發(fā)育樹,ML采用K2P雙參數(shù)模型估算核苷酸的替代數(shù)。兩種方法均采用1 000次的Bootstrap檢驗(yàn)各分支的置信度,其它參數(shù)為軟件默認(rèn)設(shè)置。
對篩選到的50條秋茄葉綠體蛋白質(zhì)編碼序列進(jìn)行分析,結(jié)果如表1所示。密碼子第1、2和3位上的GC平均含量分別為46.23%、38.68%和27.62%,GCall平均含量為37.51%,說明密碼子不同位置上的GC含量不同,其中又以GC3含量最低,即偏好使用以A/U結(jié)尾的密碼子。Nec范圍在35.40~55.50之間,平均值為47.02。以Nec<45說明密碼子使用偏好性強(qiáng),Nec>45說明密碼子使用偏好性弱的標(biāo)準(zhǔn)來判斷[16],其中Nec大于45的基因有35個(表1)??梢钥闯?,秋茄葉綠體基因密碼子使用偏好非隨機(jī)選擇,偏好性較弱。
表1 秋茄葉綠體基因組不同位置的GC含量
秋茄葉綠體基因組密碼子各參數(shù)的相關(guān)性分析結(jié)果顯示(表2),GC1、GC2、GC3和GCall兩兩之間的相關(guān)性均達(dá)到了極顯著水平,說明密碼子不同位置上的堿基組成十分相似。Nec與GC3之間相關(guān)系數(shù)為0.329,呈顯著相關(guān),說明GC3對密碼子使用偏好性有影響。Nec與GCall和密碼子個數(shù)(N)的相關(guān)系數(shù)分別為0.182和0.205,相關(guān)性較低,均未達(dá)到顯著水平,說明編碼區(qū)長度和GCall含量對密碼子偏好性的影響較小。
表2 秋茄葉綠體基因組密碼子各參數(shù)的相關(guān)性分析
秋茄葉綠體各氨基酸相對同義密碼子使用度分析結(jié)果表明(表3),URSC>1的密碼子有30個。其中,UUA密碼子的URSC值最大,為2.05,以U結(jié)尾的密碼子16個,以A結(jié)尾的密碼子13個,以G結(jié)尾的密碼子1個。這一結(jié)果進(jìn)一步證明,秋茄葉綠體基因組密碼子偏好使用以A/U結(jié)尾的密碼子而非G/C結(jié)尾的密碼子。
表3 秋茄葉綠體各氨基酸相對同義密碼子使用度
秋茄葉綠體基因組密碼子使用的中性繪圖分析結(jié)果如圖1所示,GC3的取值范圍在0.215~0.361之間,GC12的取值范圍在0.306~0.522之間。相關(guān)分析顯示,GC3和GC12之間的相關(guān)系數(shù)為0.464 0,在0.01水平上相關(guān)性顯著,回歸系數(shù)為0.706 4,其中突變壓力對密碼子使用偏好性的效應(yīng)占70.64%。由此可以看出,突變是秋茄葉綠體基因組密碼子使用偏好性的重要因素。
在沒有選擇作用的情況下,基因會分布在標(biāo)準(zhǔn)曲線上或附近。Nec-plot繪圖(圖2)顯示,除了小部分基因分布在標(biāo)準(zhǔn)曲線上或附近外,大部分基因遠(yuǎn)離標(biāo)準(zhǔn)曲線,說明自然選擇效應(yīng)也是影響因素之一。
圖1 秋茄葉綠體基因組密碼子使用的中性繪圖分析
秋茄葉綠體基因組密碼子的奇偶偏好性分析結(jié)果(圖3)顯示,平面上4個區(qū)域內(nèi)基因分布并不均勻。G3/(G3+C3)小于0.5的基因有26個,A3/(A3+T3)小于0.5的基因有30個,說明密碼子第3位上C的使用頻率高于G,T的使用頻率高于A,即秋茄葉綠體基因組密碼子第3位上嘧啶使用頻率高于嘌呤。如果只受到突變單一因素影響時,4種堿基會被均衡使用,而秋茄4種堿基使用不均衡,表明秋茄葉綠體基因組密碼子使用的偏好性除了受到突變壓力的影響外,還可能受到選擇壓力等其它因素的影響。
注:三角形表示每個基因平均分布位置,其值為x=0.497 224 43±0.081 186 424, y=0.481 708 133±0.046 540 165。Note: the angle indicates the average position for each gene, calculated as follows: x=0.497 224 43±0.081 186 424, y=0.481 708 133±0.046 540 165.
根據(jù)Nec值大小,分別取最大的5條和最小的5條序列建立高低偏性庫,并計(jì)算兩庫的ΔURSC值,其中ΔURSC值>0.3的密碼子有UUU、CUC、CUG、GUC、GUG、UCA、ACC、ACA、GCA、UAU、UGC、CGA、AGA、GGC、GGA等共15個(表4),其中AGA密碼子ΔURSC值最大,為0.66。以A/U結(jié)尾的密碼子有8個,以G/C結(jié)尾的密碼子7個。結(jié)合URSC在高低偏性庫中的值進(jìn)行分析,最終得出3個最優(yōu)密碼子,分別是:ACC、ACA和GCA。其中Thr密碼子2個(ACC和ACA),Ala密碼子1個(GCA)。
表4 秋茄葉綠體基因組最優(yōu)密碼子確定
基于葉綠體基因組的rbcL基因序列,分別通過ML和NJ方法構(gòu)建桐花樹、白骨壤、銀葉樹、紅欖李、欖李、紅海欖、秋茄和木果楝等紅樹植物的系統(tǒng)發(fā)育樹,經(jīng)比較,兩種方法構(gòu)建的系統(tǒng)發(fā)育樹的拓?fù)浣Y(jié)構(gòu)基本一致?;贜J方法構(gòu)建的系統(tǒng)發(fā)育樹[圖4(a)]顯示,同為使君子科(Combretaceae)的欖李和紅欖李以及同為紅樹科(Rhizophoraceae)的秋茄和紅海欖都以100%的支持率分別聚為一枝,梧桐科(Sterculiaceae)的銀葉樹和楝科(Meliaceae)的木果楝以67%的支持率聚在一起,紫金???Myrsinaceae)的桐花樹和馬鞭草科(Verbenaceae)的白骨壤與其它紅樹植物的關(guān)系較遠(yuǎn)?;诿艽a子使用偏好性的聚類結(jié)果與上述系統(tǒng)發(fā)育樹不完全一致,欖李與紅欖李、秋茄與紅海欖、銀葉樹與木果楝首先聚在一起。白骨壤先與銀葉樹和木果楝聚在一起后再與使君子科的2種植物聚為一枝,桐花樹則先與紅樹科的2物種聚在一起后再與其它紅樹植物聚為一類[圖4(b)]?;趓bcL基因序列的系統(tǒng)進(jìn)化樹和基于URSC值的聚類分析有一定的相似性,表明密碼子使用偏好性與物種之間的親緣關(guān)系有關(guān)。
GC含量是生物體基因組堿基組成的重要指標(biāo),由于密碼子第3位上受到的選擇壓力比前兩位小,故GC3常被用做衡量密碼子使用偏好性的指標(biāo)[2]。對秋茄葉綠體基因組密碼子不同位置上的GC含量分析發(fā)現(xiàn),GC1(46.23%)>GC2(38.68%)>GC3(27.62%),說明秋茄葉綠體基因組偏好使用NNU和NNA類型的密碼子,URSC分析結(jié)果也證明了這一點(diǎn),在對普通油茶[12]、沙棗[14]、籽粒莧(AmaranthushypochondriacusL.)[22]、菊科(Asteraceae)[23]等植物的研究中也發(fā)現(xiàn),在這些植物的葉綠體基因組中偏好使用A/U結(jié)尾的密碼子。各蛋白質(zhì)編碼基因的Nec取值介于35.40~55.50之間,平均值為47.02,顯示秋茄葉綠體基因密碼子偏性較弱。這與巨桉[13]、沙棗[14]、酸棗[15]等葉綠體密碼子使用偏好性一致,這可能與葉綠體基因功能較為保守有關(guān)。密碼子使用偏好性是由突變和自然選擇相互作用的強(qiáng)度和方向決定的,相關(guān)性分析和中性繪圖結(jié)果顯示,GC3和GC1、GC2、GC12及GCall之間均極顯著相關(guān),說明秋茄葉綠體基因密碼子前兩位和第3位的堿基組成無顯著差異,則暗示突變壓力是影響密碼子偏好性的重要因素[24]。PR2-plot分析顯示,各基因在平面內(nèi)的分布并不均勻,位于左下方的基因多于其他區(qū)域,說明秋茄葉綠體蛋白質(zhì)編碼基因密碼子中第3位上嘧啶使用頻率高于嘌呤,表明秋茄葉綠體基因密碼子使用模式除了受到突變影響外,還可能受到自然選擇等其它因素的影響,其密碼子使用模式形成過程較為復(fù)雜,Nec-plot分析也證明了這一點(diǎn)。這與籽粒莧[22]、沙棗[14]、文心蘭(OncidiumGower Ramsey)[25]等植物葉綠體基因組的特征一致,而與普通油茶[12]、苦蕎(FagopyrumtaraicumGaerth)[26]、酸棗[15]等植物主要受自然選擇作用的影響不同,也由此看出,造成不同植物密碼子使用偏好性差異的因素也不盡相同。
比較基于rbcL基因序列的系統(tǒng)發(fā)育樹和基于URSC值的聚類分析可以看出,親緣關(guān)系較近的物種首先聚在一起,但對親緣關(guān)系較遠(yuǎn)的物種,兩者的分析結(jié)果并不一致,這可能與基于URSC的聚類分析只能在較小的分類單元中提供較為可靠的結(jié)果,而在較大的分類單元中只能作為傳統(tǒng)分類的補(bǔ)充有關(guān)[27]。
秋茄葉綠體基因組密碼子偏好使用以A/U結(jié)尾的密碼子,密碼子使用偏好性較低。突變是引起密碼子使用偏好性的主要因素,除此之外,自然選擇、堿基組成等其它方面的因素也發(fā)揮一定作用。密碼子使用偏好性與物種之間的親緣關(guān)系有關(guān),經(jīng)綜合分析,確定了ACC、ACA和GCA等3個密碼子為秋茄葉綠體基因組的最優(yōu)密碼子。