鄭 鋼,顧翠花,林 琳,王 杰
(1.浙江農(nóng)林大學(xué) 風(fēng)景園林與建筑學(xué)院,浙江 杭州 311300;2.浙江農(nóng)林大學(xué) 浙江省園林植物種質(zhì)創(chuàng)新與利用重點實驗室,浙江 杭州 311300;3.浙江農(nóng)林大學(xué) 南方園林植物種質(zhì)創(chuàng)新與利用國家林業(yè)和草原局重點實驗室,浙江 杭州 311300)
密碼子承擔(dān)著生物體內(nèi)遺傳信息傳遞的重要功能,是DNA轉(zhuǎn)錄與翻譯、蛋白質(zhì)合成與表達(dá)過程中的關(guān)鍵單元。在生物體共用的一套密碼子中,終止密碼子不編碼氨基酸,甲硫氨酸(Met)和色氨酸(Trp)分別由1種密碼子編碼。其余59個密碼子具有簡并性,即1種氨基酸可由2~6個密碼子對應(yīng)編碼,編碼相同氨基酸的密碼子即為同義密碼子[1]?;虿⒎峭耆S機(jī)地使用同義密碼子,而是存在一定的偏好性。特定的密碼子偏好性是生物體長期適應(yīng)性進(jìn)化的結(jié)果,能夠反映生物對環(huán)境的分子適應(yīng)機(jī)制[2]。分析密碼子偏好性及其影響因素,對生物遺傳育種、進(jìn)化基因組學(xué)以及系統(tǒng)發(fā)育學(xué)研究具有深遠(yuǎn)的意義。1,5-二磷酸核酮糖羧化/加氧酶 (Ribulose-1,5-bisphosphate carboxylase/oxygenase, Rubisco 酶)是植物葉綠體基質(zhì)中參與光合作用的關(guān)鍵酶,約占可溶性蛋白質(zhì)總量的50%[3]。Rubisco酶具有催化1,5-二磷酸核酮糖(Ribulose-1,5-disphosphate, RuBP)與二氧化碳(CO2)羧化反應(yīng)和光呼吸中RuBP與氧氣(O2)加氧反應(yīng)的雙重活性,對凈光合率有決定性影響[4]。Rubisco酶由8個大亞基(催化亞基)和8個小亞基(調(diào)節(jié)亞基)組成,前者是固定CO2的活性位點和催化位點,由葉綠體基因組大單拷貝區(qū)的rbcL基因編碼[5?6]。環(huán)境的變化會導(dǎo)致rbcL基因產(chǎn)生適應(yīng)性進(jìn)化,從而影響植物光合效率[7]。因此,研究rbcL基因的密碼子使用模式有利于理解高等植物對環(huán)境的適應(yīng)機(jī)制。千屈菜科Lythraceae包括許多重要的園林植物,具有重要的觀賞價值和經(jīng)濟(jì)價值[8]。目前,rbcL基因在千屈菜科中的研究應(yīng)用僅局限于系統(tǒng)發(fā)育[9?10],對于該科密碼子使用偏好性的相關(guān)研究尚未見報道。本研究選取了千屈菜科具有代表性的10屬20種植物,分析rbcL基因的堿基組成、密碼子使用偏好性及其影響因素,并與模式物種進(jìn)行比較,為該科物種rbcL基因異源高效表達(dá)提供理論基礎(chǔ)。
20條rbcL基因全長編碼區(qū)序列(CDS)數(shù)據(jù)來源于美國國家生物技術(shù)信息中心(NCBI)的GenBank數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/),詳見表1。
表 1 20 種千屈菜科植物 rbcL基因信息Table 1 Information of rbcL genes from 20 Lythraceae species
通過CodonW 1.4.4軟件和在線工具EMBOSS explorer(http://emboss.toulouse.inra.fr./)中的 CUSP和CHIPS程序,統(tǒng)計rbcL基因密碼子末端各類型堿基含量(A3s、T3s、C3s和T3s)、GC總含量(GC)、密碼子各位點GC含量(GC1s、GC2s和GC3s)、有效密碼子數(shù)(ENC)和密碼子適應(yīng)指數(shù)(CAI)。利用SPSS 22.0軟件,選用皮爾森相關(guān)系數(shù)評估堿基組成和密碼子偏好性相關(guān)顯著水平[11]。
同義密碼子相對使用度(RSCU)是同義密碼子的實際使用頻次與無使用偏好性時期望頻次的比率,去除了堿基成分對密碼子使用產(chǎn)生的影響。RSCU>1,表示該密碼子在同義密碼子中使用相對較多;RSCU=1,表示該密碼子在同義密碼子中使用無偏好性;RSCU<1表示該密碼子在同義密碼子中使用相對較少[12]。通過CodonW 1.4.4軟件計算千屈菜科植物的RSCU,并利用TBtools 0.6軟件繪圖。
以GC3s和ENC為橫、縱坐標(biāo),通過Origin 9.1繪制ENC-GC3s散點圖。標(biāo)準(zhǔn)曲線為ENC期望值,即NENC=2+MGC3s+29/[MGC3s2+(1?MGC3s)2],其中NENC表示有效密碼子數(shù),MGC3s表示密碼子第3位堿基平均GC含量,該公式的成立表示密碼子的偏好性僅受突變壓力約束[13],此條件下,散點應(yīng)位于標(biāo)準(zhǔn)曲線上部或緊貼標(biāo)準(zhǔn)曲線下部;當(dāng)散點分布于曲線下方較遠(yuǎn)距離的區(qū)域時,表明除突變壓力作用外,選擇壓力對偏好性產(chǎn)生主要影響。
以GC3s為橫坐標(biāo),密碼子第1、2位點GC含量平均值(GC12)為縱坐標(biāo),利用Origin 9.1繪制散點圖并做線性回歸分析,分析密碼子不同位點堿基組成差異性[14]。當(dāng)回歸曲線斜率趨近1時,密碼子各位點堿基成分差異不大,偏好性主要受到突變的影響;當(dāng)斜率趨近0時,密碼子第3位點和第1、2位點堿基變異模式差異較大,偏好性主要受到選擇壓力影響。
奇偶偏差分析可評估密碼子第3位點嘌呤和嘧啶組成偏差對密碼子使用偏好性的影響[15]。以G3s/(G3s+C3s)和A3s/(A3s+T3s)為橫、縱坐標(biāo),利用Origin 9.1繪制奇偶偏差圖,交點(0.50, 0.50)表示無堿基突變和選擇壓力下,A=T且G=C。
參照巫偉峰等[16]方法,以59個密碼子(去除AUG、UGG和3個終止密碼子UAA、UAG、UGA)的RSCU為變量,20條CDS為個體,通過SPSS進(jìn)行系統(tǒng)聚類,類間距離為組內(nèi)聯(lián)接法,基因間距離為平方歐式距離。分別利用DAMBE 5.2.73和MEGA-X軟件對CDS進(jìn)行堿基替換飽和度檢測和總體平均距離(d)計算,同時滿足替換飽和度指數(shù)(Iss)小于飽和度標(biāo)準(zhǔn)指數(shù)(Iss.c),即Iss<Iss.c,表明堿基替換未飽和,且P=0.000和0<d<1后,通過MEGA-X軟件鄰接法(NJ)構(gòu)建系統(tǒng)發(fā)生樹,重復(fù)1 000次。
密碼子相對使用頻率比值是評估不同生物密碼子使用偏好性差異程度的重要參數(shù)。當(dāng)比值為0.5~2.0時,認(rèn)為物種密碼子偏好性差異較小[17]。擬南芥Arabidopsisthaliana、煙草Nicotianatabacum、番茄Solanumlycopersicum、大腸埃希菌Escherichiacoli和酵母Saccharomycescerevisiae的基因組密碼子使用頻率來源于密碼子使用數(shù)據(jù)庫(http://www.kazusa.or.jp/codon/)。千屈菜科物種整體密碼子平均使用頻率通過EMBOSS explorer中CUSP計算獲得[18]。利用Origin 9.1進(jìn)行繪圖。
從表2可見:GC含量為0.425~0.437,平均為0.431。結(jié)合密碼子各位點GC含量(GC1s為0.567~0.582,平均0.573;GC2s為0.429~0.437,平均0.432;GC3s為0.275~0.300,平均0.288),表明rbcL基因CDS在組成上更傾向于使用A/T堿基。第3位點各類型堿基含量從大到小依次為T3s、A3s、C3s、G3s,表明rbcL基因更偏向于使用A/T堿基結(jié)尾的密碼子。
表 2 20種千屈菜科植物rbcL基因堿基組成和密碼子使用特性Table 2 Base composition and codon usage characteristics of rbcL genes from 20 Lythraceae species
ENC和CAI是衡量密碼子使用偏好性程度的主要指標(biāo)。ENC從20(氨基酸只由1種同義密碼子編碼)至61(同義密碼子的使用沒有偏好性),越接近20偏好性越強(qiáng)。一般認(rèn)為,ENC<35表示密碼子的使用偏好性較強(qiáng)[19]。20種千屈菜科植物ENC為44.029~46.540,平均45.493,分布范圍較小且均遠(yuǎn)大于35,表明rbcL基因整體偏好性不強(qiáng)。CAI取值0~1,越接近1密碼子偏好性越強(qiáng)[20]。20種植物CAI為0.270~0.285,平均0.276,同樣說明偏好性強(qiáng)度不大。一般情況下,基因的密碼子使用偏好性越強(qiáng),在生物體內(nèi)的表達(dá)水平越高[21],可推測rbcL基因在千屈菜科植物中表達(dá)水平較低。
圖1顯示:在25個高頻密碼子(RSCU>1)中,23個以A/U結(jié)尾,僅2個由C(AUC和AGC)結(jié)尾。其中RSCU最高的5個密碼子(RSCU>2)末尾均為U堿基,表明rbcL基因CDS對于末端A/U(T)密碼子具有的使用偏好性。
圖 1 20 種千屈菜科植物 rbcL 基因同義密碼子相對使用度Figure 1 RSCU of rbcL genes from 20 Lythraceae species
相關(guān)分析(表3)表明:ENC和GC、GC3s在0.01水平上顯著相關(guān)(Pearson相關(guān)系數(shù)分別為0.855和0.856),表明堿基組成,尤其是密碼子第3位點堿基類型對千屈菜科rbcL基因的密碼子偏好性有明顯影響。GC3s和GC12相關(guān)不顯著,說明不同位點組成上關(guān)聯(lián)不大,堿基變異模式存在差異,rbcL基因較保守,突變偏性較小。
表 3 堿基組成與密碼子使用偏好相關(guān)性Table 3 Correlation between base composition and codon usage bias
圖2顯示了rbcL基因ENC和GC3s的關(guān)系。所有散點分布在標(biāo)準(zhǔn)曲線下方一定距離處,表明千屈菜科植物rbcL基因的密碼子偏好性除了受到堿基突變壓力外,更主要受自然選擇壓力的約束;散點集中分布在較小范圍內(nèi)說明自然選擇壓力強(qiáng)度相近。
圖 2 rbcL 基因 ENC-GC3s 繪圖分析Figure 2 ENC-GC3s plot analysis of rbcL genes
中性分析結(jié)果(圖3)顯示:所有散點均落在直線y=x(GC12)上方。GC3s與GC12的回歸曲線(斜率為0.069 4,R2=0.036 1)近似平行于X軸,表明千屈菜科植物rbcL基因密碼子第1、2位點與第3位點堿基類型相差較大。結(jié)合表3,GC3s與GC12相關(guān)性較低(Pearson相關(guān)系數(shù)為0.190),說明堿基突變對于密碼子第3位點的作用比第1、2位點弱,密碼子偏好性主要受自然選擇壓力的作用,受突變壓力的影響則較小。
圖 3 GC3s 與 GC12 的中性繪圖Figure 3 Neutral plot of GC3s and GC12
圖4顯示:當(dāng)密碼子偏好性只受堿基突變影響時,密碼子第3位點上嘌呤和嘧啶含量應(yīng)相同,即A3s=T3s或 C3s=G3s[22]。所有散點均明顯偏離交點(0.50, 0.50),且都分布在左下象限 [G3s/(G3s+C3s)<0.5,A3s/(A3s+T3s)<0.5],密碼子第3位點上嘧啶含量高于嘌呤[(A3s+G3s)<(T3s+C3s)]。4種堿基在密碼子第3位點上分布不均勻,說明相較于堿基突變壓力,自然選擇壓力對rbcL密碼子偏好性有更強(qiáng)的影響。
圖 4 rbcL 基因密碼子第 3 位點堿基奇偶偏好Figure 4 PR2 plot of the 3rd sites in codons of rbcL genes
20條 CDS堿基替換未飽和(Iss=0.025 3,Iss.c=0.785 2,P=0.000),總體平均遺傳距離為0.2。系統(tǒng)聚類樹狀圖和鄰接樹均將20種千屈菜科植物聚成了4~5個支系(圖5),說明不同支系的植物密碼子使用特性存在一定區(qū)別。雖然兩者在部分支系的內(nèi)部結(jié)構(gòu)上存在較大矛盾,但在支系水平(屬)上,兩者對10個紫薇屬Lagerstroemia植物、散沫花和圓葉節(jié)節(jié)菜以及2個菱屬Trapa植物之間的聚類結(jié)果相對一致,說明基于密碼子RSCU的系統(tǒng)聚類能在某種程度上反映千屈菜科植物屬間水平的親緣關(guān)系,即不同植物密碼子的使用偏好性與親緣關(guān)系存在局部對應(yīng)。
圖 5 基于rbcL基因CDS的鄰接樹(左)和基于59個密碼子RSCU的聚類樹狀圖(右)Figure 5 NJ tree based on CDS of rbcL genes (left) and cluster dendrogram based on RSCU of 59 codons (right)
從圖6可以看出:與千屈菜科植物rbcL基因密碼子平均使用頻率相比,大腸埃希菌有28個密碼子相差較大,最大值5.76(AGA);酵母有26個密碼子相差較大,最大值4.33(CGU),說明酵母更適合作為千屈菜科植物rbcL基因異源表達(dá)的受體。擬南芥、煙草和番茄分別存在20、19和17個使用頻率相差較大的密碼子,且最大值均出現(xiàn)在CGU,初步說明相較于擬南芥和煙草,番茄更適合作為千屈菜科植物rbcL基因遺傳轉(zhuǎn)化的受體。
圖 6 千屈菜科植物與模式生物密碼子使用頻率比值Figure 6 Ratios of codon usage frequency of Lythraceae species to model organisms
特定的密碼子使用偏好性是生物對環(huán)境變化適應(yīng)性的體現(xiàn),不同物種、不同功能基因的密碼子偏好性存在明顯差異。大部分雙子葉植物密碼子偏好A/T堿基結(jié)尾,單子葉植物則偏好G/C結(jié)尾[23],與本研究中千屈菜科植物rbcL基因密碼子A3s+T3s遠(yuǎn)遠(yuǎn)大于G3s+C3s的偏好性結(jié)果一致。李國靈等[13]對紅藻門Rhodophyta植物rbcL基因密碼子偏好性研究也得到了類似結(jié)果,雖然紅藻科和千屈菜科植物生活型、生理特性等相差較大,但千屈菜科也包括許多水生或濕生植物。兩者研究結(jié)果顯示:植物從水生向陸生過渡過程中,rbcL基因密碼子使用偏好性的變化可能較為穩(wěn)定,這也許是rbcL基因受到強(qiáng)烈自然選擇作用的結(jié)果。生物體內(nèi)高表達(dá)的基因,其密碼子偏好性也相對較強(qiáng),反之亦然[24]。千屈菜科植物rbcL基因ENC較高,CAI較低,說明千屈菜科植物rbcL基因整體的密碼子使用偏好性不強(qiáng),在植物體內(nèi)表達(dá)水平也不高。但仍存在CGU、CCU、ACU等13個偏好性相對較強(qiáng)的密碼子(RSCU>1.5),其在氨基酸中殘基含量也相對豐富。
密碼子使用偏好性的影響因素包括堿基組成、突變、自然選擇、漂變、基因長度、tRNA豐度以及基因表達(dá)水平的高低等,但最主要的壓力來自于突變和自然選擇[25]。本研究中,千屈菜科植物rbcL基因GC3s和GC、ENC的相關(guān)性顯著,表明密碼子偏好性在一定程度上受到了堿基組成的影響,之前的研究也證明GC3s和GC含量之間存在明顯的線性關(guān)系[26]。但GC3s與GC12相關(guān)程度較低,且GC3s集中分布在0.275~0.300內(nèi),KAWABE等[23]研究表明:密碼子使用偏好性主要受自然選擇的影響,而堿基突變的影響則較小,ENC分析、中性分析、奇偶偏差分析也得出相同的結(jié)論。這可能是由于rbcL基因本身為葉綠體基因,分子進(jìn)化速率相較于核基因更慢,且編碼的二磷酸核酮糖羧化酶是參與光合作用的關(guān)鍵蛋白,相對比較保守,所以突變壓力對其密碼子使用偏好性的作用相對較弱;而正選擇、協(xié)同進(jìn)化等作用在陸生植物的rbcL基因中被證明廣泛存在,也表明rbcL基因密碼子使用偏好性可能廣泛受到選擇約束[27?28]。
與RSCU聚類分析結(jié)果相比,基于CDS的鄰接樹在理論上更接近真實的物種系統(tǒng)發(fā)育關(guān)系。兩者相對一致的部分說明千屈菜科植物rbcL基因密碼子使用特性與屬間親緣關(guān)系存在一定程度的對應(yīng);兩者之間較為矛盾的分支可能是系統(tǒng)聚類僅選取單一RSCU數(shù)據(jù)分析導(dǎo)致的,結(jié)合密碼子偏好性的其他參數(shù),或許能獲得更加一致的結(jié)果。由于單基因建樹也可能會受到旁系同源基因干擾、水平基因轉(zhuǎn)移等多種因素影響產(chǎn)生誤差[29],因此基于密碼子偏好性的聚類分析也可對系統(tǒng)發(fā)生的研究內(nèi)容進(jìn)行一定補(bǔ)充。
轉(zhuǎn)基因過程中,選擇密碼子使用偏好性相近的物種作為異源表達(dá)受體,有利于外源基因的高效表達(dá)[30]。千屈菜科植物多數(shù)都是木本植物,遺傳轉(zhuǎn)化體系尚未成熟,由于受限于同源物種生活史長、生長速度慢等因素,其基因功能研究十分依賴模式物種。通過與模式物種密碼子使用頻率的初步比較,酵母更適合作為千屈菜科植物rbcL基因的異源表達(dá)受體;與擬南芥、煙草相比,番茄的密碼子使用頻率與千屈菜科植物rbcL基因差異性最小,更適合作為rbcL基因功能驗證的理想受體材料。但相對于番茄,擬南芥和煙草遺傳轉(zhuǎn)化體系建立相對較早,發(fā)展較為完善,已實現(xiàn)了多種木本植物葉綠體基因的遺傳轉(zhuǎn)化,積累的技術(shù)經(jīng)驗較多,遺傳轉(zhuǎn)化的難度也相對較小[31]。在觀賞植物研究中,番茄更多作為植物呈色相關(guān)基因的遺傳轉(zhuǎn)化受體,驗證其在色素積累與代謝中的調(diào)控作用[32]。因此,密碼子使用頻率的比較結(jié)果僅能為千屈菜科植物rbcL基因異源表達(dá)受體選擇提供初步的預(yù)測,受限于該科木本植物當(dāng)前采樣難度較大,且遺傳轉(zhuǎn)化體系尚未成熟建立等因素,最適的異源表達(dá)受體仍須在進(jìn)一步的實驗中進(jìn)行深入研究和嚴(yán)格篩選。