佟巖,黃薈,2,王雨華*
1. 中國(guó)科學(xué)院昆明植物研究所,資源植物與生物技術(shù)重點(diǎn)實(shí)驗(yàn)室,云南省野生資源植物研發(fā)重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650201;2. 懷化學(xué)院生物與食品工程學(xué)院,湖南 懷化 418000
古茶樹(shù)多指百年左右、樹(shù)體高大的自然生長(zhǎng)或栽培的茶樹(shù),主要為茶組植物的野生型、半野生型或栽培型等各類(lèi)茶樹(shù)資源,云南是世界上古茶樹(shù)和野生大茶樹(shù)資源最為豐富的地方,至今仍保留有較大面積的古茶林[1]。古茶樹(shù)是重要的茶樹(shù)種質(zhì)資源基因庫(kù),在研究茶樹(shù)的起源、進(jìn)化、生物多樣性、品種改良等方面都具有重要的價(jià)值[2]。裴盛基等[3]從民族植物學(xué)視角提出,以產(chǎn)出生態(tài)茶葉為目標(biāo),按傳統(tǒng)方式管理,符合綠色、有機(jī)種植標(biāo)準(zhǔn),面積在0.5 hm2以上,伴生有高于5 m 以上至少1 種形成林冠的其他野生或栽培的木本植物,覆蓋度在 10%以上的栽培山茶科山茶屬茶組植物群落稱(chēng)為森林茶園,一般古茶林都能達(dá)到森林茶園的標(biāo)準(zhǔn),稱(chēng)為古茶林森林茶園。古茶林森林茶園是我國(guó)二三千年的茶葉栽培史中,勞動(dòng)人民通過(guò)各種傳統(tǒng)農(nóng)業(yè)耕作模式遺留下來(lái)的,既保留了天然林的主要特征和功能,又能在人為調(diào)控作用下獲得最大利用價(jià)值的茶園模式,具有重要的生態(tài)、經(jīng)濟(jì)和文化意義[3-4]。茶組植物大理茶(Camellia taliensis)是云南古茶樹(shù)資源中分布廣泛、面積大、適應(yīng)性強(qiáng)的一種茶樹(shù)資源,也是古茶林森林茶園的重要物種,其群落為物種多樣性豐富的原生自然植被,調(diào)查發(fā)現(xiàn)白鶯山古茶園、鎮(zhèn)源千家寨等古茶林森林茶園的主要建群物種即為大理茶,其是典型的森林茶園古茶樹(shù)物種[5-6]。前人基于分子標(biāo)記研究發(fā)現(xiàn),大葉茶可能是由栽培的大理茶與小葉茶進(jìn)行雜交后再馴化而來(lái)[7-8]。此外,大理茶也是迄今發(fā)現(xiàn)與栽培茶化學(xué)成分最為相近,以及富含咖啡堿和茶多酚的近緣茶組植物,自古以來(lái)就被當(dāng)?shù)厣贁?shù)民族利用作為茶飲,有名的“大理感通茶”“銀生茶”“野生喬木茶”等均來(lái)源于大理茶[5,9]。
大理茶分布于云南西南部山區(qū),橫斷山脈瀾滄江中段至伊洛瓦底江流域,海拔1 500~2 400 m的南亞熱帶山地的中山地帶,野生大理茶為國(guó)家二級(jí)保護(hù)樹(shù)種,群落物種多樣性極為豐富[10]。茶葉品質(zhì)的季節(jié)性變化及地區(qū)性差異主要是由于光、溫度等環(huán)境因子對(duì)茶樹(shù)多酚類(lèi)、咖啡堿及茶氨酸等主要成分合成與代謝的影響導(dǎo)致[11]。在茶樹(shù)種植中多用遮陰覆蓋等農(nóng)業(yè)措施調(diào)節(jié)茶樹(shù)的光合作用,從而提升茶品質(zhì)[11-12]。葉綠體是植物體中進(jìn)行光合作用的重要器官,擁有獨(dú)立于細(xì)胞核的半自主遺傳系統(tǒng)[13]。葉綠體基因組DNA(Chloroplast genome DNA,cpDNA)具有分子量小、單倍性、單親遺傳的特點(diǎn),其基因含量和基因組高度保守,基因類(lèi)型與位置分布較為保守、遺傳特性穩(wěn)定,有些進(jìn)化速率較快的基因如matK(Maturase kinase)等兼具較高的基因同源性和大量的變異位點(diǎn),多態(tài)性高,在物種鑒定、系統(tǒng)發(fā)育關(guān)系和物種起源等方面應(yīng)用廣泛[13-14]。matK基因位于葉綠體trnK基因的內(nèi)含子中,編碼一種參與葉綠體Ⅱ型內(nèi)含子剪切的成熟酶K,是葉綠體行使正常功能的關(guān)鍵基因之一[15]。聶傳朋等[16]對(duì)茶樹(shù)DNA 條形碼引物進(jìn)行了初步篩選,認(rèn)為matK、rcbL可作為茶樹(shù)品種間分類(lèi)的備選序列。目前,matK作為植物DNA 條形碼的標(biāo)準(zhǔn)序列之一,不僅能夠用于植物種及變種之間的鑒別,還能夠有效地對(duì)屬間及屬以上級(jí)別進(jìn)行鑒定,對(duì)近緣種也有較好的分辨力。
遺傳信息從mRNA 翻譯成蛋白質(zhì)時(shí),由于密碼子的簡(jiǎn)并性而對(duì)同義密碼子的使用頻率出現(xiàn)差異的現(xiàn)象稱(chēng)為密碼子使用偏好性(Codon usage bias,CUB)[17]。不同物種、不同基因的密碼子偏好性不同,是物種長(zhǎng)期進(jìn)化過(guò)程中受到自然選擇、突變壓力和隨機(jī)遺傳漂變等多種因素影響而形成的,密碼子偏好性的存在可降低外源基因在宿主中的表達(dá)量,從而維持物種的穩(wěn)定遺傳[18-19]。本研究通過(guò)對(duì)大理茶葉綠體基因組的密碼子使用與基因的表達(dá)情況、CDS 區(qū)的堿基組成等密碼子使用偏好特征及其偏好性的影響因素進(jìn)行系統(tǒng)分析,篩選最優(yōu)密碼子,為提高大理茶外源基因的表達(dá)轉(zhuǎn)化效率提供基礎(chǔ)。
大理茶(C. taliensis)葉綠體基因組參照Yang 等[20]報(bào)道,基因組序列(NC_022264.1)及注釋文件均從NCBI 數(shù)據(jù)庫(kù)中下載,獲得的大理茶葉綠體基因組序列長(zhǎng)度為156 974 bp,共包含 89 條編碼序列(Coding sequence,CDS)。移除基因編碼序列中長(zhǎng)度小于300 bp的序列與基因重復(fù)序列,最終獲得54 條符合條件的大理茶CDS 序列用于后續(xù)分析。
同時(shí)從 NCBI 數(shù)據(jù)庫(kù)中下載小葉茶(C.sinensisvar.sinensis,NC_020019.1)、大葉茶云抗 10 號(hào)(C. sinensisvar.assamicacv.Yunkang10,MH019307.1)、白毛茶(C. sinensisvar.pubilimba,NC_038198.1)、德宏茶(C.sinensisvar.dehungensis,KJ806279.1)、大苞茶(C. grandibracteata,NC_024659.1)、禿房茶(C. gymnogyna,NC_039626.1)、大廠茶(C.tachangensiscv.Xingyi6,NC_056149.1)、毛葉茶(C. ptilophylla,NC_038198.1)、突肋茶(C. costata,NC_061904.1)9 個(gè)茶組植物,以及木荷(Schima superba,NC_035545.1)和紫莖(Stewartia sinensis,NC_035640.1)2 個(gè)外類(lèi)群山茶科木荷屬、紫莖屬植物的葉綠體基因組序列。采用上述方法分別獲取這11 個(gè)物種的符合條件的CDS 序列用于后續(xù)茶組植物系統(tǒng)發(fā)育分析。
用CodonW v1.4.2 軟件對(duì)大理茶葉綠體基因組54 條CDS 序列的編碼氨基酸長(zhǎng)度(Laa)、有效密碼子數(shù)(Effective number of codon,ENC)、相對(duì)同義密碼子使用度(Relative synonymous codon usage,RSCU)、密碼子適應(yīng)指數(shù)(Codon adaptation index,CAI)、同義密碼子中GC 含量和密碼子第3 位上A、T、C、G 的含量(分別以A3s、T3s、C3s、G3s表示)進(jìn)行分析。再使用CUSP(http://imed.med.ucm.es/EMBOSS)在線軟件計(jì)算 GC 總含量(GCall)及密碼子第1、第2、第3 位堿基組成中的GC 含量(分別以GC1、GC2和GC3表示),去除編碼蛋氨酸(Met)、色氨酸(Trp)單密碼子和3 個(gè)終止密碼子(UAA、UAG、UGA)。用R 語(yǔ)言的ggplot2 軟件包基于篩選到的59 個(gè)密碼子的RSCU 值繪制堆積柱形圖(Stacked barplot)展示密碼子偏向性。利用SPSS 18.0 軟件的Pearson 相關(guān)系數(shù)法對(duì)大理茶葉綠體基因組密碼子偏好性相關(guān)參數(shù)進(jìn)行相關(guān)性分析。
計(jì)算大理茶葉綠體各CDS 序列中密碼子GC1和GC2的平均值GC12,以GC3和GC12為橫縱坐標(biāo)繪圖散點(diǎn)圖,分析GC3和GC12的相關(guān)性。若GC3與GC12顯著相關(guān),則表明3 個(gè)位置上堿基組成差異不顯著,突變是密碼子使用的主要影響因素;若相關(guān)性不顯著,則表明密碼子使用的偏好性受自然選擇影響較大[21]。
以GC3為橫坐標(biāo),ENC 為縱坐標(biāo),繪制ENC-plot 散點(diǎn)圖,同時(shí)繪制標(biāo)準(zhǔn)曲線(標(biāo)準(zhǔn)曲線繪制公式:ENC期望=2+GC3s+29/[GC3s2+(1-GC3s)2])[22]。通過(guò)基因散點(diǎn)分布的位置判斷影響密碼子偏好性的原因,若基因分布在標(biāo)準(zhǔn)曲線上或附近,則密碼子偏好性主要受突變影響;若基因位于標(biāo)準(zhǔn)曲線下方較遠(yuǎn)的位置,則密碼子偏好性受到自然選擇和其他因素的影響較大[23]。
以G3/(G3+C3)為橫坐標(biāo),A3/(A3+T3)值為縱坐標(biāo),進(jìn)行PR2-plot 繪圖,中心點(diǎn)為A=T且C=G 時(shí)的值,表示密碼子無(wú)使用偏好性,只受到突變的影響,其余點(diǎn)和中心點(diǎn)的距離則表示偏倚的程度和方向[24]。
根據(jù) ENC 大小進(jìn)行排序,選取前后各10%的基因構(gòu)建高偏好性和低偏好性庫(kù)。計(jì)算2 個(gè)庫(kù)各密碼子的RSCU 值和ΔRSCU 值,去除蛋氨酸、色氨酸及終止密碼子UAA、UAG、UGA,將同時(shí)滿足RSCU>1 和ΔRSCU>0.08的密碼子確定為最優(yōu)密碼子[25]。
利用10 個(gè)茶組植物和2 個(gè)山茶科外類(lèi)群物種的葉綠體基因組CDS 和matK基因分別進(jìn)行系統(tǒng)進(jìn)化分析。用CLUSTALW 軟件對(duì)所有序列進(jìn)行多序列的比對(duì),利用MEGA-X 軟件的系統(tǒng)鄰接法(Nerghbor-joining,NJ),設(shè)置1 000 次的Bootstrap 檢驗(yàn)各分支的置信度,其他參數(shù)均為默認(rèn)值,對(duì)12 個(gè)物種構(gòu)建系統(tǒng)進(jìn)化樹(shù),用EvolView(http://evolgenius.info/#/)軟件對(duì)進(jìn)化樹(shù)進(jìn)行美化作圖。
大理茶葉綠體基因組全長(zhǎng)156 974 bp,去除小于300 bp 的CDS 及重復(fù)序列后,共篩選出54 條蛋白編碼基因,全長(zhǎng)64 809 bp,占基因組全長(zhǎng)的41%,基因編碼氨基酸序列長(zhǎng)度范圍為100~2 282,平均長(zhǎng)度為399。對(duì)這些基因的密碼子組成和偏好性進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1 所示,蛋白編碼序列平均GC 含量為37.68%,其中GC1>GC2>GC3,顯示GC 在密碼子3 個(gè)位置上的分布并不均勻,GC 含量均小于50%,表明大理茶葉綠體基因組密碼子偏好使用A/U 堿基,且偏好以A/U 堿基結(jié)尾。
表1 大理茶葉綠體基因密碼子的GC 含量及ENC 值Table 1 GC contents and ENC values in chloroplast genome of C. taliensis
有效密碼子數(shù)用于揭示密碼子的偏好程度,ENC 的取值范圍為21~60,ENC 值的大小與密碼子偏好程度呈現(xiàn)負(fù)相關(guān),當(dāng)ENC 值小于45 時(shí),意味著密碼子存在偏好性。大理茶葉綠體基因組的ENC 值介于35.64~56.67,平均值為46.1,ENC 值大于45 的基因有36條,表明大理茶葉綠體大部分蛋白編碼基因序列密碼子的使用偏好性較弱。
大理茶葉綠體基因組密碼子各參數(shù)之間的相關(guān)性分析結(jié)果顯示(表2),GC1與GC2呈極顯著相關(guān)(P<0.01),但GC1與GC3及GC2與GC3之間均無(wú)相關(guān)性,表明密碼子第1、2 位堿基組成情況高度相似,而第3 位上的堿基組成隨機(jī)性比較大,與1、2 位堿基組成有較大差異。ENC 與GC3呈顯著正相關(guān)(P<0.05),表明密碼子第3 位上堿基組成的變化對(duì)密碼子的使用偏好性影響最大。
表2 密碼子主要參數(shù)的相關(guān)性分析Table 2 Correlation analysis between the indexes of codon use
RSCU 指某一特定的密碼子在其同義密碼子中出現(xiàn)的概率,可直觀反映密碼子的使用情況。結(jié)果顯示(圖1),大理茶葉綠體基因組中共有33 個(gè)高頻密碼子,其中以A、U、C、G 結(jié)尾的分別有14、16、0、3 個(gè)。此外,大理茶葉綠體基因組中還出現(xiàn)了偏好性極強(qiáng)的密碼子(RSCU 值≥2),為編碼亮氨酸(Leu)的UUA。說(shuō)明大理茶葉綠體基因組偏好A/U結(jié)尾的密碼子。
圖1 大理茶葉綠體基因組CDS 密碼子RSCU 直方圖Fig. 1 Analysis of relative synonymous codon usage (RSCU) in the chloroplast genome of C. taliensis
根據(jù)ENC 值的大小,選出5 個(gè)高表達(dá)基因和5 個(gè)低表達(dá)基因建立基因庫(kù)。通過(guò)計(jì)算得出ΔRSCU 值>0.08 的密碼子有28 個(gè)(表3),為高表達(dá)優(yōu)越密碼子。將同時(shí)滿足RSCU>1、ΔRSCU>0.08 的密碼子確定為最優(yōu)密碼子,最終得到大理茶葉綠體11 個(gè)最優(yōu)密碼子,分別為AUU、AUC、UCA、CCA、ACA、GCA、AAU、GAU、AGA、GGA 和GGG,其中2個(gè)以C、G 結(jié)尾,其余均為A、U 結(jié)尾。
表3 大理茶葉綠體基因組最優(yōu)密碼子確定Table 3 Preferred codon in chloroplast genome of C. taliensis
大理茶葉綠體基因組54 個(gè)基因的中性繪圖分析結(jié)果顯示(圖2),GC3和GC12的相關(guān)系數(shù)為0.007 8,回歸系數(shù)為0.116 8,表示突變壓力的貢獻(xiàn)率為11.68%,而自然選擇壓力的貢獻(xiàn)率為88.32%,說(shuō)明GC3與GC12之間的相關(guān)性不強(qiáng),突變壓力對(duì)密碼子偏好性的影響不大,表明大理茶葉綠體基因組密碼子同時(shí)受到自然選擇和突變壓力的影響,但自然選擇起到了更大的作用。
圖2 大理茶葉綠體基因組中性繪圖分析Fig. 2 Neutrality plot analysis of C. taliensis chloroplast genome
ENC-plot 分析結(jié)果顯示(圖3),大多數(shù)大理茶葉綠體基因都偏離了基因預(yù)測(cè)值的標(biāo)準(zhǔn)曲線,表明除由堿基突變引發(fā)的差異影響該基因組密碼子偏性外,影響更多來(lái)自選擇效應(yīng)。ENC 值相對(duì)較小的基因位于預(yù)測(cè)曲線之下,并偏離曲線,說(shuō)明這種類(lèi)型偏好使用特定密碼子,偏好性也較大,這部分基因的密碼子偏好性更多受到自然選擇等的影響。為檢驗(yàn)基因與標(biāo)準(zhǔn)曲線的距離,統(tǒng)計(jì)了各基因ENC 與期望值的比值,結(jié)果顯示(表4),55.6%的基因ENC 比值分布在 0~0.1 范圍,7.4%分布在 0.1~0.2 及0.2~0.3 范圍,表明ENC 的實(shí)際值與期望值相差較大。進(jìn)一步說(shuō)明其整體密碼子偏好性主要受自然選擇的正向影響,這種影響使基因擁有更低的ENC 值,從而獲得更高的表達(dá)效率。
圖3 大理茶葉綠體基因組ENC-plot 繪圖分析Fig. 3 ENC-plot analysis of C. taliensis chloroplast genome
表4 ENC 比值頻數(shù)分布Table 4 Distribution of ENC ration
通過(guò)繪制PR2-plot 圖進(jìn)一步分析大理茶葉綠體基因組密碼子偏好性的影響因素。由圖4 可知,大理茶葉綠體基因組編碼基因并不是均勻地分布于4 個(gè)區(qū)域中,在右上區(qū)域分布很少。如果密碼子偏好性僅受基因突變的影響,在PR2-plot 繪圖分析中,4 種堿基的使用頻率將相等。PR2-plot 分析顯示大理茶葉綠體基因組種大部分基因受到自然選擇或其他因素的影響。
圖4 大理茶葉綠體基因組PR2-plot 繪圖分析Fig. 4 PR2 bias plot analysis of C. taliensis chloroplast genome
茶組植物是異花授粉植物,種間甚至組間的雜交比較普遍,經(jīng)過(guò)長(zhǎng)期的自然雜交和人工選育,其種間的界限比較模糊,傳統(tǒng)的形態(tài)分類(lèi)基于心皮或子房室的數(shù)目,花梗、萼片、花瓣和果實(shí)的發(fā)育狀況及葉片特征等,以及細(xì)胞學(xué)、化學(xué)和數(shù)量分類(lèi)學(xué)等,很難得到公認(rèn)的茶組植物分類(lèi)系統(tǒng)[26-32]。目前,基于測(cè)序技術(shù)、分子生物學(xué)和分子系統(tǒng)學(xué),在DNA 水平上利用合適的分子標(biāo)記解決物種間系統(tǒng)關(guān)系及分類(lèi)是有效的方法[33-41]。
對(duì)10 種茶組植物和2 種山茶科植物共12種植物分別基于葉綠體基因組matK基因序列和蛋白編碼序列構(gòu)建系統(tǒng)發(fā)育樹(shù)(圖5),結(jié)果顯示,2 種系統(tǒng)發(fā)育的拓?fù)浣Y(jié)構(gòu)相似,均將白毛茶、小葉茶、大苞茶、德宏茶和大葉茶云抗10 號(hào)聚為一大類(lèi)群,大理茶和禿房茶聚為一支,白毛茶和小葉茶聚為一支,兩個(gè)外類(lèi)群物種木荷和紫莖聚為一支,突肋茶和大廠茶分別位于單獨(dú)的分支。
圖5 大理茶及茶組植物葉綠體系統(tǒng)發(fā)育樹(shù)Fig. 5 Phylogenetic tree of C. taliensis chloroplast genome
密碼子受自然選擇、基因突變、蛋白質(zhì)結(jié)構(gòu)等多因素的共同影響逐漸形成一定的偏好性,與基因的GC 含量、長(zhǎng)度、翻譯效率、表達(dá)水平及tRNA 豐度等因素有關(guān)[25,42-45]。本研究中大理茶葉綠體基因組編碼基因的 GC 含量為37.68%,密碼子的GC1、GC2和GC3含量均小于50%,偏好使用A/U 結(jié)尾的密碼子和堿基,與前人對(duì)普通油茶(C. oleifera)[46]、鳥(niǎo)王茶(C. sinensisvar.niaowangensis)[47]、香花油茶(C. osmantha)[48]的密碼子使用偏性研究相一致。大部分大理茶基因ENC 值偏大,平均ENC 值為46.1,說(shuō)明大理茶葉綠體基因密碼子使用偏性較弱,暗示大部分大理茶葉綠體基因在序列水平上具有較低的表達(dá)潛力。
植物基因組中存在大量密碼子偏好性現(xiàn)象是基因組進(jìn)化的一個(gè)重要特征,是物種在長(zhǎng)期的環(huán)境適應(yīng)過(guò)程中形成的[49]。大理茶中11個(gè)最優(yōu)密碼子大部分以A/T 結(jié)尾,與大部分雙子葉植物一致。ENC-plot、中性繪圖和PR2-plot 等密碼子使用性影響因素分析表明,大理茶葉綠體基因密碼子偏性受到較小的堿基突變影響,更多受到自然選擇等因素的影響。大理茶的野生、半野生和栽培型大都長(zhǎng)期生長(zhǎng)于生態(tài)環(huán)境穩(wěn)定的森林環(huán)境中,加之云南當(dāng)?shù)厣贁?shù)民族生態(tài)化的栽培和管理模式,使得人工選擇、基因突變等對(duì)大理茶葉綠體基因組密碼子偏好性的影響較小,且密碼子偏性較弱。而在人工栽培馴化的普通油茶葉綠體基因組密碼子偏好性中,顯示出突變和選擇的共同作用[46]。
現(xiàn)代茶組植物的分類(lèi)系統(tǒng)中影響較大的主要有Sealy 分類(lèi)系統(tǒng)、張宏達(dá)分類(lèi)系統(tǒng)、閔天祿分類(lèi)系統(tǒng)等[26-29,50],這些分類(lèi)系統(tǒng)對(duì)大理茶物種的認(rèn)定都比較清晰。陳亮等[30]根據(jù)形態(tài)學(xué)演化推斷茶組可能有2 條演化線路,從原始茶亞屬—大理茶—大廠茶—禿房茶的演化或是從原始茶亞屬植物—大理茶—普洱茶、白毛茶和茶。黃薈等[33]研究顯示,小葉茶與德宏茶聚為一支,大葉茶與大苞茶聚為一支,大理茶單獨(dú)聚為一支,表明茶組植物基于葉綠體基因組的分類(lèi)系統(tǒng)并未以子房室的數(shù)量進(jìn)行聚類(lèi)。本結(jié)果顯示,5 室子房的大理茶與3 室子房的禿房茶聚為一支,與Li 等[51]基于全葉綠體基因組構(gòu)建的ML 樹(shù)一致。此外,根據(jù)趙東偉等[52]對(duì)大苞茶的研究發(fā)現(xiàn),大苞茶沒(méi)有獨(dú)立的分布區(qū),總是與大理茶和茶相伴出現(xiàn),其形態(tài)性狀也處于大理茶和茶之間的過(guò)度形態(tài)。本研究基于葉綠體matK基因序列和CDS的系統(tǒng)發(fā)育樹(shù)顯示大苞茶與茶的關(guān)系更近。
大理茶是茶組植物中較為原始的物種,是茶的重要野生近緣種,是具有重要經(jīng)濟(jì)價(jià)值和研究?jī)r(jià)值的古樹(shù)茶資源。云南當(dāng)?shù)厣贁?shù)民族對(duì)大理茶資源的開(kāi)發(fā)利用和保護(hù)歷史悠久,至今仍保有完整的群落。本研究結(jié)果為大理茶重要農(nóng)藝性狀改良、外源基因密碼子優(yōu)化、提高基因表達(dá)效率、分子育種等研究提供了科學(xué)依據(jù)。此外,隨著基因組測(cè)序的發(fā)展,結(jié)合基因組、細(xì)胞器基因組深入研究密碼子使用規(guī)律,并結(jié)合形態(tài)、細(xì)胞、化學(xué)等研究共同揭示大理茶的起源、進(jìn)化,以及大理茶如何參與大葉茶的起源進(jìn)化也是后續(xù)研究的重要方向之一。