關鍵詞:小??Х龋蝗~綠素;生物信息學分析;表達分析
咖啡是茜草科(Rubiaceae)咖啡屬(Coffea)多年生常綠灌木或小喬木[1]。目前已被分類的咖啡屬種類約有124種,主要栽培于熱帶和亞熱帶地區(qū)[2]??Х炔粌H是熱帶發(fā)展中國家的重要經濟作物,也是世界上最受歡迎的飲料和重要的商業(yè)商品之一[3]。商業(yè)栽培的咖啡主要有小??Х龋–offea arabica)和中??Х龋–offea canephora)。其中小??Х扔址Q阿拉比卡咖啡,是咖啡屬中唯一的異源四倍體(2n=4x=44),由中粒咖啡和丁香咖啡(Coffea eugenoedes)或其他生態(tài)型較近的二倍體雜交而來,原產于埃塞俄比亞中部高原[3]。我國咖啡主要種植在云南和海南省,其中云南省以小??Х葹橹?,主要種植在普洱、德宏、保山、西雙版納和臨滄,這5個產區(qū)的種植面積占云南咖啡種植面積的80%以上[4]。葉綠素(Chlorophyll,Chl)是一種脂溶性色素,廣泛存在于植物體的綠色組織中,尤其在果實的綠色果皮和植物體的葉片中含量極高,在植物進行光合作用的過程中有著極其重要的作用[5]。因此,明確小粒咖啡葉片葉綠素合成的關鍵基因及葉綠素合成的調控機理,對提高小粒咖啡的有機物積累及咖啡豆品質有重要意義。
植物葉綠素的生物合成是十分復雜的過程,由多種酶和基因共同調控[6]。擬南芥(Arabidopsisthaliana)的葉綠素生物合成主要由17種酶和27種編碼基因調控,其中任何酶的基因突變或通過抑制劑抑制其活性均有可能導致Chl含量變化,從而影響光合效率甚至導致植株死亡[7]。葉綠素的合成過程共15步[8],根據(jù)高等植物葉綠素合成的整個途徑,又可將葉綠素的合成分為2大步:第1步是由L-谷氨酰-tRNA合成原卟啉Ⅸ,其中編碼基因HEMA、HEMB、GSA(HEML)、HEMC、HEMD、HEME、HEMF 和HEMG 已從擬南芥[6]和水稻(Oryzasativa)[9]中分離獲得;第2步由原卟啉Ⅸ合成葉綠素,相關催化基因有CHLD、CHLH、CHLI、CHLM、CRDI、DVR、POR、CHLG、CAO[5,10]。POR (protochlorophyllide oxidoreductase)主要參與葉綠素生物合成途徑中的倒數(shù)第2個反應,對光合作用至關重要,負責催化光合體中的光合色素前體原葉綠素酸轉化為葉綠素a,是光誘導被子植物轉綠的關鍵酶[11-13]。此外,在對葉綠素合成相關基因的研究中發(fā)現(xiàn),可以通過調節(jié)光照強度或者光照顏色來提高植物體中POR 基因的表達水平,從而促進葉綠素合成[14-16],或者通過控制土壤、基質中的水分含量來降低POR 基因的表達,從而抑制葉綠素合成[17]。
在咖啡的生長過程中,地理環(huán)境、氣候條件等因素均會對咖啡的生長發(fā)育造成嚴重影響。但目前我國小粒咖啡的研究方向以生長、生理為主,關于分子水平的研究較少[18]。本研究通過對小粒咖啡的葉片進行轉錄組測序,通過生物信息學手段挖掘小粒咖啡葉片葉綠素合成的關鍵基因,并明確小??Х壬L發(fā)育過程中葉綠素合成相關基因的表達模式,為小??Х热~片葉綠素合成的機理研究提供參考。
1 材料與方法
1.1 小粒咖啡葉綠素合成相關基因家族成員篩選及編碼蛋白的理化性質分析
從NCBI 數(shù)據(jù)庫(https://www. ncbi. nlm. nih.gov/)中下載小??Х鹊膮⒖嫉鞍仔蛄幸约盎蚪M數(shù)據(jù),分別構建本地數(shù)據(jù)庫。通過TAIR 網站(https://www.arabidopsis.org/)搜集到27 個葉綠素合成相關蛋白序列,利用本地BLASTP程序以及TBtools[19]的blast程序分別對小粒咖啡蛋白序列進行比對篩選,設置Elt;10-10,取2個數(shù)據(jù)集的并集,去除重復序列,將篩選出的序列作為小粒咖啡葉綠素合成相關基因家族序列。篩選出的小??Х鹊鞍仔蛄?,利用在線工具Expasy(https://www.expasy.org/)分析小??Х热~綠素合成相關基因家族成員蛋白質的氨基酸數(shù)量、分子量、理論等電點、不穩(wěn)定系數(shù)、脂肪指數(shù)和親水平均系數(shù)等理化性質指標。
1.2 小粒咖啡葉綠素合成相關基因系統(tǒng)發(fā)生樹的構建
為研究小粒咖啡葉綠素合成相關基因與其他物種之間的親緣關系,將小??Х群蛿M南芥的葉綠素合成相關基因序列運用MEGA7中muscle程序進行多序列比對,比對結果經修剪后用NJ(neighbour-joining,)法構建系統(tǒng)發(fā)生樹,并用Chiplot(https://www.chiplot.online/)[20]網站對系統(tǒng)發(fā)生樹進行美化。
1.3 不同品種小??Х热~片葉綠素合成相關基因表達模式分析
分別選取20個品種的小??Х瘸墒鞎r期葉片為試驗材料,提取RNA 樣品,采用IlluminaHiSeq進行RNA-seq測序。測序結果與上一階段中所發(fā)掘的小??Х热~片葉綠素合成相關基因進行比對篩選,采用FPKM(fragments per kilobase ofexon model per million mapped fragments)法分析轉錄組數(shù)據(jù)中小??Х热~片葉綠素合成相關基因的表達,通常認為FPKMgt;15 為高表達基因[21]。因此,通過對轉錄組數(shù)據(jù)中每個小??Х绕贩N基因的FPKM 求平均值,并選取至少有1 個品種FPKMgt;15的葉綠素合成相關基因,利用TBtools繪制表達量熱圖。
1.4 小??Х菴aPOR 基因保守基序、結構域以及基因結構分析
利用MEME(https://meme-suite. org/meme/tools/meme)在線分析軟件對小粒咖啡CaPOR 和擬南芥AtPOR 基因編碼蛋白的保守基序進行分析,通過NCBI batch CD search Tool(https://www.ncbi. nlm. nih. gov/Structure/bwrpsb/bwrpsb. cgi)[22-24]在線軟件對小??Х菴aPOR 及擬南芥基因家族成員的蛋白結構域進行分析,利用TBtools構建小??Х纫约皵M南芥POR 基因家族成員保守基序、結構域以及基因結構可視化圖。
1.5 小??Х菴aPOR 基因順式作用元件分析
利用TBtools分離小??Х菴aPOR 基因起始密碼子上游2 kb序列,將分離的序列在PlantCARE(https://bioinformatics.psb.ugent.be/webtools/plantcare/html/)[25]上進行順式作用元件分析,將無效信息剔除后利用TBtools進行可視化處理。
1.6 小??Х菴aPOR 基因的染色體分布
利用TBtools 導入篩選出的38 個小粒咖啡CaPOR 基因組數(shù)據(jù)及注釋文件,繪制CaPOR 基因所在染色體的密度條帶,并定位CaPOR 基因的分布。
1.7 小粒咖啡CaPOR 基因的同源關系及同源性比對
利用從TAIR 網站(https://www. arabidopsis.org/)下載的擬南芥全基因組數(shù)據(jù)及注釋文件,NCBI 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)下載小??Х?、中粒咖啡、丁香咖啡的全基因組數(shù)據(jù)及注釋文件。以小??Х菴aPOR 基因為參照,利用TBtools 分析2個親本咖啡與小??Х菴aPOR 基因的共線性關系,并將結果可視化。
1.8 小??Х菴aPOR 基因密碼子偏好分析
通過生信云在線網站(https://ngs.sangon.com/cloudtool)分析密碼子第1、2、3位堿基的GC含量,記作GC1、GC2、GC3,并計算GC1 和GC2 的平均值,記作GC12。以GC3 為橫軸,GC12 為縱軸作圖[26]。
通過生信云在線網站計算有效密碼子數(shù)(effective number of codon,ENC),并根據(jù)ENC 和GC3進行ENC-plot分析[27]。
通過MEGA 7計算密碼子第3位堿基的A、T、G、C含量,分別記作A3、T3、G3、C3,以G3/(G3+C3)為橫軸、A3/(A3+T3)為縱軸進行偏倚分析[28]。
1.9 小??Х热~片葉綠素含量測定
稱取3份小粒咖啡葉片各0.2 g,剪碎放入研體,加少量石英砂和碳酸鈣及3 mL提取液(95%乙醇),研成勻漿,再加5 mL提取液,繼續(xù)研磨至組織變白,室溫靜置3 min后轉移到10 mL離心管中,4 000 r·min-1離心5 min,取上清液,用提取液定容至25 mL。以95%乙醇為空白,分別在波長665、649和470 nm下測定吸光度。所得結果代入下列公式,計算單位鮮重組織中葉綠素a(Chl a)、葉綠素b(Chl b)、葉綠素(Chl)、類胡蘿卜素(Car)和葉綠體色素含量。
1.10 小粒咖啡CaPOR 基因熒光定量PCR 驗證
對同一品種分別采集3株不同植株的嫩葉與成熟葉片,設置3個生物學重復。分別將這2個時期的葉片液氮研磨后,置于1.5 mL離心管中,利用RNA快速提取試劑盒上提取RNA,將提取質量合格的RNA置于-80 ℃保存?zhèn)溆谩?/p>
利用NCBI設計引物,并以24S[29]作為內參基因,進行熒光定量PCR,并進行3次重復以確保數(shù)據(jù)的準確性,結果通過2-△△CT法[30]計算基因的相對表達量,所用引物如表1所示。
2 結果與分析
2.1 小粒咖啡葉綠素合成相關基因家族成員篩選及編碼蛋白的理化性質分析
基于擬南芥葉綠素合成相關基因的27個參考序列,共篩選出小粒咖啡葉綠素合成相關基因92個,依據(jù)比對重合度可分為17個基因家族。由表2可知,小??Х热~綠素合成相關蛋白質的氨基酸數(shù)量差異較大,其中CaHEMD3和CaHEMD4的氨基酸數(shù)量最少,只有210 個,CaCHLH1 和CaCHLH2的氨基酸數(shù)量最多,均高達1 382個,大多數(shù)蛋白質的氨基酸數(shù)量在600以內;相對分子量為22 397.5~153 535.84 Da;理論等電點為5.11~9.72,其中大于8的有58個,呈堿性,小于6.5的有21個,呈酸性;不穩(wěn)定系數(shù)為21.52~60.99,其中有70個蛋白質的不穩(wěn)定系數(shù)小于40,具有較好的穩(wěn)定性,有22個蛋白質的不穩(wěn)定系數(shù)大于40;脂肪系數(shù)為65.34~111.42,其中有85個蛋白質的脂肪系數(shù)小于100,較親水;總平均親水性為-0.453~0.386,其中有23 個蛋白質的總平均親水性為正值,表現(xiàn)為疏水蛋白,有69個蛋白質的總平均親水性為負值,表現(xiàn)為親水蛋白。
2.2 小粒咖啡葉綠素合成相關基因系統(tǒng)發(fā)生樹的分析
為探究小??Х热~片葉綠素合成相關基因與擬南芥葉綠素合成相關基因的親緣關系,利用NJ法構建系統(tǒng)發(fā)育樹,如圖1所示。根據(jù)葉綠素合成途徑中起關鍵作用的基因,可將整個系統(tǒng)發(fā)育樹分為CHLM、HEMF、DVR、HEMB、CAO、ACSF、CHLH、HEMA、HEMG、CHLG、HEME、HEMC、CHLI、HEMD、CHLD、GSA、POR 共17 個分支。雖然每個小家族之間的親緣關系較遠,但每個小家族內關系較近,且可信度較高,平均可信度都在80以上。由此表明,同一家族內小??Х扰c擬南芥的葉綠素合成相關基因具有極高的相似性。其中POR 基因家族成員較多,共38個,占41.3%;其次是GSA 基因家族,共13個,占14.1%;而其他葉綠素合成相關基因的數(shù)量較少,均不超過5個。
2.3 不同品種小??Х热~綠素合成相關基因表達模式分析
分析20種小??Х鹊某墒烊~片中CaPOR 基因的表達模式,結果(圖2)表明,以FPKM≥15為篩選標準,篩選出CaPOR5、CaPOR6、CaPOR7、CaPOR8、CaPOR19、CaPOR20、CaPOR21 共7個在小粒咖啡葉綠素合成中較穩(wěn)定表達的基因。其中CaPOR5、CaPOR6、CaPOR7、CaPOR8 基因在A45、A26、A50中的表達量較低,而在其他17個小??Х绕贩N中表達量極高。這可能是由于這3個小??Х绕贩N中出現(xiàn)了新的變異,導致這4基因的表達被其他基因所替代,因此在這3個小??Х绕贩N中的表達量較低。
2.4 小??Х菴aPOR 基因保守基序、結構域以及基因結構分析
利用MEME在線分析軟件對小粒咖啡以及擬南芥POR蛋白序列進行保守基序分析,結果(圖3)表明,共鑒定出6個保守基序。由圖4可知,小??Х纫约皵M南芥的41個POR 基因的Motif種類和分布較為相似,均具有motif 1、motif 2、motif 5,且這3 個motif 的順序也完全一致;只有CaPOR17 無motif 3,且其余成員的motif 3均位于開頭位置。由此表明,擬南芥的和小??Х鹊腜OR 基因家族成員的motif分布較為相似,具有較高的保守性。
進一步分析小??Х群蛿M南芥POR 基因的保守結構域(圖4C)發(fā)現(xiàn),擬南芥以PLN00015(葉綠素還原酶)結構域為主,小??Х纫詒etinol-DH_like_SDR_c_like 結構域和NADB_Rossmann superfamily結構域為主,其中當缺少motif 4時, CaPOR 基因都具有retinol-DH_like_SDR_c_like結構域。
分析小??Х菴aPOR 基因的內含子/外顯子分布,結果(圖4D)表明,不同CaPOR 基因的內含子和外顯子的數(shù)量及結構存在差異。其中CaPOR12、CaPOR13、CaPOR14、CaPOR15 和CaPOR36 這5 個基因均只有1 個外顯子,而CaPOR36 只有1個內含子。
2.5 小??Х菴aPOR 基因順式作用元件分析
對小??Х菴aPOR 基因上游2 kb區(qū)域的啟動子區(qū)進行分析,得到33種共1 025個具有特異性功能的順式作用元件(圖5)。其中與生長發(fā)育相關的元件種類有11種,共250個,占24.39%;與光反應相關的元件有10種,共464個,占45.27%;;激素響應類元件有10種,共154個,占15.02%;生物與非生物脅迫類元件有6 種,共157 個,占15.32%。表明小??Х菴aPOR 基因大多參與光響應,同時也與植物的生長發(fā)育過程密切相關。
2.6 小粒咖啡CaPOR 基因的染色體分布
對小??Х菴aPOR 基因進行染色體定位,有38個CaPOR 基因定位于8條染色體上,其中染色體NC_039913.1上定位到的CaPOR 基因最多,有9 個;染色體NC_039905.1 上的基因最少,只有CaPOR37(圖6)。CaPOR 基因多聚集在染色體的末端,有利于穩(wěn)定遺傳,且同一染色體上的CaPOR 基因位置較為相近,可能出現(xiàn)了復制的現(xiàn)象。
2.7 小粒咖啡CaPOR 基因的同源關系及同源性比對
對小??Х菴aPOR 基因與2個親本(中??Х群投∠憧Х龋┻M行共線性分析,結果(圖7)表明,在小??Х戎蟹植加? 條染色體上的9 個CaPOR 基因與中??Х鹊?個基因存在共線性關系;有10個CaPOR 基因與丁香咖啡的10個基因存在共線性關系;在中??Х群投∠憧Х戎?,有1個POR 基因與小粒咖啡的2個CaPOR 基因具有共線性關系,且這2個基因分別位于2條相鄰染色體的末端。由此推斷,小粒咖啡在進化過程中,CaPOR 基因可能發(fā)生復制現(xiàn)象,且與親本具有共線性關系的CaPOR 基因具有較保守的結構。
2.8 小??Х菴aPOR 基因密碼子偏好分析
ENC-plot 分析(圖8)顯示,小??Х鹊腃aPOR 基因密碼子大部分沿標準曲線分布,也有部分基因距標準曲線較遠,說明CaPOR 基因密碼子偏好性主要受堿基突變的影響,部分基因受自然選擇的影響。
PR2-plot 偏倚分析(圖9)顯示,小粒咖啡CaPOR 基因大部分位于左下角,表明小粒咖啡CaPOR 基因密碼子的第3位堿基中T、C的頻率高于A、G;且大多數(shù)基因偏離中心,說明小??Х菴aPOR基因受堿基突變、自然選擇等多種因素共同影響。
中性繪圖分析(圖10)顯示,小粒咖啡CaPOR基因密碼子的GC12 為43.04%~48.57%,GC3 為33.69%~58.82%,GC12 與GC3 的相關系數(shù)為0.273 9,斜率為0.095 5,Plt;0.05,二者間顯著相關,表明小??Х菴aPOR 基因密碼子使用偏好性主要受堿基突變影響。
2.9 小??Х热~片葉綠素含量分析
對小粒咖啡嫩葉期和成熟期葉片的葉綠素a、葉綠素b 和類胡蘿卜素含量進行測定,結果(圖11)表明,成熟葉片的葉綠素a、葉綠素b和類胡蘿卜素含量均極顯著高于嫩葉。在嫩葉和成熟葉中均表現(xiàn)為葉綠素含量較高,類胡蘿卜素含量較低;在葉綠素中又主要以葉綠素a 為主,葉綠素b含量較低。
2.10 小??Х菴aPOR 基因的表達分析
進一步對7個在成熟葉片中具有極高的表達量的CaPOR 基因進行實時熒光定量PCR驗證,結果(圖12)表明,這7個基因在成熟葉片中的表達量顯著或極顯著高于嫩葉,其中CaPOR5、CaPOR6、CaPOR7、CaPOR8、CaPOR19、CaPOR20基因在成熟葉片中的表達量均約為嫩葉的2倍,CaPOR21 基因在成熟葉片中的表達量約為嫩葉的5倍。
3 討論
POR是葉綠素生物合成的關鍵酶,可催化原葉綠素酸脂在光照條件下還原為葉綠素酸酯[31]。當植物體中缺乏某一葉綠素時,其POR 基因表達水平也會下調,這表明植物體中葉綠素含量與POR 基因的表達息息相關[32]。本研究利用生物信息學以擬南芥葉綠素合成相關的27個基因為參照,共篩選出小??Х热~綠素合成相關基因92個。對小粒咖啡多個品種的成熟葉片進行轉錄組測序,結合轉錄組數(shù)據(jù)發(fā)現(xiàn),大多數(shù)小??Х菴aPOR 基因在成熟葉片中不表達或是表達量較低,其中CaPOR5、CaPOR6、CaPOR7、CaPOR8、CaPOR19、CaPOR20、CaPOR21 基因的FPKM 值均大于15,推斷這7個基因可能對小??Х热~片的葉綠素合成起重要作用,且這7個基因均包含retinol-DH_like_SDR_c_like 結構域,其蛋白氨基酸數(shù)量為310~320,多為堿性、穩(wěn)定性較好的親水蛋白,僅CaPOR19 基因編碼蛋白的氨基酸數(shù)量為259,且不穩(wěn)定系數(shù)大于40,表現(xiàn)為較不穩(wěn)定。研究表明,POR 基因在蘿卜(Raphanussativus)[33]、水稻[34]、安吉白茶(Camellia sinensis)[35]和番茄(Solanum lycopersicum)[36]的葉綠素合成過程中起重要作用。本研究也發(fā)現(xiàn),這7個CaPOR基因在小粒咖啡葉片不同時期的表達量具有顯著差異,在小??Х热~片發(fā)育過程中,均表現(xiàn)為后期的表達量顯著高于前期,與成熟葉片的色素含量顯著高于嫩葉相一致。由此表明,這7個CaPOR基因在小??Х热~片的生長發(fā)育過程中與葉綠素合成關系密切,可能是負責小??Х热~片葉綠素合成的關鍵基因。其他CaPOR 基因在小??Х热~片的生長發(fā)育過程中表達量較低或是不表達,可能參與葉片生長的其他生物功能過程。
本研究進一步分析了CaPOR 基因的保守基序、結構域、順式作用元件等,發(fā)現(xiàn)小粒咖啡CaPOR 基因在結構上具有極高的相似性,在染色體上聚集成簇分布,推測可能具有相似的功能或表達模式[37]。小粒咖啡CaPOR 基因與2個親本間存在共線性關系,親本的1個基因對應小粒咖啡2條染色體上的2個基因,推測小粒咖啡CaPOR 基因在遺傳過程中出現(xiàn)復制現(xiàn)象,重復基因有可能導致基因冗余或出現(xiàn)新的功能[38]。CaPOR 基因密碼子偏好性分析發(fā)現(xiàn),主要受堿基突變的影響,同時也受自然選擇的影響[3940]。