董柯清,王雷立,劉青青,張嚴玲,李安然,仝幀翰,董 哲,王翠玲
(河南科技大學農(nóng)學院,河南 洛陽471023)
【研究意義】開花時間是作物重要的農(nóng)藝性狀之一[1],對植物開花時間的調控是植物繁殖的核心問題[2]。在特定的時間開花是植物由營養(yǎng)生長轉變?yōu)樯成L的關鍵步驟,是植物生殖產(chǎn)生后代的重要節(jié)點[3]。玉米(ZeamaysL.)起源于拉丁美洲,是世界主要糧食作物之一,在農(nóng)業(yè)生產(chǎn)中有極其重要的地位[4]。玉米是短日照作物[5],一些熱帶、亞熱帶玉米品種(系)在非短日照條件下種植時常常出現(xiàn)花期不遇甚至無法進入生殖生長等現(xiàn)象,嚴重限制了玉米育種的進展[6?11]。因此了解玉米的開花調控機理對于玉米的研究和改良具有十分重要的意義。植物由營養(yǎng)生長到生殖生長的轉變,與開花基因的表達息息相關[12]。要清晰玉米開花的分子機理,首先要研究開花調控基因的作用機制。本研究以與開花相關的ZmCOL3基因為分析對象,用生物信息學的方法分析其所編碼蛋白的結構,預測該基因在玉米開花及其可能參與的調控網(wǎng)絡,對ZmCOL3基因的潛在功能及其在玉米開花調控中作用機制的進一步研究具有重要意義?!厩叭搜芯窟M展】在眾多已報道的開花調控基因中,有一類基因具有多效性,不僅能直接調控植物早花或晚花,還具有調控產(chǎn)量及抗逆等生物學功能[13]。由于這類基因都含有CCT結構域,故被稱為CCT 結構域基因[14]。目前已有諸多研究證實CCT基因家族影響植物開花,擬南芥中的開花關鍵基因CO、TOC1等均屬于CCT基因家族。CCT基因家族的成員較多,目前已知玉米中含有80多個CCT基因家族成員[13],功能也都不盡相同。根據(jù)所含結構域的不同CCT家族可以分為CMF、COL、PRR和TIFY四個亞家族[4],其中COL亞家族成員的結構特征為含有1個CCT結構域和1-2個B-box鋅指結構域[15,16]。COL蛋白是一類植物特異的轉錄因子,通常情況下,植物感受光周期誘導的晝夜節(jié)律變化與開花調控都需要COL蛋白的參與[17,18]。不同COL基因的CCT結構域序列較為保守,B-box結構域的差異比較明顯,CCT結構域約由43個保守的氨基酸組成,一般位于蛋白質的C端,是DNA結合域,具有核定位、核蛋白運輸及調節(jié)基因轉錄的功能[19,20],B-box結構域在N端,是蛋白互作的區(qū)域,在COL蛋白與卷曲螺旋蛋白相互作用過程中發(fā)揮重要作用[21,22]。COL3是COL亞家族的一個重要成員,在擬南芥中AtCOL3是光形態(tài)發(fā)生的正向調節(jié)因子,在COP1酶的下游發(fā)揮作用[23]。水稻中的OsCO3基因含有1個B-box及1個CCT結構域,參與了水稻的光周期開花途徑,是短日照條件下的開花抑制因子[24]。玉米中發(fā)現(xiàn)的ZmCOL3基因是水稻組成型開花抑制因子OsCOL4的同源基因,可以通過調控ZmCCT基因表達參與玉米光周期途徑,進而調控玉米的開花期[15,25]?!颈狙芯壳腥朦c】ZmCOL3基因的克隆雖然已經(jīng)完成,但其作為轉錄因子應行使的多重功能還未被確定,在生物信息學方面仍有很多值得挖掘的地方,可為該基因的蛋白功能研究提供思路?!緮M解決的關鍵問題】本研究用生物信息學方法對玉米ZmCOL3基因編碼的蛋白質序列進行了深入分析,獲得了其編碼蛋白的理化性質、保守結構域、二級結構、信號肽、跨膜結構以及亞細胞定位的預測結果,通過同源建模的方法預測ZmCOL3基因編碼蛋白的三級結構,對ZmCOL3基因的啟動子區(qū)域所包含的順式作用元件進行了分析,利用檢索得到的表達數(shù)據(jù)進行該基因的組織表達分析。本研究預測ZmCOL3基因可能具備的功能,為該基因在玉米開花調控及其他潛在功能的研究奠定基礎。
在NCBI網(wǎng)站通過登錄號NP_001147679查詢并下載ZmCOL3基因的序列信息。使用ProtParam(http://web.expasy.org/protparam/)進行該基因編碼蛋白序列的理化性質分析;使用NCBI的保守結構域數(shù)據(jù)庫(CDD-search)(https://www.ncbi.nlm.nih.gov/Structure/bw rpsb/bw rpsb.cgi)對ZmCOL3的蛋白序列進行保守結構域的查找;在NPS@:HNNsecondarystructureprediction(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=/NPSA/npsa_hnn.htm l)網(wǎng)站預測該基因編碼蛋白質的二級結構;通過SSW ISSMODEL(http://sw issmodel.expasy.org/)中的同源建模預測ZmCOL3基因編碼蛋白的三級結構;使用TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)進行跨膜結構域預測;在SignalP(http://www.cbs.dtu.dk/services/SignalP/)進行信號肽分析;利用Plant-mPLocserver(http://www.csbio.sjtu.edu.cn/cgi-bin/PlantmPLoc.cgi)進行亞細胞定位預測;使用PlantCARE(http://bioinformatics.psb.ugent.be/webtools/plantcare/htm l/)網(wǎng)站進行啟動子的順式作用元件分析;通過MaizeGDB數(shù)據(jù)庫(https://www.maizegdb.org/)檢索獲得ZmCOL3基因在玉米的種子、初生根、節(jié)間、葉、雌穗、和雄穗中的表達數(shù)據(jù),用Excel繪制基因在不同組織中的表達圖。
使用在線軟件對ZmCOL3基因所編碼蛋白序列進行分析,結果表明該基因所編碼蛋白的分子式為C1530H2376N452O482S18,相對分子質量為35.39 kD,理論等電點為5.04,屬于酸性蛋白;該基因共編碼335個氨基酸,氨基酸組分如圖1所示,含量最高的為A(丙氨酸),共68個,占總體的20.29%,在該蛋白中帶負電荷的氨基酸(Asp+Glu)數(shù)量為51,帶正電荷的氨基酸(Arg+Lys)數(shù)量為34,脂肪族氨基酸指數(shù)為69.04;平均親水性系數(shù)為?0.241,屬于親水性蛋白,不穩(wěn)定系數(shù)為53.72,該蛋白是不穩(wěn)定蛋白。
使用NCBI的保守結構域數(shù)據(jù)庫(CDD-search)對ZmCOL3的氨基酸序列進行保守結構域的查找。如圖2中的結果顯示,ZmCOL3基因所編碼蛋白含有1個CCT結構域和1個B-box鋅指結構域,證明了其作為CCT基因家族中的COL亞族所含有的蛋白結構特征。
圖2 Zm COL3蛋白保守結構域的預測Fig.2 Predicted conserved domain of Zm COL3 protein
如圖3所示ZmCOL3蛋白質的二級結構主要由α螺旋和無規(guī)則卷曲組成,含有少量的延伸鏈和β轉角。其中占比最大的為無規(guī)則卷曲,有184個氨基酸,占54.93%;其次是α螺旋(108個氨基酸),占32.24%;占比最少的是β轉角,僅有9個氨基酸,只在靠近N端和C端的位置有所分布,主要集中在60~70和235~240這2個區(qū)間內。
圖3 Zm COL3蛋白二級結構的預測Fig.3 Predicted secondary structure of Zm COL3 p rotein
使用SW ISS-MODEL同源建模的方法進行三級結構預測,結果如圖4所示。QMEAN值為?0.33,相似度為64.15%,表明該模型與2020年報道的DNA結合CCT/NF-YB/YC復合物的晶體結構模型[26]相似性較高,并且與前文二級結構預測結果相符,以α螺旋和無規(guī)則卷曲為主體形成三級結構。
圖4 Zm COL3蛋白的三級結構的預測Fig.4 Predicted tertiary structure ofZm COL3 protein
ZmCOL3基因編碼蛋白跨膜結構預測結果如圖5所示,該基因編碼蛋白沒有形成跨膜螺旋,即該蛋白不含有跨膜結構域,且主要分布于細胞膜外,表明該蛋白為非跨膜蛋白。如圖6所示,玉米COL3基因編碼蛋白前70個氨基酸中不存在典型的信號肽趨勢,CS缺陷概率為0,SP(Sec/SPI)概率僅為0.004,相比之下,Other的概率為0.996,表明該基因所編碼蛋白不含有信號肽。
圖5 Zm COL3蛋白的跨膜結構域的預測Fig.5 Predicted transm embrane dom ain of Zm COL3 protein
圖6 Zm COL3蛋白信號肽的預測Fig.6 Predicted signal peptide of ZmCOL3 protein
將獲取的玉米ZmCOL3基因編碼序列提交到PlantmPLoc網(wǎng)站進行亞細胞定位預測,結果如圖7所示,預測定位在細胞核內。而跨膜結構域預測該蛋白為膜外,推測該基因可能在合成后受到某些因子的作用,在細胞核內發(fā)揮作用。
圖7 Zm COL3蛋白的亞細胞定位Fig.7 Subcellular localization of Zm COL3 protein
從maize sequence網(wǎng)站獲取ZmCOL3基因ATG上游2300 bp序列,提交到PlantCARE網(wǎng)站進行順式作用元件分析,結果如表1所示。該基因啟動子除了含有基本的順式作用元件,如TATA-box、CAAT-box等,還含有脫落酸(ABA)響應元件、光響應元件、茉莉酸甲酯(MeJA)響應元件等,表明該基因可能在多重反應調控網(wǎng)絡中發(fā)揮作用,受到光照和多種激素調控。
表1 Zm COL 3啟動子順式作用元件分析Table1 Analysison cisacting elements of Zm COL 3 prom oter
下載獲得了ZmCOL3基因在玉米的種子、初生根、節(jié)間、葉、雌穗和雄穗6個組織部位中的表達數(shù)據(jù)。分析結果如圖8所示,ZmCOL3基因在玉米的葉片中表達量最高,雄穗中的表達量次之,在種子中該基因表達量最低,總體上看ZmCOL3基因在葉片中的表達量顯著高于其他組織,其余5個不同組織中的表達量差異較小。
圖8 ZmCOL3基因在玉米不同組織部位的表達情況Fig.8 Expressions of Zm COL 3 inm aize tissues
續(xù)上表
玉米起源于美洲大陸,在人類的長期馴化和自然選擇下,現(xiàn)今廣泛種植于世界各地,并集糧、飼、經(jīng)三種用途于一體,具有很大的開發(fā)潛力[27]。但由于玉米的光周期敏感性導致熱帶、亞熱帶的玉米種質資源在長日照地區(qū)無法正常完成生命周期,限制了現(xiàn)代玉米育種的創(chuàng)新和進步。要改變這一現(xiàn)狀,首先要清晰玉米的開花調控機制。有研究表明在玉米開花過程中,ZmCOL3的作用主要是通過反式激活調控玉米開花的關鍵基因之一ZmCCT的轉錄,或者通過干擾生物鐘來抑制玉米開花[4],該基因是玉米開花調控網(wǎng)絡中不可忽視的一環(huán)。本研究利用生物信息學方法對ZmCOL3基因所編碼蛋白質的結構和功能進行預測和分析,能進一步挖掘和確認該基因的功能和特點,也為ZmCOL3基因功能的深入研究提供思路。
對ZmCOL3基因所編碼的蛋白質序列進行分析發(fā)現(xiàn)ZmCOL3基因共編碼335個氨基酸,理化性質分析結果顯示ZmCOL3蛋白相對分子質量為35.39 kD,理論等電點為5.04,屬于酸性蛋白,具有親水性和不穩(wěn)定性,沒有信號肽和跨膜結構域。ZmCOL3蛋白包含2個保守結構域,分別是CCT結構域和B-box鋅指結構域,證明ZmCOL3是CCT家族的成員,具備COL亞族的基本特征。CCT家族基因能影響植物開花,部分基因參與到生物鐘的調控,ZmCOL3作為該家族成員之一,很可能具備玉米開花調控的相關功能,這與金敏亮[15]發(fā)現(xiàn)ZmCOL3是玉米開花抑制子的研究結果相吻合。亞細胞定位預測該蛋白在細胞核中,這可能是由于ZmCOL3蛋白所含有的CCT結構域具有核定位的功能[28]。該蛋白的二級結構主要由無規(guī)則卷曲組成,其次是α螺旋,還含有少量的延伸鏈和β轉角。通過同源建模對其蛋白三級結構進行預測,QMEAN值為?0.33,同源性高達64.15%。對該基因的啟動子順式作用元件分析發(fā)現(xiàn)其含有光響應元件,這一特點與COL家族基因作為光周期途徑主要調節(jié)因子的功能相符,同時含有脫落酸(ABA)響應元件、茉莉酸甲酯(MeJA)響應元件等多種激素響應元件,表明該基因可能受到多種激素調控,暗示其可在多重反應調控網(wǎng)絡中發(fā)揮作用。ZmCOL3基因在玉米的不同組織中有明顯的差異表達,在玉米的葉片中表達量最高,在種子中該基因表達量最低,該結果與果天宇等[25]對ZmCOL3啟動子的組織特異性分析結果存在差異,推測為物種間啟動子片段的置換所造成。
本文通過生物信息學方法對玉米ZmCOL3基因編碼蛋白的性質、亞細胞定位、啟動子順式作用元件及在不同組織間的表達等方面進行分析,可以為后續(xù)研究該基因的功能及參與的調控通路提供參考。