孟亞軒, 孫穎琦, 趙心月, 王鳳霞, 甕巧云, 劉穎慧
(河北北方學(xué)院 農(nóng)林科技學(xué)院,河北 張家口 075000)
纖維素酶(cellulase)是能特異降解β-1,4-糖苷鍵的一類復(fù)合酶的總稱,在植物細(xì)胞壁的合成分解中發(fā)揮重要作用[1]。根據(jù)蛋白序列相似性,纖維素酶分布在至少17個(gè)糖苷水解酶家族(glycoside hydrolase,GH)中,不同GH基因家族具有不同的起源和演化過程[2]。GH5家族作為最大且功能最多樣化的GH家族,擁有最多的植物纖維素酶[2-3]。GH5蛋白由催化結(jié)構(gòu)域(CD)和碳水化合物結(jié)合模塊(CMD)通過附件模塊(linker)鏈接組成,其結(jié)構(gòu)上具有特異的TIM桶狀蛋白,具有保守型谷氨酸催化機(jī)制[4-5]。GH5家族成員具有廣泛的溫度和pH耐受性,其TIM桶折疊結(jié)構(gòu)決定其loop元件具有高度可變性[6],故GH5基因家族可作為研究纖維素酶分子功能的良好素材。Henrissat等[7]首次將GH5描述為纖維素酶家族,并解讀其遺傳機(jī)制。隨著基因組學(xué)的發(fā)展,不同植物的纖維素酶基因功能也相繼得以揭示。研究發(fā)現(xiàn),PtrCel9A6通過調(diào)控次生壁形成參與楊樹(Populus)木質(zhì)部分化過程[8];Cel4基因參與番茄(Solanumlycopersicum)雌蕊和葉肉細(xì)胞的擴(kuò)增作用,Cel1和Cel2在果實(shí)成熟與花藥開裂過程中具有重疊功能[9];擬南芥(Arabidopsisthaliana)纖維素酶基因CELLULASE6與角果分化有高度相關(guān)性,可通過改變CEL6酶的活性影響角果開裂進(jìn)程[10];陳茹佳[11]研究發(fā)現(xiàn),水稻(Oryzasativa)基因OsCel5-11與短日照條件下的晚花有關(guān),GH5-11可能編碼一種新的內(nèi)切葡萄糖聚酶。解纖維熱酸菌基因AcCel5A在擬南芥中過量表達(dá)會(huì)破壞其細(xì)胞壁結(jié)構(gòu),導(dǎo)致產(chǎn)生畸形植株[12]。王麗珊[13]利用生物信息學(xué)方法構(gòu)建擬南芥和水稻Cel基因進(jìn)化關(guān)系發(fā)現(xiàn),Cel基因具有明顯的多樣性特征,蛋白功能存在特異性。
Science雜志在創(chuàng)刊125周年匯報(bào)中指出,植物細(xì)胞壁的合成將作為未來重大科學(xué)問題[14]。近年來關(guān)于細(xì)胞壁合成降解的相關(guān)研究已取得突破性進(jìn)展,植物纖維素酶的作用機(jī)理已基本明確。谷子(Setariaitalica)屬1年生禾本科作物,基因組小且為二倍體,其測(cè)序已完成,基因組約500 M左右[15]。GH5具有大量寡糖、多糖等作用于β-鏈接的酶類,這些酶類在生物學(xué)過程中發(fā)揮重要作用。研究表明,GH5在植物細(xì)胞壁的合成和降解中發(fā)揮重要作用,但關(guān)于谷子GH5基因家族的研究卻鮮有報(bào)道。本文通過生物信息學(xué)方法對(duì)谷子GH5基因家族進(jìn)行挖掘鑒定,分析其基因功能、蛋白結(jié)構(gòu)、表達(dá)模式等,以期為進(jìn)一步深入研究谷子GH5家族基因提供理論參考。
利用Pfam數(shù)據(jù)庫(kù)獲得GH5基因家族Pfam代碼(PF00150)[16],在谷子基因組數(shù)據(jù)庫(kù)中獲得其基因與轉(zhuǎn)錄本ID,通過CDD[17]和InterProScan[18]進(jìn)行篩選,去除冗余,并鑒定其基因信息,使用MG2C繪制染色體定位圖。利用ProtParam[19]預(yù)測(cè)蛋白理化性質(zhì),并通過Plant-mPLoc[20]進(jìn)行亞細(xì)胞定位。
利用MEME在線網(wǎng)站對(duì)谷子GH5蛋白家族序列信息進(jìn)行分析,得到GH5的基序分布,最小長(zhǎng)度設(shè)置60,最大長(zhǎng)度設(shè)置200[21]。使用MEGA6.0軟件對(duì)GH5蛋白進(jìn)行比對(duì),使用銜接法繪制進(jìn)化樹(bootstrap設(shè)置為1 000)[22-23],使用同樣方法繪制大豆(Glycinemax)、高粱(Sorghumbicolor)、水稻(Oryzasativa)等的多物種GH5蛋白進(jìn)化樹,設(shè)置取默認(rèn)值。通過Gramene數(shù)據(jù)庫(kù)檢索谷子與玉米GH5同源基因,利用KaKs_Calculator計(jì)算基因同義替換率(Ks)與非同義替換率(Ka),并計(jì)算Ka/Ks值,估算選擇壓力[24]。
利用Gramene數(shù)據(jù)庫(kù)獲取谷子GH5家族基因的編碼與全長(zhǎng)序列,通過TBtools軟件分析并繪制其內(nèi)含子-外顯子結(jié)構(gòu)圖。為獲取GH5家族成員的結(jié)構(gòu)域分布,使用在線軟件ProSite分析其蛋白序列并繪制谷子GH5家族成員結(jié)構(gòu)域分布圖[25]。
通過PSRSM[26]在線軟件構(gòu)建GH5蛋白二級(jí)結(jié)構(gòu)。利用SWISS-MODEL網(wǎng)站分析其motif基序,構(gòu)建蛋白三級(jí)結(jié)構(gòu)[27],并運(yùn)用相同方法完成大豆、高粱、水稻等GH5蛋白三級(jí)結(jié)構(gòu)構(gòu)建(以各位點(diǎn)出現(xiàn)頻率最高的氨基酸組成的序列構(gòu)建不同物種GH5蛋白),使用SuperPose在線軟件比對(duì)各物種GH5蛋白的PDB格式文件,進(jìn)行GH5蛋白三維結(jié)構(gòu)對(duì)比。
利用Phytozome數(shù)據(jù)庫(kù)中已公布的谷子RNA-seq數(shù)據(jù),獲得谷子GH5基因在不同誘導(dǎo)下的組織表達(dá)譜,包括強(qiáng)光誘導(dǎo)2周的葉片、強(qiáng)光誘導(dǎo)1周的芽、黑暗誘導(dǎo)的地上組織、紅光誘導(dǎo)的地上組織、正常光誘導(dǎo)的根、干旱誘導(dǎo)的根、尿素誘導(dǎo)的根、強(qiáng)光誘導(dǎo)的穗,共11個(gè)樣本RNA-seq數(shù)據(jù),使用TBtools軟件繪制谷子GH5家族基因在不同誘導(dǎo)下的表達(dá)熱譜圖[28]。
在GEO數(shù)據(jù)庫(kù)(GSE36391)和SRA數(shù)據(jù)庫(kù)(SRA048234)中獲得谷子品種張谷的轉(zhuǎn)錄組數(shù)據(jù)注釋文件,進(jìn)行基因雙向同源比對(duì),繪制張谷GH5家族基因在根、莖、葉、花穗中的表達(dá)熱譜圖。
使用Gramene數(shù)據(jù)庫(kù)提取谷子GH5基因起始密碼子上游1 500 bp序列,作為啟動(dòng)子序列上傳至PlantCARE在線軟件,通過GSDS2.0將結(jié)果可視化[29]。
利用Pfam號(hào)碼(PF00150)從Pfam數(shù)據(jù)庫(kù)獲得谷子GH5基因家族隱馬文件,在谷子基因組中獲得GH5家族成員基因序列與轉(zhuǎn)錄本序列,通過CDD和InterProScan軟件去除冗余,最終獲得18個(gè)谷子GH5家族成員,命名為SiGH5-1~SiGH5-18。將得到的蛋白序列上傳至Plant-mPLoc數(shù)據(jù)庫(kù)進(jìn)行亞細(xì)胞定位,使用ProtParam數(shù)據(jù)庫(kù)預(yù)測(cè)其蛋白質(zhì)理化性質(zhì)。通過對(duì)比GH5基因家族信息發(fā)現(xiàn),GH5基因家族成員差異較大:具有2(SiGH5-10)~10(SiGH5-5、SiGH5-9)個(gè)外顯子,開放閱讀框長(zhǎng)度為1 704 bp(SiGH5-2)~6 737 bp(SiGH5-18),氨基酸長(zhǎng)度為285(SiGH5-14)~578 aa(SiGH5-10),分子量為31.69(SiGH5-14)~62.46 Ku(SiGH5-10),等電點(diǎn)為4.93(SiGH5-9)~9.34(SiGH5-7)(表1)。亞細(xì)胞定位分析發(fā)現(xiàn),谷子GH5家族基因多位于細(xì)胞壁中,其次是細(xì)胞質(zhì),少量分布在葉綠體和細(xì)胞膜中,表明該基因家族參與細(xì)胞壁構(gòu)建。
表1 谷子GH5基因家族信息
由圖1可知,18個(gè)GH5家族成員不均勻分布在谷子的8條染色體上,分布最多的為7號(hào)和9號(hào)染色體(各有4個(gè)),分布最少的為6號(hào)染色體和8號(hào)染色體(各有1個(gè)),1號(hào)、3號(hào)、4號(hào)、5號(hào)均含有2個(gè)GH5家族基因。
通過Gramene數(shù)據(jù)庫(kù)獲取GH5基因家族的全長(zhǎng)序列,使用TBtools分析GH5基因結(jié)構(gòu),并將結(jié)果可視化繪制其內(nèi)含子-外顯子結(jié)構(gòu)。結(jié)果(圖2)表明,GH5家族基因均含有內(nèi)含子,但差異較大,SiGH5-5、SiGH5-9內(nèi)含子數(shù)量最多(均為9個(gè)),SiGH5-10內(nèi)含子數(shù)量最少(1個(gè))。
利用MEGA6.0軟件對(duì)GH5家族成員氨基酸序列進(jìn)行比對(duì),并使用銜接法繪制進(jìn)化樹;將比對(duì)文件上傳至MEME在線網(wǎng)站獲得其保守基序,最終獲得谷子GH5家族成員進(jìn)化水平的基序分布圖(圖3)。GH5家族蛋白可分為3組,大部分蛋白分支具有100%的booststrap支持率。聚為同一分支的蛋白具有相似的基序分布,但組Ⅰ蛋白SiGH5-14缺失motif 3和motif 7;組Ⅲ蛋白SiGH5-18缺失motif 5,SiGH5-3缺失motif 3,推測(cè)在GH5家族蛋白分化過程中,SiGH5-14、SiGH5-18、SiGH5-3具有不同的進(jìn)化軌跡。在預(yù)測(cè)到的8個(gè)motif中,motif 3幾乎分布在所有GH5家族成員中,可進(jìn)一步用于GH5蛋白結(jié)構(gòu)構(gòu)建。
通過在線軟件ProSite分析谷子GH5家族成員蛋白序列,并將結(jié)果可視化,得到谷子GH5蛋白結(jié)構(gòu)域分布圖(圖4)。圖4表明,GH5蛋白均含有保守的GH5結(jié)構(gòu)域,SiGH5-2除含有GH5結(jié)構(gòu)域外還含有跨膜結(jié)構(gòu)域,SiGH5-11含有RICIN結(jié)構(gòu)域,SiGH5-18含有FASCIN結(jié)構(gòu)域。蛋白的結(jié)構(gòu)決定蛋白功能,這些特殊的結(jié)構(gòu)域可能賦予GH5蛋白新的功能。
GH5蛋白二級(jí)結(jié)構(gòu)(圖5-A)表明,GH5蛋白結(jié)構(gòu)以無(wú)規(guī)卷曲為主要方式,具有81個(gè),占40.7%;其次是α-螺旋(66個(gè),33.17%);再次是延伸鏈(40個(gè),20.10%);β-折疊僅有12個(gè),占6.03%。通過SWISS-MODEL在線軟件預(yù)測(cè)各物種GH5蛋白三級(jí)結(jié)構(gòu),結(jié)果(圖5-B)發(fā)現(xiàn),其三級(jí)結(jié)構(gòu)主要由無(wú)規(guī)卷曲和α-螺旋構(gòu)成,具有(β/α)8拓?fù)湔郫B。利用蛋白質(zhì)疊加技術(shù),在SuperPose網(wǎng)站進(jìn)行GH5蛋白結(jié)構(gòu)疊合對(duì)比,結(jié)果(表2)顯示,GH5蛋白在RMSD小于2?時(shí)具有高度的保守性(RMSD為疊加蛋白質(zhì)骨架原子平均距離的量度,RMSD值越小證明兩物種蛋白結(jié)構(gòu)相似性越高)。
表2 不同物種GH5蛋白三級(jí)結(jié)構(gòu)的RMSD值
利用谷子基因組選取GH5基因起始密碼子上游1 500 bp序列,提交至PlantCARE預(yù)測(cè)其順式作用元件,通過GSDS2.0將結(jié)果可視化(圖6)。生長(zhǎng)素響應(yīng)、脫落酸響應(yīng)等激素類響應(yīng)元件存在于所有GH5家族基因的啟動(dòng)子中,光響應(yīng)元件分布在除SiGH5-6外的所有GH5家族基因啟動(dòng)子。此外,厭氧誘導(dǎo)元件、防御與應(yīng)激響應(yīng)元件、低溫響應(yīng)元件等不同類型元件也不均勻分布在SiGH5s的啟動(dòng)子區(qū)。上述結(jié)果說明,GH5家族基因可能在谷子生長(zhǎng)分化與逆境脅迫過程中發(fā)揮作用。
從Phytozome數(shù)據(jù)庫(kù)中獲得谷子18個(gè)GH5家族基因在不同誘導(dǎo)條件的RNA-seq數(shù)據(jù),利用TBtools將結(jié)果可視化,繪制GH5家族基因誘導(dǎo)表達(dá)熱譜圖(圖7)。除SiGH5-1、SiGH5-2、SiGH5-16外,GH5家族基因在谷子各組織中均檢測(cè)到表達(dá)量。SiGH5-8在強(qiáng)光誘導(dǎo)1周的芽、紅光誘導(dǎo)的地上組織、強(qiáng)光誘導(dǎo)的穗、黑暗誘導(dǎo)的地上組織、干旱誘導(dǎo)的根中表達(dá)量明顯高于其他基因;SiGH5-17在正常光誘導(dǎo)的根、干旱誘導(dǎo)的根、尿素誘導(dǎo)的根、強(qiáng)光誘導(dǎo)生長(zhǎng)2周的葉片、黑暗誘導(dǎo)的地上組織中表達(dá)量較高;SiGH5-3在黑暗誘導(dǎo)的地上組織中表達(dá)量較高;SiGH5-7在黑暗誘導(dǎo)的地上組織、強(qiáng)光誘導(dǎo)的穗、強(qiáng)光誘導(dǎo)1周的芽中表達(dá)量較高;SiGH5-9在強(qiáng)光誘導(dǎo)1周的芽中表達(dá)量較高。
為進(jìn)一步研究GH5家族基因在谷子生長(zhǎng)發(fā)育中的功能,利用GEO數(shù)據(jù)庫(kù)和NCBI的SRA數(shù)據(jù)庫(kù)獲得張谷的轉(zhuǎn)錄組注釋文件,并對(duì)基因進(jìn)行雙向同源比對(duì),繪制表達(dá)熱譜圖(圖8)。結(jié)果顯示,SiGH5-1、SiGH5-2、SiGH5-16在不同組織中均具有較低的表達(dá)量,說明這些基因可能具有特異的表達(dá)模式或?yàn)楣δ苋哂嗷?。SiGH5-8、SiGH5-17在根、莖、葉、花穗中均具有較高表達(dá)量,結(jié)合誘導(dǎo)表達(dá)譜說明這2個(gè)基因在谷子生長(zhǎng)發(fā)育和應(yīng)對(duì)非生物脅迫過程中發(fā)揮重要作用。此外,除SiGH5-1、SiGH5-2、SiGH5-16基因外,其他GH5家族基因在根中表達(dá)量均相對(duì)較高,推測(cè)GH5家族基因在谷子根的建成中發(fā)揮重要作用。
利用MEGA6.0軟件比對(duì)谷子、大豆、高粱等不同物種的GH5家族蛋白,利用銜接法繪制進(jìn)化樹,設(shè)置默認(rèn)值。結(jié)果(圖9)表明,大豆、擬南芥、小立碗蘚GH5蛋白呈家族性聚集,谷子、水稻、高粱、玉米GH5蛋白具有較高的親緣關(guān)系。說明GH5蛋白可能具有種屬特異性特點(diǎn)。
利用TBtools軟件對(duì)檢索到的谷子與玉米的13對(duì)GH5同源基因進(jìn)行選擇壓力分析,結(jié)果(表3)顯示,13對(duì)同源基因的進(jìn)化選擇壓力均<1,表明谷子與玉米的同源基因在進(jìn)化中受到純化選擇,未發(fā)生結(jié)構(gòu)功能上的改變。
表3 谷子、玉米GH5家族基因進(jìn)化選擇壓力分析
GH5基因家族在高等植物中廣泛存在,在植物細(xì)胞壁的合成和降解中發(fā)揮重要作用。植物全基因組測(cè)序的相繼完成為生物信息學(xué)研究搭建了數(shù)據(jù)平臺(tái),但尚未有谷子GH5基因家族的研究報(bào)道。本研究從谷子基因組中鑒定到18個(gè)GH5家族基因,與曲霉(4個(gè))[30]、大腸埃希菌(48個(gè))[31]GH5家族基因的研究具有較大差異,推測(cè)在物種分化過程中GH5家族基因的特異性擴(kuò)張導(dǎo)致不同物種之間差異比較大?;蛑貜?fù)是基因家族擴(kuò)張的主要?jiǎng)恿Γ珿H5家族基因在谷子9號(hào)染色體中存在簇狀分布現(xiàn)象,說明GH5家族基因擴(kuò)增中可能存在串聯(lián)復(fù)制。水稻、二歲短柄草中同樣存在GH5成員簇狀分布現(xiàn)象,還存在基因丟失事件[11]。
亞細(xì)胞定位與蛋白質(zhì)功能具有密切聯(lián)系,本研究中大部分GH5成員定位在細(xì)胞壁,符合纖維素酶的一般特征,說明GH5成員大多數(shù)在細(xì)胞壁中參與植物的生理過程。進(jìn)化水平的基序分布發(fā)現(xiàn),GH5家族同組蛋白具有相似的基序分布,但部分蛋白存在基序缺失現(xiàn)象,這與擬南芥中的研究結(jié)果一致[4],推測(cè)在進(jìn)化過程中GH5雖然保守但也發(fā)生了部分變異。
基因結(jié)構(gòu)是基因進(jìn)化的研究依據(jù),從GH5基因內(nèi)含子-外顯子結(jié)構(gòu)可以看出,同一進(jìn)化支的GH5家族成員雖然內(nèi)含子和外顯子數(shù)量不同,但是具有相似的排列模式;結(jié)合其基序的近似分布,判斷GH5家族成員在進(jìn)化過程中發(fā)生了外顯子改組。不同進(jìn)化支亞組成員基因結(jié)構(gòu)差異較大,說明GH5基因家族的不同亞組成員具有不同的進(jìn)化軌跡[6]。
蛋白構(gòu)建結(jié)果顯示,GH5蛋白結(jié)構(gòu)并沒有因?yàn)槲锓N的分化而出現(xiàn)較大的差異,說明GH5基因家族具有高度保守性。物種間蛋白進(jìn)化樹分析表明,GH5蛋白具有種屬特異性特點(diǎn),暗示單、雙子葉GH5蛋白為不同的起源方式,同源性較低[32]。
順式作用元件是解讀基因功能的重要依據(jù),本研究中谷子GH5家族基因啟動(dòng)子區(qū)預(yù)測(cè)到大量激素類響應(yīng)元件,暗示GH5家族成員可能通過響應(yīng)植物激素信號(hào)在調(diào)控細(xì)胞壁合成分解過程中發(fā)揮作用?;虮磉_(dá)分析結(jié)果顯示,SiGH5s在響應(yīng)不同非生物脅迫過程中表達(dá)量不同,說明GH5家族成員在不同非生物脅迫過程中可能具有特異的調(diào)控途徑。轉(zhuǎn)錄組數(shù)據(jù)結(jié)果顯示,SiGH5s廣泛參與植株建成過程,但出現(xiàn)了明顯的組織表達(dá)差異,如SiGH5-8、SiGH5-17在根中高表達(dá),SiGH5-7在穗中高表達(dá),與水稻、擬南芥的組織表達(dá)結(jié)果一致[11],說明GH5家族成員在基因復(fù)制事件之后可能存在功能分化。
本研究基于谷子基因組和已公布的轉(zhuǎn)錄組數(shù)據(jù),對(duì)谷子GH5家族成員進(jìn)行鑒定和表達(dá)分析。結(jié)果表明,谷子中有18個(gè)GH5家族基因,不均勻分布在谷子8條染色體上,分為3個(gè)亞族,同一亞族具有相似的基序分布。SiGH5s在谷子不同組織中差異表達(dá),且在非生物脅迫過程中不同組織的表達(dá)量也不相同。