朱紅霞,胡利宗,鄧小莉*,藺 芳
(1.新鄉(xiāng)學(xué)院生命科學(xué)與技術(shù)系,河南 新鄉(xiāng) 453003;2.中國(guó)科學(xué)院遺傳發(fā)育所,北京 100101;3.中國(guó)科學(xué)院研究生院,北京 100039)
轉(zhuǎn)錄因子是參與轉(zhuǎn)錄調(diào)控的一類(lèi)蛋白因子,通過(guò)與啟動(dòng)子區(qū)域的順式元件相互作用,能夠激活或者抑制多個(gè)下游基因表達(dá)[1]。SBP基因家族是植物所特有的重要轉(zhuǎn)錄因子,屬于一類(lèi)鋅指蛋白,由多個(gè)成員組成,主要參與植物生長(zhǎng)、發(fā)育以及多種生理生化過(guò)程[2]。自首次在金魚(yú)草(Antirrhinum majus)中發(fā)現(xiàn)SBP基因[3]以來(lái),在擬南芥[4]、水稻[5]、葡萄[6]和白樺樹(shù)[7]等植物物種中均發(fā)現(xiàn)該基因家族成員。就模式植物而言,擬南芥SPL3基因在花和葉片中高度表達(dá)[8];擬南芥SPL8很可能參與花粉發(fā)育的調(diào)控[9];擬南芥SPL3、SPL4和SPL5中具有microRNA156的調(diào)控位點(diǎn)[10-11]。此外,玉米SBP轉(zhuǎn)錄因子Liguleless1(LG1)能夠影響舌葉和葉耳的發(fā)育,具體表現(xiàn)為其缺失突變體不能形成舌葉和葉耳[12]。白樺BpSPL1基因通過(guò)特異結(jié)合BpMADS5啟動(dòng)子參與花發(fā)育過(guò)程[7]。
隨著模式植物和一些重要農(nóng)作物基因組數(shù)據(jù)的快速積累,生物信息學(xué)方法已經(jīng)成為剖析基因家族序列特征和進(jìn)化關(guān)系的有效手段,例如大白菜乙烯受體和大豆SBP蛋白家族的研究[13-14]。盡管朱命喜等已對(duì)大豆SBP基因家族的成員數(shù)目、啟動(dòng)子及保守結(jié)構(gòu)域的三維結(jié)構(gòu)等進(jìn)行預(yù)測(cè)分析,但大豆SBP基因家族的保守基序、功能結(jié)構(gòu)域以及表達(dá)情況仍未見(jiàn)報(bào)道。本文挖掘到大豆SBP基因家族的49個(gè)成員,并分析各成員基因結(jié)構(gòu)、染色體定位、蛋白保守序列、亞細(xì)胞定位、表達(dá)情況及親緣進(jìn)化關(guān)系。為大豆SBP基因結(jié)構(gòu)和功能分析提供參考信息,并為闡明SBP基因家族在大豆生長(zhǎng)發(fā)育中的調(diào)控作用奠定理論基礎(chǔ)。
為收集擬南芥、水稻和大豆3個(gè)物種基因組中所有的SBP基因,利用SBP結(jié)構(gòu)域的一致性序列,通過(guò)BLAST對(duì)擬南芥基因組序列數(shù)據(jù)庫(kù)TAIR(http://www.arabidopsis.org/),水稻基因組序列數(shù)據(jù)庫(kù)TIGR(http://rice.plantbiology.msu.edu/)和JGI大豆基因組序列數(shù)據(jù)庫(kù)(http://www.phytozome.net/search.php?show=blast&method=Org_Gmax)進(jìn)行搜索。利用Pfam工具對(duì)候選蛋白質(zhì)序列進(jìn)行檢索[15],若存在SBP結(jié)構(gòu)域,則將其作為該蛋白質(zhì)家族成員。針對(duì)鑒定得到的SBP基因,按照下列標(biāo)準(zhǔn)進(jìn)行分類(lèi):如果SBP基因位于不同基因座位時(shí),該基因被認(rèn)為是1個(gè)成員;同一基因座位的多個(gè)剪接體被認(rèn)為是1個(gè)成員,選擇最長(zhǎng)剪接體為代表。基于已知大豆SBP基因的DNA序列,利用BLAST在線工具和Phytozome提供的基因相關(guān)信息確定其染色體定位(http://www.phytozome.net/cgi-bin/gbrowse/soybean/)。此外,為闡明SBP基因家族擴(kuò)增模式,本研究檢索PGDD數(shù)據(jù)庫(kù)(http://chibba.agtec.uga.edu/duplication/)中所有SBP同源基因?qū)Α?/p>
利用MEME工具對(duì)大豆SBP蛋白的保守基序進(jìn)行分析[16]。參數(shù)設(shè)置如下:同一基序在一條序列中出現(xiàn)的次數(shù)為0或者1,基序長(zhǎng)度范圍10~300個(gè)氨基酸殘基,基序最大發(fā)現(xiàn)數(shù)目5個(gè),其他參數(shù)為默認(rèn)值。利用PROlocalizer在線服務(wù)器對(duì)大豆SBP蛋白的細(xì)胞內(nèi)定位進(jìn)行預(yù)測(cè)[17]。
表達(dá)序列標(biāo)簽(Expressed sequence tag,EST)為在mRNA水平上研究目的基因表達(dá)提供有效工具。通過(guò)對(duì)不同數(shù)據(jù)庫(kù)中目的基因?qū)?yīng)的EST或cDNA出現(xiàn)頻率可了解其組織特異性表達(dá)情況[18]。針對(duì)有對(duì)應(yīng)UniGene的SBP基因,對(duì)其不同組織來(lái)源的EST數(shù)目進(jìn)行數(shù)字化表示,具體情況如下:EST數(shù)目小于25條的記為1;EST數(shù)目在25~50 范圍內(nèi)的記為 2;同理,50~100、100~200、200~500、500~1 000、大于1 000分別記為3、4、5、6、7、8。最后,對(duì)SBP基因EST數(shù)字化處理后的矩陣進(jìn)行聚類(lèi)分析,以此來(lái)表示其基因組織表達(dá)譜。
由于擬南芥、水稻和大豆等物種SBP蛋白的氨基酸序列具有高度保守的功能結(jié)構(gòu)域,因此,可以進(jìn)行多序列的比對(duì)和構(gòu)建進(jìn)化樹(shù),用于研究它們的差異以及系統(tǒng)進(jìn)化關(guān)系。SBP蛋白序列多重比對(duì)由Clustal X軟件完成,參數(shù)為默認(rèn)值[19]。采用鄰接法(Neighbor-Joining Method)構(gòu)建系統(tǒng)發(fā)生樹(shù)[20],其輸出借助于MEGA軟件完成[21]。
結(jié)合BLAST和HMMER搜索方法,加上Pfam工具鑒定,最終在大豆基因組中鑒定出49個(gè)SBP基因,分別命名為GmSBP1~49(見(jiàn)表1)。從表1可以看出,大豆SBP基因家族可分為兩類(lèi):一類(lèi)為有內(nèi)含子的SBP基因,例如GmSBP1~3、GmSBP5~21、GmSBP23、GmSBP26~38、GmSBP40~42和GmSBP44~49等,另外一類(lèi)為沒(méi)有內(nèi)含子,包括GmSBP21和GmSBP42。外顯子數(shù)目分析顯示:該基因家族外顯子數(shù)目具有較大變化,即由1~14個(gè)外顯子組成。其中外顯子最少的基因?yàn)镚mSBP21和GmSBP42,僅有1個(gè)外顯子;最多的是GmSBP43,為14個(gè)外顯子;大多數(shù)基因含有2~4個(gè)外顯子。
表1 大豆SBP基因家族信息Table1 Information of SBP-domain gene family in soybean(Glycine max)
續(xù)表
表1顯示大豆SBP基因家族成員在染色體上的位置和分布情況。從表1可以看出,除第14條染色體以外,SBP基因錨定于所有染色體上,幾乎呈均勻分布情況。就基因數(shù)目而言,第7和13號(hào)染色體上SBP數(shù)目最多,為5個(gè)成員;第8、9、10和20號(hào)染色體上SBP基因數(shù)目最少,為1個(gè)成員;其余染色體上有SBP基因2~4個(gè)成員。此外,第13號(hào)染色體上的5個(gè)SBP基因分布極不均勻,主要集中分布在27.9~38.3 Mb之間。共線性分析顯示,在SBP基因家族中,有16對(duì)基因具有較高的微共線性(見(jiàn)表2)。這充分說(shuō)明大豆在進(jìn)化過(guò)程中經(jīng)歷多次多倍化過(guò)程,此外,多倍化產(chǎn)生的SBP基因已經(jīng)被保留下來(lái),并以同源基因?qū)π问酱嬖凇?/p>
保守基序分析顯示:大豆SBP蛋白具有5個(gè)保守基序,這5個(gè)保守基序通過(guò)不同組合方式最終形成6種組織模式,不同組織模式所占比例不同(見(jiàn)圖1A和表3)。從圖1B可以看出,基序組織模式4占比例最大,約為55%,該模式包含基序1、2和5,線性排列順序?yàn)镸otif5-Motif1-Motif2;此外,其他5種基序組織模式,有3種是在模式4基礎(chǔ)上丟失特定的保守基序形成,而有兩種是在模式4基礎(chǔ)上獲得特定的保守基序形成。結(jié)構(gòu)域分析結(jié)果表明:絕大多數(shù)SBP蛋白包括完整的功能結(jié)構(gòu)域,但也有的成員具有不完整的SBP結(jié)構(gòu)域,例如GmSBP3、GmSBP27和GmSBP42等(見(jiàn)圖2和表3)。蛋白保守基序與功能結(jié)構(gòu)域的比較分析顯示,保守基序1、2、5和功能結(jié)構(gòu)域相互重疊?;蚰J?、2和3不具有完整的SBP保守結(jié)構(gòu)域,這意味著它們很可能喪失功能結(jié)構(gòu)域活性,最終功能發(fā)生變化。同理可知,獲得新基序的組織模式5和6很可能增加該家族所不具有的新功能。此外,利用 PROlocalizer(http://bioinf.uta.fi/PROlocalizer/)在線工具對(duì)大豆SBP蛋白的細(xì)胞內(nèi)定位進(jìn)行預(yù)測(cè)。亞細(xì)胞定位結(jié)果顯示:GmSBP38和GmSBP43都定位于質(zhì)膜;GmSBP23、GmSBP43和GmSBP6分別被定位于核、葉綠體與基質(zhì)中;GmSBP2和GmSBP3定位于線粒體中;GmSBP4、GmSBP8、GmSBP10和GmSBP20等9個(gè)蛋白定位于高爾基體(見(jiàn)表1)。盡管大約67.3%的SBP蛋白不能確定其亞細(xì)胞的定位情況,但不難看出,SBP蛋白定位于多個(gè)細(xì)胞器,這就意味著其功能具有多樣性。
表2 大豆SBP同源基因?qū)able2 Homologous pairs found in the SBP gene family of soybean
圖1 大豆SBP蛋白保守基序的組織結(jié)構(gòu)模式(A)和比例(B)Fig.1 Organization pattern(A)and ratio(B)for conserved motifs and phylogenic tree of SBP-domain gene family in soybean
基于EST數(shù)據(jù)及統(tǒng)計(jì)數(shù)目,可以推測(cè)基因組織特異性表達(dá)。在EST數(shù)據(jù)庫(kù)中GmSBP2、GmSBP-11、GmSBP16、GmSBP26、GmSBP27 和 GmSBP28沒(méi)有相應(yīng)的EST序列發(fā)現(xiàn),說(shuō)明這些基因很可能沒(méi)有轉(zhuǎn)錄活性,以假基因形式存在于大豆基因組中;GmSBP24、GmSBP39,GmSBP32、GmSBP34和GmSBP37雖然能夠找到相應(yīng)的EST序列,但是并不能確定這些EST序列來(lái)源于哪種類(lèi)型的組織,故這些EST數(shù)據(jù)只能說(shuō)明它們有轉(zhuǎn)錄活性。此外,對(duì)剩余的大豆SBP基因組織電子表達(dá)譜進(jìn)行預(yù)測(cè),結(jié)果見(jiàn)圖3。由圖3可看出,GmSBP46是一種組成型表達(dá)基因,在子葉、上胚軸、花、下胚軸、葉子、分生組織、豆莢、根、種皮、體細(xì)胞胚、莖和芽中均表達(dá),并且表達(dá)量較高;GmSBP41在葉片中特異表達(dá);GmSBP1、GmSBP3、GmSBP5和GmSBP15等在分生組織中特異性表達(dá);GmSBP-13、GmSBP21和GmSBP44在根中特異表達(dá);GmSBP17、GmSBP30和GmSBP31等基因在果莢中特異表達(dá);此外,多數(shù)SBP基因都可以在多個(gè)組織中表達(dá),表現(xiàn)出多樣化的組織表達(dá)譜(見(jiàn)圖3)。
表3 大豆SBP蛋白的保守基序Table3 Conserved motif found in the SBP protein of soybean
圖2 大豆SBP蛋白的功能結(jié)構(gòu)域Fig.2 Functional domain of the SBP proteins in soybean(Glycine max)
圖3 大豆SBP基因家族成員的表達(dá)譜Fig.3 Expression pattern of members of SBP-domain gene family in soybean
根據(jù)方法中提供的步驟,分別從擬南芥和水稻基因組中分離到18和25個(gè)SBP基因,與以往報(bào)道的相一致[22-23]。為揭示SBP基因家族成員間的親緣關(guān)系,18個(gè)擬南芥SBP蛋白、25個(gè)水稻SBP蛋白與49個(gè)大豆SBP蛋白用于該蛋白的系統(tǒng)發(fā)生分析。以支持率15%為閥值,3個(gè)物種的SBP蛋白被劃分為8個(gè)類(lèi)群即A、B、C、D、E、F、G和H類(lèi)群。從進(jìn)化樹(shù)可以看出:水稻的一個(gè)SBP蛋白屬于孤兒基因,單獨(dú)形成一個(gè)分支;大豆的4個(gè)SBP基因落入類(lèi)群外,以基因?qū)π问絾为?dú)形成進(jìn)化支;F類(lèi)群成員數(shù)目少,僅包括1個(gè)水稻SBP蛋白和2個(gè)大豆SBP蛋白;其他類(lèi)群由擬南芥、水稻和大豆SBP蛋白共同組成(見(jiàn)圖4)。進(jìn)化樹(shù)末端同一分支的兩個(gè)外部結(jié)點(diǎn),很可能就是親緣關(guān)系比較近的同源基因?qū)?。進(jìn)化樹(shù)末端分析顯示:5對(duì)擬南芥/大豆SBP蛋白位于系統(tǒng)發(fā)生樹(shù)的同一分支,4對(duì)水稻/大豆SBP蛋白位于系統(tǒng)發(fā)生樹(shù)的同一分支,3對(duì)擬南芥/水稻SBP蛋白處于進(jìn)化樹(shù)的同一分支,這說(shuō)明該基因家族的祖先基因起源于3個(gè)物種分化之前。此外,大豆中有15對(duì)SBP基因位于系統(tǒng)發(fā)生樹(shù)的同一分支,而擬南芥和水稻分別有3和4對(duì)SBP基因處于同一進(jìn)化分支中,這充分說(shuō)明,大豆物種形成后SBP基因發(fā)生了多次重復(fù)事件。
利用BLAST和HMMER工具,在全基因組水平對(duì)SBP基因進(jìn)行挖掘。利用Pfam和MEME工具進(jìn)行過(guò)濾,最終在擬南芥、水稻和大豆中分別得到18、25和49個(gè)SBP基因。前人研究揭示擬南芥、水稻和大豆中分別有16、20、44個(gè)SBP基因[13,22-23]。兩者比較顯示,本文鑒定的SBP基因較多。與擬南芥和水稻相比,大豆基因組中有更多SBP基因,說(shuō)明大豆SBP基因家族經(jīng)歷更為復(fù)雜的擴(kuò)增、丟失以及進(jìn)化過(guò)程。朱命喜等從PlnTFDB,PlantTFDB,RiceTFDB直接下載并篩選44個(gè)大豆SBP基因,詳細(xì)分析該家族成員啟動(dòng)子序列特征,并認(rèn)為該轉(zhuǎn)錄因子家族參與生長(zhǎng)發(fā)育、逆境脅迫響應(yīng)、激素應(yīng)答、抗霉菌應(yīng)答、光合作用等調(diào)控過(guò)程。此外,對(duì)個(gè)別SBP蛋白還進(jìn)行三維結(jié)構(gòu)模建[13]。但大豆SBP基因的保守基序模式、共線性、表達(dá)譜和亞細(xì)胞定位等問(wèn)題仍然沒(méi)有被闡明,本研究填補(bǔ)大豆SBP基因這些方面的空白。大豆是典型的古四倍體植物,其基因組在進(jìn)化過(guò)程中經(jīng)過(guò)加倍的過(guò)程,所以很多基因在大豆基因組中都是以多拷貝形式存在。Schmutz等研究結(jié)果顯示,在59和13MYA前,大豆分別發(fā)生2次全基因組重復(fù)事件,這也支持基因是以多拷貝形式存在的觀點(diǎn)[24]。本研究發(fā)現(xiàn)多拷貝的SBP基因散落分布于不同染色體上。微共線性角度分析表明,在大豆基因組中存在16對(duì)SBP旁系同源基因,這為大豆全基因組加倍事件提供有利證據(jù)(見(jiàn)表2)。
從系統(tǒng)進(jìn)化角度看,SBP基因在大多數(shù)植物中都是由多成員組成。例如在擬南芥、水稻和大豆基因組中分別鑒定出3、4和15對(duì)SBP同源基因?qū)?,它們屬于橫向同源基因,處于同一進(jìn)化分支中,形成于物種發(fā)生后。與擬南芥和水稻相比,大豆具有更多SBP同源基因?qū)?,這充分說(shuō)明,大豆物種形成后SBP基因發(fā)生更多重復(fù)事件。一般而言,具有完整SBP功能結(jié)構(gòu)域的SBP基因往往能夠找到EST序列,也就是說(shuō)這些SBP基因具有轉(zhuǎn)錄活性。相反,GmSBP26和GmSBP27不包括典型SBP功能結(jié)構(gòu)域,同時(shí)也沒(méi)有EST數(shù)據(jù)支持其轉(zhuǎn)錄活性,因此,推測(cè)其為假基因。總之,大豆SBP基因家族的進(jìn)化過(guò)程很可能受不等價(jià)交換、局部片段重復(fù)多倍化的全基因組重復(fù)以及轉(zhuǎn)座子等多種因素影響,導(dǎo)致其進(jìn)化錯(cuò)綜復(fù)雜。因此,在生物信息預(yù)測(cè)分析基礎(chǔ)上,有必要進(jìn)行大量驗(yàn)證,最終弄清其起源和進(jìn)化關(guān)系。本研究可為下一步研究大豆SBP轉(zhuǎn)錄因子的生物學(xué)功能提供參考。
[1]FRiechmann J L,Heard J,Martin G,et al.Arabidopsis transcription factors:Genome-wide comparative analysis among eukaryotes[J].Science,2000,290(5499):2105-2110.
[2]Guo A Y,Zhu Q H,Gu X,et al.Genome-wide identification and evolutionary analysis of the plant specific SBP-box transcription factor family[J].Gene,2008,418(1-2):1-8.
[3]Klein J,Saedler H,Huijser P.A new family of DNA binding proteins includes putative transcriptional regulators of the Antirrhinum majus floral meristem identity gene SQUAMOSA[J].Mol Gen Genet,1996,250(1):7-16.
[4]Unte U S,Sorensen A M,Pesaresi P,et al.SPL8,an SBP-box gene that affects pollen sac development in Arabidopsis[J].Plant Cell,2003,15(4):1009-1019.
[5]Shao C X,Takeda Y,Hatano S,et al.Rice genes encoding the SBP domain protein,which is a new type of transcription factor controlling plant development[J].Rice Genet Newsl,1999,16:114.
[6]曹雪,上官凌飛,于華平,等.葡萄SBP基因家族生物信息學(xué)分析[J].基因組學(xué)與應(yīng)用生物學(xué),2010,29(1):791-798.
[7]Lannenpaa M,Janonen I,Holtta-Vuori M,et al.A new SBP-box gene BpSPL1 in silver birch(Betula pendula)[J].Physiol Plant,2004,120(3):491-500.
[8]Cardon G H,Hohmann S,Nettesheim K,et al.Functional analysis of the Arabidopsis thaliana SBP-box gene SPL3:A novel gene involved in the floral transition[J].Plant,1997,12(2):367-377.
[9]Schmid M,Uhlenhaut N H,Godard F,et al.Dissection of floral induction pathways using global expression analysis[J].Development,2003,130(24):6001-6012.
[10]Wu G,Poethig R S.Temporal regulation of shoot development in Arabidopsis thaliana by miR156 and its target SPL3[J].Development,2006,133(18):3539-3547.
[11]Gandikota M,Birkenbihl R P,Hthmann S,et al.The miRNA 156/157 recognition element in the 3'UTR of the Arabidopsis SBP box gene SPL3 prevents early flowering by translational inhibition in seedlings[J].The Plant Journal,2007,49(4):683-693.
[12]Moreno M A,Harper L C,Krueger R W,et al.Liguleless1 encodes a nuclear-localized protein required for induction of ligules and auricles during maize leaf organogenesis[J].Genes&Development,1997,11(5):616-628.
[13]朱命喜,劉洋,吳瓊,等.大豆SBP轉(zhuǎn)錄因子家族的預(yù)測(cè)分析[J].大豆科學(xué),2011,30(2):178-183.
[14]朱紅霞,胡利宗,鄧小莉.大白菜乙烯受體基因家族:分子特征、微同線性與進(jìn)化分析[J].生物技術(shù)通報(bào),2011(7):88-94.
[15]Sonnhammer E L,Eddy S R,Durbin R.Pfam:A comprehensive database of protein domain families based on seed alignments[J].Proteins,1997,28(3):405-420.
[16]Bailey T L,Williams N,Misleh C,et al.MEME:Discovering and analyzing DNA and protein sequence motifs[J].Nucleic Acids Res,2006,34:369-373.
[17]Kirsti L,Mauno V.PROlocalizer:Integrated web service for protein subcellular localization prediction[J].Amino Acids,2011,40:975-980.
[18]Ohlrogge J.Benning C.Unraveling plant metabolism by EST analysis[J].Curr Opin Plant Biol,2000,3(3):224-228.
[19]Thompson J D,Gibson T J,Plewniak F.The CLUSTAL_X windows interface:Flexible strategies for multiple sequence alignment aided by quality analysis tools[J].Nucleic Acids Res,1997,25:4876-4882.
[20]Saitou N,Nei M.The neighbor-joining method:A new method for reconstructing phylogenetic trees[J].Mol Biol Evo,1987,4(4):406-25.
[21]Tamura K,Dudley J,Nei M,et al.MEGA4:Molecular evolutionary gengtics analysis(MEGA)software version 4.0[J].Mol Biol and Evo1,2007,24(8):1596-1599.
[22]Cardon G,Hohmann S,Klein J,et al.Molecular characterisation of the Arabidopsis SBP-box genes[J].Gene,1999,237:91-104.
[23]王翊,胡宗利,楊妤欣,等.水稻SBP基因家族的生物信息學(xué)分析[J].生物信息學(xué),2011,9(1):82-87.
[24]Schmutz J,Cannon S B,Schlueter J,et al.Genome sequence of the palaeopolyploid soybean[J].Nature,2010,463:178-183.