緱緒卓,嚴(yán)子成,況 玉,曹 銳,陳巧靈,楊雅麗,周嘉裕,廖 海
(西南交通大學(xué) 生命科學(xué)與工程學(xué)院,四川 成都 610031)
Kunitz蛋白酶抑制劑(Kunitz protease inhibitor,KPI)是一類具有Kunitz結(jié)構(gòu)域的功能多肽,最初在大豆中被發(fā)現(xiàn)。KPI的抑制中心位點能夠結(jié)合靶蛋白酶,封閉靶蛋白酶的活性中心,抑制絲氨酸蛋白酶、巰基蛋白酶及天門冬氨酸蛋白酶等的活性。KPI在被子植物中廣泛存在,如在大豆與蒺藜苜蓿等10余種植物[1-6]中均找到其存在的證據(jù),但在低等植物如裸子植物與藻類中未發(fā)現(xiàn)KPI的存在。
KPI在植物抵抗生物及非生物脅迫中發(fā)揮了重要作用,具有抗蟲、抗腫瘤、抗感染、抗病毒和抗真菌等多種生物學(xué)活性。如從大豆中分離的大豆胰蛋白酶抑制劑(Soybean trypsin inhibitor,STI)屬于KPI家族成員,能夠抑制棉鈴蟲與甜菜夜蛾等幼蟲腸道的絕大部分類胰蛋白酶活性,并且誘導(dǎo)不同類型消化酶的過量表達(dá),導(dǎo)致幼蟲的取食量明顯下降,營養(yǎng)不良,蟲體質(zhì)量變輕,延緩幼蟲的生長發(fā)育[7-9]。大豆STI與其他抗蟲物質(zhì)的協(xié)同作用比其單獨作用更能發(fā)揮抗蟲效果,進一步闡明了KPI與一些抗蟲物質(zhì)之間存在著增效作用[10]。將STI基因?qū)霟煵?、芥菜等植物,獲得了對鱗翅目害蟲有較高抗性的轉(zhuǎn)基因植株[11-13]。近期發(fā)現(xiàn),將決明KPI基因轉(zhuǎn)入模式植物擬南芥能夠明顯提高轉(zhuǎn)基因植物的耐旱與耐鹽能力[14]。此外,滲透脅迫會明顯提高蒺藜苜蓿中KPImRNA及其編碼的蛋白質(zhì)含量,表明其在響應(yīng)非生物脅迫過程中發(fā)揮著重要作用[15]。
大豆是世界上主栽作物之一,蒺藜苜蓿是主要的牧草,生產(chǎn)中二者經(jīng)常受到各種蟲害、病原菌與不利環(huán)境的制約[16]。大豆和蒺藜苜蓿的全基因組序列相繼測序完成,并已經(jīng)進行了深入注釋,這為在基因組水平上研究其基因家族的特點奠定了基礎(chǔ)[17-18]。MARTINEZ等[19]對蒺藜苜蓿、擬南芥、水稻等被子植物的KPI基因家族進行了系統(tǒng)進化分析,但未包括大豆KPI基因家族。本研究利用植物基因組在線數(shù)據(jù)庫Phytozome及在線分析工具Pfam、SMART確定大豆與蒺藜苜蓿的KPI基因家族成員,使用生物信息學(xué)的方法進行了大豆與蒺藜苜蓿KPI基因的染色體定位分析,構(gòu)建KPI基因家族的系統(tǒng)進化樹,并分析KPI基因家族所編碼蛋白質(zhì)的保守序列;此外,通過對GenBank的EST(Expressed sequence tags)數(shù)據(jù)庫檢索,分析該家族基因成員的器官特異性及在不同脅迫條件下的表達(dá)特征,為進一步分離和克隆植物中的KPI基因奠定基礎(chǔ)。
豆科植物大豆(Glycinemax)與蒺藜苜蓿(Medicagotruncatula)的KPI核苷酸序列及其對應(yīng)的氨基酸序列來源于植物基因組在線數(shù)據(jù)庫Phytozome(https://phytozome.jgi.doe.gov/pz/portal.html),檢索關(guān)鍵詞設(shè)定為“Kunitz”。
1.2.1 序列分析 利用Pfam(http://pfam.xfam.org/)和SMART(http://smart.embl-heidelberg.de/)在線分析工具對Phytozome中初步檢索到的大豆和蒺藜苜蓿的KPI氨基酸序列進行檢驗,同時滿足2種分析工具的序列被用于進一步分析。使用DNAman分析軟件對KPI核苷酸序列進行多序列比對,為了取得最佳的比對結(jié)果,剔除與其他基因具有顯著差異的序列,最終得到大豆與蒺藜苜蓿的KPI基因序列。
1.2.2KPI基因在染色體上的定位分析 通過NCBI核酸數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/nuccore/?term)獲得大豆與蒺藜苜蓿KPI基因的染色體定位信息,用MapInspect軟件描繪KPI基因在染色體上的具體位置,從而得到KPI基因的基因組分布情況。
1.2.3 直系同源與旁系同源基因篩選 參考BLAST方法[20]篩選直系同源與旁系同源基因。直系同源基因的篩選方法:選擇大豆KPI基因家族的某一個成員(設(shè)定為A基因)在NCBI上進行BLAST,以蒺藜苜蓿為BLAST特定物種(Organism),獲得A基因在蒺藜苜?;蚪M中的同源性最高基因(B);隨后,將B基因進行BLAST(以大豆為BLAST特定物種),如B基因在大豆基因組的同源性最高基因為A基因,則A與B基因互為直系同源基因。旁系同源基因的篩選與直系同源基因的篩選方法類似,不同的是以相同物種作為BLAST特定物種。為了更好地明確大豆和蒺藜苜蓿中KPI基因家族的進化關(guān)系,使用MEGA 7.0分析軟件構(gòu)建2個基因家族的系統(tǒng)發(fā)育樹(Statistical method設(shè)置為Neighbor-joining,Bootstrap設(shè)置為1 000,其他參數(shù)均為默認(rèn))。
1.2.4KPI基因編碼蛋白質(zhì)的基序預(yù)測分析 使用MEME在線分析工具(http://meme-suite.org/tools/meme)分析KPI基因編碼蛋白質(zhì)的結(jié)構(gòu)基序(Motif)。從PDB(https://www.rcsb.org/)在線數(shù)據(jù)庫中下載大豆Glyma.08G341500編碼蛋白質(zhì)的晶體結(jié)構(gòu)(PDB編號為1avu),并用Pymol軟件顯示及標(biāo)注保守基序。
1.2.5KPI基因表達(dá)信息分析 通過NCBI中GenBank的EST數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/nucest/?term=)獲取大豆和蒺藜苜蓿不同組織及不同脅迫條件下的EST數(shù)據(jù)。通過對2種植物的KPI蛋白所對應(yīng)的編碼序列(CDS)進行BLASTn搜索,Database設(shè)置為EST,取聯(lián)配率大于95%且E≤10-10的結(jié)果作為對應(yīng)的EST序列,獲得KPI基因在不同組織及不同脅迫條件下的表達(dá)信息。
通過植物基因組數(shù)據(jù)庫Phytozome在線檢索發(fā)現(xiàn),在大豆、蒺藜苜蓿中各含有50、51個候選KPI家族基因。通過Pfam與SMART檢驗,發(fā)現(xiàn)2個大豆(Glyma.01G117700和Glyma.09G092800)與5個蒺藜苜蓿(Medtr6g059790、Medtr6g065570、Medtr6g078040、Medtr6g478110和Medtr7g034210)KPI候選基因未能通過Pfam與SMART檢驗,因此,最終確定48個大豆KPI基因及46個蒺藜苜蓿KPI基因。
KPI基因的染色體定位結(jié)果(圖1、2)表明,KPI基因在大豆和蒺藜苜蓿的染色體上分布并不均勻。在大豆基因組中,第2、4、5、7、10、11、13、14、17、20號染色體上沒有KPI基因分布,第3、6、15、18、19號染色體中僅含有1個KPI基因,而第8、9號染色體中含有的KPI基因數(shù)量最多(均15個)。另外,大豆基因組中,還出現(xiàn)了9個KPI基因簇,共包括30個串聯(lián)重復(fù)基因,占總KPI基因的62.5%,其中基因簇③包括11個基因(第8號染色體)。位于9號染色體上的基因簇④的相似度最高,達(dá)到了96.73%。對于基因簇的形成,普遍認(rèn)為是基因復(fù)制所產(chǎn)生,基因簇④中的相似度大于90%,推測該基因簇是由于晚期復(fù)制形成。其他基因簇的相似度小于90%,推測在早期復(fù)制形成基因簇后發(fā)生了基因突變,導(dǎo)致相似度下降。在苜?;蚪M中,第1、2、3、6、7、8號染色體上分布有KPI家族基因,其中在第6號染色體上最多(27個),而Medtr0302s0030、Medtr0084s0030、Medtr0211s0080和Medtr0100s0150等4個家族基因定位在尚未完全組裝的長片段(Un)上。相較大豆基因組中存在的基因簇,蒺藜苜?;蚪M中沒有發(fā)現(xiàn)基因簇的存在。
圖中基因簇以大括號標(biāo)注,百分比表示各基因簇的多序列對比相似度The gene clusters are indicated by brackets in the figure,and the percentage indicates the multiple sequence alignment similarity of each gene cluster圖1 大豆KPI基因的染色體定位Fig.1 Chromosome localization of the KPI genes of G.max
圖2 蒺藜苜蓿KPI基因的染色體定位Fig.2 Chromosome localization of the KPI genes of M.truncatula
采用BLAST方法對大豆和蒺藜苜蓿的KPI基因進行直系同源分析和旁系同源分析,確定大豆與蒺藜苜蓿有Glyma.08G235400和Medtr3g014820、Glyma.09G155500和Medtr6g059730等11對直系同源基因;大豆與蒺藜苜蓿各有14對旁系同源基因,如大豆的Glyma.01G095000和Glyma.08G341500,蒺藜苜蓿的Medtr0100s0150和Medtr0302s0030(表1—3)。
表1 大豆和蒺藜苜蓿的直系同源基因
表2 大豆的旁系同源基因Tab.2 Paralogous gene of G.max
表3 蒺藜苜蓿的旁系同源基因Tab.3 Paralogous gene of M.truncatula
為了進一步了解KPI基因家族各成員的進化關(guān)系,利用鄰近法構(gòu)建了大豆和蒺藜苜蓿KPI基因家族的系統(tǒng)發(fā)育樹(圖3)。由圖3可見,KPI基因家族被分為了5個亞族,其中第Ⅱ亞族全部由蒺藜苜蓿的KPI基因組成(13個),第Ⅲ亞族全部由大豆的KPI家族基因組成(19個)。其他亞族中均包含大豆和蒺藜苜蓿2個物種來源的KPI基因成員。第Ⅱ亞族與第Ⅲ亞族中含有串聯(lián)重復(fù),表明這2個亞族基因是在大豆與蒺藜苜蓿物種分離后,按照物種特異性方式進行了復(fù)制擴張。第Ⅰ、Ⅳ、Ⅴ亞族中大豆與蒺藜苜蓿KPI家族基因聚在一起,表明這些亞族中的基因結(jié)構(gòu)在大豆和蒺藜苜蓿分離之前就已經(jīng)形成。
圖3 大豆與蒺藜苜蓿KPI基因家族系統(tǒng)發(fā)育分析Fig.3 Phylogenetic analysis of G.max and M.truncatula KPI gene family
功能相同或相似的蛋白質(zhì)往往具有相同的結(jié)構(gòu)基序[21],因此,利用MEME在線工具對大豆和蒺藜苜蓿的KPI蛋白進行保守基序預(yù)測。設(shè)置基序數(shù)量為5~10,其中,當(dāng)基序數(shù)量為5~6時基序保守性較好,數(shù)量為7~10時序列的保守性下降。由于KPI蛋白的分子質(zhì)量為20 ku左右,分子質(zhì)量較小,因此將基序數(shù)量設(shè)置為5,其他參數(shù)均為默認(rèn),結(jié)果見圖4—5。
圖4 大豆KPI蛋白保守性結(jié)構(gòu)基序預(yù)測Fig.4 Conservative motif prediction of KPI protein in G.max
圖5 蒺藜苜蓿KPI蛋白保守性結(jié)構(gòu)基序預(yù)測Fig.5 Conservative motif prediction of KPI protein in M.truncatula
Motif 2是大豆KPI蛋白中最保守的結(jié)構(gòu)基序,僅Glyma.01G116900和Glyma.19074800編碼的KPI蛋白不含有該基序,該基序起始于60位氨基酸殘基附近,包含高度保守的半胱氨酸、脯氨酸、亮氨酸和纈氨酸。而Motif 3是蒺藜苜蓿KPI蛋白中最保守的結(jié)構(gòu)基序,僅Medtr6g078260和Medtr7g037410編碼的KPI蛋白不含有該基序,該基序起始于110位氨基酸殘基附近,包含半胱氨酸、色氨酸和絲氨酸。大豆與蒺藜苜蓿KPI蛋白中最保守的結(jié)構(gòu)基序中均含有半胱氨酸,其高度保守說明二硫鍵可能在維持KPI蛋白的結(jié)構(gòu)穩(wěn)定性和抑制活性中發(fā)揮重要作用。大豆和蒺藜苜蓿的Motif 1分別起始于32位和25位殘基附近,Motif 2分別起始于 60位和69位殘基附近,這2個保守基序靠近肽鏈N末端并為大豆和蒺藜苜蓿兩者所共有。大豆的Motif 3起始于168位殘基附近,蒺藜苜蓿的Motif 3起始于110位殘基附近,兩者的Motif 3都靠近肽鏈C末端但相差較遠(yuǎn),可用于區(qū)分大豆與蒺藜苜蓿KPI蛋白家族成員。
Glyma.08G341500編碼的KPI蛋白結(jié)構(gòu)呈現(xiàn)β三葉草形狀,是Kunitz胰蛋白酶抑制劑的常見結(jié)構(gòu),對大豆Motif 1、Motif 2和Motif 3的相對位置進行分析(圖6)發(fā)現(xiàn),Motif 1位于肽鏈N末端,涉及β1-折疊與部分Loop結(jié)構(gòu),Motif 2涉及β2-與β3-折疊,以及它們之間的Loop;而Motif 3涉及β10-與β11-折疊,以及它們之間的Loop。由于3個保守基序中均含有β-折疊,推測β-折疊對于維持KPI蛋白三維結(jié)構(gòu)的穩(wěn)定性發(fā)揮了關(guān)鍵作用。另外還發(fā)現(xiàn),KPI蛋白發(fā)揮抑制作用的抑制中心位于β4-與β5-折疊之間的Loop,并不處于保守基序中,表明該抑制中心在進化過程中受到了較大的選擇壓力,發(fā)生了較多的突變。
利用KPI基因的CDS序列在GenBank中的EST數(shù)據(jù)庫進行BLASTn搜索發(fā)現(xiàn),大豆Glyma.18G191400、Glyma.09G163100基因,蒺藜苜蓿Medtr8g060550、Medtr7g037410、Medtr6g478110等7個基因在EST數(shù)據(jù)庫中未找到能匹配的EST序列,推測它們可能是假基因。
圖6 大豆KPI的三維結(jié)構(gòu)
大豆與蒺藜苜蓿的KPI基因在多個部位均有表達(dá),在根和種子中表達(dá)的KPI基因數(shù)量最多(表4),大豆在根部和種子中均有30個KPI家族基因表達(dá),蒺藜苜蓿根部和種子中分別有39個和21個KPI家族基因表達(dá)。根與種子是植物繁殖與營養(yǎng)吸收的重要器官,也與植物的抗逆過程息息相關(guān),大豆與蒺藜苜蓿的根與種子有較多KPI成員,表明KPI基因可能參與2種植物的脅迫響應(yīng)過程。CHAN等[22]通過定量PCR研究KPI的表達(dá)情況,與EST分析結(jié)果具有一致性。由表5可見,干旱脅迫處理后,大豆與蒺藜苜蓿中表達(dá)的KPI基因數(shù)量明顯增加,其中大豆KPI基因表達(dá)數(shù)量從18個(對照,溫室培養(yǎng)條件)增加到29個,增長率為61.1%;蒺藜苜蓿KPI基因表達(dá)數(shù)量從6個(對照)增加到17個,增長率為183.3%。鹽脅迫處理后,也同樣出現(xiàn)KPI基因家族成員表達(dá)的數(shù)量明顯增加的現(xiàn)象,其中大豆KPI基因表達(dá)數(shù)量從18個(對照)增加到23個,增長率為27.8%;蒺藜苜蓿KPI基因表達(dá)數(shù)量從6個(對照)增加到21個,增長率為250.0%。以上結(jié)果表明,大豆和蒺藜苜蓿的KPI基因在響應(yīng)這些脅迫條件中可能發(fā)揮重要作用。
表4 大豆與蒺藜苜蓿不同部位KPI基因家族成員的表達(dá)數(shù)量Tab.4 Expression number of KPI gene family members at different positions of G.max and M.truncatula 個
表5 不同脅迫條件下大豆與蒺藜苜蓿KPI基因家族成員的表達(dá)數(shù)量Tab.5 Expression number of KPI gene family members under different stress conditions in G.max and M.truncatula 個
Phytozome數(shù)據(jù)庫由美國能源部(DOE-JGI)和綜合基因組學(xué)中心在2012年聯(lián)合創(chuàng)辦,專門收錄植物基因組,為植物與生物能源相關(guān)研究人員提供基因組數(shù)據(jù)的下載、查詢與可視化瀏覽等相關(guān)服務(wù)。根據(jù)最新版本(12.0)的數(shù)據(jù),它提供了總共93種綠色植物基因組,包括79種被子植物、11種藻類植物與3種苔蘚植物的序列和注釋信息,極大地促進了各種綠色植物的比較基因組學(xué)研究。Phytozome網(wǎng)站版本的不斷更新,使得研究人員能夠發(fā)現(xiàn)更多的基因組成員,2007年,楊澤峰等[23]利用NCBI的BLAST工具僅搜索到7個擬南芥和11個水稻的cystatin基因,而Phytozome網(wǎng)站12.0版本中有7個擬南芥與18個水稻的cystatin基因。與以往的比較基因組學(xué)研究主要分析水稻與擬南芥中某一基因家族特點不同,本研究在前期首先利用Phytozome數(shù)據(jù)庫進行搜索,發(fā)現(xiàn)水稻、擬南芥中分別只有1、8個KPI基因家族成員,由于成員數(shù)量較少無法開展相關(guān)分析。而由于大豆、蒺藜苜蓿含有較多的KPI基因家族成員,分別為48、46個,且它們均是模式植物,因此可以作為開展KPI基因家族比較基因組學(xué)研究的合適材料。
大豆與蒺藜苜蓿的KPI基因家族成員在染色體上分布不均勻,這種現(xiàn)象在生物界較為普遍,如SCPL基因主要集中在3號染色體[24]。大豆中鑒定的KPI基因分布在10條染色體中,其中8號與9號染色體所含有的KPI基因數(shù)目、基因簇和串聯(lián)重復(fù)的數(shù)目最多?;虼厥谴蠖筀PI基因在染色體上存在的主要形式,大豆中有30個KPI基因分布在基因簇中。在本研究中,共鑒定出30個串聯(lián)重復(fù),在KPI基因中的比例為62.5%,且這些串聯(lián)重復(fù)均出現(xiàn)于基因簇中,這一現(xiàn)象表明串聯(lián)重復(fù)在KPI基因家族的擴展中具有重要作用,同時也是基因簇形成的主要原因。
相比于系統(tǒng)進化樹,本研究利用BLAST方法直接鑒定直系同源基因與旁系同源基因,鑒定結(jié)果不會受進化樹構(gòu)建方法與備選序列的影響。鑒定結(jié)果表明,在大豆與蒺藜苜蓿有11對直系同源基因,表明大豆與蒺藜苜蓿的共同祖先物種中KPI基因已經(jīng)表現(xiàn)出功能上的差異;大豆與蒺藜苜蓿中均鑒定出14對旁系同源基因,表明這些基因在物種分開后還單獨進行了復(fù)制。
保守基序分析發(fā)現(xiàn),大豆與蒺藜苜蓿有2個共有的保守基序,其中Motif 1分別起始于32位和25位殘基附近,該保守基序中最保守的氨基酸殘基包括1個天冬氨酸和2個甘氨酸殘基;Motif 2分別起始于60位和69位殘基附近,含有1個半胱氨酸、1個脯氨酸、1個亮氨酸與1個纈氨酸等保守氨基酸殘基。大豆的Motif 3位于168位殘基附近,蒺藜苜蓿的Motif 3位于110位殘基附近,這2個保守基序相差較遠(yuǎn),可作為區(qū)分大豆與蒺藜苜蓿KPI蛋白家族成員的一段特征性標(biāo)記。3個保守基序中均涉及β-折疊,表明β-折疊是維系KPI蛋白三維結(jié)構(gòu)穩(wěn)定性的重要因素,這種現(xiàn)象在具有三葉草結(jié)構(gòu)的蛋白質(zhì)中較為普遍。KPI蛋白的抑制中心出現(xiàn)在非保守區(qū),氨基酸序列保守性不高,這體現(xiàn)了不同KPI蛋白成員對靶蛋白酶的多樣性抑制特點。一些危害大豆、蒺藜苜蓿的害蟲如銀紋夜蛾、豆天蛾、苜蓿夜蛾等鱗翅目昆蟲以類胰蛋白酶作為主要的消化酶類[25]。對EST的器官分布研究表明,大豆與苜蓿的KPI基因多在根、種子、幼苗和葉中表達(dá),以在根中表達(dá)的KPI基因成員數(shù)量最多。種子、幼苗和葉等受到鱗翅目昆蟲侵害較多,在這些部位表達(dá)KPI基因有助于增強其對鱗翅目昆蟲的抗性。根是植物重要的水分與營養(yǎng)吸收器官,對植物的抗逆能力發(fā)揮著不可替代的作用,根系越發(fā)達(dá),植物的抗逆能力也越強[26-27],在根中存在較多KPI蛋白家族成員有助于提高植物對逆境的抗性。盡管KPI成員在花與莖等器官中分布較少,但仍然參與了這些器官的發(fā)生發(fā)育過程,ISLAM等[28]發(fā)現(xiàn),三葉草中KPI2基因的表達(dá)降低影響了包括莖長度、分枝數(shù)量與葉柄長度等的一系列發(fā)育性狀。BOEX-FONTVIEILLE等[29]發(fā)現(xiàn),擬南芥中KPI家族成員WSCP(Water-soluble chlorophyll-binding protein)能夠抑制顆粒體結(jié)構(gòu)域蛋白酶(Granulin domain-containing proteases)的活性,激活細(xì)胞凋亡信號途徑,參與擬南芥花發(fā)育過程的調(diào)控。這些結(jié)果表明,KPI蛋白家族成員具有多樣性的生物學(xué)功能。此外,還發(fā)現(xiàn)一個有趣現(xiàn)象,相比于大豆種子,大豆子葉中KPI基因的數(shù)量出現(xiàn)下降,該試驗結(jié)果與之前的推測相吻合,即種子萌發(fā)時,蛋白酶抑制劑的表達(dá)量逐步減少,甚至被降解,從而有利于種子萌發(fā)時對貯存蛋白質(zhì)的降解利用,并且蛋白酶抑制劑的降解,能夠為幼苗的生長提供氮源和碳骨架[30]。鹽脅迫和干旱脅迫下大豆和蒺藜苜蓿中KPI基因家族成員數(shù)量明顯增加,也進一步表明KPI蛋白可能參與植物對逆境的響應(yīng)。KOMATSU等[31]也取得了類似的結(jié)果,他們發(fā)現(xiàn)大豆受到干旱脅迫后,不僅誘導(dǎo)了一些新的KPI基因表達(dá),還增加了原有KPI基因的表達(dá)水平。
另外,本研究還發(fā)現(xiàn)了一些組織特異性表達(dá)的KPI基因家族成員,如Glyma.09G155800、Glyma.16G212100與Glyma.16G212200編碼的KPI蛋白只在根中分布,而Glyma.09G163800編碼的KPI蛋白只在幼苗中發(fā)現(xiàn),它們可能參與了組織特異性的生長發(fā)育過程。KPI基因家族成員在某些組織中特異性表達(dá)的現(xiàn)象也曾在植物中被報道,CHRISTELLER[32]將這種現(xiàn)象歸結(jié)于這些基因極有可能擁有組織特異性表達(dá)的啟動子。