薛亞杰,余亞軍,侯佳佳,程 柯,韓雅彭,袁紅雨,周思源,程 琳*
(1. 信陽師范學院 生命科學學院,河南 信陽 464000;2. 信陽森林工作站,河南 信陽 464000;3. 鄭州外國語學校,河南 鄭州 450000)
核糖體失活蛋白(Ribosome-inacticating proteins, RIPs)是廣泛存在于植物界的一類毒蛋白,通過對核糖體大亞基rRNA進行脫嘌呤作用而抑制蛋白質生物合成,在植物中起到防御作用[1].在應用中,利用RIPs構建免疫毒素、抗人類免疫缺陷病毒制劑等,具有廣闊的應用前景.根據(jù)RIPs的物理特征,可以將核糖體失活蛋白分為三種類型[2, 3]:Ⅰ型RIPs廣泛分布在植物中,為一條大約30 kDa的蛋白質單鏈,見圖1A.它具有RNA-N-糖苷酶的活性,包含典型的RIP結構域,能脫去真核生物核糖體28 s rRNA莖環(huán)結構SRL的腺嘌呤[4, 5],從而阻止核糖體60 s大亞基和延伸因子II之間的相互作用,抑制后續(xù)蛋白質的合成.Ⅱ型RIPs包含一條與I型RIPs相似的A 鏈和至少兩個重復的Ricin_B_Lectin結構域RBL的B鏈,A、B兩條鏈通過二硫鍵連接而形成異二聚體[3, 6, 7],見圖1B.B鏈具有植物凝集素的功能,對細胞表面的糖蛋白具有強的親和力,有助于促進蛋白質跨細胞膜的移位,所以Ⅱ型RIPs通常比Ⅰ型RIPs毒性作用強.第三類RIPs較少見,先合成沒有活性的前體RIPs.然后通過對活性位點氨基酸進行酶解加工形成.從19世紀末在蓖麻中分離到第 1 個 RIP——蓖麻毒蛋白(ricin)[8]開始,關于RIPs的研究以及其在轉基因工程和醫(yī)療方面的應用層出不窮,然而關于RIPs自身的進化以及在被子植物中的進化過程仍不明了.
圖1 兩種類型的RIP的模式圖,其中SP為信號肽Fig. 1 Schematic representation of two types of RIPs. SP: signal peptide
多種研究報道已證實,RIPs主要是通過RNA-N糖苷酶活性或RNA水解酶活性導致生物來源的核糖體失活[9],在植物中具有廣譜的抗病毒、抗真菌和一定的昆蟲抗性.如林娟等[10]人首次證明麻瘋樹核糖體失活蛋白是一種RNA-N-糖苷酶,并闡述麻瘋樹核糖體失活蛋白失活核糖體的分子機制.董槁等[11]闡述植物核糖體失活蛋白的基本特性并從分子水平上討論核糖體失活蛋白作用于真核細胞核糖體的機制,同時介紹了核糖體失活蛋白的免疫毒素及其在癌癥治療中的應用,為植物核糖體失活蛋白的研究提供新的研究方向和思路.Zhu等[12]從苦瓜籽提取獲得的苦瓜素蛋白對植物病毒具有明顯的抑制作用,同時也對玉米、小麥的病原真菌具有一定的抗性.盡管核糖體失活蛋白具有廣闊的應用價值和前景,但由于條件限制和研究目標的差異,目前尚缺乏全基因組水平上對該基因家族在植物中進化趨勢的整體把握.近幾年,隨著全基因組測序和生物信息學技術的飛速發(fā)展,越來越多的研究可以從基因組的角度重新定位,這也為全面了解基因家族的進化規(guī)律提供了契機.本研究從植物基因組的角度出發(fā),利用生物信息學手段,深入挖掘不同植物類群基因組中RIPs基因家族成員的構成、序列差異以及功能分化等,重建該超基因家族的進化歷史并探討其總體進化規(guī)律.為尋找新型藥物、提高植物自身防御反應以及促進作物遺傳改良等提供新的途徑.
從Phytozome(https://phytozome.jgi.doe.gov/pz/#)、TAIR(http://www.arabidopsis.org/)等公共數(shù)據(jù)庫下載了34個被子植物代表性物種的基因組和蛋白質序列,運用Makeblastdb程序構建本地數(shù)據(jù)庫.
采用 BLASTP和 HMMsearch[13-15]兩種檢索方法對 RIPs 進行同源基因鑒定.BLASTP檢索方法如下:利用蓖麻中已報道的 15條RcoRIPs 氨基酸序列,運用本地BLASTP程序檢索本地數(shù)據(jù)庫,E值為1e-10.HMMsearch 檢索方法具體如下:首先,在Pfam數(shù)據(jù)庫(http://pfam.xfam.org/)下載RIP(PF00161)結構域以及Ricin_B_Lectin(PF00652)結構域的種子序列[14].其次,利用HMMER軟件包中的hmmsearch程序在默認參數(shù)條件下進行基于本地數(shù)據(jù)庫的檢索,并篩選出符合以下條件的序列作為同源候選基因:E≤1e-5.篩選得到的蛋白質序列進一步用SMART(http://smart.embl-heidelberg.de/)和CDD(http://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi)網(wǎng)站的批量搜索功能進行驗證,同時篩選去掉冗余的序列,經(jīng)兩種方法驗證后的序列用于后續(xù)分析中.其中II型的RIPs是利用Ricin_B_Lectin結構域的種子序列通過hmmsearch程序在已鑒定的RIPs家族成員中確認.
用已公布的蓖麻的15條序列,去除其中結構域不完整的一條,運用DNAMAN2軟件進行序列分析.
采用本地的MUSCLE[15]程序在默認參數(shù)設置下對植物 RIPs 同源基因序列進行多序列比對.利用RAxML[12]軟件,選擇Jones-Taylor-Thornton (JTT)模型,bootstrap 檢驗使用 100 次重復,選用 Maximum Likelihood (ML)法構建 RIP 基因家族的系統(tǒng)發(fā)育樹.利用MEGA[16]軟件選擇NJ法建系統(tǒng)發(fā)育樹,bootstrap 檢驗使用 1000 次重復.Mrbays軟件使用貝葉斯法構建系統(tǒng)發(fā)育樹,用MEGA軟件展示系統(tǒng)發(fā)育樹.
將BLASTP和 HMMsearch 鑒定的結果進行手工去除冗余,從而得到候選序列.然后針對所獲得的候選序列,利用SMART和MEME 分析蛋白結構,剔除不含完整RIP 結構域的蛋白序列.最終發(fā)現(xiàn)在所選的 34 種被子植物中,有10種植物中存在RIP基因家族蛋白,共鑒定出79 個 RIPs家族成員(表1,圖2).其中模式植物擬南芥以及其他多種植物中沒有發(fā)現(xiàn)RIPs基因家族成員.單雙子葉中均有RIPs基因的分布,但是并不呈均勻分布.雙子葉植物中的RIPs主要集中在大戟科,其中最少的是棉花和楊樹中只有一個RIP基因,最多的是蓖麻中有15個RIPs基因,同時兩種類型的RIPs在物種分布中也呈現(xiàn)一定的特點,蓖麻15個RIPs基因中有近一半編碼的是II型RIP,而木薯中所有的RIPs都是以I型的形式存在,這和可可、楊樹中的情況一致.單子葉植物中的RIPs基因,主要集中在禾本科.這可能與禾本科作為一類相對較大的科有關,也可能與本研究所選擇的代表性物種有關.可以看出在禾本科中RIPs發(fā)生了一定程度的擴張,其中RIPs基因的數(shù)目明顯多于雙子葉中的RIPs基因數(shù)目.然而禾本科中RIPs絕大部分的都以I型的形式存在,只有玉米和高粱中分別有一個和兩個RIPs基因家族成員.將含RIPs基因家族的10個物種構建物種樹,并利用CoGepedia網(wǎng)站(https://genomevolution.org/)數(shù)據(jù)將全基因組重復事件補充.
選取蓖麻中14條序列,取出RIP結構域進行序列比對, “*”表示構成A鏈 N-糖苷酶活性位點的氨基酸殘基,第一個活性位點酪氨酸(Y)和天冬酰胺(N)之間存在替換,其他活性位點較為保守[3, 17],見圖3.
表1 含RIPs基因家族的10個物種信息及RIPs分類Tab. 1 The information of 10 species including RIPs and the classification of RIPs
圖2 10種陸生植物中RIP基因家族成員的物種發(fā)育關系樹Fig. 2 Phylogenetic relationships among 10 land plant species and the distribution of RIP gene family identified*.Genome size in Gb
圖3 核糖體失活蛋白的RIP結構域序列比對Fig. 3 Alignment of the RIP domain of ribosome-inactivating protein
注:*表示構成 A 鏈 N-糖苷酶活性位點的氨基酸殘基,是較為保守位點;方框標出的部分這些物種在該位點發(fā)生非同義替換
為探究被子植物RIPs基因家族的系統(tǒng)發(fā)育關系,本研究基于RIPs保守的RIPs功能結構域的氨基酸序列構建了無根ML進化樹(圖4).根據(jù)進化樹的拓撲結構,被子植物RIPs基因家族可劃分為2個保守的亞家族.這兩個亞家族的劃分基本與兩種類型的RIPs的分類相一致.在亞家族I中,包含了除大戟科之外所有的I型的RIPs.在亞家族II中,包含了所有的II型RIPs,以及大戟科的I型的RIPs,蓖麻以及木薯的I型的RIP序列.同時發(fā)現(xiàn),在兩個亞家族中均有單雙子葉植物的分布,這說明RIPs基因家族在單雙子葉分化之前就已經(jīng)存在,這和前人[3]關于該基因家族的分子進化研究結果相一致.
上述結果顯示,亞家族II中大戟科的I型RIPs與其他的II型RIPs聚在一起,說明這兩種植物的I型的RIPs很有可能是由原本II型的RIPs在植物進化的過程中丟失了B鏈而形成,所以才導致其A鏈的RIP結構域與其他物種的II型的RIPs具有較高的相似性而聚在一起.亞家族I中特別是禾本科植物中的水稻,存在大量的旁系同源基因,這表明在植物物種分化形成之后,RIPs基因家族在各物種內進行了特異性的擴增.
圖4 被子植物RIP基因家族的系統(tǒng)發(fā)育進化樹Fig. 4 Phylogenetic tree of RIP gene family in angiosperm
核糖體失活蛋白基因編碼的RIPs蛋白具有抑制真核生物核糖體合成蛋白質的功能.自發(fā)現(xiàn)以來,關于其功能研究以及應用研究不斷涌現(xiàn),轉RIPs基因的植物用于增強植物自身制劑抵抗病蟲害的能力[18]、核糖體失活蛋白提純作為抗腫瘤藥物[2, 19]等.然而關于該蛋白質在被子植物中的進化分析卻未見報道.本文從被子植物代表性物種出發(fā),鑒定成員、序列比對、構建系統(tǒng)發(fā)育進化樹,旨在為研究核糖體失活蛋白的進化及功能研究提供參考.
核糖體失活蛋白在植物防御、發(fā)育等方面承擔著多種重要的生理功能[19-21].通過全基因組掃描,我們在被子植物代表物種中獲得79個RIPs基因,但是在綠藻中沒有同源拷貝,說明該基因家族為陸生植物所特有,而且該基因數(shù)量的大規(guī)模擴增主要發(fā)生在后期的譜系進化過程中.目前有更多的證據(jù)證實,在植物進化的歷史中存在多次全基因組重復事件,其中包括發(fā)生在十字花科譜系的2次比較近的α和β事件[22-26],所有真雙子葉植物共有的一次三倍化事件(γ)[27],以及發(fā)生在單子葉植物的谷物和其他禾本科草類分化之前的ρ和σ事件[28, 29].本文在34個被子植物代表性物種中鑒定了79個RIPs基因家族的成員,通過序列比對發(fā)現(xiàn)蓖麻中的RIPs具有保守的功能活性位點,只有一個位置發(fā)生了氨基酸的替換.同時就鑒定成員的結果發(fā)現(xiàn),RIPs基因在單雙子葉植物中呈不均勻的分布,且兩種類型的RIPs在單雙子葉植物中分布較為懸殊.
遭遇環(huán)境脅迫或者掠食者時,植物不能像動物一樣移動逃離,只能依靠自己遺傳變異來抵抗外界傷害[30].全基因重復是進化的主要驅動力之一,而基因重復及重復后的分化是新基因產(chǎn)生、提高物種適應性以及產(chǎn)生新物種的基礎[30-33].基因家族的擴張促使基因拷貝數(shù)的增加,而基因拷貝數(shù)的增加則與基因功能分化密切相關.基因重復后會發(fā)生基因的丟失和保留,保留下來的基因則可以維持原有功能或發(fā)生分化[32-35].大部分保留下來的重復基因存在一定的功能偏好性,與物種自身的生理變化相關,幫助其更好地適應環(huán)境,同時,也會推動基因調控網(wǎng)絡的進化[36-38].根據(jù)對鑒定出的RIPs基因的數(shù)目以及在不同物種中的分布不難看出,以雙子葉中蓖麻中含有為數(shù)最多的II型RIPs,其他物種中II型的RIPs總數(shù)也比蓖麻中的數(shù)量少.其他多個物種如禾本科水稻、小米等,都只有一種類型的RIPs存在,且都是I型的不具有破壞真核細胞核糖體的功能,這很有可能與人類長期的馴化和遺傳育種過程有關[20, 21].這些結果表明,這些基因在不同植物物種中已經(jīng)發(fā)生了功能分化,并且對應了基因功能分化的不同類型.
利用生物信息學分析方法,對被子植物代表物種RIPs基因進行篩選、鑒定和進化分析,在10個被子植物物種中鑒定出79個RIPs基因家族成員;通過序列比對和系統(tǒng)進化樹的構建,發(fā)現(xiàn)RIPs在單雙子葉分化之前就已存在,為適應復雜的環(huán)境而出現(xiàn)在早期陸生植物中,隨后在長期進化過程中不斷發(fā)生譜系的擴張和拷貝丟失,最后通過功能分化在不同植物中保留下來,其在被子植物進化的過程中有物種特異性.這些結果將為進一步闡明RIPs在被子植物中的進化模式和理解被子植物中類似基因家族的進化規(guī)律提供參考.