韋興燚,李昱,劉文獻(xiàn),金小煜,閔學(xué)陽,張正社,Ndayambaza Boniface,王彥榮
(蘭州大學(xué)草地農(nóng)業(yè)生態(tài)系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,蘭州大學(xué)農(nóng)業(yè)農(nóng)村部草牧業(yè)創(chuàng)新重點(diǎn)實(shí)驗(yàn)室,蘭州大學(xué)草地農(nóng)業(yè)科技學(xué)院,甘肅 蘭州 730020)
進(jìn)化是指種群在不同世代間通過基因復(fù)制、橫向遷移、融合以及分裂等多種事件導(dǎo)致其遺傳性狀發(fā)生變化的過程?;蚴沁z傳物質(zhì)的載體,研究發(fā)現(xiàn),具有新功能基因的產(chǎn)生可進(jìn)一步影響物種的生長發(fā)育及對外界環(huán)境的響應(yīng)過程[1-2]。在眾多進(jìn)化事件中,從其他基因組中獲得基因是真核生物進(jìn)化的一種普遍方式,且已在真核生物線粒體、葉綠體的研究結(jié)果中得到證實(shí)[3]。因此,真核生物的進(jìn)化也被認(rèn)為是伴隨著大量真核生物基因遷移的結(jié)果[4]。真核生物的基因來源較廣,其基因組具有較高的異質(zhì)性,不同基因組間的基因不僅存在功能差異,系統(tǒng)進(jìn)化過程也各不相同,這為鑒定基因的進(jìn)化年齡提供了條件。研究表明,如果某些基因在不同物種中存在其直系同源基因,則可被認(rèn)為是進(jìn)化年齡較長的古老基因。相反,一些基因由于突變、替換等事件的發(fā)生而在其他物種中不存在其直系同源基因,則被定義為進(jìn)化年齡較短的新基因[5-7]。在生物進(jìn)化過程中,真核細(xì)胞從原核細(xì)胞中獲得大量古老基因,這些基因在植物生長發(fā)育以及響應(yīng)逆境脅迫過程中發(fā)揮著重要作用[8-9]。通過比較基因組學(xué)技術(shù)對不同物種基因的比較分析是了解不同物種基因組進(jìn)化強(qiáng)有力的工具。研究發(fā)現(xiàn),即使是遺傳關(guān)系非常相近的物種,其基因組也存在著顯著差異[2]。因此,鑒定和分析不同物種基因組中的新、老基因差異及分布特點(diǎn),可為解析真核生物進(jìn)化與基因功能研究提供一定的理論依據(jù)。
豆科為被子植物中僅次于菊科及蘭科的3個(gè)最大的科之一,也是人類利用最為廣泛的植物科類之一。大多數(shù)豆科植物具有根系龐大、適生范圍廣、抗逆性強(qiáng)、耐瘠薄、易栽培、生長迅速、萌蘗力強(qiáng)、生物量高、熱值高等優(yōu)點(diǎn)。另外,豆科植物根部具根瘤,能固定和利用大氣中的游離氮,對作物發(fā)育和植被的建立都有重要意義[10-11]。豆科植物含有大量的蛋白質(zhì)、礦物質(zhì)和豐富的維生素,具有很高的飼用價(jià)值。此外,部分豆科植物可供人類食用、入藥、用于化工業(yè)生產(chǎn)等;有些豆科植物還具有較高的觀賞價(jià)值,可應(yīng)用于旅游景區(qū)發(fā)展旅游業(yè)[12]。其中,大豆(Glycinemax)是世界上重要的糧食和油料作物之一,是人類食物中植物蛋白質(zhì)和油脂的主要來源,與人們的日常生活息息相關(guān)。由于其營養(yǎng)價(jià)值很高,也被稱為豆中之王、田中之肉。百脈根(Lotuscorniculatus)的再生性好,遺傳轉(zhuǎn)化效率相對較高,是豆科生物學(xué)和基因組學(xué)研究的模式植物[13]。隨著基因組測序的發(fā)展,大豆與百脈根全基因測序已經(jīng)完成,為這兩種豆科植物功能基因發(fā)掘、比較基因組學(xué)分析以及系統(tǒng)進(jìn)化研究奠定了基礎(chǔ)[14]。目前,僅有研究對擬南芥(Arabidopsis)與水稻(Oryzasativa)進(jìn)行了全基因組古老原核基因的鑒定比對[2],尚未見有關(guān)豆科植物古老原核基因的全基因組鑒定和比較分析。本研究通過對大豆和百脈根全基因組的鑒定與比較得到古老原核基因在植物中的作用,并揭示這些基因的進(jìn)化方式,擬為豆科植物系統(tǒng)進(jìn)化研究提供相關(guān)理論基礎(chǔ)。
大豆和百脈根基因組、蛋白質(zhì)組數(shù)據(jù)分別來自于Phytozome v11.0 (https://phytozome.jgi.doe.gov/pz/portal.html)和百脈根測序基因組數(shù)據(jù)庫(http://www.kazusa.or.jp/lotus/index.html)。真核生物蛋白質(zhì)序列來源于COGs數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/COG/)。細(xì)菌蛋白質(zhì)序列來源于NCBI數(shù)據(jù)庫(ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/bacteria/)。利用CD-HIT在線工具[15]去冗雜得到58750658條細(xì)菌蛋白質(zhì)序列用于后續(xù)分析。
為了鑒定大豆和百脈根中的古老和新基因,利用本地BLASTP方法(E-value<10-6),分別將大豆、百脈根蛋白質(zhì)序列與58750658條細(xì)菌蛋白質(zhì)序列進(jìn)行比對分析。若豆科植物蛋白在細(xì)菌蛋白中存在直系同源物則該蛋白為古老原核蛋白,否則該蛋白為新蛋白。將這些豆科植物中的古老原核蛋白命名為古老原核蛋白,非古老原核蛋白則命名為新蛋白[7]。利用MCScanX軟件分析大豆與百脈根基因間的共線性(http://chibba.pgml.uga.edu/mcscan2/),選擇BLASTP期望值(E-value)1e-10作為閾值。
利用本地PfamScan軟件對古老原核蛋白結(jié)構(gòu)域類型進(jìn)行預(yù)測分析[16]。利用在線工具M(jìn)EME(multiple expectation maximization for motif eliciattion)對獲得的大豆、百脈根古老原核蛋白進(jìn)行結(jié)構(gòu)域預(yù)測。通過PfamScan軟件對兩物種的保守結(jié)構(gòu)域、家族、模體、重復(fù)序列進(jìn)行鑒定。以上分析都采用默認(rèn)參數(shù)設(shè)定。
將經(jīng)過去冗余的基因序列通過Blastx方法與NCBI無冗余Nr數(shù)據(jù)庫進(jìn)行比對,分別獲得大豆與百脈根每條古老原核基因的GO注釋,再利用WEGO在線軟件[17]讀取所有的序列,并對獲得的GO注釋進(jìn)行分類。
將大豆與百脈根的蛋白質(zhì)序列在細(xì)菌蛋白質(zhì)序列中進(jìn)行BLASTP搜索[18],分別鑒定并定位出這兩種豆科植物線粒體、葉綠體及細(xì)胞核內(nèi)每條染色體中的新、古老基因的數(shù)量(圖1)。在大豆中共鑒定出87144對基因,其中新、古老基因數(shù)量分別為51770和35374個(gè),占比分別為59.4%和40.6%。在百脈根中共鑒定出20689對基因,其中新、古老基因數(shù)量分別為13672和7017個(gè),占比分別為66.1%和33.9%。從中可發(fā)現(xiàn),不管是大豆還是百脈根,其基因組中的古老基因數(shù)量都小于新基因數(shù)量,說明其在進(jìn)化過程中產(chǎn)生了大量的新基因。利用MCScanX軟件對大豆和百脈根共線性分析發(fā)現(xiàn),25497個(gè)大豆蛋白與13553個(gè)百脈根蛋白之間具有共線性關(guān)系,分別占大豆和百脈根蛋白總數(shù)的29.26%和65.51%。此外,發(fā)現(xiàn)大豆的第19號染色體和葉綠體與其他染色體及線粒體不同,其古老基因數(shù)量大于新基因數(shù)量。在百脈根中,除線粒體和葉綠體外,所有染色體中都是新基因數(shù)量大于古老基因數(shù)量。
對大豆和百脈根基因組中古老原核基因的分析發(fā)現(xiàn),兩物種基因組中古老原核基因所占百分?jǐn)?shù)大豆相對高于百脈根(圖1)。在大豆基因組中,40.6%的基因是古老原核蛋白的編碼基因,而在百脈根中其占比為33.9%。古老基因在每條大豆染色體上的數(shù)量百分比為37.7%~52.4%,數(shù)量最低的是第4號染色體,第19號染色體擁有的這類基因的數(shù)量是最多的,也是大豆染色體中唯一古老基因數(shù)量高于新基因的。在百脈根中,第3號染色體古老基因的數(shù)目最小(32.0%),而在第4號染色體中為最大值(36.2%)。在葉綠體中,古老基因在大豆和百脈根葉綠體總基因中占比分別高達(dá)89.2%和89.2%。而在線粒體中,古老基因在兩物種線粒體總基因中占比分別為34.1%和85.3%。在大豆和百脈根的線粒體和葉綠體中古老原核基因比例較高才符合內(nèi)共生起源理論。但在大豆線粒體中,古老原核基因占比卻小于真核基因。從數(shù)據(jù)中發(fā)現(xiàn),古老原核基因在數(shù)量上不集中在兩個(gè)基因組中的任何特定的染色體上,僅在大豆第19號染色體中分布較突出。
圖1 大豆(A)與百脈根(B)新老基因染色體分布Fig.1 The distribution of old and new prokaryotic genes on various chromosomes in G. max (A) and L. corniculatus (B)
圖2 大豆(A)與百脈根(B)各個(gè)結(jié)構(gòu)域中新老蛋白占比Fig.2 The percentage of domains in the old and new proteins in G. max (A) and L. corniculatus (B)
真核生物蛋白質(zhì)的結(jié)構(gòu)域被認(rèn)為是一種獨(dú)立的進(jìn)化單位[19]。通過PfamScan本地軟件搜索從PFAM數(shù)據(jù)庫中得到的結(jié)構(gòu)域數(shù)據(jù),所得蛋白質(zhì)中古老與新蛋白中結(jié)構(gòu)域類型及其所占百分比結(jié)果見圖2。被歸類為新、古老的蛋白質(zhì)數(shù)量分別為35514/53133(大豆)和6719/8132(百脈根)。此外,不管是大豆的兩種蛋白還是百脈根的兩種蛋白,擁有越多的結(jié)構(gòu)域的蛋白質(zhì)往往數(shù)量會越少,且只有1個(gè)結(jié)構(gòu)域的蛋白質(zhì)數(shù)量都占蛋白質(zhì)總數(shù)的1/2以上。另外,大豆中有1或多個(gè)結(jié)構(gòu)域的蛋白質(zhì)中古老原核蛋白的占比都高于50%,而百脈根中擁有8個(gè)結(jié)構(gòu)域的蛋白質(zhì)其古老原核蛋白占比低于50%,僅為47.1%。大豆中古老原核蛋白在擁有10及以上數(shù)量結(jié)構(gòu)域的蛋白質(zhì)中占比最高,其值為63.4%,而在擁有2個(gè)結(jié)構(gòu)域的蛋白質(zhì)中占比最低,其值為55.9%。百脈根中古老原核蛋白分別在擁有6個(gè)結(jié)構(gòu)域和8個(gè)結(jié)構(gòu)域的蛋白質(zhì)中占比最高(83.3%)與最低(47.1%)。通過統(tǒng)計(jì)不同結(jié)構(gòu)域在大豆和百脈根蛋白中出現(xiàn)的次數(shù)發(fā)現(xiàn),無論是在大豆還是在百脈根中,新和古老原核蛋白中出現(xiàn)次數(shù)最多的結(jié)構(gòu)域都分別為PPR和Pkinase。另外, PPR-2,WD-40, myb-DNA-binding結(jié)構(gòu)域也同時(shí)在兩種豆科植物的新、古老原核蛋白中出現(xiàn)次數(shù)較多。為了驗(yàn)證兩物種蛋白質(zhì)結(jié)構(gòu)域的分布情況,通過對兩個(gè)物種的結(jié)構(gòu)域分布進(jìn)行雙樣本Kolmogo rov-Smirnov檢驗(yàn)[20](P≤0.05),檢驗(yàn)結(jié)果表明,兩物種結(jié)構(gòu)域分布無顯著差異(P>0.05),即兩物種古老原核蛋白結(jié)構(gòu)域分布相似。經(jīng)過進(jìn)一步檢驗(yàn)發(fā)現(xiàn),該相似性適用于所有的組合,比如古老原核蛋白(大豆和百脈根),新蛋白(大豆和百脈根),大豆(原核和新蛋白),百脈根(原核和新蛋白)。這些結(jié)果表明大豆和百脈根蛋白質(zhì)結(jié)構(gòu)域具有一定保守性。
大多數(shù)基因在不同生物中的同源基因擁有相同的主要生物學(xué)功能,因此,在某些物種里已知的基因功能信息可以用來解釋其他物種對應(yīng)的同源基因[21]。本研究中,通過蛋白家族數(shù)據(jù)庫(http://pfam.janelia.org/search/sequence)提供的GOSlim分配進(jìn)行GO注釋,在大豆中得到2482個(gè)GO號,共注釋了26210個(gè)基因,百脈根中則得到14608個(gè)GO號,注釋了11964個(gè)基因。并將大豆與百脈根中確定的古老原核蛋白質(zhì)分類為三大GOSlim類別,即細(xì)胞成分、分子功能和生物過程。
2.3.1細(xì)胞成分 大豆中古老原核蛋白在膜系統(tǒng)(membrane)、細(xì)胞組分(cell part)、細(xì)胞(cell)3個(gè)位點(diǎn)上所占比例最大,達(dá)到了29.2%、17.5%、17.5%,百脈根中的古老原核蛋白同樣在細(xì)胞組分及細(xì)胞方面分布最多(占比皆為18.1%),但其在膜系統(tǒng)上的分布不如大豆明顯,僅占11.5%。除此以外,大豆古老原核蛋白還在膜部分(membrane part, 13.9%)、細(xì)胞器(organelle, 9.5%)、大分子復(fù)合物(macromolecular complex, 8.6%)中分布較多,百脈根古老原核蛋白則在細(xì)胞器(organelle,14.6%)、細(xì)胞器部分(organelle part, 9.2%)、膜部分(membrane part, 7.1%)中分布較多。由兩物種中古老原核蛋白的分布可看出其遍布在植物細(xì)胞中,廣泛參與了細(xì)胞生命活動。
圖3 大豆(A)與百脈根(B)古老原核蛋白細(xì)胞成分Fig.3 The cellular component of old prokaryotic proteins in G. max (A) and L. corniculatus (B)
2.3.2分子功能 古老原核蛋白質(zhì)被發(fā)現(xiàn)參與各種結(jié)合過程,如DNA和RNA結(jié)合、蛋白質(zhì)結(jié)合、核苷酸結(jié)合等。從圖4可以明顯看出,大豆與百脈根中的古老原核蛋白在催化活性(catalytic activity)及結(jié)合反應(yīng)(binding)中兩者所占比例之和達(dá)到了80%左右,可見其起著非常重要的作用,這與前人研究結(jié)果相符[2]。除此以外,兩物種中的古老原核蛋白都參與了轉(zhuǎn)運(yùn)過程(transporter activity),結(jié)合前面的催化與結(jié)合可推測古老原核蛋白可能是以酶的形式參與這些反應(yīng),而這些反應(yīng)具有較高的保守性,因此這些古老原核蛋白被大量的保存了下來。
2.3.3生物過程 從圖5可以發(fā)現(xiàn),古老原核蛋白質(zhì)主要參與了代謝過程。大豆的古老原核蛋白在新陳代謝過程(metabolic process)、細(xì)胞過程(cellular process)、單生物代謝過程(single-organism process)中所占比例最大,分別為33.0%、27.7%、18.1%。而百脈根的古老原核蛋白則功能眾多且較分散,但其蛋白所起功能占比最大的3個(gè)方面仍與大豆相同。大豆與百脈根的這點(diǎn)差異可能是因?yàn)榇蠖棺鳛橹匾慕?jīng)濟(jì)作物被較多進(jìn)行人為選擇所致。大豆與百脈根在對逆境的響應(yīng)上差異較大(大豆為3.9%,而百脈根為9.1%),這說明在百脈根中有較多的古老原核蛋白質(zhì)參與逆境生理響應(yīng)過程。除此以外,大豆與百脈根古老原核蛋白都在定位(localization)、生物調(diào)節(jié)(biological regulation)中起著一定的作用。
圖4 大豆(A)與百脈根(B)古老原核蛋白分子功能Fig.4 The molecular function of old prokaryotic proteins in G. max (A) and L. corniculatus (B)
圖5 大豆(A)與百脈根(B)古老原核蛋白生物過程Fig.5 The biological processes of old prokaryotic proteins in G. max (A) and L. corniculatus (B)
為了明晰蛋白質(zhì)在各種不同復(fù)雜過程中可能所起的作用,往往需要深入挖掘相關(guān)的基因組[22]。眾所周知,大豆是世界上重要的糧食與油料作物,其基因組具有極高研究價(jià)值。而百脈根是豆科植物與基因組學(xué)中的模式植物,因此通過對這兩種植物基因組進(jìn)行比對研究可為兩物種蛋白質(zhì)研究提供一定理論基礎(chǔ)。古老原核基因包含著許多遠(yuǎn)古時(shí)期的功能組件,如今則形成了現(xiàn)代植物基因組的一個(gè)重要部分。早期,內(nèi)共生演化導(dǎo)致細(xì)胞從內(nèi)共生細(xì)胞器中獲得眾多基因,這些內(nèi)共生細(xì)胞器后來演變成葉綠體和線粒體[23-24]。此外,還有大量內(nèi)共生基因后來被轉(zhuǎn)移到宿主的細(xì)胞核[23, 25-27]。從古老原核基因的全基因組鑒定所得的結(jié)果也同樣證實(shí),古老原核蛋白質(zhì)編碼基因不僅僅大量存在于葉綠體和線粒體,也同樣大量存在于大豆和百脈根的核基因組(圖1)。類似的結(jié)果同樣也存在于擬南芥(Arabidopsisthaliana)和水稻(Oryzasativa)兩種模式植物中[2]。早期的研究也證明,快速進(jìn)化的基因可能會由于基因的進(jìn)化速率和年齡之間的反比關(guān)系而被歸類為年齡較短的新基因[28]。通過鑒定,大豆擁有更多的古老原核基因,這表明百脈根中快速進(jìn)化的基因數(shù)量大于大豆。
前人對擬南芥和水稻兩種模式植物的古老基因的鑒定分析中發(fā)現(xiàn),這兩種模式植物線粒體中古老基因的數(shù)目都多于新基因的數(shù)目[2]。本研究也在百脈根中發(fā)現(xiàn)類似情況(圖1)。但在大豆中卻表現(xiàn)為新基因數(shù)量多于古老基因(圖1),這可能與線粒體的功能以及大豆被人為篩選進(jìn)化有關(guān)。線粒體是真核細(xì)胞重要的細(xì)胞器,其在細(xì)胞能量代謝、生物合成和細(xì)胞死亡(包括細(xì)胞凋亡和細(xì)胞程序性壞死)的調(diào)控中起關(guān)鍵作用[29-30]。有研究顯示多種經(jīng)濟(jì)作物如甘藍(lán)型油菜(Brassicanapus)、水稻等都有線粒體中的基因轉(zhuǎn)入核基因組的情況發(fā)生,這被認(rèn)為與其功能和進(jìn)化有關(guān)[31]。但另有研究發(fā)現(xiàn)植物線粒體基因組在不斷地?cái)U(kuò)大且越來越復(fù)雜[32],因此線粒體中的新基因會越來越多。此外,可能由于人為篩選高產(chǎn)高質(zhì)大豆的原因,線粒體作為能量工廠也被不斷篩選,導(dǎo)致大豆線粒體中的基因不斷進(jìn)化,新基因數(shù)量便大量增加。由于百脈根不論在利用程度還是使用廣度都遠(yuǎn)不及大豆,因此被人為干預(yù)較少,基因組變化也小于大豆。
結(jié)構(gòu)域是能折疊形成穩(wěn)定核心的獨(dú)立單位,也是蛋白質(zhì)結(jié)構(gòu)、功能和進(jìn)化的獨(dú)立單位[33-34]。結(jié)構(gòu)域的結(jié)合和重組會導(dǎo)致具有新功能蛋白質(zhì)的形成[35]。因此對結(jié)構(gòu)域的分析可揭示不同結(jié)構(gòu)域及兩個(gè)物種之間的進(jìn)化關(guān)系。前人研究認(rèn)為,在植物中結(jié)構(gòu)域的結(jié)構(gòu)具有較高的相似性,該結(jié)論適用于不同基因組的所有類型的蛋白質(zhì)結(jié)構(gòu)域[36]。本研究發(fā)現(xiàn),兩物種的結(jié)構(gòu)域具有一定保守性,不僅分布相似,而且古老原核蛋白占比也普遍較高(圖2)。
原核生物是指由無核膜包被的細(xì)胞核和其他的生物膜細(xì)胞器組成的生物。因此,大量的古老原核基因可能位于內(nèi)共生細(xì)胞器,特別是葉綠體和線粒體中。之前的研究也證實(shí),在擬南芥和水稻中,古老原核蛋白都主要定位于葉綠體、膜系統(tǒng)中[2]。本研究的GO注釋結(jié)果也顯示,大豆與百脈根中的古老基因在膜系統(tǒng)、細(xì)胞組分、細(xì)胞3個(gè)位點(diǎn)上所占比例最大(圖3),與其他研究相類似[37]。此外,對蛋白分子功能GO注釋結(jié)果表明,古老原核蛋白主要具有酶催化功能及結(jié)合功能,這說明它們在基因的調(diào)節(jié)作用以及應(yīng)對各種環(huán)境條件改變地響應(yīng)時(shí)具有重要作用。類似的結(jié)果也存在于擬南芥和水稻中[2]。而在蛋白生物過程GO注釋的結(jié)果中,大豆中古老原核蛋白主要參與新陳代謝過程、細(xì)胞過程,而百脈根中的古老原核蛋白質(zhì)較平均地參與多個(gè)方面的過程,表明大豆受人為選擇較多,導(dǎo)致其蛋白在特定功能上表現(xiàn)突出。
在大豆和百脈根中,古老原核基因大量位于內(nèi)共生細(xì)胞器如葉綠體、線粒體等,且這些基因編碼的蛋白多位于各種膜結(jié)合區(qū)域以及參與各種結(jié)合功能,如核苷酸和DNA、RNA的結(jié)合,揭示了其在各種作用調(diào)控基因表達(dá)的過程中具有重要作用。在大豆中,古老原核蛋白參與蛋白質(zhì)代謝和其他發(fā)育過程;而在百脈根中,這些蛋白質(zhì)在相關(guān)方面的作用相對較弱。因此,大豆古老原核蛋白質(zhì)可能由于選擇壓力使得自身產(chǎn)生較大特異化。此外,兩物種結(jié)構(gòu)域分布相似表明其結(jié)構(gòu)域具有一定保守性,但這些古老原核蛋白質(zhì)在功能方面具有多樣性。