范正杰,王玉玨,張全啟,2,3??
(1.中國(guó)海洋大學(xué)海洋生物遺傳學(xué)與育種教育部重點(diǎn)實(shí)驗(yàn)室,山東 青島 266003;2.青島海洋科學(xué)與技術(shù)試點(diǎn)國(guó)家實(shí)驗(yàn)室 海洋漁業(yè)科學(xué)與食物產(chǎn)出過(guò)程功能實(shí)驗(yàn)室,山東 青島 266237;3.中國(guó)海洋大學(xué)三亞海洋研究院 海南省熱帶水產(chǎn)種質(zhì)重點(diǎn)實(shí)驗(yàn)室,海南 三亞 572000)
轉(zhuǎn)座子(Transposons),又被稱為轉(zhuǎn)座元件(Transposable elements, TEs),是一段能通過(guò)非同源重組在宿主基因組內(nèi)或基因組間進(jìn)行移動(dòng)的散在分布的重復(fù)序列[1]。真核生物的轉(zhuǎn)座子按轉(zhuǎn)座機(jī)制可分為兩大類:Ⅰ類元件即逆轉(zhuǎn)錄元件,是通過(guò)逆轉(zhuǎn)錄酶使用“復(fù)制-粘貼”的機(jī)制進(jìn)行轉(zhuǎn)座的RNA轉(zhuǎn)座子;Ⅱ類元件DNA轉(zhuǎn)座子,則是使用基于DNA的“剪切-粘貼”轉(zhuǎn)座模式直接將轉(zhuǎn)錄子從原始位點(diǎn)整合至目標(biāo)位點(diǎn)的轉(zhuǎn)座子,其中最大的亞綱是兩端有末端反向重復(fù)序列(Terminal inverted repeat,TIR)結(jié)構(gòu)的TIR轉(zhuǎn)座子,包含著分布廣泛且種類眾多的超家族,例如Tc1/Mariner超家族。Tc1/Mariner轉(zhuǎn)座子超家族可能是自然界中分布最廣的轉(zhuǎn)座子超家族,在輪蟲(chóng)、真菌、植物、魚(yú)類和哺乳動(dòng)物等多種生物中都有其存在,然而其絕大多數(shù)是失活突變[2-4],且它因Tc1和Mariner合稱而得名[5]。其中Tc1轉(zhuǎn)座子于秀麗隱桿線蟲(chóng)(Caenorhabditiselegans)基因組研究時(shí)被發(fā)現(xiàn)[6],Mariner是最小的自主DNA轉(zhuǎn)座子之一,以其水平轉(zhuǎn)移的傾向而聞名,目前已經(jīng)發(fā)現(xiàn)其在動(dòng)物、植物、真菌中均廣泛分布,即使在蛭形輪蟲(chóng)這類具有高轉(zhuǎn)座抑制的物種中,Mariner轉(zhuǎn)座子也通過(guò)其強(qiáng)大的不依賴宿主的特性而大量的存在與繁殖[4]。
Tc1/Mariner轉(zhuǎn)座子的長(zhǎng)度在1~5 kb之間,編碼282~345個(gè)氨基酸的轉(zhuǎn)座酶,其兩側(cè)有2個(gè)TIR,且TIR長(zhǎng)度在17~1 100 bp之間[3,7]。來(lái)自不同Tc1/Mariner轉(zhuǎn)座子家族的轉(zhuǎn)座酶蛋白序列并不十分相似,但都具有兩個(gè)特征結(jié)構(gòu)域:一個(gè)包含螺旋-轉(zhuǎn)角-螺旋(Helix-Turn-Helix, HTH)氨基末端,用于識(shí)別和結(jié)合TIR;另一個(gè)包含DDD/E羧基末端催化基序結(jié)構(gòu)域,其第一和第二個(gè)天冬氨酸(D)殘基之間至少有92個(gè)氨基酸,而第二個(gè)天冬氨酸(D)殘基和第三個(gè)天冬氨酸(D)殘基或谷氨酸殘基(E)之間的距離是變量。目前Tc1/Mariner超家族大致可根據(jù)此數(shù)目分為7個(gè)主要亞家族,分別為DD34E(Tc1)、DD34D(mariner)、DDxD(pogo)、DD37D(maT)、DD37E、DD39D和DD41D(rosa)。
Tc1/Mariner轉(zhuǎn)座子不依賴宿主的特征來(lái)執(zhí)行轉(zhuǎn)座過(guò)程,因此其存在不局限于一個(gè)特定的宿主。事實(shí)上,已經(jīng)發(fā)現(xiàn)了許多Tc1/Mariner在不同宿主之間水平轉(zhuǎn)移的情況,例如在褐帶卷蛾中發(fā)現(xiàn)的一個(gè)Mariner轉(zhuǎn)座子通過(guò)水平轉(zhuǎn)移方式轉(zhuǎn)移到它的寄生體后,也在其它寄主和寄生體間發(fā)現(xiàn)了Mariner轉(zhuǎn)座水平轉(zhuǎn)移的現(xiàn)象,表明寄生—寄主關(guān)系可能在轉(zhuǎn)座子水平轉(zhuǎn)移中占重要地位[8]。該現(xiàn)象存在于海洋甲殼類動(dòng)物之間[9]、不同目昆蟲(chóng)之間[10-11],甚至存在于不同門的生物之間,如人類和寄生線蟲(chóng)之間的轉(zhuǎn)移[12]。然而,目前還不清楚轉(zhuǎn)座子是如何侵入新的基因組的。參與這種水平轉(zhuǎn)移的潛在載體是外部寄生者,如螨蟲(chóng)(可能是果蠅中P元件水平轉(zhuǎn)移的載體[13])?還是內(nèi)部寄生者,如病毒[14]?目前針對(duì)Tc1/Mariner的水平轉(zhuǎn)移在昆蟲(chóng)中報(bào)道較多[15]。
轉(zhuǎn)座子在基因組中的分布并非是隨機(jī)的,部分轉(zhuǎn)座子與一些功能元件有密切的聯(lián)系[16-17],轉(zhuǎn)座子不僅影響了基因組的結(jié)構(gòu),還參與了基因表達(dá)調(diào)控的過(guò)程,例如在人類和小鼠中發(fā)現(xiàn)Alu插入的數(shù)量與基因差異表達(dá)存在相關(guān)性[18]。在大鼠和小鼠中發(fā)現(xiàn),長(zhǎng)末端重復(fù)序列(Long terminal repeated,LTR)和長(zhǎng)散在重復(fù)序列(Long interspersed nuclear elements,LINE)與基因表達(dá)正相關(guān)[19]。此外,轉(zhuǎn)座子插入到基因或基因側(cè)翼區(qū)域也可能帶來(lái)基因功能突變[20]。
褶皺臂尾輪蟲(chóng)(Brachionusplicatilis)在分類學(xué)上隸屬于輪蟲(chóng)動(dòng)物門(Rotifera),單巢綱(Monogononta)、游泳目(Ploimida)、臂尾輪蟲(chóng)科(Brachionidae)、臂尾輪蟲(chóng)屬(Brachionus),是目前唯一能在海水養(yǎng)殖中實(shí)現(xiàn)規(guī)?;B(yǎng)殖的輪蟲(chóng),具有抗逆性強(qiáng)、營(yíng)養(yǎng)豐富、繁殖快和游動(dòng)慢等特點(diǎn),因此該物種成為海水魚(yú)蝦蟹類幼體重要的開(kāi)口餌料[21]。同時(shí)褶皺臂尾輪蟲(chóng)具有典型的孤雌生殖世代和有性生殖世代交替的兼性繁殖生活史,會(huì)在外界環(huán)境變化,如溫度、營(yíng)養(yǎng)、種群密度和pH溶解氧劇變時(shí)進(jìn)入混交世代。先前的轉(zhuǎn)座子對(duì)于輪蟲(chóng)門基因組影響的研究大多關(guān)注含量及結(jié)構(gòu)[22],而本研究基于褶皺臂尾輪蟲(chóng)基因組數(shù)據(jù),針對(duì)褶皺臂尾輪蟲(chóng)基因附近的轉(zhuǎn)座子家族進(jìn)行鑒定和富集,并針對(duì)其Tc1/Mariner超家族進(jìn)行了進(jìn)化和表達(dá)分析,以從功能的視角去探索Tc1/Mariner超家族在褶皺臂尾輪蟲(chóng)基因組中扮演的角色。
褶皺臂尾輪蟲(chóng)基因組數(shù)據(jù)(Bioproject:PRJNA 719948)和基因注釋信息由本實(shí)驗(yàn)室分析獲得。重復(fù)序列注釋方法分為同源序列比對(duì)和從頭預(yù)測(cè)兩類。同源序列比對(duì)方法基于RepBase[23],使用RepeatMasker[24]和Repeatproteinmask[25]軟件識(shí)別與已知重復(fù)序列相似的序列。從頭預(yù)測(cè)使用LTR_FINDER[26],Piler[27],RepeatScout[28],RepeatModeler[29]等軟件:首先建立從頭測(cè)序重復(fù)序列庫(kù);再通過(guò)Repeatmasker 軟件預(yù)測(cè)。此外,使用TRF[30](http://tandem.bu.edu/trf/trf.html)尋找基因組中串聯(lián)重復(fù)序列(Tandem repeat)。重復(fù)序列的注釋均使用軟件默認(rèn)參數(shù)。將RepeatModeler、RepeatScout、Piler、LTR_finder 軟件預(yù)測(cè)出來(lái)的結(jié)果結(jié)合RepBase 庫(kù)采用Uclust[31]的軟件(遵從80-80-80 原則)進(jìn)行整合獲得最終注釋結(jié)果。
褶皺臂尾輪蟲(chóng)轉(zhuǎn)錄組數(shù)據(jù)(Bioproject: PRJNA 720972)由本實(shí)驗(yàn)室測(cè)序分析獲得,取自8個(gè)發(fā)育階段:非混交胚胎、非混交雌性、雄性、雄性胚胎、攜帶雄性胚胎的混交雌性、攜帶休眠卵的混交雌性、新產(chǎn)休眠卵、休眠三個(gè)月后的休眠卵(見(jiàn)圖1)。使用Genomic-Ranges軟件[32]及rtracklayer軟件[33]對(duì)轉(zhuǎn)座子及基因結(jié)構(gòu)進(jìn)行了統(tǒng)計(jì),并且以基因兩側(cè)的5 000 bp的長(zhǎng)度分別作為基因的上游和下游部分。轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行reads過(guò)濾,并使用STAR軟件[34]進(jìn)行比對(duì)得到SAM文件,再使用Samtools軟件[35]轉(zhuǎn)換為按名字排序的BAM文件并用于后續(xù)的分析。將基因注釋、轉(zhuǎn)座子注釋文件和各個(gè)時(shí)期轉(zhuǎn)錄組進(jìn)行比對(duì)結(jié)果,使用TEtranscripts軟件[36]進(jìn)行counts統(tǒng)計(jì),并使用R語(yǔ)言軟件中的DEseq2軟件[37]進(jìn)行標(biāo)準(zhǔn)化及處理,使用dplyr、factoextra[38]、FactoMineR軟件[39]進(jìn)行平行組及各個(gè)組之間的主成分分析以確保質(zhì)量,最后用TBtools軟件[40]來(lái)得到各個(gè)發(fā)育時(shí)期的所有轉(zhuǎn)座子及基因的FPKM表達(dá)量。規(guī)定只有在各個(gè)發(fā)育時(shí)期FPKM≥3時(shí)認(rèn)為該轉(zhuǎn)座子有表達(dá),進(jìn)行篩選后將有表達(dá)的轉(zhuǎn)座子使用R語(yǔ)言軟件中的clusterProfiler軟件[41]進(jìn)行富集分析以獲得轉(zhuǎn)座子家族,對(duì)富集到的轉(zhuǎn)座子家族與臨近基因的各世代表達(dá)進(jìn)行Person相關(guān)性分析,以絕對(duì)值0.5作為相關(guān)的系數(shù)標(biāo)準(zhǔn),使用R語(yǔ)言軟件中的ggplot2[38]進(jìn)行繪圖。
圖1 褶皺臂尾輪蟲(chóng)生活史模式圖
利用shell腳本提取褶皺臂尾輪蟲(chóng)基因組中的Tc1/Mariner轉(zhuǎn)座子超家族注釋信息,并分別統(tǒng)計(jì)其家族種類、拷貝數(shù)和表達(dá)量,最后對(duì)臨近基因的功能進(jìn)行分析。
為了獲得基于Tc1/Mariner轉(zhuǎn)座子完整轉(zhuǎn)座酶,從NCBI及Repbase中下載了544條Tc1/Mariner轉(zhuǎn)座酶序列,以褶皺臂尾輪蟲(chóng)基因組為目標(biāo)庫(kù),使用tBlastN尋找轉(zhuǎn)座酶序列(相似度>30%、長(zhǎng)度>80、e值<10-5),對(duì)每個(gè)拷貝的兩側(cè)分別延長(zhǎng)1 000 bp,使用Seqkit[42]的subseq功能基于bed格式提取完整fasta序列,使用TBtools中的ORF_Prediction獲取序列的ORF序列,并保留每個(gè)序列預(yù)測(cè)出的長(zhǎng)度大于300 bp的氨基酸序列,在MuscleX軟件中使用對(duì)齊(即使用默認(rèn)設(shè)置),手動(dòng)進(jìn)行篩選,保留有完整的DDE/D結(jié)構(gòu)域的轉(zhuǎn)座酶序列,并基于DDE/D結(jié)構(gòu)域確認(rèn)其家族,在PHYRE2網(wǎng)站(http://www.sbg.bio.ic.ac.uk/phyre2)上預(yù)測(cè)各家族轉(zhuǎn)座酶的空間結(jié)構(gòu)。
使用已知的具有完整DDE結(jié)構(gòu)域的轉(zhuǎn)座酶家族(來(lái)自于果蠅、蛭形輪蟲(chóng)、家蠶等)作為參考,使用muscle軟件[43]進(jìn)行對(duì)齊,用ProtTest軟件[44]選擇最優(yōu)氨基酸代替模型,基于該模型使用RAxML軟件[45]構(gòu)建系統(tǒng)進(jìn)化樹(shù),bootstrap設(shè)為1 000。對(duì)于獲得的系統(tǒng)樹(shù),使用EvolView軟件[46]進(jìn)行美化。
利用Tc1/Mariner各個(gè)亞家族的注釋信息,使用TEtranscripts軟件處理結(jié)果來(lái)得到各個(gè)時(shí)期的表達(dá)量。用GenomicRanges軟件及rtracklayer軟件尋找各家族附近基因,并基于基因功能注釋得到Tc1/Mariner各亞家族附近基因的功能富集結(jié)果。
主成分分析結(jié)果顯示(見(jiàn)圖2),8個(gè)組24個(gè)轉(zhuǎn)錄組聚類情況良好,可用于后續(xù)分析。褶皺臂尾輪蟲(chóng)基因組中共鑒定到419 244個(gè)轉(zhuǎn)座子(不含簡(jiǎn)單重復(fù)序列),從中篩選得到了92 225個(gè)轉(zhuǎn)座子在褶皺臂尾輪蟲(chóng)的生命周期中的不同階段發(fā)生了表達(dá)。共富集到10個(gè)轉(zhuǎn)座子家族中,其中Ⅰ轉(zhuǎn)座子家族有3個(gè):ERV4、Pao和tRNA-Deu;Ⅱ轉(zhuǎn)座子家族有7個(gè):包括隸屬于Tc1/Mariner超家族的Mariner、Fot1和Tigger3個(gè)亞家族,以及不屬于Tc1/Mariner超家族的hAT1、hAT、Academ和Sola。將這10個(gè)轉(zhuǎn)座子家族的轉(zhuǎn)座子拷貝表達(dá)量與鄰近基因的表達(dá)量進(jìn)行相關(guān)性分析,發(fā)現(xiàn)多數(shù)轉(zhuǎn)座子的表達(dá)模式與附近基因的表達(dá)模式呈正相關(guān),負(fù)相關(guān)者較少,其中呈相關(guān)性的Mariner家族的轉(zhuǎn)座子以分布在基因下游為主(見(jiàn)圖3a),而Fot1家族的轉(zhuǎn)座子以mRNA分布居多(見(jiàn)圖3b),Tigger家族的轉(zhuǎn)座子則分布較為均勻(見(jiàn)圖3c)。
(AE: 非混交胚胎Amictic embryos;AMF: 非混交雌性Amictic females;M: 雄性Males;ME: 雄性胚胎Male embryos;M: 攜帶雄性胚胎的混交雌性Mictic females with male embryos;MFRE: 攜帶休眠卵的混交雌性Mictic females with resting eggs;RE: 新產(chǎn)的休眠卵Resting eggs;RED: 休眠三個(gè)月后的休眠卵Resting eggs after three months’ dormancy)
((a)Mariner家族Mariner family;(b)Fot1家族Fot1 family;(c)Tigger家族Tigger family。第一列為Pearson相關(guān)性系數(shù),第二列-log10(p值),第三列轉(zhuǎn)座子位置,第四列為轉(zhuǎn)座子FPKM表達(dá)量,第五列為轉(zhuǎn)座子附近基因FPKM表達(dá)量。1st column: correlation; 2nd column:-log10(p-value);3rd column: TE position; 4th column: TE FPKM expression level; 5th column: nearby genes’ FPKM expression level.AE: 非混交胚胎Amictic embryos;AMF: 非混交雌性Amictic females;M: 雄性Males;ME: 雄性胚胎Male embryos;M: 攜帶雄性胚胎的混交雌性Mictic females with male embryos;MFRE: 攜帶休眠卵的混交雌性Mictic females with resting eggs;RE: 新產(chǎn)的休眠卵Resting eggs;RED: 休眠三個(gè)月后的休眠卵Resting eggs after three months’ dormancy)
褶皺臂尾輪蟲(chóng)中共發(fā)現(xiàn)了23 378個(gè)Tc1/Mariner轉(zhuǎn)座子拷貝,并分為7個(gè)亞家族,其中拷貝數(shù)目較多的3個(gè)家族為Tc1、Pogo和Mariner家族(見(jiàn)表1)。
統(tǒng)計(jì)了7個(gè)亞家族在基因內(nèi)部、基因上下游及基因間區(qū)的分布情況(見(jiàn)表1)。所有亞家族表現(xiàn)出了相似的分布特征,即均在基因間區(qū)分布最多。除了Trigger亞家族(48.19%)和Tc1亞家族(47.73%),其余5個(gè)亞家族在基因間區(qū)的轉(zhuǎn)座子分布占比都超過(guò)了50%。Sagan亞家族在基因間區(qū)的分布占比最高(65.69%)。在基因內(nèi)部分布的情況中可以發(fā)現(xiàn),相較于其他6個(gè)亞家族,Sagan亞家族在基因內(nèi)部的分布最少(僅占2.93%)。
表1 Tc1/Mariner轉(zhuǎn)座子7個(gè)亞家族的位置分布及拷貝數(shù)
基于同源比對(duì)的方法,本文作者在褶皺臂尾輪蟲(chóng)基因組中共發(fā)現(xiàn)了29條完整的Tc1/Mariner轉(zhuǎn)座子序列。為了確定褶皺臂尾輪蟲(chóng)中Tc1/Mariner轉(zhuǎn)座子的系統(tǒng)發(fā)育關(guān)系,基于轉(zhuǎn)座酶序列使用Repbase和NCBI中下載的近源物種中的Tc1/Mariner轉(zhuǎn)座子基因序列進(jìn)行了系統(tǒng)發(fā)育分析。結(jié)果發(fā)現(xiàn)褶皺臂尾輪蟲(chóng)中的Tc1/Mariner轉(zhuǎn)座子可以分為3個(gè)不同的亞家族即Tc1、Tc2和Pogo,其中大多數(shù)為Pogo轉(zhuǎn)座子(見(jiàn)圖4)。系統(tǒng)發(fā)育分析結(jié)果表明,褶皺臂尾輪蟲(chóng)Tc1亞家族與家蠶的Tc1亞家族關(guān)系較近,而與果蠅中的Tc1家族關(guān)系較遠(yuǎn);Tc2亞家族與秀麗隱桿線蟲(chóng)的Tc2聚為姐妹群;Pogo亞家族與真渦蟲(chóng)Pogo亞家族關(guān)系較近??傮w來(lái)看,這與褶臂尾輪蟲(chóng)Tc1/Mariner轉(zhuǎn)座子系統(tǒng)發(fā)育關(guān)系與物種之間的親緣關(guān)系基本一致。
(不同的背景顏色代表不同的Tc1/Mariner轉(zhuǎn)座子亞家族,紅色分類名代表褶皺臂尾輪蟲(chóng)中鑒定到的序列。Clade colors denote different subfamilies of Tc1/Mariner transposons; Taxon names in red indicate sequences from B. plicatilis.)
然后對(duì)29條完整轉(zhuǎn)座酶進(jìn)行了結(jié)構(gòu)預(yù)測(cè)和序列比對(duì)。Tc1/Mariner轉(zhuǎn)座酶的N端為DNA結(jié)合區(qū)域,C端為催化區(qū)域,空間結(jié)構(gòu)預(yù)測(cè)結(jié)果(見(jiàn)圖5)表明褶皺臂尾輪蟲(chóng)的Tc1/Mariner轉(zhuǎn)座酶均在Phyre2中高置信命中了c3hosA(轉(zhuǎn)座酶)結(jié)構(gòu),其N端NA結(jié)合區(qū)域含有兩段螺旋-轉(zhuǎn)角-螺旋(HTH,helix-turn-helix)結(jié)構(gòu),而在轉(zhuǎn)座酶的C端均具有DDE/D基序作為DNA剪切轉(zhuǎn)座活性的催化區(qū)域。序列對(duì)比結(jié)果顯示Tc1/Mariner超家族轉(zhuǎn)座酶催化區(qū)域的第二個(gè)天冬氨酸(D)和第三個(gè)天冬氨酸(D)之間,或第二個(gè)天冬氨酸(D)和谷氨酸(E)之間有30~35個(gè)氨基酸,基于其數(shù)目不同可以分為不同的家族,分別是Tc1家族(DD34E,見(jiàn)圖6a)、Tc2(DD35D,見(jiàn)圖6b)家族和Pogo(DDxD,見(jiàn)圖6c)家族。
圖5 Tc1/Mariner轉(zhuǎn)座酶的空間結(jié)構(gòu)預(yù)測(cè)
Tc1/Mariner轉(zhuǎn)座子7個(gè)亞家族在各個(gè)發(fā)育階段均有表達(dá),并且具有相似的表達(dá)模式,但表達(dá)量并非恒定一致(見(jiàn)圖7),在孤雌生殖階段的非混交胚胎和非混交雌性中表達(dá)量偏低,在有性生殖階段中,表達(dá)量較高,其中轉(zhuǎn)座子在雄性階段表達(dá)量最高,在攜帶雄性胚胎的需精雌性和攜帶休眠卵的混交雌性中表達(dá)量較低,在休眠卵(包括新產(chǎn)和休眠三個(gè)月)中的表達(dá)量較高。
(AE: 非混交胚胎Amictic embryos;AMF: 非混交雌性Amictic females;M: 雄性Males;ME: 雄性胚胎Male embryos;MFM: 攜帶雄性胚胎的混交雌性Mictic females with male embryos;MFRE: 攜帶休眠卵的混交雌性Mictic females with resting eggs;RE: 新產(chǎn)的休眠卵Resting eggs;RED: 休眠三個(gè)月后的休眠卵Resting eggs after three months’ dormancy.)
為了了解各個(gè)亞家族臨近基因的功能,本文作者對(duì)每個(gè)亞家族臨近的基因進(jìn)行GO和KEGG富集分析。
GO功能富集(見(jiàn)圖8)發(fā)現(xiàn)了大量離子相關(guān)功能,包括離子結(jié)合和離子轉(zhuǎn)運(yùn)。其中離子結(jié)合功能包括鋅離子結(jié)合和鎂離子結(jié)合等,而離子轉(zhuǎn)運(yùn)涉包括陰離子轉(zhuǎn)運(yùn)等。同時(shí)也發(fā)現(xiàn)了細(xì)胞周期調(diào)控功能,包括細(xì)胞周期功能DNA修復(fù)功能和多細(xì)胞生物發(fā)育的調(diào)節(jié)功能。此外還發(fā)現(xiàn)應(yīng)對(duì)刺激的功能,包括在應(yīng)對(duì)外界壓力和生物過(guò)程的調(diào)控的功能,以及損傷的反應(yīng)。
圖8 篩選出Tc1/Mariner臨近基因的GO功能富集
KEGG通路富集(見(jiàn)圖9)中發(fā)現(xiàn)的細(xì)胞周期通路和環(huán)境信息處理的通路有大量的富集。其中大量富集于細(xì)胞周期的通路包括減數(shù)分裂和衰老通路。大量富集于環(huán)境信息處理的通路包括鞘脂信號(hào)通路、Notch、Jak-STAT、HIF1、TGF-beta及Wnt信號(hào)通路等。
圖9 篩選出的Tc1/Mariner臨近基因的KEGG信號(hào)通路富集
總之,Tc1/Mariner轉(zhuǎn)座子超家族附近基因中有大量涉及離子相關(guān)、應(yīng)對(duì)刺激、環(huán)境信息處理及生物發(fā)育調(diào)節(jié)的功能和通路。
通過(guò)統(tǒng)計(jì)褶皺臂尾輪蟲(chóng)基因組中的轉(zhuǎn)座子的分布,發(fā)現(xiàn)分布在基因內(nèi)含子區(qū)域的轉(zhuǎn)座子較多。相較于基因編碼區(qū)域,內(nèi)含子區(qū)域的轉(zhuǎn)座子受到的選擇壓力更小,從而獲得相較于其他區(qū)域更高的存活機(jī)會(huì)[47],同時(shí)內(nèi)含子區(qū)域的轉(zhuǎn)座子插入可能影響mRNA的可變剪切及轉(zhuǎn)錄產(chǎn)物的正確加工。但是目前還沒(méi)有足夠的證據(jù)證明褶皺臂尾輪蟲(chóng)中轉(zhuǎn)座子的插入位置偏倚是隨機(jī)插入后受到選擇壓力的選擇結(jié)果,還是在轉(zhuǎn)座子本身的偏好性帶來(lái)的[48]。
轉(zhuǎn)座子在基因組中的分布與基因表達(dá)的各個(gè)方面相關(guān),包括表達(dá)水平、轉(zhuǎn)錄本多樣性和基因調(diào)控因子的活性[49]。目前,關(guān)于轉(zhuǎn)座子家族作為整體對(duì)基因表達(dá)的影響的研究還較少,有研究報(bào)道LINE1家族在小鼠原始生殖干細(xì)胞和著床前胚胎中RNA含量豐富并且其敲除會(huì)抑制原始生殖干細(xì)胞更新[50]。本研究通過(guò)使用生物信息學(xué)手段分析了轉(zhuǎn)座子表達(dá)與輪蟲(chóng)各個(gè)生命階段的相關(guān)關(guān)系,在發(fā)育的各個(gè)階段都鑒定到了表達(dá)的轉(zhuǎn)座子及富集的轉(zhuǎn)座子家族。共富集到了10個(gè)轉(zhuǎn)座子家族,其中DNA類型的轉(zhuǎn)座子含優(yōu)勢(shì),其中有Mariner、Fot1和Tigger3個(gè)亞家族均來(lái)自于Tc1/Mariner超家族。同時(shí)發(fā)現(xiàn)轉(zhuǎn)座子的表達(dá)與臨近基因的表達(dá)以正相關(guān)為主。
已有文獻(xiàn)報(bào)道脊椎動(dòng)物中Tc1/Mariner轉(zhuǎn)座子具有多樣性,其豐度各有差異[51]。Tc1/Mariner轉(zhuǎn)座子超家族在哺乳動(dòng)物和鳥(niǎo)類中表現(xiàn)出非常低的多樣性和豐度[52-53],與哺乳類和鳥(niǎo)類中不同,早前的研究在硬骨魚(yú)的基因組中觀察到了Tc1/Mariner轉(zhuǎn)座子的高多樣性和高豐度[54]。例如轉(zhuǎn)座子可以插入到基因組中的新的調(diào)控元件、外顯子及內(nèi)含子中介導(dǎo)基因融合和基因沉默[55]。而在Tc1/Mariner超家族中,許多轉(zhuǎn)座子例如Tc1亞家族不僅可以參與基因表達(dá)調(diào)控,還可以促進(jìn)新基因的產(chǎn)生,進(jìn)而使物種適應(yīng)新環(huán)境[56]。本研究發(fā)現(xiàn)Tc1/Mariner轉(zhuǎn)座子在褶皺臂尾輪蟲(chóng)基因組中表現(xiàn)出多樣性,共鑒定出7個(gè)Tc1/Mariner轉(zhuǎn)座子亞家族。根據(jù)其催化區(qū)域第二個(gè)天冬氨酸(D)和第三個(gè)天冬氨酸(D)之間,或第二個(gè)天冬氨酸(D)和谷氨酸(E)之間的氨基酸數(shù)目將其鑒定為Tc1(DD34E)、Tc2(DD35D)、Mariner(DD34D)、Pogo(DDxD)、Sagan(DD30D)、Tigger(DD32D,DD36D)和Fot1(DD30D)。然而,在自然界中發(fā)現(xiàn)的絕大多數(shù)Tc1/Mariner轉(zhuǎn)座子被認(rèn)為是有缺陷的,因?yàn)樗鼈冊(cè)谵D(zhuǎn)座酶基因的編碼區(qū)域內(nèi)包含了移碼、插入/缺失和過(guò)早終止密碼子,因此很少有轉(zhuǎn)座子(如Passport和Thm3)被認(rèn)為是功能活性元件[57-58]。在哺乳動(dòng)物和鳥(niǎo)類中,所有Tc1/Mariner轉(zhuǎn)座子都是化石轉(zhuǎn)座子且結(jié)構(gòu)有缺陷[52-53,59]。在兩棲動(dòng)物中,Tc1/Mariner超家族的活動(dòng)似乎也已經(jīng)滅絕,盡管Tc1/Mariner超家族占青蛙基因組的很大比例(約5%),但大多數(shù)元件都是古老的,并且沒(méi)有獨(dú)立的家族被鑒定出來(lái)[60]。爬行動(dòng)物中Tc1/Mariner多樣性也很低,Tc1/Mariner超家族是蜥蜴DNA轉(zhuǎn)座子中第二多的超家族,但只有一個(gè)獨(dú)立的家族被鑒定出來(lái)[61]。在褶皺臂尾輪蟲(chóng)中,Tc1/Mariner轉(zhuǎn)座子具有多樣性,這可能是因?yàn)樵诘鷳B(tài)系統(tǒng)中,洪水和干旱等頻繁的壓力可以加快轉(zhuǎn)座活動(dòng),從而有助于宿主產(chǎn)生新的變異以適應(yīng)變化的環(huán)境[25, 62-63]。
Tc1/Mariner轉(zhuǎn)座酶中最后兩個(gè)殘基之間的氨基酸數(shù)量在30~36之間。除去缺陷拷貝中的突變,大多數(shù)DD34E(Tc1)和DD34D(Mariner)元件包含典型的34個(gè)氨基酸間距(DD34E和DD34D)[64]。在本研究中,本文作者發(fā)現(xiàn)褶皺臂尾輪蟲(chóng)的DD34E(Tc1)中的大部分元件都表現(xiàn)出典型的DD34E 結(jié)構(gòu)。在DDxD(Pogo)亞家族在不同物種中可以觀察到距離的變化,例如真菌的Flipper、Pot2和Fot1中的DD35D[65-66]、果蠅的DD30D[25,67]、人類的DD32D(Tigger1)[68],而在硬骨魚(yú)中,所有完整的轉(zhuǎn)座子元件都顯示出非常保守的DD35D 結(jié)構(gòu)域[69]。本研究鑒定出的3個(gè)亞家族的29條完整轉(zhuǎn)座酶序列也均具有良好的保守性,包括Tc1-DD34E、Tc2-DD35D和Pog-DDxD,這一結(jié)果表明,硬骨魚(yú)類中Tc1/Mariner轉(zhuǎn)座酶的活性可能有其特殊性。
對(duì)褶皺臂尾輪蟲(chóng)的Tc1/Mariner轉(zhuǎn)座子的各個(gè)亞家族的各發(fā)育階段的表達(dá)情況和臨近基因功能進(jìn)行了分析,發(fā)現(xiàn)各個(gè)亞家族的表達(dá)模式基本相似,均在雄性發(fā)育階段表達(dá)量最高,在新產(chǎn)休眠卵和休眠三個(gè)月后的休眠卵的表達(dá)量較高,這2個(gè)時(shí)期均為輪蟲(chóng)發(fā)育狀態(tài)發(fā)生變化的特殊時(shí)期,這期間轉(zhuǎn)座子處于活躍狀態(tài),這為后續(xù)研究轉(zhuǎn)座子在輪蟲(chóng)發(fā)育中的作用提供了重要的材料和線索。在對(duì)其臨近基因功能分析中,各個(gè)亞家族的GO功能諸多涉及到多細(xì)胞生物發(fā)育的調(diào)節(jié)、離子通道、細(xì)胞周期、對(duì)刺激反應(yīng)的調(diào)控、DNA修復(fù)等;KEGG分析也發(fā)現(xiàn)與環(huán)境信息處理、生物發(fā)育調(diào)節(jié)有關(guān)。這些都可能與環(huán)境適應(yīng)有關(guān),而在輪蟲(chóng)基因組中,DNA修復(fù)和離子轉(zhuǎn)運(yùn)屬于輪蟲(chóng)適應(yīng)環(huán)境比較獨(dú)特的功能,涉及到神經(jīng)調(diào)節(jié)、滲透壓調(diào)節(jié)、細(xì)胞周期調(diào)節(jié)、無(wú)性世代有害變異修復(fù)和休眠卵滯育等一系列的生物學(xué)過(guò)程。顯然,輪蟲(chóng)基因組對(duì)環(huán)境的適應(yīng)是綜合的調(diào)節(jié),不局限于基因?qū)用?,還包含了轉(zhuǎn)座子表達(dá)對(duì)基因表達(dá)的調(diào)控。因此,有關(guān)Tc1/Mariner轉(zhuǎn)座子具體的生物學(xué)功能,需要進(jìn)一步的實(shí)驗(yàn)去驗(yàn)證。
本研究通過(guò)對(duì)褶皺臂尾輪蟲(chóng)Tc1/Mariner轉(zhuǎn)座子超家族在基因組中的分布、進(jìn)化和表達(dá)進(jìn)行系統(tǒng)分析,這為系統(tǒng)地認(rèn)知Tc1/Mariner轉(zhuǎn)座子并從功能角度理解其對(duì)褶皺臂尾輪蟲(chóng)基因組的作用提供了新的線索。