孫善肖,韓志強
(浙江海洋大學(xué)水產(chǎn)學(xué)院,浙江舟山 316022)
目前有關(guān)物種系統(tǒng)發(fā)育的研究多基于線粒體基因和少量的核基因,如線粒體DNA 的COI、16S rRNA、Cytb 基因和核基因的18S rRNA、28S rRNA 基因[1-5]。僅利用少量分子標記開展系統(tǒng)發(fā)生關(guān)系的研究常常會遇到一些問題,如標記位點少、基因短片段太多等[6-7]。隨著高通量測序的普及,利用轉(zhuǎn)錄組和基因組數(shù)據(jù)研究物種間的系統(tǒng)發(fā)育關(guān)系已成為可能,GONZáLEZ,et al[8]利用轉(zhuǎn)錄組數(shù)據(jù)對31 種雙殼貝類的系統(tǒng)發(fā)育關(guān)系進行了研究,HUGHES,et al[9]整合了144 種魚類的基因組數(shù)據(jù)和159 種魚類的轉(zhuǎn)錄組數(shù)據(jù),采用新的生物信息學(xué)分析方法,篩選出1 105 個直系同源的外顯子序列作為分子標記,構(gòu)建了迄今為止最可靠的魚類系統(tǒng)演化樹。目前利用轉(zhuǎn)錄組和基因組構(gòu)建系統(tǒng)發(fā)育樹的主要的研究方法是通過OrthoMCL(http://orthomcl.org/orthomcl/)等軟件通過Blast-to-blast 序列比對,查找物種間1:1 的單拷貝直系同源基因[10],該類型方法存在計算工作量巨大,隨物種數(shù)增加,計算量程指數(shù)增長,此外受限于物種序列的注釋水平,低質(zhì)量的注釋會造成將大量的單拷貝同源序列組裝為旁系同源序列,從而造成大量的物種間單拷貝直系同源基因被誤判為多拷貝基因從而排除在系統(tǒng)進化采用的基因位點集外。因此建立一種快速有效的利用基因組數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育是必要的。
LI Chenhong,et al[11]對82 種后生動物的基因組編碼序列進行了blast 比對,建立了一個可搜索的單拷貝編碼序列數(shù)據(jù)庫EvolMarkers,用于開發(fā)單拷貝標記,從而進行系統(tǒng)發(fā)育的研究。BUSCO(https://busco.ezlab.org/)是在基因含量層面上來評估基因組完整性的軟件,它構(gòu)建了幾個大進化支的單拷貝基因數(shù)據(jù)[12],該數(shù)據(jù)庫包含了多個物種的數(shù)據(jù)集合,其中包括真核生物、節(jié)肢動物、魚類、脊椎動物、鳥類和哺乳動物。該數(shù)據(jù)除了可以用來評估基因組完整性,也可以用來進行系統(tǒng)發(fā)育研究。WATERHOUSE,et al[13]利用BUSCO中的哺乳類單拷貝基因構(gòu)建了嚙齒類系統(tǒng)發(fā)育系統(tǒng)樹。在BUSCO 數(shù)據(jù)庫中也包含節(jié)肢動物的單拷貝基因數(shù)據(jù)庫,這個數(shù)據(jù)庫中的所有基因都在節(jié)肢動物中存在且只存在一個拷貝,因此我們就可以以此為標準,對分析物種的基因庫進行搜索,獲得單拷貝直系同源基因用于系統(tǒng)發(fā)育樹的構(gòu)建。甲殼動物是節(jié)肢動物在海洋中最重要的類群[14],其基因組結(jié)構(gòu)復(fù)雜、注釋程度低,利用DNA 編碼區(qū)和基因組間blast 比對尋找同源基因的方法有困難,因此我們嘗試利用BUSCO 提供的單拷貝基因數(shù)據(jù)集在甲殼類物種間查找直系同源基因,進而用于系統(tǒng)樹的構(gòu)建。在本研究中我們選取了10 種甲殼綱物種,選擇1 種蛛形綱物種為外群。
本研究共分析了節(jié)肢動物門的11 個物種,除染色大絨螨Dinothrombium tinctorium 為蛛形綱以外,其余物種均為甲殼綱。甲殼綱的10 個物種中,棕蝦Penaeus aztecus、粉紅色蝦Penaeus duorarum、日本對蝦Penaeus japonicus、長毛對蝦Penaeus penicillatus 以及凡納濱對蝦Litopenaeus vannamei 等5 種對蝦所用序列為轉(zhuǎn)錄組數(shù)據(jù)經(jīng)過de novo 組裝、蛋白翻譯后的氨基酸序列,轉(zhuǎn)錄組原始數(shù)據(jù)下載自NCBI (https://www.ncbi.nlm.nih.gov/)。而葛氏長臂蝦Palaemon gravieri 為舟山近海海域采樣所得,我們采集鰓和肌肉組織送生物公司測序得到其轉(zhuǎn)錄組數(shù)據(jù)。甲殼綱的真寬水蚤Eurytemora affinis、端足蟲Hyalella azteca、蚤狀蚤Daphnia pulex 和鼠婦Armadillidium vulgare 以及蛛形綱的染色大絨螨等5 個物種為基于基因組數(shù)據(jù)翻譯的蛋白序列,這些蛋白序列均下載自NCBI,具體信息見表1。
采用Trinity[15]軟件對上述5 個物種(棕蝦、粉紅色蝦、日本對蝦、長毛對蝦、凡納濱對蝦)的轉(zhuǎn)錄組數(shù)據(jù)進行de novo 組裝,內(nèi)存設(shè)為100 G,使用的CPU 線程數(shù)為24。其中,使用--left、--rigth 參數(shù)對雙端數(shù)據(jù)處理,使用--single 對單端數(shù)據(jù)處理。對組裝結(jié)果提取最長的轉(zhuǎn)錄本作為Unigene。
表1 物種數(shù)據(jù)信息見表Tab.1 Species data information is shown in the table
采用Transdecoder[16]軟件對上述5 種對蝦的轉(zhuǎn)錄子Unigene 中的編碼區(qū)進行識別,并預(yù)測蛋白序列。蛋白預(yù)測步驟分為:(1)首先使用TransDecoder.LongOrfs 命令尋找長度不小于指定值的ORF,我們設(shè)置最小值為50;(2)然后使用TransDecoder.Predict 命令進行ORF 預(yù)測,得到翻譯后的氨基酸序列。
根據(jù)BUSCO[12]建立了節(jié)肢動物1066 個單拷貝的數(shù)據(jù)庫,參照WATERHOUSE,et al[13]的方法我們利用hmmsearch[17](https://www.ebi.ac.uk/Tools/hmmer/about)對本文所研究的11 個物種的氨基酸序列進行搜索,CPU 設(shè)為60,其他參數(shù)設(shè)為默認值。選取11 個物種中被標記得分最高的單拷貝基因比對結(jié)果,用自定義的shell 腳本從中提取出基因序列,即得到最終的單拷貝同源基因。
使用MAFFT[18](http://mafft.cbrc.jp/alignment/software/)對單拷貝同源進行多序列比對,使用Gblocks 提取單拷貝同源基因多序列比對結(jié)果的保守位點,序列類型參數(shù)設(shè)為蛋白序列,其余為默認參數(shù)。根據(jù)多序列比對結(jié)果進行系統(tǒng)樹構(gòu)建,使用軟件MEGA-X[19](https://www.megasoftware.net/)的phylogeny 功能構(gòu)建Nj 系統(tǒng)發(fā)育樹,BootStrap 值設(shè)為1 000。
利用高通量測序平臺(Illumina HiSeqTM)對葛氏長臂蝦進行轉(zhuǎn)錄組測序,得到了原始數(shù)據(jù)(Raw Data)及去除雜質(zhì)之后的高質(zhì)量讀序(Clean reads),結(jié)果如表2 所示。我們共獲得40 282 258 條Clean reads,GC 含量為48.11%,利用Trinity 軟件對所獲得葛氏長臂蝦的高質(zhì)量讀序(Clean reads)進行組裝,得到23 670 條轉(zhuǎn)錄本(transcripts),進一步去冗組裝獲得15 089 條Unigene,N50 為1 909 bp。
使用Trinity 對下載自NCBI 的棕蝦、粉紅色蝦、日本對蝦、長毛對蝦以及凡納濱對蝦的轉(zhuǎn)錄組數(shù)據(jù)進行組裝,得到Unigene 數(shù)量分別為11 747、118 427、68 077、12 778 和41 397 條。其N50 大小分別為659、484、1 532、511、1 397 bp,具體見表3。從結(jié)果中我們可以得到,日本對蝦和凡納濱對蝦的N50 值比較大,組裝結(jié)果質(zhì)量好,尤其是日本對蝦,其N50 值達到1 532 bp。
表2 物種數(shù)據(jù)信息表Tab.2 Species data information is shown in the table
表3 5 個物種轉(zhuǎn)錄組組裝情況表Tab.3 Transcriptome assembly of 5 species
利用hmmsearch 將上述得到的11 個物種的氨基酸序列與BUSCO 建立的節(jié)肢動物單拷貝的數(shù)據(jù)庫比對,聚類得到的總基因數(shù)為255 976 個,最終篩選出346 個直系同源單拷貝基因。使用Gblocks 提取多序列比對結(jié)果的保守位點44 883 個,其聚類情況見表4。
表4 11 個物種基因聚類結(jié)果表Tab.4 Results of gene of 11 species
基于上述1 個蛛形綱物種和10 個甲殼綱物種的11 個物種的基因組或轉(zhuǎn)錄組數(shù)據(jù)生成了346 個直系同源單拷貝基因,我們利用MEGA 軟件構(gòu)建了N-j (neighbor-joining)分子系統(tǒng)進化樹,氨基酸替代模型選為JTT[20],如圖1 所示。結(jié)果表明,屬于濱對蝦亞屬的凡納濱對蝦與屬于囊對蝦亞屬的日本對蝦緊密聚為一枝,棕蝦與明對蝦亞屬的長毛對蝦聚為一枝,然后這兩條進化枝合在一起與粉紅色蝦聚在一起,這樣,十足目對蝦科的五個物種緊密的聚為一枝。葛氏長臂蝦屬于十足目長臂蝦科長臂蝦屬,系統(tǒng)發(fā)育樹顯示,葛氏長臂蝦與對蝦科的總進化枝聚在一起,因此本研究中的十足目物種均聚為一個分枝,接著甲殼綱等足目的鼠婦與之合為一枝,然后端足目的端足蟲與上述合枝聚為一枝。這樣包括鼠婦、端足蟲和6 種蝦在內(nèi)的等足目、端足目和十足目三個目的物種合為一個大的進化枝。蚤狀蚤屬于枝角目蚤科,真寬水蚤屬于哲水蚤目寬水蚤科,在我們的進化樹中,這兩個物種形成了一個分支,這個分支與上述大進化枝聚合在一起。最后,屬于蛛形綱絨螨目的染色大絨螨作為外群聚在進化樹的最外面。
圖1 11 種節(jié)肢動物物種系統(tǒng)發(fā)育樹Fig.1 Phylogenetic trees of 11 species
通過對葛氏長臂蝦的Unigene 分析發(fā)現(xiàn),其長度在1 000 bp 以上的有5114 條,占Unigene 總數(shù)的33.89%。而在其他蝦類的轉(zhuǎn)錄組中,例如曾地剛等[21]研究的的凡納濱對蝦,其過濾掉低質(zhì)量序列后,得到500 177 條clean reads,其最小長度為41 bp,最大長度為620 bp,進行組裝拼接后獲得了20 225 條Unigene,長度范圍從50~8 980 bp。其他海洋生物的轉(zhuǎn)錄組測序數(shù)據(jù)也可供我們參考,例如口蝦蛄Oratosquilla oratoria 轉(zhuǎn)錄組測序得到51 305 284 條clean reads,經(jīng)組裝后得到59 054 個Unigene,N50 為1 807 bp[22];大竹蟶Solen grandis 轉(zhuǎn)錄組去冗余組裝獲得190 856 條Unigenes,N50 為1 875 bp[23]。對比可知,葛氏長臂蝦的轉(zhuǎn)錄組存在較多長片段序列,優(yōu)于凡納濱對蝦的組裝片段長度,與口蝦蛄、大竹蟶的拼接結(jié)果相似,同有較高的組裝質(zhì)量。而我們組裝的凡納濱對蝦結(jié)果優(yōu)于曾地剛等基于高通量測序的凡納濱對蝦的轉(zhuǎn)錄組組裝質(zhì)量[19],粉紅色蝦、長毛對蝦的Unigene 數(shù)量較多但N50 值卻比較小,可能是包含了太多的短序列,故組裝質(zhì)量一般。
本研究中,選取的十足目的物種為棕蝦、粉紅色蝦、日本對蝦、長毛對蝦、凡納濱對蝦和葛氏長臂蝦。除了葛氏長臂蝦為長臂蝦科外,其余均為對蝦科。對蝦科可以進一步劃分成多種對蝦亞屬,從我們的單拷貝同源基因構(gòu)建的系統(tǒng)發(fā)育樹可知,囊對蝦屬和濱對蝦屬聚為一支。而LAVERY,et al[24]認為粉對蝦屬和濱對蝦屬聚為一支,他使用對蝦16S rRNA 以及對蝦16S rRNA 與COI 數(shù)據(jù)合集構(gòu)了兩種系統(tǒng)發(fā)育樹,結(jié)果支持上述結(jié)果。LAVERY,et al 的這一研究結(jié)果與MAGGIONI,et al[25]的研究結(jié)果一致,他們僅根據(jù)16S rRNA基因序列就得出結(jié)論,即粉對蝦屬和濱對蝦屬都是很好的單系群。然而,這些結(jié)果與BALDWIN,et al[26]和GUSMAO,et al 給出的結(jié)果有顯著的差異。GUSMAO,et al 的COI 基因序列大部分來自BALDWIN,et al,按照BALDWIN,et al 在其論文中描述可見,這種差異完全是由于一個物種的誤認,即粉對蝦屬的棕蝦被認為是濱對蝦屬的白濱對蝦Litopenaeus setiferus 造成的。從這個問題中我們可以看出對蝦種群的一些很明顯的特征,那就是雖然對蝦的整個種群有著物種多樣性,但各對蝦在外觀上總體上都是比較相似的,這使得很容易錯認種類。
甲殼綱是節(jié)肢動物門中僅次于昆蟲綱與蛛形綱的第三個大綱,現(xiàn)在分為8 個亞綱、33 目,8 個亞綱分別為頭甲亞綱、鰓足亞綱、唇甲亞綱、橈足亞綱、蔓足亞綱、鰓尾亞綱、介形亞綱以及軟甲亞綱等[27]。真寬水蚤屬于橈足亞綱哲水蚤目,蚤狀蚤屬于鰓足亞綱枝角目,在我們的系統(tǒng)發(fā)育樹中,這兩物種卻密切聚為一枝,這一現(xiàn)象不難解釋,雖然鰓足亞綱具有甲殼動物中一些原始的特征并與橈足亞綱有所不同,但是它們均屬于切甲類,與軟甲亞綱的物種相比,它們顯然是親緣關(guān)系更近的一個類群。鼠婦屬于軟甲亞綱囊甲總目等足目,端足蟲屬于軟甲亞綱囊甲總目端足目,系統(tǒng)發(fā)育樹顯示當?shù)茸隳康氖髬D與十足目物種聚為一枝后,端足目的端足蟲首先與鼠婦聚在一起,這與傳統(tǒng)形態(tài)學(xué)分類中等足目和端足目均屬于軟甲亞綱囊甲總目結(jié)果相吻合。本研究借助已構(gòu)建好的節(jié)肢動物直系同源數(shù)據(jù)庫識別了較多的直系單拷貝基因,構(gòu)建了可信的系統(tǒng)發(fā)育樹,建立了一種快速可靠的基于基因組和轉(zhuǎn)錄組篩選直系單拷貝基因方法,為海洋生物系統(tǒng)發(fā)育研究提供了獲得直系同源單拷貝基因的方法。