周 亮,徐聲忠,盛伊建,王永杰,2
(1. 上海海洋大學(xué) 食品學(xué)院,上海 201306; 2. 農(nóng)業(yè)農(nóng)村部 水產(chǎn)品質(zhì)量安全貯藏保鮮風(fēng)險評估實驗室(上海),上海 201306)
噬病毒體是一類小型雙鏈DNA病毒,其基因組大小在13 kb到30 kb之間,編碼16至34個基因。噬病毒體首次分離自巨病毒與真核宿主的共培養(yǎng)體系,隨后證實了其在水環(huán)境中的廣泛分布與普遍存在。該病毒不能在真核宿主細(xì)胞內(nèi)獨立增殖,必須依賴宿主的巨病毒病毒工廠進行增殖,從而造成宿主巨病毒的形態(tài)畸形和毒力下降。噬病毒體甚至可以將自身病毒粒子包裝到巨病毒的核衣殼內(nèi),如同侵染巨病毒,因此將此類病毒統(tǒng)稱為噬病毒體[1-2]。自2008年首個噬病毒體Sputnik[3]被分離出來后,這一類“不起眼”的小型病毒才引起了學(xué)者們的廣泛關(guān)注。目前,通過共培養(yǎng)方法已分離出9株噬病毒體(Sputnik,Sputnik2,Sputnik3,Zamilon,Rio Negro Virophage,Mavirus,Guarani[4],Platanovirus saccamoebae virophage,Chrysochromulina parva Virus-Polintons-like virophages[5])。
近年來,宏基因組學(xué)分析方法已逐漸被應(yīng)用于環(huán)境樣品中噬病毒體的基因組挖掘工作中,并取得了豐碩的成果。如在美國黃石湖宏基因組數(shù)據(jù)庫中發(fā)現(xiàn)了7株噬病毒體(YSLV1-7)的全基因組序列[6-7];在中國滴水湖和青海湖的宏基因組數(shù)據(jù)庫中分別發(fā)現(xiàn)了8株(DSLV1-8)和1株(QLV)噬病毒體的全基因組序列[8-10];在南極有機湖宏基因組數(shù)據(jù)中獲得1株噬病毒體(OLV)的全基因組序列。顯然,海洋環(huán)境宏基因組數(shù)據(jù)庫中的噬病毒體研究還鮮有報道[11-12]。
針對上述問題,本研究基于全球海洋病毒數(shù)據(jù)庫[13],初步探究了全球海洋中噬病毒體的多樣性特點,并通過數(shù)據(jù)挖掘獲得了3條完整的新型噬病毒體全基因組序列,以期在一定程度上增進對全球海洋環(huán)境中噬病毒體多樣性的認(rèn)知,同時也為后續(xù)開展海洋中噬病毒體的研究奠定一定的理論基礎(chǔ)。
1.1.1 實驗數(shù)據(jù)庫
全球海洋病毒數(shù)據(jù)庫2.0(Global Ocean Viromes 2.0,GOV2.0)(https://datacommons.cyverse.org/browse/iplant/home/shared/iVirus/GOV2.0)是通過采集全球海洋水體樣本,經(jīng)測序生成145個海洋水體宏病毒數(shù)據(jù)包,共3.95 TB的序列,序列拼接后由鑒定為病毒序列的重疊群序列構(gòu)成的數(shù)據(jù)庫[13]。
1.1.2 生物信息分析工具
Prodigal(Ver. 2.6.3);Geneious prime (Biomatters);BLAST+(Ver. 2.9.0+);FastTree(Ver. 2.1);InterProScan 5 program;NCBI Conserved Domain Searching program;Reputer program[14](http://bibiserv.techfak.uni-bielefeld.de/reputer/)。
1.2.1 全球海洋病毒數(shù)據(jù)庫2.0下載
使用icommands軟件從iVirus數(shù)據(jù)庫(https://datacommons.cyverse.org/browse/iplant/home/shared/iVirus/GOV2.0)下載GOV2.0中長度大于5 kb或者環(huán)狀的重疊群序列(GOV2_viral_populations_larger_than_5KB_or_circular.fasta)。命令行:iget-N 16-r /iplant/home/shared/iVirus/GOV2.0/GOV2_viral_populations_larger_than_5KB_or_circular.zip-P./。
1.2.2 噬病毒體序列掃描
基于噬病毒體的保守單拷貝主要衣殼蛋白基因(Major capsid protein gene,MCP),掃描全球海洋病毒數(shù)據(jù)庫2.0中的重疊群序列。具體如下:首先采用 Prodigal軟件預(yù)測GOV2.0重疊群序列編碼的基因;隨后,將預(yù)測出的全部基因序列構(gòu)建一個本地蛋白數(shù)據(jù)庫;最后,以已發(fā)表的噬病毒體的MCP基因作為查詢序列(Query sequences),基于Blastp程序與本地庫進行序列相似性比對分析,發(fā)現(xiàn)與噬病毒體MCP基因有顯著匹配的重疊群序列并調(diào)取該序列?;蝾A(yù)測命令行:prodigal-c-a final.contigs.orfs.faa-d final.contigs.orfs.fasta-i final.contigs.fa-m-o final.contigs.txt-p meta-q;本地庫構(gòu)建命令行:makeblastdb-in final.contigs.orfs.fa-dbtype prot-title assemblies-parse_seqids-out assemblie/assemblies-max_file_sz 1GB;Blastp程序比對命令行:blastp-query virophage.fasta-db assemblies-out virophage_related_contigs.fasta-outfmt 0-evalue 1e-3-num_threads 8。
1.2.3 噬病毒體基因組序列鑒定
將上述調(diào)取出來的噬病毒體相關(guān)的重疊群序列進行開放閱讀框(open reading frames, ORF)預(yù)測,然后基于Blastp 比對NCBI nr數(shù)據(jù)庫進行ORF功能注釋,最后基于噬病毒體的4個核心基因(主要衣殼蛋白:MCP;次要衣殼蛋白:mCP;ATP 酶: DNA packaging ATPase;半胱氨酸蛋白酶:Cysteine protease)鑒定噬病毒體相關(guān)的重疊群序列。重疊群首尾兩端的重復(fù)序列通過Reputer program[14]鑒定。
1.2.4 噬病毒體基因組注釋
使用Geneious軟件內(nèi)置的ORF finder插件對其進行ORF的預(yù)測,參數(shù)設(shè)置如下:起始密碼子ATG,ORF氨基酸序列長度最小閾值為 50, 預(yù)測模型為標(biāo)準(zhǔn)密碼子表預(yù)測(codon_start=1)。將預(yù)測得到的所有ORF的氨基酸序列作為查詢序列與NCBI的nr本地數(shù)據(jù)庫進行比對(E值為1e-3),對每個ORF進行功能注釋。同時,使用InterProScan(http://www.ebi.ac.uk/interpro/search/sequence-search)和NCBI的CD search程序?qū)Ω鱋RF進行蛋白功能預(yù)測。
1.2.5 噬病毒體系統(tǒng)發(fā)育分析
基于噬病毒體的MCP 氨基酸序列構(gòu)建系統(tǒng)發(fā)育樹。使用MUSLE工具的默認(rèn)參數(shù)進行氨基酸多重序列比對。隨后,將多序列比對結(jié)果導(dǎo)入FastTree 2.1.7[15]軟件中進行系統(tǒng)發(fā)育樹的構(gòu)建,具體參數(shù)如下:WAG model, gamma parameter estimated,其他參數(shù)按默認(rèn)值設(shè)置。
1.2.6 密碼子相對使用頻率分析
基于病毒全基因組分析其密碼子相對使用頻率。首先將病毒基因組上所有ORF的核酸序列提取出,然后提交到在線密碼子使用分析網(wǎng)站(https://www.bioinformatics.org/sms2/index.html)進行密碼子相對使用頻率分析及結(jié)果統(tǒng)計。通過pheatmap(R package)工具繪制密碼子相對使用頻率熱圖呈現(xiàn)不同基因組間密碼子相對使用偏好。
采用Prodigal軟件對GOV2.0數(shù)據(jù)庫重疊群序列進行基因預(yù)測后,總共得到6 668 449個ORFs,最長為9 974 aa,最短為30 aa,平均長度為243 aa。經(jīng)噬病毒體MCP氨基酸序列掃描后,共獲得了281條與噬病毒體相關(guān)的重疊群序列,其中9條長度大于10 kb(表1),除了序列Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674和Station205_MES_ALL_assembly_NODE_7463_length_10113_cov_5.523066缺少DNA packageing ATPase基因外,其余序列均編碼有噬病毒體的4個核心基因(MCP;mCP;DNA packaging ATPase;cysteine protease)。這表明,這9條序列都為噬病毒體的基因組序列。此外,序列Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674和Station180_SUR_ALL_assembly_NODE_3882_length_26868_cov_6.178048的首尾兩端分別有54 bp和134 bp的正向重復(fù)序列,Station168_SUR_ALL_assembly_NODE_3995_length_20501_cov_43.577326的首尾兩端有105 bp的反向重復(fù)序列。說明此3條序列為噬病毒體的完整基因組,并分別命名為Global Ocean Virome Virophage_1 (GOV2_V1, Station180_SUR_ALL_assembly_NODE_3882_length_26868_cov_6.178048),Global Ocean Virome Virophage_2 (GOV2_V2, Station193_SUR_ALL_assembly_NODE_1801_length_22789_cov_21.332674)和Global Ocean Virome Virophage_3 (GOV2_V3, Station168_SUR_ALL_assembly_NODE_3995_length_20501_cov_43.577326)。
基因組外部的數(shù)字表示核苷酸的位置;ORFs以箱型箭頭標(biāo)出;藍線代表G+C含量。病毒名稱、基因組長度、G+C含量以及ORF總數(shù)都在圖譜中央顯示;線性基因組GOV2_V3以開口環(huán)形顯示,其首尾兩端的反向重復(fù)序列用紅色箭頭表示。
表 1 含有噬病毒體MCP基因的重疊群序列信息
如圖1所示,新發(fā)現(xiàn)的噬病毒體的全基因組長度分別為26 868 bp(GOV2_V1)、22 789 bp(GOV2_V2)和20 501 bp(GOV2_V3);G+C含量在24.3%~32.7%之間;分別編碼27(GOV2_V1)、30(GOV2_V2)和20(GOV2_V3)個ORFs。除了GOV_V1缺失ATP酶外,GOV2_V2/3都含有噬病毒體的4個核心基因(MCP;mCP;DNA packaging ATPase;Cysteine protease),具體見表2??紤]到GOV2_V1含有10個ORFans(指在nr 庫中沒有匹配的基因序列),故不能排除其含有ATP酶的遠緣同源基因的可能性。有意思的是,GOV2_V1 ORF20與小球藻病毒ParameciumbursariaChlorellavirus OR0704.2.2的PBCVOR070422_409L基因有60%的氨基酸序列一致性,GOV2_V1 ORF25與微單胞藻MicromonaspusillaCCMP1545的假定蛋白有高達66%的氨基酸序列一致性(表2);GOV2_V2 ORF21的最佳匹配為球石藻病毒Emiliania huxleyi virus PS401的EMVG_00282基因(氨基酸序列一致性為41%),見表2;GOV2_V3 ORF1,ORF3和ORF20則分別與未歸類的Megaviridae環(huán)境樣品的假定蛋白,未歸類的Gaeavirussp.的螺旋酶DNA結(jié)合蛋白和Acanthamoebacastellaniimamavirus 的多功能域(整合酶、鋅結(jié)合酶和解旋酶)的蛋白基因分別有58%、32%和33%的氨基酸序列一致性(表2)。
表2 GOV2_Vs注釋信息
如圖2所示,GOV2_V2,GOV2_V3和侵染阿米巴蟲的Sputnik家族成員聚在一支(Bootstrap值為82),表明GOV2_V2和GOV2_V3與侵染阿米巴蟲的Sputnik家族成員親緣性更近,原生動物巨病毒和原生動物可能是它們的病毒宿主和真核宿主。GOV2_V1則和侵染藻類巨病毒的潛在噬病毒體(QLV, DSLV2和YSLV1,4,6)聚在一支(Bootstrap值為99),暗示GOV2_V1的病毒宿主可能是藻類巨病毒。
分離培養(yǎng)獲得的噬病毒體及從宏基因組拼接獲得的噬病毒體基因組分別用實線和點虛線分支表示;GOV2_Vs用粗體顯示;Bootstrap值大于50的均顯示在樹的每個分支節(jié)點上,比例尺為0.5。
如圖3所示,3個噬病毒體的密碼子相對使用偏好分別聚類到3個組:I. GOV2_V3和Mavirus及其海洋鞭毛蟲巨病毒宿主CroV; II. GOV2_V2和Sputnik及其阿米巴蟲巨病毒宿主Mimivirus/Mamavirus; III. GOV2_V1和環(huán)境噬病毒體(如青海湖噬病毒體QLV,有機湖噬病毒體OLV)及其潛在的藻類大病毒宿主。此外,和預(yù)期的一樣,基于分離培養(yǎng)出來的噬病毒體Sputnik 和 Mavirus 分別與它們的病毒宿主 Mimivirus 和 CroV 聚在一起。這證明基于密碼子使用相對頻率規(guī)律可以洞悉噬病毒體潛在的巨病毒宿主。該結(jié)果再次表明,原生動物巨病毒可能是GOV2_V2和GOV2_V3的潛在病毒宿主,而原生動物則是它們的潛在單細(xì)胞真核宿主;GOV2_V1的潛在病毒宿主可能為藻類巨病毒,真核宿主為藻。
PBCV: Paramecium bursaria Chlorella virus; TetV: Tetraselmis virus; CroV: Cafeteria roenbergensis virus; EHV: Emiliania huxleyi virus; OLPV: Organic Lake phycodnavirus. The full names of OLV, QLV and DSLV are shown in Table 1 and Figure 2,respectively. 行代表每個病毒基因組的密碼子使用頻率,列代表密碼子。
在之前的研究中[6],通過檢索環(huán)境宏基因組數(shù)據(jù)庫,調(diào)取噬病毒體相關(guān)序列,發(fā)現(xiàn)噬病毒體廣泛分布于全球水體環(huán)境中,且淡水(尤其是南極洲淡水湖)中噬病毒體的豐度最高,這似乎表明淡水環(huán)境甚至是極端淡水環(huán)境更適合噬病毒體的生長與增殖。此外,目前除了噬病毒體Mavirus是分離培養(yǎng)自海洋環(huán)境外,其余噬病毒體則均分離自淡水或其他環(huán)境中[11]。
為了探究全球海洋環(huán)境中噬病毒體的多樣性特點,我們對全球海洋病毒數(shù)據(jù)庫進行了噬病毒體的序列分析工作。通過噬病毒體序列掃描及鑒定,在南極洲的另一端海域(北冰洋)中獲得了3條完整的新型噬病毒體全基因組序列。系統(tǒng)發(fā)育分析,GOV2_V1與藻類病毒的潛在噬病毒體親緣關(guān)系最近,GOV2_V2/3則與原生動物巨病毒的噬病毒體親緣關(guān)系較近。值得注意的是,在GOV2_V1的基因組上發(fā)現(xiàn)了微單胞藻的同源基因且氨基酸一致性高達66%。同時相關(guān)研究表明,微單胞藻為北極海域的主要微微型浮游植物類群,且具有內(nèi)部結(jié)構(gòu)簡單、無細(xì)胞壁、含鞭毛等特點[16],由此表明,微單胞藻更有可能是GOV2_V1的真核宿主。與此同時,GOV2_V3 ORF20與阿米巴蟲原生動物巨病毒的多功能域蛋白基因有33%的氨基酸一致性,表明噬病毒體在進化過程中與阿米巴蟲原生動物巨病毒有著密切的聯(lián)系。此外,密碼子相對使用頻率分析顯示,GOV2_V2/3與以原生動物為真核宿主的巨病毒及其噬病毒體具有較好的一致性,且GOV2_V3與以海洋鞭毛蟲為真核宿主的巨病毒CroV及其噬病毒體Mavirus更為接近,故也不能排除其宿主病毒和真核宿主為海洋鞭毛蟲巨病毒與海洋鞭毛蟲的可能性。同樣,在GOV2_V3的近親噬病毒體Sputnik和Zamilon的基因組上,我們也發(fā)現(xiàn)它們分別與各自的宿主病毒共享3個(Sputnik中ORF 6、ORF12和ORF13分別與Mimivirus R196,R546和 L206/207有 42.11%、61.34%和21.28%的氨基酸序列一致性)[3]和1個同源基因(Zamilon中ORF8與Moumouvirus Monve的假定蛋白tv_L8有72%的氨基酸序列一致性)[17]。該發(fā)現(xiàn)進一步支持了對GOV2_V3宿主病毒的推測。值得一提的是,在GOV2_V2基因組上,我們還發(fā)現(xiàn)了3個次要衣殼蛋白編碼基因,也是目前含有次要衣殼蛋白編碼基因最多的噬病毒體(之前首次在Sputnik[3]上發(fā)現(xiàn)2個次要衣殼蛋白編碼基因),結(jié)合次要衣殼蛋白主要在病毒衣殼組裝及穩(wěn)定病毒形態(tài)上發(fā)揮重要作用,這似乎增強了GOV2_V2在極端環(huán)境下的存活能力。當(dāng)然,此推測還需后續(xù)實驗加以驗證。
綜上所述,本研究在全球海洋病毒數(shù)據(jù)庫中發(fā)現(xiàn)了3條完整的新型噬病毒體全基因組序列。這些結(jié)果在一定程度上增進了對全球海洋環(huán)境中噬病毒體多樣性的認(rèn)知,同時也為后續(xù)開展海洋中噬病毒體的研究奠定了一定的理論基礎(chǔ)。