祁慧鹓,鄭曉璇,孫明明,王金鋒,馬迎飛,朱 冬,王風(fēng)賀,蔣 新,葉 茂?
(1. 中國科學(xué)院南京土壤研究所,土壤環(huán)境與污染修復(fù)重點實驗室,南京 210008;2. 中國科學(xué)院大學(xué),北京 100049;3. 南京農(nóng)業(yè)大學(xué)資源與環(huán)境科學(xué)學(xué)院,土壤生態(tài)學(xué)實驗室,南京 210095;4. 中國科學(xué)院北京生命科學(xué)研究院,北京 100101;5. 中國科學(xué)院深圳先進技術(shù)研究院,深圳 518055;6. 中國科學(xué)院生態(tài)環(huán)境研究中心,北京 100085;7. 南京師范大學(xué)環(huán)境學(xué)院,南京 210023)
病毒是地球上數(shù)量最多的生命體,廣泛存在于地球各種環(huán)境中[1]。土壤病毒在調(diào)控微生物群落組成、影響元素循環(huán)利用、促進生物進化等方面發(fā)揮重要作用[2-4]。近年來,海洋環(huán)境中病毒生態(tài)學(xué)研究進展迅速,雖然學(xué)術(shù)界逐漸意識到病毒在土壤環(huán)境中發(fā)揮著重要作用,但由于病毒缺少通用的標記基因,以及受到土壤異質(zhì)性、多樣性的限制,陸地系統(tǒng),特別是土壤環(huán)境中病毒研究進展相對緩慢[5-6],土壤病毒學(xué)研究遠落后于海洋等水體環(huán)境[2]。噬菌體是寄生在細菌、古菌等原核生物里的病毒,也是土壤中最主要的病毒類群。單株噬菌體的全基因組測序有助于了解噬菌體的基因組結(jié)構(gòu)及功能特征;而隨著測序技術(shù)的發(fā)展,宏病毒組學(xué)研究日益受到關(guān)注,它擺脫了以往微生物分離純培養(yǎng)的限制,以環(huán)境樣品為研究對象,直接從土壤樣品中富集和提取病毒基因組后進行測序和生物信息學(xué)分析[7-8],為土壤病毒研究提供了新的技術(shù)手段[9]。
由此,本文主要介紹了土壤研究方法及病毒組研究進展,指出了土壤病毒研究當(dāng)前面臨的困境,并對未來的研究方向和發(fā)展趨勢進行了展望,以期為后續(xù)土壤宏病毒研究提供科學(xué)參考。
大部分土壤病毒被土壤顆粒吸附固定,對土壤病毒研究的關(guān)鍵是建立精準、專性、高效的提取方法,獲得吸附于土壤顆粒表面及內(nèi)部的病毒粒子[10]。但土壤環(huán)境復(fù)雜且微生物多樣性高,在提取病毒宏基因組核酸時易混入細菌、真菌等其他微生物的核酸序列,從而影響后續(xù)基因序列分析、功能基因注釋的準確性。因此,土壤病毒提取方法的選擇(如濾膜、提取劑等)對后續(xù)病毒核酸純度、功能基因注釋的準確性具有較大影響。G?ller等[6]分別使用0.22 μm和0.45 μm濾膜過濾病毒,發(fā)現(xiàn)0.22 μm濾膜可去除更多的細菌DNA,且不影響土壤病毒多樣性,而通過0.45 μm孔徑過濾的病毒體中不僅細菌污染程度增加,病毒多樣性也有所下降。Williamson等[11]比較了10%(w/v)的牛肉膏、250 mmol·L-1甘氨酸溶液、10 mmol·L-1焦磷酸鈉和1%(w/v)檸檬酸鉀溶液四種提取劑對粉砂壤土和砂壤土中病毒的提取效果。通過活菌計數(shù)法(也稱間接計數(shù)法,僅測活菌總數(shù))計算提取率,發(fā)現(xiàn)250 mmol·L-1甘氨酸溶液提取率可達28.9%;其次是10%(w/v)牛肉膏,提取率為26.0%;而1%(w/v)檸檬酸鉀溶液和10 mmol·L-1焦磷酸鈉提取率較低,分別為16.9%和15.0%。后續(xù)熒光顯微鏡計數(shù)時,發(fā)現(xiàn)牛肉膏提取物、粉砂壤土中焦磷酸鈉提取物和砂壤土中的甘氨酸提取物均無法計數(shù)類病毒顆粒(virus-like particles,VLPs),故該研究認為1%(w/v)檸檬酸鉀溶液是最佳的土壤病毒提取劑。與此同時,土壤pH、土壤陽離子交換量、溫度、含水量等環(huán)境因子均會影響土壤病毒粒子的提取效率[10]。此外,當(dāng)病毒遺傳物質(zhì)含量較低時,會影響后續(xù)宏病毒組分析,雖可經(jīng)多重置換擴增(multiple displacement amplification,MDA)或引物延伸預(yù)擴增(primer extension preamplification,PEP)等全基因組擴增技術(shù)增加病毒核酸濃度,但這些技術(shù)在擴增產(chǎn)物上可能存在偏好性。為保證結(jié)果的準確性,建議提高原始土壤病毒樣品富集量,再進行宏病毒組基因測序[2]。
第二代測序技術(shù)具有通量高、速度快、成本低的優(yōu)點[12-13],使得宏病毒組研究發(fā)生巨大變化。其中Illumina目前擁有MiSeq、HiSeq、NovaSeq等多個技術(shù)平臺,并有多種讀長和通量模式供選擇。但總體而言,第二代測序技術(shù)仍存在序列讀長短的局限性。近年來,第三代測序技術(shù)的快速發(fā)展在宏病毒組研究中顯示出巨大潛力[14],它無需進行PCR擴增,且具有讀長長的優(yōu)點。隨著第三代測序技術(shù)的不斷成熟及測序成本的降低,預(yù)計它的普及程度將不斷提升。
在含有病毒和宿主的混合基因組數(shù)據(jù)中,鑒定病毒序列是解析病毒信息的關(guān)鍵[15],會直接影響后續(xù)病毒功能基因注釋的效果。目前,識別完整微生物基因組中原噬菌體的工具主要有Phage_Finder[16],Prophinder[17]和PHAST。PHAST速度快、準確性高的優(yōu)勢使其成為極具吸引力的工具,后續(xù)由于序列數(shù)據(jù)庫規(guī)模的擴大及用戶數(shù)量的增加,PHAST發(fā)行了新版本PHASTER[18]。與PHAST相比,新版本的突出優(yōu)勢在于可以識別宏基因組拼接產(chǎn)物的原噬菌體[19]。盡管PHASTER與PHAST是在細菌基因組中鑒別原噬菌體的兩個廣泛使用的工具,但值得注意的是,對預(yù)測的原噬菌體精準程度,如融合位點的位置仍存在一些不確定性[19]。此外,這些軟件大多沒有設(shè)計專門的算法用于相對較短的重疊群或支架,且無法在短時間內(nèi)同時處理大量的序列,因此并不適合從宏基因組數(shù)據(jù)中鑒別病毒序列[15]。2015年Roux等[20]開發(fā)了一款工具—VirSorter,不僅可識別完整微生物基因組中的原噬菌體,還可用于檢測拼接宏基因組數(shù)據(jù)中的病毒序列。VirSorter雖然在很大程度上依賴于對已有病毒基因組的相似性搜索,但它卻使用了一個自定義的病毒參考基因組數(shù)據(jù)庫,增加了從淡水、海水、人體腸道、肺和唾液中取樣的宏病毒組序列[15]。2017年Ren等[15]開發(fā)了一款基于k-mer的工具VirFinder,用于從宏基因組數(shù)據(jù)中識別原核病毒序列。與基于基因的病毒分類工具VirSorter相比,VirFinder在識別病毒序列方面明顯優(yōu)于VirSorter。在模擬數(shù)據(jù)集中,VirFinder從1、3和5 kb序列中識別病毒序列的真陽性率分別較VirSorter高78倍、2.4倍和1.8倍;其假陽性率與VirSorter相同,表明VirFinder真陽性更高、對短片段序列的識別效果更好[15]。但這兩款軟件也有其局限性,VirSorter和VirFinder為檢測細菌和古細菌病毒而優(yōu)化設(shè)計,不能很好地檢測真核病毒;且兩者在微生物群落中對病毒分析的功能相對有限,在鑒定出病毒序列后,沒有進一步分析病毒與宿主的對應(yīng)關(guān)系。相比之下,VirMiner是一款病毒預(yù)測與分析宏病毒組樣本的綜合工具[21],能夠捕獲到高豐度的噬菌體序列,這些噬菌體在感染細菌和影響微生物群落動態(tài)方面起著關(guān)鍵作用;更重要的是,VirMiner提供了更全面的噬菌體分析流程,包括宏基因組原始讀段處理、功能注釋、噬菌體序列鑒定、噬菌體-宿主侵染關(guān)系預(yù)測;此外,當(dāng)宏基因組序列包括不同條件的數(shù)據(jù)(如處理組和對照組)時,還可支持不同組之間的統(tǒng)計比較。
病毒功能基因注釋是將預(yù)測出的編碼基因通過與相關(guān)數(shù)據(jù)庫的參考序列進行比對,在與現(xiàn)有病毒進行同源性搜索的基礎(chǔ)上,獲取該基因的功能信息。通過對病毒功能基因注釋,不僅為深入認識病毒個體生命過程提供理論基礎(chǔ);還有助于了解病毒群落的生態(tài)過程及與宿主群落的生態(tài)互作關(guān)系,從而闡釋病毒與宿主、環(huán)境間復(fù)雜的相互作用機制。本文重點從單個噬菌體的全基因組測序及土壤宏病毒組兩方面闡釋了土壤病毒的功能基因注釋。
單個土壤噬菌體的全基因組注釋流程,首先從土壤篩選分離得到噬菌體,經(jīng)純化、濃縮后采用透射電子顯微鏡觀察其形態(tài)特征;隨后提取噬菌體核酸,進行全基因組測序,在過濾掉低質(zhì)量序列后進行全基因組序列組裝,并通過注釋軟件等在線工具,對噬菌體全基因組序列進行功能注釋[22]。
土壤宏病毒組的功能基因注釋由土壤樣品制備與宏病毒組分析兩個主要部分組成(圖1),具體步驟包括:(1)根據(jù)研究目的從相應(yīng)的土壤中采集樣本,并根據(jù)病毒類型、土壤理化性質(zhì)等選擇合適的緩沖液進行土壤病毒提取,隨后對提取液進行過濾,去除細菌等其他潛在宿主,進而濃縮富集、純化病毒;(2)通過病毒核酸提取試劑盒或手工提取的方式獲取病毒核酸、構(gòu)建測序文庫、并通過測序平臺進行宏病毒組測序;(3)對測序得到的原始數(shù)據(jù)進行質(zhì)量控制,基于重疊區(qū)(overlap)將高質(zhì)量測序讀段(reads)拼接為重疊群(contigs),進一步組裝成支架(scaffolds);(4)通過病毒序列識別軟件在重疊群或支架中判別、篩選出病毒序列;(5)使用基因預(yù)測軟件對病毒基因組ORF進行預(yù)測,再通過注釋工具將ORF與多個數(shù)據(jù)庫比對進行功能基因注釋;(6)自動注釋后,為保證結(jié)果準確性,可手動修正自動注釋結(jié)果并進行適當(dāng)補充。
目前,普遍采用與各種數(shù)據(jù)庫進行蛋白質(zhì)序列比對的方法,對樣本中的基因功能進行注釋分析。在注釋過程中,研究人員通常根據(jù)自身需求選擇合適的功能數(shù)據(jù)庫。其中Pfam數(shù)據(jù)庫是一個基于多序列比對和隱馬爾可夫模型的蛋白質(zhì)結(jié)構(gòu)域和家族數(shù)據(jù)庫,可提供蛋白質(zhì)家族和結(jié)構(gòu)域的完整準確分類,被廣泛用于查詢蛋白家族或蛋白結(jié)構(gòu)域的注釋,結(jié)構(gòu)及多序列比對信息,在基因功能注釋上可用性較強[23-24]。它有A和B 兩個質(zhì)量級別的家族數(shù)據(jù)庫,Pfam A通過比對人工校正過的種子序列,并使用隱馬爾可夫模型進行選擇,數(shù)據(jù)質(zhì)量較高;Pfam B為算法自動生成,雖可靠性降低,但也可以被用于鑒別功能保守的區(qū)域。GO(gene ontology)數(shù)據(jù)庫分別從細胞學(xué)組件、分子功能、生物學(xué)途徑對基因表達產(chǎn)物進行簡單注釋。經(jīng)GO數(shù)據(jù)庫注釋后,可得到基因在不同類別中注釋的具體情況。而KEGG(kyoto encyclopedia of genes and genomes)是一個系統(tǒng)分析基因功能的知識庫,核心為KEGG PATHWAY數(shù)據(jù)庫。利用KEGG進行注釋后,能清楚地反映出基因與相關(guān)代謝的關(guān)系[25]。COG(clusters of orthologous groups)數(shù)據(jù)庫是由NCBI創(chuàng)建并維護的蛋白數(shù)據(jù)庫[26]。隨著測序技術(shù)的發(fā)展,COG陸續(xù)在不同物種中建立相關(guān)的同源蛋白簇?;谕暾删w基因組中的編碼蛋白系統(tǒng)進化關(guān)系,構(gòu)建而成的POG(phage orthologous groups)數(shù)據(jù)庫便是其中的一個分支[27]。通過比對,可將某個特定蛋白序列注釋到一個由直系同源序列構(gòu)成的POG中,從而推測該序列的功能。此外,POG數(shù)據(jù)庫包含了進化過程中基因得失信息,還可用于系統(tǒng)發(fā)育的統(tǒng)計推斷和祖先基因組的重建[27]。CAZy(carbohydrate-active enzyme)數(shù)據(jù)庫則針對性較強,是一類與合成或分解復(fù)雜碳水化合物和糖復(fù)合物酶類有關(guān)的數(shù)據(jù)庫,可提供碳水化合物酶類物種來源、酶功能分類、基因序列、蛋白質(zhì)序列及其結(jié)構(gòu)等信息[28]。還有一些小眾數(shù)據(jù)庫,如抗性基因數(shù)據(jù)庫CARD(comprehensive antibiotic resistance database)在細菌耐藥性的分子基礎(chǔ)上,提供了參考DNA和蛋白質(zhì)序列、檢測模型和生物信息學(xué)工具[29]。ARO(antibiotic resistance ontology)是該數(shù)據(jù)庫的核心,包含了與抗生素抗性基因、抗性機制、抗生素相關(guān)的條目。通過與該數(shù)據(jù)庫進行比對,可得到與耐藥基因相關(guān)的注釋信息。
噬菌體是土壤中最主要的病毒類群,對單個噬菌體進行全基因組測序和功能基因注釋,有助于探明該噬菌體的基因信息和功能特征,進而挖掘該噬菌體在環(huán)境修復(fù)、疾病治療等實際應(yīng)用中的巨大潛力。如近年來,噬菌體療法作為一種可以高效靶向追蹤滅活土壤體系中致病細菌的有效手段而日益受到關(guān)注[30],故分離篩選出新型烈性噬菌體菌株資源對于噬菌體療法具有重要意義。但由于一些噬菌體攜帶毒力基因等原因,導(dǎo)致噬菌體防治存在“雙刃劍”風(fēng)險[31]。因此,從土壤中分離單株噬菌體,并對其進行全基因組測序、功能基因注釋有助于我們更好的了解噬菌體的基因組結(jié)構(gòu)及功能特征。
借助Web of Science核心合集以“complete genome sequence”和“phage”為關(guān)鍵詞進行檢索,在2000年-2020年時間段內(nèi)共有1 508篇相關(guān)文獻。發(fā)現(xiàn)近20年該領(lǐng)域發(fā)文量呈現(xiàn)整體上升趨勢(圖2a)。隨后利用VOSviewer[32]可視化分析軟件對關(guān)鍵詞進行聚類分析(圖2b)。圖中節(jié)點大小表示關(guān)鍵詞出現(xiàn)的頻率,顏色反映不同時間的研究熱點,其中黃色部分代表了較為前沿的關(guān)鍵詞。總體而言,“開放閱讀框 open reading frame”、“原噬菌體prophage”、“病原體pathogen”、“表征 characterization”、“作用 role”是出現(xiàn)頻率較高的詞,表明對噬菌體的研究主要聚焦于其形態(tài)和功能。值得注意的是,“土壤soil”、“抗生素抗性antibiotic resistance”、“噬菌體療法phage therapy”是近幾年出現(xiàn)的關(guān)鍵詞?!巴寥?soil”的出現(xiàn)表明土壤噬菌體領(lǐng)域的研究將日益受到重視;此外,由于近年來土壤中抗生素抗性基因的增多、超級細菌的出現(xiàn),噬菌體療法可能成為未來土壤中病原細菌滅活的重要手段。因此,研發(fā)對病原細菌具有廣譜性的混合噬菌體雞尾酒制劑,探明噬菌體療法對于土壤微生物群落結(jié)構(gòu)、功能及養(yǎng)分循環(huán)的影響可能是未來土壤噬菌體領(lǐng)域的研究熱點。
蘇靖芳等人[31]以引起煙草以及多種茄科植物產(chǎn)生萎蔫癥的青枯雷爾氏菌(Ralstonia solanacearum)為宿主,采用雙層平板法從煙田土壤中分離出一株烈性噬菌體RS-PII-1。隨后對噬菌體RS-PII-1進行全基因組測序,并通過RAST在線軟件對噬菌體全基因組序列進行功能注釋,發(fā)現(xiàn)該基因組含有46個ORF,其中25個ORF可被注釋為相應(yīng)的功能蛋白、結(jié)構(gòu)蛋白,但仍存在21個功能未知的ORF假想蛋白(hypothetical protein)。通過與已知噬菌體全基因組序列比較分析以及噬菌體RS-PII-1系統(tǒng)進化樹的構(gòu)建,發(fā)現(xiàn)噬菌體RSJ2、RSB1與RS-PII-1相似度最高,但噬菌體RS-PII-1基因組中功能蛋白和假想蛋白區(qū)域與兩株噬菌體仍存在明顯差異,表明RS-PII-1是一株全新的青枯雷爾氏菌烈性噬菌體,這對防控由青枯雷爾氏菌引起的細菌性病害具有較強的應(yīng)用意義。蠟狀芽孢桿菌(Bacillus cereus)可導(dǎo)致人體腹瀉、嘔吐等食源性中毒,Hock等[33]從土壤中分離出一株感染蠟狀芽孢桿菌的長尾病毒科噬菌體Deep-Purple,隨后對該噬菌體進行全基因組測序、預(yù)測潛在編碼序列(coding sequence,CDS),并對CDS進行功能注釋。結(jié)果表明,CDS可分為結(jié)構(gòu)相關(guān)蛋白(structural related proteins)、DNA復(fù)制轉(zhuǎn)錄(DNA replication and transcription)、DNA包裝(DNA packaging)及宿主裂解(host lysis)四個功能組。同時發(fā)現(xiàn),該噬菌體不存在編碼潛在毒力因子的基因,且具有熱穩(wěn)定性、pH穩(wěn)定性的特點,研究人員認為噬菌體Deep-Purple可作為治療由蠟狀芽孢桿菌引起的食物中毒的潛在藥物。綜上所述,全基因組測序下的土壤噬菌體研究不僅有助于了解土壤中新型噬菌體的結(jié)構(gòu)和功能,在致病菌引起的細菌性病害治療方面也具有積極意義。
宏病毒組主要對種群結(jié)構(gòu)、基因功能活性、病毒與宿主的協(xié)作關(guān)系以及與環(huán)境之間的聯(lián)系進行探究,這為土壤環(huán)境微生物群落的研究提供了有力支撐[9,34]。病毒識別及其功能基因注釋是其中一個重要環(huán)節(jié),在完成數(shù)據(jù)質(zhì)控、基因組裝、基因預(yù)測等過程后,將預(yù)測的病毒編碼基因與COG、eggNOG[35]等數(shù)據(jù)庫比對,獲得病毒功能信息。表1對近年來土壤病毒組研究中具有代表性的功能基因進行總結(jié),以揭示病毒與宿主群落的相互作用機制及其在元素生物地球化學(xué)循環(huán)中的作用機理。
表1 典型土壤病毒基因組功能基因及作用Table 1 Typical functional genes of soil viral genome
Jin等[36]在中國廣西和海南三個紅樹林生境采集樣本,研究了紅樹林土壤病毒功能多樣性。通過將預(yù)測的病毒ORF與eggNOG數(shù)據(jù)庫進行比對,發(fā)現(xiàn)大多數(shù)ORF無法獲得注釋信息,但有138個ORF可以注釋到與碳水化合物活性酶(carbohydrate-active enzyme,CAZyme)相關(guān)的基因。隨后,經(jīng)過CAZy數(shù)據(jù)庫的進一步注釋,顯示糖苷水解酶類(glycoside hydrolases)ORF最為豐富,其次是糖基轉(zhuǎn)移酶類(glycosyl transferases)、碳水化合物結(jié)合模塊(carbohydrate-binding modules)等。這表明病毒可通過復(fù)雜多糖的生物分解直接調(diào)控碳循環(huán),揭示了病毒在有機碳分解中的重要作用。Bi等[37]在中國西南部地區(qū)采集了4個玉米根際土壤及4個非根際土壤樣本,探究農(nóng)業(yè)生態(tài)系統(tǒng)中病毒的多樣性及其對潛在生物地球化學(xué)循環(huán)的影響機制。通過對土壤病毒組進行測序,將測序讀段組裝成237個長度為10 kb以上的重疊群,并通過VirSorter軟件鑒定病毒序列。對這些土壤病毒進行功能基因注釋,共有40個基因被鑒定為溶菌酶或幾丁質(zhì)酶,可用于降解宿主細胞壁。此外,共鑒定出了48個ORF與碳水化合物活性酶相關(guān),包括碳水化合物結(jié)合模塊、碳水化合物酯酶(carbohydrate esterases)及糖苷水解酶。表明病毒可能編碼改變宿主活性的輔助代謝基因,間接參與土壤碳元素的生物地球化學(xué)循環(huán)。值得注意的是,研究人員發(fā)現(xiàn)該農(nóng)業(yè)土壤中病毒的大多數(shù)CAZyme基因與紅樹林土壤中的病毒并不同[36],認為病毒編碼的酶可能具有環(huán)境特異性。Segobola等[38]通過宏病毒組技術(shù)對灌木土壤的病毒群落進行探究。經(jīng)過病毒基因組測序、組裝及功能基因注釋,發(fā)現(xiàn)組裝后最長的重疊群近乎一個完整的噬菌體基因組。該基因組的基因15和基因16分別對應(yīng)末端酶大亞基和小亞基基因,參與了噬菌體雙鏈DNA的裂解和包裝;基因34的翻譯產(chǎn)物被識別為假定的ERF超家族蛋白,可參與噬菌體基因組的重組;基因41的翻譯產(chǎn)物被鑒定為gp77蛋白,與分枝桿菌(Mycobacterium)噬菌體Che9d編碼的同源物有95%的相似性,該蛋白在噬菌體復(fù)制的早期起到關(guān)閉基因(shut-off genes)的作用。通過KEGG Orthology(KO)數(shù)據(jù)庫對宏病毒組進行分析,發(fā)現(xiàn)相關(guān)代謝蛋白(如碳水化合物代謝、氨基酸代謝和核苷酸代謝)識別率最高,表明土壤病毒很可能干擾宿主的新陳代謝。Liang等[39]從美國東南部農(nóng)業(yè)區(qū)老成土(美國土壤分類系統(tǒng)的一個土綱)中提取病毒。通過對土壤表層(0~16 cm)和亞表層(55~92 cm)病毒組基因序列進行組裝、分類,隨后采用VIROME對ORF進行功能基因注釋,發(fā)現(xiàn)大量病毒組序列功能未知,50.3%的預(yù)測蛋白在所比對的數(shù)據(jù)庫中沒有顯著同源性;有35.4%~38.7%的ORF被注釋為與宿主代謝途徑相關(guān),如細胞信號(cell signaling)、氧化磷酸化(oxidative phosphorylation)、遺傳信息處理(genetic information processing)和磷、蛋白質(zhì)及碳水化合物的代謝(metabolisms of phosphorous,protein,and carbohydrates)等。此外,研究人員還在病毒組中發(fā)現(xiàn)了豐富的碳水化合物代謝(carbohydrate metabolism)基因,表明病毒可能參與土壤碳循環(huán)的調(diào)節(jié)。值得注意的是,在亞表層土壤病毒組中檢測到的功能蛋白(除參與氧化磷酸化的蛋白質(zhì))編碼基因豐度比表層土壤病毒體高16倍,表明亞表層土壤病毒雖密度較低,但可能與微生物介導(dǎo)的過程密切相關(guān);與噬菌體感染循環(huán)(即噬菌體溶源、裂解循環(huán)和原噬菌體誘導(dǎo))和噬菌體結(jié)構(gòu)成分(如噬菌體衣殼)相關(guān)的蛋白標準化豐度(normalized abundances)在亞表層土壤病毒組中也更高,這可能與病毒宿主在貧瘠營養(yǎng)條件下的協(xié)同進化有關(guān)。由此可得,病毒在調(diào)控土壤中營養(yǎng)元素生物地球化學(xué)循環(huán),調(diào)節(jié)宿主新陳代謝及微生物群落結(jié)構(gòu)方面發(fā)揮重要作用。
Gao等[40]于廣東某鉛鋅礦尾礦庫采集樣本,研究高度分層硫化尾礦中病毒群落組成和功能特征。通過將預(yù)測的病毒蛋白與eggNOG數(shù)據(jù)庫比對,進行了病毒基因組直系同源基因簇COG的注釋分析。發(fā)現(xiàn)地表尾礦由于存在大量古菌和古菌病毒,導(dǎo)致大多數(shù)COG注釋困難;反之,以細菌為主的深層病毒群落存在著大量與同化硫酸鹽還原、轉(zhuǎn)座酶、DNA復(fù)制、噬菌體整合酶和重組酶相關(guān)的COG。隨后研究者試圖確定病毒編碼的輔助代謝基因,發(fā)現(xiàn)深層病毒群落含有豐富的同化硫酸鹽還原輔助代謝基因,這有利于宿主利用硫酸鹽,進而促進病毒的復(fù)制和繁殖。Daly等[41]對水力壓裂井中病毒與宿主的相互作用動力學(xué)進行探究,施加應(yīng)激源對菌株(Halanaerobium. congolenseWG8)進行原噬菌體誘導(dǎo)實驗,并對病毒核酸進行純化、測序、基因注釋。結(jié)果顯示,病毒基因組中存在與整合酶(integrase)、切除酶(excisionase)、假想蛋白以及轉(zhuǎn)座酶(transposase)相關(guān)的基因;同時發(fā)現(xiàn),其中一個基因被注釋為重疊感染排斥蛋白(superinfection exclusion protein)基因,推測該基因的存在可能有助于維持宿主容納原噬菌體與細胞裂解的平衡。Bezuidt等[42]在南極土壤群落中使用VirSorter工具從宏基因組序列數(shù)據(jù)中組裝了793個重疊群。通過病毒基因組數(shù)據(jù)庫對其進行分類注釋,有645個contigs被定義為病毒,且560個被進一步劃分為有尾噬菌體目。隨后使用eggNOG數(shù)據(jù)庫進行功能分析,發(fā)現(xiàn)噬菌體具有促進宿主感染的基因,如編碼幾丁質(zhì)酶的基因,可參與宿主生物膜的降解。此外,eggNOG 功能分析也揭示了增強噬菌體毒性基因的存在,其中編碼甲基轉(zhuǎn)移酶的基因最為豐富,該基因編碼的酶有利于噬菌體規(guī)避宿主的限制修飾(restriction-modification,RM)系統(tǒng)。這一結(jié)果表明,噬菌體可能在面臨進化壓力時發(fā)展出對宿主的規(guī)避機制。Adriaenssens等[43]對納米比亞沙漠巖石下生物宏病毒組進行探究,發(fā)現(xiàn)大多數(shù)病毒為有尾噬菌體目,其中長尾病毒科是最常見的病毒型。通過功能基因注釋,有3%的基因被MG-RAST分類為“毒力、疾病、防御”(virulence,disease and defense)子系統(tǒng),相應(yīng)的編碼序列被鑒定為來自致病細菌的假想蛋白或噬菌體相關(guān)蛋白,如整合酶和復(fù)制蛋白(replication proteins)。此外,研究人員還發(fā)現(xiàn)噬菌體中存在與磷酸鹽調(diào)節(jié)相關(guān)的輔助代謝基因phoH,并通過MetaVir鑒定出18條完整的phoH基因和23條部分phoH序列。而在用極大或然法構(gòu)建的系統(tǒng)發(fā)生樹卻顯示大部分沙漠巖石下病毒phoH氨基酸序列與NCBI數(shù)據(jù)庫中的完整噬菌體基因組序列關(guān)系較遠,且海洋和沙漠巖石下病毒phoH基因分布在不同的進化枝上,表明納米比亞沙漠巖石中存在獨特的噬菌體phoH基因序列。值得注意的是,該病毒樣本中沒有發(fā)現(xiàn)與光合作用或營養(yǎng)脅迫相關(guān)的宿主衍生基因,推測此生境中phoH基因較其他輔助代謝基因發(fā)揮更重要的作用。Emerson等[44]在瑞典斯托達倫沼澤地的泥炭巖芯處,采集了三個不同棲息地的病毒樣本,從中獲得了53個vOTUs(viral operational taxonomic units),發(fā)現(xiàn)僅有約30%的基因可被注釋,該結(jié)果可以佐證土壤是大量未知病毒遺傳多樣性的儲存庫[45]。此外,在13個vOTUs中鑒定出多個參與多糖結(jié)合(polysaccharide binding)、多糖降解(polysaccharide degradation)、中心碳代謝(central C metabolism)及孢子形成(sporulation)的輔助代謝基因。病毒的中心碳代謝基因可能在感染宿主期間增加核苷酸和能量產(chǎn)生;調(diào)節(jié)內(nèi)孢子形成過程中的兩個輔助代謝基因spoVS和whiB分別有助于形成隔膜和外套,從而提高孢子的耐熱性。這揭示了病毒在介導(dǎo)碳代謝、土壤有機質(zhì)降解、多糖結(jié)合和孢子形成過程中的調(diào)控作用。
上述案例揭示病毒不僅在農(nóng)業(yè)土壤中與宿主、環(huán)境之間存在復(fù)雜的相互作用聯(lián)系,而且在極端、特殊的陸地環(huán)境中對調(diào)控微生物群落組成、影響生物地球化學(xué)循環(huán)、促進生物協(xié)同進化等方面也具有巨大潛能。
現(xiàn)階段學(xué)術(shù)界對土壤病毒及其功能基因的科學(xué)認知依然十分有限?;诓《窘M學(xué)領(lǐng)域的發(fā)展趨勢,今后土壤病毒組研究方向主要聚焦在以下方面:
1)土壤病毒主要通過微孔濾膜過濾的方式進行富集,該方法易將較大的病毒類型(如最近發(fā)現(xiàn)的巨型噬菌體)屏蔽在外[46-47],從而缺乏對此類病毒功能基因的認識;此外,目前的研究主要聚焦于DNA 病毒,對RNA病毒研究較少。未來需研發(fā)針對巨型病毒的提取和富集技術(shù)、關(guān)注土壤RNA病毒的基因功能,這有助于學(xué)者探明土壤整體病毒的生態(tài)功能及作用機制。
2)現(xiàn)階段土壤病毒的提取、宏病毒組分析等缺乏統(tǒng)一技術(shù)規(guī)范。開發(fā)宏病毒組研究獨有的新方法,逐步規(guī)范技術(shù)流程,制定可以廣泛通用于土壤宏病毒組分析的技術(shù)導(dǎo)則和標準十分必要。
3)目前病毒功能基因注釋較為費時費力,即使通過自動注釋也因其準確性不足,需后期人工注釋進行修正,因此未來需開發(fā)更加高效、準確的生物信息學(xué)工具,識別病毒并注釋其基因組中的基因功能。
4)土壤病毒學(xué)的研究還處于起步階段,病毒基因組測序的數(shù)量遠落后于相應(yīng)宿主細菌的基因組測序數(shù)量,通過同源蛋白對土壤病毒基因組上的蛋白功能進行注釋時,由于病毒ORF更短、進化更快,以及全球病毒取樣的有限性、數(shù)據(jù)庫較小等原因,導(dǎo)致部分ORF找不到匹配的功能注釋。故仍需大力發(fā)展全基因組擴增技術(shù)和測序技術(shù),不斷完善土壤病毒資源庫,為病毒功能基因注釋提供有力支撐。
5)關(guān)注土壤病毒群落與宿主菌群的生態(tài)關(guān)系,進一步探究土壤病毒群落在元素生物地球化學(xué)循環(huán)中的直接與間接調(diào)控作用,深入探明土壤病毒與污染物的響應(yīng)機制。
致 謝 衷心感謝美國Rice大學(xué)土木與環(huán)境工程系俞萍鋒博士在本文撰寫和修改過程中給予的學(xué)術(shù)指導(dǎo)和建議。