生物信息學(xué)在微生物生態(tài)學(xué)中的應(yīng)用
李靖宇
(北方民族大學(xué)生物科學(xué)與工程學(xué)院,寧夏銀川 750021)
摘要高通量測序技術(shù)的快速發(fā)展極大地推動了微生物多樣性的研究,各種生物信息學(xué)軟件的開發(fā)用于分析由此產(chǎn)生的大量基因信息。綜述了生物信息學(xué)在微生物生態(tài)學(xué)中的應(yīng)用以及相關(guān)軟件和數(shù)據(jù)庫在α、β-多樣性研究中的應(yīng)用。
關(guān)鍵詞生物信息學(xué);微生物生態(tài)學(xué);應(yīng)用
中圖分類號S188;X172
基金項目北方民族大學(xué)引進(jìn)人才科研啟動項目(44/4400302502)。
作者簡介李靖宇(1986-),男,內(nèi)蒙古包頭人,講師,從事環(huán)境微生物學(xué)研究。
收稿日期2015-06-11
Application of Bioinformatics in Microbial Ecology
LI Jing-yu (College of Biological Science & Engineering, Beifang University of Nationality, Yinchuan, Ningxia 750021)
AbstractThe rapid development of high-throughput sequencing technology has greatly promoted the study of microbial diversity, and various development of bioinformatics software was used to analyze a large number of genes generated by using this technology. This paper summarizes application of bioinformatics in microbial ecology and their corresponding software and synthesis databases used in α, β-diversity studies.
Key words Bioinformatics; Microbial ecology; Application
微生物生態(tài)學(xué)的主要任務(wù)之一是研究不同環(huán)境中微生物類群的組成、結(jié)構(gòu)以及生態(tài)功能。其中多樣性研究是一項重要的內(nèi)容,目前的研究手段主要是基于可培養(yǎng)的方法和基于DNA技術(shù)的分子生物學(xué)方法。后者粗略地可分為指紋圖譜技術(shù)與測序技術(shù)兩大類。所有這些技術(shù)或方法的建立,都是為了解決微生物生態(tài)學(xué)的一個核心問題,最大限度地描述自然環(huán)境中微生物的群落組成或者是群落結(jié)構(gòu)的時空動態(tài)變化過程。在描述的環(huán)節(jié)中,需要獲得一些具體參數(shù),直觀地表現(xiàn)自然環(huán)境中微生物群落的基本情況。一般從以下幾個方面來描述,主要有特定環(huán)境中微生物各類群的組成情況、相對豐度,多樣性指數(shù)(如Shannon、Simpson指數(shù)等)以及估計物種總數(shù)的指數(shù)(如Richness、ACE、Chao1),物種親緣關(guān)系分析,分類學(xué)鑒定等內(nèi)容?;诓煌夹g(shù)對微生物多樣性,即通過指紋圖譜技術(shù)或測序技術(shù)來描述,后續(xù)所需要的分析手段不同。這2種技術(shù)獲得數(shù)據(jù)主要以圖譜的形式和基因序列的形式呈現(xiàn),特別是近幾年高通量測序技術(shù)的快速發(fā)展,產(chǎn)生了大量的基因序列信息,雖然可以人工處理這些數(shù)據(jù),但費時費力、易產(chǎn)生人為錯誤等,這就需要引入新的、高效的分析手段,因此,生物信息學(xué)在微生物生態(tài)學(xué)研究中的應(yīng)用受到了廣泛關(guān)注。
1 生物信息學(xué)軟件概述
針對微生物生態(tài)研究的技術(shù)手段,后續(xù)分析的各種生物信息學(xué)軟件快速發(fā)展,主要包括基礎(chǔ)分析的軟件,如ClusterW、CLC Sequence Viewer、BioEdit、ARB等;親緣關(guān)系分析的軟件,如Mage、Phylip、PAUP、ARB等;指紋圖譜分析軟件,如Quantity One、T-Alin、T-REX等;群落結(jié)構(gòu)比較的軟件,如Libshuff、∫- Libshuff 、UniFrac、Fast-UniFrac等;多樣性指數(shù)分析軟件,如DOTUR等;序列提交的軟件,如Sequin、BankIt、Sequence Read Archive等;高通量數(shù)據(jù)/綜合分析軟件,如Mothur、Qiime、RDP Pipeline等。基于培養(yǎng)或基于DNA分子技術(shù)獲得微生物物種基因信息,可以在NCBI/EMBL/DDBJ、RDP以及Silva數(shù)據(jù)庫中進(jìn)行比對、分類鑒定(圖1)[1-21]。
這些軟件是基于Pyton、C++、Java、PHP、Perl等語言編寫的,可以在線使用,也可以下載使用,具體要求針對不同軟件而有所不同,大多數(shù)軟件可以在Windows、Linux、Mac OS 等系統(tǒng)下安裝與運行,有一些軟件在Windows下無法安裝與運行,需要在Windows系統(tǒng)上安裝Virtual Box來運行這些軟件,如Qiime軟件。但這些軟件都帶有詳細(xì)、具體的使用操作說明,所以很容易學(xué)習(xí)與使用[1-21]。
2生物信息學(xué)軟件的應(yīng)用
生物信息學(xué)軟件的進(jìn)步提高了解釋相關(guān)微生物生態(tài)學(xué)問題的能力。伴隨著軟件,如ARB、DOTUR、LIBSHUFF、UniFrac、HOMOVA、AMOVA、TreeClimber以及rRNA數(shù)據(jù)庫的快速發(fā)展(表1),微生物生態(tài)學(xué)已經(jīng)從描述性階段發(fā)展到試驗嘗試階段。雖然這些工具已廣泛使用,但隨著測序能力的不斷提高以及研究內(nèi)容越來越復(fù)雜,這些軟件還有許多局限之處。首先,對于一些容易使用的rRNA數(shù)據(jù)庫擁有在線分析工具,主要包括序列比對、基因信息物種分類、分析流程;然而,這些工具只能做有限的一般性分析,值得疑問的是把巨大的數(shù)據(jù)集通過互聯(lián)網(wǎng)進(jìn)行分析是不是一個可持續(xù)的實踐。第二,許多現(xiàn)有軟件的開發(fā)僅適用于分析102~104條序列。隨著序列數(shù)量的不斷增多,至關(guān)重要的是把現(xiàn)有的軟件進(jìn)行重構(gòu),使用更高效的算法。此外,盡管已經(jīng)使用腳本語言,如Perl和Python用于在線分析較小的數(shù)據(jù)集,但它們相比用C和C++編寫的代碼在運行速度上慢得多。最后,現(xiàn)有軟件的特征限制了他們的集成和進(jìn)一步發(fā)展。隨著測序能力的不斷提高以及研究內(nèi)容越來越復(fù)雜,關(guān)鍵的問題是軟件的開發(fā)要靈活和易于維護(hù)。Mothur是美國密歇根大學(xué)的Patrick D. Schloss在2009年開發(fā)的一個獨立的數(shù)據(jù)處理平臺,它的前身是Dothur軟件。Mothur軟件使用現(xiàn)代的面向?qū)ο蟮木幊滩呗裕肅++編寫,無需安裝,在Windows、Linux和Mac OS系統(tǒng)上都可以運行。它整合了Pyrosequencing pipeline (RDP)、NAST、SINA、RDP aligners、DNADIST、DOTUR 、CD-HIT、SONS、TreeClimber、∫- Libshuff 和UniFrac,在運算法則上做了一些改進(jìn),使得Mothur這個軟件更加靈活、速度更快、資源利用效率更高。但Mothur不能夠直接出圖,必須依賴于其他軟件,如R語言。除羅氏454數(shù)據(jù)處理外,Mothur目前也有了針對Illumina數(shù)據(jù)的處理方式,從Mothur官方網(wǎng)頁上即可以看到Patrick D. Schloss寫的標(biāo)準(zhǔn)數(shù)據(jù)處理流程[1]。
另一個被廣泛使用的高通量數(shù)據(jù)處理平臺是QIIME(Quantitative Insights Into Microbial Ecology),是美國科羅拉多Rob Knight及其開發(fā)團(tuán)隊等于2009年開發(fā)出來的。QIIME只能在Mac OS和Linux系統(tǒng)上運行,也可以通過在Windows系統(tǒng)上安裝Virtual Box來運行。QIIME支持多種微生物群落結(jié)構(gòu)的分析與可視化,包括網(wǎng)絡(luò)分析、樣品內(nèi)或樣品間多樣性的直方圖以及分析是否在特定的棲息地存在具有代表性的“核心”微生物類群。QIIME還提供了允許用戶與數(shù)據(jù)進(jìn)行交互的圖形化顯示。軟件的實現(xiàn)是高度模塊化的,并大量使用單元測試確保結(jié)果的準(zhǔn)確性。這種調(diào)整可以使具有其他功能的選擇性組件,如選擇操作分類單元,序列比對,推斷系統(tǒng)發(fā)育樹和基于系統(tǒng)發(fā)育和分類單元的樣品內(nèi)及樣品間多樣性分析(包括第三方應(yīng)用程序的整合)變得容易被集成與整合[2]。
無論使用哪個軟件,都可以很好地處理細(xì)菌16S rRNA的高通量測序數(shù)據(jù),因為Mothur和QIIME都包含了細(xì)菌16S rRNA比對和分類的數(shù)據(jù)庫。如果是古菌16SrRNA的數(shù)據(jù),雖然RDP、Greengenes、SILVA等數(shù)據(jù)庫可以用來分析多樣性,但分類效果較差。因為古菌的純培養(yǎng)很少,分類仍處于發(fā)展階段。如果是功能基因,就面臨更大的難題。數(shù)據(jù)處理的難點主要有:第一,比對沒有可供使用的參考數(shù)據(jù)庫;第二,分類需要序列經(jīng)過比對之后,分成不同的OTU,然后從每個OTU中選擇一個代表序列,通過BLAST進(jìn)行分類。鑒于這些缺陷與不足,目前對于研究功能基因的微生物生態(tài)學(xué)問題,可以使用基因芯片(microarray)以及DGGE或者是T-RFLP等方法[1-2]。
末端限制性片段長度多態(tài)性(T-RFLP)是研究微生物群落的另一種高通量技術(shù),可以產(chǎn)生大量復(fù)雜的數(shù)據(jù)集。盡管在不斷地完善與改進(jìn),這些數(shù)據(jù)的分析還是需要很多步驟和數(shù)據(jù)操作才能解釋這些結(jié)果。這些步驟通常成為數(shù)據(jù)分析的障礙,浪費時間,且容易引入人為的分析錯誤。目前,分析數(shù)據(jù)的最大障礙主要有:第一,真?zhèn)畏宓膮^(qū)分;第二,所有樣品中峰值的比對;第三,從原始數(shù)據(jù)創(chuàng)建一個關(guān)于樣品的二維數(shù)據(jù)矩陣;第四,數(shù)據(jù)矩陣的快速處理;第五,確定哪一種多變量分析更適合某一特定的數(shù)據(jù)集。為了克服這些障礙,可以通過T-REX、TAP-TRFLP、MiCA、PAT、TRAMPR對T-RFLP技術(shù)產(chǎn)生的數(shù)據(jù)進(jìn)行有效的分析[3-7]。但這些程序之間的特性和功能差別很大,大多數(shù)程序最初并不主要是用來分析T-RFLP數(shù)據(jù)的。T-REX是一個免費的、基于Web的工具,只需通過Web瀏覽器聯(lián)網(wǎng)即可對T-RFLP數(shù)據(jù)進(jìn)行分析[7]。這個程序的具體使用在官網(wǎng)上有詳細(xì)的操作流程,其中對數(shù)據(jù)處理執(zhí)行特定功能的菜單按鈕在很大程度上是獨立的,可以在任何時候使用任何一個按鈕,而不需要重新加載或上傳相同的數(shù)據(jù)。
芯片技術(shù)需要對大量的數(shù)據(jù)進(jìn)行有效地組織和分析。這些數(shù)據(jù)包括樣品雜交的信息、雜交圖像及從中提取的數(shù)據(jù)矩陣以及物理陣列、特征和報告分子的相關(guān)信息。有許多獨立的軟件系統(tǒng),可以解決芯片數(shù)據(jù)處理與分析的一些需求,如用于芯片數(shù)據(jù)聚類與可視化的數(shù)據(jù)庫和應(yīng)用程序、包含報告分子信息的公共數(shù)據(jù)庫、商業(yè)化的實驗室信息管理系統(tǒng)(LIMS)以及各種用于記錄生物材料注釋的存儲方法。然而,沒有一個統(tǒng)一的系統(tǒng)能夠有效地組織微陣列試驗產(chǎn)生的所有信息以及用工具把這些信息進(jìn)行整合用于微陣列雜交數(shù)據(jù)的量化分析。為了滿足這些需求,BASE(BioArray Software Environment)提供了一個用于存儲和分析微陣列信息的集成框架[8-9]。BASE是一個MIAME(Minimum Information About a Microarray Experiment guidelines)支持的用戶自定義數(shù)據(jù)庫和分析平臺,可以在任何芯片實驗室中進(jìn)行安裝并通過網(wǎng)絡(luò)為許多用戶提供同步服務(wù)。該軟件是在GNU / Linux的操作系統(tǒng)上用PHP語言開發(fā)的,數(shù)據(jù)被存儲在一個相關(guān)的數(shù)據(jù)庫(MySQL)中,可以通過Apache Web服務(wù)器傳輸給用戶。如有需要,用戶界面可以使用Java以及JavaScript,且C++已經(jīng)被用于在服務(wù)器上計算密集型的任務(wù)??傊?,這個系統(tǒng)集成了生物材料的信息、原始圖像以及數(shù)據(jù)提取的功能,并提供了一個插件框架用于數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)查看以及分析模塊[8-9]。PhyloChip是一種用于微生物調(diào)查的16S rRNA基因芯片,已成功用于研究一些有趣環(huán)境中的微生物多樣性。然而,它的使用受分析軟件缺乏的限制。 PhyloTrac解決了這一需求,是第一款提供PhyloChip全程分析的桌面應(yīng)用程序。通過多種集成顯示提供了豐富的、交互式可視化結(jié)果。 PhyloTrac是免費的,通過整合PhyloChip芯片平臺與專用分析應(yīng)用程序為微生物調(diào)查提供了一個全面和易于使用的工具包[9]。
表1 常用軟件匯總
3 基于α、β-多樣性的微生物生態(tài)學(xué)研究
微生物生態(tài)學(xué)研究中,α、β-多樣性研究尤為重要。α-多樣性主要是反映一個獨立群落中微生物種類的多少,度量方法主要包括Shannon、Simpson、Richness、ACE、Chao1等;β-多樣性測量時間或空間上微生物群落之間的差異,即使在相同類型的環(huán)境中取多個樣品得到的微生物群落也會有很大差異,目前應(yīng)用最普遍的度量方法是相似性(相異性)指數(shù)度量群落物種組成在時空尺度上的變化。根據(jù)數(shù)據(jù)的特征,可供選擇的指數(shù)很多,主要有用于二元數(shù)據(jù)的Sφrensen指數(shù)、Jaccard指數(shù),用于數(shù)量數(shù)據(jù)的Bray-Curtis指數(shù)等。β-多樣性計算可依賴于分類作為基礎(chǔ)(如物種、屬或者是OTUs的重疊部分)或者依賴于親緣關(guān)系作為基礎(chǔ)(如進(jìn)化樹中的重疊部分)。親緣關(guān)系β-多樣性測量與基于分類計算的β-多樣性相比特別重要,可以解釋物種間的相似性與差異性,這些信息可以更加有效地反映生態(tài)型。針對不同環(huán)境樣品16S rRNA克隆文庫之間的微生物群落結(jié)構(gòu)比較已經(jīng)開發(fā)了一些統(tǒng)計技術(shù),如S?renson、Jaccard、LibShuff 、∫- Libshuff、等級聚類以及基于序列在不同組中的分布進(jìn)行排序的技術(shù)等。由于這些技術(shù)沒有考慮序列之間相似性的不同程度,所以存在不足之處,但親緣關(guān)系距離的計算可以彌補(bǔ)這些不足。UniFrac是一種基于親緣關(guān)系的β-多樣性度量新方法,通過計算包含進(jìn)化分支的不同群落之間的距離可以同時比較多個樣品,其產(chǎn)生的UniFrac 矩陣可以用于多元統(tǒng)計分析[10-13]。這是一款在線分析軟件,使用Python程序語言編寫,為在微生物生態(tài)學(xué)中廣泛地使用這些技術(shù)奠定了基礎(chǔ)。而且,這款軟件不斷改進(jìn)與完善,并逐步整合一些有效的分析方法。Fast UniFrac是UniFrac的升級版本,基于陣列的實現(xiàn)比基于樹的實現(xiàn)使用更少的內(nèi)存和存儲空間,可以使相同的硬件來處理更大的數(shù)據(jù)集。這些功能的增強(qiáng)使得以前最多只能分析50個樣品、5 000條序列、置換次數(shù)100次的運行增加到200個樣品、100 000條序列、置換次數(shù)1 000次的運行。第二代測序技術(shù)以及PhyloChip技術(shù)使得同時分析數(shù)以百計的微生物群落的親緣關(guān)系成為可能?;谌狈φ虾涂梢暬绱她嫶髷?shù)據(jù)集的能力,制約了人們對群落結(jié)構(gòu)的了解。Fast UniFrac克服了這些問題,允許在一次分析中整合大量的序列信息和樣品信息。新的三維可視化的主坐標(biāo)分析結(jié)果(同時可選擇多個坐標(biāo)軸)提供了一個強(qiáng)大的方法來識別大量的微生物群落的生態(tài)類型。升級后的UniFrac既可以用于高通量測序數(shù)據(jù)的分析,也可以用于PhyloChip技術(shù)產(chǎn)生的數(shù)據(jù)分析[12]。
4 綜合數(shù)據(jù)庫在微生物生態(tài)學(xué)研究中的應(yīng)用
利用分子生物學(xué)技術(shù)編目和保護(hù)地球上生物多樣性的認(rèn)識在提高、動機(jī)在加強(qiáng),這就需要涵蓋三域生命分類系統(tǒng)的綜合知識數(shù)據(jù)庫[14-21]。16S小亞基rRNA基因常用于調(diào)查微生物群落的組成,推斷細(xì)菌和古細(xì)菌的進(jìn)化以及設(shè)計監(jiān)測和分析工具,如基因芯片。由于未培養(yǎng)微生物16S小亞基rRNA基因序列的記錄產(chǎn)生的速率遠(yuǎn)超過代表可培養(yǎng)微生物的序列記錄,分類放置序列已經(jīng)相對滯后。這些代表不可培養(yǎng)微生物以及可培養(yǎng)微生物的16S小亞基rRNA序列是通過PCR技術(shù)擴(kuò)增得到,因此存在嵌合體序列,這些低質(zhì)量的序列會被提交到公共數(shù)據(jù)庫中,如NCBI/EMBL/DDBJ,進(jìn)而導(dǎo)致微生物分類的相互沖突以及錯誤采用嵌合體序列推斷系統(tǒng)發(fā)育或作為參考序列設(shè)計探針/引物的概率明顯增加[14-21]。要想充分利用這些數(shù)據(jù)進(jìn)行可靠的系統(tǒng)發(fā)育重建和生物多樣性分析,進(jìn)行每條序列的仔細(xì)檢查和比對非常必要。特別是最近推出的快速、便宜的測序技術(shù),如焦磷酸測序,進(jìn)一步證實了需要建立綜合的質(zhì)量控制數(shù)據(jù)庫用于微生物群落的比較。伴隨著小亞基(Ribosomal Small Subunit,SSU)和大亞基(Ribosomal Lager Subunit,LSU)rRNA序列的
快速增加,這就需要專門的質(zhì)量控制數(shù)據(jù)庫和相應(yīng)的軟件工具。目前有4個項目提供了人為策劃構(gòu)建的rRNA序列和比對綜合數(shù)據(jù)庫:比利時根特大學(xué)建立的歐洲核糖體rRNA數(shù)據(jù)庫,美國密歇根州立大學(xué)建立的Ribosomal Database Project II數(shù)據(jù)庫,美國勞倫斯伯克利國家實驗室建立的GreenGenes數(shù)據(jù)庫以及德國馬克斯·普朗克海洋微生物學(xué)研究所建立的Silva數(shù)據(jù)庫[14-21]。4個項目都提供了至少包含16S rRNA基因的數(shù)據(jù)庫,但每個數(shù)據(jù)庫含有的序列數(shù)量、質(zhì)量檢查方法、比對方法以及更新程序有所不同。ARB項目是唯一一個整合了同源小亞基(SSU)以及大亞基(LSU)的平臺,覆蓋了生命的三域分類系統(tǒng),即細(xì)菌域、古生菌域(16S/23S)和真核生物域(18S/28S)的序列。所有項目都提供了基于網(wǎng)絡(luò)的軟件工具用于序列的比對和分類以及探針匹配功能。此外,GreenGenes提供了可與ARB兼容的全長序列(>1 250個堿基)的細(xì)菌和古細(xì)菌數(shù)據(jù)集[14-21]。
5 展望
綜上所述,微生物生態(tài)學(xué)研究中,技術(shù)進(jìn)步十分關(guān)鍵,數(shù)據(jù)分析軟件的開發(fā)與完善也同等重要,兩者缺一不可。
參考文獻(xiàn)
[1] SCHLOSS P D,WESTCOTT S L,RYABIN T,et al.Introducing mothur:Open-source,platform-independent,community-supported software for describing and comparing microbial communities[J].Applied and Environmental Microbiology,2009,75:7537-7541.
[2] CAPORASO J G,KUCZYNSKI J,STOMBAUGH J,et al.QIIME allows analysis of high-throughput community sequencing data[J].Nature Methods,2010,7(5):335-336.
[3] SHYU C,SOULE T,BENT S J,et al.MiCA:A web-based tool for the analysis of microbial communities based on terminal-restriction fragment length polymorphisms of 16S and 18S rRNA genes[J].Microbial Ecology,2007,53:562-570.
[4] COLLINS R E,ROCAP G.REPK:An analytical web server to select restriction endonucleases for terminal restriction fragment length polymorphism analysis[J].Nucleic Acids Research,2007,35:58-62.
[5] SMITH C J,DANILOWICZ B S,CLEAR A K,et al.T-Align,a web-based tool for comparison of multiple terminal restriction fragment length polymorphism profiles[J].FEMS Microbiology Ecology,2005,54:375-380.
[6] KENT A D,SMITH D J,BENSON B J,et al.Web-based phylogenetic assignment tool for analysis of terminal restriction fragment length polymorphism profiles of microbial communities[J].Applied and Environmental Microbiology,2003,69:6768-6776.
[7] CULMAN S W,BUKOWSKI R,GAUCH H G,et al.T-REX:Software for the processing and analysis of T-RFLP data[J].BMC Bioinformatics,2009,10:171.
[8] SAAL L H,TROEIN C,VALLON-CHRISTERSSON J,et al.BioArray Software Environment (BASE):A platform for comprehensive management and analysis of microarray data[J].Genome Biology,2002,3(8):3.
[9] VALLON-CHRISTERSSON J,NORDBORG N,SVENSSON M,et al.BASE-2nd generation software for microarray data management and analysis[J].BMC Bioinformatics,2009,10:330.
[10] LOZUPONE C,KNIGHT R.UniFrac:A new phylogenetic method for comparing microbial communities[J].Applied and Environmental Microbiology,2005,71:8228-8235.
[11] LOZUPONE C,HAMADY M,KNIGHT R.UniFrac-An online tool for comparing microbial community diversity in a phylogenetic context[J].BMC Bioinformatics,2006,7:371.
[12] HAMADY M,LOZUPONE C,KNIGHT R.Fast UniFrac:Facilitating high-throughput phylogenetic analyses of microbial communities including analysis of pyrosequencing and PhyloChip data[J].The ISME Journal,2010,4:17-27.
[13] LOZUPONE C,LLADSER M E,KNIGHTS D,et al.UniFrac:An effective distance metric for microbial community comparison[J].The ISME Journal,2011,5:169-172.
[14] PhyloTrace:Environmental Sample Analysis[EB/OL].http://www.phylotrac.org/Home.html.
[15] MAIDAK B L,COLE J R,PARKER C T,et al.A new version of the RDP (Ribosomal Database Project)[J].Nucleic Acids Research,1999,27:171-173.
[16] COLE J R,CHAI B,F(xiàn)ARRIS R J,et al.The ribosomal database project (RDP-II):Sequences and tools for high-throughput rRNA analysis[J].Nucleic Acids Research,2005,33:295.
[17] COLE J R,WANG Q,CARDENAS E,et al.The Ribosomal Database Project:Improved alignments and new tools for rRNA analysis[J].Nucleic Acids Research,2009,37:141-145.
[18] DESANTIS T Z,HUGENHOLTZ P,LARSEN N,et al.Greengenes,a chimera-checked 16S rRNA gene database and workbench compatible with ARB[J].Applied and Environmental Microbiology,2006,72:5069-5072.
[19] PRUESSE E,QUAST C,KNITTE K,et al.SILVA:A comprehensive online resource for quality checked and aligned ribosomal RNA sequence data compatible with ARB[J].Nucleic Acids Research,2007,35:7188-7196.
[20] QUAST C,PRUESSE E,YILMAZ P,et al.The SILVA ribosomal RNA gene database project:Improved data processing and web-based tools[J].Nucleic Acids Research,2013,41:590-596.
[21] SCHLOSS P D.A high-throughput DNA sequence aligner for microbial ecology studies[J].PLoS ONE,2009,4:8230.