李 敏, 趙圣國, 鄭 楠, 王加啟*
(1中國農(nóng)業(yè)科學院湖北北京畜牧獸醫(yī)研究所 動物營養(yǎng)學國家重點實驗室,北京 100193;2.華中農(nóng)業(yè)大學動物科技學院 動物醫(yī)學院,湖北 武漢 430000)
微生物主要包括細菌、真菌、古生菌和原蟲等,是生態(tài)系統(tǒng)中不可缺少的一部分。微生物不論對人類還是動植物的營養(yǎng)健康、行為活動都起著重要的作用。近年來,腸道微生物與宿主之間的關系成為研究熱點。人體腸道微生物可以影響人的生長發(fā)育和健康疾病,對人們的生活至關重要[1]。通過對動物腸道微生物的研究發(fā)現(xiàn),反芻動物微生物在維持宿主的能量代謝、營養(yǎng)吸收和生理性能等方面發(fā)揮著重要作用[2]。 微生物宏基因組是指全部微生物遺傳物質(zhì)總和,它包含了可培養(yǎng)微生物和不可培養(yǎng)微生物基因,最早是在1998年由Handelsman等[3]研究土壤微生物提出的,通過宏基因組的克隆獲得了土壤微生物群落的全部基因集,數(shù)據(jù)分析表明土壤宏基因組中所包含的遺傳多樣性揭示了編碼自然產(chǎn)物中化學多樣性的新水平。近年來,隨著測序技術的不斷進步,大量不同環(huán)境條件下的宏基因組數(shù)據(jù)也陸續(xù)被報道。2008年,研究者利用海洋環(huán)境中的宏基因組樣本,獲得了具有生物技術潛力的蛋白質(zhì)編碼基因,從而能夠比以前更大程度地利用巨大的、尚未開發(fā)的海洋微生物多樣性資源[4]。2009年,美國國立研究院發(fā)起的人類微生物組計劃(HMP)公布了大量高質(zhì)量宏基因組數(shù)據(jù)供科學界使用,宏基因組數(shù)據(jù)的產(chǎn)生使人們獲得的信息量更多,并且取代了16S rRNA 數(shù)據(jù)成為新的研究熱點,但是就當時而言,處理和分析此類數(shù)據(jù)的軟件并不成熟[5]。由于宏基因組學研究的興起,越來越多的研究者致力于開發(fā)用于數(shù)據(jù)分析的軟件和工具,并在準確性和精確度上有了很大的提高。宏基因組數(shù)據(jù)的分析使人們對微生物的多樣性、群落功能以及微生物與環(huán)境之間的關系有了更全面的了解。隨著高通量測序技術和生物信息學的發(fā)展,微生物宏基因組數(shù)據(jù)分析的研究方法已經(jīng)十分豐富,其基本流程如圖1所示。本文著重討論了宏基因組數(shù)據(jù)分析的方法及使用軟件,具體內(nèi)容主要包括以下六個部分:質(zhì)量控制、組成分析、序列組裝、序列分箱、基因預測和功能分析。系統(tǒng)概述了當前微生物宏基因組數(shù)據(jù)分析的基本流程和使用軟件(表1),對宏基因數(shù)據(jù)分析工具及軟件的優(yōu)缺點和適用范圍進行了總結(jié),為研究者快速篩選分析方法,揭示數(shù)據(jù)背后的生物學意義提供參考。
圖1 宏基因組數(shù)據(jù)分析流程圖Fig.1 Workflow for metagenomic data analysis
表1 宏基因組數(shù)據(jù)分析相關軟件
續(xù)表1
宏基因組的測序數(shù)據(jù)是由大量來自不同微生物的短reads組成,進一步分析前需要對序列進行質(zhì)量控制(quality control, QC)。質(zhì)量控制主要包括兩個部分:去噪和去宿主序列。去噪是指剔除低質(zhì)量的堿基和殘留的人工序列,這些序列會降低微生物組成分析的準確性,影響denovo組裝[6]。目前常用于去噪的軟件包括Trimmomatic[7]、PRINSEQ[8]、FASTX-Toolkit等。Trimmomatic是一種更加靈活、高效的預處理工具,它可以剪切引物、低質(zhì)量的堿基和序列,并將序列剪切到一定長度且不干擾下游序列的分析,是一個專門針對Illumina的輸出而設計的工具;PRINSEQ除了可以剪切序列和堿基外,還可以通過GC含量過濾序列,對序列進行匯總統(tǒng)計;FASTX-Toolkit與Trimmomatic的質(zhì)量控制功能相似,F(xiàn)ASTX-Toolkit可以對序列進行匯總統(tǒng)計,但是產(chǎn)生結(jié)果的質(zhì)量不如Trimmomatic。
宿主序列會引起微生物序列組裝錯誤,影響分析結(jié)果的準確性。Ward 等[9]在人的母乳和糞便樣本中,發(fā)現(xiàn)人類DNA序列分別達到了宏基因組文庫的64%和77%,這也進一步說明了去宿主序列的必要性。常用的工具包括MG-RAST[10]、TopHat2[11]等。MG-RAST 是基于Web界面分析的軟件,而TopHat2是利用計算機將序列映射并與參考基因組比對的軟件,需要有較高計算能力的計算機,而MG-RAST不需要。這兩種軟件均可用于牛瘤胃微生物宏基因組和轉(zhuǎn)錄組中DNA和RNA的過濾。
宏基因組數(shù)據(jù)分析主要包括組成分析和功能分析。微生物組成分析是基于宏基因組或轉(zhuǎn)錄組進行分類,并進一步分析微生物的豐度、種類等信息。對微生物種類分析主要有三種方法:16S RNA分析、全基因組分析、Marker基因分析。16S RNA分析可以有效地反應不同微生物群落的組成特征。SortMeRNA[12]是基于16S RNA分類的軟件,可以快速整理所有與rRNA數(shù)據(jù)庫匹配的片段并對多個序列進行排序,但是它很難檢測低豐度的微生物,分析過程也較為復雜。全基因組包含了微生物菌群的所有遺傳信息,通過全基因組分析不僅可以揭示微生物的組成特征,還能獲得相關的功能信息,如MEGAN[13]是一個被廣泛應用的軟件,它為宏基因組、宏基因轉(zhuǎn)錄組、rRNA提供了一種綜合的方法,可以執(zhí)行多個數(shù)據(jù)庫的比較,并通過使用InterPro2GO[14]、SEED[15]、KEGG等軟件進行功能分析。Marker基因分析對原始物種水平進行了補充,包括真核、病毒的定量系統(tǒng),菌株水平的鑒定以及菌株的追蹤,但嚴重依賴于選擇的Marker基因并且不能將物種與功能聯(lián)系起來,也無法重構(gòu)基因組進行組裝,如MetaPhlAn2[16]使用“家族特異”的Marker基因?qū)ξ锓N進行分類。Marker基因包括細菌、古菌、真核和病毒,可以實現(xiàn)精準的分類群分配、準確的估計物種的相對豐度和種水平精度,并以超快的分析速度實現(xiàn)株水平的鑒定和追蹤。
宏基因組序列的組裝是進行功能分析前重要的步驟。通過測序技術得到的reads較短,需要組裝獲得更長的contigs[17],如果contigs序列過短且出現(xiàn)錯誤,會進一步影響序列分箱、基因預測和功能注釋的準確性。序列組裝一般包括以下步驟:首先輸入一組短的基因序列,通過序列比對計算每對序列的重疊率,將較短的序列合并至較長的序列。目前主要有兩種組裝方式:依賴參考序列的組裝和從頭(denovo)組裝。
依賴參考序列的組裝是用一個或者多個已知的基因組為參考進行組裝的方法,但是如果序列存在插入、缺失或拷貝數(shù)的變化,便無法使用該方法組裝。常用的軟件包括MIRA4[18]、MetaAMOS[19]。MIRA4可以檢測和分類單核苷酸變態(tài)性(SNPs),組裝大量高度相似的序列,具有高度特異性和敏感性,但是該軟件只用于mRNA轉(zhuǎn)錄樣本。MetaAMOS可以檢測基因并識別變異序列,減少組裝宏基因組樣本時的裝配誤差,比MIRA4準確性更高、成本更低。但當宏基因組數(shù)據(jù)來自新的環(huán)境時,受參考基因組數(shù)據(jù)庫覆蓋能力所限制,這些軟件表現(xiàn)不佳[20]。
在沒有已知參考基因組信息的情況下,將序列從頭組裝的過程即為denovo組裝。該組裝方式可以克服未知的瘤胃微生物基因組的瓶頸,因此普遍應用于瘤胃宏基因組的研究。目前新的組裝軟件不斷被推出,組裝的準確性和性能也有所提升。例如:MetaVelvet[21]、Meta-IBDA[22]。Meta-IBDA除可重建較長的contigs外,還可對來自同一物種不同亞種相似的contigs進行比對,這一特點可用來研究不同亞種基因組的結(jié)構(gòu)變異和確定具有亞種生物學功能的保守區(qū)。從模擬的數(shù)據(jù)結(jié)果來看,MetaVelvet在目、科、屬等水平上N50評分均高于Meta-IBDA,Meta-IBDA在種水平上特異性較高,整體來看MetaVelvet的表現(xiàn)優(yōu)于Meta-IBDA。
宏基因組學分箱(binning),即將宏基因組測序片段按照物種、亞種或者屬進行分類。分箱是根據(jù)基因特征對contigs或scaffolds進行分組,并對重建的基因組進行可視化。分箱的結(jié)果不僅可用于物種分類評估,還可以研究基因組內(nèi)基因間的關聯(lián)性,直接影響宏基因組學研究的深度和精確度[23]。根據(jù)用于對現(xiàn)有序列進行分組的信息,宏基因組分箱可以分為兩種,即基于參考數(shù)據(jù)庫分箱和無參考數(shù)據(jù)庫分箱。
基于參考數(shù)據(jù)庫分箱的原理是與參考數(shù)據(jù)庫中的序列比對,對序列進行分類。Huson等[24]開發(fā)的 MEGAN是最早使用該原理的分箱軟件。使用該軟件分箱之前應利用BLAST[16]或其他比對工具將基因序列與已知序列數(shù)據(jù)庫進行比較,然后使用MEGAN計算和探索數(shù)據(jù)集的分類內(nèi)容,最后用NCBI對結(jié)果進行匯總和排序。但由于現(xiàn)有的數(shù)據(jù)庫中物種數(shù)量非常少,參考數(shù)據(jù)庫還不夠完整、局限性較大、計算時間難以把握,此類方法對新環(huán)境中的序列樣本具有很大的局限性[25]。
無參考數(shù)據(jù)分箱是應用聚類技術對序列進行分類,可直接處理樣本[26]。根據(jù)現(xiàn)有的技術可以分為三類:基于序列組成的方法、基于豐度的方法和混合的方法[27]。基于序列組成的方法主要應用于具有不同核苷酸組成基因型的群落,并利用寡核苷酸頻率和基因組堿基組成的特征進行分類[31]。該方法雖然避免了計算上常見的難題,但是在短reads執(zhí)行上有一定的限制,常用的軟件有LikelyBin[28]、TETRA[29]和SCIMM[30];基于豐度的分箱技術與基于序列的分箱技術相似,主要區(qū)別在于前者聚類的形成是由k-mer豐度來定義的,而不是由序列組成。該方法可以對短reads分箱,但是準確度不高,常用的軟件有AbundanceBin[31]和Canopy[32];混合方法是將上述兩種方法組合在一起的新技術,有望獲得最佳的結(jié)果。Lin等[33]證明,結(jié)合反映物種豐度的序列組成信息和豐度信息,可以獲得比其他兩種方法更準確的分箱結(jié)果,相關軟件有MetaBAT[34]、MaxBin[35]和GroopM[36]。
宏基因組基因預測和功能注釋是宏基因組數(shù)據(jù)分析的重要環(huán)節(jié),通過基因預測和功能注釋,可以獲得相關的代謝通路信息[37]?;蝾A測是利用預測工具在基因組文庫中識別潛在的開放閱讀框(ORF)并鑒定蛋白質(zhì)編碼序列,預測結(jié)果的準確性受多個因素的影響,尤其是測序的誤差和reads的長度。目前針對基因測序常用的軟件有FragGeneScan[38]、 Orphelia[39]和MetaGene[40]。Trimble等[41]通過統(tǒng)計模擬數(shù)據(jù)對這些軟件做了比較,F(xiàn)ragGeneScan 對包含錯讀、低質(zhì)量序列的識別具有較高的靈敏度,是目前可用的最準確的基因預測軟件之一,而Orphelia和 MetaGene適合更高質(zhì)量的序列。因此,用戶可以根據(jù)測序數(shù)據(jù)的特點選擇合適的方法。
功能注釋是將基因或蛋白序列在特定的功能數(shù)據(jù)庫中進行比對,將基因或蛋白與特定的功能聯(lián)系起來,幫助了解相關的代謝通路,并進一步理解宿主與菌群、宿主與環(huán)境之間的關系。常用的功能注釋數(shù)據(jù)庫包括KEGG[42]、eggNOG[43]和CAZy[44]等。 KEGG包含三個類型的數(shù)據(jù)庫:PATHWAY數(shù)據(jù)庫、KO數(shù)據(jù)庫和COMPOUND數(shù)據(jù)庫,分別整合了蛋白質(zhì)、基因組和化學功能信息,尤其在PATHWAY數(shù)據(jù)庫中還包含了細胞代謝、遺傳和細胞周期信息等,提供了一個更全面直接的分析方法;eggNOG提供了最全面和最新的數(shù)據(jù)庫,它所提供的蛋白質(zhì)功能注釋的1 133個基因組跨越了三個領域,該數(shù)據(jù)庫最重要的一個特征是OGs自動功能分析和功能描述的注釋;CAZy是碳水化合物活性酶數(shù)據(jù)庫,它將序列與分解寡糖、多糖的酶特異性和三維結(jié)構(gòu)聯(lián)系起來,提供了一個在線不斷更新的家族分類方法。目前功能注釋的軟件越來越多,技術方面也逐漸成熟,研究者可根據(jù)研究的代謝途徑選擇相應的注釋軟件。
免組裝功能分析是將原始reads(QC后)與現(xiàn)有功能數(shù)據(jù)庫或帶注釋的參考基因組進行比對獲得功能信息的方法。該方法的準確性依賴于參考數(shù)據(jù)庫的完善程度。對于已知的環(huán)境,如人的腸道,有關人腸道微生物的數(shù)據(jù)庫已經(jīng)十分完善,所以這種方法獲得的結(jié)果是可信的。但是對于沒有完整參考數(shù)據(jù)庫的環(huán)境,如瘤胃(未分類和命名的微生物占比大于55%),這種方法獲得的結(jié)果就有很大的局限性[45]。MG-RAST[10]和HUMAnN[46]是目前被普遍應用的軟件。MG-RAST可供研究者免費使用,該軟件不受特定基因組和數(shù)據(jù)類型的限制,目前已有500個宏基因組通過該軟件處理。HUMAnN可直接從短序列中確定群落中的基因家族和存在的代謝通路及其相對豐度,能準確、有效地描述微生物代謝途徑和生物學功能。人類微生物組計劃(HMP)中就使用該軟件研究了來自102個人中7個主要身體部位的649個宏基因組,并確定了24個普遍存在的代謝途徑。
隨著測序技術的發(fā)展,宏基因組測序的微生物組研究已滲透到各個領域,包括海洋、土壤、人、動物以及環(huán)境等。通過對宏基因組數(shù)據(jù)的分析,挖掘了微生物的多樣性、種與種之間的進化關系,揭示了微生物與環(huán)境、微生物與宿主之間的協(xié)作關系。但是,宏基因組數(shù)據(jù)分析最大的難題仍是生物信息學和計算瓶頸,如序列組裝。由于宏基因組數(shù)據(jù)比較復雜,在組裝過程中高度相似的序列容易出現(xiàn)錯誤,組裝和分箱的準確率不高,而且計算成本較高,因此軟件性能等各個方面還有很大的提升空間。一方面要加強實驗和分析流程的標準化,另一方面提高對未知環(huán)境的微生物組研究和認識,將已有的數(shù)據(jù)整合構(gòu)建為高質(zhì)量的參考數(shù)據(jù)庫,其次,優(yōu)化宏基因組數(shù)據(jù)的組裝和分箱流程,開發(fā)新的算法,提高宏基因組數(shù)據(jù)的利用率。