葉維帥 陶漢
摘要:元基因組學(xué)是計(jì)算生物學(xué)領(lǐng)域的一個(gè)重要分支,主要研究環(huán)境中微生物群落的基因組。元基因組分類算法是用計(jì)算機(jī)程序?qū)σ粋€(gè)樣本中的多個(gè)不同種屬的微生物基因序列分離開來(lái),以提供給生物學(xué)家進(jìn)行深入研究的參考。元基因組分類算法主要分為兩大類,一是基于同源性的分類,二是基于組成成分的分類?;谕葱苑诸愔饕眯蛄械奈锓N同源性信息,基于組成成分的分類方法通常提取序列的l-mer特征利用計(jì)算機(jī)科學(xué)領(lǐng)域的聚類方法,如k-means聚類。該文介紹基于組成成分的元基因組分類算法及其實(shí)例,并分析各實(shí)例算法的特點(diǎn)。最后總結(jié)并展望基于組成成分的元基因組算法當(dāng)前方法及未來(lái)可以做的優(yōu)化。
關(guān)鍵詞:元基因組;組成成分;聚類算法
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)01-0135-02
1 生物背景
元基因組學(xué)亦稱宏基因組學(xué),是對(duì)微生物基因組的研究,是計(jì)算生物學(xué)領(lǐng)域的一個(gè)分支。計(jì)算生物學(xué)是利用現(xiàn)有的計(jì)算機(jī)科學(xué)相關(guān)先進(jìn)技術(shù)(高性能計(jì)算機(jī)硬件,高效率算法,并行計(jì)算等)研究生物科學(xué)領(lǐng)域的相關(guān)問(wèn)題的學(xué)科[1]。
元基因組分類算法是利用計(jì)算機(jī)通過(guò)微生物群落基因組序列數(shù)據(jù)分析該群落的物種結(jié)構(gòu)。 這些微生物通常分布在土壤、深海、動(dòng)物表皮及腸道等場(chǎng)所,對(duì)自然環(huán)境及動(dòng)物、人體的健康有著重要的間接或直接關(guān)系。研究表明,人體腸道內(nèi)的微生物群落結(jié)構(gòu)發(fā)生異常時(shí)可導(dǎo)致IBD疾?。↖nammatory Bowel Disease)[2]。
元基因組基因序列讀段(reads)通常來(lái)自一個(gè)微生物群落的多個(gè)物種的基因片段,在元基因組的研究過(guò)程中,一個(gè)重要的步驟是對(duì)這些基因片段進(jìn)行分組,即相近的物種的基因片段聚成一個(gè)類,亦稱元基因組分類[3],從而確定該生物群落中有哪些微生物。到目前為止,研究者們提出了多種計(jì)算生物學(xué)方法來(lái)對(duì)元基因組分類,主要分為兩大類:一是基于同源性分類方法,二是基于組成成分分類方法。前一種需要用BLAST[4]對(duì)目標(biāo)序列從參考(reference)基因數(shù)據(jù)庫(kù)中匹配,找到最匹配的種屬。由于BLAST用在序列對(duì)齊的操作上需要花費(fèi)大量時(shí)間,此種方法相對(duì)而言效率較低。而且,這種方法較大依賴參考基因數(shù)據(jù)庫(kù),由于大部分微生物的基因組并不存在于該數(shù)據(jù)庫(kù)中,所以對(duì)匹配的結(jié)果影響較大。但對(duì)于已知的微生物基因組,匹配得到的結(jié)果準(zhǔn)確度較高。后一種方法無(wú)需參考基因數(shù)據(jù)庫(kù),通過(guò)提取基因組的l-mer特征,得到特征向量再用聚類方法進(jìn)行聚類。該類方法不能找到基因組讀段相對(duì)應(yīng)的物種,但分類效率及準(zhǔn)確度高。
2 基于組成成分的元基因組分類算法
AbundanceBin[5]、MetaCluster[6]、Mcluster[7]是三種基于組成成分對(duì)元基因組分類的算法代表。
AbundanceBin是印第安納大學(xué)的研究者于2011年發(fā)表在 《計(jì)算生物學(xué)雜志》 (Journal of Computational Biology)上的一種分類算法。首先,文中假設(shè)基因組的序列讀段服從蘭德-沃特曼模型(Lander-Waterman model)[abudancebin29],也就是每個(gè)序列中的堿基的位置服從泊松分布(Poisson distribution)。對(duì)于所有的基因組序列,可以認(rèn)為是一個(gè)混合的泊松分布。對(duì)于給定的一個(gè)元基因組序列數(shù)據(jù)集,該算法首先計(jì)算每個(gè)序列l(wèi)-mer的數(shù)量,然后用EM算法(Expectation-Maximization)預(yù)測(cè)出物種豐度和基因組的大小,最后得到每個(gè)序列對(duì)應(yīng)的微生物的最后分組。文中對(duì)序列長(zhǎng)度分別是400bp,75bp及方差分別為50,5的數(shù)據(jù)集做了實(shí)驗(yàn),l-mer中的l值取20,結(jié)果表明該算法能在較短的時(shí)間里取得較高的分類準(zhǔn)確度。
MetaCluster是香港大學(xué)王毅(音譯WangYi)等人研究的對(duì)元基因分類的算法系列[8]。該系列算法從最初的MetaCluster2.0到2012年發(fā)表的MetaCluster5.0,能夠分別處理不同序列長(zhǎng)度、序列錯(cuò)誤率的元基因組數(shù)據(jù)集。該文中談及的MetaCluster主要指MetaCluster5.0。MetaCluster(MetaCluster5.0)算法對(duì)元基因組數(shù)據(jù)集分類主要分為兩個(gè)過(guò)程。在第一個(gè)過(guò)程中,首先對(duì)元基因組數(shù)據(jù)集進(jìn)行過(guò)濾,得到豐度較大的一組及豐度較小的一組。對(duì)豐度較大的一組進(jìn)行l(wèi)-mer特征提取,此時(shí)l取l=4。得到4-mer特征后,對(duì)這部分序列進(jìn)行k-means聚類,得到相對(duì)較長(zhǎng)的contig(聚類后得到的較長(zhǎng)序列)。再對(duì)contig進(jìn)行l(wèi)-mer特征提取,此時(shí)l取l=5。得到contig的5元特征后,聚類后得到豐度較大的序列分類結(jié)果。在第二個(gè)過(guò)程中,完成第一步中過(guò)濾得到的豐度較小的一組序列數(shù)據(jù)聚類。對(duì)這些序列數(shù)據(jù),首先進(jìn)行合并來(lái)源于同一個(gè)長(zhǎng)序列的短序列,然后再進(jìn)行l(wèi)-mer特征提取,l取l=4,再聚類得到兩個(gè)過(guò)程的最后結(jié)果。文中在平均序列長(zhǎng)度為75bp的模擬數(shù)據(jù)集及真實(shí)數(shù)據(jù)集上做了實(shí)驗(yàn),表明MetaCluster在計(jì)算時(shí)間及內(nèi)在耗用上有較大優(yōu)勢(shì),并且對(duì)數(shù)據(jù)集中豐度不同序列有較好的分類效果。
Mcluster是復(fù)旦大學(xué)的研究者于2013年發(fā)表在《IEEE/ACM Transactions on computational biology and bioinformatics》上的算法。該算法提出了基于l-mer(l=4) 特征提取后自動(dòng)權(quán)重迭代的思想。Mcluster首先提取數(shù)據(jù)集中序列的l-mer特征向量,然后隨機(jī)初始化k個(gè)中心點(diǎn),對(duì)所有特征設(shè)為一個(gè)相同的初始權(quán)重。接下來(lái)是兩個(gè)需要迭代的步驟。I)計(jì)算每個(gè)特征向量每個(gè)維度相對(duì)于k個(gè)中心的距離,根據(jù)權(quán)重公式計(jì)算每個(gè)特征向量的新權(quán)重,并且將其歸到距離最近的中心點(diǎn)所代表的聚類類簇。Ii)計(jì)算完所有的特征向量后,得到新的k個(gè)聚類類簇,再重新計(jì)算得到k個(gè)新的中心點(diǎn)。并且重新計(jì)算得到新的權(quán)重公式。重復(fù)迭代上述i)、ii)步驟,直到k個(gè)中心點(diǎn)達(dá)到穩(wěn)定狀態(tài)。該算法在多個(gè)模擬數(shù)據(jù)集及一個(gè)真實(shí)數(shù)據(jù)集上做了實(shí)驗(yàn),并且和AbundanceBin、MetaCluster算法做了比較。實(shí)驗(yàn)結(jié)果的權(quán)衡標(biāo)準(zhǔn)主要基于三個(gè)數(shù)值,一是分類準(zhǔn)確度,二是敏感度,三是F-measure(即準(zhǔn)確度和敏感度的權(quán)衡值)。在上述三個(gè)標(biāo)準(zhǔn)中,Mcluster在模擬數(shù)據(jù)集及真實(shí)數(shù)據(jù)集中比AbundanceBin和MetaCluster算法都具有更理想的性能。
3 總結(jié)及展望
之前的分類算法大多數(shù)是基于同源性比較,主要用到BLAST序列匹對(duì)方法,需要耗費(fèi)大量的時(shí)間和計(jì)算資源。AbundanceBin在基于組成成分的元基因組分類算法研究上具有開創(chuàng)性意義,它優(yōu)化了分類的計(jì)算時(shí)間,并且指引了研究者可以在基于組成成分上進(jìn)行研究元基因組分類。但AbundanceBin的缺點(diǎn)也比較明顯,即當(dāng)元基因組數(shù)據(jù)集中包含不同物種并且各物種不同豐度時(shí),分類的效果欠佳。
MetaCluster的分類效果比AbundanceBin更佳,但其對(duì)元基因組數(shù)據(jù)集的要求是序列長(zhǎng)度在50bp-128bp(MetaCluster5.0要求)之間,這也讓MetaCluster(5.0)局限于處理較短長(zhǎng)度的元基因組數(shù)據(jù)。MCluster處理的數(shù)據(jù)集序列長(zhǎng)度在128bp-1000bp間,相比AbundanceBin及MetaCluster在準(zhǔn)確率、敏感度、F-measure上都有較好的分類效果,是目前為止綜合分類效果最佳的元基因組分類算法。
在未來(lái)對(duì)元基因組分類算法的研究上,有待完善及具有挑戰(zhàn)性的有以下幾點(diǎn)。
1) 能夠處理較大范圍的數(shù)據(jù)集序列長(zhǎng)度。由于基因組測(cè)序技術(shù)的發(fā)展,目前多種平臺(tái)的測(cè)序數(shù)據(jù)的長(zhǎng)度在幾十到幾百幾千bp的不等讀段長(zhǎng)度,若分類算法只能處理幾十到幾百的序列讀段長(zhǎng)度,則有局限性。
2) l-mer特征提取的l值自適應(yīng)選取。4-mer特征提取在序列長(zhǎng)度在500-1000bp時(shí),具有較好的特征向量結(jié)果,但在序列長(zhǎng)度為50-100時(shí),特征向量的多數(shù)維度是無(wú)效的。并且在序列長(zhǎng)度在2000bp以上時(shí),5-mer特征提取能達(dá)到更高的準(zhǔn)確度。按照數(shù)據(jù)集中平均的序列長(zhǎng)度,選取相應(yīng)的l值進(jìn)行l(wèi)元特征提取能夠優(yōu)化元基因組分類結(jié)果,是未來(lái)研究的一個(gè)方向。
總而言之,國(guó)內(nèi)外基于組成成分的元基因組分類算法研究在這幾年的研究中取得了一定的成就。在未來(lái)的研究中,也仍具有挑戰(zhàn)性的難點(diǎn)等待研究者們?nèi)スタ恕?/p>
參考文獻(xiàn):
[1] John C. Wooley, Adam Godzik, Iddo Friedberg. (2010). A primer on metagenomics. Plos Computational Biology, Feb 2010, Vol 6, Issue 2, e1000667
[2] Qin J, Li R, Raes J, et al.A human gut microbial gene catalogue established by metagenomic sequencing. Nature, 2010(464):7285.
[3] Mavromatis K, Ivanova N, Barry K, et al.Use of simulated data sets to evaluate the _delity of metagenomic processing methods. Nature Methods, 2007,4(6):495-500.
[4] Scott McGinnis, Thomas L. Madden : BLAST: at the core of a powerful and diverse set of sequence analysis tools, Nucleic Acids Research, 2004,32(20).
[5] Wu Y, Ye Y.A novel abundance-based algorithm for binning metagenomic sequences using l-tuples. Journal of Computational Biology , 2011,18(3):523-534.
[6] Wang Y, Leung H C, Yiu S M, et al.Metacluster 5.0: a two-round binning approach for metagenomic data for low-abundance species in a noisy sample. Bioinformatics , 2012,28(18), 356-362.
[7] Liao R, Zhang R, Guan J, et al.A new unsupervised binning approach for metagenomic sequences based on n-grams and automatic feature weighting. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB) (2014).
[8] http://i.cs.hku.hk/~alse/MetaCluster/.