国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

擴(kuò)增子測(cè)序分析助力傳統(tǒng)發(fā)酵食品微生物群落研究

2019-06-11 07:40:54孫善峰黃曉寧韓北忠陳晶瑜
中國(guó)釀造 2019年5期
關(guān)鍵詞:信息學(xué)群落基因組

孫善峰,黃曉寧,韓北忠,陳晶瑜*

(1.中國(guó)農(nóng)業(yè)大學(xué) 食品科學(xué)與營(yíng)養(yǎng)工程學(xué)院食品質(zhì)量與安全北京實(shí)驗(yàn)室,北京 100083;2.中國(guó)農(nóng)業(yè)大學(xué) 農(nóng)業(yè)部葡萄酒加工重點(diǎn)實(shí)驗(yàn)室,北京 100083)

以分子生物學(xué)為基礎(chǔ)的生物信息學(xué)的誕生和發(fā)展最早可以追溯到20世紀(jì)60年代,兩屆諾貝爾獎(jiǎng)得主鮑林的分子進(jìn)化理論的出現(xiàn),預(yù)示著生物信息學(xué)的來(lái)臨[1]。2001年,隨著人類基因組測(cè)序工作的完成和人類基因組草圖的公布,生物信息學(xué)的研究走向了一個(gè)高潮[2]。生物信息學(xué)的根本目標(biāo)是增加對(duì)生物學(xué)過(guò)程的認(rèn)識(shí),具體而言,就是發(fā)展和應(yīng)用有效的計(jì)算方法(如模式識(shí)別、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)算法和可視化技術(shù)等)來(lái)達(dá)到對(duì)生物學(xué)更深層次的理解[3]。

宏基因組學(xué)是專門針對(duì)復(fù)雜微生物群落發(fā)展起來(lái)的基因組學(xué)技術(shù),其研究基本上可以分為核糖體核糖核酸(ribosomal robonucleic acid,rRNA)基因(細(xì)菌和古菌的16S rRNA基因或真菌的18S rRNA、28S rRNA基因和ITS基因)的分類和鑒定(擴(kuò)增子測(cè)序)、功能基因的多樣性和分類分析以及全部宏基因組脫氧核糖核酸(deoxyribonucleic acid,DNA)的整體測(cè)序(全基因組測(cè)序)和分析等[4]。擴(kuò)增子測(cè)序利用獨(dú)立培養(yǎng)的分子生物學(xué)技術(shù)、方法和手段對(duì)宏基因組進(jìn)行系統(tǒng)研究,分析微生物在研究對(duì)象中的基因序列集合,研究其群落結(jié)構(gòu)與預(yù)測(cè)功能等。1986年,OLSENGJ等[5]提出,直接從環(huán)境中克隆核糖體小亞基RNA編碼基因,即16S rRNA基因,開啟了以獨(dú)立培養(yǎng)的分子生物學(xué)方法研究微生物多樣性的新大門。1996年,STEIN J L等[6]通過(guò)構(gòu)建海水微生物克隆文庫(kù),鑒定出了未培養(yǎng)過(guò)的古菌的16SrRNA基因,成為宏基因組在微生物領(lǐng)域研究的里程碑。基于宏基因組數(shù)據(jù)的生物信息學(xué)方法廣泛用于微生物學(xué)研究,根據(jù)微生物來(lái)源,可以分為土壤微生物、海洋微生物、腸道微生物、農(nóng)業(yè)微生物、食品微生物等。與其他領(lǐng)域相比,擴(kuò)增子測(cè)序數(shù)據(jù)的生物信息學(xué)分析在傳統(tǒng)發(fā)酵食品微生物研究中的應(yīng)用起步晚、發(fā)展慢,仍存在差距,但最近的相關(guān)研究逐漸增多,本文歸納和比較了近幾年發(fā)展的主要的生物信息學(xué)分析方法,以期為今后的研究提供參考。

1 擴(kuò)增子測(cè)序技術(shù)在傳統(tǒng)發(fā)酵食品微生物研究中的優(yōu)勢(shì)

中國(guó)傳統(tǒng)發(fā)酵食品風(fēng)味獨(dú)特、營(yíng)養(yǎng)豐富,參與發(fā)酵過(guò)程的微生物種類眾多,形成的菌群結(jié)構(gòu)復(fù)雜[7]。面對(duì)中國(guó)傳統(tǒng)發(fā)酵食品中如此復(fù)雜的微生物,僅憑借低通量、純培養(yǎng)的方法效率很低。隨著擴(kuò)增子測(cè)序技術(shù)在微生物研究中的應(yīng)用以及生物信息學(xué)分析的滲入,為復(fù)雜微生物菌群多樣性的闡明、功能和相互作用的預(yù)測(cè)提供了更為迅速的解決方案。擴(kuò)增子測(cè)序技術(shù)在微生物研究中的應(yīng)用極大的促進(jìn)了科研人員對(duì)于復(fù)雜微生物菌群的認(rèn)識(shí),其規(guī)避了無(wú)法培養(yǎng)的微生物對(duì)群落中微生物種類認(rèn)識(shí)的局限。自擴(kuò)增子測(cè)序技術(shù)應(yīng)用于傳統(tǒng)發(fā)酵食品微生物研究以來(lái),產(chǎn)生了大量的生物序列數(shù)據(jù),為了充分利用這些序列數(shù)據(jù),揭示數(shù)據(jù)背后隱藏的生物學(xué)信息,需要使用信息科學(xué)的方法和技術(shù)進(jìn)行管理和分析。生物信息學(xué)以低成本和高通量的方式從大量的生物學(xué)數(shù)據(jù)中挖掘出對(duì)研究對(duì)象有價(jià)值的信息,為實(shí)驗(yàn)研究提供參考和指導(dǎo)。

2 擴(kuò)增子測(cè)序數(shù)據(jù)的生物信息學(xué)分析

2.1 生物信息學(xué)研究概況

生物信息學(xué)研究主要包括數(shù)據(jù)庫(kù)、算法和工具。核酸數(shù)據(jù)庫(kù)按照構(gòu)建方式有一級(jí)和二級(jí)之分。最權(quán)威的三大國(guó)際核酸一級(jí)數(shù)據(jù)庫(kù)為GenBank[8]、EMBL[9]、DDBJ[10]。二級(jí)數(shù)據(jù)庫(kù)是基于一級(jí)數(shù)據(jù)庫(kù),增加相關(guān)信息并經(jīng)加工和構(gòu)建而成的具有特殊生物學(xué)意義和專門用途的數(shù)據(jù)庫(kù),如能夠?qū)θ蛭⑸铮?xì)菌、古菌、真核)rRNA基因序列分類的數(shù)據(jù)庫(kù)SILVA等。自1994年以來(lái),每年“Nucleic Acids Research”期刊的第一期刊物為分子生物學(xué)數(shù)據(jù)庫(kù)特刊,回顧當(dāng)前的分子生物學(xué)數(shù)據(jù)庫(kù)資源,截至2018年已收錄數(shù)據(jù)庫(kù)1 898個(gè)[2,11]。

生物信息學(xué)研究的常用算法有模式分類、統(tǒng)計(jì)算法、特征提取、數(shù)據(jù)壓縮等。這些算法在宏基因組數(shù)據(jù)處理中均有應(yīng)用,如模式分類中的聚類方法用于挖掘基因之間的調(diào)控關(guān)系,K近鄰法(k-nearest neighbor,k-NN)用于系統(tǒng)發(fā)生樹的構(gòu)建;統(tǒng)計(jì)算法中的隱馬爾可夫模型用于基因預(yù)測(cè);特征提取算法用于基于序列特征的宏基因組數(shù)據(jù)的分裝;數(shù)據(jù)壓縮用于主成分分析(principalcomponentanalysis,PCA)等,為實(shí)驗(yàn)人員提供了大規(guī)模數(shù)據(jù)分析的手段和實(shí)驗(yàn)設(shè)計(jì)的重要參考。

生物信息學(xué)為生物學(xué)研究提供了有力的分析工具,通過(guò)分析和處理實(shí)驗(yàn)數(shù)據(jù)進(jìn)行提示、指導(dǎo)甚至替代部分實(shí)驗(yàn)操作。基于擴(kuò)增子測(cè)序的宏基因組分析常用生物信息學(xué)工具見表1[1]。

表1 基于擴(kuò)增子測(cè)序的宏基因組分析常用生物信息學(xué)工具Table 1 Bioinformatics tools commonly used for metagenome analysis based on amplicon sequencing

2.2 擴(kuò)增子測(cè)序數(shù)據(jù)的生物信息學(xué)分析方法

圖1 基于擴(kuò)增子測(cè)序的宏基因組數(shù)據(jù)生物信息學(xué)分析流程Fig.1 Bioinformatics analysis process of metagenomic data based on amplicon sequencing

基于擴(kuò)增子測(cè)序的宏基因組數(shù)據(jù)生物信息學(xué)分析基本流程見圖1[1],主要包括:提取樣本總DNA;聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction,PCR)擴(kuò)增目標(biāo)區(qū)域;構(gòu)建質(zhì)粒文庫(kù)測(cè)序;測(cè)序數(shù)據(jù)去噪處理(如去除接頭、序列標(biāo)簽、引物序列、低質(zhì)量的序列及嵌合序列等);去噪序列聚類生成分類單元(operational taxonomic units,OTUs),并進(jìn)行后續(xù)生物信息學(xué)分析(OTU代表序列分類學(xué)注釋、系統(tǒng)發(fā)育樹繪制及多樣性分析等),同時(shí)可以結(jié)合實(shí)時(shí)熒光定量聚合酶鏈?zhǔn)椒磻?yīng)(real-time quantitative polymerase chain reaction,RT-qPCR)進(jìn)而實(shí)現(xiàn)菌群分布定量及差異比較分析。目前,主流的菌群鑒定軟件QIIME和MOTHUR都是按照?qǐng)D1流程實(shí)現(xiàn)的[21-22]。QIIME無(wú)論在時(shí)間消耗,還是在聚類結(jié)果的準(zhǔn)確性及可信性上,都優(yōu)于MOTHUR聚類方法,更適合高通量測(cè)序數(shù)據(jù)和復(fù)雜環(huán)境樣本[1]。2018年,QIIME2.0正式上線,QIIME2.0中DADA2[15]代替了原先的UCLUST。DADA2根據(jù)擴(kuò)增子測(cè)序數(shù)據(jù)推斷確切的擴(kuò)增子序列變體(amplicon sequence variant,ASV),取代較粗糙的操作分類單元(OTU)聚類方法;DADA2改善了菌群多樣性和差異性的下游分析,并可能使擴(kuò)增子測(cè)序方法探測(cè)到菌株水平的變化;DADA2通過(guò)準(zhǔn)確重建擴(kuò)增子測(cè)序的群落提高了研究人員對(duì)微生物群落的研究,比較表明,DADA2比MOTHUR[21]、QIIME(UCLUST)[22]、UPARSE[23]、MED[24]方法更準(zhǔn)確[15]。今后,QIIME2流程將會(huì)越發(fā)廣泛的應(yīng)用于擴(kuò)增子測(cè)序結(jié)果分析。

通過(guò)聚類獲得的OTU代表序列,需要與相應(yīng)數(shù)據(jù)庫(kù)比對(duì)注釋以進(jìn)行下一步的分析。目前微生物學(xué)研究常用的數(shù)據(jù)庫(kù)有rRNA基因數(shù)據(jù)庫(kù)(RDP、SILVA、Greengenes、EzBioCloud等)和內(nèi)部轉(zhuǎn)錄間隔(internal transcript space,ITS)序列數(shù)據(jù)庫(kù)(UNITE、ITS2等)。RDP和SILVA是目前微生物學(xué)研究rRNA基因比對(duì)注釋常用的數(shù)據(jù)庫(kù)。RDP的Classifier功能可用于rRNA基因測(cè)序后的物種分類鑒定,能夠方便地確定某條rRNA基因序列從門到屬/種水平的分類信息并給出各水平相應(yīng)的置信度。SILVA結(jié)合ARB軟件進(jìn)行rRNA質(zhì)量檢測(cè)和序列比對(duì),是MOTHUR分析工具中推薦的數(shù)據(jù)庫(kù)。Greengenes和EzBioCloud是僅收錄16S rRNA的數(shù)據(jù)庫(kù)。Greengenes數(shù)據(jù)庫(kù)收錄有微生物的功能信息,結(jié)合PICRUST分析工具能夠?qū)ξ⑸锶郝涔δ苓M(jìn)行預(yù)測(cè)。對(duì)于EzBioCloud,主要是利用數(shù)據(jù)庫(kù)的Identify功能確定16S rRNA基因序列的近緣可培養(yǎng)或模式種,較少用于高通量測(cè)序16S rRNA的參比。UNITE(僅收錄ITS序列)和ITS2(僅收錄ITS2序列)是真菌的專屬數(shù)據(jù)庫(kù)。UNITE和ITS2在應(yīng)用上有所區(qū)別,前者通常用于分類注釋,后者通常用于真菌鑒定。

OTU聚類及物種注釋后的分析由于研究目的不同會(huì)呈現(xiàn)出一定的差異。但核心分析主要包括兩個(gè)方面:物種組成分析和功能組成預(yù)測(cè)分析。群落的組成分析、系統(tǒng)發(fā)育分析、相似性分析、PCA/主坐標(biāo)分析(principal co-ordinates analysis,PCoA)是常用的物種組成分析方法。功能組成預(yù)測(cè)分析主要包括群落組成功能預(yù)測(cè)分析、群落基因功能與環(huán)境相關(guān)性分析、代謝途徑相關(guān)分析等。一般分析思路為:對(duì)物種或功能先進(jìn)行整體描述,然后分析總體差異和分組差異,最后進(jìn)行微生物組和環(huán)境因子關(guān)系的關(guān)聯(lián)分析并用無(wú)菌體系進(jìn)行驗(yàn)證以證實(shí)因果。

Microbiome Helper[47]是一款整理優(yōu)化了多套擴(kuò)增子(16S/18S/ITS)、metagenome分析流程的開源軟件。作者提供了一系列的輔助腳本,使宏基因組數(shù)據(jù)分析更加自動(dòng)化,顯著提高使用者的分析效率。2018年6月發(fā)表的基于Galaxy的微生物數(shù)據(jù)分析框架ASaiM[26]集成了100多種分析工具,內(nèi)置了多種參考分析流程,能夠通過(guò)Docker方式快速部署,方便非組學(xué)分析研究領(lǐng)域的使用。

3 擴(kuò)增子測(cè)序數(shù)據(jù)生物信息學(xué)分析在傳統(tǒng)發(fā)酵食品微生物研究中的應(yīng)用

3.1 生物信息學(xué)分析方法在傳統(tǒng)發(fā)酵食品微生物研究中的常見應(yīng)用

現(xiàn)階段,采用基于擴(kuò)增子測(cè)序的宏基因組學(xué)方法研究中國(guó)傳統(tǒng)發(fā)酵食品微生物,旨在識(shí)別、鑒定傳統(tǒng)發(fā)酵食品微生物的菌群結(jié)構(gòu),預(yù)測(cè)代謝功能,闡明相互作用關(guān)系。基于擴(kuò)增子測(cè)序的宏基因組數(shù)據(jù)生物信息學(xué)分析方法在傳統(tǒng)發(fā)酵食品微生物研究中的代表性成果見表2。

表2 基于擴(kuò)增子測(cè)序分析的宏基因組數(shù)據(jù)生物信息學(xué)分析方法在傳統(tǒng)發(fā)酵食品微生物中的代表性研究Table 2 Representative studies of bioinformatics analysis methods of metagenome data based on amplicon sequencing analysis in traditional fermented food microorganisms

由表2可以看出,現(xiàn)階段用于傳統(tǒng)發(fā)酵食品微生物研究的基于擴(kuò)增子測(cè)序的核酸序列處理流程主要為QIIME和MOTHUR,聚類方法主要是USEARCH和UPARSE。而最近出現(xiàn)的QIIME2流程優(yōu)于QIIME流程,DADA2算法也優(yōu)于USEARCH、UPARSE算法。另一個(gè)比較先進(jìn)的算法是UNOISE2[16],該算法經(jīng)過(guò)糾正點(diǎn)錯(cuò)誤獲得準(zhǔn)確擴(kuò)增子序列及過(guò)濾嵌合擴(kuò)增子,序列比對(duì)后聚類生成零半徑分類單元(zero-radius operational taxonomic unit,ZOTU)。與DADA2不同,UNOISE2使用一次性聚類策略,該策略不使用質(zhì)量分?jǐn)?shù)(Q)并且只有兩個(gè)預(yù)設(shè)值,能夠在不同的數(shù)據(jù)集上很好的工作。ZOTU在大多數(shù)情況下優(yōu)于傳統(tǒng)的97%OTU,使用97%的同一性可能將不同序列表型不同的菌株合并成同一OTU[15,42]。

3.2 生物信息學(xué)分析方法在傳統(tǒng)發(fā)酵食品微生物群落功能預(yù)測(cè)中的潛在應(yīng)用

基于擴(kuò)增子測(cè)序數(shù)據(jù)進(jìn)行功能預(yù)測(cè)的生物信息學(xué)工具見表3。功能預(yù)測(cè)的常用軟件有利用16S rRNA序列對(duì)細(xì)菌群落功能進(jìn)行預(yù)測(cè)的分析工具FAPROTAX[17]、BugBase[18]、MMinte[19]、PICRUSt[43]及Tax4Fun[44],利用ITS序列對(duì)真菌群落功能進(jìn)行預(yù)測(cè)的分析工具FUNGuild[20]等?,F(xiàn)階段功能預(yù)測(cè)主要集中在海洋微生物(WANG K等[45]通過(guò)PICRUSt預(yù)測(cè)得到了硫代謝相關(guān)基因的豐度信息)、腸道微生物(VRIEZE J D等[46]使用Tax4Fun對(duì)厭氧消化過(guò)程的總細(xì)菌、古菌和活躍細(xì)菌、古菌的菌群功能進(jìn)行了分析,發(fā)現(xiàn)對(duì)活躍菌進(jìn)行功能預(yù)測(cè)能夠獲得消化過(guò)程菌群活動(dòng)和實(shí)現(xiàn)對(duì)消化過(guò)程機(jī)理系統(tǒng)層面的理解)、土壤微生物(TOJU H等[47]使用FUNGuild對(duì)ITS測(cè)序數(shù)據(jù)進(jìn)行分析,揭示了土壤真菌的微共生現(xiàn)象)、農(nóng)業(yè)微生物(LOUCA S等[48]使用FAPROTAX分析鳳梨科植物微生物纖維素分解、發(fā)酵、氮呼吸等功能的菌群結(jié)構(gòu)組成,發(fā)現(xiàn)盡管微生物群落具有穩(wěn)定的功能結(jié)構(gòu),但其分類學(xué)水平的微生物群落結(jié)構(gòu)具有較高的變異性,證明了相同生態(tài)系統(tǒng)之間的微生物群落結(jié)構(gòu)變異并不意味著群落功能具有差異)研究中。然而對(duì)于微生物群落功能預(yù)測(cè)的應(yīng)用,應(yīng)采取謹(jǐn)慎的態(tài)度。一方面,由于功能預(yù)測(cè)工具都是基于一定的參考序列數(shù)據(jù)庫(kù)進(jìn)行功能預(yù)測(cè),預(yù)測(cè)結(jié)果受到參考序列數(shù)據(jù)庫(kù)的局限。另一方面,預(yù)測(cè)過(guò)程的數(shù)據(jù)預(yù)處理也會(huì)造成原始數(shù)據(jù)的部分損失,對(duì)預(yù)測(cè)結(jié)果產(chǎn)生一定的影響。同時(shí),功能預(yù)測(cè)不能替代全基因組研究(只能對(duì)已知微生物的已知功能進(jìn)行預(yù)測(cè)),但可以對(duì)后續(xù)實(shí)驗(yàn)設(shè)計(jì)作出指導(dǎo)。

表3 基于擴(kuò)增子測(cè)序數(shù)據(jù)進(jìn)行功能預(yù)測(cè)的生物信息學(xué)工具Table 3 Bioinformatics tools for functional prediction based on amplicon sequencing data

4 展望

目前,對(duì)于擴(kuò)增子測(cè)序數(shù)據(jù)的分析已相對(duì)成熟,可供選擇的各種數(shù)據(jù)庫(kù)、算法、工具和平臺(tái)日益增多。根據(jù)數(shù)據(jù)分析的需要,選擇合適的分析工具,并對(duì)分析工具和原理進(jìn)行深入的了解有利于分析過(guò)程參數(shù)調(diào)節(jié)和結(jié)果的進(jìn)一步處理。隨著宏基因組技術(shù)的發(fā)展,新的算法和計(jì)算平臺(tái)將會(huì)不斷出現(xiàn)。積極采用最新算法,比較不同算法之間的準(zhǔn)確性和差異,將會(huì)加速對(duì)傳統(tǒng)發(fā)酵食品微生物的研究。此外,為了規(guī)范傳統(tǒng)發(fā)酵食品樣本信息,有效存取海量數(shù)據(jù)信息,提供更多公用的數(shù)據(jù)源,需要建立規(guī)范的傳統(tǒng)發(fā)酵食品微生物宏基因組信息存儲(chǔ)平臺(tái),為宏基因組技術(shù)在傳統(tǒng)發(fā)酵食品微生物研究中的廣泛應(yīng)用提供堅(jiān)實(shí)的基礎(chǔ)。

猜你喜歡
信息學(xué)群落基因組
大學(xué)生牙齦炎齦上菌斑的微生物群落
合成微生物群落在發(fā)酵食品中的應(yīng)用研究
牛參考基因組中發(fā)現(xiàn)被忽視基因
雞NRF1基因啟動(dòng)子區(qū)生物信息學(xué)分析
初論博物館信息學(xué)的形成
春季和夏季巢湖浮游生物群落組成及其動(dòng)態(tài)分析
miRNA-148a在膀胱癌組織中的表達(dá)及生物信息學(xué)分析
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
長(zhǎng)期施用復(fù)合微生物肥對(duì)農(nóng)田土壤微生物群落的影響
河南科技(2014年18期)2014-02-27 14:14:54
东源县| 永宁县| 和静县| 湾仔区| 名山县| 星子县| 大埔区| 大冶市| 千阳县| 武清区| 永兴县| 康定县| 皋兰县| 博客| 柳林县| 白山市| 沅江市| 凤山县| 迭部县| 蒲城县| 万山特区| 山丹县| 阿图什市| 通道| 大埔县| 长丰县| 保德县| 陇川县| 胶南市| 齐齐哈尔市| 五莲县| 唐海县| 黄石市| 北京市| 太和县| 田阳县| 丰顺县| 昌邑市| 寻乌县| 郑州市| 朝阳县|