国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)及分析工具研究進(jìn)展

2012-09-29 07:25:52郝彤馬紅武趙學(xué)明
生物工程學(xué)報(bào) 2012年6期
關(guān)鍵詞:網(wǎng)絡(luò)分析修正基因組

郝彤,馬紅武,趙學(xué)明

1 天津大學(xué)化工學(xué)院生物工程系,天津 300072

2 教育部系統(tǒng)生物工程重點(diǎn)實(shí)驗(yàn)室,天津 300072

3 天津大學(xué)-愛丁堡大學(xué)系統(tǒng)生物學(xué)與合成生物學(xué)聯(lián)合研究中心,天津 300072

基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)及分析工具研究進(jìn)展

郝彤1,2,3,馬紅武1,2,3,趙學(xué)明1,2,3

1 天津大學(xué)化工學(xué)院生物工程系,天津 300072

2 教育部系統(tǒng)生物工程重點(diǎn)實(shí)驗(yàn)室,天津 300072

3 天津大學(xué)-愛丁堡大學(xué)系統(tǒng)生物學(xué)與合成生物學(xué)聯(lián)合研究中心,天津 300072

高通量數(shù)據(jù)的產(chǎn)出為基因組尺度代謝網(wǎng)絡(luò)的構(gòu)建提供了基礎(chǔ),但同時(shí)也對(duì)網(wǎng)絡(luò)構(gòu)建和分析方法的改進(jìn)提出了挑戰(zhàn)。隨著數(shù)據(jù)量的不斷增大,耗時(shí)耗力的人工構(gòu)建及分析已經(jīng)無法滿足模型發(fā)展的需要,因而各種自動(dòng)化的方法應(yīng)運(yùn)而生。模型構(gòu)建和分析的自動(dòng)化不僅能夠大幅度提高模型構(gòu)建和解析的速度,同時(shí)對(duì)于模型構(gòu)建和分析方法的標(biāo)準(zhǔn)化和程序化也有著不可替代的作用。文中結(jié)合作者的實(shí)際研究經(jīng)驗(yàn),對(duì)基因組尺度代謝網(wǎng)絡(luò)構(gòu)建的自動(dòng)化進(jìn)程和主要的代謝網(wǎng)絡(luò)分析工具進(jìn)行了較為詳細(xì)的介紹,總結(jié)了代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)的流程,并提出了目前面對(duì)的主要問題和未來的研究方向。

基因組尺度,代謝網(wǎng)絡(luò),自動(dòng)重構(gòu),網(wǎng)絡(luò)分析

Abstract:High-throughput data supply a basis for the reconstruction of genome-scale metabolic networks, andmeanwhile bring challenges to the reconstruction and analysis methods. With the increasing of data quantity, the time-consuming manual reconstruction and analysis are far behind the improvement of models. Therefore, various automatic methods emerge. The automatic reconstruction and analysis have irreplaceable effect in the standardization and programming of reconstruction and analysis methods, as well as largely improving the speed of reconstruction and understanding of the metabolic network. In this review, we introduced the progress of automatic reconstruction and the main analysis tools of genome-scale metabolic network. We further summarized the workflow of automatic reconstruction.The difficulties and perspectives on this research field are also discussed.

Keywords:genome-scale, metabolic network, automatic reconstruction, network analysis

近些年來,隨著以基因組測序?yàn)榇淼拇笠?guī)模數(shù)據(jù)產(chǎn)出,傳統(tǒng)的生物學(xué)研究方式正在發(fā)生改變,在基因組測序和注釋海量數(shù)據(jù)的基礎(chǔ)上,基因組尺度的代謝網(wǎng)絡(luò)重構(gòu)迅速發(fā)展起來[1-2]?;蚪M尺度代謝網(wǎng)絡(luò)已經(jīng)成為研究生物代謝系統(tǒng)不可缺少的工具[3-4],在設(shè)計(jì)代謝工程經(jīng)典途徑、代謝物合成、代謝通量分析、不同物種代謝途徑之間的進(jìn)化分析、挖掘組學(xué)數(shù)據(jù)信息以及選擇酶工程靶標(biāo)物方面都具有重要的應(yīng)用[5-6]。基因組尺度代謝網(wǎng)絡(luò)模型作為工具,無論在生物體以及生命活動(dòng)的理論研究上,還是在指導(dǎo)代謝工程進(jìn)行工程菌改造上,都具有非常重要的理論和實(shí)踐意義。

隨著基因組測序技術(shù)的提高,全基因組測序生物的數(shù)量呈指數(shù)逐年增長,截止至2011年10月,已經(jīng)有1 943個(gè)物種全基因組測序完成 (其中細(xì)菌1 673株,古細(xì)菌119株,真核生物151株),另外,1 028個(gè)物種的全基因組草圖也已經(jīng)完成并已收錄在 GOLD數(shù)據(jù)庫 (GOLD:http://www.genomesonline.org/cgi-bin/GOLD/bin/gold.cgi. [2011-10-31]) 中。這些數(shù)據(jù)構(gòu)成了龐大的信息資源,為研究生物體的生理特征、代謝表型、病理分析提供了基礎(chǔ)。正是由于數(shù)據(jù)量的龐大規(guī)模和快速發(fā)展,生物學(xué)研究對(duì)于計(jì)算機(jī)方法處理數(shù)據(jù)的要求也越來越高[2]。理論上來說,有多少物種的全基因組測序完成,就應(yīng)該存在多少個(gè)對(duì)應(yīng)的基因組尺度代謝網(wǎng)絡(luò),然而截止至2011年10月的統(tǒng)計(jì),目前只有81個(gè)物種的126個(gè)基因組尺度代謝網(wǎng)絡(luò)重構(gòu)完成,并收錄在基因組尺度代謝網(wǎng)絡(luò)模型數(shù)據(jù)庫中 (http://synbio.tju.edu.cn/GSMNDB/gsmndb.htm),基因組尺度代謝網(wǎng)絡(luò)數(shù)量遠(yuǎn)遠(yuǎn)小于已測序物種的數(shù)量 (圖1)。造成這種情況的原因主要有 2個(gè):1) 我們對(duì)很多物種的生理生化機(jī)制了解有限;2) 重構(gòu)過程中需要大量耗時(shí)耗力的人工修正工作[6-7]。前者需要通過長時(shí)間生物實(shí)驗(yàn)研究逐步改善,而后者則需要通過提高重構(gòu)過程的自動(dòng)化水平以減少人工修正過程來解決。同時(shí)網(wǎng)絡(luò)重構(gòu)的速度迅速提高,能夠?yàn)槲覀兲峁└嗔私馍锷砩瘷C(jī)制的素材,對(duì)第一個(gè)問題的解決也具有重要的推動(dòng)作用。近些年有一些致力于通過計(jì)算機(jī)平臺(tái)自動(dòng)化重構(gòu)過程的研究[8-11],這些研究已經(jīng)取得了一些成績,但是其中仍然需要大量的人工修正工作[12]。另一方面,代謝網(wǎng)絡(luò)分析工具的開發(fā)對(duì)于代謝網(wǎng)絡(luò)的發(fā)展和應(yīng)用也起到了重要的推動(dòng)作用,因此,代謝網(wǎng)絡(luò)重構(gòu)的自動(dòng)化和分析工具的開發(fā)成為提高網(wǎng)絡(luò)重構(gòu)速度并推動(dòng)代謝網(wǎng)絡(luò)研究發(fā)展的重要問題,逐漸引起研究者們的興趣。在這里,作者結(jié)合自己的研究經(jīng)歷,較為詳細(xì)地闡述基因組尺度代謝網(wǎng)絡(luò)自動(dòng)化重構(gòu)的研究進(jìn)展、介紹主要的代謝網(wǎng)絡(luò)分析工具,并總結(jié)自動(dòng)化重構(gòu)的流程。

圖1 已測序物種和已構(gòu)建基因組尺度代謝網(wǎng)絡(luò)數(shù)目Fig. 1 The number of sequenced species and reconstructed genome-scale metabolic networks.

1 基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)進(jìn)展

在網(wǎng)絡(luò)重構(gòu)方面,Palsson實(shí)驗(yàn)組是走在最前面的,1999年該實(shí)驗(yàn)組重構(gòu)了第一個(gè)基因組尺度代謝網(wǎng)絡(luò)模型[13],此后又先后重構(gòu)了包括人類和微生物在內(nèi)的十幾個(gè)物種的基因組尺度模型,有些物種的模型經(jīng)過不斷修正,先后重構(gòu)了多個(gè)版本,重構(gòu)方法也不斷改進(jìn)。以大腸桿菌Escherichia coli為例,該實(shí)驗(yàn)室最初建立的大腸桿菌基因組尺度代謝網(wǎng)絡(luò)模型iJE660[14]包含660個(gè)基因,以數(shù)據(jù)庫和文獻(xiàn)信息為基礎(chǔ),通過大量的人工修正輔助建立,并通過通量平衡分析(Flux balance analysis,F(xiàn)BA) 方法進(jìn)行了生物量合成以及必需基因模擬,其中必需基因預(yù)測的準(zhǔn)確率為 86%。第二代模型 iJR904[15]利用基因組信息、生化和生理學(xué)數(shù)據(jù)對(duì)iJE660進(jìn)行了擴(kuò)充,并進(jìn)行了元素和電荷守恒的修正,iJR904在限氧并以α-酮戊二酸為底物的條件下,對(duì)生物量合成的預(yù)測準(zhǔn)確性顯著高于iJE660,并且必需基因預(yù)測的準(zhǔn)確率達(dá)到88%。在iJR904的基礎(chǔ)上,他們又根據(jù)大腸桿菌的基因組功能注釋、EcoCyc數(shù)據(jù)庫以及文獻(xiàn)信息對(duì)網(wǎng)絡(luò)進(jìn)行了再次擴(kuò)展和修正,建立了iAF1260模型[16],熱力學(xué)信息的加入使網(wǎng)絡(luò)包含的信息更加完善,該模型對(duì)必需基因預(yù)測的準(zhǔn)確率進(jìn)一步提高到了 92%。通過對(duì)iAF1260的進(jìn)一步完善,2011年該組構(gòu)建了大腸桿菌iJO1366模型[17],該模型在iAF1260的基礎(chǔ)上添加了106個(gè)新的基因,雖然該模型在底物利用和基因必需性預(yù)測方面比 iAF1260的準(zhǔn)確性略低,但是包含了更加廣泛的代謝網(wǎng)絡(luò)信息。2010年P(guān)alsson發(fā)表的綜述文章中系統(tǒng)地介紹了重構(gòu)一個(gè)高質(zhì)量代謝網(wǎng)絡(luò)的96個(gè)步驟[18],這些步驟在COBRA的自動(dòng)分析基礎(chǔ)上輔以大量人工修正工作,特別是運(yùn)輸反應(yīng)的添加,由于文獻(xiàn)信息的缺乏,很難實(shí)現(xiàn)自動(dòng)化。根據(jù)這樣的步驟和方法,對(duì)于不同的物種,重構(gòu)一個(gè)全基因組尺度代謝網(wǎng)絡(luò)的時(shí)間在6個(gè)月到2年不等。

可見,隨著構(gòu)建方法的發(fā)展,代謝網(wǎng)絡(luò)模型的規(guī)模正在不斷擴(kuò)大,人工構(gòu)建已經(jīng)無法滿足模型發(fā)展的需要,研究者對(duì)于自動(dòng)化模型構(gòu)建的要求也越來越高。本文從網(wǎng)絡(luò)構(gòu)建的幾個(gè)步驟分別介紹自動(dòng)化網(wǎng)絡(luò)構(gòu)建的進(jìn)展。

1.1 自動(dòng)化初步重構(gòu)

從自動(dòng)化程度方面來說,在代謝網(wǎng)絡(luò)的重構(gòu)過程中,自動(dòng)化程度較高的是原始數(shù)據(jù)收集步驟。以人類代謝網(wǎng)絡(luò)為例,從KEGG和Reactome數(shù)據(jù)庫中能夠直接下載人類代謝網(wǎng)絡(luò)中包含的反應(yīng)及途徑信息,通過與這些數(shù)據(jù)庫關(guān)聯(lián),可以得到人類代謝網(wǎng)絡(luò)重構(gòu)的初始數(shù)據(jù)?;诖?,Schwarz等[19]開發(fā)了YANAsquare軟件,該軟件可以通過對(duì) KEGG數(shù)據(jù)庫的自動(dòng)搜索初步重構(gòu)代謝網(wǎng)絡(luò)。馬紅武等也已經(jīng)開發(fā)了能夠自動(dòng)從KEGG數(shù)據(jù)庫提取各物種代謝網(wǎng)絡(luò)數(shù)據(jù)的網(wǎng)絡(luò)工具 (http://csb.inf.ed.ac.uk/kneva/)。此外,孫際賓等[20]開發(fā)的 IdentiCS軟件可以從基因組測序信息對(duì)基因組進(jìn)行注釋,并進(jìn)行網(wǎng)絡(luò)的初步重構(gòu),對(duì)于測序時(shí)基因組覆蓋度較低的物種,該軟件在網(wǎng)絡(luò)初步重構(gòu)方面具有優(yōu)勢。直接由基因組或數(shù)據(jù)庫信息重構(gòu)的網(wǎng)絡(luò)可以用于網(wǎng)絡(luò)特征和拓?fù)浣Y(jié)構(gòu)分析,但是這樣的網(wǎng)絡(luò)比較粗糙,還不能滿足代謝通量分析的要求,需要進(jìn)一步的修正和完善[21]。

為了得到盡可能完善的數(shù)據(jù)信息以提高重構(gòu)網(wǎng)絡(luò)的質(zhì)量,一些綜合多個(gè)數(shù)據(jù)源、自動(dòng)獲取信息初步重構(gòu)網(wǎng)絡(luò)的軟件及軟件平臺(tái)發(fā)展起來。DeJongh等[22]開發(fā)了用于網(wǎng)絡(luò)自動(dòng)初步重構(gòu)的SEED平臺(tái),該平臺(tái)將所有基因組信息 (不依賴于物種) 按照功能分為若干個(gè)子系統(tǒng),每個(gè)子系統(tǒng)中都包含各種微生物的基因注釋和功能信息,以及不同微生物之間的基因功能差異,重構(gòu)時(shí)從各個(gè)子系統(tǒng)中提取出所需微生物的基因組信息匯總起來完成重構(gòu),通過與人工修正的 E. coli iJR904、H. pylori iIT341以及 Oliverira等[23]重構(gòu)的乳酸乳球菌Lactococcus lactis模型比較,發(fā)現(xiàn)用SEED重構(gòu)的模型可以分別覆蓋到已重構(gòu)模型中87%、90%和83%的反應(yīng)。

Arakawa等[24]開發(fā)的GEM System軟件從基因組注釋出發(fā)自動(dòng)構(gòu)建代謝網(wǎng)絡(luò),并建立計(jì)量學(xué)矩陣,該模型可以覆蓋KEGG和EcoCyc數(shù)據(jù)庫中大腸桿菌100%和92.8%的數(shù)據(jù),并覆蓋E. coli iJR904中95.06%的數(shù)據(jù)。

Cottret等[25]開發(fā)了基于代謝物組學(xué)的基因組尺度代謝網(wǎng)絡(luò)構(gòu)建工具M(jìn)etExplore、該工具建立在50個(gè)物種數(shù)據(jù)集的基礎(chǔ)上,從代謝物角度出發(fā),將整個(gè)代謝網(wǎng)絡(luò)表示為一個(gè)無重復(fù)代謝物大網(wǎng)絡(luò)圖,而不是區(qū)分為多個(gè)包含重復(fù)代謝物的代謝途徑,從而更加清晰地描述了代謝物之間的關(guān)系。

上述軟件和工具的出現(xiàn)一定程度上減少了代謝網(wǎng)絡(luò)模型中的人工工作量,從而提高了模型的構(gòu)建速度。然而雖然SEED、GEM等方法已經(jīng)能夠很大程度上覆蓋一些模式菌已構(gòu)建代謝網(wǎng)絡(luò)中的數(shù)據(jù),但仍然無法替代很多重構(gòu)代謝網(wǎng)絡(luò)中的人工修正工作。這些自動(dòng)構(gòu)建的網(wǎng)絡(luò)中大多不包含大部分與運(yùn)輸相關(guān)的反應(yīng)以及沒有對(duì)應(yīng)基因的反應(yīng),而且在處理酶號(hào)不全的酶時(shí)容易出現(xiàn)錯(cuò)誤,其重構(gòu)網(wǎng)絡(luò)的質(zhì)量無法滿足直接用于高質(zhì)量分析預(yù)測的需要。因而,直接由基因組或數(shù)據(jù)庫信息得到的重構(gòu)網(wǎng)絡(luò)需進(jìn)行進(jìn)一步的修正。

1.2 自動(dòng)化網(wǎng)絡(luò)空白填補(bǔ)

網(wǎng)絡(luò)的結(jié)構(gòu)分析是查找網(wǎng)絡(luò)空白的一種有效方式,Arakawa等[24]開發(fā)的GEM System軟件在從基因組注釋出發(fā)初步重構(gòu)的網(wǎng)絡(luò)基礎(chǔ)上,通過途徑連通性分析自動(dòng)填補(bǔ)了一些網(wǎng)絡(luò)空白。本文作者等[26-27]在對(duì)人類代謝網(wǎng)絡(luò)進(jìn)行擴(kuò)展的工作中,將代謝網(wǎng)絡(luò)轉(zhuǎn)化為反應(yīng)圖,通過對(duì)反應(yīng)圖中最小弱連接體的連通性分析確定了網(wǎng)絡(luò)中的空白。

除了結(jié)構(gòu)分析的方法外,優(yōu)化算法也可以用在網(wǎng)絡(luò)空白的自動(dòng)填補(bǔ)中,在小鼠代謝網(wǎng)絡(luò)模型的構(gòu)建中,Palsson實(shí)驗(yàn)組[28]采用了SMILEY方法來輔助填補(bǔ)網(wǎng)絡(luò)中的空白,該方法在保證菌體正常生長的條件下,通過線性規(guī)劃自動(dòng)確定用于填補(bǔ)空白的候選反應(yīng),再通過人工查證的方法來確定最終的解決方案[29]。Costas D Maranas實(shí)驗(yàn)組[30]提出了通過查找末端代謝物查找和填補(bǔ)網(wǎng)絡(luò)空白的方法 GapFind和 GapFill,末端代謝物是指在其參與的所有反應(yīng)中都只作為底物或只作為產(chǎn)物的物質(zhì),GapFind方法通過代謝末端的計(jì)算找到網(wǎng)絡(luò)中的末端代謝物,將之確定為網(wǎng)絡(luò)中的空白,在此基礎(chǔ)上,GapFill方法以網(wǎng)絡(luò)中的所有反應(yīng)以及 MetaCyc數(shù)據(jù)庫中的所有反應(yīng)為數(shù)據(jù)基礎(chǔ),進(jìn)行線性規(guī)劃的計(jì)算,確定能夠用于填補(bǔ)空白的反應(yīng),或通過對(duì)反應(yīng)可逆性的修改消除部分網(wǎng)絡(luò)空白。該方法填補(bǔ)了網(wǎng)絡(luò)中與末端代謝物相關(guān)的網(wǎng)絡(luò)空白,并且添加了一部分與網(wǎng)絡(luò)空白相關(guān)的運(yùn)輸反應(yīng)。

1.3 自動(dòng)化模擬修正

代謝網(wǎng)絡(luò)構(gòu)建的目的是用于模擬生物的生理表型和代謝過程,因而重構(gòu)模型在模擬方面需要有較高的準(zhǔn)確率。為了滿足這一要求,在模型重構(gòu)過程中,模擬修正成為重要的一步。該步驟的目的是通過“模擬-與實(shí)驗(yàn)比較-修正”的過程保證重構(gòu)模型對(duì)于已有實(shí)驗(yàn)結(jié)果的預(yù)測準(zhǔn)確率,從而提高對(duì)于未知實(shí)驗(yàn)預(yù)測結(jié)果的可信度。

模擬修正要求模擬與修正能夠互相結(jié)合,目前許多軟件或工具包 (如 CellNetAnalyzer[31]、SBRT[32]、OptFlux[33]等) 都可以進(jìn)行基于通量平衡分析的模擬計(jì)算,但是當(dāng)模擬結(jié)果與實(shí)驗(yàn)數(shù)據(jù)不符時(shí),對(duì)網(wǎng)絡(luò)的修正還需通過人工查閱文獻(xiàn)完成。為了探索這個(gè)環(huán)節(jié)的自動(dòng)化問題,Costas D Maranas實(shí)驗(yàn)組[34]開發(fā)了GrowMatch方法,用于自動(dòng)修正單基因敲除實(shí)驗(yàn)中,模型模擬與實(shí)驗(yàn)結(jié)果不符的情況。該方法通過最優(yōu)化確定使模擬結(jié)果與實(shí)驗(yàn)結(jié)果一致需改變的反應(yīng)數(shù)的最小值,隨后對(duì)兩種不同的情況GNG (模擬結(jié)果為生長,實(shí)驗(yàn)結(jié)果為不生長) 和NGG (模擬結(jié)果為不生長,實(shí)驗(yàn)結(jié)果為生長) 采用不同的策略進(jìn)行修正,對(duì)于 GNG,通過抑制特定反應(yīng)達(dá)到抑制生長的目的,對(duì)于 NGG,則通過添加適當(dāng)?shù)耐緩酵晟凭W(wǎng)絡(luò)功能,從而使模型能夠模擬菌種的生長。通過將該方法應(yīng)用于大腸桿菌iAF1260模型,修正了56/72個(gè)GNG以及13/38個(gè)NGG,從而使模型單基因敲除的預(yù)測準(zhǔn)確率由 90.6%提高到94.6%。該方法在枯草芽胞桿菌模型構(gòu)建中的應(yīng)用使模型對(duì)單基因敲除的準(zhǔn)確率由 89.7%提高到 93.1%[35]。

另外,Palsson實(shí)驗(yàn)組開發(fā)的商業(yè)化網(wǎng)絡(luò)重構(gòu)軟件 SimphenyTM融合了基因組序列,基因表達(dá),蛋白組學(xué)和代謝物組學(xué)的數(shù)據(jù),并包含了多種計(jì)算功能,可用于基因組尺度代謝網(wǎng)絡(luò)的自動(dòng)重構(gòu)和修正。

2 基因組尺度代謝網(wǎng)絡(luò)分析工具

隨著重構(gòu)基因組尺度代謝網(wǎng)絡(luò)數(shù)量的不斷增加,人們對(duì)于網(wǎng)絡(luò)自動(dòng)分析的研究也逐漸深入。代謝網(wǎng)絡(luò)分析工具從最初的利用 LINDO等數(shù)學(xué)分析工具的線性規(guī)劃工具包[13-14],到現(xiàn)在已有很多專門針對(duì)生物代謝網(wǎng)絡(luò)的軟件和工具包開發(fā)出來。這里對(duì)主要的單機(jī)軟件和網(wǎng)絡(luò)軟件進(jìn)行介紹。

2.1 單機(jī)軟件

雖然代謝網(wǎng)絡(luò)的重構(gòu)和分析是兩個(gè)獨(dú)立的部分,但是一些網(wǎng)絡(luò)平臺(tái)和軟件同時(shí)具備了這兩方面的功能。Simpheny軟件在網(wǎng)絡(luò)構(gòu)建之外,同時(shí)具備底物利用、產(chǎn)物生成、基因敲除、適應(yīng)性進(jìn)化分析等多種分析功能。YANAsquare軟件也能夠?qū)崿F(xiàn)代謝網(wǎng)絡(luò)的可視化和分析。另外還有一些專門用于網(wǎng)絡(luò)分析的工具。Palsson實(shí)驗(yàn)組[36]開發(fā)的免費(fèi)網(wǎng)絡(luò)分析工具包 COBRA在 Matlab環(huán)境下運(yùn)行,使用基于約束的方法對(duì)基因組尺度的網(wǎng)絡(luò)模型進(jìn)行細(xì)胞表型的量化預(yù)測,它包含了多種 FBA算法,能夠完成通量分布計(jì)算、不同底物生長表型預(yù)測、基因敲除分析、通量可變性分析 (系統(tǒng)魯棒性分析、表型相平面分析)、前體必要性分析、副產(chǎn)物產(chǎn)量計(jì)算等多種分析功能,2011年開發(fā)的新版本COBRA Toolbox v2.0[37]又增加了空白填補(bǔ)、13C分析、組學(xué)分析和可視化等功能。

Sung Yup Lee實(shí)驗(yàn)組[38]開發(fā)了MetaFluxNet軟件作為代謝網(wǎng)絡(luò)數(shù)據(jù)管理的平臺(tái)對(duì)代謝網(wǎng)絡(luò)進(jìn)行可視化和簡單的通量平衡分析。Pabinger等[39]開發(fā)的 MEMOSys平臺(tái)能夠用于數(shù)據(jù)的管理、存儲(chǔ)和擴(kuò)展,從而為新模型的構(gòu)建提供有用的信息。目前該平臺(tái)包含6個(gè)已注釋的微生物代謝網(wǎng)絡(luò)模型。更值得注意的是,這個(gè)平臺(tái)包含了模型比較的功能,能夠比較模型之間反應(yīng)、代謝物和基因的不同之處。另外,F(xiàn)luxAnalyzer工具包[31]能夠進(jìn)行網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)分析、代謝通量分析、基元模式分析和端途徑分析等,同時(shí)能夠通過交互和可視化的方式綜合分析代謝網(wǎng)絡(luò)和信號(hào)調(diào)控網(wǎng)絡(luò)。iMAT工具包[40]能夠融合轉(zhuǎn)錄組學(xué)和蛋白組學(xué)的數(shù)據(jù)預(yù)測基因組尺度代謝網(wǎng)絡(luò)模型中酶的代謝通量。SBRT軟件[32]可用于分析計(jì)量學(xué)網(wǎng)絡(luò),并從其他領(lǐng)域如圖論、幾何學(xué)、組合學(xué)等借鑒了一些方法。OptFlux軟件平臺(tái)[33]首次應(yīng)用了菌種優(yōu)化算法,即能夠識(shí)別代謝工程目標(biāo),對(duì)代謝模型進(jìn)行野生菌和突變菌的表型模擬。FASIMU軟件[41]包含了使用熱力學(xué)作為限制條件的通量平衡分析方法,并且在目標(biāo)函數(shù)和約束條件的選擇方面更加靈活,用戶可以根據(jù)需要選擇合適的目標(biāo)函數(shù)和約束條件。

2.2 網(wǎng)絡(luò)軟件

除了單機(jī)版的分析軟件,一些基于網(wǎng)絡(luò)的工具也被開發(fā)出來,相對(duì)于單機(jī)軟件,網(wǎng)絡(luò)工具具有更加方便的應(yīng)用性和可拓展性。Beste等[42]發(fā)表了第一個(gè)基于互聯(lián)網(wǎng)的基因組尺度模型GSMN-TB,該模型在 Linux 操作系統(tǒng)下運(yùn)行,可用于結(jié)核分枝桿菌Mycobacterium tuberculosis的底物消耗速率的計(jì)算、基因必需性預(yù)測以及通量可變性分析。Le Fèvre等[43]開發(fā)了CycSim網(wǎng)絡(luò)工具,該工具支持基因敲除模擬、預(yù)測單或多基因敲除突變體的生長表型,而且可以得到直觀的可視化代謝圖。該工具內(nèi)部的模型庫包含釀酒酵母Saccharomyces cerevisae、E. coli和不動(dòng)桿菌Acinetobacter baylyi ADP1這3個(gè)菌的模型數(shù)據(jù)、培養(yǎng)基組分?jǐn)?shù)據(jù)及其他生化數(shù)據(jù)。除了這3個(gè)菌型之外,該軟件目前還無法分析其他物種的模型文件。

Cvijovic等[44]開發(fā)的 BioMet網(wǎng)絡(luò)工具包可用于高通量數(shù)據(jù)的分析,該工具包分為3個(gè)部分:BioOpt,Reporter Features和 Reporter Subnetwork。BioOpt用于模型的通量平衡分析;Reporter Features可用于分析生物網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),通過拓?fù)浣Y(jié)構(gòu)分析可以確定生物網(wǎng)絡(luò)的一些網(wǎng)絡(luò)特征;Reporter Subnetwork用于識(shí)別發(fā)生直接或間接擾動(dòng)時(shí)發(fā)生變化的代謝子網(wǎng)絡(luò)。同時(shí),該工具箱還包含了Saccharomyces cerevisiae,天藍(lán)色鏈霉菌Streptomyces coelicolor、Lactococcus lactis、黑曲霉 Aspergillus niger、構(gòu)巢曲霉 Aspergillus nidulans、米曲霉Aspergillus oryzae和谷氨酸棒桿菌Corynebacterium glutamicum的代謝網(wǎng)絡(luò)數(shù)據(jù)。

表1 常用代謝網(wǎng)絡(luò)分析軟件和工具包Table 1 Software and toolboxes for metabolic network analysis

軟件及工具包的使用使基因組尺度代謝網(wǎng)絡(luò)的分析更加簡單易學(xué),應(yīng)用范圍更加廣泛,在生物預(yù)測及生物代謝機(jī)理研究方面也具有了更深入探索的可能性。常用代謝網(wǎng)絡(luò)分析軟件及工具包及其對(duì)應(yīng)的網(wǎng)址如表1所示。

3 基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)流程總結(jié)及展望

綜合上文所述,基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)的流程主要分為初步重構(gòu)、空白填補(bǔ)及模擬修正3個(gè)部分,其中初步重構(gòu)的自動(dòng)化是目前發(fā)展比較成熟的部分。對(duì)于高質(zhì)量代謝網(wǎng)絡(luò)的構(gòu)建,僅從單一數(shù)據(jù)庫獲得信息是不夠的,構(gòu)建者可以選擇建立在多個(gè)數(shù)據(jù)庫基礎(chǔ)上的自動(dòng)重構(gòu)軟件,如文中提到的SEED、GEM System,來得到初步重構(gòu)的網(wǎng)絡(luò)。在空白填補(bǔ)的過程中,如果根據(jù)結(jié)構(gòu)來填補(bǔ),可以采用gapfind、gapfill方法以及最小弱連接體連通性分析的方法,如果根據(jù)通量平衡分析來填補(bǔ),可以采用SMILEY算法,如果初步重構(gòu)網(wǎng)絡(luò)是利用GEM System軟件獲得,繼續(xù)利用該軟件的功能進(jìn)行空白填補(bǔ)則更加快捷。在空白填補(bǔ)的過程中,出現(xiàn)一個(gè)網(wǎng)絡(luò)空白有多個(gè)候選反應(yīng)進(jìn)行填補(bǔ)時(shí),需要進(jìn)行必要的人工選擇。自動(dòng)模擬修正方面的自動(dòng)化方法目前研究較少,利用 GrowMatch方法可以對(duì)網(wǎng)絡(luò)進(jìn)行定性的修正,該方法已用于利用基因必要性數(shù)據(jù)進(jìn)行大腸桿菌和枯草芽胞桿菌網(wǎng)絡(luò)的修正。對(duì)于定量的模擬修正,目前仍需根據(jù)模擬分析軟件得到的結(jié)果,通過人工分析進(jìn)行。在代謝網(wǎng)絡(luò)分析方面,目前開發(fā)出的軟件很多,使用者可以根據(jù)研究目的和需求選擇具有相關(guān)功能的軟件,本文介紹的大多數(shù)軟件都具有基本的通量平衡分析功能。

基因組尺度代謝網(wǎng)絡(luò)自動(dòng)化重構(gòu)及分析是基因組尺度代謝網(wǎng)絡(luò)研究的發(fā)展趨勢,雖然自動(dòng)化過程不可能完全取代人工判斷在代謝網(wǎng)絡(luò)構(gòu)建和分析中的作用,但是其規(guī)范、快速的特點(diǎn)對(duì)于促進(jìn)代謝網(wǎng)絡(luò)的發(fā)展和應(yīng)用仍然起著不可替代的作用。研究者們對(duì)其進(jìn)行的研究得到了許多具有指導(dǎo)意義的方法和策略。但是,目前自動(dòng)化重構(gòu)的網(wǎng)絡(luò)質(zhì)量仍然不高,基于軟件的網(wǎng)絡(luò)分析也需要大量人工操作的輔助,目前的研究存在以下主要問題。

首先,數(shù)據(jù)收集的全面性有待提高。數(shù)據(jù)是網(wǎng)絡(luò)構(gòu)建和網(wǎng)絡(luò)修正的基礎(chǔ),僅靠數(shù)據(jù)庫和基因組注釋得來的信息往往并不全面,為了提高網(wǎng)絡(luò)的質(zhì)量,需要從更加廣泛的數(shù)據(jù)源得到能夠用于完善代謝網(wǎng)絡(luò)的數(shù)據(jù)。

其次,在網(wǎng)絡(luò)空白查找過程中,目前的自動(dòng)化方法僅考慮了與末端代謝物相關(guān)的網(wǎng)絡(luò)空白,對(duì)于非末端代謝物的考慮不足,通量分析的方法在空白填補(bǔ)的過程中還不能做到完全的自動(dòng)化,根據(jù)不同情況需人工進(jìn)行不同的處理和修正,在這一方面,文獻(xiàn)信息的匱乏,特別是與運(yùn)輸反應(yīng)相關(guān)的實(shí)驗(yàn)研究的缺乏是網(wǎng)絡(luò)空白填補(bǔ)中的重要問題。

再次,目前還沒有一個(gè)軟件能夠?qū)崿F(xiàn)高水平基因組尺度代謝網(wǎng)絡(luò)整個(gè)重構(gòu)過程的自動(dòng)化,網(wǎng)絡(luò)構(gòu)建中需人工工作最多的地方是模擬修正,除了必需基因預(yù)測,對(duì)于其他方面,當(dāng)模擬分析結(jié)果與實(shí)驗(yàn)結(jié)果不一致時(shí),尚缺乏自動(dòng)修正的方法。

最后,在網(wǎng)絡(luò)分析過程中,自動(dòng)化軟件對(duì)計(jì)算結(jié)果生物學(xué)意義的分析和判斷仍然缺乏統(tǒng)一的標(biāo)準(zhǔn),另外,不同分析軟件對(duì)于輸入文件的格式要求也各有不同,使得利用多個(gè)軟件進(jìn)行的代謝網(wǎng)絡(luò)分析過程增加了許多數(shù)據(jù)格式轉(zhuǎn)換的工作。

隨著海量數(shù)據(jù)的不斷產(chǎn)生以及自動(dòng)化水平的提高,模型構(gòu)建和分析的過程也將逐步走向標(biāo)準(zhǔn)化和程序化,這一過程在促進(jìn)代謝網(wǎng)絡(luò)模型本身發(fā)展的同時(shí),對(duì)于其他網(wǎng)絡(luò),如轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò),信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)等的構(gòu)建也必定大有裨益。

REFERENCES

[1] Notebaart RA, van Enckevort FH, Francke C, et al.Accelerating the reconstruction of genome-scale metabolic networks. BMC Bioinform, 2006, 7: 296.

[2] Francke C, Siezen RJ, Teusink B. Reconstructing the metabolic network of a bacterium from its genome. Trends Microbiol, 2005, 13(11): 550?558.

[3] Feist AM, Palsson B?. The growing scope of applications of genome-scale metabolic reconstructions using Escherichia coli. Nat Biotechnol, 2008, 26(6): 659?667.

[4] Pál C, Papp B, Lercher MJ, et al. Chance and necessity in the evolution of minimal metabolic networks. Nature, 2006, 440(7084): 667?670.

[5] Soh KC, Hatzimanikatis V. DREAMS of metabolism. Trends Biotechnol, 2010, 28(10):501?508.

[6] Wang H, Ma HW, Zhao XM. Progress in genome-scale metabolic network: a review. Chin J Biotech, 2010, 26(10): 1340?1348.

王暉, 馬紅武, 趙學(xué)明. 基因組尺度代謝網(wǎng)絡(luò)研究進(jìn)展. 生物工程學(xué)報(bào), 2010, 26(10): 1340?1348.

[7] Palsson B. Metabolic systems biology. FEBS Lett,2009, 583(24): 3900?3904.

[8] Feist AM, Herrg?rd MJ, Thiele I, et al.Reconstruction of biochemical networks in microorganisms. Nat Rev Microbiol, 2009, 7(2):129?143.

[9] Poolman MG, Bonde BK, Gevorgyan A, et al.Challenges to be faced in the reconstruction of metabolic networks from public databases. Syst Biol (Stevenage), 2006, 153(5): 379?384.

[10] Gevorgyan A, Poolman MG, Fell DA. Detection of stoichiometric inconsistencies in biomolecular models. Bioinformatics, 2008, 24(19): 2245?2251.

[11] Herrg?rd MJ, Fong SS, Palsson B?. Identification of genome-scale metabolic network models using experimentally measured flux profiles. PLoS Comp Biol, 2006, 2(7): e72.

[12] Ruppin E, Papin JA, de Figueiredo LF, et al.Metabolic reconstruction, constraint-based analysis and game theory to probe genome-scale metabolic networks. Curr Opin Biotechnol, 2010, 21(4):502?510.

[13] Edwards JS, Palsson BO. Systems properties of the Haemophilus influenzae Rd metabolic genotype. J Biol Chem, 1999, 274(25): 17410?17416.

[14] Edwards JS, Palsson BO. The Escherichia coli MG1655 in silico metabolic genotype: its definition, characteristics, and capabilities. Proc Natl Acad Sci USA, 2000, 97(10): 5528?5533.

[15] Reed JL, Vo TD, Schilling CH, et al. An expanded genome-scale model of Escherichia coli K-12(iJR904 GSM/GPR). Genome Biol, 2003, 4(9): R54.

[16] Feist AM, Henry CS, Reed JL, et al. A genome-scale metabolic reconstruction for Escherichia coli K-12 MG1655 that accounts for 1260 ORFs and thermodynamic information. Mol Syst Biol, 2007, 3: 121.

[17] Orth JD, Conrad TM, Na J, et al. A comprehensive genome-scale reconstruction of escherichia coli metabolism-2011. Mol Syst Biol, 2011, 7: 535.

[18] Thiele I, Palsson B?. A protocol for generating a high-quality genome-scale metabolic reconstruction. Nat Protoc, 2010, 5(1): 93?121.

[19] Schwarz R, Liang CG, Kaleta C, et al. Integrated network reconstruction, visualization and analysis using YANAsquare. BMC Bioinform, 2007, 8: 313.

[20] Sun JB, Zeng AP. IdentiCS-identification of coding sequence and in silico reconstruction of the metabolic network directly from unannotated low-coverage bacterial genome sequence. BMC Bioinform, 2004, 5: 112.

[21] Durot M, Bourguignon PY, Schachter V.Genome-scale models of bacterial metabolism:reconstruction and applications. FEMS Microbiol Rev, 2009, 33(1): 164?190.

[22] DeJongh M, Formsma K, Boillot P, et al. Toward the automated generation of genome-scale metabolic networks in the SEED. BMC Bioinform,2007, 8: 139.

[23] Oliveira AP, Nielsen J, F?rster J. Modeling lactococcus lactis using a genome-scale flux model.BMC Microbiol, 2005, 5: 39.

[24] Arakawa K, Yamada Y, Shinoda K, et al. GEM System: automatic prototyping of cell-wide metabolic pathway models from genomes. BMC Bioinform, 2006, 7: 168.

[25] Cottret L, Wildridge D, Vinson F, et al.Metexplore: a web server to link metabolomic experiments and genome-scale metabolic networks.Nucleic Acids Res, 2010, 38(Web Server issue):W132?W137.

[26] Hao T, Ma HW, Zhao XM, et al.Compartmentalization of the edinburgh human metabolic network. BMC Bioinform, 2010, 11(1):393.

[27] Hao T, Ma HW, Zhao XM, et al. The reconstruction and analysis of tissue specific human metabolic networks. Mol Biosyst, 2012,8(2): 663?670.

[28] Reed JL, Patel TR, Chen KH, et al. Systems approach to refining genome annotation. Proc Natl Acad Sci USA, 2006, 103(46): 17480?17484.

[29] Sigurdsson MI, Jamshidi N, Steingrimsson E, et al.A detailed genome-wide reconstruction of mouse metabolism based on human Recon 1. BMC Syst Biol, 2010, 4(1): 140.

[30] Satish Kumar V, Dasika MS, Maranas CD.Optimization based automated curation of metabolic reconstructions. BMC Bioinform, 2007, 8: 212.

[31] Klamt S, Stelling J, Ginkel M, et al. FluxAnalyzer:exploring structure, pathways, and flux distributions in metabolic networks on interactive flux maps. Bioinformatics, 2002, 19(2): 261?269.

[32] Wright J, Wagner A. The systems biology research tool: evolvable open-source software. BMC Syst Biol, 2008, 2(1): 55.

[33] Rocha I, Maia P, Evangelista P, et al. OptFlux: an open-source software platform for in silico metabolic engineering. BMC Syst Biol, 2010, 4(1): 45.

[34] Kumar VS, Maranas CD. GrowMatch: an automated method for reconciling in silico/in vivo growth predictions. PLoS Comput Biol, 2009, 5(3):e1000308.

[35] Henry CS, Zinner JF, Cohoon MP, et al. iBsu1103:a new genome-scale metabolic model of Bacillus subtilis based on SEED annotations. Genome Biol,2009, 10(6): R69.

[36] Becker SA, Feist AM, Mo ML, et al. Quantitative prediction of cellular metabolism with constraintbased models: the COBRA Toolbox. Nat Protoc,2007, 2(3): 727?738.

[37] Schellenberger J, Que R, Fleming RM, et al.Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox v2.0. Nat Protoc, 2011, 6(9): 1290?1307.

[38] Lee DY, Yun H, Park S, et al. MetaFluxNet: the management of metabolic reaction information and quantitative metabolic flux analysis.Bioinformatics, 2003, 19(16): 2144?2146.

[39] Pabinger S, Rader R, Agren R, et al. MEMOSys:bioinformatics platform for genome-scale metabolic models. BMC Syst Biol, 2011, 5(1): 20.

[40] Zur H, Ruppin E, Shlomi T. iMAT: an integrative metabolic analysis tool. Bioinformatics, 2010,26(24): 3140?3142.

[41] Hoppe A, Hoffmann S, Gerasch A, et al. FASIMU:flexible software for flux-balance computation series in large metabolic networks. BMC Bioinform, 2011, 12(1): 28.

[42] Beste DJ, Hooper T, Stewart G, et al. GSMN-TB: a web-based genome-scale network model of mycobacterium tuberculosis metabolism. Genome Biol, 2007, 8(5): R89.

[43] Le Fèvre F, Smidtas S, Combe C, et al. Cycsim-an online tool for exploring and experimenting with genome-scale metabolic models. Bioinformatics,2009, 25(15): 1987?1988.

[44] Cvijovic M, Olivares-Hernández R, Agren R, et al.BioMet toolbox: genome-wide analysis of metabolism. Nucleic Acids Res, 2010, 38(Web Server): W144?W149.

[45] Klamt S, Saez-Rodriguez J, Gilles ED. Structural and functional analysis of cellular networks with CellNetAnalyzer. BMC Syst Biol, 2007, 1: 2.

[46] Luo R, Liao S, Zeng SQ, et al. Fluxexplorer: a general platform for modeling and analyses of metabolic networks based on stoichiometry. Chin Sci Bull, 2006, 51(6): 689?696.

[47] Paley SM, Karp PD. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Res, 2006, 34(13): 3771?3778.

[48] Cvijovic M, Olivares-Hernández R, Agren R, et al.BioMet toolbox: genome-wide analysis of metabolism. Nucleic Acids Res, 2010, 38(Web Server issue): W144?W149.

Progress in automatic reconstruction and analysis tools of genome-scale metabolic network

Tong Hao1,2,3, Hongwu Ma1,2,3, and Xueming Zhao1,2,3

1 Department of Biochemical Engineering, School of Chemical Engineering & Technology, Tianjin University, Tianjin 300072, China

2 Key Laboratory of Systems Bioengineering, Ministry of Education, Tianjin 300072, China

3 Edinburgh-Tianjin Joint Research Centre for Systems Biology and Synthetic Biology, Tianjin University, Tianjin 300072, China

郝彤, 馬紅武, 趙學(xué)明. 基因組尺度代謝網(wǎng)絡(luò)自動(dòng)重構(gòu)及分析工具研究進(jìn)展. 生物工程學(xué)報(bào), 2012, 28 (6): 661?670.

Hao T, Ma HW, Zhao XM. Progress in automatic reconstruction and analysis tools of genome-scale metabolic network. Chin J Biotech, 2012, 28(6): 661?670.

Received: November 17, 2011; Accepted: March 16, 2012

Supported by: National Basic Research Program of China (973 Program) (Nos. 2012CB725203, 2011CBA00804), National Natural Science Foundation of China (Nos. 21106095, 61100124, 20806055, 20875068), Postdoctoral Science Foundation of China (No. 2011M500512).

Corresponding author: Tong Hao. Tel/Fax: +86-22-27406770; E-mail: haotong@tju.edu.cn

國家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 (973計(jì)劃) (Nos. 2012CB725203, 2011CBA00804),國家自然科學(xué)基金 (Nos. 21106095, 61100124, 20806055,20875068),中國博士后科學(xué)基金(No. 2011M500512)資助。

猜你喜歡
網(wǎng)絡(luò)分析修正基因組
Some new thoughts of definitions of terms of sedimentary facies: Based on Miall's paper(1985)
基于ISM模型的EPC項(xiàng)目風(fēng)險(xiǎn)網(wǎng)絡(luò)分析
修正這一天
快樂語文(2021年35期)2022-01-18 06:05:30
牛參考基因組中發(fā)現(xiàn)被忽視基因
合同解釋、合同補(bǔ)充與合同修正
法律方法(2019年4期)2019-11-16 01:07:28
鐵路有線調(diào)度通信的網(wǎng)絡(luò)分析
軟件修正
2016年社交網(wǎng)絡(luò)分析
大班幼兒同伴交往的社會(huì)網(wǎng)絡(luò)分析
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
鄂伦春自治旗| 房山区| 阿巴嘎旗| 金川县| 托克逊县| 历史| 凌源市| 太仆寺旗| 特克斯县| 宁陕县| 中方县| 陇川县| 穆棱市| 新化县| 庄河市| 兴隆县| 晋宁县| 华池县| 昌乐县| 昭平县| 越西县| 镇坪县| 和平区| 虎林市| 永福县| 象山县| 新和县| 拉孜县| 滨州市| 英吉沙县| 商洛市| 九江市| 乌什县| 郴州市| 湘西| 齐齐哈尔市| 双牌县| 密云县| 交城县| 河曲县| 兴隆县|