王暉,馬紅武,趙學(xué)明
1 天津大學(xué)化工學(xué)院生物工程系,天津 300072
2 教育部系統(tǒng)生物工程重點(diǎn)實(shí)驗(yàn)室,天津 300072
3 天津大學(xué)-愛(ài)丁堡大學(xué)系統(tǒng)生物學(xué)與合成生物學(xué)聯(lián)合研究中心,天津 300072
基因組尺度代謝網(wǎng)絡(luò)研究進(jìn)展
王暉1,2,3,馬紅武1,2,3,趙學(xué)明1,2,3
1 天津大學(xué)化工學(xué)院生物工程系,天津 300072
2 教育部系統(tǒng)生物工程重點(diǎn)實(shí)驗(yàn)室,天津 300072
3 天津大學(xué)-愛(ài)丁堡大學(xué)系統(tǒng)生物學(xué)與合成生物學(xué)聯(lián)合研究中心,天津 300072
基因組尺度代謝網(wǎng)絡(luò)從基因組序列出發(fā),結(jié)合基因、蛋白質(zhì)、代謝數(shù)據(jù)庫(kù)和實(shí)驗(yàn)數(shù)據(jù),從系統(tǒng)的角度定量研究生命體的代謝過(guò)程,了解各個(gè)組分之間的相互作用關(guān)系。這類(lèi)網(wǎng)絡(luò)模型對(duì)于生命活動(dòng)理論研究和優(yōu)良工程菌的構(gòu)建都具有重要的理論和實(shí)踐意義。以下結(jié)合作者的實(shí)際研究經(jīng)驗(yàn),對(duì)基因組尺度代謝網(wǎng)絡(luò)從重構(gòu)到模擬直至應(yīng)用進(jìn)行了較為詳細(xì)的介紹,并討論了一些目前存在的難題和未來(lái)的研究方向。
基因組尺度,代謝網(wǎng)絡(luò),系統(tǒng)生物學(xué),代謝工程
圖1 已測(cè)序的物種和已經(jīng)構(gòu)建的基因組尺度代謝網(wǎng)絡(luò)模型數(shù)目Fig. 1 The number of sequenced species and reconstructed genome-scale metabolic networks.
基因組尺度代謝網(wǎng)絡(luò)是系統(tǒng)生物學(xué)的重要工具,通過(guò)結(jié)合計(jì)算機(jī)模型和實(shí)驗(yàn)數(shù)據(jù),從系統(tǒng)角度分析復(fù)雜的生物系統(tǒng)。這類(lèi)模型主要應(yīng)用在5個(gè)方面[5]:與高通量技術(shù)相結(jié)合,更有效地分析處理高通量數(shù)據(jù);指導(dǎo)代謝工程;基于假設(shè)指導(dǎo)有目的性地發(fā)現(xiàn)研究;探索物種間的相互關(guān)系;網(wǎng)絡(luò)特性的分析和研究?;蚪M尺度代謝網(wǎng)絡(luò)模型作為工具,無(wú)論在生物體以及生命活動(dòng)的理論研究上,還是在指導(dǎo)代謝工程進(jìn)行工程菌改造上,都具有非常重要的理論和實(shí)踐意義。
國(guó)外已經(jīng)有數(shù)篇關(guān)于基因組尺度代謝網(wǎng)絡(luò)模型構(gòu)建以及模擬方法的綜述[6-10],在這里作者結(jié)合自己的研究經(jīng)歷,較為詳細(xì)地闡述模型的重構(gòu)過(guò)程,模擬方法以及應(yīng)用。
基因組尺度代謝網(wǎng)絡(luò)模型的重構(gòu)是個(gè)循環(huán)往復(fù)的過(guò)程,主要包括3個(gè)步驟:代謝網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的建立、數(shù)學(xué)模型的建立和模擬運(yùn)算驗(yàn)證模型。通過(guò)模擬反復(fù)循環(huán)驗(yàn)證,當(dāng)模擬結(jié)果的準(zhǔn)確率達(dá)到一定水平后,網(wǎng)絡(luò)構(gòu)建也就完成了,可以進(jìn)行其他預(yù)測(cè)等工作。
基因組尺度代謝網(wǎng)絡(luò)數(shù)據(jù)庫(kù)跟通常意義的數(shù)據(jù)庫(kù)不一樣,建立這樣的數(shù)據(jù)庫(kù)就是從生物信息數(shù)據(jù)庫(kù)和文獻(xiàn)中提取出需要的數(shù)據(jù),在電腦中進(jìn)行整理和精煉。建立這樣一個(gè)數(shù)據(jù)庫(kù)通常需要 3個(gè)步驟:數(shù)據(jù)收集、關(guān)系模型建立和數(shù)據(jù)整理。
1.1.1 數(shù)據(jù)收集
基因組尺度代謝網(wǎng)絡(luò)重構(gòu)的主要數(shù)據(jù)來(lái)源來(lái)自各種生物信息數(shù)據(jù)庫(kù),隨著計(jì)算機(jī)和互聯(lián)網(wǎng)絡(luò)的發(fā)展,大量的生物學(xué)信息可以從各大數(shù)據(jù)庫(kù)中免費(fèi)獲得,這些數(shù)據(jù)庫(kù)包括基因組數(shù)據(jù)庫(kù)、蛋白質(zhì)數(shù)據(jù)庫(kù)以及一些代謝反應(yīng)數(shù)據(jù)庫(kù)、表 1中列出了一些常用的數(shù)據(jù)庫(kù)。
表1 基因組尺度代謝網(wǎng)絡(luò)構(gòu)建常用的數(shù)據(jù)庫(kù)Table 1 Databases frequently used for reconstruction of genome-scale metabolic network
以上提到的數(shù)據(jù)庫(kù)大都提供批量下載,下載數(shù)據(jù)完畢后通過(guò)VBA等編程語(yǔ)言,將所需的數(shù)據(jù)提取出來(lái),對(duì)于不提供批量下載的數(shù)據(jù)庫(kù),也可以通過(guò)Python等語(yǔ)言直接從網(wǎng)頁(yè)提取數(shù)據(jù)。提取得到的數(shù)據(jù)放在Excel表中,由于Excel是專(zhuān)用的表格類(lèi)數(shù)據(jù)處理軟件,因此將數(shù)據(jù)放入 Excel表中進(jìn)行整理和精煉十分便利。
需要提取和用到的原始數(shù)據(jù)主要有:物種特異的基因、蛋白質(zhì)、反應(yīng)和代謝物信息。然而單一數(shù)據(jù)庫(kù)提供的數(shù)據(jù)往往是有限的,而且各個(gè)數(shù)據(jù)庫(kù)之間由于注釋算法和其他組織結(jié)構(gòu)不同,可能會(huì)導(dǎo)致數(shù)據(jù)的不一致性,因此通常構(gòu)建基因組尺度代謝網(wǎng)絡(luò)的過(guò)程中,原始數(shù)據(jù)都是來(lái)自多個(gè)數(shù)據(jù)庫(kù)的。
另一個(gè)原始數(shù)據(jù)的重要來(lái)源是大量的文獻(xiàn)和書(shū)籍。需要使用文獻(xiàn)搜索引擎廣泛地搜索來(lái)自文獻(xiàn)和書(shū)籍的信息,為了數(shù)據(jù)收集得全面,通常要使用幾個(gè)文獻(xiàn)搜索引擎并用進(jìn)行搜索,同時(shí)關(guān)鍵字也要交叉組合進(jìn)行搜索以確保不會(huì)遺漏信息。因?yàn)楹芏嘟诘奈墨I(xiàn)中可能提供了新基因功能注釋等與網(wǎng)絡(luò)重構(gòu)密切相關(guān)的信息,而這些信息在數(shù)據(jù)庫(kù)中收錄會(huì)比較慢,所以即便通過(guò)文獻(xiàn)和書(shū)籍添加的信息量會(huì)比較小,但是這部分信息也是十分重要的,而且可靠性最高。
1.1.2 關(guān)系模型的建立
關(guān)系模型就是將上一步提取到的各種數(shù)據(jù)關(guān)聯(lián)在一起,如基因與酶、酶與反應(yīng)、反應(yīng)與代謝物之間的關(guān)聯(lián)。
基因與反應(yīng)的對(duì)應(yīng)關(guān)系是通過(guò)酶蛋白進(jìn)行介導(dǎo)的,即基因通過(guò)注釋得到基因編碼的蛋白信息,通常與代謝活動(dòng)密切相關(guān)的蛋白都是酶,酶都會(huì)對(duì)應(yīng)一定的酶號(hào),通過(guò)酶號(hào)關(guān)聯(lián)該酶催化的反應(yīng),通過(guò)這種方式可以得到基因與反應(yīng)的對(duì)應(yīng)關(guān)系。通過(guò)反應(yīng)的代謝方程式,將代謝物關(guān)聯(lián)在一起從而構(gòu)成整個(gè)代謝網(wǎng)絡(luò)。
1.1.3 數(shù)據(jù)整理
數(shù)據(jù)整理是基因組尺度代謝網(wǎng)絡(luò)構(gòu)建過(guò)程中最費(fèi)時(shí)費(fèi)力的一個(gè)環(huán)節(jié),因?yàn)榍懊娌襟E提取得到的數(shù)據(jù)往往會(huì)存在很多問(wèn)題,例如:生物信息數(shù)據(jù)庫(kù)中往往不會(huì)提供物種特異性的信息,即某些代謝反應(yīng)在物種中不會(huì)發(fā)生,而此類(lèi)反應(yīng)生物信息數(shù)據(jù)庫(kù)中往往沒(méi)有特別標(biāo)注,這就需要在數(shù)據(jù)整理中將不會(huì)在物種內(nèi)發(fā)生的反應(yīng)剔除。另外,原始數(shù)據(jù)中可能會(huì)存在一些錯(cuò)誤數(shù)據(jù),還需要結(jié)合大量文獻(xiàn)進(jìn)行佐證,這些都需要大量的時(shí)間來(lái)進(jìn)行人工校正。
前面提到用于構(gòu)建代謝網(wǎng)絡(luò)的原始數(shù)據(jù)來(lái)源于不同的數(shù)據(jù)庫(kù),因此就要對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行比對(duì)精煉。一般都是通過(guò)不同數(shù)據(jù)庫(kù)之間的 ID Mapping,使不同數(shù)據(jù)庫(kù)來(lái)源的同一基因?qū)?yīng)的信息相互關(guān)聯(lián)。對(duì)于注釋信息如酶號(hào)不一致的基因,應(yīng)該通過(guò)查閱文獻(xiàn)或參考其他數(shù)據(jù)庫(kù)進(jìn)一步確認(rèn)。同樣,對(duì)于不同來(lái)源的代謝反應(yīng)信息 (如 KEGG和BioCyc),也應(yīng)該進(jìn)行比對(duì),以確保反應(yīng)方程式和反應(yīng)方向等信息準(zhǔn)確。
從數(shù)據(jù)庫(kù)得到的原始數(shù)據(jù)的有效性是不同的,因此對(duì)數(shù)據(jù)進(jìn)行可靠性分級(jí)也是必要的。通常情況下,有確鑿的文獻(xiàn)和實(shí)驗(yàn)驗(yàn)證的數(shù)據(jù),是最可靠的;如果多個(gè)數(shù)據(jù)庫(kù)得到的數(shù)據(jù)完全一致,這樣的數(shù)據(jù)可靠性較高;單一數(shù)據(jù)庫(kù)得到的數(shù)據(jù)可靠性一般;單純依靠注釋信息得到的基因功能信息,可靠性最低。
大分子的合成與修飾反應(yīng)往往需要特別的處理。蛋白質(zhì)、DNA、RNA、肽聚糖和磷壁酸等大分子的具體合成過(guò)程很復(fù)雜,而且種類(lèi)繁多,很多合成修飾機(jī)制還沒(méi)有完全了解。因此對(duì)于構(gòu)建基因組尺度代謝網(wǎng)絡(luò)來(lái)說(shuō),通常都是將這些大分子的合成反應(yīng)按照一定的權(quán)重歸并到生物量合成反應(yīng)中。
反應(yīng)數(shù)據(jù)的整理。反應(yīng)數(shù)據(jù)的整理涉及反應(yīng)方程式的確定、反應(yīng)方向的確定、反應(yīng)輔酶的確定、反應(yīng)質(zhì)量以及電荷配平等。通常數(shù)據(jù)庫(kù)中存在大量的反應(yīng)冗余、反應(yīng)方向不確定等問(wèn)題,這些都需要細(xì)致的人工校正來(lái)進(jìn)行確認(rèn)。人工校正工作可以采用多種方法或者多個(gè)數(shù)據(jù)來(lái)源來(lái)綜合評(píng)定,例如反應(yīng)方向性的確定,可以參考文獻(xiàn)資料以及相關(guān)教科書(shū),也可以參考KEGG Pathway和Brenda等數(shù)據(jù)庫(kù),還可以通過(guò)熱力學(xué)以及拓?fù)浣Y(jié)構(gòu)等來(lái)進(jìn)行確認(rèn),如果實(shí)在找不到相關(guān)依據(jù),往往采用經(jīng)驗(yàn)規(guī)則[10]。其他反應(yīng)信息確定也可以采用類(lèi)似的方法,綜合多種信息來(lái)源來(lái)進(jìn)行最終確認(rèn)。
分析網(wǎng)絡(luò)斷口 (Gap)。在代謝網(wǎng)絡(luò)中會(huì)存在一些代謝物只有消耗沒(méi)有生成,或者只有生成沒(méi)有消耗,這些代謝物通常稱(chēng)為末端代謝物 (Dead ends)。這些末端代謝物可以通過(guò)編程進(jìn)行提取和識(shí)別。這類(lèi)代謝物的產(chǎn)生通常是由于信息量不夠,或者我們對(duì)物種的了解不足,有些應(yīng)該存在的反應(yīng)在我們收集數(shù)據(jù)的過(guò)程中沒(méi)有找到,這樣就需要更廣泛的查閱文獻(xiàn),尋找相關(guān)的信息進(jìn)行補(bǔ)充,如果實(shí)在無(wú)法找到確鑿的信息進(jìn)行驗(yàn)證,可以在代謝網(wǎng)絡(luò)中添加demand reactions[10]來(lái)解決。
對(duì)于較為復(fù)雜的物種,通常還要設(shè)定合適的分室信息,例如真核生物,要將各個(gè)主要細(xì)胞器例如線(xiàn)粒體、過(guò)氧化物酶體等細(xì)胞器作為單獨(dú)分室進(jìn)行處理。
通過(guò)上述提取整理過(guò)程后,我們得到的結(jié)果是一個(gè)反應(yīng)列表 (通常保存在 Excel表格中),包括了物種的基因-蛋白質(zhì)-反應(yīng)對(duì)應(yīng)信息以及反應(yīng)的詳細(xì)信息,包括:反應(yīng)方程式、反應(yīng)方向、反應(yīng)所屬途徑和所屬分室等。
反應(yīng)列表整理完成后,我們要將其轉(zhuǎn)化為數(shù)學(xué)模型才可以在計(jì)算機(jī)上進(jìn)行相應(yīng)模擬?;蚪M尺度代謝網(wǎng)絡(luò)模型的核心就是計(jì)量系數(shù)矩陣。
計(jì)量系數(shù)矩陣是將前面得到的反應(yīng)列表中各個(gè)反應(yīng)方程式代謝物的系數(shù)匯總在一起構(gòu)成的一個(gè)多維矩陣。通常用S表示,在S中每一行對(duì)應(yīng)一個(gè)代謝物,每一列對(duì)應(yīng)一個(gè)反應(yīng)。
計(jì)量系數(shù)矩陣中還包括其他 2個(gè)主要部分,首先是生物量組成。生物量的組成通過(guò)文獻(xiàn)查找各個(gè)組分的含量獲得,如果實(shí)在找不到物種的確切組成,可以借鑒其他相近的物種,然后根據(jù)具體含量定量作為系數(shù),組成生物量合成方程式,并將系數(shù)等信息合并入計(jì)量系數(shù)矩陣。其次是運(yùn)輸反應(yīng),根據(jù)生物可以利用的底物和分泌的產(chǎn)物添加運(yùn)輸反應(yīng),一部分可以由基因組注釋得到膜運(yùn)輸?shù)鞍祝瑥亩梢源_定運(yùn)輸反應(yīng)的存在,另外一部分先通過(guò)查找文獻(xiàn),確定菌體的基礎(chǔ)合成培養(yǎng)基,然后根據(jù)需要添加相應(yīng)的運(yùn)輸反應(yīng)。同時(shí)還需要為所有的胞外代謝物添加交換反應(yīng) (Exchange reaction),交換反應(yīng)可以理解為胞外代謝物向細(xì)胞膜的擴(kuò)散。這些運(yùn)輸反應(yīng)也表示為反應(yīng)方程式形式,都要匯總進(jìn)計(jì)量系數(shù)矩陣中。
計(jì)量系數(shù)矩陣可以通過(guò) VBA編程,直接將Excel中的反應(yīng)方程式轉(zhuǎn)化為 SBML (Systems Biology Markup Language)[11]格式的計(jì)量系數(shù)矩陣。SBML的數(shù)據(jù)文件是通用的系統(tǒng)生物學(xué)語(yǔ)言格式的文件,可以被大多數(shù)生物模擬軟件識(shí)別并加載。
目前常用的基因組尺度代謝網(wǎng)絡(luò)的模擬算法都是基于約束的優(yōu)化模擬方法[8],其中以線(xiàn)性?xún)?yōu)化為主,最基本的組成部分就是:約束條件、決策變量和目標(biāo)函數(shù)。而最常用的算法就是通量平衡分析(Flux Balance Analysis:FBA),該算法假設(shè)系統(tǒng)處于擬穩(wěn)態(tài),即中間代謝物的生成與消耗相同,在這種假設(shè)下設(shè)置一定的約束條件和目標(biāo)函數(shù),來(lái)研究胞內(nèi)相應(yīng)狀態(tài)下的通量分布情況。其基本算法可以由以下數(shù)學(xué)表達(dá)式來(lái)表示:
其中f(x) 表示目標(biāo)函數(shù),S表示計(jì)量系數(shù)矩陣,v表示各步反應(yīng)的通量,β和α分別表示反應(yīng)通量的上下限。目標(biāo)函數(shù)可以根據(jù)研究需要自行設(shè)定,可以設(shè)定為生物量,即表示生物量積累最多情況下的通量分布,也可以設(shè)定為某種產(chǎn)品的產(chǎn)量,從而研究目標(biāo)產(chǎn)品生產(chǎn)最大化或者副產(chǎn)物最小化等狀態(tài)下代謝通量的分布。
上面只是通用的FBA算法,以通用的算法為基礎(chǔ),還有很多針對(duì)特定問(wèn)題的算法[8],用來(lái)解決特殊研究對(duì)象的優(yōu)化模擬。
模擬運(yùn)算的計(jì)算平臺(tái)有很多,其中Matlab?(The MathworksTM) 使用得最為廣泛。在Matlab中,通過(guò)調(diào)用Matlab的內(nèi)置函數(shù)對(duì)計(jì)量系數(shù)矩陣進(jìn)行操作,對(duì)于熟練使用Matlab的研究者,可以直接使用Matlab的字符串函數(shù),通過(guò)指定字符串來(lái)操作矩陣;對(duì)于不熟悉 Matlab的研究者,可以通過(guò)之前編排的序號(hào)來(lái)指定矩陣中的相應(yīng)元素。對(duì)于最優(yōu)化計(jì)算,可以使用Matlab的最優(yōu)化工具箱,最優(yōu)化工具箱中有各種函數(shù),可以方便地用于解決各種優(yōu)化問(wèn)題 (線(xiàn)性、非線(xiàn)性、多目標(biāo)優(yōu)化和二次規(guī)劃等)。在Matlab平臺(tái)的基礎(chǔ)上,現(xiàn)在開(kāi)發(fā)出一些專(zhuān)門(mén)用于基于約束的模擬工具,如COBRA (Constraints Based Reconstruction and Analysis) 工具箱[12]。COBRA 工具箱是由一系列針對(duì)基于約束的構(gòu)建和模擬用途而編寫(xiě)的函數(shù)組成,含有可以讀取SBML或Excel格式的模型的函數(shù),使用者不再需要自己編寫(xiě)提取矩陣的程序。具體用法可以參閱文獻(xiàn)[10]。
通過(guò)模擬的結(jié)果和實(shí)驗(yàn)結(jié)果相比對(duì),我們可以完善得到的模型。對(duì)于結(jié)果不一致的,一方面可能是模型不夠完善導(dǎo)致的結(jié)果差異;另一方面,模擬的結(jié)果可能揭示了一些我們尚未研究到的內(nèi)容。因此模擬驗(yàn)證、修正模型、修正后再模擬驗(yàn)證是個(gè)循環(huán)往復(fù)的過(guò)程,直到模擬結(jié)果的準(zhǔn)確率滿(mǎn)足要求后,一個(gè)物種的基因組尺度代謝網(wǎng)絡(luò)模型才算最終構(gòu)建完成。
基因組尺度代謝網(wǎng)絡(luò)構(gòu)建完成后,可以用于菌種改進(jìn)、發(fā)現(xiàn)藥物靶點(diǎn)、代謝工程操作靶點(diǎn)識(shí)別、生長(zhǎng)表型預(yù)測(cè)等多種用途,這里簡(jiǎn)單介紹此類(lèi)模型應(yīng)用最廣泛的幾個(gè)方面。
基因敲除研究是基因組尺度代謝網(wǎng)絡(luò)模擬預(yù)測(cè)最突出的應(yīng)用之一。即使現(xiàn)在高通量技術(shù)發(fā)展得很快,試驗(yàn)中批量確定基因的必需性仍然是費(fèi)時(shí)費(fèi)力的,而且成本很高。然而對(duì)于基因組尺度代謝網(wǎng)絡(luò)模型來(lái)說(shuō),基因敲除通過(guò)基因-蛋白-反應(yīng)相互關(guān)系轉(zhuǎn)化為反應(yīng)的敲除,目標(biāo)函數(shù)設(shè)定為生物量最大化,將基因?qū)?yīng)的反應(yīng)通量人為設(shè)定成 0即可實(shí)現(xiàn)。使用這種方法可以快捷方便地同時(shí)檢測(cè)數(shù)百個(gè)基因是否是必需基因,雖然結(jié)果無(wú)法保證百分之百正確,但是此種模擬的算法和相關(guān)技術(shù)都已經(jīng)很成熟,準(zhǔn)確率基本上都可以達(dá)到80%以上,因此已經(jīng)基本上成為構(gòu)建基因組尺度代謝網(wǎng)絡(luò)必做的模擬工作[13-15]。
模擬得到的必需基因結(jié)果與實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì)也是驗(yàn)證模型精確率的一個(gè)重要方法,然而由于批量實(shí)驗(yàn)驗(yàn)證必需基因難度不小,目前很多物種的必需基因都沒(méi)有得到實(shí)驗(yàn)驗(yàn)證,此類(lèi)驗(yàn)證模型的方法也無(wú)法實(shí)施。但是對(duì)于一些常用的物種如大腸桿菌、枯草芽胞桿菌、釀酒酵母等有很多必需基因已經(jīng)通過(guò)實(shí)驗(yàn)證實(shí) (DEG[16]:http://tubic.tju.edu.cn/deg/),對(duì)于這些物種來(lái)說(shuō),此項(xiàng)模擬結(jié)果的精確度往往是一個(gè)基因組尺度代謝網(wǎng)絡(luò)模型質(zhì)量高低的標(biāo)準(zhǔn)。干、濕實(shí)驗(yàn)比對(duì)結(jié)果又可以分為 4類(lèi)[17]:TP (True Positive實(shí)驗(yàn)和模擬結(jié)果都為正)、TN (True Negative實(shí)驗(yàn)和模擬結(jié)果都為負(fù))、FP (False Positive實(shí)驗(yàn)為必需基因,模擬為非必需基因) 和 FN (False Negative實(shí)驗(yàn)為非必需基因,模擬為必需基因)。其中FP和FN往往能提供模型完善的重要靶點(diǎn),產(chǎn)生這些差異結(jié)果的主要原因有:基因組尺度代謝網(wǎng)絡(luò)缺乏調(diào)控機(jī)制;沒(méi)有考慮物種內(nèi)的拓?fù)浣Y(jié)構(gòu);網(wǎng)絡(luò)中存在斷口;目標(biāo)函數(shù)中的組分不全;培養(yǎng)基組分設(shè)定不合理;沒(méi)有考慮胞內(nèi)代謝物過(guò)量積累的毒素效應(yīng);缺乏一些胞內(nèi)非代謝過(guò)程;錯(cuò)誤的基因注釋?zhuān)粚?shí)驗(yàn)數(shù)據(jù)不準(zhǔn)確等等。這些原因會(huì)提供大量改進(jìn)模型和設(shè)計(jì)實(shí)驗(yàn)的靶點(diǎn)。
基因必需性研究并不是使用基因組尺度網(wǎng)絡(luò)進(jìn)行基因敲除研究的唯一目的,通過(guò)基因敲除還可以研究生物的一些特殊生理過(guò)程的機(jī)理[18]。
基因組尺度代謝網(wǎng)絡(luò)可以用于藥物研發(fā),包括藥物靶點(diǎn)識(shí)別、抗菌藥物的研發(fā)和疫苗的改良。其中人類(lèi)[4,19]和致病菌[20-22]的基因組尺度代謝網(wǎng)絡(luò)尤為重要,因?yàn)楹芏嗳祟?lèi)疾病都與人的代謝紊亂以及致病菌的代謝機(jī)制密切相關(guān)。通過(guò)使用此類(lèi)模型進(jìn)行模擬研究,可以深入了解人在病態(tài)下的代謝狀態(tài),從而可以有針對(duì)性的采用一些醫(yī)療措施,對(duì)藥物的研發(fā)也有很大幫助。
由于生物體中網(wǎng)絡(luò)的剛性和冗余性,單一基因的改造往往得不到預(yù)期的效果。而基因組尺度代謝網(wǎng)絡(luò)考慮生物體整體代謝,可以從更大范圍內(nèi)了解代謝過(guò)程和一些基因操作后的效果,因此對(duì)于優(yōu)良工程菌的構(gòu)建以及代謝工程操作都具有重大的意義。迄今為止,已經(jīng)有很多研究通過(guò)基因組尺度代謝網(wǎng)絡(luò)指導(dǎo)進(jìn)行基因操作和工程菌構(gòu)建,生產(chǎn)生物能源、生物基化學(xué)品及高附加值產(chǎn)品,表2給出了部分實(shí)例。
近幾年,基因組尺度代謝網(wǎng)絡(luò)模型發(fā)展非常迅速,不僅很多模式菌的基因組尺度代謝網(wǎng)絡(luò)構(gòu)建完成,而且相關(guān)技術(shù)、算法、各種模擬畫(huà)圖軟件都有了很大的進(jìn)步。然而目前仍然存在一些關(guān)鍵的問(wèn)題暫時(shí)無(wú)法解決。
表2 應(yīng)用基因組尺度代謝網(wǎng)絡(luò)改良工程菌Table 2 Engineered strain improvement using genomescale metabolic network
首先,基因組尺度代謝網(wǎng)絡(luò)與其他生物過(guò)程結(jié)合很少。在生物體中還有其他很多重要的機(jī)制,例如轉(zhuǎn)錄調(diào)控、信號(hào)轉(zhuǎn)導(dǎo)等,雖然已經(jīng)出現(xiàn)了基因組尺度的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)[43]和信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)[44]計(jì)算機(jī)模型,但是目前仍然無(wú)法廣泛的實(shí)踐。如何將代謝網(wǎng)絡(luò)、轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)等結(jié)合起來(lái)構(gòu)成“大生物網(wǎng)絡(luò)”[45]將成為研究熱點(diǎn)。
其次,很多基因組尺度代謝網(wǎng)絡(luò)重構(gòu)需要的數(shù)據(jù)都不完善。目前很多生物信息數(shù)據(jù)庫(kù)中的信息都存在一定量的錯(cuò)誤和冗余,如何甄別這些無(wú)效信息成為很大的難點(diǎn),因?yàn)檫@個(gè)要花費(fèi)大量的時(shí)間和人力。此外,很多反應(yīng)的方向無(wú)法確定和相關(guān)文獻(xiàn)信息量不足也導(dǎo)致基因組尺度代謝網(wǎng)絡(luò)的模擬結(jié)果必定存在誤差。
再次,基因組尺度代謝網(wǎng)絡(luò)的模擬大多都是基于擬穩(wěn)態(tài)假設(shè),而實(shí)際在生物體內(nèi),代謝物生成和消耗都是動(dòng)態(tài)的,雖然目前已經(jīng)有人嘗試進(jìn)行了動(dòng)態(tài)FBA[46],但是如何廣泛應(yīng)用于基因組尺度的代謝網(wǎng)絡(luò),如何反映生物體實(shí)時(shí)狀態(tài)下的代謝情況目前都是研究的難點(diǎn)。
最后,由于各個(gè)研究組所構(gòu)建的基因組尺度代謝網(wǎng)絡(luò)大多使用自己的編號(hào)以及數(shù)據(jù)整理格式,這些格式通常不統(tǒng)一,這對(duì)于模型的廣泛應(yīng)用以及不同研究組相互合作造成了不小的障礙。雖然2008年幾個(gè)研究組進(jìn)行了一些釀酒酵母基因組尺度代謝網(wǎng)絡(luò)模型標(biāo)準(zhǔn)化的嘗試[47],但是這些標(biāo)準(zhǔn)仍然沒(méi)有廣泛應(yīng)用。作者所在的研究組搭建了世界上第一個(gè)收錄全部基因組尺度代謝網(wǎng)絡(luò)模型的數(shù)據(jù)庫(kù)GSMNDB,并對(duì)所有已經(jīng)發(fā)表的模型進(jìn)行整理,努力做到格式和表示方式標(biāo)準(zhǔn)化,以便更多的人可以通過(guò)已經(jīng)構(gòu)建的模型,更快更深入地進(jìn)入到該研究領(lǐng)域。
REFERENCES
[1] Fleischmann RD, Adams MD, White O, et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science, 1995, 269(5223): 496–512.
[2] Genomes OnLine Database (GOLD). [2010-06-04]. http://www.genomesonline.org/cgi-bin/GOLD/bin/gold.cgi.
[3] Gerlt JA, Babbitt PC. Can sequence determine function? Genome Biol, 2000, 1(5): REVIEWS0005.
[4] Ma HW, Sorokin A, Mazein A, et al. The Edinburgh human metabolic network reconstruction and its functional analysis. Mol Syst Biol, 2007, 3: 135.
[5] Oberhardt MA, Palsson B?, Papin JA. Applications of genome-scale metabolic reconstructions. Mol Syst Biol, 2009, 5: 320.
[6] Durot M, Bourguignon PY, Schachter V. Genome-scale models of bacterial metabolism: reconstruction and applications. FEMS Microbiol Rev, 2009, 33(1): 164?190.
[7] Feist AM, Herrg?rd MJ, Thiele I, et al. Reconstruction of biochemical networks in microorganisms. Nat Rev Microbiol, 2009, 7(2): 129?143.
[8] Park JM, Kim TY, Lee SY. Constraints-based genome-scale metabolic simulation for systems metabolic engineering. Biotechnol Adv, 2009, 27(6): 979?988.
[9] Thiele I, Palsson B?. A protocol for generating a high-quality genome-scale metabolic reconstruction. Nat Protoc, 2010, 5(1): 93?121.
[10] Orth JD, Thiele I, Palsson B?. What is flux balance analysis? Nat Biotechnol, 2010, 28(3): 245?248.
[11] Hucka M, Finney A, Bornstein BJ, et al. Evolving a lingua franca and associated software infrastructure for computational systems biology: the Systems Biology Markup Language (SBML) project. Syst Biol (Stevenage), 2004, 1(1): 41?53.
[12] Becker SA, Feist AM, Mo ML, et al. Quantitative prediction of cellular metabolism with constraint-based models: the COBRA Toolbox. Nat Protoc, 2007, 2(3): 727?738.
[13] Feist AM, Henry CS, Reed JL, et al. A genome-scale metabolic reconstruction for Escherichia coli K-12 MG1655 that accounts for 1260 ORFs and thermodynamic information. Mol Syst Biol, 2007, 3: 121.
[14] David H, Oz?elik IS, Hofmann G, et al. Analysis of Aspergillus nidulans metabolism at the genome-scale. BMC Genomics, 2008, 9: 163.
[15] Oberhardt MA, Pucha?ka J, Fryer KE, et al. Genome-scale metabolic network analysis of the opportunistic pathogen Pseudomonas aeruginosa PAO1. J Bacteriol, 2008, 190(8): 2790?2803.
[16] Zhang R, Lin Y. DEG 5.0, a database of essential genes in both prokaryotes and eukaryotes. Nucleic Acids Res, 2009, 37(Database issue): D455?458.
[17] Duarte NC, Herrg?rd MJ, Palsson B?. Reconstruction and validation of Saccharomyces cerevisiaei iND750, a fully compartmentalized genome-scale metabolic model. Genome Res, 2004, 14(7): 1298?1309.
[18] Resendis-Antonio O, Reed JL, Encarnación S, et al. Metabolic reconstruction and modeling of nitrogen fixation in Rhizobium etli. PLoS Comput Biol, 2007, 3(10): 1887?1895.
[19] Duarte NC, Becker SA, Jamshidi N, et al. Global reconstruction of the human metabolic network based on genomic and bibliomic data. Proc Natl Acad Sci USA, 2007, 104(6): 1777?1782.
[20] Baart GJ, Zomer B, de Haan A, et al. Modeling Neisseria meningitidis metabolism: from genome to metabolic fluxes. Genome Biol, 2007, 8: R136.
[21] Beste DJ, Hooper T, Stewart G, et al. GSMN-TB: a web-based genome-scale network model of Mycobacterium tuberculosis metabolism. Genome Biol, 2007, 8: R89.
[22] Jamshidi N, Palsson B?. Investigating the metabolic capabilities of Mycobacterium tuberculosis H37Rv using the in silico strain iNJ661 and proposing alternative drug targets. BMC Syst Biol, 2007, 1: 26.
[23] Fong SS, Burgard AP, Herring CD, et al. In silico design and adaptive evolution of Escherichia coli for production of lactic acid. Biotechnol Bioeng, 2005, 91(5): 643?648.
[24] Edwards JS, Palsson BO. The Escherichia coli MG1655 in silico metabolic genotype: its definition, characteristics, and capabilities. Proc Natl Acad Sci USA, 2000, 97(10): 5528?5533.
[25] Reed JL, Vo TD, Schilling CH, et al. An expanded genome-scale model of Escherichia coli K-12 (iJR904 GSM/GPR). Genome Biol, 2003, 4(9): R54.
[26] Burgard AP, Pharkya P, Maranas CD. Optknock: a bilevel programming framework for identifying gene knockout strategies for microbial strain optimization. Biotechnol Bioeng, 2003, 84(6): 647?657.
[27] Wang QZ, Chen X, Yang YD, et al. Genome-scale in silico aided metabolic analysis and flux comparisons of Escherichia coli to improve succinate production. Appl Microbiol Biotechnol, 2006, 73(4): 887?894.
[28] Lee SY, Kim JM, Song H, et al. From genome sequence to integrated bioprocess for succinic acid production by Mannheimia succiniciproducens. Appl Microbiol Biotechnol, 2008, 79(1): 11?22.
[29] Kim TY, Kim HU, Park JM, et al. Genome-scale analysis of Mannheimia succiniciproducens metabolism. Biotechnol Bioeng, 2007, 97(4): 657?671.
[30] Segrè D, Vitkup D, Church GM. Analysis of optimality in natural and perturbed metabolic networks. Proc Natl Acad Sci USA, 2002, 99(23): 15112?15117.
[31] Alper H, Jin YS, Moxley JF, et al. Identifying gene targets for the metabolic engineering of lycopene biosynthesis in Escherichia coli. Metab Eng, 2005, 7(3): 155?164.
[32] Choi HS, Lee SY, Kim TY, et al. In silico identification of gene amplification targets for improvement of lycopene production. Appl Environ Microbiol, 2010, 76(10): 3097?3105.
[33] Lee KH, Park JH, Kim TY, et al. Systems metabolic engineering of Escherichia coli for L-threonine production. Mol Syst Biol, 2007, 3: 149.
[34] Lee SY, Woo HM, Lee DY, et al. Systems-level analysis of genome-scale in silico metabolic models using MetaFluxNet. Biotechnol Bioproc Eng, 2005, 10: 425?431.
[35] Park JH, Lee KH, Kim TY, et al. Metabolic engineering of Escherichia coli for the production of L-valine based on transcriptome analysis and in silico gene knockout simulation. Proc Natl Acad Sci USA, 2007, 104(19): 7797?7802.
[36] Bro C, Regenberg B, F?rster J, et al. In silico aided metabolic engineering of Saccharomyces cerevisiae for improved bioethanol production. Metab Eng, 2006, 8(2): 102?111.
[37] F?rster J, Famili I, Fu P, et al. Genome-scale reconstruction of the Saccharomyces cerevisiae metabolic network. Genome Res, 2003, 13(2): 244?253.
[38] Hjersted JL, Henson MA, Mahadevan R. Genome-scale analysis of Saccharomyces cerevisiae metabolism and ethanol production in fed-batch culture. Biotechnol Bioeng, 2007, 97(5): 1190?1204.
[39] Roberts SB, Gowen CM, Brooks JP, et al. Genome-scale metabolic analysis of Clostridium thermocellum for bioethanol production. BMC Syst Biol, 2010, 4: 31.
[40] Zelle RM, de Hulster E, van Winden WA, et al. Malic acid production by Saccharomyces cerevisiae: engineering of pyruvate carboxylation, oxaloacetate reduction, and malate export. Appl Environ Microbiol, 2008, 74(9): 2766?2777.
[41] Finley SD, Broadbelt LJ, Hatzimanikatis V. In silico feasibility of novel biodegradation pathways for 1,2,4-trichlorobenzene. BMC Syst Biol, 2010, 4: 7.
[42] Chemler JA, Fowler ZL, McHugh KP, et al. Improving NADPH availability for natural product biosynthesis in Escherichia coli by metabolic engineering. Metab Eng, 2010, 12(2): 96?104.
[43] Thiele I, Jamshidi N, Fleming RM, et al. Genome-scale reconstruction of Escherichia coli's transcriptional and translational machinery: a knowledge base, its mathematical formulation, and its functional characterization. PLoS Comput Biol, 2009, 5(3): e1000312.
[44] Hyduke DR, Palsson BO. Towards genome-scale signalling-network reconstructions. Nat Rev Genet, 2010, 11(4): 297?307.
[45] Reed JL, Famili I, Thiele I, et al. Towards multidimensional genome annotation. Nat Rev Genet, 2006, 7(2): 130?141.
[46] Oddone GM, Mills DA, Block DE. A dynamic, genome-scale flux model of Lactococcus lactis to increase specific recombinant protein expression. Metab Eng, 2009, 11(6): 367?381.
[47] Herrg?rd MJ, Swainston N, Dobson P, et al. A consensus yeast metabolic network reconstruction obtained from a community approach to systems biology. Nat Biotechnol, 2008, 26(10): 1155?1160.
Progress in genome-scale metabolic network: a review
Hui Wang1,2,3, Hongwu Ma1,2,3, and Xueming Zhao1,2,3
1 Department of Biochemical Engineering, School of Chemical Engineering & Technology, Tianjin University, Tianjin 300072, China
2 Key Laboratory of Systems Bioengineering, Ministry of Education, Tianjin 300072, China
3 Edinburgh-Tianjin Joint Research Centre for Systems Biology and Synthetic Biology, Tianjin University, Tianjin 300072, China
Dozens of genome-scale metabolic networks have been reconstructed by integrating information from various databases on genes, proteins, metabolites and validated by experiment data from the literature. The reconstructed networks can be used to quantitatively investigate the interactions between components of a biological system at a system level. Such theoretical study could help us understand the organization principle of the large scale network and thus provide guidance to strain optimization through metabolic engineering technology. In this review, we evaluate the methods for the reconstruction, analysis and application of genome-scale metabolic networks. The difficulties and perspectives on this emerging research field are also discussed.
genome-scale, metabolic network, systems biology, metabolic engineering
1995年,第一個(gè)物種流感嗜血桿菌Haemophilus influenzae Rd的全基因組序列測(cè)序完成[1],隨著測(cè)序技術(shù)的不斷發(fā)展,測(cè)序成本也不斷降低,截止至2010年6月4日,已經(jīng)有1 291個(gè)物種全基因組測(cè)序完成 (其中細(xì)菌1 079株,古細(xì)菌83株,真核生物129個(gè)[2])。然而如何高效地利用如此龐大的數(shù)據(jù)成為人們研究的重點(diǎn),基因組尺度代謝網(wǎng)絡(luò)就是以基因組序列和注釋信息為基礎(chǔ),通過(guò)基因-蛋白質(zhì)-反應(yīng)相互關(guān)系重構(gòu)模擬生物體的代謝過(guò)程。理論上來(lái)說(shuō),有多少物種的全基因組測(cè)序完成,就應(yīng)該存在多少個(gè)對(duì)應(yīng)的基因組尺度代謝網(wǎng)絡(luò)模型。然而目前只有58個(gè)物種的87個(gè)基因組尺度代謝網(wǎng)絡(luò)模型構(gòu)建完成(GSMNDB:http://synbio.tju.edu.cn/GSMNDB/gsmndb. htm),其數(shù)量遠(yuǎn)遠(yuǎn)小于已測(cè)序物種的數(shù)量 (圖1)。造成這種情況的原因有很多,其中最主要的3個(gè)原因:首先,由于注釋算法不完善等因素,基因組中注釋出來(lái)的基因有很多是未知功能的基因和非編碼基因[3];其次,基因組尺度代謝網(wǎng)絡(luò)構(gòu)建需要大量的人工校對(duì)工作,這個(gè)步驟是個(gè)非常耗時(shí)耗力的工作[4];最后,由于我們對(duì)很多物種的生理生化機(jī)制了解有限,即使研究最為透徹的大腸桿菌,仍然有很多生命活動(dòng)的機(jī)制都是未知的。
June 9, 2010; Accepted: August 11, 2010
Supported by:National Basic Research Program of China (973 Program) (No. 2007CB707802), National Natural Science Foundation of China (Nos. 20806055, 20875068), Development Project of Science and Technology of Tianjin (No. 05YFGZGX04500), Program of Introducing Talents of Discipline to Universities (No. B06006).
Xueming Zhao. Tel/Fax: +86-22-27406770; E-mail: xmzhao@tju.edu.cn
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃 (973計(jì)劃) (No. 2007CB707802),國(guó)家自然科學(xué)基金 (Nos. 20806055, 20875068),天津市科技發(fā)展計(jì)劃 (No. 05YFGZGX04500),高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃 (No. B06006) 資助。