袁煒,耿輝,王馨笛,蒿花,王亞軍,陳新歡,馬茂
KEGG數(shù)據(jù)庫是日本京都大學(xué)生物信息學(xué)中心的Kanehisa實驗室于1995年建立的生物信息綜合數(shù)據(jù)庫[1]。該數(shù)據(jù)庫由4個類別共計17個子數(shù)據(jù)庫,全面集成了生物細胞過程、遺傳信息、人類疾病等數(shù)據(jù),并通過數(shù)據(jù)的相關(guān)信息開發(fā)可視化的網(wǎng)絡(luò)預(yù)測工具,嘗試用計算機解釋蛋白質(zhì)交互網(wǎng)絡(luò)在各種細胞活動中的作用,并提供相應(yīng)的基因和蛋白質(zhì)的相關(guān)信息、化合物及其反應(yīng)類別的信息[2]。
基因芯片技術(shù)的出現(xiàn)使現(xiàn)代生命科學(xué)研究發(fā)生了革命性變化,科研人員從掌握個體基因發(fā)展到研究基因組及互作網(wǎng)絡(luò)的功能,運用計算機從宏觀角度解決微觀世界的作用機制成為現(xiàn)代分子生物學(xué)的常規(guī)手段,刁興華等[3]利用KEGG數(shù)據(jù)庫篩選與多囊卵巢綜合征(PCOS)相關(guān)的關(guān)鍵miRNA和mRNA,發(fā)現(xiàn)C型凝集素受體信號傳導(dǎo)途徑,類固醇生物合成和半乳糖代謝顯著富集,該結(jié)論可能有助于為PCOS提供新的發(fā)病機理及診斷治療方法。學(xué)者Amanda等[4]在一項關(guān)于飲食策略改變腸道微生物群幫助肥胖者進行體重管理的研究中,應(yīng)用KEGG數(shù)據(jù)庫進行代謝組學(xué)研究,分析糞便細菌的差異及預(yù)測功能分布。彭陳等[5]將篩選后的差異基因在KEGG數(shù)據(jù)庫的信號通路中富集,推測出Sox11和lncRNA Slc6a19os是神經(jīng)性疼痛的發(fā)病及疾病進展過程中的關(guān)鍵基因。李浩文等[6]為研究冠狀動脈組織中脂質(zhì)代謝產(chǎn)物改變?nèi)绾斡绊戇M程中表型變化,利用KEGG數(shù)據(jù)庫對動脈粥樣硬化不同階段脂質(zhì)代謝產(chǎn)物進行富集分析,獲得了特定疾病脂質(zhì)特征的詳細描述。潘曉勇等[7]提出一種基于KEGG數(shù)據(jù)庫的功能及網(wǎng)絡(luò)嵌入方法來預(yù)測蛋白質(zhì)的亞細胞定位。王兵等[8]為研究非編碼RNA(ncRNAs)在重癥急性胰腺炎(SAP)發(fā)生及細胞過程中的作用,將差異表達的基因通過KEGG數(shù)據(jù)庫的富集分析,尋找SAP的發(fā)病機理及新的治療靶點。辛雯等[9]系統(tǒng)地分析了RNA結(jié)合蛋白(RBPs)在胰腺腺癌(PAAD)中的表達,通過KEGG數(shù)據(jù)庫的富集分析,構(gòu)建了與RBP相關(guān)的PAAD預(yù)后風(fēng)險模。
KEGG數(shù)據(jù)庫1995年由Kanehisa實驗室建立于日本京都大學(xué)生物信息學(xué)中心,主要目標(biāo)是通過基因組信息實現(xiàn)包括細胞、生物和生態(tài)系統(tǒng)在內(nèi)的生物系統(tǒng)的信息化重建,將來源于已發(fā)表文獻中的實驗數(shù)據(jù)以分子相互作用和反應(yīng)網(wǎng)絡(luò)用可視化的形式展現(xiàn)出來,嘗試將特定生物種群中觀察到的實驗證據(jù)推廣到另一生物種群中。KEGG的四個類別分別是“Systems information”KEGG系統(tǒng)信息、“Genomic information”基因組信息、“Chemical information”化學(xué)信息、“Health information”健康信息[10],研究者通過這四個類別板塊獲得完整的基因組序列后,采用網(wǎng)站提供的信息技術(shù)重建生物系統(tǒng)并推斷其功能,預(yù)測目標(biāo)基因及其產(chǎn)物如何在通路中發(fā)揮作用,進而研究其在疾病的發(fā)生發(fā)展中的影響[11]。
KEGG數(shù)據(jù)庫主頁(https://www.kegg.jp/kegg/)點擊“Current statistics”查詢子數(shù)據(jù)庫信息,結(jié)果共有17個子數(shù)據(jù)庫包括:“KEGG PATHWAY”醫(yī)學(xué)信號通路、“KEGG BRITE”整合多種類型關(guān)系、“KEGG MODULE”功能單元模塊、“KEGG ORTHOLOGY”直系同源系統(tǒng)、“KEGG GENOME”基因組數(shù)據(jù)庫、“KEGG GENES”基因數(shù)據(jù)庫、“KEGG SSDB”序列相似性數(shù)據(jù)庫、“KEGG COMPOUND”化合物數(shù)據(jù)庫、“KEGG GLYCAN”多聚糖查詢數(shù)據(jù)庫、“KEGG REACTION”生化反應(yīng)數(shù)據(jù)庫、“KEGG REACTION”生化反應(yīng)類別數(shù)據(jù)庫、“KEGG ENZYME”酶數(shù)據(jù)庫、“KEGG NETWORK”疾病相關(guān)網(wǎng)絡(luò)數(shù)據(jù)庫、“KEGG VARIANT”基因突變數(shù)據(jù)庫、“KEGG DISEASE”疾病數(shù)據(jù)庫、“KEGG DRUG”藥物數(shù)據(jù)庫、“KEGG ENVIRON”與健康相關(guān)信息數(shù)據(jù)庫、“KEGG MEDICUS”日本藥物查詢數(shù)據(jù)庫,如圖1所示。KEGG數(shù)據(jù)庫為研究者提供目標(biāo)基因的信號通路,與其相關(guān)的同源系統(tǒng),所在基因組信息,與其序列相似的基因信息,產(chǎn)生的化學(xué)反應(yīng),相關(guān)的疾病等信息,幫助其一站式全面掌握目標(biāo)基因的綜合信息。
圖1 KEGG數(shù)據(jù)庫主頁面
2.1 Systems information信息系統(tǒng)板塊子數(shù)據(jù)庫應(yīng)用KEGG數(shù)據(jù)庫的“Systems information”信息系統(tǒng)板塊包括“KEGG PATHWAY”醫(yī)學(xué)信號通路、“KEGG BRITE”整合多種類型關(guān)系、“KEGG MODULE”功能單元模塊三個子數(shù)據(jù)庫。
點擊“KEGG PATHWAY”按鈕跳轉(zhuǎn)至信號通路子數(shù)據(jù)庫,在“Select prefix”下方填寫has(homo sapiens)人類來源,其他物種也可以點擊“Organism”按鈕進行查詢,在“Enter keywords”中輸入目標(biāo)基因,點擊“GO”進行檢索,檢索頁面如圖2所示。
圖2 KEGG PATHWAY子數(shù)據(jù)庫示意圖
檢索結(jié)果包含“Entry”入口信息、“Thumbnail Image”縮略圖、“Name”通路名稱、“Description”通路描述、“Object”化合物信息、“Legend”通路說明。“Entry”列表下面會顯示以“hsa”為前綴加上數(shù)字組成的標(biāo)識符,表示KEGG數(shù)據(jù)庫的特定數(shù)據(jù)對象,不同的子類有不同的前綴,點擊該標(biāo)識符,會跳轉(zhuǎn)到新頁面顯示該信號通路的詳細信息,包括網(wǎng)絡(luò)、相關(guān)對象、相關(guān)藥物、相關(guān)基因、相關(guān)文獻、相關(guān)通路等信息,如圖3所示。
圖3 KEGG PATHWAY子頁面示意圖
“KEGG BRITE”整合多種類型關(guān)系,進行目標(biāo)數(shù)據(jù)的層次分類,依類別展開生物對象的功能,使用“HTML tables”形式展示層次結(jié)構(gòu)文本文件,層次關(guān)系包含五種,分別為:基因和蛋白質(zhì)、化合物與反應(yīng)、藥品、疾病、生物和細胞。
“KEGG MODULE”功能單元模塊以M編號標(biāo)識的KEGG模塊和以RM編號標(biāo)識的KEGG反應(yīng)模塊組成,KEGG模塊進一步分為“pathway modules”通路模塊和“signature modules”簽名模塊,通路模塊展示代謝途徑中基因集包括分子復(fù)合物的功能單元,簽名模塊展示表型特征的基因組功能單元,反應(yīng)模塊展示代謝途徑中連續(xù)反應(yīng)步驟的功能單元。
2.2 Genomic information信息板塊子數(shù)據(jù)庫應(yīng)用KEGG數(shù)據(jù)庫的“Genomic information”信息系統(tǒng)板塊包括“KEGG ORTHOLOGY”直系同源系統(tǒng)、“KEGG GENOME”基因組數(shù)據(jù)庫、“KEGG GENES”基因數(shù)據(jù)庫、“KEGG SSDB”序列相似性數(shù)據(jù)庫四個子數(shù)據(jù)庫。
“KEGG ORTHOLOGY”直系同源數(shù)據(jù)庫簡寫為“KO”,KO數(shù)據(jù)庫的檢索方法為:“Search”欄的“for”文本框中輸入目標(biāo)編碼,該編碼是以K編號為標(biāo)識的“KO”數(shù)據(jù)庫的專有編碼,點擊“Go”會轉(zhuǎn)到目標(biāo)代碼的詳細信息頁面, 包括“Entry”編碼信息、“Name”目標(biāo)蛋白/基因的名稱、“Definition”定義、“Pathway”相關(guān)通路信息、“Module”功能模塊數(shù)據(jù)庫中的信息、“Disease”相關(guān)疾病信息等信息,如圖4所示。
圖4 KEGG ORTHOLOGY子頁面示意圖
“KO”數(shù)據(jù)庫主頁面“Enter K numbers”里輸入目標(biāo)編碼,點擊“Ortholog table”直系同源表,可查看與該編碼同源的詳細物種信息。
“KEGG GENOME”基因組數(shù)據(jù)庫,可查詢幾乎所有物種的具有完整基因組序列的相關(guān)信息,信息代碼以T0開頭后跟四個字母組成,可以搜索和分析的生物組包括:真核生物、軟體動物、節(jié)肢動物、軟體動物、脊椎動物、哺乳動物、兩棲動物、單子葉植物、雙子葉植物、藻類、細菌等。
“KEGG GENES”基因數(shù)據(jù)庫主要是集成NCBI RefSeq和GenBank兩個數(shù)據(jù)庫的所有完整基因組的基因目錄的集合,使用網(wǎng)站工具對基因進行重新注釋,并給出了對應(yīng)物種、染色體位置、蛋白質(zhì)系列等信息。
“KEGG SSDB”序列相似性數(shù)據(jù)庫包含“KEGG GENES”子數(shù)據(jù)庫完整基因組中所有蛋白質(zhì)編碼基因之間氨基酸序列相似性的信息,包括病毒。所有可能相似的基因組均經(jīng)過Smith-Waterman相似性檢驗得分為100或更高,將最佳匹配或雙向最佳匹配的基因?qū)π畔⒋鎯Φ健癒EGG SSDB”數(shù)據(jù)庫中,可搜索直系、旁系同源物以及保守的基因組信息。
2.3 Chemical information信息板塊應(yīng)用介紹KEGG數(shù)據(jù)庫的“Chemical information”信息系統(tǒng)板塊包括“KEGG COMPOUND”化合物數(shù)據(jù)庫、“KEGG GLYCAN”多聚糖查詢數(shù)據(jù)庫、“KEGG REACTION”生化反應(yīng)數(shù)據(jù)庫、“KEGG ENZYME”酶數(shù)據(jù)庫五個子數(shù)據(jù)庫。
“KEGG COMPOUND”化合物數(shù)據(jù)庫包含小分子,生物聚合物及其他與生物系統(tǒng)有關(guān)化學(xué)物質(zhì)的集合,包括有機酸、脂類、碳水化合物、核酸、肽鏈、維生素和輔助因子、類固醇、激素和遞質(zhì)以及抗生素共9大類別,數(shù)據(jù)庫為每個化合物設(shè)置了以“C”開頭后跟四個數(shù)字的編碼,如L-賴氨酸的編碼為“C00047”,在化合物數(shù)據(jù)庫頁面的“Search”欄輸入“C00047”后點擊“GO”按鈕,跳轉(zhuǎn)至檢索結(jié)果,選擇自己的目標(biāo)化合物的編碼并點擊,跳轉(zhuǎn)新的信息頁面,包含該化合物的“Name”名稱、“Formula”化合式、“Mol weight”分子量、“Structure”化合物結(jié)構(gòu)、“Reaction”反應(yīng)、“Pathway”通路、“Module”功能模塊、“Enzyme”相關(guān)酶等詳細信息,如圖5所示。
圖5 KEGG COMPOUND子頁面示意圖
“KEGG GLYCAN”多聚糖查詢數(shù)據(jù)庫,該數(shù)據(jù)庫集合了實驗驗證的聚糖結(jié)構(gòu)數(shù)據(jù),包括從CarbBank數(shù)據(jù)庫、最新出版物以及“KEGG PATHWAY”中存在的聚糖結(jié)構(gòu)。每個結(jié)構(gòu)都有單獨的以“G”開頭數(shù)字結(jié)尾的編碼,也可以通過點擊“SNFG”按鈕轉(zhuǎn)換為聚糖的符號命名法(Symbol Nomenclature for Glycans,SNFG)表示。
“KEGG REACTION”生化反應(yīng)數(shù)據(jù)庫以及“KEGG ENZYME”酶數(shù)據(jù)庫是同一個數(shù)據(jù)庫,因為KEGG收錄的化學(xué)反應(yīng)主要是酶促反應(yīng),因此“KEGG REACTION”生化反應(yīng)數(shù)據(jù)庫將酶促反應(yīng)設(shè)置為一個以“R”開頭的單獨編碼,每條編碼的信息頁面包含了酶促反應(yīng)對應(yīng)的酶、酶促反應(yīng)的通路、表達式、定義等。
2.4 Health information及Drug labels板塊應(yīng)用簡介KEGG數(shù)據(jù)庫的“Health information”、“Drug labels”信息系統(tǒng)板塊包括“KEGG NETWORK”疾病相關(guān)網(wǎng)絡(luò)數(shù)據(jù)庫、“KEGG VARIANT”基因突變數(shù)據(jù)庫、“KEGG DISEASE”疾病數(shù)據(jù)庫、“KEGG DRUG”藥物數(shù)據(jù)庫、“KEGG ENVIRON”與健康相關(guān)信息數(shù)據(jù)庫、“KEGG MEDICUS”日本藥物查詢數(shù)據(jù)庫六個子數(shù)據(jù)庫。
“KEGG NETWORK”疾病相關(guān)網(wǎng)絡(luò)數(shù)據(jù)庫,通過對通路圖分子圖標(biāo)著色,表示該分子易受到突變、病原體、環(huán)境因素等的干擾,引起通路的變化,其顏色分別顯示為:紅色、紫色和藍色,通路中的符號及其意義為:“→”激活、“┤”抑制、“—”復(fù)合物形成等,如圖6所示。
圖6 KEGG NETWORK子頁面示意圖
“KEGG VARIANT”基因突變數(shù)據(jù)庫與“KEGG NETWORK”查詢方式相同,此處不再贅述。
“KEGG DISEASE”疾病數(shù)據(jù)庫,疾病被視為分子網(wǎng)絡(luò)系統(tǒng)中非正常狀態(tài),疾病的遺傳、環(huán)境因素以及藥物對該系統(tǒng)產(chǎn)生不同的影響,將其展示在“KEGG PATHWAY”數(shù)據(jù)庫的疾病通路圖中,疾病基因被標(biāo)記為紅色,每條針對于疾病的通路均有一個特定的編碼,以“H”后接數(shù)字組成。
“KEGG DRUG”藥物數(shù)據(jù)庫包括日本,美國和歐洲已批準藥物信的息資源,基于其活性成分的化學(xué)結(jié)構(gòu)、化學(xué)成分進行了區(qū)分和統(tǒng)一,數(shù)據(jù)庫中每個藥物均由一個以“D”開頭后接數(shù)字的編碼組成,內(nèi)容包括其治療目標(biāo),藥物代謝、與其他分子相互作用網(wǎng)絡(luò)信息等。
“KEGG ENVIRON”與健康相關(guān)信息數(shù)據(jù)庫,包含以各種天然產(chǎn)物為主要數(shù)據(jù)來源的數(shù)據(jù)庫,包括“Crude drugs”生藥、“Essential oils”精油、“Medicinal herbs”草藥三類,該數(shù)據(jù)庫是對“KEGG DRUG”藥物數(shù)據(jù)庫的重要補充,每種物質(zhì)由字母“D”加數(shù)字編碼組成,內(nèi)容包括化學(xué)成分,功效信息和來源物種信息等。
“KEGG MEDICUS”日本藥物查詢數(shù)據(jù)庫,通過CAS號、化學(xué)名稱檢索在日本和美國銷售的所有藥品,及其相關(guān)疾病、健康相關(guān)物質(zhì)的綜合信息資源數(shù)據(jù)庫。
KEGG全稱為Kyoto Encyclopedia of Genes and Genomes(京都基因與基因組百科全書),是日本京都大學(xué)生物信息學(xué)中心于1995年建立的包括生物細胞過程(Cellular Processes)、環(huán)境信息處理(Environmental Information Processing)、遺傳信息處理(Genetic Information Processing)、人類疾?。℉uman Diseases)、新陳代謝(Metabolism)、生物體系統(tǒng)(Organismal Systems)等信息的綜合性數(shù)據(jù)庫[12,13],其目標(biāo)是通過基因組信息實現(xiàn)包括細胞、動物等生物活動過程的計算機重建[14]。
KEGG數(shù)據(jù)庫能從基因組序列及其他分子數(shù)據(jù)集中預(yù)測目標(biāo)基因在細胞和生物體中的功能[15],開發(fā)了基于相同基因序列及功能的直系同源物概念從分子結(jié)構(gòu)單元重建通路系統(tǒng)預(yù)測分子狀態(tài)的方法,通路圖代表生物系統(tǒng)的分子互作圖,分為代謝、遺傳信息處理、環(huán)境信息處理、細胞過程、生物系統(tǒng)和人類疾病,涵蓋了互作網(wǎng)絡(luò)、與疾病相關(guān)的變異以及藥物-靶標(biāo)關(guān)系等功能[16]?;A(chǔ)數(shù)據(jù)來源于文獻中發(fā)表的實驗數(shù)據(jù),從中獲取生物學(xué)信息,建立以實驗數(shù)據(jù)為基礎(chǔ)的分子相互作用和反應(yīng)網(wǎng)絡(luò),形成以代謝通路、基因信息、化合物、酶、藥物等為主的子數(shù)據(jù)庫,生物過程以可視化的通路圖形式展示在“KEGG PATHWAY”數(shù)據(jù)庫中,網(wǎng)絡(luò)中的節(jié)點與“KEGG ORTHOLOGY”直系同源數(shù)據(jù)庫關(guān)聯(lián),將特定物種中觀察到的實驗數(shù)據(jù)推廣到其他物種,進而建立跨物種的聯(lián)系。因此,一旦實驗數(shù)據(jù)獲得某個分子的完整基因組序列,通過整合基因組、化學(xué)成分、系統(tǒng)功能、通路富集等信息,基于計算機的高級算法將實驗得到的證據(jù)形成可視化的系統(tǒng)功能知識庫,展示因人類基因變異、藥物調(diào)控、病毒入侵及其他病原體和環(huán)境因素等引起疾病變化的關(guān)鍵分子通路網(wǎng)絡(luò)狀態(tài),使科研人員能夠更直觀的了解某一分子的變化對疾病通路產(chǎn)生的影響,并通過KEGG數(shù)據(jù)庫重建某一物種的生物系統(tǒng),推斷同源分子在該物種甚至其他物種中的高級功能等信息,對開展下一步研究創(chuàng)造有利條件。
借助計算機全面地分析細胞和生物所包含的生物學(xué)信息是后基因組時代的重大挑戰(zhàn),KEGG數(shù)據(jù)庫能夠根據(jù)基因組中的信息,用計算機計算或者預(yù)測出復(fù)雜的細胞中的通路或者生物的復(fù)雜行為,未來將綜合更多大型生物數(shù)據(jù)庫信息,如組織芯片等對實驗數(shù)據(jù)進行補充,擴充更多的基因組信息等,使通路富集數(shù)據(jù)預(yù)測某分子的生物學(xué)功能證據(jù)更加全面可靠。