馬俊,吳霞,宮偉,李濤
?
生物信息學相關數據庫在腫瘤研究中的應用
馬俊,吳霞,宮偉,李濤
523808 東莞,廣東醫(yī)科大學廣東省醫(yī)學分子診斷重點實驗室
腫瘤是一種多因素參與的復雜疾病,從正常細胞變?yōu)槟[瘤細胞的過程中有多個步驟,包括逃避免疫攻擊、能量代謝重建、誘導血管生成等[1],這些步驟構成了一個復雜的信號調控網絡,因此腫瘤的研究需要從整體上、不同時間、空間上進行觀察。在腫瘤研究的過程中,不同腫瘤之間、同一腫瘤不同的分布位置、病程時間、研究時所使用的方法及材料等的不同,均會得到數據量龐大又不同的研究結果,這加大了腫瘤研究的難度。生物信息學在腫瘤研究中以計算機為工具,利用信息學技術,對各類數據進行收集、整理和分析[2]。它的出現從不同應用角度收集和整理了大量的現行腫瘤研究結果,并根據需要的不同構建了各種功能不同的數據庫,利用這些數據庫來進行腫瘤研究豐富了我們的研究手段。下面簡要介紹一些腫瘤研究中的常用數據庫及應用案例。
癌癥基因組圖譜[3](The Cancer Genome Atlas,TCGA)是由美國國立癌癥研究院(National Cancer Institute,NCI)以及國立人類基因組研究院(National Human Genome Research Institute,NHGRI)在 2006 年啟動的,該項目使用大規(guī)模測序技術為主的基因組分析技術,旨在完成一套完整的與所有癌癥基因組改變相關的“圖譜”,從而幫助人們從基因組的角度深入了解腫瘤的分子機制以及提高診斷、治療腫瘤的能力。
TCGA 以預后不良、公共危害較大以及能否獲取到符合要求的組織樣本為入選標準,收錄范圍從最開始的 2 種擴大到目前的 33 種腫瘤,涵蓋 11 000 例患者。組織收集站點負責收集患者自愿捐贈的腫瘤組織及正常組織樣本。然后由生物樣本核心資源中心的研究人員按照嚴格的標準(例如足夠的樣本量、未經過化療、組織中超過 60% 的腫瘤細胞等)核實樣本的質量和數量以及采集臨床資料、提取組織的 DNA 和 RNA 等。樣本的 DNA 和 RNA 被分別送到基因組測序中心和基因組鑒定中心進行大規(guī)模測序和多平臺分析,產生關于腫瘤基因組和結構變化的基因表達數據、DNA 拷貝數變化、miRNA 數據、外顯子測序、全基因組測序等數據。數據整合中心和腫瘤基因組學中心負責對這些數據進行收集、存儲和整理。目前,TCGA 的所有數據被整合到了 NCI 的基因組數據共享中心(genomic data commons,GDC)。GDC 是一個腫瘤研究的數據共享平臺,供研究人員檢索、下載、分析包括 TCGA 在內的腫瘤基因組數據并為數據分析提供額外資源。通過關鍵詞直接檢索或者以“基因名稱”、“樣本編號”等為主題,增加附加條件進行檢索,檢索結果按照檢索條件以列表和圖表的形式進行展示。基于這些腫瘤基因組數據,目前已經取得了許多成果。例如科學家利用胃癌遺傳改變的不同,將胃癌分成了新的四個亞型,這種更精確的分類將更有利于精準的靶向治療[4]。
基因表達數據庫(Gene Expression Omnibus,GEO)是美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)負責管理和維護的公共數據庫,可以存儲和分享研究者提交的微陣列、新一代測序以及其他形式的高通量基因組數據[5]。
GEO 將提交的原始數據分為 3 個角度:平臺、樣本和系列。平臺記錄是描述獲取實驗數據的技術、方法的信息,以 GPLxxx 表示;樣本記錄描述樣品信息、來源、處理單個樣品的條件、所經歷的操作以及從中得到的測量結果,每個樣本只能引用一個平臺但可包含在多個系列中,用 GSMxxx 表示;系列表示出于某個研究目的,將一組相關樣本集合在一起進行組內分析比較,包含實驗設計、分析文件等信息,用 GSExxx 表示。這些數據的一部分被 GEO 管理人員整理成了數據集記錄,用 GDSxxx 表示,它代表著生物學和統(tǒng)計學上可進行比較的樣本集合,并且構成了 GEO 數據顯示和分析功能的基礎,比如基因表達差異的分析和聚類熱圖等。GEO 表達譜,存儲源于數據集中某一樣本的某個基因的表達。如果要對尚未整理進 GDS 的原始系列記錄進行分析,可以使用 GEO 提供的在線分析工具 GEO2R,它是一款對系列記錄即時分析的程序,可以鑒定跨實驗條件下差異表達的基因[6]。所有的這些數據都可以通過關鍵詞進行檢索、在線分析或者下載相關數據。伴隨著近 20 年的發(fā)展,截至 2018 年 3月,GEO 中已經收錄了18 535 個平臺記錄,2 781 547 個樣本記錄和 107 710 個系列實驗記錄。利用 GEO 提供的大量數據,研究者可通過挖掘感興趣的信息進行腫瘤研究。如Chen 等[7]通過 GEO 數據庫的鼻咽癌數據集,分析出差異表達基因,利用基因本體數據庫(gene ontology,GO)和京都基因與基因組百科全書數據庫(Kyoto Encyclopedia of Genes and Genomes,KEGG)對差異基因進行富集分析,初步篩選出了鼻咽癌發(fā)病機制中可能的關鍵基因及通路。Hu 等[8]通過 GEO 數據庫的胰腺癌數據集,提供了一個了解胰腺癌發(fā)生分子機制的全面視角和潛在的治療靶點。
京都基因與基因組百科全書(KEGG)是一個在計算機上以基因組信息和化學信息為基本元素,結合代表它們之間相互作用、反應和關系網絡的系統(tǒng)信息來理解生物系統(tǒng)高級功能的數據庫[9],是生物系統(tǒng)的計算機模擬。Pathway 數據庫作為最常用的子數據庫,通過已發(fā)表的文獻手動繪制了一系列的通路圖來代表細胞和生物體的高級功能[10-11]。Pathway 第一層由代謝、基因信息、環(huán)境信息、細胞過程、生物體系統(tǒng)、人類疾病、藥物開發(fā)七個方面組成,這七個方面向下構成的更為精細的亞結構為第二層,第三層即以通路圖的形式展示細胞或生物系統(tǒng)的分子相互作用、反應和關系網絡。Pathway 數據庫有助于研究者將不同基因信息放到細胞(生物系統(tǒng))中相互作用的關系網絡中來進行研究,以此獲得不同基因間的關系、調控信息或某個關系網絡中的參與基因。腫瘤研究中,最常用的是對差異表達基因的 pathway 分析,即利用統(tǒng)計學的方法尋找興趣基因顯著富集的 KEGG 通路。如在一項乳腺癌的研究中,研究者對 585 個差異表達基因進行 KEGG 通路富集分析,發(fā)現其顯著富集在核糖體、腫瘤轉錄失調等通路[12],這些結果對研究人員進一步的研究具有重要的指導意義。
基因本體數據庫(GO)是關于基因及其產物功能知識的綜合資源數據庫,旨在產生一個結構化、精確定義、受控的詞匯表,用于描述基因和基因產物在任何生物體中的作用。它主要有兩個部分組成:基因本體和基因本體注釋。基因本體是給定領域內知識體系的正式形式,由一套描述基因和產物生物功能及其彼此之間關系的標準術語構成,GO 代表的領域由細胞組分(基因產物執(zhí)行功能的細胞結構的相對位置)、分子功能(基因產物進行的分子級活動)、生物學過程(多種分子活動構成的“生物程序”)三個本體構成。表現為有向無環(huán)的分層結構,每個術語構成一個節(jié)點,節(jié)點之間的關系構成邊,隨著子術語層次的加深,它們描述的也更加精準。GO 注釋是通過手動或自動化的方法將基因及其產物與描述它們的 GO 術語關聯(lián)在一起的過程,在這個過程中需要證據支撐,證據可以是參考文獻、其他數據庫的論據等。目前 GO 知識庫收錄了 140 000 篇已經發(fā)表論文的實驗結果,代表超過 600 000 個實驗支持的 GO 注釋[13-14]。在腫瘤研究中,最常用到的是差異表達基因的“GO 富集分析”,即利用統(tǒng)計學的方法確定功能存在交集的相關基因集合,從而將若干基因的改變歸納成更少的生物學功能,從而有可能去理解基因改變的意義。例如,在一項肝癌的研究中,研究者通過 GO 功能富集分析發(fā)現 13 個基因在與癌癥發(fā)生和進展相關的生物學過程中有顯著富集,比如凋亡過程、胞內信號轉導調節(jié)、細胞周期等[15],這些結果為研究者提供了參考。
腫瘤預后的預測對臨床治療方法的制定、預后的判斷以及闡明腫瘤的發(fā)生機制具有重要的意義。Wu 等[16]通過分析 GEO 和 TCGA 的胃腺癌 mRNA 數據,發(fā)現胃腺癌組織中編碼 MATN3 的 mRNA 水平顯著比正常組織高,進一步通過 Kaplan-Meier 生存分析和 Cox 回歸分析發(fā)現 MATN3 mRNA 表達高的胃癌患者無病生存率和總體生存率顯著降低,因此 MATN3 的過表達可以用作胃腺癌患者不良預后的獨立預測因子。同樣,Zhang 等[17]通過免疫組化實驗發(fā)現含黃素單加氧酶 5(FMO5)在結腸癌組織中高表達,并進一步在 TCGA 數據庫驗證了 FMO5 mRNA 高表達,后續(xù)利用 Kaplan-Meier 生存分析和 Cox 回歸分析評估 FMO5 的高表達與預后之間的關系,結果發(fā)現 FMO5 的高表達可能在結直腸癌發(fā)生和遠處轉移中起作用,并且可以作為結腸癌預后的獨立預測因子。由于單因子預測的能力具有一定局限,Liang 等[18]在胰腺癌的研究中利用 TCGA 數據庫的 175 例胰腺癌樣本的 miRNA 測序數據和臨床數據,構建多變量 COX 回歸分析模型評估每一個 miRNA 與總體生存率之間的關系,構建了一個包括 5 個 miRNA 的預測組合,提高了胰腺癌患者預后預測的可靠性。
腫瘤化療耐藥常常導致治療失敗,研究化療耐藥的機制,開發(fā)出新的治療策略,提高患者的生活質量是目前亟待解決的問題。通過利用不同功能的數據庫以及結合實驗分析是一種重要的研究方法。Sun 等[19]分析 TCGA 數據庫中的胰腺癌 miRNA 測序數據發(fā)現胰腺癌組織中的 miR-374b-5p表達顯著降低,后續(xù)通過體外實驗發(fā)現 miR-374b-5p 通過靶向胰腺癌細胞中的幾種抗細胞凋亡蛋白使胰腺癌腫瘤細胞對化療藥物敏感,表明 miR-374b-5p 的表達下調可能是胰腺癌化療耐藥導致預后不良的原因。與之類似,Wei 等[20]從 GEO 數據庫下載了 86 例卵巢癌患者接受化療后的 miRNA 表達數據,在線工具 GEO2R 分析出了化療應答和無應答兩組之間的 6 個差異表達 miRNA。隨后用 TargetScan 預測出 317 個潛在的靶基因,通過構建它們的蛋白互作網絡得到了 6 個潛在關鍵基因 PIK3R5、PTEN、MAPK3、S1PR3、BDKRB2、NCBP2。對其進行 GO 和 KEGG 富集分析,發(fā)現 PIK3R5 和 MAPK3 與卵巢癌化療耐藥的多個生物學過程密切相關,這表明 PIK3R5、MAPK3 可能在卵巢癌化療耐藥中起重要作用。Xue 等[21]利用 GEO 數據庫分析前列腺癌多西紫杉醇耐藥細胞系的差異表達 LncRNA 和 mRNA,結合體外建模和細胞實驗,確定了 MALAT1-miR-145-5p-AKAP12 的調控關系,闡明了長鏈非編碼 RNA MALAT1 的過表達抑制miR-145-5p 從而導致 mRNA AKAP12 水平增加,最終導致前列腺癌細胞對多西紫杉醇耐藥。
腫瘤轉移是惡性腫瘤的主要特征之一,也是引起癌癥患者死亡的重要因素,研究腫瘤轉移機制,對于制定轉移防治策略、延長患者生命具有重大意義[22]。Xu 等[23]從 TCGA,GEO 數據庫下載了腎細胞癌的微陣列數據和 RNA 測序數據,然后分為兩個隊列,一個隊列以正常組織為對照,一個隊列以原發(fā)腎細胞癌組織為對照。結果發(fā)現 LncRNA DUXAP8 的表達水平在腎細胞癌組織、轉移性腎細胞癌組織中均顯著上調,而且 Kaplan-Meier 生存分析發(fā)現較高的 DUXAP8 表達水平與腎細胞癌患者總生存率時間較短有關,體外試驗表明,DUXAP8 高表達可能通過增強癌細胞的侵襲能力而導致腫瘤轉移。Chen 等[24]利用了同樣的方法,在結腸癌的研究中通過分析結腸癌肝轉移組織和原發(fā)組織的 LncRNA 表達譜,發(fā)現了肝轉移相關 LncRNA LUCAT1,進一步體外實驗證實了 LUCAT1 可能通過促進細胞侵襲而在結腸癌肝轉移中起作用。而 Tian 等[25]通過分析來自 TCGA 數據庫的肺鱗癌轉移組織與原發(fā)組織的差異表達 mRNA,然后進行加權基因共表達網絡分析、蛋白質相互作用網絡分析、GO、KEGG 富集分析以及 qRT-PCR 分析差異表達基因的生物學功能,最后發(fā)現 CFTR、SCTR、FIGF 幾個基因與肺鱗癌轉移的病理學過程關系密切。
靈活運用現有不同的數據庫進行腫瘤研究,不僅能夠使研究者充分利用現有結果為其研究提供參考,而且還能降低研究成本提高研究效率加深對腫瘤的認識。但是其中也存在一些不足,例如一些數據庫所提供的在線分析功能相對較單一,收錄的臨床信息還不夠全面以及各相關數據庫之間的聯(lián)系與整合還可進一步加強。伴隨這些問題的改進與完善,將會減少研究者工作量,進一步擴大數據量,為腫瘤研究者提供更多的幫助,從而推動腫瘤研究的深入。
[1] Hanahan D, Weinberg RA. Hallmarks of cancer: the next generation. Cell, 2011, 1(5):646-674.
[2] Luscombe NM, Greenbaum D, Gerstein M. What is bioinformatics? A proposed definitionand overview of the field. Methods Inf Med, 2001, 40(4):346-358.
[3] Tomczak K, Czerwińska P, Wiznerowicz M. The cancer genome atlas (TCGA): an immeasurable source of knowledge. Contemp Oncol (Pozn), 2015, 19(1A):A68-A77.
[4] Cancer Genome Atlas Research Network. Comprehensive molecular characterization of gastric adenocarcinoma. Nature, 2014, 513(7517): 202-209.
[5] Barrett T, Wilhite SE, Ledoux P, et al. NCBI GEO: archive for functional genomics data sets--update. Nucleic Acids Res, 2013, 41(Database issue):D991-D995.
[6] Clough E, Barrett T. The gene expression omnibus database. Methods Mol Biol, 2016, 1418:93-110.
[7] Chen F, Shen C, Wang X, et al. Identification of genes and pathways in nasopharyngeal carcinoma by bioinformatics analysis. Oncotarget, 2017, 8(38):63738-63749.
[8] Hu B, Shi C, Jiang HX, et al. Identification of novel therapeutic target genes and pathway in pancreatic cancer by integrative analysis. Medicine (Baltimore), 2017, 96(42):e8261.
[9] Kanehisa M, Goto S. KEGG: Kyoto encyclopedia of genes and genomes. Nucleic Acids Res, 2000, 28(1):27-30.
[10] Kanehisa M, Sato Y, Kawashima M, et al. Kegg as a reference resource for gene and protein annotation. Nucleic Acids Res, 2016, 44(D1):D457-D462.
[11] Kanehisa M, Furumichi M, Tanabe M, et al. Kegg: New perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Res, 2017, 45(D1):D353-D361.
[12] Fang E, Zhang X. Identification of breast cancer hub genes and analysis of prognostic values using integrated bioinformatics analysis. Cancer Biomark, 2017, 21(1):373-381.
[13] Ashburner M, Ball CA, Blake JA, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25(1):25-29.
[14] The Gene Ontology Consortium. Expansion of the gene ontology knowledgebase and resources. Nucleic Acids Res, 2017, 45(D1): D331-D338.
[15] Wang J, Zhou Y, Fei X, et al. Integrative bioinformatics analysis identifies ROBO1 as a potential therapeutic target modified by miR-218 in hepatocellular carcinoma. Oncotarget, 2017, 8(37):61327- 61337.
[16] Wu PL, He YF, Yao HH, et al. Martrilin-3 (matn3) overexpression in gastric adenocarcinoma and its prognostic significance. Med Sci Monit, 2018, 24:348-355.
[17] Zhang T, Yang P, Wei J, et al. Overexpression of flavin-containing monooxygenase 5 predicts poor prognosis in patients with colorectal cancer. Oncol Lett, 2018, 15(3):3923-3927.
[18] Liang L, Wei DM, Li JJ, et al. Prognostic microRNAs and their potential molecular mechanism in pancreatic cancer: a study based on the cancer genome atlas and bioinformatics investigation. Mol Med Rep, 2018, 17(1):939-951.
[19] Sun D, Wang X, Sui G, et al. Downregulation of miR-374b-5p promotes chemotherapeutic resistance in pancreatic cancer by upregulating multiple anti-apoptotic proteins. Int J Oncol, 2018, 52(5):1491-1503.
[20] Wei S, Wang Y, Xu H, et al. Screening of potential biomarkers for chemoresistant ovarian carcinoma with miRNA expression profiling data by bioinformatics approach. Oncol Lett, 2015, 10(4):2427-2431.
[21] Xue D, Lu H, Xu HY, et al. Long noncoding RNA MALAT1 enhances the docetaxel resistance of prostate cancer cells via mir-145-5p- mediated regulation of AKAP12. J Cell Mol Med, 2018, 22(6):3223- 3237.
[22] Liu Y, Cao X. Characteristics and significance of the pre-metastatic Niche. Cancer Cell, 2016, 30(5):668-681.
[23] Xu X, Xu Y, Shi C, et al. A genome-wide comprehensively analyses of long noncoding RNA profiling and metastasis associated lncRNAs in renal cell carcinoma. Oncotarget, 2017, 8(50):87773-87781.
[24] Chen Y, Yu X, Xu Y, et al. Identification of dysregulated lncRNAs profiling and metastasis-associated lncRNAs in colorectal cancer by genome-wide analysis. Cancer Med, 2017, 6(10):2321-2330.
[25] Tian F, Zhao J, Fan X, et al. Weighted gene co-expression network analysis in identification of metastasis-related genes of lung squamous cell carcinoma based on the Cancer Genome Atlas database. J Thorac Dis, 2017, 9(1):42-53.
國家自然科學基金(31171351)
李濤,Email:59889906@qq.com
2018-10-16
10.3969/j.issn.1673-713X.2019.01.014