宋思源,溫芳,黃雯潔,陳曉雪,阮帥,顧蘇平,顧培杏,周佳鈺,李燁,劉佳彤,舒鵬
1 南京中醫(yī)藥大學(xué)附屬醫(yī)院腫瘤內(nèi)科,南京 210029;2 南京中醫(yī)藥大學(xué);3 江蘇省中醫(yī)院腫瘤內(nèi)科
GC 患者的5 年生存率僅為20%~30%[1]。因此,尋找影響GC 發(fā)生、發(fā)展的關(guān)鍵基因和生物標(biāo)志物對(duì)于GC 的早期診斷、早治療、預(yù)后均具有重要意義。基因啟動(dòng)子區(qū)域的DNA 甲基化與癌基因、抑癌基因的沉默有關(guān),可能與許多腫瘤發(fā)生、發(fā)展有關(guān)[2]。盡管一些研究[3]已證實(shí),某些基因在GC 組織中存在異常的DNA 高甲基化或低甲基化,但其相互作用網(wǎng)絡(luò)的全面概況和途徑仍不明確。GC 患者中差異表達(dá)基因(Differentially expressed gene,DEG)和差異表達(dá)甲基化基因(Differentially Methylated gene,DMG)。但以往這些研究均沒有對(duì)獲得的DMG 基因進(jìn)行綜合分析,對(duì)GC 發(fā)病的核心基因相關(guān)研究較少。因此,2021年1月起,我們運(yùn)用生物信息學(xué)方法篩選GC 發(fā)病的核心基因,并分析其生物學(xué)功能?,F(xiàn)將結(jié)果報(bào)告如下。
1.1 數(shù)據(jù)來源 在GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/)中搜索關(guān)鍵字“GC”來獲取GC基因表達(dá)數(shù)據(jù)集GSE118916和甲基化數(shù)據(jù)集GSE25869。GSE118916(平臺(tái):GPL15207 Affymetrix人類基因表達(dá)陣列)包括30例樣本,其中GC患者15例,正常成人15例。GSE25869(平臺(tái)GPL8490 Illumina HumanMethylation27 BeadChip)中納入72 例樣本,其中GC 患者24 例、正常成人48 例。本研究經(jīng)南京中醫(yī)藥大學(xué)附屬醫(yī)院倫理委員會(huì)批準(zhǔn)同意。
1.2 GC患者癌組織及健康成人胃組織中表達(dá)上調(diào)的低甲基化基因(high-regulated hypomethylated genes,Hypo-HGs)、表達(dá)上調(diào)的低甲基化(致)癌基因、表達(dá)下調(diào)的高甲基化基因(low-regulated hypermethylated genes,Hyper-LGs)及表達(dá)下調(diào)的高甲基化抑癌基因篩選 使用R 軟件limma 數(shù)據(jù)包處理GSE118916、GSE25869數(shù)據(jù)集,以FDR <0.05 和|logFC|>1 作為篩選DEG 的納入標(biāo)準(zhǔn),F(xiàn)DR <0.05 和|logFC|>0.1 作為篩選DMG 的納入標(biāo)準(zhǔn)。從癌基因數(shù)據(jù)庫(http://ongene.bioinfo-minzhao.org/)和腫瘤抑制基因數(shù)據(jù)庫(https://bioinfo.uth.edu/TSGene/index.html)中生成GC的癌基因和抑癌基因,共獲得803個(gè)GC的癌基因、91個(gè)GC的抑癌基因。通過在線Venn 圖(http://bioinfogp.cnb.csic.es/tools/venny/index.html),將低甲基化DMG 基因、上調(diào)DMG 基因和GC的癌基因進(jìn)行重疊,得到Hypo-HGs、表達(dá)上調(diào)的低甲基化(致)癌基因。將高甲基化DMG基因、下調(diào)DMG基因和GC的抑癌基因進(jìn)行重疊,得到Hyper-LGs 和表達(dá)下調(diào)的高甲基化抑癌基因(down-regulated hypermethylated tumor suppressor genes,TSG)。
1.3 GC 患者癌組織Hypo-HGs、Hyper-LGs 生物學(xué)功能及相互作用的主要基因篩選
1.3.1 GC 患者癌組織Hypo-HGs、Hyper-LGs 生物學(xué)功能分析 采用DAVID 數(shù)據(jù)庫對(duì)Hypo-HGs、Hyper-LGs進(jìn)行基因本體論(Gene Ontology,GO)分析和基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路富集分析,分析DMG 的分子機(jī)制及生物學(xué)功能。GO 富集分析主要由生物過程(biological process,BP)、細(xì)胞成分(cell components,CC)和分子功能(molecular functions,MF)組成。
1.3.2 GC 患者癌組織Hypo-HGs、Hyper-LGs 蛋白質(zhì)—蛋白質(zhì)相互作用的主要基因篩查 將“1.2”中獲得的Hypo-HGs、Hyper-LGs 導(dǎo)入String 數(shù)據(jù)庫(https://string-db.org/cgi/input.pl)中,進(jìn)行PPI 網(wǎng)絡(luò)構(gòu)建,使用Cytoscape 進(jìn)行可視化,構(gòu)建Hypo-HGs、Hyper-LGs 的蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)圖,分析相互作用的主要基因。
1.4 GC的發(fā)病的核心基因篩選及驗(yàn)證
1.4.1 GC 發(fā)病的核心基因的篩選 ①集TCGASTAD 資料庫中胃腺癌患者癌組織中Degree 值排名前十的Hypo-HGs、Hyper-LGs、低甲基化癌基因及TSG 的表達(dá)情況,利用GEPIA 的在線工具(http://gepia.cancer-pku.cn/index.html 繪制患者的Kaplan-Meier 生存曲線(OS),分析發(fā)病的核心基因不同表達(dá)的GC 患者的預(yù)后情況。Oncomine(https://www.oncomine.org/)是基于微陣列的基因數(shù)據(jù)庫。使用Oncomine 數(shù)據(jù)庫對(duì)GC 癌組織中DMG 基因的表達(dá)情況進(jìn)行分析,最終得到GC發(fā)病的核心基因。
1.4.2 GC發(fā)病的核心基因的生物學(xué)功能分析 通過HPA 數(shù)據(jù)庫(https://www.proteinatlas.org/)收集GC患者和正常成人的臨床資料,比較癌組織及健康成人胃組織GC 發(fā)病的核心基因蛋白的表達(dá)情況。使用cBioPortal 工具(http://www.cbioportal.org/)比較納入胃腺癌患者GC 發(fā)病的核心基因的突變情況。對(duì)發(fā)病的核心基因進(jìn)行GO、KEGG 富集分析,分析其生物學(xué)功能。
2.1 GC 患者癌組織Hypo-HGs、表達(dá)上調(diào)的低甲基化(致)癌基因、Hyper-LGs及TSG 由GSE118916表達(dá)矩陣得到,GC 組織及健康成人胃組織中存在1 163 個(gè)DEG,其中528 個(gè)上調(diào)DEG 基因、635 個(gè)下調(diào)DEG 基因。由GSE25869 中表達(dá)矩陣得到,GC 組織及健康成人胃組織中存在2 589個(gè)DMG,包括680個(gè)高甲基化DMG 基因、1 909 個(gè)低甲基化DMG 基因。GC 患者癌組織中有FN1、COL3A1 及COL1A1 等110個(gè)Hypo-HGs,其中TAC1、TWIST1、UCHL1、SPARC、GREM1、MEF2C、MAFB 等9 個(gè)基因?yàn)楸磉_(dá)上調(diào)的低甲基化(致)癌基因;有CDH1、FOXA1 及KLF4 等23個(gè)Hyper/LGs,其中AZGP1、CDH1為TSG。
2.2 GC 患者癌組織Hypo-HGs、Hyper-LGs 的生物學(xué)功能及相互作用的主要基因
2.2.1 GC 患者癌組織Hypo-HGs、Hyper-LGs 的生物學(xué)功能 Hypo-HGs 的BP 主要集中在細(xì)胞粘附和細(xì)胞外基質(zhì)組織中,CC 主要集中在細(xì)胞外區(qū)域、細(xì)胞外空間和細(xì)胞外體中,MF 主要集中在蛋白質(zhì)結(jié)合、鈣離子結(jié)合和肝素結(jié)合。KEGG 分析結(jié)果表明,Hypo-HGs 的生物學(xué)功能主要集中在粘著斑、PI3KAkt信號(hào)傳導(dǎo)途徑和ECM-受體相互作用中。
Hyper-LGs的BP主要在尼古丁和異種生物代謝過程富集,CC 主要富集于質(zhì)膜,MF 主要富集于糖蛋白結(jié)合。KEGG 分析結(jié)果表明,Hyper-LGs 的生物學(xué)主要集中在藥物代謝一細(xì)胞色素P450、化學(xué)致癌作用和細(xì)胞色素P450異源生物的代謝中。
2.2.2 GC 患者癌組織Hypo-HGs、Hyper-LGs 的蛋白質(zhì)—蛋白質(zhì)相互作用的主要基因 按度值排序,F(xiàn)N1、COL3A1、COL1A1、COL1A2、MMP2 等Hypo-HGs,CDH1、FOXA1 及KLF4 等Hyper-LGs,在PPI 網(wǎng)絡(luò)中處核心位置。
2.3 GC 發(fā)病的核心基因 GC 患者癌組織與健康成人組織Hyper-LGs、表達(dá)上調(diào)的低甲基化(致)癌基因、Hyper-LGs 及TSG 基因表達(dá)比較 健康成人胃部組織比較,GC組織中COL3A1、COL1A2、COL1A2、SPARC、CDH1 和TMEM45B 基因表達(dá)升高而PXMP2表達(dá)降低。Kaplan-Meier生存曲線結(jié)果顯示,癌組織高表達(dá)COL1A1、THBS1、COL5A2、COL12A1、CXCR4 的GC 患者的總生存期短(P均<0.05)。GC 發(fā)病的核心基因?yàn)镃OL1A1、THBS1、COL5A2、COL12A1及CXCR4。
2.4 GC發(fā)病的核心基因生物學(xué)功能 正常成人胃組織中COL1A1 蛋白、COL12A1 蛋白低表達(dá),HBS1蛋白高表達(dá)。GC 組織中COL1A1 蛋白低表達(dá),THBS1 蛋白、COL12A1 蛋白不表達(dá)。cBioPortal 分析結(jié)果顯示,393 例胃腺癌患者中,有101 例(26%)患者存在COL1A1、THBS1、COL5A2、COL12A1 及CXCR4基因突變。
GC 發(fā)病的核心基因BP 主要包括膠原原纖維組織、膠原分解代謝過程。CC 主要包括內(nèi)質(zhì)網(wǎng)腔、細(xì)胞外基質(zhì)。MF 包括細(xì)胞外基質(zhì)的結(jié)構(gòu)成分。KEGG 結(jié)果發(fā)現(xiàn),GC 發(fā)病的核心基因主要在ECM-受體相互作用、蛋白質(zhì)的消化吸收,粘著斑和PI3KAkt信號(hào)傳導(dǎo)途徑顯著富集。
本研究中,我們使用生物信息學(xué)工具來分析基因表達(dá)數(shù)據(jù)集GSE118916 和甲基化數(shù)據(jù)集GSE25869,最終篩選獲得110 個(gè)Hypo-HGs,其中9個(gè)為表達(dá)上調(diào)的低甲基化(致)癌基因。得到23 個(gè)Hyper-LGs 和2 個(gè)TSG。PPI 網(wǎng)絡(luò)結(jié)果顯示,Hypo-HGs 中的FN1、COL3A1、COL1A1、COL1A2、MMP2,Hyper-LGs 中的CDH1、FOXA1 和KLF4 在網(wǎng)絡(luò)中處于核心位置。
進(jìn)一步GO 分析結(jié)果表明,Hypo-HGs 的生物學(xué)過程主要涉及細(xì)胞粘附和細(xì)胞外基質(zhì)組織。細(xì)胞粘附參與多種腫瘤細(xì)胞的病理和生理過程,細(xì)胞—細(xì)胞粘附和細(xì)胞-基質(zhì)粘附的變化可促進(jìn)癌細(xì)胞轉(zhuǎn)移[4]。細(xì)胞間粘附分子-1(ICAM-1)是粘附分子免疫球蛋白超家族(IGSF)的成員。當(dāng)人體發(fā)生炎癥或感染時(shí),ICAM-1 可能被過度激活并表達(dá),并參與調(diào)節(jié)人體細(xì)胞的免疫反應(yīng)。研究[5]發(fā)現(xiàn),在轉(zhuǎn)移率高的GC 細(xì)胞中可以檢測(cè)到ICAM-1 的高水平表達(dá),這表明ICAM-1 的表達(dá)與GC 的侵襲和轉(zhuǎn)移密切相關(guān),可有效用于GC血源性淋巴轉(zhuǎn)移的臨床監(jiān)測(cè)。
Hyper-LGs 的生物學(xué)過程主要涉及對(duì)尼古丁和異種生物代謝過程的反應(yīng)。尼古丁可以顯著上調(diào)MMP7 的表達(dá),而MMP7 高表達(dá)在癌癥的侵襲中發(fā)揮關(guān)鍵作用,吸煙成癮會(huì)增加發(fā)生GC 的風(fēng)險(xiǎn)[6]。外源性代謝過程可能會(huì)調(diào)節(jié)GC 的敏感性。KEGG 分析結(jié)果表明,Hypo-HGs 在粘著斑、PI3K-Akt 信號(hào)傳導(dǎo)途徑和ECM-受體相互作用中顯著富集。研究發(fā)現(xiàn)粘著斑參與了GC 的發(fā)生和轉(zhuǎn)移,鈣釋放激活的鈣調(diào)節(jié)2(ORAI2)通過PI3K/Akt 信號(hào)轉(zhuǎn)導(dǎo)和MAPK依賴性粘著斑分解來促進(jìn)GC 的致瘤性和轉(zhuǎn)移[7]。PI3K-Akt 途徑廣泛分布于各種細(xì)胞中,可以調(diào)節(jié)細(xì)胞的多種生物學(xué)行為。PI3K-Ak 通路異??赡苡|發(fā)癌癥的發(fā)生和發(fā)展[8]。ECM 是腫瘤微環(huán)境的重要組成部分[9]。Hyper-LGs在藥物代謝—細(xì)胞色素P450,化學(xué)致癌作用和細(xì)胞色素P450 異源生物的代謝中顯著富集。細(xì)胞色素P450 家族基因通過細(xì)胞色素P450 的異源代謝參與了GC 的發(fā)展[10]。細(xì)胞色素P450家族2亞家族E多肽1(CYP2E1)的過表達(dá)促進(jìn)GC細(xì)胞的增殖和侵襲,并抑制其凋亡。
GEPIA 數(shù)據(jù)庫在收集GC 組織中FN1、COL3A1、COL1A1、COL1A2、MMP2、FBN1、SPARC、THBS1、COL5A2、CDH1、FOXA1、KLF4、AZGP、GC、CYP2C9、MGST1、PXMP2、SLC16A、TMEM1、TWEM45B、MEF2C、MAFB、HHEX 和CXCR4 等28個(gè)基因的表達(dá)情況后發(fā)現(xiàn),GC 組織中COL3A1、COL1A2、SPARC、CDH1、TMEM45B基因高表達(dá),PXMP2 基因低表達(dá)。研究[11]發(fā)現(xiàn),COL3A1 在膀胱癌和膠質(zhì)母細(xì)胞瘤中過表達(dá)。COL1A2 與GC 的侵襲和轉(zhuǎn)移有關(guān)。COL1A2 的高表達(dá)可能表明GC 患者的臨床預(yù)后較差[12]。SPARC 的高表達(dá)增加了腫瘤細(xì)胞的活性,并增強(qiáng)了上皮—間質(zhì)轉(zhuǎn)化和血管生成[13]。CDH1 的致病突變和種系缺失是早期彌漫性GC的重要致病因素[14]。TMEM45B 在許多類型的腫瘤中異常表達(dá)。抑制TMEM45B 可以抑制JAK2/STAT3 信號(hào)通路,從而抑制GC 細(xì)胞的增殖,遷移和侵襲[15]。
生存分析表明,高表達(dá)COL1A1、THBS1、COL5A2、COL12A1、CXCR4 的GC 患者總生存期較短。Oncomine數(shù)據(jù)庫驗(yàn)證了5個(gè)發(fā)病的核心基因在GC 中的表達(dá),結(jié)果表明COL1A1、THBS1、COL5A2、COL12A1 在GC 中表達(dá)。對(duì)5 種發(fā)病的核心基因的富集分析發(fā)現(xiàn),BP 主要包括原纖維組織和膠原分解代謝過程。KEGG主要包括ECM-受體相互作用、蛋白質(zhì)的消化吸收、黏著斑和PI3K-Akt 信號(hào)通路。cBioPortal 顯示,26%的胃腺癌患者存在這五個(gè)基因的突變。
COL1A1、COL5A2、COL12A1 屬于膠原形成基因家族[16],每個(gè)膠原由3 條以阿拉伯?dāng)?shù)字編號(hào)的多肽鏈組成。膠原蛋白是GC 細(xì)胞外基質(zhì)的主要成分,也是微環(huán)境的主要成分。當(dāng)GC 發(fā)生時(shí),膠原蛋白合成增加并誘導(dǎo)上皮—間質(zhì)轉(zhuǎn)化,導(dǎo)致腫瘤細(xì)胞浸潤(rùn)和轉(zhuǎn)移。GC 組織中COL1A1 的表達(dá)高于正常組織,這與GC 患者的預(yù)后有關(guān)。COL5A2 與骨肉瘤、膀胱癌和GC 的病理過程有關(guān)。研究[17]發(fā)現(xiàn),COL12A1 在結(jié)締組織疾病中異常表達(dá),并且COL12A1 突變與患者的不良預(yù)后有關(guān)。COL12A1在GC 中高表達(dá),這與不良的OS 和PFS 有關(guān)[18]。研究發(fā)現(xiàn)THBS1 突變與早期GC 有關(guān)。THBS1 可能通過影響腫瘤純度,TMB、TME 評(píng)分和多種致癌信號(hào)通路而成為GC的新預(yù)后指標(biāo)[19]。
綜上所述,GC 發(fā)病的核心基因主要有COL1A 1、THBS1、COL5A2、COL12A1、CXCR4,其生物學(xué)過程主要包括膠原原纖維組織、膠原分解代謝、內(nèi)質(zhì)網(wǎng)腔,細(xì)胞外基質(zhì)、細(xì)胞外基質(zhì)的結(jié)構(gòu)成分。GC 患者發(fā)病的核心基因主要通過ECM-受體相互作用、蛋白質(zhì)的消化吸收、粘著斑和PI3K-Akt 信號(hào)傳導(dǎo)途徑發(fā)揮作用。GC 發(fā)病的核心基因可作為精確診斷和治療GC的靶向標(biāo)志物。