程曉成 李 凡 肖競英 焦作義
胃癌(gastric carcinoma,GC)是消化系統(tǒng)最常見的惡性腫瘤之一,其發(fā)生率和病死率高居全球惡性腫瘤的第3位[1]。由于胃癌患者早期無明顯臨床癥狀,所以多數(shù)患者發(fā)現(xiàn)時已是晚期,錯過最佳治療時間[2]。雖然,手術(shù)和放化療能在一定程度上延長患者的生存時間,但癌細胞的侵襲和轉(zhuǎn)移能力又促進胃癌患者術(shù)后的復(fù)發(fā)及死亡,導(dǎo)致其術(shù)后的5年生存率僅為5%~15%,預(yù)后監(jiān)測在胃癌治療中起著至關(guān)重要的作用[3,4]。近年來,由于基因芯片技術(shù)和生物信息學(xué)的快速發(fā)展,為探討胃癌的致病分子機制提供了便利[5]。本研究希望通過從公共基因數(shù)據(jù)庫(gene expression omnibus, GEO,http:∥www. ncbi. nlm. nih. gov/geo/)中下載的GSE54129、GSE81948、GSE118916這3個基因芯片進行數(shù)據(jù)挖掘,利用生物信息學(xué)的相關(guān)分析方法篩選出胃癌預(yù)后相關(guān)的基因,為胃癌的預(yù)后監(jiān)測供新的診斷指標和新靶點,也為胃癌靶向藥物研發(fā)提供候選標志物和理論依據(jù)。
1.數(shù)據(jù)來源:從GEO數(shù)據(jù)庫中下載胃癌基因芯片數(shù)據(jù)集GSE54129、GSE81948、GSE118916。GSE54129包含111個胃癌標本和21個正常組織標本,GSE81948包含15個胃癌標本和5個正常組織標本,GSE118916包含15個胃癌標本和15個正常組織標本。
2.差異表達基因的篩選:利用GEO數(shù)據(jù)庫自帶的分析工具GEO2R對GSE54129、GSE81948、GSE118916 3個基因芯片數(shù)據(jù)集進行分析,以P<0.05,|log2FC(fold change)|>1作為篩選標準,分別對3個數(shù)據(jù)集進行差異表達基因(differen- tially expressed genes,DEGs)的篩選。將篩選后DEGs包含上調(diào)基因和下調(diào)基因,以火山圖的形式展現(xiàn),并用韋恩圖取交集。
3.DEGs的GO和KEGG通路富集分析:本研究將篩選后的DEGs利用在線軟件DAVID(https:∥david.ncifcrf.gov/)進行基因本體論(gene ontology,GO)包括細胞成分、分子功能、生物學(xué)過程3個方面的功能富集分析,并使用京都基因與基因組百科全書(kyoto encyclopedia of genes and geno- mes,KEGG)進行通路富集分析[6,7]。以P<0.05為差異有統(tǒng)計學(xué)意義。
4.PPI網(wǎng)絡(luò)圖和hub 基因篩選:使用在線網(wǎng)站STRING (http:∥string-db.org) 將篩選的DEGs進行PPI網(wǎng)絡(luò)構(gòu)建,并使用Cyto- scape 3.6.1 (http:∥www. cytoscape.org/) 軟件繪制PPI可視化網(wǎng)絡(luò)圖,然后通過CytoHubba插件篩選hub基因,以最大相關(guān)標準(maximal clique centrality,MCC)算法篩選出分數(shù)前10位DEGs基因作為本次研究的hub基因。
5.hub基因預(yù)后和表達分析:運用KaplanMeier-plotter(https:∥kmplot.com/analysis/) 基于GEO數(shù)據(jù)庫驗證hub基因的生存分析。使用GEPIA數(shù)據(jù)庫(http:∥gepia.cancer- pku.cn/detail.php)基于TCGA and GTEx data對預(yù)后相關(guān)的hub基因進行表達水平分析。
1.DEGs的分析:從GSE54129、GSE81948、GSE118916 3個數(shù)據(jù)集中分別篩選出3894、1074、1820個DEGs(圖1);取交集后獲得362個總DEGs(圖2A),其中356個DEGs有著共同的表達趨勢,包含164個上調(diào)基因(圖2B),192個下調(diào)基因(圖2C)。
圖1 反映胃癌基因芯片數(shù)據(jù)集中差異表達基因的火山圖(紅色代表上調(diào)基因,綠色代表下調(diào)基因)A.GSE54129;B.GSE81948;C.GSE118916
圖2 GSE54129、GSE81948、GSE118916中差異表達基因取交集A.總差異表達基因;B.上調(diào)差異表達基因;C.下調(diào)差異表達基因
2.DEGs在GO和KEGG中的富集分析:以P<0.05,篩選出富集程度前10位的GO功能,結(jié)果顯示DEGs組成細胞外空間、細胞外區(qū)域、細胞外基質(zhì)(extracellular matrix, ECM)、細胞外泌體和蛋白質(zhì)細胞外基質(zhì)等細胞成分,參與細胞外基質(zhì)的組織、細胞黏附和膠原蛋白分解過程等生物學(xué)過程,發(fā)揮膠原蛋白結(jié)合和細胞外基質(zhì)結(jié)構(gòu)組成的分子功能,由此可見差異表達基因GO功能富集主要在細胞外基質(zhì)和膠原蛋白(表1)。以P<0.05,篩選出富集程度前10位的KEGG信號通路分析結(jié)果,DEG主要參與的信號通路包括ECM-受體相互作用、胃酸分泌、蛋白質(zhì)的消化吸收、阿米巴病、局部黏附、瘧疾、PI3K-Akt信號通路、細胞色素P450對異生物的代謝、金黃色葡萄球菌感染和醛固酮調(diào)節(jié)鈉的重吸收(表2)。胃癌預(yù)后基因主要參與ECM-受體相互作用、蛋白質(zhì)的消化吸收、阿米巴病、PI3K-Akt信號通路和局部黏附這4條信號通路去調(diào)控胃癌的生物學(xué)過程。
表1 胃癌中差異表達基因的前10條GO功能富集分析
表2 胃癌中差異表達基因的前10條KEGG通路富集分析
3.PPI網(wǎng)絡(luò)分析與hub基因的篩選:將DEGs導(dǎo)入在線STRING數(shù)據(jù)庫構(gòu)建出PPI網(wǎng)絡(luò),并使用Cytoscape軟件可視化PPI網(wǎng)絡(luò)。該網(wǎng)絡(luò)由292個節(jié)點和1233個邊構(gòu)成,網(wǎng)絡(luò)中紅色為上調(diào)基因,綠色為下調(diào)基因(圖3A)。MCC算法篩選出COL1A1、COL3A1、FN1、MMP2、COL5A1、BGN、COL4A1、COL4A2、FBN1和COL6A3這個10個hub基因(表3),顏色越深,相關(guān)程度越高(圖3B)。
圖3 差異表達基因蛋白互作網(wǎng)絡(luò)圖(紅色表示上調(diào)基因,綠色表示下調(diào)基因)A.編碼蛋白互相作用網(wǎng)絡(luò);B.插件確認的10個hub基因
表3 胃癌基因芯片中10個hub基因表達特點
4.hub基因和胃癌預(yù)后的關(guān)系:使用KaplanMeier-plotter在線數(shù)據(jù)庫對10個hub基因進行K-M生存分析,發(fā)現(xiàn)COL1A1、COL3A1、FN1、MMP2、COL5A1、BGN、COL4A1、COL4A2和COL6A3這9個基因和胃癌生存預(yù)后相關(guān)(P<0.05,圖4),并且高表達組預(yù)后差,5年生存時間更短,低表達組預(yù)后好,5年生存時間長(P<0.05)。GEPIA數(shù)據(jù)庫對這9個hub基因進行表達水平分析發(fā)現(xiàn),與正常胃組織比較,這些基因在胃癌組織中均呈高表達水平(圖5,P<0.05)。
圖4 hub基因表達水平與胃癌患者生存時間的關(guān)系A(chǔ).COL1A1;B.COL3A1;C.FN1;D.MMP2;E.COL5A1;F.BGN;G.COL4A1;H.COL4A2;I.COL6A3
圖5 預(yù)后基因在胃癌和正常胃組織中的表達水平(紅色代表腫瘤組織,灰色代表正常組織)A.COL1A1;B.COL3A1;C.FN1;D.MMP2;E.COL5A1;F.BGN;G.COL4A1;H.COL4A2;I.COL6A3;*P<0.05
本研究通過分析從GEO數(shù)據(jù)庫下載的3個基因芯片表達數(shù)據(jù)集,共篩選出362個DEGs。之后對DEGs進行GO和KEGG富集分析,發(fā)現(xiàn)篩選的胃癌預(yù)后基因主要參與的GO 功能富集為細胞外基質(zhì)和膠原蛋白(表1),參與的KEGG信號通路富集主要在ECM-受體相互作用、蛋白質(zhì)消化吸收、阿米巴病、局部黏附和PI3K-Akt信號通路(表2)。細胞外基質(zhì)(ECM)是一種為細胞提供生化和基本結(jié)構(gòu)支持的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),在致癌過程中,ECM被重塑,膠原蛋白與層粘連蛋白和纖維連接蛋白一起作為ECM的主要成分,形成癌細胞用于生長,存活和遷移的微環(huán)境[8~11]。胃癌中ECM的作用已被證實在疾病的所有階段,從腫瘤開始到轉(zhuǎn)移[12]。膠原蛋白是腫瘤細胞外基質(zhì)的主要成分,參與腫瘤細胞外基質(zhì)(ECM)受體相互作用和局灶性黏附信號通路,在胃癌的侵襲和轉(zhuǎn)移中起著至關(guān)重要的作用[13,14]。PI3K-Akt信號通路在細胞生長、蛋白翻譯、凋亡的調(diào)控中均發(fā)揮重要作用,在胃癌中PI3K-Akt信號通路和預(yù)后相關(guān),抑制該信號通路后發(fā)現(xiàn)胃癌的生長受到限制[15~17]。局灶黏附信號通路在傳遞細胞黏附信號、調(diào)整細胞骨架重組及細胞存活和凋亡等各種重要生物學(xué)過程中起作用,參與腫瘤的生長和轉(zhuǎn)移[18,19]。
通過構(gòu)建蛋白互作網(wǎng)絡(luò),共篩出10個核心基因,通過生存分析發(fā)現(xiàn)COL5A1、COL4A1、COL4A2、COL1A1、COL3A1、COL6A1、FN1、MMP2和BGN這9個基因參與胃癌的發(fā)生,也影響其預(yù)后。已有的研究表明COL1A1、COL4A1、COL4A2、COL6A3、MMP2和FN1與胃癌預(yù)后相關(guān)[14,20,21]。但COL5A1、COL3A1和BGN與胃癌的預(yù)后關(guān)系尚不清楚。本研究發(fā)現(xiàn),COL5A1和COL3A1參與ECM-受體相互作用和PI3K-Akt信號通路。這兩條信號通路均是胃癌發(fā)生關(guān)鍵通路,前者伴隨著胃癌發(fā)生和轉(zhuǎn)移,后者與胃癌預(yù)后相關(guān)。雖然BGN與胃癌預(yù)后的關(guān)系尚未定論,但本研究發(fā)現(xiàn)該基因參與和維持細胞外基質(zhì)。因此,對于這3個基因與胃癌發(fā)病機制的關(guān)系,值得進一步研究。
COL5A1基因是編碼哺乳動物中較小的纖維膠原,關(guān)于COL5A1的研究主要集中在單核苷酸多態(tài)性、運動損傷和結(jié)締組織損傷。在癌癥研究中很少有COL5A1的研究報道,目前已有的研究表明該基因在乳腺癌、卵巢癌和腎癌中差異表達,并且被用于乳腺癌的預(yù)后監(jiān)測和診斷標志物[11]。COL3A1是Ⅲ型膠原蛋白的主要成分之一,主要在血管擴張和皮膚等結(jié)締組織中表達[22]。目前已經(jīng)研究表明COL3A1在胃癌、膀胱癌和膠質(zhì)母細胞瘤等多種癌癥中表達,且高表達顯示膀胱癌和膠質(zhì)母細胞瘤預(yù)后不佳。研究還表明COL3A1表達上調(diào)與膠質(zhì)瘤分期直接相關(guān),且表達沉默可導(dǎo)致細胞增殖和遷移的抑制[23]。
BGN是一種雙糖鏈蛋白多糖,在腫瘤組織中的異常表達提示其在腫瘤遷移和侵襲中起致癌作用。BGN不僅直接觸發(fā)促炎性TLR和炎性小體信號轉(zhuǎn)導(dǎo),而且還刺激促炎性細胞因子和ROS的產(chǎn)生,而促炎性細胞因子和ROS是癌癥炎癥和血管生成的關(guān)鍵介質(zhì)。盡管人們開始認識到BGN可能影響癌癥的發(fā)展依賴于炎癥,但BGN與胃癌壞死的關(guān)系仍有待揭示。也有相關(guān)研究表明胃癌組織中BGN表達上調(diào),提示胃癌的侵襲性將增強,預(yù)后可能不佳。目前,Guo等[24]研究發(fā)現(xiàn)雷公藤紅素(celastrol)可以降低BGN的表達,從而誘導(dǎo)胃癌細胞壞死和改善炎癥,有抑制腫瘤發(fā)展的作用,所以雷公藤紅素以BGN作為基因靶點可能作為治療胃癌的一種潛在的有效藥物。
綜上所述,本研究利用生物信息學(xué)方法篩選和分析了參與胃癌調(diào)控的差異表達基因,找到了10個胃癌核心基因。進一步分析發(fā)現(xiàn)BGN、COL3A1和COL5A1這3個基因可能成為胃癌預(yù)后的新的標志物。雖然這些基因在胃癌中參與的發(fā)病機制仍需要通過大量的基礎(chǔ)實驗和臨床研究驗證,但本研究也為胃癌的診療提供了一些新穎的預(yù)后監(jiān)測指標和靶點,也為研究胃癌的靶向治療提供了新的候選基因和理論依據(jù)。