董金鳳 鄭華川
承德醫(yī)學(xué)院附屬醫(yī)院中心實驗室,河北省承德市 067000
胃癌是全球最常見和癌癥致死率最高的疾病之一。尋找胃癌生物標(biāo)志物對早期胃癌患者的確診、預(yù)后改善和生存率的提高具有重要意義[1]。 近年來,微陣列技術(shù)和生物信息學(xué)分析被廣泛應(yīng)用于尋找腫瘤診斷、治療及預(yù)后的生物標(biāo)志物[2]。本研究從GEO數(shù)據(jù)庫下載GSE79973和GSE103236兩數(shù)據(jù)集以獲得胃癌組織和鄰近非癌組織的差異表達基因(Differentially expressed genes,DEGs),并進行分析。報道如下。
1.1 下載數(shù)據(jù)集 從GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo)下載胃癌的基因表達譜數(shù)據(jù)集GSE79973和GSE103236。GSE79973數(shù)據(jù)集包含10個胃癌組織樣本和10個匹配的鄰近非腫瘤組織樣本;GSE103236數(shù)據(jù)集包含10個胃癌組織樣本和9個匹配的鄰近非腫瘤組織樣本。
1.2 篩選差異基因 通過GEO2R在線工具分析兩數(shù)據(jù)集中胃癌樣本和鄰近非癌組織樣本的DEGs,adj.P<0.05和|logFC|>1被作為識別DEGs的標(biāo)準(zhǔn),并將uDEGs定義為上調(diào)基因(up-regulated DEGs),dDEGs定義為下調(diào)基因(down-regulated DEGs),并使用仙桃在線數(shù)據(jù)平臺(https://www.xiantao.love)繪制火山圖。然后,通過維恩圖在線工具(https://www.bioinformatics.com.cn)識別兩個數(shù)據(jù)集之間重疊的DEGs,并繪制維恩圖。
1.3 GO和KEGG富集分析 為更好地探索兩數(shù)據(jù)集重疊DEGs的生物學(xué)意義,通過仙桃在線數(shù)據(jù)平臺進行GO和KEGG富集分析。GO主要用于識別生物學(xué)功能, KEGG主要用于富集信號通路。
1.4 構(gòu)建PPI網(wǎng)絡(luò)和篩選hub基因 將兩個數(shù)據(jù)集之間重疊的DEGs導(dǎo)入STRING在線工具(https://string-db.org)獲得重疊 DEGs編碼蛋白的PPI網(wǎng)絡(luò),“minimum required interaction score”為“medium confidence (0.4)”被作為限制條件。通過 Cytoscape 軟件(3.9.1版)可視化DEGs基因的PPI網(wǎng)絡(luò),cytoHubba插件篩選PPI網(wǎng)絡(luò)中連接度前十的hub基因。
1.5 hub基因的表達差異分析和生存分析,以及ROC曲線分析 使用GEPIA數(shù)據(jù)平臺(http://gepia.cancer-pku.cn)的TCGA-GTEx數(shù)據(jù)庫分析hub基因在胃癌樣本和鄰近非癌樣本的表達差異。利用仙桃在線數(shù)據(jù)平臺的TCGA在線數(shù)據(jù)庫繪制hub基因的ROC曲線。最后,通過Kaplan-Meier Plotter在線數(shù)據(jù)平臺(http://kmplot.com/analysis)繪制hub基因的總體生存率(Overall survival,OS)生存曲線。
2.1 差異基因的識別 在GSE79973數(shù)據(jù)集中,487個基因被上調(diào),919個基因被下調(diào)(見圖1a)。在GSE103236數(shù)據(jù)集中,331個基因被上調(diào),170個基因被下調(diào)(見圖1b)。兩數(shù)據(jù)集重疊的DEGs有156個,其中包括98個上調(diào)基因和58個下調(diào)基因(見圖1c)。
圖1 兩數(shù)據(jù)集DEGs的篩選與識別
2.2 重疊DEGs的GO和KEGG富集分析 為進一步探索重疊DEGs在胃癌中的生物學(xué)功能,我們通過仙桃在線數(shù)據(jù)平臺對重疊DEGs進行GO和KEGG富集分析。uDEGs的GO分析主要富集在細(xì)胞外結(jié)構(gòu)組織、細(xì)胞外基質(zhì)組織、膠原蛋白纖維組織、含膠原蛋白的細(xì)胞外基質(zhì)、內(nèi)質(zhì)網(wǎng)腔、膠原蛋白三聚體、細(xì)胞外基質(zhì)結(jié)構(gòu)成分、膠原蛋白結(jié)合、賦予拉伸強度細(xì)胞外基質(zhì)結(jié)構(gòu)成分(見圖2a)。KEGG分析主要富集在蛋白質(zhì)消化和吸收、細(xì)胞外基質(zhì)受體相互作用(見圖2a)。而dDEGs的GO分析主要富集在細(xì)胞二價無機陽離子穩(wěn)定、肌肉系統(tǒng)過程、脂質(zhì)定位、肌肉收縮、p型離子轉(zhuǎn)運體活性、焦磷酸水解驅(qū)動的質(zhì)子跨膜轉(zhuǎn)運體活性、兒茶酚胺結(jié)合、膽汁酸結(jié)合(見圖2b)。dDEGs的KEGG分析主要富集在鈣信號通路、胃酸分泌、組氨酸代謝(見圖2b)。
a b
2.3 構(gòu)建PPI網(wǎng)絡(luò)和篩選hub基因 為了解兩數(shù)據(jù)集重疊DEGs編碼蛋白之間的關(guān)系,利用STRING在線工具構(gòu)建重疊DEGs的PPI網(wǎng)絡(luò),并通過Cytoscape軟件可視化(見圖3a)。使用Cytohubba插件識別PPI網(wǎng)絡(luò)中連接度前十的hub基因,分別是COL1A1、BGN、SPARC、MMP14、LOX、THBS2、TIMP1、SPP1、VCAN、COL5A2(見圖3b),且這10個hub基因均為uDEGs。
2.4 胃癌組織中hub基因的表達分析 我們使用GEPIA數(shù)據(jù)平臺的TCGA-GTEx數(shù)據(jù)庫進一步分析了胃癌組織中10個hub基因的mRNA表達水平。結(jié)果顯示,這些基因在胃癌組織中的表達水平均顯著高于胃正常組織(P<0.01),見圖4。
a b
圖4 hub基因在胃癌組織中高表達
2.5 評價hub基因的診斷價值 通過仙桃在線數(shù)據(jù)平臺的在線TCGA數(shù)據(jù)庫繪制ROC曲線評價hub基因?qū)ξ赴┑脑\斷價值(見圖5)。結(jié)果顯示,10個hub基因的AUC 均>0.84,均具有一定診斷價值,其中COL1A1、BGN、TIMP1、SPP1、COL5A2>0.9,診斷價值較高。
圖5 hub基因的ROC曲線
2.6 生存分析 為了評估hub基因在胃癌的預(yù)后價值,我們通過Kaplan-Meier Plotter在線數(shù)據(jù)平臺進一步繪制了OS生存曲線(見圖6)。表明10個hub基因均與較差的總體生存率顯著相關(guān) (P<0.01),提示這些基因可能是胃癌預(yù)后不良的生物標(biāo)志物。
胃癌是全球腫瘤死亡的最常見原因之一。早期胃癌可以通過手術(shù)根治性切除,腫瘤生物標(biāo)志物可為早期診斷提供診斷依據(jù),并為分子治療提供靶點[1,3]。
本研究通過生物信息學(xué)方法篩選胃癌的生物學(xué)標(biāo)志物。我們分析了GSE79973和GSE103236兩數(shù)據(jù)集重疊的DEGs,其中uDEGs的GO分析主要與細(xì)胞外基質(zhì)及膠原蛋白相關(guān)。細(xì)胞外基質(zhì)由膠原蛋白、纖連蛋白、彈性蛋白、層粘連蛋白、透明質(zhì)酸、糖胺聚糖等多種成分組成[4]。在正常組織和器官中細(xì)胞外基質(zhì)不僅可以發(fā)揮物理支架的作用和介導(dǎo)信號的轉(zhuǎn)導(dǎo),還可參與細(xì)胞形狀、遷移、存活、增殖等多種細(xì)胞生物學(xué)行為的調(diào)節(jié)[5]。當(dāng)細(xì)胞外基質(zhì)的硬度和剛度發(fā)生病理變化時,可通過本身的物理性質(zhì)和信號通路的激活促進惡性腫瘤細(xì)胞增殖、轉(zhuǎn)移和血管生成的能力,并降低放化療及靶向治療的療效[4]。膠原蛋白是細(xì)胞外基質(zhì)的主要成分,與器官組織的纖維化、細(xì)胞外基質(zhì)硬度增加、促進血管生成和引導(dǎo)腫瘤細(xì)胞的遷移和侵襲密切相關(guān)[6]。uDEGs的KEGG富集分析顯示與細(xì)胞外基質(zhì)受體相互作用有關(guān)。我們通過STRING在線工具和Cytoscape軟件從兩數(shù)據(jù)集重疊的DEGs中識別的10個hub基因均為uDEGs,提示這些基因可能與細(xì)胞外基質(zhì)成分及其生物學(xué)行為密切相關(guān)。據(jù)報道,細(xì)胞外基質(zhì)在正常胃上皮細(xì)胞—癌前病變—胃癌—胃癌進展整個過程均具有促進作用,是胃癌發(fā)生和發(fā)展的幫兇[7]。利用GEPIA、仙桃、Kaplan-Meier Plotter在線數(shù)據(jù)平臺分析表明,hub基因在胃癌組織中均顯著上調(diào)(P<0.01),具有一定診斷價值(AUC>0.84),并預(yù)示其預(yù)后不良 (P<0.01)。因此,這10個hub基因可能是診斷胃癌和判斷預(yù)后的潛在生物標(biāo)志物。
研究表明,COL1A1和COL5A2作為膠原蛋白的組成成分在胃癌組織中均高表達,對胃癌細(xì)胞的遷移和侵襲有促進作用[8-9]。BGN是一種富含亮氨酸的小蛋白,其高表達與胃癌的淋巴結(jié)轉(zhuǎn)移、血管侵犯、復(fù)發(fā)率及較差的生存期密切相關(guān)[10]。SPARC是一種糖蛋白,在胃癌中高表達,與預(yù)后不良顯著相關(guān)[11]。然而,有研究顯示SPARC在胃癌中具有抑癌作用,抑制胃癌血管生成、增殖及遷移、侵襲及遠(yuǎn)處轉(zhuǎn)移的能力[12]?;|(zhì)金屬蛋白酶是細(xì)胞外基質(zhì)的蛋白水解酶,除了在侵襲和轉(zhuǎn)移中起重要作用,還參與細(xì)胞的生長、增殖、凋亡及腫瘤血管生成和免疫逃逸的調(diào)節(jié)[13]。MMP14是基質(zhì)金屬蛋白酶家族成員,可通過調(diào)控細(xì)胞的增殖、侵襲、遷移和凋亡調(diào)節(jié)胃癌細(xì)胞的生長[14]。LOX是一種銅依賴性單胺氧化酶,在彌漫型胃癌細(xì)胞中高表達,與胃癌遠(yuǎn)處轉(zhuǎn)移相關(guān)[15]。THBS2是血小板反應(yīng)蛋白家族成員,在胃癌組織中表達上調(diào),其表達下調(diào)對胃癌細(xì)胞的增殖、遷移和侵襲有抑制作用,對凋亡有促進作用[16]。TIMP-1是一種金屬蛋白酶抑制劑,據(jù)報道TIMP-1陽性患者的復(fù)發(fā)率明顯高于陰性患者,并且是不良預(yù)后的標(biāo)志物[17]。SPP1(也稱骨橋蛋白)是一種基質(zhì)糖蛋白,在胃癌組織中顯著高表達,其在血漿中的表達水平與胃癌向鄰近組織的浸潤和轉(zhuǎn)移,以及預(yù)后不良密切相關(guān)[18]。VCAN是一種蛋白多糖,參與細(xì)胞外基質(zhì)的組成,其高表達與晚期TNM分期、淋巴結(jié)轉(zhuǎn)移、浸潤深度和腫瘤分級相關(guān),對胃癌細(xì)胞的增殖、遷移和侵襲具有促進作用[19]。因此,我們篩選出的10個hub基因均與胃癌的發(fā)生發(fā)展密切相關(guān)。
綜上所述,本研究應(yīng)用生物信息學(xué)方法從胃癌基因表達譜數(shù)據(jù)集中篩選的10個hub基因COL1A1、BGN、SPARC、MMP14、LOX、THBS2、TIMP1、SPP1、VCAN、COL5A2在胃癌中高表達,與胃癌的生物學(xué)行為及不良預(yù)后密切相關(guān),可能是胃癌診斷和預(yù)后不良的潛在生物標(biāo)志物。