李高勤,牛帆,蘇歡,李俊杰,宋忠陽,祁亞峰,雍文興,張志明*
(1.甘肅中醫(yī)藥大學(xué),甘肅 蘭州;2.甘肅中醫(yī)藥大學(xué)附屬醫(yī)院,甘肅 蘭州)
胃癌作為最常見的惡性腫瘤之一,據(jù)世界衛(wèi)生組織( WHO)最新報(bào)道,在全球范圍內(nèi)胃癌發(fā)病率位列第5 位,死亡率位列第3 位[1]。早發(fā)現(xiàn)、早診斷、早治療是提高胃癌患者生存時(shí)間的關(guān)鍵。隨著臨床診療方法和預(yù)后標(biāo)志物的完善,胃癌患者的早期診出率得到明顯提高,但對胃癌患者預(yù)后標(biāo)志物的研究仍存在不足。因此,應(yīng)尋找更可靠的預(yù)后標(biāo)志物,作為提高治療效果和延長患者生存時(shí)間的靶點(diǎn)?;蛐酒鳛橐环N可靠的技術(shù),經(jīng)過多年的應(yīng)用,能夠快速檢測出差異表達(dá)的基因[2]。
本研究從GEO 數(shù)據(jù)庫中篩選出GSE19826、GSE54129 和GSE79973 三個(gè)同時(shí)含有腫瘤樣本與正常樣本的數(shù)據(jù)集。利用GEO2R 在線工具和Venn 作圖軟件,獲得上述三個(gè)數(shù)據(jù)集中差異表達(dá)基因(DEGs)。然后利用DAVID 數(shù)據(jù)庫對這些DEGs 進(jìn)行分析,包括分子功能(MF)、細(xì)胞成分(CC)、生物過程(BP)與KEGG分析。接著通過STRING 在線工具建立了蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò),然后應(yīng)用MCODE(分子復(fù)合物檢測)對DEGs 進(jìn)行分析以確定其核心基因。然后,將這些核心DEGs 導(dǎo)入Kaplan-Meier Plotter 在線生存分析數(shù)據(jù)庫,以獲得顯著的預(yù)后信息(P<0.05)。采用基因表達(dá)譜交互分析(Gene Expression profiling interactive analysis GEPIA)對胃癌組織與正常胃組織間的DEGs 表達(dá)再次進(jìn)行檢測(P<0.05)。最后,產(chǎn)生四個(gè)DEGs(COL1A2,BGN,THBS2,COL1A1)。總之,本研究的生物信息學(xué)研究為胃癌患者提供了一些有用的生物預(yù)后標(biāo)記物,可以作為胃癌患者的有效靶點(diǎn)。
NCBI-GEO 是一個(gè)免費(fèi)的基因芯片/ 基因圖譜公共數(shù)據(jù)庫,我們獲得了GSE19826、GSE54129 和GSE79973 在胃癌和正常胃組織中的基因表達(dá)譜。GSE19826、GSE54129 和GSE79973 的基因芯片數(shù)據(jù)均基于GPL570 平臺([HG-U133_Plus_2]Affymetrix Human Genome U133 Plus 2.0 Array),分別包括12 個(gè)正常組織和12 個(gè)胃癌組織、21 個(gè)正常組織和111個(gè)胃癌組織、10 個(gè)正常組織和10 個(gè)胃癌組織。
用GEO2R 在線工具[3]按|logFC|>2 與P值<0.05 鑒定胃癌標(biāo)本與正常標(biāo)本之間的DEGs。然后,用VENN 軟件在線分析原始數(shù)據(jù),找出三個(gè)數(shù)據(jù)集中的共同基因。logFC<0 的DEGS 為下調(diào)基因,logFC>0 的DEGS 為上調(diào)基因。
基因本體分析(GO)是定義基因及其RNA 或蛋白質(zhì)產(chǎn)物以識別高通量轉(zhuǎn)錄組或基因組數(shù)據(jù)的獨(dú)特生物屬性的常用方法[4]。KEGG 是處理基因組、疾病、生物途徑、藥物和化學(xué)材料的在線數(shù)據(jù)庫[5]。David 是一個(gè)旨在識別大量基因或蛋白質(zhì)的功能的在線生物信息學(xué)工具[6]。我們可以使用David 可視化顯示BP、MF、CC 和通路的DEGS 富集(P<0.0 5)。
本研究通過在線工具STRING(用于檢索基因相互作用的搜索工具)[7]來繪制PPI 網(wǎng)絡(luò)。然后,應(yīng)用Cytoscape[8]中的STRING APP 來檢索這些DEG 之間的潛在相關(guān)性(最大交互作用數(shù)=0 和置信度分?jǐn)?shù)≥為0.4)。此外,Cytoscape 中的MCODE 應(yīng)用程序用于構(gòu)建PPI 網(wǎng)絡(luò)的模塊(degree cutoff=2,max. Depth=100, k-core=2, and node score cutoff=0.2)。
Kaplan Meier-Plotter[9]是一個(gè)基于EGA、TCGA 和GEO數(shù)據(jù)庫來評估基因?qū)ι娴挠绊懙木W(wǎng)站工具。為了驗(yàn)證這些設(shè)計(jì),本研究應(yīng)用GEPIA 網(wǎng)站對Kaplan Meier-Plotte 篩選的基因作二次驗(yàn)證。
本研究共有133 例胃癌組織和43 例正常組織。通過GEO2R在線工具,我們分別從GSE19826、GSE54129 和GSE79973 中提取80、768 和415DEGs。然后,利用Venn 圖軟件對三個(gè)數(shù)據(jù)集中的DEG 取交集。結(jié)果表明,共檢測到22 個(gè)DEGs,包括8 個(gè)下調(diào)基因(logFC<0;)和14 個(gè)上調(diào)基因(logFC>0;),下調(diào)基因有RDH12、AKR7A3、MFSD4A、DPCR1、VSIG1、MUC5AC、PSAPL1、RASSF6;上調(diào)基因有SULF1、FAP、INHBA、PDLIM7、SPP1、COL1A1、COL10A1、SFRP4、THBS2、BGN、COL1A2、MFAP2、ADAMTS2、COL8A1。
圖1 三組數(shù)據(jù)中有14個(gè)DEGs上調(diào)(logFC>0),8 個(gè)DEGs下調(diào)(logFC<0)
DAVID 軟件對22 個(gè)DEGs 進(jìn)行了分析,GO 分析結(jié)果表明:對于生物過程(BP),上調(diào)的DEGs 在膠原纖維組織、皮膚形態(tài)發(fā)生、蛋白質(zhì)異三聚、細(xì)胞粘附、內(nèi)皮細(xì)胞分化等方面都有顯著的富集作用;細(xì)胞組分(CC)主要富集在蛋白質(zhì)的細(xì)胞外基質(zhì)、膠原三聚體、細(xì)胞外間隙、I 型膠原三聚體、細(xì)胞表面等方面;分子功能(MF)主要集中在細(xì)胞外基質(zhì)結(jié)構(gòu)組成方面,而下調(diào)基因無顯著性富集(表1)。
KEGG 分析結(jié)果如表2 所示,結(jié)果顯示,上調(diào)的DEGs 在ECM 受體作用、局灶性粘連、PI3K-Akt 信號通路、蛋白質(zhì)消化吸收等方面尤為豐富,差異有統(tǒng)計(jì)學(xué)意義(P<0.05),而下調(diào)的DEGs 在信號通路中無明顯富集。
共有16 個(gè)DEGs 被導(dǎo)入DEGs-PPI 網(wǎng)絡(luò)復(fù)合體,其中包括16個(gè)節(jié)點(diǎn)和29 條邊,包括3 個(gè)下調(diào)基因和13 個(gè)上調(diào)基因(圖2a)。然后我們應(yīng)用MCODE 插件進(jìn)一步分析(degree cutoff = 2, node score cutoff = 0.2, k-core = 2, and max. Depth = 100),結(jié)果顯示在16 個(gè)節(jié)點(diǎn)中鑒定出5 個(gè)中心節(jié)點(diǎn),這些節(jié)點(diǎn)都是上調(diào)基因(圖2b)。
利用Kaplan-Meier Plotter(http://kmplot.com/analysis)鑒定5個(gè)核心基因存活數(shù)據(jù)。結(jié)果發(fā)現(xiàn),4 個(gè)基因的存活率明顯下降,而1 個(gè)基因的存活率則無顯著性差異(P>0.05,圖3)。然后,用GEPIA 方法檢測癌細(xì)胞與正常人之間4 個(gè)基因的表達(dá)水平。結(jié)果顯示,與正常胃粘膜樣本相比,COL1A2、BGN、THBS2、COL1A1 等4 個(gè)基因在胃癌樣本高表達(dá)(P<0.05,圖4)。
本 研 究 以GSE19826、GSE54129 和GSE79973 三 個(gè) 數(shù) 據(jù) 為基礎(chǔ),采用生物信息學(xué)方法,對胃癌的預(yù)后進(jìn)行了研究。本研究共收集了133 例胃癌標(biāo)本和43 例正常胃標(biāo)本。通過GEO2R和Venn 軟件,我們發(fā)現(xiàn)共有22 個(gè)差異表達(dá)的DEG(|LogFC|>2,并調(diào)整P 值<0.05),包括14 個(gè)上調(diào)基因(logFC>0)和8 個(gè)下調(diào)基因(logFC<0)。然后,利用DAVID 方法對基因本體和途徑富集分析表明:對于生物過程(BP),上調(diào)的DEGs 在膠原纖維組織、皮膚形態(tài)發(fā)生、蛋白質(zhì)異三聚、細(xì)胞粘附、內(nèi)皮細(xì)胞分化等方面都有顯著的富集作用;細(xì)胞組分(CC)主要富集在蛋白質(zhì)的細(xì)胞外基質(zhì)、膠原三聚體、細(xì)胞外間隙、I 型膠原三聚體、細(xì)胞表面等方面;分子功能(MF)主要集中在細(xì)胞外基質(zhì)結(jié)構(gòu)組成方面,而下調(diào)基因無顯著性富集;在通路分析中,ECM 受體作用、局灶性粘連、PI3K-Akt 信號通路、蛋白質(zhì)消化吸收上調(diào)的DEGs 尤其豐富,而下調(diào)的DEGs 則沒有顯著富集的信號通路(P>0.05)。其次,利用STRING 在線數(shù)據(jù)庫和Cytoscape 軟件構(gòu)建了16 個(gè)節(jié)點(diǎn)、29 條邊的DEGs-PPI 網(wǎng)絡(luò)復(fù)合體。然后,通過MCODE 分析從PPI 網(wǎng)絡(luò)復(fù)合體中篩選出5 個(gè)核心的上調(diào)基因。此外,通過Kaplan-Meier Plotter 分析,我們發(fā)現(xiàn)5個(gè)基因中有4 個(gè)存活率明顯下降。而通過GEPIA 在線分析發(fā)現(xiàn)這4 個(gè)基因在正常人與胃癌患者中差異表達(dá)(P<0.05)。最后得出結(jié)論,這4 個(gè)基因可作為改善胃癌患者預(yù)后的新的有效靶點(diǎn)。
表1 胃癌差異表達(dá)基因的GO 分析
表2 胃癌差異表達(dá)基因的KEGG 通路分析
圖3 Kaplan-Meier Plotter 在線分析顯示COL1A1、BGN、COL1A2、THBS2 的生存率明顯下降(P<0.05)。
圖4 GEPIA 在線分析顯示上述4 個(gè)基因在胃癌患者高度表達(dá)(*表示P<0.05)。紅色表示腫瘤組織,灰色表示正常組織。
細(xì)胞外基質(zhì)(ECM)是一個(gè)復(fù)雜的非細(xì)胞3D 網(wǎng)絡(luò),由膠原、蛋白多糖/糖胺聚糖、彈性蛋白、纖維連接蛋白、層粘連蛋白和其他幾種糖蛋白組成[10]。細(xì)胞外基質(zhì)的主要成分是膠原[11],I 型膠原存在于大多數(shù)結(jié)締組織和胚胎組織中[12]。通常,I 型膠原由I 型膠原α1 鏈(COL1A1)和一條I 型膠原α2 鏈(COL1A2)組成[13-14]。I 型膠原蛋白α1 鏈(collagen type I alpha 1chain,COL1A1),由COL1A1 基因編碼,它可以構(gòu)成膠原纖維,并且參與細(xì)胞增殖、浸潤、轉(zhuǎn)移和血管生成,與多種類型腫瘤有關(guān)[15-17]。有研究表明I 型膠原蛋白形成的交叉網(wǎng)狀結(jié)構(gòu)能夠支持卵巢癌細(xì)胞的生長[18],I 型膠原蛋白基因缺乏可促進(jìn)乳腺癌細(xì)胞轉(zhuǎn)移[19],而在腦腫瘤中I 型膠原蛋白是腫瘤微環(huán)境的重要組成部分[20]。有報(bào)道稱,COL1A2與胰腺癌[21]、顱內(nèi)動脈瘤關(guān)系密切[22],COL1A2 基因的突變與成骨不全的發(fā)生具有相關(guān)性[23]。
血小板反應(yīng)蛋白 2 (thrombospondin-2,THBS2) 屬于凝血酶敏感蛋白(THBS/TSP)家族,由5 種鈣結(jié)合的基質(zhì)細(xì)胞糖蛋白THBS1-THBS5 組成。根據(jù)寡聚狀態(tài)和結(jié)構(gòu)域結(jié)構(gòu),它們可分為三聚體蛋白和五聚體蛋白兩個(gè)亞類。THBS1 和THBS2 是三聚體蛋白,而其他的是五聚體蛋白[24]。THBS2 與各種細(xì)胞表面受體、生長因子、細(xì)胞因子和蛋白酶相互作用,調(diào)節(jié)細(xì)胞-基質(zhì)粘附、運(yùn)動、趨化、傷口愈合、血管抑制等[25]。它主要通過抑制血管生成和負(fù)調(diào)控MMP-2 和MMP-9 參與腫瘤的發(fā)生[26]。在前列腺癌組織和細(xì)胞系中觀察到THBS2基因下調(diào)[27]。在Chijiwa 等人的研究中,肺腺癌的THBS2 轉(zhuǎn)錄水平反而顯著高于正常肺組織(P<0.0001)[28]。
雙鏈蛋白聚糖(biglycan,BGN)是一種細(xì)胞外基質(zhì)(extracellular matrix ECM)蛋白,屬于富含亮氨酸的小蛋白聚糖家族[29]。BGN在人體幾乎每個(gè)器官中都有發(fā)現(xiàn),但在每個(gè)器官中分布并不均勻。BGN 在細(xì)胞表面表達(dá),有時(shí)在一系列特殊細(xì)胞類型的細(xì)胞外基質(zhì)中表達(dá)[30]。最近的研究表明,與鄰近的正常組織相比,BGN 在腫瘤組織中的表達(dá)顯著增高,包括子宮內(nèi)膜癌、胰腺癌、結(jié)腸癌和腫瘤血管以及食管鱗狀細(xì)胞癌[31-35]。BGN 在腫瘤組織中的異常表達(dá)提示BGN 在腫瘤的發(fā)生、發(fā)展中具有重要意義。
圖2 a.PPI 網(wǎng)絡(luò)中共有16 個(gè)DEGs;b.MCODE 插件獲得5 個(gè)核心基因
綜上所述,本研究通過生物信息學(xué)分析研究基于三個(gè)微陣列數(shù)據(jù)集,在胃癌組織和正常胃組織之間鑒定出四個(gè)DEGs(COL1A2,BGN,THBS2,COL1A1)。這些差異基因在胃癌組織高度表達(dá),且與胃癌患者不良預(yù)后具有密切關(guān)系,因此表明,這4 個(gè)基因可能在胃癌的發(fā)生發(fā)展中起關(guān)鍵作用。這些數(shù)據(jù)可能會為研究胃癌的潛在生物標(biāo)志物和生物學(xué)機(jī)制提供一些有用的信息和方向。