李淑怡 黃玉珍 藍秀萬
廣西醫(yī)科大學基礎醫(yī)學院(南寧 530021)
乳腺癌是全球第二大常見癌癥,也是我國第二位最常見的惡性腫瘤[1]。乳腺癌是一種復雜的、表型多樣性的疾病,發(fā)病機制仍有很多未知,迫切需要更多的遺傳信息來提供診斷和治療參考。此外,基于Bretthauer M[2]的研究表明,提早發(fā)現(xiàn)惡性腫瘤從而改變可控的致癌因素可以通過早期篩查來實現(xiàn),普及早期篩查可以降低患者死亡率。因此,尋找乳腺癌新的生物標志物和治療靶點已成為趨勢。近年來,各國學者發(fā)布大量癌癥高通量測序數(shù)據(jù),生物信息學方法能夠克服以上測序數(shù)據(jù)由于不同技術平臺或小樣本分析帶來的局限性,從而發(fā)現(xiàn)了大量有價值的生物信息[3]。本研究旨在從生物信息學角度識別與乳腺癌發(fā)病和預后相關的關鍵基因,為其篩查,診斷和治療提供新的候選靶點。
1.1 數(shù)據(jù)獲取
基因綜合表達數(shù)據(jù)庫(GEO,http://www.ncbi.nlm.nih.gov/geo)是一個公共的功能基因組學數(shù)據(jù)存儲庫,包含了大量的芯片、微陣列和基因表達數(shù)據(jù)。我們從GEO數(shù)據(jù)庫中下載了三個基因表達數(shù)據(jù)集(GSE36295、GSE71053、GSE86374)。根據(jù)平臺中的注釋信息,將探針轉化為相應的基因符號。GSE36295數(shù)據(jù)集包含45例乳腺癌組織樣本和5例非癌組織樣本。GSE71053包含6例乳腺癌樣本和12例非癌樣本。GSE86374包含124例乳腺癌樣本和35例非癌樣本。
1.2 差異基因的篩選
利用基于R語言Biobase, GEOquery, limma工具包運作的GEO2R(http://www.ncbi.nlm.nih.gov/geo/geo2r)篩選乳腺癌與非癌組織間的差異基因(differentially expressed genes,DEGs)。GEO2R是一個交互式的在線工具,它可以用來比較GEO中的兩個或多個數(shù)據(jù)集,以便識別差異基因。校正后的P值(adj.P)和Benjamini和Hochberg偽發(fā)現(xiàn)率可以為發(fā)現(xiàn)有統(tǒng)計學意義的基因和限制假陽性之間提供平衡,移除不具有相應基因符號的探針集并將多探針集對應的基因數(shù)據(jù)取平均值。|log2FC(fold change)|≥1、adj.P值<0.01具有統(tǒng)計學意義。共篩選出95個DEGs,使用bioin-formatics(http://bioinformatics.psb.ugent.be/webtools/Venn/)在線數(shù)據(jù)庫進行DEGs的維恩圖制作。
1.3 PPI網(wǎng)絡構建與模塊分析
利用互作基因檢索工具STRING數(shù)據(jù)庫(http://string-db.org)構建蛋白質(zhì)相互作用網(wǎng)絡(PPI),之后使用Cytoscape(3.8.0版本)進一步繪制PPI網(wǎng)絡。Cytoscape是一個用于可視化分子相互作用網(wǎng)絡的開源生物信息學軟件平臺。使用軟件中基于最大團中心性(maximal clique centrality, MCC)算法的cytoHubba插件對所有DEGs進行篩選,并根據(jù)Degree進行排序,篩選出排名前十的基因作為核心(Hub)基因。MCODE是一款基于拓撲分析對給定網(wǎng)絡進行聚類的插件,使用MCODE識別PPI網(wǎng)絡中最重要的模塊。選擇標準:MCODE評分>10,degree cut=2, node score cut=0.2, Max depth=100, k-score=2。
1.4 基因本體(GO)和京都基因和基因組百科全書(KEGG)富集分析
DAVID數(shù)據(jù)庫(The Database for Annotation, Visualization and Integrated Discovery, https://david.ncifcrf.gov/)是一個集生物數(shù)據(jù)和分析工具于一體的在線生物信息庫,GO可對基因進行注釋及富集分析,以研究基因的生物功能,包括生物過程(BP)、分子功能(MF)和細胞成分(CC)。KEGG是一個數(shù)據(jù)庫資源,用于高通量實驗中獲取的大規(guī)模分子數(shù)據(jù),集中理解其高級功能和生物系統(tǒng),可用于通路分析。使用DAVID對95個DEGs和10個Hub基因進行KEGG和GO分析。P<0.05存在顯著性差異。
1.5 Hub基因的驗證
用GEPIA(http://GEPIA.cancer-pku.cn/)對Hub基因進行進一步驗證與生存分析。GEPIA是基于癌癥基因組圖譜(TCGA)和基因型組織表達(GTEx)數(shù)據(jù)庫的網(wǎng)站工具,通過對腫瘤和正常數(shù)據(jù)進行基因表達分析,將結果繪制成箱線圖。應用生存曲線庫(K-Mplotter,https://kmplot.com/)分析腫瘤中Hub基因與死亡時間的關系。利用在線數(shù)據(jù)庫Oncomine(https://www.oncomine.org/)對某些基因在不同腫瘤類型中的表達情況以及在乳腺癌各個研究中的結果進行分析。
2.1 差異基因
在GEO數(shù)據(jù)庫中選取的3個(GSE36295、GSE71053、GSE86374)包含乳腺癌及正常肺組織基因芯片的數(shù)據(jù)集共計227例樣本被納入本項研究,并對其中175例乳腺癌和52例正常肺組織進行了分析,共篩選出95個DEGs(62個上調(diào)基因及33個上調(diào)基因),見圖1。
圖1 維恩圖
2.2 PPI網(wǎng)絡及Hub基因篩選
在STARING數(shù)據(jù)庫基礎上,通過Cytoscape 軟件構建 PPI 網(wǎng)絡(圖2)。應用cytoHubba模塊篩選出分值最高的前十個基因作為Hub基因:CENPF、KIF2C、TOP2A、NUSAP1、HMMR、MELK、KIF4A、ASPM、CEP55、CCNB1。應用MCODE插件共檢測到2個評分>10的模塊,將第一個模塊作為最顯著模塊(圖3),最顯著模塊中共有46個節(jié)點和1 007條連線。
圖2 PPI網(wǎng)絡結構圖,紅色為上調(diào)基因,藍色為下調(diào)基因
圖3 最顯著模塊
2.3 DEGs與Hubgenes的生物學注釋
如圖4所示,為了進一步了解差異基因的功能,應用DAVID數(shù)據(jù)庫進行GO與KEGG富集分析,以P<0.05為篩選條件,選取富集顯著性排序前5的GO和KEGG通路作圖。結果表明:僅上調(diào)的DEGS有統(tǒng)計學意義,上調(diào)的DEGs的GO生物學過程(BP)主要富集在M期、有絲分裂、核分裂、細胞器分裂等。GO細胞組分(CC)主要富集在紡錘體、微管、細胞骨架、著絲粒等。GO分子功能(MF)主要富集在腺苷酸結合、嘌呤核苷結合、微管運動活性、ATP結合等。Hub基因全部為上調(diào)基因,GO富集分析結果如表1,主要集中在有絲分裂、細胞周期和無膜細胞器等過程。
圖4 DEGs的GO富集分析
2.4 DEGs的KEGG信號通路
DEGs的KEGG通路富集有四條:卵母細胞減數(shù)分裂、細胞周期、p53信號通路和孕酮介導的卵母細胞成熟通路。結果如圖5。
圖5 DEGs的KEGG富集分析
表1 Hub基因的GO富集分析
2.5 數(shù)據(jù)驗證
通過GEPIA數(shù)據(jù)庫分析,相較正常組織,CENPF、KIF2C、TOP2A、NUSAP1、HMMR、MELK、KIF4A、ASPM、CEP55、CCNB1均在乳腺癌中高表達(圖6)。
圖6 Hub基因在乳腺癌中的表達情況
2.6 CENPF與KIF2C在各類癌種中的表達情況
采用Oncomine數(shù)據(jù)庫分析cytoscape插件計算得到的Hub基因中分值最高的兩個基因:CENPF與KIF2C在各癌種中的表達情況,其中97項研究提示CNEPF表達增高,9項提示表達降低。85項研究提示KIF2C表達增高,10項提示表達降低(圖7)。
圖7 CENPF與KIF2C在多類癌種中的表達差異情況
圖9 Hub基因表達量對乳腺癌患者預后影響
2.7 CENPF與KIF2C在乳腺癌中的表達情況
通過Oncomine中Curtis[4]和Xiao-Jun Ma[5]的研究成果進行Meta分析,結果提示:與正常組織相比,CENPF與KIF2C均在乳腺癌組織中表達量升高,差異有統(tǒng)計學意義(P<0.05),見圖8。
圖8 CENPF與KIF2C在乳腺癌中的總體表達情況
2.8 Hub基因與預后的關系
本研究采用K-M Plotter評價10個Hub基因的預后價值,分析結果(圖9)顯示,10個基因均與乳腺癌的總體生存率相關,差異有統(tǒng)計學意義(P<0.05);高表達組生存時間更短。
在全球范圍內(nèi),乳腺癌是女性最常見的腫瘤[6]。中國每年新發(fā)乳腺癌26.9萬例,死亡7.0萬例,中位年齡為50歲,同時乳腺癌也是導致45歲以下女性死亡的最常見原因[7]。本研究采用生物信息學方法為今后進一步探討乳腺癌發(fā)生和發(fā)展的潛在分子機制提供靶點。本研究共篩選出95個差異基因,其中33個下調(diào)基因,62個上調(diào)基因,構建PPI網(wǎng)絡,并結合GO和KEGG富集分析用于探索DEGs之間的相互作用。上調(diào)基因GO主要富集于M期、有絲分裂、紡錘體和ATP結合等過程中,KEGG主要集中在卵母細胞減數(shù)分裂、細胞周期、p53信號通路和孕酮介導的卵母細胞成熟通路中。有研究表明,在腫瘤的發(fā)生、發(fā)展中,細胞周期過程和有絲分裂細胞周期的失調(diào)起著重要作用[8]。這與我們的結果是一致的。
通過Cytoscape軟件篩選出10個過表達Hub基因 :CENPF、KIF2C、TOP2A、NUSAP1、HMMR、MELK、KIF4A、ASPM、CEP55、CCNB1。其中CENPF和KIF2C是通過Cytoscape插件計算分值最高的兩個基因。CENPF是一種細胞周期相關的核抗原,在G0/G1細胞中低水平表達,在S期積聚在核基質(zhì)中,在G2/M細胞中表達量最大。有研究表明,CENPF在多種人類惡性腫瘤中被鑒定為細胞增殖的標志物,且其高表達有助于肝癌細胞的增殖[9]。
KIF2C是有絲分裂著絲粒相關的運動蛋白。它參與微管分解、雙極紡錘體形成和染色體分離,以調(diào)節(jié)有絲分裂和細胞周期,對正常紡錘體組裝并修復微管和染色體異常具有重要意義[10]。因此,在理論上,KIF2C的異常表達可能在腫瘤的發(fā)生發(fā)展中起重要作用。有研究表明KIF2C蛋白在舌癌組織中的表達明顯高于癌旁組織,且KIF2C的高表達與淋巴結轉移和腫瘤分期有關[11]。結合我們研究發(fā)現(xiàn)KIF2C高表達患者生存時間更短(圖9)。KIF2C的過度表達極有可能促進乳腺癌的發(fā)展。
TOP2A位于人表皮生長因子受體2(HER2)擴增子下游的一個單獨的擴增子中。研究發(fā)現(xiàn)TOP2A拷貝數(shù)的改變與激素受體(HR)和HER2狀態(tài)密切相關,但TOP2A作為預后指標的價值可能有限[12]。NUSAP1(核仁和紡錘體相關蛋白1)通過促進微管的聚集來控制細胞周期,在紡錘體的組裝和形成中起著重要作用。Xi Zhang等人[13]發(fā)現(xiàn)NUSAP1表達下調(diào)可以抑制浸潤性細胞癌的增殖、遷移和侵襲,增加癌細胞對阿霉素(E-ADM)的敏感性。Huizhong Zhang等人[14]證明HMMR(透明質(zhì)酸介導的運動受體)激活TGF-b/Smad2信號誘導上皮-間質(zhì)轉化通路,揭示了HMMR在胃癌化療耐藥中的重要作用,并提示HMMR可能是該病的潛在預后標志物或治療靶點。MELK被認為是多種癌癥類型的癌癥依賴和潛在的藥物靶點,在這些癌癥中過表達,并且MELK的高表達與患者預后不良有關[15]。KIF4A在多種細胞過程中起重要作用,主要包括染色體凝聚和分離、中紡錘體形成和有絲分裂過程中的胞質(zhì)分裂。KIF4A在多類腫瘤的發(fā)生發(fā)展中起著重要的作用,有實驗推測KIF4A可能是乳腺癌強有力的預后預測因子,且靶向KIF4A活性可能是乳腺癌治療的一個有前景的治療選擇[16]。CEP55已被證明在多種癌細胞系模型中調(diào)節(jié)細胞增殖、遷移和侵襲。Jeffery J等人[17]發(fā)現(xiàn)CEP55是絲裂原活化蛋白激酶(MAPK)MYC信號傳導的下游效應器。CCNB1(又稱CyclinB1)屬于高度保守的細胞周期蛋白家族,在各種癌癥中都有顯著的高表達。有報道稱,CCNB1可能參與上皮-間質(zhì)轉化(EMT)和轉移的過程[18]。
總之,本研究旨在通過整合多個基因芯片數(shù)據(jù)篩選了可能參與肝癌的發(fā)生或發(fā)展的95個DEGs和10個Hub基因,可作為乳腺癌的診斷和預后標志物。但這些基因在乳腺癌中的生物學功能尚需進一步研究。