金 敏 王思月 王 淞 張雪梅 張 志
華北理工大學(xué)附屬唐山工人醫(yī)院腫瘤科 河北唐山 063000;①華北理工大學(xué)公共衛(wèi)生學(xué)院;②華北理工大學(xué)附屬唐山工人醫(yī)院外科;③華北理工大學(xué)生命科學(xué)學(xué)院
肝細(xì)胞癌HCC(Hepatocellular Carcinoma)是世界范圍內(nèi)常見的惡性腫瘤,發(fā)病率呈上升趨勢[1],因其高死亡率成為癌癥相關(guān)死亡原因的第4位[2]。肝癌患者早期大多無明顯不適,由于癥狀出現(xiàn)較晚,只有不到20%的患者可接受根治性切除或移植[3]。肝癌患者就診時多為中晚期,治療方法有限且復(fù)發(fā)率高[4],這些因素都導(dǎo)致肝癌患者生存期短,生活質(zhì)量下降。肝癌是一種復(fù)雜的、異質(zhì)性很強的惡性腫瘤,其發(fā)生發(fā)展機制尚未完全清楚,臨床上仍然缺乏與患者預(yù)后相關(guān)的生物標(biāo)志物[5-6]。因此,探尋肝細(xì)胞肝癌特異性的生物標(biāo)記物和治療靶點是急需解決的難題之一。
近年來, 高通量基因芯片和測序技術(shù)作為基因表達(dá)分析的工具, 已被廣泛用于識別腫瘤發(fā)生過程中遺傳信息的改變, GEO (Gene Expression Omnibus)數(shù)據(jù)庫中有著豐富的腫瘤相關(guān)基因組和基因表達(dá)譜, 為研究肝細(xì)胞癌基因表達(dá)情況及發(fā)現(xiàn)關(guān)鍵基因的變化規(guī)律提供了基礎(chǔ)[7]。本研究基于GEO數(shù)據(jù)庫獲取肝癌基因芯片的數(shù)據(jù),對肝癌生存預(yù)后進(jìn)行生物信息學(xué)分析,初步探索肝癌潛在的治療靶點及信號通路,或能為肝癌的早期篩查、診斷和治療提供新的思路。
1.1基因檢索 在美國國立生物技術(shù)信息中心NCBI(https://www.ncbi.nlm.nih.gov/)的GEO (https://www.ncbi.nlm.nih.gov/geo/) 數(shù)據(jù)庫中檢索肝癌組織芯片數(shù)據(jù),最終選用GSE12520與肝癌相關(guān)的mRNA芯片數(shù)據(jù),該數(shù)據(jù)平臺分別是GPL571 (Affymetrix Human Genome U133A 2.0 Array)和GPL3921(Affymetrix HT Human Genome U133A Array),包括205例肝細(xì)胞癌組織和283例正常肝組織的芯片數(shù)據(jù)。
1.2肝癌差異表達(dá)基因的篩選 用R語言軟件讀取下載矩陣文件,使用R語言“Affy”程序包對上述芯片的原始數(shù)據(jù)進(jìn)行過濾和標(biāo)準(zhǔn)化處理,使用“l(fā)imma”包[8]對兩個平臺數(shù)據(jù)中正常癌旁組織和肝癌組織進(jìn)行分析,分別得到差異表達(dá)基因(differentially expressed genes,DEGs)。DEGs篩選標(biāo)準(zhǔn):(|log2FC|>1,P<0.05)。并且將2個數(shù)據(jù)集中表達(dá)上調(diào)或下調(diào)的基因分別取交集,篩選出共同表達(dá)上調(diào)或下調(diào)的基因作為進(jìn)一步分析的對象;通過Venn作圖工具(http://bioinformatics.psb.ugent.be/webtools/venn/)挑選出兩組表達(dá)譜數(shù)據(jù)中共有的差異表達(dá)基因。
1.3DEGs的功能和途徑富集分析 通過DAVID(the Database for Annotation, Visualization and Integrated Discovery, https://david.ncifcrf.gov/) 數(shù)據(jù)庫[9]對DEGs行基因本體論(Gene Ontology,GO) 和KEGG (Kyoto Encyclopedia of Genes and Genomes) 信號通路分析,得到DEGs的生物學(xué)過程分析結(jié)果和KEGG信號通路分析結(jié)果,P<0.05為差異有統(tǒng)計學(xué)意義。
1.4PPI網(wǎng)絡(luò)中核心模塊的選擇和關(guān)鍵基因的識別 我們使用STRING(Search Tool for the Retrieval of Interacting Genes, http://www.string-db.org/)數(shù)據(jù)庫評估蛋白-蛋白相互作用PPI(Protein Proteininteraction),以得分大于0.4作為標(biāo)準(zhǔn)。將進(jìn)一步篩選得到的基因輸入Cytoscape 3.7.2開源平臺對PPI網(wǎng)絡(luò)進(jìn)行可視化分析。使用Cytoscape中的分子復(fù)合物檢測算法MCODE(Molecular Complex Detection)在PPI網(wǎng)絡(luò)中找到核心基因簇,標(biāo)準(zhǔn)為(degree cutoff=2,node score cutoff=0.2,k-core=2, max depth=100)[10]。我們使用cytoHubba插件(http://hub.iis.sinica.edu.tw/cytohubba/)采用度的算法鑒定關(guān)鍵基因,將度≥35的基因在網(wǎng)絡(luò)模塊中鑒定為關(guān)鍵基因。
1.5關(guān)鍵基因的驗證 GEPIA(Gene Expression Profiling Interactive Analysis, http://gepia.cancer-pku.cn/)是一個交互式在線網(wǎng)站,可以分析來自TCGA和GTEx的9736個腫瘤和8587個正常樣本的RNA測序表達(dá)數(shù)據(jù)。使用GEPIA在線工具分析HCC和正常肝組織中這些hub基因的mRNA表達(dá)水平。
KM-plotter(Kaplan Meier plotter, http://kmplot.com/analysis/)是一個在線工具,可以評估5萬個基因?qū)?1種癌癥類型生存率的影響。我們使用Kaplan-Meier mRNA肝癌數(shù)據(jù)庫來評估HCC患者h(yuǎn)ub基因的預(yù)后分析。對于每個基因,根據(jù)mRNA表達(dá)高低的中位數(shù)將患者分為兩組。采用對數(shù)秩檢驗來確定兩組間差異的顯著性,計算危險比(HR)來評估基因表達(dá)與生存之間的關(guān)系。
UALCAN(http://ualcan.path.uab.edu/analysis.html)提供了基于組學(xué)數(shù)據(jù)(TCGA和MET500)的分析。在本研究中,我們通過UALCAN的“表達(dá)分析”模塊獲得了hub基因的腫瘤分級和個體癌癥分期的分析數(shù)據(jù)。
人類蛋白質(zhì)圖譜HAP(https://www.prote inatlas.org)是一個開放數(shù)據(jù)庫,供工業(yè)和學(xué)術(shù)界的科學(xué)家自由獲取人類蛋白質(zhì)組研究的數(shù)據(jù)。使用HAP在線數(shù)據(jù)庫分析具有明顯預(yù)后價值的關(guān)鍵基因的免疫組化結(jié)果。
使用Metascape(http://metascape.org/)進(jìn)行功能富集分析。P值是基于累積超幾何分布計算的,而q值是使用Banjamini-Hochberg程序計算的。在對富集項進(jìn)行層次聚類時,使用Kappa分?jǐn)?shù)作為相似性度量,將相似度>0.3的子樹視為一個聚類。選擇最具有統(tǒng)計學(xué)意義的一個聚類項來表示該聚類。對于6個關(guān)鍵基因,使用以下數(shù)據(jù)庫進(jìn)行蛋白-蛋白相互作用富集分析:BioGrid[11]、InWeb_IM[12]、OmniPath[13]。采用分子復(fù)雜檢測(MCODE)算法對密集連接的網(wǎng)絡(luò)構(gòu)件進(jìn)行識別。對核心模塊進(jìn)行途徑聚類富集分析,通過P值保留三個最好的評分項,篩選關(guān)鍵通路。
2.1芯片數(shù)據(jù) 使用GEO數(shù)據(jù)庫獲取HCC相關(guān)表達(dá)數(shù)據(jù)集GSE14520,其中包括205例肝癌組織和283例正常肝組織數(shù)據(jù)。以(|log2FC|≥1,P<0.05)為篩選閾值,使用R語言進(jìn)行分析。所得的火山結(jié)構(gòu)如圖1A和圖1B所示。兩組平臺數(shù)據(jù)集GPL3921、GPL571差異分析后,共同上調(diào)的差異基因有96個,共同下調(diào)的差異基因有178個,見圖2A、圖2B。兩組數(shù)據(jù)集取交集的差異基因總數(shù)為274個,見圖2C。
圖1 GSE14520 GPL571和GSE14520 GPL3921中DEGs的火山圖
圖2 GSE14520 GPL571和GSE14520 GPL3921中DEGs的維恩圖
2.2DEGs的功能和途徑 運用DAVID數(shù)據(jù)庫分別對178個下調(diào)基因及96個上調(diào)基因進(jìn)行GO分析和KEGG分析,見表1、表2。GO分析中,上調(diào)的DEGs主要參與DNA復(fù)制起始和有絲分裂細(xì)胞周期相變等生物學(xué)過程(biological process,BP)。細(xì)胞組成(cellular component,CC)表明這些基因大部分參與細(xì)胞質(zhì)和核質(zhì)。分子功能(Molecular Function,MF)主要集中于poly(A) RNA結(jié)合和ATP結(jié)合。下調(diào)的DEGs在生物過程BP中主要在氧化還原過程和甾體代謝過程中富集。細(xì)胞學(xué)成分CC分析顯示大多在細(xì)胞外泌體和線粒體中富集。其分子功能(MF)主要包括氧化還原酶活性和蛋白質(zhì)同聚活性。通過對DAVID數(shù)據(jù)庫中下調(diào)基因的分析,發(fā)現(xiàn)KEGG通路主要富集于代謝通路和化學(xué)致癌通路。DAVID工具未能富集上調(diào)基因的相關(guān)信號通路。
表1 肝細(xì)胞癌差異表達(dá)基因的富集分析
表2 肝細(xì)胞癌差異表達(dá)基因的KEGG富集分析
2.3PPI網(wǎng)絡(luò)構(gòu)建和hub基因選擇 通過Cytoscape軟件構(gòu)建這些基因的PPI網(wǎng)絡(luò),使用MCODE插件進(jìn)行分析,根據(jù)評分水平高低總共得到6個具有代表性的模塊。第一個核心模塊得分27.286,包括29個節(jié)點和382個邊,主要富集于細(xì)胞周期、卵母細(xì)胞減數(shù)分裂、DNA復(fù)制等信號通路,見圖3A;核心模塊2得分12.286,包括15個節(jié)點和86個邊,主要富集于化學(xué)致癌途徑、視黃醇代謝等途徑,見圖3B。使用CytoHubba插件進(jìn)行分析,得到十個中心基因PPI網(wǎng)絡(luò)圖,見圖3C。這10個關(guān)鍵基因分別是:CDK1、PCNA、CAT、CCNB2、 CDC20、AURKA、 BUB1B、RFC4、TOP2A 和NDC80。
圖3 利用Cytoscape軟件的MCODE插件對DEGs中的核心功能模塊和關(guān)鍵基因進(jìn)行鑒定
2.4預(yù)后明顯相關(guān)的六個樞紐的驗證 使用Kaplan Meier-Plotter數(shù)據(jù)庫來評估兩個關(guān)鍵模塊中10個hub基因的預(yù)后價值。結(jié)果顯示,CDK1、CCNB2、CDC20、NDC80、BUB1B、TOP2A基因與預(yù)后有明顯的相關(guān)性(P<0.01),見圖4,且在肝癌組織中呈現(xiàn)顯著高表達(dá)的狀態(tài),見圖5。同時,利用Ualcan在線工具分析了這6個hub基因mRNA表達(dá)與腫瘤分級的關(guān)系,可見腫瘤的分級程度越大,基因的mRNA表達(dá)水平越高,見圖6。還分析了關(guān)鍵基因mRNA表達(dá)和肝癌患者個體分期的關(guān)系,腫瘤患者分期越高,基因的mRNA表達(dá)水平越高,見圖7。此外,使用HPA數(shù)據(jù)庫來展示CDK1、CCNB2、CDC20、TOP2A蛋白水平的差異,免疫組化染色,見圖8(數(shù)據(jù)庫中缺少NDC80和BUB1B數(shù)據(jù))。結(jié)果顯示,CDK1、CCNB2、CDC20、TOP2A的免疫組化染色在正常組織中呈陰性,在HCC組織中呈陽性,證明了這些基因在HCC組織中明顯高于正常肝組織。
圖4 基于Kaplan-Meier繪圖儀數(shù)據(jù)庫的6個hub基因生存分析
圖5 與正常組織相比,6個關(guān)鍵基因在HCC組織中高表達(dá)且預(yù)后不良
圖6 TCGA數(shù)據(jù)庫中6個關(guān)鍵基因mRNA表達(dá)和HCC腫瘤分級的關(guān)系
圖7 TCGA數(shù)據(jù)庫中6個關(guān)鍵基因mRNA表達(dá)和HCC分期的關(guān)系
圖8 基于Human Protein Altas數(shù)據(jù)庫在翻譯水平驗證了關(guān)鍵基因的表達(dá)
使用GEPIA數(shù)據(jù)庫分析了6個hub基因的相關(guān)性。hub基因之間的Spearman相關(guān)性分析,見圖9。結(jié)果顯示CDK1與其他基因呈正相關(guān)。CDK1: CDC20 (r=0.93,P=9.4e-226);CDK1: CCNB2 (r=0.96,P=1.8e-284);CDK1: NDC80 (r=0.96,P=5.2e-300);CDK1: BUB1B (r=0.94,P=1.4e-244);CDK1: TOP2A (r=0.95,P=2.8e-262)。CDK1、CCNB2、CDC20、NDC80、BUB1B、TOP2A各基因與其他基因呈正相關(guān)。
圖9 GEPIA中6個關(guān)鍵基因的相關(guān)分析散點圖
2.56個核心基因的功能和途徑富集分析 使用Metascape對6個hub基因進(jìn)行功能和途徑富集分析。這些Metascape結(jié)果顯示,與姐妹染色單體凝聚力、有絲分裂細(xì)胞周期檢查點、有絲分裂細(xì)胞周期、細(xì)胞相關(guān)組件分解,見表3。該網(wǎng)絡(luò)使用Cytoscape進(jìn)行可視化,其中每個節(jié)點代表一個富集的項目,并通過其P值著色,見圖10。
表3 具有代表性的前5個富集項
圖10 關(guān)鍵基因的Metascape功能富集分析
2.6核心基因的蛋白質(zhì)-蛋白質(zhì)相互作用分析 Metascape使用以下數(shù)據(jù)庫對核心基因進(jìn)行蛋白-蛋白相互作用分析:BioGrid[11]、InWeb_IM[12]、OmniPath[13]。采用MCODE算法對密集連接的網(wǎng)絡(luò)部件進(jìn)行識別,見圖11。保留P-value的3個最佳評分項作為對應(yīng)組成部分的功能描述。結(jié)果顯示,PID PLK1通路是關(guān)鍵信號通路,見表4。
圖11 CDK1、CCNB2、CDC20、
表4 各MCODE組分獨立富集的途徑和過程分析
在近幾年,很多肝癌的發(fā)生機制逐漸被揭示[14],大量的生物標(biāo)記物已被用于肝癌的早期篩查和診斷[15]。像大多數(shù)腫瘤一樣,肝癌的發(fā)生是一個復(fù)雜的生物學(xué)過程,是多個基因共同作用的結(jié)果,以往的研究多局限在單基因水平,多基因水平方面研究較少,而多基因水平研究有助于探索肝癌的發(fā)病機制。在本研究中,通過生物信息學(xué)方法分析,終于發(fā)現(xiàn)了高度相關(guān)的CDK1、CCNB2、CDC20、NDC80和BUB1B基因在肝癌組織的高表達(dá)與患者生存期差明顯相關(guān),可能通過PID PKL1通路參與肝癌的發(fā)生發(fā)展。存在相似的研究結(jié)果[16-17],差異在于這兩項研究只闡述了差異的基因與肝癌的相關(guān)性,沒有分析可能的分子通路機制。本研究利用生物信息學(xué)的方法旨在探索肝癌潛在的治療靶點和可能的分子機制。
細(xì)胞周期蛋白依賴性激酶1(cyclin-dependent kinase 1,CDK1)是調(diào)控細(xì)胞周期有絲分裂過程的重要一員[18]。研究表明CDK1可作為非小細(xì)胞肺癌[19]、結(jié)腸癌[20]、乳腺癌[21]和卵巢癌[22]的臨床預(yù)后生物標(biāo)志物。Li 等[23]研究結(jié)果與本研究結(jié)果相似,CDK1基因敲除抑制PLK1基因等的表達(dá),提示CDK1-PLK1/SGOL2/ANLN途徑可能是肝癌發(fā)生發(fā)展的一個重要過程。細(xì)胞周期蛋白B2(CCNB2)與細(xì)胞的增殖密切相關(guān),有研究表明CCNB2 mRNA在胃癌、非小細(xì)胞肺癌、肝細(xì)胞癌、前列腺癌、乳腺癌、上皮性卵巢癌和彌漫大B細(xì)胞淋巴瘤組織中表達(dá)均有上調(diào),且與不良的預(yù)后相關(guān)[24-30]。細(xì)胞分裂周期20(CDC20)的癌組織中高表達(dá)與前列腺癌[31]、乳腺癌[32]和結(jié)腸癌[33]的不良預(yù)后有關(guān)。但是肝癌組織的表達(dá)情況與預(yù)后缺乏足夠的實驗數(shù)據(jù)。核分裂周期蛋白80基因(nuclear division cycle 80,NDC80)維持著染色體的穩(wěn)定性,NDC80高表達(dá)的細(xì)胞可能出現(xiàn)紡錘體檢查點功能障礙、染色體異常分離或細(xì)胞周期紊亂,這些都是腫瘤發(fā)生的原因之一[34]。研究表明,NDC80在肝癌、骨肉瘤等諸多腫瘤組織中存在過表達(dá),可能參與腫瘤發(fā)生發(fā)展的過程[34-37]。有絲分裂檢查點蛋白BUB1B(Budding Uninhibited By Benzimidazoles 1 Homolog Beta),是有絲分裂紡錘體檢查點復(fù)合物的關(guān)鍵成分[38]。在癌癥中BUB1B可能會增加胃癌[39]、前列腺癌[40]、乳腺癌[41]、肝癌[17]發(fā)生的風(fēng)險。
本研究中,肝癌腫瘤組織中CDK1、CCNB2、CDC20、NDC80、BUB1B基因表達(dá)水平均顯著高于癌旁非腫瘤組織,并且與腫瘤分級、分期及患者預(yù)后明顯相關(guān),提示細(xì)胞周期異常分裂可能是HCC的一個重要過程??傊@5個核心基因與肝癌的惡性生物學(xué)行為明顯相關(guān),可能在促進(jìn)腫瘤增殖惡化中通過PID PLK1通路發(fā)揮協(xié)同作用,仍需進(jìn)一步研究證實。