黃蓓蓓,李 潔,孔 昕,葉 慶
卵巢癌是最常見(jiàn)的婦科惡性腫瘤,早期癥狀不明顯[1]。已有報(bào)道指出,CCNE1等基因在卵巢癌中差異表達(dá),并可能影響腫瘤的發(fā)生、發(fā)展[2]。但是臨床仍缺乏有效的標(biāo)志物用于卵巢癌的診斷、治療和預(yù)后。隨著測(cè)序技術(shù)的發(fā)展和生物信息學(xué)方法的應(yīng)用,使得基于大樣本量研究卵巢癌中有效的標(biāo)志物成為可能。本實(shí)驗(yàn)通過(guò)對(duì)2個(gè)獨(dú)立的卵巢癌基因芯片數(shù)據(jù)進(jìn)行生物信息學(xué)分析,結(jié)合公共數(shù)據(jù)集資源篩選出在卵巢癌中發(fā)揮作用的核心基因,為探究卵巢癌的分子機(jī)制和預(yù)后提供靶點(diǎn)。
1.1 數(shù)據(jù)集通過(guò)GEO網(wǎng)站(https://www.ncbi.nlm.nih.gov/geo/)獲得2個(gè)高級(jí)別卵巢癌的基因芯片數(shù)據(jù)。數(shù)據(jù)集GSE18520[3]包括53例晚期高級(jí)別原發(fā)性卵巢癌樣本和10例正常卵巢表面上皮樣本。數(shù)據(jù)集GSE26712[4]包括185例晚期高級(jí)別原發(fā)性卵巢癌樣本和10例正常卵巢表面上皮樣本。
1.2 篩選差異表達(dá)基因標(biāo)準(zhǔn)化的表達(dá)量矩陣經(jīng)過(guò)對(duì)數(shù)處理后,對(duì)卵巢癌樣本和正常卵巢上皮樣本進(jìn)行差異分析。2個(gè)數(shù)據(jù)集差異基因的篩選條件均為:|log2(fold change)|>1、P<0.05和矯正后P(FDR)<0.05。選取2個(gè)數(shù)據(jù)集篩選出的差異基因的交集作為后續(xù)分析中使用的差異表達(dá)基因集。
1.3 差異表達(dá)基因的功能富集分析使用Metascape[5]進(jìn)行差異表達(dá)基因的GO功能富集分析。輸入的基因列表是兩個(gè)數(shù)據(jù)集重疊的差異基因。
1.4 核心基因的篩選使用STRING(版本11.5,https://
string-db.org/)對(duì)參與到“細(xì)胞外基質(zhì)內(nèi)”通路內(nèi)且有表達(dá)差異的79個(gè)基因進(jìn)行蛋白間互作分析。使用MCC算法篩選出蛋白互作網(wǎng)絡(luò)中排名前10的基因作為核心基因。
1.5 核心基因的蛋白互作分析通過(guò)Cytoscape(版本3.9.1)來(lái)構(gòu)建核心基因的蛋白互作網(wǎng)絡(luò)。使用MCC打分作為節(jié)點(diǎn)基因的重要性指標(biāo)。
1.6 生存期分析通過(guò)Kaplan-Meier Plotter[6]評(píng)估不同基因表達(dá)分組卵巢癌樣本和總體生存期之間的關(guān)聯(lián)。使用1 657 例具有生存狀態(tài)等臨床信息的卵巢癌樣本。根據(jù)基因表達(dá)水平對(duì)樣本進(jìn)行三分法,取上四分位的樣本為基因高表達(dá)組,下四分位樣本為基因低表達(dá)組。
1.7 蛋白表達(dá)分析通過(guò)Human Protein Atlas[7](http://www.proteinatlas.org/)驗(yàn)證核心基因的蛋白表達(dá)水平?;谌旧珡?qiáng)度和染色細(xì)胞的百分?jǐn)?shù)將蛋白染色結(jié)果分為不表達(dá)、低表達(dá)、中表達(dá)和高表達(dá)。
1.8 統(tǒng)計(jì)學(xué)分析P值和FDR值分別采用的是未配對(duì)的學(xué)生t檢驗(yàn)和Benjamini-Hochberg(BH)多重檢驗(yàn)。對(duì)數(shù)秩檢驗(yàn)的統(tǒng)計(jì)假設(shè)檢驗(yàn)用于比較兩條生存曲線間的顯著性。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1 卵巢癌中差異表達(dá)基因的篩選為得到卵巢癌差異表達(dá)基因,分別對(duì)數(shù)據(jù)集GSE18520和GSE26712進(jìn)行基因表達(dá)的差異分析。GSE18520數(shù)據(jù)集篩選出3 377個(gè)差異基因,其中1 894個(gè)基因顯著上調(diào),1 483個(gè)基因顯著下調(diào)(圖1A)。GSE26712數(shù)據(jù)集篩選出1 533個(gè)差異基因,其中588個(gè)基因顯著上調(diào),945個(gè)基因顯著下調(diào)(圖1B)。對(duì)2個(gè)數(shù)據(jù)集篩選的差異基因取交集,獲得540個(gè)共同差異表達(dá)基因用于后續(xù)分析(圖1C)。
圖1 篩選卵巢癌差異表達(dá)基因:GSE18520數(shù)據(jù)集(A)和GSE26712數(shù)據(jù)集(B)基因表達(dá)的火山圖;紅點(diǎn)表示卵巢癌中高表達(dá)的基因,藍(lán)點(diǎn)表示在正常對(duì)照中高表達(dá)的基因;C.2個(gè)基因集差異表達(dá)基因的韋恩圖
2.2 卵巢癌樣本差異表達(dá)基因的GO功能富集分析GO富集分析結(jié)果顯示,差異基因顯著富集“GO:0031012細(xì)胞外基質(zhì)”“GO:0030855上皮細(xì)胞分化”和“GO:0035239管形態(tài)發(fā)生”等生物學(xué)過(guò)程(圖2)。其中,P值最顯著的“GO:0031012細(xì)胞外基質(zhì)”過(guò)程包含79個(gè)差異基因,如APOA1、CTSC、COL4A1、COMP和VCAN等。
圖2 差異表達(dá)基因的GO功能富集分析
2.3 卵巢癌中位居前10的潛在核心基因使用STRING對(duì)79個(gè)差異基因進(jìn)行蛋白互作網(wǎng)絡(luò)構(gòu)建。通過(guò)MCC算法計(jì)算各節(jié)點(diǎn)基因的重要性,最終篩選出MCC打分位居前10的差異基因作為潛在的核心基因(表1)。
表1 潛在核心基因的表達(dá)及MCC打分
2.4 構(gòu)建卵巢癌中潛在核心基因的蛋白互作網(wǎng)絡(luò)使用Cytoscape對(duì)排名前10的潛在核心基因進(jìn)行蛋白互作網(wǎng)絡(luò)構(gòu)建(圖3)。COL4A1是互作網(wǎng)絡(luò)中具有關(guān)鍵節(jié)點(diǎn)作用的基因,具有最高的MCC打分,并與LAMB1、LAMA4、COL15A1、LAMC1和COL4A2基因間有著較強(qiáng)的連接作用。這些基因共同參與了細(xì)胞外基質(zhì)過(guò)程,可能與高級(jí)別卵巢癌的腫瘤轉(zhuǎn)移、侵襲等生物學(xué)過(guò)程相關(guān)。
圖3 前10個(gè)核心基因的PPI網(wǎng)絡(luò)圖:顏色深淺代表基因重要性的MCC打分,顏色越深代表基因核心程度越高
2.5 核心基因表達(dá)對(duì)卵巢癌預(yù)后的影響為評(píng)估10個(gè)核心基因在卵巢癌中的臨床意義,使用包含1 657例卵巢癌樣本的驗(yàn)證數(shù)據(jù)集計(jì)算基因表達(dá)高低與總生存期的關(guān)系。Kaplan-Meier生存曲線分析顯示,有5個(gè)基因表達(dá)與卵巢癌的預(yù)后顯著相關(guān)(圖4A~E),分別是COL4A1(P=0.014)、LAMB1(P=0.002 2)、LAMA4(P=0.035)、VCAN(P=2e-06)和COMP(P=9.5e-07)。其中,膠原蛋白COL4A1基因在PPI網(wǎng)絡(luò)中的重要性位居首位。經(jīng)Human Protein Atlas驗(yàn)證,卵巢癌組織中COL4A1蛋白表達(dá)水平顯著高于正常組織(圖5),提示其可能參與腫瘤的發(fā)生、發(fā)展進(jìn)程。
圖4 Kaplan-Meier生存曲線分析核心基因COL4A1(A)、LAMB1(B)、 LAMA4(C)、VCAN(D)、COMP(E)的表達(dá)與卵巢癌患者預(yù)后的關(guān)系
圖5 Human Protein Atlas分析COL4A1在正常卵巢組織(A)和卵巢癌(B)組織組織中的表達(dá)
卵巢癌是最具侵襲性的婦科惡性腫瘤,確診時(shí)通常已發(fā)展到晚期[8]。目前,卵巢癌的標(biāo)準(zhǔn)治療仍是手術(shù)聯(lián)合化療,盡管部分患者治療后病情緩解,但卵巢癌仍然是最致命的婦科腫瘤[9]。最新研究顯示,中國(guó)人卵巢癌的5年存活率僅為47.4%[10]。
目前,越來(lái)越多的研究致力于探索新型分子標(biāo)志物對(duì)卵巢癌診斷和輔助預(yù)后的影響。MSI2是造血干細(xì)胞中的重要調(diào)節(jié)因子,最新研究顯示其蛋白在卵巢癌中過(guò)表達(dá),在腫瘤的增殖、侵襲等生物學(xué)過(guò)程中發(fā)揮作用[11]。除此之外,GPSM2、PTP1B和長(zhǎng)鏈非編碼RNA UCA1在卵巢癌中均表現(xiàn)出異常表達(dá),可作為腫瘤預(yù)后的潛在分子標(biāo)志物。由于卵巢癌的癥狀模糊且大多分子特征為非特異性,使得腫瘤的篩查
較難。卵巢癌中公認(rèn)的可作為治療和預(yù)后的分子標(biāo)志物包括癌癥抗原125(CA125)和人附睪蛋白4(HE4)[12]。然而CA125在卵巢癌中缺乏特異性和敏感性。CA125不僅可在良性卵巢組織中表達(dá)升高,而且在多達(dá)50%的卵巢癌組織中并未檢出表達(dá)量的明顯變化[9]。因此,發(fā)掘可靠有效的分子標(biāo)志物將大大推動(dòng)卵巢癌領(lǐng)域的研究,有利于患者的預(yù)后和治療[13]。隨著測(cè)序技術(shù)和生物信息學(xué)分析算法的進(jìn)步,尋找可靠的有效標(biāo)志物成為卵巢癌研究領(lǐng)域的迫切需要。
本實(shí)驗(yàn)挖掘了兩項(xiàng)獨(dú)立的卵巢癌基因芯片數(shù)據(jù),通過(guò)基因表達(dá)的差異分析篩選出540個(gè)在卵巢癌中差異表達(dá)的基因。通過(guò)對(duì)差異基因進(jìn)行GO功能富集分析發(fā)現(xiàn),大多數(shù)基因參與卵巢癌的發(fā)生、發(fā)展有關(guān)的生物學(xué)過(guò)程,如“GO:0031012細(xì)胞外基質(zhì)”、“GO:0030855上皮細(xì)胞分化”和“GO:0035239管形態(tài)發(fā)生”。通過(guò)STRING和Cytoscape對(duì)涉及“GO:0031012細(xì)胞外基質(zhì)”通路內(nèi)的79個(gè)基因進(jìn)行蛋白互作網(wǎng)絡(luò)構(gòu)建,使用MCC算法篩選網(wǎng)絡(luò)中關(guān)鍵的核心基因。使用Kaplan-Meier Plotter在線數(shù)據(jù)庫(kù)(https://kmplot.com/)獲得1 657例帶有臨床指標(biāo)信息的卵巢癌樣本進(jìn)行生存期分析。不同基因表達(dá)組的生存期分析結(jié)果顯示,COL4A1、LAMB1、LAMA4、VCAN和COMP 5個(gè)核心基因與卵巢癌的預(yù)后顯著相關(guān)。
近年研究顯示,COL4A1通過(guò)激活FAK-Src信號(hào)促進(jìn)肝細(xì)胞癌的生長(zhǎng)和轉(zhuǎn)移[14]。VCAN 是一種細(xì)胞外基質(zhì)蛋白聚糖,是細(xì)胞外基質(zhì)的重要成分。體外和體內(nèi)研究結(jié)果表明,VCAN與多種腫瘤的復(fù)發(fā)和不良預(yù)后相關(guān),可增強(qiáng)癌細(xì)胞的存活、侵襲與轉(zhuǎn)移[12]。COMP是轉(zhuǎn)移性乳腺癌患者的生物標(biāo)志物,與患者的骨和肺轉(zhuǎn)移、循環(huán)腫瘤細(xì)胞計(jì)數(shù)相關(guān)[15]。此外,LAMB1在肝細(xì)胞癌中可通過(guò)PDGFRα介導(dǎo)腫瘤的進(jìn)展[16]。而LAMA4上調(diào)與胰腺癌的高肝轉(zhuǎn)移潛力和較差的生存期相關(guān)[17]。在本實(shí)驗(yàn)中,COL4A1作為蛋白互作網(wǎng)絡(luò)排名首位的核心基因,在卵巢癌中表現(xiàn)出了轉(zhuǎn)錄和蛋白水平的高表達(dá),其高表達(dá)水平與不良預(yù)后相關(guān)。GO功能富集分析顯示COL4A1作為膠原蛋白的成分參與卵巢癌“細(xì)胞外基質(zhì)”等通路,說(shuō)明其可能影響卵巢癌的轉(zhuǎn)移、侵襲過(guò)程。
綜上,本實(shí)驗(yàn)發(fā)現(xiàn)了影響卵巢癌發(fā)生、發(fā)展的潛在核心基因,為探究卵巢癌的分子機(jī)制、治療靶點(diǎn)和預(yù)后提供基礎(chǔ)。但這些分子標(biāo)志物在卵巢癌中的特異性還有待進(jìn)一步探究,需要更多的數(shù)據(jù)和實(shí)驗(yàn)支持,有望推動(dòng)卵巢癌的早期診斷。