吳奇橋 張樹民 鄭婷婷 劉 娟 胡 永 林登強 戴夢婷 孫 菁▲
1.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院放療科,福建廈門 361006;2.復(fù)旦大學(xué)附屬中山醫(yī)院放療科,上海 200030;3.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院放射科,福建廈門 361006;4.復(fù)旦大學(xué)附屬中山醫(yī)院廈門醫(yī)院泌尿外科,福建廈門 361006
乳腺癌是威脅女性健康的最常見惡性腫瘤,是美國第二大最常見的癌癥相關(guān)死亡[1]。乳腺原位癌通常具有良好的預(yù)后,然而,乳腺癌若出現(xiàn)遠處轉(zhuǎn)移往往會導(dǎo)致危及生命的結(jié)果[2]??傮w而言,乳腺癌的5年平均生存率為90%,但如果存在遠處轉(zhuǎn)移,則降至26%[3]。
乳腺癌進展的分子機制尚未完全了解。鑒于其高死亡率,迫切需要弄清乳腺癌轉(zhuǎn)移的潛在分子機制。既往的研究已經(jīng)調(diào)查乳腺癌轉(zhuǎn)移的相關(guān)基因,如Chen 等[4]揭示了ECM-受體相互作用可能有助于乳癌骨轉(zhuǎn)移;Cai 等[5]表明CDCA8、CCNA2 與乳癌遠處轉(zhuǎn)移有關(guān);Zheng 等[6]鑒定了幾種與乳腺癌轉(zhuǎn)移相關(guān)的基因。然而上述研究僅對單個數(shù)據(jù)集進行分析,目前仍然沒有研究結(jié)合相似數(shù)據(jù)集進行基因分析。本研究分析了三個數(shù)據(jù)集中與乳腺癌轉(zhuǎn)移相關(guān)的差異表達基因(differentially expressed genes,DEGs),目的是更好地了解潛在乳腺癌轉(zhuǎn)移的機制,并找到潛在生物標志物和治療靶標。
GSE32489、GSE14776 和GSE103357[7]使 用 基 因表達綜合數(shù)據(jù)庫(Gene Expression Omnibus,GEO,http://www.ncbi.nlm.nih.gov/geo)得到的三個基因數(shù)據(jù)集,均使用Illumina HumanRef 平臺芯片,根據(jù)平臺中的注釋信息將探針轉(zhuǎn)換為相應(yīng)的基因符號。GSE32489包含非轉(zhuǎn)移尸檢組織19 個,淋巴結(jié)轉(zhuǎn)移組織90 個。GSE14776 包含8 個非轉(zhuǎn)移細胞樣本和6 個骨轉(zhuǎn)移樣本。GSE103357 包含2 個非轉(zhuǎn)移細胞樣本和3 個骨轉(zhuǎn)移樣本。
Network Analyst(版本號:10.0)[8-9](http://www.networkanalyst.ca)用于提取數(shù)據(jù)集乳腺腫瘤樣本和轉(zhuǎn)移樣本之間的DEGs。具有調(diào)整P 值<0.05 和|log2FC|>1.0的基因被認為是DEGs。通過維恩(Venn)工具(http://bioinformatics.psb.ugent.be/webtools/Venn/)檢測重疊以得到共差異表達的基因(co different-expressed genes,Co-DEGs)。調(diào)整P 值、Benjamini 和Hochberg 假陽性發(fā)現(xiàn)率,用于在統(tǒng)計顯著基因的發(fā)現(xiàn)和假陽性之間提供平衡。沒有相應(yīng)基因符號的探針組或具有多于一個探針組的基因被去除。識錯率(false discovery rate,F(xiàn)DR)的計算公式如下:q-value(i)=p(i)length(p)/rank(p),表明當樣本量增大時,檢出假陽性率的概率增高,F(xiàn)DR 值越高,表明大樣本數(shù)據(jù)富集后出現(xiàn)的假陽性概率越高。
基因本體(gene ontology,GO)分析用于對基因集進行功能研究[10]。京都基因與基因組百科全書途徑富集(Kyoto encyclopedia of genes and genomes,KEGG)[11]是處理基因組和生物通路的數(shù)據(jù)庫集合。注釋可視化和 集 成 發(fā) 現(xiàn) 數(shù) 據(jù) 庫(DAVID,http://david.ncifcrf.gov)(6.8 版)[12]用于解開已識別共基因的GO 和KEGG 途徑。
STRING(版本號:11.5)用于闡明蛋白質(zhì)-蛋白質(zhì)交互(protein-protein interaction,PPI)相互作用[13]。使用Cytoscape(版本號:3.8.2)[14]進行可視化PPI 網(wǎng)絡(luò)。選擇>0.4 的組合分數(shù)作為閾值。PPI 網(wǎng)絡(luò)可以協(xié)助從蛋白層面識別參與乳腺癌轉(zhuǎn)移的重要基因模塊。此外,應(yīng)用分子模塊檢測(molecular complex detection,MCODE)[15]插件對重要模塊進行驗證。
使用cytoHubba(版本號:3.8.2)插件和最大集團中心性(maximum group centrality,MCC)方法來識別前20 個中樞基因。核心基因的熱圖是通過使用R 中的熱圖包繪制的,使用的聚類方法為離差平和法(Ward),標準化方法為正態(tài)標準化(Z-score scaling)。使用Kaplan Meier-plotter(KM plotter,http://kmplot.com/analysis/)實現(xiàn)生存分析,Kaplan-Meier plotter 是一種生存分析軟件[16]。通過Cytoscape 的BiNGO 插件(版本號:3.8.2)評估核心基因的GO 功能。
乳腺癌患者根據(jù)特定基因的表達分為兩組(高表達與低表達)。通過Kaplan-Meier 生存圖比較兩個組患者的隊列,并計算具有95%置信區(qū)間和對數(shù)等級P 值的風險比(HR),其中,HR=1 意味著基因低表達與高表達的等效性,若低表達處理優(yōu)于高表達,則HR<1;若低表達處理劣于高表達,則HR>1。GEPIA[17]是基于TCGA 數(shù)據(jù)庫的在線基因表達譜分析工具,用于驗證樞紐基因與臨床分期之間的相關(guān)性,其中,F(xiàn) value 代表單因素分析的F 值,這個值越大,表示組間差異越大,且當P<0.05 時,表示該基因在腫瘤不同分期中差異是有統(tǒng)計學(xué)意義的。
三個基因數(shù)據(jù)集中,韋恩圖見圖1A 及圖1B,基因表達熱圖見圖1C。結(jié)果顯示,295 個基因被鑒定為co-DEGs。其中上調(diào)151 個,下調(diào)144 個。調(diào)整P<0.05和|log2FC|>1 被設(shè)置為截止標準。
圖1 維恩圖及基因熱圖
DAVID 在線工具用于闡明富集的co-DEGs 中的GO 和KEGG 通路。結(jié)果表明,對于BP,上調(diào)的基因主要富集在Ⅰ型干擾素信號通路、凋亡過程中,而下調(diào)的基因主要集中在DNA 修復(fù)、先天免疫反應(yīng)等方面。KEGG 通路結(jié)果顯示,DEGs 顯著富集在與癌癥發(fā)展的信號通路,包括絲裂原活化蛋白激酶(mitogen-activated protein kinase,MAPK) 信號通路和Rap1 信號通路(表1~2)。
表1 Co-DEGs 中上調(diào)基因的GO 分析
基于STRING 數(shù)據(jù)庫得到PPI 網(wǎng)絡(luò)分析結(jié)果,見圖2A,結(jié)果顯示,DEG 的PPI 網(wǎng)絡(luò)由280 個節(jié)點和357 條邊構(gòu)成。使用MCC 方法,總共選擇了20 個基因作為樞紐基因,分別為:CHEK1、POLR3H、IFITM1、XAF1、MCM5、ADCY3、ADCY6、KIF14、ADCY7、ADCY2、IFITM3、TYMS、IFI6、CDCA8、TIMP1、STAT2、SKA1、PKM、MX1、PRC1(ASE1)。
圖2 PPI 網(wǎng)絡(luò)分析結(jié)果和樞紐基因的鑒定結(jié)果
表2 Co-DEGs 中下調(diào)基因的GO 分析
樞紐基因的鑒定結(jié)果見圖2B,結(jié)果顯示,使用MCODE 從DEG 的PPI 網(wǎng)絡(luò)中獲得了3 個分值大于或等于6 的重要模塊。
根據(jù)每個基因的表達,繪制乳癌患者的無遠處轉(zhuǎn)移生存(distance metastasis free survival,DMFS)和總生存(overall survival,OS)曲線,結(jié)果分別見圖3A 和圖3B。結(jié)果顯示,TYMS 的低表達[HR=0.52(0.29~0.91),P=0.021]、SKA1 的低表達[HR=0.57(0.32~1.01),P=0.049]、ADCY7 的低表達[HR=0.45(0.30~0.68),P<0.001]、MX1 的高表達[HR=2.07(1.17~3.66),P=0.011]與較差的OS 相關(guān)(圖3A)。POLR3H 的低表達[HR=0.71(0.51~0.98),P=0.039]、CDCA8 的高表達[HR=1.67(1.37~2.04),P<0.001]、ASE1 的高表達[HR=2.1(1.72~2.57),P<0.001]、KIF14 的高表達[HR=1.86(1.33~2.59),P<0.001]、MX1 的高表達[HR=1.31(1.08~1.6),P=0.006]與較差的DMFS 相關(guān)(圖3B)。
圖3 樞紐基因的臨床分析
選擇數(shù)據(jù)集TCGA-BRCA 來驗證20 個核心基因與乳腺癌臨床分期之間的相關(guān)性。筆者比較了不同臨床分期乳腺癌樣本中核心基因的表達,結(jié)果見圖3C,結(jié)果顯示,在乳腺癌較晚分期中,TYMS 呈現(xiàn)低表達(P=0.0416),CDCA8 呈現(xiàn)高表達(P=0.003 66),PRC1(ASE1)呈現(xiàn)高表達(P=0.002 07),SKA1(P=0.000 909)呈現(xiàn)低表達,KIF14(P=0.000 711)呈現(xiàn)高表達。
本研究中分析了三個包含乳腺癌轉(zhuǎn)移患者的基因數(shù)據(jù)集,進行了功能富集分析,表明了樞紐基因通過某些途徑在轉(zhuǎn)移的進展中發(fā)揮了作用。
結(jié)果表明,上調(diào)基因主要參與Ⅰ型干擾素信號通路、凋亡過程、粘著斑、蛋白質(zhì)同二聚化活性Rap1 信號通路[18]和MAPK 信號通路[19-21],抗原加工和呈遞,細胞粘附分子,而下調(diào)基因主要富集在p53 類介質(zhì)、雌激素信號通路和趨化因子信號通路。這些發(fā)現(xiàn)與已報道的研究[19-29]高度一致,表明細胞凋亡、細胞遷移和粘附在乳腺癌進展過程中的重要作用。
先前的研究[19-29]已經(jīng)為本研究所篩選的一些樞紐基因在乳腺癌癥進展中的功能提供了大量證據(jù)。例如,TYMS 因其作為胸苷酸合酶的功能而被認為是5-氟尿嘧啶的靶標[23-24]。它與晚期乳腺癌[25]患者對化療的耐藥性和敏感性有關(guān)。CDCA8 是是有絲分裂的調(diào)節(jié)因子,SKA1 與有絲分裂有關(guān),均被鑒定為乳癌遠處轉(zhuǎn)移的樞紐基因[5,26]。KIF14 通過負調(diào)節(jié)Rap1a-Radil 信號通路促進乳腺癌進展。參與細胞抗病毒的MX1與乳腺癌對淋巴結(jié)的侵襲有關(guān)[28-29]。盡管有報道稱,PRC1(ASE1)促進了肺腺癌的發(fā)生和肝癌的早期復(fù)發(fā)[30-31],也和鼻咽癌的轉(zhuǎn)移[32]和乳癌患者較差的無遠處轉(zhuǎn)移生存期相關(guān)[33],POLR3H 與促腫瘤作用相關(guān)[34-35]。它們在乳腺癌腫瘤轉(zhuǎn)移中的確切功能仍然知之甚少,值得進一步深入研究。
綜上所述,本研究確定了乳腺癌轉(zhuǎn)移過程中的優(yōu)勢基因及其PPI 網(wǎng)絡(luò)。其中一些基因從未被報道過影響乳腺癌的進展,因此可能作為潛在的藥物靶點或生物標志物。然而,本研究仍具有局限性,即需要進一步的實驗驗證。需要檢測更多基因來豐富網(wǎng)絡(luò),以便更全面地了解乳腺癌的轉(zhuǎn)移通路。