肖又德 鄭永法 戈 偉
1.泰康同濟(武漢)醫(yī)院腫瘤科,湖北武漢 430000;2.武漢大學人民醫(yī)院腫瘤科,湖北武漢 430000
胃癌(gastric cancer)是世界上癌癥相關性死亡的常見原因之一,其病死率位居癌癥病死率的第三位[1],盡管以手術結合化療的方案廣泛應用于胃癌的治療,但胃癌的5 年生存率依然較低[2-3]?;蛐酒壳皬V泛應用于包括癌癥在內(nèi)的多種復雜疾病的診斷、預測以及藥物篩選等領域[4-6]。但傳統(tǒng)的篩選差異基因表達極易遺漏調(diào)控過程中的核心分子。通過系統(tǒng)的繪制個體生物網(wǎng)絡互作圖可以精準找出與預后相關的核心分子[7-8],加權基因共表達網(wǎng)絡分析(weighted gene coexpression network analysis,WGCNA)可以有效解決上述問題[9-10]。本研究擬利用該方法篩選更為有效的胃癌分子標志物。
從TCGA 數(shù)據(jù)庫(https://portal.gdc.cancer.gov/,檢索時間:建庫至2020 年11 月14 日)中下載胃癌患者的RNA-seq 數(shù)據(jù)及其臨床資料,并剔除生存情況及病理分期不明的患者,最終納入359 例胃癌患者。同時 從GEO 數(shù) 據(jù) 庫(https://www.ncbi.nlm.nih.gov/geo/)中,通過關鍵詞(胃癌、生存和基因芯片)檢索篩選帶有生存數(shù)據(jù)的胃腺癌數(shù)據(jù)集,且數(shù)據(jù)集能獲得標準化的注釋文件,獲取兩個數(shù)據(jù)集(GES15459 和GSE22377,檢索時間:建庫至2020 年11 月14 日),用于外部驗證胃癌患者的預后。含有多種癌癥組織和癌 旁 組 織 的ONCOMINE 數(shù) 據(jù) 庫(https://www.oncomine.org)也用于外部驗證。
WGCNA 是一種常用的模塊化分析技術,已被用于識別和篩選復雜疾病的生物標志物或藥物靶點[11]。首先,通過R 軟件中的“WGCNA”分析包構建基因共表達網(wǎng)絡[8,12]。然后,建立兩個基因之間的相關矩陣,通過對網(wǎng)絡拓撲結構分析,確定軟閾值大小,將鄰接轉化為拓撲重疊矩陣(TOM),TOM 可以度量1個基因的網(wǎng)絡連通性[7,13]。為了將表達譜相似的基因分類到基因模塊(ME)中,基于TOM 的差異測度進行平均連鎖層次聚類[8,12]。模塊鑒定后,采用t 檢驗計算組間各基因表達顯著性檢驗的P 值。為進一步分析模塊特征基因的差異性,為模塊樹狀圖選擇一條切線,并合并部分模塊。
對每個ME 進行分析時,通過Pearson 相關檢驗來評估MEs 與轉移的相關性,以確定相關模塊(各模塊在各個樣本上Pearson 系數(shù)絕對值相加為最高者認定為響應系數(shù)最高模塊)。選擇與轉移高度相關的模塊作為轉移模塊進行分析。利用STRING 網(wǎng)站進行蛋白-蛋白的互作(PPI)分析(選擇連接數(shù)最大10個),并利用Cytoscape 軟件中的MCODE 插件進一步分析。同時利用R 軟件的LASSO 回歸分析包篩選轉移模塊中基因。
為了解轉移模塊涉及的功能學和通路。采用標準富集計算方法進行GO 功能分析和KEGG 通路分析用以篩選與其相關的功能和通路。為了解核心分子在胃癌患者中的潛在功能,利用TCGA 胃癌患者數(shù)據(jù)集進行GSEA 分析。將P<0.05 和|富集評分(ES)|>0.3作為截止標準。
采 用SPSS 24.0、GraphPad Prism 7.0 和R 3.4.1軟件進行數(shù)據(jù)分析,同時用上述軟件進行圖像生成處理。組間比較采用t 檢驗?;蜃罴呀攸c取值,利用X-Tile 軟件,基于最小P 值和最大Log-rank χ2值進行分析計算[14]。繪制受試者工作特征(ROC)曲線,評估核心靶基因的預測能力,利用曲線下面積(AUC)評估敏感度和特異性。K-M 法繪制生存曲線,預測基因對患者預后的影響。以P <0.05 為差異有統(tǒng)計學意義。
本研究共納入359 例胃癌患者進行分析,其中男230 例,女129 例;年齡(65.7±10.9)歲;腫瘤位置:近端87 例,胃體134 例,遠端131 例,未知7 例;腫瘤組織學分級:G18 例,G2128 例,G3215 例,GX8 例;病理分期:Ⅰ期53 例,Ⅱ期116 例,Ⅲ期152 例,Ⅳ期38 例。
WGCNA 方法將基因進行模塊化富集分析(圖1,封三),共篩選16個相應的ME,見圖2(封三),依據(jù)各模塊在各個樣本上Pearson 系數(shù)篩選獲取了BLUE模塊,BLUE 模塊共含有2078個基因。
圖1 基因共表達網(wǎng)絡分析模式圖
圖2 各模塊相關分析圖
BLUE 模塊中相關基因篩選表達響應基因參與的信號通路關聯(lián)提示,主要與蛋白磷酸化異常、蛋白激酶活化等相關,見圖3(封三)。PPI 和MOCDE 插件篩選位于調(diào)控核心位置的基因,見圖4。LASSO 分析篩選出19個與預后相關的靶基因(DUSP16、NUP50、CDC5L、PTPRF、KBTBD2、SLC11A2、DHX15、ACBD5、RMI1、TRIM25、C3orf38、MSI2、VPS35、RNF43、PACRGL、GMCL1、SMAD5、IMPACT、IDE)。將上述3種方法篩選的結果進行綜合分析,獲得CDC5L。
圖3 BLUE 模塊中GO 和KEGG 分析
圖4 蛋白互作分析
CDC5L 表達量為7.2 時為最佳截點,見圖5(封三)。低表達CDC5L 患者的總生存率高于高表達患者(P=0.038),見圖6。為了解CDC5L 表達量在患者TNM 分期中的作用,對其分層分析,結果提示其Ⅰ、Ⅱ期低表達CDC5L 患者總生存率高于高表達患者(P=0.06、0.03),見圖7。CDC5L 顯示出較強的預測胃癌轉移患者能力(AUC=0.745),見圖8。ONCOMINE數(shù)據(jù)庫對CDC5L 基因進行meta 分析發(fā)現(xiàn),納入的33個數(shù)據(jù)集中,癌組織中CDC5L 表達量高于癌旁組織(P <0.001),見圖9。GEO 數(shù)據(jù)庫驗證結果顯示,低表達CDC5L 的胃癌患者有著更好的預后,見圖10。
圖5 X-tile軟件選取得CDC5L最佳截點
圖6 不同CDC5L 表達情況胃癌患者生存分析曲線
圖7 不同病理分期胃癌患者生存分析曲線
圖8 CDC5L 預測胃癌轉移的ROC 曲線
圖9 胃癌和癌旁組織中CDC5L 表達比較
圖10 CDC5L 在GEO 數(shù)據(jù)集的驗證結果
結果顯示,CDC5L 主要涉及細胞周期調(diào)控以及糖代謝通路。見圖11。
圖11 GSEA 分析功能學分析結果
胃癌是世界上癌癥相關性死亡的常見原因之一,盡管目前以手術結合化療/免疫治療/靶向治療等多種方案已廣泛應用于胃癌的治療當中,但胃癌的五年生存率依然低下[2-3]。這主要是因為大多數(shù)胃癌患者被發(fā)現(xiàn)時已處于中晚期,造成其預后不佳[15]。晚期轉移性胃癌患者五年生存率不足10%[16-17]。為更早地識別具有高危轉移風險的胃癌患者,本研究利用TCGA 數(shù)據(jù)集,通過精準的WGCNA 方法識別出CDC5L 與胃癌患者預后相關,同時其能夠較好地預測早期胃癌患者是否發(fā)生轉移;內(nèi)部和外部數(shù)據(jù)集同時驗證CDC5L 具有較強的重復性和可靠性。
CDC5L 是G2/M 轉變所必需的細胞周期調(diào)節(jié)劑[18-20]。CDC5L 通過與細胞周期檢查點蛋白ATR 相互作用,激活ATR 下游效應因子,干擾CDC5L 表達使S期細胞周期檢查點失活,從而增加藥物敏感性[21-22]。研究顯示[23-25],CDC5L 在肝癌、口腔鱗癌和神經(jīng)母細胞瘤中也發(fā)揮了作用。但目前尚無CDC5L 在胃癌中的作用及相關機制的報道。本研究結果顯示,CDC5L 能較好地預測胃癌患者生存及轉移發(fā)生情況。外部ONCOMINE 數(shù)據(jù)庫發(fā)現(xiàn),CDC5L 在癌組織中高表達。GEO 數(shù)據(jù)集驗證了低表達CDC5L 胃癌患者有更好的預后。因此,本研究結果對未來探索CDC5L 與胃癌患者不良預后奠定了一定的基礎。但不可否認的是,本研究結果還需進一步在臨床樣本中獲得更為可靠的驗證,以及通過體內(nèi)/外實驗驗證CDC5L 的臨床和生物學意義。
總之,本研究通過WGCNA 等生物信息學方法利用TCGA 數(shù)據(jù)庫發(fā)現(xiàn)CDC5L 高表達與較差預后相關。利用外部數(shù)據(jù)集對上述結果驗證,發(fā)現(xiàn)CDC5L 在癌組織中高表達。CDC5L 有可能成為新的預后指標,有助于胃癌患者個性化治療及臨床預后判斷。