柯丁心 龔拯 劉麗麗 曾周 王斌, 張萬明,,3
(1 青島大學(xué)基礎(chǔ)醫(yī)學(xué)院,山東 青島 266071; 2 青島大學(xué)華賽醫(yī)學(xué)細胞和蛋白質(zhì)藥物研究院; 3 青島萬明賽伯藥業(yè)有限公司)
肝細胞癌(hepatocellular carcinoma, HCC)是最常見的原發(fā)性肝癌,在惡性腫瘤中發(fā)病率居世界第6位,在腫瘤相關(guān)死亡原因中居世界第4位,而且發(fā)病率不斷上升[1-2]。其病因常常與乙型肝炎病毒(HBV)或丙型肝炎病毒(HCV)感染、酒精濫用以及非酒精性脂肪肝有關(guān)[3]。而肝硬化是各種慢性炎癥和纖維化肝病的終末期,是發(fā)展為HCC的高危因素[4]。在過去的10年中,HCC的監(jiān)測、診斷和治療已經(jīng)取得了相當(dāng)大的進展,但患者的病死率仍然很高,因此早期診斷和預(yù)后監(jiān)測對改善患者預(yù)后至關(guān)重要[3]。實際上由于HCC復(fù)雜的病因和高度異質(zhì)性,預(yù)后監(jiān)測較為困難。肝硬化為一種癌前狀態(tài),通過對肝硬化狀態(tài)的深入研究,對于篩選HCC預(yù)防和治療的生物標(biāo)志物或靶點具有重要意義[5-7]。目前雖然已有關(guān)于肝癌預(yù)后預(yù)測模型的研究報道,但基于肝硬化代謝相關(guān)基因構(gòu)建HCC預(yù)后預(yù)測風(fēng)險模型的相關(guān)研究尚未見報道。本研究擬通過腫瘤基因組圖譜(TCGA)數(shù)據(jù)庫獲得HCC肝硬化代謝相關(guān)基因表達譜,根據(jù)LASSO回歸模型篩選風(fēng)險基因并構(gòu)建預(yù)后預(yù)測模型,通過TCGA和國際癌癥基因組聯(lián)盟(ICGC)數(shù)據(jù)庫中的臨床信息驗證模型的準(zhǔn)確性,最后通過分析高風(fēng)險組與低風(fēng)險組風(fēng)險差異基因的信號通路和免疫功能,為HCC的臨床治療提供新的潛在靶點。
通過TCGA數(shù)據(jù)庫下載374例HCC患者腫瘤組織和50例患者癌旁正常組織的mRNA表達譜數(shù)據(jù)和臨床數(shù)據(jù),從ICGC數(shù)據(jù)庫中獲得HCC患者的RNA-seq數(shù)據(jù)和臨床資料[8]。同時于Gene Set Enrichment Analysis(GSEA)數(shù)據(jù)庫篩選HCC組織和癌旁正常組織差異表達的肝硬化代謝相關(guān)基因,用于后續(xù)分析。
利用R軟件“l(fā)imma”包對腫瘤組織和癌旁正常組織間的肝硬化代謝相關(guān)基因進行Wlicox檢驗差異篩選,其中篩選條件為FDR BH(Benjamini & Hochberg)矯正后的閾值P<0.05且|log2FC|>1。通過單因素Cox生存分析對肝硬化代謝相關(guān)基因進行預(yù)測價值篩選,后與差異表達基因取交集,獲得與預(yù)后相關(guān)的肝硬化代謝差異表達基因。
為驗證模型的準(zhǔn)確性,首先將該預(yù)后預(yù)測模型在TCGA數(shù)據(jù)庫中進行訓(xùn)練,然后再在ICGC數(shù)據(jù)庫中進行驗證。方法為:利用R軟件中的“prcomp”包進行主成分分析,即采用主成分分析(PCA)和t分布-隨機鄰近嵌入(t-SNE)方法將分組可視化,以判斷分組的可信性;利用Kaplan-Meier(K-M)方法進行生存分析,評估風(fēng)險評分與患者生存時間之間的相關(guān)性;采用時間依賴性受試者工作特征(ROC)曲線評價模型預(yù)后預(yù)測的效果,計算曲線下面積(AUC)。利用R軟件中的“rms”和“ggDCA”包繪制校準(zhǔn)曲線及臨床決策曲線(DCA),以驗證模型的校準(zhǔn)度和臨床適應(yīng)性。采用單因素和多因素Cox分析檢測風(fēng)險評分是否可以作為患者獨立預(yù)后的預(yù)測指標(biāo)。
采用Wilcoxon檢驗篩選出高風(fēng)險組與低風(fēng)險組患者的風(fēng)險差異基因,并分別在TCGA和ICGC數(shù)據(jù)庫中進行基因本體(GO)和京都基因與基因組百科全書(KEGG)富集分析,篩選風(fēng)險差異基因主要富集的功能和通路;然后采用單樣本基因集富集分析(ssGSEA)軟件分析風(fēng)險差異基因主要富集的免疫細胞和免疫相關(guān)通路。
通過Wilcox檢驗篩選TCGA數(shù)據(jù)庫中腫瘤組織和癌旁正常組織的差異表達肝硬化代謝相關(guān)基因,共獲得差異表達基因88個;通過單因素Cox生存分析方法獲得與預(yù)后相關(guān)的基因19個,將兩者取交集后最終得到7個差異表達基因,分別為細胞色素P450單加氧酶(CYP2C9)、脂肪酸結(jié)合蛋白5(FABP5)、脂肪酸結(jié)合蛋白6(FABP6)、蘋果酸酶1(ME1)、基質(zhì)金屬肽酶1(MMP1)、泛醇-細胞色素c還原酶鉸鏈蛋白(UQCRH)、泛醇-細胞色素c還原酶鉸鏈蛋白樣(UQCRHL)。
對上述7個差異表達基因進行LASSO回歸和多因素Cox分析,根據(jù)LASSO回歸方法中誤差最小的λ值,最終顯示有5個風(fēng)險基因被納入預(yù)后預(yù)測模型,分別為CYP2C9、ME1、MMP1、UQCRH、UQCRHL。由此獲得的風(fēng)險評分公式為:風(fēng)險評分=-0.059×CYP2C9+0.123×ME1+0.262×MMP1+0.111×UQCRH+0.306×UQCRHL。
預(yù)后預(yù)測模型的訓(xùn)練:根據(jù)上述風(fēng)險評分公式,計算TCGA數(shù)據(jù)庫中每例患者的風(fēng)險評分,根據(jù)中位值將患者分為高風(fēng)險組和低風(fēng)險組。PCA以及t-SNE分析圖顯示,高風(fēng)險組和低風(fēng)險組之間交叉較少,分組合理且可信度高(圖1A、B);K-M生存曲線顯示,高風(fēng)險組和低風(fēng)險組的生存差異有統(tǒng)計學(xué)意義(P=8.518e-5,圖1C);ROC曲線分析示模型預(yù)測1年AUC為0.729,2年為0.703,3年為0.658,構(gòu)建的預(yù)后預(yù)測模型預(yù)測HCC患者預(yù)后準(zhǔn)確性較高(圖1D);校準(zhǔn)曲線表明患者1、3、5年的生存率斜率較接近標(biāo)準(zhǔn)斜率(圖1E);DCA曲線顯示構(gòu)建模型所用的風(fēng)險評分相比其他臨床因素預(yù)測范圍更大,準(zhǔn)確性更高(圖1F);單因素Cox回歸分析表明腫瘤stage分級、風(fēng)險評分均與HCC患者總生存率(OS)顯著相關(guān),多因素Cox分析顯示風(fēng)險評分可作為獨立的預(yù)后預(yù)測因子(圖1G、H)。
A:TCGA數(shù)據(jù)庫的PCA分析圖,B:TCGA數(shù)據(jù)庫的t-SNE分析圖,C:高風(fēng)險組和低風(fēng)險組的K-M曲線,D:ROC曲線,E:校準(zhǔn)曲線,F(xiàn):DCA曲線,G:單因素Cox分析結(jié)果,H:多因素Cox分析結(jié)果圖1 預(yù)后預(yù)測模型在TCGA數(shù)據(jù)庫的訓(xùn)練結(jié)果Fig.1 Training results of the prognostic model in the TCGA database
預(yù)后預(yù)測模型的驗證:在ICGC數(shù)據(jù)庫中,PCA和t-SNE分析結(jié)果顯示,高風(fēng)險組和低風(fēng)險組分組合理(圖2A、B);K-M生存曲線顯示,高風(fēng)險組和低風(fēng)險組的生存差異有統(tǒng)計學(xué)意義(P=1.181e-1,圖2C);ROC曲線顯示該預(yù)后預(yù)測模型具有較優(yōu)的準(zhǔn)確性,且對2、3年患者預(yù)后預(yù)測的準(zhǔn)確性略低于TCGA數(shù)據(jù)庫(圖2D);校準(zhǔn)曲線顯示,患者1、3、5年的生存率斜率較符合標(biāo)準(zhǔn)斜率(圖2E);DCA曲線也顯示構(gòu)建模型所用的風(fēng)險評分預(yù)測范圍更大,準(zhǔn)確性更高(圖2F);單因素Cox及多因素Cox分析表明,性別、stage分級和風(fēng)險評分可作為獨立預(yù)后預(yù)測因子(圖2G、H)。
A:ICGC數(shù)據(jù)庫的PCA分析圖,B:ICGC數(shù)據(jù)庫的t-SNE分析圖,C:高風(fēng)險組和低風(fēng)險組的K-M曲線,D:ROC曲線,E:校準(zhǔn)曲線,F:DCA曲線,G:單因素Cox分析結(jié)果,H:多因素Cox分析結(jié)果圖2 預(yù)后預(yù)測模型在ICGC數(shù)據(jù)庫的驗證結(jié)果Fig.2 Validation results of the prognostic model in the ICGC database
GO富集分析結(jié)果顯示,ICGC數(shù)據(jù)庫風(fēng)險差異基因主要富集在細胞外結(jié)構(gòu)組織功能中,在TCGA數(shù)據(jù)庫中主要富集在細胞吞噬功能中。KEGG富集分析顯示,ICGC數(shù)據(jù)庫中風(fēng)險差異基因主要富集在PI3K-Akt信號通路與蛋白聚糖代謝通路方面,TCGA數(shù)據(jù)庫主要為細胞周期通路方面。
在ICGC數(shù)據(jù)庫中ssGSEA軟件分析結(jié)果顯示,風(fēng)險差異基因在巨噬細胞的評分差異較大,在免疫相關(guān)功能方面與人類白細胞抗原(HLA)及Ⅱ型干擾素應(yīng)答密切相關(guān)。在TCGA數(shù)據(jù)庫中分析示,風(fēng)險差異基因與巨噬細胞、主要組織相容性復(fù)合體Ⅰ(MHC-Ⅰ)類應(yīng)答與Ⅱ型干擾素應(yīng)答密切相關(guān)。
肝硬化是由不同的肝損傷機制引起的,可導(dǎo)致肝細胞壞死和肝纖維化,組織學(xué)上表現(xiàn)為彌散性結(jié)節(jié)性再生,導(dǎo)致門脈高壓和肝合成功能障礙[10]。臨床上,肝硬化被認為是一種終末期疾病,是發(fā)展成為HCC的高危因素[11]。
本研究首先通過對TCGA數(shù)據(jù)庫中HCC患者的mRNA表達譜數(shù)據(jù)和臨床數(shù)據(jù)進行分析,篩選出與預(yù)后相關(guān)的肝硬化代謝差異表達基因,采用LASSO回歸分析構(gòu)建了一個由CYP2C9、ME1、MMP1、UQCRH、UQCRHL構(gòu)成的預(yù)后預(yù)測模型,并用TCGA和ICGC數(shù)據(jù)庫的相關(guān)數(shù)據(jù)進行驗證。驗證過程中,PCA和t-SNE分析顯示預(yù)后預(yù)測模型對高低風(fēng)險的分組十分合理。ROC曲線和校準(zhǔn)曲線表明該模型具有較好的區(qū)分度和校準(zhǔn)度,DCA曲線和多因素Cox分析則表明該模型具有優(yōu)良的臨床適應(yīng)性,且可作為獨立預(yù)后因子應(yīng)用。這些結(jié)果都表明,盡管對于肝癌預(yù)后預(yù)測模型的研究已有報道,但基于肝硬化代謝相關(guān)基因構(gòu)建HCC預(yù)后預(yù)測模型仍具有一定臨床價值,需要我們進一步研究。
研究發(fā)現(xiàn),CYP2C9主要參與肝臟的脂質(zhì)代謝過程[12],可通過下調(diào)組蛋白去乙?;敢种剖彻馨┑那忠u和遷移[13],與HCC患者的預(yù)后具有正相關(guān)性[14]。ME1是一種胞質(zhì)蛋白,可以催化蘋果酸轉(zhuǎn)化為丙酮酸,促進煙酰胺腺嘌呤二核苷磷酸生成還原型煙酰胺腺嘌呤二核苷酸磷酸(NADPH),而NADPH是維持癌細胞中氧化還原穩(wěn)態(tài)和脂肪生成的關(guān)鍵輔助因子[15]。研究表明,ME1可與線粒體異檸檬酸脫氫酶(IDH2)結(jié)合,促進腫瘤生長,而ME1和IDH2的結(jié)合被抑制后,可通過破壞線粒體-胞質(zhì)溶膠NADPH轉(zhuǎn)運來阻斷代謝補償,探討阻斷ME1和IDH2的結(jié)合方法或路徑,可能會成為將來抗癌治療的新研究方向[16]。已經(jīng)證明,ME1的高表達可通過NADPH方式促進小鼠結(jié)直腸癌的生長和轉(zhuǎn)移,并預(yù)示著預(yù)后不良,而在胃癌細胞系SGC7901中敲低ME1后可顯著抑制腫瘤細胞的增殖、遷移和侵襲[17]。
研究顯示,在機體正常生理過程中,MMP1可參與細胞外基質(zhì)(ECM)的分解,在疾病發(fā)展過程中,可促進炎癥的發(fā)生和腫瘤細胞的轉(zhuǎn)移[18]。據(jù)生物信息學(xué)分析顯示,MMP1的敲低可以通過抑制P13K/Akt/c-myc信號通路以及上皮間質(zhì)轉(zhuǎn)化來抑制結(jié)直腸癌的進展,還可以通過miR-188-5p上調(diào)SRY-Box轉(zhuǎn)錄因子4和細胞周期蛋白依賴性激酶4來促進人口腔鱗狀細胞癌的增殖以及遷移[19]。UQCRH是線粒體電子傳遞鏈多亞基復(fù)合體Ⅲ的鉸鏈蛋白[20],定位于線粒體膜并誘導(dǎo)線粒體ROS生成,已發(fā)現(xiàn)在肺腺癌、透明細胞腎細胞癌等多種腫瘤組織當(dāng)中呈現(xiàn)高表達[21]。UQCRHL作為源自UQCRH基因的假基因,具有UQCRH基因相應(yīng)特征,具有一個開放閱讀框,可產(chǎn)生與UQCRH基因相同或幾乎相同大小的蛋白質(zhì),發(fā)揮相似作用[22]。
腫瘤的免疫機制研究一直是目前的研究熱點,本研究通過對高風(fēng)險組和低風(fēng)險組之間的風(fēng)險差異基因進行GO和KEGG富集分析,探索高風(fēng)險組與低風(fēng)險組在生物學(xué)功能、相關(guān)代謝途徑及免疫功能之間的差異。富集分析結(jié)果顯示這些風(fēng)險差異基因主要生物學(xué)功能為ECM發(fā)生發(fā)展及細胞吞噬,主要代謝通路為PI3K-Akt信號通路及蛋白聚糖代謝、細胞周期調(diào)控等通路,可能為HCC患者預(yù)后的預(yù)測提供了新的研究方向。同時本研究通過ssGSEA軟件對高風(fēng)險組與低風(fēng)險組的風(fēng)險差異基因進行免疫細胞和免疫功能分析,結(jié)果顯示風(fēng)險差異基因的巨噬細胞評分差異較大,高風(fēng)險組的MHC-Ⅰ類應(yīng)答與Ⅱ型干擾素應(yīng)答功能降低,提示該組患者以MHC-Ⅰ類和Ⅱ型干擾素應(yīng)答為代表的體液免疫應(yīng)答減弱,這可能是高風(fēng)險組預(yù)后不良的原因。
綜上所述,本研究基于肝硬化代謝相關(guān)基因,篩選出5個與預(yù)后密切相關(guān)的差異表達基因,可能是HCC臨床治療和預(yù)后的潛在靶點;并成功構(gòu)建了基于這5個基因的預(yù)后預(yù)測模型,經(jīng)進一步驗證和分析,該模型可為HCC患者的精準(zhǔn)治療和預(yù)后評估提供指導(dǎo)。
利益沖突聲明:所有作者聲明不存在利益沖突。
ConflictsofInterest: All authors disclose no relevant conflicts of interest.
作者貢獻:王斌、張萬明、柯丁心、龔拯參與了研究設(shè)計;柯丁心、劉麗麗、曾周參與了論文的寫作和修改。所有作者均閱讀并同意發(fā)表該論文。
Contributions:WANGBin,ZHANGWanming,KEDingxin, andGONGZhengparticipated in the research design. The manuscript was drafted and revised byKEDingxin,LIULili, andZENGZhou. All the authors have read the last version of the paper and consented submission.