彭穎,龔光輝,李景和, ,王俊普,
(1.中南大學湘雅醫(yī)院 病理科,湖南 長沙 410008;2.中南大學基礎(chǔ)醫(yī)學院 病理學系,湖南 長沙 410013)
肝細胞癌(hepatocellular carcinoma,HCC)是全球第六大最常見的惡性腫瘤,也是癌癥相關(guān)死亡的第四大誘因[1]。HCC的機理與基因突變的增量積累相關(guān),從而產(chǎn)生異常的免疫應(yīng)答、細胞周期、和血管生成[2]。至于免疫應(yīng)答,效應(yīng)免疫細胞可以對HCC進行免疫控制,從而有效減少惡性轉(zhuǎn)化細胞。然而,HCC進展過程清楚地顯示腫瘤免疫控制的失敗會抑制抗癌免疫反應(yīng)[3]。
隨著醫(yī)療技術(shù)的迅速發(fā)展,HCC的診斷和治療已大大改善,但預(yù)后仍然很差,5年生存率低于40%。盡管有多種預(yù)后生物標志物,包括甲胎蛋白(AFP)、DES-γ羧基凝血酶、和細胞角蛋白19被廣泛應(yīng)用于臨床實踐中[4],但它們的有效性會被各種因素影響,而且單個指標的預(yù)測能力不足。相反,基因標簽提供更好的預(yù)測性能,多基因預(yù)后標簽可以指導臨床醫(yī)師選擇適當?shù)闹委焄5]。
最近,能夠促進免疫系統(tǒng)攻擊癌細胞的免疫檢查點抑制劑的開發(fā)取得了顯著成功[6],在PubMed數(shù)據(jù)庫和中國知網(wǎng)中檢索肝細胞癌、免疫基因、預(yù)后模型等關(guān)鍵詞,尚未有研究構(gòu)建HCC的免疫相關(guān)基因標簽預(yù)后模型。
因此本研究基于The Cancer Genome Atlas(TCGA)數(shù)據(jù)庫,對于HCC鑒定有效且可靠的免疫基因相關(guān)生物標志物以進行預(yù)后預(yù)測。利用R語言在HCC中挖掘差異表達的免疫基因,結(jié)合TCGA數(shù)據(jù)庫中HCC臨床樣本并分析患者的預(yù)后,選擇其中與預(yù)后明顯相關(guān)的免疫基因構(gòu)建可以預(yù)測HCC預(yù)后的基因標簽。鑒定模型中的核心免疫基因和途徑可以增強臨床應(yīng)用,提供新的治療靶點并產(chǎn)生有關(guān)癌癥進展的新見解。
完整的mRNA表達數(shù)據(jù)和臨床信息可從TCGA數(shù)據(jù)庫(https://cancergenome.nih.gov)獲得。本次研究包括377個HCC樣本和50個相鄰的非癌性組織樣本。提取相應(yīng)的臨床信息,包括年齡、性別、TNM分類、病理分期、組織學分級、腫瘤狀態(tài)等。從Immport數(shù)據(jù)庫(https://www.immport.org/home)下載免疫基因相關(guān)信息。使用R語言的limma包提取差異表達的免疫相關(guān)差異基因。除去臨床信息不完整,隨訪信息<30 d的患者,用單變量Cox回歸分析評估與344例HCC患者總體生存率(OS)顯著相關(guān)的免疫基因,然后使用多元Cox比例風險回歸分析進行進一步篩選,計算每個基因的危險比(HR)。然后,根據(jù)表達水平的線性組合構(gòu)建預(yù)后風險評分模型,該風險評分由從多元Cox回歸分析獲得的回歸系數(shù)加權(quán),使用中位風險評分將344例患者分為高風險分組和低風險分組。同時從上述344例模型樣本中隨機抽取50%的病例(172例)為驗證樣本行內(nèi)部驗證。使用Kaplan-Meier曲線比較兩組的預(yù)后,并使用對數(shù)秩檢驗評估差異。繪制ROC曲線以分析預(yù)測患者總體生存的有效性。用Z檢驗檢查ROC曲線的曲線下面積(AUC)和一致性指數(shù)(C-index)分析模型的準確性。進行單因素和多因素Cox回歸分析以研究特征性風險評分與臨床病理特征之間的關(guān)系。
以上所有統(tǒng)計分析均使用R 3.6.1(www.r-project.org)進行,P<0.05被認為具有統(tǒng)計學意義。
使用Wilcoxon秩和檢驗分析了377個HCC和50個正常肝臟樣品中2 498個免疫相關(guān)基因的表達,并鑒定了329個差異表達的免疫相關(guān)基因,包括267個上調(diào)的免疫相關(guān)基因和62個下調(diào)的免疫相關(guān)基因(FDR<0.05,|log2FC|>1)(圖1)。
對HCC中329個差異表達的免疫相關(guān)基因的表達進行了單變量Cox回歸分析,以鑒定預(yù)后性差異免疫相關(guān)基因。數(shù)據(jù)顯示,24個差異表達的免疫相關(guān)基因的表達與HCC患者的OS明顯有關(guān)(均P<0.001)。為了確定預(yù)測預(yù)后的最佳模型,使用前向和后向選擇算法進行了多變量Cox比例風險回歸分析。PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1被確定為OS模型中的風險基因,高風險基因與患者的預(yù)后成負相關(guān)。模型中的基因全為高風險基因(表1)。
圖1 差異表達免疫相關(guān)基因分析 A:免疫相關(guān)基因在HCC組織和癌旁組織的差異表達熱圖;B:火山圖顯示HCC組織樣品(n=377)中2 498個免疫相關(guān)基因與正常肝臟樣品(n=50)的差異表達(紅點代表267個上調(diào)的基因,綠點代表62個下調(diào)的基因,其余黑點表示無差異表達的基因)Figure 1 Analysis of the differentially expressed immune-related genes A: Heat map of differentially expressed genes between HCC tissue and tumor adjacent tissue; B: Volcano showing the differential expressions of 2 498 immune-related genes in HHC tissue samples(n=377) compared with normal liver tissue sample (n=50) (the red dots standing for the 267 up-regulated genes, the green dot standing for the down-regulated genes and the black dots standing for the rest genes without differential expression)
表1 HCC中9個OS高風險免疫相關(guān)基因Table 1 The 9 high-risk immune-related genes associated with the OS of HCC
選擇上述9個OS相關(guān)的免疫相關(guān)基因構(gòu)成基因標簽。根據(jù)以下公式計算每個患者的風險評分:風險評分=(0.076)×PSMD14值+(0.001)×S100A11值+(0.058)×FABP6值+(0.019)×RBP2值+(0.161)×LCNL1值+(0.028)×FCN2值+(0.006)×NDRG1值+(0.450)×CSPG5值+(0.157)×NR6A1值。根據(jù)風險評分對患者進行分類,將其分為高風險分組和低風險分組?;颊叩娘L險評分分布和生存狀況如圖2A-B所示。高風險分組的病死率為48.8%,而低風險分組的病死率為26.6%。兩組之間的病死率存在明顯差異(P=2.722E-07)。Kaplan-Meier曲線顯示,高風險分組的患者預(yù)后較差(對數(shù)秩檢驗:P=1.715E-08)(圖2C)。高風險分組的中位生存期為2.753年,高危患者的3年和5年OS率分別為48.8%和33.8%,低風險分組的中位生存期為6.937年,而低?;颊叩?、5年OS率分別為76.8%和62.7%。使用隨時間變化的ROC曲線,測量了1、3年OS的預(yù)后風險模型的預(yù)測性能。模型樣本風險評分在ROC的AUC值下的面積在1、3年時分別為0.790、0.733(圖2D-E)。
對該模型進行內(nèi)部驗證,利用R語言將344個HCC樣本中,隨機抽取172個樣本,根據(jù)該模型的風險評分對內(nèi)部驗證樣本患者進行分類,將其分為高風險分組和低風險分組。內(nèi)部驗證樣本的風險評分分布和生存狀況如圖3A-B所示。內(nèi)部驗證樣本中,高風險分組的病死率為46.5%,而低風險分組的病死率為19.8%。兩組之間的病死率存在明顯差異(P=1.951E-04)。Kaplan-Meier曲線顯示,高風險分組患者預(yù)后明顯差于低風險分組患者(對數(shù)秩檢驗:P=2.22E-05)(圖3C)。高風險分組的中位生存期為1.284年,高危患者的3、5年OS率分別為48.8%、36.4%,低風險分組的中位生存期超過10年,而低?;颊叩?、5年OS率分別為77.4%、62.8%。內(nèi)部驗證樣本運用風險評分模型得到一致的生存分析結(jié)果。內(nèi)部驗證樣本的風險評分在ROC的AUC值下的面積在1、3年時分別為0.799和0.743(圖3D-E),均證明此模型具有較高的準確性。
C-index是在ROC曲線下面積的基礎(chǔ)上發(fā)展而來,用于估計預(yù)測結(jié)果與實際觀察結(jié)果相一致的概率。在R語言中用C-index分析此模型的準確性,在模型樣本和內(nèi)部驗證樣本中,C-index的值分別為0.715(95%CI=0.668~0.762)和0.756(95%CI=0.683~0.829),故此風險評分模型具有較高的準確性。
圖2 模型樣本高風險分和低風險分HCC患者的分析 A:高風險分(紅色)和低風險分(綠色)患者的風險評分分布;B:HCC患者的生存狀況(紅點表示死亡的患者,綠點表示存活的患者);C:高風險分(紅線)和低風險分(藍線)患者的OS的Kaplan-Meier生存曲線;D:時間依賴性ROC曲線顯示HCC患者在1年OS時的AUC值;E:時間依賴性ROC曲線顯示HCC患者在3年OS時的AUC值Figure 2 Analysis of HCC patients with high-risk score and low-risk score in the model sample A: Distribution of the patients with high-risk score (red color) and low-risk score (green color); B: Survival status of the HCC patients (the red dots standing for the dead cases and the green dots standing for the survivors); C: The OS Kaplan-Meier curves of patients with high-risk score (red line) and lowrisk score (blue line); D: Time-dependent ROC curve showing the AUC of 1-year OS of the HCC patients; E: Time-dependent ROC curve showing the AUC of 3-year OS of the HCC patients
圖3 內(nèi)部驗證樣本中高風險和低風險HCC患者的分析 A:高風險分(紅色)和低風險分(綠色)患者的風險評分分布;B:HCC患者的生存狀況(紅點表示死亡的患者,綠點表示存活的患者);C:高風險分(紅線)和低風險分(藍線)患者的OS的Kaplan-Meier生存曲線;D:時間依賴性ROC曲線顯示HCC患者在1年OS時的AUC值;E:時間依賴性ROC曲線顯示HCC患者在3年OS時的AUC值Figure 3 Analysis of HCC patients with high-risk score and low-risk score in the internal validation sample A: Distribution of the patients with high-risk score (red color) and low-risk score (green color); B: Survival status of the HCC patients (the red dots standing for the dead cases and the green dots standing for the survivors); C: The OS Kaplan-Meier curves of patients with high-risk score (red line) and low-risk score (blue line); D: Time-dependent ROC curve showing the AUC of 1-year OS of the HCC patients; E: Timedependent ROC curve showing the AUC of 3-year OS of the HCC patients
進一步研究風險評分分布與臨床參數(shù)分層之間的關(guān)系,腫瘤分級、病理分期、T分期和新腫瘤事件與風險評分有關(guān)(均P<0.05)(圖4);其他臨床特征,例如年齡、性別和腫瘤狀態(tài)對風險評分沒有影響(均P>0.05)。使用單變量和多變量Cox回歸來檢查風險評分與其他臨床病理特征的組合能力,以預(yù)測生存率。單因素Cox回歸顯示,腫瘤的T分期、病理分期和特征性風險評分與生存率有關(guān)(均P<0.05);而多因素回歸分析顯示,只有風險評分與預(yù)后明顯有關(guān),單因素與多因素分析均有統(tǒng)計學意義(單因素:HR=1.057,95%CI=1.041~1.074,P<0.001;多因素:HR=1.050,95%CI=1.033~1.067,P<0.001),這意味著風險評分是HCC的獨立預(yù)后指標(表2)。
圖4 風險評分分布與臨床參數(shù)之間的關(guān)系 A:組織學分級:B:新腫瘤事件;C:病理學分期;D:T分期Figure 4 Relationship between risk score distribution and clinical factors A: Histological grade; B: New tumor events; C: Pathologic stage; D: T stage
表2 HCC患者OS的單因素和多因素Cox回歸分析。Table 2 Univariate and multivariate Cox regression analysis of OS in HCC patients
HCC是高度異質(zhì)性疾病[7]。數(shù)據(jù)顯示,HCC的發(fā)病率和病死率在世界范圍內(nèi)一直在增加。盡管在治療上已取得很大進展,但HCC的總體生存率仍然很差。因此,迫切需要鑒定肝癌的敏感和特異性生物標志物。有證據(jù)[8-9]表明,常用的臨床病理學參數(shù)(例如TNM分期,年齡,性別,病毒感染和血清AFP水平)不足以準確預(yù)測患者的預(yù)后。因此,在癌癥的發(fā)展和預(yù)后過程中,大量的mRNA被檢查并鑒定為生物標志物。例如,Gao等[10]研究Rho鳥嘌呤核苷酸交換因子39(ARHGEF39)的表達及其在HCC中的預(yù)后意義。Gu等[11]發(fā)現(xiàn)CELSR3 mRNA表達在HCC中增加,提示預(yù)后不良。但是,由于這些生物標志物會受到許多因素的影響,預(yù)測能力不穩(wěn)定。
大多數(shù)HCC發(fā)生在慢性炎癥的背景下,許多患者還伴有肝硬化,局部和全身免疫缺陷。此外,肝臟本身就是免疫器官,肝臟獨特的免疫生物學特性可以促進腫瘤的發(fā)生和對腫瘤的耐受性[12],同時也為免疫檢查點抑制劑的靶向治療提供了機會[13]。
多年來,隨著高通量測序技術(shù)的發(fā)展,微陣列數(shù)據(jù)和生物信息學的結(jié)合被廣泛用于多種癌癥的診斷以及預(yù)后的生物標志物的開發(fā)。利用數(shù)據(jù)挖掘技術(shù)以及單變量和多變量Cox回歸分析來開發(fā)包含各種相關(guān)基因的基因標簽。這樣的基因標簽被廣泛用于分子診斷,個體化治療,準確的存活預(yù)測[14],其預(yù)測準確性也優(yōu)于單一生物標志物[15]。
因此利用生物信息學技術(shù),建立一個與免疫相關(guān)的基因標簽以指導HCC患者的治療和預(yù)后十分必要。本研究利用Immport數(shù)據(jù)庫,篩選出在HCC癌和癌旁差異表達的329個IRG,通過單變量和多變量Cox比例風險回歸模型來鑒定出了9個具有OS的預(yù)后價值的免疫相關(guān)基因(PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1),這9個基因在HCC的腫瘤組織中都是被上調(diào),且與不良預(yù)后成正相關(guān)。利用COX回歸模型得出基因標簽的風險評分。根據(jù)風險評分,將患者分為高風險分組和低風險分組。低風險分組患者的預(yù)后明顯好于高風險分組。ROC曲線、C-index分析以及內(nèi)部驗證表明此風險評分系統(tǒng)在預(yù)測HCC總生存期時具有較準確的預(yù)測性能。此外,將臨床病理因素與風險評分進行相關(guān)性分析,結(jié)果表明,風險評分與患者T分期,組織學分級,以及病理學分期和是否發(fā)生新腫瘤事件等成負相關(guān)。最后,本研究進行了單因素和多因素Cox回歸分析,以探索風險評分和其他臨床病理參數(shù)共同預(yù)測生存的能力。結(jié)果證實風險評分是一個穩(wěn)定,獨立的預(yù)后指標。
在本研究鑒定的免疫基因標簽中,去泛素化酶PSMD14,也稱為RPN11、POH1和PAD1,是26S蛋白酶體中19S調(diào)節(jié)帽的組成部分。已證明其參與多種生物學過程的調(diào)控,包括細胞生存力[16],衰老[17],多能性[18],細胞自噬[19]和DNA損傷[20]。去泛素化酶PSMD14通過去泛素化和穩(wěn)定化E2F1,促進了HCC的發(fā)生[21]。Wang等[22]發(fā)現(xiàn),PSMD14可促進HCC細胞中TGF-β信號傳導增加肝癌細胞的轉(zhuǎn)移潛能與不良預(yù)后相關(guān)。S100A11是包含2個EF手鈣結(jié)合基序的S100蛋白家族的成員。該蛋白可能在運動,侵襲和微管蛋白聚合中起作用[23]。S100A11是偽足突出以及腫瘤細胞遷移和侵襲的必需蛋白之一。據(jù)報道[25],S100A11是胃癌淋巴結(jié)轉(zhuǎn)移的準確預(yù)測因子[24]和結(jié)腸源性肝轉(zhuǎn)移的預(yù)測因子。TGF-β可誘導肝癌中S100A11的表達[26]。Luo等[27]發(fā)現(xiàn)S100A11在肝癌中高表達,并在EGFRvIII-STAT3途徑中起著至關(guān)重要的作用,以促進癌細胞的侵襲和轉(zhuǎn)移。RBP2屬于JARID家族,可以使H3K4me2和H3K4me3顯著脫甲基[28],RBP2的功能主要與癌癥的上皮-間質(zhì)轉(zhuǎn)化(EMT)、遷移、侵襲和細胞增殖有關(guān)。RBP2可能通過PI3K / AKT /HIF-1α信號傳導參與促進VEGF表達,RBP2與VEGF協(xié)同參與了HCC腫瘤血管生成[29]。FCN2基因編碼無花果酶2(L-ficolin,F(xiàn)CN2),是一種可溶性血清蛋白,被認為在宿主先天免疫中發(fā)揮重要作用,主要在肝臟中表達,并分泌入血液循環(huán)[30]。此外,據(jù)報道FCN2在TGF-β信號通路在調(diào)節(jié)中扮演至關(guān)重要的角色,從而參與乳腺癌、胰腺癌、結(jié)腸癌和HCC等[31-32]發(fā)生進展和轉(zhuǎn)移。NDRG1是N-Myc下游調(diào)控的基因1,在HCC中,NDRG1通過直接與GSK-3β和Nur77相互作用來阻止β-catenin降解而成為癌基因[33]。Shi等[34]發(fā)現(xiàn)NDRG1通過抑制β-catenin的降解促進核易位和增強的CSC樣特性而促進了HCC轉(zhuǎn)移的潛力,NDRG1的上調(diào)與HCC的預(yù)后不良有關(guān)。
尚未有研究證明FABP6(回腸脂質(zhì)結(jié)合蛋白;回腸膽汁酸結(jié)合蛋白)、LCNL1(脂質(zhì)蛋白樣1)和NR6A1(孤兒受體)在肝癌中發(fā)生發(fā)展中的關(guān)系。FABP6參與結(jié)腸上皮細胞內(nèi)的膽汁酸胞內(nèi)運輸,Ohmachi等[35]發(fā)現(xiàn)了FABP6在結(jié)直腸癌中過表達,而且Keler等[36]發(fā)現(xiàn)了肝臟型脂肪酸性結(jié)合蛋白(L-FABP)在肝細胞內(nèi)促進DNA合成從而促進細胞生長和維持細胞形態(tài)。LCNL1生物學功能涉及先天性免疫反應(yīng),并充當潛在有害親脂分子的生理清除劑,Yang等[37]發(fā)現(xiàn)LCNL1的高表達也顯示HER-2陽性乳腺癌預(yù)后不良。NR6A1/CT150是一種孤兒受體,是睪丸癌(CT)抗原家族的新成員。已有研究[38-39]表明NR6A1在改變細胞命運,包括細胞生長和分化,神經(jīng)發(fā)生和生殖細胞分化等方面有重要作用。Cheng等[40]研究表明NR6A1過表達可增強DU145和PC3細胞系的上皮-間充質(zhì)轉(zhuǎn)化(EMT)過程,這與前列腺癌的復(fù)發(fā)轉(zhuǎn)移不良預(yù)后密切相關(guān)。FABP6、NR6A1、LCNL1在多種癌癥中都起著重要作用,其HCC中的作用機制值得進一步研究。
目前尚未有研究闡明CSPG5在癌癥中的作用機制,CSPG5是含雞酸性亮氨酸的富含EGF樣結(jié)構(gòu)域的腦蛋白(CALEB),為硫酸軟骨素蛋白聚糖(CSPG)5或神經(jīng)聚糖C,是含有神經(jīng)軟骨素和表皮生長因子(EGF)結(jié)構(gòu)域的跨膜蛋白。在神經(jīng)系統(tǒng)的發(fā)育過程中起重要作用,Jüttner等[41]的研究表明CSPG5參與小腦γ-氨基丁酸能突觸的突觸前分化。CSPG5在其他疾病以及癌癥中的作用值得進一步研究。
本研究對HCC基因表達譜進行了全面而新穎的分析,以識別可能在HCC患者的發(fā)展和預(yù)后中發(fā)揮核心作用的DEIRG。本研究的預(yù)測模型基于9個免疫相關(guān)基因的表達水平。這種方法比全基因組測序更經(jīng)濟和臨床上可行。9基因標簽結(jié)合臨床病理參數(shù),可以使臨床醫(yī)生更準確的分析每個患者的預(yù)后。它的風險評分系統(tǒng)易于理解,有助于定制治療和醫(yī)療決策。
本研究可能為HCC的分子機制、免疫治療和預(yù)后的預(yù)測提供了新的見解。本研究構(gòu)建的新的HCC預(yù)測風險評分模型的優(yōu)點之一是:預(yù)測OS方面具有很高的敏感性和特異性,并且隨機內(nèi)部驗證也證明其有效性。此外,風險評分模型與免疫抑制環(huán)境和免疫檢查點表達相關(guān),從而幫助臨床醫(yī)生為HCC患者選擇個性化免疫療法。
同時,本研究也存在一些局限性。首先,風險評分模型需要在多中心臨床試驗和前瞻性研究中得到進一步驗證。其次,仍需進一步對9個免疫相關(guān)基因的功能和機理進行解析。這些工作有待于進一步開展。
本文中所述的9免疫基因預(yù)后標簽和基于該模型的風險評分先前尚未報道。因此,本研究使用生物信息學方法,篩選出由PSMD14、S100A11、FABP6、RBP2、LCNL1、FCN2、NDRG1、CSPG5和NR6A1組成的免疫相關(guān)基因標簽,并證明其在HCC中的預(yù)后價值;該模型可以預(yù)測切除術(shù)后HCC患者的OS,可能有助于個體化治療的臨床決策。而且值得注意的是,風險評分模型提供了免疫學觀點,以闡明確定HCC臨床結(jié)果的機制。