王洪英 李巖 韓鑫浩 魏孝禮 賈慧珣 袁文娟 張秋菊
胃癌是消化系統(tǒng)最常見的惡性腫瘤之一,全球每年約有77萬人死于胃癌,我國每年因其死亡人數(shù)超過37萬,腫瘤致死率高[1]。研究表明,中晚期胃癌預(yù)后普遍較差,盡管運(yùn)用放化療、靶向治療等手段可在一定程度上延長患者的生存時間,但5年生存率仍然不足50%,而早期患者術(shù)后5年生存率超過90%[2]。因此胃癌早期篩查和預(yù)后預(yù)測對改善患者的生存狀況具有重要意義。
長鏈非編碼RNA(Long non-coding RNAs,lncRNAs)是指長度大于200個核苷酸的非編碼RNA,廣泛參與表觀遺傳、細(xì)胞周期調(diào)控等眾多生命活動,在胃癌的發(fā)生發(fā)展和轉(zhuǎn)移等過程中發(fā)揮重要作用[3-4]。同時lncRNAs被證實與腫瘤免疫密切相關(guān)[5]。但針對胃癌診斷和預(yù)后與免疫lncRNAs的關(guān)系研究較少。
因此本研究擬通過提取胃癌免疫相關(guān)lncRNAs,構(gòu)建早期診斷和預(yù)后模型,為胃癌早期診斷和預(yù)后預(yù)測提供理論依據(jù)。
下載The Cancer Genome Atlas(TCGA,https://xena.ucsc.edu/)數(shù)據(jù)庫中的STAD數(shù)據(jù)集作為訓(xùn)練集,用于胃癌早期診斷和預(yù)后模型的構(gòu)建;下載gene expression omnibus(GEO,https://www.ncbi.nlm.nih.gov/)數(shù)據(jù)庫中的GSE54129[6]和GSE62254[7]數(shù)據(jù)集作為驗證集,分別用于診斷及預(yù)后模型的外部驗證;免疫基因列表下載自immport數(shù)據(jù)庫(https:www.immport.org/)。
對TCGA-STAD和GSE62254中患者年齡、性別、腫瘤分期及總生存期信息缺失或總生存時間小于30天的樣本進(jìn)行剔除;利用GSE54129進(jìn)行外部驗證時未使用臨床信息,因此納入全部樣本。
從GENCODE(https://www.gencodegenes.org/)數(shù)據(jù)庫下載人類基因注釋文件(gencode.v38.annotatio版本),對3個數(shù)據(jù)集進(jìn)行基因注釋后取交集,獲得lncRNAs 1 961個,免疫基因1 739個。過濾低豐度基因(所有樣本counts之和小于1)后,最終納入1 957個lncRNAs和1 716個免疫基因。
利用R語言DESeq2[8]包對訓(xùn)練集進(jìn)行差異基因分析,選取調(diào)整后P<0.05且|logFC| >1.5倍的lncRNAs作為差異表達(dá)lncRNAs(Differentially expressed lncRNAs,DElncRNAs)。將其與免疫基因行Pearson相關(guān)性分析,過濾出相關(guān)系數(shù)|r| >0.5且P<0.0001的免疫DElncRNAs以供后續(xù)分析。
將免疫DElncRNAs在不同腫瘤分期(Ⅰ、Ⅱ、Ⅲ期)患者中進(jìn)行t檢驗,篩選Ⅰ、Ⅱ、Ⅲ期兩兩比較均有統(tǒng)計學(xué)差異(P<0.05),(Ⅰ期vs.Ⅱ期)和(Ⅰ期vs.Ⅲ期)有差異,或者(Ⅱ期vs.Ⅲ期)和(Ⅰ期vs.Ⅲ期)有差異的基因作為胃癌早期診斷候選標(biāo)志物,構(gòu)建早期診斷l(xiāng)ogistic模型chass=∑(基因Exp×βi)。對模型進(jìn)行Hosmer-Lemeshow擬合優(yōu)度檢驗,并繪制ROC曲線評價模型的診斷價值。
選取至少在兩個分期(Ⅰ、Ⅱ、Ⅲ期)中差異表達(dá)的免疫DElncRNAs進(jìn)行單因素Cox回歸分析,獲得影響患者總生存期的免疫lncRNAs(P<0.05),通過LASSO回歸構(gòu)建預(yù)后基因標(biāo)簽riskscore=∑(基因Exp×βi)。根據(jù)標(biāo)簽風(fēng)險得分中位數(shù)將患者分為高、低風(fēng)險組進(jìn)行Kaplan-Meier生存分析。一致性指數(shù)(C-index)和ROC曲線分析用于評估基因標(biāo)簽的預(yù)測性能。
將基因標(biāo)簽與患者臨床指標(biāo)(年齡、性別、腫瘤分期)進(jìn)行單因素及多因素Cox回歸分析,篩選出影響胃癌患者總生存率的獨(dú)立預(yù)后因素,構(gòu)建預(yù)后風(fēng)險模型nomogramscore=∑(臨床指標(biāo)×βi),并繪制列線圖。而后利用C-index、ROC曲線和校準(zhǔn)曲線(Calibration curve,CV)分析來評價模型的預(yù)測能力。
所有統(tǒng)計采用R4.1.1版本完成,臨床計量資料以中位數(shù)和四分位數(shù)表示,組間比較采用Wilcoxon秩和檢驗(數(shù)據(jù)不服從正態(tài)分布);計數(shù)資料以頻數(shù)(%)表示,組間比較采用χ2檢驗或Fisher精確檢驗,P<0.05為差異具有統(tǒng)計學(xué)意義。
經(jīng)樣本篩選過程,訓(xùn)練集STAD中共納入320例腫瘤組織樣本和32例癌旁組織樣本,驗證集GSE54129中共納入111例腫瘤組織樣本和21例癌旁組織樣本,驗證集GSE62254中共納入300例腫瘤組織樣本。由于僅在預(yù)后模型的構(gòu)建與驗證中使用臨床信息,因此表1中僅列出預(yù)后模型訓(xùn)練集和驗證集的臨床信息。其中年齡(P=0.0014)和腫瘤分期(P<0.0001)的組間分布差異具有統(tǒng)計學(xué)意義。
表1 預(yù)后模型訓(xùn)練集及驗證集胃癌患者臨床信息
經(jīng)差異基因篩選,獲得344個DElncRNAs,與免疫基因行Pearson相關(guān)分析后獲得免疫lncRNAs 194個,其中上調(diào)基因125個,下調(diào)基因69個(圖1A)。
圖1 差異表達(dá)lncRNAs和免疫lncRNAs篩選Figure 1 Screening for differentially expressed lncRNAs and immune-lncRNAsNote:A.Volcano plot of differentially expressed lncRNAs in gastric and adjacent tissues;B.Venn diagram of differentially expressed immune-lncRNAs in different stages of gastric cancer.
通過t檢驗獲得17個(Ⅰ期vs.Ⅱ期)和(Ⅰ期vs.Ⅲ期)有差異的lncRNAs,以及2個(Ⅱ期vs.Ⅲ期)和(Ⅰ期vs.Ⅲ期)有差異的lncRNAs,共計19個免疫lncRNAs(圖1B)。利用logistic回歸分析,最終篩選出9個免疫lncRNAs(P<0.05,表2)構(gòu)建胃癌早期診斷模型:class=0.6409×(FAM30AExp)-1.5488×(LINC02716Exp)-1.4529×(LINC00671Exp)-1.5132×(LINC00582Exp)-1.1187×(LINC00330Exp)+0.9539×(BARX1-DTExp)-0.9510×(HAND2-AS1Exp)+0.8511×(LINC01968Exp)+1.9620×(LINC02465Exp)。模型構(gòu)建及驗證的擬合優(yōu)度檢驗P值分別為0.9982 和1.0000(表2),ROC曲線下面積分別為0.991和0.958(圖2),表明該模型具備出色的早期診斷能力。
表2 Logistic回歸分析篩選胃癌早期診斷l(xiāng)ncRNAs
圖2 胃癌早期診斷模型ROC曲線圖Figure 2 ROC curves of the early diagnostic model of gastric cancerNote:A-B.ROC plot of the early diagnosis model in TCGA STAD and GSE54129 data sets.
利用t檢驗選取至少在兩個分期中差異表達(dá)的免疫lncRNAs共計65個(圖1B)。通過單因素Cox回歸分析獲得6個影響患者總生存時間的免疫lncRNAs(表3),并構(gòu)建基于LASSO回歸(圖3)的胃癌預(yù)后基因標(biāo)簽:risk score=0.0721×(LINC01711Exp)+0.0861(LINC02544Exp)+0.1156×(TDRG1Exp)+0.1605(ERICH3-AS1Exp)+0.0207×(LINC01416Exp)+0.1868×(RPH3AL-AS1Exp)。
表3 TCGA STAD單因素Cox回歸分析結(jié)果
根據(jù)該標(biāo)簽計算每個患者的風(fēng)險得分,以其中位數(shù)將患者分為高、低風(fēng)險組,Kaplan-Meier生存分析顯示,訓(xùn)練集結(jié)果與驗證集一致,即高風(fēng)險組患者總生存率明顯低于低風(fēng)險組患者(圖4A和4C)。該生存狀態(tài)預(yù)測基因標(biāo)簽構(gòu)建及驗證的C-index分別為0.61和0.59(表4),1、3、5年總生存率ROC曲線下面積分別為0.623、0.623、0.677(圖4B)和0.581、0.613、0.622(圖4D),可見此標(biāo)簽具備中等水平的預(yù)后預(yù)測能力。
將基因標(biāo)簽聯(lián)合患者臨床指標(biāo)(年齡、性別、腫瘤分期)進(jìn)行單因素及多因素Cox回歸分析,發(fā)現(xiàn)基因標(biāo)簽、年齡和腫瘤分期是影響胃癌患者總生存率的獨(dú)立預(yù)后因素(表4)。因此本研究最終采用這三個指標(biāo)構(gòu)建胃癌預(yù)后風(fēng)險模型:Nomogram score=1.1959×risk score+0.0315×age+0.4154×(stage Ⅲ)+1.2811×(stage Ⅳ),并繪制列線圖(圖5)。
圖3 LASSO回歸分析Figure 3 The LASSO regression analysesNote:A.Plot of the six immune-lncRNAs′ regression coefficients in the LASSO regression analysis;B.LASSO regression analysis for the plot with the smallest λ values of screening variables(No.of lncRNAs=6).
圖4 基因標(biāo)簽Kaplan-Meier生存曲線和ROC曲線圖Figure 4 The Kaplan-Meier survival curves and ROC curve of the gene signatureNote:A-B.The Kaplan-Meier survival curve and ROC curves of the gene signature in TCGA STAD;C-D.The Kaplan-Meier survival curves and ROC curve of the gene signature in GSE62254.
表4 TCGA STAD基因標(biāo)簽聯(lián)合臨床指標(biāo)的單因素及多因素Cox回歸分析結(jié)果
此用于生存狀態(tài)預(yù)測的預(yù)后風(fēng)險模型構(gòu)建及驗證的C-index分別為0.68和0.72,1、3、5年總生存率的ROC曲線下面積分別為0.707、0.705、0.755(圖6A)和0.779、0.745、0.732(圖6B),校準(zhǔn)曲線分析顯示模型預(yù)測一致性好(曲線斜率接近1,圖7)。表明此預(yù)后模型具備較高的預(yù)測價值。
圖5 預(yù)后風(fēng)險模型列線圖Figure 5 Nomogram of the prognostic risk model
圖6 預(yù)后風(fēng)險模型ROC曲線圖Figure 6 ROC plot of the prognostic risk modelNote:A-B.ROC plots of the prognostic risk model in TCGA STAD and GSE62254 data sets.
圖7 預(yù)后風(fēng)險模型校準(zhǔn)曲線圖Figure 7 Calibration curve of the prognostic risk modelNote:A-C.Calibration curve of 1-,3-,and 5-year overall survival rate of the prognostic risk model in TCGA STAD;D-F.Calibration curve of 1-,3-,and 5-year overall survival rate of the prognostic risk model in GSE62254.
胃癌是消化系統(tǒng)最常見的惡性腫瘤之一,致死率位列惡性腫瘤第4位[1],晚期胃癌5年生存率不足50%[2]。手術(shù)是目前唯一根治胃癌的方法,但由于早期癥狀不典型,且缺乏有效的早期診斷標(biāo)志物,多數(shù)患者一經(jīng)確診即為中晚期,錯過最佳手術(shù)時間。因此,對患者而言,挖掘有效且靈敏的早期診斷標(biāo)志物意義重大。目前,臨床常用診斷標(biāo)志物如癌胚抗原(CEA)、甲胎蛋白(AFP)等對早期胃癌檢出率不足20%[9]。研究發(fā)現(xiàn)lncRNAs可以穩(wěn)定存在于患者的體液中可被檢測到,其在腫瘤中的異常表達(dá)具有癌癥特異性,對早期胃癌檢出率超過60%[10],可作為新型胃癌早期診斷標(biāo)志物。與此同時,lncRNAs的表達(dá)水平與胃癌分化程度、浸潤深度和TNM分期密切相關(guān)[11],LINC01133等已被證明與胃癌預(yù)后有關(guān)[12],基于lncRNAs構(gòu)建的預(yù)后模型也具備較高的預(yù)測能力[13]。此外研究發(fā)現(xiàn),lncRNAs與腫瘤免疫也存在一定關(guān)聯(lián),lncRNAs異常表達(dá)的胃癌患者免疫檢查點表達(dá)水平顯著降低,這部分患者對免疫治療不敏感,且預(yù)后較差[14]。但目前針對免疫lncRNAs與胃癌早期診斷和預(yù)后的關(guān)系研究較少。
本研究成功構(gòu)建了基于9個免疫lncRNAs(LINC02465、BARX1-DT、LINC01968、FAM30A、LINC02716、LINC00582、LINC00671、LINC00330、HAND2-AS1)的胃癌早期診斷模型。實驗發(fā)現(xiàn),LINC02465在幽門螺旋桿菌感染的胃癌患者和健康人群的生物樣本(血清、血漿、尿液或唾液)中差異表達(dá),通過對患者血清/血漿等體液中LINC02465的檢測可以增加腫瘤檢測的敏感性和特異性,是胃癌早期診斷生物標(biāo)志物[15];而HAND2-AS1是一種功能性癌癥相關(guān)lncRNAs,廣泛參與腫瘤細(xì)胞增殖、分化、凋亡等多個生物學(xué)進(jìn)程,是結(jié)直腸癌的早期診斷標(biāo)志物[16],雖然該基因未在胃癌早期診斷中得到證實,但在其他腫瘤中已被證實其診斷意義,在胃癌中的價值值得深入挖掘。其余7個lncRNAs少見腫瘤診斷方面的報道,有待進(jìn)一步研究和證實。
本研究構(gòu)建了基于6個免疫lncRNAs(RPH3AL-AS1、ERICH3-AS1、TDRG1、LINC02544、LINC01711、LINC01416)的預(yù)后基因標(biāo)簽,具備中等程度的預(yù)測能力。研究顯示,ERICH3-AS1可能通過介導(dǎo)細(xì)胞周期和凋亡參與腫瘤的發(fā)生和發(fā)展,在胃癌組織中,該基因表達(dá)量上調(diào)與腫瘤復(fù)發(fā)和預(yù)后較差密切關(guān)聯(lián)[17];TDRG1被證實通過miR-873-5p/HDGF軸促進(jìn)胃癌細(xì)胞的侵襲,其表達(dá)水平與淋巴結(jié)轉(zhuǎn)移正相關(guān),是胃癌的預(yù)后生物標(biāo)志物[18];LINC02544過表達(dá)可以促進(jìn)癌細(xì)胞的增殖、侵襲和轉(zhuǎn)移,定量PCR分析也證實該基因在胃癌組織中表達(dá)具有腫瘤特異性[19],以上3個免疫lncRNAs均被證實與胃癌預(yù)后相關(guān)。LINC01711、LINC01416和RPH3AL-AS1由本研究首次發(fā)現(xiàn)與胃癌預(yù)后的關(guān)系,有待進(jìn)一步證實。
本次研究證實基因標(biāo)簽、年齡、腫瘤臨床分期是胃癌預(yù)后的獨(dú)立危險因素。基于此三個因素構(gòu)建的Cox預(yù)后風(fēng)險模型經(jīng)驗證具有較高的預(yù)后預(yù)測價值。
綜上所述,本研究基于TCGA、GEO數(shù)據(jù)庫分析了免疫lncRNAs與胃癌早期診斷及預(yù)后的關(guān)系,并成功構(gòu)建并驗證了胃癌早期診斷和預(yù)后風(fēng)險模型。然而本研究仍存在諸多不足之處:由于不同數(shù)據(jù)庫的基因測序問題,本研究并未納入全部的lncRNAs進(jìn)行分析,且研究結(jié)果缺乏有效的實驗驗證。此外,用于建模的部分基因尚無相關(guān)文獻(xiàn)來支持本研究的結(jié)論,因此仍需進(jìn)一步研究提供證據(jù)支持。