黃坤,黃正紅,趙攀,趙平武,何運勝,白斗
(1.四川省綿陽市中醫(yī)醫(yī)院 普通外科,四川 綿陽 621000;2.成都中醫(yī)藥大學醫(yī)學技術學院,四川 成都 611137;3.四川省綿陽市中心醫(yī)院 血管外科,四川 綿陽 621000)
方法:提取SEER 數(shù)據(jù)庫中2000—2019年期間經(jīng)病理確診的GSCC患者的臨床資料,按照7∶3的比例,將數(shù)據(jù)隨機劃分為訓練集和驗證集,在訓練集中,分別采用多變量Cox比例風險模型和LASSO回歸篩選影響GSCC患者預后的獨立因素,利用這些因素,構建用于預測GSCC患者在3個月和6個月的腫瘤特異性生存期(CSS)和總生存期(OS)的列線圖模型。隨后,在訓練集中,利用一致性指數(shù)(C指數(shù))、ROC曲線和校準曲線,分別在訓練集和驗證集,對模型進行內部和外部驗證,以評估模型的準確度和預測能力。
結果:本研究共納入257例患者,其中訓練集179例,驗證集78例。在訓練集和驗證集中,患者的中位隨訪時間分別為3(1~7)個月和4(2~8)個月。兩組之間基線資料均衡可比。多變量Cox比例風險模型分析顯示,年齡、SEER分期、手術和化療是GSCC患者OS和CSS的獨立影響因素(均P<0.05)。LASSO回歸分析顯示,年齡、SEER分期、放療、手術和化療與GSCC患者的OS相關;年齡、SEER分期、手術和化療與GSCC患者的CSS相關。基于這些獨立預后影響因素,構建了用于預測GSCC患者在3、6個月的OS和CSS的列線圖。對模型的驗證結果表明,訓練集和驗證集中,OS的C指數(shù)分別為0.739(95% CI=0.700~0.780)和0.729(95% CI=0.660~0.800);CSS的C指數(shù)分別為0.750(95% CI=0.710~0.790)和0.741(95% CI=0.670~0.810)。ROC曲線分析顯示,曲線在訓練集和驗證集的AUC值均>0.8;校準曲線分析表明,通過模型預測的3、6個月的OS和CSS與GSCC患者真實的3、6個月的OS和CSS有較好的重合,兩者均靠近理想的45°參考線,表現(xiàn)出良好的一致性。
結論:年齡、SEER分期、手術、放療和化療是GSCC患者預后的獨立影響因素。所構建的列線圖預測模型具有良好的預測價值,有利于臨床對GSCC患者選擇個性化治療。
膽囊癌是一種預后極差的高度惡性腫瘤,其發(fā)病率約為1~2/10萬,約占膽道系統(tǒng)惡性腫瘤的80%~90%[1-3]。未接受手術治療的患者,其5年總生存率僅為15.6%[4]。在組織學分型上,腺癌是最常見的組織學類型,約占膽囊癌的90%~95%[5]。
膽囊鱗狀細胞癌(gallbladder squamous cell carcinoma,GSCC)是膽囊癌中一種罕見的病理學類型,其構成比約為1%~4%[6-7]。GSCC的預后極差,其中位生存時間約為5個月[8-9]。目前尚缺乏有關GSCC預后的高質量大樣本臨床研究[6,8,10-15]。病理學類型是影響惡性腫瘤患者預后的重要因素,同時也是臨床治療決策制定的重要參考[16-18]。然而,現(xiàn)有的膽囊癌診療指南主要針對的是腺癌[19],因此,有必要制定專門針對GSCC的臨床預后評價工具。
本研究基于美國國家癌癥研究所監(jiān)測、流行病學和最終結果(the surveillance,epidemiology and end results,SEER)數(shù)據(jù)庫臨床病例樣本量大、資料豐富的特點[17,20],構建GSCC患者預后列線圖,旨在精準化、個體化評價GSCC患者的預后,為臨床決策制定提供參考。
利用 SEER*Stat v8.3.9軟件提取SEER數(shù)據(jù)庫(隨訪截止日期為2019年12月31日)中,2000—2019年期間通過病理學確診的GSCC患者的臨床隨訪資料[21]。
納入標準:⑴ 初診時原發(fā)腫瘤為GSCC;⑵ 確診方式為病理學確診;⑶ 確診年份為2000—2019年;⑷ ICD-O-3編碼為:“8070/3”“8071/3”“8072/3”“8074/3”“8075/3”“8083/3”。排除標準:⑴ 多源性腫瘤;⑵ 經(jīng)過尸檢或死亡證明確診的病例;⑶ 研究指標無法獲??;⑷ 臨床或隨訪信息記錄不完整。
參照筆者[17,21-22]先前的研究,提取患者的診斷年齡、種族、性別、原發(fā)腫瘤部位、治療信息、生存時間及生存結局等資料。結合文獻[21,23-24]報道,本研究中,年齡界定標準設置為60歲,依據(jù)GSCC患者的年齡、性別、種族、婚姻狀況、腫瘤分化程度、SEER分期、是否接受手術、放療和化療,對其臨床資料進行分組后用于后續(xù)分析。
本研究的研究終點為患者的癌癥特異性生存期(cancer-specific survival,CSS)和總生存期(overall survival,OS)。CSS被定義為:診斷至隨訪截止或因GSCC死亡的時間,非GSCC死亡和失訪數(shù)據(jù)被視為刪失數(shù)據(jù);OS被定義為:診斷至隨訪截止或任何病因死亡的時間,失訪數(shù)據(jù)被視為刪失數(shù)據(jù)。應用Stata/MP 16.0軟件和R(version 4.2.3)軟件進行統(tǒng)計分析。正態(tài)分布計量資料以均數(shù)±標準差(±s)表示,非正態(tài)分布計量資料采用中位數(shù)(四分位間距)[M(IQR)]描述,計數(shù)資料采用率表示,組間對比采用χ2檢驗。采用Kaplan-Meier法計算生存率,生存率比較采用Logrank法,采用單(多)因素Cox比例風險模型和LASSO(least absolute shrinkage and selection operator)回歸進行獨立預后因素分析并計算風險比(HR)及對應95%置信區(qū)間(CI)。按照7∶3將數(shù)據(jù)集隨機劃分為訓練集和驗證集,訓練集用于列線圖模型的構建及其內部驗證,驗證集被用于外部驗證。通過Bootstrap 1 000次重抽樣的方法,繪制校準曲線對模型準確度進行驗證;計算一致性指數(shù)(C指數(shù))對模型區(qū)分度進行驗證。所有檢驗均為雙側尾。檢驗水準α=0.05。
本研究共納入257例GSCC患者,按照7∶3的比例,將257例患者隨機分為訓練集和驗證集,其中訓練集179例,驗證集78例。兩組患者的基線特征均衡(均P>0.05)(表1)。
表1 GSCC患者的臨床基線特征[n(%)]Table 1 The baseline demographics and clinical characteristics of patients with GSCC [n (%)]
2.2.1 單變量Cox比例風險模型分析 在建模組179例患者中,中位隨訪3(1~7)個月。在驗證組78例患者中位隨訪4(2~8)個月。生存情況的單變量Cox比例風險模型分析結果顯示,年齡、腫瘤分化程度、SEER分期、手術、化療、放療均與患者的OS及CSS明顯有關(均P<0.05)(表2)。
表2 GSCC患者OS與CSS影響因素的單變量Cox分析Table 2 Univariate Cox regression analysis for CSS and OS in GSCC patients
2.2.2 多變量Cox比例風險模型分析 根據(jù)單變量Cox比例風險模型分析結果,將有統(tǒng)計學意義的變量進一步納入多變量Cox比例風險模型分析,結果顯示,年齡、SEER分期、手術和化療是OS和CSS的獨立影響因素(均P<0.05)(圖1)。
圖1 基于多變量Cox回歸分析森林圖 A:OS;B:CSSFigure 1 Forest plots using multivariate Cox regression analysis A: OS; B: CSS
2.2.3 LASSO回歸分析 LASSO方法的原理是在最小二乘法的基礎上增加一個懲罰項來壓縮估計參數(shù),進而對預后影響較大的自變量進行自動篩選并計算出相應的回歸系數(shù)。模型篩選的主要參數(shù)是lambda.min和lambda.1se。前者是指,獲得最小目標參量均值的 λ值,而后者是指在lambda.min一個方差se范圍內得到最簡單模型的λ值。由于λ值到達一定值之后,再繼續(xù)增加模型自變量個數(shù)并不顯著地提高模型性能,因此,lambda.1se可以給出一個性能優(yōu)良,同時自變量數(shù)最少的模型。為了能更準確而全面地篩選出,影響GSCC患者預后的獨立因素,并且盡可能減少變量共線性對結果的影響,同時采用LASSO回歸分析(基于10折交叉驗證方法)進一步篩選變量。結果顯示,年齡、SEER分期、放療、手術和化療患者OS相關;年齡、SEER分期、手術和化療與患者CSS相關(圖2)。
圖2 基于LASSO回歸的特征選擇 A:LASSO回歸系數(shù)隨Log(λ)的變化曲線(OS);B:基于10折交叉驗證C指數(shù)隨Log(λ)的變化曲線(OS);C:LASSO回歸系數(shù)隨Log(λ)的變化曲線(CSS);D:基于10折交叉驗證C指數(shù)隨Log(λ)的變化曲線(CSS)Figure 2 Feature selection based on LASSO regression A: Curve of LASSO regression coefficients with changing Log(λ) (OS);B: Curve of 10-fold cross-validated C-index with changing Log(λ) (OS); C: Curve of LASSO regression coefficients with changing Log(λ) (CSS); D: Curve of 10-fold cross-validated C-index with changing Log(λ) (CSS)
在本研究中,年齡、SEER分期、放療、化療和手術與GSCC患者的OS和CSS相關(圖3-4)。基于臨床重要性、多變量Cox回歸和LASSO回歸,上述5個變量最終被選出用于預測GSCC患者在3、6個月的OS和CSS的列線圖的構建。圖中每個臨床特征都將被賦予相應的分值,所有變量的分值之和等于總得分(total points),其總得分越低,預后越好。根據(jù)總得分即可對不同時間點GSCC患者的OS和CSS做出臨床預測(圖5)。
圖4 訓練集中GSCC患者基于5個變量的CSS曲線Figure 4 CSS curves for GSCC patients in the training set based on five variables
圖5 預測GSCC患者3、6個月預后的列線圖 A:OS;B:CSSFigure 5 Nomograms predicting the 3- and 6-month prognosis for GSCC patients A: OS; B: CSS
為了評價模型的區(qū)分度,分別在訓練集和驗證集中計算C指數(shù)和AUC值(表3)并繪制ROC曲線(圖6),結果顯示在訓練集和驗證集中,均有良好的預測價值。為了評價模型的準確度,采用Bootstrap法對模型進行內部驗證和外部驗證,自抽樣次數(shù)B=1 000,并繪制校準曲線。驗證結果顯示,在訓練集(內部)與驗證集(外部)中,GSCC患者的3、6個月的OS和CSS校正曲線均靠近理想的45°參考線,表明模型預測值與實際值之間具有良好的一致性(圖7)。
圖6 訓練集和驗證集中模型3、6個月預測能力驗證的ROC曲線Figure 6 ROC curves for the 3- and 6-month predictive ability validation of the model in the training and validation sets
圖7 訓練集和驗證中3、6個月OS與CSS的校準曲線Figure 7 Calibration curves for 3- and 6-month OS and CSS in the training and validation sets
表3 訓練集和驗證集中模型的C指數(shù)和AUC值Table 3 C-index and AUC values of the model in the training and validation sets
為了進一步驗證該模型在臨床實踐中的應用價值,根據(jù)構建的列線圖分別在訓練集和驗證集中計算出每個患者的總分值,并在訓練集中采用X-tile軟件對其進行危險分層。其中對于OS和CSS,低風險組和高風險組的閾值分別為228分和251.1分。結果顯示,在驗證集和訓練集中該模型均能對GSCC患者的生存預后做出良好的區(qū)分(均P<0.000 1)(圖8)。
圖8 不同風險患者的生存曲線 A:訓練集OS;B:訓練集CSS;C:驗證集OS;D:驗證集CSSFigure 8 Survival curves for OS and CSS of patients with different risks A: OS for the training set; B: CSS for the training set;C: OS for the validation set; D: CSS for the validation set
GSCC發(fā)病罕見、預后差[7,25],在臨床實踐中,缺乏針對性的預后評價工具。本研究顯示,年齡、SEER分期、手術、放療和化療是患者預后的獨立影響因素。60歲以上GSCC患者的OS和CSS均更差。同本研究的結論類似,黃漢生[26]在對膽囊癌的預后分析中顯示,≥65歲患者的總死亡風險OS(HR=1.389,P<0.001)和腫瘤特異性死亡風險均更高(HR=1.216,P=0.009)。此外,在乳腺癌[27]、卵巢癌[28]、肝癌[29]和軟組織肉瘤[17]中,年齡同樣是影響患者預后的獨立危險因素。腫瘤分期作為影響預后的獨立因素為臨床所熟知。在本研究和其他一些研究中均得到印證[24,29-31]。手術、化療和放療是膽囊癌主要的治療手段[19]。本研究發(fā)現(xiàn)手術和化療是GSCC患者預后的獨立影響因素,能明顯提高患者的OS和CSS。Leigh等[2]在一項回顧性隊列研究(含76例膽囊腺癌、12例腺鱗癌和3例鱗癌)中顯示,R0切除能明顯提高患者的OS(HR=0.01,95%CI=0.01~0.08,P<0.001)。Chen等[10]在另一項回顧性傾向性評分匹配隊列研究(含242例膽囊腺癌和121例膽囊鱗癌)也表明手術治療能提高患者的OS(HR=0.406,95%CI=0.271~0.609,P<0.001)和CSS(HR=0.418,95%CI=0.209~0.837,P=0.014)。本研究結果表明,相比于未接受化療的患者,化療患者的總死亡風險和腫瘤特異性死亡風險均降低64%。在一項隨機多中心臨床3期試驗(BILCAP)[32],及Takada等[33]、龔奇等[34]的研究中,化療均被證實能使膽囊癌明顯獲益。膽囊癌的放療價值目前尚未達成一致的共識[19],然而,有研究[21,35]表明,放療能使膽囊癌患者獲益。本研究通過LASSO回歸分析表明,放療是影響患者OS的獨立因素。此外,在其他類型的腫瘤中放療也被證實可以降低局部復發(fā)、提高R0切除率等[36-38]。
列線圖被廣泛用于腫瘤預后的評價[39],它可以個體化地預測患者的生存概率,并形象化地展示,并且能幫助臨床醫(yī)師針對性地制定臨床決策。在本研究中,研究者基于上述GSCC患者預后的獨立影響因素,成功構建了用于預測GSCC患者3、6個月OS和CSS的預測模型。進一步通過對該預測模型的驗證顯示,其具有良好的準確度和一致性,不僅可以幫助臨床醫(yī)師對患者的預后做出更準確的判斷,同時也能區(qū)分患者是否屬于高危人群,從而輔助臨床醫(yī)師針對患者做出個體化的臨床決策。例如:1例患者,年齡≥60歲,接受手術和化療,沒有接受放療,已出現(xiàn)遠處轉移。該患者的OS模型總得分為270分,其3、6個月的累積生存率分別為77.6%和61.7%;該患者的CSS模型總得分為239分,其3、6個月的累積生存率分別為79.1%和61.9%。有研究[31]指出,影響患者的OS的因素相對復雜,而相比之下CSS顯得更加重要。本研究進一步根據(jù)CSS對上述患者進行危險分層。由于其總分239分低于閾值251.1分,因而,判斷該患者可能為低危患者,預后相對較好;相反,如果某患者通過該模型計算出的總分高于閾值,就可能為高危人群,預后相對較差,需要給予更多臨床關注,制定更密集的隨訪周期和個體化、精準化治療方案。
本研究的不足之處:首先,本研究是回顧性研究,存在一定的選擇偏倚。其次,SEER數(shù)據(jù)庫中一些信息(例如:具體的放化療方案、并發(fā)癥、腫瘤復發(fā)信息等)的缺失,可能成為影響預后的混雜因素。最后,納入研究的病例數(shù)中,部分組別病例數(shù)較少,構成比不均衡,可能影響檢驗效能。
綜上所述,筆者認為年齡、SEER分期、手術、放療和化療是患者預后的獨立影響因素?;谶@些因素所構建的預后預測模型對臨床實踐有較好的參考作用。
利益沖突:所有作者均聲明不存在利益沖突。
作者貢獻聲明:黃坤、白斗共同設計研究;黃正紅和趙攀完成數(shù)據(jù)提取、整理和分析;黃正紅制作表格和圖片;黃坤撰寫初稿;何運勝和趙平武校正圖表;白斗完成最后全文校正。