安夢霞,崔曉娜,孫繼宏,張瀚文,洪嘉源,王萍玉
濱州醫(yī)學(xué)院公共衛(wèi)生與管理學(xué)院,山東 煙臺 264003
肺癌是全球最常見的腫瘤,約25%的腫瘤患者死于肺癌[1],其中非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC)約占80%[2]。即使目前診斷篩查技術(shù)飛速發(fā)展,但大多數(shù)患者初診時已處于晚期,出現(xiàn)腫瘤細(xì)胞向遠處器官轉(zhuǎn)移,其中腦轉(zhuǎn)移是NSCLC最主要的死亡原因[3]。研究報道,肺腺癌(lung adenocarcinoma,LUAD)在NSCLC亞組中腦轉(zhuǎn)移發(fā)生率最高[4-5],患者預(yù)后差,中位生存期縮短[6]。文獻檢索發(fā)現(xiàn),目前國內(nèi)外鮮有預(yù)測LUAD腦轉(zhuǎn)移的臨床模型。因此,本研究擬建立一個可視化LUAD腦轉(zhuǎn)移風(fēng)險概率的列線圖預(yù)測模型,易于識別高風(fēng)險患者,幫助臨床醫(yī)師采取個體化干預(yù)措施,降低患者腦轉(zhuǎn)移率,提高其生存率,現(xiàn)報道如下。
本研究數(shù)據(jù)來源于美國國家癌癥研究所(National Cancer Institute,NCI)監(jiān)測、流行病學(xué)和最終結(jié)果(Surveillance,Epidemiology,and End Results,SEER)數(shù)據(jù)庫。運用SEER*Stat 8.3.9.1軟件對2010—2015年SEER數(shù)據(jù)庫中LUAD數(shù)據(jù)進行篩選。納入標(biāo)準(zhǔn):①第一惡性腫瘤;②組織學(xué)類型為LUAD;③具有完整的臨床資料。排除標(biāo)準(zhǔn):①多原發(fā)性腫瘤;②病例通過尸檢或死亡證明確診;③來自臨床診斷的病例;④死亡原因信息缺失;⑤生存時間<1個月;⑥臨床資料信息不明確。最終篩選出58 928例LUAD患者,其中腦轉(zhuǎn)移患者(腦轉(zhuǎn)移組)7931例,非腦轉(zhuǎn)移患者(非腦轉(zhuǎn)移組)50 997例。
提取患者的年齡、性別、種族、腫瘤部位、T分期、N分期、是否手術(shù)、是否放療、是否化療、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移、婚姻狀況、生存時間以及生存狀態(tài)。
采用R4.1.0軟件進行數(shù)據(jù)分析及繪圖。采用survminer包進行生存分析;采用caret包將數(shù)據(jù)分為訓(xùn)練集(70%)和驗證集(30%);計數(shù)資料以例數(shù)及率(%)表示,組間比較采用tableone包的χ2檢驗;采用glmmet包進行Lasso回歸分析對變量進行降維,篩選最優(yōu)預(yù)測變量,將最優(yōu)預(yù)測變量納入多因素Logistic回歸分析進一步篩選;采用rms包綜合篩選后的預(yù)測變量建立LUAD腦轉(zhuǎn)移風(fēng)險概率的列線圖模型;采用pROC包繪制訓(xùn)練集和驗證集列線圖模型的受試者工作特征(receiver operating characteristic,ROC)曲線驗證模型區(qū)分度;采用1000次有放回重復(fù)采樣的Boostrap繪制校正曲線并采用Brier評分驗證模型的校準(zhǔn)度;采用rmda包進行決策曲線分析(decision curve analysis,DCA),評價列線圖模型的臨床效能。以P<0.05為差異有統(tǒng)計學(xué)意義。
從SEER數(shù)據(jù)庫中最終篩選出58 928例LUAD患者納入本研究,按照7∶3比例隨機分組,其中訓(xùn)練集41 250例,驗證集17 678例。訓(xùn)練集和驗證集患者的各臨床特征比較,差異均無統(tǒng)計學(xué)意義(P>0.05),具有可比性。(表1)
表1 訓(xùn)練集與驗證集患者臨床特征的比較
LUAD患者中位生存時間為24個月(95%CI:23.535~24.465),其中LUAD腦轉(zhuǎn)移組患者的中位生存時間為7個月,非腦轉(zhuǎn)移組患者中位生存時間為30個月。Kaplan-Meier分析結(jié)果顯示,LUAD腦轉(zhuǎn)移組患者的生存情況明顯差于非腦轉(zhuǎn)移組患者,差異有統(tǒng)計學(xué)意義(χ2=4684.881,P<0.01)。(圖1)
圖1 腦轉(zhuǎn)移組(n=7931)與非腦轉(zhuǎn)移組(n=50 997)LUAD患者的生存曲線
將訓(xùn)練集中14個變量納入Lasso回歸分析,通過Lasso回歸分析對變量進行降維,以五折交叉法驗證確定最佳懲罰系數(shù)(λ),篩選出對預(yù)測LUAD腦轉(zhuǎn)移最有意義的特征變量。防止模型過度擬合,最后部分變量的回歸系數(shù)被壓縮為0(圖2A)。本研究選擇二項式偏差和Lasso回歸對數(shù)(λ)曲線中右側(cè)垂直虛線的λ值(λ=0.00567),篩選出9個最優(yōu)預(yù)測變量,分別為年齡、T分期、N分期、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移(圖2B)。
圖2 Lasso回歸篩選LUAD腦轉(zhuǎn)移的最佳預(yù)測變量
以是否發(fā)生腦轉(zhuǎn)移為因變量,Lasso回歸篩選出的9個預(yù)測變量為自變量,納入多因素Logistic回歸分析,結(jié)果顯示:年齡、T分期、N分期、腫瘤大小、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否骨轉(zhuǎn)移、是否肝轉(zhuǎn)移均是LUAD患者發(fā)生腦轉(zhuǎn)移的獨立影響因素。(表2)
表2 LUAD患者發(fā)生腦轉(zhuǎn)移影響因素的多因素Logistic回歸分析
基于Lasso回歸和Logistic多因素回歸分析篩選出9個預(yù)測變量。由于腫瘤大小、骨轉(zhuǎn)移對應(yīng)的回歸系數(shù)較小,對模型預(yù)測結(jié)果影響也小,故僅納入年齡、T分期、N分期、淋巴結(jié)清掃數(shù)目、手術(shù)、放療、肝轉(zhuǎn)移7個預(yù)測變量構(gòu)建列線圖。對應(yīng)變量的右邊刻度線段表示該變量的取值范圍,每個變量的每個取值水平對應(yīng)圖中最上方的分值進行評分,然后再將所有評分相加對應(yīng)圖下方總分值,便可計算出LUAD腦轉(zhuǎn)移的風(fēng)險概率,列線圖總分越高,發(fā)生腦轉(zhuǎn)移概率也越大。(圖3)
圖3 預(yù)測LUAD患者腦轉(zhuǎn)移風(fēng)險概率的列線圖
訓(xùn)練集列線圖預(yù)測LUAD發(fā)生腦轉(zhuǎn)移風(fēng)險概率的曲線下面積(area under the curve,AUC)為0.853(95%CI:0.848~0.857),約登指數(shù)為0.556,最佳截斷值為254;驗證集列線圖的AUC為0.851(95%CI:0.844~0.858),約登指數(shù)為0.557,最佳截斷值為262,表明模型的區(qū)分度良好(表3、圖4)。訓(xùn)練集與驗證集實際預(yù)測曲線與模擬預(yù)測曲線接近重合,同時結(jié)果顯示訓(xùn)練集與驗證集Brier評分均為0.092,均接近0,表明該模型穩(wěn)定性較強,有較好的校準(zhǔn)能力(圖5)。DCA曲線顯示訓(xùn)練集和驗證集的風(fēng)險閾值為0.0~0.7時,基于列線圖模型采取臨床干預(yù)決策帶來的凈收益率高于未采取臨床干預(yù)決策,表明該列線圖預(yù)測模型的臨床效能好(圖6)。
圖4 列線圖模型預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險概率的ROC曲線
圖5 預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險概率列線圖模型的校準(zhǔn)曲線
圖6 預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險概率列線圖模型的DCA曲線
表3 列線圖模型預(yù)測LUAD患者腦轉(zhuǎn)移風(fēng)險概率的效能
列線圖作為新穎而簡便的統(tǒng)計工具[7],可以對LUAD患者腦轉(zhuǎn)移發(fā)生風(fēng)險進行預(yù)測,識別高風(fēng)險患者,為患者的個體化治療提供科學(xué)依據(jù),降低腦轉(zhuǎn)移發(fā)生率。多項研究表明,NSCLC亞組中LUAD腦轉(zhuǎn)移發(fā)生率最高[8-9],腦轉(zhuǎn)移瘤損壞中樞神經(jīng)系統(tǒng),降低認(rèn)知、運動、情感等高級活動功能[10]。LUAD腦轉(zhuǎn)移患者中位總生存期明顯短于非腦轉(zhuǎn)移患者,預(yù)后差。目前,臨床缺乏準(zhǔn)確性高、適用范圍廣的有效預(yù)測模型。因此,本研究綜合LUAD腦轉(zhuǎn)移獨立影響因素建立預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險概率的列線圖模型。
本研究的創(chuàng)新之處是應(yīng)用Lasso回歸分析篩選出最具代表性的預(yù)測變量構(gòu)建列線圖預(yù)測模型。相比于傳統(tǒng)的Logistic回歸、最優(yōu)子集法、隨機森林法,Lasso回歸的另一個優(yōu)勢是可以對多重共線性的預(yù)測變量進行降維,篩選出最具代表性的預(yù)測變量,使模型更穩(wěn)定,降低了模型的復(fù)雜度,防止模型過度擬合[11]。Lasso回歸已被廣泛用于醫(yī)學(xué)領(lǐng)域[12],本研究基于Lasso回歸模型對預(yù)測變量進行了篩選,結(jié)果從14個主要預(yù)測變量減少到9個,最終納入了年齡、T分期、N分期、淋巴結(jié)清掃數(shù)目、是否手術(shù)、是否放療、是否肝轉(zhuǎn)移7個最優(yōu)預(yù)測變量構(gòu)建預(yù)測LUAD腦轉(zhuǎn)移風(fēng)險概率的列線圖模型。模型在訓(xùn)練集(AUC=0.853)和驗證集(AUC=0.851)中都具有良好的區(qū)分能力,校準(zhǔn)曲線和Brier評分均顯示模型預(yù)測準(zhǔn)確度高,DCA顯示該列線圖預(yù)測模型的臨床效能好。
LUAD患者發(fā)生腦轉(zhuǎn)移風(fēng)險因素分析如下:①年齡是LUAD患者發(fā)生腦轉(zhuǎn)移的重要影響因素,年齡與LUAD患者發(fā)生腦轉(zhuǎn)移風(fēng)險呈負(fù)相關(guān)。年齡越小,腦血管血流阻力越低,腦組織代謝功能越強,腦血管血流量越充足,給腫瘤細(xì)胞轉(zhuǎn)移提供良好的微環(huán)境[13],發(fā)生腦轉(zhuǎn)移風(fēng)險顯著增加[14]。②腫瘤T分期、N分期是LUAD患者發(fā)生腦轉(zhuǎn)移的影響因素,與發(fā)生腦轉(zhuǎn)移風(fēng)險呈正相關(guān)。T、N分期越高,腫瘤浸潤生長范圍越大[15],腫瘤細(xì)胞活躍及侵襲能力越強,更容易通過血行轉(zhuǎn)移發(fā)生腦轉(zhuǎn)移。③淋巴結(jié)清掃數(shù)目是LUAD患者的保護因素,多項研究表明,LUAD最常見的手術(shù)方式是淋巴結(jié)清掃,可以降低腦轉(zhuǎn)移率[16-17],最佳淋巴結(jié)清掃數(shù)目為≥15,原因可能是淋巴結(jié)清掃數(shù)目多,一些手術(shù)前檢測不到的微轉(zhuǎn)移灶被清除,減少了術(shù)后微轉(zhuǎn)移灶殘留[18]。④文獻報道,手術(shù)是LUAD首選治療方式,是降低腦轉(zhuǎn)移發(fā)生率的重要影響因素,治療原則為根治性切除,延長患者總生存期[19-20]。本研究結(jié)果也顯示,手術(shù)治療與LUAD患者腦轉(zhuǎn)移發(fā)生風(fēng)險呈正相關(guān),已采取手術(shù)治療的患者腦轉(zhuǎn)移發(fā)生風(fēng)險降低,與其結(jié)果一致。本研究預(yù)測模型顯示放療患者發(fā)生腦轉(zhuǎn)移風(fēng)險是未放療患者的1.84倍,是LUAD患者發(fā)生腦轉(zhuǎn)移的危險因素。但一項Meta分析中,放療是控制遠處轉(zhuǎn)移的重要治療手段,可延長LUAD治療過程中初次出現(xiàn)腦轉(zhuǎn)移的時間[21],與本研究結(jié)果不一致。查閱大量文獻,相關(guān)方面的研究有限,原因可能是SEER數(shù)據(jù)庫化療患者初診時已處于晚期,臨床癥狀嚴(yán)重,身體機能不能承受手術(shù)和藥物治療方式。⑤本研究還發(fā)現(xiàn)肝轉(zhuǎn)移列線圖評分越大,腦轉(zhuǎn)移的發(fā)生率越高。LUAD晚期往往發(fā)生血行轉(zhuǎn)移,首發(fā)的是肝轉(zhuǎn)移,腫瘤細(xì)胞進入血液,隨著體循環(huán)轉(zhuǎn)移到腦部[22]。
本研究存在局限性,部分?jǐn)?shù)據(jù)如患者的家族遺傳史、吸煙情況、放化療具體臨床治療信息等未輸入SEER數(shù)據(jù)庫,造成結(jié)果存在誤差。本研究仍需收集多中心樣本數(shù)據(jù)資料進行模型外部驗證,完善預(yù)測模型。
綜上所述,本研究構(gòu)建的可視化LUAD患者腦轉(zhuǎn)移預(yù)測模型,經(jīng)AUC、校準(zhǔn)曲線、Brier評分、DCA曲線分析驗證了模型識別腦轉(zhuǎn)移高?;颊叩臏?zhǔn)確度較高,以及預(yù)測模型在臨床上有較好的實用價值,有助于臨床醫(yī)師識別腦轉(zhuǎn)移高風(fēng)險人群,提前制訂個體化干預(yù)措施,提高患者生活質(zhì)量,減輕社會疾病負(fù)擔(dān)。