[摘 要]目的 探討隨機森林算法在老年肺癌根治術后復發(fā)轉移預測模型構建中的應用價值。方法 選取2014年1月—2016年1月空軍軍醫(yī)大學第二附屬醫(yī)院收治的150例老年肺癌根治術患者作為建模組,將建模組相關因素的單因素分析結果中Plt;0.05的候選變量進行隨機森林算法建模,篩選術后復發(fā)和轉移的相關因素,根據重要性對影響因素排序,另選取2016年2月—2017年2月本院收治的70例行肺癌根治術的老年肺癌患者作為驗證組,對隨機森林圖模型進行驗證。結果 150例老年肺癌根治術患者隨訪期間44例(29.33%)復發(fā),51例(34.00%)轉移,20例(13.33%)同時出現(xiàn)復發(fā)和轉移。術后復發(fā)變量重要性排序依次為縱隔淋巴結轉移、淋巴結清掃個數(shù)、T分期、N分期、分化程度、病理分期、年齡、病灶直徑;術后轉移變量重要性排序依次為縱隔淋巴結轉移、N分期、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)、T分期、分化程度、術后放化療、病理分期、年齡。采用隨機森林模型選取特征變量,隨機森林模型中縱隔淋巴結轉移、淋巴結清掃個數(shù)、T分期、N分期指標所建模型對術后復發(fā)的預測效能為0.904,縱隔淋巴結轉移、N分期、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)、T分期指標所建模型對術后轉移的預測效能為0.897;外部驗證隨機森林模型預測老年肺癌術后復發(fā)效能為0.905,術后轉移效能為0.910,與內部驗證基本一致。結論 隨機森林預測模型的構建可在一定程度上預測老年肺癌根治術后復發(fā)及轉移的風險,為手術療效、術后輔助治療等提供臨床參考。
[關鍵詞]肺癌根治術;復發(fā);轉移;隨機森林算法;淋巴結轉移
doi:10.3969/j.issn.1674-7593.2024.06.004Construction and Validation of A Prediction Model for Recurrence and Metastasis of Elderly
Lung Cancer Patients after Radical Surgery Based on Random Forest Algorithm
Wang Juan, Liu Yongshi, Ni Yunfeng, Teng Xin, Jian Lihua, Zhao Ahong, Liu Jing, Yun Junru
Department of thoracic surgery, the Second Affiliated Hospital of Air Force Medical University, Xi’an 710038,China
Corresponding author:Yun Junru, email: 459392608@qq.com
[Abstract] Objective To explore the application value of random forest algorithm in the construction of recurrence and metastasis prediction model for elderly lung cancer patients after radical surgery. Methods A total of 150 elderly lung cancer patients who underwent radical surgery at the Second Affiliated Hospital of Air Force Medical University from January 2014 to January 2016 were selected as the modeling group. Random forest algorithm modeling was conducted on the candidate variables with Plt;0.05 in the univariate analysis results of the relevant factors in the modeling group to screen the factors related to postoperative recurrence and metastasis. The factors were ranked according to their importance. Another 70 elderly lung cancer patients who underwent radical surgery for lung cancer from February 2016 to February 2017 were selected as the validation group to validate the random forest graph model. Results During the follow-up period, 44 cases (29.33%) elderly patients with lung cancer undergoing radical surgery recurrence, 51 cases (34.00%) metastasis, and 20 cases (13.33%) had both recurrence and metastasis. Rank of importance of postoperative recurrence variables: mediastinal lymph node metastasis, number of lymph node dissection, T stage, N stage, degree of differentiation, pathological stage, age, lesion diameter. Rank of importance of postoperative metastasis variables: mediastinal lymph node metastasis, N stage, number of lymph node metastasis, number of lymph node dissection, T stage, degree of differentiation, postoperative chemoradiotherapy, pathological stage, age. The random forest model was used to select the characteristic variables. In the random forest model, the model built by the mediastinal lymph node metastasis, the number of lymph nodes dissected, the T stage and the N stage indexes had an efficacy of 0.904 in predicting postoperative recurrence. The predictive efficacy of the mediastinal lymph node metastasis, N stage, number of lymph node metastasis, number of lymph node dissection and T stage was 0.897. The externally validated random forest model predicted a postoperative recurrence efficacy of 0.905 and a postoperative metastasis efficacy of 0.910 for elderly lung cancer, which was in general agreement with the internal validation. Conclusion In this study, the construction of the random forest prediction model can predict the risk of recurrence and metastasis after radical resection of lung cancer in the elderly to a certain extent. It can provide clinical reference for surgical effect and postoperative adjuvant therapy.
[Key words] Radical surgery of lung cancer; Recurrence; Metastasis; Random forest algorithm; Lymph node metastasis
肺癌發(fā)病率、病死率均居所有惡性腫瘤前列,據統(tǒng)計其五年的相對存活率僅18%,根治性手術切除是臨床治療肺癌的最佳治療選擇,可徹底清除腫瘤病灶,減少癌細胞增殖、轉移[1-3]。但根治性切除后仍有30%~55%的患者出現(xiàn)復發(fā)、轉移,導致治療失敗;且不同術后病理分期患者,五年無復發(fā)生存率存在差異[4-6]。目前胸外科對肺癌根治術后復發(fā)轉移情況十分關注,已有多項研究對術后復發(fā)轉移的影響因素展開了研究。傳統(tǒng)資料分析難以避免變量間的相互作用,隨機森林算法對數(shù)據集無要求,不存在共線性、過擬合等問題,通過集成學習思想將多棵決策樹進行集成,可對各特征變量在分類問題中的重要性進行評估,在多種疾病風險評估中發(fā)揮重要作用[7-8]。本研究擬探討隨機森林算法在老年肺癌根治術后復發(fā)和轉移預測模型構建中的應用價值,旨在為臨床工作提供參考依據。
1 對象與方法
1.1 研究對象
選取2014年1月—2016年1月空軍軍醫(yī)大學第二附屬醫(yī)院收治的150例老年肺癌根治術患者作為建模組,另選取2016年2月—2017年2月同院收治的70例行肺癌根治術的老年肺癌患者作為驗證組。納入標準:①初治原發(fā)性肺癌;②年齡≥60歲;③經病理學檢查確診為單發(fā)病灶;④肺癌根治術成功完成,手術切緣陰性;⑤術前未接受靶向治療、放化療等新輔助治療;⑥臨床資料、隨訪結果完整可靠。排除標準:①存在其他部位惡性腫瘤;②伴有自身免疫性疾?。虎郯橛袊乐卮x性疾??;④手術死亡或圍術期出現(xiàn)嚴重并發(fā)癥;⑤存在肝、心、腎等嚴重臟器病變;⑥隨訪期間失訪;⑦非腫瘤原因死亡;⑧存在精神疾病。本研究符合《赫爾辛基宣言》要求,經本院倫理委員會批準,患者家屬自愿簽署知情同意書。1.2 方法
通過病歷收集患者的性別、年齡、吸煙史、病灶部位、病灶直徑、病理類型、分化程度、病理分期、T分期、N分期、縱隔淋巴結轉移、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)、手術類型、術后并發(fā)癥及術后放化療等資料。所有肺癌患者出院后均定期進行門診復診或電話隨訪,術后1年內每3個月隨訪1次,第2年每6個月隨訪1次,之后每12個月隨訪1次,隨訪截至2021年1月,以復發(fā)或轉移為隨訪終點,記錄患者有無復發(fā)或轉移出現(xiàn)及出現(xiàn)時間。復發(fā):腫瘤局限于一側原病灶所在胸腔,包括同側的肺、手術殘留、胸膜與縱隔淋巴結。轉移:病灶出現(xiàn)在遠處器官或原腫瘤所在的對側胸腔,包括對側的肺、肝、骨、腦、鎖骨上淋巴結、頸部、腎上腺等。
1.3 統(tǒng)計學方法
采用SPSS23.0統(tǒng)計學軟件進行數(shù)據分析。方差齊性的正態(tài)分布計量資料以x±s表示,組間比較采用t檢驗;計數(shù)資料比較采用χ2檢驗;采用R語言隨機森林算法(Bootstrap方法)對影響術后復發(fā)轉移的特征變量進行重要性排序和篩選,并采用受試者工作特征曲線(ROC)評估所構建模型的預測價值;P<0.05為差異有統(tǒng)計學意義。
2 結果
2.1 隨訪情況
150例老年患者均進行定期隨訪,隨訪時間10~60個月,中位隨訪時間為22.8個月。隨訪期間44例復發(fā)(29.33%),其中21例為同側肺部復發(fā),15例為縱隔淋巴結復發(fā),3例為氣管殘端復發(fā),5例為同側胸膜復發(fā);51例轉移(34.00%),其中13例為骨轉移,12例為對側肺部轉移,6例為腦部轉移,9例為肝轉移,7例為腎轉移,4例為對側胸膜轉移; 20例(13.33%)患者術后同時出現(xiàn)復發(fā)和轉移。
2.2 老年肺癌根治術后復發(fā)和轉移的單因素分析
單因素分析顯示:年齡、病灶直徑、分化程度、病理分期、T分期、N分期、縱隔淋巴結轉移、淋巴結清掃個數(shù)及術后放化療均與老年肺癌根治術后復發(fā)有關(P<0.05),見表1;年齡、分化程度、病理分期、T分期、N分期、縱隔淋巴結轉移、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)及術后放化療均與老年肺癌根治術后轉移有關(P<0.05),見表2。2.3 隨機森林模型特征變量的選取
將單因素分析結果中P<0.05的變量作為隨機森林回歸模型的構成變量(各變量賦值見表3),根據平均基尼系數(shù)對各相關因素進行重要性排序,指數(shù)越高提示該因素區(qū)分性良好。結果顯示:老年肺癌根治術后復發(fā)變量重要性排序依次為縱隔淋巴結轉移、淋巴結清掃個數(shù)、T分期、N分期、分化程度、病理分期、年齡、病灶直徑,見圖1a;老年肺癌根治術后轉移的變量重要性排序依次為縱隔淋巴結轉移、N分期、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)、T分期、分化程度、術后放化療、病理分期、年齡,見圖1b。
2.4 隨機森林模型的建立
建立隨機森林模型,采用對照法,固定決策樹數(shù)量ntree不變,特征選取數(shù)量即變量數(shù)mtry依次取值1~8進行調試,觀察術后復發(fā)模型的平均袋外誤差估計誤差率隨mtry變化情況,見圖2a。當袋外誤差為4個時,平均袋外誤差估計誤差率最低,故選取特征數(shù)量為4個。固定mtry=4,ntree依次取1~500,觀察平均袋外估計誤差率隨ntree變化情況,見圖2b。ntree取值為1~120時平均袋外估計誤差率下降迅速,取值為120以后下降減緩,取值為300后趨于穩(wěn)定,因此,本研究選取決策樹數(shù)量ntree為300,此時獲得最優(yōu)模型。
建立隨機森林模型,采用對照法,固定決策樹數(shù)量ntree不變,特征選取數(shù)量即變量數(shù)mtry依次取值1~9個進行調試,觀察術后轉移模型的平均袋外誤差估計誤差率隨mtry變化情況,見圖3a。當袋外誤差為5個時,平均袋外誤差估計誤差率最低,故選取特征數(shù)量為5個。固定mtry=5,ntree依次取1~500,觀察平均袋外估計誤差率隨ntree變化情況,見圖3b。ntree取值為1~100時平均袋外估計誤差率下降迅速,取值為100以后下降減緩,取值為200后趨于穩(wěn)定,因此,本研究選取決策樹數(shù)量ntree為200,此時獲得最優(yōu)模型。
2.5 隨機森林圖模型的驗證
驗證組男37例,女33例,年齡60~79歲,平均(68.76±3.85)歲;體質量指數(shù)22~25 kg/m2,平均(23.69±0.56)kg/m2;病灶部位在左肺34例,右肺36例;病灶直徑1.5~4.0 cm,平均(2.79±0.43)cm;病理類型鱗癌18例,腺癌52例;術后復發(fā)21例,其中10例為同側肺部復發(fā),6例為縱隔淋巴結復發(fā),1例為同側腹膜復發(fā),4例為氣管殘端復發(fā);術后轉移25例,其中8例為骨轉移,7例為對側肺部轉移,3例為腦部轉移,4例為肝轉移,2例為腎轉移,1例為對側胸膜轉移;9例患者同時出現(xiàn)復發(fā)轉移。
內部驗證:采用多維度法展示該隨機森林模型對老年肺癌根治術后復發(fā)和轉移的預測能力,觀察到隨機森林模型中縱隔淋巴結轉移、淋巴結清掃個數(shù)、T分期、N分期指標所建立的預測模型對預測術后復發(fā)的效能為0.904,縱隔淋巴結轉移、N分期、淋巴結轉移個數(shù)、淋巴結清掃個數(shù)、T分期指標所建立的預測模型對預測術后轉移的效能為0.897。外部驗證:外部驗證隨機森林模型預測老年肺癌術后復發(fā)效能為0.905(95%CI:0.825~0.974,P<0.05),術后轉移效能為0.910(95%CI:0.831~0.982,P<0.05),與內部驗證基本一致,見圖4。
3 討論
腫瘤的局部復發(fā)、遠處轉移是肺癌根治術治療失敗、術后死亡的主要原因[9-10]。相關數(shù)據顯示,Ⅰ期非小細胞肺癌完整切除術后復發(fā)率、轉移率分別為20.3%、26.6%,Ⅱ~Ⅲ期術后復發(fā)率、轉移率分別為45.5%、47.7%[11-12]。本研究中位隨訪時間為22.8個月,Ⅰ~Ⅲ期老年肺癌患者隨訪期間復發(fā)率、轉移率分別為29.33%、34.00%,與以往報道稍有差異,可能與圍術期狀況、隨訪時間長短等因素有關。由此可見,預測老年肺癌患者術后復發(fā)和轉移風險有利于指導術后干預,為臨床制定診療措施提供理論支持。
隨機森林算法基于遞歸分類樹進行計算分析,其優(yōu)勢在于不受變量間共線性影響,對噪聲、異常值的容忍度高,尤其適用于復雜、多維數(shù)據的分析[13-14]。本研究嘗試構建隨機森林預測模型,通過基尼系數(shù)計算各個變量對分類數(shù)據中各個節(jié)點觀測值的影響,分析其在老年肺癌根治術后復發(fā)轉移預測模型構建中的應用價值,隨機森林基尼系數(shù)減少量越多說明該變量越重要。目前高齡、吸煙史、病理分期、淋巴結轉移數(shù)目等肺癌術后復發(fā)轉移因素已得到多數(shù)研究認可。本研究術后復發(fā)和轉移的變量重要性排序中,T分期、N分期均居于較前序位,分化程度、病理分期亦為老年肺癌患者術后復發(fā)和轉移的重要因素。說明中晚期老年肺癌患者術后復發(fā)和轉移率較高,主要由于T分期、N分期、病理分期與腫瘤大小、侵犯范圍有關,隨分期進展,完整切除可能性減小,復發(fā)風險增大。分化程度低的患者腫瘤惡性程度較高,病灶浸潤、增殖、轉移能力較強,易累及淋巴結,存在微血管浸潤患者血行轉移率增加,進而增加術后復發(fā)和轉移的風險[15-17]。有研究表明,肺癌患者淋巴結轉移數(shù)量<3個時其五年生存率可達58.89%[18]。本研究顯示淋巴結轉移個數(shù)與肺癌根治術后發(fā)生轉移有關,轉移個數(shù)>3個患者術后轉移率較高,說明淋巴結轉移數(shù)量是預測老年肺癌患者術后轉移的價值因子,可能與大量淋巴結轉移將加大根治術中淋巴結清掃難度有關;同時大量淋巴結轉移加重腫瘤細胞對內循環(huán)的侵犯,可能引起淋巴結跳躍性轉移,進一步加重患者病情。
本研究采用隨機森林算法,無須排除共線性問題,可直觀顯示各個變量對術后復發(fā)和轉移的影響,縱隔淋巴結轉移、淋巴結清掃個數(shù)、T分期、N分期對預測老年肺癌根治術后復發(fā)轉移具有較高預測價值,且淋巴結轉移個數(shù)有利于預測術后轉移,隨機森林預測模型結果顯示所建模型對預測術后復發(fā)和轉移的效能分別為0.904、0.897,說明該模型對手術療效、術后輔助治療等具有一定的臨床指導意義。但本研究為單中心小樣本研究,所建模型的效果仍有待臨床進一步研究證實。
參考文獻
[1] Al Zreibi C, Gibault L, Fabre E, et al. Surgery for small-cell lung cancer [J]. Rev Mal Respir, 2021,38(8):840-847.
[2] Deng H, Liu J, Cai X, et al. Radical minimally invasive surgery after immuno-chemotherapy in initially-unresectable stage IIIB non-small cell lung cancer [J]. Ann Surg, 2022,275(3):e600-e602.
[3] Hui Z, Men Y, Hu C, et al. Effect of postoperative radiotherapy for patients with pIIIA-N2 non-small cell lung cancer after complete resection and adjuvant chemotherapy: the phase 3 PORT-C randomized clinical trial [J]. JAMA Oncol, 2021,7(8):1178-1185.
[4] Chapman B V, Ning M S, Farnia B, et al. Postoperative radiotherapy for locally advanced NSCLC: implications for shifting to conformal, high-risk fields [J]. Clin Lung Cancer, 2021,22(3):225-233.e7.
[5] Fu F, Zhang Y, Gao Z, et al. Development and validation of a five-gene model to predict postoperative brain metastasis in operable lung adenocarcinoma [J]. Int J Cancer, 2020,147(2):584-592.
[6] 劉顯平, 李曉, 楊帆. 非小細胞肺癌根治性切除術后復發(fā)轉移模式研究進展 [J].中國肺癌雜志,2022,25(1):26-33.
Liu X P, Li X, Yang F. Pattern of recurrence and metastasis after radical resection of non-small cell lung cancer [J].Chin J Lung Cancer, 2022,25(1):26-33.
[7] Kinoshita T, Goto T. Links between inflammation and postoperative cancer recurrence [J]. J Clin Med, 2021,10(2):228.
[8] Ellis D E, Hubbard R A, Willis A W, et al. Comparing LASSO and random forest models for predicting neurological dysfunction among fluoroquinolone users [J]. Pharmacoepidemiol Drug Saf, 2022,31(4):393-403.
[9] Zou Y, Zhao L, Zhang J, et al. Development and internal validation of machine learning algorithms for end-stage renal disease risk prediction model of people with type 2 diabetes mellitus and diabetic kidney disease [J]. Ren Fail, 2022,44(1):562-570.
[10]饒德新, 潘麗紅, 劉恒, 等. 血清miR-134-5p和趨化因子20對非小細胞肺癌患者肺癌根治術后復發(fā)轉移的預測價值 [J].中華實用診斷與治療雜志,2022,36(2):130-135.
Rao D X, Pan L H, Liu H, et al.Values of serum miR-134-5p and chemokine 20 to the prediction of recurrence/metastasis after radical resection of non-small cell lung cancer [J]. J Chin Pract Diagn Ther, 2022,36(2):130-135.
[11]Zhong Y, She Y, Deng J, et al. Deep Learning for Prediction of N2 Metastasis and Survival for Clinical Stage I Non-Small Cell Lung Cancer [J]. Radiology, 2022,302(1):200-211.
[12]趙方超, 王偉健, 劉建明. 非小細胞肺癌術后復發(fā)轉移的風險模型構建及預測能力的驗證 [J].腫瘤防治研究,2020,47(4):273-277.
Zhao F C, Wang W J, Liu J M. Construction of risk model for postoperative recurrence and metastasis of non-small cell lung cancer and verification of predictive ability [J]. Cancer Res Prev Treat, 2020,47(4):273-277.
[13]Austin A M, Ramkumar N, Gladders B, et al. Using a cohort study of diabetes and peripheral artery disease to compare logistic regression and machine learning via random forest modeling [J]. BMC Med Res Methodol, 2022,22(1):300.
[14]Chong-Wen W, Sha-Sha L, Xu E. Predictors of rapid eye movement sleep behavior disorder in patients with Parkinson’s disease based on random forest and decision tree [J]. PLoS One, 2022,17(6):e0269392.
[15]Terada Y, Isaka M, Harada H, et al. Radiotherapy for local recurrence of non-small-cell lung cancer after lobectomy and lymph node dissection-can local recurrence be radically cured by radiation? [J]. Jpn J Clin Oncol, 2020,50(4):425-433.
[16]Jin J, Xu Y, Hu X, et al. Postoperative radiotherapy option based on mediastinal lymph node reclassification for patients with pN2 non-small-cell lung cancer [J]. Curr Oncol, 2020,27(3):e283-e293.
[17]邱培, 鄭希, 譚小波, 等. 非小細胞肺癌患者微創(chuàng)切除術后復發(fā)與轉移的相關因素分析 [J].實用癌癥雜志,2020,35(4):598-602.
Qiu P, Zheng X, Tan X B, et al. Related factors influencing the recurrence and metastasis of non-small cell lung cancer after minimally invasive resection [J]. Pract J Cancer, 2020,35(4):598-602.
[18]Kukhon F R, Lan X, Helgeson S A, et al. Occult lymph node metastasis in radiologic stage I non-small cell lung cancer: The role of endobronchial ultrasound [J]. Clin Respir J, 2021,15(6):676-682.
(2023-10-25收稿)