鄭繼盛,蘇 云,宮淑萍,趙曉敏*
1.濱州醫(yī)學院,山東 264003;2.煙臺市中心血站
胰十二指腸切除術(shù)(pancreaticoduodenectomy,PD)是治療胰腺壺腹部、胰頭部等部位惡性腫瘤的首選手術(shù)類型,同時也是普外科復雜手術(shù)之一[1]。隨著醫(yī)療水平的提高,胰腺手術(shù)死亡率已降至2%以下[2-3],而術(shù)后胰瘺(pancreatic fistula,PF)發(fā)生率(3%~45%)卻居高不下[4],導致病人住院時間延長、醫(yī)療費用增加、死亡率上升等一系列問題[5-7]。因此,早期采取有效措施預防高危人群發(fā)病非常重要。風險預測模型可以通過多個預測變量判斷結(jié)局事件的發(fā)生概率[8],胰瘺風險預測模型可以幫助醫(yī)護人員提前識別可能發(fā)生胰瘺的高危病人,從而制定適當?shù)尼t(yī)療、護理決策[9]?,F(xiàn)對國內(nèi)外胰十二指腸切除術(shù)后胰瘺風險預測模型的構(gòu)建、驗證及呈現(xiàn)等進行綜述,以期為臨床實踐與后續(xù)模型開發(fā)提供參考。
1.1 胰十二指腸切除術(shù) 胰十二指腸切除術(shù)是指部分胰腺(主要指胰頭部)、臨近十二指腸、部分胃、空腸近端、膽管十二指腸球后段以下部分的切除以及膽腸吻合、胰腸吻合、胃腸吻合、腸腸吻合的消化道重建。該手術(shù)是腹部外科操作技術(shù)復雜、創(chuàng)傷較大的手術(shù)之一,是治療胰頭部、壺腹部、遠端膽道惡性腫瘤的首選治療方式[10]。
1.2 胰瘺 胰瘺是胰腺導管上皮與其他上皮表面的異常通道,內(nèi)有源自胰腺富含酶類的液體。術(shù)后胰瘺(postoperative pancreatic fistula,POPF)的診斷標準依據(jù)國際胰腺外科研究小組2016 年發(fā)布的關(guān)于臨床相關(guān)胰瘺(clinically relevant postoperative pancreatic fistula,CR-POPF)的定義[4]:術(shù)后≥3 d 任意量的引流液中淀粉酶濃度高于正常血清淀粉酶濃度上限3 倍以上,同時病人有相應(yīng)臨床表現(xiàn)。該定義僅包括B 級和C 級胰瘺,去除了國際胰瘺分類研究小組在2005 年胰瘺定義中的無相關(guān)臨床表現(xiàn)的A 級胰瘺(生化瘺)[11]。
1.3 臨床預測模型 臨床預測模型是指將多個與臨床結(jié)局變量的危險因素相關(guān)聯(lián),從而構(gòu)建可以得出臨床結(jié)局事件發(fā)生概率的函數(shù)公式[12]。預測模型包括診斷模型與預后模型,POPF 風險預測模型為診斷模型,通常通過Logistic 回歸構(gòu)建模型。模型性能可以通過C 統(tǒng)計量、校準圖、Hosmer-Lemeshow 擬合優(yōu)度檢驗(H-L 檢驗)以及臨床決策曲線等進行評價[13]。模型的呈現(xiàn)方式包括公式、風險評分系統(tǒng)、列線圖、網(wǎng)頁計算器等,其中風險評分與列線圖更便于臨床應(yīng)用[14]。
1.4 臨床預測模型報告指南 預測模型構(gòu)建研究數(shù)據(jù)提取和質(zhì)量評價清單(checklist for critical appraisal and date extraction for systematic reviews of prediction modelling studies,CHARMS)[15],個體預測或診斷用多變量預測模型透明報告(the transparent reporting of a multivariable prediction moder for individual prognosis or diagnosis,TRIPOD)[15],臨床預測模型偏倚風險和適用性的評估工具(prediction model risk of bias assessment tool,PROBAST)[16]分別在2014 年、2015 年和2019 年發(fā)布。TRIPOD 作為報告準則多用于原始研究,CHARMS 作為數(shù)據(jù)提取指南、PROBAST 作為質(zhì)量評價指南用于臨床預測模型的系統(tǒng)評價,三者對于了解臨床預測模型以及臨床預測模型研究撰寫規(guī)范有著重要指導意義。
2.1 瘺管風險評分(Fistula Risk Score,F(xiàn)RS) FRS由國外學者Callery 等[17]開發(fā),是中華醫(yī)學會外科學分會胰腺外科學組推薦的預測CR-POPF 的風險評分模型[18]。該模型基于國際胰瘺分類研究小組在2005 年公認的CR-POPF 的危險因素(小導管、軟胰腺、高危病理、失血過多)[11]創(chuàng)建。研究構(gòu)建了3 個風險評分模型:模型1 為通過4 個危險因素構(gòu)建的0~4 分的風險評分模型;模型2 根據(jù)其建模后的回歸系數(shù)進行加權(quán),通過OR 值倍數(shù)確定分數(shù),風險評分范圍為4~22 分;模型3 類似于模型2 但是對其進行了簡化,不再通過OR 值對其連續(xù)資料進行加分,而是進行了等級資料遞增后的分數(shù)調(diào)整,分數(shù)區(qū)間為0~10 分。模型3 相較于模型1、模型2 來說,更易理解與接受,臨床實用性更強。且模型3 經(jīng)過內(nèi)部驗證后的表現(xiàn)也優(yōu)于其他模型,受試者工作特征曲線下面積(area under curve,AUC)為0.942(模型3)>0.938(模型2)>0.936(模型1)。模型3 的風險評分標準:0 分表示不會發(fā)生CR-POPF,9~10 分表示必然會發(fā)生CR-POPF,超過7 分幾乎都會發(fā)生CR-POPF。故該模型分為4 個風險層次:0 分為可忽略風險,1 分或2 分為低風險,3~6 分為中風險,7~10 分為高風險。國內(nèi)外多項研究表明,該風險評分模型有著較強的預測能力及臨床實用性[19-22]。但也存在一些潛在不足之處:①模型的時效性亟待探討,該模型采用的是2009 年—2011 年的數(shù)據(jù),模型中預測因子是否需要增減,研究人群的人口學特征是否發(fā)生變化有待考證;②失血量的預測效能不足,彭斌等[19-23]在其研究中沒有觀察到FRS 中重要預測因子失血量的統(tǒng)計學差異,Grendar 等[24-25]的研究也同樣證明失血量與CR-POPF 的發(fā)生缺乏關(guān)聯(lián)。
2.2 替代瘺管風險評分(Alternative Fistula Risk Score,a-FRS) 2019 年,Mungroop 等[26]構(gòu)建了a-FRS,該風險預測模型由3 個預測因子組成:胰腺質(zhì)地、胰管直徑、體質(zhì)指數(shù)(body mass index,BMI)。該研究基于兩個大型數(shù)據(jù)庫進行建模與內(nèi)部驗證,并通過兩個機構(gòu)的數(shù)據(jù)進行外部驗證。模型內(nèi)部驗證的C 統(tǒng)計量為[0.75,95%CI(0.71,0.78)],外部驗證的C 統(tǒng)計量為[0.78,95%CI(0.74,0.82)],展現(xiàn)出較好的預測效能與可泛化性。評價a-FRS 模型離不開與原FRS 模型進行比較,作者分別基于2005 年與2016 年的POPF 定義將驗證數(shù)據(jù)集用FRS 與a-FRS 進行POPF 的風險評估,結(jié)果表明在2005 年的POPF 定義中a-FRS 模型較FRS 模型性能有所改善,而在2016 年的CR-POPF 定義中a-FRS 模型與FRS 模型表現(xiàn)相當。除此之外,國內(nèi)外其他學者也對上述兩個模型進行了比較研究。沈健等[27]研究發(fā)現(xiàn),F(xiàn)RS 模型對CR-POPF 的預測價值大于a-FRS 模型;韓國學者Ryu 等[28]比較了FRS 和a-FRS 在韓國人群中的差別,結(jié)果表明兩風險評分模型都具有一定的預測效能,但部分指標(a-FRS 的胰腺質(zhì)地和FRS 的估計出血量)統(tǒng)計學效能低。
2.3 更新的替代胰瘺風險評分(Updated Alternative Fistula Risk Score,ua-FRS) Mungroop 等[29]于2021 年基于a-FRS 構(gòu)建了ua-FRS,該模型同樣是使用大型數(shù)據(jù)庫進行的更新與驗證,但參與人群變?yōu)榻邮芪?chuàng)胰十二指腸切除術(shù)的病人(minimally invasive pancreatoduodenectomy,MIPD)。 ua-FRS 在原有a-FRS3 個預測因子的基礎(chǔ)上添加了性別變量,其內(nèi)部驗證的C 統(tǒng)計量為0.75,并基于2005 年和2016 年定義分別對數(shù)據(jù)庫進行了外部驗證,其C 統(tǒng)計量分別為0.73,0.76,表明模型預測效能表現(xiàn)較好,其校準圖也表現(xiàn)出了較好的校準水平。該模型的呈現(xiàn)除公式外,還構(gòu)建了網(wǎng)頁計算器,更方便了CR-POPF 風險概率的計算。作者同樣基于訓練集數(shù)據(jù)庫對FRS 和a-FRS 進行了驗證,其C 統(tǒng)計量分別為0.69,0.68,預測效能均低于ua-FRS。但學者Hayashi 等[30]對FRS、a-FRS、ua-FRS 模型的單中心外部驗證顯示,三者在C統(tǒng)計量上并未表現(xiàn)出統(tǒng)計學差異。
2.4 其他POPF 風險預測模型
2.4.1 基于術(shù)前指標的POPF 風險預測模型Yamamoto 等[31]于日本國立癌癥中心醫(yī)院構(gòu)建的術(shù)前POPF 風險預測系統(tǒng),被稱為NCCH 預測系統(tǒng)。與FRS 和a-FRS 模型不同的是,該預測系統(tǒng)是基于病人手術(shù)前指標來預測病人術(shù)后胰瘺的發(fā)生,可以在術(shù)前對病人可能存在的術(shù)后問題進行評估,以采取更合適的手術(shù)方式或送往更高級的胰腺外科研究中心進行手術(shù)治療。NCCH 預測系統(tǒng)通過5 個術(shù)前因子來預測CR-POPF,包括男性(1 分)、主胰管指數(shù)<0.25(2 分)、CT 示遠離門靜脈(2 分)、非胰腺癌(1 分)、腹內(nèi)厚度>65 mm(1 分)共7 分。該模型的C 統(tǒng)計量為0.808,同時該風險預測系統(tǒng)在驗證組預測B 級和C 級胰瘺時具有較好的表現(xiàn)(C 統(tǒng)計量為0.834)。國內(nèi)學者黃強等[32-33]使用該模型進行了臨床應(yīng)用驗證,C 統(tǒng)計量分別為0.946 與0.910,模型表現(xiàn)較好。Roberts 等[34]也進行了類似的術(shù)前指標構(gòu)建模型,得到兩個預測因子:BMI和胰管寬度,C 統(tǒng)計量為0.832。有研究通過9 所醫(yī)療中心的1 898 例病人對Callery 等[17]、Mungroop 等[26]和Roberts 等[34]構(gòu)建的模型進行外部驗證,其C 統(tǒng)計量分別為0.61,0.64 和0.63,并得出上述3 個模型在韓國隊列中表現(xiàn)較差的結(jié)論。
2.4.2 基于機器學習算法的POPF 風險預測模型 機器學習算法目前正在變得越來越流行[35],已在眾多風險預測研究中展示出優(yōu)異表現(xiàn)[36-38]。機器學習算法對待數(shù)據(jù)更加包容,對特征的處理及篩選更加靈活,故其對結(jié)局事件的預測更加精確。在POPF 風險預測模型研究中,機器學習算法研究較少。Perri 等[39]通過機器學習算法構(gòu)建CR-POPF 回歸樹模型,根據(jù)主胰管直徑和BMI 兩個預測因子將病人劃分為低、中、高3 個風險組,其訓練集與驗證集中3 個風險組的CR-POPF 實際發(fā)生情況不同,表明該回歸樹風險分層能較好地區(qū)分不同CR-POPF 風險的病人,從而可以依此指導臨床決策。Han 等[40]也利用機器學習算法中的隨機森林(random forest,RF)和神經(jīng)網(wǎng)絡(luò)(neural network,NN)探索更高預測效能的POPF 風險預測模型,其中作者使用遞歸特征消除法(recursive feature elimination,RFE)進行最優(yōu)特征的選擇,對模型中可能存在的過度擬合問題做出了較好的處理,最后通過RFE 篩選出16 個變量所構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型表現(xiàn)出最大的C 統(tǒng)計量(0.74),表明該模型擁有較好的臨床預測性能,且作者基于神經(jīng)網(wǎng)絡(luò)模型構(gòu)建了網(wǎng)頁計算器,使預測CR-POPF 更加方便與易獲取。
相較于國外的POPF 預測研究,國內(nèi)的POPF 預測模型研究相對較少,多數(shù)研究僅停留在POPF 的危險因素分析,并未進一步建模研究。相較于國外研究,國內(nèi)學者的研究具有人群代表性較好、危險因素本土化的優(yōu)點,更加適合中國人群。在國內(nèi)的POPF 風險預測模型中,比較有代表性的有李軻等[41-43]的研究。李軻[41]分析了296 例行胰十二指腸切除術(shù)的病人,其中訓練集222 例,驗證集74 例,對收集的22 個建模指標進行統(tǒng)計學分析后構(gòu)建回歸模型,結(jié)果表明年齡≥65 歲、術(shù)前清蛋白<30 g/L、術(shù)中出血量≥600 mL、胰腺質(zhì)地軟以及胰管直徑<3 mm 是胰十二指腸切除術(shù)術(shù)后發(fā)生CR-POPF 的獨立危險因素。該模型在驗證集的C 統(tǒng)計量為0.862,H-L 檢驗結(jié)果顯示,χ2=2.837,P=0.725,表明模型的區(qū)分度與校準度良好。徐西伯等[42]研究發(fā)現(xiàn),BMI>25 kg/m2、術(shù)中探查主胰管直徑<3 mm 和術(shù)后首日腹腔積液淀粉酶>2 651 U/L 是發(fā)生CR-POPF 的獨立危險因素,而曹昕彤等[42]也在研究中指出術(shù)后第1 天腹腔引流液淀粉酶水平、腹腔引流液細菌培養(yǎng)結(jié)果和血清清蛋白水平是發(fā)生CR-POPF 的獨立危險因素,兩研究所構(gòu)建的模型區(qū)分度分別為0.868 和0.911,模型表現(xiàn)較好。但曹昕彤等[43]的研究中未設(shè)置驗證集,無法證明模型的外推性等問題;李珂與徐西伯的驗證集人數(shù)均低于PROBAST 標準[16]的100 個參與者,在樣本量方面表現(xiàn)出較高的偏倚風險。Xia 等[44-45]單中心研究以2009 年1 月—2015 年10 月225 例胰十二指腸切除術(shù)病人作為訓練集,進一步選擇2015 年11 月—2017 年11 月136 例胰十二指腸切除術(shù)病人作為驗證集,兩組病人術(shù)前準備、手術(shù)方式及術(shù)后管理措施一致。經(jīng)多元Logistic 回歸建模得出胰腺質(zhì)地、主胰管直徑、是否擴大淋巴清掃以及術(shù)后第1 天血清清蛋白是影響CR-POPF 的獨立危險因素,其公式代入驗證組后C 統(tǒng)計量為0.777,模型預測效能較好。作者還將其各獨立危險因素的回歸系數(shù)值進行加權(quán)賦值,構(gòu)建了胰瘺風險評分系統(tǒng),總分為6 分,該風險評分系統(tǒng)在訓練集和驗證集中表現(xiàn)均較好,C 統(tǒng)計量分別為0.813 和0.806。該模型擁有較好的性能與臨床實用性,未來可以進一步設(shè)計獨立外部驗證研究來證明該模型的普適性。
國內(nèi)外POPF 風險預測模型報告均具有較好的預測效能和臨床使用價值,但還存在模型研究中數(shù)據(jù)來源與處理等報告不全、建模統(tǒng)計方法可能會造成較高偏倚等問題。今后研究中應(yīng)當在模型構(gòu)建過程中使用TRIPOD 報告準則規(guī)范報告及PROBAST 偏倚評價工具進行自檢,并通過交叉驗證或正則化等統(tǒng)計學方法以及大樣本量或外部驗證等解決模型的過度擬合問題,以構(gòu)建更優(yōu)化的POPF 臨床預測模型,為CR-POPF的早期篩查與早期醫(yī)療護理決策提供更可靠的理論依據(jù)。