国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學習算法在臨床相關性術后胰瘺預測中的研究進展

2023-03-22 18:42:40鄭繼盛呂夢雨宮淑萍趙曉敏
全科護理 2023年6期
關鍵詞:決策樹機器分類

鄭繼盛,呂夢雨,宮淑萍,趙曉敏

盡管胰十二指腸切除術(PD)的死亡率已經(jīng)下降至2%以內(nèi)[1-2],但臨床相關性術后胰瘺(clinically relevant postoperative pancreatic fistula,CR-POPF)的發(fā)生率仍然高居于3%~45%的發(fā)生率[3-5],嚴重危害著病人的圍術期預后及生命安全[6-8]。CR-POPF預測模型可以幫助醫(yī)護人員對胰瘺高危病人進行早期識別,從而進行早期干預等臨床決策[9]。同時,隨著電子病歷的大量積累以及大數(shù)據(jù)時代的到來,機器學習(machine learning,ML)變得越來越流行[10-13],機器學習是一門聚焦于計算機如何從數(shù)據(jù)中學習的科學學科,匯聚統(tǒng)計學和計算機科學為一身[12]。與傳統(tǒng)Logistic回歸構建的預測模型相比,機器學習算法具有更強大的從數(shù)據(jù)中提取信息的能力[14],即更能從復雜的預測因子與結局的對應中找出規(guī)律,找到更多潛在的預測因子信息等[15]?;跈C器學習算法的風險預測模型對待數(shù)據(jù)更加包容,對特征的處理及篩選更加靈活,預測結局事件的發(fā)生更加精確[16],可以對病人的照護產(chǎn)生積極的影響[17],已在眾多預后并發(fā)癥的風險預測研究中展示出優(yōu)異的表現(xiàn)[18-20]。現(xiàn)介紹常見的機器學習算法及基于機器學習算法的胰瘺預測模型,以期為臨床實踐和后續(xù)研究提供參考。

1 基本概念

1.1 CR-POPF CR-POPF是胰腺導管上皮與其他上皮表面的異常通道,內(nèi)有源自胰腺富含酶類的液體。診斷標準為術后≥3 d任意量的流液中淀粉酶濃度高于正常血清淀粉酶濃度上限3倍以上,同時必須有相應臨床表現(xiàn)[3]。

1.2 機器學習 機器學習是一門研究計算機如何從數(shù)據(jù)中學習并挖掘信息的科學學科。主要是用某些算法指導計算機利用已知數(shù)據(jù)得出適當?shù)哪P停⒗么四P蛯π碌那榫辰o出判斷的過程。機器學習根據(jù)所處理數(shù)據(jù)種類的不同,可以分為有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和強化學習等類型。監(jiān)督學習和無監(jiān)督學習應用較多,其中監(jiān)督機器學習算法已經(jīng)被廣泛用于分類或預測疾病癥狀的發(fā)生發(fā)展[21]。常見的無監(jiān)督學習算法包括邏輯回歸(Logistic Regression,LR)、支持向量機(support vector machine,SVM)、K-近鄰法、決策樹(decision tree,DT)、隨機森林(random forest,RF)、極限梯度提升、人工神經(jīng)網(wǎng)絡(artificial neural network,ANN;或neural network,NN)等[22]。

2 常見機器學習分類算法

2.1 LR LR是一種傳統(tǒng)的統(tǒng)計學方法,被應用于機器學習中解決二分類問題。LR模型是一種概率模型,是以某一事件發(fā)生與否的概率P為因變量,以影響P的因素為自變量建立的回歸模型,分析某事件發(fā)生的概率與自變量之間的關系,是一種非線性回歸模型。LR模型優(yōu)點在于簡單易行,計算負擔較小,算法經(jīng)典,操作方法與結果呈現(xiàn)更加成熟。缺點在于模型可能存在欠擬合、精度不高等問題,此外模型假設較為嚴格,如線性關系,無強影響點,無多重共線性等假設。

2.2 SVM SVM是由Cortes等[23]引入的基于統(tǒng)計學習理論中VC維理論和結構風險最小化原理基礎上的機器學習方法[24]。SVM意于找到一條將數(shù)據(jù)分類的最優(yōu)超平面,超平面類型隨數(shù)據(jù)維度而變化,其通過最大化超平面及安全邊際來尋找最優(yōu)系數(shù),從而得到最佳分類表現(xiàn)。SVM有著可以解決小樣本、高維度及非線性特征等問題的優(yōu)點,且模型泛化能力較強。但在處理非線性問題時,需要選擇合適的核函數(shù),常用的核函數(shù)包括:線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)及sigmod核函數(shù),對于解決該問題,可能需要多次的參數(shù)調(diào)節(jié)以獲得特定數(shù)據(jù)集的最優(yōu)參數(shù)。此外SVM對于數(shù)據(jù)缺失敏感,且僅適用于處理二分類問題。

2.3 決策樹 決策樹可用于對分類結局與連續(xù)結局的預測,分別為分類樹與回歸樹。其表現(xiàn)為樹形結構的模型形狀來描述數(shù)據(jù)分類,其樹的根為輸入數(shù)據(jù),通過多次樹杈分裂,最終連接到葉節(jié)點(即終端節(jié)點),完成對結局的預測或歸類[25]。這種自上而下的過程叫做“遞歸劃分”,而這個過程是貪婪的,意為每次分裂都追求最小化的錯誤預測或分類,這會導致模型偏差變小,方差變大,造成模型的過擬合。決策樹的優(yōu)點在于模型易于理解與解釋,容易發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律以支持臨床決策,并且也適用于非線性數(shù)據(jù),對于數(shù)據(jù)缺失等問題的包容性較強[26]。

2.4 隨機森林 隨機森林是一種較新型、高度靈活的機器學習算法,其能夠用于分類和回歸問題,在醫(yī)療領域常用作疾病預測模型的構建[27]。RF基于集成學習的核心思想[28],將多棵決策樹合并在一起,以單棵決策樹作為基本單元,以獲取更優(yōu)的預測表現(xiàn)。RF在緩解了決策樹的過擬合問題的同時,又提高了模型的精度。但RF并沒有繼承決策樹強大的解釋性,且在低維及小數(shù)據(jù)集的表現(xiàn)較差。

2.5 ANN ANN是基于模仿大腦神經(jīng)網(wǎng)絡結構和功能而建立的一種信息處理系統(tǒng)[29]。其核心原理是模擬人腦思維的運行方式。ANN將整個思維過程分為輸入層、隱藏層和輸出層,輸入層即預測因子,隱藏層存在的神經(jīng)元通過調(diào)整各節(jié)點之間的連接權重值進行信息處理,輸出層呈現(xiàn)歸類結果。ANN在分類問題中準確度極高,并且對待非線性或未知關系等各種數(shù)據(jù)問題有著較強的容錯能力[30]。但ANN對于小數(shù)據(jù)集同樣存在容易過擬合的問題,且在隱藏層的學習過程不可知,模型可解釋能力較差。

3 機器學習算法在CR-POPF預測中的應用

3.1 回歸樹模型在CR-POPF預測中的應用 Perri等[31]前瞻性地分析了2017年7月—2019年12月各在2所醫(yī)院行胰十二指腸切除術的病人,根據(jù)醫(yī)院不同劃分訓練集(566例)與驗證集(456例)。作者將訓練集中單因素分析P小于0.2以及可能存在臨床潛在影響的變量納入多變量邏輯回歸方程,經(jīng)邏輯回歸后在訓練集中確定主胰管直徑(MPD)、美國麻醉醫(yī)師協(xié)會(ASA)麻醉風險評分以及體質(zhì)指數(shù)(BMI)與CR-POPF獨立相關(P<0.05),通過遞歸分隔回歸樹來確定出最能預測CR-POPF的變量。最終,構建出了由MPD直徑與BMI構成的回歸樹模型,AUC為0.70(95% CI:0.63~0.77),其中MPD的截斷值為5 mm(<5 mm與≥5 mm),BMI的截斷值為25 kg/m2(<25 kg/m2與≥25 kg/m2),作者依此模型將訓練集病人分為低中高CR-POPF風險層級,并驗證不同風險組之間CR-POPF風險存在顯著性差異。使用相同的變量與截斷值,該回歸樹模型在驗證集中的表現(xiàn)依舊較好,AUC為0.65(95% CI:0.59~0.61),但驗證集中的風險分層中低風險組與中風險組的CR-POPF風險并無統(tǒng)計學差異。該研究提供了一個簡單易行可重復的臨床預測CR-POPF風險工具,在有其預測精度的前提下,其操作僅一步或兩步便可對病人發(fā)病風險進行分層,有著非常高的臨床實用性。此外該模型也揭露出MPD直徑與BMI對于CR-POPF的重要影響及影響程度,這充分說明了決策樹模型的“容易發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律以支持臨床決策”的特點[32]。

3.2 RF與NN模型在CR-POPF預測中的應用 Han等[33]回顧性收集2007年1月—2016年12月在韓國首爾三星醫(yī)療中心接受胰十二指腸切除術的1 769例病人,分析其38個可能與CR-POPF相關的術前及術中變量,并對數(shù)據(jù)進行中位數(shù)插補處理缺失,分類變量設置啞變量等處理。在變量的篩選上,該研究并沒有使用傳統(tǒng)的基于單因素分析后多因素分析,而是直接使用機器學習算法中的遞歸特征消除(recursive feature elimination,RFE),該算法與逐步回歸篩選變量的思想類似,首先根據(jù)ML算法取得的特征重要性程度,移除最不重要的特征,通過AUC對特征移除前后的模型進行比較,最終止于所需要的特征數(shù)量[34]。在不進行特征選擇下作者通過RF與NN分別進行了3次建模與驗證(驗證采用重復10次的5折交叉驗證),建模變量與個案與其AUC分別為:僅分析完整數(shù)據(jù)的38個變量的數(shù)據(jù)集(RF:0.67,NN:0.74),分析中位數(shù)插補后不含血清C-反應蛋白、淀粉酶、脂肪酶和CA19-9水平的34變量數(shù)據(jù)集(RF:0.67,NN:0.72),分析中位數(shù)插補后38變量的數(shù)據(jù)集(RF:0.68,NN:0.71)。而通過RFE對變量篩選后,將CR-POPF風險因素確定為16個,并依照篩選后變量進行NN建模后,其AUC由0.71增至0.74,得到了較好的預測效能。在模型的呈現(xiàn)上,由于NN對于過程的可解釋性差,故最優(yōu)呈現(xiàn)方式即通過網(wǎng)頁計算器或App進行使用,作者將使用了REF的NN模型集成為交互式界面,嵌入于Web網(wǎng)頁中開放訪問與使用(https://popfrisk.smchbp.org/),極大地提升了模型的臨床實用性。

有研究也通過CT掃描獲取的與胰腺解剖和病人特征相關的放射學和形態(tài)學特征的變量構建了LR模型與RF模型[35],在數(shù)據(jù)分析前由于數(shù)據(jù)集中結局事件的不平衡,作者使用了一種數(shù)據(jù)集擴充技術,即合成少數(shù)過采樣技術(synthetic minority oversampling technique,SMOTE),對少數(shù)類事件生成了更多的樣本[36]。此外,LR模型的變量篩選使用了L1正則化技術(Lasso回歸),這使構建的模型擁有了較小的方差,可以避免過擬合的問題[37-38]。最終LR與RF模型表現(xiàn)分別為0.807與0.749,預測效能較好。本研究的意義在算法方面,使用了L1正則化的LR模型與RF模型來預測CR-POPF,表現(xiàn)出了較好的模型性能;同時在CR-POPF預測因子方面提出了更為客觀的放射學與組織學指標,增強了模型客觀性與可重復性。

3.3 深度學習在CR-POPF預測中的應用 Mu等[39]使用深度學習中卷積神經(jīng)網(wǎng)絡算法,通過對對比增強CT(contrast-enhanced computed tomography,CE-CT)的定量分析,生成了可以術前預測CR-POPF的深度學習評分(deep-learning score,DLS)。同時作者將經(jīng)典的瘺管風險評分系統(tǒng)[40](fistula risk score,F(xiàn)RS)與DLS進行預測CR-POPF效能的比對,結果表明DLS在訓練集、驗證集及測試集中表現(xiàn)均優(yōu)于FRS,AUC為:訓練集0.85(0.80~0.90)vs.0.78(0.72~0.84);驗證集0.81(0.72~0.89)vs.0.76(0.66~0.84)及測試集0.89(0.79~0.96)vs.0.73(0.61~0.83)。同樣有研究也通過基于機器學習算法對非對比增強CT(non-contrast-enhanced computed tomography)所獲得的紋理特征進行CR-POPF預測,并在該數(shù)據(jù)集中使用FRS與替代胰瘺風險評分[41](alternative fistula risk score,a-FRS)與其ML的預測效能進行比較,結果表明基于ML的紋理特征分析對CR-POPF的預測效能最高(AUC:0.95 vs.0.76/0.72)。

4 展望

真實臨床環(huán)境下CR-POPF的高發(fā)生率決定了其預測模型需要更高的準確性與實用性來支持臨床決策與管理,以降低CR-POPF發(fā)生率及其帶來的不良臨床影響。機器學習算法得益于日趨增加的臨床數(shù)據(jù),也發(fā)展于研究者對臨床結局事件預測精度的追求,不同的數(shù)據(jù)需要匹配不同的機器學習算法與模型呈現(xiàn)方式,在這一方面外文文獻表現(xiàn)較好,但目前國內(nèi)尚無基于機器學習算法的CR-POPF預測模型的研究。希望未來進一步增加對CR-POPF模型的開發(fā),以及使模型應用機器學習等算法提高預測效能與臨床實用性。

猜你喜歡
決策樹機器分類
機器狗
機器狗
分類算一算
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
分類討論求坐標
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
未來機器城
電影(2018年8期)2018-09-21 08:00:06
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
基于決策樹的出租車乘客出行目的識別
金昌市| 南江县| 隆化县| 永泰县| 万全县| 桂平市| 曲沃县| 汉寿县| 泸水县| 伊通| 法库县| 南昌县| 什邡市| 交城县| 湖口县| 饶平县| 临桂县| 禹城市| 台前县| 阳信县| 得荣县| 南康市| 定西市| 民勤县| 伊宁县| 兴宁市| 双鸭山市| 林西县| 彭州市| 穆棱市| 西和县| 安阳市| 财经| 湖口县| 江门市| 永仁县| 鲜城| 霸州市| 买车| 盐津县| 凤凰县|