国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

XGBoost 算法在乳腺癌輔助診斷中的應(yīng)用

2022-02-07 09:20李佳思
關(guān)鍵詞:決策樹分類器準(zhǔn)確率

李佳思

(上海工程技術(shù)大學(xué) 數(shù)理與統(tǒng)計(jì)學(xué)院,上海 201620)

0 引言

目前,高效率的工作追求改變了人們生活方式和飲食習(xí)慣,癌癥成為威脅人們健康的常見疾病之一。對(duì)女性而言,乳腺癌則已位于癌癥發(fā)病率的前列,并對(duì)國(guó)內(nèi)女性的身體健康造成嚴(yán)重危害。隨著醫(yī)療技術(shù)水平的提升,通過藥物、手術(shù)等方式可以使早期癌癥患者的病情得到有效遏制,而晚期患者的治愈率大大降低,因此,早發(fā)現(xiàn)早治療是提高癌癥治愈率的有效手段[1-2]。傳統(tǒng)的乳腺癌診斷方式有X射線檢查、針吸細(xì)胞學(xué)檢查、B 型超聲檢查和活組織檢查等,一般需要經(jīng)驗(yàn)豐富的醫(yī)生根據(jù)檢查結(jié)果判定腫瘤惡良性,癌細(xì)胞是否已經(jīng)發(fā)生轉(zhuǎn)移和擴(kuò)散等[3]。由于受到患者健康意識(shí)、各地區(qū)醫(yī)療水平、醫(yī)療資源分配以及醫(yī)生臨床經(jīng)驗(yàn)等因素的影響,現(xiàn)實(shí)中乳腺癌誤診、漏診的情況時(shí)有發(fā)生。

近年來,醫(yī)療器械產(chǎn)品的不斷創(chuàng)新推出,能夠幫助醫(yī)生更好地判斷患者病情,但是日益繁多的檢查指標(biāo)也使病情與病因的聯(lián)系更加復(fù)雜。同時(shí),計(jì)算機(jī)硬件和軟件性能的高速提升使得海量的醫(yī)療數(shù)據(jù)得以儲(chǔ)存,患者病史、生活習(xí)慣、家族遺傳等因素都可能成為需要考慮的因素,海量的信息加重了醫(yī)生診療的負(fù)擔(dān)。隨著人工智能的興起,機(jī)器學(xué)習(xí)算法已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域并取得了重大突破,這為癌癥診斷提供了新的方向,基于機(jī)器學(xué)習(xí)和模式識(shí)別的疾病診斷與發(fā)病機(jī)制研究成為熱點(diǎn)研究方向。傳統(tǒng)的機(jī)器學(xué)習(xí)模型主要有決策樹(DT)、支持向量機(jī)(SVM)、K-近鄰(KNN)、樸素貝葉斯(NB)等,雖然在很多疾病分類問題上取得了可觀的進(jìn)步,但也具有局限性,如泛化能力不強(qiáng)、在不同數(shù)據(jù)集中模型表現(xiàn)差距較大等問題。集成學(xué)習(xí)可以很好地解決上述問題,其主要思想是:訓(xùn)練多個(gè)同質(zhì)或異質(zhì)的弱分類器對(duì)樣本進(jìn)行預(yù)測(cè),獲得多個(gè)預(yù)測(cè)結(jié)果,然后根據(jù)某種規(guī)則將各個(gè)弱分類器的預(yù)測(cè)結(jié)果進(jìn)行結(jié)合得到最終預(yù)測(cè)[4-5]。這種方法提升了模型的泛化能力,具有魯棒性,通常能夠得到比單個(gè)分類器更好的預(yù)測(cè)準(zhǔn)確率,在人臉識(shí)別、文本分類、疾病輔助診斷等方面得到了廣泛的應(yīng)用。

目前許多學(xué)者將機(jī)器學(xué)習(xí)算法用于乳腺癌的診斷中,取得了良好的分類效果。鄧卓等人[6]將集成學(xué)習(xí)算法用于乳腺癌的診斷研究,在美國(guó)威斯康星州乳腺癌數(shù)據(jù)集上分別建立了隨機(jī)森林和XGBoost診斷模型,并與決策樹算法的分類性能進(jìn)行比較,結(jié)果表明,集成學(xué)習(xí)算法相比傳統(tǒng)的決策樹分類模型具有更高的分類準(zhǔn)確率。張紅斌等人[7]提出了一種改進(jìn)的自適應(yīng)提升算法用于乳腺癌圖像識(shí)別,從不同角度提取圖像特征并進(jìn)行特征融合,在CBISDDSM 數(shù)據(jù)集上分別建立了邏輯回歸、隨機(jī)森林、AdaBoost、梯度提升決策樹等診斷模型,并將改進(jìn)的ERGS 算法與傳統(tǒng)算法進(jìn)行結(jié)合用于乳腺癌診斷。實(shí)驗(yàn)結(jié)果顯示,所提出的ERGS-Ada 算法的預(yù)測(cè)準(zhǔn)確率最高,達(dá)到了86.24%,對(duì)陽性圖像的識(shí)別精度達(dá)到了99.18%。Khuriwal 等人[8]提出了一種自適應(yīng)集成投票方法進(jìn)行乳腺癌檢測(cè),在威斯康星乳腺癌數(shù)據(jù)集上驗(yàn)證了算法的有效性,使用卡方檢驗(yàn)和遞歸特征消除方法選擇出了影響模型識(shí)別準(zhǔn)確率的16 個(gè)特征,建立了邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型,采用投票法獲得了最終預(yù)測(cè)結(jié)果,實(shí)現(xiàn)了98.50%的分類準(zhǔn)確率。Sun 等人[9]提出了基于深度學(xué)習(xí)的集成CNN 模型,對(duì)266 例乳腺癌患者的術(shù)前磁共振成像和分子信息進(jìn)行訓(xùn)練來區(qū)分2 種乳腺癌亞型(管腔型和非管腔型),結(jié)果顯示,所提出的模型在測(cè)試集中的識(shí)別準(zhǔn)確率達(dá)到了85.2%。岳鵬等人[10]提出了一種XLC-Stacking 方法進(jìn)行乳腺癌診斷,該方法基于XGBoost 算法選擇出影響乳腺癌分類的最佳特征,并使用威斯康星州乳腺癌的診斷數(shù)據(jù)來驗(yàn)證模型有效性。結(jié)果表明,所提出的XLC-Stacking 方法與單一的XGBoost 和一般的Stacking 方法相比準(zhǔn)確率得到提升,分類準(zhǔn)確率為97.73%。Hou 等人[11]使用四川大學(xué)華西醫(yī)院的數(shù)據(jù)分別建立了深度神經(jīng)網(wǎng)絡(luò)、XGBoost 和隨機(jī)森林模型來預(yù)測(cè)中國(guó)居民患乳腺癌的風(fēng)險(xiǎn),實(shí)驗(yàn)結(jié)果顯示,XGBoost、深度神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型的AUC值分別為0.742、0.728 和0.728。

為了彌補(bǔ)傳統(tǒng)的乳腺癌診斷方式的不足,提升診斷效率和精度,本文將XGBoost 算法用于乳腺癌診斷,將數(shù)據(jù)的70%作為訓(xùn)練集、30%用于測(cè)試,同時(shí)建立了決策樹、支持向量機(jī)、K-近鄰和樸素貝葉斯分類模型,使用五折交叉驗(yàn)證準(zhǔn)確率、F1值、AUC值等評(píng)估指標(biāo)來評(píng)價(jià)模型的優(yōu)劣。

1 相關(guān)理論介紹

1.1 XGBoost 算法

XGBoost(Extreme Gradient Boosting)算法在2014 年由陳天奇博士提出,這是對(duì)梯度提升算法的一種改進(jìn),近年來在各大機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘類的比賽中取得了優(yōu)異的成績(jī)。提升算法的思想是從某個(gè)弱學(xué)習(xí)器開始,不斷學(xué)習(xí)得到不同的弱分類器,然后將這些弱分類器通過某種策略進(jìn)行融合得到更加強(qiáng)大的分類器。Boosting 方法中各個(gè)弱分類器是相互關(guān)聯(lián)的,每次迭代根據(jù)前一個(gè)分類器的結(jié)果來調(diào)整樣本的權(quán)重,通過加大容易被錯(cuò)誤分類的樣本的權(quán)重使得下階段生成的弱分類器更加關(guān)注被錯(cuò)誤分類的樣本。Boosting 方法的工作原理如圖1 所示。

圖1 Boosting 算法原理圖Fig. 1 Schematic diagram of Boosting algorithm

XGBoost 算法由多棵決策樹組成,模型以前k -1 棵樹生成的模型所產(chǎn)生的殘差來建立第k棵樹,從而不斷提升模型的預(yù)測(cè)精度。XGBoost 算法的流程如下:

給定二分類數(shù)據(jù)集,每個(gè)樣本由特征X和標(biāo)簽Y構(gòu)成:

其中,xi∈Rn,yi∈{+1,-1},+1 和-1 分別表示2 個(gè)不同的類別。

預(yù)測(cè)模型可表示為:

其中,K為樹的個(gè)數(shù);fk(xi) 表示第k棵樹;表示樣本xi的預(yù)測(cè)值。

XGBoost 的目標(biāo)函數(shù)為:

其中,l(yi,) 表示第i個(gè)樣本的訓(xùn)練誤差;n表示樣本個(gè)數(shù);Ω(fk) 為第k棵樹的正則項(xiàng)。正則項(xiàng)可以減小模型的過擬合風(fēng)險(xiǎn),降低模型復(fù)雜度。其定義如下:

其中,T為葉子節(jié)點(diǎn)個(gè)數(shù),γ和λ為控制參數(shù)。

可將上述目標(biāo)函數(shù)寫為:

其中,C表示常數(shù)。

使用泰勒展開可將上述目標(biāo)函數(shù)近似為:

其中,

去掉常數(shù)項(xiàng)可得:

上述目標(biāo)函數(shù)可改寫為:

公式(10)可以寫為:

對(duì)式(11)求導(dǎo),令一階導(dǎo)數(shù)為零可得:

將式(12)代入目標(biāo)函數(shù)可得:

在此,將Obj*作為評(píng)價(jià)決策樹結(jié)構(gòu)好壞的函數(shù),取值越低表示模型越好。

1.2 模型評(píng)價(jià)方法

混淆矩陣[12-13]是分類任務(wù)中常用的評(píng)價(jià)方法,可以將數(shù)據(jù)的真實(shí)情況和預(yù)測(cè)結(jié)果清晰地顯示出來,矩陣中Positive表示正例,Negative表示負(fù)例。以二分類模型為例,混淆矩陣見表1。

表1 混淆矩陣Tab.1 Confusion matrix

由混淆矩陣可以計(jì)算出準(zhǔn)確率、精準(zhǔn)率、召回率、F1值和AUC值,多角度評(píng)估模型性能。對(duì)此擬做探討分述如下。

(1)準(zhǔn)確率(Accuracy):表示分類器預(yù)測(cè)正確的樣本個(gè)數(shù)與樣本總數(shù)之比。通常,模型的準(zhǔn)確率越高,表示模型分類效果越好。準(zhǔn)確率計(jì)算公式如下:

(2)精準(zhǔn)率(Precision):陽性病例中正確分類的樣本數(shù)量與所有預(yù)測(cè)為陽性的樣本數(shù)量之比。計(jì)算公式如下:

(3)召回率(Recall):陽性病例中正確分類為陽性的樣本數(shù)量與真實(shí)為陽性的樣本數(shù)量之比。計(jì)算公式如下:

(4)F1-Score:表示精準(zhǔn)率與召回率的調(diào)和平均。計(jì)算公式如下:

(5)AUC:表示ROC曲線下面積,值越接近于1表示模型性能越好。

2 數(shù)據(jù)來源及預(yù)處理

2.1 數(shù)據(jù)來源

本文實(shí)驗(yàn)數(shù)據(jù)來自UCI 數(shù)據(jù)庫(kù)中的威斯康星州乳腺癌診斷數(shù)據(jù)集。數(shù)據(jù)集共包含569 條數(shù)據(jù)樣本,32 個(gè)特征,分別含有212 例惡性樣本和357 例良性樣本。其中,ID 為患者編號(hào),diagnosis為樣本標(biāo)簽,M表示惡性病例,B表示良性病例。除去患者編號(hào)和diagnosis兩列后剩余的30 個(gè)特征是從患者乳房腫塊的細(xì)針抽吸數(shù)字影像中提取的數(shù)據(jù),表示了細(xì)胞的10 個(gè)細(xì)胞核信息(平均值、標(biāo)準(zhǔn)誤差和最大值),分別為半徑(radius)、紋理(texture)、周長(zhǎng)(perimeter)、面積(area)、平滑度(smoothness)、密實(shí)度(compactness)、凹度(concavity)、凹點(diǎn)(concave points)、對(duì)稱性(symmetry)和分形維數(shù)(fractal_demension)。

2.2 數(shù)據(jù)預(yù)處理

探索性數(shù)據(jù)分析是建立模型前的重要步驟,有助于更好地了解數(shù)據(jù)結(jié)構(gòu),發(fā)現(xiàn)數(shù)據(jù)中的異常值及特征之間的相關(guān)關(guān)系,幫助選擇合適的數(shù)據(jù)處理方法和預(yù)測(cè)模型。實(shí)驗(yàn)前需要對(duì)數(shù)據(jù)進(jìn)行清洗來提升模型的擬合能力,圖2 展示了數(shù)據(jù)集中前9 個(gè)特征的描述性統(tǒng)計(jì),可以看出,不同特征之間存在較大的量綱差異,因此,在建立模型之前對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。圖3 繪制了前10 個(gè)特征的箱線圖,描述了數(shù)據(jù)的分布信息,從箱線圖中可以分析數(shù)據(jù)的對(duì)稱性、分散程度、偏態(tài)及異常值等信息。由圖3 可以看出,周長(zhǎng)均值和面積均值兩個(gè)特征具有相似的分布,由此可以推測(cè)二者具有一定相關(guān)關(guān)系。

圖2 部分特征的統(tǒng)計(jì)性描述Fig. 2 Statistical description of some features

圖3 前10 個(gè)特征的箱線圖Fig. 3 Box diagram of the first 10 features

3 實(shí)驗(yàn)過程與結(jié)果

3.1 實(shí)驗(yàn)過程

本文將XGBoost 模型用于乳腺癌患者的診斷數(shù)據(jù)對(duì)乳腺腫塊的惡良性進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)過程主要包括數(shù)據(jù)預(yù)處理、模型建立和結(jié)果分析。其中,數(shù)據(jù)預(yù)處理主要通過統(tǒng)計(jì)學(xué)方法了解數(shù)據(jù)特性,對(duì)數(shù)據(jù)進(jìn)行清洗;模型建立即是對(duì)數(shù)據(jù)的擬合過程,根據(jù)研究目標(biāo),選擇合適的預(yù)測(cè)模型和參數(shù),本文使用網(wǎng)格搜索和交叉驗(yàn)證尋找模型的最優(yōu)參數(shù);結(jié)果分析主要是通過模型評(píng)估指標(biāo)對(duì)模型性能進(jìn)行評(píng)價(jià)和分析。本文實(shí)驗(yàn)步驟如圖4 所示。交叉驗(yàn)證是建立模型時(shí)常用的一種方法,可以獲得更加穩(wěn)定的模型。K折交叉驗(yàn)證即是將數(shù)據(jù)平均分為K份,每次建模使用其中一份作為測(cè)試集,剩余K -1 份作為訓(xùn)練集,共進(jìn)行K次訓(xùn)練和測(cè)試,最后返回K次測(cè)試結(jié)果的平均值來增加結(jié)果的可靠性[14]。實(shí)驗(yàn)過程中,將70%的樣本作為訓(xùn)練集,30%的樣本作為測(cè)試集,通過網(wǎng)格搜索獲得模型的最佳參數(shù)組合,以五折交叉驗(yàn)證準(zhǔn)確率、F1值和AUC值來對(duì)模型性能進(jìn)行評(píng)價(jià)。

圖4 實(shí)驗(yàn)流程Fig. 4 Experimental process

3.2 XGBoost 診斷模型的建立

實(shí)驗(yàn)使用70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集,在經(jīng)過預(yù)處理后的數(shù)據(jù)上建立XGBoost 模型。合理調(diào)整模型參數(shù)有利于降低模型過擬合風(fēng)險(xiǎn),提升模型預(yù)測(cè)能力,實(shí)驗(yàn)過程中使用了五折交叉驗(yàn)證準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)確定模型的最優(yōu)參數(shù)。通過學(xué)習(xí)曲線可以直觀地看到模型性能隨著參數(shù)的變化情況,設(shè)置n_estimators的迭代范圍為10 到200,以10 為步長(zhǎng),得到五折交叉驗(yàn)證準(zhǔn)確率隨弱分類器個(gè)數(shù)的變化關(guān)系如圖5 所示。由圖5 可以看出,當(dāng)弱分類器數(shù)量小于50 時(shí),模型五折交叉驗(yàn)證準(zhǔn)確率隨著弱分類器數(shù)量的增加而升高,在弱分類器數(shù)量達(dá)到100 時(shí),模型的分類準(zhǔn)確率最高、為97.72%,隨后再增加分類器數(shù)量,模型的分類準(zhǔn)確率先下降、后趨于平穩(wěn)。

圖5 分類準(zhǔn)確率與基學(xué)習(xí)器個(gè)數(shù)的關(guān)系Fig. 5 Relationship between classification accuracy and the number of base learners

經(jīng)過實(shí)驗(yàn)驗(yàn)證,在random_state =10 的情況下,n_estimators =100,learning_rate =0.65 時(shí)模型的五折交叉驗(yàn)證準(zhǔn)確率達(dá)到最高、為97.89%。XGBoost模型在測(cè)試集上的混淆矩陣如圖6 所示。

圖6 XGBoost 模型的混淆矩陣Fig. 6 Confusion matrix of XGBoost model

3.3 實(shí)驗(yàn)結(jié)果分析

為了將XGBoost 模型的診斷效果與其他模型進(jìn)行比較,在威斯康星州乳腺癌數(shù)據(jù)中分別建立了決策樹、支持向量機(jī)、K-近鄰和樸素貝葉斯分類模型,得到不同模型的精準(zhǔn)率、召回率、F1值、AUC值以及五折交叉驗(yàn)證準(zhǔn)確率見表2。

表2 不同模型的分類結(jié)果Tab.2 Classification results of different models

由表2 可知,XGBoost 診斷模型的分類準(zhǔn)確率為97.89%,高于其他4 種單分類器的準(zhǔn)確率,支持向量機(jī)的準(zhǔn)確率排名次之,達(dá)到了97.36%;緊隨其后是KNN 和決策樹模型,準(zhǔn)確率分別為96.84%和94.55%,樸素貝葉斯的預(yù)測(cè)效果最差,準(zhǔn)確率為92.79%。5 個(gè)模型中XGBoost 模型的AUC值達(dá)到最高、為0.998,KNN 排名次之、為0.997,其次為SVM和NB,分別為0.996 和0.984,決策樹的AUC值最低、為0.960。由結(jié)果可知,整體來看XGBoost 模型的分類效果優(yōu)于其他4 種單分類器,XGBoost 算法在乳腺癌診斷中可以提升模型的泛化能力,將機(jī)器學(xué)習(xí)算法應(yīng)用于醫(yī)療數(shù)據(jù)與疾病診斷中,建立疾病診斷輔助系統(tǒng),能夠有效提升診斷效率和準(zhǔn)確率,具有一定現(xiàn)實(shí)意義。

建立XGBoost 模型后得到特征重要性排序如圖7所示。由圖7可知,area_se、texture_worst、texture_mean、symmetry_se、symmetry_worst、concave points_worst、perimeter_worst是影響乳腺癌惡良性的較重要特征。這對(duì)于找出影響乳腺癌惡良性的因素十分重要,醫(yī)生在為患者進(jìn)行診斷時(shí)可以優(yōu)先關(guān)注這些特征,有利于發(fā)現(xiàn)更加有效的治療方式,對(duì)降低乳腺癌死亡率具有一定現(xiàn)實(shí)意義。

圖7 特征重要性排序Fig. 7 Feature importance ranking

4 結(jié)束語

本文將XGBoost 模型應(yīng)用于乳腺癌診斷,使用UCI 數(shù)據(jù)庫(kù)中的威斯康星州乳腺癌數(shù)據(jù)集驗(yàn)證了模型的有效性,同時(shí)建立了決策樹、支持向量機(jī)、K-近鄰和樸素貝葉斯分類模型,通過五折交叉驗(yàn)證準(zhǔn)確率、F1值、AUC值等評(píng)估指標(biāo)對(duì)比了不同模型的分類性能。由實(shí)驗(yàn)結(jié)果可知,XGBoost 模型的預(yù)測(cè)效果優(yōu)于其他4 種分類模型,取得了97.89%的分類準(zhǔn)確率,一定程度上說明集成學(xué)習(xí)相比單分類器具有更好的泛化能力,在今后可以將集成學(xué)習(xí)應(yīng)用于乳腺癌的診斷來提升診斷準(zhǔn)確率。此外,XGBoost 模型給出了特征的重要性排名,可以發(fā)現(xiàn)不同特征對(duì)分類結(jié)果的影響,進(jìn)而為醫(yī)生提供決策指導(dǎo)。此研究對(duì)識(shí)別早期乳腺癌患者并進(jìn)行針對(duì)性治療具有現(xiàn)實(shí)意義,后續(xù)研究中可以將其他集成學(xué)習(xí)方法用于乳腺癌輔助診斷,也可將XGBoost 算法應(yīng)用于其他類型的疾病進(jìn)一步探究模型的表現(xiàn)及其適用性。

猜你喜歡
決策樹分類器準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
基于差異性測(cè)度的遙感自適應(yīng)分類器選擇
基于實(shí)例的強(qiáng)分類器快速集成方法
基于決策樹的出租車乘客出行目的識(shí)別
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用