国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GA-XGBoost 算法的肺癌預(yù)測研究

2023-12-18 18:13:49柯東晏峻峰
計(jì)算機(jī)時(shí)代 2023年11期
關(guān)鍵詞:特征選擇遺傳算法肺癌

柯東 晏峻峰

關(guān)鍵詞:肺癌;SMOTE過采樣;特征選擇;遺傳算法;集成算法;XGBoost

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2023)11-131-05

0 引言

肺癌是起源于肺部支氣管黏膜或腺體的惡性腫瘤,其發(fā)病率和死亡率增長很快,是對(duì)人的健康及生命威脅最大的惡性腫瘤之一[1]。由于肺栓塞常常伴有呼吸困難、咳嗽、胸痛、咯血等癥狀,臨床癥狀特異性不強(qiáng),通常難以鑒別,故漏診率較高,以致延誤救治時(shí)機(jī)[2]。在我國,肺癌是危害人類的生命健康的主要惡性腫瘤之一,在排名前十的惡性腫瘤中,肺癌的發(fā)病率和死亡率分別占20.03% 和26.99%[3]。若肺癌在早期階段能被及時(shí)發(fā)現(xiàn)并得到恰當(dāng)?shù)闹委?,患者? 年生存率可提高到50% 甚至更高[4]。

在早些年,Ledley[5]等人第一次將醫(yī)學(xué)領(lǐng)域的數(shù)學(xué)模型應(yīng)用到計(jì)算機(jī)輔助診斷中,首次提出計(jì)算機(jī)輔助診斷。Weizeng Li 等[6]提出了將決策樹和邏輯回歸相結(jié)合的邏輯樹,分別評(píng)估單個(gè)和多個(gè)腫瘤標(biāo)志物的診斷價(jià)值;Caijoie Ren 等[7]提出一種基于臨床肺癌個(gè)體化鑒別方案,采用LASSO 進(jìn)行回歸分析,得到了最優(yōu)預(yù)測結(jié)果;Nuhic Jusua 等[8]利用機(jī)器學(xué)習(xí)算法預(yù)測模型作為一種非侵入性工具來區(qū)分惡性與良性,應(yīng)用于肺癌的預(yù)測分類。Stefano Elia 等[9]使用遺傳算法在五種腫瘤標(biāo)志物種選擇出兩種指標(biāo)物進(jìn)行聯(lián)合檢測,得到了最好的肺癌預(yù)測結(jié)果。相對(duì)于單個(gè)模型而言,集成模型由多個(gè)基學(xué)習(xí)器構(gòu)成,因此具有更好的分類和回歸效果。例如張楚函[10]以隨機(jī)森林算法建立術(shù)前診斷模型,建立了肺癌前期預(yù)診斷模型;張雨晴等[11]應(yīng)用隨機(jī)森林分析非吸煙女性肺癌風(fēng)險(xiǎn)因素。然而,機(jī)器學(xué)習(xí)在肺癌研究中也面臨一些挑戰(zhàn),如樣本大小、數(shù)據(jù)質(zhì)量、模型的可解釋性以及算法模型耗時(shí)長等方面的限制。因此,本研究致力于解決這些問題,探索臨床上肺癌患者與其生活習(xí)慣之間的關(guān)系,建立基于生活習(xí)慣進(jìn)行肺癌預(yù)測的分類模型。通過算法的融合、優(yōu)化,確定的最終模型在肺癌數(shù)據(jù)集上進(jìn)行試驗(yàn),實(shí)驗(yàn)得到93.2% 的高準(zhǔn)確率,同時(shí)算法模型相比強(qiáng)分類器SVM 具有更快的響應(yīng)速度,充分證明該模型能應(yīng)用到臨床,輔助醫(yī)生進(jìn)行疑似病例的肺癌預(yù)測,結(jié)合必要的醫(yī)學(xué)檢查,及時(shí)對(duì)肺癌患者進(jìn)行醫(yī)學(xué)干預(yù),為肺癌患者爭取更多的治療從而提高生存率。

1 研究方法

本文方法如下:不平衡數(shù)據(jù)是指數(shù)據(jù)集中某一類別的樣本數(shù)量明顯少于其他類別的樣本數(shù)量[12],本文數(shù)據(jù)集標(biāo)簽比例嚴(yán)重失衡,標(biāo)簽為0 的樣本29 條,標(biāo)簽為1 的樣本280 條,即正負(fù)標(biāo)簽比例大約為1:9,因此引入過采樣技術(shù)SMOTE 方法對(duì)數(shù)據(jù)做均衡化處理;對(duì)本實(shí)驗(yàn)所用到的肺癌數(shù)據(jù)集進(jìn)行隨機(jī)森林重要性排名,根據(jù)排名結(jié)果選擇貢獻(xiàn)較大的特征,參與模型計(jì)算,實(shí)現(xiàn)降低數(shù)據(jù)緯度、提高分類準(zhǔn)確率的效果;構(gòu)建GA-XGBoost 算法模型即:采用遺傳算法優(yōu)化梯度提升樹算法XGBoost,并與其他機(jī)器學(xué)習(xí)方法如支持向量機(jī)(SVM),決策樹(DT)、K 最近鄰(KNN)、貝葉斯(NB)以及未調(diào)優(yōu)的XGBoost 進(jìn)行對(duì)比,證明模型的優(yōu)越性。具體流程圖如圖1 所示。

1.1 構(gòu)建GA-XGBoost 模型

極端梯度提升樹(XGBoost)算法是由陳天奇在2014 年提出,該算法能夠極大地提升模型的訓(xùn)練速度和預(yù)測精度[13]。它的設(shè)計(jì)是為了正確使用資源,克服以往梯度提升的局限性[14]。本文XGBoost 目標(biāo)函數(shù)如下:

遺傳算法(GA)是一種求解優(yōu)化問題的工具[15],主要用于解決搜索和優(yōu)化問題。算法過程如下:

⑴ 初始化:生成一組初始種群,其中每個(gè)個(gè)體代表一個(gè)解。

⑵ 適應(yīng)度評(píng)估:對(duì)每個(gè)個(gè)體進(jìn)行適應(yīng)度評(píng)估,即計(jì)算其對(duì)應(yīng)的目標(biāo)函數(shù)值。

⑶ 選擇:從種群中選擇一部分個(gè)體作為下一代種群的父代。

⑷ 交叉:對(duì)父代中的個(gè)體進(jìn)行交叉操作,生成新的子代。

⑸ 變異:對(duì)子代中的個(gè)體進(jìn)行變異操作,引入隨機(jī)因素,增加種群的多樣性,防止算法陷入局部最優(yōu)解。

⑹ 更新種群:將父代和子代合并,生成新的種群。

⑺ 終止條件判斷:判斷是否達(dá)到終止條件,如最大迭代次數(shù)、目標(biāo)函數(shù)達(dá)到某個(gè)閾值等。

⑻ 輸出結(jié)果:輸出最優(yōu)解或者最優(yōu)解對(duì)應(yīng)的目標(biāo)函數(shù)值。

本實(shí)驗(yàn)構(gòu)建GA-XGBoost 肺癌診斷模型如圖2。

2 實(shí)驗(yàn)過程及結(jié)果分析

本文基于Anaconda開發(fā)環(huán)境下的jupyter-notebook編輯器。研究選用kaggle 學(xué)習(xí)庫所公開的的肺癌數(shù)據(jù)集。該數(shù)據(jù)集包含疑似肺癌患者平時(shí)生活習(xí)慣和生理、行為表現(xiàn)等部分?jǐn)?shù)據(jù),一共有309 個(gè)樣本,類別為良性腫瘤和肺癌腫瘤,數(shù)據(jù)集包含的14 個(gè)特征基于疑似患者的生活記錄,分別是年齡(AGE)性別(SEX)、是否吸煙(SMOKING)、黃色手指(YELLOW)、平時(shí)是否有同輩壓力(PRESSURE)、是否焦慮(ANXIETY)、是否有慢性?。–HRONIC DISEASE)、是否感到疲勞、是否哮喘、藥物過敏(ALLERGY)、飲酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困難、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”為1,“否”為0;標(biāo)簽中患肺癌為1,沒有患肺癌為0。實(shí)驗(yàn)以70% 的數(shù)據(jù)集作為訓(xùn)練集,30% 作為測試集。

2.1 評(píng)價(jià)指標(biāo)

在分類指標(biāo)問題上采用混淆矩陣是最直觀的,混淆矩陣可以詳細(xì)的展示分類性能。混淆矩陣如表1所示。

本文在混淆矩陣基礎(chǔ)上引入準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)作為算法的判斷指標(biāo)。其中靈敏度又叫真陽性比例,即實(shí)際發(fā)病且被準(zhǔn)確診斷的病人所占比例;特異度又稱為真陰性率,是指實(shí)際無病并能準(zhǔn)確檢測的病歷所占比例:

2.2 數(shù)據(jù)均衡化處理

本文數(shù)據(jù)集標(biāo)簽比例嚴(yán)重失衡,標(biāo)簽為0 的樣本29 條,標(biāo)簽為1 的樣本280 條,即正負(fù)標(biāo)簽比例大約為1:9。采用SVM-SMOTE 過采樣技術(shù)進(jìn)行數(shù)據(jù)均衡化處理,原始數(shù)據(jù)和均衡化處理后的數(shù)據(jù)分布如圖3、圖4 所示。

2.3 特征選擇

特征重要性計(jì)算結(jié)果可以用于特征選擇和可視化,幫助我們理解模型的特征貢獻(xiàn)程度,從而更好地解釋和使用模型。本文通過隨機(jī)森林算法得出特征重要性排序,結(jié)果如表2 所示。

排在后面四位的是YELLOW_FINGERS,GENDER,ANXIETY,F(xiàn)ATIGUE,由于這四個(gè)特征重要性比較低,故予以剔除,保留排名結(jié)果選擇排名靠前的10 個(gè)特征重新訓(xùn)練模型。比較SMOTE 均衡化前后、進(jìn)行特征選擇前后進(jìn)行XGBoost 訓(xùn)練,結(jié)果如表3 所示。

2.4 GA-XGBoost 實(shí)驗(yàn)結(jié)果

和隨機(jī)森林算法(Random Forest,RF)超參數(shù)空間類似[16],XGBoost 超參數(shù)眾多,需要手動(dòng)設(shè)定。本文選取常見的三個(gè)超參數(shù):n_estimators(樹的數(shù)量),max_depth(最大樹深度)、learning rate(學(xué)習(xí)率)進(jìn)行遺傳算法優(yōu)化,將評(píng)估指標(biāo)AUC 作為適應(yīng)度函數(shù)。考慮到適應(yīng)度函數(shù)上界難以確定,本文選取最大循環(huán)次數(shù)作為算法的終止條件。本文借助可視化工具—學(xué)習(xí)曲線,確定超參數(shù)的大致范圍,三個(gè)超參數(shù)的學(xué)習(xí)曲線圖分別如圖5、圖6、圖7 所示。

由學(xué)習(xí)曲線可知,n_estimators 最佳取值在60左右,max_depth 最佳取值為6 左右,learning_rate 最佳范圍為0.2 到0.3 之間。用遺傳算法進(jìn)行最優(yōu)值搜索:設(shè)定n_estimators 范圍為50 到75,步長為1;max_depth范圍為4 到9,步長為1。Learning_rate 范圍設(shè)定為0.2-0.3,步長為0.01。遺傳算法結(jié)果如表4 所示。

得到XGBoost 最佳參數(shù)后,為了驗(yàn)證模型的優(yōu)越性,同其他機(jī)器學(xué)習(xí)進(jìn)行比較。不同算法的比較結(jié)果如表5 所示。

進(jìn)行遺傳算法優(yōu)化的GA-XGBoost 模型,準(zhǔn)確率達(dá)到0.932,靈敏度達(dá)到0.928。特異度達(dá)到0.921,準(zhǔn)確率和靈敏度最高。雖然SVM 在分類中也表現(xiàn)出了不俗的性能,在特異度上較XGBoost 稍高,但作為強(qiáng)分類器,SVM 復(fù)雜度高,耗時(shí)長。在講究實(shí)效性的臨床醫(yī)療診斷中,基于簡單學(xué)習(xí)器集成的XGBoost 算法在高分類性能的同時(shí)還能實(shí)現(xiàn)快速運(yùn)算,與其他機(jī)器學(xué)習(xí)方法相比,進(jìn)行遺傳算法優(yōu)化的GA-XGBoost,表現(xiàn)堪稱完美。

3 結(jié)束語

對(duì)疑似患者進(jìn)行早期的預(yù)測診斷是應(yīng)對(duì)肺癌的有效手段[17]。本文提出的基于GA-XGBoost 算法的預(yù)測分類模型在準(zhǔn)確率、靈敏度和特異度三項(xiàng)指標(biāo)上表現(xiàn)優(yōu)異,運(yùn)行時(shí)效上優(yōu)勢明顯。模型的最終目的是在臨床上指導(dǎo)醫(yī)生對(duì)患者的肺癌風(fēng)險(xiǎn)進(jìn)行提前判斷,但本文數(shù)據(jù)集是肺癌患者的日常表現(xiàn)、生活習(xí)慣記錄,存在一定的主觀性,未來可以從更多的臨床電子病例出發(fā),采用客觀、標(biāo)準(zhǔn)化的數(shù)據(jù)。下一步結(jié)合大樣本,高緯度的客觀化數(shù)據(jù),嘗試深度學(xué)習(xí)的建模,致力于人工智能在人類的癌癥事業(yè)中的更大應(yīng)用。

猜你喜歡
特征選擇遺傳算法肺癌
中醫(yī)防治肺癌術(shù)后并發(fā)癥
對(duì)比增強(qiáng)磁敏感加權(quán)成像對(duì)肺癌腦轉(zhuǎn)移瘤檢出的研究
基于自適應(yīng)遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于改進(jìn)的遺傳算法的模糊聚類算法
microRNA-205在人非小細(xì)胞肺癌中的表達(dá)及臨床意義
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
长泰县| 沈丘县| 城步| 浙江省| 黑龙江省| 巨鹿县| 涞水县| 九江县| 杭锦后旗| 弥勒县| 东乌| 北海市| 太仆寺旗| 清新县| 长阳| 平遥县| 建湖县| 胶南市| 沐川县| 仁寿县| 囊谦县| 金塔县| 高碑店市| 突泉县| 新绛县| 三穗县| 团风县| 阿城市| 锦州市| 伊吾县| 晋宁县| 额尔古纳市| 肥东县| 荔浦县| 南开区| 孝感市| 富川| 兰坪| 融水| 武定县| 华阴市|