国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于集成學(xué)習(xí)的風(fēng)險(xiǎn)預(yù)測模型研究與應(yīng)用

2022-04-21 08:01:20張文靜郭瑩瑩
關(guān)鍵詞:設(shè)置分類樣本

彭 巖,馬 鈴,張文靜,李 曉,郭瑩瑩

(首都師范大學(xué) 管理學(xué)院,北京 100056)

0 引 言

隨著人工智能的快速發(fā)展,機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用于疾病的風(fēng)險(xiǎn)預(yù)測,預(yù)測的模型從簡單到復(fù)雜,逐步由單一模型發(fā)展為集成模型[1]?;跈C(jī)器學(xué)習(xí)算法,研究者提出一系列經(jīng)典的疾病預(yù)測模型。Yan Jianzhuo等[2]構(gòu)建Random Forest模型、張春富等[3]構(gòu)建XGBoost模型進(jìn)行糖尿病風(fēng)險(xiǎn)預(yù)測,為糖尿病的診斷、篩查提供了科學(xué)指導(dǎo)。同時(shí),基于回歸分析[4]、神經(jīng)網(wǎng)絡(luò)[5]的模型在糖尿病及其并發(fā)癥的預(yù)測中均取得良好的預(yù)測精度。但單一的機(jī)器學(xué)習(xí)算法在樣本多、指標(biāo)復(fù)雜的疾病數(shù)據(jù)中,存在泛化差、精度低等弊端。隨著大數(shù)據(jù)、云計(jì)算技術(shù)的發(fā)展,基于集成學(xué)習(xí)算法,結(jié)合患者的多項(xiàng)檢查指標(biāo)來構(gòu)建疾病風(fēng)險(xiǎn)預(yù)測模型,是近年來疾病預(yù)防的研究熱點(diǎn)。Chen P等[6]構(gòu)建LogitBoost模型,驗(yàn)證了基于Boosting的集成算法對糖尿病早期篩查具有重要意義。Syna Sreng等[7]、吳健等[8]基于Bagging算法構(gòu)建糖尿病眼病集成預(yù)測模型,為糖尿病眼病的早期篩查提供了有效手段。

基于此,本研究提出一種基于差異性大、性能好的XGBoost、Random Forest算法的集成預(yù)測模型,并應(yīng)用在糖尿病并發(fā)視網(wǎng)膜病變的研究,旨在解決單一預(yù)測模型精度提升有限、泛化性能較低的問題,為醫(yī)生臨床實(shí)踐中對類似疾病的風(fēng)險(xiǎn)評估提供有效輔助,從而有效減少嚴(yán)重后果的產(chǎn)生及診治費(fèi)用。

1 相關(guān)算法描述

1.1 Logistic回歸模型

Logistic回歸[9]是一種廣義線性回歸分析模型,按因變量的類型,可分為二分類Logistic回歸和多分類Logistic回歸。由于因變量只有患病與不患病兩種情況,因此采用二分類Logistic回歸。該模型可用于尋找發(fā)生某種疾病的關(guān)聯(lián)因素、確定不同因素對疾病發(fā)生影響的相對重要程度以及預(yù)測在不同自變量下發(fā)生該病的概率。Cox回歸模型[10]引入Logit變換,建立以Logit(P)為因變量擁有p個(gè)自變量的Logistic回歸模型如式(1)所示

Logit(P)=β0+β1x1+…+βpxp

(1)

1.2 XGBoost模型

XGBoost模型也稱為極端梯度提升樹模型,由Chen等[11,12]基于GBDT改進(jìn)而來,是一種通過Boosting思想將基函數(shù)與權(quán)重進(jìn)行組合形成的集成學(xué)習(xí)算法。它將多棵樹的預(yù)測結(jié)合在一起,將每個(gè)樹的預(yù)測分?jǐn)?shù)相加以得到最終分?jǐn)?shù),算法步驟如下:

步驟1 確立優(yōu)化目標(biāo)。

步驟2 二階泰勒展開和移除常數(shù)項(xiàng)操作。

1.3 Random Forest模型

隨機(jī)森林是樹結(jié)構(gòu)分類器組成的集合[13],它可以使用ID3、C4.5、CART等[14]決策樹算法作為基本分類器。隨機(jī)森林基本思想可以概括為:在給定原始樣本集和輸入向量X的情況下,采用Bootstrap重抽樣方法從初始樣本集中抽取特定份額的樣本,對每個(gè)樣本建立決策樹模型,從而得到不同的分類結(jié)果。每個(gè)決策樹分類器通過對不同分類結(jié)果投票來決定最優(yōu)的分類結(jié)果。在分類問題中,Random Forest的組合模型可以表示為式(2)

(2)

1.4 XGB-RF預(yù)測模型

模型集成是一種通過增加算法的多樣性、減少泛化誤差來提高模型效能的有效手段。Random Forest是Bagging型算法,XGBoost是Boosting型算法。Bagging主要關(guān)注降低方差,而Boosting主要關(guān)注降低偏差。這是兩種完全不同的機(jī)器學(xué)習(xí)算法,具有差異性大、性能好等特點(diǎn)。集成學(xué)習(xí)需針對實(shí)際問題設(shè)計(jì)合適的學(xué)習(xí)方案,才能得到性能更優(yōu)的解決策略。本研究受到Stacking融合的啟發(fā),基于單一的Random Forest、XGBoost模型,設(shè)計(jì)一種XGB-RF集成預(yù)測模型,并在糖尿病數(shù)據(jù)集上進(jìn)行仿真實(shí)驗(yàn),構(gòu)建過程如圖1所示,算法描述如下:

圖1 XGB-RF模型構(gòu)建過程

步驟1 特征集劃分。在Pearson 相關(guān)系數(shù)單因素分析的基礎(chǔ)上,利用多因素 Logistic 回歸算法提取影響糖尿病并發(fā)視網(wǎng)膜病變的顯著特征。經(jīng)特征篩選后,將僅含特征變量的數(shù)據(jù)整理為特征集,并進(jìn)行特征集的劃分,數(shù)據(jù)集中75%的數(shù)據(jù)作為訓(xùn)練集記為Train Data,余下的25%作為測試集記為 Test Data。

步驟2 單一模型訓(xùn)練。使用步驟1中劃分的特征集訓(xùn)練XGBoost模型和Random Forest模型,采用網(wǎng)格搜索算法優(yōu)化模型的參數(shù)。

步驟3 單一模型五折交叉驗(yàn)證。對單一模型進(jìn)行五折交叉驗(yàn)證,每一次交叉驗(yàn)證需對原始訓(xùn)練集(Train Data)進(jìn)行劃分,每次選取4折作為訓(xùn)練集記為train,余下1折為測試集記為test,將得到5個(gè)訓(xùn)練后的RF模型,5個(gè)XGBoost模型,并在原始測試集(Test Data)上進(jìn)行預(yù)測。因此,每個(gè)模型將生成5個(gè)針對原始測試集的預(yù)測數(shù)據(jù),即X-1…X-5,R-1…R-5。此外,在單一模型參數(shù)的基礎(chǔ)上,搜索集成模型的最優(yōu)參數(shù)。

步驟4 輸出預(yù)測結(jié)果。由于隨機(jī)森林模型的預(yù)測結(jié)果優(yōu)于XGBoost模型,對步驟3中輸出的10個(gè)預(yù)測結(jié)果進(jìn)行加權(quán)融合時(shí),XGBoost模型的權(quán)重設(shè)置為1.7,Random Forest模型的權(quán)重設(shè)置為2,相乘后取相對平均作為最終預(yù)測結(jié)果。

2 實(shí)驗(yàn)過程

2.1 數(shù)據(jù)來源

為了驗(yàn)證模型的有效性,本研究基于糖尿病并發(fā)視網(wǎng)膜病變數(shù)據(jù)進(jìn)行仿真實(shí)驗(yàn)。該數(shù)據(jù)來自國家人口健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)的糖尿病數(shù)據(jù)集,該數(shù)據(jù)集包含7499例個(gè)案。研究基于Pearson相關(guān)系數(shù)單因素分析的結(jié)果[15],采用多因素Logistic回歸模型進(jìn)行直接關(guān)聯(lián)因素分析,共篩選出11個(gè)關(guān)聯(lián)因素,即全血糖化血紅蛋白、丙氨酸氨基轉(zhuǎn)移酶、尿素、肌酐、葡萄糖、尿白細(xì)胞、尿膽原定性實(shí)驗(yàn)、尿紅細(xì)胞、尿酵母細(xì)胞、尿酮體實(shí)驗(yàn)、尿濁度。將以上11個(gè)因素的數(shù)據(jù)進(jìn)行合并,形成集成模型輸入的特征集。

2.2 模型評價(jià)標(biāo)準(zhǔn)

模型用于預(yù)測糖尿病并發(fā)視網(wǎng)膜病變的患病情況,針對的是一個(gè)二分類問題,因此采用ACC、AUC、Precision這3個(gè)指標(biāo)進(jìn)行模型的評價(jià)。ACC是正確率,反映了樣本中獲得正確分類的樣本占全部分類樣本的比例。AUC(area under curve)是ROC(receiver operating characteristic curve)曲線下的面積,一般用于評價(jià)一個(gè)分類器的性能。Precision為精準(zhǔn)率,反映預(yù)測為正的樣本占所有樣本的比重。ACC與Precision的公式如下

(3)

(4)

其中,TP代表將正類預(yù)測為正類的樣本個(gè)數(shù),F(xiàn)N代表將正類預(yù)測為負(fù)類的樣本個(gè)數(shù),F(xiàn)P代表將負(fù)類預(yù)測為正類的樣本個(gè)數(shù),TN代表將負(fù)類預(yù)測為負(fù)類的樣本個(gè)數(shù)。

2.3 模型調(diào)參

算法參數(shù)的確定直接決定機(jī)器學(xué)習(xí)模型的預(yù)測效能,常用的調(diào)參方法有專家經(jīng)驗(yàn)法以及網(wǎng)格搜索法[16]。GS算法[17],即網(wǎng)格搜索法,是一種通過遍歷既定參數(shù)組合來優(yōu)化模型性能的方法,其原理是在一定的范圍內(nèi),通過對待搜索參數(shù)劃分成的網(wǎng)格的所有可能取值進(jìn)行遍歷的方式來計(jì)算相應(yīng)的實(shí)驗(yàn)結(jié)果,最優(yōu)參數(shù)即為最佳實(shí)驗(yàn)結(jié)果獲取的對應(yīng)參數(shù)。

2.4 預(yù)測模型的構(gòu)建

2.4.1 XGBoost模型的構(gòu)建

XGBoost模型有眾多參數(shù),不同參數(shù)有不同功能,這些參數(shù)設(shè)定是否合理,對于模型的好壞有重要影響?;赑ython平臺(tái)建立XGBoost模型,根據(jù)前人研究經(jīng)驗(yàn),將樹的個(gè)數(shù)(n_estimators)設(shè)置在10~1000的區(qū)間,采用GS算法,每隔50個(gè)單位進(jìn)行一次參數(shù)搜索,并繪制n_estimators與預(yù)測準(zhǔn)確率的折線圖,由圖2(a)可知,將n_estimators設(shè)置為60時(shí),ACC出現(xiàn)最大值。

在參數(shù)調(diào)節(jié)中,某些參數(shù)存在相互影響,需要對其進(jìn)行聯(lián)合調(diào)參。將樹的最大深度(max_depth)設(shè)置在3~10的區(qū)間,最小葉子節(jié)點(diǎn)權(quán)重和(min_child_weight)設(shè)置在1~6的區(qū)間,每隔1個(gè)單位進(jìn)行一次參數(shù)搜索,實(shí)驗(yàn)結(jié)果表明,max_depth設(shè)置為4,min_child_weigh設(shè)為3時(shí),ACC最高。其次,將最小損失函數(shù)下降值(gamma)設(shè)置在0~0.5的區(qū)間,采用GS算法進(jìn)行參數(shù)搜索,并繪制gamma與預(yù)測準(zhǔn)確率的折線圖,由圖2(b)可知,將gamma設(shè)置為0.3時(shí),ACC出現(xiàn)最大值。此外,將隨機(jī)采樣比例(subsample)和隨機(jī)采樣的列數(shù)的占比(colsample_bytree)設(shè)置在0.5~1的區(qū)間進(jìn)行參數(shù)搜索,實(shí)驗(yàn)結(jié)果表明,subsample設(shè)置為0.8,colsample_bytree設(shè)為0.5時(shí),ACC最高。除此之外,將模型的學(xué)習(xí)率(learning_rate)設(shè)置為0.05。

圖2 XGBoost模型參數(shù)與ACC變化曲線

2.4.2 Random Forest模型的構(gòu)建

Random Forest模型基于Python平臺(tái)進(jìn)行構(gòu)建。首先需確定森林中樹的數(shù)量,即確定樹的個(gè)數(shù)(n_estimators),該參數(shù)主要用于降低整體模型的方差。將n_estimators設(shè)置在1~500的區(qū)間,采用GS算法,每隔10個(gè)單位進(jìn)行一次參數(shù)搜索,繪制n_estimators與預(yù)測準(zhǔn)確率的折線圖,由圖3(a)可知,將n_estimators設(shè)置為291時(shí),ACC出現(xiàn)最大值。criterion即節(jié)點(diǎn)劃分標(biāo)準(zhǔn),將criterion設(shè)置為“gini”和“entropy”,圖3(b)表明gini指數(shù)效果更優(yōu)。

圖3 Random Forest參數(shù)與ACC變化曲線

將最大特征數(shù)(max_features)設(shè)置在1~15的區(qū)間,每隔1個(gè)單位進(jìn)行一次參數(shù)搜索,由圖3(c)可知,將max_features設(shè)置為3時(shí),ACC出現(xiàn)最大值。將樹的最大深度(max_depth)設(shè)置在1~20的區(qū)間,每隔1個(gè)單位進(jìn)行一次參數(shù)搜索,由圖3(d)可知,將max_depth設(shè)置為16時(shí),ACC出現(xiàn)最大值。max_features和max_depth存在相互影響,需要對其進(jìn)行聯(lián)合調(diào)參。根據(jù)先前實(shí)驗(yàn),將max_features設(shè)置在6~15的區(qū)間,max_depth設(shè)置在12~20的區(qū)間,每隔1個(gè)單位進(jìn)行一次參數(shù)搜索,實(shí)驗(yàn)表明,max_features設(shè)置為11,max_depth設(shè)為13時(shí),ACC最高。

2.4.3 XGB-RF模型的構(gòu)建

在XGB-RF模型的構(gòu)建過程中,將特征集作為輸入數(shù)據(jù)集,基于XGBoost模型和Random Forest模進(jìn)行XGB-RF模型的訓(xùn)練和預(yù)測。為了提高XGB-RF模型的預(yù)測效果,在單一模型最優(yōu)參數(shù)的基礎(chǔ)上,對XGB-RF模型的參數(shù)進(jìn)行了調(diào)整,各參數(shù)具體數(shù)值見表1。

表1 XGB-RF模型參數(shù)

3 對比實(shí)驗(yàn)與分析

為了驗(yàn)證XGB-RF模型的有效性,本研究利用國家人口與健康科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái)提供的糖尿病患者數(shù)據(jù)集進(jìn)行了仿真實(shí)驗(yàn),并設(shè)置了兩組對比實(shí)驗(yàn):

(1)采用GS算法優(yōu)化的XGB-RF模型與使用默認(rèn)參數(shù)的XGB-RF模型的對比;

(2)構(gòu)建的XGB-RF模型與使用傳統(tǒng)XGBoost以及Random Forest單一算法對比。

3.1 模型參數(shù)優(yōu)化對比分析

為驗(yàn)證通過GS算法優(yōu)化參數(shù)的有效性,取10次實(shí)驗(yàn)的預(yù)測結(jié)果的均值,將使用默認(rèn)參數(shù)的XGB-RF模型預(yù)測結(jié)果與使用GS算法優(yōu)化參數(shù)后的XGB-RF模型的預(yù)測結(jié)果進(jìn)行了對比,對比結(jié)果見表2。

表2 模型參數(shù)優(yōu)化對比/%

由表2可知,運(yùn)用GS算法進(jìn)行參數(shù)優(yōu)化后,XGB-RF模型的ACC、AUC、Precision值均顯著提高,表明使用GS算法優(yōu)化的XGB-RF模型能夠更好預(yù)測糖尿病并發(fā)視網(wǎng)膜病變。

3.2 XGB-RF模型與單一模型對比分析

為了驗(yàn)證XGB-RF集成模型的預(yù)測效能,取10次實(shí)驗(yàn)的預(yù)測結(jié)果的均值,將XGB-RF融合模型的預(yù)測效果與XGBoost以及Random Forest單一算法進(jìn)行了對比研究,對比實(shí)驗(yàn)結(jié)果見表3。

表3 模型結(jié)果對比情況/%

在Random Forest模型、XGBoost以及XGB-RF模型的構(gòu)建中,均將11個(gè)特征作為輸入變量。表3、圖4是各模型預(yù)測效果的對比結(jié)果。由表3可知,與單一模型相比,XGB-RF模型的ACC增加了2.1%~3%,AUC增加了2.5%~3.1%,Precision增加了6%~7.2%。

圖4 模型結(jié)果對比

綜上所述,就模型的分類預(yù)測效能而言,XGB-RF模型具有良好穩(wěn)定性和較高預(yù)測準(zhǔn)確性,針對糖尿病并發(fā)視網(wǎng)膜病變具有更高的預(yù)測精度,彌補(bǔ)了單一模型的弊端。此外,運(yùn)用GS算法對模型參數(shù)進(jìn)行的優(yōu)化工作,使得模型預(yù)測效能有效提升。

4 結(jié)束語

本文構(gòu)建了一種基于XGBoost模型、Random Forest模型融合的XGB-RF預(yù)測模型,提出了一種提高疾病預(yù)測準(zhǔn)確率的集成學(xué)習(xí)方法。為了驗(yàn)證所提方法的性能,與單一模型進(jìn)行了對比實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果表明,與Random Forest模型、XGBoost模型相比,XGB-RF模型在糖尿病并發(fā)視網(wǎng)膜病變的預(yù)測中具有較高的準(zhǔn)確率和分類效能,預(yù)測的結(jié)果均高于80%,AUC和Precision高于85%,驗(yàn)證了本文方法的可行性。XGB-RF模型還可以用于糖尿病其它并發(fā)癥的輔助預(yù)測與診斷,同時(shí),能夠廣泛識(shí)別和處理其它回歸預(yù)測和分類問題。

猜你喜歡
設(shè)置分類樣本
中隊(duì)崗位該如何設(shè)置
分類算一算
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
分類討論求坐標(biāo)
推動(dòng)醫(yī)改的“直銷樣本”
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
村企共贏的樣本
本刊欄目設(shè)置說明
乌兰浩特市| 红原县| 旬邑县| 万宁市| 孟津县| 延吉市| 浮山县| 东山县| 凤山县| 金秀| 射阳县| 武宣县| 剑川县| 宁武县| 新民市| 桐乡市| 新沂市| 阿拉善盟| 博爱县| 五原县| 临西县| 大港区| 巴青县| 会理县| 宿州市| 喀喇| 封开县| 珲春市| 昂仁县| 榆树市| 双桥区| 林西县| 沂南县| 雷山县| 崇礼县| 英山县| 石泉县| 阿勒泰市| 大安市| 河间市| 苗栗县|