基于三種回歸器和VotingRegressor優(yōu)化Adaboost的血糖集成預(yù)測(cè)*

2021-05-08 07:49都承華龔誼承張冬陽(yáng)

中國(guó)衛(wèi)生統(tǒng)計(jì) 2021年2期

都承華龔誼承，2△ 張冬陽(yáng)

【提要】目的透過(guò)眾多的醫(yī)學(xué)特征更準(zhǔn)確地預(yù)測(cè)疾病指標(biāo)，比如血糖值。方法利用VotingRegressor優(yōu)化Adaboost，將三種精度較高的學(xué)習(xí)器進(jìn)行兩種集成學(xué)習(xí)。其中，模型1是基于Adaboost視角集成三種精度較高的學(xué)習(xí)器(GBDT、KRR和SVR)；模型2在模型1的基礎(chǔ)上引入VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。結(jié)果以血糖值的預(yù)測(cè)為算例，模型1的(均方誤差，預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.006748，43059.072s)和(0.006826，32.123s)；模型2的(均方誤差，預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.005256，306.688 s)和(0.005234，1.023 s)。結(jié)論基于VotingRegressor優(yōu)化Adaboost的模型2具有較高的預(yù)測(cè)精度和效率。

合理運(yùn)用一些統(tǒng)計(jì)方法對(duì)疾病指標(biāo)進(jìn)行預(yù)測(cè)，有利于疾病的預(yù)防和控制，對(duì)我國(guó)人民群眾整體的身體素質(zhì)水平的提高具有重要貢獻(xiàn)。在國(guó)內(nèi)，糖尿病從十年前開(kāi)始，一直高居國(guó)人十大死因第四位，到近期，因糖尿病誘發(fā)相關(guān)病變，占總死亡人數(shù)約8%，說(shuō)明糖尿病已長(zhǎng)期嚴(yán)重威脅國(guó)人健康與生命[1-3]。血糖濃度是反映病情狀況的一個(gè)重要指標(biāo)，本文擬采用Adaboost集成方法對(duì)血糖濃度進(jìn)行預(yù)測(cè)，試圖找到更加簡(jiǎn)單、高效的血糖預(yù)測(cè)方法。

資料與方法

1.資料來(lái)源

血糖數(shù)據(jù)來(lái)源于2017年天池精準(zhǔn)醫(yī)療大賽(人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè))，由阿里云和青梧桐健康科技有限公司提供。

2.研究方法

(1)預(yù)測(cè)分析

模型1基于Adaboost視角集成GBDT、KRR和SVR三種精度較高的基礎(chǔ)回歸器(其中KRR、SVR結(jié)合GridSearchCV方法進(jìn)行調(diào)參，為了簡(jiǎn)潔，將第i個(gè)基礎(chǔ)回歸器(basic regressor)簡(jiǎn)稱(chēng)為bri(br1=svr，br2=gbdt，br3=krr)；模型2在模型1的基礎(chǔ)上引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。兩個(gè)模型均采用Adaboost R2回歸算法。

模型1 集成流程：(1)輸入訓(xùn)練樣本和迭代次數(shù)K，初始化樣本權(quán)重，分別對(duì)基礎(chǔ)回歸器使用初始化權(quán)重進(jìn)行訓(xùn)練，得到弱學(xué)習(xí)器G(bri)k(xi)。(2)計(jì)算訓(xùn)練集上最大誤差E(bri)K，計(jì)算每個(gè)樣本的相對(duì)誤差e(bri)ki，弱學(xué)習(xí)器系數(shù)α(bri)k。(3)更新樣本的權(quán)重分布D(bri)k，輸出強(qiáng)學(xué)習(xí)器f(x)。

輸出最終模型：

(2)缺失值處理：先將整個(gè)數(shù)據(jù)集中缺失數(shù)據(jù)達(dá)80%的指標(biāo)進(jìn)行剔除，量化定性數(shù)據(jù)和對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理，再將其余的缺失數(shù)據(jù)由平均值代替。

結(jié) 果

1.集成模型1

為了確定最優(yōu)的迭代次數(shù)，我們進(jìn)行了大量的實(shí)驗(yàn)。表1為基于GBDT、KRR和SVR三種算法的Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果。

表1 Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果

根據(jù)表1可知，隨著迭代次數(shù)的增加，模型的訓(xùn)練集和測(cè)試集的MSE慢慢下降，當(dāng)?shù)螖?shù)為30 時(shí)，無(wú)論是訓(xùn)練集還是測(cè)試集MSE均達(dá)到最小，而后隨著迭代次數(shù)增加，模型的MSE慢慢上升，因此最終選定模型1的迭代次數(shù)為30 次。最后我們做出迭代次數(shù)為30的模型1在訓(xùn)練集上和測(cè)試集上的預(yù)測(cè)圖，如圖1所示。

圖1 模型1訓(xùn)練集和測(cè)試集預(yù)測(cè)圖

圖1中，實(shí)線表示血糖的預(yù)測(cè)值Y*，虛線表示血糖的真實(shí)值Y。其中，模型1訓(xùn)練集的均方誤差為0.006748，擬合時(shí)間為43059.072s，測(cè)試集的均方誤差為0.006826，模型預(yù)測(cè)時(shí)間為32.123s。

2.集成模型2

為了更加清楚地了解模型2的預(yù)測(cè)效果，我們依次做出模型2的血糖預(yù)測(cè)模型、預(yù)測(cè)值和學(xué)習(xí)曲線圖。

首先，輸出模型2在訓(xùn)練集上的學(xué)習(xí)出的預(yù)測(cè)模型。

f(x)=0.28785404model(krr)+0.3110837model(svr)+0.40106226model(gbdt)

(1)

接著，做出模型2在訓(xùn)練集和測(cè)試集上的血糖預(yù)測(cè)圖，如圖2所示。

圖2 模型2訓(xùn)練集和測(cè)試集預(yù)測(cè)圖

圖2中，實(shí)線表示血糖的預(yù)測(cè)值Y*，虛線表示血糖的真實(shí)值Y。其中，模型2訓(xùn)練集的均方誤差為0.005256，擬合時(shí)間為306.688s，測(cè)試集的均方誤差為0.005234，模型預(yù)測(cè)時(shí)間為1.023s。

最后，做出SVR、KRR、GBDT和模型2(Ada-VotingRegressor)學(xué)習(xí)曲線。由于四個(gè)模型的均方誤差波動(dòng)幅度不大，為了更加清楚地對(duì)比四個(gè)模型的學(xué)習(xí)曲線，我們將其放在一張圖上，如圖3所示。

圖3 三種基礎(chǔ)回歸器和模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線圖

從圖3我們可以看出：(1)KRR模型曲線一直處于SVR模型學(xué)習(xí)曲線和GBDT模型學(xué)習(xí)曲線的下方；(2)當(dāng)訓(xùn)練樣本量小于2500時(shí)，GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的下方，當(dāng)訓(xùn)練樣本量超過(guò)2500時(shí)，GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的上方；(3)模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線一直處于其他三條學(xué)習(xí)曲線之下。

就SVR和GBDT兩個(gè)模型而言，在樣本量為2500前后，學(xué)習(xí)曲線的上下位置互換，其原因可能有算法和樣本容量?jī)蓚€(gè)因素。經(jīng)過(guò)將訓(xùn)練集和測(cè)試集的樣本劃分調(diào)整為6.5∶3.5發(fā)現(xiàn)，SVR和GBDT的均方誤差仍然隨著樣本量的變化而波動(dòng)，因此SVR和GBDT的學(xué)習(xí)曲線的波動(dòng)可能是由于算法問(wèn)題導(dǎo)致。所以仍然在訓(xùn)練集和測(cè)試集劃分比例為7：3時(shí)討論問(wèn)題，此時(shí)訓(xùn)練集處理的數(shù)據(jù)不僅維度較高，樣本量也較大。SVR算法雖然可以有效解決高維度數(shù)據(jù)但它更適合于小樣本，所以在樣本量大于1500時(shí)，SVR模型的學(xué)習(xí)曲線下降幅度趨于平緩；而GBDT算法雖然適合的樣本量較大，但不適合處理高維度數(shù)據(jù)，所以在樣本大于2000時(shí)，GBDT的學(xué)習(xí)曲線呈現(xiàn)上升趨勢(shì)，因此達(dá)到2500時(shí)，SVR和GBDT學(xué)習(xí)曲線的上下位置互換。

從圖3可以進(jìn)一步看出，模型2在訓(xùn)練樣本量大約達(dá)到3600時(shí)與KRR模型學(xué)習(xí)曲線相交，因?yàn)槟Ｐ?在樣本量超過(guò)3500時(shí)呈現(xiàn)略微上升趨勢(shì)。具體的原因是：在樣本量超過(guò)3500 時(shí)，SVR模型和GBDT模型都有上升的趨勢(shì)，只有KRR模型仍然呈現(xiàn)下降趨勢(shì)；但最終模型融合時(shí)，由公式(1)可知，SVR模型和GBDT模型的權(quán)重系數(shù)相加超過(guò)0.7，大于KRR的權(quán)重系數(shù)，所以上升的總體趨勢(shì)大于下降的總體趨勢(shì)，使得最終的模型2也呈現(xiàn)上升趨勢(shì)。

討論

為了考察選擇GBDT、KRR、SVR(其中KRR和SVR均采用GridSearchCV方法進(jìn)行自動(dòng)調(diào)參)三種算法作為基礎(chǔ)回歸器后模型1和模型2集成的預(yù)測(cè)效果是否有所提高，本文將分別算出GBDT、KRR、SVR三種算法對(duì)血糖值的預(yù)測(cè)精度，具體結(jié)果表2所示。

表2 5種模型的均方誤差

由表2可知，選用GBDT、KRR、SVR三種算法作為基礎(chǔ)回歸器進(jìn)行迭代學(xué)習(xí)時(shí)，最終得到的模型1的精度反而有所降低，沒(méi)有單個(gè)的GBDT模型、KRR模型、SVR模型精度高，這說(shuō)明本文之前采用的GBDT模型、KRR模型、SVR模型已是高精度的回歸模型，并不適合直接做 Adaboost集成的基礎(chǔ)回歸器。為了利用Adaboost提升已有的強(qiáng)學(xué)習(xí)器，本文引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor模型，得到一個(gè)新的集成模型記為Ada-VotingRegressor(模型2)。由表2可知：模型2明顯預(yù)測(cè)精度高于SVR、KRR、GBDT、模型1，預(yù)測(cè)時(shí)間和擬合時(shí)間也較短，模型效率高；由于受模型1和模型2所選基礎(chǔ)回歸器的影響，即SVR算法不適合大樣本數(shù)據(jù)，GBDT算法不適合高維度數(shù)據(jù)，使得集成后的模型1和模型2的均方誤差隨著樣本量的波動(dòng)而變化，最終使得訓(xùn)練集和測(cè)試集之間的誤差分別為萬(wàn)分之七和萬(wàn)分之二。

利用天池精準(zhǔn)醫(yī)療大賽的數(shù)據(jù)所作的實(shí)證分析的結(jié)果表明：模型2不僅預(yù)測(cè)精度高于SVR、KRR、GBDT和模型1，預(yù)測(cè)時(shí)間和擬合時(shí)間也較短，模型效率高。在基礎(chǔ)回歸器的選擇上，建議首選基礎(chǔ)回歸器的精度最好不要太高；其次，在同時(shí)選用幾個(gè)基礎(chǔ)回歸器時(shí)最好考慮這幾個(gè)回歸器各自的優(yōu)缺點(diǎn)，使集成模型各方面更完善；最后，取基礎(chǔ)回歸器時(shí)要考慮所選回歸器與研究使用的樣本量的大小與維度是否合適。本研究結(jié)合了Adaboost的權(quán)重更新算法和VotingRegressor加法集成原理對(duì)模型進(jìn)行線性融合，得出的模型2，能夠更準(zhǔn)確地預(yù)測(cè)血糖值，同時(shí)該方法同樣適用于其他疾病指標(biāo)的預(yù)測(cè)。

在疾病指標(biāo)值預(yù)測(cè)問(wèn)題中，本文采用的是基于Adaboost視角的集成模型，但預(yù)測(cè)疾病指標(biāo)值方法還有許多，比如楊光利用決策樹(shù)模型建立2型糖尿病預(yù)測(cè)模型[4]，冷菲利用極限梯度增強(qiáng)算法構(gòu)建模型，研究?jī)煞N不同癌癥亞型中mRNA表達(dá)量[5]；除此之外神經(jīng)網(wǎng)絡(luò)[6-7]、隨機(jī)森林[8]、支持向量機(jī)[9]等也是常用于預(yù)測(cè)疾病指標(biāo)的算法，也可以嘗試?yán)眠@些算法作為集成算法的學(xué)習(xí)器，以優(yōu)化Adaboost模型，提升模型的預(yù)測(cè)精度。雖然本文采用的基礎(chǔ)回歸器訓(xùn)練結(jié)果并不是最理想的，但是引入VotingRegressor算法的模型2預(yù)測(cè)疾病指標(biāo)的精度有所提高，為糖尿病等疾病的預(yù)測(cè)和控制提供依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于三種回歸器和VotingRegressor優(yōu)化Adaboost的血糖集成預(yù)測(cè)*

資料與方法

結(jié) 果

討 論

討論