都承華 龔誼承,2△ 張冬陽(yáng)
【提 要】 目的 透過(guò)眾多的醫(yī)學(xué)特征更準(zhǔn)確地預(yù)測(cè)疾病指標(biāo),比如血糖值。方法 利用VotingRegressor優(yōu)化Adaboost,將三種精度較高的學(xué)習(xí)器進(jìn)行兩種集成學(xué)習(xí)。其中,模型1是基于Adaboost視角集成三種精度較高的學(xué)習(xí)器(GBDT、KRR和SVR);模型2在模型1的基礎(chǔ)上引入VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。結(jié)果 以血糖值的預(yù)測(cè)為算例,模型1的(均方誤差,預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.006748,43059.072s)和(0.006826,32.123s);模型2的(均方誤差,預(yù)測(cè)時(shí)間)在訓(xùn)練集和測(cè)試集分別為(0.005256,306.688 s)和(0.005234,1.023 s)。結(jié)論 基于VotingRegressor優(yōu)化Adaboost的模型2具有較高的預(yù)測(cè)精度和效率。
合理運(yùn)用一些統(tǒng)計(jì)方法對(duì)疾病指標(biāo)進(jìn)行預(yù)測(cè),有利于疾病的預(yù)防和控制,對(duì)我國(guó)人民群眾整體的身體素質(zhì)水平的提高具有重要貢獻(xiàn)。在國(guó)內(nèi),糖尿病從十年前開(kāi)始,一直高居國(guó)人十大死因第四位,到近期,因糖尿病誘發(fā)相關(guān)病變,占總死亡人數(shù)約8%,說(shuō)明糖尿病已長(zhǎng)期嚴(yán)重威脅國(guó)人健康與生命[1-3]。血糖濃度是反映病情狀況的一個(gè)重要指標(biāo),本文擬采用Adaboost集成方法對(duì)血糖濃度進(jìn)行預(yù)測(cè),試圖找到更加簡(jiǎn)單、高效的血糖預(yù)測(cè)方法。
1.資料來(lái)源
血糖數(shù)據(jù)來(lái)源于2017年天池精準(zhǔn)醫(yī)療大賽(人工智能輔助糖尿病遺傳風(fēng)險(xiǎn)預(yù)測(cè)),由阿里云和青梧桐健康科技有限公司提供。
2.研究方法
(1)預(yù)測(cè)分析
模型1基于Adaboost視角集成GBDT、KRR和SVR三種精度較高的基礎(chǔ)回歸器(其中KRR、SVR結(jié)合GridSearchCV方法進(jìn)行調(diào)參,為了簡(jiǎn)潔,將第i個(gè)基礎(chǔ)回歸器(basic regressor)簡(jiǎn)稱(chēng)為bri(br1=svr,br2=gbdt,br3=krr);模型2在模型1的基礎(chǔ)上引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor算法優(yōu)化Adaboost得到Ada-VotingRegressor模型。兩個(gè)模型均采用Adaboost R2回歸算法。
模型1 集成流程:(1)輸入訓(xùn)練樣本和迭代次數(shù)K,初始化樣本權(quán)重,分別對(duì)基礎(chǔ)回歸器使用初始化權(quán)重進(jìn)行訓(xùn)練,得到弱學(xué)習(xí)器G(bri)k(xi)。(2)計(jì)算訓(xùn)練集上最大誤差E(bri)K,計(jì)算每個(gè)樣本的相對(duì)誤差e(bri)ki,弱學(xué)習(xí)器系數(shù)α(bri)k。(3)更新樣本的權(quán)重分布D(bri)k,輸出強(qiáng)學(xué)習(xí)器f(x)。
輸出最終模型:
(2)缺失值處理:先將整個(gè)數(shù)據(jù)集中缺失數(shù)據(jù)達(dá)80%的指標(biāo)進(jìn)行剔除,量化定性數(shù)據(jù)和對(duì)數(shù)據(jù)標(biāo)準(zhǔn)化處理,再將其余的缺失數(shù)據(jù)由平均值代替。
1.集成模型1
為了確定最優(yōu)的迭代次數(shù),我們進(jìn)行了大量的實(shí)驗(yàn)。表1為基于GBDT、KRR和SVR三種算法的Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果。
表1 Adaboost集成迭代次數(shù)實(shí)驗(yàn)結(jié)果
根據(jù)表1可知,隨著迭代次數(shù)的增加,模型的訓(xùn)練集和測(cè)試集的MSE慢慢下降,當(dāng)?shù)螖?shù)為30 時(shí),無(wú)論是訓(xùn)練集還是測(cè)試集MSE均達(dá)到最小,而后隨著迭代次數(shù)增加,模型的MSE慢慢上升,因此最終選定模型1的迭代次數(shù)為30 次。最后我們做出迭代次數(shù)為30的模型1在訓(xùn)練集上和測(cè)試集上的預(yù)測(cè)圖,如圖1所示。
圖1 模型1訓(xùn)練集和測(cè)試集預(yù)測(cè)圖
圖1中,實(shí)線表示血糖的預(yù)測(cè)值Y*,虛線表示血糖的真實(shí)值Y。其中,模型1訓(xùn)練集的均方誤差為0.006748,擬合時(shí)間為43059.072s,測(cè)試集的均方誤差為0.006826,模型預(yù)測(cè)時(shí)間為32.123s。
2.集成模型2
為了更加清楚地了解模型2的預(yù)測(cè)效果,我們依次做出模型2的血糖預(yù)測(cè)模型、預(yù)測(cè)值和學(xué)習(xí)曲線圖。
首先,輸出模型2在訓(xùn)練集上的學(xué)習(xí)出的預(yù)測(cè)模型。
f(x)=0.28785404model(krr)+0.3110837model(svr)+0.40106226model(gbdt)
(1)
接著,做出模型2在訓(xùn)練集和測(cè)試集上的血糖預(yù)測(cè)圖,如圖2所示。
圖2 模型2訓(xùn)練集和測(cè)試集預(yù)測(cè)圖
圖2中,實(shí)線表示血糖的預(yù)測(cè)值Y*,虛線表示血糖的真實(shí)值Y。其中,模型2訓(xùn)練集的均方誤差為0.005256,擬合時(shí)間為306.688s,測(cè)試集的均方誤差為0.005234,模型預(yù)測(cè)時(shí)間為1.023s。
最后,做出SVR、KRR、GBDT和模型2(Ada-VotingRegressor)學(xué)習(xí)曲線。由于四個(gè)模型的均方誤差波動(dòng)幅度不大,為了更加清楚地對(duì)比四個(gè)模型的學(xué)習(xí)曲線,我們將其放在一張圖上,如圖3所示。
圖3 三種基礎(chǔ)回歸器和模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線圖
從圖3我們可以看出:(1)KRR模型曲線一直處于SVR模型學(xué)習(xí)曲線和GBDT模型學(xué)習(xí)曲線的下方;(2)當(dāng)訓(xùn)練樣本量小于2500時(shí),GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的下方,當(dāng)訓(xùn)練樣本量超過(guò)2500時(shí),GBDT的學(xué)習(xí)曲線處于SVR學(xué)習(xí)曲線的上方;(3)模型2(Ada-VotingRegressor)的學(xué)習(xí)曲線一直處于其他三條學(xué)習(xí)曲線之下。
就SVR和GBDT兩個(gè)模型而言,在樣本量為2500前后,學(xué)習(xí)曲線的上下位置互換,其原因可能有算法和樣本容量?jī)蓚€(gè)因素。經(jīng)過(guò)將訓(xùn)練集和測(cè)試集的樣本劃分調(diào)整為6.5∶3.5發(fā)現(xiàn),SVR和GBDT的均方誤差仍然隨著樣本量的變化而波動(dòng),因此SVR和GBDT的學(xué)習(xí)曲線的波動(dòng)可能是由于算法問(wèn)題導(dǎo)致。所以仍然在訓(xùn)練集和測(cè)試集劃分比例為7:3時(shí)討論問(wèn)題,此時(shí)訓(xùn)練集處理的數(shù)據(jù)不僅維度較高,樣本量也較大。SVR算法雖然可以有效解決高維度數(shù)據(jù)但它更適合于小樣本,所以在樣本量大于1500時(shí),SVR模型的學(xué)習(xí)曲線下降幅度趨于平緩;而GBDT算法雖然適合的樣本量較大,但不適合處理高維度數(shù)據(jù),所以在樣本大于2000時(shí),GBDT的學(xué)習(xí)曲線呈現(xiàn)上升趨勢(shì),因此達(dá)到2500時(shí),SVR和GBDT學(xué)習(xí)曲線的上下位置互換。
從圖3可以進(jìn)一步看出,模型2在訓(xùn)練樣本量大約達(dá)到3600時(shí)與KRR模型學(xué)習(xí)曲線相交,因?yàn)槟P?在樣本量超過(guò)3500時(shí)呈現(xiàn)略微上升趨勢(shì)。具體的原因是:在樣本量超過(guò)3500 時(shí),SVR模型和GBDT模型都有上升的趨勢(shì),只有KRR模型仍然呈現(xiàn)下降趨勢(shì);但最終模型融合時(shí),由公式(1)可知,SVR模型和GBDT模型的權(quán)重系數(shù)相加超過(guò)0.7,大于KRR的權(quán)重系數(shù),所以上升的總體趨勢(shì)大于下降的總體趨勢(shì),使得最終的模型2也呈現(xiàn)上升趨勢(shì)。
為了考察選擇GBDT、KRR、SVR(其中KRR和SVR均采用GridSearchCV方法進(jìn)行自動(dòng)調(diào)參)三種算法作為基礎(chǔ)回歸器后模型1和模型2集成的預(yù)測(cè)效果是否有所提高,本文將分別算出GBDT、KRR、SVR三種算法對(duì)血糖值的預(yù)測(cè)精度,具體結(jié)果表2所示。
表2 5種模型的均方誤差
由表2可知,選用GBDT、KRR、SVR三種算法作為基礎(chǔ)回歸器進(jìn)行迭代學(xué)習(xí)時(shí),最終得到的模型1的精度反而有所降低,沒(méi)有單個(gè)的GBDT模型、KRR模型、SVR模型精度高,這說(shuō)明本文之前采用的GBDT模型、KRR模型、SVR模型已是高精度的回歸模型,并不適合直接做 Adaboost集成的基礎(chǔ)回歸器。為了利用Adaboost提升已有的強(qiáng)學(xué)習(xí)器,本文引入可以將不同學(xué)習(xí)器更好融合的VotingRegressor模型,得到一個(gè)新的集成模型記為Ada-VotingRegressor(模型2)。由表2可知:模型2明顯預(yù)測(cè)精度高于SVR、KRR、GBDT、模型1,預(yù)測(cè)時(shí)間和擬合時(shí)間也較短,模型效率高;由于受模型1和模型2所選基礎(chǔ)回歸器的影響,即SVR算法不適合大樣本數(shù)據(jù),GBDT算法不適合高維度數(shù)據(jù),使得集成后的模型1和模型2的均方誤差隨著樣本量的波動(dòng)而變化,最終使得訓(xùn)練集和測(cè)試集之間的誤差分別為萬(wàn)分之七和萬(wàn)分之二。
利用天池精準(zhǔn)醫(yī)療大賽的數(shù)據(jù)所作的實(shí)證分析的結(jié)果表明:模型2不僅預(yù)測(cè)精度高于SVR、KRR、GBDT和模型1,預(yù)測(cè)時(shí)間和擬合時(shí)間也較短,模型效率高。在基礎(chǔ)回歸器的選擇上,建議首選基礎(chǔ)回歸器的精度最好不要太高;其次,在同時(shí)選用幾個(gè)基礎(chǔ)回歸器時(shí)最好考慮這幾個(gè)回歸器各自的優(yōu)缺點(diǎn),使集成模型各方面更完善;最后,取基礎(chǔ)回歸器時(shí)要考慮所選回歸器與研究使用的樣本量的大小與維度是否合適。本研究結(jié)合了Adaboost的權(quán)重更新算法和VotingRegressor加法集成原理對(duì)模型進(jìn)行線性融合,得出的模型2,能夠更準(zhǔn)確地預(yù)測(cè)血糖值,同時(shí)該方法同樣適用于其他疾病指標(biāo)的預(yù)測(cè)。
在疾病指標(biāo)值預(yù)測(cè)問(wèn)題中,本文采用的是基于Adaboost視角的集成模型,但預(yù)測(cè)疾病指標(biāo)值方法還有許多,比如楊光利用決策樹(shù)模型建立2型糖尿病預(yù)測(cè)模型[4],冷菲利用極限梯度增強(qiáng)算法構(gòu)建模型,研究?jī)煞N不同癌癥亞型中mRNA表達(dá)量[5];除此之外神經(jīng)網(wǎng)絡(luò)[6-7]、隨機(jī)森林[8]、支持向量機(jī)[9]等也是常用于預(yù)測(cè)疾病指標(biāo)的算法,也可以嘗試?yán)眠@些算法作為集成算法的學(xué)習(xí)器,以優(yōu)化Adaboost模型,提升模型的預(yù)測(cè)精度。雖然本文采用的基礎(chǔ)回歸器訓(xùn)練結(jié)果并不是最理想的,但是引入VotingRegressor算法的模型2預(yù)測(cè)疾病指標(biāo)的精度有所提高,為糖尿病等疾病的預(yù)測(cè)和控制提供依據(jù)。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年2期