基于改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的心血管疾病預(yù)測

2022-06-23 00:35劉玉航徐英豪朱習(xí)軍

計(jì)算機(jī)與現(xiàn)代化 2022年6期

劉玉航,曲媛,徐英豪,朱習(xí)軍,于巖

(1.青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東青島 266061; 2.青島市海潤自來水集團(tuán)有限公司東部分公司,山東青島 266000)

0 引言

據(jù)《中國心血管病報(bào)告》(概要)統(tǒng)計(jì)，中國心血管病患者數(shù)量高達(dá)2.9億人，約占中國人口的20.7%，且其中約有43.81%的人口死于心血管病[1]。心血管病包括多種患病形態(tài)，如腦卒中、冠心病、心力衰竭等[2]。導(dǎo)致引發(fā)心血管病的多個(gè)重要因素是可控的，例如高血壓、肥胖、吸煙等[3]，盡早預(yù)防是目前治療心血管疾病最有效的途徑。

隨著智慧醫(yī)療興起，深度學(xué)習(xí)目前成為了疾病預(yù)測、輔助診斷至關(guān)重要的方法[4]。由于心血管病成因及種類繁多，因此在使用機(jī)器學(xué)習(xí)方法對其預(yù)測時(shí)需要對數(shù)據(jù)進(jìn)行預(yù)處理。王曼怡等[5]使用Logistic模型對心血管病患病風(fēng)險(xiǎn)進(jìn)行預(yù)測，蔡勛瑋[6]采用SVM與DS結(jié)合的方式預(yù)測心血管病，杜珍珍[7]采用XGBoost算法構(gòu)建冠心病患病風(fēng)險(xiǎn)預(yù)測模型，他們所做的工作多是基于已有模型進(jìn)行相關(guān)預(yù)測。文獻(xiàn)[8-9]則是基于深度學(xué)習(xí)模型進(jìn)行臨床診斷，他們所做的研究是應(yīng)用于臨床診斷，而非進(jìn)行常態(tài)化的預(yù)測。上文提到，誘發(fā)心血管病的大多數(shù)因素都是可控的，以此為依據(jù)進(jìn)行常態(tài)化預(yù)測和診斷同樣關(guān)鍵，本文提出一種可以評估引發(fā)疾病特征并對患病風(fēng)險(xiǎn)進(jìn)行預(yù)測的基于深度學(xué)習(xí)的模型。

在數(shù)據(jù)集方面，Kaggle提供開源的心血管病數(shù)據(jù)集，其中包含約62000條可用數(shù)據(jù)，數(shù)據(jù)集中人體特征字段為體檢結(jié)果信息采集，而主觀因素如吸煙、酗酒等為被采集者主觀提供，心血管病患病與否則是由醫(yī)學(xué)確診后寫入數(shù)據(jù)集。

由于實(shí)驗(yàn)過程中發(fā)現(xiàn)傳統(tǒng)DNN模型存在泛化性差、易過擬合等問題，本文將在文獻(xiàn)[10]的基礎(chǔ)上改進(jìn)并優(yōu)化模型結(jié)構(gòu)，提高其泛化能力，并進(jìn)一步保證模型魯棒性。

1 相關(guān)工作

本文旨在通過優(yōu)化DNN模型實(shí)現(xiàn)對心血管病的準(zhǔn)確預(yù)測，因此本章將重點(diǎn)介紹所使用的網(wǎng)絡(luò)模型及其相關(guān)優(yōu)化。

1.1 深度神經(jīng)網(wǎng)絡(luò)預(yù)測模型

由于實(shí)驗(yàn)是針對心血管病患病與否，所以網(wǎng)絡(luò)模型實(shí)質(zhì)為二分類模型。數(shù)據(jù)集進(jìn)行預(yù)處理后傳遞給神經(jīng)網(wǎng)絡(luò)[11]。對模型進(jìn)行訓(xùn)練后，將待預(yù)測樣本輸入模型，即可得到結(jié)果，網(wǎng)絡(luò)模型處理流程如圖1所示。

圖1 神經(jīng)網(wǎng)絡(luò)處理流程圖

考慮到堆疊全連接層會導(dǎo)致參數(shù)量過大，本文曾嘗試使用多種模型結(jié)構(gòu)，包括對模型增加循環(huán)神經(jīng)層[12]等，但模型訓(xùn)練結(jié)果并不樂觀，多番嘗試后本文選擇使用DNN作為心血管病預(yù)測的基礎(chǔ)模型。

1.2 Batch Normalization

批歸一化層(Batch Normalization, BN)是深度學(xué)習(xí)領(lǐng)域的重要研究成果之一[13]。利用心血管病數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)，若輸入層獲取的數(shù)據(jù)分布不一致，則傳遞數(shù)據(jù)時(shí)模型中其他層為了匹配輸入數(shù)據(jù)變化需要不斷進(jìn)行調(diào)整[14]。為了加快模型收斂速度，同時(shí)緩解模型梯度彌散問題，從而更高效、更穩(wěn)定訓(xùn)練模型，需要引入BN層。

BN層可有效解決模型內(nèi)數(shù)據(jù)分布問題，其原理是計(jì)算批數(shù)據(jù)的均值及方差，對所求均值及方差進(jìn)行歸一化操作，最后進(jìn)行尺度變化與偏移[15]，步驟如式(1)～式(4)所示。

(1)

(2)

(3)

(4)

BN層的核心是式(4)的尺度變化與偏移，即讓xi乘以γ來調(diào)整值大小，將結(jié)果與偏移量β相加得到y(tǒng)i。其中，γ和β稱作尺度因子和平移因子[16]，這2項(xiàng)參數(shù)均是通過網(wǎng)絡(luò)訓(xùn)練過程中自我學(xué)習(xí)的結(jié)果。

另外，BN層可以有效地使梯度變得更加平緩[17]，如圖2所示。

圖2 添加BN層可以有效使梯度變平緩

1.3 Targeted Dropout

為防止訓(xùn)練過程中過擬合現(xiàn)象發(fā)生，Srivastava等[18]在2014年提出了經(jīng)典算法Dropout。Dropout能夠防止模型過擬合現(xiàn)象發(fā)生是通過每輪訓(xùn)練時(shí)隨機(jī)摒棄部分網(wǎng)絡(luò)神經(jīng)元，這些被摒棄的神經(jīng)元在正向傳播的過程中無法對下游網(wǎng)絡(luò)層造成影響，而且反向傳播時(shí)其權(quán)重也無法得到迭代和更新，如圖3所示。

圖3 經(jīng)過Dropout后部分神經(jīng)元被摒棄

盡管Dropout算法是解決過擬合問題的有效方式，但由于Dropout過程隨機(jī)性太強(qiáng)，權(quán)重較高的神經(jīng)元同樣也會被摒棄[19]，而由于本文數(shù)據(jù)是對心血管病患者特征的一般采樣，若直接在模型中應(yīng)用Dropout層會導(dǎo)致訓(xùn)練后模型中各個(gè)神經(jīng)元的權(quán)重趨于一致，難以選擇模型最佳子網(wǎng)絡(luò)，無法保障模型剪枝工作的有效性。

為解決傳統(tǒng)Dropout算法存在的不足，Google Brain的Gomez等[20]進(jìn)一步提出了Targeted Dropout，即定向正則化思想。Target Dropout旨在解決傳統(tǒng)Dropout存在的可能丟失關(guān)鍵神經(jīng)元的問題，是一種能夠基于重要性進(jìn)行剪枝的算法。該算法結(jié)合了權(quán)重Dropout與神經(jīng)元Dropout，如式(5)和式(6)分別為它們對輸出值的計(jì)算公式，其中X代表輸入張量、W代表權(quán)重矩陣、Y代表輸出張量、M代表全連接層。

Y=(X?M)W

(5)

Y=X(W?M)

(6)

Targeted Dropout通過結(jié)合上述2種方式的Dropout，通過式(7)和式(8)來進(jìn)行基于權(quán)重的剪枝和基于神經(jīng)元的剪枝。

(7)

(8)

Targeted Dropout正則化不像傳統(tǒng)的Dropout一樣直接對神經(jīng)元摒棄，因?yàn)楸晦饤壍纳窠?jīng)元有可能在后續(xù)的訓(xùn)練中顯現(xiàn)出它們的重要性。由此一來，Targeted Dropout在考慮到了影響較高的大數(shù)神經(jīng)元的同時(shí)，又兼顧了小數(shù)神經(jīng)元潛在的作用。

本文實(shí)驗(yàn)中將傳統(tǒng)DNN模型中的Dropout替換為本節(jié)所講的Targeted Dropout，并將在后文中對比采用2種不同正則化方法所產(chǎn)生的的實(shí)驗(yàn)結(jié)果。

2 數(shù)據(jù)處理與實(shí)驗(yàn)設(shè)計(jì)

2.1 數(shù)據(jù)集

本文所使用數(shù)據(jù)集為Kaggle開源心血管病數(shù)據(jù)集，其中共包含約62000條可用數(shù)據(jù)，其中共11項(xiàng)基本特征和1個(gè)目標(biāo)變量，如表1所示。特征來源可分為主觀聲明和客觀檢測2種類型，主觀聲明是受試者自身生活習(xí)慣，客觀檢測為醫(yī)學(xué)檢測過程中獲取的客觀數(shù)據(jù)。

表1 數(shù)據(jù)集特征描述

數(shù)據(jù)集中，患病樣本與未患病樣本大致相等，如圖4所示。

圖4 患病人數(shù)分布

2.2 特征選擇

在上節(jié)所提到的特征中，沒有包含受試者的身體質(zhì)量指數(shù)(BMI)，然而，BMI過高也是誘發(fā)心血管病的因素之一，并且是更為直觀的特征[22]。依據(jù)現(xiàn)有受試者特征，可根據(jù)式(9)計(jì)算出受試者的BMI。

(9)

通過繪制特征相關(guān)性熱力圖可以對數(shù)據(jù)集特征進(jìn)行更直觀的觀測，如圖5所示。

圖5 特征相關(guān)性熱力圖

熱力圖能夠直觀表示特征間的相關(guān)性程度[23]。圖5中2個(gè)特征相交的矩陣色塊越深，代表這2個(gè)特征的皮爾遜相關(guān)系數(shù)越大，進(jìn)而它們的關(guān)聯(lián)度也就越大。該數(shù)據(jù)集中，與目標(biāo)變量患病與否相交的特征色塊均大于基礎(chǔ)值，證明所選特征可以用來對該數(shù)據(jù)集進(jìn)行預(yù)測。

2.3 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)使用本文第1章提出的方法對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。在原有的網(wǎng)絡(luò)基礎(chǔ)上，對每個(gè)模塊額外添加BN層用以處理輸入值，并添加Targeted Dropout層實(shí)現(xiàn)定向正則化，其中Drop_rate和Target_rate值分別設(shè)置為0.6和0.7。每個(gè)模塊均采取Leaky ReLU作為激活函數(shù)，最終輸出層使用Sigmoid函數(shù)作為計(jì)算二分類的預(yù)測結(jié)果函數(shù)。實(shí)驗(yàn)具體預(yù)測模型架構(gòu)如圖6所示。

圖6 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)圖

處理后的數(shù)據(jù)集以8∶2的比例劃分訓(xùn)練集和測試集并訓(xùn)練200個(gè)Epoch，同時(shí)記錄了在每個(gè)Epoch上的val_loss值和val_acc值，使用訓(xùn)練后的模型在驗(yàn)證集上進(jìn)行驗(yàn)證，選擇準(zhǔn)確率、召回率、特異度、精確率作為疾病預(yù)測模型的評價(jià)指標(biāo)。

3 實(shí)驗(yàn)結(jié)果及分析

通過對原始的DNN模型引入BN層以及定向正則化層后，發(fā)現(xiàn)原始DNN模型在驗(yàn)證集上的準(zhǔn)確率變化情況與TR-DNN模型在前40個(gè)Epoch中存在顯著差異，而100個(gè)訓(xùn)練周期結(jié)束后兩者準(zhǔn)確率都在78%左右，如圖7所示。

圖7 2種模型在驗(yàn)證集上的準(zhǔn)確率變化

3.1 評價(jià)標(biāo)準(zhǔn)

為了評估TR-DNN及其它模型的實(shí)際效果，本文將準(zhǔn)確率(Accuracy)、召回率(Recall)、特異度(Specificity)、精確率(Precision)作為模型的評價(jià)指標(biāo)。

其中，準(zhǔn)確率、召回率、特異度、精確率分別使用公式(10)-公式(13)進(jìn)行表示。

(10)

(11)

(12)

(13)

上述公式中，TP代表正例預(yù)測正確的個(gè)數(shù)；FP代表負(fù)例預(yù)測錯(cuò)誤的個(gè)數(shù)；TN代表負(fù)例預(yù)測正確的個(gè)數(shù)；FN代表正例預(yù)測錯(cuò)誤的個(gè)數(shù)。

3.2 結(jié)果與分析

在進(jìn)行200個(gè)訓(xùn)練周期的訓(xùn)練后，本文采集了TR-DNN模型與傳統(tǒng)DNN模型以及SVM、RF、XGBoost模型在測試集上的評價(jià)標(biāo)準(zhǔn)數(shù)據(jù)，并在表2中將這些數(shù)據(jù)列出。

表2 不同模型的評價(jià)標(biāo)準(zhǔn)結(jié)果

通過表2可以得出，在準(zhǔn)確率方面，TR-DNN模型高于其它3種傳統(tǒng)機(jī)器學(xué)習(xí)模型，比SVM模型提高了14.57個(gè)百分點(diǎn)，比RF模型提高了5.75個(gè)百分點(diǎn)，比XGBoost模型提高了3.15個(gè)百分點(diǎn)，且與同為深度學(xué)習(xí)的傳統(tǒng)DNN模型相比，準(zhǔn)確率依然有著1.5個(gè)百分點(diǎn)的提高；在召回率方面，TR-DNN模型在對比其他傳統(tǒng)對照模型有著更好結(jié)果的同時(shí)，與傳統(tǒng)的DNN模型對比，TR-DNN模型的召回率仍然提高了1.57%；在特異度方面，TR-DNN模型依然有著最好的結(jié)果，并且比傳統(tǒng)DNN模型提高了2.54個(gè)百分點(diǎn)；在精確率方面，TR-DNN模型比SVM模型提高了14.54個(gè)百分點(diǎn)，比RF模型提高了6.07個(gè)百分點(diǎn)，比XGBoost模型提高了3.08個(gè)百分點(diǎn)，比DNN模型提高了1.51個(gè)百分點(diǎn)。

可以發(fā)現(xiàn)，通過對傳統(tǒng)DNN模型增加BN層以及Target-Dropout層可以有效地提高模型的性能。同時(shí)，由于在模型中原本獨(dú)立的網(wǎng)絡(luò)層之間加入了歸一化層，不同層之間的數(shù)據(jù)得到了歸一化，從而能夠進(jìn)一步降低模型的訓(xùn)練時(shí)間。

4 結(jié)束語

本文研究了通過對傳統(tǒng)DNN模型進(jìn)行添加BN層與定向正則化層，將模型優(yōu)化為TR-DNN模型，并訓(xùn)練此模型以進(jìn)行預(yù)測心血管病的任務(wù)。通過實(shí)驗(yàn)可以發(fā)現(xiàn)，TR-DNN模型在準(zhǔn)確率、召回率、特異度、精確率等評價(jià)指標(biāo)方面均高于其它的對照模型，其中包括傳統(tǒng)的DNN模型，這表明優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于心血管疾病的預(yù)測任務(wù)。但由于數(shù)據(jù)集并非專業(yè)臨床電子病歷，準(zhǔn)確率方面相較其它模型雖有提升，但不能完全作為醫(yī)療診斷依據(jù)。針對這一問題，需要對模型進(jìn)一步改進(jìn)，使其能夠真正應(yīng)用于醫(yī)學(xué)輔助診斷領(lǐng)域，同時(shí)進(jìn)一步提高預(yù)測準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡