劉玉航,曲 媛,徐英豪,朱習(xí)軍,于 巖
(1.青島科技大學(xué)信息科學(xué)技術(shù)學(xué)院,山東 青島 266061; 2.青島市海潤自來水集團(tuán)有限公司東部分公司,山東 青島 266000)
據(jù)《中國心血管病報(bào)告》(概要)統(tǒng)計(jì),中國心血管病患者數(shù)量高達(dá)2.9億人,約占中國人口的20.7%,且其中約有43.81%的人口死于心血管病[1]。心血管病包括多種患病形態(tài),如腦卒中、冠心病、心力衰竭等[2]。導(dǎo)致引發(fā)心血管病的多個(gè)重要因素是可控的,例如高血壓、肥胖、吸煙等[3],盡早預(yù)防是目前治療心血管疾病最有效的途徑。
隨著智慧醫(yī)療興起,深度學(xué)習(xí)目前成為了疾病預(yù)測、輔助診斷至關(guān)重要的方法[4]。由于心血管病成因及種類繁多,因此在使用機(jī)器學(xué)習(xí)方法對其預(yù)測時(shí)需要對數(shù)據(jù)進(jìn)行預(yù)處理。王曼怡等[5]使用Logistic模型對心血管病患病風(fēng)險(xiǎn)進(jìn)行預(yù)測,蔡勛瑋[6]采用SVM與DS結(jié)合的方式預(yù)測心血管病,杜珍珍[7]采用XGBoost算法構(gòu)建冠心病患病風(fēng)險(xiǎn)預(yù)測模型,他們所做的工作多是基于已有模型進(jìn)行相關(guān)預(yù)測。文獻(xiàn)[8-9]則是基于深度學(xué)習(xí)模型進(jìn)行臨床診斷,他們所做的研究是應(yīng)用于臨床診斷,而非進(jìn)行常態(tài)化的預(yù)測。上文提到,誘發(fā)心血管病的大多數(shù)因素都是可控的,以此為依據(jù)進(jìn)行常態(tài)化預(yù)測和診斷同樣關(guān)鍵,本文提出一種可以評估引發(fā)疾病特征并對患病風(fēng)險(xiǎn)進(jìn)行預(yù)測的基于深度學(xué)習(xí)的模型。
在數(shù)據(jù)集方面,Kaggle提供開源的心血管病數(shù)據(jù)集,其中包含約62000條可用數(shù)據(jù),數(shù)據(jù)集中人體特征字段為體檢結(jié)果信息采集,而主觀因素如吸煙、酗酒等為被采集者主觀提供,心血管病患病與否則是由醫(yī)學(xué)確診后寫入數(shù)據(jù)集。
由于實(shí)驗(yàn)過程中發(fā)現(xiàn)傳統(tǒng)DNN模型存在泛化性差、易過擬合等問題,本文將在文獻(xiàn)[10]的基礎(chǔ)上改進(jìn)并優(yōu)化模型結(jié)構(gòu),提高其泛化能力,并進(jìn)一步保證模型魯棒性。
本文旨在通過優(yōu)化DNN模型實(shí)現(xiàn)對心血管病的準(zhǔn)確預(yù)測,因此本章將重點(diǎn)介紹所使用的網(wǎng)絡(luò)模型及其相關(guān)優(yōu)化。
由于實(shí)驗(yàn)是針對心血管病患病與否,所以網(wǎng)絡(luò)模型實(shí)質(zhì)為二分類模型。數(shù)據(jù)集進(jìn)行預(yù)處理后傳遞給神經(jīng)網(wǎng)絡(luò)[11]。對模型進(jìn)行訓(xùn)練后,將待預(yù)測樣本輸入模型,即可得到結(jié)果,網(wǎng)絡(luò)模型處理流程如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)處理流程圖
考慮到堆疊全連接層會導(dǎo)致參數(shù)量過大,本文曾嘗試使用多種模型結(jié)構(gòu),包括對模型增加循環(huán)神經(jīng)層[12]等,但模型訓(xùn)練結(jié)果并不樂觀,多番嘗試后本文選擇使用DNN作為心血管病預(yù)測的基礎(chǔ)模型。
批歸一化層(Batch Normalization, BN)是深度學(xué)習(xí)領(lǐng)域的重要研究成果之一[13]。利用心血管病數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),若輸入層獲取的數(shù)據(jù)分布不一致,則傳遞數(shù)據(jù)時(shí)模型中其他層為了匹配輸入數(shù)據(jù)變化需要不斷進(jìn)行調(diào)整[14]。為了加快模型收斂速度,同時(shí)緩解模型梯度彌散問題,從而更高效、更穩(wěn)定訓(xùn)練模型,需要引入BN層。
BN層可有效解決模型內(nèi)數(shù)據(jù)分布問題,其原理是計(jì)算批數(shù)據(jù)的均值及方差,對所求均值及方差進(jìn)行歸一化操作,最后進(jìn)行尺度變化與偏移[15],步驟如式(1)~式(4)所示。
(1)
(2)
(3)
(4)
BN層的核心是式(4)的尺度變化與偏移,即讓xi乘以γ來調(diào)整值大小,將結(jié)果與偏移量β相加得到y(tǒng)i。其中,γ和β稱作尺度因子和平移因子[16],這2項(xiàng)參數(shù)均是通過網(wǎng)絡(luò)訓(xùn)練過程中自我學(xué)習(xí)的結(jié)果。
另外,BN層可以有效地使梯度變得更加平緩[17],如圖2所示。
圖2 添加BN層可以有效使梯度變平緩
為防止訓(xùn)練過程中過擬合現(xiàn)象發(fā)生,Srivastava等[18]在2014年提出了經(jīng)典算法Dropout。Dropout能夠防止模型過擬合現(xiàn)象發(fā)生是通過每輪訓(xùn)練時(shí)隨機(jī)摒棄部分網(wǎng)絡(luò)神經(jīng)元,這些被摒棄的神經(jīng)元在正向傳播的過程中無法對下游網(wǎng)絡(luò)層造成影響,而且反向傳播時(shí)其權(quán)重也無法得到迭代和更新,如圖3所示。
圖3 經(jīng)過Dropout后部分神經(jīng)元被摒棄
盡管Dropout算法是解決過擬合問題的有效方式,但由于Dropout過程隨機(jī)性太強(qiáng),權(quán)重較高的神經(jīng)元同樣也會被摒棄[19],而由于本文數(shù)據(jù)是對心血管病患者特征的一般采樣,若直接在模型中應(yīng)用Dropout層會導(dǎo)致訓(xùn)練后模型中各個(gè)神經(jīng)元的權(quán)重趨于一致,難以選擇模型最佳子網(wǎng)絡(luò),無法保障模型剪枝工作的有效性。
為解決傳統(tǒng)Dropout算法存在的不足,Google Brain的Gomez等[20]進(jìn)一步提出了Targeted Dropout,即定向正則化思想。Target Dropout旨在解決傳統(tǒng)Dropout存在的可能丟失關(guān)鍵神經(jīng)元的問題,是一種能夠基于重要性進(jìn)行剪枝的算法。該算法結(jié)合了權(quán)重Dropout與神經(jīng)元Dropout,如式(5)和式(6)分別為它們對輸出值的計(jì)算公式,其中X代表輸入張量、W代表權(quán)重矩陣、Y代表輸出張量、M代表全連接層。
Y=(X?M)W
(5)
Y=X(W?M)
(6)
Targeted Dropout通過結(jié)合上述2種方式的Dropout,通過式(7)和式(8)來進(jìn)行基于權(quán)重的剪枝和基于神經(jīng)元的剪枝。
(7)
(8)
Targeted Dropout正則化不像傳統(tǒng)的Dropout一樣直接對神經(jīng)元摒棄,因?yàn)楸晦饤壍纳窠?jīng)元有可能在后續(xù)的訓(xùn)練中顯現(xiàn)出它們的重要性。由此一來,Targeted Dropout在考慮到了影響較高的大數(shù)神經(jīng)元的同時(shí),又兼顧了小數(shù)神經(jīng)元潛在的作用。
本文實(shí)驗(yàn)中將傳統(tǒng)DNN模型中的Dropout替換為本節(jié)所講的Targeted Dropout,并將在后文中對比采用2種不同正則化方法所產(chǎn)生的的實(shí)驗(yàn)結(jié)果。
本文所使用數(shù)據(jù)集為Kaggle開源心血管病數(shù)據(jù)集,其中共包含約62000條可用數(shù)據(jù),其中共11項(xiàng)基本特征和1個(gè)目標(biāo)變量,如表1所示。特征來源可分為主觀聲明和客觀檢測2種類型,主觀聲明是受試者自身生活習(xí)慣,客觀檢測為醫(yī)學(xué)檢測過程中獲取的客觀數(shù)據(jù)。
表1 數(shù)據(jù)集特征描述
數(shù)據(jù)集中,患病樣本與未患病樣本大致相等,如圖4所示。
圖4 患病人數(shù)分布
在上節(jié)所提到的特征中,沒有包含受試者的身體質(zhì)量指數(shù)(BMI),然而,BMI過高也是誘發(fā)心血管病的因素之一,并且是更為直觀的特征[22]。依據(jù)現(xiàn)有受試者特征,可根據(jù)式(9)計(jì)算出受試者的BMI。
(9)
通過繪制特征相關(guān)性熱力圖可以對數(shù)據(jù)集特征進(jìn)行更直觀的觀測,如圖5所示。
圖5 特征相關(guān)性熱力圖
熱力圖能夠直觀表示特征間的相關(guān)性程度[23]。圖5中2個(gè)特征相交的矩陣色塊越深,代表這2個(gè)特征的皮爾遜相關(guān)系數(shù)越大,進(jìn)而它們的關(guān)聯(lián)度也就越大。該數(shù)據(jù)集中,與目標(biāo)變量患病與否相交的特征色塊均大于基礎(chǔ)值,證明所選特征可以用來對該數(shù)據(jù)集進(jìn)行預(yù)測。
實(shí)驗(yàn)使用本文第1章提出的方法對深度神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。在原有的網(wǎng)絡(luò)基礎(chǔ)上,對每個(gè)模塊額外添加BN層用以處理輸入值,并添加Targeted Dropout層實(shí)現(xiàn)定向正則化,其中Drop_rate和Target_rate值分別設(shè)置為0.6和0.7。每個(gè)模塊均采取Leaky ReLU作為激活函數(shù),最終輸出層使用Sigmoid函數(shù)作為計(jì)算二分類的預(yù)測結(jié)果函數(shù)。實(shí)驗(yàn)具體預(yù)測模型架構(gòu)如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)圖
處理后的數(shù)據(jù)集以8∶2的比例劃分訓(xùn)練集和測試集并訓(xùn)練200個(gè)Epoch,同時(shí)記錄了在每個(gè)Epoch上的val_loss值和val_acc值,使用訓(xùn)練后的模型在驗(yàn)證集上進(jìn)行驗(yàn)證,選擇準(zhǔn)確率、召回率、特異度、精確率作為疾病預(yù)測模型的評價(jià)指標(biāo)。
通過對原始的DNN模型引入BN層以及定向正則化層后,發(fā)現(xiàn)原始DNN模型在驗(yàn)證集上的準(zhǔn)確率變化情況與TR-DNN模型在前40個(gè)Epoch中存在顯著差異,而100個(gè)訓(xùn)練周期結(jié)束后兩者準(zhǔn)確率都在78%左右,如圖7所示。
圖7 2種模型在驗(yàn)證集上的準(zhǔn)確率變化
為了評估TR-DNN及其它模型的實(shí)際效果,本文將準(zhǔn)確率(Accuracy)、召回率(Recall)、特異度(Specificity)、精確率(Precision)作為模型的評價(jià)指標(biāo)。
其中,準(zhǔn)確率、召回率、特異度、精確率分別使用公式(10)-公式(13)進(jìn)行表示。
(10)
(11)
(12)
(13)
上述公式中,TP代表正例預(yù)測正確的個(gè)數(shù);FP代表負(fù)例預(yù)測錯(cuò)誤的個(gè)數(shù);TN代表負(fù)例預(yù)測正確的個(gè)數(shù);FN代表正例預(yù)測錯(cuò)誤的個(gè)數(shù)。
在進(jìn)行200個(gè)訓(xùn)練周期的訓(xùn)練后,本文采集了TR-DNN模型與傳統(tǒng)DNN模型以及SVM、RF、XGBoost模型在測試集上的評價(jià)標(biāo)準(zhǔn)數(shù)據(jù),并在表2中將這些數(shù)據(jù)列出。
表2 不同模型的評價(jià)標(biāo)準(zhǔn)結(jié)果
通過表2可以得出,在準(zhǔn)確率方面,TR-DNN模型高于其它3種傳統(tǒng)機(jī)器學(xué)習(xí)模型,比SVM模型提高了14.57個(gè)百分點(diǎn),比RF模型提高了5.75個(gè)百分點(diǎn),比XGBoost模型提高了3.15個(gè)百分點(diǎn),且與同為深度學(xué)習(xí)的傳統(tǒng)DNN模型相比,準(zhǔn)確率依然有著1.5個(gè)百分點(diǎn)的提高;在召回率方面,TR-DNN模型在對比其他傳統(tǒng)對照模型有著更好結(jié)果的同時(shí),與傳統(tǒng)的DNN模型對比,TR-DNN模型的召回率仍然提高了1.57%;在特異度方面,TR-DNN模型依然有著最好的結(jié)果,并且比傳統(tǒng)DNN模型提高了2.54個(gè)百分點(diǎn);在精確率方面,TR-DNN模型比SVM模型提高了14.54個(gè)百分點(diǎn),比RF模型提高了6.07個(gè)百分點(diǎn),比XGBoost模型提高了3.08個(gè)百分點(diǎn),比DNN模型提高了1.51個(gè)百分點(diǎn)。
可以發(fā)現(xiàn),通過對傳統(tǒng)DNN模型增加BN層以及Target-Dropout層可以有效地提高模型的性能。同時(shí),由于在模型中原本獨(dú)立的網(wǎng)絡(luò)層之間加入了歸一化層,不同層之間的數(shù)據(jù)得到了歸一化,從而能夠進(jìn)一步降低模型的訓(xùn)練時(shí)間。
本文研究了通過對傳統(tǒng)DNN模型進(jìn)行添加BN層與定向正則化層,將模型優(yōu)化為TR-DNN模型,并訓(xùn)練此模型以進(jìn)行預(yù)測心血管病的任務(wù)。通過實(shí)驗(yàn)可以發(fā)現(xiàn),TR-DNN模型在準(zhǔn)確率、召回率、特異度、精確率等評價(jià)指標(biāo)方面均高于其它的對照模型,其中包括傳統(tǒng)的DNN模型,這表明優(yōu)化的深度神經(jīng)網(wǎng)絡(luò)模型可以應(yīng)用于心血管疾病的預(yù)測任務(wù)。但由于數(shù)據(jù)集并非專業(yè)臨床電子病歷,準(zhǔn)確率方面相較其它模型雖有提升,但不能完全作為醫(yī)療診斷依據(jù)。針對這一問題,需要對模型進(jìn)一步改進(jìn),使其能夠真正應(yīng)用于醫(yī)學(xué)輔助診斷領(lǐng)域,同時(shí)進(jìn)一步提高預(yù)測準(zhǔn)確率。