劉 健 徐 偉 錢 煒
(江蘇科技大學(xué)電子信息工程學(xué)院 鎮(zhèn)江 212003)
心血管疾病嚴(yán)重威脅人類生命健康,其病死率超過其他疾病躍居第一,成為世界最重大的醫(yī)學(xué)課題之一[1]。受不健康的生活方式影響,以及人口老齡化趨勢不斷提高,中國罹患心血管疾病的人數(shù)不斷增加。加強心血管疾病防治工作,及時發(fā)現(xiàn)并有效治療變得越來越重要。心電圖是目前檢測心臟疾病最有效的手段,反映了心臟各部位的生理狀況。經(jīng)過100 多年的發(fā)展,目前已累積了海量的ECG 信號數(shù)據(jù)。如何從大量的ECG 信號中有效學(xué)習(xí)到具有識別度的特征,提高ECG 信號分類的準(zhǔn)確性,成為心電信號分類檢測系統(tǒng)研究的重要課題。由于心電信號是微弱的生物信號,且受個體差異性影響,不同個體的同類信號也有明顯差別,因此,通過人為識別很難正確區(qū)分信號。在此基礎(chǔ)上,國內(nèi)外學(xué)者研究了多種方法,通過提取心電信號中具有表征性的特征,對信號進行分類識別。這些方法主要有模糊推斷法、統(tǒng)計法、線性分類法、神經(jīng)網(wǎng)絡(luò)法、支持向量機等[2~6]。但是這些方法需要人為設(shè)計特征提取器,不但要求設(shè)計者具備豐富的經(jīng)驗知識,而且會對方法有效性造成較大影響。
近年來,隨著人工智能的火熱發(fā)展,深度學(xué)習(xí)理論被應(yīng)用于各類領(lǐng)域中。深度學(xué)習(xí)提供了自動學(xué)習(xí)深層特征的方法,避免了人為設(shè)計對分類效果的影響。目前,應(yīng)用在心電信號分類識別中的深度學(xué)習(xí)方法有卷積神經(jīng)網(wǎng)絡(luò)(CNN)、自動降噪編碼器(SDAEs)、CNN 與長短期記憶網(wǎng)絡(luò)(LSTM)相結(jié)合等[7~10],對信號分類都取得了良好的成果。
本文用受限玻爾茲曼機[11](Restricted Boltzmann Machines,RBM)堆疊構(gòu)成深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN),利用RBM 的自動學(xué)習(xí)能力逐步提取信號的深層次特征,對四類心電信號進行分類識別。
圖1為DBN網(wǎng)絡(luò)結(jié)構(gòu)圖。從圖中可以看出,一個DBN 網(wǎng)絡(luò)由多個RBM 堆疊而成,RBM 是DBN 網(wǎng)絡(luò)模型中的基本組成單元。圖中ω為RBM 層間的權(quán)值。RBM 訓(xùn)練時,通過逐層貪婪方法訓(xùn)練[12],獲得每層RBM 的最優(yōu)參數(shù)。最后用有監(jiān)督的全局算法,從頂層開始微調(diào)整個DBN 網(wǎng)絡(luò)的權(quán)值參數(shù),使其收斂至全局最優(yōu)。
圖1 DBN網(wǎng)絡(luò)結(jié)構(gòu)圖
DBN模型的具體訓(xùn)練步驟如下:
1)最底層的原始數(shù)據(jù)作為輸入向量輸入首層RBM,完成無監(jiān)督訓(xùn)練;
2)首層RBM 訓(xùn)練后提取的特征向量,作為輸入向量,訓(xùn)練下一層RBM;
3)重復(fù)步驟1)和2),直到每層RBM 都訓(xùn)練完成,獲得頂層RBM的輸出特征,此時得到每層RBM的局部最優(yōu)參數(shù);
4)利用全局算法(如誤差反向傳播算法),自上而下對每層RBM 進行有監(jiān)督的微調(diào),逐層調(diào)整RBM的權(quán)值參數(shù),使其收斂至全局最優(yōu)。
DBN 模型以RBM 為基本組成模塊,解決了傳統(tǒng)方法中的梯度彌散和陷入局部最優(yōu)的問題。
圖2 為RBM 結(jié)構(gòu)圖,v表示可見層,h 表示隱藏層,層間全連接,層內(nèi)無連接。對于一個給定的狀態(tài)(v,h),RBM的能量函數(shù)定義為
圖2 RBM模型結(jié)構(gòu)圖
其中θ={Wij,bi,cj}代表RBM 模型中的參數(shù),bi和cj為各層偏置,Wij表示層間的權(quán)值矩陣。(v,h)的聯(lián)合概率分布為
這里Z(θ)是歸一化因子。
當(dāng)確定了可見層狀態(tài),則隱藏層中神經(jīng)元的激活狀態(tài)概率為
其中σ(x)=1/(1+e-x),為sigmod函數(shù)。
同理:
基于深度置信網(wǎng)絡(luò)的心電信號分類具體流程圖如圖3。
圖3 實驗流程圖
需要分類的心電信號傳輸至深度置信網(wǎng)絡(luò),通過各層RBM 的訓(xùn)練尋找參數(shù)θ的最優(yōu)值,并自動提取信號的深層次特征,將提取到的特征送入分類器中實現(xiàn)分類。為了提高分類效果,對整體網(wǎng)絡(luò)進行權(quán)值微調(diào),用微調(diào)后的網(wǎng)絡(luò)實現(xiàn)最終分類。
2.2.1 網(wǎng)絡(luò)預(yù)訓(xùn)練
RBM訓(xùn)練時,給定訓(xùn)練樣本S={v1,v2,…,vns},ns為訓(xùn)練樣本的數(shù)目,對數(shù)似然估計表示為
由函數(shù)lnx的嚴(yán)格單調(diào)性可知,最大化Lθ,S等價于最大化lnLθ,S:
采用梯度上升法[13],通過迭代的方式逐步逼近lnLθ,S的最大值,迭代公式為
其中η為學(xué)習(xí)率。從公式中可以看出,最重要的是是梯度的計算。其對各參數(shù)偏導(dǎo)為
為了保證算法的時效性,通常采用對比散度[14](Contrastive Divergence,CD)的快速學(xué)習(xí)算法訓(xùn)練RBM。訓(xùn)練后各參數(shù)梯度為
ε為學(xué)習(xí)率,·recon為一步重構(gòu)后的模型分布。求出梯度后對各參數(shù)更新,調(diào)整參數(shù)θ。
參數(shù)更新準(zhǔn)則為
公式中ξ為動量學(xué)習(xí)率。
為了確定合適參數(shù),用模擬退火算法[15]對學(xué)習(xí)率和網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)進行尋優(yōu),以隱藏層節(jié)點數(shù)、訓(xùn)練的學(xué)習(xí)率預(yù)測得到的誤差作為目標(biāo)函數(shù)對模型進行訓(xùn)練。
2.2.2 網(wǎng)絡(luò)權(quán)值微調(diào)
DBN 網(wǎng)絡(luò)中,RBM 只充當(dāng)特征提取器,提取信號的深層次特征。在信號分類時,需要用分類器進行分類。本文選用Softmax 分類器,將RBM 提取的特征送至分類器中,結(jié)合類別標(biāo)簽,利用假設(shè)函數(shù)計算出特征屬于每個類別的概率,完成分類任務(wù)[16]。其結(jié)構(gòu)如圖4所示。
圖4 Softmax分類器結(jié)構(gòu)圖
為了提高網(wǎng)絡(luò)分類性能,采用反向傳播法自上而下對網(wǎng)絡(luò)權(quán)值進行微調(diào),最小化代價函數(shù)[17]:
函數(shù)1{y(i)=j} 的功能是:若表達式y(tǒng)(i)=j為真,則1{y(i)=j} 取1,否則取0。函數(shù)項為歸一化概率,使各類概率和為1,λ>0。
本文采用MIT-BIH(Massachusetts Institute of Technology and Beth Israel Hospital Arrhythmia Database)數(shù)據(jù)庫作為研究的心電信號數(shù)據(jù)來源。該數(shù)據(jù)庫包含48 條雙導(dǎo)聯(lián)的心電信號記錄,其中23 條記錄可作為常規(guī)臨床代表性數(shù)據(jù),另外25 條記錄包含了多種罕見的重要臨床記錄。本文則對其中的正常心拍、室性早搏、房性早搏和起搏心電信號進行分類,信號波形如圖5 所示。選取其中具有代表性的22條記錄構(gòu)成數(shù)據(jù)集,一共30721個心拍樣本。訓(xùn)練集共20480 個樣本,測試集共10241 個樣本。四類心拍樣本分布如表1所示。
表1 心拍類型分布
圖5 四類心電信號心電圖
對DBN 網(wǎng)絡(luò)參數(shù)進行尋優(yōu)時,退火模擬算法以預(yù)測相對誤差為目標(biāo)函數(shù)進行尋優(yōu)。從圖6 中可以看出,當(dāng)?shù)螖?shù)為13 時,誤差由0.1085 下降到0.0824;當(dāng)?shù)螖?shù)為15時,誤差下降到0.0337,此后誤差不再變化。
圖6 模擬退火算法參數(shù)尋優(yōu)圖
此時DBN初始化參數(shù)如表2。
表2 DBN初始化參數(shù)
DBN 訓(xùn)練時,逐層訓(xùn)練RBM,學(xué)習(xí)信號的深層次特征。
圖7為DBN特征提取圖,縱向從上到下為四類心電信號特征,橫向1、2、3、4分別代表N、V、A、P四種信號。從圖中可以看出,第一層RBM 提取的特征中,四類信號的特征有所區(qū)別,但不太明顯。因為首層RBM提取的是信號的淺層特征。隨著RBM層數(shù)的增加,所提取到的不同信號深層次特征區(qū)別越大,說明信號的深層次特征更具有代表性,能讓分類效果更加明顯。
圖7 DBN特征提取圖
本文用混淆矩陣對心電信號分類結(jié)果進行統(tǒng)計,使用敏感度(Sensitivity,Se)、正檢測率(Positivie Predictivity,Pp)、特異性(Specificity,Sp)和整體精度(Overall Accuracy,OA)四個統(tǒng)計參數(shù)對心拍分類結(jié)果進行評價,定義如下:
這里TP 為真陽性,表示指定樣本被正確分類的數(shù)目;TN 為真陰性,表示非指定樣本被預(yù)測為非指定樣本的數(shù)目;FP 為假陽性,表示非指定樣本被預(yù)測為指定樣本的數(shù)目;FN為假陰性,表示指定樣本被預(yù)測為非指定樣本的數(shù)目。
由混淆矩陣可以看出,5808 個正常節(jié)律心拍正確識別5764 個,1432 個室性早搏心拍正確識別1402個,658個房性早搏心拍正確識別641個,2343個起搏心拍正確識別2308 個,整體分類準(zhǔn)確率為98.8%。
表4 為心拍分類統(tǒng)計結(jié)果,從敏感度、正檢率、特異性三個不同的角度出發(fā),都反映了算法對疾病的識別效果。三者的值越高代表分類準(zhǔn)確率越高。由表4 可以看出,起搏心拍的敏感度、正檢率和特異性都在99%以上,其他三種心拍的統(tǒng)計結(jié)果基本也都在98%以上,說明本文提出的方法具有較好的分類效果。
表4 心拍分類統(tǒng)計結(jié)果
權(quán)值微調(diào)階段是為了提高網(wǎng)絡(luò)的分類性能。為了說明權(quán)值微調(diào)的有效性,將網(wǎng)絡(luò)微調(diào)前后的統(tǒng)計結(jié)果進行對比。
對比表3 和表5 可以看出,微調(diào)后各類信號樣本的識別個數(shù)都有所增加,微調(diào)前整體分類準(zhǔn)確率為97.8%,說明了權(quán)值微調(diào)對網(wǎng)絡(luò)分類性能有所提高。
表3 分類結(jié)果混淆矩陣
表5 DBN權(quán)值微調(diào)前分類結(jié)果混淆矩陣
表6為微調(diào)前心拍分類統(tǒng)計結(jié)果。對比表4和表6,微調(diào)后各類信號的統(tǒng)計參數(shù)基本都有所提高。其中信號特異性變化不大,變化最大的是房性早搏的敏感度,提升了1.2%。對比結(jié)果進一步說明權(quán)值微調(diào)提高了網(wǎng)絡(luò)的總體分類性能。
表6 權(quán)值微調(diào)前心拍分類統(tǒng)計結(jié)果
為了進一步體現(xiàn)本文方法的性能,將本文方法與傳統(tǒng)的心電信號分類方法和基于深度學(xué)習(xí)的心電信號分類方法進行對比,對比結(jié)果如表7。
表7 心拍分類算法對比
由分類方法精度對比可知,對比其他幾種分類方法,本文方法的整體精度最高。對比結(jié)果表明,深度置信網(wǎng)絡(luò)應(yīng)用在心電信號的分類問題中,有良好的分類效果。
本文中構(gòu)建了三層深度置信網(wǎng)絡(luò),選取MIT-BIH 數(shù)據(jù)庫中4 種常見的心電信號共22 條記錄號進行分類識別。利用深度置信網(wǎng)絡(luò)的無監(jiān)督的深層次特征自動學(xué)習(xí)能力,提取心電信號的深層次特征,對信號進行分類識別。在構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)時對網(wǎng)絡(luò)初始參數(shù)進行尋優(yōu),降低了隨機設(shè)置參數(shù)對網(wǎng)絡(luò)性能的影響,最終對4 類心電信號的識別準(zhǔn)確率達到98.8%。對比常用的心電信號分類算法,深度置信網(wǎng)絡(luò)的分類準(zhǔn)確率更高,在未來的心電疾病診斷中會有較好的應(yīng)用前景。