韓昕哲 尚莉伽 張宏坡 毛曉波 劉 超 王漢章 逯 鵬,5*
1(鄭州大學(xué)電氣工程學(xué)院 河南 鄭州 450001) 2(互聯(lián)網(wǎng)醫(yī)療與健康服務(wù)河南省協(xié)同創(chuàng)新中心 河南 鄭州 450001) 3(北京市東城區(qū)中小學(xué)衛(wèi)生保健所 北京 100007) 4(數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室 河南 鄭州 450001) 5(中醫(yī)藥智能科學(xué)與工程技術(shù)研究中心 河南 鄭州 450001)
心電圖(Electrocardiogram,ECG)是進(jìn)行心血管疾病診斷的重要工具?;谟?jì)算機(jī)輔助分析的ECG自動(dòng)分類技術(shù)具有可靠的臨床應(yīng)用價(jià)值[1]。傳統(tǒng)的ECG分類方法依賴手工選取特征[2]。深度學(xué)習(xí)利用大量心電數(shù)據(jù)訓(xùn)練,自動(dòng)學(xué)習(xí)特征,是當(dāng)前實(shí)現(xiàn)ECG自動(dòng)分類的主要技術(shù)途徑[3]。
訓(xùn)練一個(gè)性能優(yōu)異的深度學(xué)習(xí)模型需要大量標(biāo)注的ECG數(shù)據(jù)和計(jì)算能力[4]。訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)模型是對當(dāng)前心電數(shù)據(jù)的擬合;若數(shù)據(jù)分布發(fā)生改變,必須根據(jù)任務(wù)調(diào)整模型,否則會(huì)出現(xiàn)分類準(zhǔn)確率嚴(yán)重下降情況,即領(lǐng)域自適應(yīng)問題[5]。研究表明,域適應(yīng)問題是影響ECG分類模型大規(guī)模應(yīng)用的關(guān)鍵之一[6]。Yao等[7]的研究發(fā)現(xiàn)基于美國心電數(shù)據(jù)集訓(xùn)練的分類模型不適用于中國心電數(shù)據(jù)集。Kachuee等[8]通過微調(diào)網(wǎng)絡(luò)將心律不齊的分類模型應(yīng)用于心肌梗塞的分類任務(wù)。Salem等[9]將DenseNet作為預(yù)訓(xùn)練模型,把劃分后的每個(gè)心拍轉(zhuǎn)換為二維特征圖,通過使用大量二維特征圖微調(diào)DenseNet實(shí)現(xiàn)分類。上述文獻(xiàn)使用的微調(diào)方法需要目標(biāo)數(shù)據(jù)有大量的標(biāo)注,當(dāng)目標(biāo)數(shù)據(jù)缺少標(biāo)注時(shí)則不再適用。
本文構(gòu)建了一個(gè)域適應(yīng)分類網(wǎng)絡(luò)。首先通過雙向門控循環(huán)單元(Bidirection Gated Recurrent Unit,BiGRU)分別從源數(shù)據(jù)和目標(biāo)數(shù)據(jù)自動(dòng)抽取特征,然后將其映射至再生希爾伯特空間內(nèi),最后利用源數(shù)據(jù)的標(biāo)注來學(xué)習(xí)公共空間的特征表示,實(shí)現(xiàn)ECG分類的無監(jiān)督域適應(yīng)。
有標(biāo)注的源心電數(shù)據(jù)表示為XS=[x1,x2,…,xM],心電類別空間CS=[C1,C2,…,CI],其中:M表示源數(shù)據(jù)的樣本總量;I表示類別數(shù)。無標(biāo)注的目標(biāo)心電數(shù)據(jù)XT=[x1,x2,…,xN],其中N表示目標(biāo)數(shù)據(jù)的樣本總量。假設(shè)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)的類別空間相同,即CS與CT一樣,網(wǎng)絡(luò)模型的實(shí)現(xiàn)目標(biāo)是使用源域的標(biāo)注數(shù)據(jù)來解決目標(biāo)域的分類任務(wù)。
門控循環(huán)單元(Gated Recurrent Unit,GRU)將長短期記憶網(wǎng)絡(luò)[10]的遺忘門、輸入門和輸出門簡化為更新門和重置門,保留LSTM功能的同時(shí),減少了參數(shù)數(shù)量,從而大幅提升了訓(xùn)練速度[11]。門控循環(huán)單元具體結(jié)構(gòu)如圖1所示。更新門用于控制tn-1時(shí)刻的狀態(tài)信息對tn時(shí)刻狀態(tài)的影響程度,更新門的值越大說明tn-1時(shí)刻對tn時(shí)刻影響越大。重置門用于控制tn-1時(shí)刻的狀態(tài)信息的忽略程度,重置門的值越小說明忽略得越多。
圖1 GRU結(jié)構(gòu)
更新門狀態(tài)zt和重置門狀態(tài)rt的計(jì)算方式為:
zt=σ(Wz·[ht-1,xt])
(1)
rt=σ(Wr·[ht-1,xt])
(2)
st=tanh(Ws·[rt×ht-1,xt])
(3)
ht=(1-zt)×ht-1+zt×st
(4)
式中:st表示t時(shí)刻的候選激活狀態(tài);ht表示t時(shí)刻的激活狀態(tài);xt表示t時(shí)刻的輸入;σ代表非線性函數(shù);Wz、Wr、Ws分別表示相應(yīng)的權(quán)重矩陣。
ECG在時(shí)間上有上下文關(guān)聯(lián)性[12],單向GRU網(wǎng)絡(luò)只能獲取輸入數(shù)據(jù)的上文信息,因此本文使用雙向門控循環(huán)單元網(wǎng)絡(luò)利用同一通道的上下文信息。模型結(jié)構(gòu)如圖2所示。
圖2 BiGRU結(jié)構(gòu)
可以看出,BiGRU是由兩層單向的GRU組成,當(dāng)前的輸出由前向信息和反向信息共同決定。
本文提出的域適應(yīng)網(wǎng)絡(luò)模型MMD-Net由1層BiGRU、1個(gè)適應(yīng)層、2個(gè)全連接層和1個(gè)輸出層組成,模型整體結(jié)構(gòu)如圖3所示。適應(yīng)層在BiGRU和Dense1之間,作用是將BiGRU提取的ECG特征投影至公共空間,并使用MMD計(jì)算源域和目標(biāo)域數(shù)據(jù)的特征距離。
圖3 模型總體結(jié)構(gòu)
本文使用的域適應(yīng)損失函數(shù)為兩部分,如式(5)所示。
(5)
(6)
式中:N為類別數(shù);XL經(jīng)過Softmax函數(shù)處理,轉(zhuǎn)化成對應(yīng)屬于每個(gè)標(biāo)簽的概率值,再計(jì)算交叉熵。
(7)
式中:φ()是非線性映射函數(shù);H表示映射到的再生希爾伯特空間。
式(8)-式(11)為通過恒等變換并使用核函數(shù)計(jì)算MMD的過程。
首先將式(7)經(jīng)過平方運(yùn)算后展開,再開方的等價(jià)變換運(yùn)算得到:
(8)
(9)
MMD-Net采用線性核函數(shù)和高斯核函數(shù)[14],分別是:
k1(x,x′)=xTx′
(10)
(11)
實(shí)驗(yàn)使用的ECG數(shù)據(jù)集MIT-BIH心房顫動(dòng)數(shù)據(jù)集(MIT-BIH Atrial Fibrillation Database,AFDB)[15]和中國心血管疾病數(shù)據(jù)庫(Chinese Cardiovascular Disease Database,CCDD)[16]。
AFDB包含23組二導(dǎo)聯(lián)數(shù)據(jù),采樣率250 Hz,包含四種節(jié)律:291個(gè)心房顫動(dòng),14個(gè)心房撲動(dòng),12個(gè)房室交界性心律,288個(gè)其他心律。
CCDD是標(biāo)準(zhǔn)12導(dǎo)聯(lián)臨床數(shù)據(jù)集。數(shù)據(jù)集中存在記錄對應(yīng)多個(gè)疾病字典碼的情況。本文使用的均為有且只有一個(gè)疾病字典碼的記錄,將篩選出的記錄降采樣為250 Hz,保證數(shù)據(jù)的一致性。
實(shí)驗(yàn)中,把數(shù)據(jù)劃分為5 s的ECG片段,獲取的數(shù)據(jù)集情況如表1所示。實(shí)驗(yàn)數(shù)據(jù)分為房顫和非房顫兩種類型,其中非房顫類型包含房撲、房室交界和其他。為保證二分類的數(shù)據(jù)平衡性,隨機(jī)從AFDB和CCDD分別抽取50 000和12 000個(gè)樣本,并按照8 ∶2的比例劃分訓(xùn)練集與測試集。
表1 數(shù)據(jù)標(biāo)簽及樣本數(shù)量
經(jīng)過劃分的心電片段如圖4和圖5所示,可以看出,AFDB和CCDD的房顫數(shù)據(jù)之間存在明顯的形態(tài)學(xué)差異。
圖4 AFDB的房顫樣本
模型評估采用準(zhǔn)確率Acc(Accuracy)、精確度P(Precision)、召回率R(Recall)和F1分?jǐn)?shù)(F1Score)。計(jì)算公式分別為:
(12)
(13)
(14)
(15)
式中:TP(True Positive)表示將房顫類型數(shù)據(jù)預(yù)測為房顫的樣本數(shù);TN(True Negative)表示將非房顫數(shù)據(jù)預(yù)測為非房顫的樣本數(shù);FP(False Positive)表示將非房顫數(shù)據(jù)預(yù)測為房顫的樣本數(shù);FN(False Negative)表示將房顫數(shù)據(jù)預(yù)測為非房顫的樣本數(shù);Acc表示總體模型的整體分類準(zhǔn)確率;R表示房顫被分對的比例,衡量了模型對房顫的識(shí)別能力;P表示被分為房顫的樣本中實(shí)際為房顫的比例;F1為P和R的調(diào)和平均。
2.3.1實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)過程中CCDD和AFDB交替作為源數(shù)據(jù)和目標(biāo)數(shù)據(jù),分別記作CCDD→AFDB和AFDB→CCDD。首先使用源數(shù)據(jù)訓(xùn)練得到模型,即預(yù)訓(xùn)練模型;然后使用目標(biāo)數(shù)據(jù)測試集測試得到在預(yù)訓(xùn)練模型上的表現(xiàn),記作基準(zhǔn)組;然后分別采用線性核和高斯核的MMD-Net域適應(yīng)學(xué)習(xí)實(shí)驗(yàn),分別記作線性核組和高斯核組。實(shí)驗(yàn)相關(guān)參數(shù)如表2所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置
表3是CCDD→AFDB的實(shí)驗(yàn)結(jié)果,圖6是模型準(zhǔn)確率隨適應(yīng)因子的變化情況?;鶞?zhǔn)組分類準(zhǔn)確率為0.628 4。相較于使用高斯核函數(shù),MMD-Net在使用線性核函數(shù)時(shí)各項(xiàng)評價(jià)指標(biāo)更高。適應(yīng)因子λ=0.2測試準(zhǔn)確率最高,F(xiàn)1分?jǐn)?shù)提高5.21。使用高斯核函數(shù)時(shí)。圖6顯示在CCDD→AFDB實(shí)驗(yàn)中,適應(yīng)層采用線性核函數(shù)和高斯核函數(shù)平均準(zhǔn)確率為75.98%和70.70%。
表3 CCDD→AFDB的實(shí)驗(yàn)結(jié)果
圖6 CCDD→AFDB實(shí)驗(yàn)中不同核函數(shù)的測試準(zhǔn)確率
表4是AFDB→CCDD的實(shí)驗(yàn)結(jié)果,圖7是模型的測試準(zhǔn)確率隨適應(yīng)因子λ的變化情況。本組實(shí)驗(yàn)中,使用高斯核函數(shù)對模型的提升效果更好。圖7顯示適應(yīng)層采用線性核函數(shù)和高斯核函數(shù)的平均準(zhǔn)確率分別為56.26%和85.24%。
表4 AFDB→CCDD的實(shí)驗(yàn)結(jié)果
圖7 AFDB→CCDD實(shí)驗(yàn)中不同核函數(shù)的測試準(zhǔn)確率
以上基于AFDB和CCDD的雙向域適應(yīng)實(shí)驗(yàn)結(jié)果表明,二者數(shù)據(jù)類別空間上一致,但在數(shù)學(xué)分布上存在差異。本文的MMD-Net通過域適應(yīng)學(xué)習(xí),平均準(zhǔn)確率分別達(dá)到了73.34%和70.75%,其中適應(yīng)因子取值在0.2~0.5內(nèi)得到的準(zhǔn)確率更高。這說明本文的模型可以通過最小化源域與目標(biāo)域的差異,使得模型學(xué)習(xí)源域和目標(biāo)域的共同表示,有效提高了模型在目標(biāo)域的分類準(zhǔn)確率。
2.3.2可視化分析
為更加直觀地顯示MMD-Net的分類性能,選取表4中的高斯核組對模型進(jìn)行可視化展現(xiàn)[17],分別如圖8-圖10所示。房顫和非房顫樣本分別為帶有0和1的方塊。圖8顯示了AFDB測試集在其訓(xùn)練集上訓(xùn)練出來的模型的分類結(jié)果,表明預(yù)訓(xùn)練模型對源數(shù)據(jù)具有很好的分類性能。圖9是預(yù)訓(xùn)練模型在目標(biāo)數(shù)據(jù)測試集上的表現(xiàn),對目標(biāo)數(shù)據(jù)無法準(zhǔn)確劃分。圖10是MMD-Net分類的可視化結(jié)果,表明適應(yīng)層的加入顯著改善了模型在目標(biāo)數(shù)據(jù)的分類性能。
圖8 預(yù)訓(xùn)練模型分類結(jié)果的可視化
圖9 預(yù)訓(xùn)練模型在目標(biāo)數(shù)據(jù)分類結(jié)果的可視化
圖10 MMD-Net在目標(biāo)數(shù)據(jù)分類結(jié)果的可視化
針對心電信號分類中的域適應(yīng)問題,本文提出基于MMD心電域適應(yīng)學(xué)習(xí)的分類模型MMD-Net。將源數(shù)據(jù)和目標(biāo)數(shù)據(jù)輸入BiGRU中學(xué)習(xí)特征,通過適應(yīng)層將各自特征映射至公共的再生希爾伯特空間內(nèi),使用MMD度量特征空間內(nèi)的分布差異,并利用源數(shù)據(jù)的標(biāo)簽信息實(shí)現(xiàn)對目標(biāo)數(shù)據(jù)的域適應(yīng)學(xué)習(xí)。在CCDD和AFDB上的雙向域適應(yīng)實(shí)驗(yàn)結(jié)果表明,本文方法能有效提高目標(biāo)域分類準(zhǔn)確率,提升模型泛化性能。后續(xù)工作將考慮使用多核MMD進(jìn)一步提升應(yīng)用價(jià)值。