章潔 武東
摘 要:近年來(lái),心血管疾病已成為威脅人們生命的主要疾病,而心血管疾病患者早期發(fā)病時(shí)往往出現(xiàn)心律失常癥狀,因此早期檢測(cè)心律失常對(duì)提前預(yù)防心血管疾病,及早介入治療具有至關(guān)重要的意義?;诖?,本研究利用小波分析方法對(duì)不同類型的心電序列進(jìn)行去噪聲處理,再利用ARMA模型以及時(shí)間序列的方法對(duì)分解后的信號(hào)序列進(jìn)行特征提取,將ARMA模型的系數(shù)作為心電信號(hào)的特征指標(biāo);結(jié)合決策樹(shù)分類、支持向量機(jī)分類和隨機(jī)森林分類機(jī)器學(xué)習(xí)方法對(duì)提取后的心電特征指標(biāo)進(jìn)行分類研究,并根據(jù)實(shí)驗(yàn)結(jié)果對(duì)三種算法的性能進(jìn)行比較分析。
關(guān)鍵詞:心電信號(hào);分類;ARMA模型;機(jī)器學(xué)習(xí);心律失常
據(jù)世界衛(wèi)生組織(WHO)統(tǒng)計(jì),2016年全球死亡人數(shù)中,71%死于NCDs(非傳染性疾?。?,54%緣于10大原因,而Ischaemic heart disease(缺血性心臟?。└呔影袷住?016年我國(guó)死于心血管疾病人數(shù)約占死亡總數(shù)的43%,心血管疾病已成為剝奪我國(guó)人民生命的主要元兇,。因而,加強(qiáng)對(duì)心血管疾病的預(yù)防、診斷和治療是控制死亡人數(shù)的關(guān)鍵,同時(shí)也是我國(guó)社會(huì)長(zhǎng)治久安的基本需要。
心律失常是心血管疾病的主要部分之一,其不僅會(huì)加重患者原有心臟疾病,而且還會(huì)導(dǎo)致患者突然死亡。本文主要針對(duì)心律失常的心電信號(hào)展開(kāi)分類研究,心電圖(Electrocardiogram,ECG)是醫(yī)生臨床診斷心血管疾病的必要工具,其對(duì)心律失常的診斷具有重要價(jià)值。
近年來(lái),心電信號(hào)分類研究大多采用神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等傳統(tǒng)的統(tǒng)計(jì)模型,其分類的類別也大多局限在二分類。本研究采用計(jì)算速度顯著優(yōu)于神經(jīng)網(wǎng)絡(luò)模型的隨機(jī)森林算法進(jìn)行四分類,并與支持向量機(jī)分類器相比,我們發(fā)現(xiàn)隨機(jī)森林對(duì)大樣本建模更具優(yōu)勢(shì),分類的準(zhǔn)確率也更高。
1 數(shù)據(jù)來(lái)源與方法
1.1 數(shù)據(jù)來(lái)源
本文采用MIT-BIH 數(shù)據(jù)庫(kù)中MIT-BIH Arrhythmia Database(mitdb)作為研究的心電數(shù)據(jù)源,該數(shù)據(jù)庫(kù)總共有48條ECG記錄中,且每條記錄的總樣本點(diǎn)為65萬(wàn),其中25條記錄(編號(hào)從200到234)包括多種一些罕見(jiàn)但臨床上重要的現(xiàn)象。此外,數(shù)據(jù)庫(kù)中每個(gè)記錄樣本有兩個(gè)數(shù)據(jù)通道(即 MLII 導(dǎo)聯(lián)和胸導(dǎo)聯(lián) V1),由于心律失常在 MLII 導(dǎo)聯(lián)特征較明顯且質(zhì)量較好,故選取 MLII 導(dǎo)聯(lián)數(shù)據(jù)進(jìn)行心電信號(hào)心拍的分類研究,并通過(guò)與專家注釋結(jié)果進(jìn)行對(duì)比來(lái)評(píng)價(jià)實(shí)驗(yàn)結(jié)果。基于此,本文從200到234這25條心電記錄出發(fā),著手研究心律失常心電信號(hào)的分類。
1.2 預(yù)處理
心電信號(hào)在采集的過(guò)程中會(huì)受到心臟自身和外部因素的干擾,使心電信號(hào)的時(shí)間間期和波形上發(fā)生變化。因此,采集的心電信號(hào)通常需要去除基線漂移(SymbolcB@5hz)、肌電噪聲(10-300hz)和工頻噪聲(50hz)等干擾信號(hào),從而提高醫(yī)療診斷的準(zhǔn)確性。為了盡量降低噪聲對(duì)心電信號(hào)的影響,本文采用小波閾值去噪,以保證在濾除噪聲的同時(shí)盡可能保留原有心電信號(hào)的波形。
小波閾值去噪是對(duì)信號(hào)進(jìn)行正交小波變換,變換后的小波系數(shù)中含有大量的ECG信號(hào)的數(shù)據(jù),ECG中的噪聲的圖像分布情況與小波系數(shù)分布相同,其模擬具有合理性。小波系數(shù)大小不一,我們可以將絕對(duì)值小的設(shè)為0,相反,對(duì)絕對(duì)值大的,可以采用軟、硬閾值的方法對(duì)其進(jìn)行保存下來(lái)或者進(jìn)行壓縮。由此先得到小波系數(shù)(estimated wavelet coefficients,EWC)的估計(jì)值,再通過(guò)已得到的小波系數(shù)組成新的ECG信號(hào),從而達(dá)到去噪的效果。
從右圖中可以看到原始信號(hào)的圖像受到噪聲影響,導(dǎo)致心電信號(hào)的波形改變,在臨床上可能對(duì)醫(yī)生的分析判斷產(chǎn)生干擾。我們利用matlab統(tǒng)計(jì)軟件對(duì)信號(hào)進(jìn)行小波分析,得到去噪后的信號(hào)圖像,由下圖可知,經(jīng)過(guò)去噪處理的信號(hào)圖像變得光滑,大大的減少了信號(hào)失真,以便于醫(yī)務(wù)工作人員對(duì)圖像進(jìn)行判別分析,對(duì)提高患者的診斷效率具有重要意義。
原始信號(hào)與去噪后的信號(hào)圖像對(duì)比圖
1.3 樣本心拍的分割
心律失常的心電信號(hào)往往在波形形態(tài)上表現(xiàn)異常,通常體現(xiàn)在每個(gè)心拍中,故我們對(duì)心律失常心電信號(hào)進(jìn)行分類時(shí),需要將心電信號(hào)分割成逐個(gè)心拍。在分割過(guò)程中,分割長(zhǎng)度是影響最終信號(hào)分類的一個(gè)重要因素,基于心律失常的波形異常主要表征在 PR 間期異常和 QRS 波群,并結(jié)合心電信號(hào)時(shí)限特征,本文以 R 波為關(guān)鍵點(diǎn),前后各截取150 個(gè)樣本點(diǎn)即301個(gè)樣本點(diǎn)作為樣本心拍,基本可以包含所有的波形特征。MIT-BIH 心律失常數(shù)據(jù)庫(kù)中,每個(gè)心拍都專家進(jìn)行詳細(xì)標(biāo)注,注釋包括 R 波位置、心律失常類型等。本文共選取正常心拍(N)、左束支傳導(dǎo)阻滯心拍(L)、右束支傳導(dǎo)阻滯心拍(R)、室性早搏心拍(V)四類心拍。
1.4 特征提取
特征提取的方法大體分為頻域分析和時(shí)域分析兩類。相比于頻域分析,時(shí)域分析方法更加直觀。時(shí)域分析方法中的自回歸移動(dòng)平均模型(autoregressive moving average,ARMA),可以將相關(guān)時(shí)序轉(zhuǎn)化為獨(dú)立時(shí)序,從而利用對(duì)獨(dú)立時(shí)序進(jìn)行統(tǒng)計(jì)處理的方法去處理相關(guān)時(shí)序。此外,ARMA(n,m)模型是一個(gè)平滑濾波器,對(duì)觀測(cè)數(shù)據(jù)能夠自主進(jìn)行平滑和濾波,進(jìn)一步達(dá)到去噪效果,估計(jì)出觀測(cè)數(shù)據(jù)的真值。蘊(yùn)含在心電數(shù)據(jù)的取值大小及其先后順序的心電特征可由ARMA(n,m)模型的模型參數(shù)φi、θj和δ2ε刻畫(huà),基于ARMA(n,m)模型信息凝聚性,我們通過(guò)對(duì)心電數(shù)據(jù)建立ARMA(n,m)模型,提取擬合的模型參數(shù)作為每個(gè)樣本心拍的特征值。ARMA(n,m)的模型結(jié)構(gòu)如下:
在建模中,階次n和m的選取至關(guān)重要。無(wú)論是葛丁飛等人利用MDL和MDL敏感性函數(shù)作為定階準(zhǔn)則,還是張婷婷等人提出的根據(jù)信噪比和AIC準(zhǔn)則定階,結(jié)果都表明當(dāng)n=4,m=2時(shí),模型擬合的仿真信號(hào)與原始信號(hào)最為接近。故本研究選用ARMA(4,2)模型,并利用R語(yǔ)言中的arima()函數(shù)對(duì)樣本心拍數(shù)據(jù)建立模型,直接輸出擬合的模型系數(shù)。
1.5 機(jī)器學(xué)習(xí)分類算法研究
在上一節(jié)中,我們對(duì)每個(gè)心拍提取了6個(gè)特征,以便下面的心電信號(hào)分類。有監(jiān)督機(jī)器學(xué)習(xí)領(lǐng)域中包含許多分類的方法,本研究將著重比較分析決策樹(shù)、隨機(jī)森林、支持向量機(jī)這三種機(jī)器學(xué)習(xí)分類算法。
1.5.1 分類決策樹(shù)
經(jīng)典決策樹(shù)CART(Classification and Regression Trees)是由決策樹(shù)生成和決策樹(shù)剪枝兩部分組成。CART分類樹(shù)首先對(duì)所有自變量和所有分割點(diǎn)進(jìn)行評(píng)估,使分割后組內(nèi)的數(shù)據(jù)因變量取值差異更小,該差異可由基尼指數(shù)(Gini index)度量,從而進(jìn)行特征選擇生成二叉樹(shù)。為了避免得到一棵過(guò)大的樹(shù),從而出現(xiàn)過(guò)擬合現(xiàn)象,我們采用后剪枝對(duì)訓(xùn)練集生長(zhǎng)的樹(shù)進(jìn)行剪枝。針對(duì)本研究的四分類任務(wù),CART首先將目標(biāo)類別合并成兩個(gè)超類別,再逐個(gè)分類。
假設(shè)有K個(gè)類,樣本點(diǎn)屬于第k類的概率為pk,則概率分布的基尼指數(shù)為:
1.5.2 隨機(jī)森林
隨機(jī)森林(random forest)是一種集成式的有監(jiān)督學(xué)習(xí)方法,基于結(jié)合多個(gè)較弱的分類器來(lái)創(chuàng)建很強(qiáng)的分類器。隨機(jī)森林對(duì)樣本單元和變量進(jìn)行有放回隨機(jī)抽樣,從而生成大量決策樹(shù)(R語(yǔ)言中默認(rèn)生成500棵),并用隨機(jī)組合所有的決策樹(shù)對(duì)樣本單元進(jìn)行分類。
假設(shè)樣本數(shù)據(jù)共有N個(gè)樣本單元,M個(gè)變量,則隨機(jī)森林分類的具體步驟如下:
(1)從訓(xùn)練集中隨機(jī)有放回抽取N個(gè)樣本單元,生成大量決策樹(shù)。
(2)在每棵樹(shù)的每個(gè)節(jié)點(diǎn)隨機(jī)抽取m (3)每棵樹(shù)最大限度生長(zhǎng),無(wú)需剪枝(最小節(jié)點(diǎn)為1)。 (4)將生成的所有決策樹(shù)組成隨機(jī)森林分類器,并用其對(duì)新的數(shù)據(jù)進(jìn)行分類,分類結(jié)果由多數(shù)決定原則生成。 隨機(jī)森林算法使用Gini系數(shù)度量變量的相對(duì)重要程度,即分割該變量時(shí)節(jié)點(diǎn)不純度(異質(zhì)性)的下降總量對(duì)所有樹(shù)取平均。 1.5.3 支持向量機(jī) 支持向量機(jī)(Support Vector Machine,SVM)近來(lái)被人們廣泛應(yīng)用于分類問(wèn)題,它的流行根植于其最先進(jìn)的性能以及其背后優(yōu)雅的數(shù)學(xué)理論。支持向量機(jī)旨在創(chuàng)建一個(gè)稱為超平面(hyperplane)的平面邊界來(lái)劃分?jǐn)?shù)據(jù)空間,由此對(duì)數(shù)據(jù)進(jìn)行分類,并使得兩類中距離最近的點(diǎn)的間距盡可能大,即形成最大間隔超平面,在間距邊上的點(diǎn)被稱為支持向量。 本研究中的樣本數(shù)據(jù)本身是非線性的,需使用核函數(shù)將數(shù)據(jù)投影到一個(gè)更高維的空間中,使其在高維線性可分。一般,核函數(shù)將一些變換應(yīng)用于特征向量xi和xj,并進(jìn)行點(diǎn)積: 核函數(shù)的種類有很多,其中徑高斯徑向基核函數(shù)(Radial Basis Function,RBF)具有能應(yīng)對(duì)類別標(biāo)簽與預(yù)測(cè)變量間的非線性關(guān)系的優(yōu)良特性,對(duì)于許多類型的數(shù)據(jù)都運(yùn)行得很好故本研究選用其作為核函數(shù)。設(shè)σ是核參數(shù),則高斯RBF核函數(shù)的公式為1-6。 帶RBF核的SVM中還有一重要參數(shù)成本(Cost,C),不同的參數(shù)值對(duì)應(yīng)著不同的分類模型,在建模時(shí),R語(yǔ)言軟件變換參數(shù)σ和C的值建立不同的模型,以生成性能最優(yōu)的分類器。 2 結(jié)果 本研究從MIT-BIH ALrrhythmia Database的25條記錄中進(jìn)行心拍分割,獲取5147個(gè)樣本心拍,其中N 1357個(gè),L型心拍1201個(gè),R型心拍1247個(gè),V型心拍1342個(gè)。本研究中的三種分類算法都是根據(jù)訓(xùn)練集建立模型,從而對(duì)驗(yàn)證集進(jìn)行預(yù)測(cè),并與真實(shí)結(jié)果進(jìn)行對(duì)比。由此訓(xùn)練集與驗(yàn)證集的劃分對(duì)分類結(jié)果的影響重大,本文從樣本數(shù)據(jù)中隨機(jī)抽取70%作為訓(xùn)練數(shù)據(jù)集,而剩下的30%作為驗(yàn)證數(shù)據(jù)集。為了直接對(duì)三種機(jī)器學(xué)習(xí)方法的分類能力進(jìn)行比較分析,三種方法都采用相同的數(shù)據(jù)集。 本研究采用準(zhǔn)確率來(lái)評(píng)估各種分類器的性能,即分類器是否能對(duì)驗(yàn)證集數(shù)據(jù)正確分類,并通過(guò)調(diào)用R語(yǔ)言中的相關(guān)函數(shù)進(jìn)行計(jì)算。具體結(jié)果如下表所示。 3 討論 分類決策樹(shù)對(duì)噪聲有較好的魯棒性,并自動(dòng)忽略不重要的特征,如本文中特征六被分類器排除。但是,模型有欠擬合或過(guò)擬合傾向,故分類的準(zhǔn)確率相對(duì)較低。實(shí)驗(yàn)結(jié)果表明,隨機(jī)森林分類的準(zhǔn)確率比其他分類器高,其易于使用并具有更少的過(guò)擬合傾向,其性能不輸于功能強(qiáng)大的SVM,甚至更勝一籌。與隨機(jī)森林類似SVM的一大缺點(diǎn)是分類準(zhǔn)則比較難以理解和表述。此外SVM在對(duì)大量樣本建模時(shí)不如隨機(jī)森林,但只要建立了一個(gè)成功的模型,對(duì)新樣本的分類就較為準(zhǔn)確。 本研究基于機(jī)器學(xué)習(xí)方法對(duì)正常心律心拍和三種心律異常的心電心拍進(jìn)行分類,成功地將傳統(tǒng)的二分類拓展到四分類。進(jìn)一步深化研究,提高分類的準(zhǔn)確性,并將該方法應(yīng)用到其他種類的心律失常信號(hào)的分類中,對(duì)醫(yī)生臨床診斷具有實(shí)踐意義。 參考文獻(xiàn): [1]World Health Organization.The Top 10 Causes of Death[Online].Available:https://www.who.int/news-room/fact-sheets/detail/the-top-10-causes-of-death,May,2018. [2]Tompkins W.Biomedical Digital Signal Processing[M].New Jersey:Prentice Hall,Englewood Cliffs,1993. [3]楊寶峰,蔡本志.心律失常發(fā)病機(jī)制研究進(jìn)[J].國(guó)際藥學(xué)研究雜志,2010,37(2):81-88. [4]張揚(yáng),蔡建立.小波分析和ECG信號(hào)的檢測(cè).南京理工大學(xué)學(xué)報(bào),2005,29(10):223-225. [5]楊叔子,吳雅.時(shí)間序列分析的工程運(yùn)用(上、下冊(cè))[M].武漢:華中科技大學(xué)出版社,2007. [6]吳志勇,丁香乾,許曉偉,鞠傳香.基于深度學(xué)習(xí)和模糊C均值的心電信號(hào)分類方法[J].自動(dòng)化學(xué)報(bào),2018,44(10):1913-1920. [7]王艷.基于ECG的心律失常特征提取及分類算法的研究[D].蘇州大學(xué),2018. [8]葛丁飛,李時(shí)輝.基于ARMA模型的ECG分類和壓縮[J].浙江科技學(xué)院學(xué)報(bào),2004(01):7-13. [9]毛雪岷,張婷婷,蔡傳晰,李瓊.基于ARMA模型的心電聚類算法[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2012,31(06):816-821. [10]張婷婷.基于ARMA模型的時(shí)間序列挖掘[D].合肥工業(yè)大學(xué),2013. [11]陳義.心電信號(hào)的異常心律分類算法研究[D].重慶大學(xué),2016. [12]王燕.時(shí)間序列分析:基于R[M].北京:中國(guó)人民大學(xué)出版社,2015.3. [13][美]布雷特·蘭茨(Brett Lantz),李洪成,許金煒,李艦譯.機(jī)器學(xué)習(xí)與R語(yǔ)言(原書(shū)第2版)[M].北京:機(jī)械工業(yè)出版社,2016.12. [14][美]卡巴科弗(Kabacoff,R.I.)著,王小寧等譯.R語(yǔ)言實(shí)戰(zhàn):第2版[M].北京:人民郵電出版社,2016.5. [15]A.Batra,V.Jawa,Classification of arrhythmia using conjunction of machine learning algorithms and ECG diagnostic criteria,Int.J.Biol.Biomed.1(2016)1-7. 基金:安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2017A892) *通訊作者:武東。