農(nóng)漢彪, 曾巧妮
(百色學(xué)院,廣西 百色 533000)
所采集的心電信號中包含有基線漂移成分?;€漂移是一種低頻信號,而心電信號自身也含有十分豐富的低頻成分,基漂漂移會疊加并掩蓋有用的低頻成分?;€漂移的存在會對后續(xù)分析、識別和診斷
在心電信號(ECG)采集的過程中,由于被試者的呼吸運(yùn)動,測試電極與人體皮膚之間接觸阻抗變化以及采集設(shè)備性能溫度漂移等因素影響,會使得產(chǎn)生較大影響,為保證醫(yī)學(xué)診斷的準(zhǔn)確性,基線漂移應(yīng)在心電信號預(yù)處理中予以消除。
近年來,國內(nèi)外學(xué)者針對心電信號基線漂移的消除提出了很多新方法。林金朝等[1]提出了基于改進(jìn)集合經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)的消除心電信號基線漂移方法。YAO等[2]提出了基于完全集成經(jīng)驗(yàn)?zāi)J椒纸庾赃m應(yīng)噪聲算法(CEEMDAN)的方法,克服了傳統(tǒng)經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)模態(tài)混疊的問題。劉春等[3]采用EEMD和經(jīng)驗(yàn)小波變換(EWT)相結(jié)合的算法,Boda等[4]也提出了類似的利用EMD和EWT相混合方法從心電信號中抑制電力干擾(PLI)和基線漂移的方法。崔善政等[5]利用變分模態(tài)分解將心電圖信號分解為一組模態(tài)分量,去除含有基線漂移成分的模態(tài)分量,重構(gòu)剩余模態(tài)分量得到去除基線漂移后的心電圖信號。Singhal等[6]提出了一種基于傅里葉分解法(FDM)的方法,從ECG信號中同時分離基線漂移和PLI,并獲得干凈的ECG數(shù)據(jù)。Romero等[7]提出了一種利用深度學(xué)習(xí)進(jìn)行含有基線漂移的ECG信號濾波算法。
以上方法都趨向于將原信號進(jìn)行分解,分別得到心電數(shù)據(jù)和干擾成分,而不可避免地存在頻率混疊的問題,從而無法得到真正純凈的心電信號。另外,常用的算法還有中值濾波法、曲線擬合法[8]和形態(tài)學(xué)濾波[9]等。曲線擬合法通過擬合每一個心拍周期內(nèi)適當(dāng)數(shù)量的基點(diǎn)得到基線漂移干擾,基點(diǎn)即能夠表征信號基線漂移走勢的數(shù)據(jù)樣本,該方法實(shí)時性、準(zhǔn)確性好,但算法中基點(diǎn)的提取比較困難。針對這一問題,本文依據(jù)心電信號短時間內(nèi)數(shù)據(jù)高階統(tǒng)計(jì)量分布與基點(diǎn)之間關(guān)系提出了基于分段數(shù)據(jù)聚類提取基點(diǎn)從而實(shí)現(xiàn)基線漂移消除的方法。首先對數(shù)據(jù)進(jìn)行分段并計(jì)算高階統(tǒng)計(jì)量?;€漂移是緩變信號,其對短時間內(nèi)分段數(shù)據(jù)的高階統(tǒng)計(jì)量貢獻(xiàn)趨于零。而當(dāng)心電作用極小或?yàn)榱銜r,數(shù)據(jù)只包含基線漂移和隨機(jī)干擾,數(shù)據(jù)段的高階統(tǒng)計(jì)量會趨向某些固定值(固定值和隨機(jī)干擾相關(guān))。接著對高階統(tǒng)計(jì)量進(jìn)行基于密度的聚類分析,可將高階統(tǒng)計(jì)量趨于固定值的數(shù)據(jù)段篩選出來,篩選出數(shù)據(jù)段的中值即為基點(diǎn)。最后擬合基點(diǎn)即可得到基線漂移。
典型的心電信號如圖1所示,每個周期主要由P波、QRS波群和T波組成,各個波的波形特征和之間的轉(zhuǎn)換、過渡蘊(yùn)含受試者的生理信息。其中,ST段是指QRS波群終點(diǎn)和T波起點(diǎn)之間所跨越的時間。S-T段期間,左右心室的肌細(xì)胞都處于興奮期間,兩者形成的綜合電場在體表心電圖中的貢獻(xiàn)趨于零,導(dǎo)致S-T段心電信號大約處于基線的水平。另外,從上個周期的T波到下個周期的P波之間的過渡時間,也處于基線的水平。
圖1 模擬心電信號波形
有上述心電信號的特點(diǎn),可知連接(擬合)ST段和TP段的中值就可以得到信號的基線漂移。而由于信號的預(yù)處理優(yōu)先于波段的檢測與識別,即無法事先知道哪些數(shù)據(jù)處在這兩個過渡段。根據(jù)信號的統(tǒng)計(jì)特性可以在數(shù)據(jù)采集或者處理過程中根據(jù)一個時間段內(nèi)信號的統(tǒng)計(jì)特性對數(shù)據(jù)所在的區(qū)段進(jìn)行區(qū)分。如圖2所示為受到基線漂移和高斯隨機(jī)噪聲干擾后的心電信號,對數(shù)據(jù)進(jìn)行分段處理并計(jì)算每段數(shù)據(jù)的中值、均值、方差、峭度等數(shù)學(xué)統(tǒng)計(jì)量。
圖2 數(shù)據(jù)分段示意圖
圖2數(shù)據(jù)分段A-F,包含了6種可能出現(xiàn)的不同切分情況。其中D位于ST段,F(xiàn)位于TP段,假設(shè)每個區(qū)段的時間長度一致,每個區(qū)段數(shù)據(jù)的統(tǒng)計(jì)量如表1所示。從中值和均值上看,ABCDF 5個分段的數(shù)值都很相近而無法區(qū)分。從方差和峭度上看,D和F分段的統(tǒng)計(jì)值基本相同,明顯區(qū)別于其他數(shù)據(jù)分段,因而可以通過分段數(shù)據(jù)的方差和峭度聯(lián)合分布的密度情況對所有分段進(jìn)行聚類分析,從而得到具有相同屬性特征的數(shù)據(jù)分段,即可聚類出只包含基線漂移和隨機(jī)噪聲干擾的數(shù)據(jù)分段。
表1 分段數(shù)據(jù)統(tǒng)計(jì)量
在實(shí)測的心電信號中,由于受試者本身可能存在心血管疾病或其他心臟疾病,ST段和TP段并不一定是平直的,而相比其他波段,其分段數(shù)據(jù)的方差和峭度仍然存在差異,而同屬于ST段和TP段的分段數(shù)據(jù)則具有相似的屬性,因而同樣可以通過聚類分析法方法區(qū)分識別出只包含基線漂移和隨機(jī)噪聲干擾的數(shù)據(jù)分段。
DBSCAN(density-based spatial clustering of applications with noise)聚類算法是一個很典型的基于密度的聚類算法,具有聚類速度快且能夠有效處理噪聲點(diǎn)和發(fā)現(xiàn)任意形狀的空間聚類等顯著優(yōu)點(diǎn)。算法基于密度聚類的概念,要求聚類空間中的一定空間范圍內(nèi)所包含樣本(數(shù)據(jù)點(diǎn))的數(shù)目不小于某個給定閾值。算法的結(jié)果依賴于以下兩個參數(shù):
1)ε鄰域:在一個樣本周圍鄰近空間的半徑;
2)minPts:鄰近空間內(nèi)至少包含樣本個數(shù)。
若樣本x1的ε鄰域內(nèi)至少包含minPts個樣本,則x1是一個核心對象,若一個核心對象的鄰域中包含了其他核心對象,則這些核心對象以及包含在它ε鄰域內(nèi)的所有樣本構(gòu)成一個類,如圖3所示。即具有相同特征的對象樣本之間的緊密相連的,在某類別任意樣本周圍一定空間范圍內(nèi)一定有同類別的樣本存在。
圖3 DBSCAN聚類算法原理示意圖
依據(jù)心電信號的特性和DBSCAN聚類算法的優(yōu)點(diǎn),提出基于分段數(shù)據(jù)統(tǒng)計(jì)量聚類分析提取基準(zhǔn)點(diǎn)的方法實(shí)現(xiàn)基線漂移消除,所提出的算法主要包含以下步驟:
1) 根據(jù)設(shè)定好的分段的大?。ù翱诖笮。┡c數(shù)據(jù)重疊率(步進(jìn)長度)對心電信號進(jìn)行分段;設(shè)信號總數(shù)據(jù)點(diǎn)為N,分段數(shù)據(jù)的點(diǎn)數(shù)為L,步進(jìn)長度為s(s≤L),則有分段數(shù)n=(N–L)/s(假設(shè)為整除的情況)。
2) 查找各個分段數(shù)據(jù)的中值與中值位置,統(tǒng)計(jì)分段數(shù)據(jù)的方差V,和峭度值K:
式中:L——分段數(shù)據(jù)長度;
——第j分段數(shù)據(jù)均值;
σj——第j分段數(shù)據(jù)標(biāo)準(zhǔn)差。
3) 分別將所有方差和峭度進(jìn)行歸一化處理以使得方差和峭度具有相同的距離觀測測度。
4) 依據(jù)分段數(shù)據(jù)方差和峭度兩個維度進(jìn)行基于DBSCAN的聚類分析。
5) 合拼零點(diǎn)附近的幾個分類(如果有多個分類),標(biāo)記對應(yīng)中值和中值位置為可用,標(biāo)記其他分類和未分類的中值數(shù)據(jù)為不可用。
6) 擬合可用的中值和中值位置得到信號的基線漂移。
算法流程如圖4所示。
圖4 算法流程圖
在數(shù)據(jù)分段過程前,需要確定分段窗口大小和步進(jìn)長度兩個超參數(shù)。分段數(shù)據(jù)的窗口大小直接影響著分段的數(shù)量以及提取的基線漂移的精細(xì)程度。分段數(shù)據(jù)重疊率的設(shè)置可以使得結(jié)果更加具有連續(xù)性,而如果重疊率過高則相當(dāng)于移動中值濾波器。分段窗口大小,步進(jìn)長度的設(shè)置與測試數(shù)據(jù)的成分結(jié)構(gòu)有關(guān),涉及數(shù)據(jù)的采樣頻率、主頻(心率)和初始采集相位等因素。為了獲取最優(yōu)的分段大小和步進(jìn)長度,可以采用已知數(shù)據(jù)窮舉法進(jìn)行實(shí)驗(yàn)。圖5是在固定的采樣頻率(fs=360 Hz)且無分段數(shù)據(jù)重疊的前提下,心率、最優(yōu)分段塊長度之間的關(guān)系。
圖5 心率與最優(yōu)分塊大小之間的關(guān)系
常用評價基線消除方法性能的參數(shù)有均方根誤差(RMSE)、相關(guān)系數(shù)(COR)和信噪比(SNR)等。對于性能評估,RMSE值越小越好,COR和SNR越大越好。它們的計(jì)算式分別為:
式中:x——原始信號;
x′——處理后的信號;
Ps——信號的有效功率;
Pn——噪聲的有效功率。
為了便于對消除方法進(jìn)行分析與評估,以下將用模擬的心電信號和已知的基線漂移信號作為信號數(shù)據(jù)輸入。模擬的心電信號波形如圖1所示,將信號進(jìn)行擴(kuò)展,長度為10 000數(shù)據(jù)點(diǎn),采樣頻率為360 Hz,信號峰值為2.0 mV,心率為60 bpm,見圖6中的ECG信號。模擬的基線漂移信號由兩個幅值為0.2 mV,頻率分別為0.06 Hz和0.025 Hz的正弦信號相加組成,見圖6中的BW信號。
圖6 仿真待處理數(shù)據(jù)
為模擬實(shí)際測量時噪聲干擾的情況,添加峰峰值為0.15 mV的高斯隨機(jī)干擾,從而得到待處理的心電信號如圖6中的ECG2P所示。
根據(jù)前述關(guān)于超參數(shù)的選擇,選取了數(shù)據(jù)分塊大小為160,步進(jìn)長度為120。對數(shù)據(jù)進(jìn)行分段后并查找各個數(shù)據(jù)段的中值得到中值數(shù)據(jù)如圖7所示。
圖7 仿真數(shù)據(jù)分段數(shù)據(jù)統(tǒng)計(jì)量
方差與峭度具有不同的示值范圍,由于在后續(xù)基于密度的聚類分析中需要考慮分段數(shù)據(jù)統(tǒng)計(jì)量之間的距離測度,為了使得聚類分析時方差與峭度具有相同的權(quán)重,需要將所有數(shù)據(jù)段的方差和峭度進(jìn)行歸一化。歸一化時可以將最大的方差和峭度作為1進(jìn)行線性比例轉(zhuǎn)化。即:
在聚類時,選用的算法是DBSCAN。在本文中,由于兩個觀測度已經(jīng)進(jìn)行了歸一化處理,半徑可以選用整個量值范圍的1/20~1/10之間,最小集數(shù)可以選4~10之間,不同的半徑和最小集數(shù)會得到不同的聚類結(jié)果。圖8中是選用半徑為0.05,最小集數(shù)為5時對仿真數(shù)據(jù)歸一化方差與峭度聚類的結(jié)果。從中得到了3個分類,數(shù)據(jù)點(diǎn)相對集中沒有出現(xiàn)獨(dú)立的(未分類)數(shù)據(jù)點(diǎn),由于仿真數(shù)據(jù)基線與噪聲都是理想化的,所以每個分類都相對稠密。能代表基線成分的數(shù)據(jù)段應(yīng)具有較小的方差和峭度,因而可以選用圖中分類1和分類3所對應(yīng)的數(shù)據(jù)段,舍棄分類2所對應(yīng)的數(shù)據(jù)段。
圖8 仿真分段數(shù)據(jù)方差-峭度聚類結(jié)果
選用分類1和分類3所對應(yīng)數(shù)據(jù)段的中值進(jìn)行樣條曲線擬合即可得到信號中所含的基線漂移成分,結(jié)果如圖9所示。
圖9 仿真分段數(shù)據(jù)中值與基線漂移
為量化分析處理的效果,采用RMSE、COR和SNR三個評測參數(shù)對消除結(jié)果進(jìn)行分析,并與常用基線漂移方法對同一數(shù)據(jù)進(jìn)行對比分析。選用比較的方法為移動中值濾波,數(shù)學(xué)形態(tài)學(xué)濾波,小波濾波和經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)濾波。其中移動中值濾波選用窗口大小為160數(shù)據(jù)點(diǎn)(最優(yōu)),步進(jìn)長度為1數(shù)據(jù)點(diǎn),中值濾波后通過0.5 Hz的低通濾波器;數(shù)學(xué)形態(tài)學(xué)濾波選用直線型結(jié)構(gòu)元素,長度為55數(shù)據(jù)點(diǎn)(最優(yōu)),數(shù)據(jù)分別經(jīng)過開運(yùn)算和閉運(yùn)算后求和再通過0.5 Hz的低通濾波器得到平滑曲線;小波濾波采用離散Meyer小波對待處理數(shù)據(jù)進(jìn)行8級(最優(yōu))分解,再重構(gòu)逼近信息得到基線;經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)濾波采用基于CEEMDAN的濾波算法[2]得到。不同算法提取的基線漂移如圖10所示。
圖10 不同方法提取的基線漂移
圖10 中本文方法、移動中值濾波、形態(tài)學(xué)濾波提取的基線漂移基本貼合目標(biāo)曲線。而小波濾波和EMD濾波提取的基線漂移位于目標(biāo)曲線上方,有基本固定的誤差。不同方法在去除基線漂移效果評估參數(shù)詳見表2。
表2 不同方法去除基線漂移效果參數(shù)
從評估參數(shù)RMSE可以看出,本文方法、移動中值濾波和形態(tài)學(xué)濾波三種方法提取的基線漂移與目標(biāo)曲線相差很小,而小波濾波和EMD濾波相對較大,本文方法的均方誤差最小,僅約為次好的中值濾波的31.5%。從COR參數(shù)上看,5種方法的消除基線漂移后的信號與原信號都具有非常高的相關(guān)系數(shù)。而從信噪比上看,小波濾波和EMD濾波表現(xiàn)比較差,本文的方法比其他最高的移動中值濾波高出約10 dB。在所有參數(shù)比較中,本文所提出方法的性能均優(yōu)于其他4種方法。
為了驗(yàn)證基線漂移消除方法在實(shí)測信號的處理效果,選用了MIT-BIH數(shù)據(jù)中標(biāo)記為117的這組數(shù)據(jù)進(jìn)行分析。這組數(shù)據(jù)采樣頻率為360 Hz,心率約為50 bpm,數(shù)據(jù)中具有明顯的基線漂移和隨機(jī)干擾,數(shù)據(jù)的時域波形如圖11所示。
圖11 心電數(shù)據(jù)曲線MIT/BIH-117
根據(jù)數(shù)據(jù)的信息,處理的方法和仿真信號一樣,分段窗口大小選用190,步進(jìn)長度150。經(jīng)過分段并統(tǒng)計(jì)得到各段的中值、方差、峭度如圖12所示。
圖12 分段數(shù)據(jù)統(tǒng)計(jì)量
實(shí)測分段數(shù)據(jù)的中值相比仿真數(shù)據(jù)沒有明顯基線漂移的曲線,而只是基線得基本走勢。方差與峭度也相對分散。經(jīng)歸一化處理后,按方差和峭度兩個觀測維度進(jìn)行DBSCAN聚類分析得到各個數(shù)據(jù)段分布如圖13所示。
圖13 實(shí)測數(shù)據(jù)方差-峭度聚類結(jié)果
聚類結(jié)果得到了4個分類和部分未分類的數(shù)據(jù)點(diǎn)。根據(jù)基線漂移的統(tǒng)計(jì)特征,選用分類1為可用的分段,未分類數(shù)據(jù)點(diǎn)和其他分類數(shù)據(jù)舍棄。采用樣條曲線擬合可用的分類所對應(yīng)的中值數(shù)據(jù)和中值位置即得到基線漂移成分。提取的基線漂移結(jié)果如圖14所示。
圖14 實(shí)測數(shù)據(jù)分段中值與基線漂移
將原信號減去所提取的基線漂移信號,即可得到處理結(jié)果,如圖15所示。由于實(shí)測信號無法量化去除基線漂移效果,只能從視覺感官上進(jìn)行判別和評價。從圖中所示,通過所提出的方法處理后得到的數(shù)據(jù),基本消除了基線漂移。
圖15 消除基線漂移后的MIT/BIH-117數(shù)據(jù)
在實(shí)測信號分析處理過程中,由于其他干擾噪聲的存在會在一定程度上影響信號基線漂移消除的效果,圖16顯示了不同消除方法在實(shí)測數(shù)據(jù)上處理結(jié)果的差異。本文方法能更好地貼近信號所包含的基線漂移,其他方法則會由于純凈心電信號相對基線漂移的單向性而浮在目標(biāo)基線的上方。
圖16 不同方法提取MIT/BIH-117基線漂移的結(jié)果
本文針對曲線擬合消除心電信號基線漂移方法中存在的提取擬合點(diǎn)困難的問題,提出了基于分段數(shù)據(jù)統(tǒng)計(jì)量聚類分析的方法來提取擬合點(diǎn)。文中通過一組仿真數(shù)據(jù)和一組實(shí)測數(shù)據(jù)對該方法進(jìn)行了驗(yàn)證,從定量和定性兩個方式驗(yàn)證方法的有效性和優(yōu)越性。經(jīng)數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證,本文的方法較于常用方法具有明顯優(yōu)勢,降低了均方根誤差,減少信號的波形失真,提高了相關(guān)性和信噪比,從而得到純凈的心電信號,為后續(xù)分析、識別和診斷奠定了基礎(chǔ),保證信號數(shù)據(jù)的真實(shí)性。該方法中除了需要設(shè)置分段大小和步進(jìn)大小,還需要設(shè)置聚類分析的半徑和最小集合數(shù),這些參數(shù)的設(shè)定需要了解待處理心電信號的采樣頻率,心率以及信號數(shù)據(jù)長度的大小,以便選擇最優(yōu)數(shù)值。該方法適用于原信號中存在只包含基線漂移或零點(diǎn)的時段,這些時段期間信號變化緩慢,被測對象未受到外界的作用力或者內(nèi)部作用力相互抵消的情況,如心電信號,脈搏信號,輪軌力信號等。