国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的心電圖診斷研究

2020-09-08 08:12王官軍吳婷汪龍唐祖勝
實(shí)用心電學(xué)雜志 2020年4期
關(guān)鍵詞:心電降維心電圖

王官軍 吳婷 汪龍 唐祖勝

心電圖作為臨床最常用的檢查手段之一,在心肌梗死、心律失常等疾病的診斷中有不可替代的作用。但在臨床應(yīng)用中,心電圖診斷易受判讀醫(yī)師個人經(jīng)驗(yàn)及主觀因素影響而出現(xiàn)差錯,因此,越來越多的研究聚焦于心電圖信號的自動判讀[1-3]。傳統(tǒng)心電圖輔助診斷技術(shù)易受干擾因素影響,存在魯棒性不佳、泛化性能不強(qiáng)的缺點(diǎn),難以適用于臨床[4-5]。近年來,人工智能在醫(yī)療應(yīng)用領(lǐng)域高度滲透[2],在圖像識別、智能診斷等方面取得了可喜的成績[3],而基于人工智能的心電診斷正是今后心電報告的發(fā)展方向[6]。中國優(yōu)質(zhì)醫(yī)療資源過度集中于大中型城市及大型教學(xué)醫(yī)院,偏遠(yuǎn)落后地區(qū)及基層醫(yī)療機(jī)構(gòu)診療水平較低,心電圖判讀準(zhǔn)確性不高一直是亟待解決的問題;同時,醫(yī)院大量心電圖均依靠人工診斷,耗時費(fèi)力,這種落后的心電圖判讀方式制約著中國心電事業(yè)的發(fā)展[7],因此,中國亟須建立人工智能心電診斷系統(tǒng)。

圖1 訓(xùn)練集心電圖可視化Fig.1 Visualization of a case of training set ECG

機(jī)器學(xué)習(xí)是人工智能領(lǐng)域最主要的分支,通過提取數(shù)據(jù)特征進(jìn)行數(shù)學(xué)建模來自動學(xué)習(xí)數(shù)據(jù)的內(nèi)在規(guī)律[8-9]。常見的機(jī)器學(xué)習(xí)模型包括K-近鄰(K-nearest neighbor, KNN)、決策樹、隨機(jī)森林(random forest, RF)、支持向量機(jī)(support vector machine, SVM)、Logistic回歸等[9-10]??焖?、準(zhǔn)確的心電圖輔助診斷技術(shù)成為當(dāng)前醫(yī)療領(lǐng)域研究的熱點(diǎn)[5,11-12]。然而,目前針對心電圖診斷的機(jī)器學(xué)習(xí)算法技術(shù)尚不成熟,自動報告錯漏百出,臨床應(yīng)用存在局限性,很多醫(yī)院不得不關(guān)掉心電圖人工智能輔助診斷系統(tǒng)[7,13-14];此外,目前關(guān)于各種機(jī)器學(xué)習(xí)算法性能對比的研究很少[15-17]。鑒于上述應(yīng)用及研究現(xiàn)狀,本文利用公共數(shù)據(jù)平臺上的大量心電圖記錄,對比4種常見的機(jī)器學(xué)習(xí)分類算法的性能,為進(jìn)一步的算法研究提供理論依據(jù)。

1 研究方法

本文利用公共心電數(shù)據(jù)庫心電圖記錄,進(jìn)行4種常見機(jī)器學(xué)習(xí)分類算法的心電圖診斷研究。對心電信號進(jìn)行預(yù)處理并通過主成分分析(principal component analysis, PCA)降維提取特征,針對4種常見的心電圖診斷,分別采用K-近鄰算法、隨機(jī)森林、Logistic回歸和支持向量機(jī)算法進(jìn)行二分類預(yù)測算法研究,并評估4種算法的預(yù)測表現(xiàn)。利用Python 3.7.4編程,開發(fā)環(huán)境為JupyterLab,并采用Numpy 1.18.1、Pandas 1.0.1及Sklearn 0.22.2包進(jìn)行科學(xué)計(jì)算。

1.1 數(shù)據(jù)獲取

數(shù)據(jù)來源于PTB-XL心電圖數(shù)據(jù)庫。該數(shù)據(jù)庫(https://physionet.org/content/ptb-xl/1.0.1)是國際公認(rèn)的大型心電數(shù)據(jù)庫,且公開免費(fèi),截至2020年7月,共包含21 837條心電圖記錄。每條心電圖記錄包含10 s的心電數(shù)據(jù),采樣率為500 Hz;每條記錄的總樣本點(diǎn)為6萬,均為標(biāo)準(zhǔn)12導(dǎo)聯(lián)心電圖(Ⅰ—Ⅲ、aVR、aVL、aVF、V1—V6),以專有壓縮格式存儲。該數(shù)據(jù)庫2019年發(fā)布時對數(shù)據(jù)進(jìn)行了簡化,提升了機(jī)器學(xué)習(xí)的可訪問性及可用性。

1.2 數(shù)據(jù)預(yù)處理

使用PTB-XL心電圖數(shù)據(jù)庫提供的Python工具提取心電圖數(shù)據(jù),并按照推薦方案劃分訓(xùn)練集(train set)、測試集(test set)。經(jīng)劃分,訓(xùn)練集共有19 634例(89.9%)樣本,測試集有2203例(10.1%)樣本。

1.2.1 缺失值處理 刪除訓(xùn)練集中367例(1.9%)缺少標(biāo)簽的心電圖數(shù)據(jù),共得到19 267例訓(xùn)練樣本;測試集數(shù)據(jù)無缺失值。對1例訓(xùn)練集心電圖進(jìn)行可視化處理,如圖1所示。

1.2.2 心電圖截取 心電圖波形形態(tài)的異常往往體現(xiàn)在每個心電導(dǎo)程中,因此,可以對心電信號進(jìn)行逐導(dǎo)程分割。心電圖截取長度是影響分類結(jié)果的重要因素,截取1 s的心電數(shù)據(jù)基本可包含所有的波形特征[18]。本文以Ⅱ?qū)?lián)R波最高點(diǎn)來確定截取范圍(R波最高點(diǎn)之前150個數(shù)據(jù)點(diǎn),之后350個數(shù)據(jù)點(diǎn)),截取1 s的心電圖片段進(jìn)行分類研究,如圖2所示,圖中加粗部分為下采樣后的心電圖。

1.2.3 去基線 由于基線偏移會對特征值提取造成很大障礙,尤其是在心肌梗死、ST-T改變的預(yù)測中,基線偏移會對模型預(yù)測造成很大干擾,導(dǎo)致特征無法被有效識別,因此,在分析心電圖數(shù)據(jù)前需要通過預(yù)處理消除信號基線。通過采用插值方法,可先在心動周期中找到基線,再用所有數(shù)據(jù)減去基線,即可得到去基線的心電圖數(shù)據(jù)[18-19]。如圖3所示(圖中虛線為基線),本研究的心電數(shù)據(jù)存在明顯的基線漂移。采用PR段作為基線,先取每個導(dǎo)聯(lián)PR段上10個數(shù)據(jù)點(diǎn)的均值作為基線的近似值,然后用所有數(shù)據(jù)減去該近似值,即可得到去基線的心電圖數(shù)據(jù),如圖4所示。

1.2.4 主成分分析降維 心電圖數(shù)據(jù)經(jīng)裁剪,合成一個6000(500×12)維的特征矩陣。由于特征維數(shù)太大,計(jì)算開銷過大,且存在過擬合風(fēng)險,因此需要進(jìn)一步減少特征向量維數(shù),本文采用PCA方法。PCA通過正交線性變換進(jìn)行降維,用方差來衡量信息量,可在顯著降低特征維度的同時,保留絕大部分方差,并在一定程度上降低噪音[20]。訓(xùn)練集特征矩陣經(jīng)PCA降維后,累積可解釋方差貢獻(xiàn)率曲線如圖5所示,圖中n為降維后保留的特征個數(shù)。在保留150個降維后特征的同時,僅損失少量信息(2.82%)。PCA降維前的心電圖如圖6所示。經(jīng)PCA降維后,再將降維后的主成分映射到原特征矩陣所在的特征空間,并進(jìn)行可視化處理(圖7)。對比降維前后的心電圖,發(fā)現(xiàn)降維后的心電圖保留了絕大部分原心電圖特征,僅在少數(shù)細(xì)節(jié)處與原心電圖稍有不同。后續(xù)所有心電圖數(shù)據(jù)均采用PCA方法處理,將特征矩陣降至150維。

圖2 截取1 s心電圖數(shù)據(jù)

圖3 原始心電圖信號

圖4 去基線后的心電圖信號

圖5 累積可解釋方差貢獻(xiàn)率曲線

圖6 主成分分析降維前心電圖

圖7 主成分分析降維后映射到原特征空間的心電圖

1.2.5 樣本不平衡問題處理 近年來,不平衡學(xué)習(xí)問題作為機(jī)器學(xué)習(xí)的研究領(lǐng)域之一得到密切關(guān)注,其本質(zhì)是數(shù)據(jù)分布不均衡,導(dǎo)致很多機(jī)器學(xué)習(xí)分類算法的性能被削弱。機(jī)器學(xué)習(xí)算法在不平衡數(shù)據(jù)集上訓(xùn)練時,傾向于將樣本預(yù)測為多數(shù)類。盡管如此可以得到較高的準(zhǔn)確率,但會導(dǎo)致很低的召回率,從而出現(xiàn)預(yù)測模型無法將正樣本準(zhǔn)確分類的情況,甚至造成預(yù)測模型完全失效。數(shù)據(jù)不平衡問題廣泛存在于機(jī)器學(xué)習(xí)的各個領(lǐng)域。相對于多數(shù)類樣本,少數(shù)類樣本通常攜帶更為重要的信息,具有更高的錯判代價。因此,多數(shù)情況下,我們應(yīng)當(dāng)更加關(guān)注少數(shù)類樣本的分類準(zhǔn)確性。要處理樣本不平衡問題,通常是從數(shù)據(jù)、算法和集成三方面著手。數(shù)據(jù)層面的方法通常為上采樣、下采樣和混合采樣[21-22]。就醫(yī)學(xué)數(shù)據(jù)而言,很多數(shù)據(jù)集都是不平衡樣本,正負(fù)樣本比例差異較大,敏感性、特異性差異較大,導(dǎo)致模型的魯棒性較差,而心電數(shù)據(jù)往往存在樣本數(shù)量不平衡問題[2]。本研究存在樣本不均衡問題,所有分類中正樣本比例均顯著低于負(fù)樣本比例。欠采樣使最終的訓(xùn)練集丟失部分?jǐn)?shù)據(jù);而過采樣會導(dǎo)致一個數(shù)據(jù)點(diǎn)在高維空間中出現(xiàn)多次,增加過擬合風(fēng)險,很多研究通過在過采樣中加入少量隨機(jī)噪聲來減少這類風(fēng)險。本文基于心電圖多導(dǎo)程特點(diǎn),利用過采樣方法采集不同的心電導(dǎo)程,如圖8中加粗部分所示。由于心電采集過程中背景噪音的存在,不會出現(xiàn)完全一致的數(shù)據(jù)點(diǎn),因此避免了上述簡單復(fù)制所帶來的問題。表1為訓(xùn)練集過采樣前后的正樣本比例數(shù)據(jù),經(jīng)過采樣后,訓(xùn)練集正負(fù)樣本比例大致相同。

圖8 利用心電圖多導(dǎo)程特點(diǎn)進(jìn)行過采樣

表1 過采樣前后訓(xùn)練集正樣本比例 n(%)Tab.1 Positive sample ratio of training set beforeand after oversampling

2 結(jié)果

為降低模型預(yù)測的結(jié)構(gòu)風(fēng)險,本研究采用K-折交叉驗(yàn)證方法估計(jì)模型誤差。K-折交叉驗(yàn)證是機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用最多的泛化誤差估計(jì)方法。它通過將訓(xùn)練集等分為K份,依次使用其中的K-1份數(shù)據(jù)作為訓(xùn)練集訓(xùn)練模型,剩下的數(shù)據(jù)作為驗(yàn)證集測試模型,各得到K個訓(xùn)練集和驗(yàn)證集,將這K個模型的平均誤差作為泛化誤差的估計(jì)[23]。

圖9 4種算法的準(zhǔn)確率對比

本研究采用5-折交叉驗(yàn)證,通過反復(fù)繪制學(xué)習(xí)曲線,不斷優(yōu)化模型超參數(shù),選擇對驗(yàn)證集平均預(yù)測準(zhǔn)確率最高的模型。采用K-近鄰、隨機(jī)森林、Logistic回歸、高斯核函數(shù)支持向量機(jī)這4種經(jīng)典的機(jī)器學(xué)習(xí)算法,分別針對傳導(dǎo)阻滯、心肌梗死、ST-改變和心肌肥厚進(jìn)行二分類預(yù)測;通過對比測試集的模型預(yù)測準(zhǔn)確率、召回率和精準(zhǔn)率,評價模型的優(yōu)劣。不同算法針對測試集的預(yù)測準(zhǔn)確率、召回率和精準(zhǔn)率分別如圖9—圖11所示。針對傳導(dǎo)阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,支持向量機(jī)算法預(yù)測的準(zhǔn)確率分別為84.8%、81.3%、82.0%和88.1%;召回率分別為55.0%、52.6%、62.9%和39.1%;精準(zhǔn)率分別為69.8%、65.3%、64.1%和49.6%。支持向量機(jī)算法預(yù)測的準(zhǔn)確率、召回率明顯高于其他3種算法;其精準(zhǔn)率與K-近鄰算法相當(dāng),均明顯高于其他兩種算法。綜合來看,以預(yù)測準(zhǔn)確率、召回率及精準(zhǔn)率來評估模型優(yōu)劣,支持向量機(jī)對上述4種常見心電圖分類的預(yù)測表現(xiàn)總體上優(yōu)于其他3種算法。

圖10 4種算法的召回率對比

圖11 4種算法的精準(zhǔn)率對比

為了進(jìn)一步評價模型優(yōu)度,選取不同的判定閾值,得到不同的假陽性率(false positive rate,F(xiàn)PR)、真陽性率(true positive rate,TPR),再以FPR為x軸、TPR為y軸,繪制不同算法針對不同心電圖診斷的工作者特征(receiver operating characteristic,ROC)曲線,并計(jì)算曲線下面積(area under curve, AUC)。由FPR和TPR的定義可知,曲線越靠近左上,AUC值越大,模型預(yù)測效果越好[19]。上述4種算法針對不同心電圖分類的ROC曲線對比如圖12—圖15所示。由圖12—圖15可見,支持向量機(jī)算法的ROC曲線在4種心電圖類別上均最靠近左上角,且AUC值均高于其他3種算法,因此,支持向量機(jī)算法在ROC曲線評價指標(biāo)上優(yōu)于其他3種算法。

圖12 4種算法針對傳導(dǎo)阻滯的ROC曲線對比

圖13 4種算法針對心肌梗死的ROC曲線對比

圖14 4種算法針對ST-T改變的ROC曲線對比

圖15 4種算法針對心肌肥厚的ROC曲線對比

綜合預(yù)測準(zhǔn)確率、召回率、精準(zhǔn)率,以及ROC曲線模型評價指標(biāo)來看,支持向量機(jī)在模型預(yù)測中的表現(xiàn)優(yōu)于其他3種算法。需要注意的是,盡管支持向量機(jī)算法的預(yù)測準(zhǔn)確率較高,但召回率、精準(zhǔn)率尚達(dá)不到臨床應(yīng)用的要求,導(dǎo)致模型預(yù)測敏感性低、錯判風(fēng)險高,有待通過進(jìn)一步研究改進(jìn)模型,提升模型的預(yù)測表現(xiàn),從而更好地服務(wù)于臨床。

3 討論

本研究利用PTB-XL公共心電數(shù)據(jù)庫的21 837條心電圖記錄,進(jìn)行4種常見機(jī)器學(xué)習(xí)分類算法的心電圖診斷對比研究。首先,對心電信號進(jìn)行缺失值刪除、裁剪、去基線等預(yù)處理;然后,通過PCA降維提取特征,針對傳導(dǎo)阻滯、心肌梗死、ST-T改變、心肌肥厚這4類心電圖,分別采用K-近鄰算法、隨機(jī)森林、Logistic回歸和支持向量機(jī)算法進(jìn)行二分類預(yù)測算法研究。具體步驟如下:先通過PTB-XL數(shù)據(jù)庫推薦的方法劃分訓(xùn)練集、測試集,選擇5-折交叉驗(yàn)證方法,運(yùn)用上述4種分類算法,利用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型并不斷優(yōu)化模型參數(shù),再用測試集來進(jìn)行模型優(yōu)度評價。研究結(jié)果表明:綜合預(yù)測準(zhǔn)確率、召回率、精準(zhǔn)率,以及ROC曲線模型評價指標(biāo)來看,支持向量機(jī)在模型預(yù)測中的表現(xiàn)優(yōu)于其他3種算法。

但是,本研究仍然存在局限性。雖然支持向量機(jī)算法在上述4種常見心電圖分類診斷中有較高的準(zhǔn)確率,但因召回率不高導(dǎo)致診斷敏感性較低,因精準(zhǔn)率不高造成錯判風(fēng)險較大,因此,該算法尚不能直接應(yīng)用于臨床診斷。鑒于此,我們需要預(yù)測精度更高的模型。在下一步研究中,可通過以下3種方法提升模型的預(yù)測表現(xiàn),① 擴(kuò)大樣本量:目前,中國各大醫(yī)院逐步實(shí)現(xiàn)了心電圖等醫(yī)療信息的電子化,心電圖獲取成本降低,使獲得海量心電圖成為可能。利用海量心電圖訓(xùn)練模型可避免過擬合,從而得到魯棒性及泛化性能更佳的預(yù)測模型。② 改進(jìn)數(shù)據(jù)預(yù)處理方式:心電信號的預(yù)處理直接影響到模型的預(yù)測表現(xiàn),也是極為重要的環(huán)節(jié)。研究表明,小波變換在心電圖預(yù)處理中有極其重要的地位,其可以有效濾過基線漂移、工頻干擾、肌電干擾等噪聲,顯著提升模型的預(yù)測表現(xiàn)。③ 深度學(xué)習(xí)算法:在圖像識別領(lǐng)域,深度學(xué)習(xí)算法往往優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)算法。近年來,深度學(xué)習(xí)運(yùn)用于心電圖診斷的研究越來越多。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)是深度學(xué)習(xí)的一種經(jīng)典算法。CNN采用不同的卷積核提取不同心電圖的特征,通過池化層下采樣降低特征維度,并可以通過加大卷積層的深度來提取深層次特征,再將池化層降維后的特征接入全連接層,最終通過Softmax層輸出二分類結(jié)果的概率分布。CNN有平移不變性等優(yōu)良特性,能夠直接處理原始信號,其魯棒性、泛化性能更好。

猜你喜歡
心電降維心電圖
混動成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
動態(tài)心電圖與常規(guī)心電圖診斷冠心病的應(yīng)用
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用
心電向量圖診斷高血壓病左心室異常的臨床應(yīng)用
心電圖機(jī)檢定方法分析及簡化
《思考心電圖之176》
《思考心電圖之174》
大氣腐蝕數(shù)據(jù)降維最優(yōu)維度研究
降維打擊
基于非接觸式電極的心電監(jiān)測系統(tǒng)