劉偉偉,桑勝波,張宏鵬
(1.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600;2.中國(guó)人民解放軍總醫(yī)院第一醫(yī)學(xué)中心心血管外科,北京 100000)
心腦血管疾病已成為導(dǎo)致死亡的主要原因之一,并經(jīng)常導(dǎo)致其他病癥的發(fā)生,如中風(fēng)、高血壓、心力衰竭和心律失常等[1-2],而心音包含著大量的心臟生理病理信息,如何更好地構(gòu)建心音分類(lèi)模型,對(duì)于心臟疾病的預(yù)防和前期診斷具有重要作用[3],目前深度學(xué)習(xí)在心音分類(lèi)算法方面研究廣泛[4],常見(jiàn)的處理步驟包括以下幾步:心音分割、特征提取、模型搭建與訓(xùn)練[5],但研究思路各有不同,有采用端到端模型完成特征自提取和分類(lèi)過(guò)程的[6],也有手動(dòng)提取特征后將其作為輸入,傳送到搭建好的分類(lèi)器,還有一些則在特征提取中僅某一部分使用深度學(xué)習(xí)模型來(lái)進(jìn)行局部學(xué)習(xí)。這些模型各有千秋,但如何提高模型分類(lèi)性能全依靠個(gè)人經(jīng)驗(yàn)。該文預(yù)處理步驟中做了適當(dāng)修改,提出了一種具有更高分類(lèi)精確度的模型,為后續(xù)模型的進(jìn)一步改進(jìn)提供了方向。
前人在處理心臟音頻時(shí),將一維時(shí)序的心臟音頻通過(guò)時(shí)頻域轉(zhuǎn)化的方法映射到二維圖像進(jìn)行處理,然后利用典型的CNN 模型處理得到的時(shí)頻圖及其各種變形,但在這一過(guò)程中,對(duì)于一維的音頻序列,認(rèn)為其丟失了一部分時(shí)間序列信息,為了進(jìn)一步驗(yàn)證該想法的正確性,文中研究了前人的多種CNN深度模型,最終發(fā)現(xiàn)CNN 模型在準(zhǔn)確率達(dá)到93%附近時(shí)遇到瓶頸,一方面是由于數(shù)據(jù)集樣本較少導(dǎo)致無(wú)法使用規(guī)模參數(shù)更大的模型,另一部方面也是由于CNN 模型可能忽略了一部分時(shí)間序列信息,為此文中嘗試從第二點(diǎn)出發(fā),將CNN 模型與LSTM 模型相結(jié)合,提出一種改進(jìn)的心音分類(lèi)模型,另外,該研究也在處理流程中以及特征提取階段做了一些優(yōu)化與改進(jìn)。
模型訓(xùn)練使用的數(shù)據(jù)集源于2016 年挑戰(zhàn)賽,樣本按照正常、異常、不確定分為3 類(lèi),該文實(shí)驗(yàn)中均采用周期為4 s 的心音,并剔除掉部分背景嘈雜的正常心音,對(duì)異常心音進(jìn)行分割,最終使訓(xùn)練樣本數(shù)據(jù)集保持正負(fù)比例平衡,其中正常數(shù)據(jù)數(shù)量為2 326,異常數(shù)據(jù)數(shù)量為1 357。
文中所有的實(shí)驗(yàn)均在Google 的Colab 開(kāi)發(fā)平臺(tái)進(jìn)行,顯卡是NVIDIA 的TeslaT4,深度學(xué)習(xí)開(kāi)發(fā)框架為tensorflow2.3。
使用準(zhǔn)確率(Accuracy)、敏感度(Sensitive)、特異性(Specificity)來(lái)衡量模型效果。
傳統(tǒng)的處理步驟有心音去噪、分割、特征提取、模型分類(lèi)[7],但在比較前人模型時(shí)無(wú)論使用何種結(jié)構(gòu)的模型,最終的分類(lèi)度都會(huì)遇到瓶頸,故而該研究在前期處理流程中做了適當(dāng)優(yōu)化,經(jīng)過(guò)多處探究[8],該文在前期處理流程中的優(yōu)化點(diǎn)有如下兩部分:1)分割步驟結(jié)束后增加了一步歸一化處理;2)特征提取階段使用二階譜分析法。
歸一化處理步驟如圖1 所示,分割處理完成后采用分割模型[9]預(yù)估所處理的心音周期,將各段音頻壓縮后與相應(yīng)的周期對(duì)齊,此處選擇固定的心音基周期為0.8 s,然后根據(jù)分割模型所判斷的音頻周期,利用式(1)進(jìn)行處理,其中,f代表壓縮的倍數(shù),這樣就將心音歸一化到同一尺度下進(jìn)行判別。
圖1 歸一化處理步驟圖
相較之前的研究,該文既沒(méi)有使用傳統(tǒng)的音頻特征MFCC 等作為輸入[10],又沒(méi)有采用模型自提取的方式提取特征,前者是基于前期采用其他模型分析進(jìn)行實(shí)驗(yàn)時(shí),CNN 模型存在一個(gè)分類(lèi)的上限,這與模型的性能無(wú)關(guān),是特征提取層面丟失了一部分信息;后者主要考慮到在特征提取階段,使用的樣本數(shù)量較少,模型容易過(guò)擬合,使得模型在實(shí)際中表現(xiàn)不佳,綜合以上兩點(diǎn)首先對(duì)音頻采用了二階譜分析法,二階譜分析提取出的特征明顯優(yōu)于短時(shí)傅里葉變換、小波變換等低階特征提取方法的結(jié)果,二階譜分析可以很好地抑制信號(hào)中的相位關(guān)系,檢測(cè)與量化非高斯信號(hào)的相位耦合[11],具體如式(2)、(3)所示:
對(duì)一段心音用二階譜分析后得到了一個(gè)二維矩陣,為了方便觀察,根據(jù)該矩陣分別繪制了其等高線圖和熱力圖,如圖2 所示,可以看出不同類(lèi)別的心音信號(hào)的二階譜圖差異較大,從而也驗(yàn)證了這是一種行之有效的特征提取方法。
圖2 二階譜分析等高線圖和熱力圖
研究初步確定了CNN+LSTM 的實(shí)驗(yàn)?zāi)P?,但兩者如何進(jìn)行搭建需要進(jìn)一步研究,初步確定了圖3中的幾種模型結(jié)構(gòu)。
圖3 預(yù)采用模型
經(jīng)測(cè)試,圖3 中模型②表現(xiàn)最佳,模型①相較模型②,最終效果差別不大,為了更好地組織其他結(jié)構(gòu),選擇模型②,模型③和模型④的計(jì)算量過(guò)大,模型⑤性能表現(xiàn)不佳,所以后續(xù)模型在模型②的基礎(chǔ)上進(jìn)行優(yōu)化和改進(jìn)。
為了進(jìn)一步提高模型性能,針對(duì)可能影響模型性能的主要參數(shù)做了如下兩個(gè)實(shí)驗(yàn):CNN 卷積核大小和層數(shù)對(duì)模型性能的影響實(shí)驗(yàn),LSTM 不同結(jié)構(gòu)對(duì)模型的影響實(shí)驗(yàn),結(jié)果如圖4、5 所示。
圖4 CNN卷積核大小和層數(shù)對(duì)模型的影響
該實(shí)驗(yàn)是選擇3.1 中最好的基準(zhǔn)模型②進(jìn)行的,動(dòng)態(tài)調(diào)整卷積核大小以及卷積層數(shù),最終得出卷積層數(shù)越多,也即選擇的卷積核大小相對(duì)較小的情況下,模型表現(xiàn)并非與上述因素成正相關(guān),卷積層數(shù)超過(guò)3 層時(shí),模型性能迅速提升,當(dāng)卷積層數(shù)為4~7 層時(shí),即卷積核大小在[2~4,3~6]范圍內(nèi),模型整體性能較優(yōu),之前的研究指出,卷積核越大,感受野越大,能看到的圖片信息越多,獲取到的特征也越多。但該模型中的時(shí)頻圖譜本身已經(jīng)是提取出的特征圖,較小的卷積核就可以有很大的感受野,所以上述實(shí)驗(yàn)中提出的卷積核大小適合該研究中的模型。
另外改變了LSTM 模型中的結(jié)構(gòu),看其是否對(duì)模型表現(xiàn)有一定影響,圖5 中的1、2、3、4、5、6 分別代表LSTM 模型中的單層單向、單層雙向、雙層單向、雙層雙向、三層單向、三層雙向,可以看出LSTM 模型為單層單向和單層雙向時(shí)模型整體效果最好,而隨著模型層數(shù)的增多,模型的準(zhǔn)確率反而波動(dòng)更大且略有下降,主要是這種情況下模型訓(xùn)練參數(shù)大幅提升,而訓(xùn)練數(shù)據(jù)量則相對(duì)短缺,模型極易過(guò)擬合。
圖5 LSTM不同結(jié)構(gòu)對(duì)模型的影響
從中也可看出LSTM 模型本身作為序列模型對(duì)序列心音信號(hào)的不可或缺性,LSTM 是完全以序列的角度搭建的模型,心音在時(shí)間段前后的依賴(lài)性可以被模型很好地捕捉到,而CNN 模型最大的特點(diǎn)是權(quán)值共享,局部連接[12],這對(duì)于典型的圖片領(lǐng)域非常有效,在此處,二維時(shí)頻圖是通過(guò)一維的音頻序列轉(zhuǎn)化生成的,并非典型的圖片形式,之所以模型依舊能呈現(xiàn)一定的效果是因?yàn)樵谵D(zhuǎn)化過(guò)程中一些邊緣特征反而被凸顯了出來(lái),對(duì)于CNN淺層的特征圖可以很敏銳地捕捉到這些信息,但同時(shí)也丟失了部分位置信息,而這一點(diǎn)恰好是LSTM模型所擅長(zhǎng)的[13],故而在同等的前提條件下表現(xiàn)更好,這也為后續(xù)的研究提供了支撐,即模型的結(jié)構(gòu)設(shè)計(jì)以及改進(jìn)需要與所研究的對(duì)象結(jié)合起來(lái)考慮,適合研究對(duì)象的模型能夠取得更好的表現(xiàn)結(jié)果。
模型結(jié)構(gòu)如圖6 所示,使用自提取特征作為特征輸入,然后采用一層LSTM 結(jié)構(gòu)提取心音特征的時(shí)序信息,后接了一層Attention 機(jī)制[9],使模型能夠更多關(guān)注S1、S2 以及S3、S4 處的心音信息,之后連接了5 層卷積層對(duì)特征圖做數(shù)據(jù)量壓縮,最后連接4 層全連接層作為分類(lèi)器,所有層中的激活函數(shù)均采用ReLU 函數(shù),優(yōu)化器選擇Adam 函數(shù),在卷積層后適當(dāng)增加了部分最大池化層和Dropout 正則化。
圖6 模型結(jié)構(gòu)
訓(xùn)練結(jié)果如圖7 所示,訓(xùn)練中的數(shù)據(jù)迭代了100次,在接近50 次時(shí)模型已經(jīng)逐漸達(dá)到最優(yōu)性能,最終模型的準(zhǔn)確率在95%~96%附近擺動(dòng)。
圖7 訓(xùn)練結(jié)果
與文獻(xiàn)[9]和文獻(xiàn)[10]中的模型作對(duì)比,實(shí)驗(yàn)結(jié)果如表1 所示,可以明顯得出,該研究所采用的CNN+LSTM 結(jié)合的分類(lèi)模型表現(xiàn)好于CNN 和LSTM 模型至少5%以上。
表1 實(shí)驗(yàn)結(jié)果
該模型充分結(jié)合了CNN 模型能有效提取圖像的空間特性[12]和LSTM 模型可以提取時(shí)間特性的優(yōu)點(diǎn),保留了音頻序列的時(shí)間維度特征。
為了進(jìn)一步驗(yàn)證模型的效果,同中國(guó)人民解放軍總醫(yī)院合作采集了800 人的心音數(shù)據(jù),其中正常心音400 例,異常心音400 例,采用十倍交叉驗(yàn)證,得到模型的表現(xiàn)結(jié)果如圖8 所示。結(jié)果使用混淆矩陣表示,實(shí)際結(jié)果為正常心音的預(yù)測(cè)準(zhǔn)確率是96%,實(shí)際結(jié)果為異常心音的預(yù)測(cè)準(zhǔn)確率是94%,樣本總體準(zhǔn)確率達(dá)到95%??梢钥闯雠c之前訓(xùn)練結(jié)果中的95.3%接近,也驗(yàn)證了該模型在實(shí)際使用中的平穩(wěn)性。
圖8 實(shí)際測(cè)試結(jié)果
實(shí)驗(yàn)方案的優(yōu)化點(diǎn)集中在以下3 點(diǎn):1)在前期處理流程中,在心音分割這一步后增加了歸一化處理,使不同心音周期的信號(hào)更方便地集中在同一尺度下進(jìn)行比較;2)在特征提取階段,使用了二階譜分析方法進(jìn)行處理,相較于前人的低階譜分析,保留了音頻中的更多信息;3)在模型構(gòu)建階段,該文結(jié)合了CNN 模型能有效提取圖像的空間特性[14]和LSTM 模型可以提取時(shí)間特性的優(yōu)點(diǎn),充分保留音頻序列的時(shí)間維度特征。該模型的性能相較前文的研究有了大幅度提升,準(zhǔn)確率達(dá)到95.3%,在實(shí)際測(cè)試中也表現(xiàn)出了良好的可用性。但仍需進(jìn)行進(jìn)一步研究,有以下兩點(diǎn):1)進(jìn)一步提高模型的性能;2)對(duì)模型表現(xiàn)為什么優(yōu)秀作更多解釋[15-18],提高模型的置信度。