基于CNN+LSTM 的改進(jìn)心音分類(lèi)模型研究

2022-01-25 10:25劉偉偉桑勝波張宏鵬

電子設(shè)計(jì)工程 2022年2期

劉偉偉，桑勝波，張宏鵬

（1.太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院，山西晉中 030600；2.中國(guó)人民解放軍總醫(yī)院第一醫(yī)學(xué)中心心血管外科，北京 100000）

心腦血管疾病已成為導(dǎo)致死亡的主要原因之一，并經(jīng)常導(dǎo)致其他病癥的發(fā)生，如中風(fēng)、高血壓、心力衰竭和心律失常等[1-2]，而心音包含著大量的心臟生理病理信息，如何更好地構(gòu)建心音分類(lèi)模型，對(duì)于心臟疾病的預(yù)防和前期診斷具有重要作用[3]，目前深度學(xué)習(xí)在心音分類(lèi)算法方面研究廣泛[4]，常見(jiàn)的處理步驟包括以下幾步：心音分割、特征提取、模型搭建與訓(xùn)練[5]，但研究思路各有不同，有采用端到端模型完成特征自提取和分類(lèi)過(guò)程的[6]，也有手動(dòng)提取特征后將其作為輸入，傳送到搭建好的分類(lèi)器，還有一些則在特征提取中僅某一部分使用深度學(xué)習(xí)模型來(lái)進(jìn)行局部學(xué)習(xí)。這些模型各有千秋，但如何提高模型分類(lèi)性能全依靠個(gè)人經(jīng)驗(yàn)。該文預(yù)處理步驟中做了適當(dāng)修改，提出了一種具有更高分類(lèi)精確度的模型，為后續(xù)模型的進(jìn)一步改進(jìn)提供了方向。

前人在處理心臟音頻時(shí)，將一維時(shí)序的心臟音頻通過(guò)時(shí)頻域轉(zhuǎn)化的方法映射到二維圖像進(jìn)行處理，然后利用典型的CNN 模型處理得到的時(shí)頻圖及其各種變形，但在這一過(guò)程中，對(duì)于一維的音頻序列，認(rèn)為其丟失了一部分時(shí)間序列信息，為了進(jìn)一步驗(yàn)證該想法的正確性，文中研究了前人的多種CNN深度模型，最終發(fā)現(xiàn)CNN 模型在準(zhǔn)確率達(dá)到93%附近時(shí)遇到瓶頸，一方面是由于數(shù)據(jù)集樣本較少導(dǎo)致無(wú)法使用規(guī)模參數(shù)更大的模型，另一部方面也是由于CNN 模型可能忽略了一部分時(shí)間序列信息，為此文中嘗試從第二點(diǎn)出發(fā)，將CNN 模型與LSTM 模型相結(jié)合，提出一種改進(jìn)的心音分類(lèi)模型，另外，該研究也在處理流程中以及特征提取階段做了一些優(yōu)化與改進(jìn)。

1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境

1.1 數(shù)據(jù)集及預(yù)處理

模型訓(xùn)練使用的數(shù)據(jù)集源于2016 年挑戰(zhàn)賽，樣本按照正常、異常、不確定分為3 類(lèi)，該文實(shí)驗(yàn)中均采用周期為4 s 的心音，并剔除掉部分背景嘈雜的正常心音，對(duì)異常心音進(jìn)行分割，最終使訓(xùn)練樣本數(shù)據(jù)集保持正負(fù)比例平衡，其中正常數(shù)據(jù)數(shù)量為2 326，異常數(shù)據(jù)數(shù)量為1 357。

1.2 實(shí)驗(yàn)環(huán)境

文中所有的實(shí)驗(yàn)均在Google 的Colab 開(kāi)發(fā)平臺(tái)進(jìn)行，顯卡是NVIDIA 的TeslaT4，深度學(xué)習(xí)開(kāi)發(fā)框架為tensorflow2.3。

1.3 模型評(píng)價(jià)指標(biāo)

使用準(zhǔn)確率(Accuracy)、敏感度(Sensitive)、特異性(Specificity)來(lái)衡量模型效果。

2 處理步驟優(yōu)化

傳統(tǒng)的處理步驟有心音去噪、分割、特征提取、模型分類(lèi)[7]，但在比較前人模型時(shí)無(wú)論使用何種結(jié)構(gòu)的模型，最終的分類(lèi)度都會(huì)遇到瓶頸，故而該研究在前期處理流程中做了適當(dāng)優(yōu)化，經(jīng)過(guò)多處探究[8]，該文在前期處理流程中的優(yōu)化點(diǎn)有如下兩部分：1）分割步驟結(jié)束后增加了一步歸一化處理；2）特征提取階段使用二階譜分析法。

2.1 歸一化處理

歸一化處理步驟如圖1 所示，分割處理完成后采用分割模型[9]預(yù)估所處理的心音周期，將各段音頻壓縮后與相應(yīng)的周期對(duì)齊，此處選擇固定的心音基周期為0.8 s，然后根據(jù)分割模型所判斷的音頻周期，利用式（1）進(jìn)行處理，其中，f代表壓縮的倍數(shù)，這樣就將心音歸一化到同一尺度下進(jìn)行判別。

圖1 歸一化處理步驟圖

2.2 二階譜分析提取特征

相較之前的研究，該文既沒(méi)有使用傳統(tǒng)的音頻特征MFCC 等作為輸入[10]，又沒(méi)有采用模型自提取的方式提取特征，前者是基于前期采用其他模型分析進(jìn)行實(shí)驗(yàn)時(shí)，CNN 模型存在一個(gè)分類(lèi)的上限，這與模型的性能無(wú)關(guān)，是特征提取層面丟失了一部分信息；后者主要考慮到在特征提取階段，使用的樣本數(shù)量較少，模型容易過(guò)擬合，使得模型在實(shí)際中表現(xiàn)不佳，綜合以上兩點(diǎn)首先對(duì)音頻采用了二階譜分析法，二階譜分析提取出的特征明顯優(yōu)于短時(shí)傅里葉變換、小波變換等低階特征提取方法的結(jié)果，二階譜分析可以很好地抑制信號(hào)中的相位關(guān)系，檢測(cè)與量化非高斯信號(hào)的相位耦合[11]，具體如式（2）、（3）所示：

對(duì)一段心音用二階譜分析后得到了一個(gè)二維矩陣，為了方便觀察，根據(jù)該矩陣分別繪制了其等高線圖和熱力圖，如圖2 所示，可以看出不同類(lèi)別的心音信號(hào)的二階譜圖差異較大，從而也驗(yàn)證了這是一種行之有效的特征提取方法。

圖2 二階譜分析等高線圖和熱力圖

3 模型探究

3.1 初始基模型探究

研究初步確定了CNN+LSTM 的實(shí)驗(yàn)?zāi)Ｐ?，但兩者如何進(jìn)行搭建需要進(jìn)一步研究，初步確定了圖3中的幾種模型結(jié)構(gòu)。

圖3 預(yù)采用模型

經(jīng)測(cè)試，圖3 中模型②表現(xiàn)最佳，模型①相較模型②，最終效果差別不大，為了更好地組織其他結(jié)構(gòu)，選擇模型②，模型③和模型④的計(jì)算量過(guò)大，模型⑤性能表現(xiàn)不佳，所以后續(xù)模型在模型②的基礎(chǔ)上進(jìn)行優(yōu)化和改進(jìn)。

3.2 模型參數(shù)優(yōu)化

為了進(jìn)一步提高模型性能，針對(duì)可能影響模型性能的主要參數(shù)做了如下兩個(gè)實(shí)驗(yàn)：CNN 卷積核大小和層數(shù)對(duì)模型性能的影響實(shí)驗(yàn)，LSTM 不同結(jié)構(gòu)對(duì)模型的影響實(shí)驗(yàn)，結(jié)果如圖4、5 所示。

圖4 CNN卷積核大小和層數(shù)對(duì)模型的影響

該實(shí)驗(yàn)是選擇3.1 中最好的基準(zhǔn)模型②進(jìn)行的，動(dòng)態(tài)調(diào)整卷積核大小以及卷積層數(shù)，最終得出卷積層數(shù)越多，也即選擇的卷積核大小相對(duì)較小的情況下，模型表現(xiàn)并非與上述因素成正相關(guān)，卷積層數(shù)超過(guò)3 層時(shí)，模型性能迅速提升，當(dāng)卷積層數(shù)為4～7 層時(shí)，即卷積核大小在[2～4,3～6]范圍內(nèi)，模型整體性能較優(yōu)，之前的研究指出，卷積核越大，感受野越大，能看到的圖片信息越多，獲取到的特征也越多。但該模型中的時(shí)頻圖譜本身已經(jīng)是提取出的特征圖，較小的卷積核就可以有很大的感受野，所以上述實(shí)驗(yàn)中提出的卷積核大小適合該研究中的模型。

另外改變了LSTM 模型中的結(jié)構(gòu)，看其是否對(duì)模型表現(xiàn)有一定影響，圖5 中的1、2、3、4、5、6 分別代表LSTM 模型中的單層單向、單層雙向、雙層單向、雙層雙向、三層單向、三層雙向，可以看出LSTM 模型為單層單向和單層雙向時(shí)模型整體效果最好，而隨著模型層數(shù)的增多，模型的準(zhǔn)確率反而波動(dòng)更大且略有下降，主要是這種情況下模型訓(xùn)練參數(shù)大幅提升，而訓(xùn)練數(shù)據(jù)量則相對(duì)短缺，模型極易過(guò)擬合。

圖5 LSTM不同結(jié)構(gòu)對(duì)模型的影響

從中也可看出LSTM 模型本身作為序列模型對(duì)序列心音信號(hào)的不可或缺性，LSTM 是完全以序列的角度搭建的模型，心音在時(shí)間段前后的依賴(lài)性可以被模型很好地捕捉到，而CNN 模型最大的特點(diǎn)是權(quán)值共享，局部連接[12]，這對(duì)于典型的圖片領(lǐng)域非常有效，在此處，二維時(shí)頻圖是通過(guò)一維的音頻序列轉(zhuǎn)化生成的，并非典型的圖片形式，之所以模型依舊能呈現(xiàn)一定的效果是因?yàn)樵谵D(zhuǎn)化過(guò)程中一些邊緣特征反而被凸顯了出來(lái)，對(duì)于CNN淺層的特征圖可以很敏銳地捕捉到這些信息，但同時(shí)也丟失了部分位置信息，而這一點(diǎn)恰好是LSTM模型所擅長(zhǎng)的[13]，故而在同等的前提條件下表現(xiàn)更好，這也為后續(xù)的研究提供了支撐，即模型的結(jié)構(gòu)設(shè)計(jì)以及改進(jìn)需要與所研究的對(duì)象結(jié)合起來(lái)考慮，適合研究對(duì)象的模型能夠取得更好的表現(xiàn)結(jié)果。

4 C-LNN模型

4.1 模型結(jié)構(gòu)與參數(shù)介紹

模型結(jié)構(gòu)如圖6 所示，使用自提取特征作為特征輸入，然后采用一層LSTM 結(jié)構(gòu)提取心音特征的時(shí)序信息，后接了一層Attention 機(jī)制[9]，使模型能夠更多關(guān)注S1、S2 以及S3、S4 處的心音信息，之后連接了5 層卷積層對(duì)特征圖做數(shù)據(jù)量壓縮，最后連接4 層全連接層作為分類(lèi)器，所有層中的激活函數(shù)均采用ReLU 函數(shù)，優(yōu)化器選擇Adam 函數(shù)，在卷積層后適當(dāng)增加了部分最大池化層和Dropout 正則化。

圖6 模型結(jié)構(gòu)

4.2 實(shí)驗(yàn)結(jié)果

訓(xùn)練結(jié)果如圖7 所示，訓(xùn)練中的數(shù)據(jù)迭代了100次，在接近50 次時(shí)模型已經(jīng)逐漸達(dá)到最優(yōu)性能，最終模型的準(zhǔn)確率在95%～96%附近擺動(dòng)。

圖7 訓(xùn)練結(jié)果

4.3 模型對(duì)比

與文獻(xiàn)[9]和文獻(xiàn)[10]中的模型作對(duì)比，實(shí)驗(yàn)結(jié)果如表1 所示，可以明顯得出，該研究所采用的CNN+LSTM 結(jié)合的分類(lèi)模型表現(xiàn)好于CNN 和LSTM 模型至少5%以上。

表1 實(shí)驗(yàn)結(jié)果

該模型充分結(jié)合了CNN 模型能有效提取圖像的空間特性[12]和LSTM 模型可以提取時(shí)間特性的優(yōu)點(diǎn)，保留了音頻序列的時(shí)間維度特征。

4.4 實(shí)際測(cè)試結(jié)果

為了進(jìn)一步驗(yàn)證模型的效果，同中國(guó)人民解放軍總醫(yī)院合作采集了800 人的心音數(shù)據(jù)，其中正常心音400 例，異常心音400 例，采用十倍交叉驗(yàn)證，得到模型的表現(xiàn)結(jié)果如圖8 所示。結(jié)果使用混淆矩陣表示，實(shí)際結(jié)果為正常心音的預(yù)測(cè)準(zhǔn)確率是96%，實(shí)際結(jié)果為異常心音的預(yù)測(cè)準(zhǔn)確率是94%，樣本總體準(zhǔn)確率達(dá)到95%?？梢钥闯雠c之前訓(xùn)練結(jié)果中的95.3%接近，也驗(yàn)證了該模型在實(shí)際使用中的平穩(wěn)性。

圖8 實(shí)際測(cè)試結(jié)果

5 結(jié)論

實(shí)驗(yàn)方案的優(yōu)化點(diǎn)集中在以下3 點(diǎn)：1）在前期處理流程中，在心音分割這一步后增加了歸一化處理，使不同心音周期的信號(hào)更方便地集中在同一尺度下進(jìn)行比較；2）在特征提取階段，使用了二階譜分析方法進(jìn)行處理，相較于前人的低階譜分析，保留了音頻中的更多信息；3）在模型構(gòu)建階段，該文結(jié)合了CNN 模型能有效提取圖像的空間特性[14]和LSTM 模型可以提取時(shí)間特性的優(yōu)點(diǎn)，充分保留音頻序列的時(shí)間維度特征。該模型的性能相較前文的研究有了大幅度提升，準(zhǔn)確率達(dá)到95.3%，在實(shí)際測(cè)試中也表現(xiàn)出了良好的可用性。但仍需進(jìn)行進(jìn)一步研究，有以下兩點(diǎn)：1）進(jìn)一步提高模型的性能；2）對(duì)模型表現(xiàn)為什么優(yōu)秀作更多解釋[15-18]，提高模型的置信度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡