樊慶玲,楊宏波,郭 濤,張 偉,王威廉**
(1.云南大學(xué) 信息學(xué)院,云南 昆明 650500;2.云南省阜外心血管病醫(yī)院,云南 昆明 650102)
據(jù)2020 年《中國心血管健康與疾病報(bào)告》顯示,近年來中國心血管疾病患病率處于持續(xù)上升階段,2018 年心血管疾病死亡率仍居首位[1].先天性心臟?。–ongenital Heart Disease,CHD)簡稱先心病,是一種嚴(yán)重危害青少年身心健康的心血管疾病,心音的相關(guān)頻譜內(nèi)容是揭示CHD 的有用醫(yī)學(xué)信息,因此研究心音包含的病理信息對于CHD 的早期診斷至關(guān)重要[2].用電子聽診器將心音的振動(dòng)轉(zhuǎn)變?yōu)殡娏鳎?jīng)放大后轉(zhuǎn)化為心音圖(phonocardiogram,PCG)[3],研究心音自動(dòng)分類識(shí)別有助于提高CHD篩查的準(zhǔn)確率和效率,使患兒及早得到醫(yī)療干預(yù),降低其死亡風(fēng)險(xiǎn).
心音分類算法重點(diǎn)在于特征提取和分類器的選擇.目前從時(shí)域、頻域和時(shí)頻域角度提出了多種心音的特征提取方法.時(shí)域主要是提取信號(hào)的包絡(luò),然后根據(jù)包絡(luò)分割定位,提取收縮期與舒張期時(shí)限和短時(shí)平均幅度差等時(shí)域特征[4];頻域主要對信號(hào)進(jìn)行某種變換,描述信號(hào)在頻率方面的特性,頻域圖顯示了一個(gè)頻率范圍每個(gè)給定頻帶的信號(hào)量,如小波變換[5]、傅里葉變換[6]等.無論從時(shí)域還是頻域,提取特征都比較容易且方便進(jìn)行量化分析,但是單獨(dú)的時(shí)域或者頻域特征不能充分反映心音信號(hào)的生理、病理信息,因此大多研究使用時(shí)頻特征[7].由于心音本質(zhì)上與語音信號(hào)相似,都為非線性非平穩(wěn)信號(hào)[8],心音的分析常常借鑒語音處理的方法,語音特征提取方法包括短時(shí)傅里葉變換(Short-Time Fourier Transform,STFT)[9]、梅爾倒譜系數(shù)(Mel-Frequency Cepstrum Coefficient,MFCC)、梅爾頻譜系數(shù)(Mel-Frequency Spectral Coefficient,MFSC)、Bark 倒譜系數(shù)(Bark-Frequency Cepstrum Coefficient,BFCC)、Bark 頻譜系數(shù)(Bark-Frequency Spectral Coefficient,BFSC)等.
Milani 等[10]在150 例心音樣本中分別提取時(shí)域、頻域及時(shí)頻域特征使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)對心音分類,分別得到0.9、0.833、0.933 的準(zhǔn)確率.Chairisni 等[11]使用BFCC 特征和BP 神經(jīng)網(wǎng)絡(luò)對心音進(jìn)行二分類達(dá)到0.791 6 的準(zhǔn)確率.Kui 等[12]首先使用1 800 例心音樣本用動(dòng)態(tài)幀長方法,基于心動(dòng)周期從心音信號(hào)中提取對數(shù)MFSC 特征,然后用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)對MFSC 特征進(jìn)行分類,最后采用多數(shù)投票算法得到最優(yōu)分類結(jié)果,二分類準(zhǔn)確率達(dá)到0.938 9,多分類問題準(zhǔn)確率達(dá)到0.862 5.李偉等[13]未對心音進(jìn)行分割,保留了心音更多的全局信息,準(zhǔn)確率達(dá)到0.857.
以上研究都取得了較好的效果,但其心音樣本的數(shù)量較少或未覆蓋低齡兒童,這些算法的普適性及泛化性有待驗(yàn)證.文獻(xiàn)[11]使用反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,BP 神經(jīng)網(wǎng)絡(luò)存在局部極小化問題且算法收斂速度比較慢.文獻(xiàn)[12]在特征提取前對心動(dòng)周期進(jìn)行分割,由于在噪聲環(huán)境下很難準(zhǔn)確分割出基本心音,給后續(xù)處理帶來誤差,同時(shí)也增大了算法的計(jì)算量.文獻(xiàn)[13]雖保留了更多心音的全局信息,但其僅用CNN 和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)合的網(wǎng)絡(luò)直接對完整心音數(shù)據(jù)提取特征并做分類,準(zhǔn)確率還有待提高.
為簡化心音分類過程,充分挖掘心音信號(hào)所蘊(yùn)含的生理、病理信息,進(jìn)一步提升心音分類的準(zhǔn)確率及算法的普適性,本文提出一種不依賴于去噪和分割的心音自動(dòng)分類新算法:提取基于分?jǐn)?shù)傅里葉變換Bark 域譜系數(shù)(Fractional Fourier Transform-Bark-Frequency Spectral Coefficients,F(xiàn)rFT-BFSC)的心音時(shí)頻特征,同時(shí)在CNN 中引入深度殘差收縮網(wǎng)絡(luò)(Deep Residual Shrinkage Networks,DRSN)即CNN-DRSN 分類模型對特征進(jìn)行驗(yàn)證.該模型通過軟閾值算法自適應(yīng)地保留與當(dāng)前分類任務(wù)相關(guān)的特征信息,簡化算法和計(jì)算量的同時(shí)提高了模型預(yù)測的準(zhǔn)確率及穩(wěn)定性.
1.1 整體框架對PCG 信號(hào)分類識(shí)別的步驟一般包括預(yù)處理、特征提取和分類識(shí)別3 個(gè)部分,而預(yù)處理階段一般是對心音進(jìn)行去噪和分割.為簡化心音分類流程并保留更多的生理信息,本文在不對心音進(jìn)行去噪和分割的情況下,首先隨機(jī)截取2 s 信號(hào)進(jìn)行后續(xù)處理,2 s 中包含1~2 個(gè)完整的心動(dòng)周期;然后提取心音的FrFT-BFSC 特征;最后在CNNDRSN 分類模型中訓(xùn)練和分類識(shí)別.實(shí)驗(yàn)結(jié)果表明該算法能達(dá)到較好的效果,算法框圖如圖1 所示.
圖1 心音分類算法框圖Fig.1 Block diagram of heart sound classification algorithm
1.2 實(shí)驗(yàn)數(shù)據(jù)本文研究所用心音數(shù)據(jù)集由課題組采集構(gòu)建.課題組與云南省阜外心血管病醫(yī)院合作,采集的異常心音樣本來源于云南省阜外心血管病醫(yī)院的臨床患者,正常樣本來源于云南省各地州開展CHD 免費(fèi)篩查救治活動(dòng)時(shí)的兒童.對于數(shù)據(jù)集的心音樣本做以下說明:采集志愿者年齡分布在6 個(gè)月至18 歲;數(shù)據(jù)庫中的所有樣本都經(jīng)心臟病??漆t(yī)生確認(rèn),陽性病例均用超聲心動(dòng)圖確診;心音傳感器使用的是The One 心音傳感器(Thinklabs Medical LLC,美國),其采樣頻率為5 000 Hz,每一例心音樣本采集時(shí)長均為20 s.
心音信號(hào)采集時(shí),需在一個(gè)相對安靜的環(huán)境(可有效減少環(huán)境噪聲);志愿者需平躺且保持胸部裸露(減少傳感器與衣服間的摩擦),將心音傳感器放在臨床心臟聽診的5 個(gè)部位采集信號(hào).實(shí)驗(yàn)選取5 000 例心音樣本,其中正常和異常(CHD)樣本比例為1∶1.5 000 例樣本按照0.65∶0.15∶0.2 的比例劃分為訓(xùn)練集、驗(yàn)證集和測試集.
1.3 特征提取為挖掘更多PCG 的生理信息以獲得最佳分類精度,本文提出一種FrFT-BFSC 特征,其能夠充分提取PCG 的時(shí)頻信息,是BFCC 特征的改進(jìn),特征提取示意圖如圖2 所示.
圖2 特征提取示意圖Fig.2 Schematic of feature extraction
特征提取的具體步驟如下:
步驟1預(yù)加重、分幀和加窗.預(yù)加重處理其實(shí)是將信號(hào)通過一個(gè)高通濾波器,可對因受到環(huán)境影響而抑制的心音信號(hào)高頻分量進(jìn)行補(bǔ)償,使用預(yù)加重高通濾波器H(z),其計(jì)算公式如下:
式中預(yù)加重參數(shù)k取0.973 5,其能夠有效抑制隨機(jī)噪聲,提高輸出信噪比.
選用hamming 窗進(jìn)行分幀加窗,窗長和窗移分別為512 和256 個(gè)采樣點(diǎn),得到38 幀信號(hào).
PCG 的分量按在心動(dòng)周期中出現(xiàn)的順序可依次命名為S1、S2、S3、S4,通常情況下只能聽到S1和S2,S3 和S4 一般聽不到,表1 為心音各分量的持續(xù)時(shí)間[14].由于心音信號(hào)是非平穩(wěn)信號(hào),短時(shí)間內(nèi)可將其視為平穩(wěn)信號(hào),且病理性雜音一般出現(xiàn)在收縮期[15],本文按照0.1 s 對預(yù)加重后的心音信號(hào)進(jìn)行分幀,可最大限度捕獲病理特征.因本文所用心音數(shù)據(jù)的采樣率為5 000 Hz,故每一幀大小應(yīng)為500 點(diǎn),但500 個(gè)點(diǎn)不利于分?jǐn)?shù)傅里葉變換(Fractional Fourier Transform,F(xiàn)rFT)的計(jì)算,因此確定幀長為512 點(diǎn);為增強(qiáng)幀與幀之間的信號(hào)相關(guān)性,將幀移定為幀長的一半,故幀數(shù)為38 幀.
表1 心音分量的持續(xù)時(shí)間Tab.1 Duration time of heart sound component
步驟2計(jì)算FrFT.計(jì)算每幀信號(hào)的FrFT,以便獲取更多的時(shí)頻信息.
FrFT 是傅里葉變換的推廣形式,若將信號(hào)的傅里葉變換看成信號(hào)在時(shí)間軸上逆時(shí)針旋轉(zhuǎn)π/2到頻率軸上,那么FrFT 可看成信號(hào)在時(shí)間軸上逆時(shí)針旋轉(zhuǎn)任意角度后到u軸的分?jǐn)?shù)階Fourier 域上[16],即信號(hào)在時(shí)頻面內(nèi)以O(shè)為原點(diǎn)逆時(shí)針旋轉(zhuǎn)任意角度α后構(gòu)成的分?jǐn)?shù)階Fourier 域,如圖3 所示.從信號(hào)的本質(zhì)上來講,F(xiàn)rFT 是一種時(shí)頻分析方法,原因是其同時(shí)融合了信號(hào)的時(shí)域和頻域信息.FrFT 能將信號(hào)轉(zhuǎn)換到時(shí)間和頻率之間的任何中間域,具有更靈活的時(shí)頻表示.通過對幀級(jí)信號(hào)進(jìn)行FrFT,此方法在處理非平穩(wěn)信號(hào)中具有一定優(yōu)勢,其受噪聲影響較小,抗干擾性能優(yōu)于傅里葉變換[17].心音為非平穩(wěn)信號(hào),因此對心音幀級(jí)信號(hào)進(jìn)行FrFT 能獲得更多的有用時(shí)頻信息.
圖3 時(shí)頻軸旋轉(zhuǎn)α 角度的分?jǐn)?shù)階Fourier 域平面[19]Fig.3 Fractional Fourier domain plane with time-frequency axis rotated by α degree[19]
一維信號(hào)f(x)的a階FrFT 從積分變換角度[18]的定義為:
式中:Fa是FrFT 算子,設(shè)α≠nπ,α=(aπ)/2,n為整數(shù),則核函數(shù)K(ξ,x):
式中:α表示時(shí)頻軸以O(shè)為原點(diǎn)逆時(shí)針旋轉(zhuǎn)的角度.
式(2)可表述為信號(hào)f(x)的a階FrFT,也可表述為信號(hào)f(x)在α角度下的FrFT.
根據(jù)FrFT 的性質(zhì),F(xiàn)rFT 的階次a具有周期性,為了簡化計(jì)算,一般取0.5≤a≤1.5,則可將(2)式改寫為:
從公式(5)可以看出,F(xiàn)rFT 可通過信號(hào)先與一線性調(diào)頻函數(shù)相乘,其次進(jìn)行傅里葉變換,然后再與一線性調(diào)頻函數(shù)相乘,最后乘以一復(fù)數(shù)因子得到.
不同的a值對應(yīng)不同的時(shí)頻特征,因此需要找到一個(gè)最優(yōu)階次a0,使信號(hào)經(jīng)過FrFT 后能獲得較多時(shí)頻信息,在最優(yōu)階次a0下,F(xiàn)rFT 的幅值譜呈現(xiàn)能量集中特性,在ξmax處形成沖擊,且該沖擊峰值為各階次變換下峰值的最大值,即
因此,可依據(jù)幅值譜峰值大小找到能量最集中的階次.
為找到最優(yōu)階次a0,本文將階次精度精確到0.001.首先計(jì)算在區(qū)間0.500≤a≤1.500 的幅值峰值,如圖4(a)所示,可以看到它的峰值集中在階次a=1.000 附近;接著在階次a=1.000 附近分別計(jì)算區(qū) 間0.900≤a≤1.000 和區(qū)間1.000≤a≤1.100 階次的峰值,如圖4(b)和(c)所示,可以看出,在區(qū)間1.000≤a≤1.100 中,峰值呈下降趨勢,而在區(qū)間0.900≤a≤1.000 中,階次a=0.990 附近達(dá)到峰值;然后在區(qū)間0.990≤a≤1.000 中計(jì)算峰值,如圖4(d)所示,當(dāng)a=0.994 時(shí),幅值達(dá)到最大,即最優(yōu)階次a0=0.994,故本文選用階次a=0.994.
圖4 不同階次FrFT 幅值散點(diǎn)圖Fig.4 Scatter plot of FrFT amplitudes for different orders
步驟3Bark 域尺度變換.通過Bark 濾波器組將得到的頻譜映射到Bark 尺度,Bark 濾波器組中設(shè)置濾波器數(shù)為40.對于心音信號(hào)的頻率,低頻范圍在3~5 Hz,高頻范圍在600~800 Hz,信號(hào)動(dòng)態(tài)范圍可達(dá)60~80 dB,而20 Hz 以下的頻率人耳幾乎聽不見[20].人耳能接收到聲音的高低和聲音的頻率是非線性的,Mel 頻率尺度和Bark 頻率尺度是比較常見的非線性頻率尺度,后者比前者更適合人類心理聽覺特性[21].圖5 為24 個(gè)Bark 濾波器組成的頻率響應(yīng)分布圖,Bark 域?qū)Φ皖l具有放大作用、高頻具有壓縮作用,這一點(diǎn)從圖中可以明顯看出.不同中心頻率的濾波器沖激響應(yīng)幅度等高,在Bark 域中能夠更加真實(shí)地反映人耳對信號(hào)產(chǎn)生的感覺.將分?jǐn)?shù)傅里葉變換后的信號(hào)通過Bark 濾波器組,Bark 頻率與實(shí)際頻率存在反雙曲正弦的關(guān)系[22],兩者的轉(zhuǎn)換關(guān)系式如下所示:
圖5 Bark 濾波器組頻率分布Fig.5 Distribution of Bark filter bank frequency
式中:FB(f)表示Bark 頻率,f是實(shí)際頻率.
步驟4取對數(shù).計(jì)算每個(gè)濾波器輸出的對數(shù)能量,得到特征維度為38×40 的FrFT-BFSC 特征值.
圖6 為3 例正常和3 例異常樣本的FrFT-BFSC特征圖,縱坐標(biāo)表示信號(hào)分幀后的信號(hào)幀數(shù)為時(shí)域,橫坐標(biāo)表示濾波器數(shù)為Bark 頻域.其中異常信號(hào)的時(shí)頻能量聚集,從圖中可以看出兩者有明顯的差異,為提高分類精度提供了保證.
圖6 FrFT-BFSC 特征圖Fig.6 FrFT-BFSC feature map
1.4 分類模型隨著深度學(xué)習(xí)的發(fā)展,大量研究考慮使用時(shí)頻特征和深度神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合的分類模型[23].CNN 成為計(jì)算機(jī)視覺領(lǐng)域最常用的一種深度學(xué)習(xí)框架,它具有表征學(xué)習(xí)的能力,可以從輸入信息中提取高階特征.文獻(xiàn)[10]、[12]、[23]等用CNN 對心音進(jìn)行分類,都取得不錯(cuò)的效果.由于本文沒有對數(shù)據(jù)進(jìn)行去噪,而CNN 中卷積層主要是對輸入數(shù)據(jù)提取特征,在處理含噪且有效信息不明顯的數(shù)據(jù)時(shí),卷積核提取特征可能存在由于噪聲較大而特征信號(hào)較小無法檢出的問題,這將導(dǎo)致輸出層所具有的學(xué)習(xí)能力不夠,以致無法正確區(qū)分樣本的類型[24].DRSN 是2019 年Zhao 等[25]提出的一種改進(jìn)的深度殘差網(wǎng)絡(luò)模型,用于處理含噪振動(dòng)信號(hào),是一種新的處理含噪數(shù)據(jù)的深度學(xué)習(xí)方法,在ResNet 中加入軟閾值算法,使分類網(wǎng)絡(luò)具有自適應(yīng)對含噪數(shù)據(jù)設(shè)定閾值的能力,可有效對含噪數(shù)據(jù)進(jìn)行區(qū)分.DRSN 模型結(jié)構(gòu)如圖7(a)所示,其組成基本要素殘差收縮模塊如圖7(b)所示.殘差收縮模塊不僅有一個(gè)軟閾值化函數(shù)作為非線性層,而且嵌入了一個(gè)子網(wǎng)絡(luò),對各個(gè)特征通道進(jìn)行軟閾值化.該模塊所獲得的閾值,并不是一個(gè)值而是一個(gè)向量,也就是特征圖的每一個(gè)通道都對應(yīng)著一個(gè)收縮閾值,即不同通道間閾值獨(dú)立的深度殘差收縮單元模塊.
圖7 CNN-DRSN 模型結(jié)構(gòu)圖Fig.7 Structure diagram of CNN-DRSN model
考慮到心音信號(hào)采集時(shí)也會(huì)引入一些環(huán)境噪聲,為進(jìn)一步有效利用特征信息,搭建CNN-DRSN分類模型如圖7(c)所示,由CNN 分支和DSN 分支組成.該分類模型綜合CNN 和DRSN 的優(yōu)點(diǎn),既可彌補(bǔ)CNN 學(xué)習(xí)能力不足以正確區(qū)分樣本的缺點(diǎn),又能保留與當(dāng)前任務(wù)相關(guān)的特征信息,提高分類模型預(yù)測的準(zhǔn)確率及模型的穩(wěn)定性.為驗(yàn)證CNNDRSN 分類模型的可靠性,搭建CNN 進(jìn)行對比,CNN 模型結(jié)構(gòu)如圖8 所示.
圖8 CNN 模型結(jié)構(gòu)圖Fig.8 Structure diagram of CNN model
將1.3 節(jié)提取到維度為38×40 的FrFT-BFSC特征矩陣分別輸入兩種分類網(wǎng)絡(luò)中,因所提特征維度較小,故不適合搭建深層網(wǎng)絡(luò),圖7、8 中展示了CNN 和CNN-DRSN 結(jié)構(gòu)圖的詳細(xì)參數(shù).CNN 結(jié)構(gòu)中含兩個(gè)卷積層,選用線性整流函數(shù)(Rectified Linearunit,ReLU)作為激活函數(shù);最大池化層在卷積層之后,其主要作用是選擇保留池化核中最大的數(shù)值;在全連接層之前,需對特征進(jìn)行展平(Flatten),主要是為了將參數(shù)過渡到全連接層;使用3 個(gè)全連接層,并用Dropout 和L1 權(quán)重正則化來防止模型過擬合;選用Adam 優(yōu)化器和交叉熵?fù)p失函數(shù)(categorical_crossentropy)配置模型,初始學(xué)習(xí)率設(shè)置為0.001,并用softmax 作為最后一層的激活函數(shù),它能將分類的結(jié)果以概率的形式展現(xiàn)出來,選取概率最大的結(jié)點(diǎn)作為最終輸出.在CNNDRSN 模型結(jié)構(gòu)中CNN 分支含一層卷積,DRSN分支含兩層殘差收縮層和一層卷積層,之后通過展平和全連接進(jìn)行分類預(yù)測,同樣選用Adam 優(yōu)化器和交叉熵?fù)p失函數(shù)(categorical_crossentropy)來配置模型;輸入網(wǎng)絡(luò)的特征圖經(jīng)過取絕對值和全局均值池化之后變?yōu)橐痪S向量,神經(jīng)元的數(shù)量等于輸入特征圖的通道數(shù)量,便可讓每個(gè)通道都具有獨(dú)立的閾值,再輸入兩層全連接層,用softmax 作為最后一層的激活函數(shù),初始學(xué)習(xí)率設(shè)置為0.000 5.閾值λc的計(jì)算公式如下:
式中:δc為第c層縮放到(0,1)之間的比例參數(shù),i,j和c分別表示輸入特征的寬度、高度和通道的索引,average 為平均值.
2.1 實(shí)驗(yàn)環(huán)境說明軟件環(huán)境:編程軟件為Pycharm 2021,編程語言為Python 3.7,所使用卷積神經(jīng)網(wǎng)絡(luò)和深度殘差收縮網(wǎng)絡(luò)均在TensorFlow 2.0框架中實(shí)現(xiàn).硬件環(huán)境:中央處理器(AMD Ryzen7 5800H@3.2 GHz,RAM 為16 GB),獨(dú)立顯卡(NVIDIA GeForce RTX3060).所有實(shí)驗(yàn)均使用同一數(shù)據(jù)集且在同一臺(tái)設(shè)備進(jìn)行.
2.2 評(píng)估指標(biāo)對于分類問題,常采用準(zhǔn)確度(Accuracy,A)、靈敏度(Sensitivity,Se)、特異度(Specificity,Sp)、損失值(Loss,L)和F1 作為評(píng)價(jià)指標(biāo),前三者的定義式分別為式(9)~(11),使用的categorical_crossentropy 損失函數(shù)定義為式(12).
式中:TP表示異常心音樣本被正確分類的數(shù)量,即真陽性;TN表示正常心音被正確分類的數(shù)量,即真陰性;FP表示正常心音被錯(cuò)誤分類的數(shù)量,即假陽性;FN表示異常心音被錯(cuò)誤分類的數(shù)量,即假陰性.式(12)中N表示測試樣本數(shù),yk表示第k個(gè)樣本的真實(shí)值,yk'表示第k個(gè)樣本的預(yù)測值.
F1 是精確率(Precision,P)和召回率(Recall,R)之間的調(diào)和平均數(shù),常作為分類問題的一個(gè)綜合性衡量指標(biāo),定義式如下:
2.3 結(jié)果分析為驗(yàn)證本文所提特征與改進(jìn)網(wǎng)絡(luò)模型的穩(wěn)定性與泛化能力,將提取的不同特征分別放入CNN 和CNN-DRSN 分類模型中進(jìn)行訓(xùn)練和測試.
首先探究濾波器組中濾波器數(shù)量對模型性能的影響,采用固定幀數(shù)、不同數(shù)量的Bark 濾波器的方式進(jìn)行對比實(shí)驗(yàn).Bark 濾波器的數(shù)量分別設(shè)置為24、32、40、64,得到的二維特征矩陣分別為38×24、38×32、38×40、38×64,在不同網(wǎng)絡(luò)中的實(shí)驗(yàn)結(jié)果如表2 所示.由表2 可知,分類網(wǎng)絡(luò)CNNDRSN 整體上比單獨(dú)CNN 的效果更好.隨著濾波器數(shù)量的增加,分類結(jié)果有一定的提升,但濾波器組數(shù)量增加到64 時(shí),整體性能反而有所下降.原因可能是當(dāng)濾波器數(shù)量逐漸增大時(shí),能獲得的有效信息逐漸增多,而當(dāng)濾波器數(shù)量增加到一定數(shù)量后,濾波器組中心頻率過于接近會(huì)影響濾波效果,導(dǎo)致模型整體性能下降.從表2 中可以看到,F(xiàn)rFT-BFSC(38×40)與CNN-DRSN 的組合模型整體效果最佳.
表2 不同參數(shù)下FrFT-BFSC 特征的心音分類結(jié)果對比Tab.2 Comparison of heart sound classification results with FrFT-BFSC features under different parameters
為驗(yàn)證本文所提FrFT-BFSC 特征的可靠性,與近幾年常見的心音信號(hào)特征提取方法進(jìn)行對比,如文獻(xiàn)[11]、[12]、[23]的特征提取方法.其中所有特征維度均為38×40,并在兩種不同的網(wǎng)絡(luò)中訓(xùn)練和測試,對比實(shí)驗(yàn)結(jié)果如表3 所示.分析表3 可知,在不同的網(wǎng)絡(luò)中,特征MFSC 和BFSC 比MFCC和BFCC 的效果更好,原因是后者在前者的基礎(chǔ)上進(jìn)行了離散余弦變換,使特征信息被壓縮;而實(shí)驗(yàn)3-2 和3-4 驗(yàn)證了文獻(xiàn)[21]所提Bark 頻率尺度更適合人類心理聽覺特性;FrFT-BFSC 特征是在BFSC特征上的改進(jìn),F(xiàn)1 作為分類問題的一個(gè)綜合性衡量指標(biāo),由表2 和表3 可以看出,本文所提心音分類算法的F1 值最高,整體效果較其他特征好很多.實(shí)驗(yàn)3-10 是本文所提算法,其整體性能明顯優(yōu)于用CNN 作為分類器的模型.
表3 不同特征下心音分類的結(jié)果對比Tab.3 Comparison of heart sound classification results under different features
表4 為不同算法復(fù)雜情況對比,其中資源占比為GPU 顯存占用率,運(yùn)行時(shí)間為每一輪訓(xùn)練所需的時(shí)間.可以看出本文算法情況下顯卡的性能得到充分的使用,GPU 資源占比越高,每輪運(yùn)行的時(shí)間越少.
表4 不同文獻(xiàn)算法復(fù)雜情況對比Tab.4 Comparison of complexity under different algorithms
設(shè)置訓(xùn)練迭代次數(shù)為70 次,該算法訓(xùn)練過程中準(zhǔn)確率和損失值的變化曲線分別如圖9(a)和9(b)所示,迭代次數(shù)在50 次左右時(shí)模型已經(jīng)逐漸趨于穩(wěn)定,其中驗(yàn)證集的準(zhǔn)確率在0.88~0.90 附近擺動(dòng),驗(yàn)證集的損失值在0.3 左右.總體而言,F(xiàn)rFTBFSC 特征與CNN-DRSN 結(jié)合的模型性能更好.
圖9 模型訓(xùn)練準(zhǔn)確率和損失值曲線圖Fig.9 Curve of model training accuracy and loss value
通過以上實(shí)驗(yàn)結(jié)果分析,F(xiàn)rFT-BFSC(38×40)與CNN-DRSN 結(jié)合的算法綜合性能優(yōu)于其它算法,F(xiàn)rFT-BFSC 特征能充分提取心音信號(hào)的時(shí)頻信息,CNN-DRSN 分類模型通過軟閾值自動(dòng)去除與當(dāng)前任務(wù)無關(guān)的特征信息,從而達(dá)到較好的效果.本文所使用的數(shù)據(jù)樣本更多且具有針對性,結(jié)果表明所提出的算法魯棒性和泛化能力更強(qiáng).
傳統(tǒng)的聽診需依靠有經(jīng)驗(yàn)的醫(yī)生,而心音自動(dòng)診斷能夠在青少年CHD 篩查中幫助醫(yī)生更加快速、準(zhǔn)確地分辨出是否患CHD,從而更加高效地保障青少年身心健康.隨著深度學(xué)習(xí)的發(fā)展,本文提出一種新的不依賴心音去噪和分割的FrFT-BFSC 特征提取方法,該特征更能反映PCG 的生理、病理特性;在改進(jìn)的網(wǎng)絡(luò)即CNN-DRSN 中進(jìn)行訓(xùn)練及驗(yàn)證,并采用5 種常見的評(píng)估指標(biāo)對模型進(jìn)行評(píng)估.實(shí)驗(yàn)結(jié)果表明,該算法在較低復(fù)雜度、較少計(jì)算量的情況下得到0.925 的準(zhǔn)確率,且不對PCG 進(jìn)行去噪和分割能簡化算法并提高算法可靠性.綜合性能較以往的方法有明顯提升,具有較強(qiáng)的魯棒性和泛化能力,有望應(yīng)用于先心病的臨床初診和篩查.本算法目前實(shí)現(xiàn)了對正常、異常心音進(jìn)行二分類,尚未對何種病例進(jìn)行多分類分析,這是今后研究的重點(diǎn).