陳駿霖 張財(cái)寶
(廣東工業(yè)大學(xué),廣東 廣州 51006)
有效分離心音和肺音信號(hào)在心肺系統(tǒng)的監(jiān)測(cè)和診斷中非常重要。分離的心音可用于患者心臟跳動(dòng)狀態(tài)的實(shí)時(shí)診斷,如第一和第二心音分割研究和睡眠參數(shù)評(píng)估[1];分離的肺音可用于患者手術(shù)麻醉的呼吸監(jiān)測(cè)[2]。但心音和肺音在60 Hz~320 Hz頻帶存在相互干擾,傳統(tǒng)的帶通濾波[3]無(wú)法將它們完全分離。
為解決這一問(wèn)題,國(guó)內(nèi)外學(xué)者提出了許多方法,其中基于非負(fù)矩陣分解(Non-negative matrix factorization, NMF)模型和基于長(zhǎng)短時(shí)記憶(long short time memory, LSTM)網(wǎng)絡(luò)的心肺音分離方法取得了較好的分離效果。2015年,Shah等人提出基于短時(shí)傅里葉變換(short time Fourier transform, STFT)時(shí)頻譜和NMF的心肺音分離方法[4]。該方法借助NMF捕捉準(zhǔn)周期心肺音頻譜成分,并依據(jù)心肺音的頻域分布差異,對(duì)這些頻譜成分進(jìn)行聚類。其分離性能顯著優(yōu)于基于先驗(yàn)知識(shí)的帶通濾波方法。2017年,Canadas等人改進(jìn)了Shah等人的方法,先對(duì)混合信號(hào)的STFT時(shí)頻譜進(jìn)行 NMF;然后聯(lián)合頻譜基函數(shù)和時(shí)域激活向量進(jìn)行聚類[5]。該方法同時(shí)利用了心肺音成分的時(shí)、頻分布差異,增強(qiáng)心肺音分離的性能。2019年,朱俊霖等人提出了基于標(biāo)簽約束NMF的心肺音分離方法,將參考信號(hào)以標(biāo)簽形式加入到混合信號(hào)時(shí)頻譜的NMF中,增強(qiáng)了心肺音分離效果[6]。但NMF屬于線性矩陣分解模型,無(wú)法挖掘心肺音時(shí)頻譜的非線性時(shí)序信息。同年,雷志彬等人提出了基于STFT和LSTM的心肺音分離網(wǎng)絡(luò),利用心音或肺音時(shí)頻譜非線性特征空間中潛在的時(shí)序相關(guān)性,獲得了當(dāng)前最優(yōu)的心肺音分離性能[7]。
然而,基于STFT和LSTM的心肺音分離網(wǎng)絡(luò)選用的LSTM模型存在結(jié)構(gòu)復(fù)雜、參數(shù)較多、收斂速度慢、無(wú)法挖掘時(shí)頻譜時(shí)序上下文關(guān)系等問(wèn)題。為此,本文將門(mén)控循環(huán)單元(gated recurrent unit, GRU)[8]、雙向 LSTM(bidirectional LSTM, BiLSTM)和雙向GRU(bidirectional GRU, BiGRU)3種循環(huán)神經(jīng)網(wǎng)絡(luò)變體應(yīng)用于心肺音分離。
心音和肺音幅度譜的估計(jì),一般以估計(jì)心音和肺音的時(shí)頻掩碼作為中間步驟。常見(jiàn)時(shí)頻掩碼有理想二值掩碼(ideal binary mask, IBM)[9]和理想比例掩碼(ideal ratio mask, IRM)[10]等。利用心音或肺音時(shí)頻掩碼,結(jié)合心肺音混合信號(hào)的相位譜,通過(guò)逆變換方法即可重構(gòu)心音或肺音信號(hào)的時(shí)域波形。常用的時(shí)頻掩碼沒(méi)有考慮源信號(hào)的相位信息。但最近的一些研究表明,在時(shí)頻掩碼中加入相位信息有利于提高目標(biāo)信號(hào)的感知質(zhì)量和可懂度,如理想相位敏感掩碼(ideal phase sensitive mask, IPSM)[11]。
本文將LSTM,GRU,BiLSTM,BiGRU 4種循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于心肺音分離,同時(shí)分別與2種時(shí)頻掩碼組合進(jìn)行仿真,比較不同模型和不同時(shí)頻掩碼的心肺音分離性能。
本文采用的心肺音混合模型為
式中,x(m)為離散時(shí)間的心肺音混合信號(hào);m= 1,2,...,M表示時(shí)間采樣點(diǎn);xπ(m)表示源信號(hào),π∈ {c,r},c和r分別表示心音和肺音;η表示高斯白噪聲。
為簡(jiǎn)單起見(jiàn),在心肺音混合模型式(1)中,假設(shè)心肺音信號(hào)和噪聲信號(hào)線性混疊[12]。
電子聽(tīng)診器作為采集心肺音信號(hào)的常用醫(yī)療儀器,采集的信號(hào)通常存在高斯白噪聲。去除噪聲的傳統(tǒng)方法有小波變換[13]、經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition, EMD)[14]等。本文只關(guān)注無(wú)噪環(huán)境下心肺音混合信號(hào)的分離,因此心肺音混合信號(hào)只含有心音和肺音,可用以下數(shù)學(xué)模型表示:
本文提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離模型如圖1所示。該分離模型的輸入為心肺音混合信號(hào)的時(shí)頻譜,一般通過(guò)短時(shí)傅里葉變換時(shí)頻分解得到,能夠反映心肺音混合信號(hào)特征的時(shí)域和頻域變化關(guān)系。將心肺音混合信號(hào)的時(shí)頻譜輸入循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU/BiLSTM/BiGRU),得到心音和肺音時(shí)頻掩碼;心音和肺音時(shí)頻掩碼與心肺音混合信號(hào)的時(shí)頻譜進(jìn)行點(diǎn)乘,得到估計(jì)的心音和肺音時(shí)頻譜;估計(jì)的心音時(shí)頻譜和肺音時(shí)頻譜分別與標(biāo)簽的心音時(shí)頻譜和肺音時(shí)頻譜進(jìn)行均方誤差再求和,其結(jié)果作為心肺音分離模型的代價(jià)函數(shù)值。
2014年Cho等人提出了GRU[8],其結(jié)構(gòu)如圖2所示。GRU模型使每個(gè)循環(huán)單元能夠自適應(yīng)性地捕獲不同時(shí)間尺度的特征信息。GRU與LSTM一樣擁有可調(diào)節(jié)單元內(nèi)部信息流的門(mén)控單元,但沒(méi)有獨(dú)立的記憶單元。
圖2 GRU結(jié)構(gòu)[15]
第t個(gè)時(shí)刻第j個(gè)GRU的當(dāng)前激活狀態(tài)用第t?1個(gè)時(shí)刻的先前激活狀態(tài)和候選激活狀態(tài)之間的線性插值來(lái)表示:
當(dāng)前狀態(tài)和計(jì)算更新后的狀態(tài)之間進(jìn)行線性求和的過(guò)程類似于LSTM。候選激活狀態(tài)的計(jì)算方式
類似于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)單元。
式中,tr為一組重置門(mén);⊙為逐個(gè)元素進(jìn)行相乘。
BiLSTM在標(biāo)準(zhǔn)RNN的基礎(chǔ)上,通過(guò)前向狀態(tài)和后向狀態(tài)來(lái)捕獲長(zhǎng)期依賴關(guān)系,其結(jié)構(gòu)如圖3所示。
圖3 BiLSTM結(jié)構(gòu)[16]
對(duì)于每個(gè)時(shí)刻,BiLSTM不僅考慮先前時(shí)刻的信息,還考慮未來(lái)時(shí)刻的信息。前向LSTM的隱含狀態(tài)通過(guò)先前狀態(tài)和輸入來(lái)表示:
式中,xt表示信息的輸入;表示先前狀態(tài);表分別表示輸入門(mén)、忘記門(mén)、輸出門(mén)和調(diào)制門(mén);表示一種新的記憶細(xì)胞向量,其候選項(xiàng)可以添加到前向狀態(tài)中;W和b分別表示權(quán)重和偏置。示隱含狀態(tài);
反向LSTM的運(yùn)算過(guò)程與前向相同。
BiGRU由相反傳輸方向的2個(gè)隱藏層連接到同一輸出層,以便輸出層從過(guò)去和未來(lái)的狀態(tài)中獲取特征信息,這樣BiGRU能夠從2個(gè)不同的數(shù)據(jù)方向?qū)W習(xí)信息,可更準(zhǔn)確預(yù)測(cè)。BiGRU將標(biāo)準(zhǔn)GRU單元分為前向狀態(tài)和反向狀態(tài),其結(jié)構(gòu)如圖4所示。
圖4 BiGRU結(jié)構(gòu)[17]
由圖4可以看出,BiGRU第t個(gè)時(shí)刻的隱含層狀態(tài)不僅取決于該時(shí)刻的輸入xt和前向狀態(tài)(正方向)的隱含層狀態(tài)輸出,而且還取決于后向狀態(tài)(反方向)的隱含層狀態(tài)輸出。
本文采用IBM和IPSM 2種時(shí)頻掩碼作為心肺音分離模型的目標(biāo)掩碼。
IBM是語(yǔ)音分離的主要計(jì)算目標(biāo),該掩碼假設(shè)每個(gè)時(shí)頻單元只有一個(gè)源信號(hào)占主導(dǎo)地位。針對(duì)每個(gè)時(shí)頻單元,如果目標(biāo)(target)時(shí)頻譜大于噪聲(noise)時(shí)頻譜,則將相應(yīng)的掩碼值設(shè)置為1,否則設(shè)置為0。IBM定義為
IPSM 考慮了源信號(hào)與輸入混合信號(hào)之間的相位差異,相較于其他掩碼,在語(yǔ)音分離領(lǐng)域有更好的分離效果,其定義為
式中,xθ為心肺音混合信號(hào)的相位;θπ為源信號(hào)π的相位。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離模型的代價(jià)函數(shù)為
式中,Ω表示模型所有可訓(xùn)練的參數(shù);B=T×F×2為心音和肺音信號(hào)時(shí)頻點(diǎn)的總數(shù);c和r分別為心音和肺音;為模型估計(jì)的心音或肺音的時(shí)頻掩碼;X為心肺音混合信號(hào)的時(shí)頻譜;Xπ為標(biāo)簽心音或肺音的時(shí)頻譜。
從公開(kāi)數(shù)據(jù)集[18-25]中選出干凈的心音和肺音信號(hào)構(gòu)建仿真數(shù)據(jù)集。其中,心音信號(hào)共102條采自47個(gè)被試者;肺音信號(hào)共57條采自36個(gè)被試者;采集時(shí)長(zhǎng)為2 s~70 s,采樣率為4 kHz或44.1 kHz。為便于分析,首先將采樣率統(tǒng)一降至2 kHz;然后將心音和肺音信號(hào)都切割成長(zhǎng)度為10 s的片段(不足10 s的信號(hào)補(bǔ)零),共獲得心音信號(hào)121段,肺音信號(hào)62段;最后按照1:1的心肺音能量比合成聽(tīng)診信號(hào),并通過(guò)分離得到的心音和肺音信號(hào)的信噪比(signalto-noise ratio, SNR)來(lái)評(píng)估心肺音分離性能。
式中,sP為信號(hào)能量;nP為噪聲能量。SNR越高,表示心肺音分離性能越好。
由于數(shù)據(jù)集規(guī)模較小,以三重交叉驗(yàn)證的平均SNR來(lái)度量不同方法的心肺音分離性能。三重交叉驗(yàn)證的數(shù)據(jù)構(gòu)成如下:
1) 先將干凈的心音信號(hào)和肺音信號(hào)分別劃分為3組,用{H1,H2,H3}和{L1,L2,L3} 表示,不同組的心/肺音數(shù)據(jù)采自不同的被試者;
2) 第一重交叉驗(yàn)證將H1和L1合成聽(tīng)診信號(hào)作為驗(yàn)證集,將{H2∪H3}和{L2∪L3} 合成聽(tīng)診信號(hào)作為訓(xùn)練集;
3) 同樣,第二重和第三重交叉驗(yàn)證將對(duì)應(yīng)下標(biāo)的心音信號(hào)和肺音信號(hào)合成聽(tīng)診信號(hào)作為驗(yàn)證集,將其余的心音信號(hào)和肺音信號(hào)合成聽(tīng)診信號(hào)作為訓(xùn)練集。
各重交叉驗(yàn)證的訓(xùn)練集和驗(yàn)證集規(guī)模如表1所示。
表1 交叉驗(yàn)證的訓(xùn)練集和驗(yàn)證集規(guī)模
時(shí)頻掩碼為IBM時(shí),4種循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離性能比較如表2所示。由表2可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分離的心音信噪比分別提高了1.44 dB,0.58 dB和0.27 dB;分離的肺音信噪比分別提高了1.47 dB,0.47 dB和0.17 dB。表明在時(shí)頻掩碼為IBM時(shí),BiGRU具有更優(yōu)的心肺音分離性能。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
時(shí)頻掩碼為IPSM時(shí),4種循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離性能比較如表3所示。由表3可以看出,相比于LSTM,GRU和BiLSTM,BiGRU分離的心音信噪比分別提高了1.73 dB,0.52 dB和0.2 dB;分離的肺音信噪比分別提高了1.53 dB,0.57 dB和0.28 dB。表明在時(shí)頻掩碼為IPSM時(shí),BiGRU具有更優(yōu)的心肺音分離性能。
表3 實(shí)驗(yàn)結(jié)果對(duì)比
對(duì)比表2和表3可以看出:選用IPSM作為時(shí)頻掩碼的分離性能比IBM更好。IBM假設(shè)每一個(gè)時(shí)頻單元只有一個(gè)信號(hào)主導(dǎo),即要么是心音主導(dǎo),要么是肺音主導(dǎo),此假設(shè)與實(shí)際不一定符合。而IPSM沒(méi)有受該假設(shè)的約束,且考慮了混合心肺音時(shí)頻相位與心音和肺音時(shí)頻相位的差異信息,表現(xiàn)更優(yōu)的分離性能。綜上所述,基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。
本文將4種循環(huán)神經(jīng)網(wǎng)絡(luò)和2種時(shí)頻掩碼應(yīng)用于心肺音分離,進(jìn)行組合仿真并比較心肺音分離性能。實(shí)驗(yàn)結(jié)果表明:基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。