幾種循環(huán)神經(jīng)網(wǎng)絡(luò)和時(shí)頻掩碼在心肺音分離中的應(yīng)用

2020-03-20 07:58陳駿霖張財(cái)寶

自動(dòng)化與信息工程 2020年1期

陳駿霖張財(cái)寶

（廣東工業(yè)大學(xué)，廣東廣州 51006）

0 引言

有效分離心音和肺音信號(hào)在心肺系統(tǒng)的監(jiān)測(cè)和診斷中非常重要。分離的心音可用于患者心臟跳動(dòng)狀態(tài)的實(shí)時(shí)診斷，如第一和第二心音分割研究和睡眠參數(shù)評(píng)估[1]；分離的肺音可用于患者手術(shù)麻醉的呼吸監(jiān)測(cè)[2]。但心音和肺音在60 Hz～320 Hz頻帶存在相互干擾，傳統(tǒng)的帶通濾波[3]無(wú)法將它們完全分離。

為解決這一問(wèn)題，國(guó)內(nèi)外學(xué)者提出了許多方法，其中基于非負(fù)矩陣分解（Non-negative matrix factorization, NMF）模型和基于長(zhǎng)短時(shí)記憶（long short time memory, LSTM）網(wǎng)絡(luò)的心肺音分離方法取得了較好的分離效果。2015年，Shah等人提出基于短時(shí)傅里葉變換（short time Fourier transform, STFT）時(shí)頻譜和NMF的心肺音分離方法[4]。該方法借助NMF捕捉準(zhǔn)周期心肺音頻譜成分，并依據(jù)心肺音的頻域分布差異，對(duì)這些頻譜成分進(jìn)行聚類。其分離性能顯著優(yōu)于基于先驗(yàn)知識(shí)的帶通濾波方法。2017年，Canadas等人改進(jìn)了Shah等人的方法，先對(duì)混合信號(hào)的STFT時(shí)頻譜進(jìn)行 NMF；然后聯(lián)合頻譜基函數(shù)和時(shí)域激活向量進(jìn)行聚類[5]。該方法同時(shí)利用了心肺音成分的時(shí)、頻分布差異，增強(qiáng)心肺音分離的性能。2019年，朱俊霖等人提出了基于標(biāo)簽約束NMF的心肺音分離方法，將參考信號(hào)以標(biāo)簽形式加入到混合信號(hào)時(shí)頻譜的NMF中，增強(qiáng)了心肺音分離效果[6]。但NMF屬于線性矩陣分解模型，無(wú)法挖掘心肺音時(shí)頻譜的非線性時(shí)序信息。同年，雷志彬等人提出了基于STFT和LSTM的心肺音分離網(wǎng)絡(luò)，利用心音或肺音時(shí)頻譜非線性特征空間中潛在的時(shí)序相關(guān)性，獲得了當(dāng)前最優(yōu)的心肺音分離性能[7]。

然而，基于STFT和LSTM的心肺音分離網(wǎng)絡(luò)選用的LSTM模型存在結(jié)構(gòu)復(fù)雜、參數(shù)較多、收斂速度慢、無(wú)法挖掘時(shí)頻譜時(shí)序上下文關(guān)系等問(wèn)題。為此，本文將門(mén)控循環(huán)單元（gated recurrent unit, GRU）[8]、雙向 LSTM（bidirectional LSTM, BiLSTM）和雙向GRU（bidirectional GRU, BiGRU）3種循環(huán)神經(jīng)網(wǎng)絡(luò)變體應(yīng)用于心肺音分離。

心音和肺音幅度譜的估計(jì)，一般以估計(jì)心音和肺音的時(shí)頻掩碼作為中間步驟。常見(jiàn)時(shí)頻掩碼有理想二值掩碼（ideal binary mask, IBM）[9]和理想比例掩碼（ideal ratio mask, IRM）[10]等。利用心音或肺音時(shí)頻掩碼，結(jié)合心肺音混合信號(hào)的相位譜，通過(guò)逆變換方法即可重構(gòu)心音或肺音信號(hào)的時(shí)域波形。常用的時(shí)頻掩碼沒(méi)有考慮源信號(hào)的相位信息。但最近的一些研究表明，在時(shí)頻掩碼中加入相位信息有利于提高目標(biāo)信號(hào)的感知質(zhì)量和可懂度，如理想相位敏感掩碼（ideal phase sensitive mask, IPSM）[11]。

本文將LSTM，GRU，BiLSTM，BiGRU 4種循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于心肺音分離，同時(shí)分別與2種時(shí)頻掩碼組合進(jìn)行仿真，比較不同模型和不同時(shí)頻掩碼的心肺音分離性能。

1 心肺音混合模型

本文采用的心肺音混合模型為

式中，x(m)為離散時(shí)間的心肺音混合信號(hào)；m= 1,2,...,M表示時(shí)間采樣點(diǎn)；xπ(m)表示源信號(hào)，π∈ {c,r}，c和r分別表示心音和肺音；η表示高斯白噪聲。

為簡(jiǎn)單起見(jiàn)，在心肺音混合模型式(1)中，假設(shè)心肺音信號(hào)和噪聲信號(hào)線性混疊[12]。

電子聽(tīng)診器作為采集心肺音信號(hào)的常用醫(yī)療儀器，采集的信號(hào)通常存在高斯白噪聲。去除噪聲的傳統(tǒng)方法有小波變換[13]、經(jīng)驗(yàn)?zāi)B(tài)分解（empirical mode decomposition, EMD）[14]等。本文只關(guān)注無(wú)噪環(huán)境下心肺音混合信號(hào)的分離，因此心肺音混合信號(hào)只含有心音和肺音，可用以下數(shù)學(xué)模型表示：

2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離模型

本文提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離模型如圖1所示。該分離模型的輸入為心肺音混合信號(hào)的時(shí)頻譜，一般通過(guò)短時(shí)傅里葉變換時(shí)頻分解得到，能夠反映心肺音混合信號(hào)特征的時(shí)域和頻域變化關(guān)系。將心肺音混合信號(hào)的時(shí)頻譜輸入循環(huán)神經(jīng)網(wǎng)絡(luò)（GRU/BiLSTM/BiGRU），得到心音和肺音時(shí)頻掩碼；心音和肺音時(shí)頻掩碼與心肺音混合信號(hào)的時(shí)頻譜進(jìn)行點(diǎn)乘，得到估計(jì)的心音和肺音時(shí)頻譜；估計(jì)的心音時(shí)頻譜和肺音時(shí)頻譜分別與標(biāo)簽的心音時(shí)頻譜和肺音時(shí)頻譜進(jìn)行均方誤差再求和，其結(jié)果作為心肺音分離模型的代價(jià)函數(shù)值。

2.1 GRU神經(jīng)網(wǎng)絡(luò)

2014年Cho等人提出了GRU[8]，其結(jié)構(gòu)如圖2所示。GRU模型使每個(gè)循環(huán)單元能夠自適應(yīng)性地捕獲不同時(shí)間尺度的特征信息。GRU與LSTM一樣擁有可調(diào)節(jié)單元內(nèi)部信息流的門(mén)控單元，但沒(méi)有獨(dú)立的記憶單元。

圖2 GRU結(jié)構(gòu)[15]

第t個(gè)時(shí)刻第j個(gè)GRU的當(dāng)前激活狀態(tài)用第t?1個(gè)時(shí)刻的先前激活狀態(tài)和候選激活狀態(tài)之間的線性插值來(lái)表示：

當(dāng)前狀態(tài)和計(jì)算更新后的狀態(tài)之間進(jìn)行線性求和的過(guò)程類似于LSTM。候選激活狀態(tài)的計(jì)算方式

類似于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)單元。

式中，tr為一組重置門(mén)；⊙為逐個(gè)元素進(jìn)行相乘。

2.2 BiLSTM神經(jīng)網(wǎng)絡(luò)

BiLSTM在標(biāo)準(zhǔn)RNN的基礎(chǔ)上，通過(guò)前向狀態(tài)和后向狀態(tài)來(lái)捕獲長(zhǎng)期依賴關(guān)系，其結(jié)構(gòu)如圖3所示。

圖3 BiLSTM結(jié)構(gòu)[16]

對(duì)于每個(gè)時(shí)刻，BiLSTM不僅考慮先前時(shí)刻的信息，還考慮未來(lái)時(shí)刻的信息。前向LSTM的隱含狀態(tài)通過(guò)先前狀態(tài)和輸入來(lái)表示：

式中，xt表示信息的輸入；表示先前狀態(tài)；表分別表示輸入門(mén)、忘記門(mén)、輸出門(mén)和調(diào)制門(mén)；表示一種新的記憶細(xì)胞向量，其候選項(xiàng)可以添加到前向狀態(tài)中；W和b分別表示權(quán)重和偏置。示隱含狀態(tài)；

反向LSTM的運(yùn)算過(guò)程與前向相同。

2.3 BiGRU神經(jīng)網(wǎng)絡(luò)

BiGRU由相反傳輸方向的2個(gè)隱藏層連接到同一輸出層，以便輸出層從過(guò)去和未來(lái)的狀態(tài)中獲取特征信息，這樣BiGRU能夠從2個(gè)不同的數(shù)據(jù)方向?qū)W習(xí)信息，可更準(zhǔn)確預(yù)測(cè)。BiGRU將標(biāo)準(zhǔn)GRU單元分為前向狀態(tài)和反向狀態(tài)，其結(jié)構(gòu)如圖4所示。

圖4 BiGRU結(jié)構(gòu)[17]

由圖4可以看出，BiGRU第t個(gè)時(shí)刻的隱含層狀態(tài)不僅取決于該時(shí)刻的輸入xt和前向狀態(tài)（正方向）的隱含層狀態(tài)輸出，而且還取決于后向狀態(tài)（反方向）的隱含層狀態(tài)輸出。

2.4 時(shí)頻掩碼

本文采用IBM和IPSM 2種時(shí)頻掩碼作為心肺音分離模型的目標(biāo)掩碼。

IBM是語(yǔ)音分離的主要計(jì)算目標(biāo)，該掩碼假設(shè)每個(gè)時(shí)頻單元只有一個(gè)源信號(hào)占主導(dǎo)地位。針對(duì)每個(gè)時(shí)頻單元，如果目標(biāo)（target）時(shí)頻譜大于噪聲（noise）時(shí)頻譜，則將相應(yīng)的掩碼值設(shè)置為1，否則設(shè)置為0。IBM定義為

IPSM 考慮了源信號(hào)與輸入混合信號(hào)之間的相位差異，相較于其他掩碼，在語(yǔ)音分離領(lǐng)域有更好的分離效果，其定義為

式中，xθ為心肺音混合信號(hào)的相位；θπ為源信號(hào)π的相位。

2.5 代價(jià)函數(shù)

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離模型的代價(jià)函數(shù)為

式中，Ω表示模型所有可訓(xùn)練的參數(shù)；B=T×F×2為心音和肺音信號(hào)時(shí)頻點(diǎn)的總數(shù)；c和r分別為心音和肺音；為模型估計(jì)的心音或肺音的時(shí)頻掩碼；X為心肺音混合信號(hào)的時(shí)頻譜；Xπ為標(biāo)簽心音或肺音的時(shí)頻譜。

3 實(shí)驗(yàn)和結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

從公開(kāi)數(shù)據(jù)集[18-25]中選出干凈的心音和肺音信號(hào)構(gòu)建仿真數(shù)據(jù)集。其中，心音信號(hào)共102條采自47個(gè)被試者；肺音信號(hào)共57條采自36個(gè)被試者；采集時(shí)長(zhǎng)為2 s～70 s，采樣率為4 kHz或44.1 kHz。為便于分析，首先將采樣率統(tǒng)一降至2 kHz；然后將心音和肺音信號(hào)都切割成長(zhǎng)度為10 s的片段（不足10 s的信號(hào)補(bǔ)零），共獲得心音信號(hào)121段，肺音信號(hào)62段；最后按照1：1的心肺音能量比合成聽(tīng)診信號(hào)，并通過(guò)分離得到的心音和肺音信號(hào)的信噪比（signalto-noise ratio, SNR）來(lái)評(píng)估心肺音分離性能。

式中，sP為信號(hào)能量；nP為噪聲能量。SNR越高，表示心肺音分離性能越好。

由于數(shù)據(jù)集規(guī)模較小，以三重交叉驗(yàn)證的平均SNR來(lái)度量不同方法的心肺音分離性能。三重交叉驗(yàn)證的數(shù)據(jù)構(gòu)成如下：

1）先將干凈的心音信號(hào)和肺音信號(hào)分別劃分為3組，用{H1,H2,H3}和{L1,L2,L3} 表示，不同組的心/肺音數(shù)據(jù)采自不同的被試者；

2）第一重交叉驗(yàn)證將H1和L1合成聽(tīng)診信號(hào)作為驗(yàn)證集，將{H2∪H3}和{L2∪L3} 合成聽(tīng)診信號(hào)作為訓(xùn)練集；

3）同樣，第二重和第三重交叉驗(yàn)證將對(duì)應(yīng)下標(biāo)的心音信號(hào)和肺音信號(hào)合成聽(tīng)診信號(hào)作為驗(yàn)證集，將其余的心音信號(hào)和肺音信號(hào)合成聽(tīng)診信號(hào)作為訓(xùn)練集。

各重交叉驗(yàn)證的訓(xùn)練集和驗(yàn)證集規(guī)模如表1所示。

表1 交叉驗(yàn)證的訓(xùn)練集和驗(yàn)證集規(guī)模

3.2 實(shí)驗(yàn)結(jié)果和分析

時(shí)頻掩碼為IBM時(shí)，4種循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離性能比較如表2所示。由表2可以看出，相比于LSTM，GRU和BiLSTM，BiGRU分離的心音信噪比分別提高了1.44 dB，0.58 dB和0.27 dB；分離的肺音信噪比分別提高了1.47 dB，0.47 dB和0.17 dB。表明在時(shí)頻掩碼為IBM時(shí)，BiGRU具有更優(yōu)的心肺音分離性能。

表2 實(shí)驗(yàn)結(jié)果對(duì)比

時(shí)頻掩碼為IPSM時(shí)，4種循環(huán)神經(jīng)網(wǎng)絡(luò)的心肺音分離性能比較如表3所示。由表3可以看出，相比于LSTM，GRU和BiLSTM，BiGRU分離的心音信噪比分別提高了1.73 dB，0.52 dB和0.2 dB；分離的肺音信噪比分別提高了1.53 dB，0.57 dB和0.28 dB。表明在時(shí)頻掩碼為IPSM時(shí)，BiGRU具有更優(yōu)的心肺音分離性能。

表3 實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)比表2和表3可以看出：選用IPSM作為時(shí)頻掩碼的分離性能比IBM更好。IBM假設(shè)每一個(gè)時(shí)頻單元只有一個(gè)信號(hào)主導(dǎo)，即要么是心音主導(dǎo)，要么是肺音主導(dǎo)，此假設(shè)與實(shí)際不一定符合。而IPSM沒(méi)有受該假設(shè)的約束，且考慮了混合心肺音時(shí)頻相位與心音和肺音時(shí)頻相位的差異信息，表現(xiàn)更優(yōu)的分離性能。綜上所述，基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。

4 結(jié)語(yǔ)

本文將4種循環(huán)神經(jīng)網(wǎng)絡(luò)和2種時(shí)頻掩碼應(yīng)用于心肺音分離，進(jìn)行組合仿真并比較心肺音分離性能。實(shí)驗(yàn)結(jié)果表明：基于BiGRU和IPSM的心肺音分離方法取得最優(yōu)的心肺音分離效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡