劉延龍,吳 聰
(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430068)
眼睛是人類接收和獲取外界信息的重要途徑之一,占接受信息總和的80%。因此,眼睛的健康對(duì)人們?nèi)粘5纳詈凸ぷ鲗W(xué)習(xí)有著至關(guān)重要的影響。醫(yī)學(xué)臨床中,眼底視網(wǎng)膜檢查是眼部檢查的重要步驟,對(duì)眼底視網(wǎng)膜圖像的判讀和分析,有助于醫(yī)生對(duì)相關(guān)疾病進(jìn)行檢查和診斷。而檢查最重要的則是提取出眼底視網(wǎng)膜血管的形態(tài)和結(jié)構(gòu)。在視網(wǎng)膜血管圖像中,視網(wǎng)膜血管結(jié)構(gòu)和形態(tài)的改變是眼底病變最常見的形式。視網(wǎng)膜血管的血液循環(huán)受到其周圍的局部組織影響,往往是許多其他心腦血管疾病發(fā)生的原因。例如,糖尿病視網(wǎng)膜病變可以通過視網(wǎng)膜血管結(jié)構(gòu)的改變來診斷。它會(huì)導(dǎo)致失明,這意味著早期發(fā)現(xiàn)是至關(guān)重要的。高血壓是另一種視網(wǎng)膜疾病,高血壓性視網(wǎng)膜病變。高血壓患者血管曲度增加或血管狹窄。因此,視網(wǎng)膜血管分割的準(zhǔn)確性可作為相關(guān)疾病判斷的重要依據(jù)。但是人工分割視網(wǎng)膜血管不僅費(fèi)時(shí)費(fèi)力,還需要豐富的經(jīng)驗(yàn)和熟練的技能。因此,開發(fā)高精度、省時(shí)省力的計(jì)算機(jī)系統(tǒng)輔助視網(wǎng)膜血管檢測是目前廣泛需要的。
近年來,許多基于深度學(xué)習(xí)的方法被應(yīng)用于視網(wǎng)膜血管分割領(lǐng)域。并取得了不錯(cuò)的視網(wǎng)膜血管分割結(jié)果。Song Guo等[10]采用短連接來縮小輸出層之間的語義差距,命名為多尺度深度監(jiān)督網(wǎng)絡(luò)(multi-scale deeply supervised network,BTS-DSN)。Juntang Zhuang等[11]提出了一種具有多個(gè)編碼器和解碼器的網(wǎng)絡(luò)。它采用了跳躍連接,使網(wǎng)絡(luò)具有更多路徑的信息傳輸。M.Z.Alom等[12]提出了一種R2U-Net,他們將RNN和ResNet的結(jié)構(gòu)集成到了編碼器-解碼器結(jié)構(gòu)中。Changlu Guo等[13]提出了一種深度密集殘差網(wǎng)絡(luò)結(jié)構(gòu)(a deep dense residual network structure,DRNet)。該方法將殘差連接和密集連接的思想相結(jié)合應(yīng)用于視網(wǎng)膜圖像的血管分割。文獻(xiàn)[14]提出了利用atrous卷積(attention guided U-Net with atrous convolution,AA-UNet)的注意力引導(dǎo)U-Net,重復(fù)使用特征進(jìn)行血管分割。在文獻(xiàn)[15]中,提出了一種多路徑遞歸U網(wǎng)深度學(xué)習(xí)體系結(jié)構(gòu)。該結(jié)構(gòu)結(jié)合了遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò),對(duì)原有的U-Net和遞歸單元進(jìn)行了相應(yīng)的改進(jìn)。Xiaoyu Guo等[16]提出了在密集U-Net中使用Inception模塊進(jìn)行視網(wǎng)膜血管分割。Zhun Fan等[17]提出了一種采用不同于傳統(tǒng)卷積的卷積方式來獲取更多信息的方法。它可以更好地捕捉不同形狀和大小的視網(wǎng)膜血管。Aashis Khanal等[18]在網(wǎng)絡(luò)中使用動(dòng)態(tài)卷積學(xué)習(xí)更多的特征用于視網(wǎng)膜血管分割,從而提高對(duì)細(xì)小血管的檢測能力。
綜上所述,這些方法都是端到端的,沒有對(duì)低層特征進(jìn)行有效的利用。本文提出多層特征融合方法,充分利用了低層視覺特征,是視網(wǎng)膜血管分割的一種新思路。
本文提出了一種視網(wǎng)膜血管分割的多層次特征融合模型(圖1)。
圖1 MFFNet的網(wǎng)絡(luò)結(jié)構(gòu)
本文提出的多層特征融合模型包含兩個(gè)部分:包含連續(xù)記憶力模塊(CMB,Contiguous Memory Block)的編碼器和包含多層特征融合模塊(MFFB,Multilevel Feature Fusion Block)的解碼器。定義Iraw作為輸入和Iseg作為最后的輸出。在編碼器中,首先使用卷積層來從輸入的原始圖像捕獲特征F0。
F0=Oconv(Iraw)
(1)
式(1)中,Oconv是一個(gè)卷積運(yùn)算。F0用作第一個(gè)連續(xù)記憶力模塊(CMB)的輸入。MFFNet中采用了四個(gè)連續(xù)的記憶力模塊。定義Fd是dth連續(xù)記憶力模塊的輸出。
Fd=Ocmb,d(Fd-1)
(2)
式(2)中Ocmb,d是dth連續(xù)記憶力模塊的運(yùn)算,是一個(gè)包含卷積運(yùn)算和矯正線性單元(ReLU)的復(fù)合函數(shù)。其中,F(xiàn)d充分利用了連續(xù)記憶力模塊中的每個(gè)卷積層,因此編碼器實(shí)現(xiàn)了一種連續(xù)的記憶和存儲(chǔ)機(jī)制。關(guān)于連續(xù)記憶力模塊的更多細(xì)節(jié)將在2.2介紹。利用連續(xù)記憶力模塊捕獲特征后,得到一個(gè)充分利用所有卷積層信息的特征。將其用于解碼器中,設(shè)計(jì)一個(gè)用于上采樣的多層特征融合塊。最后,經(jīng)過一個(gè)卷積層,MFFNet的輸出可以由下式得到:
Iseg=OMFF(Iraw)
(3)
式(3)中OMFF 是整個(gè)MFFNet的操作。
這里的DP包含BN,Relu,1×1卷積和一個(gè)大小2×2的最大池化。
“所以平臺(tái)化+專業(yè)化,我認(rèn)為是陽光印網(wǎng)這樣的平臺(tái)和印刷企業(yè)合作的最佳的一個(gè)相互融合的模式?!睏畋笳f,除了共享、共生,他們還要與合作企業(yè)共融發(fā)展。
在下采樣過程中,本文采用了下面的特征傳遞方式,來學(xué)習(xí)更多關(guān)于低層特征的信息。圖2展示了連續(xù)記憶力模塊中特征傳遞的細(xì)節(jié),它是通過將前一個(gè)CMB的信息傳輸?shù)疆?dāng)前CMB的每一層,從而形成了一種連續(xù)記憶機(jī)制。
圖2 連續(xù)記憶力模塊結(jié)構(gòu)
Fd-1和Fd作為在dthCMB的輸入和輸出,它們有相同的特征圖G0。這意味著在CMB中保持相同的特征圖。dthCMB的cth卷積層的輸出可通過以下途徑獲取:
Fd,c=σ[Wd,c(Fd-1,Fd,1,Fd,2,…,Fd,c-1)]
其中σ代表ReLU函數(shù),Wd,c是Cth卷積層的權(quán)重。讓Fd,c有G0特征圖,G代表增長率。[Fd-1,Fd,1,Fd,2,…,Fd,c-1]是(d-1)thCMB中的特征, CMB中的卷積層1,2,…,c-1的輸出可以由G0 +(c-1)×G得到。輸出可以直接利用于所有后續(xù)層中的每一層,傳遞需要保存的特征。可以從下式得到:
Fd,c=Cd(Fd,1,Fd,2,…,Fd,c)
其中Cd表示在dthCMB中的連接操作,充分利用了現(xiàn)有CMB的低層次特征。最終的dthCMB輸出可通過下面方法得到:
Fd=R(Fd-1,Fd,c)
上式中R為ResNet的跳躍連接。最后,在下采樣過程中的最后一個(gè)CMB的輸出特征(F),將用于上采樣過程中的MFFB,計(jì)算方法如下:
F=σ[W(Fd)]=σ{W[R(Fd-1,Fd,c)]}
(4)
圖3是解碼器中的多層特征融合模塊,該模塊輸入有兩層特征。將下采樣過程中學(xué)習(xí)到的視覺特征稱之為低層特征,上采樣學(xué)習(xí)到的語義特征稱為高層特征。多層特征融合塊的左側(cè)是一個(gè)低層語義特征處理的過程,CMB對(duì)訓(xùn)練好的低層特征進(jìn)行調(diào)整。這個(gè)連續(xù)記憶力模塊有助于消除無效的特征并增強(qiáng)有用的低層特征。然后跟隨一個(gè)3×3的卷積學(xué)習(xí)一個(gè)新的權(quán)重特征融合。該操作可以通過以下方式獲取:
圖3 多層特征融合模塊
Flow-level=W(w0Fd-1,w1Fd-1,…,wcFd,c)
Fd,c是dthCMB下采樣特征學(xué)習(xí)過程得到的每個(gè)特征圖。W代表卷積運(yùn)算,也是特征的學(xué)習(xí)權(quán)值。
右邊是高層特征處理,通過卷積操作調(diào)節(jié)輸入的高級(jí)特征的權(quán)重,然后通過上采樣過程返回到與低層特征相同的通道數(shù)和維數(shù)。然后,對(duì)兩個(gè)層次特征進(jìn)行連接和加權(quán)。最后,在經(jīng)過CMB處理后,它將用于下一個(gè)MFFB。MFFB的輸出可以通過下式得到:
Fhigh-level=W(aFnew-high-level,bFlow-level)
Fnew-high-level是當(dāng)前多層特征融合塊的輸出,F(xiàn)low-level是下采樣過程學(xué)習(xí)的特征,a和b代表Fnew-high-level和Flow-level的權(quán)重。W是像原始U-Net一樣的連接操作。
在多層特征融合塊中采用連續(xù)記憶塊的原因是為了產(chǎn)生一種新的高級(jí)特征,然后對(duì)其進(jìn)行后處理以提高結(jié)果的準(zhǔn)確性??梢哉{(diào)節(jié)框架中每一層的權(quán)重,允許兩個(gè)層次的特征更有效地融合。但是,如果在CMB中直接連接輸入和輸出,將導(dǎo)致特征的數(shù)量增加,意味著更多的計(jì)算。為了解決這個(gè)問題,CMB的輸入并不直接與其輸出連接。在CMB的每一層中先采用1×1卷積,再采用3×3 卷積,以抑制特征圖數(shù)量的增加。一方面,經(jīng)過CMB學(xué)習(xí)后,低階特征的維數(shù)總是相同的。另一方面,通過上采樣使高層特征的通道數(shù)與低層特征通道數(shù)保持一致。down processing(DP)包括BN、Relu、1×1 conv和大小為2×2的max-pooling。上采樣是由一個(gè)步長為2的轉(zhuǎn)置卷積組成的。MFFNet的體系結(jié)構(gòu)見圖4。
圖4 MFFNet的網(wǎng)絡(luò)結(jié)構(gòu)
在不同的視網(wǎng)膜血管數(shù)據(jù)集上實(shí)驗(yàn),以檢查MFFNet的性能。
DRIVE:該數(shù)據(jù)集是從荷蘭糖尿病視網(wǎng)膜病變(DR)的一個(gè)篩查項(xiàng)目中收集的。像素為565×584,包含40張圖像。為了進(jìn)行訓(xùn)練,分成20張圖像進(jìn)行訓(xùn)練,20張圖像進(jìn)行測試。
CHASE_DB1:本數(shù)據(jù)集來自英國兒童聽力與健康協(xié)會(huì)的一個(gè)研究項(xiàng)目。像素為999×960,包含28張圖像。分成20張圖像進(jìn)行訓(xùn)練,其余8張圖像進(jìn)行測試。兩個(gè)數(shù)據(jù)集的具體信息見表1。
表1 DRIVE和CHASE_DB1
本文實(shí)驗(yàn)中使用的評(píng)估方法性能的指標(biāo)包括準(zhǔn)確度(AC)、靈敏度(SE)和特異性(SP)。不同指標(biāo)的計(jì)算如表2所示。
表2 本文使用的評(píng)價(jià)標(biāo)準(zhǔn)
其中TP為真陽性,表示有血管的區(qū)域分類正確。反之,如果該區(qū)域分類錯(cuò)誤,則命名為false negative(FN)。非血管區(qū)分類正確稱之為True negative(TN)。如果背景區(qū)域分類錯(cuò)誤,則稱為假陽性(FP)。
本文所有的實(shí)驗(yàn)都是在帶有GPU Titan X的windows PC上進(jìn)行的。其中,第一個(gè)卷積層是一個(gè)步長為2的7×7卷積,其他所有層的設(shè)置如圖4所示。本文實(shí)驗(yàn)使用的網(wǎng)絡(luò)層數(shù)如圖5所示。在這項(xiàng)工作中,設(shè)定的增長率(k)是16。
圖5 采用深度為4的MFFNet進(jìn)行視網(wǎng)膜血管分割
在實(shí)驗(yàn)結(jié)果可視化對(duì)比(圖6)中,展示了U-Net、U-Net+MFFB(在U-Net的上采樣過程中使用MFFB)和MFFNet在DRIVE和CHASE_DB1上的分割結(jié)果??梢钥闯觯琈FFNet的分割性能更好,檢測出了一些容易遺漏的細(xì)小結(jié)構(gòu)。表3顯示了U-Net、殘差U-Net、LadderNet、U-Net+MFFB和MFFNet在DRIVE和CHASE_DB1上的分割結(jié)果。結(jié)果表明:1)U-Net+MFFB和MFFNet的性能與其它模型對(duì)比都有所提升,證明了引入多層特征融合的策略是有效的。2)MFFNet的AC和AUC分別比U-Net在DRIVE和CHASE_DB1上的AC和AUC高1.59%/1.7%和0.97%/1.2%,證明包含了CMB和MFFB的MFFNet性能更好。在醫(yī)學(xué)圖像分割任務(wù)需要的高精度來講,改進(jìn)效果顯著。
圖6 在DRIVE和CHASE_DB1上的分割結(jié)果
表3 在DRIVE和CHASE_DB1上的測試結(jié)果
本文提出一種多層次特征融合網(wǎng)絡(luò)(MFFNet),該網(wǎng)絡(luò)能夠增強(qiáng)特征學(xué)習(xí)和傳輸,用于視網(wǎng)膜血管分割。本文設(shè)計(jì)的連續(xù)記憶力模塊意味著CMB的輸出可以直接利用下一個(gè)CMB中的每一層,CMB中的每一卷次層可以利用后面的每一層傳遞有用的特征。然后,提出一種多層特征融合塊來融合兩層特征。它不同于大多數(shù)直接連接低層特征和高層特征端到端方法,而是高效的提取低層視覺特征并將其與高層語義特征相融合從而提升分割性能。通過對(duì)所提出的MFFNet在DRIVE和CHASE_DB1數(shù)據(jù)集上進(jìn)行測試,可以發(fā)現(xiàn)與其他流行的方法相比,該方法在該分割任務(wù)上表現(xiàn)更好。