姜璐璐,李思聰,曹加旺,孫司琦,馮 瑞,,鄒海東,4
1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院,上海 200433)
2(上海交通大學(xué)附屬第一人民醫(yī)院,上海 200080)
3(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433)
4(蘇州市產(chǎn)業(yè)技術(shù)研究院,蘇州 215011)
血管系統(tǒng)是視網(wǎng)膜的基本結(jié)構(gòu),其形態(tài)學(xué)和拓?fù)浣Y(jié)構(gòu)的變化可以用來(lái)識(shí)別和分類系統(tǒng)性代謝和血液疾病的嚴(yán)重程度,例如糖尿病和高血壓[1].糖尿病性視網(wǎng)膜病變 (DR)是糖尿病的一種常見(jiàn)并發(fā)癥,是由視網(wǎng)膜微血管滲漏和阻塞導(dǎo)致的一系列眼底病變.DR 可引起新血管的生長(zhǎng),是否有異常新生血管也是判斷增殖性DR 與非增殖性DR 的標(biāo)準(zhǔn)[2].高血壓視網(wǎng)膜病變 (HR)是另一種常見(jiàn)的由高血壓引起的視網(wǎng)膜疾病[3].在高血壓患者中,可以觀察到血管彎曲度增加或血管狹窄[4].通過(guò)視網(wǎng)膜血管獲得的血管形狀和分叉的信息,可以增強(qiáng)對(duì)DR 或者HR 的監(jiān)測(cè).因此,分割視網(wǎng)膜血管對(duì)于一些嚴(yán)重疾病的早期診斷與治療具有重要意義.
現(xiàn)有的眼底視網(wǎng)膜成像技術(shù)有以下幾類: 彩色眼底照相 (FP)技術(shù)、眼底熒光素血管造影 (FFA)、光學(xué)相干斷層掃描 (OCT)以及眼底相干光層析血管成像(OCTA).彩色眼底照相是最常用的視網(wǎng)膜成像技術(shù),其優(yōu)點(diǎn)是獲取方式簡(jiǎn)單、圖像易于觀察.
傳統(tǒng)的無(wú)監(jiān)督方法一般包括: 濾波匹配法、區(qū)域生長(zhǎng)、血管跟蹤、閾值分割和圖像形態(tài)學(xué)處理等.這些傳統(tǒng)的無(wú)監(jiān)督方法不需要人工標(biāo)注,但這些方法依賴于手工提取特征進(jìn)行血管表示與分割.此外,此類算法存在分割精度不夠、泛化性較差等局限性.
與傳統(tǒng)的無(wú)監(jiān)督方法相比,深度卷積神經(jīng)網(wǎng)絡(luò)方法具有更強(qiáng)大的特征表征和學(xué)習(xí)能力,在醫(yī)學(xué)圖像分割任務(wù)中取得了最高水平[5].自2015年引入U(xiǎn)-Net[6]以來(lái),它已成為醫(yī)學(xué)影像分割中最具影響力的深度學(xué)習(xí)框架[7-10].其整體網(wǎng)絡(luò)采用編碼器-解碼器的結(jié)構(gòu),通過(guò)“跳躍連接”將不同分辨率的特征圖進(jìn)行通道融合產(chǎn)生較好的分割效果.盡管U-Net 具有良好的表示能力,但它依賴于多級(jí)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò).這種方法在重復(fù)提取低層特征時(shí)會(huì)導(dǎo)致計(jì)算資源的過(guò)度和冗余使用[11].
注意力機(jī)制被提出用于解決以上問(wèn)題,其模仿了人類視覺(jué)所特有的大腦信號(hào)處理機(jī)制,令網(wǎng)絡(luò)從大量信息中重點(diǎn)關(guān)注對(duì)任務(wù)結(jié)果更重要的區(qū)域,而抑制其他不重要的部分[12].在視網(wǎng)膜血管分割任務(wù)中,背景像素占比較大,而血管像素的占比小,因此可以采用注意力機(jī)制關(guān)注血管區(qū)域.卷積神經(jīng)網(wǎng)絡(luò)可以利用不同類型的注意力機(jī)制以關(guān)注重要的區(qū)域或者特征通道[13-18].例如,空間注意力機(jī)制[11,18]利用特征的空間關(guān)系生成空間注意力圖從而使網(wǎng)絡(luò)關(guān)注具有豐富信息的區(qū)域,通道注意力機(jī)制[13]通過(guò)顯式建模通道間的依賴關(guān)系來(lái)提高模型的性能.空間注意力和通道注意力的融合[15]也已成功地應(yīng)用于醫(yī)學(xué)分割領(lǐng)域.
然而,這些常用的方法是一階注意力機(jī)制,難以提取圖像中一些更為抽象的高階語(yǔ)義信息且不能充分利用到全圖像的信息,導(dǎo)致在處理形狀和結(jié)構(gòu)復(fù)雜的目標(biāo)時(shí)發(fā)生退化[19].尤其在視網(wǎng)膜血管分割任務(wù)中,由于血管形態(tài)結(jié)構(gòu)多變,以上方法仍欠缺對(duì)復(fù)雜和高階特征信息的捕獲能力.
本文提出了一種基于多尺度高階注意力機(jī)制的視網(wǎng)膜圖像分割方法(MHA-Net),可以明顯提高視網(wǎng)膜血管的分割精度.該方法采用改進(jìn)的U-Net 結(jié)構(gòu),并引入多尺度高階注意力模塊,對(duì)編碼器提取到的深層特征進(jìn)一步處理,聚焦于圖像的高階語(yǔ)義信息,從而改進(jìn)模型處理醫(yī)學(xué)圖像分割時(shí)尺度不變的缺陷.經(jīng)過(guò)在DRIVE[20]數(shù)據(jù)集上的實(shí)驗(yàn)證明,該方法有效地提高了分割的精度,同時(shí)對(duì)細(xì)小血管的分割也更為精細(xì).
空洞卷積(dilated convolution)[21,22]通過(guò)在卷積核相鄰兩個(gè)元素之間插入零值,在不增加參數(shù)量和計(jì)算成本的同時(shí)擴(kuò)大了感受野.受空洞空間金字塔池化(ASPP)[23]在語(yǔ)義圖像分割中的應(yīng)用啟發(fā),空洞卷積在醫(yī)學(xué)圖像分割中同樣得到了廣泛的應(yīng)用[17,24].但是,基于空洞卷積的分割方法都存在一個(gè)共同問(wèn)題,稀疏采樣會(huì)造成詳細(xì)信息的丟失,從而導(dǎo)致像素級(jí)分類不準(zhǔn)確.D-LinkNet[25]利用“短路連接(shortcut)”結(jié)合了文獻(xiàn)[21]的級(jí)聯(lián)模型與文獻(xiàn)[1]的并行模型.
之前的研究主要集中在通過(guò)增加在不同尺度特征圖上的感受野,從而直接提高分割網(wǎng)絡(luò)的性能.我們的工作與上述方法不同,我們利用空洞卷積對(duì)不同尺度的特征圖進(jìn)行采樣,并通過(guò)聚合這些多尺度的特征圖產(chǎn)生高階注意力圖,從而進(jìn)一步使網(wǎng)絡(luò)聚焦于更加抽象和全面的語(yǔ)義信息.
注意力機(jī)制的思想核心是通過(guò)計(jì)算權(quán)重矩陣而使網(wǎng)絡(luò)有選擇地關(guān)注具有重要信息的部分[12].Okty 等人[11]提出了用于醫(yī)療影像分割的注意力門控(attention gate,AG)模型,該模型可以自動(dòng)學(xué)習(xí)區(qū)分目標(biāo)的外形和尺寸,在小目標(biāo)分割任務(wù)中效果尤其顯著.不同于在跳躍連接中添加注意力門控(AG)的方法,SA-UNet[14]引入了一個(gè)空間注意力模塊,通過(guò)在空間維度計(jì)算注意力權(quán)重矩陣并與輸入的特征圖相乘,實(shí)現(xiàn)自適應(yīng)地細(xì)化特征.該方法是注意力模塊在U 形分割網(wǎng)絡(luò)降采樣后的深層特征圖上的一種應(yīng)用.Chen 等[19]首先提出了高階注意力模型,并將其應(yīng)用于行人重識(shí)別建模.該模型利用注意機(jī)制中形成的復(fù)雜高階統(tǒng)計(jì)量,捕捉行人之間的細(xì)微差異,從而產(chǎn)生區(qū)別性的關(guān)注建議.Ding 等[26]利用圖的傳遞閉包進(jìn)一步優(yōu)化高階注意力模塊,在此基礎(chǔ)上提出具有自適應(yīng)感受野和動(dòng)態(tài)權(quán)重的high-order attention (HA)模塊.HA 模塊通過(guò)圖的傳遞閉包構(gòu)建注意力圖,從而捕獲高階的上下文相關(guān)信息.
之前的一些工作(如文獻(xiàn)[13])通過(guò)在U 型網(wǎng)絡(luò)的底部引入注意力機(jī)制來(lái)進(jìn)一步挖掘深層次的特征.然而,這些網(wǎng)絡(luò)更多地關(guān)注了局部信息,而忽略深層特征中的全局信息.這導(dǎo)致盡管在提取深層特征時(shí)添加了幾種不同類型的注意力模塊,也不能有效地提高醫(yī)學(xué)圖像分割任務(wù)的性能.相反,模型的性能甚至?xí)杂邢陆?
本文的工作是在上述注意力機(jī)制[14,19,26]上的改進(jìn).在U 形網(wǎng)絡(luò)的多個(gè)降采樣塊之后所得的深層特征的噪聲相對(duì)較小,因此注意力模塊需要盡可能地挖掘深層特征中的全局信息.另一方面,與淺層特征相比,在深層特征中引入噪聲會(huì)對(duì)整個(gè)模型造成更大的損害.因此,本文設(shè)計(jì)了多尺度高階注意力(MHA)模塊,其在不引入噪聲的前提下引導(dǎo)網(wǎng)絡(luò)提取深層特征中的更為全局的信息,有效提高了視網(wǎng)膜血管中分割性能.
圖1 給出了基于多尺度高階注意力機(jī)制的視網(wǎng)膜圖像分割方法(MHA-Net)的網(wǎng)絡(luò)架構(gòu),其遵循了編碼器-解碼器的U 型結(jié)構(gòu).編碼器包含若干個(gè)下采樣塊和MHA 模塊,其中每個(gè)下采樣塊由1 個(gè)3×3 的卷積層、1 個(gè)批處理規(guī)范化層和一個(gè)ReLU 激活函數(shù)層組成,3 個(gè)下采樣塊連接在一起后緊跟一個(gè)2×2 的最大池化操作.在下采樣完成之后,將提取到的圖像深層次特征輸入到MHA 模塊進(jìn)行細(xì)化,MHA 模塊的位置放置于網(wǎng)絡(luò)底部,即U 型收縮路徑和擴(kuò)張路徑之間.在此處加入attention 模塊的原因是在靠前位置采集到的為低層次結(jié)構(gòu)信息,包含有許多噪聲.此外,加權(quán)的shortcut 被引入以保留原本的上下文信息.最后,經(jīng)過(guò)融合得到的特征圖通過(guò)編碼器產(chǎn)生最終的分割結(jié)果.解碼器部分使用反卷積[27]進(jìn)行上采樣操作.
圖1 MHA-Net 架構(gòu)圖
本文提出的多尺度高階注意力模塊如圖2 所示.在編碼器的底部,原始的特征圖Xin∈RH×W×C通過(guò)并行的共享權(quán)重的空洞卷積(膨脹率r分別為1,2,4,8),產(chǎn)生新的多尺度特征圖分為為Xr(r=1,2,4,8),通過(guò)1×1 卷積得到的特征圖為X*.將這些多尺度特征圖使用式(1)計(jì)算得到融合的多尺度注意力矩陣:
圖2 多尺度高階注意力(MHA)模塊
其中,1/C是用來(lái)控制數(shù)值爆炸的縮放因子.之后,利用圖的傳遞閉包計(jì)算了多尺度高階注意力矩陣A,m∈{1,2,···,n}.具體計(jì)算的細(xì)節(jié)將在第3.3 節(jié)討論.最后,將特征圖X*與歸一化的高階注意力矩陣相乘得到細(xì)化的特征圖Xm,如式(2):
Γθ代表1×1 卷積.在多尺度高階注意力模塊之后,將細(xì)化后的特征圖Xm乘上自適應(yīng)因子 α以抵消縮放因子1/C的偏移影響,如式(3):
深層特征圖在通過(guò)多尺度高階注意力模塊之后,提取了更加高階抽象的語(yǔ)義特征,也更具有區(qū)分力,從而更聚焦于血管的分割.之后,再通過(guò)解碼器模塊,逐漸從低分辨率重構(gòu)至高分辨率.
根據(jù)文獻(xiàn)[26],最初的多尺度注意力融合矩陣可以看做圖的鄰接矩陣,圖中的邊表示連接的兩個(gè)節(jié)點(diǎn)屬于同一類.如圖3 所示,給定注意力圖,通過(guò)閾值化刪去低置信度的邊后形成下采樣的圖如式(4):
圖3 三階高階注意力傳播原理圖: 以黃色點(diǎn)為中心點(diǎn)通過(guò)圖的傳遞閉包進(jìn)行傳播
其中,δ代表閾值,設(shè)置為0.5.如圖4 所示,根據(jù)圖的傳遞閉包,可以通過(guò)鄰接矩陣自乘m-1 次得到:
其中,m表示鄰接矩陣冪次的整數(shù),代表注意力傳播的階數(shù).因此,不同層次的注意力信息通過(guò)解耦成不同的注意圖并得到高度相關(guān)的鄰居.生成的高階注意圖用于聚合多層次的上下文信息.
本文使用的數(shù)據(jù)集是DRIVE (digital retinal image for vessel extraction)[20].該數(shù)據(jù)集包含40 張圖像像素尺寸為584×565 的彩色眼底圖像,其中訓(xùn)練集與測(cè)試集各20 張.為擴(kuò)充數(shù)據(jù),避免訓(xùn)練樣本過(guò)少可能造成的過(guò)擬合問(wèn)題,我們對(duì)訓(xùn)練樣本隨機(jī)采樣256×256 的patch.此外,使用隨機(jī)翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、彈性形變等方法進(jìn)行數(shù)據(jù)增強(qiáng).本文使用PyTorch 框架[28],批量設(shè)置為 16,采用Adam 算法[29]優(yōu)化模型,學(xué)習(xí)率設(shè)置為0.000 1.動(dòng)量和權(quán)重衰減因子分別設(shè)置為0.9 和0.999.
為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行客觀的定量分析,選取以下指標(biāo)進(jìn)行計(jì)算: Dice 系數(shù)(DSC)、準(zhǔn)確率(ACC)、敏感度(SE)、特異性(SP)和ROC 曲線下面積AUC.AUC 的范圍在0-1 之間,AUC 越逼近 1,其模型預(yù)測(cè)能力越高.評(píng)價(jià)指標(biāo)的計(jì)算方式如下:
其中,X代表金標(biāo)準(zhǔn),Y代表預(yù)測(cè)結(jié)果.真陽(yáng)性TP為正確分類的血管像素個(gè)數(shù),真陰性TN正確分類的背景點(diǎn)像素個(gè)數(shù),假陽(yáng)性FP為背景像素誤分成血管像素的個(gè)數(shù),假陰性FN為血管像素誤分成背景像素的個(gè)數(shù).
本文算法性能在DRIVE 數(shù)據(jù)集上評(píng)估,圖4 展示了部分分割結(jié)果.圖4(a)為原始圖像,圖4(b)為金標(biāo)準(zhǔn)圖像,圖4(c)為本文算法的分割結(jié)果,從結(jié)果可以看出,本文算法整體分割效果良好,平滑度也優(yōu)于金標(biāo)準(zhǔn).同時(shí),本文算法細(xì)節(jié)上表現(xiàn)優(yōu)秀,保持了微血管的連通性,說(shuō)明本文中采取的注意力機(jī)制能夠關(guān)注到重要的血管區(qū)域.
圖4 DRIVE 數(shù)據(jù)集分割結(jié)果
為了驗(yàn)證本文所提出的模型性能的優(yōu)越性,表1將本文算法與近兩年最先進(jìn)的血管分割算法的各項(xiàng)指標(biāo)進(jìn)行對(duì)比,其中加粗字體部分為每項(xiàng)最優(yōu)指標(biāo).
表1 DRIVE 數(shù)據(jù)集上不同算法分割性能比較
結(jié)果表明,本文提出的多尺度高階注意力方法MHA-Net 取得了優(yōu)異的表現(xiàn),其Dice 系數(shù)、靈敏度和AUC 分別達(dá)到了0.826 6、0.831 2 和0.988 3,在所有方法中表現(xiàn)最優(yōu).本文算法在保證高準(zhǔn)確率的同時(shí),有著良好的敏感度,這意味著分割結(jié)果盡可能地保留血管信息,分割得到的血管連續(xù)完整.綜上所述,本文算法整體性能優(yōu)于現(xiàn)有算法.
為了證明提出的多尺度高階注意力(MHA)模塊的有效性,在DRIVE 數(shù)據(jù)集上還進(jìn)行了消融實(shí)驗(yàn).表2展示了U-Net、U-Net+MHA、Backbone、Backbone+HA 以及MHA-Net 的分割性能.其中U-Net+MHA 表示在U-Net 基礎(chǔ)上引入MHA 模塊的網(wǎng)絡(luò),Backbone表示在本文使用的骨干網(wǎng)絡(luò),Backbone+HA 表示與本文相同的骨干網(wǎng)絡(luò)上引入原始的高階注意力HA 模塊,MHA-Net 為本文算法,相當(dāng)于Backbone+MHA,即在本文使用的骨干網(wǎng)絡(luò)上引入多尺度高階注意力MHA 模塊.
表2 DRIVE 數(shù)據(jù)集上的消融實(shí)驗(yàn)
結(jié)果表明: (1)U-Net+MHA 比U-Net 有更好的性能,準(zhǔn)確率提高0.07%,敏感度提高1.56%,AUC 提高0.20%,這證明了本文提出的多尺度高階注意(MHA)模塊的有效性.(2)MHA-Net 在準(zhǔn)確率、靈敏度和AUC 指標(biāo)上都優(yōu)于Backbone+HA,這表明多尺度高階注意力模塊對(duì)多尺度上下文特征信息捕捉能力更強(qiáng),對(duì)復(fù)雜結(jié)構(gòu)的血管圖像有更強(qiáng)的特征提取能力.(3)本文提出的MHA-Net 在大多數(shù)指標(biāo)上都表現(xiàn)最好,在視網(wǎng)膜血管分割領(lǐng)域全面優(yōu)于U-Net,說(shuō)明該網(wǎng)絡(luò)模型的合理性和優(yōu)越性.
此外,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了可視化分析,如圖5 所示,從左至右依次是原始圖、金標(biāo)準(zhǔn)、U-Net 分割結(jié)果、Backbone+HA 分割結(jié)果以及MHA-Net (本文)分割結(jié)果.我們放大了微血管,本文提出的MHA-Net 分割結(jié)果更加精細(xì),在血管末也未出現(xiàn)粘連或者斷裂的情況.
圖5 DRIVE 數(shù)據(jù)集分割結(jié)果對(duì)比
本文針對(duì)視網(wǎng)膜血管分割任務(wù)中血管粗細(xì)不勻、形狀多變、微小血管易斷裂等問(wèn)題,本文提出多尺度高階注意力(MHA)機(jī)制以自適應(yīng)地挖掘深層次特征.MHA-Net 以端到端方式進(jìn)行視網(wǎng)膜血管分割訓(xùn)練,并通過(guò)MHA 模塊學(xué)習(xí)到具有鑒別性的特征.在DRIVE上的實(shí)驗(yàn)表明,本文提出的算法取得了優(yōu)越的分割性能.同時(shí),MHA 模塊可以即插即用,在各種醫(yī)學(xué)影像分割任務(wù)中適用.后續(xù)的工作將嘗試把多尺度高階注意力機(jī)制運(yùn)用到三維的影像分割中.