孫 穎 丁衛(wèi)平 黃嘉爽 鞠恒榮 李 銘 耿 宇
(南通大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇南通 226019)
(17805056265@163.com)
眼健康作為國(guó)民健康中的重要組成部分,涉及到公共衛(wèi)生和社會(huì)領(lǐng)域的民生福祉,引起了國(guó)家健康委的高度重視[1].視網(wǎng)膜血管中蘊(yùn)含豐富的形態(tài)特征,如血管直徑、旁支角度、尺寸和彎曲度等[2].各種眼科疾病以及心腦血管疾病都會(huì)導(dǎo)致視網(wǎng)膜血管出現(xiàn)形態(tài)結(jié)構(gòu)變化、出血等不同程度的病變,從而導(dǎo)致視力受損[3],所以在臨床上醫(yī)生廣泛使用眼底圖像來分析視網(wǎng)膜血管的形態(tài)變化并輔助診斷各種眼科及心腦血管等疾病具有重要意義[4]. 然而眼底圖像中視網(wǎng)膜血管分布密集而無規(guī)律,存在大量易與背景混淆、對(duì)比度較低的細(xì)小血管,血管邊界模糊不清,同時(shí)易受采集設(shè)備和光照以及病變組織的影響[5]. 這些問題使得臨床上手動(dòng)分割視網(wǎng)膜血管不僅工作量巨大而且對(duì)醫(yī)療人員的經(jīng)驗(yàn)和技能要求頗高. 此外,不同專家對(duì)同一張圖像的血管提取也存在主觀上的差異,手動(dòng)分割已不能滿足臨床的需要.
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,實(shí)現(xiàn)眼底視網(wǎng)膜血管的智能分割并對(duì)眼科疾病進(jìn)行輔助診斷和決策,成為國(guó)內(nèi)外學(xué)者關(guān)注的研究熱點(diǎn). 深度學(xué)習(xí)憑借其在識(shí)別應(yīng)用中超高的預(yù)測(cè)準(zhǔn)確率,在圖像處理領(lǐng)域獲得了極大關(guān)注[6-9]. 與傳統(tǒng)方法相比,深度學(xué)習(xí)模型能夠以端到端的方式自動(dòng)提取特征.全卷積神經(jīng)網(wǎng)絡(luò)[10-11](fully convolutional network,F(xiàn)CN)是首個(gè)應(yīng)用于圖像語(yǔ)義分割任務(wù)的神經(jīng)網(wǎng)絡(luò),在此基礎(chǔ)上形成目前分割任務(wù)中最流行的編解碼結(jié)構(gòu)[12-13]. 而U-Net模型不僅具有編解碼結(jié)構(gòu),同時(shí)在U 型對(duì)稱層之間添加跳躍連接,實(shí)現(xiàn)低層特征和高層特征的拼接和融合,在圖像分割領(lǐng)域有顯著的優(yōu)勢(shì),在醫(yī)學(xué)圖像分割領(lǐng)域獲得較好的效果. 何慧等人[14]利用改進(jìn)預(yù)測(cè)編碼器U-Net 模型實(shí)現(xiàn)PET 腫瘤的自動(dòng)分割,實(shí)現(xiàn)了更準(zhǔn)確、快速、穩(wěn)定的腫瘤分割,分割結(jié)果可以達(dá)到金標(biāo)準(zhǔn)的88.5%;Rundo 等人[15]為了解決前列腺區(qū)域分割任務(wù),將Squeeze-and-Excitation 塊合并到U-Net中,提出了一種新的卷積神經(jīng)網(wǎng)絡(luò),稱為USE-Net;Jin 等人[16]將可變形卷積集成到U-Net 模型中,提出DUNet 網(wǎng)絡(luò)模型,根據(jù)血管的大小和形狀自適應(yīng)地調(diào)節(jié)感受野來捕獲各種形狀和大小的視網(wǎng)膜血管等.
Attention 機(jī)制是模仿人類注意力而提出的一種解決問題的方法,是一種能讓模型對(duì)與任務(wù)相關(guān)的重要信息重點(diǎn)關(guān)注的技術(shù),能夠作用于任何序列模型,其應(yīng)用領(lǐng)域包括文本、圖片等. Basiri 等人[17]將Attention 機(jī)制和長(zhǎng)短期記憶模型相融合,提出一種基于注意力的雙向CNN-RNN(convolutional neural networkrecurrent neural network)深度模型用于情感分析;Haut等人[18]將Attention 機(jī)制和殘差網(wǎng)絡(luò)模型相結(jié)合用于分析遙感高光譜圖像,得到更為準(zhǔn)確的分類準(zhǔn)確率.
進(jìn)一步地,將符合人類視覺機(jī)制的Attention 機(jī)制與能夠?qū)崿F(xiàn)低層特征和高層特征融合的U-Net 模型相結(jié)合,實(shí)現(xiàn)對(duì)顯著性區(qū)域的關(guān)注,在醫(yī)學(xué)圖像分割中廣泛應(yīng)用. Guo 等人[19]開發(fā)了一個(gè)3D 深度注意力U-Net,從冠狀動(dòng)脈計(jì)算機(jī)斷層掃描血管造影中分割左心室心肌輪廓;Cui 等人[20]將注意力機(jī)制和UNet 模型相結(jié)合,在短軸磁共振成像圖像中進(jìn)行心臟分割. 基于注意力機(jī)制的U-Net 模型在眼底視網(wǎng)膜血管分割中也取得不錯(cuò)效果[21-24],Guo 等人[21]提出了一種空間注意力U-Net 的輕量級(jí)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)視網(wǎng)膜血管的精確分割;Tang 等人[22]提出多尺度的通道注意力模塊和空間信息定位模塊來提高血管末端的分割準(zhǔn)確率.
上述模型與方法將Attention 機(jī)制融合U-Net 網(wǎng)絡(luò)用于眼底視網(wǎng)膜血管分割中仍然存在一定的不足,視網(wǎng)膜血管分布密集、雜亂且形狀不規(guī)則,血管粗細(xì)不一,存在大量細(xì)小血管,血管邊界不清晰,且易受采集設(shè)備和光照以及病變組織等噪聲的影響,上述模型無法解決血管邊界的不確定性和細(xì)小血管的分割. 為彌補(bǔ)該不足之處,本文引入能有效分析不精確、不一致、不完整等各種不完備信息的粗糙集理論中上下近似概念設(shè)計(jì)粗糙神經(jīng)元,對(duì)特征通道依賴關(guān)系進(jìn)行合理粗糙化.
本文針對(duì)視網(wǎng)膜血管分布密集而雜亂,存在大量對(duì)比度低的細(xì)小血管,血管邊界模糊,且易受采集設(shè)備和光照以及病變區(qū)域等噪聲影響的特點(diǎn),提出一種粗糙通道注意力殘差U 型網(wǎng)絡(luò)(RCAR-UNet),有效提高對(duì)細(xì)微血管的分割精度. 該網(wǎng)絡(luò)以U-Net 模型為主干,首先引入粗糙集上下近似概念設(shè)計(jì)粗糙神經(jīng)元. 然后利用粗糙神經(jīng)元對(duì)每一層下采樣視網(wǎng)膜血管特征圖建立通道之間的依賴關(guān)系,構(gòu)建粗糙通道注意力機(jī)制,將全局最大池化和全局平均池化分別作為通道重要性權(quán)重的上下近似神經(jīng)元,將全局平均池化作為通道重要性權(quán)重的下近似神經(jīng)元,對(duì)每個(gè)通道重要性權(quán)重設(shè)置上下限,并對(duì)上下限賦予自適應(yīng)權(quán)重系數(shù),進(jìn)行神經(jīng)元間加權(quán)求和,得到更加合理的Attention 系數(shù);對(duì)下采樣的視網(wǎng)膜血管特征圖進(jìn)行特征的重標(biāo)定,并與U-Net 模型對(duì)稱層的上采樣視網(wǎng)膜血管特征圖進(jìn)行高低層特征之間的拼接融合. 最后為解決經(jīng)典U-Net 網(wǎng)絡(luò)的退化問題,在該模型中添加殘差連接,實(shí)現(xiàn)將低層視網(wǎng)膜特征直接傳遞給高層,可有效提取更加準(zhǔn)確的視網(wǎng)膜血管特征.
粗糙集于1982 年由波蘭數(shù)學(xué)家Pawlak[25]提出,是一種可以定量分析處理不精確、不一致、不完整信息與知識(shí)的數(shù)學(xué)工具.粗糙集理論基于不可分辨關(guān)系[26]對(duì)數(shù)據(jù)進(jìn)行劃分,利用上下近似集對(duì)目標(biāo)進(jìn)行描述,形成正域、負(fù)域和邊界域3 個(gè)互不重疊的區(qū)域[27].
假設(shè)決策信息系統(tǒng)表示為S=(U,AT,f,V),其中,U={x1,x2,…,xn}表示非空有限對(duì)象集合,n表示系統(tǒng)中對(duì)象的個(gè)數(shù);AT表示信息系統(tǒng)的屬性集合,它由條件屬性集合C和決策屬性集合D共同組成;表 示所有屬性的值域;f:U×AT→V表示信息函數(shù),?a∈AT, x∈U ,f(x,a)∈Va.
粗糙集可以通過上、下近似集對(duì)目標(biāo)概念X進(jìn)行逼近. 粗糙集在屬性集合R?A對(duì)論域U的任意對(duì)象子集X中的對(duì)象進(jìn)行上、下近似集的劃分,那么X基于屬性集合R的上近似集R(X)和下近似集R(X)定義為
目標(biāo)概念X基于屬性集合R的正域POSR(X)、負(fù)域NEGR(X)和邊界域BNDR(X)定義為
正域POSR(X)表示論域U中基于不可分辨關(guān)系R一定屬于目標(biāo)概念X的對(duì)象集合;負(fù)域NEGR(X)表示論域U中基于不可分辨關(guān)系R一定不屬于目標(biāo)概念X的對(duì)象集合;邊界域BNDR(X)表示論域U中基于不可分辨關(guān)系R可能屬于目標(biāo)概念X,也可能不屬于目標(biāo)概念X的對(duì)象集合. 邊界域BNDR(X)描述了X的粗糙度,若BNDR(X)=?,說明其是精確的集合;若BNDR(X)≠?,說明其是粗糙集.
Attention U-Net 模型以U-Net 編解碼的U 形網(wǎng)絡(luò)結(jié)構(gòu)為主干,其中U-Net 網(wǎng)絡(luò)結(jié)構(gòu)包括:
1) 收縮路徑(編碼器)包括卷積層、激活層和池化層. 卷積層具有局部感知、參數(shù)共享等特性,用于圖像局部特征的自動(dòng)提??;激活層的輸出都是對(duì)上一層輸入的線性映射,常用激活函數(shù)ReLu 和激活函數(shù)Sigmoid;池化層則是對(duì)所提取的特征進(jìn)行數(shù)據(jù)的降維和壓縮操作,常用平均池化和最大池化.
2) 擴(kuò)展路徑(解碼器)包括反卷積層和卷積層,經(jīng)過下采樣特征圖尺寸會(huì)越來越小,所以上采樣主要用于恢復(fù)特征圖的細(xì)節(jié)和尺寸.
3) 在上采樣和下采樣的同層結(jié)構(gòu)中添加跳躍連接,將高層圖像特征信息與低層圖像特征信息相聯(lián)合,實(shí)現(xiàn)上下特征信息的融合.
U-Net 模型最主要的思想是在收縮路徑上捕獲全局特征,在擴(kuò)展路徑上實(shí)現(xiàn)精確定位. 為解決擴(kuò)展路徑的上采樣過程中重建的空間信息不精確問題,使用跳躍連接將下采樣的空間信息與上采樣的空間信息相結(jié)合,然而跳躍連接也帶來了許多冗余的底層特征,造成大量的無效計(jì)算,浪費(fèi)大量的計(jì)算資源.對(duì)此,Oktay 等人[28]將注意力門作用于U-Net 模型的跳躍連接中,提出Attention U-Net 模型,該模型能夠有效地抑制不相關(guān)區(qū)域中的激活,從而減少冗余特征的數(shù)量,并且不會(huì)引入大量的參數(shù)和計(jì)算量,得到更加符合人類視覺機(jī)制的網(wǎng)絡(luò)模型,其結(jié)構(gòu)如圖1所示. 同一張圖像的不同區(qū)域關(guān)注度不同,對(duì)此,通過注意力門系數(shù)控制關(guān)注區(qū)域,得到更加具有語(yǔ)義的特征圖. 注意力門具體結(jié)構(gòu)如圖2 所示. 將收縮路徑得到的特征圖g∈與擴(kuò)展路徑中同層通道數(shù)相同的特征圖p∈相加,經(jīng)過一系列的線性變換,得到注意力系數(shù)A∈將其與特征圖p相乘,實(shí)現(xiàn)對(duì)特征圖p的不同區(qū)域特征值的重新標(biāo)定,得到新的特征圖p′.
Fig.1 Attention U-Net network architecture圖1 Attention U-Net 網(wǎng)絡(luò)結(jié)構(gòu)
Fig.2 Attention gate architecture圖2 注意力門結(jié)構(gòu)
圖像信息復(fù)雜多樣,其內(nèi)容蘊(yùn)含著諸如隨機(jī)性、模糊性等不確定性信息,例如眼底視網(wǎng)膜血管分布雜亂,形狀不規(guī)則并且邊緣模糊不清,且易受采集設(shè)備和光照以及病變影響,這些眼底視網(wǎng)膜血管圖像中蘊(yùn)含的不確定信息使得深度神經(jīng)網(wǎng)絡(luò)效果不佳. 1996年,Lingras[29]使用上下界的一般概念引入了粗糙神經(jīng)網(wǎng)絡(luò). 深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)復(fù)雜特征方面的成功以及粗糙神經(jīng)網(wǎng)絡(luò)處理不確定性的能力,促進(jìn)了將粗糙神經(jīng)網(wǎng)絡(luò)與深度架構(gòu)相結(jié)合[30-31].
上下限的概念已在人工智能的各種應(yīng)用中使用,特別是粗糙集理論中上下近似集證明了上下限在規(guī)則生成中的有效性,粗糙集理論利用上下近似集對(duì)目標(biāo)概念進(jìn)行逼近,本文引入粗糙集的上下近似集的思想,構(gòu)建上下近似神經(jīng)元對(duì)注意力模塊所得的注意力系數(shù)進(jìn)行合理粗糙化,粗糙神經(jīng)元[32-35]結(jié)構(gòu)如圖3 所示.
上近似神經(jīng)元的參數(shù)θU={WU,bU,α},下近似神經(jīng)元的參數(shù)θL={WL,bL,β},其中WU,bU表示上近似神經(jīng)元的權(quán)重和偏差,WL,bL表示下近似神經(jīng)元的權(quán)重和偏差. 圖3 中OU,OL表示上下近似神經(jīng)元的輸出.與常規(guī)神經(jīng)元的單個(gè)輸出值不同的是,粗糙神經(jīng)元的輸出是一對(duì)上下限,其計(jì)算公式為:
Fig.3 Rough neuron architecture圖3 粗糙神經(jīng)元結(jié)構(gòu)
最終給定上下邊界神經(jīng)元一定的權(quán)重 α 和 β,加權(quán)求和得到最終粗糙神經(jīng)元的輸出O,表示為
粗糙神經(jīng)元是對(duì)輸入的數(shù)值映射為一個(gè)粗糙的范圍,最后的輸出取決于上下神經(jīng)元的輸出,對(duì)于不同的輸出賦予一定的權(quán)重值,以區(qū)分不同神經(jīng)元對(duì)最終輸出的貢獻(xiàn). 該方法能夠?qū)斎氲拇_定數(shù)值粗糙化,對(duì)確定性的數(shù)值進(jìn)行重標(biāo)定,得到更合理、準(zhǔn)確的輸出值.
特征圖的通道數(shù)取決于卷積操作中卷積核的個(gè)數(shù),以往認(rèn)為得到的多通道特征圖中每個(gè)通道所蘊(yùn)含的信息重要程度相同,即不對(duì)特征通道的重要性加以區(qū)分. 然而同一張圖像的不同區(qū)域關(guān)注度不同,同樣,每個(gè)特征通道的關(guān)注度也有所差異. 例如1 張眼底視網(wǎng)膜血管圖像有2 個(gè)通道,分割目標(biāo)是血管,那么會(huì)更加關(guān)注與分割任務(wù)相關(guān)的血管通道,也就是需要賦予每個(gè)特征通道一個(gè)表征通道蘊(yùn)含信息重要度的權(quán)重,以此對(duì)不同特征通道信息加以區(qū)分. 將表征每個(gè)特征通道信息重要性的權(quán)重與原特征圖對(duì)應(yīng)的每個(gè)通道相乘得到的對(duì)應(yīng)值就是真實(shí)的特征圖值.
為了建立特征通道之間的關(guān)系,引用一個(gè)新的維度信息來表征特征通道重要度,進(jìn)行特征通道之間的融合,即通過訓(xùn)練網(wǎng)絡(luò)參數(shù)的方式計(jì)算每個(gè)特征通道信息的重要性權(quán)重,依照所得到的特征通道重要性權(quán)重提升與當(dāng)前分割任務(wù)相關(guān)的特征并抑制對(duì)當(dāng)前分割任務(wù)無關(guān)的特征. 通道注意力機(jī)制[36-38]主要包括激勵(lì)部分,其結(jié)構(gòu)如圖4 所示.
Fig.4 Channel attention mechanism圖4 通道注意力機(jī)制
首先是壓縮操作,對(duì)特征通道維度進(jìn)行特征圖的壓縮,通過全局池化,將維度為Hp×Wp×C的特征圖的每個(gè)通道的2 維數(shù)據(jù)轉(zhuǎn)化為一個(gè)實(shí)數(shù) R;然后是激勵(lì)操作,包括2 層全連接:第1 個(gè)全連接層是把C個(gè)通道壓縮成C/r個(gè)通道來減少模型所需的參數(shù)和計(jì)算時(shí)間,第2 個(gè)全連接層將特征圖恢復(fù)為C個(gè)通道,使模型更加非線性,更好地適應(yīng)通道之間的復(fù)雜關(guān)系,激活函數(shù)ReLu 降低了梯度消失的概率,激活函數(shù)Sigmoid 使C中每個(gè)通道的特征權(quán)值在0~1 之間;最后是特征重標(biāo)定,重新計(jì)算特征通道值,通過權(quán)值乘法運(yùn)算完成特征通道內(nèi)對(duì)原始各個(gè)特征通道重要程度的重新標(biāo)定,并作為下一級(jí)的輸入數(shù)據(jù).
基于粗糙神經(jīng)元和通道注意力機(jī)制,提出粗糙通道注意力機(jī)制模塊,并將其嵌入到U-Net 模型的跳躍連接中. RCAR-UNet 模型結(jié)構(gòu)分別如圖5 和表1 所示.
在U-Net 模型的特征編碼部分,構(gòu)建一個(gè)簡(jiǎn)單的特征提取模塊包括:殘差連接的2 個(gè)3×3的卷積層和1 個(gè)2×2的最大池化層. 加入殘差連接是因?yàn)闅埐钸B接能夠?qū)崿F(xiàn)將低層特征直接傳播到高層,在一定程度上解決了網(wǎng)絡(luò)退化的問題,以此提高模型性能.
Fig.5 Architecture of RCAR-UNet圖5 RCAR-UNet 模型結(jié)構(gòu)
Table 1 U-Net Model Architecture Based on Rough Channel Attention表1 基于粗糙通道注意力U-Net 模型結(jié)構(gòu)
在特征解碼部分,使用粗糙通道注意力機(jī)制來融合特征圖的上下語(yǔ)義信息,以便生成更具代表性的特征圖.粗糙通道注意力機(jī)制融合了粗糙神經(jīng)元處理不確定信息的能力和通道注意力機(jī)制能夠區(qū)分不同特征通道重要性的優(yōu)點(diǎn). 通道注意力機(jī)制可以實(shí)現(xiàn)對(duì)特征圖不同特征通道重要度的區(qū)分,一般選用全局平均池化對(duì)特征圖進(jìn)行壓縮,建立特征通道之間的關(guān)系,其值在一定程度上具有全局感受野. 然而視網(wǎng)膜血管粗細(xì)不一,存在大量對(duì)比度較低的細(xì)微血管,其結(jié)構(gòu)細(xì)長(zhǎng),只有一個(gè)或者幾個(gè)像素的寬度,局部圖像細(xì)節(jié)信息也不容忽視,因此加以利用全局最大池化對(duì)特征圖進(jìn)行壓縮,使得其值在一定程度上具有局部感受野. 對(duì)此,本文在構(gòu)建粗糙神經(jīng)元時(shí),使用全局最大池化和全局平均池化作為上下近似神經(jīng)元對(duì)特征通道重要性進(jìn)行上下限描述,使得Attention系數(shù)值兼具全局信息和局部細(xì)節(jié)信息.在此基礎(chǔ)上進(jìn)行特征重標(biāo)定,得到新的視網(wǎng)膜血管特征圖. 設(shè)計(jì)粗糙通道注意力機(jī)制結(jié)構(gòu)如圖6 所示.
Fig.6 Rough channel attention mechanism圖6 粗糙通道注意力機(jī)制
對(duì)高低特征圖進(jìn)行相加操作,得到融合特征圖.表示為
利用全局最大池化層建立通道間的依賴關(guān)系,并保留全局信息,表示為
其中0
利用全局平均池化層建立通道之間的依賴關(guān)系,并保留局部信息,表示為
其中0
分別對(duì)全局平均池化和全局最大池化的2 個(gè)1×1×C的張量進(jìn)行激勵(lì)操作:第1 個(gè)全連接層是把C個(gè)通道壓縮成C/r個(gè)通道來減少模型所需的參數(shù)和計(jì)算時(shí)間;第2 個(gè)全連接層將特征圖恢復(fù)為C個(gè)通道,使模型更加非線性,更好地適應(yīng)通道之間的復(fù)雜關(guān)系,r是指壓縮的比例,本文設(shè)置r=16.激活函數(shù)ReLu 降低了梯度消失的概率,激活函數(shù)Sigmoid使C中每個(gè)通道的特征權(quán)值在0~1 之間,得到Attention 系數(shù)的上下限值,分別表示為
為了使得通道之間的依賴關(guān)系既包含全局信息,又包含局部細(xì)節(jié)信息.對(duì)所得到的通道重要性值的上下限進(jìn)行加權(quán)操作,得到新的通道之間的依賴關(guān)系:
其中α,β分別表示上下神經(jīng)元的權(quán)重信息.
利用輸出的通道之間的依賴關(guān)系對(duì)特征圖進(jìn)行重新標(biāo)定,得到新的特征圖表示:
在U-Net 模型的特征解碼部分,首先構(gòu)建一個(gè)簡(jiǎn)單的恢復(fù)特征模塊包括:一個(gè)2×2上采樣層和殘差連接的2 個(gè)3×3的卷積層;然后因?yàn)樵撊蝿?wù)包含血管類和非血管類2 類,所以在恢復(fù)特征尺寸后使用2 個(gè)1×1的卷積核進(jìn)行卷積操作得到一個(gè)通道數(shù)為2 的特征圖,一個(gè)通道表示血管類,另一個(gè)通道表示非血管類;最后使用Softmax層輸出每個(gè)像素屬于血管類的概率.
眼底圖像分割的過程如算法1 所示.
算法1.RCA-UNet 模型的視網(wǎng)膜血管分割算法.
輸入:彩色眼底視網(wǎng)膜血管圖像input∈RH×W×3、掩碼圖mask∈RH×W×1;
輸出:視網(wǎng)膜血管分割圖out put∈RH×W×2.
1)對(duì)視網(wǎng)膜血管原圖input∈RH×W×3進(jìn)行灰度化、自適應(yīng)均衡化等預(yù)處理,得到視網(wǎng)膜血管預(yù)處理圖input′∈RH×W×1;
2)以步長(zhǎng)patch_stride從視網(wǎng)膜血管預(yù)處理圖input′∈RH×W×1中進(jìn)行視網(wǎng)膜血管圖像子塊patch_image∈的劃分,保證視網(wǎng)膜血管圖像子塊覆蓋視網(wǎng)膜血管圖;
3)將視網(wǎng)膜血管圖像子塊patch_image∈輸入到訓(xùn)練好的RCAR-UNet 模型中,得到視網(wǎng)膜血管子塊圖patch_out put∈,其具體步驟為:
①利用卷積操作和殘差連接提取眼底視網(wǎng)膜血管特征.
②利用最大池化對(duì)眼底視網(wǎng)膜血管特征進(jìn)行降維.
③利用粗糙通道注意力機(jī)制求得較為合理的Attention 系數(shù)對(duì)收縮路徑提取的視網(wǎng)膜血管特征進(jìn)行準(zhǔn)確重標(biāo)定.
④利用上采樣操作恢復(fù)視網(wǎng)膜血管特征圖的尺寸,直到網(wǎng)絡(luò)輸入的視網(wǎng)膜血管圖尺寸保持一致為止.1×1
⑤采用2 個(gè)的卷積核進(jìn)行操作得到通道為2 的視網(wǎng)膜血管特征圖;
⑥利用Softmax 層得到視網(wǎng)膜血管特征圖中的每個(gè)像素點(diǎn)屬于血管類別和非血管類別的概率;
⑦設(shè)置閾值θ=0.5,如果視網(wǎng)膜血管特征圖中的像素點(diǎn)屬于血管類的概率值大于θ,則屬于血管類;反之,屬于非血管類.
4)將視網(wǎng)膜血管圖像子塊patch_out put∈按照提取順序進(jìn)行圖像拼接,得到完整的視網(wǎng)膜血管分割圖out put′∈
5)對(duì)視網(wǎng)膜血管掩碼mask∈RH×W×1進(jìn)行通道的修改,使其通道數(shù)與視網(wǎng)膜血管網(wǎng)絡(luò)分割圖out put′∈保持一致,得到視網(wǎng)膜血管掩碼圖mask′∈
6)利用視網(wǎng)膜血管掩碼從視網(wǎng)膜血管網(wǎng)絡(luò)輸出圖中摳出眼球部分,得到最終視網(wǎng)膜血管分割圖out put∈RH×W×2.
RCA-UNet 模型的時(shí)間復(fù)雜度可以表示為
時(shí)間復(fù)雜度與每一層的輸出特征圖尺寸Fi、每一個(gè)卷積核的尺寸Ki、上一層輸出特征圖的通道數(shù)Ci?1以及當(dāng)前層輸出特征圖的通道數(shù)Ci有關(guān),與此同時(shí)每一層特征圖的輸出尺寸F與輸入尺寸X、卷積核的步長(zhǎng)stride、填充的數(shù)量padding以及卷積核的尺寸K等相關(guān),可表示為
3.1.1 數(shù)據(jù)集
DRIVE 數(shù)據(jù)集[39-41]發(fā)布于2004 年,包含40 張格式為tif. 尺寸為565×584 的彩色眼底圖像,每張圖像包含2 位專家手工標(biāo)注的金標(biāo)準(zhǔn)圖,并且自帶視網(wǎng)膜血管的掩膜圖.
Stare 數(shù)據(jù)集[39-41]是1975 年Michael Goldbaum 發(fā)起的項(xiàng)目,用來進(jìn)行視網(wǎng)膜血管分割的彩色眼底圖數(shù)據(jù)庫(kù),包括20 張格式為ppm、尺寸為605×700 的彩色眼底圖像,同樣每張圖像對(duì)應(yīng)2 位專家手工標(biāo)注的金標(biāo)準(zhǔn)圖,相對(duì)應(yīng)的掩膜需要自己通過代碼進(jìn)行掩膜的設(shè)置.
CHASE DB1 數(shù)據(jù)集[39-41]包括從14 名學(xué)童的雙眼中拍攝的28 張格式為jpg、尺寸為999×960 的視網(wǎng)膜圖像. 每張圖像具有2 位專家的手工分割標(biāo)簽,相對(duì)應(yīng)的掩膜需要自己通過代碼進(jìn)行掩膜的設(shè)置. 一般情況下將前20 張圖像用于訓(xùn)練,其余8 張圖像用于測(cè)試.
3 個(gè)眼底視網(wǎng)膜血管圖像數(shù)據(jù)集信息如表2 所示.
Table 2 Information of Retinal Vessels Image Datasets表2 眼底視網(wǎng)膜血管圖像數(shù)據(jù)集信息
3.1.2 預(yù)處理
由于眼底圖像照明不均勻以及血管與背景之間的對(duì)比度較低等因素,為了捕獲細(xì)小血管的更多特征并提高血管分割的準(zhǔn)確性,需要將輸入網(wǎng)絡(luò)的眼底圖像進(jìn)行預(yù)處理. 首先對(duì)RGB 圖像進(jìn)行通道分離,發(fā)現(xiàn)G 通道的血管與背景之間的對(duì)比度最高,選取RGB 圖像的G 通道完成圖像的灰度變換,對(duì)視網(wǎng)膜血管灰度圖像進(jìn)行歸一化;然后采用對(duì)比度受限的自適應(yīng)直方圖均衡化,在不放大眼底視網(wǎng)膜圖像噪聲的情況下增強(qiáng)視網(wǎng)膜血管與背景之間的對(duì)比度,以使眼底圖像中血管的結(jié)構(gòu)和特征更容易受到關(guān)注;最后使用Gamma 變換進(jìn)行圖像增強(qiáng),對(duì)過白或者過暗的圖像區(qū)域進(jìn)行校正. 表3 分別表示原圖和預(yù)處理之后的圖像.
Table 3 Information of Original Images and Preprocessed Images表3 原圖與預(yù)處理圖信息
3.1.3 數(shù)據(jù)集擴(kuò)充
由于深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,訓(xùn)練一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分割,通常需要大量標(biāo)簽圖像,然而,只有幾十張視網(wǎng)膜血管圖像具有像素級(jí)的標(biāo)簽,因此,設(shè)計(jì)用于視網(wǎng)膜血管分割的深度學(xué)習(xí)模型容易出現(xiàn)過擬合現(xiàn)象. 對(duì)此,本文采用對(duì)原圖進(jìn)行分塊的方式進(jìn)行數(shù)據(jù)擴(kuò)充,將訓(xùn)練圖像以及相應(yīng)的掩碼圖劃分為大小為48×48 的圖像子塊,從中隨機(jī)選取一定數(shù)量的圖像子塊數(shù),圖7 中展示了整合部分的圖像子塊以及相對(duì)應(yīng)的掩碼子塊圖.
Fig.7 Sub-image and corresponding mask sub-image圖7 圖像子塊以及相對(duì)應(yīng)的掩碼子塊圖
本研究使用基于Windows10 系統(tǒng)的工作站,運(yùn)行在Intel?Core?i7-10750H CPU @2.60GHz 上,擁 有16GB 內(nèi)存和NVidia GeForce RTX 2 060 6.0GB GPU,使用TensorFlow 和Keras 等框架構(gòu)建文中所用的網(wǎng)絡(luò)模型.在模型的訓(xùn)練過程中,采用交叉熵?fù)p失函數(shù)作為訓(xùn)練的損失函數(shù),批大小batch_size設(shè)置為32,模型迭代的次數(shù)N_epochs設(shè)置為50,模型初始學(xué)習(xí)率設(shè)為0.01,選擇SGD 隨機(jī)梯度下降法作為優(yōu)化器對(duì)模型的參數(shù)進(jìn)行更新.
視網(wǎng)膜血管分割任務(wù)的實(shí)質(zhì)是像素級(jí)的分類,判斷像素點(diǎn)是血管類還是非血管類.血管是需要檢測(cè)分割的目標(biāo),稱作正類;非血管類的部位,稱作負(fù)類.分割算法的結(jié)果與真實(shí)值比較可以得到混淆矩陣中的真陽(yáng)性NTP、假陽(yáng)性NFP、假陰性NTN、真陰性NFN,如表4 所示.其中NTP是將血管類正確分類為血管類的像素點(diǎn)數(shù),NFP是將非血管類錯(cuò)分為血管類的像素點(diǎn)數(shù),NTN是將非血管類分類為非血管類的像素點(diǎn)數(shù),NFN是將血管類錯(cuò)分為非血管類的像素點(diǎn)數(shù).
Table 4 Confusion Matrix表4 混淆矩陣
為了評(píng)價(jià)視網(wǎng)膜血管分割算法的好壞,選用準(zhǔn)確率Acc、靈敏度Sen、特異性Spe、精確率Pre等評(píng)價(jià)指標(biāo),其中Acc表示將血管類和背景類分類正確的概率,Sen表示將血管類分類正確的概率,Spe表示將背景類分類正確的概率,Pre表示預(yù)測(cè)為血管類的樣本中真正為血管類所占的比例.為了進(jìn)一步地評(píng)估分割模型的性能,利用Jaccard 相似度描述金標(biāo)準(zhǔn)圖truth與分割圖result之間的相似性和差異性,Jaccard 值越大說明相似度越高.各評(píng)價(jià)指標(biāo)公式表示為:
本文所提模型是以U-Net 網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò),并針對(duì)視網(wǎng)膜血管的獨(dú)特特性,將U-Net 網(wǎng)路和本文所提的粗糙通道注意力機(jī)制相融合.首先,為了驗(yàn)證基礎(chǔ)網(wǎng)絡(luò)U-Net 的有效性,選取目前較常使用的分割網(wǎng)絡(luò)FCN 和Seg-Net[42]在眼底圖像視網(wǎng)膜血管DRIVE,Stare,CHASE DB1 數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),從準(zhǔn)確率Acc、靈敏度Sen、特異性Spe、精確率Pre、Jaccard 相似度J等評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較.
FCN,Seg-Net,U-Net 模型在視網(wǎng)膜血管的3 個(gè)數(shù)據(jù)集上的對(duì)比結(jié)果分別如表5~7 所示,從表5~7 中可以發(fā)現(xiàn),U-Net 模型具有更好的表現(xiàn),總體表現(xiàn)優(yōu)于其他2 個(gè)模型.更具體地說,U-Net 具有更高的分割準(zhǔn)確率,對(duì)血管像素具有更好的識(shí)別能力,所得分割圖和金標(biāo)準(zhǔn)圖具有更高的相似度,對(duì)背景像素的識(shí)別能力也是具有競(jìng)爭(zhēng)力的,綜合考慮分割精度和敏感度,取得更高的F1值.
Table 5 Comparison Results on DRIVE Dataset表5 DRIVE 數(shù)據(jù)集對(duì)比結(jié)果
Table 6 Comparison Results on Stare Dataset表6 Stare 數(shù)據(jù)集對(duì)比結(jié)果
Table 7 Comparison Results on CHASE DB1 Dataset表7 CHASE DB1 數(shù)據(jù)集對(duì)比結(jié)果
上述結(jié)果表明Seg-Net 和U-Net 這類基于編解碼結(jié)構(gòu)的網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割上具有更好的競(jìng)爭(zhēng)力,而增加了跳躍連接結(jié)構(gòu)的U-Net 在上采樣過程中將對(duì)稱層的特征圖進(jìn)行通道上的拼接,實(shí)現(xiàn)低層特征和高級(jí)特征的信息融合使得網(wǎng)絡(luò)能夠提取和保留更多視網(wǎng)膜血管局部細(xì)節(jié)信息,從而提高了圖像分割精度.基于此,選用U-Net 作為基礎(chǔ)網(wǎng)絡(luò)具有一定的有效性.
為了進(jìn)一步驗(yàn)證本文所提粗糙通道注意力機(jī)制的有效性,選取U-Net,Attention U-Net,RCA-UNet 在3 個(gè)眼底視網(wǎng)膜血管數(shù)據(jù)集中進(jìn)行對(duì)比,從準(zhǔn)確率Acc、靈敏度Sen、特異性Spe、精確率Pre、Jaccard 相似度J等評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果分別如表8~10 所示.實(shí)驗(yàn)結(jié)果表明:在3 個(gè)數(shù)據(jù)集中RCA-UNet 模型都具有相對(duì)較好的性能.具體而言,RCA-UNet 模型具有較高的靈敏度Sen,對(duì)血管類具有更好的識(shí)別能力,在3 個(gè)數(shù)據(jù)集上相對(duì)于U-Net 模型提高了2.97%,2.9%,10.33%,相對(duì)于Attention UNet 模型提高了1.35%,1.23%,0.54%.在考慮模型性能的時(shí)候,單純地追求精度Pre或者靈敏度Sen的提升并沒有太大作用,在實(shí)際分割任務(wù)中,需要結(jié)合正負(fù)樣本比進(jìn)行綜合評(píng)價(jià),對(duì)此從精度Pre與靈敏度Sen的調(diào)和平均值F1可以看出RCA-UNet 模型具有較好的性能,提高0.19%~1.43%,0.88%~2.03%,1.24%~4.71%.另外,RCAR-UNet 所得的分割圖與金標(biāo)準(zhǔn)的Jaccard相似度更高,相較于其他模型相似度提高了0.26%~1.96%,1.12%~2.57%和1.57%~5.78%. 上述實(shí)驗(yàn)結(jié)果清楚地表明利用全局最大池化和全局平均池化構(gòu)建上下近似神經(jīng)元的粗糙通道注意力機(jī)制的有效性.分析其原因在于考慮了特征通道之間的依賴關(guān)系,借助粗糙集的上下近似原理,利用全局最大池化和全局平均池化分別構(gòu)建上下近似神經(jīng)元,并賦予一定的自適應(yīng)權(quán)重,得到較為合理的Attention 系數(shù),并對(duì)特征圖進(jìn)行相應(yīng)的重標(biāo)定操作,使得在上采樣的過程中,得到更加細(xì)致的特征信息.
Table 8 Comparison Results on DRIVE Dataset表8 DRIVE 數(shù)據(jù)集對(duì)比結(jié)果
為了在說明粗糙通道注意力機(jī)制的有效性的同時(shí),進(jìn)一步驗(yàn)證殘差連接的有效性,本文將RCAUNet 和RCAR-UNet 在3 個(gè)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表8~10 所示. 實(shí)驗(yàn)結(jié)果表明,本文所提模型RCAR-UNet 能夠得到更好的視網(wǎng)膜血管分割效果.從3 個(gè)表中可以發(fā)現(xiàn),在3 個(gè)視網(wǎng)膜血管數(shù)據(jù)集中各個(gè)評(píng)價(jià)指標(biāo)都有所提升. 從表8 中可以很直觀地看出在DRIVE 數(shù)據(jù)集上,RCAR-UNet 相對(duì)于RCAUNet 模型,Acc提高了0.06%,Sen提高了1.59%,相似度J提高了0.77%,F(xiàn)1提高了0.55%;從表9 中可以看出,RCAR-UNet 在Acc,Sen,J,F(xiàn)1指標(biāo)上都有明顯的提升,分別提升了0.41%,5.65%,4.22%,3.2%;從表10中可以看出,RCAR-UNet 在CHASE DB1 數(shù)據(jù)集上相對(duì)于RCA-UNet 模型的提升不是很大,但是都有所改善,Acc提高了0.1%,Sen提高了0.33%,Pre提高了2.11%,Jaccard 相似度提高0.26%,F(xiàn)1指標(biāo)提高了0.04%. 上述實(shí)驗(yàn)結(jié)果充分說明模型中添加殘差連接實(shí)現(xiàn)特征映射的有效性,將低層特征直接傳遞給高層特征的短跳躍連接方式,不僅豐富網(wǎng)絡(luò)特征提取,并且有助于訓(xùn)練模型時(shí)梯度的反向傳播,可有效解決網(wǎng)絡(luò)退化問題.
Table 9 Comparison Results on Stare Dataset表9 Stare 數(shù)據(jù)集對(duì)比結(jié)果
Table 10 Comparison Results on CHASE DB1 Dataset表10 CHASE DB1 數(shù)據(jù)集對(duì)比結(jié)果
最后,本文還采用ROC 曲線和PR 曲線進(jìn)行模型的評(píng)價(jià). ROC 曲線是對(duì)假陽(yáng)性率和真陽(yáng)性率的安全考慮,橫坐標(biāo)表示假陽(yáng)性率,縱坐標(biāo)表示真陽(yáng)性率;PR 曲線是對(duì)召回率和精確率的綜合考慮,其橫坐標(biāo)表示召回率Recall(和靈敏度Sen一樣),縱坐標(biāo)表示精確率Pre.曲線與坐標(biāo)系圍成的面積表示AUC面積,AUC值越大,表明模型具有更好的性能. 4 個(gè)網(wǎng)絡(luò)模型在不同數(shù)據(jù)集上的ROC 曲線和PR 曲線對(duì)比實(shí)驗(yàn)結(jié)果分別如圖8 和圖9所示.
Fig.8 Comparison of ROC curves of different models on different datasets圖8 不同模型在不同數(shù)據(jù)集上的ROC 曲線對(duì)比
Fig.9 Comparison of PR curves of different models on different datasets圖9 不同模型在不同數(shù)據(jù)集上的PR 曲線對(duì)比
從圖8 中可以看出,本文所提模型RCAR-UNet 在3 個(gè)數(shù)據(jù)集上的ROC 曲線的AUC值為0.975 9,0.980 1,0.969 5,相對(duì)于經(jīng)典U-Net 模型,提高了0.73%,0.93%,2.05%. ROC 曲線的縱坐標(biāo)為真陽(yáng)性率,表示實(shí)際正樣本中被預(yù)測(cè)成正樣本的占比,也就是實(shí)際正樣本的預(yù)測(cè)正確率,所以是越大越好;而其橫坐標(biāo)為假陽(yáng)性率,表示實(shí)際負(fù)樣本中被預(yù)測(cè)成正樣本的占比,也就是實(shí)際正樣本的預(yù)測(cè)錯(cuò)誤率,所以是越小越好. 最為理想的點(diǎn)是(0,1),綜上所述,ROC 曲線的AUC值越大,性能越好,所以RCAR-UNet 在3 個(gè)眼底視網(wǎng)膜血管數(shù)據(jù)集上具有較好的性能. PR 曲線描述的是精準(zhǔn)率與召回率的關(guān)系,在分割過程中,期望精確率和召回率值均相對(duì)較高,達(dá)到較好的平衡點(diǎn),同樣利用曲線與坐標(biāo)系圍成的AUC面積對(duì)模型進(jìn)行評(píng)估,圖9結(jié)果表明RCAR-UNet 具有較好的性能. RCAR-UNet在3 個(gè)數(shù)據(jù)集上的AUC值為0.900 3,0.898 0,0.825 0,相對(duì)于其他模型都有所提高.
綜上所述,RCAR-UNet 相對(duì)于經(jīng)典U-Net,Attention U-Net 等模型能夠得到更好的眼底視網(wǎng)膜血管分割精度,分析其主要原因在于:RCAR-UNet 在編碼-解碼的U-Net 模型主干上,利用粗糙集中上下近似理論構(gòu)建粗糙上下近似神經(jīng)元,對(duì)眼底視網(wǎng)膜血管特征通道重要性進(jìn)行區(qū)分,對(duì)視網(wǎng)膜血管特征進(jìn)行準(zhǔn)確重標(biāo)定,并融合殘差連接,進(jìn)行特征的映射.
為了進(jìn)一步直觀地說明RCAR-UNet 對(duì)于視網(wǎng)膜血管分割具有較好的分割效果,將之與U-Net,Attention U-Net 等模型的分割圖進(jìn)行比較,各模型分割效果圖如圖10 所示. 從視網(wǎng)膜血管分割效果圖可以直觀看出,本文所提RCAR-UNet 模型的分割結(jié)果和專家分割標(biāo)準(zhǔn)圖基本一致,特別是在矩形框區(qū)域內(nèi)細(xì)微血管的分割上有更好的效果.
針對(duì)視網(wǎng)膜血管結(jié)構(gòu)復(fù)雜、血管較細(xì)、易受光照影響等,本文考慮了特征通道之間的關(guān)系,引入一種新的通道注意力機(jī)制來增加網(wǎng)絡(luò)的鑒別能力. 具體而言:首先在編碼-解碼結(jié)構(gòu)的U-Net 模型上利用粗糙集的上下近似概念構(gòu)建粗糙注意力模塊,對(duì)注意力系數(shù)設(shè)置上下限,利用全局最大池化構(gòu)造上神經(jīng)元作為注意力系數(shù)的上限,利用全局平均池化構(gòu)造下神經(jīng)元作為注意力系數(shù)的下限,通過賦予上下限一定的權(quán)重系數(shù)并求和得到較具語(yǔ)義的注意力系數(shù),該注意力系數(shù)不僅包含全局信息也具有了一定的局部信息;然后引入殘差連接,實(shí)現(xiàn)將低層特征直接傳播到高層,在一定程度上解決了網(wǎng)絡(luò)退化的問題,以此提高模型性能;最后在3 個(gè)眼底視網(wǎng)膜血管數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)模型性能驗(yàn)證,實(shí)驗(yàn)結(jié)果表明本文所提網(wǎng)絡(luò)RCAR-UNet 模型能夠分割出視網(wǎng)膜血管末端的細(xì)小分支,得到較好的視網(wǎng)膜血管分割精度. 我們會(huì)進(jìn)一步研究將粗糙集理論融合到深度神經(jīng)網(wǎng)絡(luò)模型的卷積和池化層中,處理圖像特征中不確定性、不精確性信息.
Fig.10 Segmentation effect diagram of retinal blood vessels of each model圖10 各模型視網(wǎng)膜血管分割效果圖
作者貢獻(xiàn)聲明:孫穎提出了算法的核心思想,設(shè)計(jì)了實(shí)驗(yàn)方案,完成實(shí)驗(yàn)并撰寫論文初稿;丁衛(wèi)平提出了整個(gè)算法的框架并對(duì)整個(gè)算法思想進(jìn)行完善,修改了論文;黃嘉爽、鞠恒榮完善了算法的思路,指導(dǎo)了論文寫作并修改論文;李銘、耿宇協(xié)助實(shí)驗(yàn)數(shù)據(jù)的處理并修改論文.