燕 楊, 黃文博
(長春師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 長春 130032;吉林大學(xué) 符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室, 長春 130012)
在彩色眼底圖像中, 中央凹位于黃斑無血管區(qū), 通常以暗紅色圓形區(qū)域呈現(xiàn). 中央凹的精準(zhǔn)檢測(cè)可為眼底疾病智能輔助診斷及視網(wǎng)膜病變的臨床防治提供可靠依據(jù), 但由于彩色眼底圖像中的病變?nèi)绯鲅? 其灰度特性與中央凹極相似, 因此僅基于中央凹灰度特征的傳統(tǒng)算法很難將其精準(zhǔn)識(shí)別.
目前, 多數(shù)中央凹識(shí)別方法是利用中央凹與視盤、 血管間的位置關(guān)系[1]. 首先基于中央凹和視盤或血管網(wǎng)絡(luò)結(jié)構(gòu)的全局信息, 識(shí)別出中央凹檢測(cè)的感興趣區(qū)域; 然后基于中央凹的局部信息, 檢測(cè)中央凹的具體位置. 如Tan等[2]通過在視盤四周圈出指定直徑大小的感興趣區(qū)域, 在其中尋找灰度最低值確定中央凹, 但這樣定義的感興趣區(qū)域并不準(zhǔn)確; Li等[3]先用血管結(jié)構(gòu)尋找中央凹搜索區(qū)域, 然后用閾值分割檢測(cè)中央凹; 考慮到中央凹內(nèi)無血管, Chin等[4]先通過視盤和主血管網(wǎng)絡(luò)等位置關(guān)系定義出中央凹感興趣區(qū)域, 然后計(jì)算血管加權(quán)密度確定中央凹. 在利用血管網(wǎng)絡(luò)結(jié)構(gòu)確定中央凹的算法中, 如果血管的對(duì)比度較低, 則會(huì)影響中央凹的檢測(cè)精度.
在眼底病變圖像中, 特別是中央凹周圍有與其外觀相似的暗病變?nèi)绯鲅邥r(shí), 或病變較嚴(yán)重破壞了中央凹的特征時(shí), 利用灰度特征或血管網(wǎng)絡(luò)的算法無法準(zhǔn)確檢測(cè)出中央凹, 并且若血管網(wǎng)絡(luò)結(jié)構(gòu)分布異?;蛞騻€(gè)體特異而分布不規(guī)則時(shí), 則中央凹并不存在與血管結(jié)構(gòu)的上述先驗(yàn)信息, 中央凹識(shí)別準(zhǔn)確率將會(huì)大幅度降低. 針對(duì)上述問題, 本文提出一種基于全卷積網(wǎng)絡(luò)(FCN)的中央凹檢測(cè)方法, 為了結(jié)合合適的全局特征, 將像素級(jí)特征擴(kuò)展到全局金字塔池中, 把局部和全局特征進(jìn)行合理融合, 使中央凹的最終檢測(cè)更可靠.
由于眼底圖像的復(fù)雜性及各種病變的出現(xiàn), 會(huì)導(dǎo)致局部先驗(yàn)概率或深度先驗(yàn)概率失效. 對(duì)于局部先驗(yàn)概率, 當(dāng)中央凹附近出現(xiàn)病變或中央凹局部外觀特征不明顯時(shí), 在中央凹檢測(cè)感興趣區(qū)域中, 局部先驗(yàn)概率分布圖將會(huì)出現(xiàn)多個(gè)高概率值區(qū)域, 或者感興趣區(qū)域內(nèi)局部先驗(yàn)概率的最大值將會(huì)遠(yuǎn)低于正常眼底圖像中央凹區(qū)域的概率值, 此時(shí)局部先驗(yàn)概率分布的置信度降低, 而全局先驗(yàn)概率分布和深度先驗(yàn)概率分布將保持較高置信度; 當(dāng)中央凹出現(xiàn)更復(fù)雜的病變時(shí), 在中央凹檢測(cè)感興趣區(qū)域中, 整個(gè)深度先驗(yàn)概率的最大值將會(huì)遠(yuǎn)低于正常眼底圖像中中央凹區(qū)域的概率值, 此時(shí)深度先驗(yàn)概率分布的置信度降低. 考慮到基于血管網(wǎng)絡(luò)的全局先驗(yàn)概率具有對(duì)病變的魯棒性, 此時(shí), 只有全局先驗(yàn)概率分布保持較高置信度. 準(zhǔn)確的中央凹感知依賴于預(yù)先理解其周圍像素的信息分布, 目前多數(shù)中央凹誤檢與缺乏利用全局上下文信息有關(guān). 因此, 具有適當(dāng)全局先驗(yàn)的深層網(wǎng)絡(luò)可提高中央凹的識(shí)別性能.
1.1.1 卷積層 卷積層為深度神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)計(jì)算的核心, 本文以單層卷積網(wǎng)絡(luò)f為例進(jìn)行計(jì)算, 即
f:H×W×D→H″×W″×D″,xy,
(1)
如果濾波器w∈H″×W″×D″, 則輸出向量y可表示為
(2)
(3)
以H″為例, 輸出計(jì)算如下:
(4)
1.1.2 激活函數(shù) 常用的激活函數(shù)有Sigmoid,tanh,ReLu等, 公式分別如下:
圖1為不同激活函數(shù)的曲線對(duì)比. 由圖1(A)可見, 96%~99%的神經(jīng)元在方框軸段未激活; 由圖1(B)可見, Sigmoid和tanh曲線與上述神經(jīng)元性質(zhì)不符; 由圖1(C)可見, ReLu函數(shù)是非負(fù)校正函數(shù), 與上述研究結(jié)果相符, 所以本文選擇ReLu函數(shù)作為激活層, 表示為
yi,j,k=max{0,xi,j,k}.
(8)
圖1 不同激活函數(shù)的曲線對(duì)比
1.1.3 池化層 對(duì)像素級(jí)局部特征圖降維, 采用最大池化實(shí)現(xiàn), 可減小平均偏差, 更清楚地表達(dá)邊界和紋理, 若圖像尺寸為W1×H1×D1, 窗口長為F, 步長為S, 輸出尺寸為W2×H2×D2, 則其過程如下:
(9)
本文將樣本劃分為H?×W?個(gè)模塊, 輸出其最大值, 則
(10)
1.1.4 全連接層 全連接層將上述所得特征映射作為標(biāo)注. 設(shè)上層輸出為x∈H×W×D, 當(dāng)前層輸出為y∈1×1×D, 通過濾波器w∈H×W×D×D′與上層進(jìn)行卷積, 有
(11)
圖2 Dropout使用效果
1.1.5 Softmax層 將上層輸入通過Softmax模型計(jì)算其歸屬類別的概率, 實(shí)現(xiàn)中央凹局部像素級(jí)分類.
1.1.6 Dropout Dropout令有些節(jié)點(diǎn)不參與訓(xùn)練, 提高框架的泛化能力及避免過擬合. 圖2為在本文網(wǎng)絡(luò)中使用Dropout的效果.
在深度神經(jīng)網(wǎng)絡(luò)中, 利用上下文信息的程度可通過感受野大小表示[5]. ResNet[6]的感受野理論上比輸入圖像大, 但文獻(xiàn)[7]研究表明, FCN的感受野遠(yuǎn)小于理論值, 特別在深層網(wǎng)絡(luò), 導(dǎo)致很多網(wǎng)絡(luò)并未包含足夠多的全局信息, 本文提出通過全局上下文特征解決該問題.
全局平均池化常應(yīng)用于圖像分類方法中[6,8-10], 可較好提取出全局上下文特征. 文獻(xiàn)[11-13]研究表明, 該策略可在語義分割方法中有效應(yīng)用, 但其不足以包含復(fù)雜場(chǎng)景的重要信息, 因其像素被分類標(biāo)記為各類物質(zhì), 若將其結(jié)合為單個(gè)向量會(huì)導(dǎo)致丟失空間信息而模糊. 所以, 將局部和全局上下文特征相融合將對(duì)精準(zhǔn)分類更有幫助, 區(qū)分度明顯的特征可結(jié)合不同感受野大小的子區(qū)域特征[14-15]. 文獻(xiàn)[15]將各層級(jí)的特征圖輸入至全連接層中分類, 該全局先驗(yàn)的目的是解除深度神經(jīng)網(wǎng)絡(luò)對(duì)圖像分類時(shí)要輸入特定大小圖像的限制.
為進(jìn)一步防止損失各子區(qū)域之間的上下文特征, 本文提出分層全局先驗(yàn), 包括各尺度、 各子區(qū)域之間的上下文信息, FCN最終特征圖即為其輸出, 稱為全局先驗(yàn)特征. 金字塔池化部分結(jié)合了4個(gè)尺度特征, 如圖3所示, 其中: 紅色表示概率的級(jí)別, 是采用全局池化得到的單一bin輸出; 其他3級(jí)將輸入特征圖分為幾個(gè)子區(qū)域, 并依次池化, 繼而拼接容納空間信息的單一bin. 金字塔池化部分的各級(jí)別輸出涵蓋各種尺寸的特征映射, 為維持全局特征的權(quán)重, 本文在各級(jí)后采用1×1卷積核, 金字塔級(jí)別維數(shù)為N時(shí), 能將上下文特征的維數(shù)降至初始特征的1/N. 然后利用雙線性插值上采樣低維特征圖, 獲得與初始特征圖相同尺寸的特征. 最后將各級(jí)別的特征組合成金字塔池化全局信息.
金字塔級(jí)數(shù)與各級(jí)尺寸均可改變, 這與輸入金字塔池化層的特征圖尺寸緊密相關(guān). 該結(jié)構(gòu)通過采用不同大小的池化核提取各子區(qū)域的特征, 所以各層級(jí)池化核的尺寸要有合適的距離. 本文金字塔池化部分為4層, 各層bin尺寸依次為1×1,2×2,3×3和6×6.
基于上述模塊本文構(gòu)建了采用金字塔池化模塊的FCN中央凹檢測(cè)網(wǎng)絡(luò), 如圖3所示, 在給定一個(gè)輸入圖像(A)的情形下, 首先利用FCN獲取最后一個(gè)卷積層(B)的特征圖, 然后利用金字塔解析模塊獲取不同的子區(qū)域表示, 再進(jìn)行上采樣和級(jí)聯(lián)層, 形成最終的特征表示, 該特征表示包含(C)中的局部和全局上下文信息. 最后, 輸入卷積層以獲取最終的識(shí)別結(jié)果(D). 通過進(jìn)行預(yù)訓(xùn)練過的ResNet[5]框架提取輸入圖像的特征圖, 特征圖最終大小是輸入圖像的1/8, 如圖3(B)所示. 通過圖3(C)的金字塔池化部分提取(B)中特征圖的上下文特征, 4級(jí)金字塔池化后, 池化核尺寸依次是圖像的全部、 1/2與小部分, 最后組合成全局信息. 在(C)過程最后, 將上述獲取的全局信息和初始特征圖拼接在一起, 通過卷積層生成(D)中最終的預(yù)測(cè)圖. 采用該金字塔池化模塊的中央凹識(shí)別網(wǎng)絡(luò)為像素級(jí)識(shí)別提供了有效的全局上下文特征, 金字塔池化部分可提取并組合各層級(jí)上下文特征, 得到的全局特征更典型.
圖3 采用金字塔池化模塊的FCN中央凹檢測(cè)網(wǎng)絡(luò)
為了驗(yàn)證本文方法的有效性, 在DIARETDB0[16]和DIARETDB1[17]標(biāo)準(zhǔn)眼底數(shù)據(jù)庫中進(jìn)行中央凹識(shí)別實(shí)驗(yàn). 表1列出了本文方法與其他方法對(duì)中央凹識(shí)別精度的對(duì)比.
表1 本文方法與其他方法對(duì)中央凹識(shí)別的精度對(duì)比
由表1可見, 本文方法識(shí)別結(jié)果更精準(zhǔn). 文獻(xiàn)[18-20]方法首先根據(jù)中央凹和視盤的空間關(guān)系定義中央凹感興趣區(qū)域, 然后通過數(shù)學(xué)形態(tài)學(xué)、 模板匹配及區(qū)域極小值等識(shí)別中央凹. 本文方法利用全局與局部特征及深度學(xué)習(xí)網(wǎng)絡(luò), 使病變與中央凹更具區(qū)分度, 本文方法的精度比其他對(duì)比方法精度有明顯提高, 實(shí)現(xiàn)了中央凹的精準(zhǔn)識(shí)別.
本文模型中央凹識(shí)別結(jié)果如圖4所示, 其中: (A)為彩色視網(wǎng)膜原始圖像; (B)為中央凹標(biāo)注樣本; (C)為視網(wǎng)膜G通道圖像; (D)為本文方法對(duì)中央凹的識(shí)別結(jié)果; (E)為本文識(shí)別結(jié)果與G通道圖像疊加對(duì)比. 由圖4可見, 本文方法可精準(zhǔn)識(shí)別中央凹.
圖4 基于FCN的眼底圖像中央凹識(shí)別效果
綜上所述, 針對(duì)傳統(tǒng)算法很難識(shí)別彩色眼底圖像中央凹的問題, 本文提出了一種基于FCN的眼底圖像中央凹自動(dòng)檢測(cè)方法. 首先構(gòu)建了實(shí)現(xiàn)局部分類的FCN模型, 實(shí)現(xiàn)像素級(jí)局部分類; 然后構(gòu)建金字塔池化模塊, 并將像素級(jí)特征推廣到其中, 使統(tǒng)計(jì)數(shù)據(jù)更好地實(shí)現(xiàn)了全局語境表達(dá). 為進(jìn)一步防止損失各子區(qū)域之間的上下文特征, 本文提出了分層全局先驗(yàn), 包含各尺度、 各子區(qū)域之間的上下文信息, 然后將各級(jí)別的特征組合成金字塔池化全局信息. 采用金字塔池化模塊的FCN中央凹檢測(cè)網(wǎng)絡(luò)提供了有效的全局上下文特征, 金字塔池化部分可提取并組合各層級(jí)上下文特征, 對(duì)比全局池化其所得全局特征更具區(qū)分度, 最后將局部及全局上下文特征相融合, 實(shí)現(xiàn)了對(duì)中央凹的精準(zhǔn)檢測(cè). 在標(biāo)準(zhǔn)眼底數(shù)據(jù)庫中的實(shí)驗(yàn)結(jié)果表明, 本文方法較對(duì)比方法性能有顯著提高.