秦運(yùn)輸 王行甫
(中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230031)
青光眼是一種慢性的眼底疾病,也是當(dāng)前世界范圍導(dǎo)致視力損傷的主要原因之一[1]。由于其發(fā)病早期并不伴隨較為明顯的癥狀,且造成的視力損傷具有不可逆性,因此青光眼的早期診斷工作對(duì)于青光眼的預(yù)防和保護(hù)患者視力具有重要的意義。
已知的青光眼診斷方法主要有以下幾種:(1) 通過(guò)接觸或非接觸的方式來(lái)對(duì)眼內(nèi)壓進(jìn)行測(cè)量并評(píng)估。(2) 對(duì)視覺區(qū)域進(jìn)行評(píng)估。(3) 對(duì)視神經(jīng)頭區(qū)域進(jìn)行評(píng)估[2]。針對(duì)第一種方法,由于部分的青光眼亞種發(fā)病過(guò)程并不伴隨明顯的眼內(nèi)壓變化,因此該方法具有一定的偏差性。對(duì)視覺區(qū)域的評(píng)估一方面需要較為昂貴的醫(yī)療設(shè)備,另一方面該評(píng)估方法較為主觀,存在較高的觀察者內(nèi)和觀察者間的差異[3]。對(duì)視神經(jīng)頭區(qū)域進(jìn)行評(píng)估主要是通過(guò)對(duì)數(shù)字眼底圖像中的視神經(jīng)頭區(qū)域進(jìn)行分析并提取特征來(lái)進(jìn)行青光眼診斷。得益于近些年光學(xué)眼底成像技術(shù)的進(jìn)步,基于眼底圖像的青光眼定性和定量診斷方法變得可能,同時(shí)也成為當(dāng)前青光眼診斷中所采用的主要手段[4]。在青光眼的發(fā)病過(guò)程中,視網(wǎng)膜眼底的視神經(jīng)頭區(qū)域(也被稱為視盤)的視神經(jīng)細(xì)胞會(huì)逐步死亡并伴隨著中心視杯區(qū)域不斷擴(kuò)大,表現(xiàn)出不斷擴(kuò)大的視杯盤比(CDR),如圖1所示(數(shù)據(jù)來(lái)源于REFUGE)。因此在臨床診斷中,較大的CDR值是評(píng)估是否患有青光眼的主要標(biāo)準(zhǔn)之一。為了準(zhǔn)確地獲取到CDR值,對(duì)眼底圖像中視杯、視盤區(qū)域進(jìn)行準(zhǔn)確的分割即成了青光眼診斷中最為關(guān)鍵、重要的一步。
(a) 正常人 (b) 青光眼患者
視杯、視盤分割方法主要分為三大類:人工分割,半自動(dòng)分割,自動(dòng)分割。人工分割方法是一種主觀、重復(fù)性差且耗時(shí)耗力的方法,此外針對(duì)眼底圖像這種醫(yī)學(xué)圖像分割需要操作者具有較強(qiáng)的領(lǐng)域?qū)<抑R(shí)[5]。半自動(dòng)方法需要初始的人為干預(yù),這些可能會(huì)導(dǎo)致結(jié)果出現(xiàn)一定的偏差且效率較低。自動(dòng)分割方法則是將需要分割的眼底圖像輸入到自動(dòng)分割系統(tǒng)中,自動(dòng)處理并輸出分割好的結(jié)果圖像,更加客觀,且高效準(zhǔn)確。傳統(tǒng)的視杯、視盤自動(dòng)分割方法主要包括基于閾值的分割方法、基于主動(dòng)輪廓模型的分割方法、基于水平集的分割方法[5]等。上述方法共同的特點(diǎn)就是嚴(yán)重依賴于手工設(shè)計(jì)的特征,效率和精度都不是很理想,為了滿足當(dāng)前大規(guī)模的青光眼診斷需求,更加高效、精準(zhǔn)的自動(dòng)視杯、視盤分割方法研究具有重要意義。
隨著近些年深度學(xué)習(xí)技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)開始被應(yīng)用在醫(yī)學(xué)圖像分割中,一些基于CNN的視杯、視盤分割方法也被提出來(lái)并取得了不錯(cuò)的效果[6-8]?;谏疃葘W(xué)習(xí)的青光眼分割方法主要是基于像素分類的,不同于傳統(tǒng)的基于像素分類方法[9]和基于超像素的分類方法[10]中采用手工設(shè)計(jì)的特征,深度學(xué)習(xí)的方法可以通過(guò)模型來(lái)自動(dòng)提取具有高辨別力的特征來(lái)進(jìn)行像素分類,克服了手工提取特征的諸多限制。在眾多應(yīng)用于視杯視盤分割任務(wù)的深度學(xué)習(xí)方法中,基于U-net的方法尤為普遍。U-net是Ronneberger等[11]最先提出的一種基于FCN[12]的深度分割模型,由于該模型在醫(yī)學(xué)圖像處理領(lǐng)域的突出表現(xiàn),越來(lái)越多基于U-net的變種方法被應(yīng)用于醫(yī)學(xué)圖像處理的各個(gè)領(lǐng)域。Sevastopolsky[7]首次將U-net模型應(yīng)用于青光眼的視杯視盤分割任務(wù)中,通過(guò)簡(jiǎn)化初始的U-net模型取得了較傳統(tǒng)分割方法高效且精準(zhǔn)的分割結(jié)果。Yu等[13]提出了一種基于殘差結(jié)構(gòu)的U-net視杯視盤分割網(wǎng)絡(luò),將預(yù)訓(xùn)練好的ResNet-34模型作為U-net的特征編碼模塊,一定程度上增強(qiáng)了模型的特征提取能力,取得不錯(cuò)的分割結(jié)果。Fu等[8]在初始U-net基礎(chǔ)上引入了多尺度的輸入、輸出和深監(jiān)督策略,并且采用了極坐標(biāo)化預(yù)處理的方法進(jìn)行視杯視盤分割,在一定程度上緩解了空間信息損失的問(wèn)題并取得了優(yōu)異的分割效果。然而上述的這些方法都是基于多模型的分割架構(gòu),因?yàn)獒槍?duì)于視杯、視盤分割,視杯和視盤區(qū)域相對(duì)于整個(gè)眼底圖像區(qū)域而言是較小的,尤其針對(duì)視杯分割,這種情況更加突出。因此在傳統(tǒng)的視杯、視盤分割任務(wù)中,大部分方法都是先利用一個(gè)單獨(dú)的網(wǎng)絡(luò)來(lái)提取視盤區(qū)域,即圖像的感興趣區(qū)域(ROI)。此外上述方法為了避免分割任務(wù)中出現(xiàn)較為嚴(yán)重的類不平衡問(wèn)題,都采用了基于DiceLoss的損失函數(shù),DiceLoss的一個(gè)缺陷就是它對(duì)分割中的假陽(yáng)性和假陰性的權(quán)重是一樣的[14],然而在實(shí)際的分割情況中存在著高準(zhǔn)確率、低召回率的特點(diǎn)。針對(duì)數(shù)據(jù)不平衡和感興趣區(qū)域相對(duì)較小的分割背景,需要通過(guò)增加檢測(cè)假陰性的權(quán)重來(lái)提高召回率。
本文提出一種基于注意力機(jī)制和遞歸殘差卷積的U型網(wǎng)絡(luò)(MAR2U-net)用于青光眼的視杯和視盤分割,并且采用了多尺度輸入和多標(biāo)簽的Focal Tversky損失函數(shù)。
本文方法創(chuàng)新點(diǎn)如下:(1) 采用多標(biāo)簽的Focal Tversky 損失函數(shù)來(lái)進(jìn)行視杯視盤的聯(lián)合分割,在提高效率的同時(shí),也更好地避免了分割中容易出現(xiàn)的類不平衡的問(wèn)題,使模型更加專注于難分割區(qū)域。(2) 將注意力機(jī)制引入到視杯視盤分割任務(wù)中,可以在ROI區(qū)域相對(duì)較小的時(shí)候,更好地突出與分割任務(wù)相關(guān)的重要特征且抑制不相關(guān)區(qū)域特征的表達(dá)。(3) 引入遞歸殘差模塊可以利用該結(jié)構(gòu)關(guān)于時(shí)間步的特征積累特性來(lái)進(jìn)行更好的特征表達(dá),且有利于訓(xùn)練更深層次的模型和提取到更低層次的特征。
Liu等[15]首次將水平集方法引入到視杯、視盤分割中,提出了基于變分水平集的方法對(duì)視盤進(jìn)行分割,對(duì)視杯區(qū)域的分割采用閾值法和水平集結(jié)合的方法,并對(duì)分割后結(jié)果利用橢圓擬合進(jìn)行平滑處理,該方法較單純的基于閾值的方法具有更好的分割性能。Xu等[16]提出了一種利用視網(wǎng)膜結(jié)構(gòu)先驗(yàn)知識(shí)從眼底圖像中進(jìn)行高效視杯視盤分割方法,首先將輸入圖像進(jìn)行超像素分割處理,然后基于視網(wǎng)膜結(jié)構(gòu)的先驗(yàn)知識(shí)利用提取的超像素特征來(lái)訓(xùn)練一個(gè)超像素分類器,利用分類器對(duì)輸入圖像的超像素進(jìn)行分類得到包含所有視杯超像素的最小橢圓。該方法與傳統(tǒng)基于像素分割方法相比精度有了一定提升且不需要額外帶標(biāo)簽的訓(xùn)練數(shù)據(jù),但該方法較為復(fù)雜且效率較低。
Zilly等[6]提出了一種基于集成學(xué)習(xí)的混合神經(jīng)網(wǎng)絡(luò)用于視杯視盤分割,構(gòu)造了基于增強(qiáng)濾波和基于熵采樣的集成學(xué)習(xí)的CNN 體系結(jié)構(gòu),最終取得了優(yōu)于以往所有方法的分割精度,但是這種方法需要非常大的數(shù)據(jù)集來(lái)訓(xùn)練,同時(shí)該方法較為復(fù)雜,復(fù)現(xiàn)難度較大。之后,Sevastopolsky[7]首次將U-net引入到視杯視盤分割任務(wù)中,并對(duì)傳統(tǒng)的U-net進(jìn)行了簡(jiǎn)化,以較小性能損失為代價(jià)大大減少了網(wǎng)絡(luò)的參數(shù)量,先通過(guò)對(duì)視盤區(qū)域的分割來(lái)提取感興趣區(qū)域,再利用提取好的感興趣區(qū)域進(jìn)行下一步的視杯區(qū)域的分割。
為了實(shí)現(xiàn)高效的視杯視盤聯(lián)合分割,F(xiàn)u等[8]提出了一種基于多尺度的改進(jìn)型U-net(M-net)用于視杯視盤分割,先使用一個(gè)簡(jiǎn)單的U-net來(lái)提取感興趣區(qū)域,然后使用極坐標(biāo)變換方法來(lái)對(duì)視杯視盤區(qū)域進(jìn)行轉(zhuǎn)換,并且采用多標(biāo)簽的損失函數(shù)來(lái)進(jìn)行視杯視盤的聯(lián)合分割,在提升分割性能的同時(shí)精簡(jiǎn)了步驟,大大提高了分割效率。
Alom等[17]提出了一種基于遞歸殘差模塊的U-net用于醫(yī)學(xué)圖像分割任務(wù),通過(guò)引入遞歸模塊,利用遞歸模塊的特征累積特點(diǎn)來(lái)使U-net能夠更好地提取到具有辨別力的底層特征用于圖像的分割任務(wù)。Oktay等[18]首次將Attention U-net用于乳腺腫塊分割問(wèn)題,通過(guò)將Attention Gate引入到U-net中,在沒有使用額外的ROI提取網(wǎng)絡(luò)前提下,取得了更好的分割性能。實(shí)驗(yàn)結(jié)果表明提出的Attention Gate能夠有效地抑制非ROI區(qū)域特征響應(yīng),在不增加額外關(guān)鍵區(qū)域提取網(wǎng)絡(luò)前提下提取到了更加具有辨別力的特征。
為了減少分割任務(wù)中出現(xiàn)的類不平衡現(xiàn)象,提升模型分割性能,Abraham等[14]在Focal Loss基礎(chǔ)上引入Tversky系數(shù)提出了Focal Tversky Loss損失函數(shù)用于圖像分割任務(wù),在減少分割任務(wù)中類不平衡現(xiàn)象的同時(shí),保證了高準(zhǔn)確率和高召回率,使網(wǎng)絡(luò)專注于難分割區(qū)域,提高了模型分割性能。
本文提出一種多尺度的基于注意力門和遞歸殘差卷積模塊的U型網(wǎng)絡(luò)(MAR2U-net)用于青光眼的視杯和視盤的聯(lián)合分割。該方法的結(jié)構(gòu)示意圖如圖2所示。該方法首先使用預(yù)處理好的多尺度輸入圖像輸入到模型的編碼模塊,并在編碼模塊中引入遞歸殘差卷積模塊;同時(shí)在模型的譯碼模塊中引入Attention Gate模塊和遞歸殘差卷積模塊,使用特征拼接方式將兩模塊進(jìn)行連接;最后使用深監(jiān)督的方法來(lái)對(duì)各層的輸出結(jié)果進(jìn)行整合得到最后的分割結(jié)果。
圖2 MAR2U-net結(jié)構(gòu)示意圖
MAR2U-net是一種基于U-net框架的變種。作為醫(yī)學(xué)圖像分割領(lǐng)域最常見的一種架構(gòu),U-net最早是Ronneberger等[11]提出的一種基于FCN的深度分割框架,其架構(gòu)圖如圖3所示。不同于FCN的特征逐點(diǎn)相加的特征融合方式,U-net采用拼接的方式來(lái)進(jìn)行特征的融合,U-net架構(gòu)相較于其他的分割框架可以更好地提取并融合不同層次的圖像特征。其架構(gòu)主要分為編碼、譯碼兩大模塊,整個(gè)U-net類似一個(gè)U字母,網(wǎng)絡(luò)的左側(cè)即編碼路徑是由一系列的卷積、池化操作構(gòu)成的降采樣操作,將初始的輸入降采樣到較小尺寸,一方面可以降低計(jì)算量,另一方面可以增大感受野大小,更利于提取到一些更深層次的抽象特征[11]。網(wǎng)絡(luò)的右側(cè)即譯碼路徑是由一系列反卷積(也被稱為轉(zhuǎn)置卷積)和卷積操作組成的升采樣操作,逐步將抽象的特征再還原解碼到較大的尺寸,中間采用拼接操作將同一層次的編碼、譯碼模塊進(jìn)行了特征融合,相對(duì)于FCN的逐點(diǎn)相加模式,拼接的融合方式可以形成更厚的特征[11]。
圖3 U-net網(wǎng)絡(luò)架構(gòu)圖
本文采用的Attention Gate是Oktay等[18]提出的一種用于乳腺腫塊分割任務(wù)的改進(jìn)型Attention模塊。通過(guò)提出基于網(wǎng)格的門控,相較于基于全局特征向量的門控,Attention模塊可以使注意力系數(shù)更加具體到局部區(qū)域[18]。該模塊可以方便地被嵌入到其他的網(wǎng)絡(luò)結(jié)構(gòu)中,其結(jié)構(gòu)示意圖如圖4所示。
圖4 AttentionGate結(jié)構(gòu)示意圖
(1)
式中:b1和b2表示偏置;Ψ和ω表示1×1×1的卷積操作。
引入Attention Gate的U-net可以增強(qiáng)模型對(duì)前景像素的敏感度。傳統(tǒng)的U-net架構(gòu),對(duì)于表現(xiàn)出較大形狀差異的小物體,存在較高的假陽(yáng)性的預(yù)測(cè)錯(cuò)誤。為了減少假陽(yáng)性預(yù)測(cè)提高分割的準(zhǔn)確率,傳統(tǒng)的方法通常會(huì)在最終分割前增強(qiáng)一步感興趣區(qū)域提取的操作,Oktay等利用提出的Attention Gate的特點(diǎn)避免了ROI區(qū)域的提取并在胰腺分割中取得了較為優(yōu)秀的結(jié)果。
帶有注意力門的網(wǎng)絡(luò)模型能夠有效地抑制輸入圖像中與目標(biāo)任務(wù)不相關(guān)區(qū)域特征的表達(dá),同時(shí)突出與任務(wù)相關(guān)的特征的表達(dá)[18]。最初Attention Gate被提出來(lái)是利用該結(jié)構(gòu)可以根據(jù)分割任務(wù)來(lái)抑制非ROI區(qū)域特征表達(dá)特點(diǎn)來(lái)避免ROI的提取操作,但是針對(duì)視杯視盤分割任務(wù)而言,由于視盤區(qū)域相較于初始眼底圖像太小,尤其是視杯分割,如果不進(jìn)行ROI區(qū)域的提取,對(duì)視杯的分割結(jié)果會(huì)產(chǎn)生較大的干擾,同時(shí)會(huì)出現(xiàn)視杯、視盤、背景三者比例過(guò)于懸殊的問(wèn)題[8]。鑒于視杯分割任務(wù)難度較視盤分割難度大得多,為了提高視杯分割精度,需要進(jìn)行ROI的提取操作來(lái)增加視杯區(qū)域的比例,也可以避免模型訓(xùn)練過(guò)程中由于極端的失衡比例而可能導(dǎo)致的過(guò)擬合現(xiàn)象[8]。綜上所述,本文在進(jìn)行ROI提取的同時(shí),引入了Attention Gate結(jié)構(gòu),以此來(lái)增強(qiáng)模型的特征提取能力。
Alom等[17]最初將遞歸殘差操作引入到U-net中提出了R2U-net架構(gòu),并在眼底血管分割、皮膚癌病灶分割、肺部分割等多個(gè)任務(wù)中驗(yàn)證了該結(jié)構(gòu)強(qiáng)大的特征提取能力,圖5(a)為遞歸殘差單元的結(jié)構(gòu)示意圖,圖5(b)為其中的遞歸卷積模塊(RCL)結(jié)構(gòu)。
(a) 遞歸殘差 (b) 遞歸卷積
RRCNN Block的模型內(nèi)部具有特征累積的功能,因此在模型的訓(xùn)練和測(cè)試階段均能有較好的表現(xiàn)。其中關(guān)于時(shí)間步的特征累積有利于模型提取更底層的特征且進(jìn)行更強(qiáng)和更好的特征表達(dá)。
為了實(shí)現(xiàn)視杯視盤的聯(lián)合分割,本文提出一種基于多標(biāo)簽的Focal Tversky損失函數(shù),其中采用的Focal Tversky Loss是Abraham等[14]提出的一種對(duì)Focal Loss[20]的改進(jìn)型損失函數(shù)。傳統(tǒng)的醫(yī)學(xué)圖像分割為了避免分割中出現(xiàn)的類不平衡問(wèn)題,通常使用基于Dice得分系數(shù)(DSC)的Dice Loss,式(2)是針對(duì)像素分割問(wèn)題的DSC表達(dá)式, Dice Loss如式(3)所示。
(2)
(3)
式中:c表示圖像中像素的類別;pic表示分割結(jié)果中像素屬于c類別的概率;gic表示標(biāo)簽中像素屬于c類別的概率;ε取1e-5防止分母為0。
Dice Loss損失函數(shù)雖然可以減少分割任務(wù)中存在的類不平衡問(wèn)題,但是它的一個(gè)限制是對(duì)于假陽(yáng)性(FP)和假陰性(FN)檢測(cè)分配的權(quán)重是相同的,然而實(shí)際分割中,針對(duì)一些高度不平衡的數(shù)據(jù)和ROI區(qū)域較小的情形,分割結(jié)果往往會(huì)出現(xiàn)高準(zhǔn)確率、低召回率的情況[14]。因此需要?jiǎng)討B(tài)地調(diào)整假陽(yáng)性(FP)和假陰性(FN)檢測(cè)權(quán)重來(lái)平衡兩者,進(jìn)而達(dá)到更好的分割結(jié)果。式(4)是文獻(xiàn)[14]中提出的Tversky系數(shù),式(5)是對(duì)應(yīng)的Focal Tversky損失函數(shù)。
(4)
(5)
式中:γ取[1,3],表示Focal參數(shù)用于調(diào)節(jié)損失函數(shù)的超參。當(dāng)Tversky較大的像素(容易分類的樣本)被錯(cuò)誤分類后,F(xiàn)TL值變化不大;當(dāng)Tversky較小的像素(難分類的樣本)被錯(cuò)誤分類后,F(xiàn)TL值會(huì)顯著變化。當(dāng)α和β都取0.5時(shí),此時(shí)Tversky系數(shù)就類似于文獻(xiàn)[20]首次提出使用Focal參數(shù)來(lái)使損失函數(shù)更加關(guān)注于難分割的圖像類別。Focal Tversky損失函數(shù)可以通過(guò)控制分割中易分割的背景和難分割的ROI區(qū)域來(lái)緩解Dice損失函數(shù)中出現(xiàn)的作為關(guān)鍵的ROI區(qū)域?qū)p失函數(shù)貢獻(xiàn)并不是很明顯這一缺陷[14]。
考慮到視杯視盤分割任務(wù)難度的差異,在視杯視盤聯(lián)合分割的過(guò)程中,本文采用了多標(biāo)簽的損失函數(shù),并且對(duì)于視杯視盤的分割貢獻(xiàn)進(jìn)行了動(dòng)態(tài)的平衡。式(6)是文中所采用的損失函數(shù),式(7)和式(8)為具體的FTLod計(jì)算過(guò)程,F(xiàn)TLoc類似。σ1和σ2是用來(lái)調(diào)整視杯、視盤對(duì)總的損失函數(shù)的貢獻(xiàn)。
FTLM=σ1FTLod+σ2FTLoc
(6)
(7)
(8)
此外當(dāng)模型接近收斂的時(shí)候,類精度會(huì)較高,此時(shí)會(huì)出現(xiàn)FTL過(guò)度抑制的情況。為了防止對(duì)損失函數(shù)的過(guò)度抑制,本文采用了文獻(xiàn)[14]中的訓(xùn)練策略:對(duì)中間層的訓(xùn)練使用了FTL,但是對(duì)最后一層的輸出使用了TL,以此來(lái)提供較強(qiáng)的誤差信號(hào)來(lái)減輕次優(yōu)收斂。
傳統(tǒng)的U-net雖然采用了拼接的方式將特征進(jìn)行融合,一定程度上融合了多層次的特征,但是傳統(tǒng)的U-net的連續(xù)池化操作和跨步卷積操作會(huì)導(dǎo)致一定的空間信息損失[21],本文采用了文獻(xiàn)[8]采用的多尺度輸入層來(lái)減少空間信息的損失并提高模型分割精度。文獻(xiàn)[8]通過(guò)多尺度的輸入盡可能地減少了空間信息的損失,通過(guò)圖像金字塔(多尺度的輸入)可以減少由于卷積和池化操作帶來(lái)的空間信息的損失,進(jìn)而可以提高圖像分割效果[22]。此外多尺度的輸入對(duì)模型的參數(shù)影響很小,且使編碼路徑的寬度更寬使每層都可以學(xué)習(xí)到更多豐富的特征[8]。
本文實(shí)驗(yàn)所采用的數(shù)據(jù)集是全尺寸的眼底圖像數(shù)據(jù)集REFUGE,示例圖片如圖1所示,可以清晰地注意到視盤區(qū)域相比于背景區(qū)域要小很多,視杯區(qū)域與背景區(qū)域的比例則更加夸張。由于視盤和視杯之間的邊界相對(duì)比較模糊且不容易鑒別,因此視杯的分割難度要比視盤的分割大很多[8]。在實(shí)際情況下,這種極端的視杯和背景區(qū)域比例會(huì)導(dǎo)致視杯分割結(jié)果出現(xiàn)較大誤差。Fu等[8]為了解決上述的問(wèn)題,提出了極坐標(biāo)化的預(yù)處理方法。圖6展示了圖片ROI區(qū)域即ROI的極坐標(biāo)化后的圖片。
(a) 經(jīng)過(guò)提取的ROI圖片 (b) 初始ROI標(biāo)簽
通過(guò)極坐標(biāo)變換,將原本徑向的空間結(jié)構(gòu)關(guān)系轉(zhuǎn)化為層狀空間結(jié)構(gòu),即將橢圓邊界這種強(qiáng)約束轉(zhuǎn)化為線條處理更加有利于分割任務(wù)[8]。在實(shí)際的實(shí)驗(yàn)中,為了進(jìn)行極坐標(biāo)轉(zhuǎn)化,必須先通過(guò)預(yù)處理的方法來(lái)提取ROI區(qū)域及該區(qū)域的中心點(diǎn)坐標(biāo)。在獲得ROI區(qū)域即中心點(diǎn)坐標(biāo)后,采用不同的半徑來(lái)進(jìn)行極坐標(biāo)化也可以達(dá)到數(shù)據(jù)增量的效果。初始的ROI區(qū)域中視杯和背景區(qū)域比例雖然相比于原始圖片中有了很大提升,但是仍然存在較大的失衡。圖像分割即像素級(jí)別的分類,較大的類別失衡會(huì)對(duì)模型的訓(xùn)練產(chǎn)生一定的偏差和過(guò)擬合的風(fēng)險(xiǎn)[8]。通過(guò)上述的極坐標(biāo)變化,從圖6(b)和圖6(d)的對(duì)比可以觀察到,視杯和視盤及背景區(qū)域的比例得到較大的平衡。
不同于自然圖像,青光眼診斷所用的數(shù)字眼底圖片數(shù)據(jù)集較為缺乏且數(shù)據(jù)集的規(guī)模較小。實(shí)驗(yàn)中所采用的REFUGE數(shù)據(jù)集作為目前最大規(guī)模的帶有視杯、視盤標(biāo)簽的眼底圖像數(shù)據(jù)集,其訓(xùn)練集數(shù)據(jù)規(guī)模也僅400幅,這個(gè)數(shù)量對(duì)于稍微復(fù)雜的深層網(wǎng)絡(luò)模型很容易出現(xiàn)訓(xùn)練過(guò)擬合的情況。本文通過(guò)一定范圍內(nèi)的隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)、位移等操作來(lái)對(duì)訓(xùn)練圖片進(jìn)行了數(shù)據(jù)增量操作,進(jìn)而降低模型訓(xùn)練過(guò)擬合的風(fēng)險(xiǎn)來(lái)提升分割性能。
此外,本文還采用了限制對(duì)比度直方圖均衡方法(CLAHE)[23]來(lái)處理圖片,它通過(guò)改變圖片區(qū)域的顏色和插值結(jié)果來(lái)增強(qiáng)對(duì)比度,進(jìn)而更加凸顯視杯、視盤區(qū)域。從圖7的對(duì)比結(jié)果可以較為直觀地觀察到,經(jīng)過(guò)CLAHE處理后的圖片的視杯、視盤邊界更加明顯。
(a) 初始ROI圖片 (b) CLAHE處理后圖片
本文在REFUGE數(shù)據(jù)集[24]上測(cè)試了MAR2U-net在聯(lián)合視杯視盤分割任務(wù)上的表現(xiàn),并且對(duì)比了已有的多種視杯視盤分割模型:U-net[7],R2U-net[17],M-net[8],MAU-net[14]。表1給出了實(shí)驗(yàn)中各個(gè)模型的實(shí)際參數(shù)信息。
表1 實(shí)驗(yàn)?zāi)P蛥?shù)量
為了評(píng)價(jià)分割結(jié)果,并與其他分割方法進(jìn)行比較,本文使用Dice系數(shù)和平衡精度(Balanced Accuracy)作為評(píng)估標(biāo)準(zhǔn)。Dice系數(shù)如式(2)所示;平衡精度計(jì)算如式(9)所示。
(9)
式中:TP表示圖像中像素預(yù)測(cè)真陽(yáng)性的數(shù)量;FN表示假陰性的數(shù)量;TN表示真陰性的數(shù)量;FP表示假陽(yáng)性的數(shù)量。
本文所采用的數(shù)據(jù)集是REFUGE數(shù)據(jù)集[24],該數(shù)據(jù)集中分別包含了400幅帶有視杯、視盤分割標(biāo)簽的訓(xùn)練、驗(yàn)證、測(cè)試集。圖8為一幅REFUGE中的測(cè)試圖片樣例。
圖8 REFUGE數(shù)據(jù)集樣例
本文實(shí)驗(yàn)基于Keras并以TensorFlow作為后端。在訓(xùn)練階段,使用Adam 優(yōu)化器[23]來(lái)訓(xùn)練優(yōu)化實(shí)驗(yàn)中的模型,學(xué)習(xí)率設(shè)置為1e-5;Focal Tversky損失函數(shù)中的超參α和β分別取0.7和0.3,γ取4/3;聯(lián)合分割損失函數(shù)中的超參σ1和σ2分別取0.5和0.5;epoch大小設(shè)置為200;此外一個(gè)用于從概率圖中得到二值遮罩的固定的閾值也設(shè)置為0.5。本文實(shí)驗(yàn)硬件環(huán)境是GTX 1080TI顯卡、32 GB的運(yùn)行內(nèi)存、i7 8700K的處理器。
從表1中可以觀察到R2U-net和MAR2U-net參數(shù)量要明顯小于其他的模型。正常情況下,因?yàn)椴捎昧诉f歸殘差卷積模塊,網(wǎng)絡(luò)層數(shù)比較深,模型的參數(shù)量會(huì)非常大。因此為了證明模型分割性能的提升不是單靠擴(kuò)增模型大小而導(dǎo)致的,本文對(duì)實(shí)驗(yàn)中的R2U-net、MAR2U-net模型進(jìn)行了簡(jiǎn)化,使卷積核的數(shù)量減少到對(duì)比模型的一半。這樣一來(lái),對(duì)應(yīng)模型的參數(shù)量就得到了大幅度的減少(R2U-net從24.65 M減少到6.17 M,MAR2U-net從最初的29 M降低到7.31 M)。
表2展示了幾種模型在視杯視盤分割任務(wù)上的性能表現(xiàn)。為了更加客觀地對(duì)比各個(gè)實(shí)驗(yàn)?zāi)P?,本文?duì)每組實(shí)驗(yàn)?zāi)P蛷膿p失函數(shù)、數(shù)據(jù)預(yù)處理方面進(jìn)行了統(tǒng)一,默認(rèn)均采用Dice Loss損失函數(shù),以及非極坐標(biāo)化的輸入,其中模型帶M的表示多尺度輸入。為了更好地對(duì)比極坐標(biāo)化處理和Focal Tversky損失函數(shù)的效果,本文增加了三組對(duì)比模型,其中:MAR2U-ne-P表示使用極坐標(biāo)圖片作為輸入;MAR2U-net-F表示使用Focal Tversky損失函數(shù);MAR2U-net-FP表示兩者的結(jié)合。由表2可以發(fā)現(xiàn),本文提出的MAR2U-net-FP架構(gòu)在各個(gè)評(píng)價(jià)指標(biāo)上較對(duì)比方法取得了顯著的提升,對(duì)于較難分割的視杯區(qū)域也取得了較高的分割精度。通過(guò)表2中各個(gè)實(shí)驗(yàn)的對(duì)比分析,可以觀察到不同模塊、處理方法的引入對(duì)結(jié)果的影響,其中:Dicecup表示視杯分割Dice系數(shù)得分;Dicedisc表示視盤分割Dice系數(shù)得分;BAdisc表示視盤分割平衡精度;BAcup表示視杯分割平衡精度。對(duì)比U-net和M-net的結(jié)果可以發(fā)現(xiàn)多尺度輸入能有效提升模型分割性能;對(duì)比U-net和R2U-net可以驗(yàn)證遞歸卷積模塊的引入也可以提升模型性能;在參數(shù)量遠(yuǎn)小于MAU-net的前提下,采用DiceLoss和非極坐標(biāo)輸入的MAR2U-net結(jié)果仍優(yōu)于MAU-net,這也說(shuō)明模型架構(gòu)的優(yōu)越性。通過(guò)最后三組的對(duì)比實(shí)驗(yàn),可以發(fā)現(xiàn)Focal Tversky多標(biāo)簽損失函數(shù)和極坐標(biāo)化處理的引入使本文提出的架構(gòu)在聯(lián)合視杯視盤分割任務(wù)的性能得到了較大幅度的提升。
表2 各模型在REFUGE數(shù)據(jù)集上測(cè)試結(jié)果
圖9直觀展示了各模型在部分測(cè)試樣例上的分割結(jié)果??梢郧逦匕l(fā)現(xiàn)本文方法在分割效果上比對(duì)比方法取得的顯著提升,尤其是在最后一列的測(cè)試結(jié)果中,由于原圖的眼底圖像中滲出液影響導(dǎo)致出現(xiàn)較大亮斑,影響了模型對(duì)視杯視盤的分割,只有本文方法取得了相對(duì)可以接受的結(jié)果,但是與標(biāo)注的結(jié)果仍然存在一定差距。
圖9 各模型在REFUGE數(shù)據(jù)集上的部分測(cè)試結(jié)示意圖
此外為了驗(yàn)證Attention機(jī)制能夠使模型更加專注于關(guān)鍵區(qū)域的分割,本文采用了不同大小的ROI圖片進(jìn)行了對(duì)比實(shí)驗(yàn)。本文采用了以下四種不同的對(duì)比模型:U-net400, U-net800,AU-net800,AU-net400。其中400和800分別表示圖片ROI區(qū)域的尺寸大小。如圖10所示,可以發(fā)現(xiàn)ROI為400的圖片視杯、視盤相比于背景區(qū)域的比例要明顯大于ROI為800的圖片,ROI為400的圖片有更好的視杯、視盤、背景比例,對(duì)于較難分割的視杯區(qū)域,ROI為400的圖片更加有優(yōu)勢(shì)。從表3的實(shí)驗(yàn)結(jié)果中可以觀察到AU-net400結(jié)果優(yōu)于AU-net800,AU-net800 優(yōu)于U-net400,U-net400優(yōu)于U-net800,該對(duì)比實(shí)驗(yàn)也再一次佐證了文獻(xiàn)[18]中的觀點(diǎn):Attention Gate具有ROI提取的類似作用,可以有效地抑制非ROI區(qū)域特征響應(yīng)。此外,通過(guò)不同ROI的同一架構(gòu)的結(jié)果對(duì)比可知,ROI為400的更有利于提升模型分割結(jié)果,因此在實(shí)際實(shí)驗(yàn)中,本文采用了較小的ROI區(qū)域作為模型的訓(xùn)練數(shù)據(jù)。
(a) ROI為800的圖片 (b) ROI為400的圖片
表3 Attention Gate引入對(duì)不同ROI輸入結(jié)果的影響
為了對(duì)比不同的σ1和σ2取值對(duì)模型訓(xùn)練結(jié)果的影響,本文還增加了不同σ1和σ2取值下得到訓(xùn)練模型的測(cè)試結(jié)果對(duì)比,表4是不同取值下模型測(cè)試結(jié)果,其中U-net11表示σ1和σ2都取0.5,U-net23表示σ1和σ2分別取0.4和0.6,U-net32表示σ1和σ2分別取0.6和0.4。從表4中可以發(fā)現(xiàn)U-net和MAR2U-net模型中σ1和σ2分別取0.4和0.6時(shí),視杯分割結(jié)果均優(yōu)于其他取值;當(dāng)σ1和σ2分別取0.6和0.4時(shí),視盤分割結(jié)果達(dá)到最好。即通過(guò)調(diào)節(jié)σ1和σ2的取值,可以對(duì)不同分割任務(wù)進(jìn)行動(dòng)態(tài)的平衡。U-net23與U-net11相比,Dicedisc值減少了0.004,但是Dicecup值增加了0.16,BAdisc值減少0.001,BAcup增加了0.08,與U-net32比較也出現(xiàn)了較小的視盤分割性能下降和較大視杯分割提升。觀察MAR2U-net的三個(gè)對(duì)比模型結(jié)果,也可以發(fā)現(xiàn)類似的規(guī)律,即:通過(guò)對(duì)σ1和σ2取值調(diào)節(jié)可以達(dá)到以較小的視盤分割性能損失換取較大視杯分割性能提升。對(duì)于較難分割的視杯區(qū)域,這種做法顯然更有利于提升整體的分割性能。
表4 不同σ1和σ2取值下的模型測(cè)試結(jié)果
本文提出一種新型的聯(lián)合視杯視盤分割模型(MAR2U-net)。以U-net架構(gòu)為基礎(chǔ),通過(guò)引入注意力機(jī)制和遞歸殘差模塊,使模型更加專注于待分割的關(guān)鍵區(qū)域,并且利用遞歸卷積的特征累積特點(diǎn)提取到更加利于分割的深層特征,結(jié)合殘差模塊的特點(diǎn),可以使深層網(wǎng)絡(luò)得到更好的訓(xùn)練。此外本文還采用了多標(biāo)簽的Focal Tversky損失函數(shù)用于聯(lián)合視杯、視盤分割,一方面提高了視杯、視盤分割效率,另一方面使模型更加專注于難分割的關(guān)鍵區(qū)域,平衡了模型分割的準(zhǔn)確率和召回率,從而進(jìn)一步提升了模型的分割精度。最后本文通過(guò)了一系列的對(duì)比實(shí)驗(yàn)證明了本文方法的有效性。
雖然本文提出的方法在視杯視盤分割效果上取得了較為顯著的提升,但是對(duì)于一些較為特殊復(fù)雜的樣例,結(jié)果仍然需要進(jìn)一步提高。此外,本文提出的架構(gòu)在結(jié)構(gòu)上相比于對(duì)比方法較為復(fù)雜,雖然實(shí)驗(yàn)中通過(guò)減少卷積核數(shù)量使模型參數(shù)得到了降低,但是如何在保證高精度分割性能的前提下,進(jìn)一步使模型更加簡(jiǎn)潔和輕量化是接下來(lái)研究的重點(diǎn)。