花勇,李珍珍,潘建宏,楊烜
深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,深圳 518060
慢性腎臟病已成為威脅人類(lèi)健康的主要疾病之一,早期診斷是治療慢性腎病的關(guān)鍵。腎小球在血液循環(huán)中保留較高分子量的蛋白質(zhì),腎小球的分割、識(shí)別對(duì)慢性腎病的診斷具有重要意義。腎切片染色是進(jìn)行腎小球自動(dòng)分割、識(shí)別的成像手段,腎切片全染色圖像(whole slide image,WSI)能反映腎小球的分布和解剖特點(diǎn),可以用于腎小球自動(dòng)分割與識(shí)別,如圖1(a)所示。圖1(b)—(d)展示了全染色圖像WSI 的局部切片,圖中綠色曲線(xiàn)勾勒出的區(qū)域?yàn)槟I小球,可以看出目標(biāo)大小差異大、內(nèi)部紋理復(fù)雜、形狀不規(guī)則且存在白色的鮑曼囊,鮑曼囊在切片中并不總是可見(jiàn)的,給分割帶來(lái)了困難。另外,染色過(guò)程中腎小球染色深淺不同,染色的其他組織與腎小球的紋理非常接近,都使分割問(wèn)題變得復(fù)雜。
圖1 全染色腎臟切片與腎小球染色切片F(xiàn)ig.1 Full-stained kidney slice and stained glomerular slice((a)full-stained kidney slice;(b)the difference of glomerulus in shape and size;(c)the glomerulus is close to background;(d)non-uniform staining)
全染色圖像是腎組織切片在顯微鏡下的成像,這類(lèi)圖像分辨率非常高,可以達(dá)到108以上像素,需要對(duì)局部切片圖像分別進(jìn)行分割,然后進(jìn)行分割結(jié)果拼接。圖像的局部切分會(huì)使目標(biāo)處于局部切片邊界,弱化其概率響應(yīng),因此直接拼接會(huì)出現(xiàn)誤差,導(dǎo)致在這類(lèi)高分辨圖像上采用滑窗的方式效率極低。
目前,深度學(xué)習(xí)在醫(yī)學(xué)圖像分割、檢測(cè)和識(shí)別領(lǐng)域展現(xiàn)了良好的性能。在Long 等人(2015)提出全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)和Ronneberger 等人(2015)提出U-Net 網(wǎng)絡(luò)架構(gòu)后,涌現(xiàn)出一批新的網(wǎng)絡(luò)架構(gòu)和方法用于醫(yī)學(xué)圖像分割。對(duì)于WSI 腎小球分割問(wèn)題,Gadermayr 等人(2016)為提高分類(lèi)模型在腎臟病理數(shù)據(jù)上的泛化能力,提出一種域自適應(yīng)方法,但其基于特征的逐塊分類(lèi)方法的性能仍不足以進(jìn)行可靠地分類(lèi)和染色分割;Pedraza 等人(2017)使用預(yù)訓(xùn)練的AlexNet模型,以訓(xùn)練樣本區(qū)分腎小球和非腎小球;Gadermayr等人(2017)提出一種弱監(jiān)督的基于圖像塊的檢測(cè)、分割兩階段架構(gòu);Kannan 等人(2019)使用Inception v3 架構(gòu)判別無(wú)腎小球、正?;蚓植坑不哪I小球和全局硬化的腎小球;Altini 等人(2020)將SegNet(Badrinarayanan 等,2017)和DeepLab v3+(Chen 等,2018b)網(wǎng)絡(luò)應(yīng)用到腎小球的分割中,將以上兩種網(wǎng)絡(luò)的尾層替換為像素級(jí)分類(lèi)層,分為背景、硬化性腎小球和非硬化性腎小球3 個(gè)類(lèi)別;Jha 等人(2021)針對(duì)WSI 圖像提出一種先檢測(cè)后分割的端到端的網(wǎng)絡(luò)。時(shí)永剛等人(2017)提出一種基于全卷積網(wǎng)絡(luò)和GrowCut 的腎皮質(zhì)自動(dòng)分割算法,可分割正常和變異腎臟圖像。
由于腎小球目標(biāo)形態(tài)差異大,多分辨率特征在提高分割精度中起著關(guān)鍵作用,Sertel等人(2009)提出一種模擬病理學(xué)家評(píng)估的多分辨率方法,從最低分辨率開(kāi)始分析,并在必要時(shí)切換到更高分辨率,在特定分辨率級(jí)別上做出判決;Barker 等人(2016)對(duì)WSI 圖像中局部特征進(jìn)行從粗到細(xì)的分析,粗分析包括在整個(gè)圖像中提取形狀、顏色和紋理的空間局部特征;細(xì)分析提供對(duì)不同類(lèi)別的單獨(dú)表示,通過(guò)投票決策獲得整個(gè)圖像級(jí)別的診斷。由于不能在千兆像素分辨率的WSI 圖像上直接訓(xùn)練,Hou 等人(2016)提出一個(gè)決策融合模型實(shí)現(xiàn)patch-level 級(jí)預(yù)測(cè),實(shí)現(xiàn)對(duì)圖像塊的分類(lèi)。
為提高醫(yī)學(xué)圖像的分割精度,許多研究從多尺度特征提取、上下文信息以及不同層間的信息流動(dòng)等方向進(jìn)行改進(jìn)。其中,感受野(receptive field,RF)的大小往往決定了卷積核能夠提取到的多粒度信息是否豐富,因此如何擴(kuò)大感受野一直是卷積神經(jīng)網(wǎng)絡(luò)研究中的一個(gè)關(guān)鍵問(wèn)題。此外,在醫(yī)學(xué)圖像分割領(lǐng)域,由于病灶區(qū)域大小存在著尺度變化大、邊緣模糊的情況,需要豐富的多粒度上下文信息來(lái)完成像素級(jí)別的分類(lèi)。Zhang 等人(2017)設(shè)計(jì)一種金字塔空洞卷積替換普通卷積,使得在不損失分辨率的情況下能夠更好地利用全局上下文信息并擴(kuò)大網(wǎng)絡(luò)的感受野;Sarker 等人(2018)在編碼層的尾部使用金字塔池化,并在不同分支采用不同的池化率,豐富特征的多粒度信息。羅會(huì)蘭和張?jiān)疲?019)提出使用選擇搜索方法從圖像中生成不同尺度的候選區(qū)域,提取每個(gè)區(qū)域的特征,進(jìn)行高層和底層特征的融合,從而得到區(qū)域信息和上下文信息。盡管這些方法能夠獲得一定的感受野提升,捕獲到更多的長(zhǎng)距離信息,但卷積核不能無(wú)限制擴(kuò)張,金字塔池化模塊分支不能無(wú)限增加,因此能夠捕獲到的上下文信息仍然具有局限性。
在WSI 腎小球分割問(wèn)題中,上下文信息還未被充分關(guān)注,較少得到應(yīng)用,同時(shí)圖像分塊造成的目標(biāo)處于邊界上的問(wèn)題也很少有文獻(xiàn)進(jìn)行研究。另外,超大的圖像分辨率在整圖中檢測(cè)目標(biāo)時(shí)導(dǎo)致巨大的計(jì)算量。針對(duì)以上問(wèn)題,本文提出一種邊界信息保持的全染色腎臟切片多粒度分割方法,該方法將WSI 整圖切分成圖像塊處理,在每個(gè)圖像塊中提取多粒度的上下文特征信息,使用增廣路徑方法對(duì)圖像塊邊界進(jìn)行補(bǔ)零填充,以保證目標(biāo)處于圖像邊界時(shí)信息不丟失,確保目標(biāo)處于圖像邊界時(shí)分割的精度,并從理論上闡明這種增廣路徑補(bǔ)零策略的有效性;最后,為完成在整圖中的目標(biāo)預(yù)測(cè),本文提出一種特征復(fù)用的滑窗方法,可以有效提高完整目標(biāo)的預(yù)測(cè)效率。
本文的創(chuàng)新貢獻(xiàn)包括:1)提出一種多粒度上下文的空間注意力機(jī)制(multi-granularities context based spatial attention mechanism,MGCA),用于提取豐富的上下文信息以提高目標(biāo)分割精度。通過(guò)對(duì)特征圖內(nèi)的像素進(jìn)行全局上下文建模,增強(qiáng)邊界模糊的目標(biāo)特征。2)將高分辨率的全染色腎臟圖像切分為多個(gè)圖像塊時(shí),常用的卷積運(yùn)算中的Padding補(bǔ)零操作使處在邊緣的目標(biāo)特征出現(xiàn)損失,本文使用增廣路徑的補(bǔ)零填充方式,使邊緣像素的信息能夠無(wú)損失地向后傳遞。3)為增強(qiáng)小目標(biāo)的特征響應(yīng),消除小目標(biāo)對(duì)位置的敏感性,提出概率累積的滑窗預(yù)測(cè)策略,通過(guò)網(wǎng)絡(luò)層特征圖復(fù)用,有效提高全染色圖像分割效率。
本文方法是在Li 等人(2021)工作的基礎(chǔ)上進(jìn)行的擴(kuò)充,Li 等人(2021)的工作主要討論了增廣路徑的零填充方法,本文在該方法中增加了多粒度上下文的空間注意力機(jī)制,以及概率累積的滑窗預(yù)測(cè)方法,是針對(duì)全染色圖像腎小球分割的完整方法,Li等人(2021)的工作內(nèi)容僅是本文方法的一個(gè)步驟。
為了驗(yàn)證本文方法的有效性,在私有小鼠腎臟數(shù)據(jù)集和kaggle2021(2021 kaggle machine learning&data science survey)中所提供的公開(kāi)HuBMAP(human biomolecular atlas program)人類(lèi)腎臟數(shù)據(jù)集上進(jìn)行驗(yàn)證,驗(yàn)證結(jié)果表明本文方法在多個(gè)評(píng)估指標(biāo)方面優(yōu)于現(xiàn)有方法。
WSI 圖像中腎小球存在染色差異大、形狀變化大以及目標(biāo)邊界與背景邊界不清晰的問(wèn)題,Hervé等人(2011)曾指出在染色變化很大的數(shù)據(jù)集上,需要同時(shí)提取顏色和紋理信息,語(yǔ)義上下文信息對(duì)辨識(shí)腎小球尤為重要。因?yàn)閁-Net 網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割領(lǐng)域有良好的性能,本文采用U-Net 作為目標(biāo)分割的基準(zhǔn)網(wǎng)絡(luò)。但U-Net 的池化操作僅得到固定面積的感受野,意味著其全局上下文信息的尺度是單一的,會(huì)影響網(wǎng)絡(luò)對(duì)腎小球特征的提取能力。本文提出一種多粒度上下文的空間注意力機(jī)制MGCA,以提高U-Net在多尺度特征的提取能力。
由于卷積運(yùn)算只能捕獲局部的細(xì)粒度信息,而不能獲取特征圖全局的粗粒度信息,很多卷積神經(jīng)網(wǎng)絡(luò)都在研究粗粒度的全局信息感知。Simonyan和Zisserman(2015)通過(guò)多層卷積操作,擴(kuò)大局部感受邊緣直至全局。Kamnitsas 等人(2017)使用并行卷積路徑,結(jié)合局部和全局的多粒度信息;Inception(Szegedy 等,2017)和DeepLab(Chen 等,2018a)系列設(shè)計(jì)具有不同感受野的卷積分支,以增強(qiáng)捕獲多粒度上下文信息的能力;Ding 等人(2019)提出一個(gè)語(yǔ)義相關(guān)、形狀可變的上下文注意力(shape variant context,SVC)模塊,使目標(biāo)區(qū)域的網(wǎng)絡(luò)注意力隨目標(biāo)變化;Zhang 等人(2020)將具有不同空洞率的卷積核引入多分支結(jié)構(gòu),再將多個(gè)分支提取到的不同大小感受野的特征進(jìn)行融合,以解決感受野不足的問(wèn) 題;PSPNet(pyramid scene parsing network)(Zhao等,2017)和PoolNet(Liu 等,2019)設(shè)計(jì)具有不同大小的池化分支并進(jìn)行特征融合,從而增強(qiáng)多粒度信息;Feng 等人(2020)使用注意力機(jī)制對(duì)網(wǎng)絡(luò)不同階段提取到的特征進(jìn)行篩選,以應(yīng)對(duì)特征粒度的變化;Hu等人(2020)提出基于通道的注意力機(jī)制,以融合全局信息。
全染色腎臟圖像中的腎小球與背景組織在紋理上存在相似,同時(shí)由于染色成像的影響使得腎小球組織的邊界不夠清晰。本文受SVC(Ding 等,2019)的啟發(fā),提出一種多粒度上下文的空間注意力機(jī)制,通過(guò)控制感受野的尺寸來(lái)提取全局到局部細(xì)節(jié)的不同粗細(xì)粒度的信息,以生成多粒度的空間注意力圖,對(duì)目標(biāo)給予更多的注意力,減弱背景對(duì)目標(biāo)的干擾,強(qiáng)化網(wǎng)絡(luò)的感知能力。SVC 的核心模塊是成對(duì)卷積,用于描述局部特征之間的差異。對(duì)于給定的特征圖x∈RC×H×W,位置(i-m,j-n)與位置(i,j)的卷積結(jié)果之間的差值為
本文在成對(duì)卷積的結(jié)果上,將K×K感受野產(chǎn)生的上下文空間注意力機(jī)制記為
采用多個(gè)不同大小的K來(lái)產(chǎn)生不同粒度的空間注意力機(jī)制并將多個(gè)粒度的空間注意力機(jī)制堆疊。
多粒度上下文的空間注意力機(jī)制如圖2 所示。假設(shè)K1=3,K2=7,K3=11 的MGCA 中包含4 個(gè)分支,下面3 個(gè)分支用于提取每個(gè)像素與周?chē)袼氐亩喑叨日Z(yǔ)義相關(guān)性,得到的是不同K的加權(quán)注意力上下文特征,最上面的分支是將卷積提取的特征空間信息的特征圖,與上述分支得到的不同粗細(xì)粒度信息的特征圖進(jìn)行濾波,得到不同粗細(xì)粒度的強(qiáng)化特征。
圖2 多粒度上下文的空間注意力機(jī)制Fig.2 Multi-granularities context based spatial attention mechanism
MGCA 的時(shí)間復(fù)雜度隨特征圖大小的增加而增加,因此本文將提出的多粒度空間注意力模塊加入到U 型結(jié)構(gòu)的最底部,即特征圖尺寸最小處,如圖3所示,在強(qiáng)化U-Net 對(duì)高層視覺(jué)特征提取的同時(shí),提升模型速度。
感受野在深度卷積網(wǎng)絡(luò)中起著至關(guān)重要的作用,卷積的填充方案與感受野密切相關(guān)。在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的卷積操作中,常用的零填充會(huì)引起信息衰減以及權(quán)重偏差。例如,一維圖像零填充,如圖4 所示,底層x0表示輸入圖像,頂層x4表示輸出圖像,圖中的圓圈表示圖像的像素:不受零填充影響的純像素、受零填充影響的混合像素和零填充像素,混合像素是通過(guò)純像素與零填充像素(或其他混合像素)的卷積運(yùn)算生成的,由于邊緣使用零填充,混合像素的信息在前向傳遞時(shí)出現(xiàn)信息衰減。下面本文從理論層面分析傳統(tǒng)零填充存在的信息衰減問(wèn)題。
圖4 零填充卷積運(yùn)算中信息衰減和積累效應(yīng)Fig.4 Information attenuation and accumulation in zero-padding convolution
表1 列出了不同位置像素及相鄰像素的貢獻(xiàn)值,可以看出,越是靠近邊緣時(shí)(如r=4),輸入圖像上相同位置的信息貢獻(xiàn)就會(huì)有明顯的衰減,而對(duì)r=4 這個(gè)位置,r=3 貢獻(xiàn)大于r=4 的貢獻(xiàn),也就說(shuō)明輸入圖像中的主要貢獻(xiàn)會(huì)偏移到相鄰像素的位置上,本文稱(chēng)該現(xiàn)象為貢獻(xiàn)偏移效應(yīng)。
表1 輸入圖像中不同位置像素的貢獻(xiàn)度量Table 1 Contribution of pixels located in positions
圖5 展示了不同層數(shù)網(wǎng)絡(luò)中,二維圖像進(jìn)行卷積的貢獻(xiàn)度量,亮度越大表示該位置貢獻(xiàn)越大,可以看出,越是靠近邊緣的位置,衰減的程度越大;隨著網(wǎng)絡(luò)的加深,信息衰減效應(yīng)的影響面積與理論感受野的大小之比越來(lái)越小,說(shuō)明感受野在一定程度上可以對(duì)抗信息衰減的效應(yīng)。
圖5 二維圖像上像素貢獻(xiàn)可視化Fig.5 The visualization of contribution of 2D images in pixel
圖6 展示了二維輸入圖像的相鄰位置對(duì)輸出圖像的貢獻(xiàn),圖中紅色方框?yàn)樗?jì)算的不同位置的目標(biāo)像素輸入對(duì)輸出的貢獻(xiàn)量,可以看到,貢獻(xiàn)最大的位置與紅色方框位置不吻合,說(shuō)明貢獻(xiàn)中心存在偏移。并且,卷積深度越深,貢獻(xiàn)中心偏移越遠(yuǎn)。
圖6 相鄰位置的貢獻(xiàn)可視化Fig.6 The visualization of contribution of adjacent position
上述分析表明,卷積運(yùn)算中采用零填充方式會(huì)出現(xiàn)信息衰減效應(yīng)以及相鄰像素的貢獻(xiàn)偏移問(wèn)題。本文使用一種增廣路徑傳播的補(bǔ)零填充策略(receptive field rectification via augmenting path,RIAP),如圖7 所示,假設(shè)卷積核大小為(2n+1) ×(2n+1),在輸入層填充n個(gè)零,產(chǎn)生n個(gè)增廣像素;在第1 層填充2n個(gè)零,生成2n個(gè)增廣像素,依此類(lèi)推,直至在層中填充×n個(gè)增廣像素。該方法使得層可提供足夠的填充數(shù)據(jù),在之后的層中,不填充新數(shù)據(jù)也可產(chǎn)生無(wú)損失的輸出特征圖。輸入邊界信息將會(huì)沿著虛色標(biāo)記的路徑進(jìn)行傳播,該路徑稱(chēng)為增廣路徑。對(duì)于池化層而言,由于增廣像素包圍生成的特征圖提供足夠的填充信息,池化操作可以按照正常的方式執(zhí)行。對(duì)于擴(kuò)張卷積的數(shù)據(jù)填充,貪婪算法可以提供足夠的填充數(shù)據(jù),為了估計(jì)最優(yōu)填充數(shù)據(jù)的數(shù)目,可以使用類(lèi)似的算法。需要說(shuō)明的是,RIAP 的增廣像素只是一個(gè)填充像素,不是神經(jīng)元,無(wú)需額外的網(wǎng)絡(luò)架構(gòu)來(lái)處理。
圖7 增廣路徑Fig.7 Augmentation path
使用離散傅里葉變換(discrete Fourier transform,DFT)將w(t)和轉(zhuǎn)換至頻域表示(w)。具體為
(r)可以使用可逆離散傅里葉變換表示,具體為
由于全染色腎臟切片存在分辨率極高的問(wèn)題,在測(cè)試時(shí)可以將原圖分割成多個(gè)patch,再拼接結(jié)果。但拼接時(shí),處于邊緣部分的腎小球會(huì)出現(xiàn)較大的預(yù)測(cè)誤差。在整圖中,滑窗的方式可以解決腎小球處于邊界的問(wèn)題,但在圖像中小目標(biāo)位置不同的問(wèn)題會(huì)使預(yù)測(cè)發(fā)生波動(dòng)。為降低因目標(biāo)位置不同而導(dǎo)致的網(wǎng)絡(luò)分割精度下降,本文采用概率累積預(yù)測(cè)的方法:在全視野腎臟染色切片上,以一定的步長(zhǎng)滑動(dòng)窗口,并對(duì)預(yù)測(cè)概率進(jìn)行累積。
如圖8 所示,圖8(a)是滑窗滑動(dòng)無(wú)重疊的預(yù)測(cè)結(jié)果,圖8(b)是滑窗以步長(zhǎng)為20 重疊的預(yù)測(cè)結(jié)果,可以看出滑窗無(wú)重疊的情況下,分割出的腎小球破壞嚴(yán)重,造成漏判增多,通過(guò)對(duì)多個(gè)預(yù)測(cè)概率的疊加,圖8(a)中未預(yù)測(cè)出的部分在圖8(b)中有概率響應(yīng),但重復(fù)計(jì)算patch的共同部分會(huì)造成較高計(jì)算時(shí)耗的問(wèn)題,因此在概率累積的基礎(chǔ)上,本文提出圖像重疊部分的特征復(fù)用算法,即相鄰的兩次滑動(dòng)窗口對(duì)應(yīng)的特征圖存在交疊,對(duì)交集部分特征圖進(jìn)行復(fù)用,以減少計(jì)算量。滑窗的方式與patch 的方式相比,避免了patch 間共同部分的重復(fù)計(jì)算,又對(duì)特征進(jìn)行了復(fù)用,減少特征圖的計(jì)算時(shí)間。
圖8 非概率累積和步長(zhǎng)為20的概率累積方法預(yù)測(cè)的結(jié)果Fig.8 The results predicted by non-probabilistic cumulative and probabilistic cumulative methods with step=20((a)the result predicted by non-probabilistic cumulative method;(b)the result predicted by probabilistic cumulative method with step=20)
如圖9 所示,本文對(duì)不同滑動(dòng)步長(zhǎng)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,分別展示出原圖、標(biāo)簽、步長(zhǎng)=162 和步長(zhǎng)=20 的概率累積預(yù)測(cè)結(jié)果,橢圓標(biāo)出的是漏檢的目標(biāo)。可以看出,步長(zhǎng)為20 比步長(zhǎng)為162 減少了漏檢目標(biāo)的個(gè)數(shù)。
圖9 不同步長(zhǎng)概率累積方法預(yù)測(cè)的結(jié)果Fig.9 The results predicted by probabilistic cumulative methods with difference steps((a)original images;(b)ground truth;(c)step=162;(d)step=20)
此外,卷積操作具有平移同變性,即輸入發(fā)生平移,卷積結(jié)果也會(huì)發(fā)生相同的平移,而空間下采樣會(huì)破壞特征的平移同變性。以一維數(shù)組為例:如圖10所示,該數(shù)組分別平移0、1 像素后進(jìn)行2 倍下采樣,當(dāng)滑動(dòng)步長(zhǎng)為2 時(shí),采樣結(jié)果保持平移同變性。依此類(lèi)推,平移的像素為采樣個(gè)數(shù)的整數(shù)倍時(shí),一次下采樣操作能保證平移同變性,推廣到L層下采樣,需要平移2L個(gè)像素才能夠保持平移同變性。
圖10 下采樣的平移同變性Fig.10 The translational equivariant of down sampling
網(wǎng)絡(luò)在卷積層后會(huì)加批歸一化(batch normalization)層和激活函數(shù)ReLU,產(chǎn)生的計(jì)算誤差會(huì)隨著網(wǎng)絡(luò)層數(shù)加深越來(lái)越明顯,若繼續(xù)對(duì)特征圖重疊部分進(jìn)行復(fù)用,將會(huì)對(duì)網(wǎng)絡(luò)的分割性能產(chǎn)生影響,導(dǎo)致分割精度下降。為驗(yàn)證上述分析的有效性,本文隨機(jī)選取訓(xùn)練集中的圖像,并選取大小為1 024 ×1 024像素的局部區(qū)域進(jìn)行測(cè)試,滑動(dòng)窗口的移動(dòng)步長(zhǎng)設(shè)置為6,記錄每一層卷積及下采樣之后,特征圖復(fù)用產(chǎn)生的誤差,該誤差是指兩種方法產(chǎn)生特征圖之間的差異。一種方法是一次滑窗產(chǎn)生的兩個(gè)部分重疊的子圖,后一個(gè)子圖利用前一個(gè)子圖重疊部分的特征進(jìn)行復(fù)用,而不需要重新計(jì)算;另一種方法是利用原圖直接卷積得到特征圖,計(jì)算兩種特征圖之間的差異。由于下采樣等操作的影響,在前面1、2層的特征誤差較小,但是到了后面深層部分,淺層的誤差經(jīng)過(guò)傳遞和放大就會(huì)產(chǎn)生較大誤差。圖11 顯示了網(wǎng)絡(luò)前4 層的輸出誤差。可以看出,隨著網(wǎng)絡(luò)層的持續(xù)增加,上一幅特征圖的重疊部分與當(dāng)前特征圖的重疊部分的誤差增大,如果繼續(xù)對(duì)更深層的重疊特征進(jìn)行復(fù)用,會(huì)對(duì)分割的效果產(chǎn)生較大的影響,所以本文對(duì)網(wǎng)絡(luò)前兩層進(jìn)行了特征復(fù)用。
圖11 不同網(wǎng)絡(luò)層的重疊部分誤差Fig.11 Error of the overlapping region in different layers
為驗(yàn)證本文方法的有效性,本文采用小鼠腎臟細(xì)胞切片和HuBMAP(HuBMAP Consortium,2019)人體腎臟數(shù)據(jù)集,如表2 所示,先對(duì)全染色圖像進(jìn)行下采樣再進(jìn)行切片,以8∶2 的比例將切片劃分為訓(xùn)練集和測(cè)試集,并進(jìn)行平移、形變等數(shù)據(jù)增強(qiáng),對(duì)部分光照不均勻以及模糊的圖像,進(jìn)行隨機(jī)亮度、光照以及對(duì)比度的調(diào)整。
表2 數(shù)據(jù)集結(jié)構(gòu)Table 2 The constitution of dataset
小鼠腎臟染色切片數(shù)據(jù)集共10 幅有標(biāo)注的全染色小鼠腎臟切片,每幅腎臟圖像的分辨率大小在60 000 × 50 000 像素左右;HuBMAP 腎臟染色切片數(shù)據(jù)集共20 幅全染色圖像,平均分辨率大小為40 000 × 40 000 像素,全染色圖像無(wú)重疊切割512 ×512像素圖像塊進(jìn)行訓(xùn)練。以15幅有標(biāo)注的圖像作為訓(xùn)練集,余下的5 幅無(wú)標(biāo)注圖像作為測(cè)試集。本文使用準(zhǔn)確率Acc、Dice 系數(shù)、Jaccard 系數(shù)、真陽(yáng)性(true positive,TP)、假陽(yáng)性(false positive,F(xiàn)P)、真陰性(true negative,TN)、假陰性(false negative,F(xiàn)N)作為分割精度的評(píng)價(jià)標(biāo)準(zhǔn)。
本文代碼基于Ubuntu18.04 Linux 操作系統(tǒng)和PyTorch 深度學(xué)習(xí)框架,所使用的硬件包括:Intel(R)Core(TM)i7-7800X CPU @ 3.50 GHz;64 GB 內(nèi)存;NVIDIA RTX2080Ti GPU,11 GB 顯存。梯度優(yōu)化策略使用Adam 優(yōu)化器(Kingma和Ba,2017),初始學(xué)習(xí)率為0.000 1,學(xué)習(xí)率非線(xiàn)性衰減。
為驗(yàn)證多粒度空間注意力機(jī)制的有效性,本文分別對(duì)小鼠腎臟細(xì)胞切片和HuBMAP 人體腎臟兩個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,對(duì)測(cè)試結(jié)果進(jìn)行像素級(jí)和目標(biāo)級(jí)評(píng)估。表3 列出評(píng)估結(jié)果,其中U-Net +SVC 是單粒度注意力機(jī)制的實(shí)驗(yàn)結(jié)果,后綴數(shù)字表示不同K的大小,多粒度注意力機(jī)制采用3 個(gè)不同的局部窗口進(jìn)行融合。需要說(shuō)明的是,本文分別采用了K=3、7、11 的窗口大小,這些窗口基本能夠適應(yīng)腎小球不同的大小情況,同時(shí)過(guò)大的K會(huì)導(dǎo)致計(jì)算開(kāi)銷(xiāo)過(guò)大??梢钥闯?,加入多粒度空間注意力機(jī)制后,在像素級(jí)別的精度有較大的提升,目標(biāo)級(jí)漏檢個(gè)數(shù)也在下降,漏判FN 的個(gè)數(shù)降到了最低,占總數(shù)的2%。
表3 基于像素級(jí)別的分析Table 3 The analyze based on pixel
圖12 和圖13 分別展示了小目標(biāo)和大目標(biāo)的分割示例??梢钥闯觯琔-Net對(duì)于部分難以辨別的小目標(biāo)分割結(jié)果表現(xiàn)不好,在網(wǎng)絡(luò)中加入多粒度空間注意力機(jī)制后,小目標(biāo)漏檢的情況得到一定的改善;對(duì)于大目標(biāo)分割的殘損情況也得到一定的改善。
圖12 像素級(jí)、對(duì)象級(jí)別分割精度Fig.12 The segmentation accuracy of pixel-level and object-level results((a)input images;(b)U-Net;(c)SVC;(d)ours)
圖13 大目標(biāo)的分割結(jié)果Fig.13 The segmentation results of large target((a)input images;(b)U-Net;(c)SVC;(d)ours)
為進(jìn)一步驗(yàn)證多粒度注意力機(jī)制的有效性,本文將加入MGCA 的U-Net 網(wǎng)絡(luò)與7 個(gè)分割網(wǎng)絡(luò)在HuBMAP公開(kāi)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),分別是U-Net(Pedraza 等,2017)、CE-Net(Han 等,2020)、CPF-Net(Simonyan 和Zisserman,2015)、ACS-Net(Hu 等,2020)、CA-Net(Gu 等,2021)、CCBA-Net(Nguyen 等,2021)和RF-Net(Wang等,2021)。
為公平起見(jiàn),所有的方法均使用相同的預(yù)處理和數(shù)據(jù)集劃分方式,訓(xùn)練過(guò)程與訓(xùn)練環(huán)境也保持一致。不同網(wǎng)絡(luò)的分割結(jié)果如表4 所示,本文方法的Dice為91.4%,相較于U-Net提高近1%,本文方法的得分優(yōu)于對(duì)比方法。此外,本文方法具有參數(shù)量小的優(yōu)勢(shì),且每秒浮點(diǎn)運(yùn)算次數(shù)(floating-point operations per second,F(xiàn)LOPs)較基線(xiàn)網(wǎng)絡(luò)U-Net 有較小幅度的提升。另外,因HuBMAP 數(shù)據(jù)集的測(cè)試集沒(méi)有給出對(duì)應(yīng)的真實(shí)標(biāo)簽,所以不能對(duì)其進(jìn)行目標(biāo)級(jí)的分析。
表4 公開(kāi)數(shù)據(jù)集結(jié)果對(duì)比Table 4 The contrast results of public datasets
圖14展示了部分樣例切片的分割結(jié)果。第1行圖像中,RF-Net 和U-Net 均未分割出目標(biāo),ACS-Net對(duì)于目標(biāo)有部分概率響應(yīng),而本文網(wǎng)絡(luò)在小目標(biāo)分割方面優(yōu)于其他網(wǎng)絡(luò);第2、3 行展示了目標(biāo)與背景分界不清晰的圖像,ACS-Net、RF-Net 預(yù)測(cè)出了部分的目標(biāo),U-Net 則沒(méi)有預(yù)測(cè)出,說(shuō)明本文方法改善了分割殘損的情況;在第5行圖像中,U-Net和ACS-Net網(wǎng)絡(luò)產(chǎn)生了多判的預(yù)測(cè)結(jié)果,而RF-Net 則預(yù)測(cè)有殘損,本文方法的預(yù)測(cè)更接近真實(shí)標(biāo)簽。
圖14 不同網(wǎng)絡(luò)對(duì)應(yīng)的分割結(jié)果Fig.14 The segmentation results of different networks((a)input images;(b)ground truth;(c)ACS-Net;(d)RF-Net;(e)U-Net;(f)ours)
為了對(duì)RIAP 的有效性進(jìn)行驗(yàn)證,使用U-Net 和U-Net_SVC(Liu 等,2019)以及U-Net_MGCA 三種網(wǎng)絡(luò),分別在卷積時(shí)使用零填充和RIAP 填充兩種方式,并對(duì)數(shù)據(jù)集采用5重交叉驗(yàn)證的方法。表5列出兩種方法的比較結(jié)果,其中1—5列是5折驗(yàn)證集,對(duì)應(yīng)的值為Dice(百分比形式),Avg是5次交叉驗(yàn)證的平均Dice。
表5 Zero和RIAP方法的結(jié)果對(duì)比Table 5 The contrast results of Zero and RIAP method
圖15 展示了對(duì)比實(shí)驗(yàn)分割圖。由于圖像中的腎小球在分塊過(guò)程中會(huì)產(chǎn)生碎片化,邊緣信息的處理能力在較大程度上決定著網(wǎng)絡(luò)的分割精度,可以看出RIAP 有效提高了預(yù)測(cè)精度。對(duì)于FLOPs 的計(jì)算,在改變傳統(tǒng)卷積的填充方式時(shí),F(xiàn)LOPs的增加幅度較小。
圖15 零填充和RIAP的分割結(jié)果比較Fig.15 The segmentation results of Zero and RIAP methods((a)U-Net based on zero padding;(b)U-Net based on RIAP)
本文從驗(yàn)證數(shù)據(jù)集中隨機(jī)選取切片,并將切片沿著x方向移動(dòng)以獲得包含不同位置的腎小球目標(biāo)。這些切片均被輸入到具有零填充的U-Net 和具有RIAP 的U-Net 網(wǎng)絡(luò)中分割腎小球。將上述實(shí)驗(yàn)重復(fù)10次,具有相同偏移量切片的平均Dice如圖16所示,在目標(biāo)偏移的情況下,使用零填充的U-Net 網(wǎng)絡(luò),其分割結(jié)果的波動(dòng)幅度較大,而使用RIAP 填充的網(wǎng)絡(luò)得到的結(jié)果波動(dòng)幅度較小。由此說(shuō)明與零填充相比,使用RIAP的分割精度對(duì)目標(biāo)的移動(dòng)更具魯棒性。
圖16 零填充和RIAP的分割結(jié)果比較Fig.16 The segmentation results of zero padding and RIAP method
最后,本文對(duì)滑窗的概率累積和非概率累積兩種不同的方法做對(duì)比實(shí)驗(yàn),圖像塊大小為256 × 256像素。表6 列出不同滑動(dòng)步長(zhǎng)時(shí)的分割精度,其中每次滑動(dòng)都利用了概率累積,可以看出概率累積的測(cè)試方法精度優(yōu)于非概率累積的測(cè)試方法,滑動(dòng)步長(zhǎng)越小,分割精度越高,較小步長(zhǎng)可弱化小目標(biāo)對(duì)位置的敏感性。
本文對(duì)網(wǎng)絡(luò)的前兩層進(jìn)行特征圖復(fù)用,對(duì)保存的特征圖和當(dāng)前特征圖卷積非重疊部分進(jìn)行拼接,在WSI 上采用不同步長(zhǎng)的滑窗進(jìn)行滑動(dòng),對(duì)不同步長(zhǎng)測(cè)試所需要的時(shí)間進(jìn)行對(duì)比。如表7 所示,當(dāng)步長(zhǎng)較大時(shí),復(fù)用特征與不復(fù)用特征在測(cè)試時(shí)間上相差不大。當(dāng)步長(zhǎng)較小時(shí),網(wǎng)絡(luò)第1 層進(jìn)行特征復(fù)用比不復(fù)用提高52.83%,網(wǎng)絡(luò)第2 層進(jìn)行特征復(fù)用比不復(fù)用的時(shí)間提高49.98%。網(wǎng)絡(luò)的第1層和第2層復(fù)用特征比不復(fù)用提高55.89%,由此說(shuō)明特征復(fù)用的滑窗測(cè)試可以大幅度節(jié)省測(cè)試時(shí)間。
表7 不同滑動(dòng)步長(zhǎng)的特征不復(fù)用與復(fù)用的測(cè)試時(shí)間Table 7 The testing time results of different sliding steps reusing features or not reusing features∕s
表8 列出了概率累積中采用特征復(fù)用后的精度,對(duì)照不復(fù)用特征分割結(jié)果(表6),不同滑動(dòng)步長(zhǎng)的分割精度有微小下降或幾乎相等,這說(shuō)明特征復(fù)用在大幅度減少計(jì)算時(shí)間的前提下,可以有效保持分割精度。
表8 基于像素級(jí)別的分析Table 8 The analyze based on pixel
本文提出一種多粒度上下文的空間注意力機(jī)制MGCA,通過(guò)多粒度感受野融合多種尺度的信息以產(chǎn)生強(qiáng)化或抑制特征圖中相關(guān)與無(wú)關(guān)的區(qū)域,將注意力集中在目標(biāo)腎小球上,增強(qiáng)其邊界特征,以提高分割精度;提出的基于增廣路徑的卷積填充方式可以解決傳統(tǒng)補(bǔ)零填充存在的信息衰減效應(yīng)以及貢獻(xiàn)偏移問(wèn)題,可以解決目標(biāo)處于邊界時(shí)存在的信息丟失問(wèn)題,提高處于邊界位置的目標(biāo)的檢測(cè)精度;提出的概率累積的滑窗預(yù)測(cè)方法利用特征復(fù)用提高了預(yù)測(cè)速度,同時(shí)可以解決小目標(biāo)對(duì)位置敏感的問(wèn)題。本文方法在不同的數(shù)據(jù)集上進(jìn)行測(cè)試和比較,實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于較新的一些對(duì)比方法,增廣路徑的填充策略具有更穩(wěn)定的性能表現(xiàn)以及更好的魯棒性,基于概率累積的滑窗方法有著更高的分割精度,且大幅減少了計(jì)算時(shí)間。在后續(xù)工作中,將進(jìn)一步探討在多粒度空間注意力機(jī)制中,學(xué)習(xí)所需的局部窗口大小;另外,由于個(gè)別腎小球切片過(guò)程中成像目標(biāo)過(guò)小,分割困難,網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要更多的這類(lèi)樣本,而這些目標(biāo)的訓(xùn)練樣本很少,可以進(jìn)一步討論利用生成對(duì)抗網(wǎng)絡(luò)生成更多的小目標(biāo)訓(xùn)練樣本,以進(jìn)一步提高預(yù)測(cè)精度。