孫 紅,楊喆地
(上海理工大學(xué) 光電信息與計算機工程學(xué)院,上海 200093)
隨著社會的發(fā)展和生活水平的提高,人們對于醫(yī)療健康的重視程度在不斷提升,醫(yī)療影像在醫(yī)療診斷中也發(fā)揮了越來越重要的作用。一張醫(yī)學(xué)圖像所包含的信息量是十分巨大的,但是當(dāng)醫(yī)生診斷的時候,通常只需要其中一小部分組織或某一片特點區(qū)域的數(shù)據(jù),由此來進行病變情況的分析與確定。然而由于檢測設(shè)備及設(shè)備工作原理的不同,醫(yī)學(xué)圖像上難免會出現(xiàn)噪點,如果噪點過多,將會對醫(yī)生診斷帶來一定困擾,且增大誤診的幾率,而誤診的后果則是不言而喻的?;诖?,將圖像分割技術(shù)應(yīng)用到醫(yī)學(xué)領(lǐng)域即已成為當(dāng)下熱點。圖像分割技術(shù)可以將醫(yī)療圖像劃分為感興趣區(qū)域,醫(yī)生就可有針對性對特定的區(qū)域展開圖像分析處理,減少醫(yī)生的時間成本,在提升疾病分析的準(zhǔn)確性的同時、也提高了醫(yī)務(wù)人員的工作效率。
以往,大多數(shù)醫(yī)學(xué)圖像均需要專業(yè)醫(yī)務(wù)人員才能進行分割,相對于自然圖像來說,醫(yī)學(xué)圖像有著更加復(fù)雜的特征,根據(jù)簡單的紋理、顏色、形狀往往很難做好圖像分割。然而近年來,隨著深度學(xué)習(xí)技術(shù)在計算機視覺領(lǐng)域取得了一系列突破性的進展,給這些問題的解決提供了有效的方法。自2012年以來,AlexNet、VGG、GoogleNet、Residual Net、DenseNet、膠囊網(wǎng)絡(luò)等深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型相繼問世,計算機視覺領(lǐng)域也隨即得到了飛速的發(fā)展。2015年,Long等人提出了全卷積神經(jīng)網(wǎng)絡(luò),第一次將全卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像分割,該結(jié)構(gòu)將原卷積神經(jīng)網(wǎng)絡(luò)中的全連接層替換為卷積層,使用反卷積將最后的低分辨率特征圖復(fù)現(xiàn)回輸入圖片大小,再逐像素進行分類。為了解決FCN結(jié)構(gòu)中分割結(jié)果并不精細(xì)、以及生物醫(yī)學(xué)影像領(lǐng)域數(shù)據(jù)量較少問題,2015年Ronneberger等人提出U-Net,U-Net使用對稱的編碼與解碼網(wǎng)絡(luò),解碼網(wǎng)絡(luò)中使用上采樣加卷積的結(jié)構(gòu),同時使用特征復(fù)制思想減少池化層造成的位置信息丟失,該結(jié)構(gòu)在數(shù)據(jù)量較少的醫(yī)學(xué)影像數(shù)據(jù)集取得了當(dāng)時最優(yōu)的圖像分割結(jié)果。U-Net結(jié)構(gòu)雖然在一定程度上降低了位置信息損失,但卻仍然存在可優(yōu)化空間。2015年,Vijay等人提出了SegNet,這是在FCN的基礎(chǔ)上進行了改進,并在上采樣和下采樣中加入了位置索引,且已在VOC12挑戰(zhàn)中取得了很好的效果。Pohlen等人提出了全分辨率殘差網(wǎng)絡(luò)(FRRN)。FRRN使用一條獨立的殘差流以全分辨率處理特征圖,處理低層像素信息以保證分割模型可以捕獲良好的位置信息,同時在池化流部分使用卷積池化的層疊結(jié)構(gòu)提取深度語義信息進行語義分割。FRRN更適合數(shù)據(jù)量較多的自然圖像,在生物醫(yī)學(xué)影像數(shù)據(jù)集的處理上容易造成過擬合。2018年,Zhang等人提出了Residual U-Net。Residual U-Net將殘差網(wǎng)絡(luò)和U-Net結(jié)合起來,在Massachusetts roads dataset的表現(xiàn)優(yōu)于之前的其他 算 法。2019年,Nabil等 人提 出 了MultiResUNet,MultiResUNet在一個multiblock結(jié)構(gòu)中構(gòu)建了多級卷積層來實現(xiàn)不同尺度的特征提取并進行了concatenation拼接,同時將并行結(jié)構(gòu)替換為串行結(jié)構(gòu),并在輸出端增加殘差連接,再用該結(jié)構(gòu)去替換原有的卷積層,可以較好地處理圖像的不同尺度問題,且在EM segmentation challenge中有著優(yōu)異的表現(xiàn)。Fraz等人提出了R2U-Net,R2UNet使用了循環(huán)殘差卷積神經(jīng)網(wǎng)絡(luò),在Retina Blood Vessel Segmentation、Skin Cancer Lesion Segmentation和Lung Segmentation上取得了較好的效果。
綜上,本文在U-Net結(jié)構(gòu)和Residual U-Net基礎(chǔ)上,結(jié)合模型融合思想構(gòu)建多分支U-Net和Residual U-Net。各分支U-Net和Residual U-Net共享深層編碼與解碼網(wǎng)絡(luò),極大減少多分支網(wǎng)絡(luò)的參數(shù)數(shù)量,同時可以在不破壞原有U-Net分割輸出的基礎(chǔ)上使用模型融合方法提高模型的總體分割效果。本文的創(chuàng)新貢獻如下:
(1)針對如何構(gòu)建差異輸出,使用不同的位置權(quán)值掩膜與相應(yīng)的正負(fù)標(biāo)簽統(tǒng)計比例構(gòu)造互異的加權(quán)逐像素交叉熵?fù)p失函數(shù)。
(2)針對如何進行模型融合,使用相應(yīng)的位置權(quán)值掩膜來加權(quán)各分支網(wǎng)絡(luò),輸出得到融合分割圖像。
(3)用本文提出的模型,在細(xì)胞和乳腺兩個數(shù)據(jù)集上進行了實驗,并與Unet網(wǎng)絡(luò)和Residual UNet網(wǎng)絡(luò)結(jié)果進行了對比。
實驗證明,本文的多分支模型融合可以在原有分支模型基礎(chǔ)上提高圖像分割效果,本文方法在小樣本的生物醫(yī)學(xué)圖像分割任務(wù)中可以提高模型泛化性能。
實際分類任務(wù)中,訓(xùn)練時需要進行超參數(shù)調(diào)優(yōu),由于樣本中包含了客觀規(guī)律和采樣誤差,需要特定的模型大小來均衡兩者以達到最優(yōu)的泛化性能,單個模型很難設(shè)定這一超參數(shù)。而通過將各個互異模型的輸出進行一定的融合,卻可以提高總體模型的泛化性能。
針對如何進行像素級別分類的分割網(wǎng)絡(luò)模型融合,本文提出共享深層特征提取結(jié)構(gòu)在達到共享網(wǎng)絡(luò)對各個分支網(wǎng)絡(luò)具有一定正則化效果的同時,大大減少了多網(wǎng)絡(luò)輸出的參數(shù)數(shù)量。由于U-Net在”U”型結(jié)構(gòu)底部會使用大量的卷積核,如果分別對各分支網(wǎng)絡(luò)獨立構(gòu)建該部分卷積核,整體模型參數(shù)會成倍增長,本文采用共享策略則很好解決了這一問題。
位置權(quán)值掩膜是對輸入圖像的不同位置進行不同的權(quán)值設(shè)置,本文通過該權(quán)值對各分支網(wǎng)絡(luò)的損失函數(shù)進行改造,從而達到各分支網(wǎng)絡(luò)的差異性輸出。由于ISBI2015數(shù)據(jù)、INBreast圖像數(shù)據(jù)label在各個位置上很難設(shè)計權(quán)值位置分布以適應(yīng)所有數(shù)據(jù),在折中參數(shù)數(shù)量與模型整體性能基礎(chǔ)上,提出如下權(quán)值掩碼方案。將圖像以田字形式均分為4個區(qū)域,每一區(qū)域占比圖像大小1/4,如圖1所示。
圖1 各分支模型位置權(quán)值掩膜Fig.1 The mask of the weight location at each branch
通過加大各個區(qū)域的位置權(quán)值,可以增加各分支網(wǎng)絡(luò)對于特定區(qū)域的注意力,旨在使各分支網(wǎng)絡(luò)對于特定位置進行更加專門化的權(quán)值更新,從而達到各分支網(wǎng)絡(luò)的差異化輸出。而當(dāng)差異化輸出較大、但模型表現(xiàn)接近的時候,融合模型可以在一定程度上提高性能。
本文不對輸入圖像做位置加權(quán),而是對損失函數(shù)的逐像素交叉熵做位置加權(quán)。研究中為了構(gòu)建更合理的損失函數(shù),使用訓(xùn)練集label中各區(qū)域正負(fù)類別的統(tǒng)計比例作為第二個加權(quán)項的參考因子,具體加權(quán)系數(shù)的計算可用到如下公式:
其中,表示區(qū)域索引;α表示各個區(qū)域訓(xùn)練集中正類別像素占比;表示整張圖像所有訓(xùn)練集label中正類別像素占比。各區(qū)域相對于整張圖像的正負(fù)類別像素比存在差異,該公式對各區(qū)域與整張圖像正類別像素統(tǒng)計信息的比例進行了數(shù)值化處理,再通過訓(xùn)練集上的先驗信息,從而達到提高網(wǎng)絡(luò)泛化性的目的。
由于生物醫(yī)療數(shù)據(jù)較少,訓(xùn)練集上各區(qū)域正類別像素統(tǒng)計信息與測試集數(shù)據(jù)存在一定差異,但實驗顯示模型融合結(jié)果仍然得到了一定改進,當(dāng)樣本數(shù)據(jù)增多時,訓(xùn)練集的統(tǒng)計信息能夠更加準(zhǔn)確地預(yù)測測試集的像素類別占比,模型性能在理論上會得到進一步提升。本文提出的基于位置權(quán)值掩膜加權(quán)交叉熵?fù)p失函數(shù)見式(2):
其中,表示批樣本數(shù)目;表示圖像中的像素數(shù)目;表示樣本索引;表示像素索引;w表示像素的位置權(quán)值,大小由1.1節(jié)中定義的位置權(quán)值掩膜給定。
本文共享U型網(wǎng)絡(luò)底端多數(shù)目卷積核卷積層,在編碼部分構(gòu)建各分支輸入,在對稱的解碼部分構(gòu)建各分支輸出,各分支網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu),模型整體結(jié)構(gòu)如圖2所示。
圖2 模型網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.2 Architecture of the model
各分支網(wǎng)絡(luò)基于不同的加權(quán)交叉熵?fù)p失函數(shù)產(chǎn)生差異輸出,本文使用位置權(quán)值掩膜作為權(quán)重進行模型融合。將各分支網(wǎng)絡(luò)對應(yīng)的位置權(quán)值掩膜與預(yù)測輸出逐項素相乘,各加權(quán)結(jié)果求和取均值作為融合輸出,融合方式如圖3所示。
圖3 模型融合示意圖Fig.3 Model fusion
針對如何確保共享網(wǎng)絡(luò)權(quán)值對于各個分支網(wǎng)絡(luò)具有通用性,本文采用分級訓(xùn)練的方法。首先使用交叉熵?fù)p失函數(shù)預(yù)訓(xùn)練encodernet1+sharednet+decodernet1,在驗證集最低處保存模型,然后加載所保存的模型,固定sharednet參數(shù),初始化各分支encoder和decoder參數(shù),使用各分支網(wǎng)絡(luò)對應(yīng)的位置權(quán)值掩膜加權(quán)交叉熵?fù)p失函數(shù)多優(yōu)化器同時訓(xùn)練各分支網(wǎng)絡(luò),當(dāng)融合后模型損失函數(shù)達到最低點時保存模型,這里對訓(xùn)練流程可做闡釋如下。
為[,,,]的圖像()和為[,,,]的標(biāo)簽()
圖像的分類結(jié)果
采用U-Net模型或Residual U-Net作為分支模型訓(xùn)練模型1。
模型1的訓(xùn)練結(jié)束后,保存模型1,并固定share層參數(shù),初始化兩端encoder和decoder參數(shù),使用4個優(yōu)化器,同時利用第1節(jié)給出的逐像素交叉熵?fù)p失函數(shù)來訓(xùn)練4個模型。
對4個模型輸出后的結(jié)果求平均。
本文涉及的圖像語義分割實驗使用基于Tensorflow后端的keras深度學(xué)習(xí)框架進行神經(jīng)網(wǎng)絡(luò)模型搭建,使用Tensorflow進行模型訓(xùn)練。實驗平臺采用谷歌深度學(xué)習(xí)平臺Google Colab,該平臺GPU型號為NVIDIA Tesla T4,基于最新圖靈架構(gòu),半精度浮點運算峰值性能65 TFlops,4位整數(shù)運算峰值性能260 TOPS,包含2560個CUDA核心,320個圖靈張量核心,支持多精度推理,提供16 GB顯存。
在語義分割中,感興趣的地方通常是整幅圖像的一小段。因此,若僅僅利用精確度、召回率等指標(biāo)卻大多都會導(dǎo)致錯誤的結(jié)果,究其原因就在于放大了對背景的檢測結(jié)果。因此,本文另行引入了系數(shù)和系數(shù)作為本文實驗的評價指標(biāo),并使用以下字母表示度量公式中出現(xiàn)的變量:表示模型輸出結(jié)果和實際標(biāo)簽均為正樣本,表示模型輸出結(jié)果為負(fù)樣本,實際標(biāo)簽為正樣本;表示模型輸出結(jié)果為正樣本,實際標(biāo)簽為負(fù)樣本;表示模型輸出結(jié)果和實際標(biāo)簽均為負(fù)樣本。以此為基礎(chǔ),對文章選用指標(biāo)的數(shù)學(xué)含義及公式將給出探討分述如下。
(1)相似系數(shù)。主要用于衡量2個樣本的相似性。系數(shù)可以很好地衡量2張圖像的重合率。其計算公式具體如下:
當(dāng)模型輸出結(jié)果與標(biāo)簽完全重合時,系數(shù)為1;當(dāng)兩者沒有交集時,系數(shù)為0。
(2)系數(shù)。當(dāng)使用較高的閾值進行分類時,可以得到較高的查準(zhǔn)率,使用較低的閾值時可以得到較高的召回率。系數(shù),又稱分?jǐn)?shù),可以更好地均衡召回率和查準(zhǔn)率,當(dāng)召回率與查準(zhǔn)率都較高時,才可以得到較高的系數(shù)。其計算公式具體如下:
本文使用ISBI2015細(xì)胞邊緣圖像分割數(shù)據(jù)集、INBreast乳 腺 圖 像 分 割 數(shù) 據(jù) 集進 行 實 驗。ISBI2015細(xì)胞邊緣圖像分割數(shù)據(jù)由30張512×512×1有標(biāo)簽顯微圖像組成,為了增加訓(xùn)練圖像的多樣性,減少模型過擬合問題,對數(shù)據(jù)圖像進行圖像增強。使用keras中ImageDataGenerator類進行圖像增強,原始輸入數(shù)據(jù)以及使用數(shù)據(jù)增強后標(biāo)簽分割圖像如圖4所示。圖4中,(a)為原始輸入圖像,(b)為數(shù)據(jù)增強圖像。
圖4 ISBI2015細(xì)胞邊緣圖像數(shù)據(jù)集原始輸入與數(shù)據(jù)增強對比Fig.4 The comparison between the source images and images with augmentation
隨后,本文對增強后的數(shù)據(jù)集進行了訓(xùn)練,并在驗證集最低處保存模型。各分支網(wǎng)絡(luò)驗證集部分圖片的獨立輸出結(jié)果如圖5所示。相應(yīng)地,細(xì)胞邊緣分割數(shù)據(jù)結(jié)果見圖5(a)、圖5(b)。為表示方便,圖5中F-U-Net為網(wǎng)絡(luò)分支采用U-Net時的結(jié)構(gòu),F(xiàn)-Res UNet網(wǎng)絡(luò)分支采用Residual U-Net的結(jié)構(gòu),由于各分支網(wǎng)絡(luò)在損失函數(shù)上的差異導(dǎo)致差異性輸出,各分支網(wǎng)絡(luò)的總體分割性能相近,融合后會得到性能提升。
圖5 各分支圖像輸出結(jié)果Fig.5 The outputs from different branches
本文在驗證集上挑選出較難分割圖像,將模型融合后分割結(jié)果與融合前U-Net、和Res U-Net分割結(jié)果進行對比,細(xì)胞邊緣數(shù)據(jù)集分割結(jié)果對比結(jié)果如圖6所示。將模型輸出以0.5作為分割閾值,對比結(jié)果見圖6(a)、圖6(b)。分析后可以發(fā)現(xiàn),融合后的結(jié)果比融合前的結(jié)果更接近于label。
圖6 細(xì)胞邊緣數(shù)據(jù)集分割結(jié)果對比Fig.6 The comparison of the segmented results
U-Net和Residual U-Net是目前醫(yī)學(xué)圖像分割的最經(jīng)典的模型之一,在實驗中取得了較好的效果,利用本文的思想分別在2種模型上進行實驗,細(xì)胞邊緣分割數(shù)據(jù)集訓(xùn)練過程中系數(shù)和系數(shù)變化如圖7所示。由圖7可以驗證,融合后的模型在細(xì)胞邊緣分割數(shù)據(jù)集上表現(xiàn)得更好。訓(xùn)練過程中,系數(shù)變化和系數(shù)變化見圖7(a)、圖7(b),研究發(fā)現(xiàn)融合后的模型表現(xiàn)得比融合前的模型要更好。
圖7 細(xì)胞邊緣分割數(shù)據(jù)集訓(xùn)練過程中Jaccard系數(shù)和Dice系數(shù)變化圖Fig.7 The changing of Jaccard and Dice during the training
本文使用的INBreast乳腺圖像分割數(shù)據(jù)集經(jīng)過文獻[23-25]中進行提取、尺寸縮放,包括58張訓(xùn)練圖像及58張測試圖像,圖像分辨率為40×40。原始標(biāo)簽分割圖像及使用數(shù)據(jù)增強后標(biāo)簽分割圖像如圖8所示。通過翻轉(zhuǎn)、平移、隨機剪裁進行圖像增強,輸入如圖8(a)所示。圖8(b)與(c)為數(shù)據(jù)增強圖像。
圖8 乳腺分割數(shù)據(jù)集增強Fig.8 The augmentation on INBreast dataset
各分支網(wǎng)絡(luò)驗證集部分圖片的獨立輸出結(jié)果如圖9所示。圖9(a)表示各分支網(wǎng)絡(luò)為U-Net時各分支網(wǎng)絡(luò)的輸出結(jié)果,圖9(b)表示各分支網(wǎng)絡(luò)為Residual U-Net時各分支網(wǎng)絡(luò)的輸出結(jié)果,其中、、、為4個分支網(wǎng)絡(luò)的輸出結(jié)果,為融合模型輸出結(jié)果。由此可以發(fā)現(xiàn),各分支網(wǎng)絡(luò)盡管總體分割精度接近,但仍存在差異,進一步證明了各分支網(wǎng)絡(luò)在損失函數(shù)上的差異會導(dǎo)致差異性輸出,而由于各分支網(wǎng)絡(luò)的總體分割性能相近,因此融合后模型性能會得到部分提升。
圖9 各分支網(wǎng)絡(luò)乳腺分割數(shù)據(jù)集驗證集分割結(jié)果Fig.9 The segmented results on INBreast dataset from different branches
本文在驗證集上挑選出較難分割圖像,將模型融合分割結(jié)果與原始U-Net、和Residual U-Net分割結(jié)果進行對比。將模型輸出以0.5作為分割閾值,乳腺分割數(shù)據(jù)集結(jié)果對比如圖10所示,通過指標(biāo)結(jié)果可以發(fā)現(xiàn),融合后的模型相較于融合前有了部分提高。
圖10 乳腺分割數(shù)據(jù)集結(jié)果對比Fig.10 The comparison of results on INBreast
由圖10分割結(jié)果進一步證明了本文提出的多分支融合策略,應(yīng)用在U-Net和Residual U-Net模型可以得到更加接近label的分割結(jié)果,通過融合多分支U-Net和Residual U-Net,提高了模型的泛化性。仿真實驗訓(xùn)練過程中,驗證集平均的系數(shù)變化和系數(shù)變化如圖11所示,相比融合前的U-Net和Residual U-Net,融合后的模型表現(xiàn)得更穩(wěn)定,并且優(yōu)于融合前的結(jié)果。
圖11 乳腺分割數(shù)據(jù)集訓(xùn)練過程中Jaccard系數(shù)和Dice系數(shù)變化圖Fig.11 The changing of Jaccard and Dice during the traning on INBreast
本文通過引入深層權(quán)值共享策略,同時構(gòu)造對稱的編碼與解碼結(jié)構(gòu),將分支網(wǎng)絡(luò)的模型融合策略應(yīng)用在U型網(wǎng)絡(luò)中,并且使參數(shù)的增量控制在合理范圍。使用位置權(quán)值與各區(qū)域正負(fù)像素類別的統(tǒng)計比例對逐像素交叉熵?fù)p失函數(shù)進行加權(quán),增加各分支網(wǎng)絡(luò)對各個區(qū)域的注意力,構(gòu)造差異化輸出,使模型融合方法提高了總體泛化性。針對如何保證共享網(wǎng)絡(luò)權(quán)值對于各分支網(wǎng)絡(luò)的通用性,采用不加權(quán)逐像素交叉熵?fù)p失函數(shù)進行預(yù)訓(xùn)練,對各個分支網(wǎng)絡(luò)起到一定的正則效果;針對如何進行模型融合,本文使用對應(yīng)的權(quán)值掩膜對預(yù)測輸出進行加權(quán)。實驗結(jié)果證明,多分支融合預(yù)測輸出在多數(shù)指標(biāo)上優(yōu)于融合前U-Net和Res U-Net,模型分割性能得到進一步提升。