宋健武,陳飛,王美清
(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350108)
圖像分割是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)非常重要的問題,目的是將圖像的目標(biāo)與背景區(qū)分出來[1].針對(duì)此問題,許多學(xué)者提出不同的算法,如將相似性質(zhì)的像素集合構(gòu)成區(qū)域的區(qū)域生長法[2]、邊緣檢測法[3]等.基于偏微分方程的方法,比如C-V模型[4]利用圖像均值信息來分割,但其不能很好地適應(yīng)灰度不均勻的圖像,可變區(qū)域擬合能量模型[5](RSF模型)適用于灰度不均勻的圖像分割,但存在對(duì)初始曲線敏感等問題.近年來,深度學(xué)習(xí)在圖像處理領(lǐng)域取得了很好的進(jìn)展.深度學(xué)習(xí)往往根據(jù)具體數(shù)據(jù)集,構(gòu)造網(wǎng)絡(luò)模型來學(xué)習(xí)該數(shù)據(jù)集的特征,底層網(wǎng)絡(luò)學(xué)習(xí)如邊角點(diǎn)等特征,高層網(wǎng)絡(luò)學(xué)習(xí)較抽象的特征.AlexNet[6]首次在大規(guī)模圖像數(shù)據(jù)集分類上得到較好的分類結(jié)果,而后VGG16[7]采用了較為簡潔的結(jié)構(gòu),同樣達(dá)到了較好的分類效果,很多學(xué)者在此網(wǎng)絡(luò)基礎(chǔ)上做了改進(jìn).GoogLeNet[8]引入Inception結(jié)構(gòu),具有較復(fù)雜的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),能獲得豐富的圖像特征.文獻(xiàn)[9]提出了帶有Reaction項(xiàng)可訓(xùn)練的擴(kuò)散模型,文獻(xiàn)[10]提出全卷積神經(jīng)網(wǎng)絡(luò)模型,移除了下采樣層,在圖像去噪方面取得較好效果.在基于全卷積網(wǎng)絡(luò)的圖像分割中,U-Net[11]與 SegNet[12]是常用的 Encoder-Decoder型分割網(wǎng)絡(luò)模型.
本研究在常用的Encoder-Decoder分割網(wǎng)絡(luò)模型基礎(chǔ)上,借鑒文獻(xiàn)[10]模型的方法,移除下采樣層,相比具有下采層網(wǎng)絡(luò),該模型對(duì)輸入圖像大小沒有限制.采用卷積層、批歸一化層、激活層等作為網(wǎng)絡(luò)的模塊,構(gòu)成整個(gè)模型.由于沒有下采樣層,減少了下采樣過程的信息丟失.類比常見的L2損失函數(shù),本研究定義了一個(gè)新的損失函數(shù),可以減少部分錯(cuò)分像素點(diǎn)數(shù)目,改善了分割視覺效果和提高了被正確分類的像素占圖像像素總和的比例.
U-Net[11]是醫(yī)學(xué)圖像領(lǐng)域常用的Encoder-Decoder型的深度卷積神經(jīng)網(wǎng)絡(luò)之一,其網(wǎng)絡(luò)結(jié)構(gòu)包含收縮通道和擴(kuò)張通道.收縮通道由重復(fù)的模塊構(gòu)成,該重復(fù)模塊包含三個(gè)部分:兩個(gè)卷積核大小為3×3的卷積層,一個(gè)步長為2的2×2最大化下采樣層,以及ReLU激活層.每進(jìn)行一次下采樣層時(shí),后續(xù)的卷積層的通道數(shù)增加一倍.構(gòu)成擴(kuò)張通道的重復(fù)模塊同樣包含三個(gè)部分:2×2大小的反卷積層,后續(xù)的卷積層的通道數(shù)減少為上一層的一半,緊接著兩個(gè)卷積核大小為3×3的卷積層,以及ReLU激活層.最后一個(gè)卷積層卷積核大小為1×1,通道數(shù)與類別數(shù)對(duì)應(yīng).該網(wǎng)絡(luò)共包含23個(gè)卷積層.針對(duì)細(xì)胞分割問題,為了處理類別不平衡問題,U-Net使用如下?lián)p失函數(shù):
其中:pl(x)(x)為x屬于第l類的概率;w(x)為權(quán)重項(xiàng),賦予某些像素點(diǎn)更大的權(quán)重,加大對(duì)這些像素被錯(cuò)誤分類的懲罰.w(x)的計(jì)算公式如下:
其中,wε(x)是在訓(xùn)練數(shù)據(jù)集中根據(jù)標(biāo)簽計(jì)算的權(quán)重,用來處理類別不平衡問題;w0,σ是人工設(shè)置參數(shù);d1,d2分別是該像素離與之最近和次近的細(xì)胞邊界的距離.初始化對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練非常重要,U-Net采用如下方式初始化參數(shù)W
將Encoder-Decoder型網(wǎng)絡(luò)中的下采樣層移除,將獲得圖像更多細(xì)節(jié)信息,由于沒有下采樣層,網(wǎng)絡(luò)模型輸出圖像大小可以與輸入圖像大小保持一致.本研究基于Encoder-Decoder型網(wǎng)絡(luò)提出了特征概率圖約束全卷積網(wǎng)絡(luò)(feature probability map constrained fully convolutional neural network,F(xiàn)PM-FCN),由27個(gè)卷積層模塊組成,前面模塊采用較大卷積核,可以在較大的感受范圍內(nèi)提取圖像特征;后面模塊采用較小卷積核,可以縮短訓(xùn)練與測試時(shí)間,提高分割精度.同時(shí)本研究定義了基于特征概率圖約束的損失函數(shù),利用該損失函數(shù)與交叉熵?fù)p失函數(shù)的線性組合來訓(xùn)練整個(gè)網(wǎng)絡(luò)模型.
特征概率圖約束全卷積網(wǎng)絡(luò)共有27個(gè)卷積層模塊,每一個(gè)卷積層模塊分為卷積層、批歸一化層和激活層.為了在更大感受范圍提取圖像的特征,前面的2個(gè)卷積層模塊采用5×5大小的卷積核,對(duì)輸入圖像提取其特征.出于時(shí)間與提高分割精度的考慮,后續(xù)層則采用較小的卷積核.在后續(xù)層中,首先是2個(gè)卷積核大小3×3×128的卷積層模塊,其次是1個(gè)卷積核大小為1×1×64的卷積層模塊.該模塊一方面通過前面一層特征的不同尺度的加權(quán)組合,來得到新的特征;另一方面減少卷積核的通道數(shù).接著是21個(gè)3×3×64大小的卷積層模塊,最后采用一個(gè)卷積核大小為1×1×2的卷積層.整個(gè)網(wǎng)絡(luò)最終得到兩張?zhí)卣鲌D:前景概率圖和背景概率圖.用前景概率圖減去背景概率圖,并通過赫維賽德函數(shù)作用得到分割結(jié)果.FPM-FCN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 FPM-FCN結(jié)構(gòu)圖Fig.1 The architecture of FPM-FCN model
卷積神經(jīng)網(wǎng)絡(luò)通過不斷優(yōu)化分割與真實(shí)標(biāo)簽的近似程度來達(dá)到訓(xùn)練目的.L2損失函數(shù)是卷積神經(jīng)網(wǎng)絡(luò)中常見的損失函數(shù):
其中:X為分割結(jié)果,G為圖像的真實(shí)標(biāo)簽.
本研究利用FPM-FCN網(wǎng)絡(luò)最終獲得的兩張?zhí)卣鞲怕蕡D來定義分割結(jié)果,并與真實(shí)標(biāo)簽對(duì)比,由此定義特征概率圖約束損失函數(shù):
其中:Pobj屬于前景的特征概率圖;Pbg屬于背景的特征概率圖;G為圖像的真實(shí)標(biāo)簽,標(biāo)簽中0表示背景,1表示前景;·F表示Frobenius范數(shù);H表示正則化的赫維賽德函數(shù),其公式如下:
這里,ε是赫維賽德函數(shù)的參數(shù).
下面對(duì)特征概率圖損失函數(shù)的作用進(jìn)行分析.詳見圖2所示.圖2(a)表示背景特征概率圖獲得的圖像,其中白色表示背景,黑色表示前景.圖2(b)表示前景概率圖獲得的圖像,圖2(c)表示H(Pobj-Pbg)獲得的圖像,圖2(d)表示真實(shí)結(jié)果.在圖2(b)~(d)中白色表示前景,黑色表示背景.通過圖2可以發(fā)現(xiàn),圖像中可能錯(cuò)分的區(qū)域(圖2(a)中紅色部分)和邊緣區(qū)域(圖2(d)中紅色部分)的分割效果得到了改善.
圖2 FPM-FCN生成的圖像Fig.2 FPM-FCN model generated images
卷積神經(jīng)網(wǎng)絡(luò)更新參數(shù)時(shí)采用反向傳播算法,通過ADAM算法更新權(quán)重.更新過程中需要用到損失函數(shù)關(guān)于特征圖偏導(dǎo)的信息.計(jì)算公式如下:
其中:Pobj,i,j表示前景概率圖的第 i行,j列像素;Pbg,i,j表示背景概率圖的第 i行,j列像素.
為了更精確地度量分割結(jié)果與真實(shí)標(biāo)簽之間的近似程度,本研究通過特征概率圖約束損失函數(shù)與交叉熵?fù)p失函數(shù)的加權(quán)線性組合來訓(xùn)練整個(gè)模型.交叉熵?fù)p失函數(shù)可以用來衡量樣本數(shù)據(jù)的真實(shí)分布與預(yù)測分布之間的距離.二分類問題的交叉熵?fù)p失函數(shù)公式如下:
其中:N表示圖像像素?cái)?shù)目;pk,i表示第i個(gè)像素屬于第k類的概率.σ(x)為指示函數(shù),即當(dāng)x取值為真時(shí)其值取1,x取值為假時(shí)取0.ci表示像素i真實(shí)的類別.
在訓(xùn)練集大小為M的數(shù)據(jù)集上,特征概率圖約束損失函數(shù)與交叉熵?fù)p失函數(shù)加權(quán)線性組合構(gòu)成新的損失函數(shù)為:
其中:λ∈[0,1].當(dāng)λ=1時(shí),即交叉熵?fù)p失函數(shù);當(dāng)λ=0時(shí),即特征概率圖約束的損失函數(shù).像素點(diǎn)屬于前景的概率或背景的概率越高,兩張?zhí)卣鞲怕蕡D的差距就越大,損失函數(shù)就越小.當(dāng)數(shù)據(jù)集存在嚴(yán)重的類別不平衡時(shí),λ需要取較大的值,比如0.9.
本研究采用U-Net所采用的初始化方式,采用ADAM算法,epochs=70,前面20epochs學(xué)習(xí)速率取0.01,后50epochs學(xué)習(xí)速率取 0.001,ε=0.01,肺數(shù)據(jù)的 batch size為2,手勢數(shù)據(jù)集的 batch size為10.對(duì)于肺圖像數(shù)據(jù)集,λ取0;對(duì)于手勢數(shù)據(jù)集,λ取0.9.為了使得圖像更加平滑,在測試階段加入了高斯平滑,高斯濾波的窗口為5,方差為3.實(shí)驗(yàn)環(huán)境如下:Windows7系統(tǒng),i7處理器,8 G內(nèi)存,Matlab2015b,采用matconvnet實(shí)現(xiàn).對(duì)比實(shí)驗(yàn)在ubuntu14.04系統(tǒng),于caffe和Matlab2014b上實(shí)現(xiàn).
為了評(píng)價(jià)分割結(jié)果的好壞,本研究引入像素精度及Dice系數(shù)作為評(píng)價(jià)指標(biāo),與其他三種模型的評(píng)估指標(biāo)對(duì)比結(jié)果如表1所示.
像素精度(pixel accuracy):被準(zhǔn)確分類的像素點(diǎn)個(gè)數(shù)占所有像素點(diǎn)比例
表1 四種模型在肺數(shù)據(jù)集及手勢數(shù)據(jù)集上的評(píng)估指標(biāo)結(jié)果Tab.1 The four model’s evaluation of results on lung data sets and gesture data sets (%)
采用日本JSNR肺數(shù)據(jù),該數(shù)據(jù)集共有247張X-ray肺圖像,選取前173張肺圖像作為訓(xùn)練樣本,后面74張肺圖像作為測試集.即70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測試集.每張圖像的分辨率為256 px×256 px,本研究不采用數(shù)據(jù)集增強(qiáng)手段且沒有采用圖像塊訓(xùn)練網(wǎng)絡(luò)模型.為了驗(yàn)證特征概率圖損失的有效性,公式(10)中λ取0,訓(xùn)練時(shí)間20 h左右,每張圖像的平均測試時(shí)間1.8 s.
四種方法在肺數(shù)據(jù)集上的分割結(jié)果見圖3所示.圖3(a)為輸入圖像,對(duì)輸入圖像都做相同歸一化處理,減均值處理.其中SegNet、U-Net使用作者提供的網(wǎng)絡(luò)結(jié)構(gòu)代碼,F(xiàn)CN使用本研究提出的網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化目標(biāo)是交叉熵?fù)p失.本研究模型實(shí)驗(yàn)采用特征概率圖約束損失訓(xùn)練整個(gè)網(wǎng)絡(luò).圖3(b)使用U-Net方法,在該數(shù)據(jù)集上容易出現(xiàn)將鎖骨部分誤判為肺,圖3(c)為使用SegNet方法,在肺數(shù)據(jù)集上分割結(jié)果較好,但與采用本研究方法的圖3(e)比較發(fā)現(xiàn),本研究方法可以減少部分錯(cuò)分塊,并在圖像目標(biāo)邊界部分變現(xiàn)更佳.在肺數(shù)據(jù)集上用紅色邊框標(biāo)注減少的孤立像素塊的區(qū)域.本研究方法減少了部分錯(cuò)分像素塊,提高了像素精度.
圖3 四種方法在肺數(shù)據(jù)集上的分割結(jié)果Fig.3 Results of the four methods on lung data
手勢數(shù)據(jù)集:訓(xùn)練集包含810張71 px×71 px大小的手勢圖像,測試集包含90張手勢圖像.使用公式(10)定義的損失函數(shù)作為優(yōu)化目標(biāo),由于手勢數(shù)據(jù)集存在較大的類別不平衡問題,λ需要取較大的值,本研究λ取0.9.對(duì)比實(shí)驗(yàn)中的U-Net、SegNet方法,需要對(duì)手勢數(shù)據(jù)集中每一張圖像擴(kuò)充一行一列,擴(kuò)充圖像的第一行與原始圖像的第一行一致,擴(kuò)充后的圖像的第一列和原始圖像第一列一致,圖像大小將變成72 px×72 px.將擴(kuò)充的一列一行去除.手勢數(shù)據(jù)訓(xùn)練的時(shí)間為18 h左右,在每張手勢圖像的平均測試時(shí)間0.15 s.
四種方法在手勢數(shù)據(jù)集上的分割結(jié)果見圖4所示.圖4(a)為輸入圖像,對(duì)輸入圖像都做相同歸一化處理,減均值處理.其中SegNet,U-Net使用作者提供的網(wǎng)絡(luò)結(jié)構(gòu)代碼,F(xiàn)CN使用本研究提出的網(wǎng)絡(luò)結(jié)構(gòu),優(yōu)化目標(biāo)是交叉熵?fù)p失.對(duì)比圖4(a)~(b)可以發(fā)現(xiàn),U-Net方法容易將部分區(qū)域錯(cuò)誤分割;由SegNet分割結(jié)果可知,圖4(c)的第四個(gè)圖片中手邊界部分分割效果較差;由圖4(e)的第四個(gè)圖片反映出,本研究方法在某些邊界也有分割不夠好的地方,但總體比其它三種方法好.
圖4 四種方法在手勢數(shù)據(jù)集上的分割結(jié)果Fig.4 Results of the four methodson hand dataset.
本研究提出特征概率圖約束的全卷積神經(jīng)網(wǎng)絡(luò),引入特征概率約束損失,將常用的L2損失函數(shù)的網(wǎng)絡(luò)模型末端的一張?zhí)卣鲌D擴(kuò)張到具有兩張?zhí)卣鲌D的網(wǎng)絡(luò)模型上.其中一張?zhí)卣鲌D代表前景概率圖,另一張?zhí)卣鲌D代表背景概率圖.在此基礎(chǔ)上定義基于特征概率圖約束的損失函數(shù),并與交叉熵?fù)p失聯(lián)合訓(xùn)練整個(gè)模型.以日本JSNR肺數(shù)據(jù)集和一個(gè)手勢數(shù)據(jù)集驗(yàn)證了該模型的有效性,實(shí)驗(yàn)表明,本研究模型可以緩解全卷積網(wǎng)絡(luò)容易出現(xiàn)的部分錯(cuò)誤分類的像素點(diǎn)與錯(cuò)誤分類的像素塊問題,提高分割精度.