王漢譜,瞿玉勇,劉志豪,谷旭軒,賀志強,彭怡書,何 偉
(湖南理工學(xué)院 a.信息科學(xué)與工程學(xué)院; b.機器視覺與人工智能研究中心,湖南 岳陽 414006)
近年來,深度學(xué)習(xí)的發(fā)展非常迅速,其中深度卷積神經(jīng)網(wǎng)絡(luò)是重要的分支之一,在計算機視覺領(lǐng)域大放異彩。在日常生活中,計算機視覺技術(shù)常用于目標(biāo)物體的檢測和識別,在許多需要人工重復(fù)的簡單任務(wù)中已經(jīng)逐漸走向自動化。圖像語義分割是很多任務(wù)處理的前提步驟,其分割效果直接影響著整個網(wǎng)絡(luò)模型的表現(xiàn)性能。隨著計算機技術(shù)的發(fā)展,分類網(wǎng)絡(luò)的成功,進(jìn)一步推動了圖像分割的發(fā)展[1~4]。
傳統(tǒng)的圖像語義分割方法有基于閾值的圖像分割方法[5]、基于K-means像素聚類的圖像分割法[6]、基于邊緣檢測的圖像分割方法[7]等,但這些方法無論是結(jié)果精度還是特征通用性都比較差。
為解決上述問題,Long等[8]中提出自行設(shè)計的全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),該網(wǎng)絡(luò)結(jié)構(gòu)是在非常深的網(wǎng)絡(luò)結(jié)構(gòu)(VGG Very Deep Convolutional Networks,VGGNet)上面進(jìn)行改進(jìn)的。Ronneberger等[9]提出一種經(jīng)典的編碼器-解碼器結(jié)構(gòu)U-Net,該結(jié)構(gòu)中解碼器是通過逐步恢復(fù)物體細(xì)節(jié)和圖像分辨率,廣泛應(yīng)用于醫(yī)學(xué)圖像分割;Badrinarayanan等[10]提出SegNet網(wǎng)絡(luò)結(jié)構(gòu),其解碼器是根據(jù)編碼器索引而設(shè)計的上采樣方式;Chen等[11]的DeepLab方法使用了空洞卷積。DeepLab共有3個版本。DeepLab v2第一次使用了空洞卷積,提升了感受野[12],獲得了圖像多尺度信息。對于條件隨機場,Deeplab v2采用全連通條件隨機場(Conditional Random Fields,CRF)來增強捕獲細(xì)節(jié)的能力,從而來改善被分割對象邊界的連續(xù)性。DeepLab v3版本[13]對原來多孔空間金字塔池化模塊的并行連接結(jié)構(gòu)進(jìn)行了微調(diào),模塊串聯(lián)了多個配置不同擴張率的空洞卷積結(jié)構(gòu)來增大感受野,捕獲多尺度信息與背景。
此外,一些學(xué)者依據(jù)多尺度、金字塔結(jié)構(gòu)來捕獲足夠的上下文。Lin等[14]第一次提出了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)來連接語義信息豐富的高等級特征和邊緣細(xì)節(jié)豐富的低等級特征,從而各個尺度都包含豐富的語義特征;Zhao等[15]設(shè)計了場景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network,PSPNet)來對不同區(qū)域的上下文信息聚合,提升了分割性能;Zhao等[16]提出實時語義分割網(wǎng)絡(luò)(Image Cascade Network,ICNet);Xong等[17]以不同尺度的圖像作為網(wǎng)絡(luò)輸入,并對多尺度特征進(jìn)行融合;徐天宇等[18]在上采樣路徑之前采用特征金字塔方法進(jìn)行信息增強,從而整合多級特征;He等[19]依據(jù)全局導(dǎo)向的局部親和力在構(gòu)建有效語境中至關(guān)重要,提出了自適應(yīng)金字塔上下文網(wǎng)絡(luò)(Adaptive Pyramid Context Network,APCNet);Wu等[20]提出聯(lián)合金字塔上下樣模塊(Joint Pyramid Upsampling,JPU)來將低分辨率特征圖上采樣為高分辨率特征,極大地降低了計算復(fù)雜度和內(nèi)存占用。
針對原始全卷積神經(jīng)網(wǎng)絡(luò)對小目標(biāo)和物體邊緣分割效果困難的問題,本文通過設(shè)計模塊捕獲圖像多尺度特征,并使用密集上采樣方式替換原始反卷積方式,并在Pascal VOC 2012數(shù)據(jù)集上進(jìn)行實驗,從而進(jìn)一步提升語義分割效果。
本文圖像語義分割算法相對于原始FCN最大的改進(jìn)是使用了空洞空間金字塔池化模塊(Atrous Spatial Pyramid Pooling,ASPP)對特征圖進(jìn)行重采樣以獲取多尺度信息,上采樣方法由反卷積法改變?yōu)槊芗喜蓸泳矸e法。下面將對圖像語義分割算法中所使用的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行詳細(xì)描述。
一般情況下,通過加深網(wǎng)絡(luò)深度,使其能夠表示更加復(fù)雜的映射關(guān)系。這同樣適用于圖像語義分割模型,更深層次的網(wǎng)絡(luò)結(jié)構(gòu)一般可以進(jìn)一步提升圖像語義分割最終的效果,模型復(fù)雜度稍微有所增加,但是僅僅通過增加網(wǎng)絡(luò)規(guī)模來提高識別準(zhǔn)確率的做法無法提取更加有效的圖像特征。近年來,許多學(xué)者提出了應(yīng)用于計算機視覺領(lǐng)域的優(yōu)秀網(wǎng)絡(luò)結(jié)構(gòu),如深度殘差網(wǎng)絡(luò)ResNet-50,ResNet-101[19]等。本文算法采用的基礎(chǔ)網(wǎng)絡(luò)正是ResNet-50,其主要優(yōu)點是克服了由于網(wǎng)絡(luò)深度過深帶來的學(xué)習(xí)退化、梯度消亡問題。ResNet-101網(wǎng)絡(luò)參數(shù)更多,而表現(xiàn)的性能卻相差無幾。
ResNet-50中最關(guān)鍵的技術(shù)是殘差塊,其詳細(xì)結(jié)構(gòu)如圖1所示。殘差塊的核心在于通過短連接實現(xiàn)的恒等映射,可以有效緩解網(wǎng)絡(luò)的梯度消失問題。
圖1 殘差塊結(jié)構(gòu)
和VGG-16[22]一樣,ResNet-50也具備提取圖像全局和局部特征的能力,且其可訓(xùn)練參數(shù)更少,模型的表達(dá)能力更強。模型采用的激活函數(shù)是在近幾年使用十分廣泛的ReLU函數(shù),由于其計算簡單,能使得網(wǎng)絡(luò)收斂更快,ReLU函數(shù)計算公式如式(1)所示,對應(yīng)的圖像如圖2所示。
圖2 ReLU激活函數(shù)
(1)
ASPP受早先的SPPNet和R-CNN中的空間金字塔池化的啟發(fā)[19]。如圖3所示,ASPP結(jié)構(gòu)中沒有池化層,而擁有4個卷積核大小為3×3、不同擴展率的空洞卷積。使用空洞卷積會帶來網(wǎng)格效應(yīng),導(dǎo)致濾波器有效權(quán)重逐漸變少(有效權(quán)重是非填充的零值),特征提取受到損失,使用多個不同擴展率的空洞卷積能夠緩解這種效應(yīng),進(jìn)而可以捕獲更加全面有用的特征信息。這種結(jié)構(gòu)也稱為并行ASPP結(jié)構(gòu),因為4個卷積操作是同時并行執(zhí)行的,不同尺度的并行卷積比單個卷積的感受野更加開闊。此外,也存在著另外一種串行的ASPP結(jié)構(gòu)。
具體的ASPP結(jié)構(gòu)如圖3所示。1個常規(guī)卷積,3個不同空洞率的空洞卷積,1個用于提取全局特征的全局平均池化模塊,此外,對所得特征,進(jìn)行特征融合操作和降維操作,因此可以將特征值維持在一個較小的范圍內(nèi)取值,可以提升模型分割精度以及降低模型過擬合的風(fēng)險。此外,還將空洞率的3×3空洞卷積替換為1×1的卷積,解決了由于圖像邊界效應(yīng)導(dǎo)致的遠(yuǎn)距離信息無法捕捉的問題。
圖3 改進(jìn)后的ASPP模塊結(jié)構(gòu)
ASPP并行結(jié)構(gòu)得到的特征是分離的,接下來的操作需要將這些特征進(jìn)行融合,以獲得完整的全局上下文信息。特征融合操作在張量中也被稱為拼接。
改進(jìn)后的ASPP結(jié)構(gòu)對不同尺度的特征進(jìn)行了重采樣,不同擴張率的空洞卷積并行連接可以準(zhǔn)確且有效地對任意尺度區(qū)域進(jìn)行分類,解決了圖像的多尺度問題。完成特征融合之后,可以通過卷積核大小為1×1的卷積操作實現(xiàn)特征圖不同通道的線性組合以達(dá)到高維度通道線性降維的目的。
ASPP模塊生成的特征圖經(jīng)過1×1卷積的降維后,特征圖的分辨率僅是輸入圖像的1/16,無法實現(xiàn)圖像語義像素級別的分類,這樣處理得到的結(jié)果不夠精確。為了完成圖像全局性的分類預(yù)測,對像素逐個求其在21張圖像中位置的最大概率作為該像素的分類。DUC方法最初是用于將視頻圖像從低分辨率轉(zhuǎn)換到高分辨率的一種技術(shù),本次用于圖像分割輸出上原理是相同的。
DUC是對高等級特征圖進(jìn)行卷積,從而獲得像素級別預(yù)測。DUC上采樣的方法復(fù)雜性不高,在實際使用中較為容易,并且能夠?qū)崿F(xiàn)像素級精度的圖像分割,它與轉(zhuǎn)置卷積的目的相同,都是想要將特征映射擴大到與輸入圖像大小相同的密集特征映射。它是一種高效的圖像和視頻超分辨率技術(shù),能夠?qū)崿F(xiàn)低分辨率圖像到高分辨率的變換。
經(jīng)過對模型結(jié)構(gòu)的修改,加入密集上采樣卷積后的處理效果確實更加精細(xì),很少出現(xiàn)對象分割不連續(xù)的情況。缺點在于產(chǎn)生的可訓(xùn)練參數(shù)相比不可訓(xùn)練的雙線性插值法多很多,一是內(nèi)存占用增多,二是模型訓(xùn)練速度下降。綜合來看,加入密集上采樣卷積還是值得的,以處理速度換取更好的性能表現(xiàn)。
DUC過程如圖4所示,一張輸入圖片的高度是H、寬度是W、通道數(shù)是C的圖像,我們要獲得同樣大小的預(yù)測圖,每個特征圖中每個像素被單獨標(biāo)注。圖像經(jīng)過Resnet處理后得到圖像特征圖大小是h×w×c,其中h=H/d,w=W/d,d為下采樣因子。在本文算法中由于使用了空洞卷積,最后一個卷積塊的特征圖分辨率沒有變化,設(shè)計的下采樣值為d=16。所提模塊是對中間特征圖進(jìn)行操作,從而得到h×w×(d2×L)大小的特征圖,L為數(shù)據(jù)集中樣本類別數(shù)目。
圖4 密集上采樣卷積示意圖
經(jīng)過像素重組(reshape)后將特征圖形狀(shape)轉(zhuǎn)化為h×w×L,并運行argmax(對應(yīng)程序語句tf.argmax)算子得到最終的預(yù)測圖。argmax通過選取維度(axis)的不同返回每行或者每列最大值的索引值。
語義分割任務(wù)下的網(wǎng)絡(luò)基本都具有編碼模塊和解碼模型,它們組合在一起形成端到端的訓(xùn)練網(wǎng)絡(luò),而大多數(shù)網(wǎng)絡(luò)在解碼時使用的是雙線性插值法。雙線性插值在特征圖上采樣時容易丟失信息,導(dǎo)致上采樣恢復(fù)對象的效果不佳。然而上采樣方法并不唯一,在眾多方法中DUC是一個比較好的選擇。因為DUC是可學(xué)習(xí)的,針對數(shù)據(jù)集的特點,具有一定的自適應(yīng)性,還能提升特征圖分辨率,獲得比雙線性上采樣更精確的結(jié)果。
在Linux系統(tǒng)下,使用TensorFlow框架搭建深度學(xué)習(xí)網(wǎng)絡(luò)模型,在GeForce RTX 2080 Ti上運行網(wǎng)絡(luò)結(jié)構(gòu)。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)用以發(fā)現(xiàn)大數(shù)據(jù)中隱含的內(nèi)在聯(lián)系,同時通過梯度反向傳播迭代更新網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)更適合當(dāng)前任務(wù),加快模型收斂速度,最終得到的分割結(jié)果更加精確。本實驗使用Pascal VOC 2012[23],這是一個標(biāo)準(zhǔn)數(shù)據(jù)集,圖像數(shù)據(jù)豐富,在計算機視覺領(lǐng)域被廣泛接受。數(shù)據(jù)集包含20個目標(biāo)類別和1個背景類別。在計算機視覺挑戰(zhàn)賽上經(jīng)常使用此數(shù)據(jù)集對算法進(jìn)行驗證,常用于3個主要物體識別競賽分別為分類、檢測和分割。對于語義分割任務(wù)來說,Pascal是非常合適的。本次實驗使用到的有2 913張圖片共6 929個物體,為驗證實驗結(jié)果提供了較為豐富的數(shù)據(jù)集。
為了使數(shù)據(jù)格式適合于訓(xùn)練本次的網(wǎng)絡(luò),首先需要進(jìn)行適當(dāng)?shù)膱D像預(yù)處理。第一,由于標(biāo)簽圖像是三通道的,需要轉(zhuǎn)換為二維圖像,轉(zhuǎn)換的方法是將對應(yīng)物體所屬類別的彩色三通道映射為單通道的灰度值,取值范圍為0~20對應(yīng)著21種(包括背景)不同類別的物體,方便計算模型輸出與真值標(biāo)簽之間的損失對網(wǎng)絡(luò)進(jìn)行反饋。第二,數(shù)據(jù)集的圖像大小是不一致的,為了方便訓(xùn)練網(wǎng)絡(luò)和展示結(jié)果,在訓(xùn)練之前先將圖像尺寸統(tǒng)一變換為512×512大小。
衡量算法優(yōu)劣的指標(biāo)通常有多種,在圖像語義分割領(lǐng)域,常用的指標(biāo)是像素精度(Pixel Accuracy,PA)和平均像素比(mean Intersection over Union,mIoU)。像素精度的定義是分類正確的像素與圖像總像素個數(shù)的比值。計算式如式(2)所示:
(2)
式中:pii表示預(yù)測正確的像素數(shù);N代表共有多少類;pi表示屬于i類的像素的總數(shù);pji表示應(yīng)該屬于i類的像素被誤判為j類像素的數(shù)量。
平均像素交并比是兩組實際值與預(yù)測值的交并比,得到每一類的平均值。本次實驗使用mIoU作為算法的性能指標(biāo):
(3)
待訓(xùn)練模型的參數(shù)較多,學(xué)習(xí)率的設(shè)置會對模型收斂速度以及最終效果有較大影響。如果學(xué)習(xí)率很低,訓(xùn)練過程的損失值通常會比較平穩(wěn)地下降,但是會導(dǎo)致模型訓(xùn)練耗費較長的時間,因為模型可訓(xùn)練參數(shù)每一個步長是梯度與學(xué)習(xí)率的乘積;如果學(xué)習(xí)率過高,那么模型在訓(xùn)練時通常難以收斂,表現(xiàn)為損失值時高時低,沒有一致的變化方向。為了讓模型能夠較快收斂又不至于導(dǎo)致模型的損失值頻繁震蕩,決定使用分步訓(xùn)練的方式對模型進(jìn)行訓(xùn)練。分步訓(xùn)練的整個過程中一共用到3個不同的學(xué)習(xí)率,按訓(xùn)練模型的順序分別為0.001 0、0.000 5、0.000 1。由于接近3 000大小的訓(xùn)練集算不上多,網(wǎng)絡(luò)的誤差收斂速度較快,所以模型訓(xùn)練迭代次數(shù)(epoch)不用過多,設(shè)置為40次。批量大小(batch size)的設(shè)置也很重要,過小的批量容易讓模型學(xué)習(xí)到過多的噪聲。本次訓(xùn)練將批量大小設(shè)置為6,那么訓(xùn)練的每一輪的批次大小是486,這樣既能使模型較快收斂,也能充分學(xué)習(xí)到數(shù)據(jù)集的表示。最終,文獻(xiàn)[8]方法和本文算法迭代1個批量所需時間和總訓(xùn)練時長如表1所示。
表1 算法訓(xùn)練時間
圖5為文獻(xiàn)[8]方法和本文方法在Pascal VOC 2012數(shù)據(jù)庫上的可視化結(jié)果??梢园l(fā)現(xiàn)本文算法加入了空洞卷積和ASPP層后,使得它對圖像的全局信息把握更好,對較大型的物體分類精度更高,較少出現(xiàn)同一對象的像素分屬到多個分類中,即分類夾雜在一起的情況。FCN-8s在部分細(xì)節(jié)和全局上下文的把握上還做得不夠,容易出現(xiàn)同一物體分割“斷裂”和丟失細(xì)節(jié)的情況。
(a)原始圖像 (b)真實值 (c)FCN-8s (d)改進(jìn)算法
本次實驗使用mIoU評判標(biāo)準(zhǔn)對算法進(jìn)行評估,各種算法精度對比如表2所示。
表2 算法精度
本文算法的基礎(chǔ)網(wǎng)絡(luò)采用ResNet-50,相對之前基于VGG-16的全卷積網(wǎng)絡(luò)而言,在殘差網(wǎng)絡(luò)中引入了跳躍連接,使得梯度的反向傳播更加平滑,緩解了在進(jìn)行梯度下降優(yōu)化時出現(xiàn)的梯度消亡問題,加速了模型的收斂。采用可學(xué)習(xí)的密集上采樣卷積,達(dá)到改善部分細(xì)節(jié)的目的。通常參與一次卷積計算的像素塊的大小對比如原始圖像的尺寸來說太小,因此,該算法只能提取非常有限的局部特征信息,限制了分類的性能。為此在算法中加入了空洞卷積塊與ASPP模塊來進(jìn)行改進(jìn)。最后對設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)在谷歌開源的深度學(xué)習(xí)工具TensorFlow上進(jìn)行了仿真實驗,使用公開數(shù)據(jù)集Pascal VOC 2012完成對模型的訓(xùn)練。實踐結(jié)果表明了本文方案在基于mIoU評判標(biāo)準(zhǔn)上取得的效果要更好。