王金康 何曉暉 邵發(fā)明 盧冠林
(中國(guó)人民解放軍陸軍工程大學(xué) 南京 210007)
隨著水資源的開(kāi)發(fā)利用和深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的水下計(jì)算機(jī)視覺(jué)領(lǐng)域被越來(lái)越多研究者所關(guān)注。圖像分割[1]作為計(jì)算機(jī)視覺(jué)的一個(gè)重要研究方向,已經(jīng)有研究者將其用在水下圖像對(duì)目標(biāo)分類中。但由于水下環(huán)境復(fù)雜,水介質(zhì)對(duì)光線的散射以及吸收效應(yīng),水下圖像質(zhì)量差,一般會(huì)存在色偏,對(duì)比度低、噪音以及光照不均的問(wèn)題。這對(duì)水下圖像分割的完整性和準(zhǔn)確性提出了很大的挑戰(zhàn)。傳統(tǒng)的語(yǔ)義分割方法面臨以下問(wèn)題:
1)過(guò)深的卷積網(wǎng)絡(luò)會(huì)降低特征圖分辨率,導(dǎo)致一些關(guān)鍵信息丟失;
2)不同尺度目標(biāo)的存在需要結(jié)合全局和局部信息,導(dǎo)致特征提取困難;
3)CNN的空間不變性造成定位精度的下降,目標(biāo)與背景之間邊界模糊。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的進(jìn)步,基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法大放異彩。Deeplab V3+[2]針對(duì)FCN 的不足進(jìn)行改進(jìn),通過(guò)圖像金字塔[3]、空洞卷積[4]、空間金字塔池化[5]等技術(shù)有效擴(kuò)大感受野,捕捉圖像上下文信息,從而改善分割結(jié)果。但是稠密的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致分割速度慢,且Deeplab V3+算法對(duì)于小尺寸的目標(biāo)分割效果不明顯。Segnet[6]采用編解碼機(jī)制,通過(guò)Uppooling 還原像素的空間位置信息,提高分割分辨率。但其網(wǎng)絡(luò)訓(xùn)練參數(shù)過(guò)多,計(jì)算成本較高。DenseASPP[7]在ASPP的基礎(chǔ)上采用密集連接,覆蓋大范圍的語(yǔ)義信息,對(duì)高分辨率圖像有較好的分割效果,但是同時(shí)密集連接也導(dǎo)致計(jì)算量急速上升。DFANet[8]采用Xception網(wǎng)絡(luò)作為主干結(jié)構(gòu),將高級(jí)上下文合并到編碼的功能中,在分割速度和準(zhǔn)確度之間取得有效平衡。DANet[9]提出自我關(guān)注機(jī)制的雙注意力網(wǎng)絡(luò),增強(qiáng)場(chǎng)景分割特征表示的判別能力,顯著改善了分割結(jié)果。Auto-APCNet[10]提出自適應(yīng)上下文模塊,自適應(yīng)的構(gòu)建多尺度上下文表示。CANet[11]開(kāi)發(fā)了一種新穎的雙分支密集比較模塊,有效地利用來(lái)自CNN的多級(jí)特征表示來(lái)進(jìn)行密集的特征比較,同時(shí)加入注意力機(jī)制融合來(lái)自不同支持示例的信息。MagNet[12]提出一個(gè)多尺度框架,通過(guò)多個(gè)放大級(jí)別逐步細(xì)化分割輸出,進(jìn)行從粗到細(xì)的信息傳播。解決了局部圖像模糊的問(wèn)題,分割性能大大提高。SETR[13]將語(yǔ)義分割視為序列到序列的預(yù)測(cè)任務(wù),通過(guò)編碼transformer 建模全局上下文信息,提升分割精度。RobustNet[14]提出了一種新的實(shí)例選擇性白化損失,將特征表示的高階統(tǒng)計(jì)量中編碼的特定于領(lǐng)域的樣式和領(lǐng)域不變的內(nèi)容分開(kāi),并選擇性地只刪除導(dǎo)致領(lǐng)域漂移的樣式信息,以提高不可見(jiàn)區(qū)域分割網(wǎng)絡(luò)的健壯性?;谏疃葘W(xué)習(xí)的圖像語(yǔ)義分割技術(shù)在魯棒性特征的自主學(xué)習(xí)和分類過(guò)程中,表現(xiàn)出巨大優(yōu)勢(shì),分割精度和速度較傳統(tǒng)的語(yǔ)義分割技術(shù)有極大提升。
本文在上述文獻(xiàn)的基礎(chǔ)上決定先對(duì)水下圖像進(jìn)行圖像增強(qiáng),再做下一步的語(yǔ)義分割。首先,我們采用密集連接的混合空洞卷積,相比Deeplab 系列算法等單純的用多層空洞卷積而言,能夠覆蓋更大感受野,有效地保持了特征信息的整體性,減少信息丟失。其次,級(jí)聯(lián)空洞卷積空間金字塔池化模塊對(duì)特征圖做細(xì)化處理,通過(guò)融合不同感受野下的圖像特征來(lái)共享多尺度目標(biāo)信息,這種方法在上述論文中是沒(méi)有出現(xiàn)過(guò)的。最后,創(chuàng)造性的提出上下文信息聚合網(wǎng)絡(luò),通過(guò)將深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)中的特征信息融合,細(xì)節(jié)信息更加豐富,對(duì)邊緣細(xì)節(jié)的把握更加充分。
為了解決水下圖像語(yǔ)義分割過(guò)程中遇到的困難,本文提出一種基于編解碼機(jī)制的上下文信息融合的水下圖像分割算法,算法流程如圖1所示。首先提出一種基于加權(quán)融合的多空間轉(zhuǎn)換水下圖像增強(qiáng)方法[27]對(duì)原始水下圖像進(jìn)行增強(qiáng)處理,其次通過(guò)具有50 個(gè)網(wǎng)絡(luò)層、濾波器大小為1×1 和3×3、步幅為2 的基礎(chǔ)網(wǎng)絡(luò)Resnet50[15]進(jìn)行特征提取,使用密集連接的方式將提取到的特征圖輸入到HAC塊,通過(guò)一系列的連續(xù)擴(kuò)張卷積組合級(jí)聯(lián),擴(kuò)大神經(jīng)元感受野。HAC塊包含三個(gè)3×3空洞卷積,空洞卷積的擴(kuò)張率分別為1、2、5。然后通過(guò)級(jí)聯(lián)空洞卷積空間金字塔池化模塊兼顧不同尺度的目標(biāo)區(qū)域,豐富目標(biāo)細(xì)節(jié)信息和更高層次的圖像語(yǔ)義信息,CASPP 模塊包含2 個(gè)1×1 卷積和三個(gè)3×3 空洞卷積,空洞率分別為5、9 和13,過(guò)濾器數(shù)量為256個(gè)。以上兩個(gè)部分組成編碼器,實(shí)現(xiàn)對(duì)水下圖像的語(yǔ)義邊緣信息提取和融合。解碼器創(chuàng)造性的采用上下文信息聚合機(jī)制,通過(guò)雙線性插值將深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)的特征信息融合,并使用3×3 卷積對(duì)特征進(jìn)行微調(diào),更加充分地把握?qǐng)D像邊緣細(xì)節(jié),大幅度減少了圖像特征信息的丟失。最后采用雙線性插值法進(jìn)行2倍的上采樣,得到最終的圖像分割結(jié)果。
圖1 基于編解碼機(jī)制的水下圖像分割算法框架
針對(duì)質(zhì)量不佳的水下圖像,由于其對(duì)比度低、存在色偏、細(xì)節(jié)模糊,直接進(jìn)行語(yǔ)義分割效果不好,我們先對(duì)水下原始圖像進(jìn)行增強(qiáng)處理。多空間轉(zhuǎn)換水下圖像增強(qiáng)算法流程圖如圖2所示。
圖2 加權(quán)融合的多空間轉(zhuǎn)換水下圖像增強(qiáng)算法流程圖
加權(quán)融合的多空間轉(zhuǎn)換水下圖像增強(qiáng)算法流程如下:首先對(duì)輸入圖像進(jìn)行白平衡處理,以消除或減輕輸入圖像的色偏問(wèn)題。之后,經(jīng)過(guò)白平衡處理的圖像分別進(jìn)行三個(gè)支路的后續(xù)處理。第一條支路將圖像從RGB 通道轉(zhuǎn)化為L(zhǎng)AB 通道,并對(duì)L通道進(jìn)行伽馬校正,以調(diào)節(jié)圖像整體亮度,最后再轉(zhuǎn)化為RGB 通道。第二條支路對(duì)圖像先后進(jìn)行CLAHE 處理和雙邊濾波處理,去除噪聲的同時(shí)提高圖像的清晰度。第三條支路將圖像從RGB 通道轉(zhuǎn)化為HSV通道,并對(duì)V通道進(jìn)行單尺度retinex處理,保證圖像的色彩飽和度,提高細(xì)節(jié)處理,最后再轉(zhuǎn)化為RGB 通道。對(duì)三條支路的處理結(jié)果進(jìn)行加權(quán)融合,得到圖像的最終增強(qiáng)效果。
Deeplab系列網(wǎng)絡(luò)使用多層連續(xù)空洞卷積進(jìn)行特征提取,但在感受野擴(kuò)大的同時(shí),會(huì)造成“gridding issue”,這是因?yàn)樵谑褂枚鄬涌斩淳矸e后,會(huì)對(duì)輸入的采樣變得很稀疏,從而導(dǎo)致一些局部信息丟失,特征圖整體連續(xù)性信息被忽視。為了解決這個(gè)問(wèn)題,我們采用不同空洞率的混合空洞卷積,小空洞率用來(lái)提取本地信息,大空洞率用來(lái)提取長(zhǎng)距離信息,這樣既可以獲取更寬闊的區(qū)域信息,又能在保持感受野不變的情況下提高信息利用率。如圖3,我們以空洞率為1,2,3 的混合空洞卷積為例,在一開(kāi)始就保留完整連續(xù)的3×3 區(qū)域,之后幾層的空洞率設(shè)置又剛好保證拼起來(lái)感受域的連貫性,雖然有所重疊,但是密不透風(fēng),可以有效地保持了特征信息的整體性。它的結(jié)構(gòu)需滿足公式:
圖3 不同空洞率混合空洞卷積的覆蓋效應(yīng)
其中,ri為第i層的空洞率,Mi為在第i層插入的最大空洞數(shù)量,若卷積核大小為k*k,則需要滿足Mr≤k,這樣就可以覆蓋所有空洞。
通過(guò)密集連接的方式將空洞卷積塊連接到一起,獲得越來(lái)越大的感受野的同時(shí),對(duì)多尺度的語(yǔ)義信息做編碼,不同特征圖對(duì)來(lái)自不同尺度的信息做編碼,最終輸出特征不僅覆蓋大范圍的語(yǔ)義信息,而且以非常密集的方式覆蓋信息編碼。
對(duì)于質(zhì)量低下的水下圖像,層層卷積下使特征圖分辨率逐漸減小,這對(duì)于水下圖像分割來(lái)說(shuō)更加困難,會(huì)導(dǎo)致目標(biāo)細(xì)節(jié)的缺失和各像素關(guān)聯(lián)性的弱化。針對(duì)這個(gè)問(wèn)題,我們使用空洞率分別為5,9,13 的三個(gè)空洞卷積并聯(lián)對(duì)特征圖做細(xì)化處理,同時(shí)兼顧不同大小尺度的目標(biāo)區(qū)域,豐富目標(biāo)細(xì)節(jié)和更高層次的圖像語(yǔ)義信息。此外,利用級(jí)聯(lián)融合的方式,將三個(gè)并行空洞卷積后的特征圖級(jí)聯(lián)相加,通過(guò)融合不同感受野下的圖像特征來(lái)共享多尺度目標(biāo)信息,不同空洞率卷積相互依賴,將不同感受野下的特征信息進(jìn)行級(jí)聯(lián)整合,進(jìn)一步提高全局像素信息的關(guān)聯(lián)性和連續(xù)性。最后通過(guò)維度拼接的方式將得到的5 個(gè)特征圖在通道維度上進(jìn)行融合,獲得包含更多邊緣細(xì)節(jié)和高級(jí)語(yǔ)義的特征圖。級(jí)聯(lián)空洞卷積空間金字塔池化模塊結(jié)構(gòu)圖如圖4所示。
圖像在不同網(wǎng)絡(luò)深度具有不同特點(diǎn)的特征信息,淺層特征圖尺度大,具有較多的特征信息,利用淺層網(wǎng)絡(luò)可以將目標(biāo)進(jìn)行簡(jiǎn)單的區(qū)分,但由于卷積核以及計(jì)算資源的限制,網(wǎng)絡(luò)只能在小感受野的范圍內(nèi)提取到具有顏色、紋理等細(xì)節(jié)信息的圖像局部特征;在深層網(wǎng)絡(luò)中,特征圖經(jīng)過(guò)層層卷積和下采樣,分辨率減小,特征圖尺寸降低,感受野也增大,網(wǎng)絡(luò)能夠在全局范圍內(nèi)提取到較為明確的位置、類別等高級(jí)語(yǔ)義信息,但由于缺失幾何空間細(xì)節(jié)信息,在標(biāo)定目標(biāo)位置類別時(shí)對(duì)于邊緣細(xì)節(jié)信息的準(zhǔn)確度不夠。通過(guò)將深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)中的特征信息融合,能夠大幅度減少圖像特征信息的丟失,使得圖像在保證位置類別準(zhǔn)確的情況下,細(xì)節(jié)信息更3加豐富,對(duì)邊緣細(xì)節(jié)的把握更加充分。
上下文信息聚合網(wǎng)絡(luò)如圖5所示。首先,將級(jí)聯(lián)空洞空間金字塔池化模塊輸出的特征圖F4 與空洞卷積塊3 提取的特征圖F3 進(jìn)行逐像素相加操作;然后經(jīng)過(guò)2 倍上采樣增大特征圖分辨率,并空洞率為2 的空洞卷積結(jié)合相鄰像素的特征信息,對(duì)特征圖的上采樣特征進(jìn)行細(xì)化處理;接著將處理過(guò)的該特征圖與空洞卷積塊2 的特征圖F2 進(jìn)行加和操作,再經(jīng)空洞卷積細(xì)化處理后與特征圖F1進(jìn)行相加融合,獲取有效的圖像目標(biāo)空間信息與物體邊緣信息:最后經(jīng)過(guò)2 倍上采樣后得到分割結(jié)果。利用自底而上的方式將各路徑特征信息進(jìn)行聚合,使得深層圖像語(yǔ)義信息逐漸與圖像淺層邊緣線條、形狀位置等細(xì)節(jié)信息融合,在傳達(dá)強(qiáng)定位信息特征的同時(shí)傳達(dá)強(qiáng)語(yǔ)義信息特征,捕捉清晰的目標(biāo)邊界信息,細(xì)化分割結(jié)果,有效提高物體分割的精度。
圖5 上下文信息聚合模塊結(jié)構(gòu)圖
為了完成水下圖像語(yǔ)義分割的研究,我們對(duì)RUIE[16]和UIEBD[17]兩個(gè)開(kāi)源水下圖像數(shù)據(jù)集合并以構(gòu)建一個(gè)水下圖像分割數(shù)據(jù)集。我們對(duì)其中的3000 張圖像采用Resize 操作將大分辨率圖像進(jìn)行像素聚類,對(duì)小分辨率圖像進(jìn)行像素插補(bǔ),在一定程度上對(duì)圖像信息進(jìn)行提取并按512×512 分辨率重排像素點(diǎn),以致達(dá)到統(tǒng)一像素。按照COCO 數(shù)據(jù)集的標(biāo)注格式,通過(guò)LabelMe 軟件以手工標(biāo)注的方式進(jìn)行標(biāo)注。我們的標(biāo)注包括海魚(yú)、潛水員、珊瑚、礁石、雕塑、章魚(yú)、海龜、水草、Mobula、海膽、扇貝、海星12個(gè)類別。
我們的水下圖像分割方法在PyTorch軟件中進(jìn)行了實(shí)驗(yàn)。運(yùn)行平臺(tái)為:Windows 10 64 位操作系統(tǒng)、NVIDA GeForce RTX 4000、8 GB DDR3 內(nèi)存、英特爾酷睿i7-6700U、CPU@4.00 GHz。我們的算法運(yùn)行在GPU 上。
在訓(xùn)練參數(shù)設(shè)置中,我們?cè)O(shè)置初始學(xué)習(xí)率為0.01,采用帶動(dòng)量的隨機(jī)梯度下降法(SGD)進(jìn)行網(wǎng)絡(luò)優(yōu)化。動(dòng)量參數(shù)為0.9,權(quán)重衰減正則項(xiàng)為0.00005,批量大小為16。
本章使用OA,IOU 和MIOU 作為綜合評(píng)價(jià)指標(biāo)評(píng)價(jià)網(wǎng)絡(luò)的分割效果。
OA代表總體精度,表示分類正確的樣本個(gè)數(shù)占所有樣本個(gè)數(shù)的比例,表達(dá)式如式(2)所示。
IOU表示每類目標(biāo)數(shù)據(jù)分割的預(yù)測(cè)值與真實(shí)值之間的交集和并集之比,表達(dá)式如式(3)所示,MIOU即每類目標(biāo)IOU的平均值,表達(dá)式如式(4)所示。
其中,k表示分割類別數(shù)量,包括背景的話,則有k+1個(gè)類別。
為了直觀地表現(xiàn)我們提出的算法的有效性,將本文算法與現(xiàn)有最先進(jìn)的4 種經(jīng)典分割算法在合成數(shù)據(jù)集上的對(duì)比結(jié)果如圖6所示,從左到右分別為原始圖像、強(qiáng)化圖像、Deeplab V3+、DFANet、APCNet、CANet和本文方法的分割效果圖以及真實(shí)值。
圖6 水下圖像語(yǔ)義分割的定性比較
水下圖像由于產(chǎn)生色偏現(xiàn)象,導(dǎo)致圖像的對(duì)比度降低,從圖6 實(shí)驗(yàn)結(jié)果可以看出,我們的方法在色偏現(xiàn)象嚴(yán)重的水下圖像分割中效果最好??v向來(lái)看,Deeplab V3+在對(duì)原始圖像進(jìn)行語(yǔ)義分割的時(shí)候由于對(duì)比度下降會(huì)漏掉一下圖像信息,不能對(duì)每個(gè)目標(biāo)都進(jìn)行充分的分割,(c)中的礁石和(d)中上側(cè)的礁石和魚(yú),(e)中零星的海星和貝殼都沒(méi)能分割出來(lái),而且邊緣定位不準(zhǔn)確。DFANet較Deeplab V3+稍有改善,但是對(duì)于(c)中的章魚(yú)分類不正確,而且(d)中的上側(cè)礁石和(e)中較小的海星和貝殼未能捕捉到。APCNet對(duì)于水下圖像的分割效果稍好,但是已經(jīng)捕捉到的輪廓分割信息過(guò)多,如(a)中潛水員分割邊界出現(xiàn)寧濫勿缺的現(xiàn)象。相比前幾種方法,CANet 分割效果較好但是對(duì)于圖片(c)這種對(duì)比度很低的圖像不能取得良好的分割效果。與其他算法相比,我們的方法分割對(duì)象完整,定位準(zhǔn)確,雖然有不同程度的漏檢和邊界不清晰的問(wèn)題出現(xiàn),但是我們的方法取得的分割結(jié)果與真實(shí)值最為接近。橫向來(lái)看,對(duì)于a、b、d 這類邊界模糊的圖像,我們的方法的分割結(jié)果邊界清晰,最接近真實(shí)值;對(duì)于c、e 這類對(duì)比度低的圖像,經(jīng)過(guò)圖像增強(qiáng)后的效果還是顯而易見(jiàn)的,我們的方法對(duì)一些容易漏檢的小目標(biāo)定位準(zhǔn)確,而其他方法都存在不同程度的漏檢和誤檢。總的來(lái)說(shuō),相比其他方法,本文提出的方法在分割完整度、定位精準(zhǔn)度、邊界清晰度、細(xì)節(jié)方面都是最好的,可以對(duì)水下圖像不同類別對(duì)象進(jìn)行有效分類,語(yǔ)義分割效果最好。
本節(jié)的客觀評(píng)價(jià)使用3.3小節(jié)中提到的圖像質(zhì)量評(píng)價(jià)指標(biāo)對(duì)分割精準(zhǔn)度進(jìn)行評(píng)價(jià)測(cè)試,表1 展示了數(shù)據(jù)集中所有類別目標(biāo)的平均交并比和整體精準(zhǔn)度。黑色加粗表示最優(yōu)結(jié)果。
表1 不同方法的MIOU和OA測(cè)試結(jié)果對(duì)比
我們可以看出,本文方法在大多數(shù)類別目標(biāo)分割中的IOU值是最大的,在所有類別平均交并比和整體精準(zhǔn)度是最高的,從客觀數(shù)據(jù)上分析分割效果是最好的,這與主觀評(píng)價(jià)基本一致。
表2 展示了我們的方法與其他算法在CUOID數(shù)據(jù)集上的參數(shù)、浮點(diǎn)數(shù)和FPS 的比較結(jié)果,可以看出我們的方法相對(duì)來(lái)說(shuō)參數(shù)較少、浮點(diǎn)數(shù)小,對(duì)計(jì)算資源占用小。同時(shí)檢測(cè)速度相對(duì)來(lái)說(shuō)比較快,F(xiàn)PS 達(dá)到125。綜合來(lái)說(shuō),我們的方法在檢測(cè)精度和速度方面有良好的平衡。
表2 不同方法計(jì)算資源對(duì)比
我們?cè)诤铣蓴?shù)據(jù)集上驗(yàn)證了我們的方法中每個(gè)模塊對(duì)算法性能的影響。表3 顯示了在特征提取網(wǎng)絡(luò)框架上添加不同模塊的消融實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果來(lái)看,每一個(gè)模塊的添加都具有一定的效果,圖像語(yǔ)義分割的精準(zhǔn)度都有提高,其中圖像增強(qiáng)模塊的添加對(duì)水下圖像語(yǔ)義分割效果增強(qiáng)影響最大。添加了4 個(gè)模塊的網(wǎng)絡(luò)客觀評(píng)價(jià)指標(biāo)均達(dá)到最高,這表明4 個(gè)模塊缺一不可,綜合起來(lái)對(duì)水下圖像的分割效果最好。
表3 消融實(shí)驗(yàn)結(jié)果對(duì)比
本研究設(shè)計(jì)了一種編解碼機(jī)制的水下圖像語(yǔ)義分割算法。相比于當(dāng)前流行的語(yǔ)義分割算法,我們聚焦水下圖像,針對(duì)水下圖像的特點(diǎn),基于加權(quán)融合的多空間轉(zhuǎn)換對(duì)水下圖像進(jìn)行增強(qiáng)處理,通過(guò)骨干網(wǎng)絡(luò)得到邊界特征圖,將混合空洞卷積進(jìn)行密集連接以在擴(kuò)大感受野的同時(shí)消除“gridding issue”問(wèn)題,通過(guò)級(jí)聯(lián)空洞卷積空間金字塔池化模塊豐富目標(biāo)細(xì)節(jié)信息。采用上下文信息聚合機(jī)制將淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的特征進(jìn)行融合,大大減少信息丟失。實(shí)驗(yàn)表明,我們的方法對(duì)比當(dāng)前主流語(yǔ)義分割算法,無(wú)論是主觀感受還是客觀數(shù)據(jù)上都是最好的,在分割完整度、定位精準(zhǔn)度、邊界清晰度、細(xì)節(jié)方面遠(yuǎn)超其他先進(jìn)算法,我們提出的方法可以對(duì)水下圖像進(jìn)行有效分割。
本文提出的方法使得分割效果得到改善,但是對(duì)區(qū)分度不大的目標(biāo)還是會(huì)出現(xiàn)誤判漏判的情況,我們下一步的工作將著重改進(jìn)這方面問(wèn)題,并將結(jié)合目標(biāo)檢測(cè),圖像增強(qiáng),深入剖析算法機(jī)理,對(duì)水下圖像處理進(jìn)行系統(tǒng)性的分析和改進(jìn)。