蔡俊敏,孫 涵
(南京航空航天大學(xué) 計算機科學(xué)與技術(shù)學(xué)院/人工智能學(xué)院,江蘇 南京 211106)
在計算機視覺領(lǐng)域,目標(biāo)檢測一直是一個非常熱門的課題,各種各樣的目標(biāo)檢測模型層出不窮,并不斷刷新各個性能榜單。在Zhao等人的研究[1]之后,可以將目標(biāo)檢測大致分為三類,分別是:顯著性目標(biāo)檢測、通用目標(biāo)檢測和偽裝目標(biāo)檢測。顯著性目標(biāo)檢測旨在識別圖像中最引人注目的目標(biāo),并對它們的輪廓進(jìn)行分割。通用目標(biāo)檢測往往伴隨著語義分割或者全景分割等任務(wù),需要在識別圖像中目標(biāo)對應(yīng)的區(qū)域,并且為之分配可能的標(biāo)簽和相應(yīng)的分?jǐn)?shù)。而偽裝目標(biāo)檢測則要求識別圖像中被隱藏的目標(biāo)。偽裝目標(biāo)是指目標(biāo)自身的形狀、紋理或者顏色特征等特性導(dǎo)致其與周圍的背景相近的物體。其中偽裝目標(biāo)檢測由于目標(biāo)和其背景具有高度相似性,所以檢測起來更加困難。
偽裝圖像大致可分為兩類,天然偽裝和人為偽裝的圖像。昆蟲、頭足類等動物的天然偽裝是一種可以避免被天敵察覺的生存技巧。而人為偽裝通常被應(yīng)用于視頻檢測過程;還會出現(xiàn)在產(chǎn)品制造的時候(即產(chǎn)品瑕疵檢測);也可以用于游戲或藝術(shù)中幫助隱藏信息。
與類別相關(guān)的語義分割任務(wù)不同,偽裝目標(biāo)檢測任務(wù)與類別無關(guān)。偽裝目標(biāo)檢測的任務(wù)簡單且易于定義。給定一張圖像,該任務(wù)需要一個偽裝目標(biāo)檢測算法來為每個像素i分配一個置信度Labeli∈{0,1},其中Labeli表示像素i的概率值。0表示該像素不屬于偽裝目標(biāo),而1表示該像素完全屬于偽裝目標(biāo)。
在偽裝目標(biāo)檢測領(lǐng)域,如何利用提取到的特征來區(qū)分偽裝目標(biāo)和背景是一個至關(guān)重要的問題。為此,文中提出了基于注意力機制和多尺度特征的偽裝目標(biāo)檢測算法,該算法主要由兩部分組成:混合尺度解碼器(MSD)和注意力引導(dǎo)模塊(AG)?;旌铣叨冉獯a器對多尺度特征進(jìn)行解碼得到偽裝目標(biāo)的初步檢測結(jié)果,之后引入反向注意力機制得到最終的偽裝目標(biāo)檢測結(jié)果。
該文的主要貢獻(xiàn)如下:
(1)提出了基于多尺度特征的偽裝目標(biāo)檢測算法,通過提取到的多尺度特征有效區(qū)分偽裝目標(biāo)和背景。
(2)設(shè)計了混合尺度解碼器和注意力引導(dǎo)模塊,通過級聯(lián)的特征融合單元對多尺度特征進(jìn)行解碼,之后引入反向注意力機制得到最終的偽裝目標(biāo)檢測結(jié)果。
(3)在COD10K這一數(shù)據(jù)集上與十三個經(jīng)典的深度學(xué)習(xí)方法進(jìn)行比較,證明了該方法的有效性。
在傳統(tǒng)的偽裝目標(biāo)檢測算法中,大部分方法都是基于圖像的低級特征以及一些人為設(shè)計的特征(例如圖像的紋理、色彩、亮度、強度)。Galun等人[2]以紋理分割技術(shù)為基礎(chǔ)來檢測偽裝物體。鮮曉東等人[3]借助圖像的顏色和紋理信息實現(xiàn)偽裝目標(biāo)檢測。周靜等人[4]提出基于光流場分割的偽裝運動目標(biāo)檢測方法,面對更加復(fù)雜的場景,這些方法在性能和泛化性上還有待提高。
近年來,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給目標(biāo)檢測帶來了很大的提升?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法主要分為三類:結(jié)合上下文信息的偽裝目標(biāo)檢測模型、結(jié)合注意力機制的偽裝目標(biāo)檢測模型和結(jié)合邊緣信息的偽裝目標(biāo)檢測模型。
大多數(shù)模型致力于挖掘圖像特征的上下文信息以提升模型的性能。Le等人[5]提出了一個端到端的神經(jīng)網(wǎng)絡(luò)——Anabranch Network。該網(wǎng)絡(luò)結(jié)合了多任務(wù)的學(xué)習(xí)框架,將圖片分類和圖像分割整合到一個模型中。Zheng等人[6]提出了一個密集的反卷積網(wǎng)絡(luò)。為了能夠有效地提取高級特征中包含的豐富的語義信息,該網(wǎng)絡(luò)采用短連接的方式融合多尺度的高級特征。Fan等人[7]受動物的捕食過程(先發(fā)現(xiàn)獵物,再確定獵物的具體位置)所啟發(fā),提出了SINet。SINet由搜索模塊(SM)和識別模塊(IM)組成,搜索模塊通過多個感受野(RF)組件來模仿人眼感知系統(tǒng)的感受野。
近些年來,引入注意力機制來提升偽裝目標(biāo)檢測性能的方法也有很多。在顯著性目標(biāo)檢測方面,Zhao等人[8]提出的PFAN模型認(rèn)為分辨率較大通道數(shù)較少的低級特征圖保有豐富的細(xì)節(jié)和結(jié)構(gòu)信息,適合采用空間注意力加以過濾不需要的空間信息,而分辨率較小通道數(shù)較多的高級特征圖具有豐富的語義特征,適合采用通道注意力來選取有效的語義信息。Chen等人[9]提出的 RANet則設(shè)計了反注意力模塊,通過擦除每個側(cè)輸出特征中的當(dāng)前預(yù)測區(qū)域來引導(dǎo)整個網(wǎng)絡(luò)順序發(fā)現(xiàn)互補對象區(qū)域及細(xì)節(jié)。
將這些方法遷移到偽裝目標(biāo)檢測方向,Sun等人[10]的C2F-Net借助注意力引導(dǎo)的跨級融合模塊,將多級特征與信息注意系數(shù)相結(jié)合。
對于邊緣信息,許多研究證明了邊緣檢測在一定程度上可以促進(jìn)偽裝目標(biāo)檢測性能的進(jìn)步。在顯著性目標(biāo)檢測方面,Zhao等人[11]提出的EGNet將提取的顯著目標(biāo)結(jié)構(gòu)特征和顯著目標(biāo)邊緣特征兩個部分相結(jié)合,來提升顯著目標(biāo)的檢測效果。偽裝目標(biāo)檢測作為與顯著性目標(biāo)檢測相似的任務(wù),同樣可以借鑒。Ji等人[12]提出的ERRNet利用了邊緣信息,旨在對生物的視覺感知系統(tǒng)進(jìn)行建模并實現(xiàn)有效的邊緣先驗和潛在偽裝區(qū)域與背景之間的交叉比較。
網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。主要由兩部分組成:混合尺度解碼器和注意力引導(dǎo)模塊。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
(1)
通過四個級聯(lián)的特征融合單元和幾個卷積層,組成基于多尺度特征的混合尺度解碼器,得到一個單通道的映射圖。最后通過sigmoid函數(shù)得到初步的檢測結(jié)果M6并輸出。
在得到偽裝目標(biāo)的粗略位置之后,設(shè)計了基于反向注意力機制的引導(dǎo)模塊,通過擦除前景目標(biāo)的方式逐步挖掘偽裝區(qū)域。為了節(jié)省計算資源,該文選擇對三個高層特征的輸出分支進(jìn)行引導(dǎo)。如圖1所示,從解碼器得到的粗略偽裝圖M6開始,通過從旁路輸出特征中擦除當(dāng)前預(yù)測的偽裝區(qū)域,引導(dǎo)整個網(wǎng)絡(luò)逐步地發(fā)掘補充的目標(biāo)區(qū)域和相關(guān)細(xì)節(jié)。首先對得到的初步偽裝圖像M6做計算得到反向注意力權(quán)重Ak,然后借助該權(quán)重引導(dǎo)網(wǎng)絡(luò)挖掘有效的偽裝區(qū)域。受文獻(xiàn)[13]啟發(fā),文中對特征進(jìn)行切片化處理,能夠更加高效地利用之前得到的反向注意力權(quán)重。如圖3所示,切片化處理的具體過程可以通過以下的式子表示:
圖3 切片化處理
stepII:FC({p(k,1),Ak},…,{p(k,gk),Ak})→qk
(2)
式中,FS、FC分別表示通道分割和通道連接函數(shù),qk表示加入反向注意力引導(dǎo)之后的特征。
該文提出的算法所采用的訓(xùn)練集為COD10K+CAMO,訓(xùn)練完成之后在COD10K的測試集上做測試。CAMO數(shù)據(jù)集是Le等人[5]提出的偽裝目標(biāo)數(shù)據(jù)集,一共包含2 500張圖像,其中2 000張圖作為訓(xùn)練集,500張圖像作為測試集,涵蓋了八個類別。COD10K是Fan等人[7]提出的一個大型偽裝目標(biāo)數(shù)據(jù)集,一共包含10 000張圖像,其中6 000張圖像作為訓(xùn)練集,4 000張作為測試集。這10 000張圖像劃分為10個超類和78個子類,包括水生、飛行、兩棲和陸地等等。此外,該數(shù)據(jù)集還對偽裝圖像提供了豐富的標(biāo)簽,包括目標(biāo)類別、邊界框、對象級標(biāo)注、實例級標(biāo)注和具有挑戰(zhàn)性的屬性,如圖4所示。
圖4 COD10K數(shù)據(jù)集示例
文中提出的算法以Res2Net50[16]為骨干網(wǎng)絡(luò),并使用在ImageNet訓(xùn)練好的權(quán)重進(jìn)行初始化。模型的訓(xùn)練集采用CAMO+COD10K,一共是4 040張圖像。在模型輸入端,統(tǒng)一將輸入圖像調(diào)整為352×352。在模型訓(xùn)練過程中,使用Adam優(yōu)化器進(jìn)行訓(xùn)練。批處理大小設(shè)置為32,學(xué)習(xí)率從1e-4開始,每50個epoch除以10。整個訓(xùn)練過程共有100個epoch。GPU為Tesla V100。
本節(jié)將所提算法與13個經(jīng)典的深度學(xué)習(xí)模型進(jìn)行性能比較,包括FPN[17]、MaskRCNN[18]、PSPNet[19]、Unet++[20]、PiCANet[21]、MSRCNN[22]、PFANet[8]、CPD[23]、HTC[24]、EGNet[11]、PraNet[25]、SINet[7]和SINet-V2[13]。由于偽裝目標(biāo)檢測是一個新興的領(lǐng)域,因此部分深度學(xué)習(xí)模型的原本目的是應(yīng)用于顯著性目標(biāo)檢測,其中PraNet、SINet和SINet-V2是直接針對偽裝目標(biāo)檢測的模型。關(guān)于這些對比模型的性能指標(biāo),主要來自文獻(xiàn)[13]。
3.3.1 定量分析
表1 在COD10K測試集上的性能比較
尤其是與SINet-V2(目前最好的偽裝目標(biāo)檢測模型)相比,E-measure、F-measure分別增長了0.010(1.1%)、0.024(3.5%)。MAE下降了0.005(13.5%)。
3.3.2 定性分析
為了更直觀地比較所提模型和其他經(jīng)典的深度學(xué)習(xí)方法,文中還進(jìn)行了一系列和其他經(jīng)典深度學(xué)習(xí)方法的視覺對比實驗,并提供可視化展示。由于篇幅有限,本節(jié)只列舉了在COD10K測試集上同SINet、SINet-V2(分別是2020年的SOTA方法和2021年的SOTA方法)兩個經(jīng)典模型的比較,這兩個模型的預(yù)測圖是根據(jù)開源的代碼重新訓(xùn)練和測試生成的,如圖5所示。
圖5 與兩個經(jīng)典模型的可視化比較
從整體來看,文中所提出的偽裝目標(biāo)檢測算法相比這兩個經(jīng)典方法識別效果更佳,識別出的偽裝目標(biāo)更加準(zhǔn)確,更加完整,更符合對應(yīng)的真值圖像。具體地說,從前三列圖像中可以看出文中提出的模型輸出的檢測結(jié)果幾乎與對應(yīng)的真值圖像完全一致,而另外兩個模型對于偽裝目標(biāo)的檢測效果都有一定的缺失,對偽裝區(qū)域均存在誤判的情況。對于第四、五、六列的輸入圖像,盡管SINet和SINet-V2也能識別到大致的偽裝區(qū)域,但偽裝目標(biāo)的完整性以及邊界細(xì)節(jié)均不如文中所提出的算法。總的來說,無論是在整體的目標(biāo)區(qū)域還是邊界細(xì)節(jié)方面,文中所提出的算法相比較其他的模型均能更準(zhǔn)確地識別到偽裝目標(biāo)。
另外,針對Flying子集和Amphibian子集中普遍存在的小目標(biāo)場景(第七、八、九、十列),文中提出的算法能夠精確地識別出偽裝目標(biāo),而另外兩個模型都存在被圖像中的其他目標(biāo)所干擾的情況,說明文中提出的混合尺度編碼器能夠有效地組合多尺度特征,提升模型對較小偽裝目標(biāo)的識別效果。
本節(jié)進(jìn)行消融實驗,通過分離各個子模塊,分別驗證文中所提模型中各個模塊的有效性。具體結(jié)果如表2所示。其中Baseline表示使用相鄰連接解碼器對特征編碼器進(jìn)行解碼,+MSD表示僅加入混合尺度解碼器,+AG表示僅加入注意力引導(dǎo)模塊,MSD+AG表示既加入混合尺度解碼器,也加入注意力引導(dǎo)模塊。實驗結(jié)果表明,文中提出的混合尺度解碼器和注意力引導(dǎo)模塊可以有效提高模型的檢測精度。尤其是注意力引導(dǎo)模塊,通過引入反向注意力機制,可以引導(dǎo)網(wǎng)絡(luò)有效地挖掘潛在的偽裝區(qū)域,從而提升模型對偽裝目標(biāo)的檢測效果。
表2 在COD10K測試集上的消融實驗
另外,還探究了注意力引導(dǎo)模塊中多階段細(xì)化中不同階段切片化大小對模型效果的影響,主要探究不同階段基于統(tǒng)一策略和基于漸進(jìn)式策略的方法。{*,*,*}表示從第一個切片化處理到最后一個切片化處理時的不同切片大小,如{32,8,1}表示三個階段的切片化處理分別將候選特征pi沿通道維度分成32片、8片和1片。如表3所示,相比較其他方案,基于漸進(jìn)式策略的方法性能更優(yōu)。因此,在文中的其他對比實驗中,均采用漸進(jìn)式策略的方法。
表3 注意力引導(dǎo)模塊中不同切片化策略的影響
針對偽裝目標(biāo)結(jié)構(gòu)多樣、尺度不一和目標(biāo)邊界與其背景具有高度相似性的情況,提出了一種基于注意力機制和多尺度特征的偽裝目標(biāo)檢測算法,通過混合尺度解碼器和反向注意力模塊,提升了模型的檢測性能。借助四個評估指標(biāo)將文中算法與現(xiàn)有的十三種算法在COD10K數(shù)據(jù)集上進(jìn)行測試,結(jié)果表明文中算法具有更好的性能,可獲得識別位置更準(zhǔn)確、邊界細(xì)節(jié)更完善的偽裝目標(biāo)檢測結(jié)果。