李春標(biāo),謝林柏,彭力
物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院),江蘇 無錫214122
顯著性目標(biāo)檢測(cè)旨在從輸入圖像上識(shí)別出最引人注目的對(duì)象。出于降低計(jì)算復(fù)雜度的目的,顯著性目標(biāo)檢測(cè)已經(jīng)被廣泛應(yīng)用于語義分割、圖像檢索、目標(biāo)識(shí)別、場(chǎng)景分類等領(lǐng)域。
圖像顯著性目標(biāo)的特征包括低層級(jí)基本特征與高層級(jí)語義特征,低層級(jí)基本特征主要包括紋理、顏色、對(duì)比度等,高層級(jí)特征則揭示目標(biāo)與背景之間內(nèi)在的語義信息。許多傳統(tǒng)的顯著性目標(biāo)檢測(cè)方法依賴于手工制作的特征和預(yù)定義的先驗(yàn)知識(shí)。這些方法利用圖像的低層級(jí)信息以自底向上的方式進(jìn)行檢測(cè)。然而,由于這些先驗(yàn)信息在復(fù)雜的自然場(chǎng)景中往往是不準(zhǔn)確的,導(dǎo)致了較差的檢測(cè)結(jié)果。
最近,基于卷積神經(jīng)網(wǎng)絡(luò)的算法通過利用高層級(jí)語義信息,已經(jīng)取得了更優(yōu)越的檢測(cè)結(jié)果。Liu等使用膠囊網(wǎng)絡(luò)進(jìn)行顯著性目標(biāo)檢測(cè),在模型中加入了部分物體關(guān)系,采用雙流策略來實(shí)現(xiàn)膠囊網(wǎng)絡(luò),有效降低了噪聲分配的可能性。Kuen等提出了一個(gè)循環(huán)注意卷積-反卷積網(wǎng)絡(luò),利用空間變壓器和循環(huán)網(wǎng)絡(luò)單元,實(shí)現(xiàn)了顯著圖的逐步細(xì)化。Zhang等提出了Amulet 網(wǎng)絡(luò),首先將多層級(jí)特征整合到多個(gè)分辨率下,然后在每個(gè)分辨率下進(jìn)行特征整合,最后進(jìn)行顯著性融合獲得最終的顯著圖。Luo等提出了一種非局部深度特征網(wǎng)絡(luò),使用多分辨率網(wǎng)格結(jié)構(gòu)將局部信息與全局信息結(jié)合起來進(jìn)行顯著性目標(biāo)檢測(cè),并且實(shí)現(xiàn)了一個(gè)邊緣感知的損失函數(shù)。
由于深度學(xué)習(xí)的快速發(fā)展,這一領(lǐng)域已經(jīng)取得了很大的成功,但是復(fù)雜場(chǎng)景下的顯著性目標(biāo)檢測(cè)仍有以下挑戰(zhàn):(1)一方面由于顯著性是基于圖像全局定義的,算法必須整合全局信息;另一方面,精細(xì)的顯著性目標(biāo)檢測(cè),又要考慮局部、邊緣等細(xì)節(jié)。當(dāng)前的顯著性目標(biāo)檢測(cè)方法并不能對(duì)這兩方面進(jìn)行有效的權(quán)衡。(2)當(dāng)前許多顯著性目標(biāo)檢測(cè)方法使用二進(jìn)制交叉熵(binary cross-entropy,BCE)作為損失函數(shù)。但是交叉熵?fù)p失函數(shù)是像素級(jí)的,它不考慮鄰域的像素值,因此不能有效地處理全局信息。這導(dǎo)致了區(qū)域一致性差和特征缺失的問題。
為了應(yīng)對(duì)以上挑戰(zhàn),本文提出了一種特征混合增強(qiáng)與多損失融合的顯著性目標(biāo)檢測(cè)算法。首先設(shè)計(jì)上下文感知預(yù)測(cè)模塊(context-aware prediction module,CAPM),它由多組編碼器-解碼器組成,并且為了有效提取全局信息嵌入了空間感知模塊(spatial-aware module,SAM)。然后設(shè)計(jì)特征混合增強(qiáng)模塊(feature hybrid enhancement module,F(xiàn)HEM),對(duì)預(yù)測(cè)模塊產(chǎn)生的全局特征信息和細(xì)節(jié)特征信息進(jìn)行有效的整合,并利用特征聚合模塊(feature aggregation module,F(xiàn)AM)對(duì)整合的信息進(jìn)行特征增強(qiáng)。最后提出了區(qū)域增強(qiáng)損失函數(shù)(regional augmentation,RA),通過結(jié)合二進(jìn)制交叉熵?fù)p失函數(shù)和結(jié)構(gòu)化相似度損失函數(shù)(structural similarity,SSIM),監(jiān)督網(wǎng)絡(luò)保持前景區(qū)域的完整性,增強(qiáng)區(qū)域像素一致性。
本文提出區(qū)域增強(qiáng)網(wǎng)絡(luò),包含上下文感知預(yù)測(cè)模塊和特征混合增強(qiáng)模塊。上下文感知預(yù)測(cè)模塊能夠有效地提取全局信息和細(xì)節(jié)信息,獲得初步的顯著性特征圖。特征混合增強(qiáng)模塊可以將解碼器得到的全局信息和細(xì)節(jié)信息進(jìn)行充分的篩選提取,最終獲得結(jié)構(gòu)更加完整清晰的顯著圖。此外,網(wǎng)絡(luò)中使用的混合損失函數(shù)可以引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更多前景細(xì)節(jié)信息,緩解特征缺失和增強(qiáng)區(qū)域像素的一致性。
上下文感知預(yù)測(cè)模塊被設(shè)計(jì)成U 型結(jié)構(gòu),U型結(jié)構(gòu)可以有效地獲取低層和高層的信息。對(duì)于主干網(wǎng)絡(luò)提取的多尺度信息,U 型結(jié)構(gòu)使用自頂向下的方式分為多個(gè)層級(jí)進(jìn)行逐級(jí)融合。其中逐級(jí)融合的方法保證了上采樣恢復(fù)出來的特征更精細(xì),能更好地保留低層細(xì)節(jié)信息,多層級(jí)特征的融合保證了可以匯集多尺度信息,能更好地保留高層全局信息。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1 所示。
圖1 中,六對(duì)編碼器和解碼器分別被記作和(∈{1,2,3,4,5,6})。
圖1 顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)框架Fig.1 Framework of salient object detection network
采用ResNet-34 作為主干網(wǎng)絡(luò),去除其最后兩個(gè)全連接層和最后一個(gè)池化層,并對(duì)輸入層進(jìn)行修改。ResNet 模型首先用于圖像分類任務(wù),由于其優(yōu)異的性能,廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)中。由于ResNet 的輸入層使用的卷積核大小為7×7,stride被設(shè)置為2,這引入了過多的參數(shù),損失了圖像的細(xì)節(jié)信息。因此使用64 個(gè)大小為3×3 的卷積核重新構(gòu)造輸入層。在ResNet-34 這4 組卷積塊后進(jìn)行池化操作pool4,此時(shí)特征圖大小為14×14。此外,通過加入兩組卷積塊(、),提高模型容量以充分提取高層級(jí)語義信息,這兩組卷積塊由3 個(gè)擁有512 個(gè)卷積核的普通殘差塊組成。為了提高顯著圖的清晰度,不再使用池化模塊,保持特征圖大小不再變化。
編碼器與解碼器連接處增加一個(gè)空間感知模塊以進(jìn)一步捕獲全局語義信息,見圖2。它包含3 個(gè)膨脹率不同的3×3 卷積層和一個(gè)1×1 卷積層,在經(jīng)過這些卷積層后產(chǎn)生4 個(gè)大小相同的特征圖,將其拼接,經(jīng)過批歸一化和ReLU 激活函數(shù)后,得到和輸入大小相同的特征圖。
圖2 空間感知模塊Fig.2 Spatial-aware module
預(yù)測(cè)模塊的解碼器和編碼器幾乎完全對(duì)稱,共有6 個(gè)解碼器(~)。每個(gè)解碼器由3 個(gè)卷積塊組成,其中每個(gè)卷積塊依次由卷積層、批歸一化層、激活函數(shù)層組成。每個(gè)解碼器的輸入由前一個(gè)階段的解碼器的輸出與對(duì)應(yīng)的編碼器拼接產(chǎn)生。如果特征圖大小不匹配,則對(duì)解碼器產(chǎn)生的特征圖進(jìn)行上采樣,使其大小一致。預(yù)測(cè)模塊的編碼器與解碼器關(guān)系見式(1)。
為了對(duì)預(yù)測(cè)模塊輸出特征圖的細(xì)節(jié)信息與全局信息進(jìn)行充分的挖掘與整合,得到細(xì)節(jié)清晰、結(jié)構(gòu)完整的顯著圖。在預(yù)測(cè)模塊的解碼器端引入特征混合增強(qiáng)模塊(FHEM),利用特征聚合模塊(FAM)充分聚合多尺度信息,并對(duì)得到的信息進(jìn)行有效的整合,生成最終的顯著圖。
注意力機(jī)制是一種增強(qiáng)深度卷積神經(jīng)網(wǎng)絡(luò)性能的手段,一些研究已經(jīng)驗(yàn)證了注意力機(jī)制對(duì)顯著性目標(biāo)檢測(cè)任務(wù)的有效性。但是他們所使用的是通道注意力(channel attention,CA)模塊,激勵(lì)函數(shù)使用的是全連接神經(jīng)網(wǎng)絡(luò),這使得模型容易發(fā)生過擬合,影響模型的泛化性能,并且為了減少參數(shù)量進(jìn)行了通道降維,這對(duì)于特征的深層次融合和細(xì)節(jié)保留是致命的。最近Wang等提出了高效通道注意力(efficient channel attention,ECA)模塊,使用一維卷積作為激勵(lì)函數(shù),極大地緩解了以上問題。因此使用ECA 模塊構(gòu)建了特征聚合模塊。
如圖3所示,將展開為[,,…,x],其中x∈R是的第層(-th)特征圖,是通道總數(shù)。首先,對(duì)每個(gè)x使用全局平均池化得到通道級(jí)特征向量∈R。之后,使用卷積核大小為的一維卷積來捕獲通道級(jí)依賴,的取值見式(2)。
圖3 高效通道注意力模塊Fig.3 Efficient channel attention module
其中,||表示距離最近的奇數(shù),設(shè)置和分別為2 和1。通過非線性映射,高維通道具有更大范圍的相互作用,而低維通道具有更小范圍的相互作用。
然后通過使用Sigmoid 運(yùn)算,對(duì)經(jīng)過編碼的通道級(jí)特征向量進(jìn)行歸一化操作,將其映射到[0,1]。
其中,指的是注意力模塊的參數(shù);指的是一維卷積運(yùn)算;指的是Sigmoid 運(yùn)算。
然后對(duì)得到的融合增強(qiáng)特征進(jìn)行3 組卷積操作得到最終的顯著預(yù)測(cè)圖,卷積核個(gè)數(shù)分別為256、64、32,每組卷積同樣依次由卷積層、批歸一化層、激活函數(shù)層組成。
CA 模塊所使用的激勵(lì)函數(shù)為全連接網(wǎng)絡(luò)。
整體損失函數(shù)被定義為:
其中,?指的是第層的輸出,指的是總輸出的個(gè)數(shù),α指的是每個(gè)損失的權(quán)值,全部設(shè)置為1。該模型有8 個(gè)輸出,即=8,包括7 個(gè)預(yù)測(cè)模塊輸出和1 個(gè)增強(qiáng)模塊輸出。
定義?為混合損失:
BCE 損失是二值分類和分割中使用最廣泛的損失:
其中,(,)∈{0,1}是像素(,) 真實(shí)圖中的像素值,(,)∈[0,1]是顯著性目標(biāo)像素的預(yù)測(cè)概率。
SSIM 損失起初是針對(duì)圖像質(zhì)量評(píng)價(jià)提出的方法,它可以捕捉到圖像的結(jié)構(gòu)信息,因此現(xiàn)在已經(jīng)被整合到訓(xùn)練損失中去學(xué)習(xí)圖像真實(shí)圖中的結(jié)構(gòu)信息。
定義={x:=1,2,…,},={y:=1,2,…,}分別為顯著性預(yù)測(cè)圖和二進(jìn)制真實(shí)圖裁剪出的大小為×的圖片的像素值。
SSIM 損失被定義為:
其中,μ、μ和σ、σ分別是、的均值和標(biāo)準(zhǔn)差,σ是它們的協(xié)方差,為了防止分母為0,設(shè)置=0.01和=0.03。
BCE 損失函數(shù)是像素級(jí)的損失函數(shù),不考慮鄰域的像素值,對(duì)所有像素的權(quán)重相等,有助于在所有像素上收斂,但是容易導(dǎo)致特征缺失和區(qū)域一致性差的問題。IOU 損失函數(shù)是區(qū)域級(jí)的損失函數(shù),考慮的是各個(gè)區(qū)域的像素值,因此可以增強(qiáng)各個(gè)區(qū)域的像素一致性,但是IOU 損失函數(shù)對(duì)前景和背景區(qū)域的權(quán)重相同,同樣容易導(dǎo)致特征缺失問題。因此,為了增強(qiáng)區(qū)域內(nèi)像素的一致性,緩解特征缺失,基于IOU 損失函數(shù),本文提出一種新的損失函數(shù)——區(qū)域增強(qiáng)損失(RA):
其中,||、||、||分別表示真陽性、假陽性和假陰性區(qū)域像素值的和,、和分別用于控制||、||和||的懲罰程度,+=1。(,)∈{0,1}是像素值(,)的真實(shí)圖標(biāo)簽,(,)∈[0,1]是顯著性目標(biāo)的預(yù)測(cè)概率。當(dāng)===1,該損失退化為IOU 損失。通過增大,調(diào)整大于,RA 損失函數(shù)可以控制不同區(qū)域的懲罰程度,減少顯著圖的前景缺失。
為了評(píng)估本文算法的有效性,在5 個(gè)數(shù)據(jù)集ECSSD、DUT-OMRON、HKU-IS、DUTS、SOD 上評(píng)估了本文的算法。ECSSD 包含1 000 張有著不同尺寸目標(biāo)的復(fù)雜圖片。DUT-OMRON 是一個(gè)包含5 168張圖片的有挑戰(zhàn)性的數(shù)據(jù)集,每張圖片中有一個(gè)或兩個(gè)對(duì)象,大多數(shù)前景對(duì)象在結(jié)構(gòu)上很復(fù)雜。HKUIS 包含4 447 張圖片,每張圖片包含多個(gè)顯著性物體,這些物體的色彩對(duì)比度低且與圖像邊界存在重疊現(xiàn)象。DUTS 是目前最大的顯著性檢測(cè)基準(zhǔn)數(shù)據(jù)集,它包含10 553 張訓(xùn)練圖片(DUTS-TR)和5 019 張測(cè)試圖片(DUTS-TE)。SOD 包含300 張圖片,最初用于分割領(lǐng)域,這些圖片大多數(shù)包含多個(gè)顯著性對(duì)象。
本文選擇Pytorch0.4.0 深度學(xué)習(xí)框架來實(shí)現(xiàn)顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)。全部輸入圖片的大小被調(diào)整為256×256,然后隨機(jī)裁剪為224×224。為了提高模型的泛化性能,使用的數(shù)據(jù)增強(qiáng)手段有:隨機(jī)裁剪、水平翻轉(zhuǎn)。使用ResNet-34 初始化部分網(wǎng)絡(luò)參數(shù),其余參數(shù)使用Xavier 方法初始化。使用Adam 優(yōu)化器來訓(xùn)練網(wǎng)絡(luò),超參數(shù)設(shè)置使用默認(rèn)值,其中批次大小為16,學(xué)習(xí)率為0.001,為0.9,為0.999,正則化系數(shù)為0。在不使用驗(yàn)證集的情況下訓(xùn)練網(wǎng)絡(luò),訓(xùn)練損失函數(shù)在500 次迭代后收斂。在測(cè)試過程中,輸入圖像的大小將調(diào)整為256 × 256 獲得其顯著圖。然后,將其調(diào)整為輸入的原始大小輸出。訓(xùn)練該網(wǎng)絡(luò)使用的設(shè)備為E5-2678v3 和NVIDIA GTX 1080Ti GPU×4。
本文使用三種最常用的指標(biāo)來評(píng)價(jià)本文算法:準(zhǔn)確率-召回率曲線(precision-recall curve,PR)、MAE(mean absolute error)、F-measure(F)。
準(zhǔn)確率-召回率曲線:首先二值化固定閾值的灰度預(yù)測(cè)圖,然后生成的二值圖和真實(shí)圖用于計(jì)算準(zhǔn)確率和召回率,準(zhǔn)確率與召回率計(jì)算方式為:
其中,、和分別代表真陽性、假陽性和假陰性。準(zhǔn)確率-召回率曲線通過一組成對(duì)的準(zhǔn)確率、召回率按照閾值從0~255 繪制生成,準(zhǔn)確率-召回率曲線與坐標(biāo)軸圍成的面積越大,性能越好。
F-measure:F由準(zhǔn)確率和召回率加權(quán)平均生成。
為了強(qiáng)調(diào)準(zhǔn)確率的重要性,其中通常被設(shè)置為0.3。
MAE:計(jì)算歸一化的顯著圖和真實(shí)圖之間的平均絕對(duì)誤差。
其中,和分別指的是顯著圖和對(duì)應(yīng)的真實(shí)圖,和分別表示顯著圖的高和寬,(,)指的是對(duì)應(yīng)的像素值。
本節(jié)逐步分解所提出的方法來揭示每個(gè)組件對(duì)顯著圖的貢獻(xiàn)。本節(jié)所有實(shí)驗(yàn)均在DUT-OMRON 數(shù)據(jù)集上進(jìn)行。
為了驗(yàn)證本文提出的區(qū)域增強(qiáng)網(wǎng)絡(luò)的有效性,本文進(jìn)行了相關(guān)的結(jié)構(gòu)消融實(shí)驗(yàn),表1 列出了基線網(wǎng)絡(luò)U-Net、預(yù)測(cè)模塊和增強(qiáng)模塊的定量比較結(jié)果。如表1 所示,本文提出的預(yù)測(cè)模塊在max F(數(shù)值越大越好)和MAE(數(shù)值越小越好)這兩個(gè)指標(biāo)上分別比基線網(wǎng)絡(luò)提升0.042、0.021。本文提出的區(qū)域增強(qiáng)網(wǎng)絡(luò),在max F和MAE 這兩個(gè)指標(biāo)上與預(yù)測(cè)模塊相比分別提升了0.019、0.011。為了展現(xiàn)添加不同模塊產(chǎn)生的實(shí)際效果,本文進(jìn)行了更精細(xì)的視覺比較。如圖4 所示,未加入SAM 模塊的預(yù)測(cè)模塊產(chǎn)生的顯著圖部分與整體存在割裂,加入了SAM 的預(yù)測(cè)模塊能夠初步進(jìn)行空間上下文整合,但是仍然存在特征缺失,當(dāng)加入增強(qiáng)模塊對(duì)預(yù)測(cè)模塊產(chǎn)生的特征圖進(jìn)行增強(qiáng)后,整個(gè)顯著圖變得完整。此外,實(shí)驗(yàn)過程中嘗試使用CA 模塊搭建增強(qiáng)模塊,沒有成功。如表1所示,ECA 模塊在使用較少參數(shù)量的情況下取得的結(jié)果優(yōu)于CA 模塊。
表1 算法使用不同模塊性能比較Table 1 Performance comparison of different modules in algorithm
圖4 不同模塊顯著性檢測(cè)結(jié)果比較Fig.4 Comparison of saliency detection results of different modules
為了證明混合損失的有效性,基于區(qū)域增強(qiáng)網(wǎng)絡(luò),對(duì)不同的損失進(jìn)行了消融實(shí)驗(yàn)。表2 中的結(jié)果表明,使用混合損失?的網(wǎng)絡(luò)在max F和MAE 這兩個(gè)指標(biāo)上與使用?損失相比分別提升了0.014、0.012。如圖5 所示,與使用?損失相比,使用?損失有助于約束前景和背景的像素值,產(chǎn)生的顯著圖不易出現(xiàn)大面積的模糊現(xiàn)象。相比使用?損失,使用?損失產(chǎn)生的顯著圖更完整,區(qū)域一致性更好。
表2 算法使用不同損失的性能比較Table 2 Performance comparison of different losses in algorithm
圖5 不同損失顯著性檢測(cè)結(jié)果比較Fig.5 Comparison of saliency detection results of different losses
為了確定RA 損失的最佳參數(shù)選擇,基于區(qū)域增強(qiáng)網(wǎng)絡(luò),采用不同的系數(shù)進(jìn)行了實(shí)驗(yàn)。如表3 所示,當(dāng)=0.3,=0.7,=2.0 時(shí),max F與MAE 取得優(yōu)值,相較于IOU 損失(=1.0,=1.0,=1.0)分別提升1.1%、0.9%。
表3 算法使用不同系數(shù)RA 損失的性能比較Table 3 Performance comparison of RA loss with different coefficients in algorithm
實(shí)驗(yàn)過程中與其他9 種先進(jìn)算法CapsNet、RAS、Amulet、NLDF、UCF、RFCN、ELD、DCL、LEGS進(jìn)行比較。為了體現(xiàn)公平性,評(píng)測(cè)結(jié)果來自原始論文或者原作者提供的顯著圖。
圖6 為本文算法與其他顯著性目標(biāo)檢測(cè)算法在PR 曲線與F-measure 曲線上的比較結(jié)果。表4 列出了本文算法與其他9 種先進(jìn)算法的max F和MAE 性能指標(biāo)比較結(jié)果。
表4 在5 個(gè)數(shù)據(jù)集上不同算法性能比較Table 4 Performance comparison of different algorithms on 5 datasets
圖6 不同算法的PR 曲線與F-measure曲線比較Fig.6 Comparison of PR curves and F-measure curves of different algorithms
從結(jié)果可以看出,本文算法顯著優(yōu)于其他算法。具體的,對(duì)于評(píng)價(jià)指標(biāo)max F,本文算法比CapsNet、RAS 和Amulet 在5 個(gè)數(shù)據(jù)集上平均分別提高了0.066 0、0.017 8、0.050 2。對(duì)于評(píng)價(jià)指標(biāo)MAE,本文算法比CapsNet、RAS 和Amulet 在5 個(gè)數(shù)據(jù)集上平均分別降低了0.008 0、0.014 8、0.032 2。
顯著性目標(biāo)檢測(cè)的研究來源于對(duì)人類視覺系統(tǒng)的模擬,檢測(cè)結(jié)果的優(yōu)劣依賴于視覺觀感。因此為了進(jìn)一步闡述本文算法的優(yōu)越性,圖7 展示了本文算法與5 種先進(jìn)算法的定性比較結(jié)果。
圖7 第一行具有小目標(biāo)的自然圖像檢測(cè)結(jié)果顯示,本文算法能夠完整地分割出圖像中的小目標(biāo),并且相比其他算法背景的像素更一致;第二、三行具有大目標(biāo)的圖像檢測(cè)結(jié)果顯示本文算法能更加完備地檢測(cè)出航母艦島和城堡頂部的細(xì)節(jié);第四行低對(duì)比度圖像檢測(cè)結(jié)果顯示本文算法能夠更好地整合圖像全局信息,不會(huì)漏檢顯著性物體;第五行具有復(fù)雜邊緣的圖像檢測(cè)結(jié)果顯示本文算法能夠更好地提取圖像細(xì)節(jié)信息,產(chǎn)生的顯著圖邊緣細(xì)節(jié)更豐富;第六、七行具有多目標(biāo)粘連的圖像檢測(cè)結(jié)果顯示本文算法能夠更好地凸出前景和增強(qiáng)區(qū)域一致性。
圖7 不同算法的顯著性目標(biāo)檢測(cè)結(jié)果對(duì)比Fig.7 Comparison of saliency detection results of different algorithms
綜合來看,本文算法能夠充分凸顯前景并且抑制背景。通過本文算法可以保持前景的區(qū)域像素一致,其內(nèi)部不會(huì)有較大的灰色區(qū)域,與顯著性物體相似的背景被充分抑制,顯著性物體的邊緣不會(huì)出現(xiàn)大量的模糊現(xiàn)象。
本文針對(duì)顯著性目標(biāo)檢測(cè)中的特征缺失和區(qū)域一致性差的問題,基于全卷積神經(jīng)網(wǎng)絡(luò)提出一種特征混合增強(qiáng)與多損失融合的顯著性目標(biāo)檢測(cè)算法。通過使用編碼器-解碼器網(wǎng)絡(luò)初步捕獲高層全局信息和低層細(xì)節(jié)信息,然后使用空間感知模塊進(jìn)一步捕獲全局語義信息,最后使用特征混合增強(qiáng)模塊將預(yù)測(cè)模塊提取的特征信息做增強(qiáng)處理。同時(shí)提出了區(qū)域增強(qiáng)損失函數(shù),通過結(jié)合二進(jìn)制交叉熵?fù)p失函數(shù)和結(jié)構(gòu)化相似度損失函數(shù),以多損失融合的方式監(jiān)督網(wǎng)絡(luò)保持前景區(qū)域的完整性以及增強(qiáng)區(qū)域像素一致性。與其他的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法相比,顯著目標(biāo)的邊界細(xì)節(jié)、前景完整度和區(qū)域一致性有明顯的改善,各項(xiàng)指標(biāo)有較大的提升。