黎玲利,孟令兵,李金寶
(1.黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,黑龍江哈爾濱150080;2.齊魯工業(yè)大學(xué)(山東省科學(xué)院)山東省人工智能研究院,山東濟(jì)南250014)
顯著性目標(biāo)檢測旨在從輸入圖像中識(shí)別出最引人注目的對象,是很多計(jì)算機(jī)視覺任務(wù)的預(yù)處理步驟。傳統(tǒng)的顯著性目標(biāo)檢測方法主要依賴于手工提取的特征(如顏色、紋理、圖像梯度等)來計(jì)算目標(biāo)的顯著度,雖然能對圖像進(jìn)行顯著性檢測,但是需要進(jìn)行處理大量的顯著性先驗(yàn)信息,限制了模型在復(fù)雜環(huán)境下檢測的能力,并且傳統(tǒng)的檢測方法效率較低、檢測時(shí)間較長。
早期的深度學(xué)習(xí)方法采用多層感知機(jī)進(jìn)行顯著性檢測。例如,Zhao等[1]通過設(shè)計(jì)具有全局和局部上下文信息的模型檢測目標(biāo)的顯著性。Lee等[2]利用低級特征輔助高級特征實(shí)現(xiàn)更精準(zhǔn)的顯著性檢測。上述方法主要依賴于圖像局部區(qū)域信息和全連接網(wǎng)絡(luò)進(jìn)行顯著性目標(biāo)檢測,這些方法無法捕獲顯著性目標(biāo)的空間結(jié)構(gòu)信息,并且檢測非常的耗時(shí)。
現(xiàn)有的研究工作[3-7]采用“編碼-解碼”結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行顯著性檢測,大大提升了檢測效果。例如,Pang等[3]提出聚合交互模塊通過相互學(xué)習(xí)的方式,有效地利用相鄰層的特征使網(wǎng)絡(luò)自適應(yīng)地提取多尺度信息。Xu等[4]提出交叉特征模塊融合不同層次的特征,并且提出一種級聯(lián)反饋解碼器修正和細(xì)化顯著圖。Qin等[5]提出一個(gè)兩級嵌套的RSU模塊的U型方法。Liu等[6]通過整合全局上下文和多尺度的局部上下文以提升顯著性檢測性能。Zeng等[7]通過全局語義信息和局部高分辨率細(xì)節(jié)信息處理高分辨率圖像。這些方法雖然能夠提高顯著性目標(biāo)檢測的效果,但是,需要設(shè)計(jì)復(fù)雜的特征提取網(wǎng)絡(luò),會(huì)導(dǎo)致計(jì)算成本的增加。
近幾年顯著性目標(biāo)檢測的工作都著重于設(shè)計(jì)更復(fù)雜的特征融合方法,以提高模型檢測效果。Zhang等[8]利用多尺度上下文感知特征提取模塊獲取豐富上下文信息,同時(shí)利用門控機(jī)制傳遞信息特征。Feng等[9]在編碼和解碼之間構(gòu)建注意反饋模塊捕捉目標(biāo)整體的結(jié)構(gòu)。Wu等[10]提出一種雙分支結(jié)構(gòu)多尺度注意力模塊的檢測方法。Zhou等[11]提出了一個(gè)交互式的雙流解碼器來同時(shí)實(shí)現(xiàn)顯著性檢測、輪廓檢測及兩者的相關(guān)性建模。Wu等[12]提出了一種利用顯著目標(biāo)檢測和前景輪廓檢測交織監(jiān)督策略的多任務(wù)算法。Zhang等[13]提出一種漸進(jìn)式注意力指導(dǎo)循壞網(wǎng)絡(luò)的檢測方法。Xu等[14]提出一種級聯(lián)的條件隨機(jī)場模型。Li等[15]提出了一個(gè)邊緣信息引導(dǎo)的層次特征融合網(wǎng)絡(luò)檢測方法。Chen等[16]提出了一個(gè)自頂向下的反向注意力模塊嵌入編碼解碼中學(xué)習(xí)殘余信息。這些方法在編碼器和解碼器之間引入復(fù)雜的模塊,易將多余的信息傳遞到解碼階段,干擾模型的預(yù)測。
針對上述問題,本文提出一個(gè)多尺度特征提?。╩ulti-scale feature extraction,MSFE)和多級別特征融合(multi-level feature fusion,MLFF)的顯著性檢測方法,記為MSML方法。首先,在網(wǎng)絡(luò)深層嵌入多尺度特征提取模塊,緩解顯著性目標(biāo)區(qū)域與背景不連續(xù)、邊界易模糊等問題。其次,多級別特征模塊融合多種不同層次的特征信息,不僅可以抑制淺層傳遞的噪聲,同時(shí)在解碼階段可以更有效地恢復(fù)顯著性目標(biāo)的空間結(jié)構(gòu)細(xì)節(jié)信息,提高模型的檢測效果。
本文提出的多尺度特征提取和多級別特征融合的顯著性檢測方法的網(wǎng)絡(luò)框架,如圖1所示,該網(wǎng)絡(luò)采用編碼解碼結(jié)構(gòu)方式的U型結(jié)構(gòu)。在編碼特征提取階段,采用Resnet50作為主干網(wǎng)絡(luò),輸入圖像經(jīng)過4個(gè)殘差塊進(jìn)入多尺度特征提取模塊;在解碼階段,采用多級別特征融合模塊逐步生成高分辨率的顯著圖,并且引入中繼監(jiān)督的方式,可以有效地防止梯度消失。
圖1 本文的多尺度特征提取和多級別特征融合的網(wǎng)絡(luò)框架圖Fig.1 Network fr amework of MSML by the proposed method
卷積神經(jīng)網(wǎng)絡(luò)的深度與感受野不成比例,由于采用固定尺寸的卷積核提取目標(biāo)特征,只能提取局部的特性信息,感受野大小受到了限制,無法捕獲豐富的上下文信息,不利于檢測交錯(cuò)復(fù)雜的自然圖像。為了在目標(biāo)區(qū)域和背景之間生成更準(zhǔn)確、更清晰的邊界,本文采用不同擴(kuò)張率的空洞卷積獲取不同尺度的信息,再融合不同尺度的信息獲取豐富的上下文信息,最后對特征圖通道間的關(guān)系進(jìn)行建模,自適應(yīng)學(xué)習(xí)每個(gè)通道的重要性,得到校準(zhǔn)后的特征圖作為解碼階段的輸入。
多尺度特征提取模塊如圖2所示。首先,輸入為經(jīng)過4次殘差塊提取后的特征圖Mm;然后,采用不同擴(kuò)張因子對其進(jìn)卷積操作,其中,卷積核設(shè)定的大小為3×3,擴(kuò)張因子r設(shè)置為1、3、5、7;同時(shí),采用自適應(yīng)平均池化操作,獲取到相同分辨率、相同通道數(shù)不同尺度的上下文特征信息,將各個(gè)尺度的特征信息進(jìn)行級聯(lián),得到最終融合的特征圖Mc。
圖2 多尺度特征提取模塊Fig.2 Multi-scalefeature extraction module
級聯(lián)后的特征圖具有不同尺度的上下文信息,對級聯(lián)后的特征圖通道關(guān)系建模,衡量特征圖通道的重要性進(jìn)而校準(zhǔn)通道信息,更加有利于定位顯著性目標(biāo)的區(qū)域。校準(zhǔn)特征圖通道模塊如圖3所示。首先,對輸入的特征圖Mc進(jìn)行2次卷積操作分別得到Mc1、Mc2;其次,將Mc1與Mc2做相乘和相加運(yùn)算;最后,得到校準(zhǔn)后的特征圖Moc作為解碼階段的輸入。
圖3 注意力模塊Fig.3 Attention module
不同層次特征包含不同信息的分布,淺層的特征包含豐富的空間結(jié)構(gòu)信息,但是其分辨率較高,所以全局上下文信息較為薄弱。深層的特征包含豐富的語義信息,可以有效地對顯著性目標(biāo)進(jìn)行精準(zhǔn)定位,但是,其分辨率較低,缺少顯著性目標(biāo)的空間細(xì)節(jié)信息。除此以外,全局上下文特征信息能夠從全局的角度推斷顯著性目標(biāo)與背景之間的關(guān)系,能夠突出目標(biāo)的區(qū)域,淡化背景信息的干擾,所以將這些不同級別的特征信息融合可以有效地提高顯著性檢測的精準(zhǔn)度。由于深層的語義特征信息在自頂向下的傳遞過程中逐步被淡化,使得顯著性目標(biāo)在層層卷積上采樣后丟失了高級別語義信息的指導(dǎo),導(dǎo)致模型檢測性能下降。因此,本文在每層卷積進(jìn)行上采樣時(shí)將融合的淺層特征信息和深層特征信息都加入全局上下文特征信息,可以彌補(bǔ)深層的語義信息的淡化,有效抑制背景信息的干擾,并在每層卷積都能實(shí)現(xiàn)對顯著性目標(biāo)的精準(zhǔn)定位。
多級別特征融合模塊如圖4所示。首先,由上述多尺度模塊提取的特征圖經(jīng)過全局平均池化(GAP)得到全局上下文特征信息;然后,校準(zhǔn)全局上下文特征圖通道信息,生成具有全局信息的掩碼;淺層特征經(jīng)過卷積運(yùn)算與具有全局信息的掩碼相乘,再經(jīng)過卷積運(yùn)算得到特征圖的輸出。全局上下文特征信息與淺層特征信息的融合,彌補(bǔ)了高級語義信息的淡化,同時(shí),可以抑制淺層的背景噪聲,更精準(zhǔn)地實(shí)現(xiàn)顯著性目標(biāo)的定位。與上述融合方法類似,淺層特征信息經(jīng)過卷積運(yùn)算生成對應(yīng)的掩碼,并與深層特征信息生成的掩碼相乘;同時(shí),深層特征信息經(jīng)過卷積運(yùn)算生成對應(yīng)的掩碼,再與淺層特征信息生成的掩碼相乘;由此實(shí)現(xiàn)淺層特征信息和深層特征信息的互補(bǔ),可以有效地利用二者之間的有用信息生成精準(zhǔn)的掩碼;并通過融合操作將這些特征信息進(jìn)行級聯(lián);最后,應(yīng)用3×3的卷積運(yùn)算得到特征圖M1。此外,同時(shí)級聯(lián)淺層特征信息、深層特征信息和全局上下文特征信息;之后,采用3×3的卷積運(yùn)算,進(jìn)一步校準(zhǔn)特征圖通道信息;再經(jīng)過3×3的卷積運(yùn)算輸出特征圖M2。將輸出的2種不同級聯(lián)方法的特征圖M1、M2相加,再次校準(zhǔn)融合后特征圖通道信息,得到最終輸出的特征圖,將其作為輸入進(jìn)入下一階段的解碼過程。由此經(jīng)過層層的上采樣逐步生成高分辨率的顯著圖。整個(gè)過程計(jì)算公式如(4)~(9)所示:
圖4 多級別特征融合模塊Fig.4 Multi-level feature fusion module
為了驗(yàn)證本文方法的有效性,在5個(gè)公開的數(shù)據(jù)集上進(jìn)行了評估,分別是DUTS[17]、ECSSD[18]、DUTOMRON[19]、HKU-IS[20]和PASCAL-S[21]。其中:DUTS數(shù)據(jù)集包括10 553張訓(xùn)練圖像和5 019張測試圖像,是目前為止最大的顯著性目標(biāo)檢測數(shù)據(jù)集。HKU-IS數(shù)據(jù)集包含4 447張圖像,這些圖像大多數(shù)存在不連續(xù)的顯著性目標(biāo),前景與背景較相似,并且整張圖像的對比度較低。DUT-OMRON數(shù)據(jù)集包含5 168張自然圖像,每張圖像幾乎都有復(fù)雜的背景信息,是最具有挑戰(zhàn)性的數(shù)據(jù)集。ECSSD數(shù)據(jù)集包含1 000張具有復(fù)雜空間結(jié)構(gòu)的圖像。PASCAL-S數(shù)據(jù)集包含850張圖像。每個(gè)數(shù)據(jù)集都是由原圖和與之對應(yīng)的真值圖組成。本文采用DUTS的10 553張圖片作為訓(xùn)練集,使用目前普遍采用的訓(xùn)練策略[22-25],水平翻轉(zhuǎn)訓(xùn)練圖像用于擴(kuò)充數(shù)據(jù)集,防止模型過擬合。采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1,設(shè)置每2輪迭代更改學(xué)習(xí)率,其中,衰減率設(shè)置為0.9。設(shè)置數(shù)據(jù)批次大小為18,實(shí)驗(yàn)的顯卡是RTX 2080 Ti,采用深度學(xué)習(xí)框架pytorch和python語言在Linux系統(tǒng)完成本文實(shí)驗(yàn)。
本文采用F-measure、平均絕對誤差和S-measure作為評價(jià)指標(biāo)。F-measure是衡量模型的整體指標(biāo),由精確率和召回率共同計(jì)算得出:
式中,NTP為檢測出正確的像素,NFP為檢測出不正確的像素,NFN為未檢測出正確的像素。
平均絕對誤差(MAE)是檢測的顯著圖與人工標(biāo)注的真值圖平均絕對誤差,計(jì)算公式如(13)所示:
式中,P和G為檢測的顯著性圖和人工標(biāo)注的真值圖,W和H為圖像的寬和高,x和y為像素點(diǎn)的橫縱坐標(biāo)。平均絕對誤差越小,代表檢測的顯著圖與真值圖越接近,方法越好。
S-measure是目標(biāo)感知和區(qū)域感知的結(jié)構(gòu)相似性,計(jì)算公式如(14)所示:
將本文方法與13種典型的顯著性檢測方法進(jìn)行了比較,包括ABMP[6]、AFNet[11]、BASNet[26]、CPDR[10]、F3Net[4]、ITSD[9]、MINet[3]、MLMSNet[12]、PAGR[13]、PICA-R[8]、SMJD[14]、U2Net[5]、HRSODT[7]。各種顯著性檢測方法在5個(gè)測試集的結(jié)果如表1所示。由表1可知:在ECSSD數(shù)據(jù)集上,本文方法在3個(gè)評價(jià)指標(biāo)上都得到最優(yōu)的效果;在HKU-IS數(shù)據(jù)集上,本文方法的Fmax、Sm比F3Net和MINet分別提高了0.004、0.006;在PASCAL-S數(shù)據(jù)集上,本文方法的Fmax、Sm比F3Net分別提高了0.001、0.004。在4個(gè)數(shù)據(jù)集(除DUTOMRON)中,本文方法的Fmax和Sm明顯高于其他對比方法,但是,在DUT-OMRON數(shù)據(jù)集上本文方法的Fmax、Sm低于其他對比方法。這是由于該數(shù)據(jù)集具有極其復(fù)雜的背景,其他方法需要設(shè)計(jì)強(qiáng)大的特征提取網(wǎng)絡(luò)和多損失聯(lián)合優(yōu)化的策略用于檢測,雖然檢測效果優(yōu)于本文方法,但計(jì)算成本較高。因此,綜合所有數(shù)據(jù)集和評價(jià)指標(biāo),本文方法要明顯優(yōu)于其他對比方法。此外,本文還給出5個(gè)數(shù)據(jù)集的PR曲線、Fmeasure曲線和檢測的顯著圖,從客觀評價(jià)指標(biāo)和主觀感受共同衡量不同模型檢測的效果。
圖5為本文方法與其他檢測方法的PR曲線。其中,PR曲線包圍的面積越大,說明該方法的效果越好。
表1 不同模型的測試結(jié)果Tab.1 Test resultsof different models
圖5 5個(gè)數(shù)據(jù)集的PR曲線Fig.5 Precision-Recall curves on five common saliency datasets
從圖5中可以看出:在PASCAL-S、ECSSD、HKUIS和DUTS-TE數(shù)據(jù)集上,本文方法的PR曲線都在其他方法的上方,包圍的面積大于其他方法,說明本文方法的檢測性能優(yōu)于其他方法。在DUT-OMRON數(shù)據(jù)集上,本文方法也優(yōu)于大部分對比方法的檢測效果。
本文給出了F-measure曲線,如圖6所示。其中,F(xiàn)measure是精確率和召回率的調(diào)和平均數(shù),反映出顯著性檢測的綜合指標(biāo)。由圖6可知,在PASCAL-S、ECSSD、HKU-IS和DUTS-TE數(shù)據(jù)集中本文方法得出了更均衡的結(jié)果,具有更好的泛化能力。
圖7為本文方法與其他方法的檢測顯著圖對比,其中,GT為真實(shí)標(biāo)簽。
圖6 5個(gè)數(shù)據(jù)集的F-measure曲線Fig.6 F-measure curves on five common saliency datasets
圖7 不同模型的可視化結(jié)果Fig.7 Comparison of visual resultsof different methods
由圖7可知:從第5行(人物)和第6行(酒杯)結(jié)果可以看出,其他方法雖然能夠較準(zhǔn)確地檢測出顯著性目標(biāo)區(qū)域,目標(biāo)區(qū)域內(nèi)部也比較均勻,但是目標(biāo)區(qū)域與背景邊界較為模糊,而本文方法能夠準(zhǔn)確分割出目標(biāo)區(qū)域與背景邊界。對于第2行(透明玻璃)、第3行(小花)、第4行(遠(yuǎn)景建筑)的圖像,本文方法也能夠完整準(zhǔn)確地檢測出目標(biāo)區(qū)域,并且檢測結(jié)果較光滑和均勻,而其他方法大多數(shù)方法得檢測效果較差,甚至無法檢測出顯著性區(qū)域。實(shí)驗(yàn)結(jié)果表明,本文提出的多尺度特征提取模塊有效地緩解了顯著性目標(biāo)與背景不連續(xù)、邊界易模糊等問題,同時(shí),本文設(shè)計(jì)的多級別特征融合模塊,在抑制背景噪聲的同時(shí),能夠使檢測的顯著性目標(biāo)更完整、更均勻。綜合來看,本文方法的視覺效果更好,檢測結(jié)果的顯著圖紋理清晰、邊界輪廓明顯。
為了驗(yàn)證模塊的有效性,在PASCAL-S和ECSSD數(shù)據(jù)集上進(jìn)行模塊的消融實(shí)驗(yàn),結(jié)果如表2所示。其中:BL即Baseline,是原始的U-net網(wǎng)絡(luò)架構(gòu);MSFE表示本文的多尺度特征提取模塊;MLFF表示本文的多級別特征融合模塊;no AM表示沒有加入注意力模塊。
從表2中可以看出:在PASCAL-S和ECSSD數(shù)據(jù)集上,對比于Baseline,本文的多尺度特征提取模塊(MSFE)使Fmax分別提高了0.01、0.013,MAE分別下降了0.008、0.007;本文的多級別特征融合模塊(MLFF)使Fmax分別提高了0.015、0.015,MAE分別下降了0.008、0.010。同時(shí)使用本文方法的多尺度特征提取模塊和多級別特征融合模塊在Fmax、MAE指標(biāo)上達(dá)到了最優(yōu)的效果。因此,本文提出的多尺度特征提取模塊和多級別特征融合模塊可以有效地提高檢測的性能。
表2 在2個(gè)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Tab.2 Ablation experiments results on two datasets
本文提出了一種多尺度特征提取和多級別特征融合的顯著性檢測方法。采用不同擴(kuò)張率的空洞卷積獲取豐富的上下文信息,緩解顯著性目標(biāo)區(qū)域與背景不連續(xù)、邊界易模糊等問題。本文提出的多級別特征融合模塊,不僅可以抑制噪聲的傳遞,而且可以有效地恢復(fù)顯著性目標(biāo)空間結(jié)構(gòu)的細(xì)節(jié)信息。從定性評價(jià)和定量評價(jià)的角度評估,本文提出的方法都有顯著的提升。在下一步工作中,將采用特征提取能力更強(qiáng)的主干網(wǎng)絡(luò)提高算法的精度,繼續(xù)優(yōu)化網(wǎng)絡(luò)減少模型的參數(shù)量。