国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全局信息引導(dǎo)的多尺度顯著物體檢測(cè)模型

2022-03-18 05:01:14陳小偉林家駿
關(guān)鍵詞:全局尺度物體

陳小偉 張 裕* 林家駿 張 晴

1(上海應(yīng)用技術(shù)大學(xué) 上海 201418)2(華東理工大學(xué) 上海 200237)

0 引 言

顯著物體檢測(cè)的目的是模擬人的視覺感知,從雜亂背景中定位和分割出最引人注意的具有精確輪廓的物體。近年來(lái),顯著性物體檢測(cè)作為一個(gè)預(yù)處理步驟被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù),包括視頻跟蹤[1]、目標(biāo)識(shí)別[2]和圖像編輯[3]等。

根據(jù)算法是否使用深度特征,可將顯著性物體檢測(cè)算法分為兩大類:基于手動(dòng)選擇特征的傳統(tǒng)方法[4-5]和使用深度神經(jīng)網(wǎng)絡(luò)提取語(yǔ)義特征的方法[6-7]。傳統(tǒng)的顯著性檢測(cè)方法采用顏色、紋理、形狀等圖像中低層特征,并利用啟發(fā)式先驗(yàn)條件(顏色對(duì)比度、邊界、物體級(jí)信息等)進(jìn)行顯著性物體檢測(cè)計(jì)算。雖然基于傳統(tǒng)的方法在處理簡(jiǎn)單場(chǎng)景圖像時(shí)取得了較好的檢測(cè)效果,但由于其無(wú)法提取圖像深層的語(yǔ)義特征,因此在面對(duì)復(fù)雜圖像時(shí),檢測(cè)效果與人的視覺感知結(jié)果存在較大的差異。

近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)中顯示出了其強(qiáng)大的特征表征和學(xué)習(xí)能力。受此啟發(fā),研究人員將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于顯著性檢測(cè)任務(wù)。一些基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)算法[6,8,22]利用了圖像的深度特征,取得了比傳統(tǒng)方法更好的檢測(cè)性能。隨著全卷積神經(jīng)網(wǎng)絡(luò)的興起,研究人員發(fā)現(xiàn),融入中低層特征的顯著性檢測(cè)模型[9-10,23-24]相比僅利用深度特征的方法更進(jìn)一步提高了算法性能,因?yàn)橹械蛯犹卣靼S富的結(jié)構(gòu)和細(xì)節(jié)信息,對(duì)于勾勒出完整和精確的輪廓信息具有十分重要的作用。

盡管現(xiàn)有算法取得了令人矚目的成果,顯著性物體檢測(cè)領(lǐng)域仍具有如下問(wèn)題需要解決:(1) 基于特征金字塔網(wǎng)絡(luò)(Feature pyramid network,FPN)[11]結(jié)構(gòu)的顯著檢測(cè)模型,將深度信息逐層傳遞給淺層,在傳遞過(guò)程中,深度信息必然有損失,不能全部傳遞給最淺層;(2) 自然場(chǎng)景中包含各種尺度的物體,而某一固定大小的卷積核只能處理固定尺寸的目標(biāo)物體,因此如何在每一層次的特征中融合多尺度信息值得進(jìn)一步研究。

本文提出一種簡(jiǎn)單有效的基于全卷積神經(jīng)網(wǎng)絡(luò)的顯著性物體檢測(cè)模型,結(jié)合圖像的多層次特征,探索多尺度特征的表示和融合,并且將全局信息直接與每一層的特征進(jìn)行融合,指導(dǎo)多層次特征的提取,從而提高模型的檢測(cè)性能。

本文工作主要貢獻(xiàn)如下:(1) 提出了一種新的全局信息引導(dǎo)的多尺度特征卷積神經(jīng)網(wǎng)絡(luò)用于顯著物體檢測(cè),將全局信息直接與多層次局部特征相結(jié)合。該模型能更好利用全局信息,從而提高檢測(cè)性能。(2) 設(shè)計(jì)了多尺度卷積模塊,利用同一側(cè)輸出的不同尺度特征融合,提高網(wǎng)絡(luò)各層次特征的表達(dá)和學(xué)習(xí)能力。(3) 根據(jù)常用的評(píng)價(jià)指標(biāo),在ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE數(shù)據(jù)上進(jìn)行算法性能比較與分析,從而說(shuō)明本文算法的有效性和魯棒性。

1 相關(guān)工作

顯著性檢測(cè)方法可以分為基于眼動(dòng)點(diǎn)的顯著性預(yù)測(cè)和具有精確物體輪廓信息的顯著性物體檢測(cè),本文主要關(guān)注顯著性物體檢測(cè)。

1.1 基于手動(dòng)選擇特征的方法

大部分傳統(tǒng)的顯著性物體檢測(cè)方法先將圖像進(jìn)行超像素分割,然后采用手動(dòng)選擇圖像的中低層特征進(jìn)行顯著性計(jì)算?;诰植康姆椒╗12]使用每個(gè)超像素的對(duì)比度或獨(dú)特性等先驗(yàn)信息來(lái)捕獲局部顯著區(qū)域。而基于全局的方法[13-14]通過(guò)使用整個(gè)圖像的整體信息來(lái)計(jì)算每個(gè)超像素的顯著度。由于基于手動(dòng)選擇特征的方法不能有效利用圖像蘊(yùn)含的語(yǔ)義信息,因此無(wú)法從復(fù)雜圖像中精確檢測(cè)和分割顯著性物體。

1.2 基于深度特征的方法

近年來(lái),基于卷積神經(jīng)網(wǎng)絡(luò)的顯著性物體檢測(cè)方法[19]明顯提高了檢測(cè)性能。Wang等[6]提出一個(gè)深度神經(jīng)網(wǎng)絡(luò),首先計(jì)算局部上下文中每個(gè)像素的顯著性得分,然后用另一個(gè)網(wǎng)絡(luò)在全局視圖上重新評(píng)估每個(gè)對(duì)象的顯著性得分。Li等[8]利用深度神經(jīng)網(wǎng)絡(luò)提取圖像的多尺度特征,通過(guò)融合這些特征計(jì)算顯著性值。Zhao等[15]通過(guò)整合全局和局部信息預(yù)測(cè)顯著性圖。然而,上述檢測(cè)方法將圖像區(qū)域視為基本的計(jì)算單元,網(wǎng)絡(luò)必須運(yùn)行多次得到整個(gè)圖像的顯著性值。

為了解決該問(wèn)題,研究人員引入全卷積網(wǎng)絡(luò),采用圖像到圖像的方式進(jìn)行顯著性檢測(cè)[7]。利用全卷積網(wǎng)絡(luò)的各個(gè)側(cè)邊輸出的多層次特征,采用類似U-Net結(jié)構(gòu),進(jìn)行顯著性檢測(cè)信息的編碼和解碼。網(wǎng)絡(luò)的低層側(cè)邊輸出的特征富含低層特征,但缺乏圖像的整體語(yǔ)義信息;而網(wǎng)絡(luò)的深層側(cè)邊輸出的特征含有豐富的語(yǔ)義信息,但缺乏圖像的結(jié)構(gòu)細(xì)節(jié)。因此,結(jié)合網(wǎng)絡(luò)的不同側(cè)邊輸出的多層次特征有助于進(jìn)一步提高顯著性預(yù)測(cè)的準(zhǔn)確性。

Luo等[16]通過(guò)一個(gè)多分辨的4×5網(wǎng)格結(jié)構(gòu)融合圖像的局部和全局信息,并采用Mumford-Shah函數(shù)進(jìn)行邊界優(yōu)化。文獻(xiàn)[17]采用反注意力圖引導(dǎo)特征選擇。文獻(xiàn)[18]采用跳層連接方式將深層特征融入各淺層側(cè)輸出,從而進(jìn)行顯著性計(jì)算。Zhang等[10]利用注意力機(jī)制,逐層引導(dǎo)各側(cè)邊輸出整合多層次特征。Zhang等[20]提出采用雙向信息傳遞模型整合多層次特征。

雖然這些基于深度學(xué)習(xí)的方法已經(jīng)取得了明顯的成效,但是仍有很大的進(jìn)步空間,使其可以在復(fù)雜場(chǎng)景中均勻突出整個(gè)顯著目標(biāo)并且準(zhǔn)確判斷邊界,同時(shí)有效抑制背景噪聲。

2 模型設(shè)計(jì)

2.1 模型整體結(jié)構(gòu)

為了一致高亮顯著區(qū)域,同時(shí)抑制無(wú)關(guān)背景噪聲,本文提出一種新的全局信息引導(dǎo)的多特征網(wǎng)絡(luò)(GCMF-Net)用于顯著物體檢測(cè),探索利用全局信息引導(dǎo)多層次特征提取方法及多尺度特征的檢測(cè)和融合策略。

GCMF-Net的整體結(jié)構(gòu)如圖1所示,主要包含多尺度特征提升模塊(MFEM)和全局信息引導(dǎo)模塊(GCGM)。其中,全局信息引導(dǎo)模塊GCGM由空洞空間卷積池化金字塔(ASPP)模塊[30]和全局特征融合模塊(GFFM)構(gòu)成。本文使用基于VGG-16的全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò)模型,采用PFN結(jié)構(gòu),以由粗至細(xì)的方式更新顯著性圖。利用主干網(wǎng)絡(luò)提取圖像的多層次特征;利用MFEM模塊提取不同層次的多尺度特征,并將這些特征進(jìn)行融合;利用ASPP模塊獲取多尺度的全局語(yǔ)義特征;利用GFFM模塊融合不同層次的多尺度特征與全局特征,從而準(zhǔn)確捕獲多層次多尺度的顯著區(qū)域特征。

圖1 GCMF-Net整體結(jié)構(gòu)

2.2 主干網(wǎng)絡(luò)

2.3 多尺度特征提升模塊

由于主干網(wǎng)絡(luò)的卷積層組采用固定大小的卷積核得到側(cè)邊輸出特征,因此各側(cè)邊輸出特征均對(duì)固定尺寸的顯著物體具有較好的響應(yīng)值。然而,自然場(chǎng)景中包含各種尺度的物體,多尺度特征檢測(cè)和融合模塊的研究可以提高模型處理多尺度目標(biāo)的能力,從而提升整個(gè)網(wǎng)絡(luò)的顯著物體檢測(cè)性能。

圖2 MFEM結(jié)構(gòu)

2.4 全局信息引導(dǎo)模塊

本文利用空洞空間卷積池化金字塔ASPP模塊捕獲多尺度的全局語(yǔ)義信息,從而生成包含顯著物體位置的全局特征。實(shí)驗(yàn)將ASPP的三個(gè)空洞卷積層膨脹分別率分別設(shè)置為4、6和8。

卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的高層特征包含圖像豐富的語(yǔ)義信息,而卷積神經(jīng)網(wǎng)絡(luò)低層側(cè)邊輸出特征包含更多的顏色、紋理和形狀等中低層圖像特征,因此融合各個(gè)側(cè)邊輸出的不同層次特征,能提高整個(gè)網(wǎng)絡(luò)的特征表達(dá)和學(xué)習(xí)能力。

現(xiàn)有模型一般采用FPN結(jié)構(gòu),將高層語(yǔ)義特征逐漸與低層特征相融合,采用由粗到細(xì)的方式逐漸更新顯著性圖,提高檢測(cè)質(zhì)量。但是這種逐層更新的方式在一定程度上削弱了高層語(yǔ)義信息對(duì)低層特征提取和更新的引導(dǎo)作用。因此,本文提出將全局語(yǔ)義信息直接與各個(gè)側(cè)邊輸出的多尺度融合特征相結(jié)合,利用高層語(yǔ)義信息直接引導(dǎo)側(cè)邊輸出的中低層特征集中于有效目標(biāo)區(qū)域的特征表征與學(xué)習(xí)。

在本文提出的全局特征融合模塊中,將側(cè)邊輸出、深層的顯著特征圖、ASPP模塊生成的全局語(yǔ)義特征圖進(jìn)行維度方向的連接,再使用32維的3×3卷積核進(jìn)行特征融合,可表示為:

(1)

3 實(shí) 驗(yàn)

3.1 基準(zhǔn)數(shù)據(jù)集

為評(píng)價(jià)算法性能,在四個(gè)公開的基準(zhǔn)數(shù)據(jù)集上進(jìn)行了一系列定性和定量評(píng)價(jià)實(shí)驗(yàn)。數(shù)據(jù)集包括ECSSD、DUT-OMRON、PASCAL-S和DUTS-TE,各數(shù)據(jù)集的圖像數(shù)如表1所示。

表1 基準(zhǔn)數(shù)據(jù)集信息

3.2 評(píng)價(jià)指標(biāo)

本文采用常用的準(zhǔn)確率-召回率(PR)曲線、F測(cè)度(Fβ)、平均F測(cè)度(avgFβ)、加權(quán)F測(cè)度(wFβ)和平均絕對(duì)誤差(MAE)作為算法性能評(píng)價(jià)的量化指標(biāo)。

根據(jù)從0到255的閾值,將顯著圖二值化,并與真值圖進(jìn)行比較來(lái)計(jì)算準(zhǔn)確率和召回率。PR曲線顯示了在某一數(shù)據(jù)集上不同閾值下的顯著圖的平均準(zhǔn)確率和召回率。

Fβ用于綜合考慮準(zhǔn)確率和召回率:

(2)

式中:p和r分別代表準(zhǔn)確率和召回率;β是衡量準(zhǔn)確率和召回率的平衡參數(shù),與文獻(xiàn)[18]參數(shù)選取一致,本文實(shí)驗(yàn)將β2設(shè)為0.3。

wFβ使用加權(quán)準(zhǔn)確率pw和加權(quán)召回率rw進(jìn)行計(jì)算:

(3)

MAE用來(lái)評(píng)價(jià)顯著圖和真值圖之間的平均像素誤差:

(4)

式中:S表示最終顯著圖;G表示真值圖;h和w分別表示圖像的高度和寬度,i和j表示像素點(diǎn)的位置。

3.3 實(shí)施細(xì)節(jié)

所提模型的訓(xùn)練和測(cè)試是在具有Intel i7- 7700k CPU(4.2 GHz)、32 GB RAM和一塊英偉達(dá)GTX TITAN GPU的臺(tái)式計(jì)算機(jī)上,使用Python實(shí)現(xiàn)。

所提出的網(wǎng)絡(luò)基于公開的Pytorch框架。本文模型使用DUTS-TR作為訓(xùn)練集。DUTS-TR包含10 553幅訓(xùn)練圖像。為了提高模型的魯棒性,本文通過(guò)隨機(jī)水平翻轉(zhuǎn)進(jìn)行訓(xùn)練集增強(qiáng)。所有的訓(xùn)練圖像的分辨率均320×320,每次只加載一個(gè)圖像。學(xué)習(xí)率設(shè)置為5e- 5,使用Adam作為優(yōu)化算子,權(quán)重衰減為5e- 4,一共訓(xùn)練25期。

為了進(jìn)一步提高邊緣像素的檢測(cè)精度,使用CRF[29]對(duì)本文模型輸出的預(yù)測(cè)結(jié)果進(jìn)行顯著圖優(yōu)化。

3.4 算法性能對(duì)比

將本文方法與8種近三年發(fā)表的具有代表性的方法進(jìn)行了比較,包括PAGR[10]、RAS[17]、BDMP[20]、R3Net[28]、RADF[25]、ASNet[26]、RFCN[7]和AFNet[27]。為了比較的公平性,所有對(duì)比算法的顯著圖均使用作者提供的實(shí)現(xiàn)方法獲取或作者公開的顯著預(yù)測(cè)圖。

3.4.1定量比較

本文提出的GCMF-Net模型與具有代表性的8種主流方法的PR曲線圖如圖3所示。由圖3可知,GCMF-Net在ECSSD、DUTS-TE和DUT-OMRON這3個(gè)基準(zhǔn)數(shù)據(jù)集上,較現(xiàn)有的代表性算法具有競(jìng)爭(zhēng)力,只在PASCAL-S數(shù)據(jù)集上略遜于ASNet和AFNet。

(a) ECSSD數(shù)據(jù)集

此外,GCMF-Net模型與8種主流方法在四個(gè)公開基準(zhǔn)數(shù)據(jù)集上就Fβ、avgFβ、wFβ和MAE指標(biāo)進(jìn)行了定量比較,結(jié)果如表2和表3所示,“/”表示原文作者沒有提供該數(shù)據(jù)集上的顯著性圖。

由表2和表3可知:(1) GCMF-Net在PASCAL-S數(shù)據(jù)集上的avgFβ指標(biāo)略遜于AFNet,而MAE指標(biāo)位居第四;(2) GCMF-Net在ECSSD、DUT-OMRON和DUTS-TE數(shù)據(jù)上,均具有最佳表現(xiàn)。

表2 不同方法在ECSSD和DUT-OMRON基準(zhǔn)數(shù)據(jù)集上的性能比較

表3 不同方法在PASCAL-S和DUTS-TE基準(zhǔn)數(shù)據(jù)集上的性能比較

綜合本文方法在四個(gè)基準(zhǔn)數(shù)據(jù)集上的PR曲線、Fβ、avgFβ、wFβ和MAE評(píng)價(jià)結(jié)果,GCMF-Net較近年的主流方法具有一定的優(yōu)越性。

續(xù)表3

3.4.2定性比較

圖4顯示了GCMF-Net模型與不同算法在四個(gè)公開數(shù)據(jù)集上生成顯著性圖的視覺比較。由圖4可知,本文提出的GCMF-Net方法在各種復(fù)雜場(chǎng)景(例如多目標(biāo)、復(fù)雜背景、大目標(biāo)、小目標(biāo)、目標(biāo)接觸邊界、復(fù)雜目標(biāo)等)中表現(xiàn)良好,一致高亮了顯著區(qū)域,并有效抑制了背景噪聲。

(a) 輸入 (b) 真值 (c) PAGR (d) RAS (e) BAMP (f) R3Net (g) RADF (h) ASNet (i) RFCN (j) AFNet (k) 本文圖4 不同方法生成顯著圖的視覺比較

3.5 本文模型分析

3.5.1不同側(cè)輸出的預(yù)測(cè)結(jié)果分析

本文對(duì)GCMF-Net模型的各個(gè)側(cè)邊得到的顯著性圖,在ECSSD基準(zhǔn)數(shù)據(jù)集上的進(jìn)行檢測(cè)性能比較,結(jié)果如表4所示??梢钥闯?,最淺層的側(cè)邊得到的顯著性圖性能最佳,這表明了所提模型采用由粗至細(xì)的逐層更新策略是有效的。

表4 不同側(cè)輸出的性能比較

續(xù)表4

3.5.2不同模塊性能分析

為了驗(yàn)證本文方法的可靠性和有效性,從本文模型中分別移除不同的模塊和結(jié)構(gòu),并且測(cè)試這些新的網(wǎng)絡(luò)模型在ECSSD和PASCAL-S數(shù)據(jù)集上的檢測(cè)性能。

采用Fβ、avgFβ、wFβ和MAE對(duì)未采用CRF進(jìn)行顯著圖優(yōu)化的結(jié)果進(jìn)行評(píng)價(jià),如表5所示,本文方法中的各個(gè)模塊能有效提高檢測(cè)性能。其中:Ourswo_MFEM表示移除多尺度特征提取的特征優(yōu)化模塊,Ourswo_GCGM表示移除整個(gè)全局信息引導(dǎo)模塊,Ourswo_GFFM表示保留全局信息引導(dǎo)模塊中的全局特征提取部分,移除全局特征與其他側(cè)輸出的局部特征進(jìn)行融合部分,Ourswo_ASPP表示移除全局信息引導(dǎo)模塊中的全局特征提取部分。

表5 不同模塊的性能比較

4 結(jié) 語(yǔ)

本文提出了一種利用多尺度和多層次特征進(jìn)行顯著性目標(biāo)檢測(cè)的方法。針對(duì)主干網(wǎng)絡(luò)的每個(gè)側(cè)輸出進(jìn)行多尺度特征的提取和融合;利用從最深層側(cè)輸出提取的全局語(yǔ)義特征引導(dǎo)側(cè)輸出的多尺度特征聚焦于主要區(qū)域的特征表達(dá)和學(xué)習(xí);采用類似于FPN的網(wǎng)絡(luò)結(jié)構(gòu),逐漸更新預(yù)測(cè)顯著性圖;采用深監(jiān)督方式進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從而得到預(yù)測(cè)顯著性圖。在測(cè)試階段,為了進(jìn)一步獲得具有精確輪廓和均勻一致內(nèi)部區(qū)域的顯著物體檢測(cè)結(jié)果,使用基于全連接的CRF進(jìn)行顯著性圖更新。在四個(gè)公開的基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法較8種近年發(fā)表的主流算法具有優(yōu)越性。未來(lái)研究將考慮引入顯著性物體的輪廓信息以獲得更清晰的目標(biāo)邊界。

猜你喜歡
全局尺度物體
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
深刻理解物體的平衡
我們是怎樣看到物體的
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
為什么同一物體在世界各地重量不一樣?
新思路:牽一發(fā)動(dòng)全局
9
沽源县| 阿图什市| 建始县| 潼南县| 抚远县| 盘锦市| 乐平市| 丰台区| 雷州市| 榕江县| 保德县| 松江区| 灯塔市| 宝山区| 治县。| 金阳县| 嘉义县| 乌鲁木齐市| 惠州市| 横峰县| 方正县| 滨海县| 伊金霍洛旗| 罗源县| 寿阳县| 夏河县| 宜川县| 菏泽市| 双流县| 河曲县| 崇仁县| 阜康市| 缙云县| 双柏县| 呼图壁县| 周宁县| 三亚市| 观塘区| 安康市| 当阳市| 清镇市|