喬亞坤 林川 張貞光
摘? ?要:基于深度學(xué)習(xí)的輪廓檢測模型通常由編碼和解碼2個部分組成,其中編碼部分負(fù)責(zé)提取、分離圖像特征,解碼部分則解析、表征圖像特征。為了盡可能利用每一個卷積層的信息,設(shè)計了一種高性能輪廓檢測模型。首先,將編碼網(wǎng)絡(luò)的輸出分為2組進(jìn)行逐級解碼;然后引入交互式連接,2組網(wǎng)絡(luò)分別互換部分卷積層進(jìn)行特征交互以獲取更多的特征信息;最后,2組網(wǎng)絡(luò)的輸出傳入加法層進(jìn)行融合得到最終輸出。在BSDS500和NYUD-v2數(shù)據(jù)集上對該神經(jīng)網(wǎng)絡(luò)模型進(jìn)行實驗,結(jié)果與近幾年的研究相比,有著顯著的提升。通過消融實驗進(jìn)一步證明,采用交互式解碼方法的F值(ODS)由0.816提升至0.819,提高了0.003。
關(guān)鍵詞:輪廓檢測;深度學(xué)習(xí);逐級解碼;交互式連接
中圖分類號:TP391.41? ? ? ? ?DOI:10.16375/j.cnki.cn45-1395/t.2022.01.008
0? ? 引言
輪廓檢測任務(wù)的目的是針對圖像進(jìn)行像素級的區(qū)分,常作為高級視覺任務(wù)的預(yù)處理步驟(如目標(biāo)生成[1]、物體著色[2]、多目標(biāo)跟蹤[3-4]等),在多媒體處理中得到廣泛應(yīng)用。由于目標(biāo)紋理和邊緣等噪聲信息難以區(qū)分,因此,針對自然圖像的輪廓提取工作一直是一項具有挑戰(zhàn)性的任務(wù)。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,輪廓檢測模型的性能也隨之得到一定的提升。
雖然之前一些優(yōu)異的輪廓檢測模型[5-8]在BSDS500數(shù)據(jù)集[9]上取得了較好的結(jié)果,但仍然存在2個問題:第一,未利用編碼網(wǎng)絡(luò)中每一個卷積層的特征。在卷積神經(jīng)網(wǎng)絡(luò)中,每一個卷積層之后都會采用激活函數(shù)進(jìn)行作用,以保證參數(shù)的非線性變化,使得不同的卷積層具有不同的圖像特征。因此,僅僅利用其中幾層必然會丟失一部分重要信息。第二,解碼方式過于單一。傳統(tǒng)方法大多采用上采樣處理底層信息,然后與上層信息進(jìn)行融合,反復(fù)進(jìn)行此操作,直到恢復(fù)圖像的原分辨率。針對這些問題,本文提出了一個可靠的輪廓檢測模型,有效地利用了編碼中的大多數(shù)特征信息,并且采用交互式雙解碼網(wǎng)絡(luò)準(zhǔn)確地預(yù)測局部和尖銳的目標(biāo) 邊界。
最初的輪廓檢測模型大多基于局部像素值梯度的變化方向以確定目標(biāo)邊界位置。這是一種普適性方法,可以有效地檢測目標(biāo)/非目標(biāo)的全部邊界信息,但是這種方法并沒有考慮哪些像素是真正的輪廓。后來,模擬生物視覺的數(shù)學(xué)模型開始被應(yīng)用于輪廓檢測任務(wù)。研究者根據(jù)生物視網(wǎng)膜細(xì)胞的工作機制建立模型,如Grigorescu等[10]提出采用Gabor、DOG函數(shù)分別模擬細(xì)胞經(jīng)典感受野和非經(jīng)典感受野,二者形成中心增強、周圍抑制的同心圓模型。Zeng等[11]則認(rèn)為非經(jīng)典感受野的抑制作用并非處處相等,他們提出一種蝶形非經(jīng)典感受野模型[11],即根據(jù)非經(jīng)典感受野與中心的不同距離而產(chǎn)生不同的抑制作用,同時他們認(rèn)為與中心點方向在同一水平線上的點的作用效果最明顯,而垂直的點對其沒有任何影響。
近幾年,深度學(xué)習(xí)算法開始應(yīng)用于各類計算機視覺任務(wù)中。研究者發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)在輪廓檢測任務(wù)上表現(xiàn)出優(yōu)異的性能。CNNs模型通常分為編碼和解碼2個部分,編碼網(wǎng)絡(luò)采用多卷積層構(gòu)建深度模型以獲取圖像特征,解碼網(wǎng)絡(luò)則對編碼中提取的特征信息進(jìn)行融合、解析來獲取所需的任務(wù)對象[12]。Xie等[5]提出了端到端的整體嵌套邊緣檢測算法(HED),采用VGG-Net作為預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)以提高模型的收斂速度和準(zhǔn)確率。在此基礎(chǔ)上,Liu等[6]權(quán)衡了網(wǎng)絡(luò)性能與運算速度,提出RCF-Net。RCF采用與HED一樣的解碼方式,不同的是RCF在編碼網(wǎng)絡(luò)中做了兩方面改進(jìn):①針對每一個卷積層截取部分特征通道進(jìn)行解碼;②采用空洞卷積替代傳統(tǒng)卷積。RCF模型的改進(jìn)同時兼顧了性能與效率,具有很好的實用意義。Wang等[7]提出逐級融合進(jìn)行解碼的CED模型,并采用亞像素卷積代替雙線性鄰近插值,對目標(biāo)的弱邊緣有更好的保護(hù)作用。Lin等[8]認(rèn)為解碼網(wǎng)絡(luò)的拓寬可以提取更豐富的特征,提出橫向精細(xì)網(wǎng)絡(luò)LRC模型,LRC對特征的解析更加細(xì)膩,采用逐級融合的方式對不同感受野提取的特征進(jìn)行融合,從而獲得優(yōu)異的性能。
本文受LRC模型啟發(fā),提出了交互式鄰近? ? 解碼方法(interactive proximity decoding network,IPD-Net)。首先,受RCF影響,IPD利用了編碼網(wǎng)絡(luò)中所有卷積層截取之后的特征信息,一方面保證了特征的完整性,另一方面兼顧了模型的速度;其次,IPD將編碼輸出分為2組進(jìn)行交互式解碼,保證了更多特征信息被整個網(wǎng)絡(luò)所共享,從而獲取更加精細(xì)的輪廓特征。
1 模型設(shè)計
IPD-Net主要采用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行輪廓提取。本文算法流程如圖1所示。深度學(xué)習(xí)分為訓(xùn)練和測試2個部分,其中IPD-Net模型的訓(xùn)練部分如圖1(a)所示,依據(jù)預(yù)設(shè)的訓(xùn)練量完成整個數(shù)據(jù)集的訓(xùn)練任務(wù)。而測試部分如圖1(b)所示。與訓(xùn)練不同,測試部分對每一張圖像都進(jìn)行準(zhǔn)確率預(yù)估, 再采用算術(shù)平均法對整個數(shù)據(jù)集的性能進(jìn)行評價。
1.1 網(wǎng)絡(luò)架構(gòu)
編碼網(wǎng)絡(luò):受以往深度學(xué)習(xí)文獻(xiàn)的啟發(fā),本文將修改后的VGG16網(wǎng)絡(luò)[13]作為編碼網(wǎng)絡(luò)。VGG16網(wǎng)絡(luò)由13個卷積層和3個全連接層組成,在圖像分類、目標(biāo)檢測等各種任務(wù)上都取得了最先進(jìn)的水平。其卷積層可分為5個階段,每個階段后連接一個池化層用作感受野的增大,使卷積層逐漸對全局特征進(jìn)行捕獲。
本文提出的IPD-Net如圖2所示。與VGG16相比做出了如下修改:
①裁掉了所有的全連接層和最后的池化層。一方面是因為其不符合本文的全卷積理念,并且全連接層的網(wǎng)絡(luò)參數(shù)復(fù)雜、計算量大,在基于二分類的輪廓檢測任務(wù)方面并不適用;另一方面,最后的池化層會進(jìn)一步縮小特征圖,不利于邊緣的準(zhǔn)確? ? ?定位。
②VGG16中的每一個卷積層都連接1個內(nèi)核大小為[3*3]、通道深度為32的卷積層,目的是縮小網(wǎng)絡(luò)模型大小,以獲取更快的運行速度。
解碼網(wǎng)絡(luò):整體結(jié)構(gòu)如圖2所示。首先,將編碼網(wǎng)絡(luò)中的輸出分為2個子解碼網(wǎng)絡(luò),分別用[Ni]和[Mi]表示,其中[M, N∈Ⅰ, Ⅱ, Ⅲ, Ⅳ],[i∈1, 2],[M、N]代表VGG16-Net不同階段卷積層的輸出,[i]代表構(gòu)建的子解碼網(wǎng)絡(luò)。其次,根據(jù)鄰近卷積層相互融合的原則將輸出的卷積層進(jìn)行連接,逐級進(jìn)行,每個子網(wǎng)絡(luò)依次進(jìn)行4級連接。融合模塊如圖3所示,下層信息采用[3*3]卷積核處理,目的是處理上采樣之后粗糙的特征圖。因為上采樣后,圖像上每個點的相鄰像素值之間的關(guān)系會變得更密切,導(dǎo)致圖像整體信息出現(xiàn)聚集現(xiàn)象,因此,采用較大的卷積核既可以恢復(fù)每個像素點本身的特征,又可以代入全局信息以獲得更完整的輪廓特征。為了匹配特征通道數(shù),上層信息則采用[1*1]卷積核處理。將處理過的上層信息和下層信息共同傳入加法層進(jìn)行融合,得到最終的輸出。最后,根據(jù)文中提出的交互式解碼方法,自第2級解碼開始,采用隔層交換原則,對IPD-Net中 2個子解碼網(wǎng)絡(luò)的部分特征進(jìn)行互換。
1.2 損失函數(shù)
本文受HED[5]啟發(fā)采用交叉熵作為損失函數(shù)。由于交叉熵?fù)p失函數(shù)主要用于解決二分類問題,而在邊緣檢測中,邊緣像素點和非邊緣像素點個數(shù)高度不平衡。為了解決這一問題,HED模型使用了加權(quán)交叉熵?fù)p失函數(shù):
[BCEP, L=-βi∈L+logpi-(1-β)i∈L-log(1-pi)], (1)
其中:[L+]和[L-]分別表示圖像中邊緣像素點和非邊緣像素點個數(shù);[β=|L-|/| L |],[1-β=|L+|/| L |];[pi]是經(jīng)過[sigmoid]激活之后卷積神經(jīng)網(wǎng)絡(luò)在[i]點處輸出的像素值。這種方法有效地解決了訓(xùn)練過程中正、負(fù)樣本數(shù)量不平衡的問題。本文的實驗主要基于多人標(biāo)注的BSDS500[9]數(shù)據(jù)集展開,因此,在[L+]和[L-]像素點類型選擇上,認(rèn)為[L={L+, L-, L+∈pi>0];[L-∈pi=0}]。由于IPD-Net具有3個輸出,則2個子解碼網(wǎng)絡(luò)的輸出稱為側(cè)面輸出[BCEmside(m=1, 2)]。模型最終的輪廓圖由最后的加法層融合之后得到,其損失值用[BCEfusion]表示。通過對側(cè)面輸出和融合輸出求和,得到模型最終的損失值[BCEfinal]:
[BCEfinal=BCEfusion+m=12αmBCEmside],? ? ? (2)
其中[αm]表示每一級側(cè)面輸出的權(quán)重。經(jīng)過多次實驗證明,[αm=0.5],即每一級側(cè)面輸出損失值進(jìn)行平均化之后的結(jié)果表現(xiàn)最好。
2 實驗結(jié)果與分析
2.1 實驗細(xì)節(jié)
實驗平臺及訓(xùn)練方法:實驗采用單個的GTX 1080Ti GPU完成,具有352 bit顯存位寬,單浮點精度達(dá)到10.8TFLOPS。本文代碼采用python語言編寫,IPD-Net模型在公開學(xué)習(xí)框架Pytorch機器學(xué)習(xí)庫上完成。其中,編碼網(wǎng)絡(luò)VGG-Net[13]采用? ImageNet[14]開源初始化參數(shù)進(jìn)行遷移學(xué)習(xí)。采用隨機梯度下降(SGD)進(jìn)行迭代,每次隨機采樣1幅圖像,總共進(jìn)行2.8×105次隨機采樣,其中每8×104次迭代之后學(xué)習(xí)率乘[10-1]。
超參數(shù)設(shè)置:網(wǎng)絡(luò)未遷移學(xué)習(xí)的卷積核采用均勻分布初始化[~Ua, b];[a=0],[b=1],偏置項[bias=0]。初始學(xué)習(xí)率、衰減權(quán)重和動量分別設(shè)置為:[lr=1×10-2]、[decay=2×10-4]和[momentum=2×10-4]。
數(shù)據(jù)集及數(shù)據(jù)增強:使用通用數(shù)據(jù)集BSDS500[9]和NYUD-v2[15]進(jìn)行實驗。BSDS500是一種廣泛應(yīng)用于邊緣檢測任務(wù)的數(shù)據(jù)集,但由于其數(shù)據(jù)量有限,僅有200幅圖像作為訓(xùn)練集,在進(jìn)行一定的數(shù)據(jù)增強之后仍然無法滿足實際需求。本文將BSDS500的增強數(shù)據(jù)集與PASCAL VOC上下文數(shù)據(jù)集[16]混合作為訓(xùn)練數(shù)據(jù)。測試選用BSDS500數(shù)據(jù)集中的200幅測試圖像,評估過程中的定位公差取[Distmax=0.007 5]。NYUD-v2數(shù)據(jù)集由成對高密度標(biāo)記的RGB圖像和深度圖像組成。Gupta等將NYUD-v2數(shù)據(jù)集劃分為381張訓(xùn)練圖像和654張測試圖像,遵循其設(shè)置對網(wǎng)絡(luò)進(jìn)行訓(xùn)練[17]。使用HHA來獲取深度信息,其中深度信息被編碼為3個通道:水平視差、離地高度和重力角度,因此,HHA特征可以表示為一幅彩色圖像。然后分別對RGB圖像和HHA特征圖像進(jìn)行訓(xùn)練,在測試過程中,通過平均RGB圖像和HHA特征圖像2種模型的輸出來定義最終的邊緣預(yù)測。因為NYUD-v2數(shù)據(jù)集中的圖像比BSDS500數(shù)據(jù)集圖像大,因此,在評估過程中增加了定位公差[Distmax=0.011]。
在訓(xùn)練集數(shù)量有限的情況下,數(shù)據(jù)增強是提高網(wǎng)絡(luò)性能的有效方法。根據(jù)之前的研究,本文對圖像與標(biāo)簽同時進(jìn)行0.75~1.25倍的隨機縮放。對于BSDS500數(shù)據(jù)集,通過將每幅圖像進(jìn)行16個不同角度的旋轉(zhuǎn),并在每個角度翻轉(zhuǎn)圖像,使得訓(xùn)練集從200張圖像增強至超過10 000張。對于NYUD-v2數(shù)據(jù)集,由于其本身圖像分辨率要優(yōu)于BSDS500,因此,僅需對圖像進(jìn)行4個不同角度(0°、90°、180°、270°)的旋轉(zhuǎn),并在每個角度翻轉(zhuǎn)。
多尺度策略:受RCF模型[6]啟發(fā),以原圖像大小作為單尺度樣本進(jìn)行訓(xùn)練,采用不同尺度圖像結(jié)合的方式進(jìn)行樣本測試,以進(jìn)一步提高輪廓檢測準(zhǔn)確率。首先,使用雙線性鄰近插值法調(diào)整圖像大小以構(gòu)建圖像金字塔模型;然后,將不同尺度的樣本分別輸入單尺度檢測器中;最后,對不同尺度的檢測器通過平均的方式求得最終的輪廓模型。通過以往經(jīng)驗以及不斷的測試,最終確定使用0.5、1.0、2.0這3個尺度進(jìn)行樣本測試。在BSDS500數(shù)據(jù)集[9]的測試中,IPD-Net在多尺度策略下的[F]值(ODS)從0.803提升至0.819。
實驗數(shù)據(jù)處理:基于通用[F]-measure性能評測體系對IPD-Net模型的性能進(jìn)行定性與定量分析。[F]-measure具體計算如下:
[F=2PRP+R],? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)
[P=NTPNTP+NFP],? ? ? ? ? ? ? ? ? ? ? ? ?(4)
[R=NTPNTP+NFN],? ? ? ? ? ? ? ? ? ? ? ? ?(5)
其中:[P]表示精確率(Precision),[R]代表召回率(Recall),[F]則是[P]與[R]二者的調(diào)和平均,[NTP]表示圖像中輪廓像素點被正確檢測出的個數(shù),[NFP]表示誤將背景像素點檢測為輪廓像素點的個數(shù),[NFN]表示屬于輪廓像素點但漏檢的個數(shù)。在輪廓檢測領(lǐng)域,通常以3個標(biāo)準(zhǔn)來判斷輪廓檢測模型的性能指標(biāo):ODS(整個數(shù)據(jù)集取最優(yōu)閾值)、OIS(每幅圖像取最優(yōu)閾值)和AP(平均精確率),三者統(tǒng)稱為[F]-measure。
2.2 消融實驗分析
本文提出的IPD模型的新穎之處有2點:①利用了編碼網(wǎng)絡(luò)中大部分的特征信息,組成雙解碼網(wǎng)路進(jìn)行特征解析;②雙解碼網(wǎng)絡(luò)采用逐級交互式解碼,交換部分特征信息,從而達(dá)到了信息交流的效果。本文提出的對比實驗?zāi)P徒Y(jié)構(gòu)如圖4所示。為了證實IPD-Net模型的性能,在BSDS500數(shù)據(jù)集中對IPD-Net進(jìn)行了消融研究。首先,在圖4(a)所示的解碼結(jié)構(gòu)中放棄逐級解碼方式,僅使用第一級信息進(jìn)行解碼。不同的是,在圖4(a)中并沒有利用編碼網(wǎng)絡(luò)中的每一級信息,而是采用每一個階段的最后一級的卷積層信息進(jìn)行解碼。此外,采用[cat()]函數(shù)將第一級解碼之后得到的4組特征信息進(jìn)行拼接以獲取最終的輪廓特征,將該解碼網(wǎng)絡(luò)稱為無逐級連接的單解碼網(wǎng)絡(luò)(以IPD-n/s代替)。其次,在圖4(b)所示解碼結(jié)構(gòu)中,利用了編碼網(wǎng)絡(luò)大部分卷積層組成雙解碼網(wǎng)絡(luò)。與圖4(a)類似,僅使用一級解碼,之后將雙解碼網(wǎng)絡(luò)的輸出傳入加法層得到最終輪廓,該解碼網(wǎng)絡(luò)可以稱之為無逐級連接的雙解碼網(wǎng)絡(luò)(以IPD-n/d代替)。最后,在圖4(c)所示的解碼結(jié)構(gòu)中,使用單個解碼網(wǎng)絡(luò)逐級解碼(以IPD-y/s代替)的方式得到最終的輪廓結(jié)果。將實驗中多尺度策略下的網(wǎng)絡(luò)性能進(jìn)行對比,其結(jié)果如表1所示。由表1可知,相比本文提出的逐級交互式解碼,消融實驗中的3個性能指標(biāo)均有所下降,以此可以證明逐級交互式解碼網(wǎng)絡(luò)在輪廓檢測任務(wù)中的優(yōu)勢:可以不斷地融合、交互特征信息以獲取更細(xì)致的輪廓。
圖1中的解碼部分,子網(wǎng)絡(luò)從第2級至第4級均交換部分信息。針對交互式解碼,同樣進(jìn)行消融對比,即子網(wǎng)絡(luò)每一級均使用自身的特征信息而不進(jìn)行交互,結(jié)果如表2所示??梢钥闯鼋换ナ浇獯a方法使網(wǎng)絡(luò)的性能指標(biāo)ODS由0.817提升至0.819。
2.3 模型性能對比
基于深度學(xué)習(xí)的輪廓檢測模型性能已經(jīng)遠(yuǎn)超傳統(tǒng)算法,因此,本文沒有加入與傳統(tǒng)算法的比較。由于在編碼網(wǎng)絡(luò)中進(jìn)行了以VGG16-Net為骨干網(wǎng)絡(luò)的遷移學(xué)習(xí),故選擇同類型網(wǎng)絡(luò)進(jìn)行性能對比,包括HED[5]、CED[7]、RCF[6]、LRC[8],結(jié)果如表3所示??梢钥吹皆贠DS和OIS這2個性能指標(biāo)上,IPD-Net已經(jīng)領(lǐng)先最新的算法LRC,其中IPD? ? (ODS=0.819)與LRC(ODS=0.816)相比,ODS提升了0.003。多尺度策略對于本文的結(jié)果也有重要的影響,可以看到IPD-Net多尺度ODS值為0.819,單尺度為0.803,多尺度相比單尺度提升了0.016。但是本文方法的平均準(zhǔn)確率(AP)結(jié)果并不理想,尤其與CED算法相比。原因是由于BSDS500[9]數(shù)據(jù)集是由多人標(biāo)注,其真實輪廓圖并不是二值化圖像,邊緣像素點以概率形式存在,如何判斷概率、確定邊緣點成為該數(shù)據(jù)集條件下輪廓檢測的關(guān)鍵。
CED算法默認(rèn)概率大于0的點為邊緣點,但本文選擇了一個折中的方法,認(rèn)為概率大于0.5的點作為邊緣點。因此,在平均精度上CED要明顯高于其他方法,但是相比最重要的ODS性能來說,IPD-Net的方法更加適用。如圖5所示是從BSDS500[9]的測試結(jié)果選取5幅性能優(yōu)異的結(jié)果圖,由圖5可知,IPD-Net對輪廓部分的檢測更加趨于真實輪廓圖。
與BSDS500數(shù)據(jù)集比較方法同理,同樣選擇以VGG16-Net作為骨干網(wǎng)絡(luò)的算法模型作為對比。但是因為研究者對NYUD-v2數(shù)據(jù)的關(guān)注度并不如BSDS500,對比量不足,所以加入基于機器學(xué)習(xí)的方法gPb-UCM[17]與SE[18]進(jìn)行性能對比。在實驗中,將單獨使用原圖像的測試結(jié)果稱為IPD-RGB,同理使用深度信息的測試結(jié)果稱為IPD-HHA,而二者加權(quán)平均之后的結(jié)果用IPD-RGB-HHA來表示。如表4所示,本文在ODS、OIS、AP等3個性能上均領(lǐng)先最新的算法,其中與LRC[8]算法相比,ODS性能值由0.761提升至0.770,提升了0.009。NYUD測試集具有654張圖像,選取其中5幅進(jìn)行展示,如圖6所示,可以看到室內(nèi)場景較為復(fù)雜,目標(biāo)與背景顏色接近,光線相比自然圖像也很差,目標(biāo)輪廓極為復(fù)雜。
3? ? 結(jié)論
針對輪廓檢測任務(wù)的深度學(xué)習(xí)模型,本文提出了一種新的解碼方法,采用雙解碼網(wǎng)絡(luò)以利用編碼中更多的特征信息,逐級交互式解碼可以使不同網(wǎng)絡(luò)中的信息相互交流。通過大量的消融實驗可以明顯看出,IPD-Net具有以下2個優(yōu)點:①雙解碼網(wǎng)絡(luò)在運算之前縮小了中卷積層的通道數(shù),節(jié)約了計算機內(nèi)存,在性能與效率之間作了權(quán)衡,因此,可以完全利用編碼網(wǎng)絡(luò)中不同卷積層的特征信息,使得“脆弱”輪廓得到更完整的保留;②逐級交互式解碼有效地進(jìn)行了卷積層之間的特征信息交流,對紋理的抑制、邊緣的保護(hù)產(chǎn)生了積極的效果。與近幾年的優(yōu)秀算法比較,IPD-Net在BSDS500&PASCAL數(shù)據(jù)集上取得了ODS=0.819,在NYUD-v2數(shù)據(jù)集上取得ODS=0.770的好成績。
通過實驗可以看出,盡管IPD-Net在BSDS500數(shù)據(jù)集中已經(jīng)取得優(yōu)異的性能,但對于NYUD-v2這種比較復(fù)雜的室內(nèi)場景數(shù)據(jù)集,還是無法達(dá)到理想的效果,在更加細(xì)節(jié)性的邊緣檢測上仍需要繼續(xù)探尋一種更為可靠的方法。同時針對數(shù)據(jù)增強方法,也不能局限于翻轉(zhuǎn)與平移,可以通過改變圖像本身的明暗以及色調(diào)來獲取更龐大的數(shù)據(jù)集。
參考文獻(xiàn)
[1] SUN T-H,LAI C-H,WONG S-K,et al.Adversarial colorization of icons based on structure and color conditions[C]//Proceedings of the 27th ACM International Conference on Multimedia,Nice,F(xiàn)rance,2019:683-691.
[2] HUANG Y-C,TUNG Y-S,CHEN J-C,et al.An adaptive edge detection based colorization algorithm and its applications[C]//Proceedings of the 13th ACM International Conference on Multimedia,Singapore,2005:351-354.
[3] ZHANG W W,ZHOU H,SUN S Y,et al.Robust multi-modality multi-object tracking[C]//Proceedings of the CVF International Conference on Computer Vision,2019:2365-2374.
[4] 劉亞,艾海舟,徐光佑.一種基于背景模型的運動目標(biāo)檢測與跟蹤算法[J].信息與控制,2002,31(4):315-319.
[5] XIE S N,TU Z W.Holistically-nested edge detection[J].International Journal of Computer Vision,2017,125(1-3):3-18.
[6] LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern? ? ? Recognition,2017:3000-3009.
[7] WANG Y P,ZHAO X,HUANG K Q.Deep crisp boundaries[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3892-3900.
[8] LIN C,CUI L H,LI F Z,et al.Lateral refinement network for contour detection[J].Neurocomputing,2020,409:361-371.
[9] ARBELAEZ P,MAIRE M,F(xiàn)OWLKES C,et al.? Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):898-916.
[10] GRIGORESCU C,PETKOV N,WESTENBERG M A.Contour detection based on nonclassical receptive field inhibition[J].IEEE Transactions on Image Processing,2003,12(7):729-739.
[11] ZENG C,LI Y,YANG K,et al.Contour detection based on a non-classical receptive field model with butterfly-shaped inhibition subregions[J].Neurocomputing,2011,74(10):1527-1534.
[12] 林川,曹以雋.基于深度學(xué)習(xí)的輪廓檢測算法:綜述[J].廣西科技大學(xué)學(xué)報,2019,30(2):1-12.
[13] SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J/OL]. Computer Vision and Pattern Recognition,2014[2021-06-01]. https://arxiv.org/abs/1409.1556.
[14] DENG J,DONG W,SOCHER R,et al. Imagenet:a large-scale hierarchical image database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition,2009:248-255.
[15] SILBERMAN N,HOIEM D,KOHLI P,et al.Indoor segmentation and support inference from RGBD images[J]. Lecture Notes in Computer Science,2012,7576(1):746-760.
[16] MOTTAGHI R,CHEN X J,LIU X B,et al.The role of context for object detection and semantic segmentation in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:891-898.
[17] ARBELáEZ P,MAIRE M,F(xiàn)OWLKES C,et al.? Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):898-916.
[18] DOLLAR P,ZITNICK C L.Fast edge detection using structured forests[J].IEEE Transactions on Pattern? ? Analysis and Machine Intelligence,2015,37(8):1558-1570.
Interactive decoding network of contour detection model
based on deep learning
QIAO Yakun, LIN Chuan*, ZHANG Zhenguang
(School of Electrical, Electronic and Computer Science, Guangxi University of Science and Technology,
Liuzhou 545616, China)
Abstract: The contour detection model based on deep learning is usually composed of encoding and decoding, in which encoding extracts and separates image features, while decoding analyzes and characterizes image features. A high-performance contour detection model is designed by using the information of each convolutional layer as much as possible. Firstly, the output of the coding? ? ? ?network is divided into two groups to decode step by step. In addition, with the introduction of? ? ?interactive connection, the two groups of networks exchange part of the convolutional layer to? ? ?perform feature interaction for more feature information. Finally, the output of the two networks is passed to the addition layer for fusion to obtain the final output. This neural network model has? ?conducted a lot of experiments on the BSDS500 and NYUD-v2 data sets, and the results have been significantly improved compared with the research in recent years. The ablation experiment further proves that the F value (ODS) of the interactive decoding method is increased from 0.816 to 0.819, an increase of about 0.003.
Key words: contour detection; deep learning; successive decoding;interactive connection
(責(zé)任編輯:黎? 婭)