国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RCF的精細(xì)邊緣檢測模型

2019-10-31 09:21景年昭楊維
計(jì)算機(jī)應(yīng)用 2019年9期
關(guān)鍵詞:注意力機(jī)制邊緣檢測深度學(xué)習(xí)

景年昭 楊維

摘 要:針對目前基于深度學(xué)習(xí)的邊緣檢測技術(shù)生成的邊緣粗糙及模糊等問題,提出一種基于更豐富特征的邊緣檢測(RCF)模型(Richer Convolutional Features for Edge Detection)的端到端的精細(xì)邊緣檢測模型。該模型以RCF模型為基礎(chǔ),在主干網(wǎng)絡(luò)中引入“注意力”機(jī)制,采用SE(Squeeze-and-Excitation)模塊提取圖像邊緣特征,并且去掉主干網(wǎng)絡(luò)部分下采樣,避免細(xì)節(jié)信息過度丟失,使用擴(kuò)張卷積技術(shù)增大模型感受野,并利用殘差結(jié)構(gòu)將不同尺度的邊緣圖進(jìn)行融合。對伯克利分割數(shù)據(jù)集(BSDS500)進(jìn)行增強(qiáng),使用一種多步驟的訓(xùn)練方式在BSDS500和PASCAL VOC Context數(shù)據(jù)集上進(jìn)行訓(xùn)練,并用BSDS500進(jìn)行測試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該模型將全局最佳(ODS)和單圖最佳(OIS)指標(biāo)分別提高到了0.817和0.838,在不影響實(shí)時(shí)性的前提下可以輸出更精細(xì)的邊緣,同時(shí)還具有較好的魯棒性。

關(guān)鍵詞:邊緣檢測;更豐富的卷積特征檢測;深度學(xué)習(xí);擴(kuò)張卷積;注意力機(jī)制

中圖分類號:TP391.41

文獻(xiàn)標(biāo)志碼:A

Fine edge detection model based on RCF

JING Nianzhao*, YANG Wei

School of Electronic and Information Engineering, Beijing Jiaotong University, Beijing 100044, China

Abstract:

Aiming at the roughness and blur of edges generated by edge detection technology based on deep learning, an end-to-end fine edge detection model based on RCF (Richer Convolutional Features for edge detection) was proposed. In this model based on RCF model, attention mechanism was introduced in the backbone network, Squeeze-and-Excitation (SE) module was used to extract image edge features. In order to avoid excessive loss of detail information, two subsampling in the backbone network were removed. In order to increase the receptive field of the model, dilation convolution was used in the backbone. A residual module was used to fuse the edge images in different scales. The model was trained on the Berkeley Segmentation Data Set (BSDS500)and PASCAL VOC Context dataset by a multi-step training approach and was tested on the BSDS500. The experimental results show that the model improves the ODS (Optimal Dataset Scale) and OIS (Optimal Image Scale) to 0.817 and 0.838 respectively, and it not only generates finer edges without affecting real-time performance but also has better robustness.

Key words:

edge detection; Richer Convolutional Features for edge detection (RCF); deep learning; dilation convolution; attention mechanism

0 引言

圖像的邊緣是圖像的重要特征之一,準(zhǔn)確的邊緣檢測是圖像分割、目標(biāo)區(qū)域識別、區(qū)域形狀提取等圖像分析工作的基礎(chǔ)[1-2],是機(jī)器視覺系統(tǒng)中必不可少的重要環(huán)節(jié)[3-5]。

早期的邊緣檢測算法建立在圖像梯度運(yùn)算的基礎(chǔ)上,利用圖像的一階或二階梯度信息提取圖像的邊緣,代表方法有Sobel算子[6]、Canny算子[7]等。這一類基于梯度的方法實(shí)時(shí)性好,但魯棒性不強(qiáng),容易受噪聲、光照等因素的影響。隨著統(tǒng)計(jì)學(xué)和信息理論的引入以及機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展,許多基于手工特征的方法被提出。Konishi等[8]基于數(shù)據(jù)驅(qū)動(dòng)技術(shù),將邊緣檢測表述為統(tǒng)計(jì)推斷,利用圖像特征的聯(lián)合概率分布實(shí)現(xiàn)邊緣的提取;Martin等[9]把圖像的亮度、光照、紋理等局部特征輸入到邏輯回歸分類器中進(jìn)行邊緣的判定。這一類方法基于手工提取的圖像特征,利用濾波器技術(shù)或分類器技術(shù)進(jìn)行邊緣的檢測,性能比傳統(tǒng)方法有了很大的提升,但是其成本高,步驟繁瑣,實(shí)時(shí)性不好。后來,隨著神經(jīng)網(wǎng)絡(luò)的復(fù)興以及計(jì)算機(jī)算力的提升,基于深度學(xué)習(xí)的算法成為了該領(lǐng)域的主流方法。Ganin等[10]提出將卷積神經(jīng)網(wǎng)絡(luò)與最近鄰算法結(jié)合起來進(jìn)行邊緣檢測,該方法先利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)自動(dòng)提取圖像特征,然后再利用最近鄰算法實(shí)現(xiàn)邊緣的聚類;Shen等[11]將邊緣檢測看作一個(gè)多分類問題,根據(jù)邊緣的不同形態(tài)將邊緣分成多個(gè)子類,利用CNN進(jìn)行邊緣子類的檢測,之后再利用隨機(jī)森林技術(shù)將子類聚合形成最終輪廓圖;Bertasius等[12]提出使用更多的高級特征可以提升模型的性能,將參與分類任務(wù)的預(yù)訓(xùn)練模型遷移到邊緣檢測模型中,并將網(wǎng)絡(luò)分為兩個(gè)支路,利用多尺度技術(shù)分別進(jìn)行邊緣的分類學(xué)習(xí)和回歸學(xué)習(xí),使模型的魯棒性得到很大提升;Xie等[13]提出了第一個(gè)端到端的邊緣檢測模型HED(Holistically-nested Edge Detection),該模型基于全卷積神經(jīng)網(wǎng)絡(luò)[14]框架并嘗試?yán)蒙畋O(jiān)督技術(shù)[15]和多尺度學(xué)習(xí)技術(shù)解決邊緣的模糊問題;Liu等[16]在HED模型的基礎(chǔ)上提出基于更豐富特征的邊緣檢測(Richer Convolutional Features for edge detection, RCF)模型,通過融合更豐富的特征使輸出的邊緣更精細(xì)。

由于其強(qiáng)大的特征自動(dòng)提取能力,基于深度學(xué)習(xí)的邊緣檢測技術(shù)比之前的算法在性能上有很大提升,對光照、陰影等影響因素的魯棒性也隨之增強(qiáng)。但是,像RCF或HED這類端到端的邊緣檢測模型以VGG16(Visual Geometry Group)[17]等傳統(tǒng)分類網(wǎng)絡(luò)為基礎(chǔ),不能提取圖片的全局特征,因此表達(dá)能力受到一定的影響。另外,這一類模型采用過多的下采樣并且沒有充分融合多尺度特征,導(dǎo)致圖像中的許多細(xì)節(jié)信息丟失,使輸出的邊緣線條粗糙且模糊。針對這些問題,本文提出一種基于RCF的精細(xì)邊緣檢測模型。該模型在RCF的基礎(chǔ)上,引入SE(Squeeze-and-Excitation)結(jié)構(gòu)[18],提取全局特征,去掉主干網(wǎng)絡(luò)的后兩個(gè)下采樣,避免細(xì)節(jié)信息多度丟失,并使用擴(kuò)張卷積技術(shù)[19]增加主干網(wǎng)絡(luò)的感受野,提高主干網(wǎng)絡(luò)的表達(dá)能力,然后使用一個(gè)殘差結(jié)構(gòu)[20]充分融合深監(jiān)督模塊輸出的多尺度特征,生成最終的邊緣圖。此外,該模型使用一種多階段的訓(xùn)練方式在增強(qiáng)的伯克利分割數(shù)據(jù)集(Berkeley Segmentation Data Set, BSDS500)[21]和PASCAL VOC Context數(shù)據(jù)集[22]上進(jìn)行訓(xùn)練,并在測試時(shí)使用圖像金字塔技術(shù),使模型性能進(jìn)一步提升。

1 細(xì)邊緣檢測模型

1.1 RCF網(wǎng)絡(luò)

RCF[16]以HED[13]為基礎(chǔ),實(shí)現(xiàn)了端到端邊緣檢測,是目前性能最好的邊緣檢測算法之一。如圖1所示,RCF的結(jié)構(gòu)分為三大部分:主干網(wǎng)絡(luò)、深監(jiān)督模塊(Deeply-Supervised nets, DS)和特征融合模塊(fuse)。RCF使用VGG16[17]的全部卷積層作為自己的主干網(wǎng)絡(luò),分為5個(gè)stage。通過這種全卷積結(jié)構(gòu)[14],主干網(wǎng)絡(luò)實(shí)現(xiàn)了邊緣特征的自動(dòng)提取。RCF的深監(jiān)督模塊對每一個(gè)stage進(jìn)行監(jiān)督學(xué)習(xí),并使每個(gè)stage輸出一張邊緣圖,使該模型可以更好更快地收斂。RCF的融合模塊則利用一個(gè)1×1的卷積層將深監(jiān)督模塊輸出的5張邊緣圖融合并輸出最終的邊緣圖。RCF輸出的邊緣圖融合了主干網(wǎng)絡(luò)每一層的特征,其效果要好于只使用部分特征的HED網(wǎng)絡(luò)。

1.2 本模型

本模型的設(shè)計(jì)思想來源于RCF網(wǎng)絡(luò),并對RCF各個(gè)模塊進(jìn)行了針對性的改進(jìn)。如圖2所示,本模型可大致分為主干網(wǎng)絡(luò)、深監(jiān)督模塊、特征融合模塊三部分。

1.2.1 基于SE結(jié)構(gòu)的主干網(wǎng)絡(luò)

如圖2中的虛線左邊部分所示,本模型的主干網(wǎng)絡(luò)以RCF的主干網(wǎng)絡(luò)為基礎(chǔ),也分為5個(gè)stage,負(fù)責(zé)邊緣特征的自動(dòng)提取。然而RCF的主干網(wǎng)絡(luò)采用的是VGG16的傳統(tǒng)卷積結(jié)構(gòu)(convolution, conv),由多個(gè)卷積層簡單的堆疊而成。這種傳統(tǒng)的卷積結(jié)構(gòu)只能對局部感受野中的空間維度和特征維度的信息進(jìn)行處理,不能提取圖片的全局特征,表達(dá)能力會(huì)受到限制。因此,本模型引入可提取全局特征的SE結(jié)構(gòu)并將主干網(wǎng)絡(luò)分為前后兩部分:前一部分(前兩個(gè)stage)與RCF一樣,采用傳統(tǒng)的卷積和下采樣組合的結(jié)構(gòu),充分提取邊緣的低級特征;后一部分(后面三個(gè)stage)則采用類似“注意力機(jī)制”的SE(Squeeze-and-Excitation)結(jié)構(gòu)[18],提取更多的語義特征和全局特征。如圖3所示,每個(gè)SE結(jié)構(gòu)先通過全局平均池化操作Fsq把卷積層IN的每個(gè)二維的feature map壓縮成一個(gè)實(shí)數(shù)ai,這個(gè)實(shí)數(shù)ai具有全局感受野,然后利用可學(xué)習(xí)的參數(shù)W為每一個(gè)實(shí)數(shù)ai生成權(quán)重,通過可學(xué)習(xí)的方式顯式地建模feature map間的相關(guān)性,最后用學(xué)習(xí)后的全局特征B與原始feature map進(jìn)行元素相乘,使OUT中每一個(gè)feature map的特征包含全局的信息 [18]。使用這種SE結(jié)構(gòu)后,本模型可以提取全局特征來衡量feature map的重要程度,通過學(xué)習(xí)的方式提升有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征,從而提升主干網(wǎng)絡(luò)的表達(dá)能力。另外,RCF主干網(wǎng)絡(luò)有4次下采樣,模型輸出的圖片精度只有原始圖片的1/16,導(dǎo)致圖片的許多細(xì)節(jié)信息丟失,使輸出的邊緣模糊不清。因此,本模型去掉主干網(wǎng)絡(luò)后2個(gè)下采樣,使用3×3的池化(pool)并將步長設(shè)為1。這樣,本模型只有2次下采樣,輸出圖片的精度是原始圖片的1/4,保留了更多的細(xì)節(jié)信息,使輸出的邊緣更精細(xì)。與此同時(shí),為了解決去掉下采樣后感受野變小的問題,本模型在后兩個(gè)stage中使用擴(kuò)張卷積技術(shù)(dilation, dil)[19],將擴(kuò)張參數(shù)分別設(shè)為2和4,在不增加參數(shù)的情況下增大模型的感受野。

1.2.2 深監(jiān)督模塊

圖2中的主干網(wǎng)絡(luò)在提取特征的過程中,由于自身參數(shù)過多,訓(xùn)練時(shí)網(wǎng)絡(luò)收斂速度慢,收斂效果也不太理想。因此,為了使主干網(wǎng)絡(luò)能夠更高效地提取特征,改善模型訓(xùn)練效果,本模型使用與RCF相同的深監(jiān)督技術(shù)。如圖2中的虛線右側(cè)部分所示,將主干網(wǎng)絡(luò)中的每一層特征通過1×1的卷積層進(jìn)行特征壓縮,并以stage為單位相加,然后再使用1×1的卷積進(jìn)一步壓縮特征,最后通過利用雙線性插值技術(shù)初始化的反卷積(deconvolution, deconv)實(shí)現(xiàn)上采樣,使每一個(gè)stage都輸出一張邊緣圖;并且本模型對每一個(gè)stage輸出的邊緣圖都進(jìn)行監(jiān)督學(xué)習(xí),實(shí)現(xiàn)深監(jiān)督學(xué)習(xí)。

1.2.3 基于殘差結(jié)構(gòu)的特征融合

圖2中的特征融合模塊負(fù)責(zé)對深監(jiān)督模塊輸出的5個(gè)邊緣圖進(jìn)行融合處理。每個(gè)stage生成的邊緣圖都使用了不同層次的特征,第1個(gè)stage生成的邊緣圖使用了大量的低級特征和很少的語義特征,而第5個(gè)stage生成的邊緣圖則使用了大量的語義特征和很少的細(xì)節(jié)特征。因此將每個(gè)stage輸出的邊緣圖融合起來,可以更充分地使用模型特征,使輸出的邊緣更精確。然而RCF只采用一層1×1的卷積簡單地按比例融合,對多尺度的信息處理得不充分,輸出的邊緣比較粗。另外,通過實(shí)驗(yàn)發(fā)現(xiàn)后兩個(gè)stage輸出的邊緣圖與標(biāo)簽圖(ground truth)已經(jīng)很相近,這就意味著后兩個(gè)stage輸出的邊緣圖與標(biāo)簽圖之間的殘差已經(jīng)很小,因此,本模型的融合模塊使用一種殘差結(jié)構(gòu)[20],通過對每個(gè)stage輸出的邊緣圖與標(biāo)簽圖之間的殘差進(jìn)行處理,使多尺度特征更高效地融合。如圖4所示,融合模塊的輸入是深監(jiān)督模塊輸出的5張邊緣圖,將輸入分成兩個(gè)分支,其中一個(gè)分支通過3個(gè)卷積層對殘差進(jìn)行充分處理,然后與輸入相加,實(shí)現(xiàn)多尺度信息的融合,再經(jīng)過一個(gè)1×1的卷積進(jìn)行特征壓縮后便輸出最終的邊緣圖。融合后的邊緣圖既保留大量的細(xì)節(jié)信息,在語義上也是完整的。此外,通過實(shí)驗(yàn)發(fā)現(xiàn),在特征融合模塊中使用非線性結(jié)構(gòu),比如ReLU(Rectified Linear Units)[21]等,會(huì)損失一些細(xì)節(jié)信息,導(dǎo)致輸出的邊緣圖包含噪聲,因此,該模塊沒有添加任何非線性結(jié)構(gòu)。

1.3 精細(xì)邊緣檢測模型訓(xùn)練

1.3.1 數(shù)據(jù)集增強(qiáng)

本模型使用增強(qiáng)版的BSDS500[22]數(shù)據(jù)集和PASCAL VOC Context[23]數(shù)據(jù)集進(jìn)行訓(xùn)練。傳統(tǒng)的邊緣檢測數(shù)據(jù)集BSDS500由訓(xùn)練集、驗(yàn)證集和測試集三部分組成。其中,訓(xùn)練集包含200張圖片,驗(yàn)證集包含100張圖片,測試集包含200張圖片。為了防止模型出現(xiàn)過擬合現(xiàn)象,對BSDS500數(shù)據(jù)集進(jìn)行了增強(qiáng)處理。通過使用OpenCV工具包,對訓(xùn)練集和驗(yàn)證集的300張圖片進(jìn)行旋轉(zhuǎn)、擴(kuò)大、剪裁等操作,將數(shù)據(jù)集增強(qiáng)到28800張。另外,由于本模型對輸入圖片的大小信息不敏感,為了減少模型訓(xùn)練時(shí)的內(nèi)存消耗,并實(shí)現(xiàn)批量訓(xùn)練,將所有的訓(xùn)練圖片剪裁為209×273的統(tǒng)一大小。

1.3.2 像素級分類的損失函數(shù)

針對邊緣檢測這種像素級的分類問題,通常將圖片的每個(gè)像素點(diǎn)的分類看作是一個(gè)二分類問題(邊緣點(diǎn)與非邊緣點(diǎn)),因此,本模型使用交叉熵作為每個(gè)像素點(diǎn)分類的代價(jià)函數(shù)。另外, BSDS500數(shù)據(jù)集中的每一個(gè)標(biāo)簽圖(ground truth)都是由多個(gè)標(biāo)記者標(biāo)注而成,由于每個(gè)標(biāo)記者對于邊緣的認(rèn)知不統(tǒng)一,因此該數(shù)據(jù)集中的邊緣含有一些噪聲。為了提高模型魯棒性,本模型使用文獻(xiàn)[16]中閾值法,即對標(biāo)簽圖中的像素值進(jìn)行歸一化處理,將標(biāo)簽圖變?yōu)檫吘壍母怕蕡D,并將概率值大于閾值η的像素點(diǎn)作為邊緣點(diǎn),將概率值為0的像素點(diǎn)作為非邊緣點(diǎn),而其他像素點(diǎn)作為有爭議點(diǎn),排除在外。與文獻(xiàn)[16]相同,本模型每個(gè)像素點(diǎn)的損失函數(shù)表示為:

l(Xi ;W)= α·lb(1-P(Xi;W)); yi =0

0,??????? 0 < yi≤η

β·lb(P(Xi;W),yi>η(1)

α=λ·Y+Y++Y-

β=Y-Y++Y-(2)

其中:|Y+|和|Y-|分別代表正負(fù)樣本的數(shù)量,α、 β和超參數(shù)λ用來平衡正負(fù)樣本數(shù)量差,Xi代表神經(jīng)網(wǎng)絡(luò)的激活值,yi代表標(biāo)簽圖中像素點(diǎn)i是邊緣點(diǎn)的概率值,W代表神經(jīng)網(wǎng)絡(luò)中可學(xué)習(xí)的參數(shù)。這種損失函數(shù)可以促使模型作出最有把握的判斷,將有爭議的像素點(diǎn)排除在外,提高模型的魯棒性。另外,通過實(shí)驗(yàn)發(fā)現(xiàn):如果將超參數(shù)η設(shè)為0.5或更大的值,有些標(biāo)簽圖出現(xiàn)邊緣不連續(xù)的現(xiàn)象;而將超參數(shù)η減小時(shí),有些標(biāo)簽圖的邊緣開始受到噪聲的影響。因此,超參數(shù)η大小的設(shè)定要根據(jù)該模型具體的使用場景而定。

1.3.3 多階段訓(xùn)練方式

RCF使用單階段的訓(xùn)練方式,將深監(jiān)督模塊每個(gè)stage的損失與融合模塊的損失之和作為整個(gè)模型的損失函數(shù)。然而,這兩部分損失的重要程度是不一樣的,深監(jiān)督模塊輸出邊緣圖并計(jì)算損失只是為了輔助主干網(wǎng)絡(luò)更好地優(yōu)化,起輔助作用;而融合模塊輸出的邊緣圖為模型最終的輸出,這部分損失起決

定作用。RCF的這種簡單相加的損失函數(shù)并沒有體現(xiàn)出融合模塊損失的重要性,因此,本模型使用一種多階段的訓(xùn)練方式,先使用RCF的訓(xùn)練方式使網(wǎng)絡(luò)達(dá)到一個(gè)較優(yōu)的狀態(tài),然后去掉深監(jiān)督模塊的損失,只使用融合模塊的損失繼續(xù)進(jìn)行訓(xùn)練,使模型達(dá)到最優(yōu)的狀態(tài)。通過這種多階段訓(xùn)練方式,顯式地提升融合模塊輸出的邊緣圖的重要性。具體過程如下:

1)先采用RCF的訓(xùn)練方式,損失函數(shù)為:

L(W)=∑Ii=1(∑Kk=1l(X(k)i;W)+l(Xfusei;W))(3)

其中:X(k)i代表第k個(gè)stage輸出圖片中的第i個(gè)像素點(diǎn)的激勵(lì)值,而Xfusei代表融合模塊輸出的圖片中的第i個(gè)像素點(diǎn)的激勵(lì)值,|I|代表每張圖片像素點(diǎn)的總數(shù),K代表主干網(wǎng)絡(luò)stage的數(shù)量,在這里K =5。利用該損失函數(shù)通過隨機(jī)梯度下降算法訓(xùn)練本模型10個(gè)epoch,batch size設(shè)為16,基準(zhǔn)學(xué)習(xí)率設(shè)為1E-6,每一層的學(xué)習(xí)率略有差異,momentum設(shè)為0.9,weight decay設(shè)為0.0002。另外,與HED和RCF網(wǎng)絡(luò)不同,本模型在訓(xùn)練過程中沒有使用任何預(yù)訓(xùn)練模型,只對參數(shù)進(jìn)行Gaussian分布的初始化。

2)在第一步的基礎(chǔ)上,只使用融合模塊的損失繼續(xù)對模型進(jìn)行優(yōu)化,此時(shí)本模型的損失函數(shù)為:

L(W)=∑Ii=1l(Xfusei;W)(4)

其中:l(Xfusei;W)代表融合模塊輸出的圖片中的第i個(gè)像素點(diǎn)的損失函數(shù),|I|代表每張圖片像素點(diǎn)的總數(shù)。用該損失函數(shù)繼續(xù)訓(xùn)練模型直至收斂,顯式地提升融合模塊輸出的邊緣圖的重要性,基準(zhǔn)學(xué)習(xí)率設(shè)為1E-7,其他的參數(shù)設(shè)置與第1)步相同。

1.4 與RCF比較

本模型與RCF的區(qū)別主要體現(xiàn)在3個(gè)方面:首先,RCF的主干網(wǎng)絡(luò)采用傳統(tǒng)的VGG16的全部卷積層,而本模型將主干網(wǎng)絡(luò)分為兩部分:前半部分采用下采樣結(jié)構(gòu)充分提取邊緣特征;后半部分考慮到圖片的精度問題不進(jìn)行下采樣,采用空洞卷積技術(shù)增大感受野并且采用SE結(jié)構(gòu)提取圖片全局特征。然后,在特征融合部分,RCF只使用一層1×1卷積進(jìn)行特征融合,而本模型使用一種多層的殘差結(jié)構(gòu),實(shí)現(xiàn)多尺度特征的充分融合。最后,RCF使用的是單階段的訓(xùn)練方式,而本模型使用了一種多階段的訓(xùn)練方式。通過上述幾點(diǎn)的改進(jìn),本模型性能比RCF網(wǎng)絡(luò)有了一定程度的提升。

2 實(shí)驗(yàn)

本文中的實(shí)驗(yàn)以Pytorch 0.4.0作為開發(fā)框架,系統(tǒng)為Linux,硬件設(shè)備包括一塊NVIDIA TITAN Xp GPU,顯卡內(nèi)存為12GB和一塊Intel i7-6800k CPU,內(nèi)存為64GB。

2.1 圖像金字塔技術(shù)

圖像金字塔技術(shù)是計(jì)算機(jī)視覺領(lǐng)域中的一種重要技術(shù),文獻(xiàn)[16]和[24]均使用該技術(shù)并取得了很好的效果。在測試階段,本模型也使用圖像金字塔技術(shù),將測試集圖片分別剪裁為0.8×、1.0×、1.2×三種規(guī)模,分別輸入到模型,然后將同一圖片三種不同規(guī)模的結(jié)果加權(quán)求平均,得出最終的邊緣圖,增強(qiáng)模型的魯棒性。

2.2 實(shí)驗(yàn)分析

邊緣檢測模型的檢測指標(biāo)主要包括:全局最佳(Optimal

Dataset Scale, ODS)和單圖最佳(Optimal Image Scale, OIS)等。其中:ODS指測試集中所有圖片使用固定同一閾值時(shí)的檢測結(jié)果;OIS指對每一幅圖像使用針對當(dāng)前圖片最佳閾值時(shí)的檢測結(jié)果[25]。本文模型輸出的邊緣圖通過非最大抑制[26]處理后,用Edge Box[27]工具包進(jìn)行指標(biāo)測量,各項(xiàng)指標(biāo)與其他相關(guān)算法的對比如表1所示。

通過對比可以看出,本文模型通過對RCF和HED的改進(jìn),性能比RCF和HED有了一定的提高。本文模型的ODS分別比RCF和HED提高0.6%和2.9%,而OIS分別比RCF和HED提高0.8%和3.4%。另外,本文模型輸出的邊緣圖與原始圖片的對比如圖5所示。

通過對比可知,本文模型可以精確地將圖片中物體的邊緣提取出來,并且在未使用圖像金字塔技術(shù)和未進(jìn)行非最大抑制處理的情況下,本文模型生成的邊緣線條也非常清晰,達(dá)到了目前靠前的水平。

為了進(jìn)一步查看本文模型各模塊的改進(jìn)效果,進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。針對主干網(wǎng)絡(luò),將使用SE結(jié)構(gòu)和空洞卷積的模型與RCF進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明使用SE結(jié)構(gòu)和空洞卷積的模型分別使ODS和OIS指標(biāo)提升了0.33%和0.42%,這也證明了本模型的主干網(wǎng)絡(luò)能夠提取更多的全局信息并且會(huì)保留更多的邊緣細(xì)節(jié)信息。另外,本模型主干網(wǎng)絡(luò)每個(gè)stage輸出的邊緣圖與HED和RCF的對比如圖6所示。從左到右,前兩列為HED與本模型各個(gè)stage輸出邊緣圖的對比,后兩列為RCF與本模型各個(gè)stage輸出邊緣圖的對比。從上到下,每一列的5張圖分別為主干網(wǎng)絡(luò)1~5 stage輸出的邊緣圖。通過對比可以看出,HED和RCF各個(gè)stage輸出的邊緣圖線條粗糙且模糊,對細(xì)節(jié)的處理欠佳;而本文模型生成的邊緣圖保留了更多細(xì)節(jié)信息,線條更清晰。

針對融合模塊,在使用殘差結(jié)構(gòu)后,模型的ODS和OIS指標(biāo)分別提升了0.21%和0.28%,這說明該融合模塊可以更充分地融合多尺度的特征。另外,當(dāng)去掉殘差結(jié)構(gòu)中的shortcut支路而只保留層疊結(jié)構(gòu)時(shí),發(fā)現(xiàn)模型收斂情況變差,邊緣圖出現(xiàn)很多噪聲并且變得不清晰。這也證明了殘差結(jié)構(gòu)可以使網(wǎng)絡(luò)參數(shù)更好地優(yōu)化,避免梯度消失和梯度爆炸等問題。此外,當(dāng)對融合模塊增添ReLU等非線性元素時(shí),邊緣圖會(huì)變得模糊,這說明該模塊的非線性結(jié)構(gòu)會(huì)損壞很多有用的邊緣信息,造成網(wǎng)絡(luò)性能下降。

最后,對本模型的多階段訓(xùn)練方式進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)使用多階段的訓(xùn)練方式后,深監(jiān)督模塊每個(gè)stage輸出的邊緣圖會(huì)受到一定的影響,變得不清晰,但融合模塊輸出的邊緣圖卻更精確,ODS和OIS分別提升了0.09%和0.12%,這也符合預(yù)期。

3 結(jié)語

本文提出了一個(gè)新的邊緣檢測模型。該模型基于RCF和HED的思想,在主干網(wǎng)絡(luò)上加入SE模塊,提升主干網(wǎng)絡(luò)的表達(dá)能力,舍棄部分下采樣,避免圖片精度過度降低;采用空洞卷積技術(shù)提升網(wǎng)絡(luò)的感受野,采用一種殘差結(jié)構(gòu)使多尺度特征充分融合;最后采用多階段訓(xùn)練的方式使模型性能進(jìn)一步提升。實(shí)驗(yàn)表明,本模型可以生成高質(zhì)量的邊緣圖。

參考文獻(xiàn)

[1]REN X F, BO L F. Discriminatively trained sparse code gradients for contour detection[C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL, USA: Curran Associates, 2012, 1: 584-592.

[2]張廣燕, 王俊平, 邢潤森,等.PSLIP新模型及在邊緣檢測和圖像增強(qiáng)中的應(yīng)用[J].電子學(xué)報(bào),2015,43(2):377-382.(ZHANG G Y, WANG J P, XING R S, et al. A new PSLIP model and its application in edge detection and image enhancement[J]. Acta Electronica Sinica, 2015, 43(2): 377-382.)

[3]KOHLI P, LADICKY L, TORR P H S. Robust higher order potentials for enforcing label consistency [J]. International Journal of Computer Vision, 2009, 82(3): 302-324.

[4]石美紅,李青,趙雪青,等.一種基于保角相位的圖像邊緣檢測新方法[J].電子與信息學(xué)報(bào),2015,37(11):2594-2600.(SHI M H, LI Q, ZHAO X Q, et al. A new approach for image edge detection based on conformal phase [J]. Journal of Electronics and Information Technology, 2015, 37(11): 2594-2600.)

[5]PANTOFARU C, SCHMID C, HERBERT M. Object recognition by integrating multiple image segmentations [C]//ECCV 2008: Proceedings of the 10th European Conference on Computer Vision, LNCS 5304. Berlin: Springer, 2008: 481-494.

[6]FELDMAN J A, FELDMAN G M, FALK G, et al. The Stanford hand-eye project [C]// IJCAI ‘69: Proceedings of the 1st International Joint Conference on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 1969: 521-526.

[7]CANNY J. A computational approach to edge detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1986, 8(6): 679-698.

[8]KONISHI S, YUILLE A L, COUGHLAN J M, et al. Statistical edge detection: learning and evaluating edge cues [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(1): 57-74.

[9]MARTIN D R, FOWLKES C C, MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2004, 26(5): 530-549.

[10]GANIN Y, LEMPITSKY V. N4-Fields: neural network nearest neighbor fields for image transforms [C]// Proceedings of the 2014 Asian Conference on Computer Vision, LNCS 9004. Berlin: Springer, 2014: 536-551.

[11]SHEN W, WANG X G, WANG Y, et al. DeepContour: a deep convolutional feature learned by positive-sharing loss for contour detection[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3982-3991.

[12]BERTASIUS G, SHI J, TORRESANI L. DeepEdge: a multi-scale bifurcated deep network for top-down contour detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 4380-4389.

[13]XIE S, TU Z. Holistically-nested edge detection [J]. International Journal of Computer Vision, 2017, 125(1/2/3): 3-18.

[14]SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[15]LEE C-Y, XIE S, GALLAGHER P, et al. Deeply-supervised nets [EB/OL]. [2019-01-02]. https://arxiv.org/pdf/1409.5185.pdf.

[16]LIU Y, CHENG M, HU X, et al. Richer convolutional features for edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5872-5881.

[17]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1409.1556.pdf.

[18]HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1709.01507.pdf.

[19]YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. [2018-08-12]. https://arxiv.org/pdf/1511.07122.pdf.

[20]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2016: 770-778.

[21]NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines [C]// ICML ‘10: Proceedings of the 27th International Conference on Machine Learning. Madison, WI: Omnipress, 2010: 807-814.

[22]MARTIN D R, FOWLKES C C, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics [C]// ICCV 2001: Proceedings of the 8th IEEE International Conference on Computer Vision. Washington DC: IEEE Computer Society, 2001, 2: 416-423.

[23]MOTTAGHI R, CHEN X, LIU X, et al. The role of context for object detection and semantic segmentation in the wild [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington DC: IEEE Computer Society, 2014: 891-898.

[24]FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929.

[25]劉勝男,寧紀(jì)鋒. 基于超像素的點(diǎn)互信息邊界檢測算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(8): 2296-2300. (LIU S N, NING J F. Super-pixel based pointwise mutual information boundary detection algorithm[J]. Journal of Computer Applications, 2016, 36(8): 2296-2300.)

[26]DOLLR P, ZITNICK C L. Fast edge detection using structured forests [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(8): 1558-1570.

[27]ZITNICK C L, DOLLR P. Edge boxes: locating object proposals from edges [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Berlin:Springer, 2014:391-405.

This work is partially supported by the National Key Research and Development Program of China (2016YFC0801800).

JING Nianzhao, born in 1994, M.S. candidate. His research interests include computer vision, information processing.

YANG Wei, born in 1964, Ph.D., professor. His research interests include wireless communication, information processing.

猜你喜歡
注意力機(jī)制邊緣檢測深度學(xué)習(xí)
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個(gè)基于知識庫的問答系統(tǒng)
唐卡圖像邊緣提取
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
水下大壩裂縫圖像分割方法研究 
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)