潘盛輝 王蕤興 林川
摘? 要: 邊緣檢測(cè)是圖像處理工作的關(guān)鍵步驟之一,目前邊緣檢測(cè)模型基于卷積神經(jīng)網(wǎng)絡(luò)(CNNs)搭建編碼-解碼網(wǎng)絡(luò)。由于現(xiàn)有編碼網(wǎng)絡(luò)提取特征能力有限,且忽視了神經(jīng)元之間復(fù)雜的信息流向,本文模擬視網(wǎng)膜、外側(cè)膝狀體(LGN)和腹側(cè)通路(“what”通路)前端V1區(qū)、V2區(qū)、V4區(qū)的生物視覺機(jī)制,搭建全新的編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)。編碼網(wǎng)絡(luò)模擬視網(wǎng)膜-LGN-V1-V2的信息傳遞機(jī)制,充分提取圖像中的特征信息;解碼網(wǎng)絡(luò)模擬V4區(qū)的信息整合功能,設(shè)計(jì)鄰近融合網(wǎng)絡(luò)以整合編碼網(wǎng)絡(luò)的特征預(yù)測(cè),實(shí)現(xiàn)特征的充分融合。該神經(jīng)網(wǎng)絡(luò)模型在BSDS500數(shù)據(jù)集和NYUD-V2數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,本文搭建的編碼-解碼方法的F值(ODS)為0.820,相比于LRCNet提高了0.49%。
關(guān)鍵詞:邊緣檢測(cè);生物視覺;編碼-解碼網(wǎng)絡(luò);特征提取;卷積神經(jīng)網(wǎng)絡(luò)(CNNs)
中圖分類號(hào):TP317.4;TP391.41? ? ? ? ? ? ?DOI:10.16375/j.cnki.cn45-1395/t.2022.02.009
0? ? 引言
邊緣檢測(cè)作為輪廓檢測(cè)的基礎(chǔ)工作,旨在標(biāo)記數(shù)字圖像中目標(biāo)與背景的交界[1-2],其作為圖像處理與計(jì)算機(jī)視覺的關(guān)鍵步驟之一,用于圖像分類[3]、目標(biāo)檢測(cè)[4-5]、語義分割[6-7]等諸多領(lǐng)域。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)在邊緣檢測(cè)任務(wù)中取得了很好的效果。以經(jīng)過裁剪后的VGGNet、ResNet等學(xué)習(xí)架構(gòu)作為網(wǎng)絡(luò)的編碼結(jié)構(gòu),通過構(gòu)造不同的解碼結(jié)構(gòu)對(duì)編碼結(jié)構(gòu)中不同卷積層的輸出特征進(jìn)行整合,獲得最終的邊緣輸出[8]。以VGG16為編碼網(wǎng)絡(luò)構(gòu)造的邊緣檢測(cè)模型都取得了很好的成績。如Xie等[9]提出了一種端到端的整體嵌套的輪廓檢測(cè)算法(HED),通過上采樣的方法融合VGGNet[10]五大層的側(cè)邊輸出,證明了深度學(xué)習(xí)模型在邊緣檢測(cè)的高效性。為了增加信息的利用率,Liu等[11]在HED 的基礎(chǔ)上提出了RCF網(wǎng)絡(luò),該算法將VGG16的13 層的側(cè)面輸出融合,在不增加計(jì)算成本的基礎(chǔ)上,減少了信息丟失,得到了優(yōu)于HED的效果。但是,側(cè)面輸出圖直接上采樣會(huì)導(dǎo)致圖片紋理大量增加,且輪廓粗糙,缺少細(xì)節(jié)信息。因此,Xu等[12]引入了一個(gè)分層深度模型(AMH-Net),它產(chǎn)生了更豐富和互補(bǔ)的紋理。此外,為了更好地融合從不同尺度上得到的特征圖像,提出了一種新的注意門控條件隨機(jī)場(chǎng)(AG-CRFs)。Wang等[13]提出了一種CED網(wǎng)絡(luò),該網(wǎng)絡(luò)使用逐層組合的方式融合VGG16的每一階段輸出,使用亞像素卷積的方法進(jìn)行上采樣。可見,信息逐層連接可大大提高輪廓的精度,得到清晰的邊緣。Lin等[14]提出了一種新型的水平細(xì)化網(wǎng)絡(luò)(LRCNet),通過融合不同級(jí)別的細(xì)化模塊來獲得越來越有效的輪廓信息,提高了圖像間的預(yù)測(cè)性能。Cao等[15]提出一種深度精化網(wǎng)絡(luò)(DRNet),通過堆疊多個(gè)精化模塊,設(shè)計(jì)一種鄰近結(jié)合方式。從視覺神經(jīng)機(jī)制來看,視覺系統(tǒng)的分析過程表現(xiàn)為分層化、復(fù)雜化,而特征信息的提取則逐漸細(xì)節(jié)化。視覺任務(wù)中的CNNs 通過分層次特征學(xué)習(xí)實(shí)現(xiàn)特征提取和整合,完整地模擬了整體視覺的功能。因此,將生物視覺神經(jīng)機(jī)制與深度學(xué)習(xí)相結(jié)合,模擬視覺皮層對(duì)信息的提取,并將所得信息有效結(jié)合,可取得更加優(yōu)化的效果。
本文從生物視覺出發(fā),模擬來自視網(wǎng)膜的視覺信號(hào),經(jīng)丘腦外側(cè)膝狀體處理后,參與與物體識(shí)別相關(guān)的“what”視覺通路,這一過程在目標(biāo)識(shí)別中起著關(guān)鍵作用[16]。本文模擬了 “what”通路中視網(wǎng)膜-LGN-V1-V2-V4的處理過程,搭建編碼-解碼網(wǎng)絡(luò),構(gòu)建基于仿生的深度學(xué)習(xí)模型;在BSDS500數(shù)據(jù)集和NYUD-V2數(shù)據(jù)集上對(duì)本文模型進(jìn)行定性和定量測(cè)評(píng),并與其他CNNs模型進(jìn)行對(duì)比。結(jié)果表明,本文模型優(yōu)于其他模型,有較好的檢測(cè)效果。
1? ? 模型搭建
生物視覺系統(tǒng)按照特定的規(guī)則處理圖像信息。功能性磁共振成像(fMRI)[17]研究表明,外膝體(LGN)在處理視網(wǎng)膜傳遞的圖像信息之后分為腹側(cè)(“what” 通路) 和背側(cè) (“where”通路)2條視覺通路進(jìn)行分流處理?!皐hat”通路參與物體識(shí)別,起始于初級(jí)視皮層V1區(qū),依次通過V2區(qū)和V4區(qū),進(jìn)入高級(jí)視皮層(IT區(qū))[18]。本文模擬“what”通路前端視覺處理機(jī)制搭建編碼-解碼網(wǎng)絡(luò),即:視網(wǎng)膜-LGN-V1-V2-V4。
圖1(a)為“what”通路信息流向,在“what”通路中,視網(wǎng)膜接收?qǐng)D像進(jìn)行簡單的信息提取后向LGN傳遞,LGN根據(jù)細(xì)胞感受野大小分為大細(xì)胞層和小細(xì)胞層。大細(xì)胞層對(duì)運(yùn)動(dòng)、方向、速度等信息敏感,而小細(xì)胞層對(duì)物體的形狀、顏色等信息敏感。大、小細(xì)胞層接收視網(wǎng)膜提取的信息后分別向視覺機(jī)制中初級(jí)視皮層(V1區(qū))的不同層分流傳遞。其中,V1區(qū)共分為6層,分別標(biāo)記為Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ、Ⅵ,信息流通方向?yàn)棰觥酢簟蟆颉?。Ⅳ層?nèi)部又細(xì)分為A、B、Cα、Cβ等4個(gè)小層,信息流通方向?yàn)镃β→Cα→B→A,每層處理任務(wù)各不相同。LGN大細(xì)胞層神經(jīng)元將信息傳遞至V1區(qū)Ⅳ層的Cα層,再傳遞到V1區(qū)的第Ⅱ?qū)?、第Ⅲ?小細(xì)胞層神經(jīng)元將信息傳遞到V1區(qū)的Ⅳ層的Cβ層,再傳遞到V1區(qū)的第Ⅱ?qū)?、第Ⅲ層和V2區(qū)。在第Ⅱ?qū)?、第Ⅲ層時(shí)對(duì)圖像的顏色及形狀等信息進(jìn)行重點(diǎn)提取。之后,經(jīng)過第Ⅱ?qū)印⒌冖髮犹幚淼囊曈X信號(hào)離開V1區(qū),到達(dá)V2區(qū)。V3區(qū)接收V1區(qū)第Ⅳ層中Cβ層的信息,由于V3區(qū)主要對(duì)視野中的運(yùn)動(dòng)特征進(jìn)行提取,故在腹側(cè)流中僅起到增強(qiáng)輪廓的作用。視覺聯(lián)絡(luò)區(qū)(V2區(qū)、V3區(qū)、V4區(qū))不局限于某種功能,而是對(duì)各信息進(jìn)行加工整合。V2區(qū)注重對(duì)形狀、顏色、立體視覺等信息的處理,起到調(diào)制復(fù)雜信息的作用。V4區(qū)和V1區(qū)相似,提取形狀、顏色等信息,用來接收來自V1區(qū)、V2區(qū)、V3區(qū)及部分LGN的前饋信息,擁有強(qiáng)大的注意力調(diào)節(jié)功能,可分離出更加復(fù)雜精確的輪廓。本文根據(jù)上述視覺機(jī)制搭建網(wǎng)絡(luò),整體結(jié)構(gòu)如圖1(b)所示。
編碼網(wǎng)絡(luò)分別模擬了視網(wǎng)膜、LGN、V1區(qū)、V2區(qū)的視覺傳遞機(jī)制。為了模擬視網(wǎng)膜提取初級(jí)特征的能力,設(shè)計(jì)了由2個(gè)連續(xù)的3*3卷積核組成的模塊,對(duì)輸入圖像的輪廓特征進(jìn)行提取,如圖1(c)所示。將所提取的特征經(jīng)過最大值池化后傳遞至模擬LGN的模塊中。視神經(jīng)學(xué)中根據(jù)LGN細(xì)胞感受野大小分為大細(xì)胞層和小細(xì)胞層,基于這一特性本文設(shè)計(jì)了大細(xì)胞層和小細(xì)胞層2個(gè)通道。對(duì)于大細(xì)胞層而言,其細(xì)胞感受野相對(duì)較大且數(shù)量較少,因此,使用一組卷積操作來模擬大細(xì)胞層的特征獲取能力。它由連續(xù)2個(gè)5*5卷積核組成,所得特征作為LGN大細(xì)胞層的側(cè)面輸出,如圖1(d)所示。對(duì)于小細(xì)胞層而言,其細(xì)胞感受野較小且數(shù)量較多,因此,設(shè)計(jì)了3組平行卷積操作,每一組都由2個(gè)3*3卷積核組成,如圖1(c)所示,將3組處理后的特征信息求取算數(shù)平均值并作為LGN小細(xì)胞層的側(cè)面輸出。 LGN接收視網(wǎng)膜的信息后向V1區(qū)傳遞,而V1區(qū)內(nèi)部Ⅳ層中Cα 、Cβ 2個(gè)小層分別接收來自LGN的信息。其中,V1區(qū)Ⅳ層中的Cα層接收LGN大細(xì)胞層神經(jīng)元投射的信息,V1區(qū)Ⅳ層中的Cβ層接收LGN小細(xì)胞層神經(jīng)元投射的信息。從V1區(qū)Cα 、Cβ層輸出的信息經(jīng)過池化相加后,向模擬V1區(qū)中第Ⅱ?qū)雍偷冖髮拥哪K傳遞,經(jīng)其處理后的輪廓信息分別向V2區(qū)和V4區(qū)傳遞。此外, 經(jīng)fMRI研究發(fā)現(xiàn),V1區(qū)Cβ層經(jīng)V3區(qū)的處理后再向V4區(qū)傳遞,V4區(qū)對(duì)所有接收到的特征信息進(jìn)行統(tǒng)一處理。其中,V1區(qū)第Ⅳ層的Cα層和Cβ層、V1區(qū)第Ⅱ?qū)雍偷冖髮雍蚔3模塊的模型結(jié)構(gòu)均采用3個(gè)連續(xù)的3*3卷積操作來模擬,如圖1(e)所示。對(duì)于V2區(qū)的功能,選擇3個(gè)連續(xù)的空洞卷積來模擬,空洞率設(shè)置為1,有效地加強(qiáng)了網(wǎng)絡(luò)的泛化能力,提取到了更加清晰的特征信息,如圖1(f)所示。
解碼網(wǎng)絡(luò)模擬“what”通路中V4區(qū)的功能及作用。在V4區(qū)之前,通路中各部分已基本完成了視覺機(jī)制中簡單的輪廓提取任務(wù),且V4區(qū)位于整個(gè)腹側(cè)流的中高層,是視覺處理機(jī)制的中繼站,也是多種信息的匯聚點(diǎn)[16]。本文解碼網(wǎng)絡(luò)模擬V4區(qū)的功能作用,接收并融合來自LGN、V1、V2等機(jī)制處理所得的豐富信息,合成最終輪廓。模擬V4區(qū)網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示。選取編碼網(wǎng)絡(luò)中的5幅側(cè)面輸出圖進(jìn)行解碼,即:LGN小細(xì)胞層、V1區(qū)的Cβ層、V3區(qū)、V1區(qū)的第Ⅱ?qū)雍偷冖髮印2區(qū)的側(cè)面輸出信息,標(biāo)注為如圖2(a)所示的P1、P2、P3、P4、P5。
將P1、P2、P3、P4、P5這5幅側(cè)面輸出圖視為“what”通路前期提取的特征信息。使用一種鄰近結(jié)合的方式將高分辨率與相鄰的低分辨率通過精煉模塊R兩兩結(jié)合,如圖2(a)所示。其中,精煉模塊R包含2個(gè)輸入和1個(gè)輸出,每個(gè)輸入通過1個(gè)大小為3*3的卷積核來改變圖片通道,使輸出特征圖與2個(gè)輸入特征圖中通道數(shù)少的一方相同。設(shè)置Relu激活函數(shù)與BN層加快訓(xùn)練速度,隨后與經(jīng)過sigmoid函數(shù)歸一化的權(quán)重系數(shù)相乘,解決輸出邊緣在不同分辨率下的特征比率不平衡的問題。將低分辨率特征信息經(jīng)雙線性上采樣操作至與高分辨率特征相同并相加,如圖2(b)所示。由于P3與P4的圖片分辨率相同,在此處省略精煉模塊R中上采樣的處理過程,將兩者權(quán)重卷積過后的結(jié)果直接相加,輸出至下一階段。解碼網(wǎng)絡(luò)的最后1個(gè)精煉模塊通過1個(gè)1*1的卷積核處理后得到的預(yù)測(cè)結(jié)果為最終邊緣檢測(cè)結(jié)果。
2? ? 實(shí)驗(yàn)結(jié)果與分析
2.1? ?網(wǎng)絡(luò)設(shè)置
本文將非極大值抑制處理方法應(yīng)用于所有的輸出結(jié)果。使用BSDS500數(shù)據(jù)集[19] 及NYUD-V2數(shù)據(jù)集[20]對(duì)所提出的檢測(cè)方法進(jìn)行定性和定量的實(shí)驗(yàn)驗(yàn)證,并與其他深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)比。
為了改善邊緣質(zhì)量,創(chuàng)建了圖像金字塔[21]以檢測(cè)多尺度輪廓。單尺度檢測(cè)器是以圖像原始大小進(jìn)行采樣。多尺度模型首先將放大或縮小的圖像輸入單尺度檢測(cè)器中,再用雙線性鄰近插值將所得邊緣圖調(diào)整為原始圖像尺寸,最后通過求取每個(gè)像素點(diǎn)的平均值作為最終的預(yù)測(cè)圖。本文使用0.5倍圖像、1倍圖像、2倍圖像進(jìn)行融合。
使用精確-回歸(precision-recall,P-R)曲線和調(diào)和平均數(shù)[F]值來評(píng)判輪廓檢測(cè)模型的性能。[F]值的定義如下:
[F=2PR/(P+R)],? ? ? ? ? ? ? ? ? ? ?(1)
其中:[P]和[R]分別代表精確度和回歸度,[P=NTP/(NTP+NFP)],[R=NTP/(NTP+NFN)];[NTP]、[NFP]和[NFN]分別代表輪廓像素的正確個(gè)數(shù)、錯(cuò)誤檢測(cè)個(gè)數(shù)和漏檢測(cè)個(gè)數(shù)。
輪廓檢測(cè)模型一般使用以下3個(gè)指標(biāo)來評(píng)價(jià)性能:1)固定閾值下整個(gè)數(shù)據(jù)集得到一個(gè)最優(yōu)[F]值,被稱作最優(yōu)的數(shù)據(jù)集尺度(ODS);2)每一幅圖像在一個(gè)固定閾值得到一個(gè)最優(yōu)[F]值,被稱作最優(yōu)的圖像尺度(OIS);3)數(shù)據(jù)集的平均精度(AP)。
2.2? ?整體結(jié)構(gòu)對(duì)比分析
2.2.1? ? BSDS500
BSDS500數(shù)據(jù)集為BSDS300的擴(kuò)展版,包含200幅測(cè)試圖像和300幅訓(xùn)練圖像,其中每幅圖像都對(duì)應(yīng)著5~10個(gè)由人工標(biāo)注的真實(shí)輪廓。由于訓(xùn)練數(shù)據(jù)有限,將這300幅訓(xùn)練圖像旋轉(zhuǎn)、縮放和裁剪為24 880幅圖像,從而擴(kuò)展了BSDS500訓(xùn)練集。將BSDS500增強(qiáng)訓(xùn)練集與Pascal VOC訓(xùn)練集(即表1中的VOC)[22]混合作為訓(xùn)練數(shù)據(jù)。在評(píng)估過程中,采用標(biāo)準(zhǔn)非最大抑制(NMS)對(duì)檢測(cè)到的邊緣進(jìn)行細(xì)化。將該算法與傳統(tǒng)的邊緣檢測(cè)算法、機(jī)器學(xué)習(xí)、仿生學(xué)習(xí)及近幾年的深度學(xué)習(xí)算法作比較,包括:Canny[23]、SCO[24]、Pb[25]、gPb[19]、DeepContour[26]、DeepEdge[27]、HED[28]、CED[13]、RCF[29]、DRNet[15]、LRCNet[14]。在本文中,SS 表示單尺度,MS 表示多尺度。
表1為BSDS500數(shù)據(jù)集上ODS、OIS和AP的定量評(píng)價(jià)結(jié)果,由表1可知,無論是單尺度還是多尺度,本文方法均優(yōu)于所列文獻(xiàn)中的方法。本文模型的ODS為0.820,OIS為0.840,AP為0.852,其網(wǎng)絡(luò)結(jié)果在BSDS500數(shù)據(jù)集上超過了人類基準(zhǔn)(ODS=0.803),相較于其他仿生學(xué)及深度學(xué)習(xí)網(wǎng)絡(luò)都有較好的檢測(cè)結(jié)果;單尺度和多尺度ODS值相比于LRCNet[14]在BSDS500和VOC混合數(shù)據(jù)集中分別提高了0.12%和0.49%。本文為了加快計(jì)算速度,縮減了網(wǎng)絡(luò)內(nèi)存,只對(duì)最終輸出結(jié)果求損失函數(shù)與真實(shí)輪廓圖進(jìn)行對(duì)比,因而AP值并沒有優(yōu)于其他所有網(wǎng)絡(luò)。圖3為算法的P-R曲線,圖4展示了一些模型在BSDS500測(cè)試集上的定性結(jié)果。由圖4可以看出,本文模型在預(yù)測(cè)出更多邊緣細(xì)節(jié)的同時(shí),含有更少的背景紋理。
2.2.2? ?NYUD-V2
該數(shù)據(jù)集一共由1 449幅自然圖像組成(381幅訓(xùn)練圖像,414幅驗(yàn)證圖像和654幅測(cè)試圖像),每幅圖像都對(duì)應(yīng)著由人工標(biāo)注的真實(shí)輪廓,由654幅測(cè)試圖像得到NYUD-V2的定量實(shí)驗(yàn)。該數(shù)據(jù)集共分為2種類型圖片:HHA與RGB圖像。本文在檢測(cè)這2種圖片的基礎(chǔ)上將兩者結(jié)合,對(duì)HHA-RGB進(jìn)行測(cè)試,并將提出的模型與機(jī)器學(xué)習(xí)及其他深度學(xué)習(xí)的網(wǎng)絡(luò)進(jìn)行了比較,包括gPb-UCM[19]、SE[30]、gPb+NG[31]、OEF[32]、HED[28]、RCF[11]、LPCB[33]、LRC[14]、BDCN[34]。表2為NYUD-V2數(shù)據(jù)集上ODS、OIS和AP的定量評(píng)價(jià)結(jié)果,圖5為算法在NYUD-V2測(cè)試集上的P-R曲線,圖6展示了一些模型在測(cè)試集上的定性結(jié)果。
由表2、圖5可知,本文網(wǎng)絡(luò)用于HHA圖像的ODS達(dá)到了0.689,用于RGB圖像的ODS達(dá)到了0.743,RGB和HHA平均融合結(jié)果的ODS為0.766,OIS為0.779,AP為0.787。以LRCNet為例,本文網(wǎng)絡(luò)在RGB上的ODS值可與其持平,在HHA上的結(jié)果卻相差甚遠(yuǎn),但RGB和HHA平均融合結(jié)果優(yōu)于LRCNet的結(jié)果。說明本文網(wǎng)絡(luò)雖可過濾大量的紋理背景,且突出了輪廓特征,但提升效果并不明顯。其主要原因分析圖6可知,RGB和HHA的融合結(jié)果中包含了來自HHA預(yù)測(cè)圖的絕大部分邊緣和背景紋理,影響了最終的檢測(cè)結(jié)果。
由圖6可以看出,本文模型的預(yù)測(cè)結(jié)果過濾了大量的背景紋理,邊緣更加清晰。
3? ? 結(jié)論
提取清晰的底層特征是邊緣檢測(cè)的難點(diǎn)之一。近幾年的邊緣檢測(cè)模型通常以VGG16為編碼網(wǎng)絡(luò)并在此基礎(chǔ)上搭建解碼網(wǎng)絡(luò),忽略了神經(jīng)元之間復(fù)雜的信息流向,且編碼網(wǎng)絡(luò)的側(cè)面輸出圖邊緣粗糙、攜帶大量的紋理與噪聲。本文從生物視覺出發(fā),摒棄了經(jīng)典VGG16結(jié)構(gòu),模擬視覺神經(jīng)機(jī)制中“what”通路的信息傳遞方向,搭建全新的編碼網(wǎng)絡(luò)結(jié)構(gòu),并模擬V4區(qū)的特征整合功能設(shè)計(jì)解碼網(wǎng)絡(luò)。經(jīng)過對(duì)比分析,所提出的編碼網(wǎng)絡(luò)適用于大部分解碼網(wǎng)絡(luò),并可以表現(xiàn)出良好的成績。整體模型結(jié)構(gòu)在BSDS500數(shù)據(jù)集和NYUD-V2數(shù)據(jù)集上進(jìn)行定性和定量實(shí)驗(yàn),結(jié)果表明,與多個(gè)網(wǎng)絡(luò)的檢測(cè)效果相比,均表現(xiàn)出明顯的優(yōu)勢(shì)。其中,本網(wǎng)絡(luò)在BSDS500數(shù)據(jù)集上,獲得了ODS為0.820的效果,相較于LRCNet提升了0.49%。本文提出的方法為后續(xù)輪廓檢測(cè)研究提出了一個(gè)新的思路,為將生物視覺機(jī)制融入視覺任務(wù)中拓展了新的方向。
參考文獻(xiàn)
[1]? ? ?林川,曹以雋.基于深度學(xué)習(xí)的輪廓檢測(cè)算法:綜述[J].廣西科技大學(xué)學(xué)報(bào),2019,30(2): 1-12.
[2]? ? ?CHAPELLE O,HAFFNER P,VAPNIK V N.Support vector machines for histogram-based image classification[J].IEEE Transactions on Neural Networks,1999,10(5):1055-1064.
[3]? ? ?BOSCH A,ZISSERMAN A,MU?OZ X.Image classification using random forests and ferns[C]//2007 IEEE 11th International Conference on Computer Vision,2007.
[4]? ? VIOLA P,JONES M.Rapid object detection using a boosted cascade of simple features[C]//2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001.
[5] FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[6]? ? ?PINHEIRO P O,LIN T Y,COLLOBERT R,et al.Learning to refine object segments[C]//14th European Conference on Computer Vision,ECCV,2016:75-91.
[7]? ? ?NOH H,HONG S,HAN B.Learning deconvolution network for semantic segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:1520-1528.
[8]? ? ?張曉,林川,王蕤興.輪廓檢測(cè)深度學(xué)習(xí)模型的多尺度特征解碼網(wǎng)絡(luò)[J].廣西科技大學(xué)學(xué)報(bào),2021,32(3):60-66.
[9]? ? ?XIE S,TU Z.Holistically-nested edge detection[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV),2015 :1395-1403
[10]? ?SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition[J].Computer Vision and Pattern Recognition,2014.arXiv:1409.1556.
[11]? ?LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2017:5872-5881.
[12]? ?XU D,OUYANG W L,ALAMEDA-PINEDA X,et al.Learning deep structured multi-scale features using attention-gated CRFs for contour prediction[C]//31st Annual Conference on Neural Information Processing Systems,2017.
[13]? ?WANG Y P,ZHAO X H,HUANG K Q.Deep crisp boundaries[C]//IEEE Conference on Computer Vision and Pattern Recognition,2017:3892-3900.
[14]? ?LIN C,CUI L H,LI F Z,et al.Lateral refinement network for contour detection[J].Neurocomputing,2020,409:361-371.
[15]? ?CAO Y J,LIN C,LI Y J.Learning crisp boundaries using deep refinement network and adaptive weighting loss[J]. IEEE Transactions on Multimedia,2021,23:761-771.
[16]? ?DESIMONE R,SCHEIN S J,MORAN J,et al.Contour,color and shape analysis beyond the striate cortex[J].Vision Research,1985,25(3):441-452.
[17]? ?ENGEL S A,RUMELHART D E,WANDELL B A,et al.fMRI of human visual cortex[J].Nature,1994,369:525-525.
[18]? ?KANDEL E R,SCHWARTZ J H,JESSELL T M,et al.Principles of neural science[M].5th ed.New York:McGraw-Hill? Medical,2012.
[19]? ?ARBELAEZ P,MAIRE M,F(xiàn)OWLKES C,et al.Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(5):898-916.
[20]? ?SILBERMAN N,HOIEM D,KOHLI P,et al.Indoor segmentation and support inference from RGBD images[C]//12th European Conference on Computer Vision,2012 :746-760.
[21]? ?LIN T Y,DOLLáR P,GIRSHICK R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2117-2125.
[22]? ?GUPTA S,GIRSHICK R,ARBELáEZ P,et al.Learning rich features from RGB-D images for object detection and segmentation[C]//Proceedings of 13th European Conference on Computer Vision,2014.
[23]? ?CANNY J.A computational approach to edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1986,8(6):679-698.
[24]? ?YANG K F,GAO S B,GUO C F,et al.Boundary detection using double-opponency and spatial sparseness constraint[J].IEEE Transactions on Image Processing,2015,24(8):2565-2578.
[25]? ?MARTIN D R,F(xiàn)OWLKES C C,MALIK J.Learning to detect natural image boundaries using local brightness,color,and texture cues[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(5):530-549.
[26]? ?SHEN W,WANG X G,WANG Y,et al.DeepContour:a deep convolutional feature learned by positive-sharing loss for contour detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:3982-3991.
[27]? ?BERTASIUS G,SHI J B,TORRESANI L. DeepEdge:a multi-scale bifurcated deep network for top-down contour detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:4380-4389.
[28]? ?XIE S N,TU Z W.Holistically-nested edge detection[J].International Journal of Computer Vision,2017,125:3-18.
[29]? ?LIU Y,CHENG M M,HU X W,et al.Richer convolutional features for edge detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(8):1939-1946.
[30]? ?DOLLáR P,ZITNICK C L.Fast edge detection using structured forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(8):1558-1570.
[31]? ?KOKKINOS I.Pushing the boundaries of boundary detection using deep learning[C]//International Conference on Learning Representations,2016.
[32]? ?HALLMAN S,F(xiàn)OWLKES C C.Oriented edge forests for boundary detection[C]//IEEE Conference on Computer Vision and Pattern Recognition,2015:1732-1740.
[33]? ?DENG R X,SHEN C H,LIU S J,et al.Learning to predict crisp boundaries[C]//Proceedings of the European Conference on Computer Vision,2018:562-578.
[34]? ?HE J Z,ZHANG S L,YANG M,et al.Bi-directional cascade network for perceptual edge detection[C]//32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019.
An edge detection network simulating the front-end vision mechanism of? "what" pathway
PAN Shenghui, WANG Ruixing, LIN Chuan*
(School of Electrical, Electronic and Computer Science, Guangxi University of Science and Technology,
Liuzhou 545006, China)
Abstract: Edge detection is a key step in image processing. In recent years, edge detection has built an encoding-decoding network based on Convolutional Neural Networks(CNNs), and has achieved good results. Among them, the coding network is usually built based on classic networks such as VGG16, and researchers more focus on the design of the decoding network. Considering that the? ? ? ? existing coding network has limited ability to extract features and ignores the complex information flow between neurons, this study simulates the biological vision mechanism of the retina, the lateral geniculate body(LGN), and the front end of the ventral pathway("what" pathway), including V1, V2, and V4, to build a new encoding network and decoding network. In this paper, the encoding network simulates the information transfer mechanism of the retina-LGN-V1-V2 to fully extract the feature? ? ?information in the image; the decoding network simulates the information integration function of the V4 area, and the adjacent fusion module is designed to integrate the feature prediction of the encoding network to realize the full integration of feature information. This neural network model has performed a large number of experiments on the BSDS500 dataset and NYUD-V2 dataset, and the results have been significantly improved compared with competitors in recent years. Through comparative? ? ? ? ? ? ?experiments, the F value(ODS)of the encoding-decoding method built in this paper is 0.820, which is about 0.49% higher than that of? LRCNet.
Key words: edge detection; biological vision; encoding-decoding network; feature extraction; conventional neural networks(CNNs)
(責(zé)任編輯:黎? 婭)