摘" 要: 針對復雜圖像邊緣檢測任務中多尺度特征提取困難和多尺度特征利用率低的問題,提出一種基于金字塔結構的Transformer邊緣檢測模型。該模型首先采用擅長根據(jù)全局遠程依賴關系進行建模的Transformer特征提取主干——PVT網(wǎng)絡,取代傳統(tǒng)卷積神經(jīng)網(wǎng)絡,解決多尺度特征利用率低的問題;其次,為了充分考慮跨層間上下文特征交互問題,設計了一個專門用來建模和轉移上下文知識的模塊,用于探索更多顯著邊緣的判別信息;最后,設計了一個基于注意力機制的多尺度特征增強模塊,通過充分挖掘檢測對象的多層次和多尺度特征信息,實現(xiàn)對邊緣的預測,提高模型邊緣檢測精度。而且,模型的特征求和與拼接過程不占顯存也不占內(nèi)存,加快了模型的推理速度。在BSDS500和BIPED兩個公開數(shù)據(jù)集上進行大量實驗,在BSDS500數(shù)據(jù)集上邊緣檢測的ODS值達到0.796;在BIPED數(shù)據(jù)集上邊緣檢測的ODS值達到了0.846,實驗結果表明該算法在性能上優(yōu)于對比模型。
關鍵詞: 邊緣檢測; Transformer; 多尺度特征提?。?卷積神經(jīng)網(wǎng)絡; PVT; 多尺度特征增強
中圖分類號: TN911.23?34; TP391" " " " " " " " " "文獻標識碼: A" " " " " " " " " 文章編號: 1004?373X(2024)19?0131?08
Research on Transformer edge detection algorithm based on pyramid structure
DUAN Xuyan1, YU Fuxing1, 2, SUO Yina1, 2
(1. School of Artificial Intelligence, North China University of Science and Technology, Tangshan 063210, China;
2. Hebei Key Laboratory of Industrial Intelligent Perception, Tangshan 063210, China)
Abstract: In view of the difficult multi?scale feature extraction and low utilization rate of multi?scale features in the task of complex image edge detection, a Pyramid?structured Transformer edge detection model is proposed. In this model, the Transformer feature extraction trunk named PVT (pyramid vision transformer) network, which is good at modeling based on global long?range dependency relationships, is adopted to replace the traditional convolutional neural network (CNN), so as to improve the utilization rate of multi?scale features. A module specifically designed for modeling and transferring context knowledge is designed to explore more discriminant information of significant edges, so as to take account of the cross?layer context feature interaction between layers fully. A multi?scale feature enhancement module (MSFEM) based on the attention mechanism (AM) is designed to achieve the prediction of edges by fully exploring the multi?level and multi?scale feature information of the objects under detection, and to increase the edge detection accuracy of the model. Moreover, the feature summing and stitching process of the model does not occupy video memory nor memory, and speeds up the model inference speed. A large number of experiments were carried out on the two public datasets BSDS500 and BIPED. The ODS (optimal dataset scale) value of edge detection on the dataset BSDS500 reached 0.796; and on the dataset BIPED, the ODS value of edge detection reached 0.846. The experimental results show that the proposed algorithm is superior to the bechmark model in performance.
Keywords: edge detection; Transformer; multi?scale feature extraction; CNN; PVT; multi?scale feature enhancement
0" 引" 言
邊緣檢測作為計算機視覺的基礎任務之一,通過降低待處理數(shù)據(jù)量來簡化分析過程,保留關鍵信息,在多個領域如計算機視覺和圖像處理等任務中極為重要。因此,對邊緣檢測技術的研究也在不斷深入。
由早期利用手工特征挖掘低層次視覺線索到最近的深度學習模型,邊緣檢測算法層出不窮。早期方法依賴亮度、顏色、紋理和梯度等局部特征,如Robert[1]、Sobel[2]、Prewitt[3]和Canny[4]等算子;基于信息理論方法包括gPbowl?ucm[5]和SCG[6]算法或結構化方法SE[7]算法。雖然傳統(tǒng)方法也在不斷進步,但仍存在一些根本性限制。深度學習的發(fā)展推動了邊緣檢測技術的進步。2015年,DeepEdge[8]利用卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)進行端到端邊緣檢測,但未充分利用高層語義信息。同年,HED[9]算法通過全卷積網(wǎng)絡和VGG16框架實現(xiàn)精確的圖像級邊緣映射。隨后,基于CNN的深度條件隨機域立體匹配[10]、多尺度運動目標檢測[11]和端到端邊緣保留網(wǎng)絡中[12]的應用不斷涌現(xiàn)。2019年雙向級聯(lián)網(wǎng)絡[13]通過在所有CNN層施加邊緣監(jiān)督,雖然提升了多尺度特征提取,但仍以VGG16為基礎,存在一定的局限性。
2020年以前,邊緣檢測主要使用如ResNet和VGG的傳統(tǒng)神經(jīng)網(wǎng)絡,但這些基于CNN的算法受限于結構設計,主要捕捉局部特征,難以處理長距離空間關系,導致在自然場景中邊緣定位不夠精細。自2020年起,Transformer[14]因其能捕獲長距離依賴和關鍵邊緣信息的自注意力機制,提升了邊緣檢測的準確性和真實性,對CNN在計算機視覺領域的主導地位構成挑戰(zhàn)。
因此,為解決上述基于傳統(tǒng)CNN的邊緣檢測算法在多尺度特征提取利用率低的問題,本文提出一種基于金字塔結構的Transformer邊緣檢測算法。該模型摒棄了傳統(tǒng)基于CNN的特征提取技術,轉而采用擅長捕獲長距離遠程依賴的上下文信息的特征提取主干Transformer結構——PVT[15]網(wǎng)絡,解決了傳統(tǒng)CNN多尺度特征利用率低的問題;接著,設計了一個處理跨層上下文特征交互問題的知識遷移模塊,以便提取出更為關鍵的邊緣判別信息。此外,從模型優(yōu)化的角度,還設計了一個依托于注意力機制的多尺度特征增強模塊,該模塊深入分析檢測目標的多層級和多維度特征,不但實現(xiàn)了對邊緣的更精準預測,還能規(guī)避金字塔結構重復邊緣提取的問題。值得一提的是,模型在進行特征求和與拼接的過程中,做到了既不占用顯存也不消耗內(nèi)存,這大大加快了模型的推理速度,提高了整體的運行效率。
1" 本文方法
本文提出基于金字塔結構的Transformer邊緣檢測網(wǎng)絡模型,如圖1所示,包括特征提取模塊(Pyramid Vision Transformer, PVT)、知識遷移模塊(Knowledge Transfer Module, KTM)、多尺度特征增強模塊(Multi Scale Feature Enhancement Block, MSFEB)。
1.1" 多尺度特征提取
在許多視覺任務中,提取和融合多尺度特征是至關重要的基礎工作。本文采用的是基于金字塔結構的Transformer特征提取主干結構——PVT結構,用于提取不同分辨率的多尺度圖像特征。PVT是基于Vision Transformer的一種強大的視覺模型,它通過結合Transformer架構和金字塔式的特征處理方法,能夠有效地處理多尺度的視覺信息。
PVT的具體結構如圖2所示。首先,圖像進入輸入層被分割成固定大小的小塊,這些小塊被展平并線性嵌入到一個高維空間中;然后,它使用一個分層的金字塔結構來逐步降低特征的空間分辨率,同時增加感受野。PVT網(wǎng)絡的每個層級都包含一組自注意力和前饋網(wǎng)絡,用于提取特征。在每個層級中,自注意力機制被用來捕捉圖像塊之間的全局依賴關系。這一操作允許模型學習到跨空間位置的特征交互。在自注意力層之后是前饋網(wǎng)絡,它對特征進行非線性變換,增強模型的表達能力。同時,PVT的層次結構允許模型在不同的抽象層次上捕捉圖像特征,從而更好地處理多尺度的視覺信息。
本文采用金字塔結構的PVT網(wǎng)絡作為本模型邊緣檢測任務的主干網(wǎng)絡,其輸入大小設置為3×352×352。如圖2所示,將PVT設計成由4個編碼器組成,記為[Ti=i∈1,2,3,4],可以生成具有全局遠程依賴關系的四階段全局基本特征,記為[fit∈Rci×hi×wi],其中[ci∈64,128,320,512],[hiwi=3252i+1]。為了提高計算效率,通過卷積層將[fiti∈1,3,4]的通道數(shù)統(tǒng)一為32,生成[fit∈Rc×hi×wi],其中[c]為32。
值得注意的是,對于[f2t],不僅將其通道數(shù)減少到32,還將其分辨率從44×44調整到22×22,以便在KTM中進行后續(xù)處理,生成[f2t∈R32×22×22]。對于最低層特征[f1t]和最高層特征[f4t],采用通道和空間注意力機制的集成者進行局部增強。此外,采用KTM來激活[f2t]和[f3t]的跨層上下文交互,生成[fKTM]的判別特征。
1.2" 知識遷移
由于PVT提取的基本特征具有全局遠程依賴性,然而僅考慮局部增強是不夠的,還要考慮其層與層之間特征的跨層上下文交互,以探索更多顯著邊緣的判別信息,來補充其全局信息并適應自然圖像中的各種復雜場景。換句話說,希望能夠突出不同通道間不同特征的突出區(qū)域,因此,本文引入一個知識遷移模塊用于探索跨層特征間的上下文交互。KTM基于注意力機制對兩個不同尺度特征的語境相關知識進行建模,并將這些知識轉移到原始特征上,生成更多的判別特征。在本文中,采用KTM增強[f1t]層和[f2t]層特征的上下文交互,以及[f3t]層和[f4t]層特征的上下文交互,對這些特征的乘積以及和兩種類型組合的上下文相關知識進行建模,并將這些知識轉移到原始特征上,以生成更多的判別特征。最后,本文使用邊緣預測器從上述模塊的輸出生成特征映射。KTM的詳細結構如圖3所示。
接下來,詳細介紹KTM的兩個組成部分,即上下文關聯(lián)知識建模和知識轉移。
1.2.1" 上下文關聯(lián)知識建模
在邊緣檢測任務中,兩個層特征可以揭示兩個特征中共存的重要信息,有利于協(xié)同識別目標。兩個特征的和可以全面捕獲兩個特征所包含的信息而不遺漏,有利于細化邊緣。特別是對于本文的框架,[f1t]和[f2t]的乘積和以及[f3t]和[f4t]的乘積和在一定程度上是互補的。因此,這里采用自注意力機制分別對[f1t]和[f2t]的乘積和以及[f3t]和[f4t]的乘積和之間的上下文相關知識進行建模。
如上文1.1節(jié)所述,將[f1t]、[f2t]、[f3t]和[f4t]的大小統(tǒng)一為32×22×22。為方便起見,將[f1t]、[f2t]、[f3t]和[f4t]的大小表示為[c]×[h]×[w]。在這里,將[f1t]和[f2t]的乘積和分別記為[fpro1∈Rc×h×w]和[fsum1∈Rc×h×w],將[f3t]和[f4t]的乘積和分別記為[fpro2∈Rc×h×w]和[fsum2∈Rc×h×w]。為了降低計算成本,對[fpro1]、[fpro2]、[fsum1]和[fsum2]執(zhí)行通道數(shù)為[c2]的卷積層,生成4個新特征[fpro1, fsum1∈R(c2)×h×w]和[fpro2, fsum2∈R(c2)×h×w]。然后,對[fsum1]進行重構和轉置得到[fQ1∈R(hw)×(c2)],對[fpro1]進行重構得到[fK1∈R(c2)×(hw)],對[fsum2]和[fpro2]進行同樣的處理,得到[fQ2]和[fK2]。對[fQ1]和[fK1]之間的上下文相關知識[C∈Rhw×hw]建模的詳細過程如下,對[fQ2]和[fK2]的上下文相關知識的建模操作與之相同。
[C1=softmaxfQ1?fK1C2=softmaxfQ2?fK2] (1)
式中:softmax(·)為softmax激活函數(shù);“?”為矩陣乘法。
通過這種方法,建立了[fpro]中共存的顯著邊緣信息與[fsum]的綜合特征之間的像素依賴關系模型,有效地避免了邊緣特征的缺失。
1.2.2" 知識遷移
在[f1t]、[f2t]、[f3t]和[f4t]上使用卷積層生成4個新的特征[f1t, f2t, f3t, f4t∈Rc×h×w],然后對它們進行重構得到[fv1, fv2, fv3, fv4∈Rc×hw]。將建模后的知識[C]轉移到[fv1]、[fv2]、[fv3]和[fv4],生成信息轉移特征[f1tsf, f2tsf, f3tsf, f4tsf∈Rc×h×w]如下:
[f1tsf=Rfv1?TC1f2tsf=Rfv2?TC1f3tsf=Rfv3?TC2f4tsf=Rfv4?TC2] (2)
式中:[R(·)]為重塑矩陣;[T(·)]為轉置矩陣。
接著使用一個可訓練權值,通過殘差連接自適應融合[f1tsf]和[f1t],并對[f2tsf]和[f2t]進行同樣的處理,生成[f1tsf, f2tsf∈Rc×h×w]。對[f3tsf]和[f4tsf]同樣處理生成[f3tsf, f4tsf∈Rc×h×w]。最后,采用元素求和與卷積層對交叉層次的[f1tsf]和[f2tsf]進行卷積,[f3tsf]和[f4tsf]進行相同操作,得到KTM的判別輸出特征[fKTM1∈Rc×h×w]和[fKTM2∈Rc×h×w]。
綜上所述,[fKTM1]繼承了[f1t]和[f2t]兩種組合的性質,同樣,[fKTM2]繼承了[f3t]和[f4t]兩種組合的性質,因此它們具有同時識別和闡述邊緣的能力。這有利于本文的網(wǎng)絡結構結合多尺度特征增強進行更好的邊緣對象推斷。
1.3" 多尺度特征增強
為了豐富本模型學習的多尺度特征表示,本文設計了一個多尺度特征增強模塊,如圖4所示。
MSFEB模塊不使用相對更深層的CNN或明確的多尺度邊緣映射來生成多尺度特征,而是先利用深度卷積和ReLU操作、并行的卷積濾波器,接著利用CA、SA和1×1的卷積做了殘差,這樣構成多尺度特征增強模塊效果比較好。與之前引入更深層次網(wǎng)絡或者明確融合多個邊緣檢測的策略相比,MSFEB模塊巧妙地避免了對圖像金字塔的重復邊緣檢測問題。這樣的方法支持在網(wǎng)絡不同層次學習多尺度表示,并且能夠有效地檢測邊緣,使得邊緣特征能夠克服不同尺度問題從而很好地被描述出來。
在KTM中得到的特征[fKTM],經(jīng)過以下操作得到MSFEB的輸出特征,計算過程如下:
[F'=DConvReLUfKTMF'1=DConvReLUF'F'2=DConvReLUF'F'3=DConvReLUF'F=F'+F'1+F'2+F'3F=SACAFFMSFEB=F+Conv1fKTM] (3)
與以往基于CNN的方法不同的是,本模型通過構建MSFEB來高效地學習多尺度表示,增強了卷積層中學習的多尺度表示,避免了金字塔結構對多個輸入圖像的重復計算問題,實現(xiàn)了在效率和精度之間取得更好的平衡。
1.4" 損失函數(shù)
損失函數(shù)是一種評估模型預測準確性的工具,其核心作用是計算模型預測結果與真實情況之間的偏差。這種函數(shù)的值總是大于或等于零,并且通常用符號[LY, f(x)]來表示,其中[Y]代表真實值,[f(x)]代表預測值。這個函數(shù)的數(shù)值越低,意味著模型的預測結果與實際情況越接近,表明模型具有更好的穩(wěn)健性和可靠性。簡而言之,損失函數(shù)是判斷模型性能的一個重要指標,其數(shù)值的最小化是優(yōu)化模型的目標之一。本文網(wǎng)絡的訓練帶有兩種類型的損失。本模型將總損失[Lsum]表示為:
[Lsum=s=1Swside?Ls+wfuse?LP,Y] (4)
式中:[Ls]為二值交叉熵損失;[P]為最終的邊緣預測。
二值交叉熵損失定義為:
[Ls=-1ni=1nyi?logp(yi=1)+" " " " " " " (1-yi)?log(1-p(yi=1))] (5)
式中:[n]是樣本數(shù)量;[yi]是第[i]個樣本的二元標簽值0或1(groundtruth);[p(yi=1)]是模型對第[i]個樣本的預測值,即模型預測第[i]個樣本標簽值為1的概率。
針對不同標注器之間的邊緣標注不一致的問題,本模型還引入了閾值[γ]進行損失計算。設[Y=yj, j=1,2,…,Y, yj∈(0,1)],定義[Y+=yj,yjgt;γ]和[Y-=yj,yj=0],在損耗計算中只考慮對應于[Y+]和[Y-]的像素。因此本模型將[L?]定義為:
[LP, Y=-αj∈Ylog1-pj-βj∈Y+logpj] (6)
式中:[P=pj, j=1,2,…,P, pj∈0,1]為預測邊緣映射;[α=λ?Y+ Y++Y-]為平衡邊緣;[β=Y- Y++Y-]為非邊緣像素;[λ]為控制正值樣本相對于負值樣例的權重。
2" 實驗準備
2.1" 數(shù)據(jù)集
數(shù)據(jù)集對邊緣檢測研究至關重要,本文通過BSDS500和BIPED兩個公開數(shù)據(jù)集驗證模型的泛化性。BSDS500包含500張自然場景圖像,分為200張訓練集、200張測試集和100張驗證集,圖像經(jīng)手工精細標注。BIPED含250張1 280×720像素戶外圖像,分為200張訓練集和50張測試集,提供多樣真實場景。為滿足深度學習需求,通過翻轉、縮放和旋轉增強數(shù)據(jù)集,共得到40 000幅圖像。
2.2" 參數(shù)設定
本模型實驗運行環(huán)境是在一臺Windows 11操作系統(tǒng),Intel? CoreTM i7?12700H,RAM 16 GB,NVIDIA RTX 3090 32 GB內(nèi)存的計算機上進行的。本文模型是基于PyTorch 1.6深度學習框架,使用Python 3.9進行編程實現(xiàn)的。采用SGD優(yōu)化器對網(wǎng)絡進行訓練,在ImageNet上預先訓練的PVT初始化主干。把初始學習速率設置為1×10-6,動量設置為0.9,重量衰減設置為2×10-4,將所有實驗的批大小設置為10。在每10 000次迭代后,學習速率將降低10倍。本文模型分別為BSDS500訓練20 000次迭代,為BIPED訓練80 000次迭代。[Wside]和[Wfuse]分別設為0.5和1.1。
2.3" 評價指標
為了與其他工作進行公平的比較,本文進行了邊緣檢測性能的評估,包括全局最優(yōu)數(shù)據(jù)集尺度(Optimal Dataset Scale, ODS)、單張圖像最優(yōu)尺度(Optimal Image Scale, OIS)和平均精度(Average Precision, AP)3個常用評價指標[16]。
為了方便評估模型的性能,本文將邊緣的概率圖通過設定閾值轉換為二值化的邊緣圖。其中,ODS表示整個數(shù)據(jù)集設置相同閾值時的[F]?Score,OIS表示每張圖像獨立設置最優(yōu)閾值時的[F]?Score。這兩種閾值設定方法分別得到相應的[F]?Score值,[F]?Score值越高,表示模型在邊緣檢測上的能力就越優(yōu)秀。在計算ODS和OIS兩個評價指標時,本文也借鑒非極大值抑制運算來消除冗余的邊緣信息,從而保留更加重要的邊緣信息結果。[F]?Score計算公式如下:
[Precision=TPTP+FPRecall=TPTP+FNF?Score=2×Precision×RecallPrecision+Recall] (7)
精確率(Precision)指的是被正確識別為邊緣的像素點占所有被檢測出的像素點的比例,而召回率(Recall)則是指被成功檢測出的邊緣像素點占實際所有邊緣像素點的比例。
平均準確率的計算公式如下:
[AP=01PRdR] (8)
式中:[P]為精度;[R]為召回率。
因此可知,對于[PR]曲線來說,AP值越趨近于1,準確率越高。
3" 實驗結果與分析
本文將通過兩種不同的方法來衡量所提出的基于金字塔結構的Transformer邊緣檢測算法的性能:定量分析和定性分析。
3.1" 定量分析
為驗證本文所提出的基于金字塔結構的Transformer邊緣檢測算法的優(yōu)越性,采用三種評價指標,即ODS、OIS和AP,在BSDS500和BIPED兩個數(shù)據(jù)集上對本文模型的性能進行定量分析。將相對主流且應用廣泛的優(yōu)秀算法與本文模型進行對比,在BSDS500數(shù)據(jù)集上分別與包括兩種多尺度融合邊緣檢測算法:HFL[17]和HED[9]、兩種基于全監(jiān)督學習的邊緣檢測算法:Deep Contour[18]和ResNet50?cob[19]以及三種傳統(tǒng)邊緣檢測算法SCG[6]、PMI[20]和OEF[21]進行對比。在BIPED數(shù)據(jù)集上分別與CED[19]、HED[9]和RCF[22]三種算法進行比較。總體而言,本文提出的基于金字塔結構的Transformer邊緣檢測算法展現(xiàn)出了優(yōu)秀的性能。為了確保比較的公正性,所有參與比較的算法所得到的邊緣檢測圖像,要么是由算法的開發(fā)者公開分享的,要么是直接通過其源代碼生成的,且這些圖像都是在相同的系統(tǒng)環(huán)境下進行評估的。
表1和表2分別給出了不同算法在BSDS500和BIPED兩個數(shù)據(jù)集上的ODS、OIS和AP三個評價指標的對比結果。
具體來說,以在BSDS500數(shù)據(jù)集中為例詳細分析,在ODS這個評價標準上,本文模型相較于兩個多尺度融合算法HFL和HED,分別實現(xiàn)了0.029和0.008的提高;在OIS評價標準上,本文模型相較于HFL和HED算法分別實現(xiàn)了0.033和0.013的提高;同時在AP指標上也表現(xiàn)出了提升。同樣,在表2也給出了本文模型與其他三種算法在BIPED數(shù)據(jù)集上的實驗數(shù)據(jù)對比,本文模型同樣優(yōu)于對比模型。這一實驗結果顯著地體現(xiàn)了本文算法在處理具有挑戰(zhàn)性的數(shù)據(jù)集方面相較于對比模型的優(yōu)異性能。此外,這也間接證實了該算法在處理自然場景中的數(shù)字圖像任務時,得益于其出色的多尺度上下文信息捕捉和整合能力,以及所采用的多尺度特征增強策略,能夠顯著提升模型的整體效能。
3.2" 定性分析
圖5和圖6分別給出了本文基于金字塔結構的Transformer邊緣檢測算法在BSDS500和BIPED兩個數(shù)據(jù)集上與其他優(yōu)秀邊緣檢測結果對比圖。以圖5在BSDS500數(shù)據(jù)集上本文模型與其他7種算法的視覺直觀對比圖為例來展開分析,從邊緣檢測結果圖像對比中可以明顯觀察到,本文提出的算法與真實標簽的相似度極高,這一現(xiàn)象反映出該算法在檢測性能上表現(xiàn)出色。進一步審視這些圖像,可以發(fā)現(xiàn)本文模型在捕捉物體邊緣的精確性和完整性方面,相較于其他邊緣檢測模型展現(xiàn)出了顯著的優(yōu)越性。
具體來說,在第2行的輪船圖像和第4行包含多個人物的圖像中,盡管存在尺度多樣性的復雜情況,本文提出的基于金字塔結構的Transformer邊緣檢測算法依然展現(xiàn)出了優(yōu)異的性能。該算法在檢測和識別不同尺度物體的邊緣時,其結果與真實標簽的一致性更高。相較之下,其他算法可能會因為物體尺度的變化而受到影響,或者由于缺乏足夠的語義信息而無法達到同樣的檢測精度。例如,HFL和HED等基于CNN的算法以及一些傳統(tǒng)邊緣檢測算法SCG、PMI和OEF,對于尺度不一的目標物體檢測識別邊緣的效果較差。圖像的第3行展示了建筑墻面的邊緣檢測效果,結果揭示了本文模型即便在建筑墻面造成的輕微陰影導致邊界較弱的情況下,依然能夠完整且精確地識別出邊緣信息。這一點突出了本文模型的高魯棒性。相比之下,其他對比算法不是未能完整地識別出邊緣,就是在邊緣識別的準確性上不如本文模型表現(xiàn)出色。在第1行所呈現(xiàn)的圖像里,可以看到本文模型在邊緣檢測任務中對單一顯著物體的邊界進行了準確捕捉和劃分。這與某些其他算法相比,它們在邊緣檢測時可能會出現(xiàn)邊界不連貫的問題。總結來說,得益于算法中多尺度特征提取組件所提供的豐富上下文信息,以及實施的多尺度特征增強策略,本文模型能夠有效地區(qū)分物體邊界,在處理具有挑戰(zhàn)性的自然場景時表現(xiàn)出色。
4" 結" 論
針對傳統(tǒng)CNN邊緣檢測算法多尺度特征提取和利用率低的問題,本文提出了一種用于多尺度圖像特征提取的基于金字塔結構的Transformer邊緣檢測算法。使用了基于Transformer的多尺度特征提取器,比以往端到端的傳統(tǒng)卷積神經(jīng)網(wǎng)絡提取的特征更能捕獲長距離遠程依賴的上下文信息,解決了多尺度特征提取困難和利用率低的問題,增強了本文網(wǎng)絡模型的魯棒性;通過上下文關聯(lián)知識建模和知識遷移產(chǎn)生更多的判別特征,把金字塔結構的四個特征進行聚合;通過對提取到的多尺度特征進行增強,充分挖掘檢測對象的多層次和多尺度特征,實現(xiàn)對邊緣的預測,得到了比以往方法更精細的邊緣圖像,從而取得很好的檢測效果。本文模型在兩個公開邊緣檢測數(shù)據(jù)集上與7種常見邊緣檢測方法進行了比較,表現(xiàn)出了優(yōu)秀的邊緣檢測性能。
注:本文通訊作者為索依娜。
參考文獻
[1] SUN R, LEI T, CHEN Q, et al. Survey of image edge detection [J]. Frontiers in signal processing, 2022, 2: 826967.
[2] JING J F, LIU S J, WANG G, et al. Recent advances on image edge detection: A comprehensive review [J]. Neurocomputing, 2022, 503: 259?271.
[3] RAHMAWATI S, DEVITA R, ZAIN R H, et al. Prewitt and Canny methods on inversion image edge detection: An evaluation [C]// Journal of physics: Conference series, 2021, 1933(1): 012039.
[4] 李志遠,王光輝.基于傳統(tǒng)邊緣算子的車道線識別研究[J].現(xiàn)代電子技術,2024,47(7):61?65.
[5] 李翠錦,瞿中.基于深度學習的圖像邊緣檢測算法綜述[J].計算機應用,2020,40(11):3280?3288.
[6] TIAN B, WEI W. Research overview on edge detection algorithms based on deep learning and image fusion [J]. Security and communication networks, 2022(1): 1155814.
[7] PENG C, YANG M Q, ZHENG Q H, et al. A triple?thresholds pavement crack detection method leveraging random structured forest [J]. Construction and building materials, 2020, 263: 120080.
[8] BERTASIUS G, SHI J B, TORRESANI L. DeepEdge: A multi?scale bifurcated deep network for top?down contour detection [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 4380?4389.
[9] 劉超超,司亞超.引入注意力機制的整體嵌套邊緣檢測網(wǎng)絡[J].河北建筑工程學院學報,2023,41(2):222?228.
[10] WANG Z, ZHU S Q, LI Y H, et al. Convolutional neural network based deep conditional random fields for stereo matching [J]. Journal of visual communication and image representation, 2016, 40: 739?750.
[11] YU Z, FENG C, LIU M Y, et al. CASENet: Deep category?aware semantic edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 1761?1770.
[12] WANG X, MA H M, CHEN X Z, et al. Edge preserving and multi?scale contextual neural network for salient object detection [J]. IEEE transactions on image processing, 2018, 27(1): 121?134.
[13] HE J Z, ZHANG S L, YANG M, et al. BDCN: Bi?directional cascade network for perceptual edge detection [J]. IEEE transactions on pattern analysis and machine intelligence, 2022, 44(1): 100?113.
[14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017. [S.l.: s.n.], 2017: 5998?6008.
[15] LI G Y, BAI Z, LIU Z, et al. Salient object detection in optical remote sensing images driven by transformer [J]. IEEE transactions on image processing, 2023, 32: 5257?5269.
[16] 肖揚,周軍.圖像邊緣檢測綜述[J].計算機工程與應用,2023,59(5):40?54.
[17] BERTASIUS G, SHI J B, TORRESANI L. High?for?low and low?for?high: Efficient boundary detection from deep object features and its applications to high?level vision [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 504?512.
[18] SHEN W, WANG X G, WANG Y, et al. DeepContour: A deep convolutional feature learned by positive?sharing loss for contour detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 3982?3991.
[19] MANINIS K K, PONT?TUSET J, ARBELáEZ P A, et al. Convolutional oriented boundaries [C]// Proceedings of the 14th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2016: 580?596.
[20] ISOLA P, ZORAN D, KRISHNAN D, et al. Crisp boundary detection using pointwise mutual information [C]// Proceedings of 13th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2014: 799?814.
[21] HALLMAN S, FOWLKES C C. Oriented edge forests for boundary detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 1732?1740.
[22] WANG X H, LI S, CHEN C, et al. Data?level recombination and lightweight fusion scheme for RGB?D salient object detection [J]. IEEE transactions on image processing, 2021, 30: 458?471.
[23] 楊紅菊,王昱蓉.FMLED:細粒度級多尺度特征表示的輕量級邊緣檢測方法[J].小型微型計算機系統(tǒng),2023,44(4):812?817.
[24] ARBELAEZ P, MAIRE M, FOWLKES C C, et al. Contour detection and hierarchical image segmentation [J]. IEEE transactions on pattern analysis and machine intelligence, 2011, 33(5): 898?916.
[25] SORIA X, RIBA E, SAPPA A D. Dense extreme inception network: Towards a robust CNN model for edge detection [C]// 2020 IEEE Winter Conference on Applications of Computer Vision (WACV). New York: IEEE, 2020: 1912?1921.
作者簡介:段續(xù)延(1993—),女,河北唐山人,碩士研究生,研究方向為圖像處理。
于復興(1979—),男,河北唐山人,碩士研究生,副教授,研究方向為圖像處理。
索依娜(1980—),女,河北秦皇島人,碩士研究生,副教授,研究方向為圖像處理。
收稿日期:2024?04?03" " " " " "修回日期:2024?04?26