国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無錨框目標(biāo)檢測(cè)算法的多樣性感受野注意力特征補(bǔ)償*

2022-11-17 11:56:08張海燕付應(yīng)娜丁桂江孟慶巖
關(guān)鍵詞:錨框語義物體

張海燕,付應(yīng)娜,丁桂江,孟慶巖

(1.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 231009; 2.三維醫(yī)療科技股份有限公司,江蘇 徐州 221000)

1 引言

隨著人工智能技術(shù)的不斷發(fā)展,目標(biāo)檢測(cè)作為一項(xiàng)基礎(chǔ)且富有挑戰(zhàn)性的計(jì)算機(jī)視覺任務(wù),具有極其廣泛的應(yīng)用[1,2]。對(duì)于任意圖像,目標(biāo)檢測(cè)的任務(wù)就是利用一套算法來判別圖像中是否存在目標(biāo),如果存在,則預(yù)測(cè)目標(biāo)的位置和類別。所有當(dāng)前主流的檢測(cè)算法,諸如更快的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)Faster R-CNN(Faster Region-based Convolutional Neural Networks)算法[3]、單階段目標(biāo)檢測(cè)SSD(Single Shot MultiBox Detector)算法[4]、特征金字塔網(wǎng)絡(luò)FPN(Feature Pyramid Networks)算法[5]和用于密集目標(biāo)物體檢測(cè)的RetinaNet(Focal loss for dense object)算法[6]等,一直被認(rèn)為是目標(biāo)檢測(cè)成功的關(guān)鍵。然而,這些算法都是建立在錨框的基礎(chǔ)上,即特征圖上的每個(gè)像素點(diǎn)都需要預(yù)先設(shè)置固定尺寸和長寬比的邊界框。顯然,這種基于錨框的方法不僅需要人為地設(shè)置大量超參數(shù),還會(huì)引起正負(fù)樣本的不平衡,這會(huì)在很大程度上影響算法的檢測(cè)精度。此外,由于計(jì)算量較大,還將耗費(fèi)大量的內(nèi)存。

目前,全卷積網(wǎng)絡(luò)FCN(Fully Convolutional Network)算法[7]在深度估計(jì)、語義分割和關(guān)鍵點(diǎn)檢測(cè)等計(jì)算機(jī)視覺任務(wù)中都已獲得了巨大的成功,這帶來了一定的啟發(fā):能否像語義分割中的FCN[7]那樣,通過簡(jiǎn)單的像素級(jí)預(yù)測(cè)來進(jìn)行目標(biāo)檢測(cè)?

因此,不少研究人員都嘗試?yán)眠@一想法來構(gòu)造類似于FCN的框架,如統(tǒng)一的標(biāo)定位端到端的目標(biāo)檢測(cè)算法DenseBox[8]、一種先進(jìn)的目標(biāo)檢測(cè)算法UnitBox[9]。與以前的SSD等檢測(cè)算法不同,DenseBox采用統(tǒng)一端到端的全卷積網(wǎng)絡(luò)框架,直接預(yù)測(cè)邊界框。UnitBox則摒棄了均方誤差損失(L2Loss),利用交并比損失IOU Loss(Intersection Over Union Loss)進(jìn)行回歸。總的來說,這些基于FCN的模型直接在特征圖的每個(gè)空間位置上預(yù)測(cè)1個(gè)4維向量和1個(gè)類別,某種程度上可以有效地避免上述問題,但是很難處理不同尺寸的物體。此外,這些模型主要用于一些特定場(chǎng)景的檢測(cè),比如場(chǎng)景文字檢測(cè)和人臉檢測(cè)等。由于邊界框高度重疊,所以并不適用于通用目標(biāo)檢測(cè),尤其在預(yù)測(cè)時(shí),物體之間的高度重疊會(huì)帶來定位模糊的現(xiàn)象??紤]到這個(gè)問題,許多算法通過借鑒FPN多尺度的思想在很大程度上減弱了這種不確定性。目前,大多數(shù)無錨框算法框架都采用FPN的網(wǎng)絡(luò)結(jié)構(gòu)。其中,基于全卷積網(wǎng)絡(luò)的單階段目標(biāo)檢測(cè)FCOS (Fully Convolutional One-Stage object detection) 算法[10]和超越有錨框目標(biāo)檢測(cè)FoveaBox算法[11]預(yù)測(cè)每個(gè)正區(qū)域內(nèi)的點(diǎn)到其邊界之間的偏移量,避免了直接預(yù)測(cè)目標(biāo)區(qū)域造成的尺度變化過大而難以訓(xùn)練的問題。無錨框在線選擇特征FSAF (Feature Selective Anchor-Free) 算法[12]利用錨框分支直接預(yù)測(cè)目標(biāo)位置,同時(shí)結(jié)合基于錨框的檢測(cè)算法使得不同層的目標(biāo)可以覆蓋更廣的范圍。顯然,相比于基于錨框的檢測(cè)算法,無錨框檢測(cè)算法不用再設(shè)置與錨框相關(guān)的超參數(shù),其框架設(shè)計(jì)更加簡(jiǎn)單靈活,而且精度更高。但是,無錨框檢測(cè)算法仍然存在一些不足:(1)獲取圖像的全局信息能力較弱。(2) 無法很好地檢測(cè)重疊的物體,尤其重疊區(qū)域較大的物體。(3) 由于使用了殘差網(wǎng)絡(luò)ResNet(Residual Network),很容易產(chǎn)生感受野不匹配的現(xiàn)象。因此,本文的目的是讓網(wǎng)絡(luò)擁有全局信息,緩解感受野不匹配的現(xiàn)象,從而提高檢測(cè)精度。

本文使用FCOS作為基本架構(gòu),并在此基礎(chǔ)上提出了一種新的特征融合方法,以提供全局信息,提高特征表達(dá)能力。此外,本文還將矩形感受野引入框架中,同時(shí)加入了自注意力機(jī)制,以獲取更多的信息,減少無關(guān)噪聲的干擾。

本文在PASCAL VOC數(shù)據(jù)集[13]上進(jìn)行了實(shí)驗(yàn)并進(jìn)一步設(shè)計(jì)了消融實(shí)驗(yàn)驗(yàn)證本文算法的有效性。此外,為了與其它先進(jìn)算法進(jìn)行比較,本文也在MS COCO數(shù)據(jù)集[14]上進(jìn)行了一些實(shí)驗(yàn)。

2 相關(guān)工作

2.1 基于錨框的檢測(cè)算法

絕大多數(shù)目標(biāo)檢測(cè)算法都是基于錨框的,根據(jù)是否有產(chǎn)生候選區(qū)域的機(jī)制一般分為2大類:?jiǎn)坞A段檢測(cè)算法和雙階段檢測(cè)算法。最流行的雙階段檢測(cè)算法是Faster R-CNN,它首先采用候選區(qū)域生成網(wǎng)絡(luò)RPN(Region Proposals Network)粗略地生成候選區(qū)域,同時(shí)利用卷積神經(jīng)網(wǎng)絡(luò)提取特征,然后再進(jìn)一步改進(jìn)。與雙階段檢測(cè)算法的第1階段類似,單階段檢測(cè)算法直接在輸入圖像上生成邊界框并進(jìn)行回歸。經(jīng)典的單階段檢測(cè)算法有SSD和實(shí)時(shí)目標(biāo)檢測(cè)算法YOLO(You Only Look Once)[15]等。YOLO直接預(yù)測(cè)對(duì)象實(shí)例類別和位置;SSD則基于VGG-16網(wǎng)絡(luò),采用多尺度特征圖進(jìn)行檢測(cè)。雙階段檢測(cè)算法在精度上有更大的優(yōu)勢(shì),而單階段檢測(cè)算法速度更快??紤]到實(shí)時(shí)性的要求,單階段檢測(cè)算法現(xiàn)已成為主流的研究趨勢(shì)。FPN、單階段特征融合目標(biāo)檢測(cè)Feature-fused SSD (Feature-fused Single Shot Detector) 算法[16]和單階段反卷積目標(biāo)檢測(cè)DSSD (Deconvolutional Single Shot Detector) 算法[17]采用單階段的結(jié)構(gòu),利用高層語義信息改善低層的特征表達(dá),保證了良好的檢測(cè)性能;RetinaNet則采用新的損失函數(shù)focal loss來解決類別不平衡問題。

2.2 無錨框檢測(cè)算法

無錨框并不是一個(gè)新概念,最早可追溯到DenseBox。具體地,它應(yīng)用了類似于FCN的理念,即在每個(gè)特征圖上逐像素地預(yù)測(cè)實(shí)例。針對(duì)不同尺寸的物體,它需要利用圖像金字塔來訓(xùn)練網(wǎng)絡(luò),這勢(shì)必會(huì)占用大量的內(nèi)存空間。因此,現(xiàn)在大多數(shù)無錨框檢測(cè)算法都借助于特征金字塔,比如FSAF、FCOS等。FSAF采用特征選擇策略為每個(gè)實(shí)例分配最佳的特征層,F(xiàn)COS試圖借鑒FPN多尺度的思想,同時(shí)利用中心度分支來抑制低質(zhì)量框。

另一類無錨框檢測(cè)算法主要依賴于關(guān)鍵點(diǎn)。其中,對(duì)角點(diǎn)目標(biāo)檢測(cè)算法CornerNet`[18]的核心是通過角點(diǎn)池化操作檢測(cè)出邊界框的一對(duì)角點(diǎn),然后對(duì)其進(jìn)行分組,最后經(jīng)過復(fù)雜的后處理得到最終檢測(cè)結(jié)果。

2.3 感受野

在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,感受野是影響檢測(cè)性能的重要因素之一。直觀地說,感受野是特征圖上的一個(gè)點(diǎn)對(duì)應(yīng)于輸入圖像上的一個(gè)區(qū)域。顯然,感受野與特征信息的獲得密切相關(guān)。在保證參數(shù)量不變的情況下,不少研究都采用空洞卷積來擴(kuò)大感受野。Li等[19]在三叉級(jí)目標(biāo)檢測(cè)算法TridentNet中應(yīng)用空洞卷積(擴(kuò)張率不同)構(gòu)造了一個(gè)具有不同感受野的平行多分支結(jié)構(gòu)。Li等[20]在全新骨干網(wǎng)絡(luò)的目標(biāo)檢測(cè)DetNet中設(shè)計(jì)了一種新穎的主干網(wǎng)絡(luò)以保持空間分辨率,并利用空洞卷積來增大感受野。盡管已經(jīng)取得了成功,但空洞卷積的使用在某種程度上還是會(huì)使網(wǎng)絡(luò)速度變慢,同時(shí)會(huì)丟失一些局部細(xì)節(jié)信息。此外,這種情況下感受野仍舊極為單一。故本文對(duì)感受野進(jìn)行多樣化設(shè)計(jì),同時(shí)使用全局池化操作替代空洞卷積,以獲得更豐富的信息。

Figure 1 Structure of FCOS圖1 FCOS結(jié)構(gòu)

2.4 特征融合

由于高層細(xì)節(jié)信息和低層語義信息的不足,特征融合一直是研究人員關(guān)注的焦點(diǎn)。針對(duì)上述特征信息不足的問題,F(xiàn)PN、DSSD和Feature-fused SSD等被提出,它們通過引入更高層的語義信息來增強(qiáng)較低層的特征。然而,太多的語義信息會(huì)掩沒低層的細(xì)節(jié)信息,而語義信息太少又會(huì)削弱檢測(cè)算法的性能,故這種方法并不能使網(wǎng)絡(luò)得到最優(yōu)的特征。Tian等[21]在DF2S2(Detection with Feature Fusion and Segmentation Supervision)中利用逐元素相乘的操作,使得低層特征圖擁有高層特征圖上的語義信息,而又不至于掩沒細(xì)節(jié)信息。信息路徑聚合網(wǎng)絡(luò)PANet (Path Aggregation Network)[22]同樣通過多個(gè)并行分支來挖掘特征信息。毫無疑問,這些算法會(huì)帶來太多的計(jì)算負(fù)擔(dān)。此外,還有些算法在融合時(shí)會(huì)添加注意力機(jī)制及一些先進(jìn)的模塊,這也是一種很好的方法。本文旨在以較少的計(jì)算量獲得更優(yōu)的特征。

3 本文算法

本節(jié)對(duì)無錨框目標(biāo)檢測(cè)算法FCOS進(jìn)行了改進(jìn)。圖1展示了本文算法的整體網(wǎng)絡(luò)結(jié)構(gòu)圖,圖中C3、C4和C5表示骨干網(wǎng)絡(luò)的特征圖,H和W分別為特征圖的高和寬。輸入一幅圖像,通過FCOS的骨干網(wǎng)絡(luò)(即ResNet)得到金字塔特征(由特征圖C3、C4和C5構(gòu)成);之后,再使用多樣性感受野注意力機(jī)制作用于其特征金字塔最后一層(即C5),并將所得的結(jié)果特征圖與前面卷積得到的特征圖(即C3和C4)自上而下相互融合,從而得到新的金字塔特征。這里,特征圖之間的融合方式為全局信息指導(dǎo)特征融合GCF(Global Context-guided feature Fusion),其最終結(jié)果P3、P4、P5與P6、P7一起參與檢測(cè)。

3.1 FCOS

如圖1 所示,F(xiàn)COS在RetinaNet的基礎(chǔ)上又在每個(gè)金字塔層上附加了2個(gè)額外層來負(fù)責(zé)逐像素預(yù)測(cè)。由于特征圖中越靠近所預(yù)測(cè)目標(biāo)框中心的點(diǎn)越有可能產(chǎn)生高質(zhì)量的檢測(cè),故FCOS又提出中心度(Center-ness)分支去抑制低質(zhì)量的點(diǎn),從而達(dá)到更好的檢測(cè)效果。其損失函數(shù)如式(1)所示:

(1)

3.2 多樣性感受野注意力機(jī)制DRAM

從人類視覺角度來看,人眼所感知的區(qū)域應(yīng)該有不同的形狀和大小,這與決策信息的生成有很大關(guān)系。目前,絕大多數(shù)網(wǎng)絡(luò)的感受野都是方形的,這會(huì)帶來一個(gè)弊端,即對(duì)于不同尺度的目標(biāo)(特別是過大或過小的目標(biāo)),大范圍的變化會(huì)使檢測(cè)受到很大程度的影響。為了解決這個(gè)問題,最直觀的方法就是使用大的卷積核來擴(kuò)大感受野,但這會(huì)產(chǎn)生較大的計(jì)算量。同樣,空洞卷積也可以實(shí)現(xiàn)感受野的擴(kuò)張,然而此時(shí)網(wǎng)絡(luò)的速度會(huì)受到一定的影響,并且局部信息也會(huì)出現(xiàn)丟失的情況。更重要的是,所得特征圖的感受野仍然和之前一樣。

本文提出了一種簡(jiǎn)單且有效的方法——多樣性感受野注意力機(jī)制DRAM(Diverse Receptive fields Attention Mechanism)來克服這些局限性。多樣性感受野模塊如圖 2所示,采用1×k,k×k,k×1的卷積核生成具有不同感受野的特征圖,之后將所得特征圖相加并融合從而使特征圖擁有多樣性的感受野。

Figure 2 Diverse recptive fields module圖2 多樣性感受野模塊

如圖3所示,為了保留空間注意力,將原始特征圖通過1×1的卷積操作后與上述得到的特征圖逐像素相乘。此外,由于全局上下文很容易擴(kuò)大感受野和增強(qiáng)像素級(jí)分類的一致性,本文又引入了全局平均池化,即輸入特征圖池化后經(jīng)過上采樣與多樣性感受野注意特征相加融合,從而使最終的特征圖能夠擁有與大感受野同樣豐富的上下文語義信息。

Figure 3 Illustration of the diverse receptive field attention mechanism圖3 多樣性感受野注意力機(jī)制

3.3 全局信息指導(dǎo)特征融合GCF

最常見的特征融合是高低層特征圖的簡(jiǎn)單拼接或融合,例如FPN和DSSD,但是這并不能保證得到的特征最優(yōu)。本文認(rèn)為特征提取能力的提高對(duì)于目標(biāo)物體檢測(cè)性能的改善仍有相當(dāng)大的幫助。PANet利用低層次的精確定位信息,縮短信息量的傳輸路徑,增強(qiáng)特征金字塔的特征表達(dá)能力。DF2S2采用逐元素相乘的操作,使得低層特征圖具有高層特征圖中的語義信息。但是,這些改進(jìn)會(huì)造成計(jì)算資源的浪費(fèi)。研究表明,全局池化可以有效地增加感受野,提高像素級(jí)分類的一致性;另一方面,更高層的特征圖擁有更豐富的語義信息。

因此,本文將全局池化操作作為輔助模塊附加到高層次中并同時(shí)將其輸出用于指導(dǎo)低層,以便選擇有判別性的多分辨率特征表達(dá)。具體地,首先獲得高層的全局上下文信息,再與高層原始特征相乘,之后對(duì)其進(jìn)行歸一化并通過ReLu激活函數(shù)后與低層特征相乘以達(dá)到高層指導(dǎo)低層的作用,最后將加權(quán)后的低層特征與高層特征疊加。池化操作是獲取全局上下文信息的傳統(tǒng)方法,但是這種加權(quán)方式是線性的,常需要利用1×1卷積來增加非線性,以提高模型的檢測(cè)能力。為此,本文還設(shè)計(jì)了一種新的語義模塊,即步長為2的1×1卷積和歸一化指數(shù)函數(shù)(softmax)的組合,以保證模型的非線性能力,之后再將其與原始的高層特征圖進(jìn)行相乘。相對(duì)于池化操作而言,該模塊不再需要額外的卷積運(yùn)算來保證非線性且可以更好地挑選出重要特征。同時(shí),基于模塊的多級(jí)結(jié)構(gòu),歸一化操作不再使用批歸一化,而是選擇層歸一化[23],以加速損失函數(shù)的收斂速度。除此之外,該模塊又在低層使用了3×3卷積,以幫助獲得來自高層的豐富信息和更好的指導(dǎo),如圖4所示。

Figure 4 Illustration of the Global context-guided feature fusion圖4 全局信息指導(dǎo)特征融合

4 實(shí)驗(yàn)與分析

本文的實(shí)驗(yàn)基于深度學(xué)習(xí)框架PyTorch實(shí)現(xiàn),所用數(shù)據(jù)集為PASCAL VOC和COCO,分別包含20個(gè)和80個(gè)類。為了評(píng)估每個(gè)模塊的有效性,本文在PASCAL VOC數(shù)據(jù)集上設(shè)計(jì)了消融實(shí)驗(yàn)。

4.1 消融實(shí)驗(yàn)

本節(jié)研究了DRAM在不同特征層上的影響,以更好地確定其作用,結(jié)果如表1所示。表1中,骨干網(wǎng)絡(luò)為ResNet-50時(shí),原始網(wǎng)絡(luò)FCOS的檢測(cè)精度為79.0%,本文方法的檢測(cè)精度為80.2%,提升了1.2%,這表明DRAM對(duì)于目標(biāo)物體的檢測(cè)是十分有用的。當(dāng)DRAM作用于C3和C4層時(shí),兩者檢測(cè)精度幾近相同,較FCOS檢測(cè)精度只有0.5%的提升;當(dāng)僅作用于C5層時(shí),DRAM將檢測(cè)性能提高到了80.1%,其結(jié)果與3層共同作用所獲得的最高精度大體相近,但參數(shù)更少。由此可知:DRAM模塊更適合于高層次的特征圖。

此外,本節(jié)還比較了所提方法與FCOS,結(jié)果如表2所示。從表2可以看出,DRAM將檢測(cè)性能提升至了一個(gè)新的水平,mAP達(dá)到了80.1%(僅在C5層)。相比FCOS,mAP提高了1.1%。使用另一模塊GCF后,mAP比FCOS的高了0.7%,在性能檢測(cè)方面的提升也尤為明顯。當(dāng)FCOS檢測(cè)算法中同時(shí)使用DRAM和GCF時(shí),mAP可達(dá)80.4%。

Table 1 Results of DRAM on different layers表1 DRAM在不同層上的實(shí)驗(yàn)結(jié)果

Table 2 Results of different methods

圖5為本文方法與FCOS進(jìn)行物體檢測(cè)的可視化對(duì)比圖。第1行為FCOS的檢測(cè)結(jié)果圖,第2行為本文改進(jìn)方法的檢測(cè)結(jié)果圖。

從圖5中可以看出,相比FCOS而言,本文所提方法能夠檢測(cè)出更多的物體。此外,自左向右3幅圖像中,目標(biāo)物體間均存在不同程度的重疊(大致為1/5,2/3和2/5的重疊區(qū)域),本文方法在一定程度上能夠?qū)⑵錂z測(cè)出。由此可見,較于FCOS,本文方法優(yōu)勢(shì)明顯。

Figure 5 Comparison of detection results圖5 檢測(cè)結(jié)果比較

4.2 PASCAL VOC數(shù)據(jù)集上的實(shí)驗(yàn)

在實(shí)驗(yàn)中,本文將采用PASCAL VOC2007 和 PASCAL VOC2012作為訓(xùn)練集,共22 136幅圖像。同時(shí),在PASCAL VOC2007測(cè)試集上評(píng)估結(jié)果并使用mAP@0.5作為評(píng)判標(biāo)準(zhǔn)。批量大小設(shè)置為14,動(dòng)量參數(shù)設(shè)置為0.9,權(quán)重衰減因子為0.000 1。訓(xùn)練時(shí),使用“預(yù)熱” 策略,逐步將學(xué)習(xí)率從0提高到0.01;在迭代次數(shù)達(dá)到32 000和44 000次時(shí),學(xué)習(xí)率下調(diào)0.1。此外,實(shí)驗(yàn)中還使用了SSD的數(shù)據(jù)增強(qiáng)策略,以創(chuàng)建更多可供訓(xùn)練的小樣本。

表3為在PASCAL VOC2007測(cè)試集上本文算法與一些先進(jìn)算法的實(shí)驗(yàn)結(jié)果比較。為了公平起見,本文盡量使用同一骨干網(wǎng)絡(luò)。在相同骨干網(wǎng)絡(luò)的條件下,本文算法的mAP比FCOS的提高了1.4%。當(dāng)骨干網(wǎng)絡(luò)為ResNet-101時(shí),本文算法可以實(shí)現(xiàn)81%的mAP。與單階段檢測(cè)器SSD、DSSD及RFBNet等相比,本文算法檢測(cè)效果更好,其結(jié)果甚至可以與一些雙階段檢測(cè)算法相媲美。

Table 3 Experimental results comparision with other state-of-the-art two-stage or one-stage algorithms on PASCAL VOC dataset

4.3 MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)

為了全面驗(yàn)證所提模型的有效性,本文在MS COCO數(shù)據(jù)集上也進(jìn)行了相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。與FCOS相同,本文使用trainval35kset(train set+val35k set)訓(xùn)練模型,訓(xùn)練時(shí)仍然采用“預(yù)熱”技術(shù),前500次迭代學(xué)習(xí)率從0逐漸提高到0.01,之后在120 000次和160 000次后以10倍的倍數(shù)降低,直到180 000次。網(wǎng)絡(luò)的初始化與在PASCAL VOC數(shù)據(jù)集上的步驟一致,在訓(xùn)練前加載ImageNet上預(yù)訓(xùn)練的權(quán)重。從表4可以看出,相同骨干網(wǎng)絡(luò)條件下,本文在MS COCO測(cè)試集上的mAP達(dá)到了42.8%,超過FCOS的檢測(cè)精度,且有明顯差距。當(dāng)IOU大于0.5和0.7時(shí),AP值分別為63.3%和46.3%。同時(shí),小、中、大目標(biāo)物體的檢測(cè)精度分別為24.6%、46.7%和54.2%,提高了0.6%、3.6%和3.2%。顯然,對(duì)于尺度較大物體的檢測(cè),本文算法優(yōu)勢(shì)明顯。在小目標(biāo)物體的檢測(cè)上,提升較少;與一些經(jīng)典的雙階段算法相比,其在物體檢測(cè)方面也有著很好的效果。此外,本文算法也優(yōu)于許多單階段檢測(cè)算法。特別地,其精度明顯高于最新的無錨框目標(biāo)檢測(cè)算法FSAF、FoveaBox和CornerNet 等。為進(jìn)一步展示本文算法的優(yōu)勢(shì),本節(jié)還比較了該算法與其他一些目標(biāo)檢測(cè)算法的檢測(cè)速度結(jié)果如表5所示。表5中,骨干網(wǎng)絡(luò)為ResNet-101時(shí),本文算法模型的FPS可以達(dá)到15.1,稍低于FCOS的FPS,但精度提升較大。此外,其檢測(cè)速度明顯快于其他一些無錨框的目標(biāo)檢測(cè)算法模型且物體的位置回歸與分類效果更好。較于一些一階段的模型檢測(cè)算法,本文算法雖然檢測(cè)速度較低,但在精度方面卻有著更佳的表現(xiàn)且基本滿足實(shí)時(shí)需求。

Table 4 Experimental results comparison with other state-of-the-art two-stage or one-stage algorithms on MS COCO dataset

Table 5 Speed comparison other state-of-the-art two-stage or one-stage detectors on MS COCO

5 結(jié)束語

本文從感受野和特征融合2個(gè)角度,基于FCOS提出了2種改進(jìn)方法:多感受野注意力機(jī)制DRAM和全局信息指導(dǎo)融合GCF。實(shí)驗(yàn)表明,DRAM更適合于較高層次,這可能與高層擁有更豐富的語義信息有關(guān);GCF使得網(wǎng)絡(luò)獲得了更多有用的判別性特征。與許多最先進(jìn)的檢測(cè)算法相比,本文算法具有明顯的優(yōu)勢(shì)。然而,本文方法對(duì)重疊物體的檢測(cè)性能提升有限,此外,較于單階段目標(biāo)檢測(cè)算法,其速度只能基本滿足實(shí)時(shí)性要求。因此,今后的研究工作將會(huì)基于此而展開。

猜你喜歡
錨框語義物體
基于YOLOv3錨框優(yōu)化的側(cè)掃聲吶圖像目標(biāo)檢測(cè)
錨框策略匹配的SSD飛機(jī)遙感圖像目標(biāo)檢測(cè)
基于SSD算法的輕量化儀器表盤檢測(cè)算法*
基于GA-RoI Transformer的遙感圖像任意方向目標(biāo)檢測(cè)
語言與語義
深刻理解物體的平衡
我們是怎樣看到物體的
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
為什么同一物體在世界各地重量不一樣?
認(rèn)知范疇模糊與語義模糊
民权县| 临沂市| 石嘴山市| 莱阳市| 普洱| 深水埗区| 开封市| 民和| 城步| 涿州市| 泾源县| 东台市| 邓州市| 社旗县| 南昌市| 江西省| 松滋市| 噶尔县| 邵东县| 沛县| 天气| 聂拉木县| 资中县| 武鸣县| 增城市| 商城县| 伊宁县| 江源县| 灌阳县| 青海省| 平顶山市| 温宿县| 吉林市| 绍兴县| 琼海市| 平武县| 防城港市| 曲麻莱县| 若羌县| 瑞昌市| 墨江|