龐彥偉,余?珂,孫漢卿,曹家樂
基于逐級(jí)信息恢復(fù)網(wǎng)絡(luò)的實(shí)時(shí)目標(biāo)檢測算法
龐彥偉,余?珂,孫漢卿,曹家樂
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
隨著卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,目標(biāo)檢測算法成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),基于深度學(xué)習(xí)的實(shí)時(shí)目標(biāo)檢測算法需要同時(shí)兼顧檢測精度和檢測速度兩項(xiàng)指標(biāo). 不基于先驗(yàn)框的實(shí)時(shí)目標(biāo)檢測算法CenterNet大幅提高了檢測速度,但是由于其直接對(duì)低分辨率高層特征進(jìn)行連續(xù)上采樣,沒有充分補(bǔ)充特征在下采樣過程中丟失的空間細(xì)節(jié)信息,導(dǎo)致算法對(duì)目標(biāo)定位不夠準(zhǔn)確,影響了檢測精度. 為解決這一問題,提出了一種基于逐級(jí)信息恢復(fù)網(wǎng)絡(luò)(hierarchical information recovery network,HIRNet)的實(shí)時(shí)目標(biāo)檢測算法. 該算法中,為對(duì)信息進(jìn)行逐級(jí)恢復(fù),設(shè)計(jì)了相鄰層信息增強(qiáng)模塊(adjacent layer information strength module,ALISM)和殘差注意力特征融合(residual attentional feature fusion,RAFF)模塊. 通過構(gòu)建ALISM模塊,將中間層特征進(jìn)行處理,分別為相鄰層特征提供更多的空間細(xì)節(jié)信息和語義信息,提高低層特征的表達(dá)能力,輸出更適宜進(jìn)行信息恢復(fù)的特征. 為進(jìn)一步精確恢復(fù)損失的空間細(xì)節(jié)信息,HIRNet在上采樣過程中逐級(jí)使用構(gòu)建的RAFF模塊,這一模塊綜合利用全局和局部注意力調(diào)整低層特征和高層特征的殘差權(quán)重,再對(duì)兩級(jí)特征進(jìn)行加權(quán)融合,恢復(fù)高層特征在下采樣過程中丟失的空間細(xì)節(jié)信息. 在PASCAL VOC數(shù)據(jù)集和MS COCO數(shù)據(jù)集上的實(shí)驗(yàn)證明了所提算法的有效性. 在MS COCO驗(yàn)證集上,HIRNet保證了檢測的實(shí)時(shí)性,提升了算法檢測性能,檢測精度比CenterNet算法提高了3.9%.
目標(biāo)檢測;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);不基于先驗(yàn)框;逐級(jí)信息恢復(fù)
近年來,基于深度學(xué)習(xí)[1]的目標(biāo)檢測算法逐漸成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)[2-19].目標(biāo)檢測算法可以根據(jù)是否使用先驗(yàn)框分為基于先驗(yàn)框的方法[5-7]和不基于先驗(yàn)框的方法[8-19]兩類.基于先驗(yàn)框的方法使用預(yù)定義的先驗(yàn)框?qū)δ繕?biāo)進(jìn)行定位,而不基于先驗(yàn)框的方法摒棄了這種方式,避免了手工設(shè)計(jì)先驗(yàn)框參數(shù)對(duì)算法效果的影響,本文聚焦于不基于先驗(yàn)框的實(shí)時(shí)目標(biāo)檢測算法.
不基于先驗(yàn)框的目標(biāo)檢測算法可以大致分為使用關(guān)鍵點(diǎn)檢測[10-16]和使用先驗(yàn)點(diǎn)檢測[17-19]兩類.使用關(guān)鍵點(diǎn)檢測的方法先檢測目標(biāo)的關(guān)鍵點(diǎn),再對(duì)檢測結(jié)果進(jìn)行后處理.使用先驗(yàn)點(diǎn)的檢測方法將原有的先驗(yàn)框轉(zhuǎn)化為先驗(yàn)點(diǎn)后進(jìn)行回歸.在使用關(guān)鍵點(diǎn)檢測的方法中,CornerNet對(duì)目標(biāo)左上和右下的角點(diǎn)進(jìn)行檢測[11].CenterNet只檢測目標(biāo)中心點(diǎn),簡化了后處理過程,大幅提高檢測速度[12].ExtremeNet對(duì)目標(biāo)的4個(gè)極點(diǎn)和1個(gè)中心點(diǎn)進(jìn)行檢測[13].TTF提出了一種新的采樣方式,縮短了訓(xùn)練時(shí)間[14]. CentripetalNet使用帶有向心偏移的角點(diǎn)進(jìn)行檢測,幫助算法達(dá)到更好的定位效果[15].CPN使用雙階段的方式先利用角點(diǎn)提取候選區(qū),再進(jìn)行分類[16].使用先驗(yàn)點(diǎn)檢測的方法中,F(xiàn)COS對(duì)目標(biāo)中心區(qū)域的先驗(yàn)點(diǎn)進(jìn)行回歸,并使用Center-ness分支對(duì)可靠性進(jìn)行評(píng)價(jià)[17]. FoveaBox引入可形變卷積,使用位置信息引導(dǎo)分類信息的預(yù)測[18].ATSS通過對(duì)比使用先驗(yàn)框和先驗(yàn)?點(diǎn)算法間的區(qū)別,提出了一種新的選擇正負(fù)樣本的方法[19].
使用關(guān)鍵點(diǎn)檢測的CenterNet方法,大幅提高了檢測速度,得到了廣泛使用,但是由于其直接對(duì)低分辨率高層特征進(jìn)行上采樣,未有效利用低層特征補(bǔ)充下采樣過程中丟失的空間細(xì)節(jié),導(dǎo)致預(yù)測時(shí)對(duì)目標(biāo)定位不夠準(zhǔn)確.
本文針對(duì)這一問題,在CenterNet的基礎(chǔ)上進(jìn)行改進(jìn),提出逐級(jí)信息恢復(fù)網(wǎng)絡(luò)(hierarchical information recovery network,HIRNet),通過逐級(jí)信息恢復(fù)的方式有效利用低層特征補(bǔ)充空間細(xì)節(jié),提高算法定位的準(zhǔn)確性.首先,HIRNet構(gòu)建相鄰層信息增強(qiáng)模塊(adjacent layer information strength module,ALISM),將中間層特征進(jìn)行處理,為相鄰兩層特征分別提供語義信息和空間細(xì)節(jié),輸出更有效的特征用于信息恢復(fù).其次,HIRNet應(yīng)用了注意力機(jī)制[20]提升特征的融合效果,對(duì)注意力機(jī)制模塊AFF[21]進(jìn)行改進(jìn),提出殘差注意力特征融合(residual attentional feature fusion,RAFF)模塊,使用殘差注意力融合低層特征和高層特征,進(jìn)一步恢復(fù)高層特征中的空間細(xì)節(jié).本文在PASCAL VOC[22]和MS COCO[23]數(shù)據(jù)集上進(jìn)行了全面的實(shí)驗(yàn),與現(xiàn)有的不基于先驗(yàn)框方法相比,HIRNet在這兩個(gè)數(shù)據(jù)集上均能獲得有效提升,并且保證了算法的實(shí)時(shí)性.
本文提出的方法針對(duì)CenterNet面臨的預(yù)測時(shí)使用的特征缺少空間細(xì)節(jié)信息導(dǎo)致定位不夠精確的問題.圖1為CenterNet和HIRNet使用ResNet-18[24]為骨干網(wǎng)在PASCAL VOC數(shù)據(jù)集上的可視化檢測結(jié)果,由圖1(a)可知,CenterNet的檢測結(jié)果中存在對(duì)目標(biāo)定位不夠準(zhǔn)確的問題,例如對(duì)圖中大部分瓶子的定位不夠準(zhǔn)確.這是由于CenterNet在使用較高分辨率的高層特征圖進(jìn)行預(yù)測時(shí),無法依靠簡單的可形變卷積和上采樣的堆疊恢復(fù)出之前在下采樣過程中丟失的空間細(xì)節(jié)信息,進(jìn)而導(dǎo)致預(yù)測時(shí)使用的特征圖缺乏足夠的空間信息,使得檢測效果不佳.針對(duì)這一問題本文提出了逐級(jí)信息恢復(fù)網(wǎng)絡(luò)HIRNet,構(gòu)建了相鄰層信息增強(qiáng)模塊(ALISM)產(chǎn)生更適宜進(jìn)行信息恢復(fù)的特征,并構(gòu)建殘差注意力特征融合(RAFF)模塊使用全局和局部注意力機(jī)制加權(quán)融合兩級(jí)特征的殘差進(jìn)行逐級(jí)信息恢復(fù).
圖1?CenterNet和HIRNet使用ResNet-18檢測結(jié)果對(duì)比
本文提出的HIRNet是基于CenterNet的改進(jìn)方法,HIRNet結(jié)構(gòu)如圖2所示,包括骨干網(wǎng)、ALISM、RAFF和檢測頭4部分.本文以骨干網(wǎng)使用ResNet-18的HIRNet為例對(duì)整體網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行說明.依照CenterNet的設(shè)計(jì),首先使輸入圖像經(jīng)過一個(gè)卷積核大小為7×7、步長為2的卷積層以及批正則化(batch-norm)層、線性整流函數(shù)(ReLu)激活層和一個(gè)步長為2的最大值池化(maxpooling)層.通過對(duì)輸入圖像的粗處理,濾除了冗余信息,便于網(wǎng)絡(luò)進(jìn)行特征提?。藭r(shí)將步長為4的特征圖輸入ResNet-18網(wǎng)絡(luò)的第1~4層(layer),進(jìn)行特征提?。缓笤诠歉删W(wǎng)后依次使用3個(gè)上采樣模塊,提高特征圖的分辨率,便于進(jìn)行關(guān)鍵點(diǎn)檢測.該上采樣模塊依次包括一個(gè)卷積核為3×3的可形變卷積層、一個(gè)批正則化層、一個(gè)ReLu激活層、一個(gè)轉(zhuǎn)置上采樣層以及一個(gè)批正則化層.同CenterNet一樣,為了減少計(jì)算量,HIRNet未將3個(gè)上采樣層的通道數(shù)均設(shè)為256,而是按處理順序依次設(shè)為256、128、64.
圖2?HIRNet網(wǎng)絡(luò)結(jié)構(gòu)
由于特征圖在下采樣過程中損失了空間細(xì)節(jié)并且低層特征又相對(duì)包含較多空間細(xì)節(jié),所以HIRNet使用骨干網(wǎng)第1~3層后提取到的特征作為ALISM的輸入,并通過ALISM獲得更適合進(jìn)行信息恢復(fù)的特征圖.為了進(jìn)行逐級(jí)地信息恢復(fù),ALISM配合輸出的特征圖與3次上采樣后所得特征圖分辨率相同.ALISM輸出的特征圖直接用于信息恢復(fù)過程.
為了更好地自適應(yīng)強(qiáng)調(diào)重要信息,達(dá)到信息恢復(fù)的目的,HIRNet引入注意力機(jī)制,提出RAFF模塊用于信息恢復(fù)時(shí)的特征融合操作.RAFF模塊使用相同分辨率的ALISM對(duì)應(yīng)輸出特征和上采樣后的特征圖,融合產(chǎn)生恢復(fù)了具有一定信息和更強(qiáng)表達(dá)能力的特征圖.為了更精確地進(jìn)行恢復(fù),RAFF模塊使用全局注意力和局部注意力對(duì)兩個(gè)特征的殘差進(jìn)行加權(quán)調(diào)整.
經(jīng)過3個(gè)上采樣模塊和逐級(jí)信息恢復(fù)后,HIRNet按照CenterNet中的設(shè)計(jì)方案,將步長為4的特征圖輸入3個(gè)不同的檢測頭,分別進(jìn)行目標(biāo)中心點(diǎn)存在性、邊界框大小和目標(biāo)中心點(diǎn)偏移預(yù)測.
圖3?ALISM結(jié)構(gòu)
特征在神經(jīng)網(wǎng)絡(luò)的下采樣過程中不斷丟失其中所包含的信息,而簡單的上采樣堆疊無法準(zhǔn)確地恢復(fù)出丟失的信息,甚至?xí)脲e(cuò)誤,針對(duì)這一問題HIRNet使用ALISM的輸出特征和上采樣后的特征對(duì)信息進(jìn)行恢復(fù).為了避免由于采樣倍數(shù)過大和同時(shí)使用多級(jí)特征而引入噪聲,HIRNet使用對(duì)信息進(jìn)行逐級(jí)恢復(fù)的方案.與FPN[25]直接相加的方式不同,HIRNet提出的殘差注意力特征融合(RAFF)模塊使用注意力機(jī)制來生成兩個(gè)不同級(jí)別特征殘差的權(quán)重,然后對(duì)兩級(jí)特征進(jìn)行加權(quán)融合.這種加權(quán)融合的RAFF模塊可以更好地自適應(yīng)強(qiáng)調(diào)需要補(bǔ)充的信息.
融合和的殘差所使用的權(quán)重可以通過對(duì)使用全局注意力和局部注意力機(jī)制得
(13)
為驗(yàn)證本文所提方法的有效性,本文在PASCAL VOC數(shù)據(jù)集[22]和MS COCO數(shù)據(jù)集[23]上進(jìn)行了目標(biāo)檢測實(shí)驗(yàn).PASCAL VOC數(shù)據(jù)集包含20個(gè)目標(biāo)類別,其中PASCAL VOC2007數(shù)據(jù)集包含5011張訓(xùn)練圖像和4952張測試圖像,PASCAL VOC2012數(shù)據(jù)集包含11540張訓(xùn)練圖像和10991張測試圖像.本文使用PASCAL VOC2007訓(xùn)練集和PASCAL VOC2012訓(xùn)練集的組合集進(jìn)行訓(xùn)練,使用PASCAL VOC2007測試集進(jìn)行評(píng)估.在PASCAL VOC數(shù)據(jù)集中,使用交并比(intersection over union,IoU)閾值為0.5計(jì)算平均精度均值(mean average precision,mAP).MS COCO數(shù)據(jù)集包含80個(gè)目標(biāo)類別,它包含約115000張訓(xùn)練圖像、5000張驗(yàn)證圖像和40000張測試圖像.本文使用訓(xùn)練集(trainval)訓(xùn)練,使用驗(yàn)證集(minival)進(jìn)行評(píng)估.在MS COCO數(shù)據(jù)集中,平均精度(average precision,AP)通過對(duì)多個(gè)IoU閾值(取值范圍從0.50~0.95)求平均值計(jì)算.
本文在實(shí)驗(yàn)中使用在ImageNet數(shù)據(jù)集[26]上經(jīng)過預(yù)訓(xùn)練的ResNet網(wǎng)絡(luò)作為骨干網(wǎng).為了節(jié)省計(jì)算量,當(dāng)骨干網(wǎng)為ResNet-50時(shí),ALISM采樣部分的通道數(shù)從512減少到256.本文使用CenterNet[12]中所使用的損失函數(shù)、權(quán)重初始化和數(shù)據(jù)增強(qiáng)方法.實(shí)驗(yàn)采用Adam方法進(jìn)行訓(xùn)練.對(duì)于PASCAL VOC數(shù)據(jù)集,批大小(batch size)為32,總迭代數(shù)(epoch)為70,學(xué)習(xí)率設(shè)置為1.25×10-4,在第45次和60次迭代后學(xué)習(xí)率均下降10倍.本文方法使用PASCAL VOC數(shù)據(jù)集時(shí),訓(xùn)練和測試的輸入尺寸均為384×384.對(duì)于MS COCO數(shù)據(jù)集,batch size為16,總迭代數(shù)為140,學(xué)習(xí)率為6.25×10-5,在第90次和120次迭代后均下降10倍.對(duì)于MS COCO中使用ResNet-50的情況,batch size為12,學(xué)習(xí)率遵循線性學(xué)習(xí)率規(guī)則[27].本文方法使用MS COCO數(shù)據(jù)集時(shí),訓(xùn)練輸入尺寸為512×512,測試時(shí)保持原圖大小.本文實(shí)驗(yàn)?zāi)P偷挠?xùn)練均使用兩塊NVIDIA GTX 1070顯卡,測試除特別說明外均使用一塊NVIDIA GTX 1070顯卡.本文在Python中基于Pytorch深度學(xué)習(xí)框架構(gòu)建算法模型.
表1 PASCALVOC數(shù)據(jù)集所提各模塊消融實(shí)驗(yàn)結(jié)果
Tab.1 Ablation experiment results of the proposed mod-ules on the PASCAL VOC dataset
為確定ALISM的結(jié)構(gòu),本文嘗試了跨層信息增強(qiáng)方案,該方案在本文中使用ALISMv0表示,ALISMv0使用第1層特征經(jīng)過連續(xù)兩個(gè)卷積核為?3×3、步長為2的卷積層為第3層特征提供空間細(xì)節(jié),同時(shí)使用第3層特征經(jīng)過4倍的雙線性插值后再經(jīng)過一個(gè)卷積核為3×3、步長為1的卷積層為第1層特征提供語義信息.ALISMv0其余部分設(shè)置與ALISM保持相同.PASCAL VOC數(shù)據(jù)集上ALISM結(jié)構(gòu)對(duì)比實(shí)驗(yàn)結(jié)果如表2所示,為保證實(shí)驗(yàn)結(jié)果不受其他因素影響,表2中的網(wǎng)絡(luò)沒有使用RAFF模塊.由表2可知,跨層提供信息的方案雖然使用了包含更多信息的特征,但是效果比相鄰層方案差,本文認(rèn)為這是由于上、下采樣過程中引入了過多噪聲導(dǎo)致的.
表2 PASCALVOC數(shù)據(jù)集上ALISM結(jié)構(gòu)對(duì)比實(shí)驗(yàn)結(jié)果
Tab.2 Comparison experiment results of ALISM struc-ture on the PASCAL VOC dataset
為了證明HIRNet的有效性,本文進(jìn)一步將所提方法與應(yīng)用FPN[25]、PANet[28]的基線方法在PASCAL VOC數(shù)據(jù)集上進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示.為了公平比較,F(xiàn)PN和PANet均只使用了第1~3層的橫向鏈接,通道數(shù)與HIRNet對(duì)應(yīng)保持一致,且均只使用步長為4的特征圖進(jìn)行預(yù)測.實(shí)驗(yàn)結(jié)果表明,HIRNet的效果優(yōu)于應(yīng)用FPN、PANet的基線方法.這是由于,HIRNet中ALISM使用了相鄰層的特征進(jìn)行信息增強(qiáng),縮小了FPN結(jié)構(gòu)中直接使用橫向連接的方式中存在的語義鴻溝,由ALISM模塊產(chǎn)生的特征更容易提供更多有用信息.同時(shí)RAFF模塊使用的特征殘差注意力融合方式與直接相加的方式相比調(diào)整了兩個(gè)特征各個(gè)像素的權(quán)重,更容易恢復(fù)出在下采樣過程中丟失的信息.
表3 PASCALVOC數(shù)據(jù)集HIRNet與現(xiàn)有特征金字塔結(jié)構(gòu)對(duì)比
Tab.3 Comparison of HIRNet with the existing feature pyramid structure on the PASCAL VOC dataset
HIRNet使用較少參數(shù)量的同時(shí)保證了檢測效果,本文對(duì)比了表現(xiàn)接近的使用ResNet-34為骨干網(wǎng)的CenterNet與使用ResNet-18為骨干網(wǎng)的HIRNet的檢測結(jié)果,如表4所示,HIRNet在參數(shù)量比CenterNet少5.4×106時(shí),mAP比CenterNet高0.1%,證明了HIRNet能夠使用較少的參數(shù)量有效提升檢測效果.
表4 PASCALVOC數(shù)據(jù)集HIRNet與CenterNet參數(shù)量對(duì)比
Tab.4 Comparison of parameters between HIRNet and CenterNet on the PASCAL VOC dataset
為了驗(yàn)證本文方法在目標(biāo)檢測任務(wù)上的優(yōu)越性,將本文方法在MS COCO數(shù)據(jù)集的驗(yàn)證集上進(jìn)行測試,并與其他先進(jìn)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5所示.使用一塊NVIDIA GTX 1080Ti顯卡對(duì)檢測速度進(jìn)行測試.通常認(rèn)為檢測速度大于30幀/s的方法滿足實(shí)時(shí)性的要求,考慮到數(shù)據(jù)預(yù)處理、結(jié)果存儲(chǔ)等因素,實(shí)踐中取60幀/s為分界線劃分算法的實(shí)時(shí)性,所以本文中以60幀/s為分界線進(jìn)行對(duì)比.
由表5中結(jié)果可得,雖然HIRNet由于增加了一定的參數(shù)量,其速度相較于CenterNet稍有下降,但是在骨干網(wǎng)為ResNet-18時(shí),HIRNet比CenterNet精度高3.9%.在速度與使用ResNet-34為骨干網(wǎng)的TTF相當(dāng)?shù)那闆r下,骨干網(wǎng)為ResNet-18的HIRNet比TTF精度高0.7%.HIRNet在精度與速度之間進(jìn)行了較好的平衡.在骨干網(wǎng)為ResNet-50時(shí),HIRNet速度是RetinaNet的3倍,且精度比RetinaNet高0.2%,雖然由于輸入尺寸圖像較小導(dǎo)致的檢測困難使得HIRNet在IOU閾值為0.50時(shí)的AP值和衡量小物體的檢測精度的APS比RetinaNet低,但是HIRNet在IoU閾值為0.75時(shí)的AP值更高,表明HIRNet的定位更準(zhǔn)確.HIRNet在滿足實(shí)時(shí)性的要求下,精度比一些使用ResNet-101、VGG等大型網(wǎng)絡(luò)為骨干網(wǎng)的方法更高,體現(xiàn)了其在精度與速度之間進(jìn)行了較好的平衡.
圖5展示了CenterNet方法與HIRNet使用ResNet-18為骨干網(wǎng)在MS COCO驗(yàn)證集上的可視化結(jié)果,圖5(a)為CenterNet結(jié)果,圖5(b)為HIRNet結(jié)果.為了適應(yīng)實(shí)際應(yīng)用需要,圖5中展示的可視化結(jié)果已濾除置信度低于0.3的檢測結(jié)果.由兩種方法的可視化結(jié)果對(duì)比可以看出,HIRNet比CenterNet定位更精確,如CenterNet在圖5(a)的第1張圖中檢測結(jié)果的邊界框只包含了船體的一部分,第2張圖中的邊界框只包含了沖浪板的一部分,而HIRNet對(duì)應(yīng)邊界框包含的物體更完整,對(duì)物體邊界的定位更準(zhǔn)確.同時(shí)HIRNet可以減輕CenterNet存在的虛檢情況,如CenterNet在第3張圖中將固定鐘表的底座錯(cuò)檢為交通燈、第4張圖中對(duì)一個(gè)沖浪板產(chǎn)生多個(gè)檢測結(jié)果,這種虛檢現(xiàn)象未在HIRNet的對(duì)應(yīng)結(jié)果中發(fā)生.
表5?不同方法在MSCOCO驗(yàn)證集上的比較結(jié)果
Tab.5?Comparison results of different methods on the MS COCO minival data set
注:*表示該結(jié)果未在原文中給出;AP50表示IoU為0.50時(shí)的AP值;AP75表示IoU為0.75時(shí)的AP值;APS表示小尺寸目標(biāo)的AP值;APM表示中尺寸目標(biāo)的AP值;APL表示大尺寸目標(biāo)的AP值.
圖5?CenterNet與HIRNet使用ResNet-18為骨干網(wǎng)在MS COCO驗(yàn)證集上可視化結(jié)果
本文提出了一種不基于先驗(yàn)框的目標(biāo)檢測方法HIRNet,構(gòu)建ALISM和RAFF模塊在上采樣階段對(duì)信息進(jìn)行逐級(jí)恢復(fù),解決了CenterNet中簡單的上采樣無法恢復(fù)神經(jīng)網(wǎng)絡(luò)在下采樣階段丟失的空間細(xì)節(jié)信息而導(dǎo)致的檢測效果不佳的問題.ALISM利用中間層特征對(duì)相鄰層特征進(jìn)行信息增強(qiáng),使得輸出的低層特征同時(shí)具有更豐富的語義信息和空間細(xì)節(jié)信息,為后續(xù)信息恢復(fù)提供了更強(qiáng)有力的特征表達(dá)方式.RAFF模塊引入全局注意力和局部注意力機(jī)制,自適應(yīng)調(diào)整進(jìn)行融合的兩個(gè)特征的殘差變化,提供了更有效的信息恢復(fù)手段.基于PASCAL VOC數(shù)據(jù)集和MS COCO 數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)表明,本文所提出的HIRNet方法能在保證實(shí)時(shí)性的同時(shí),明顯提升目標(biāo)檢測精度,在MS COCO數(shù)據(jù)集上,骨干網(wǎng)使用ResNet-18時(shí)AP相對(duì)于基線方法CenterNet可提升3.9%達(dá)到32.0%,當(dāng)使用ResNet-50為骨干網(wǎng)時(shí)AP為36.0%,驗(yàn)證了本文所提方法的有效性.
在未來的方法中,希望在本文的基礎(chǔ)上進(jìn)一步緩解參數(shù)量增加對(duì)檢測速度的影響,并且更有效地利用低層特征的空間信息達(dá)到更好的檢測效果.
[1] LeCun Y,Bengio Y,Hinton G. Deep learning[J]. Nature,2015,521(7553):436-444.
[2] 張?為,魏晶晶. 嵌入DenseNet結(jié)構(gòu)和空洞卷積模塊的改進(jìn)YOLO v3火災(zāi)檢測算法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2020,53(9):976-983.
Zhang Wei,Wei Jingjing. Improved YOLOv3 fire detection algorithm embedded in denseNet structure and dilated convolution module[J]. Journal of Tianjin University(Science and Technology),2020,53(9):976-983(in Chinese).
[3] 楊愛萍,魯立宇,冀?中. 多層特征圖堆疊網(wǎng)絡(luò)及其目標(biāo)檢測方法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2020,53(6):647-652.
Yang Aiping,Lu Liyu,Ji Zhong. Multi-feature concatenation network for object detection[J]. Journal of Tianjin University(Science and Technology),2020,53(6):647-652(in Chinese).
[4] 高春艷,趙文輝,張明路,等. 一種基于YOLOv3 的汽車底部危險(xiǎn)目標(biāo)檢測算法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2020,53(4):358-365.
Gao Chunyan,Zhao Wenhui,Zhang Minglu,et al. A vehicle bottom dangerous object detection algorithm based on YOLOv3[J]. Journal of Tianjin University (Science and Technology),2020,53(4):358-365(in Chinese).
[5] Ren S Q,He K M,Girshick R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[6] Liu W,Anguelov D,Erhan D,et al. SSD:Single shot multibox detector[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam,Netherlands,2016:21-37.
[7] Li Y Z,Pang Y W,Shen J B,et al. NetNet:Neighbor erasing and transferring network for better single shot object detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:13346-13355.
[8] Redmon J,Divvala S,Girshick R,et al. You only look once:Unified,real-time object detection[C]// Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:779-788.
[9] Yu J H,Jiang Y N,Wang Z Y,et al. et al. UnitBox:An advanced object detection network[C]//Proceedings of the 24th ACM Multimedia Conference. Amsterdam,Netherlands,2016:516-520.
[10] Duan K W,Bai S,Xie L X,et al. CenterNet:Keypoint triplets for object detection[C]//Proceedings of the 17th IEEE/CVF International Conference on Computer Vision. Seoul,South Korea,2019:6568-6577.
[11] Law H,Deng J. Cornernet:Detecting objects as paired keypoints[C]//Proceedings of the 15th European Conference on Computer Vision. Munich,Germany,2018:765-781.
[12] Zhou X Y,Wang D Q,Kr?henbühl P. Objects as points[EB/OL]. http://arxiv.org/abs/1904. 07850,2019-04-25.
[13] Zhou X Y,Zhuo J C,Kr?henbühl P. Bottom-up object detection by grouping extreme and center points[C]// Proceedings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:850-859.
[14] Liu Z L,Zheng T,Xu G D,et al. Training-time-friendly network for real-time object detection[C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York,USA,2020:11685-11692.
[15] Dong Z W,Li G X,Liao Y,et al. CentripetalNet:Pursuing high-quality keypoint pairs for object detection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:10516-10525.
[16] Duan K,Xie L,Qi H,et al. Corner proposal network for anchor-free,two-stage object detection[C]// Proceedings of the 6th European Conference on Computer Vision. Glasgow,UK,2020:399-416.
[17] Tian Z,Shen C,Chen H,et al. FCOS:Fully convolutional one-stage object detection[C]//Proceedings of the 17th IEEE/CVF International Conference on Computer Vision. Seoul,South Korea,2019:9626-9635.
[18] Kong T,Sun F C,Liu H P,et al. FoveaBox:Beyound anchor-based object detection[J]. IEEE Transactions on Image Processing,2020,29:7389-7398.
[19] Zhang S F,Chi C,Yao Y Q,et al. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:9756-9765.
[20] Fan D P,Wang W,Cheng M,et al. Shifting more attention to video salient object detection[C]// Proceed-ings of the 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:8546-8556.
[21] Dai Y M,Gieseke F,Oehmcke S,et al. Attentional feature fusion[C]// Proceedings of the 2021 IEEE Winter Conference on Applications of Computer Vision. Waikoloa,USA,2021:3559-3568.
[22] Everingham M,Van Gool L,Williams C K I,et al. The pascal visual object classes(VOC)challenge[J]. International Journal of Computer Vision,2010,88(2):303-338.
[23] Lin T Y,Maire M,Belongie S,et al. Microsoft COCO:Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich,Switzerland,2014:740-755.
[24] He K M,Zhang X Y,Ren S Q,et al. Deep residual learning for image recognition[C]//Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[25] Lin T Y,Dollár P,Girshick R,et al. Feature pyramid networks for object detection[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,USA,2017:936-944.
[26] Russakovsky O,Deng J,Su H,et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision,2015,115(3):211-252.
[27] Goyal P,Dollár P,Girshick R,et al. Accurate,large minibatch SGD:Training ImageNet in 1 hour[EB/OL]. http://arxiv.org/abs/1706.02677,2018-04-30.
[28] Liu S,Qi L,Qin H F,et al. Path aggregation network for instance segmentation[C]//Proceedings of the 31st meeting of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:8759-8768.
[29] Lin T Y,Goyal P,Girshick R,et al. Focal loss for dense object detection[C]//Proceedings of the 16th IEEE International Conference on Computer Vision. Venice,Italy,2017:2999-3007.
[30] Redmon J,F(xiàn)arhadi A. YOLOv3:An incremental improvement[EB/OL]. http://arxiv.org/abs/1804.02767,2018-04-08.
Hierarchical Information Recovery Network for Real-Time Object Detection
Pang Yanwei,Yu Ke,Sun Hanqing,Cao Jiale
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
With the development of convolutional neural networks,object detection has become a focused research area in computer vision. Real-time object detection algorithms based on deep learning need to consider detection accuracy and speed. The real-time anchor-free object detection algorithm called CenterNet greatly improves the detection speed. However,it directly performs continuous upsampling of high-level features which are low-resolution. It does not fully recover the spatial details lost in the downsampling process,resulting in inaccurate positioning and low detection accuracy. To address this problem,a hierarchical information recovery network(HIRNet)is proposed. Here,the information is hierarchically recovered by developing an adjacent layer information strength module(ALISM) and residual attention feature fusion(RAFF)module. ALISM was designed to use the middle-layer features to provide more spatial details and semantic information for the adjacent layer features and improve the low-level features’ ?discriminative power. Thus,its outputs were more suitable for information recovery. RAFF was hierarchically used in the upsampling process to further recover the lost spatial details. It used the global and local attention to adjust the residual weights of the low-level and high-level features,then fused the two-level features to recover the spatial ?details of the high-level features,which were lost in the downsampling. Experiments on PASCAL VOC and MS COCO datasets showed the effectiveness of the proposed algorithm. HIRNet guarantees real-time detection with an accuracy of 3.9% higher than that of the CenterNet on the MS COCO minival dataset,improving the detection performance.
object detection;deep learning;convolutional neural network;anchor-free;hierarchical information recovery
10.11784/tdxbz202103031
TP391.4
A
0493-2137(2022)05-0471-09
2021-03-17;
2021-06-16.
龐彥偉(1976—??),男,博士,教授.
龐彥偉,pyw@tju.edu.cn.
國家自然科學(xué)基金資助項(xiàng)目(61906131).
Supported by the National Natural Science Foundation of China(No. 61906131).
(責(zé)任編輯:孫立華)