宋云博,陳冬艷,郝 赟,付先平
大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,在自然語言處理、語音識別、計(jì)算機(jī)視覺等方面的應(yīng)用越來越廣,這給人們的工作和生活帶來極大的便捷。目標(biāo)檢測作為計(jì)算視覺的一個(gè)研究領(lǐng)域,在人臉識別、無人駕駛等領(lǐng)域有著非常重要的作用。傳統(tǒng)的目標(biāo)檢測算法依賴人工提取特征并受環(huán)境和背景的影響,使得特征提取網(wǎng)絡(luò)的位置信息模糊,獲取的特征可移植性差導(dǎo)致目標(biāo)檢測的準(zhǔn)確率和精度過低。目前的目標(biāo)檢測算法主要分為兩大類:一種是基于回歸的目標(biāo)檢測算法,該算法直接產(chǎn)生物體分類的概率和邊界框坐標(biāo)完成對圖片中目標(biāo)的檢測任務(wù);另一種是基于候選區(qū)域的目標(biāo)檢測算法,該算法將檢測分為兩步,首先生成候選區(qū)域,然后對候選區(qū)域進(jìn)行分類和位置的回歸,以達(dá)到較高精度的檢測。這兩種算法都是根據(jù)交并比(IOU)的大小判斷正負(fù)樣本,但一般設(shè)置比較低的IOU閾值會得到過多的噪聲樣本,使訓(xùn)練的檢測器識別能力偏低,從而影響整個(gè)網(wǎng)絡(luò)的檢測精度;設(shè)置高的IOU閾值又會過濾掉過多中等質(zhì)量的樣本,只保留少量的高質(zhì)量樣本,從而產(chǎn)生過擬合現(xiàn)象;并且,推薦區(qū)域IOU閾值和檢測器使用的IOU閾值相差較大會造成質(zhì)量不匹配的問題。在此背景下提出高精度的目標(biāo)檢測算法進(jìn)而提升無人駕駛等設(shè)備的可靠性迫在眉睫。因此,本文提出了一種基于平行級聯(lián)網(wǎng)絡(luò)的目標(biāo)檢測算法,該算法利用平行級聯(lián)架構(gòu)的網(wǎng)絡(luò)解決了檢測器和推薦區(qū)域IOU閾值不同導(dǎo)致質(zhì)量失配的問題,以及過擬合的問題。
目標(biāo)檢測[1-2]旨在給定圖片中精確地找到物體所在位置,并識別出物體的類別。目標(biāo)檢測要解決的就是物體在哪里、是什么的問題,然而物體的尺寸變化、擺放角度、姿態(tài)不一及出現(xiàn)在圖片中的位置不同,使得高精度的目標(biāo)檢測極具挑戰(zhàn)性。
傳統(tǒng)的目標(biāo)檢測算法首先采用不同尺寸的滑動窗口在給定圖像的不同位置上選取候選區(qū)域,然后進(jìn)行特征提取,最后把這些從圖片中提取到的特征送到分類器中進(jìn)行識別與分類。特征提取是目標(biāo)檢測的重點(diǎn),在這個(gè)階段,研究人員致力于研究更好的特征提取算法[3-4]。傳統(tǒng)的特征提取方法可分為基于局部圖像、特征點(diǎn)檢測和多特征融合三種方法?;诰植繀^(qū)域圖像的方法主要是針對局部圖像進(jìn)行特征提取,在目標(biāo)物被遮擋的實(shí)際問題中具有一定的優(yōu)勢;基于特征點(diǎn)檢測的方法主要是由算法設(shè)計(jì)人員定義符合特征定義的像素點(diǎn),然后根據(jù)這些特征描述目標(biāo),它在檢測速度上具有明顯的優(yōu)勢?;诙嗵卣魅诤系姆椒ㄖ饕侨诤隙喾N不同的特征,起到優(yōu)勢互補(bǔ)的作用;最后把這些從圖片中提取到的特征送到分類器中進(jìn)行識別與分類。針對不同的目標(biāo)需要設(shè)計(jì)不同的特征提取和分類方法[5],這些需要人工獲取特征信息方法的可移植性差,且不同的目標(biāo)需要不同的特征提取,其中特征的提取和分類訓(xùn)練分離容易造成特征的遺漏,進(jìn)而影響檢測的結(jié)果,另外滑動窗口的遍歷搜索把圖片分成不同大小的塊,計(jì)算復(fù)雜度高且冗余信息多,實(shí)時(shí)運(yùn)行速度慢。
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)由若干卷積層和池化層交替構(gòu)成,對輸入的圖片進(jìn)行特征提取,并通過全連接層構(gòu)成的分類器進(jìn)行分類[6]?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)算法在圖像處理領(lǐng)域的應(yīng)用尤為重要。與傳統(tǒng)的目標(biāo)檢測方法相比,基于深層卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型在效率與精度方面有較好的提升[7-8]。深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩大類:一種是基于回歸的目標(biāo)檢測方法,例如YOLO、SSD等[9-11];另一種是基于候選區(qū)域的目標(biāo)檢測方法,例如Faster-RCNN[12]、Cascade R-CNN[13]、Mask-RCNN[14]等。本文采用基于候選區(qū)域的目標(biāo)檢測算法。
Faster R-CNN是將R-CNN[15]和Fast R-CNN等目標(biāo)檢測算法經(jīng)過改進(jìn)后提出的新的目標(biāo)檢測算法。Faster R-CNN由兩個(gè)模塊組成:一個(gè)模塊是推薦區(qū)域的深度全卷積網(wǎng)絡(luò);另一個(gè)模塊是使用推薦區(qū)域的Fast R-CNN檢測器。整個(gè)系統(tǒng)是一個(gè)單個(gè)的、統(tǒng)一的目標(biāo)檢測網(wǎng)絡(luò)。其中,F(xiàn)aster R-CNN中提出的區(qū)域推薦網(wǎng)絡(luò)[16](RPN)以任意大小的圖像作為輸入,輸出一組矩形的目標(biāo)推薦候選框,每個(gè)候選框都有一個(gè)目標(biāo)得分,然后利用全卷積網(wǎng)絡(luò)[17]對這個(gè)過程進(jìn)行建模。由于SPP-Net[18]和Fast R-CNN等研究已經(jīng)減少了這些檢測網(wǎng)絡(luò)的運(yùn)行時(shí)間,在Faster R-CNN中為了縮短區(qū)域推薦的計(jì)算時(shí)間,引入了一個(gè)區(qū)域提議網(wǎng)絡(luò)(RPN)。該網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)共享全圖像的卷積特征,從而使近乎零時(shí)間成本的區(qū)域推薦成為可能。
Cascade R-CNN網(wǎng)絡(luò)的核心是利用不斷提高的閾值,使得在保證樣本數(shù)不減少的情況下訓(xùn)練出高質(zhì)量的檢測器,通過級聯(lián)檢測網(wǎng)絡(luò)來達(dá)到提高檢測的精確度,該網(wǎng)絡(luò)通過產(chǎn)生更高精度的回歸框。從而提高生成正樣本的IOU閾值,使得檢測器接收到的推薦候選框精度就更高,自然能產(chǎn)生高精度的回歸框。但是這樣就會產(chǎn)生兩個(gè)問題:其一是過擬合問題,如果提高IOU閾值,滿足這個(gè)閾值條件的推薦候選區(qū)框必然比之前減小,那么就會導(dǎo)致過擬合。另一個(gè)是更嚴(yán)重的質(zhì)量不匹配問題。由于R-CNN結(jié)構(gòu)本身就存在質(zhì)量不匹配問題,IOU閾值的提高,會使問題變得更加嚴(yán)峻。
Mask R-CNN本質(zhì)是在Faster R-CNN的基礎(chǔ)上加了一個(gè)預(yù)測每個(gè)二值掩膜Mask分支,相當(dāng)于在之前Faster R-CNN的基礎(chǔ)上,F(xiàn)aster R-CNN將目標(biāo)框出,Mask R-CNN在目標(biāo)框內(nèi)對目標(biāo)做一個(gè)實(shí)例分割。Mask R-CNN采用跟Faster R-CNN相同的兩級結(jié)構(gòu),首先是找出RPN,然后對RPN找到的每個(gè)感興趣區(qū)域進(jìn)行分類和定位,Mask R-CNN還會為每一個(gè)感興趣區(qū)域輸出一個(gè)二進(jìn)制掩模。這與最近的其他網(wǎng)絡(luò)相反,其分類取決于掩模預(yù)測[19-21]。該方法遵循于Fast R-CNN邊框分類和回歸的并行,這在很大程度上簡化了R-CNN的多級流水線。Mask R-CNN提出了一個(gè)區(qū)域特征聚集方式,很好地解決了感興趣區(qū)域的池化操作中造成區(qū)域不匹配的問題。在網(wǎng)絡(luò)結(jié)構(gòu)上,對于上層網(wǎng)絡(luò),Mask R-CNN基本遵循了以前論文中提出的架構(gòu),在此基礎(chǔ)上添加了一個(gè)全卷積的掩模預(yù)測分支,因此可以使上層網(wǎng)絡(luò)包含更少的卷積核使網(wǎng)絡(luò)變得更加高效。
目前,基于區(qū)域推薦的目標(biāo)檢測算法首先需要生成可能包含目標(biāo)的推薦區(qū)域,推薦區(qū)域的質(zhì)量參差不齊,通常以某個(gè)設(shè)定的IOU閾值來篩選正樣本和負(fù)樣本。IOU是衡量目標(biāo)與被檢測物體重疊程度的指標(biāo),可以通過以下公式進(jìn)行目標(biāo)屬性類別的判斷:
其中,cy表示類別,x表示推薦區(qū)域的坐標(biāo)取值,gt表示標(biāo)注的真實(shí)邊框Ground Truth,u表示設(shè)定的IOU閾值。檢測器根據(jù)計(jì)算得到的IOU是否高于u值來判定正樣本和負(fù)樣本,設(shè)定的IOU閾值越高檢測器得到的樣本質(zhì)量越高。目標(biāo)檢測算法通常設(shè)定的閾值是0.5,同時(shí)也意味著檢測器會收到較多的低質(zhì)量的正樣本(包含較多背景),最后的檢測結(jié)果就會包含較多誤檢,使用0.7的閾值可以減少誤檢,但是高的閾值會篩選出較少的正樣本,因此容易造成過擬合。
圖1 、圖2表明單個(gè)檢測器只對一個(gè)質(zhì)量等級的推薦區(qū)域是最優(yōu)的,對某個(gè)閾值訓(xùn)練的檢測網(wǎng)絡(luò)產(chǎn)生的邊界框回歸器,在對應(yīng)閾值附近的樣本效果最好。對于低質(zhì)量的樣本,使用閾值較低的檢測器比閾值高的檢測器效果好。
由于高閾值會造成過擬合,只有推薦區(qū)域自身的閾值和檢測器訓(xùn)練用的閾值較為接近時(shí),檢測器的性能表現(xiàn)得最好,故本文的平行級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中I是輸入的圖片,conv表示用來提取特征的主干卷積神經(jīng)網(wǎng)絡(luò),pool是進(jìn)行區(qū)域特征提取的池化操作,H是網(wǎng)絡(luò)頭,B是邊界回歸框,C是分類。
圖1 不同質(zhì)量的檢測器對應(yīng)的最佳樣本質(zhì)量
圖2 隨著檢測器閾值的升高單檢測器性能下降
圖3 平行級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)圖
平行級聯(lián)網(wǎng)絡(luò)由四層級聯(lián)的檢測器組成,其目的是在確保樣本數(shù)不減少的情況下,通過搭建級聯(lián)結(jié)構(gòu)訓(xùn)練出高質(zhì)量的檢測器。由圖2可知,使用一個(gè)指定的IOU閾值訓(xùn)練得到的檢測模型對輸入IOU閾值跨度較大的樣本檢測效果較差。由圖1可知,圖中當(dāng)u的取值分別為0.5、0.6、0.7時(shí),三條曲線均在對角線之上,說明輸入檢測器的IOU閾值經(jīng)過網(wǎng)絡(luò)輸出后都有一定的提升,并且三條曲線都在自己閾值周圍的優(yōu)化效果較好,所以可以通過設(shè)計(jì)逐級遞增的IOU閾值,使上一級檢測器的輸出作為后一級的輸入,來提升網(wǎng)絡(luò)輸出的效果。因此本文采用平行級聯(lián)檢測網(wǎng)絡(luò),逐級進(jìn)行IOU閾值提升,設(shè)置第5級檢測器使得樣本數(shù)量減少導(dǎo)致過擬合現(xiàn)象的發(fā)生,進(jìn)而使檢測精度降低,所以文中平行級聯(lián)檢測網(wǎng)絡(luò)采用四級網(wǎng)絡(luò)結(jié)構(gòu)。第一級對樣本進(jìn)行初篩,去掉質(zhì)量過低的樣本,設(shè)定IOU閾值為0.5;第二級設(shè)定兩個(gè)平行的檢測器,閾值分別取0.58和0.60,兩個(gè)平行的檢測器同時(shí)對推薦候選框進(jìn)行邊框回歸,第二級的結(jié)果取兩個(gè)檢測器的均值;第三級選取閾值為0.64、0.66和0.68三個(gè)檢測器進(jìn)行平行組合,第三級輸出的結(jié)果取它的三個(gè)檢測器的均值;第四級則選取4個(gè)不同的閾值,分別為0.69、0.71、0.73和0.75,第四級的輸出取均值即為模型的輸出。值得注意的是平行級聯(lián)檢測網(wǎng)絡(luò)四級的各個(gè)閾值,是根據(jù)圖1的檢測器輸出質(zhì)量在輸入的IOU閾值附近提升效果好的基礎(chǔ)上,而且需要采用逐級遞增的IOU閾值來匹配逐級提升的樣本質(zhì)量,并結(jié)合圖4的樣本質(zhì)量的初始分布和經(jīng)過每一級后的樣本質(zhì)量提升后的分布設(shè)定相適配的IOU閾值,最后通過實(shí)驗(yàn)的參數(shù)調(diào)優(yōu)確定的每級的最佳閾值。相比于其他兩種結(jié)構(gòu),Iterative Bbox at inference結(jié)構(gòu)是級聯(lián)的分類器和回歸器,但它的這些分類器和回歸器還是對初始的候選區(qū)域進(jìn)行訓(xùn)練,并且從圖2可以看出,高的IOU閾值的樣本經(jīng)過低質(zhì)量的檢測器后反而會降低檢測精度。Intergral Loss結(jié)構(gòu)在池化后根據(jù)IOU閾值將樣本分成不同的集合,不同IOU閾值的樣本進(jìn)入不同的分類器,但回歸框只有一個(gè),這種結(jié)構(gòu)雖然提高了分類的精度,但使得高IOU閾值的樣本較少,導(dǎo)致高閾值的檢測器訓(xùn)練容易發(fā)生過擬合現(xiàn)象,并且一個(gè)回歸框也無法對所有輸入進(jìn)行良好的回歸。平行級聯(lián)的結(jié)構(gòu)利用多個(gè)回歸器和分類器級聯(lián),將上一級回歸器的輸出輸入到下一級,圖1可以看出,由于回歸器對輸入的樣本的IOU閾值均有一定程度的提升,這樣每一級提升后的樣本輸入到下一級,使得不同級別的分類器和回歸器在越來越高的樣本質(zhì)量上進(jìn)行訓(xùn)練,并通過重采樣保證足夠多的高質(zhì)量樣本防止過擬合問題的發(fā)生,進(jìn)而提升檢測精度。
圖4 級聯(lián)網(wǎng)絡(luò)和平行級聯(lián)網(wǎng)絡(luò)各級的樣本質(zhì)量分布對比
平行級聯(lián)網(wǎng)絡(luò)由多級級聯(lián)而成,每一級由不同的一個(gè)或多個(gè)單獨(dú)的檢測器構(gòu)成,并將它們的結(jié)果融合作為下一級的輸入,最后一級多個(gè)檢測器的結(jié)果融合后,得到最終結(jié)果。滿足上述網(wǎng)絡(luò)結(jié)構(gòu)要求的損失函數(shù)是由回歸損失函數(shù)和分類損失函數(shù)組合而成的。回歸損失指邊界框的回歸損失,邊界框包括4個(gè)坐標(biāo)及其包圍的區(qū)域,用表示,bx、by為中心點(diǎn)坐標(biāo),bw、bh為邊界框的寬和高,通過回歸函數(shù)F(b,g)使得邊界框與真實(shí)邊界框的IOU盡可能大,其中g(shù)=代表真正的回歸框?yàn)橹行狞c(diǎn)坐標(biāo),gw、gh為邊界框的寬和高,最小化邊界框損失函數(shù)如式(2)所示:
其中:
檢測網(wǎng)絡(luò)分類部分損失函數(shù)定義如公式(5)所示:其中,函數(shù)Lcls是經(jīng)典的交叉熵?fù)p失函數(shù)。其中T代表第幾層級,每層包括一個(gè)或多個(gè)分類器和回歸器。邊界框通過加權(quán)平均計(jì)算類別的標(biāo)簽值。
故第T級最終的損失函數(shù)表示為:
其中,hT代表第T級的分類器輸出的分類結(jié)果,F(xiàn)T代表第T級回歸器輸出的回歸結(jié)果的均值,g代表真實(shí)邊框。r是平衡因子,平衡分類損失和邊界框回歸損失的歸一化權(quán)重。
本文的實(shí)驗(yàn)配置為帶有4塊NVIDIA GTX 1080Ti顯卡的服務(wù)器,內(nèi)存大小為64 GB。實(shí)驗(yàn)的數(shù)據(jù)集為Microsoft COCO 2017(MS-COCO 2017)[22],它由訓(xùn)練集、驗(yàn)證集、測試集三部分組成。網(wǎng)絡(luò)模型的訓(xùn)練集數(shù)據(jù)大約120 000張圖片,用來評估模型的驗(yàn)證集包括5 000張圖片,模型的測試集圖片約20 000張。
平行級聯(lián)網(wǎng)絡(luò)由四層級聯(lián)的檢測器組成,在確保樣本數(shù)不減少的情況下,通過搭建級聯(lián)結(jié)構(gòu)訓(xùn)練出高質(zhì)量的檢測器,在每一級上,對平行級聯(lián)檢測網(wǎng)絡(luò)與級聯(lián)檢測網(wǎng)絡(luò)的樣本質(zhì)量進(jìn)行對比,然后選出各級相對較優(yōu)的IOU值。其質(zhì)量分布對比如圖4所示。第一級對樣本進(jìn)行初篩,去掉質(zhì)量過低的樣本,設(shè)定IOU閾值為0.5;第二級設(shè)定兩個(gè)平行的檢測器,閾值分別取0.58和0.60,兩個(gè)平行的檢測器同時(shí)對推薦候選框進(jìn)行邊框回歸,第二級的結(jié)果取兩個(gè)檢測器的均值;第三級選取閾值為0.64、0.66和0.68三個(gè)檢測器進(jìn)行平行組合,第三級輸出的結(jié)果取它的三個(gè)檢測器的均值;第四級則選取4個(gè)不同的閾值,分別為0.69、0.71、0.73和0.75,第四級的輸出取均值即為模型的輸出。通過此平行級聯(lián)網(wǎng)絡(luò)樣本的質(zhì)量逐漸升高,檢測器整體的檢測精度也得到了提升。
平行級聯(lián)檢測網(wǎng)絡(luò)由多級檢測組成,通過分析網(wǎng)絡(luò)每級的檢測結(jié)果來分析設(shè)計(jì)的合理性。模型的評估指標(biāo)AP是以0.05為間隔從0.50至0.95這10個(gè)IOU閾值平均準(zhǔn)確率的均值。其中AP50、AP70和AP90分別是IOU閾值為0.50、0.70和0.90時(shí)的平均準(zhǔn)確率均值,各級的檢測結(jié)果如表1、表2所示。
表1 級聯(lián)檢測網(wǎng)絡(luò)和平行級聯(lián)檢測網(wǎng)絡(luò)每一級檢測結(jié)果%
表2 級聯(lián)檢測網(wǎng)絡(luò)和平行級聯(lián)檢測網(wǎng)絡(luò)多級檢測結(jié)果%
由表1可知,平行級聯(lián)檢測網(wǎng)絡(luò)的單檢測器在AP90指標(biāo)上略低于級聯(lián)檢測網(wǎng)絡(luò),其余大多數(shù)AP要高于級聯(lián)檢測網(wǎng)絡(luò),而且級聯(lián)檢測網(wǎng)絡(luò)在第四級檢測結(jié)果中AP指標(biāo)下降的原因是高質(zhì)量樣本過多、樣本多樣性低,導(dǎo)致出現(xiàn)過擬合現(xiàn)象。平行級聯(lián)檢測網(wǎng)絡(luò)設(shè)置4級檢測器,每級檢測器設(shè)置遞增的IOU閾值,樣本經(jīng)過多級檢測器的重采樣,質(zhì)量逐步得到提升,從而提高了整體樣本的質(zhì)量。由圖4可以看出,樣本的質(zhì)量分布逐漸向高質(zhì)量遞增,在提高檢測器精度的基礎(chǔ)下,同時(shí)使得級聯(lián)檢測器的IOU閾值增加,與逐級提高的樣本質(zhì)量相匹配,解決質(zhì)量不匹配的問題。所以平行級聯(lián)檢測網(wǎng)絡(luò)可以在穩(wěn)定提升樣本質(zhì)量的同時(shí)保持樣本的多樣性,降低了過擬合風(fēng)險(xiǎn),從而使整體檢測精度得到提升。
由表2可知,平行級聯(lián)檢測網(wǎng)絡(luò)和級聯(lián)檢測網(wǎng)絡(luò)的前兩級的質(zhì)量檢測效果指標(biāo)都有提升,平行級聯(lián)檢測網(wǎng)絡(luò)的第一級與級聯(lián)檢測網(wǎng)絡(luò)的第一級結(jié)果相近,這是因?yàn)閮煞N網(wǎng)絡(luò)的檢測器均使用了0.5的IOU閾值進(jìn)行初級樣本的篩選,后面隨著檢測器的多級連接,平行級聯(lián)檢測網(wǎng)絡(luò)的評價(jià)指標(biāo)AP50和AP70都高于級聯(lián)檢測網(wǎng)絡(luò),評價(jià)指標(biāo)AP90低于級聯(lián)檢測網(wǎng)絡(luò),說明級聯(lián)檢測網(wǎng)絡(luò)的高質(zhì)量樣本數(shù)量較多,同時(shí)從兩個(gè)網(wǎng)絡(luò)的總體的評價(jià)指標(biāo)AP可以看出,級聯(lián)檢測網(wǎng)絡(luò)在1~4級時(shí)AP有所下降,說明高質(zhì)量樣本占大多數(shù),產(chǎn)生了過擬合現(xiàn)象。而平行級聯(lián)檢測網(wǎng)絡(luò)在加入第五級時(shí)出現(xiàn)了AP下降的情況,所以本文采用了四級的平行級聯(lián)檢測網(wǎng)絡(luò),它的總體評價(jià)指標(biāo)AP均要高于其他級聯(lián)檢測網(wǎng)絡(luò),并且隨著級數(shù)的增加而上升,說明平行級聯(lián)檢測網(wǎng)絡(luò)減少了過擬合現(xiàn)象,提高了檢測精度。
表4 平行級聯(lián)檢測網(wǎng)絡(luò)與區(qū)域推薦的檢測網(wǎng)絡(luò)的對比%
本文的平行級聯(lián)檢測網(wǎng)絡(luò)使用Resnet101+FPN作為基礎(chǔ)網(wǎng)絡(luò),并與多個(gè)目前主流的檢測網(wǎng)絡(luò)進(jìn)行比較,其余網(wǎng)絡(luò)均用IOU閾值為0.5的檢測器進(jìn)行訓(xùn)練,表3、表4中AP75為IOU閾值0.75時(shí)的平均準(zhǔn)確率。APS、APM和APL分別是小、中和大三種不同尺寸目標(biāo)的平均準(zhǔn)確率均值。
表3 平行級聯(lián)檢測網(wǎng)絡(luò)與回歸的檢測網(wǎng)絡(luò)的對比%
從表3可以看出,基于回歸的目標(biāo)檢測網(wǎng)絡(luò)YOLOv3、SSD513、RetinaNet在檢測精度上,均要低于平行級聯(lián)檢測網(wǎng)絡(luò)。其中RetinaNet在不同尺寸目標(biāo)準(zhǔn)確率均值上,平行級聯(lián)檢測網(wǎng)絡(luò)提高了5.0個(gè)百分點(diǎn)。平行級聯(lián)監(jiān)測網(wǎng)絡(luò)在0.50到0.95閾值區(qū)間的平均準(zhǔn)確率提高更加顯著,為5.3個(gè)百分點(diǎn),這也是基于推薦區(qū)域的目標(biāo)檢測算法的優(yōu)勢。
從表4可以得出,對于不同尺寸物體的檢測,平行級聯(lián)網(wǎng)絡(luò)相比于Cascade R-CNN提高了1.6個(gè)百分點(diǎn),總體精度均高于Faster R-CNN+++、Faster R-CNN+FPN、Faster R-CNN by G-RMI、Deformable R-FCN、Mask R-CNN和Cascade R-CNN網(wǎng)絡(luò)1.5個(gè)百分點(diǎn)以上。與目前主流的基于候選區(qū)域的目標(biāo)檢測網(wǎng)絡(luò)和基于回歸的目標(biāo)監(jiān)測網(wǎng)絡(luò)網(wǎng)絡(luò)相比,平行級聯(lián)檢測網(wǎng)絡(luò)的AP可以提升1.5個(gè)百分點(diǎn)以上。
為了進(jìn)一步驗(yàn)證平行級聯(lián)網(wǎng)絡(luò)的性能,將平行級聯(lián)檢測網(wǎng)絡(luò)和多個(gè)常用的目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行了速度上的比較,實(shí)驗(yàn)中的訓(xùn)練時(shí)間為一張圖片在一塊GTX1080Ti GPU上的訓(xùn)練時(shí)間消耗,測試時(shí)間為每張圖片的測試時(shí)間消耗。由表5可以看出平行級聯(lián)檢測網(wǎng)絡(luò)的速度比Faster R-CNN、R-FCN[23]、Cascade R-CNN要慢,但比FPN+要快。平行級聯(lián)網(wǎng)絡(luò)模型的參數(shù)比其他網(wǎng)絡(luò)均要高,主要原因是相比于其他網(wǎng)絡(luò)結(jié)構(gòu),平行級聯(lián)網(wǎng)絡(luò)采用了4級結(jié)構(gòu)級數(shù)較多,而模型參數(shù)的大小是隨著級聯(lián)數(shù)的增加而增加的;但速度上的影響并不是很大,平行級聯(lián)網(wǎng)絡(luò)的每張圖片的訓(xùn)練時(shí)間比Cascade R-CNN慢0.03 s,在測試時(shí)間上僅比Cascade R-CNN慢0.008 s,相比于其他網(wǎng)絡(luò)也不高,主要因素是對于目前的檢測網(wǎng)絡(luò)來說,檢測頭的計(jì)算時(shí)間成本要比特征提取的時(shí)間少很多,所以多級檢測器網(wǎng)絡(luò)在運(yùn)算復(fù)雜度上相比于其他網(wǎng)絡(luò)并不高。
表5 平行級聯(lián)檢測網(wǎng)絡(luò)與其他檢測網(wǎng)絡(luò)的速度對比
本文針對單一閾值檢測器在提高樣本質(zhì)量時(shí)出現(xiàn)的過擬合問題,以及推薦區(qū)域與檢測器使用相差較多的IOU閾值導(dǎo)致質(zhì)量失配的問題,提出了一種平行級聯(lián)檢測網(wǎng)絡(luò)用于高精度的目標(biāo)檢測。通過設(shè)置四級不同閾值的檢測器,每級由一個(gè)或多個(gè)單檢測器組成,結(jié)果取每一級內(nèi)多個(gè)檢測器的均值,低級過濾掉質(zhì)量低的樣本,高級逐步重采樣用高質(zhì)量樣本訓(xùn)練檢測器,使得平行級聯(lián)檢測網(wǎng)絡(luò)可以在提升樣本質(zhì)量的同時(shí)保持樣本的多樣性,進(jìn)而防止過擬合,達(dá)到提升檢測精度的目的。