強(qiáng) 華,李琦銘,周勇軍,高 驍,李 波,李 俊+
(1.中國(guó)科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所 泉州裝備制造研究所,福建 泉州 362200;2.中北大學(xué) 電氣與控制工程學(xué)院,山西 太原 030051;3.閩南科技大學(xué),福建 泉州 362200;4.九江武警總隊(duì),江西 南昌 330000)
隨著人工智能技術(shù)的普及,行人檢測(cè)被廣泛應(yīng)用于自動(dòng)駕駛和安防視頻監(jiān)控及監(jiān)獄巡檢等場(chǎng)景中。雖然行人檢測(cè)方法因?yàn)樯疃葘W(xué)習(xí)的應(yīng)用取得了長(zhǎng)足的進(jìn)步,但是由于小尺度行人檢測(cè)問(wèn)題存在,檢測(cè)效果目前仍不能滿足實(shí)際工業(yè)要求,因而需要對(duì)行人檢測(cè)做進(jìn)一步研究。
傳統(tǒng)的行人檢測(cè)方法為手工設(shè)計(jì)的特征,包括梯度直方圖(HOG)、特征描述算子(Haar特征)、局部二值模式(LBP)等方法,是滑動(dòng)窗口分類器的形式,但此類方法存在計(jì)算復(fù)雜度低、特征維度高、泛化能力差等缺點(diǎn)。隨后從RCNN[1]開(kāi)始提出了深度學(xué)習(xí)的檢測(cè)方法,但是當(dāng)前基于深度學(xué)習(xí)的主流檢測(cè)器,不管是兩階段的Faster R-CNN[1-3]系列,還是單階段的SSD[4]系列,均采用鋪設(shè)錨點(diǎn)框的檢測(cè)方法。其本質(zhì)上仍是滑動(dòng)窗口分類器的形式,用于判斷預(yù)設(shè)的錨點(diǎn)框內(nèi)是否存在行人。然而這些方法都需要針對(duì)特定數(shù)據(jù)集設(shè)計(jì)以及優(yōu)化錨點(diǎn)框超參數(shù),從而增加了訓(xùn)練難度。另外這些方法在分類階段,由于高層卷積特征圖分辨率降低,小尺度的行人無(wú)法得到有效的描述,會(huì)降低檢測(cè)的總體性能。
為此近年來(lái)基于深度學(xué)習(xí)提出的無(wú)錨框的行人檢測(cè)方法可以有效地解決此問(wèn)題。例如,YOLO[5]和DenseBox[6]采用單個(gè)卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)多個(gè)邊界框和類別概率,成功地拋棄了錨點(diǎn)框,從而實(shí)現(xiàn)了訓(xùn)練和預(yù)測(cè)端到端的進(jìn)行,縮短了訓(xùn)練時(shí)間。但其特征提取方法較為粗糙(如YOLO里使用7×7大小的卷積核網(wǎng)格),不能精確定位行人,尤其對(duì)于小尺度的行人。接著提出的CornerNet[7]和TLL[8]通過(guò)一組對(duì)角點(diǎn)檢測(cè)或上下頂點(diǎn)檢測(cè),實(shí)現(xiàn)了基于關(guān)鍵點(diǎn)檢測(cè)和配對(duì)的工作。通過(guò)一組對(duì)角點(diǎn)或上下頂點(diǎn)配對(duì)的方式,成功地拋棄了錨點(diǎn)框,從而實(shí)現(xiàn)了無(wú)錨框的行人檢測(cè),但是配對(duì)方法較為復(fù)雜。隨后劉偉等提出CSP[9]行人檢測(cè)算法,實(shí)現(xiàn)了簡(jiǎn)單的利用全卷積的方式預(yù)測(cè)中心點(diǎn)和尺度的檢測(cè)器,將行人檢測(cè)這個(gè)高層視覺(jué)任務(wù)簡(jiǎn)化為了語(yǔ)義特征點(diǎn)檢測(cè)的問(wèn)題。因此本文在CSP算法基礎(chǔ)上進(jìn)行改進(jìn)。
現(xiàn)有的CSP行人檢測(cè)模型雖然在行人檢測(cè)方面達(dá)到了較好的效果,但是由于卷積層的感受野范圍有較大的限制,不能根據(jù)不同尺度的行人進(jìn)行自適應(yīng)的變化。本文針對(duì)小尺度行人的檢測(cè)問(wèn)題,對(duì)CSP行人檢測(cè)模型進(jìn)行改進(jìn),提高行人檢測(cè)的精度。
在行人檢測(cè)的深度學(xué)習(xí)框架中,卷積網(wǎng)絡(luò)是行人檢測(cè)的主干網(wǎng)絡(luò),許多方法通過(guò)提高網(wǎng)絡(luò)的特征提取能力來(lái)獲得更低的平均漏檢率(miss rate)。因而我們從卷積網(wǎng)絡(luò)入手,基于改進(jìn)卷積網(wǎng)絡(luò)的思想,提高行人檢測(cè)的精度和速度。自從ResNet[10]殘差網(wǎng)絡(luò)的提出,極大程度上解決了由于網(wǎng)絡(luò)層數(shù)增加而產(chǎn)生的梯度消失和梯度爆炸問(wèn)題,這是卷積網(wǎng)絡(luò)發(fā)展史上的一次重大轉(zhuǎn)折點(diǎn)。隨后ResNet[10]的各種改進(jìn)方法(如ResNeXt[11]、SENet[12]、SKNet[13]、IResNet[14]、ResNetst[15])的提出,逐漸推進(jìn)了卷積網(wǎng)絡(luò)向前發(fā)展,但是這些方法背后的共同思想集中在調(diào)整網(wǎng)絡(luò)體系結(jié)構(gòu)來(lái)產(chǎn)生豐富的特征表示上,缺點(diǎn)是需要太多的訓(xùn)練時(shí)間。而SCNet[16]則在沒(méi)有改變網(wǎng)絡(luò)基本架構(gòu)的情況下,通過(guò)內(nèi)部通信顯著擴(kuò)展了每個(gè)卷積層的感受野范圍,從而增強(qiáng)了高層卷積特征圖的分辨率。
SCNet針對(duì)小尺度目標(biāo)有定位精確的好處,可以有效區(qū)分小尺度目標(biāo)和背景物,降低小尺度目標(biāo)的漏檢率。小尺度行人的處理恰恰是行人檢測(cè)中重要的研究問(wèn)題,可以將SCNet應(yīng)用到行人檢測(cè)中,提高行人檢測(cè)的精度。因此,本文借鑒SCNet的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)CSP行人檢測(cè)模型進(jìn)行改進(jìn),提出一種融合SCNet卷積網(wǎng)絡(luò)和CSP行人檢測(cè)模型的行人檢測(cè)方法(SC-CSP檢測(cè)算法),這種方法能有效擴(kuò)大整個(gè)網(wǎng)絡(luò)的感受野范圍,使檢測(cè)器更好地檢測(cè)到大小不一的行人,尤其對(duì)于改善小尺度行人的檢測(cè)有更好的效果。
改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,SC-CSP網(wǎng)絡(luò)結(jié)構(gòu)分為3個(gè)階段:特征提取、檢測(cè)器頭部和檢測(cè)。
圖1 SC-CSP結(jié)構(gòu)
輸入圖片先經(jīng)過(guò)SCNet自校準(zhǔn)卷積網(wǎng)絡(luò),對(duì)行人特征進(jìn)行分層提取。在SCNet中,它使每個(gè)空間位置能夠自適應(yīng)地對(duì)不同區(qū)域高低層之間的特征進(jìn)行提取,使得行人與背景物更具區(qū)分性,突出行人的中心點(diǎn)位置。這要?dú)w功于SCNet的SCNet Block中的異構(gòu)卷積和濾波器間的通信模塊,此模塊是由多個(gè)卷積注意力模塊組合起來(lái),用來(lái)替換ResNet的基本卷積結(jié)構(gòu)。SCNet Block自校準(zhǔn)卷積模塊在1.1.1中進(jìn)行詳細(xì)介紹。網(wǎng)絡(luò)的輸入是圖像I,進(jìn)而通過(guò)SCNet自校準(zhǔn)卷積網(wǎng)絡(luò)生成了具有不同分辨率的多個(gè)特征圖,將其定義為
φi=fi(φi-1)=fi(fi-1(…f2(f1(I))))
(1)
其中,φi表示第i層輸出的特征圖,在本文的網(wǎng)絡(luò)中,這些特征圖的大小逐漸減小,fi(·)代表生成的特征圖,特征圖是由卷積或池化處理得到。本文將負(fù)責(zé)檢測(cè)的這些特征圖表示為φdet,負(fù)責(zé)檢測(cè)的特征圖為圖1中第1層~第4層的特征圖,表示為L(zhǎng)ayer1、Layer2、Layer3、Layer4。低層特征圖擁有較高的空間分辨率,高層特征圖則包含更多的語(yǔ)義信息。為了使不同層的特征圖都能很好應(yīng)用在最終的檢測(cè)中,我們把低層和高層的特征圖融合為一個(gè)特征圖。具體的特征融合方法為:首先對(duì)高低層要融合的特征圖進(jìn)行L2歸一化處理;其次利用反卷積將第2層~第4層特征圖的分辨率上采樣到和第1層特征圖的分辨率一致的尺度下,尺度為原圖的1/4;最后將處理后的特征圖連接起來(lái),得到最終用于檢測(cè)的行人特征圖。具體的網(wǎng)絡(luò)流程在1.1.2中進(jìn)行詳細(xì)論述。
1.1.1 SCNet Block模塊
SCNet Block這一概念來(lái)自SCNet中的一個(gè)模塊。在不增加額外計(jì)算量的情況下,該模塊能產(chǎn)生全局的感受野,可以有效擴(kuò)大網(wǎng)絡(luò)中每個(gè)卷積層的感受野范圍,更易進(jìn)行小尺度的行人檢測(cè)。如圖2所示,輸入X先通過(guò)兩個(gè)卷積分成兩個(gè)特征X1、X2。對(duì)特征X1采用平均池化,下采樣r倍(r=4),再經(jīng)過(guò)F2卷積提取得到特征,對(duì)其特征進(jìn)行上采樣(采用雙線性插值法),經(jīng)過(guò)Sigmoid激活函數(shù)對(duì)F3卷積提取后的特征進(jìn)行校準(zhǔn)得到特征Y′1,對(duì)Y′1進(jìn)行F4卷積提取特征得到輸出特征Y1;對(duì)特征X2經(jīng)過(guò)F1卷積提取得到特征Y2;對(duì)兩個(gè)尺度空間輸出特征Y1、Y2進(jìn)行拼接操作,得到最終輸出特征Y??梢杂霉奖頌?/p>
圖2 SCNet Block結(jié)構(gòu)
T1=AvgPoolr(X1)
(2)
對(duì)T1使用卷積核K2進(jìn)行特征變換
X′1=UP(F2(T1))=UP(T1*K2)
(3)
其中,UP(·)表示線性插值操作,從而實(shí)現(xiàn)中間參考量從小尺度空間到原始特征空間的映射?,F(xiàn)在自校準(zhǔn)操作可以表現(xiàn)為
Y′1=F3(X1)·σ(X1+X′1)
(4)
其中,F(xiàn)3(X1)=X1*K3,σ表示sigmoid函數(shù),以及符號(hào)“·”表示逐元素乘運(yùn)算,X′1被用作殘差項(xiàng)來(lái)建立權(quán)重用于自校準(zhǔn)。自校準(zhǔn)后的最終輸出可以寫成
Y1=F4(Y′1)=Y′1*K4
(5)
SCNet相比傳統(tǒng)的ResNet的優(yōu)點(diǎn)在于,SCNet將一個(gè)標(biāo)準(zhǔn)卷積拆成4個(gè)小卷積F1、F2、F3、F4,首先在不增加額外計(jì)算量的情況下,增加了圖像中小尺度行人特征的信息提取能力;其次SCNet考慮到了行人特征圖通道間的信息和行人局部信息的增強(qiáng),空間上的每一點(diǎn)都有附近區(qū)域和通道上的交互信息,使卷積層產(chǎn)生全局感受野,提高小尺度行人的定位精度;最后K1、K2、K3、K4為自校準(zhǔn)卷積模塊中的卷積核,每個(gè)部分負(fù)責(zé)不同的功能,這使得自校準(zhǔn)卷積避免了背景信息的干擾,提高行人檢測(cè)的速度。
1.1.2 SC-CSP的網(wǎng)絡(luò)流程
本文在CSP的基礎(chǔ)上,將CSP原有的主干網(wǎng)絡(luò)ResNet換成了SCNet,不但擴(kuò)大了網(wǎng)絡(luò)的感受野范圍,而且達(dá)到了降低網(wǎng)絡(luò)參數(shù)的目的。結(jié)合圖3簡(jiǎn)述SC-CSP的網(wǎng)絡(luò)流程,以輸入尺寸為640×1280,3通道的圖像為例。階段一:圖像依次經(jīng)過(guò)Conv、BN、Relu、MP層,尺寸變?yōu)?160,320,64)。階段二:進(jìn)入SCB(SCNet Block)自校準(zhǔn)卷積模塊。SCB模塊分為4層特征圖處理,每一層分別處理相對(duì)應(yīng)尺度大小的行人。經(jīng)過(guò)Layer1特征圖尺寸變?yōu)?160,320,256),經(jīng)過(guò)Layer2特征圖尺寸變?yōu)?80,160,512),經(jīng)過(guò)Layer3特征圖尺寸變?yōu)?40,80,1024),經(jīng)過(guò)Layer4特征圖尺寸變?yōu)?20,40,2048),這里設(shè)置4層特征圖的作用是可以緩解多尺度行人的檢測(cè)問(wèn)題,相比CSP行人檢測(cè)算法的Layer4來(lái)說(shuō),CSP中的Layer4特征圖尺寸是原輸入圖像尺寸的1/16與Layer3特征圖尺寸一致。而我們的SC-CSP行人檢測(cè)算法將其特征圖尺度下采樣到原圖的1/32,這樣做的好處在于使多尺度行人的檢測(cè)范圍更廣,提升小尺度行人的檢測(cè)精度。階段三:首先對(duì)所有要融合的特征圖進(jìn)行L2歸一化,其次將第2層~第4層特征圖反卷積到第1層的尺寸下。階段四:進(jìn)行不同層之間的特征融合。最終將得到的特征圖送入檢測(cè)器頭部進(jìn)行行人檢測(cè),本文主要檢測(cè)的是行人的中心點(diǎn)和尺度。
圖3 網(wǎng)絡(luò)流程
基于以上提取得到的特征圖,首先附加一個(gè)3×3的卷積層將其通道數(shù)減小到256。其次添加兩個(gè)并聯(lián)的1×1卷積層,用于生成行人中心點(diǎn)特征圖和行人尺度特征圖,這樣極大地簡(jiǎn)化了檢測(cè)器模塊。然而,本文在特征提取過(guò)程中采用的是下采樣的方法來(lái)產(chǎn)生特征圖,這樣會(huì)造成定位不佳的問(wèn)題。因而,我們需要稍微調(diào)整行人的中心位置,來(lái)緩解下采樣方法的局限性。最后我們?cè)兕~外附加一個(gè)2×2的卷積層,用于生成行人偏差特征圖。
在SC-CSP檢測(cè)器中,僅對(duì)一組特征圖φdet進(jìn)行檢測(cè),表示為
Dets=H(φdet)={cls(φdet),regr(φdet)}
(6)
其中,Η(·)代表檢測(cè)器的頭部,通常Η(·)包含兩個(gè)元素cls(·)、regr(·),cls(·)預(yù)測(cè)分類器分?jǐn)?shù),regr(·)預(yù)測(cè)邊界框的尺度和偏差。
在測(cè)試過(guò)程中,SC-CSP只是涉及FCN的單個(gè)轉(zhuǎn)發(fā),并帶有多個(gè)預(yù)測(cè)機(jī)制,將保留中心點(diǎn)熱圖中置信度高于0.01的位置及其在比例圖中的相應(yīng)比例。然后會(huì)自動(dòng)生成邊界框,每個(gè)邊界框都需要預(yù)測(cè)5個(gè)參數(shù)(x、y、wide、height、置信度),其中(x、y)為邊界框左上角的坐標(biāo)、wide為邊界框的寬、height為邊界框的高。接著將其重新映射到原始圖像大小。最后使用非極大值抑制算法(NMS)去除多余的窗口,其閾值為0.5,最終找到最佳的行人檢測(cè)位置。
1.4.1 真實(shí)值
1.4.2 損失函數(shù)
對(duì)于行人的中心點(diǎn)預(yù)測(cè),本文首先通過(guò)交叉熵?fù)p失將其轉(zhuǎn)化為分類任務(wù),這樣做還存在不足,比如很難確定更為精確的中心點(diǎn);其次由于正負(fù)樣本的模糊性會(huì)導(dǎo)致訓(xùn)練過(guò)程很難進(jìn)行。為了減少正樣本附近負(fù)樣本的模糊性,本文應(yīng)用了二維高斯掩模G(·),并以每個(gè)正樣本的位置為中心??梢杂霉奖硎緸?/p>
(7)
(8)
(9)
(10)
其中,Pij∈[0,1]是網(wǎng)絡(luò)的估計(jì)概率,指示位置(i,j)中是否存在行人的中心,yij∈{0,1} 是真實(shí)值的標(biāo)簽,其中yij=1表示正樣本的位置,aij和γ是聚焦超參數(shù),我們的實(shí)驗(yàn)設(shè)置γ=2。為了減少正樣本附近負(fù)樣本的模糊性,使用高斯掩模M的aij來(lái)減少負(fù)樣本的模糊性,其中超參數(shù)β控制懲罰,實(shí)驗(yàn)中β=4可以獲得最佳性能,對(duì)于正樣本aij設(shè)置為1。
對(duì)于行人的尺度預(yù)測(cè),我們使用L1平滑損失將其轉(zhuǎn)化為回歸任務(wù)
(11)
其中,sk和tk分別代表網(wǎng)絡(luò)的預(yù)測(cè)和每個(gè)正樣本的真實(shí)值。
如果附加了偏移預(yù)測(cè)分支,類似Smooth L1損失,表示為L(zhǎng)o。
綜上,對(duì)目標(biāo)函數(shù)的優(yōu)化是
L=λ1Lc+λ2Ls+λ3Lo
(12)
其中,λ1、λ2、λ3分別表示中心分類損失、尺度回歸損失和偏移回歸損失的權(quán)重,通過(guò)實(shí)驗(yàn)分別設(shè)置為0.01、1和0.1。
1.4.3 數(shù)據(jù)增強(qiáng)
為了增加本算法訓(xùn)練數(shù)據(jù)的多樣性,本文采用了標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)技術(shù)。首先,將輸入圖片在[0.4,1.5]范圍內(nèi)隨機(jī)縮放。其次,通過(guò)零填充對(duì)圖片進(jìn)行裁剪和擴(kuò)展,以使寬度具有固定數(shù)量的像素(對(duì)于CityPersons為640,Caltech為336),在此過(guò)程中將保持圖像的長(zhǎng)寬比。
2.1.1 數(shù)據(jù)集
為了驗(yàn)證所提出方法的有效性,本文對(duì)兩個(gè)最大的行人檢測(cè)基準(zhǔn)進(jìn)行了評(píng)估,即CityPersons[17]數(shù)據(jù)集和Caltech[18]數(shù)據(jù)集。選擇這兩個(gè)數(shù)據(jù)集的原因是它們通過(guò)中心體線標(biāo)注和標(biāo)準(zhǔn)化長(zhǎng)寬比來(lái)提供邊界框,這種標(biāo)注過(guò)程有助于保證框體與行人中心的良好對(duì)齊。CityPersons數(shù)據(jù)集是一個(gè)大規(guī)模行人檢測(cè)數(shù)據(jù)集,我們用2975幅圖像在官方訓(xùn)練集上訓(xùn)練模型,并用500幅圖像在驗(yàn)證集上進(jìn)行測(cè)試。Caltech數(shù)據(jù)集是由加州理工學(xué)院等高校組成的視覺(jué)小組整理的,他們從10小時(shí)的車載攝像頭視頻中選取了137分鐘(約250 000張圖像),2300個(gè)行人,標(biāo)注了350 000個(gè)邊界框。其次Caltech數(shù)據(jù)集標(biāo)注了小尺度行人的情況,這有利于進(jìn)一步研究小尺度的行人檢測(cè)問(wèn)題。
2.1.2 評(píng)價(jià)標(biāo)準(zhǔn)
為了檢驗(yàn)本文提出的SC-CSP方法的性能,對(duì)于City-Persons數(shù)據(jù)集,選用平均漏檢率(average miss rate)作為檢驗(yàn)的綜合指標(biāo)。對(duì)于Caltech數(shù)據(jù)集,選用ROC(receiver operating characteristic)曲線作為評(píng)價(jià)標(biāo)準(zhǔn),ROC曲線的橫、縱坐標(biāo)軸分別對(duì)應(yīng)的是log尺度下的每幅圖像的平均誤檢率(false positive per image,F(xiàn)PPI),其范圍為[10-2,100]和對(duì)數(shù)平均漏檢率,我們將其評(píng)價(jià)指標(biāo)表示為MR-2。所有的檢測(cè)結(jié)果圖都利用Caltech數(shù)據(jù)集提供的工具箱得到,我們還利用了該工具箱中提供的其它行人檢測(cè)方法的實(shí)驗(yàn)結(jié)果作為對(duì)比方法。
2.1.3 訓(xùn)練細(xì)節(jié)
我們?cè)赑yTorch中實(shí)現(xiàn)了該方法,卷積網(wǎng)絡(luò)是在ImageNet上預(yù)訓(xùn)練得到的SCNet-50網(wǎng)絡(luò)。對(duì)于CityPersons數(shù)據(jù)集,我們?cè)?個(gè)GPU上優(yōu)化網(wǎng)絡(luò),每個(gè)GPU上有兩個(gè)圖像用于一個(gè)小批量,學(xué)習(xí)率設(shè)置為2×10-5。對(duì)于Caltech數(shù)據(jù)集,我們同樣在4個(gè)GPU上優(yōu)化網(wǎng)絡(luò),設(shè)置每個(gè)GPU上有16個(gè)圖像用于一個(gè)小批量,學(xué)習(xí)率設(shè)置為1×10-4。
在本節(jié)中,我們?cè)贑ityPersons數(shù)據(jù)集上對(duì)大小為(1024×2048)的原始圖像進(jìn)行測(cè)試。
2.2.1 不同卷積網(wǎng)絡(luò)在CSP框架下的對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文所提出的SC-CSP網(wǎng)絡(luò)結(jié)構(gòu)的性能,選取近兩年的CVPR會(huì)議文章中4種最新的卷積神經(jīng)網(wǎng)絡(luò):ResNest、IresNet、VovNet、ResNet與SCNet卷積網(wǎng)絡(luò)作對(duì)比,對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表1,實(shí)驗(yàn)結(jié)果表明在合理遮擋、嚴(yán)重遮擋、少量遮擋的情況下SCNet均達(dá)到了最低的平均漏檢率,分別為10.97%、47.84%和7.57%。只有在部分遮擋情況下SCNet的平均漏檢率為10.13%,略大于IresNet的平均漏檢率,卻低于CSP原框架的主干網(wǎng)絡(luò)ResNet及ResNest和VovNet的平均漏檢率。如表2所示,行人在不同尺度的情況下所做的對(duì)比實(shí)驗(yàn),在合理尺度、小尺度、中尺度、大尺度的情況下SCNet均達(dá)到了平均漏檢率最低、速度最快的效果。通過(guò)實(shí)驗(yàn)結(jié)果與其余4種卷積網(wǎng)絡(luò)對(duì)比,發(fā)現(xiàn)SCNet對(duì)行人的特征提取效果更好,因此我們選擇SCNet作為CSP框架的主干網(wǎng)絡(luò)。
表1 不同遮擋情況下的不同卷積網(wǎng)絡(luò)在CSP框架下的平均漏檢率
2.2.2 SC-CSP算法與現(xiàn)有技術(shù)的比較
我們?cè)贑ityPersons數(shù)據(jù)集上與現(xiàn)有技術(shù)進(jìn)行比較。除了合理情況,還在具有3個(gè)不同遮擋水平的情況下評(píng)估了此方法。并且還在行人的大中小3個(gè)不同尺度范圍的情況下進(jìn)行實(shí)驗(yàn)。如表3所示,本文提出的SC-CSP方法的平均漏檢率低于專門針對(duì)遮擋處理的RepLoss[19]和OR-CNN[20]方法,可見(jiàn)SC-CSP在沒(méi)有任何遮擋處理策略的情況下表現(xiàn)良好。在合理的情況下,精度相比原CSP算法提升了0.6%,在相同的運(yùn)行環(huán)境下,速度較快,每張圖片檢測(cè)速度為0.33 s,相比CSP檢測(cè)方法每張圖片的檢測(cè)速度提高了0.05 s。如表4所示,我們?cè)谛腥说拇笾行?個(gè)不同尺度范圍的情況上與現(xiàn)有最新技術(shù)進(jìn)行對(duì)比實(shí)驗(yàn),在各個(gè)尺度范圍上,行人的平均漏檢率均有提升,尤其是在小尺度范圍上,行人的平均漏檢率相比CSP方法提升了1.1%。
表4 SC-CSP算法與現(xiàn)有技術(shù)在尺度方面的比較情況
在本節(jié)中,我們?cè)贑altech數(shù)據(jù)集上對(duì)大小為(480×640)的原始圖像進(jìn)行測(cè)試。繼Caltech舊標(biāo)注之后,所有實(shí)驗(yàn)均在最新提出的Caltech新標(biāo)注上進(jìn)行。使用42 782幅圖像在官方訓(xùn)練集上訓(xùn)練模型,并用4024幅圖像在測(cè)試集上進(jìn)行測(cè)試。所提方法在合理和全部遮擋的情況下與現(xiàn)有技術(shù)進(jìn)行了廣泛的比較。如圖4所示,圖4的橫坐標(biāo)為每幅圖像被錯(cuò)誤地分類為正樣本的負(fù)樣本數(shù)量,縱坐標(biāo)為漏檢率,分類器所漏檢的正樣本數(shù)占所有正樣本數(shù)的比例。正樣本是包含行人的圖像,負(fù)樣本是不包含行人的圖片,如圖4(a)所示,我們的方法SC-CSP在合理遮擋情況下ROC曲線達(dá)到了最低,為4.3%的MR-2, 比最具競(jìng)爭(zhēng)力的CSP行人檢測(cè)算法的4.7%降低了0.4%。顯而易見(jiàn),如圖4(b)所示,在嚴(yán)重遮擋情況下,我們的方法ROC曲線也達(dá)到了最低。ROC曲線越低代表行人檢測(cè)的準(zhǔn)確度越高。
在Caltech數(shù)據(jù)集上的對(duì)比方法包括:FasterRCNN、RPN+BF、ALFNet、Hyperlearner、RepLoss、CSP等都是行人檢測(cè)領(lǐng)域最新的算法。從圖4可以看出我們的方法SC-CSP在所對(duì)比的檢測(cè)算法中取得了最低的平均漏檢率。圖4中虛實(shí)線條沒(méi)有特殊含義的區(qū)分,均代表漏檢率和被錯(cuò)誤分類為正樣本的負(fù)樣本數(shù)量的關(guān)系曲線。
圖4 SC-CSP方法在Caltech數(shù)據(jù)集上與最新技術(shù)的比較情況
圖5給出了SC-CSP算法與CSP算法在Caltech數(shù)據(jù)集中部分測(cè)試圖像的檢測(cè)結(jié)果對(duì)比,圖5(a)為CSP算法檢測(cè)結(jié)果,圖5(b)為SC-CSP算法的檢測(cè)結(jié)果。箭頭指示的是漏檢的行人,顯而易見(jiàn)小尺度行人不易被檢測(cè)到。針對(duì)小尺度問(wèn)題這個(gè)難點(diǎn),SC-CSP方法仍然能表現(xiàn)出較好的魯棒性。同時(shí)SC-CSP方法在漏檢方面得到了很好的控制。從漏檢的結(jié)果可以看出,漏檢主要出現(xiàn)在光線較暗,行人尺度較小以及遮擋嚴(yán)重的情況下。
圖5 SC-CSP方法與CSP算法在Caltech數(shù)據(jù)集中部分測(cè)試圖像的檢測(cè)結(jié)果對(duì)比
為了解決小尺度行人的檢測(cè)問(wèn)題,本文基于CSP和SCNet提出一種自校準(zhǔn)卷積網(wǎng)絡(luò)的行人檢測(cè)模型,有效擴(kuò)大了網(wǎng)絡(luò)的感受野范圍;利用特征融合技術(shù),融合了高低層的行人特征信息,使小尺度行人信息得到充分的描述。通過(guò)無(wú)錨框檢測(cè)方法直接預(yù)測(cè)出行人的尺度大小進(jìn)而判斷出行人的具體位置。在公開(kāi)行人檢測(cè)數(shù)據(jù)集CityPersons和Caltech上對(duì)SC-CSP網(wǎng)絡(luò)模型進(jìn)行了訓(xùn)練和測(cè)試,并通過(guò)一系列的對(duì)比實(shí)驗(yàn)。得出本文SC-CSP算法與CSP行人檢測(cè)模型相比,在合理情況下平均漏檢率降低了0.6%,尤其在小尺度的行人方面平均漏檢率降低了1.1%,同時(shí)在檢測(cè)速度上每張圖片提高了0.05 s。實(shí)驗(yàn)結(jié)果表明,本文提出的SC-CSP方法在改善小尺度行人檢測(cè)上具有很強(qiáng)的優(yōu)勢(shì)。然而,由于行人檢測(cè)中光線對(duì)比度差,小尺度行人的檢測(cè)問(wèn)題以及行人的遮擋問(wèn)題還沒(méi)有完全得到解決。因此,通過(guò)解決上述問(wèn)題從而進(jìn)一步提升檢測(cè)精度將是下一步的研究重點(diǎn)。