基于自校準(zhǔn)卷積網(wǎng)絡(luò)的行人檢測(cè)方法

2022-04-21 07:23李琦銘周勇軍

計(jì)算機(jī)工程與設(shè)計(jì) 2022年4期

強(qiáng) 華，李琦銘，周勇軍，高驍，李波，李俊+

(1.中國(guó)科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所泉州裝備制造研究所，福建泉州 362200；2.中北大學(xué) 電氣與控制工程學(xué)院，山西太原 030051；3.閩南科技大學(xué)，福建泉州 362200；4.九江武警總隊(duì)，江西南昌 330000)

0 引言

隨著人工智能技術(shù)的普及，行人檢測(cè)被廣泛應(yīng)用于自動(dòng)駕駛和安防視頻監(jiān)控及監(jiān)獄巡檢等場(chǎng)景中。雖然行人檢測(cè)方法因?yàn)樯疃葘W(xué)習(xí)的應(yīng)用取得了長(zhǎng)足的進(jìn)步，但是由于小尺度行人檢測(cè)問(wèn)題存在，檢測(cè)效果目前仍不能滿足實(shí)際工業(yè)要求，因而需要對(duì)行人檢測(cè)做進(jìn)一步研究。

傳統(tǒng)的行人檢測(cè)方法為手工設(shè)計(jì)的特征，包括梯度直方圖(HOG)、特征描述算子(Haar特征)、局部二值模式(LBP)等方法，是滑動(dòng)窗口分類器的形式，但此類方法存在計(jì)算復(fù)雜度低、特征維度高、泛化能力差等缺點(diǎn)。隨后從RCNN[1]開(kāi)始提出了深度學(xué)習(xí)的檢測(cè)方法，但是當(dāng)前基于深度學(xué)習(xí)的主流檢測(cè)器，不管是兩階段的Faster R-CNN[1-3]系列，還是單階段的SSD[4]系列，均采用鋪設(shè)錨點(diǎn)框的檢測(cè)方法。其本質(zhì)上仍是滑動(dòng)窗口分類器的形式，用于判斷預(yù)設(shè)的錨點(diǎn)框內(nèi)是否存在行人。然而這些方法都需要針對(duì)特定數(shù)據(jù)集設(shè)計(jì)以及優(yōu)化錨點(diǎn)框超參數(shù)，從而增加了訓(xùn)練難度。另外這些方法在分類階段，由于高層卷積特征圖分辨率降低，小尺度的行人無(wú)法得到有效的描述，會(huì)降低檢測(cè)的總體性能。

為此近年來(lái)基于深度學(xué)習(xí)提出的無(wú)錨框的行人檢測(cè)方法可以有效地解決此問(wèn)題。例如，YOLO[5]和DenseBox[6]采用單個(gè)卷積網(wǎng)絡(luò)來(lái)預(yù)測(cè)多個(gè)邊界框和類別概率，成功地拋棄了錨點(diǎn)框，從而實(shí)現(xiàn)了訓(xùn)練和預(yù)測(cè)端到端的進(jìn)行，縮短了訓(xùn)練時(shí)間。但其特征提取方法較為粗糙(如YOLO里使用7×7大小的卷積核網(wǎng)格)，不能精確定位行人，尤其對(duì)于小尺度的行人。接著提出的CornerNet[7]和TLL[8]通過(guò)一組對(duì)角點(diǎn)檢測(cè)或上下頂點(diǎn)檢測(cè)，實(shí)現(xiàn)了基于關(guān)鍵點(diǎn)檢測(cè)和配對(duì)的工作。通過(guò)一組對(duì)角點(diǎn)或上下頂點(diǎn)配對(duì)的方式，成功地拋棄了錨點(diǎn)框，從而實(shí)現(xiàn)了無(wú)錨框的行人檢測(cè)，但是配對(duì)方法較為復(fù)雜。隨后劉偉等提出CSP[9]行人檢測(cè)算法，實(shí)現(xiàn)了簡(jiǎn)單的利用全卷積的方式預(yù)測(cè)中心點(diǎn)和尺度的檢測(cè)器，將行人檢測(cè)這個(gè)高層視覺(jué)任務(wù)簡(jiǎn)化為了語(yǔ)義特征點(diǎn)檢測(cè)的問(wèn)題。因此本文在CSP算法基礎(chǔ)上進(jìn)行改進(jìn)。

1 本文算法

現(xiàn)有的CSP行人檢測(cè)模型雖然在行人檢測(cè)方面達(dá)到了較好的效果，但是由于卷積層的感受野范圍有較大的限制，不能根據(jù)不同尺度的行人進(jìn)行自適應(yīng)的變化。本文針對(duì)小尺度行人的檢測(cè)問(wèn)題，對(duì)CSP行人檢測(cè)模型進(jìn)行改進(jìn)，提高行人檢測(cè)的精度。

在行人檢測(cè)的深度學(xué)習(xí)框架中，卷積網(wǎng)絡(luò)是行人檢測(cè)的主干網(wǎng)絡(luò)，許多方法通過(guò)提高網(wǎng)絡(luò)的特征提取能力來(lái)獲得更低的平均漏檢率(miss rate)。因而我們從卷積網(wǎng)絡(luò)入手，基于改進(jìn)卷積網(wǎng)絡(luò)的思想，提高行人檢測(cè)的精度和速度。自從ResNet[10]殘差網(wǎng)絡(luò)的提出，極大程度上解決了由于網(wǎng)絡(luò)層數(shù)增加而產(chǎn)生的梯度消失和梯度爆炸問(wèn)題，這是卷積網(wǎng)絡(luò)發(fā)展史上的一次重大轉(zhuǎn)折點(diǎn)。隨后ResNet[10]的各種改進(jìn)方法(如ResNeXt[11]、SENet[12]、SKNet[13]、IResNet[14]、ResNetst[15])的提出，逐漸推進(jìn)了卷積網(wǎng)絡(luò)向前發(fā)展，但是這些方法背后的共同思想集中在調(diào)整網(wǎng)絡(luò)體系結(jié)構(gòu)來(lái)產(chǎn)生豐富的特征表示上，缺點(diǎn)是需要太多的訓(xùn)練時(shí)間。而SCNet[16]則在沒(méi)有改變網(wǎng)絡(luò)基本架構(gòu)的情況下，通過(guò)內(nèi)部通信顯著擴(kuò)展了每個(gè)卷積層的感受野范圍，從而增強(qiáng)了高層卷積特征圖的分辨率。

SCNet針對(duì)小尺度目標(biāo)有定位精確的好處，可以有效區(qū)分小尺度目標(biāo)和背景物，降低小尺度目標(biāo)的漏檢率。小尺度行人的處理恰恰是行人檢測(cè)中重要的研究問(wèn)題，可以將SCNet應(yīng)用到行人檢測(cè)中，提高行人檢測(cè)的精度。因此，本文借鑒SCNet的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)CSP行人檢測(cè)模型進(jìn)行改進(jìn)，提出一種融合SCNet卷積網(wǎng)絡(luò)和CSP行人檢測(cè)模型的行人檢測(cè)方法(SC-CSP檢測(cè)算法)，這種方法能有效擴(kuò)大整個(gè)網(wǎng)絡(luò)的感受野范圍，使檢測(cè)器更好地檢測(cè)到大小不一的行人，尤其對(duì)于改善小尺度行人的檢測(cè)有更好的效果。

改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示，SC-CSP網(wǎng)絡(luò)結(jié)構(gòu)分為3個(gè)階段：特征提取、檢測(cè)器頭部和檢測(cè)。

圖1 SC-CSP結(jié)構(gòu)

1.1 特征提取

輸入圖片先經(jīng)過(guò)SCNet自校準(zhǔn)卷積網(wǎng)絡(luò)，對(duì)行人特征進(jìn)行分層提取。在SCNet中，它使每個(gè)空間位置能夠自適應(yīng)地對(duì)不同區(qū)域高低層之間的特征進(jìn)行提取，使得行人與背景物更具區(qū)分性，突出行人的中心點(diǎn)位置。這要?dú)w功于SCNet的SCNet Block中的異構(gòu)卷積和濾波器間的通信模塊，此模塊是由多個(gè)卷積注意力模塊組合起來(lái)，用來(lái)替換ResNet的基本卷積結(jié)構(gòu)。SCNet Block自校準(zhǔn)卷積模塊在1.1.1中進(jìn)行詳細(xì)介紹。網(wǎng)絡(luò)的輸入是圖像I，進(jìn)而通過(guò)SCNet自校準(zhǔn)卷積網(wǎng)絡(luò)生成了具有不同分辨率的多個(gè)特征圖，將其定義為

φi=fi(φi-1)=fi(fi-1(…f2(f1(I))))

(1)

其中，φi表示第i層輸出的特征圖，在本文的網(wǎng)絡(luò)中，這些特征圖的大小逐漸減小，fi(·)代表生成的特征圖，特征圖是由卷積或池化處理得到。本文將負(fù)責(zé)檢測(cè)的這些特征圖表示為φdet，負(fù)責(zé)檢測(cè)的特征圖為圖1中第1層～第4層的特征圖，表示為L(zhǎng)ayer1、Layer2、Layer3、Layer4。低層特征圖擁有較高的空間分辨率，高層特征圖則包含更多的語(yǔ)義信息。為了使不同層的特征圖都能很好應(yīng)用在最終的檢測(cè)中，我們把低層和高層的特征圖融合為一個(gè)特征圖。具體的特征融合方法為：首先對(duì)高低層要融合的特征圖進(jìn)行L2歸一化處理；其次利用反卷積將第2層～第4層特征圖的分辨率上采樣到和第1層特征圖的分辨率一致的尺度下，尺度為原圖的1/4；最后將處理后的特征圖連接起來(lái)，得到最終用于檢測(cè)的行人特征圖。具體的網(wǎng)絡(luò)流程在1.1.2中進(jìn)行詳細(xì)論述。

1.1.1 SCNet Block模塊

SCNet Block這一概念來(lái)自SCNet中的一個(gè)模塊。在不增加額外計(jì)算量的情況下，該模塊能產(chǎn)生全局的感受野，可以有效擴(kuò)大網(wǎng)絡(luò)中每個(gè)卷積層的感受野范圍，更易進(jìn)行小尺度的行人檢測(cè)。如圖2所示，輸入X先通過(guò)兩個(gè)卷積分成兩個(gè)特征X1、X2。對(duì)特征X1采用平均池化，下采樣r倍(r=4)，再經(jīng)過(guò)F2卷積提取得到特征，對(duì)其特征進(jìn)行上采樣(采用雙線性插值法)，經(jīng)過(guò)Sigmoid激活函數(shù)對(duì)F3卷積提取后的特征進(jìn)行校準(zhǔn)得到特征Y′1，對(duì)Y′1進(jìn)行F4卷積提取特征得到輸出特征Y1；對(duì)特征X2經(jīng)過(guò)F1卷積提取得到特征Y2；對(duì)兩個(gè)尺度空間輸出特征Y1、Y2進(jìn)行拼接操作，得到最終輸出特征Y?？梢杂霉奖頌?/p>

圖2 SCNet Block結(jié)構(gòu)

T1=AvgPoolr(X1)

(2)

對(duì)T1使用卷積核K2進(jìn)行特征變換

X′1=UP(F2(T1))=UP(T1*K2)

(3)

其中，UP(·)表示線性插值操作，從而實(shí)現(xiàn)中間參考量從小尺度空間到原始特征空間的映射?，F(xiàn)在自校準(zhǔn)操作可以表現(xiàn)為

Y′1=F3(X1)·σ(X1+X′1)

(4)

其中，F(xiàn)3(X1)=X1*K3，σ表示sigmoid函數(shù)，以及符號(hào)“·”表示逐元素乘運(yùn)算，X′1被用作殘差項(xiàng)來(lái)建立權(quán)重用于自校準(zhǔn)。自校準(zhǔn)后的最終輸出可以寫成

Y1=F4(Y′1)=Y′1*K4

(5)

SCNet相比傳統(tǒng)的ResNet的優(yōu)點(diǎn)在于，SCNet將一個(gè)標(biāo)準(zhǔn)卷積拆成4個(gè)小卷積F1、F2、F3、F4，首先在不增加額外計(jì)算量的情況下，增加了圖像中小尺度行人特征的信息提取能力；其次SCNet考慮到了行人特征圖通道間的信息和行人局部信息的增強(qiáng)，空間上的每一點(diǎn)都有附近區(qū)域和通道上的交互信息，使卷積層產(chǎn)生全局感受野，提高小尺度行人的定位精度；最后K1、K2、K3、K4為自校準(zhǔn)卷積模塊中的卷積核，每個(gè)部分負(fù)責(zé)不同的功能，這使得自校準(zhǔn)卷積避免了背景信息的干擾，提高行人檢測(cè)的速度。

1.1.2 SC-CSP的網(wǎng)絡(luò)流程

本文在CSP的基礎(chǔ)上，將CSP原有的主干網(wǎng)絡(luò)ResNet換成了SCNet，不但擴(kuò)大了網(wǎng)絡(luò)的感受野范圍，而且達(dá)到了降低網(wǎng)絡(luò)參數(shù)的目的。結(jié)合圖3簡(jiǎn)述SC-CSP的網(wǎng)絡(luò)流程，以輸入尺寸為640×1280，3通道的圖像為例。階段一：圖像依次經(jīng)過(guò)Conv、BN、Relu、MP層，尺寸變?yōu)?160，320，64)。階段二：進(jìn)入SCB(SCNet Block)自校準(zhǔn)卷積模塊。SCB模塊分為4層特征圖處理，每一層分別處理相對(duì)應(yīng)尺度大小的行人。經(jīng)過(guò)Layer1特征圖尺寸變?yōu)?160，320，256)，經(jīng)過(guò)Layer2特征圖尺寸變?yōu)?80，160，512)，經(jīng)過(guò)Layer3特征圖尺寸變?yōu)?40，80，1024)，經(jīng)過(guò)Layer4特征圖尺寸變?yōu)?20，40，2048)，這里設(shè)置4層特征圖的作用是可以緩解多尺度行人的檢測(cè)問(wèn)題，相比CSP行人檢測(cè)算法的Layer4來(lái)說(shuō)，CSP中的Layer4特征圖尺寸是原輸入圖像尺寸的1/16與Layer3特征圖尺寸一致。而我們的SC-CSP行人檢測(cè)算法將其特征圖尺度下采樣到原圖的1/32，這樣做的好處在于使多尺度行人的檢測(cè)范圍更廣，提升小尺度行人的檢測(cè)精度。階段三：首先對(duì)所有要融合的特征圖進(jìn)行L2歸一化，其次將第2層～第4層特征圖反卷積到第1層的尺寸下。階段四：進(jìn)行不同層之間的特征融合。最終將得到的特征圖送入檢測(cè)器頭部進(jìn)行行人檢測(cè)，本文主要檢測(cè)的是行人的中心點(diǎn)和尺度。

圖3 網(wǎng)絡(luò)流程

1.2 檢測(cè)器頭部

基于以上提取得到的特征圖，首先附加一個(gè)3×3的卷積層將其通道數(shù)減小到256。其次添加兩個(gè)并聯(lián)的1×1卷積層，用于生成行人中心點(diǎn)特征圖和行人尺度特征圖，這樣極大地簡(jiǎn)化了檢測(cè)器模塊。然而，本文在特征提取過(guò)程中采用的是下采樣的方法來(lái)產(chǎn)生特征圖，這樣會(huì)造成定位不佳的問(wèn)題。因而，我們需要稍微調(diào)整行人的中心位置，來(lái)緩解下采樣方法的局限性。最后我們?cè)兕~外附加一個(gè)2×2的卷積層，用于生成行人偏差特征圖。

1.3 檢測(cè)

在SC-CSP檢測(cè)器中，僅對(duì)一組特征圖φdet進(jìn)行檢測(cè)，表示為

Dets=H(φdet)={cls(φdet),regr(φdet)}

(6)

其中，Η(·)代表檢測(cè)器的頭部，通常Η(·)包含兩個(gè)元素cls(·)、regr(·)，cls(·)預(yù)測(cè)分類器分?jǐn)?shù)，regr(·)預(yù)測(cè)邊界框的尺度和偏差。

在測(cè)試過(guò)程中，SC-CSP只是涉及FCN的單個(gè)轉(zhuǎn)發(fā)，并帶有多個(gè)預(yù)測(cè)機(jī)制，將保留中心點(diǎn)熱圖中置信度高于0.01的位置及其在比例圖中的相應(yīng)比例。然后會(huì)自動(dòng)生成邊界框，每個(gè)邊界框都需要預(yù)測(cè)5個(gè)參數(shù)(x、y、wide、height、置信度)，其中(x、y)為邊界框左上角的坐標(biāo)、wide為邊界框的寬、height為邊界框的高。接著將其重新映射到原始圖像大小。最后使用非極大值抑制算法(NMS)去除多余的窗口，其閾值為0.5，最終找到最佳的行人檢測(cè)位置。

1.4 訓(xùn) 練

1.4.1 真實(shí)值

1.4.2 損失函數(shù)

對(duì)于行人的中心點(diǎn)預(yù)測(cè)，本文首先通過(guò)交叉熵?fù)p失將其轉(zhuǎn)化為分類任務(wù)，這樣做還存在不足，比如很難確定更為精確的中心點(diǎn)；其次由于正負(fù)樣本的模糊性會(huì)導(dǎo)致訓(xùn)練過(guò)程很難進(jìn)行。為了減少正樣本附近負(fù)樣本的模糊性，本文應(yīng)用了二維高斯掩模G(·)，并以每個(gè)正樣本的位置為中心?？梢杂霉奖硎緸?/p>

(7)

(8)

(9)

(10)

其中，Pij∈[0,1]是網(wǎng)絡(luò)的估計(jì)概率，指示位置(i,j)中是否存在行人的中心，yij∈{0,1} 是真實(shí)值的標(biāo)簽，其中yij=1表示正樣本的位置，aij和γ是聚焦超參數(shù)，我們的實(shí)驗(yàn)設(shè)置γ=2。為了減少正樣本附近負(fù)樣本的模糊性，使用高斯掩模M的aij來(lái)減少負(fù)樣本的模糊性，其中超參數(shù)β控制懲罰，實(shí)驗(yàn)中β=4可以獲得最佳性能，對(duì)于正樣本aij設(shè)置為1。

對(duì)于行人的尺度預(yù)測(cè)，我們使用L1平滑損失將其轉(zhuǎn)化為回歸任務(wù)

(11)

其中，sk和tk分別代表網(wǎng)絡(luò)的預(yù)測(cè)和每個(gè)正樣本的真實(shí)值。

如果附加了偏移預(yù)測(cè)分支，類似Smooth L1損失，表示為L(zhǎng)o。

綜上，對(duì)目標(biāo)函數(shù)的優(yōu)化是

L=λ1Lc+λ2Ls+λ3Lo

(12)

其中，λ1、λ2、λ3分別表示中心分類損失、尺度回歸損失和偏移回歸損失的權(quán)重，通過(guò)實(shí)驗(yàn)分別設(shè)置為0.01、1和0.1。

1.4.3 數(shù)據(jù)增強(qiáng)

為了增加本算法訓(xùn)練數(shù)據(jù)的多樣性，本文采用了標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)技術(shù)。首先，將輸入圖片在[0.4,1.5]范圍內(nèi)隨機(jī)縮放。其次，通過(guò)零填充對(duì)圖片進(jìn)行裁剪和擴(kuò)展，以使寬度具有固定數(shù)量的像素(對(duì)于CityPersons為640，Caltech為336)，在此過(guò)程中將保持圖像的長(zhǎng)寬比。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)設(shè)置

2.1.1 數(shù)據(jù)集

為了驗(yàn)證所提出方法的有效性，本文對(duì)兩個(gè)最大的行人檢測(cè)基準(zhǔn)進(jìn)行了評(píng)估，即CityPersons[17]數(shù)據(jù)集和Caltech[18]數(shù)據(jù)集。選擇這兩個(gè)數(shù)據(jù)集的原因是它們通過(guò)中心體線標(biāo)注和標(biāo)準(zhǔn)化長(zhǎng)寬比來(lái)提供邊界框，這種標(biāo)注過(guò)程有助于保證框體與行人中心的良好對(duì)齊。CityPersons數(shù)據(jù)集是一個(gè)大規(guī)模行人檢測(cè)數(shù)據(jù)集，我們用2975幅圖像在官方訓(xùn)練集上訓(xùn)練模型，并用500幅圖像在驗(yàn)證集上進(jìn)行測(cè)試。Caltech數(shù)據(jù)集是由加州理工學(xué)院等高校組成的視覺(jué)小組整理的，他們從10小時(shí)的車載攝像頭視頻中選取了137分鐘(約250 000張圖像)，2300個(gè)行人，標(biāo)注了350 000個(gè)邊界框。其次Caltech數(shù)據(jù)集標(biāo)注了小尺度行人的情況，這有利于進(jìn)一步研究小尺度的行人檢測(cè)問(wèn)題。

2.1.2 評(píng)價(jià)標(biāo)準(zhǔn)

為了檢驗(yàn)本文提出的SC-CSP方法的性能，對(duì)于City-Persons數(shù)據(jù)集，選用平均漏檢率(average miss rate)作為檢驗(yàn)的綜合指標(biāo)。對(duì)于Caltech數(shù)據(jù)集，選用ROC(receiver operating characteristic)曲線作為評(píng)價(jià)標(biāo)準(zhǔn)，ROC曲線的橫、縱坐標(biāo)軸分別對(duì)應(yīng)的是log尺度下的每幅圖像的平均誤檢率(false positive per image，F(xiàn)PPI)，其范圍為[10-2,100]和對(duì)數(shù)平均漏檢率，我們將其評(píng)價(jià)指標(biāo)表示為MR-2。所有的檢測(cè)結(jié)果圖都利用Caltech數(shù)據(jù)集提供的工具箱得到，我們還利用了該工具箱中提供的其它行人檢測(cè)方法的實(shí)驗(yàn)結(jié)果作為對(duì)比方法。

2.1.3 訓(xùn)練細(xì)節(jié)

我們?cè)赑yTorch中實(shí)現(xiàn)了該方法，卷積網(wǎng)絡(luò)是在ImageNet上預(yù)訓(xùn)練得到的SCNet-50網(wǎng)絡(luò)。對(duì)于CityPersons數(shù)據(jù)集，我們?cè)?個(gè)GPU上優(yōu)化網(wǎng)絡(luò)，每個(gè)GPU上有兩個(gè)圖像用于一個(gè)小批量，學(xué)習(xí)率設(shè)置為2×10-5。對(duì)于Caltech數(shù)據(jù)集，我們同樣在4個(gè)GPU上優(yōu)化網(wǎng)絡(luò)，設(shè)置每個(gè)GPU上有16個(gè)圖像用于一個(gè)小批量，學(xué)習(xí)率設(shè)置為1×10-4。

2.2 在CityPersons數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

在本節(jié)中，我們?cè)贑ityPersons數(shù)據(jù)集上對(duì)大小為(1024×2048)的原始圖像進(jìn)行測(cè)試。

2.2.1 不同卷積網(wǎng)絡(luò)在CSP框架下的對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文所提出的SC-CSP網(wǎng)絡(luò)結(jié)構(gòu)的性能，選取近兩年的CVPR會(huì)議文章中4種最新的卷積神經(jīng)網(wǎng)絡(luò)：ResNest、IresNet、VovNet、ResNet與SCNet卷積網(wǎng)絡(luò)作對(duì)比，對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表1，實(shí)驗(yàn)結(jié)果表明在合理遮擋、嚴(yán)重遮擋、少量遮擋的情況下SCNet均達(dá)到了最低的平均漏檢率，分別為10.97%、47.84%和7.57%。只有在部分遮擋情況下SCNet的平均漏檢率為10.13%，略大于IresNet的平均漏檢率，卻低于CSP原框架的主干網(wǎng)絡(luò)ResNet及ResNest和VovNet的平均漏檢率。如表2所示，行人在不同尺度的情況下所做的對(duì)比實(shí)驗(yàn)，在合理尺度、小尺度、中尺度、大尺度的情況下SCNet均達(dá)到了平均漏檢率最低、速度最快的效果。通過(guò)實(shí)驗(yàn)結(jié)果與其余4種卷積網(wǎng)絡(luò)對(duì)比，發(fā)現(xiàn)SCNet對(duì)行人的特征提取效果更好，因此我們選擇SCNet作為CSP框架的主干網(wǎng)絡(luò)。

表1 不同遮擋情況下的不同卷積網(wǎng)絡(luò)在CSP框架下的平均漏檢率

2.2.2 SC-CSP算法與現(xiàn)有技術(shù)的比較

我們?cè)贑ityPersons數(shù)據(jù)集上與現(xiàn)有技術(shù)進(jìn)行比較。除了合理情況，還在具有3個(gè)不同遮擋水平的情況下評(píng)估了此方法。并且還在行人的大中小3個(gè)不同尺度范圍的情況下進(jìn)行實(shí)驗(yàn)。如表3所示，本文提出的SC-CSP方法的平均漏檢率低于專門針對(duì)遮擋處理的RepLoss[19]和OR-CNN[20]方法，可見(jiàn)SC-CSP在沒(méi)有任何遮擋處理策略的情況下表現(xiàn)良好。在合理的情況下，精度相比原CSP算法提升了0.6%，在相同的運(yùn)行環(huán)境下，速度較快，每張圖片檢測(cè)速度為0.33 s，相比CSP檢測(cè)方法每張圖片的檢測(cè)速度提高了0.05 s。如表4所示，我們?cè)谛腥说拇笾行?個(gè)不同尺度范圍的情況上與現(xiàn)有最新技術(shù)進(jìn)行對(duì)比實(shí)驗(yàn)，在各個(gè)尺度范圍上，行人的平均漏檢率均有提升，尤其是在小尺度范圍上，行人的平均漏檢率相比CSP方法提升了1.1%。

表4 SC-CSP算法與現(xiàn)有技術(shù)在尺度方面的比較情況

2.3 在Caltech數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

在本節(jié)中，我們?cè)贑altech數(shù)據(jù)集上對(duì)大小為(480×640)的原始圖像進(jìn)行測(cè)試。繼Caltech舊標(biāo)注之后，所有實(shí)驗(yàn)均在最新提出的Caltech新標(biāo)注上進(jìn)行。使用42 782幅圖像在官方訓(xùn)練集上訓(xùn)練模型，并用4024幅圖像在測(cè)試集上進(jìn)行測(cè)試。所提方法在合理和全部遮擋的情況下與現(xiàn)有技術(shù)進(jìn)行了廣泛的比較。如圖4所示，圖4的橫坐標(biāo)為每幅圖像被錯(cuò)誤地分類為正樣本的負(fù)樣本數(shù)量，縱坐標(biāo)為漏檢率，分類器所漏檢的正樣本數(shù)占所有正樣本數(shù)的比例。正樣本是包含行人的圖像，負(fù)樣本是不包含行人的圖片，如圖4(a)所示，我們的方法SC-CSP在合理遮擋情況下ROC曲線達(dá)到了最低，為4.3%的MR-2, 比最具競(jìng)爭(zhēng)力的CSP行人檢測(cè)算法的4.7%降低了0.4%。顯而易見(jiàn)，如圖4(b)所示，在嚴(yán)重遮擋情況下，我們的方法ROC曲線也達(dá)到了最低。ROC曲線越低代表行人檢測(cè)的準(zhǔn)確度越高。

在Caltech數(shù)據(jù)集上的對(duì)比方法包括：FasterRCNN、RPN+BF、ALFNet、Hyperlearner、RepLoss、CSP等都是行人檢測(cè)領(lǐng)域最新的算法。從圖4可以看出我們的方法SC-CSP在所對(duì)比的檢測(cè)算法中取得了最低的平均漏檢率。圖4中虛實(shí)線條沒(méi)有特殊含義的區(qū)分，均代表漏檢率和被錯(cuò)誤分類為正樣本的負(fù)樣本數(shù)量的關(guān)系曲線。

圖4 SC-CSP方法在Caltech數(shù)據(jù)集上與最新技術(shù)的比較情況

圖5給出了SC-CSP算法與CSP算法在Caltech數(shù)據(jù)集中部分測(cè)試圖像的檢測(cè)結(jié)果對(duì)比，圖5(a)為CSP算法檢測(cè)結(jié)果，圖5(b)為SC-CSP算法的檢測(cè)結(jié)果。箭頭指示的是漏檢的行人，顯而易見(jiàn)小尺度行人不易被檢測(cè)到。針對(duì)小尺度問(wèn)題這個(gè)難點(diǎn)，SC-CSP方法仍然能表現(xiàn)出較好的魯棒性。同時(shí)SC-CSP方法在漏檢方面得到了很好的控制。從漏檢的結(jié)果可以看出，漏檢主要出現(xiàn)在光線較暗，行人尺度較小以及遮擋嚴(yán)重的情況下。

圖5 SC-CSP方法與CSP算法在Caltech數(shù)據(jù)集中部分測(cè)試圖像的檢測(cè)結(jié)果對(duì)比

3 結(jié)束語(yǔ)

為了解決小尺度行人的檢測(cè)問(wèn)題，本文基于CSP和SCNet提出一種自校準(zhǔn)卷積網(wǎng)絡(luò)的行人檢測(cè)模型，有效擴(kuò)大了網(wǎng)絡(luò)的感受野范圍；利用特征融合技術(shù)，融合了高低層的行人特征信息，使小尺度行人信息得到充分的描述。通過(guò)無(wú)錨框檢測(cè)方法直接預(yù)測(cè)出行人的尺度大小進(jìn)而判斷出行人的具體位置。在公開(kāi)行人檢測(cè)數(shù)據(jù)集CityPersons和Caltech上對(duì)SC-CSP網(wǎng)絡(luò)模型進(jìn)行了訓(xùn)練和測(cè)試，并通過(guò)一系列的對(duì)比實(shí)驗(yàn)。得出本文SC-CSP算法與CSP行人檢測(cè)模型相比，在合理情況下平均漏檢率降低了0.6%，尤其在小尺度的行人方面平均漏檢率降低了1.1%，同時(shí)在檢測(cè)速度上每張圖片提高了0.05 s。實(shí)驗(yàn)結(jié)果表明，本文提出的SC-CSP方法在改善小尺度行人檢測(cè)上具有很強(qiáng)的優(yōu)勢(shì)。然而，由于行人檢測(cè)中光線對(duì)比度差，小尺度行人的檢測(cè)問(wèn)題以及行人的遮擋問(wèn)題還沒(méi)有完全得到解決。因此，通過(guò)解決上述問(wèn)題從而進(jìn)一步提升檢測(cè)精度將是下一步的研究重點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡