国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

嵌入中心點(diǎn)預(yù)測(cè)模塊的Yolov3遮擋人員檢測(cè)網(wǎng)絡(luò)

2021-01-09 01:10:38李佳豪孫琦龍
關(guān)鍵詞:候選框中心點(diǎn)尺度

梁?煜,李佳豪,張?為,孫琦龍

嵌入中心點(diǎn)預(yù)測(cè)模塊的Yolov3遮擋人員檢測(cè)網(wǎng)絡(luò)

梁?煜1,李佳豪1,張?為1,孫琦龍2

(1. 天津大學(xué)微電子學(xué)院,天津 300072;2. 青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧 810007)

為解決目前實(shí)際監(jiān)控場(chǎng)景下人員檢測(cè)任務(wù)中存在的遮擋問(wèn)題,提出了一種改進(jìn)的Yolov3檢測(cè)網(wǎng)絡(luò).首先,針對(duì)現(xiàn)有人員檢測(cè)算法的被檢測(cè)目標(biāo)姿態(tài)單一且大多是室外直立行人的問(wèn)題,自建了一個(gè)包含16832張樣本的多場(chǎng)景人員檢測(cè)數(shù)據(jù)集用于對(duì)檢測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試,其中包含訓(xùn)練集樣本12090張,測(cè)試集樣本4742張.隨后,為了提升網(wǎng)絡(luò)在遮擋情況下的檢測(cè)效果,設(shè)計(jì)了中心點(diǎn)預(yù)測(cè)模塊(CPM)并將其嵌入到原Yolov3網(wǎng)絡(luò)中3個(gè)尺度的輸出特征圖上,通過(guò)該模塊首先確定目標(biāo)的中心位置作為預(yù)提取的中心點(diǎn),隨后在此預(yù)提取的中心點(diǎn)上對(duì)目標(biāo)的位置和尺寸進(jìn)行精確的回歸.最后,候選框的精確回歸中采用廣義的交并比指標(biāo)來(lái)構(gòu)造損失函數(shù)進(jìn)行優(yōu)化,通過(guò)準(zhǔn)確地構(gòu)造候選框和真實(shí)目標(biāo)框的位置關(guān)系來(lái)提高其回歸精度,同時(shí)降低損失函數(shù)在不同尺度目標(biāo)下的波動(dòng).實(shí)驗(yàn)結(jié)果表明:優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)后的檢測(cè)網(wǎng)絡(luò)在測(cè)試集上的檢測(cè)精度提高了2.92%,漏檢率下降2.94%,針對(duì)實(shí)際監(jiān)控場(chǎng)景下的遮擋情形取得了很好的檢測(cè)效果,而且對(duì)多姿態(tài)人員目標(biāo)的檢測(cè)結(jié)果具有很好的魯棒性;同時(shí)檢測(cè)速度達(dá)到了28幀/s,保證了檢測(cè)的實(shí)時(shí)性.另外,在Caltech行人數(shù)據(jù)庫(kù)上該網(wǎng)絡(luò)的漏檢率為6.02%,相對(duì)于傳統(tǒng)的檢測(cè)網(wǎng)絡(luò)同樣達(dá)到了最優(yōu)的效果,進(jìn)一步印證了網(wǎng)絡(luò)在行人檢測(cè)任務(wù)上的優(yōu)越性.

計(jì)算機(jī)視覺(jué);視頻監(jiān)控;卷積神經(jīng)網(wǎng)絡(luò);人員檢測(cè);人員遮擋

隨著近年來(lái)計(jì)算機(jī)視覺(jué)領(lǐng)域的飛速發(fā)展,依附于現(xiàn)有監(jiān)控平臺(tái)的智能視頻監(jiān)控技術(shù)逐漸成為一個(gè)活躍的研究方向,通過(guò)監(jiān)控系統(tǒng)進(jìn)行人員檢測(cè)是其中一個(gè)重要的分支,應(yīng)用場(chǎng)景也較為廣泛.在安防領(lǐng)域,可以通過(guò)對(duì)可疑人員的檢測(cè)進(jìn)行及時(shí)的安全預(yù)警;在安全調(diào)度方面,對(duì)人流密度較大的區(qū)域可以通過(guò)人數(shù)的統(tǒng)計(jì)來(lái)優(yōu)化人力和物力的分配調(diào)度;在人員管理方面,可以對(duì)值班室、消防控制室等重要場(chǎng)所工作人員是否在崗做出判斷以便消除潛在的安全隱患[1].

基于此,學(xué)者們不斷對(duì)人員檢測(cè)相關(guān)領(lǐng)域做著深入的研究,檢測(cè)手段主要包括早期的基于機(jī)器學(xué)習(xí)的方法和近年來(lái)基于深度學(xué)習(xí)的方法.基于機(jī)器學(xué)習(xí)的方法主要通過(guò)構(gòu)造人工特征和分類器判別相結(jié)合的方式[2-4].近年來(lái),隨著計(jì)算機(jī)計(jì)算能力的提升,研究人員們開(kāi)始探索利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)人員進(jìn)行檢測(cè)的新手段,一些典型的目標(biāo)檢測(cè)網(wǎng)絡(luò)被應(yīng)用到行人檢測(cè)任務(wù)上來(lái).例如Faster R-CNN[5]檢測(cè)網(wǎng)絡(luò)通過(guò)預(yù)設(shè)錨點(diǎn)(anchor)生成候選框后進(jìn)一步分類判別的手段對(duì)目標(biāo)進(jìn)行檢測(cè),取得了較高的檢測(cè)率.Redmon等[6-8]提出的YOLO系列網(wǎng)絡(luò)致力于縮短單張圖片的檢測(cè)時(shí)間,對(duì)于行人檢測(cè)能夠滿足實(shí)時(shí)性.一些行人檢測(cè)的專用算法也不斷出現(xiàn),Ouyang等[9]提出Joint Deep Learning策略,文中將特征提取、形變處理、遮擋處理和分類過(guò)程相互結(jié)合進(jìn)行人員檢測(cè).Liu等[10]應(yīng)用無(wú)錨點(diǎn)框(anchor-free)思想通過(guò)對(duì)行人的中心點(diǎn)和尺寸預(yù)測(cè)來(lái)進(jìn)行人員檢測(cè).

在實(shí)際監(jiān)控條件下,圖像所呈現(xiàn)的場(chǎng)景會(huì)相對(duì)復(fù)雜,多人員目標(biāo)共存時(shí)的互相遮擋會(huì)在很大程度上影響檢測(cè)精度.近年來(lái),一些學(xué)者也在人員檢測(cè)的基礎(chǔ)上針對(duì)遮擋問(wèn)題提出了自己的解決辦法.Zhou等[11]從網(wǎng)絡(luò)本身出發(fā),通過(guò)搭建兩個(gè)分支分別對(duì)人體的全身和可見(jiàn)部分進(jìn)行檢測(cè),最后再進(jìn)行融合.Zhang?等[12]從損失函數(shù)的優(yōu)化入手,結(jié)合改進(jìn)的ROI Pooling[5]改善了遮擋問(wèn)題.

上述網(wǎng)絡(luò)及處理方法雖然取得了不錯(cuò)的檢測(cè)精度,但是檢測(cè)目標(biāo)大多是針對(duì)戶外的直立行人,并且數(shù)據(jù)集樣本多為水平拍攝.而對(duì)于實(shí)際監(jiān)控場(chǎng)景,攝像頭與人員之間會(huì)存在一定的傾角,不同監(jiān)控場(chǎng)景下的人員姿態(tài)也是多變的,這些因素會(huì)對(duì)現(xiàn)有網(wǎng)絡(luò)的檢測(cè)效果帶來(lái)一定的影響;另外,傳統(tǒng)的目標(biāo)邊界框回歸所用到的損失函數(shù)無(wú)法準(zhǔn)確表征真實(shí)目標(biāo)框和預(yù)測(cè)框之間的關(guān)系,而且對(duì)不同尺度的目標(biāo)損失函數(shù)值波動(dòng)較大,導(dǎo)致最終的優(yōu)化效果不佳.需要設(shè)置更為精確的邊界框損失函數(shù)來(lái)引導(dǎo)其回歸過(guò)程;最后,實(shí)際監(jiān)控下的人員檢測(cè)任務(wù)中重要的一點(diǎn)是能夠達(dá)到實(shí)時(shí)檢測(cè),而YOLO系列網(wǎng)絡(luò)在檢測(cè)速度上能夠保證實(shí)時(shí)性,其中第3代版本Yolov3則兼顧了檢測(cè)時(shí)間和檢測(cè)精度,達(dá)到了不錯(cuò)的效果.但是針對(duì)遮擋問(wèn)題,網(wǎng)絡(luò)仍然沿用傳統(tǒng)的特征金字塔網(wǎng)絡(luò)(feature pyramid networks,F(xiàn)PN)[13]+anchor的檢測(cè)方式,特征圖上所有像素點(diǎn)覆蓋anchor進(jìn)行回歸篩選,最后通過(guò)非極大值抑制(non maximum suppression,NMS)篩選預(yù)測(cè)框.一方面,在處理時(shí)間上無(wú)法達(dá)到最優(yōu);另一方面,過(guò)多的距離較近的候選框在篩選時(shí)很容易造成漏檢或者誤檢,從而降低了網(wǎng)絡(luò)的檢測(cè)性能.

基于以上問(wèn)題的分析,本文做出了如下貢獻(xiàn):

(1) 建立了專用的多場(chǎng)景人員檢測(cè)數(shù)據(jù)集(MHDD),數(shù)據(jù)集樣本的采集兼顧了室內(nèi)和室外2種大環(huán)境,并且包含多種姿態(tài)的人員目標(biāo);

(3) 針對(duì)人員檢測(cè)中可能出現(xiàn)的遮擋問(wèn)題,設(shè)計(jì)了中心點(diǎn)預(yù)測(cè)模塊(center prediction module,CPM)并將其嵌入到原網(wǎng)絡(luò)的3個(gè)輸出特征層上,首先預(yù)測(cè)出目標(biāo)的中心點(diǎn),在此基礎(chǔ)上對(duì)目標(biāo)的精確位置和尺寸進(jìn)行預(yù)測(cè),有效地提升了遮擋情況下的檢測(cè)效果.

1?本文算法

1.1?Yolov3網(wǎng)絡(luò)簡(jiǎn)介

圖1?Yolov3檢測(cè)網(wǎng)絡(luò)

Yolov3網(wǎng)絡(luò)同樣引入了anchor機(jī)制,通過(guò)anchor的設(shè)置引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練.通過(guò)維度聚類算法,對(duì)數(shù)據(jù)集所有樣本中真實(shí)目標(biāo)框(ground-truth boxes)的尺寸進(jìn)行聚類分析,得出9組不同的寬高組合,進(jìn)一步將9組數(shù)據(jù)分為3個(gè)大組,分別分配給3個(gè)不同的尺度,每個(gè)尺度包含3個(gè)不同的寬高組合.通過(guò)不同尺寸anchor的設(shè)置來(lái)實(shí)現(xiàn)對(duì)不同尺度目標(biāo)的檢測(cè).

1.2?GIoU Loss

在目標(biāo)檢測(cè)領(lǐng)域,目標(biāo)邊界框的回歸是很重要的一個(gè)步驟,早期的研究中主要采用L1Loss或者L2Loss構(gòu)造損失函數(shù)來(lái)優(yōu)化邊界框的回歸.但是,基于L1或L2距離的損失函數(shù)對(duì)真實(shí)目標(biāo)框和預(yù)測(cè)框尺度的變化比較敏感,即框的尺寸發(fā)生不斷變化時(shí),損失函數(shù)會(huì)不斷波動(dòng).為了優(yōu)化這個(gè)問(wèn)題,文獻(xiàn)[14]首先提出可以通過(guò)IoU構(gòu)造損失函數(shù)的方式對(duì)邊界框進(jìn)行回歸,能夠從一定程度上解決尺度變化帶來(lái)的問(wèn)題.

但是,IoULoss同樣存在一些問(wèn)題,主要表現(xiàn)在以下兩個(gè)方面:首先是真實(shí)目標(biāo)框和預(yù)測(cè)框沒(méi)有重疊時(shí),IoU的值始終為0,無(wú)法表征2個(gè)框的距離,導(dǎo)致無(wú)法進(jìn)行優(yōu)化;其次是IoU無(wú)法區(qū)分2個(gè)框不同的位置關(guān)系,如圖2所示.圖中2個(gè)框在3種情況下具有相同的IoU,但位置關(guān)系卻差異巨大.

圖2?兩個(gè)矩形框的不同位置關(guān)系

其中,

1.3?中心點(diǎn)預(yù)測(cè)模塊

1.3.1?遮擋問(wèn)題分析

遮擋問(wèn)題是制約人員檢測(cè)精確度提升的主要因素之一,遮擋情況下的檢測(cè)結(jié)果如圖3所示.從圖中可以看出,因待檢測(cè)目標(biāo)之間的距離較近,容易導(dǎo)致漏檢或者誤檢的現(xiàn)象發(fā)生.

圖3?遮擋下的人員檢測(cè)

Yolov3網(wǎng)絡(luò)同傳統(tǒng)的基于錨點(diǎn)框(anchor-based)的目標(biāo)檢測(cè)算法流程類似,如圖4所示.

圖4?Yolov3預(yù)測(cè)流程

測(cè)試過(guò)程中檢測(cè)算法會(huì)在每一個(gè)疑似目標(biāo)的周圍生成一組候選框,如果不存在遮擋現(xiàn)象,針對(duì)這一組候選框進(jìn)行NMS操作,即可以有效地濾除多余的候選框,從而篩選出最終得分最高的預(yù)測(cè)框.但是當(dāng)2個(gè)或者多個(gè)目標(biāo)相互遮擋時(shí),目標(biāo)距離過(guò)近會(huì)導(dǎo)致最終的幾組候選框融合為一組,此時(shí)再進(jìn)行NMS操作時(shí),算法無(wú)法分辨此時(shí)的候選框是來(lái)自于同一目標(biāo)還是幾個(gè)不同的目標(biāo),從而會(huì)導(dǎo)致漏檢或者誤檢現(xiàn)象地發(fā)生.所以想要提高遮擋環(huán)境下人員檢測(cè)的精度,就應(yīng)該設(shè)法讓不同目標(biāo)所產(chǎn)生的候選框區(qū)分開(kāi)來(lái),單獨(dú)進(jìn)行篩選.

1.3.2?中心點(diǎn)預(yù)測(cè)

近年來(lái),隨著anchor-free概念的提出,目標(biāo)檢測(cè)逐漸擺脫了anchor的束縛,極大地簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),并且提高了檢測(cè)精度.該檢測(cè)算法的核心思路是首先進(jìn)行關(guān)鍵點(diǎn)的預(yù)測(cè),比如目標(biāo)的中心點(diǎn)、左上或者右下角點(diǎn)等等,接下來(lái)在中心點(diǎn)的基礎(chǔ)上進(jìn)行目標(biāo)尺寸的回歸.

接下來(lái)是訓(xùn)練過(guò)程,其損失函數(shù)表達(dá)式如下

1.3.3?嵌入CPM的Yolov3網(wǎng)絡(luò)

通過(guò)以上的分析,為了提升網(wǎng)絡(luò)在遮擋情況的檢測(cè)性能,應(yīng)該設(shè)法減少過(guò)多候選框的相互干擾,而第1.3.2節(jié)提到的中心點(diǎn)檢測(cè)思想可以很好地解決這個(gè)問(wèn)題,但是其檢測(cè)網(wǎng)絡(luò)在面對(duì)多尺度目標(biāo)檢測(cè)時(shí)仍存在一些問(wèn)題,以CenterNet[17]為例,其只是將輸入圖像通過(guò)卷積運(yùn)算進(jìn)行了4倍的下采樣,隨后進(jìn)行中心點(diǎn)的預(yù)測(cè)及邊界框的回歸,并不包含多尺度信息.于是本文借鑒anchor-free思想中的關(guān)鍵點(diǎn)檢測(cè)方法,設(shè)計(jì)了CPM并將其與 Yolov3網(wǎng)絡(luò)結(jié)合,即先確定目標(biāo)的中心點(diǎn),接下來(lái)只在預(yù)提取的中心點(diǎn)上進(jìn)行目標(biāo)邊界框的回歸,而不再回歸所有的像素點(diǎn).本文所提出的檢測(cè)網(wǎng)絡(luò)一方面保留了FPN結(jié)構(gòu)在應(yīng)對(duì)多尺度目標(biāo)檢測(cè)時(shí)的優(yōu)越性,另一方面通過(guò)中心點(diǎn)檢測(cè)分支減少候選框的數(shù)量,從而提高遮擋情況下的檢測(cè)精度.本文最終的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示.

圖5?嵌入中心點(diǎn)預(yù)測(cè)模塊的Yolov3

在原網(wǎng)絡(luò)的3個(gè)預(yù)測(cè)層分別增加一個(gè)中心點(diǎn)預(yù)測(cè)分支,通過(guò)該分支生成對(duì)應(yīng)尺度的Heatmap,隨后進(jìn)行中心點(diǎn)的篩選,具體方法是從Heatmap中篩選出比周圍8個(gè)臨近點(diǎn)都要大(或者相等)的點(diǎn),再?gòu)倪@些點(diǎn)中最多選出100個(gè)數(shù)值較大的點(diǎn)作為最終預(yù)提取的中心點(diǎn);接下來(lái),將預(yù)測(cè)出的中心點(diǎn)覆蓋到原來(lái)的輸出分支上;最后,anchor的設(shè)置不再是分配在所有的像素點(diǎn)上,而只是為所預(yù)測(cè)出的中心點(diǎn)分配對(duì)應(yīng)尺度的anchor,進(jìn)一步對(duì)目標(biāo)的精確位置和尺寸進(jìn)行回歸.特別的,預(yù)測(cè)完成后,因?yàn)榇藭r(shí)不再像傳統(tǒng)方法一樣存在許多候選框,所以這里直接從3個(gè)anchor所預(yù)測(cè)的結(jié)果中選取最優(yōu)的一個(gè)作為最終的預(yù)測(cè)框,不再加入NMS操作.

嵌入CPM的Yolov3網(wǎng)絡(luò)一方面能夠很好地應(yīng)對(duì)遮擋問(wèn)題,另一方面該網(wǎng)絡(luò)結(jié)構(gòu)使得算法的計(jì)算復(fù)雜度更低.傳統(tǒng)的anchor-based檢測(cè)網(wǎng)絡(luò)包括原Yolov3網(wǎng)絡(luò)的逐像素點(diǎn)覆蓋anchor的方式會(huì)造成大量的計(jì)算,而只在確定的中心點(diǎn)上設(shè)置anchor能夠極大地減小計(jì)算量.另外,傳統(tǒng)目標(biāo)檢測(cè)算法中的NMS操作同樣會(huì)帶來(lái)很大的計(jì)算量,本文則直接舍棄了NMS操作,進(jìn)一步提升了算法的計(jì)算效率.

最終網(wǎng)絡(luò)的損失函數(shù)如下

2?實(shí)驗(yàn)數(shù)據(jù)集

本文采用公開(kāi)的Caltech行人數(shù)據(jù)庫(kù)[19]及自建的多場(chǎng)景人員檢測(cè)數(shù)據(jù)集(MHDD)對(duì)算法的可靠性進(jìn)行測(cè)試.

2.1?Caltech行人數(shù)據(jù)庫(kù)

表1?Caltech數(shù)據(jù)庫(kù)行人尺度分布

Tab.1?Pedestrian scale distribution of Caltech

2.2?MHDD

對(duì)于實(shí)際監(jiān)控場(chǎng)景,樣本并不像Caltech數(shù)據(jù)庫(kù)的水平拍攝一樣,監(jiān)控探頭與人員之間會(huì)存在一定的傾角;另外Caltech數(shù)據(jù)庫(kù)拍攝場(chǎng)景多為街景,人員大多是直立狀態(tài),而實(shí)際監(jiān)控場(chǎng)景下人員姿態(tài)是多變的,這些因素會(huì)對(duì)實(shí)際的檢測(cè)效果帶來(lái)一定的影響,為了更好地契合實(shí)際監(jiān)控場(chǎng)景下的人員檢測(cè)任務(wù),本文建立了專用的MHDD.

數(shù)據(jù)采集自實(shí)際的高清監(jiān)控探頭,總共涉及13個(gè)監(jiān)控場(chǎng)景,部分監(jiān)控視頻圖像如圖6所示.

圖6?MHDD樣本

監(jiān)控視頻來(lái)源主要包括學(xué)校教學(xué)樓內(nèi)部及外部的人員,值班室或者辦公室的人員,以及室外開(kāi)放空間下的人員.其中室外的人員多為直立行走姿態(tài),室內(nèi)人員多為坐姿,保證了數(shù)據(jù)集目標(biāo)的多姿態(tài)性.并且室外的開(kāi)放空間包含較多的中距離及遠(yuǎn)景人員目標(biāo),保證了目標(biāo)的多尺度性,數(shù)據(jù)集中目標(biāo)的尺寸具體如表2所示,不同于Caltech的劃分方式,MHDD通過(guò)標(biāo)注框總體所占的像素對(duì)人員尺度進(jìn)行劃分.另外,針對(duì)本文的研究方向,樣本的選取注重了遮擋環(huán)境下的情形.

表2?MHDD行人尺度分布

Tab.2?Pedestrian scale distribution of MHDD

運(yùn)用第1.1節(jié)提到的維度聚類算法對(duì)MHDD所有樣本進(jìn)行聚類分析得出如下9組寬高組合:(8,29)、(12,43)、(20,72)、(32,142)、(45,86)、(47,205)、(69,130)、(75,230)、(195,327),進(jìn)一步得出樣本中目標(biāo)人員比例大致為1∶2、1∶3、1∶4以及3∶5幾種,不同比例的人員目標(biāo)使得最終的模型在面對(duì)實(shí)際監(jiān)控下的多姿態(tài)人員檢測(cè)任務(wù)時(shí)魯棒性更強(qiáng).

3?實(shí)驗(yàn)分析

3.1?網(wǎng)絡(luò)訓(xùn)練及模型評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)平臺(tái)基于64位的Ubuntu16.04操作系統(tǒng)和NVIDIA TITAN Xp GPU,運(yùn)用Tensorflow框架搭建神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測(cè)試過(guò)程.通過(guò)在COCO數(shù)據(jù)集上訓(xùn)練得到預(yù)訓(xùn)練權(quán)重做為初始權(quán)重,網(wǎng)絡(luò)的訓(xùn)練過(guò)程迭代30輪(epoch),訓(xùn)練過(guò)程動(dòng)量大小為0.9,采用自適應(yīng)優(yōu)化算法(AdamOptimizer)來(lái)優(yōu)化網(wǎng)絡(luò),學(xué)習(xí)率處于動(dòng)態(tài)變化中.訓(xùn)練過(guò)程采用多尺度輸入,保證所有的真實(shí)目標(biāo)(尤其是小尺度目標(biāo))能夠做到充分訓(xùn)練.

本文對(duì)檢測(cè)模型的評(píng)價(jià)采用目標(biāo)檢測(cè)中常用的AP(average precision)和行人檢測(cè)領(lǐng)域?qū)S玫腇PPI-MR(false positives per image-miss rate)兩個(gè)指標(biāo).

AP值的計(jì)算涉及到精確率(precision)和召回率(recall)兩個(gè)指標(biāo),其二者計(jì)算方式如下

3.2?實(shí)驗(yàn)結(jié)果及分析

如式(5)所示,網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)由兩部分組成,即中心點(diǎn)損失和邊界框回歸損失,筆者通過(guò)實(shí)驗(yàn)分別驗(yàn)證二者的功效.

首先筆者通過(guò)實(shí)驗(yàn)分析中心點(diǎn)損失,為了能夠直觀地呈現(xiàn)訓(xùn)練的過(guò)程,筆者對(duì)訓(xùn)練過(guò)程中不同epoch處的Heatmap進(jìn)行了提取,部分實(shí)驗(yàn)結(jié)果如圖7所示.

實(shí)驗(yàn)分別對(duì)epoch在1、10、20及30處的Heatmap進(jìn)行了提取,從圖7可以看出,隨著訓(xùn)練迭代輪數(shù)的增加,目標(biāo)的中心點(diǎn)逐漸獨(dú)立出來(lái),而且中心點(diǎn)的比重不斷增大(圖中目標(biāo)中心位置顏色的深淺代表其所占比重,顏色越深,比重越大,也越接近中心點(diǎn)),另外,對(duì)于可能存在的遮擋問(wèn)題,兩個(gè)距離較近的目標(biāo)中心點(diǎn)同樣能夠很好地分離,也印證了該損失項(xiàng)的有效性.另外,從實(shí)驗(yàn)結(jié)果可以看出算法對(duì)于小尺度目標(biāo)同樣能夠精確地預(yù)測(cè)出其中心點(diǎn)的位置.

圖7?不同epoch下中心點(diǎn)提取效果

表3?不同損失函數(shù)下模型的檢測(cè)效果對(duì)比

Tab.3 Comparison of the model detection effects under different loss functions

表4?嵌入CPM與否對(duì)模型的檢測(cè)效果對(duì)比

Tab.4 Comparison of the model detection effects with and without CPM

嵌入CPM的Yolov3網(wǎng)絡(luò)在兩個(gè)評(píng)價(jià)指標(biāo)上均取得了更好的結(jié)果,其中AP值提高了1.25%,漏檢率MR下降了1.31%.圖8展示了部分含遮擋情況樣本的檢測(cè)結(jié)果.從圖中的對(duì)比可以看出,嵌入CPM的Yolov3網(wǎng)絡(luò)在處理實(shí)際監(jiān)控場(chǎng)景下的遮擋情形時(shí)表現(xiàn)出了更為優(yōu)異的性能,有效地降低了漏檢或者誤檢現(xiàn)象的發(fā)生.另外,優(yōu)化后的網(wǎng)絡(luò)因?yàn)椴⑽磳?duì)所有的像素點(diǎn)覆蓋anchor進(jìn)行邊界框回歸,而僅用了預(yù)提取的中心點(diǎn),且省去了NMS過(guò)程,所以最終網(wǎng)絡(luò)的檢測(cè)時(shí)間略快于原網(wǎng)絡(luò),能夠保證實(shí)時(shí)檢測(cè),故算法對(duì)實(shí)際監(jiān)控場(chǎng)景下的人員檢測(cè)任務(wù)具有一定的應(yīng)用意義.

為了進(jìn)一步證明算法的通用性,本文另在Caltech行人數(shù)據(jù)庫(kù)上進(jìn)行了模型的訓(xùn)練和測(cè)試工作,并與文獻(xiàn)[5, 8, 17, 20]的測(cè)試結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示.表中分別列出了不同檢測(cè)網(wǎng)絡(luò)所采用的主干網(wǎng)絡(luò)(backbone)和測(cè)試圖片的尺寸(scale). 其中Faster R-CNN算法的訓(xùn)練和測(cè)試圖像尺寸分別為原圖寬高的1.3倍;Yolov3算法在訓(xùn)練時(shí)采用多尺度輸入,將圖像的寬高放縮到同一長(zhǎng)度,寬高值涉及320、352、384、416、448、480、512、544、576、608幾個(gè)不同的尺度,測(cè)試時(shí)統(tǒng)一寬高的長(zhǎng)度為544;CenterNet算法采用單尺度輸入,訓(xùn)練和測(cè)試圖像尺寸均為512×512;本文所提出的算法與Yolov3算法相同,同樣采用多尺度訓(xùn)練.

實(shí)驗(yàn)結(jié)果表明,相對(duì)于早期的行人檢測(cè)算法(文獻(xiàn)[20])以及傳統(tǒng)的目標(biāo)檢測(cè)算法(文獻(xiàn)[5,8]),本文所提出的嵌入CPM的Yolov3網(wǎng)絡(luò)獲得了更低的漏檢率.與典型的關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)(文獻(xiàn)[17])相比,測(cè)試結(jié)果近似處于同一水平.由此可以證明本文所提出的檢測(cè)算法對(duì)于行人檢測(cè)任務(wù)同樣具有一定的優(yōu)越性.

圖8?Yolov3嵌入CPM與否的檢測(cè)效果對(duì)比

表5?不同算法在Caltech上的檢測(cè)效果

Tab.5?Detection effect of different algorithms on Caltech

4?結(jié)?語(yǔ)

由于實(shí)際監(jiān)控場(chǎng)景的復(fù)雜性,算法在人員檢測(cè)的過(guò)程中不可避免地會(huì)存在一些誤報(bào),以后可以從主干網(wǎng)絡(luò)入手,對(duì)于人員的特征進(jìn)行更加精準(zhǔn)的提取,從而進(jìn)一步提升算法的檢測(cè)性能.

[1] 王?霞,張?為. 基于聯(lián)合學(xué)習(xí)的多視角室內(nèi)人員檢測(cè)網(wǎng)絡(luò)[J]. 光學(xué)學(xué)報(bào),2019,39(2):78-88.

Wang Xia,Zhang Wei. Multi-view indoor human detection neural network based on joint learning[J]. Acta Optica Sinica,2019,39(2):78-88(in Chinese).

[2] Dalal N,Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE Conference on Computer Vision and Pattern Recognition. San Diego,USA,2005:886-893.

[3] Lowe D G. Distinctive image features from scale-Invariant keypoints[J]. International Journal of Computer Vision,2004,60(2):91-110.

[4] Piotr D,Zhuowen T,Pietro P,et al. Integral channel features[C]// 2009 British Machine Vision Conference. London,UK,2009:1-11.

[5] Ren S,He K,Girshick R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions Pattern Analysis and Machine Intelligence,2015,39(6):1137-1149.

[6] Redmon J,Divvala S,Girshick R,et al. You only look once:Unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:779-788.

[7] Redmon J,F(xiàn)arhadi A. YOLO9000:Better,faster,stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA,2017:7263-7271.

[8] Redmon J,F(xiàn)arhadi A. YOLOv3:An Incremental Improvement[EB/OL]. https://arxiv.org/abs/1804.02767,2018-04-08.

[9] Ouyang W,Wang X. Joint deep learning for pedestrian detection[C]//2013 IEEE International Conference on Computer Vision. Sydney,NSW,Australia,2013:2056-2063.

[10] Liu W,Liao S,Ren W,et al. High-level semantic feature detection:A new perspective for pedestrian detection[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,CA,2019:5187-5196.

[11] Zhou C,Yuan J. Bi-box regression for pedestrian detection and occlusion estimation[C]//2018 European Conference on Computer Vision. Munich,Germany,2018:135-151.

[12] Zhang S,Wen L,Bian X,et al. Occlusion-aware R-CNN:Detecting pedestrians in a crowd[C]//2018 European Conference on Computer Vision. Munich,Germany,2018:637-653.

[13] Lin T Y,Dollar P,Girshick R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,HI,USA,2017:2117-2125.

[14] Rezatofighi H,Tsoi N,Gwak J Y,et al. Generalized intersection over union:A metric and a loss for bounding box regression[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach,CA,2019:658-666.

[15] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA,2016:770-778.

[16] Lin T,Goyal P,Girshick R,et al. Focal loss for dense object detection[J]. IEEE Transactions Pattern Analysis and Machine Intelligence,2018,42(2):318-327.

[17] Zhou X,Wang D,Krahenbuhl P. Objects as Points [EB/OL]. https://arxiv.org/abs/1904.07850v1,2019-04-16.

[18] Law H,Deng J. CornerNet:Detecting objects as paired keypoints[C]//2018 European Conference on Computer Vision. Munich,Germany,2018:734-750.

[19] Piotr D,Christian W,Pietro P,et al. Pedestrian detection:A benchmark[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami,F(xiàn)L,USA,2009:304-311.

[20] Cai Z,Saberian M,Vasconcelos N. Learning complexity-aware cascades for deep pedestrian detection[C]//2015 IEEE International Conference on Computer Vision. Santiago,Chile,2015:3361-3369.

Embedded Center Prediction Module of Yolov3 Occlusion Human Detection Network

Liang Yu1,Li Jiahao1,Zhang Wei1,Sun Qilong2

(1. School of Microelectronics,Tianjin University,Tianjin 300072,China;2. School of Computer Science,Qinghai Nationalities University,Xining 810007,China)

To solve the occlusion problem in the current human detection task in actual monitoring scenarios,an improved Yolov3 detection network was proposed. First,in view of the problem that the detected target posture of the existing human detection algorithms is that of single,mostly outdoor,upright pedestrians,a multi-scene human detection dataset(MHDD)containing 16832 samples was self-built for training and testing the network,which included 12090 samples in the training set and 4742 samples in the test set. Then,to improve the detection effect of the network in the case of occlusion,the center prediction module(CPM)was designed and embedded into the three-scale output feature map of the original Yolov3 network. This module first determined the center position of the target as the pre-extracted center point,and then the location and size of the target were accurately regressed on it. Finally,in the accurate regression of the candidate boxes,the GIoU(generalized intersection over union)was used to construct the loss function for optimization,and the regression accuracy was improved by accurately constructing the position relationship between the candidate boxes and real target boxes,which also reduced the fluctuation of the loss function under different scale targets. The experimental results show that the detection accuracy of the detection network on the test set after optimizing the network structure and the loss function is increased by 2.92%,and the missed detection rate is decreased by 2.94%. The network achieves a good detection effect for the occlusion situation in actual monitoring scenarios,and it has good robustness for the detection results of multi-pose human targets. At the same time,the detection speed reaches 28 frames per second,ensuring real-time detection. In addition,the missed detection rate of the network on the Caltech pedestrian database is 6.02%,which also achieves better results than those of the traditional detection networks,further confirming the superiority of the network in pedestrian detection tasks.

computer vision;video surveillance;convolutional neural network;human detection;human occlusion

TP391.4

A

0493-2137(2021)05-0517-09

10.11784/tdxbz202003010

2020-03-07;

2020-04-29.

梁?煜(1975—??),男,博士,副教授,liangyu@tju.edu.cn.

張?為,tjuzhangwei@tju.edu.cn.

公安部技術(shù)研究計(jì)劃資助項(xiàng)目(2017JSYJC35);青海民族大學(xué)理工自然科學(xué)重大項(xiàng)目(2019xjz003);新一代人工智能科技重大專項(xiàng)(19ZXNGX0030).

Supported by the Technology Research Program of MinistryofPublicSecurity(No.2017JSYJC35),the Major Program of the Science and Technology of Qinghai Nationalities University(No.2019xjz003),the Major Project of New Generation of Artificial Intelligence Technology(No.19ZXNGX0030).

(責(zé)任編輯:王曉燕)

猜你喜歡
候選框中心點(diǎn)尺度
重定位非極大值抑制算法
面向自然場(chǎng)景文本檢測(cè)的改進(jìn)NMS算法
基于Soft-NMS的候選框去冗余加速器設(shè)計(jì)*
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
Scratch 3.9更新了什么?
如何設(shè)置造型中心點(diǎn)?
電腦報(bào)(2019年4期)2019-09-10 07:22:44
一種針對(duì)特定目標(biāo)的提議算法
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
漢字藝術(shù)結(jié)構(gòu)解析(二)中心點(diǎn)處筆畫(huà)應(yīng)緊奏
尋找視覺(jué)中心點(diǎn)
大眾攝影(2015年9期)2015-09-06 17:05:41
常宁市| 临桂县| 泰来县| 济南市| 大洼县| 扶风县| 胶南市| 曲麻莱县| 丁青县| 敦化市| 会理县| 连南| 阿尔山市| 龙南县| 始兴县| 巴楚县| 保定市| 灵丘县| 驻马店市| 洪雅县| 丰顺县| 安乡县| 伊金霍洛旗| 阿拉善盟| 东乡族自治县| 遵义市| 泰来县| 婺源县| 灵台县| 砀山县| 疏附县| 平阳县| 略阳县| 石嘴山市| 荣成市| 弥勒县| 阳原县| 军事| 米林县| 台南市| 仁化县|