基于深度殘差網(wǎng)絡(luò)和YOLO的人物識(shí)別系統(tǒng)

2018-11-03 06:04鄒阿金李承駿陳越鋒

現(xiàn)代計(jì)算機(jī) 2018年28期

鄒阿金，李承駿，陳越鋒

（1.廣東海洋大學(xué)電子與信息工程學(xué)院電子信息工程系，湛江524088；2.廣東海洋大學(xué)電子與信息工程學(xué)院通信工程系，湛江524088；3.廣東海洋大學(xué)電子與信息工程學(xué)院自動(dòng)化系，湛江524088）

0 引言

人數(shù)檢測(cè)在現(xiàn)代社會(huì)具有廣泛的應(yīng)用，諸如學(xué)校、地鐵站、商場(chǎng)等公共場(chǎng)合的人流量統(tǒng)計(jì)，其中安全問(wèn)題尤其重要，這就需要人為地對(duì)檢測(cè)到的視頻信息進(jìn)行實(shí)時(shí)統(tǒng)計(jì)和分析理解，此項(xiàng)目適用于公安或保障部門對(duì)特定場(chǎng)景進(jìn)行人流量控制，以防擁堵和意外的發(fā)生。如果商場(chǎng)加入人流量檢測(cè)系統(tǒng)，就能定量分析出商場(chǎng)哪些消費(fèi)區(qū)的人流多，進(jìn)而改變商場(chǎng)的購(gòu)物區(qū)結(jié)構(gòu)，促進(jìn)消費(fèi)，提高經(jīng)濟(jì)效益；城市內(nèi)如發(fā)生突發(fā)事故，造成交通擁堵，疏散人流也可以根據(jù)市內(nèi)人流分布圖，制定合理的方案?？偟膩?lái)說(shuō)，人流量檢測(cè)在當(dāng)今社會(huì)有著十分深遠(yuǎn)的意義，由于計(jì)算機(jī)技術(shù)的迅猛發(fā)展，計(jì)算機(jī)硬件的支持度越來(lái)越廣，能訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)也越來(lái)越深；卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)代表，近年的發(fā)展十分迅速，其權(quán)值共享的連接方式大大減少了訓(xùn)練所需要的參數(shù)數(shù)量，降低了網(wǎng)絡(luò)的輸入維度，使得網(wǎng)絡(luò)具有更高的魯棒性，同時(shí)還有效地抑制了過(guò)擬合的問(wèn)題[1]，目前許多神經(jīng)網(wǎng)絡(luò)的構(gòu)建都是基于卷積網(wǎng)絡(luò)的變形和改進(jìn)。

1 研究現(xiàn)狀

人群密集度的檢測(cè)，主要通過(guò)調(diào)用現(xiàn)場(chǎng)監(jiān)控的攝像頭來(lái)獲得監(jiān)控的圖像信息，然后對(duì)圖像里的內(nèi)容進(jìn)行分析，進(jìn)而得到該地區(qū)的人流密集度。一般在不同場(chǎng)景之中，都會(huì)配備最少一個(gè)攝像頭，可以通過(guò)監(jiān)控前景的邊緣和前景的像素來(lái)實(shí)現(xiàn)場(chǎng)景的人群密度的估量。近年來(lái)，用神經(jīng)網(wǎng)絡(luò)提取人物特征的方法已經(jīng)在人物檢測(cè)、人物識(shí)別領(lǐng)域得到廣泛應(yīng)用[1]，對(duì)于相同的樣本，卷積神經(jīng)網(wǎng)絡(luò)會(huì)隨著層數(shù)的增加而提高模型的穩(wěn)定性和精確度，但是同時(shí)也存在梯度消失的現(xiàn)象，模型的精度不升反降，利用殘差網(wǎng)絡(luò)的殘差塊能很好地解決這個(gè)問(wèn)題。深度殘差網(wǎng)絡(luò)在ILSVRC和COCO的分類比賽之中獲得了五項(xiàng)第一的好成績(jī)[2]，這些研究表明，網(wǎng)絡(luò)層越深，輸入層和輸出層的聯(lián)系越近，對(duì)于分類的效果也就更加地好，所以如果單純要提高目標(biāo)識(shí)別的精度，基于卷積神經(jīng)網(wǎng)絡(luò)，只需要把網(wǎng)絡(luò)層的深度增加即可，殘差塊的提出給現(xiàn)在的研究帶來(lái)了許多創(chuàng)新。

2 訓(xùn)練過(guò)程

對(duì)訓(xùn)練使用的樣本數(shù)據(jù)，進(jìn)行ROI感受視野區(qū)標(biāo)記，分為大、中、小的三類數(shù)據(jù)集，初始的輸入數(shù)據(jù)為250×200，另外還用了25×20的小樣本圖片，每次對(duì)于新的輸入，進(jìn)行放大、縮小處理得到三種尺度的圖片。使用wider face提供的數(shù)據(jù)（如圖1所示）作為樣本輸入網(wǎng)絡(luò)之中，其中包含已做好標(biāo)記的人臉框數(shù)據(jù)。對(duì)于不同距離的人臉檢測(cè)，由于遠(yuǎn)近的關(guān)系，會(huì)產(chǎn)生人臉模糊度高，清晰度不夠的現(xiàn)象，這里還添加了上下文的數(shù)據(jù)，如圖2所示，對(duì)于不清晰的人物，則加以上下文的判斷（人物的特征如：手、足、脖子，等等）。

圖1 基于ROI的人臉數(shù)據(jù)

圖2 人物上下文數(shù)據(jù)

3 圖片多尺度的檢測(cè)

目前密集人群識(shí)別精度不高的主要原因是：識(shí)別模型提取的特征不夠多，模型魯棒性不夠好。為了解決特征樣本不夠的問(wèn)題，制作多尺度的圖片；小尺寸的圖片可以幫助檢測(cè)小目標(biāo)，大尺寸的可以包含更豐富信息。采用傳統(tǒng)的方法建立一個(gè)應(yīng)用于精細(xì)離散圖像金字塔的單尺度模型，如圖3所示，對(duì)圖片進(jìn)行不同分辨率的處理，并完成放大和縮小的操作，每次對(duì)輸入的圖片，通過(guò)放大和縮小，得到三幅不同尺度的圖片；針對(duì)不同的對(duì)象尺度構(gòu)建了不同的檢測(cè)器（在訓(xùn)練的數(shù)據(jù)相對(duì)小的情況下，這種方法可能會(huì)有較大的誤差）；以此訓(xùn)練多種尺度混合的檢測(cè)器，在識(shí)別時(shí)基于不同的分辨率，用非最大抑制（Non Maximum Suppression）來(lái)獲得最終結(jié)果。

圖3 圖像金字塔模型

圖像金字塔，是一種透視的觀點(diǎn)，以多分辨率來(lái)解釋圖像，現(xiàn)實(shí)之中也因?yàn)榕臄z的距離，對(duì)于得到的數(shù)據(jù)有多種的尺度，要實(shí)現(xiàn)遠(yuǎn)近模糊的識(shí)別，可將圖像數(shù)據(jù)集按照?qǐng)D像金字塔的原理，采樣得到不同的分辨率作為拓展的訓(xùn)練集，大大提高了模型的魯棒性。

圖4 人臉數(shù)據(jù)裁剪原理

圖4中是部分的特征，圖中虛線框內(nèi)的范圍越大代表感受的視野越大，即隨著ResNet的層數(shù)的增加，在提取特征的時(shí)候，不同尺度圖片提取到的特征有所不同，以下是本方法的測(cè)試結(jié)論。

（1）增加更多的上下文信息（感受野）有助于檢測(cè)；

（2）對(duì)于小人臉，483×483的訓(xùn)練性能不好，精度下降，這是過(guò)擬合造成的現(xiàn)象；

（3）對(duì)于大人臉，更大的感受野帶來(lái)的提升已經(jīng)不是很明顯；結(jié)論是不同尺度目標(biāo)檢測(cè)都使用同樣大小的感受野.91×291。

4 網(wǎng)絡(luò)層的搭建

模型是用ResNet-101網(wǎng)絡(luò)訓(xùn)練獲得的，將每?jī)蓚€(gè)卷積層后的輸出分為兩條路，其中一條直接進(jìn)入weight layer下一層，另外一條路直接作為下一個(gè)卷積層的輸入。可以實(shí)現(xiàn)隨著網(wǎng)絡(luò)深度的增加而訓(xùn)練精度逐層提高，不會(huì)出現(xiàn)退化的現(xiàn)象。因?yàn)榈诙l路直接將低緯度的特征直接輸入到下一個(gè)網(wǎng)絡(luò)之中，不會(huì)因?yàn)榫矸e而丟失了數(shù)據(jù)，大大提高了模型的準(zhǔn)確性。殘差塊的原理如圖5所示：

圖5 殘差塊原理圖

它有兩層，公式（1）中的σ表示的是非線性函數(shù)ReLU。

然后通過(guò)一個(gè)shortcut，和第二個(gè)ReLU，獲得輸出y：

當(dāng)需要對(duì)輸入和輸出維數(shù)進(jìn)行變化時(shí)（如改變通道數(shù)目），可以在shortcut時(shí)對(duì)x做一個(gè)線性變換Ws，如公式（3）所示，然而實(shí)驗(yàn)證明x已經(jīng)足夠了，不需要再進(jìn)行維度變換，除非需求是某個(gè)特定維度的輸出。

對(duì)于每個(gè)層，都包含了卷積層和歸一化的操作，最后通過(guò)激勵(lì)函數(shù)ReLU的操作，將數(shù)據(jù)輸出到下一層。有了快捷通道，可將低緯度的信息直接輸入到下一個(gè)層之中。對(duì)于7×7的數(shù)據(jù)輸入，卷積核選用3×3的矩陣，中間銜接數(shù)個(gè)殘差塊，最后經(jīng)過(guò)全局平均池化層進(jìn)入全連接層。

5 YOLO解決實(shí)時(shí)處理問(wèn)題

目標(biāo)檢測(cè)從R-CNN到Fast R-CNN，再到Faster R-CNN（候選區(qū)生成，特征提取，分類，位置精修）,YO?LO利用單一的CNN網(wǎng)絡(luò)，從像素到目標(biāo)的候選框以概率的形式輸出，達(dá)到了端到端優(yōu)化的一個(gè)目標(biāo)，大大提高了處理的速度[3-4]。

YOLO V2的檢測(cè)非?？欤@是它的優(yōu)點(diǎn)，因?yàn)闆](méi)有復(fù)雜的檢測(cè)過(guò)程，只需要將圖像輸入到網(wǎng)絡(luò)就可以得到檢測(cè)結(jié)果，YOLO可以實(shí)現(xiàn)快速的檢測(cè)任務(wù)，標(biāo)準(zhǔn)版本的YOLO的檢測(cè)速度在高配置的GPU上能達(dá)到45fps，更快的Fast YOLO的檢測(cè)速度可以達(dá)到155fps,YOLO是mAP是其他實(shí)時(shí)檢測(cè)系統(tǒng)的兩倍以上。

YOLO V2先對(duì)分類網(wǎng)絡(luò)進(jìn)行了fine tune，相比較YOLO V1的版本，YOLO V2參考了Fast R-CNN的方法，不是單純的利用全連接層的數(shù)據(jù)完成邊框的檢測(cè)，YOLO V2使用了一種叫anchor boxes的候選框，它的原理是在一幅圖中，對(duì)于每個(gè)人物可能在的圖像的位置，建立9個(gè)候選窗口（有三種面積和三種比例的組合），這就說(shuō)明了YOLO V2為能夠做到識(shí)別和定位。

圖6 YOLO候選框原理

YOLO V2采用的是GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu)，雖然精度略低于VGG-16，但是它的實(shí)時(shí)性非常優(yōu)秀，適合于應(yīng)用開(kāi)發(fā)，而且它具有定位和識(shí)別的功能，在一張圖片中可以快速找到目標(biāo)人物所在的位置。所以對(duì)于做產(chǎn)品應(yīng)用是非常合適的。

6 效果檢測(cè)

對(duì)于密集環(huán)境的人數(shù)統(tǒng)計(jì)，例如考勤、人數(shù)評(píng)估等，需要較為精密的統(tǒng)計(jì)；ResNet-101層的網(wǎng)絡(luò)層次較深，可以識(shí)別出800～1000人的環(huán)境，對(duì)于一般情況下的密集人數(shù)統(tǒng)計(jì)是沒(méi)有問(wèn)題的，可以直接統(tǒng)計(jì)出人群的密度。在GTX960的顯卡上，用CPU識(shí)別用了10秒，GPU時(shí)間可以大大縮短，達(dá)到了3秒內(nèi)，這里因?yàn)榫W(wǎng)絡(luò)層的結(jié)構(gòu)并不能達(dá)到實(shí)時(shí)，但是許多應(yīng)用是不需要實(shí)時(shí)的，對(duì)于統(tǒng)計(jì)來(lái)說(shuō)，主要是省去了人為計(jì)數(shù)的麻煩。

圖7 密集人頭檢測(cè)

圖7所示的密集人頭識(shí)別，是根據(jù)淺層卷積神經(jīng)網(wǎng)絡(luò)提取人物低層特征，并采用卷積層將已提取的高層特征和低層特征進(jìn)行融合，一般的遮掩和小人臉的檢測(cè)都可以實(shí)現(xiàn)，精度可以達(dá)到90%以上，本文根據(jù)適應(yīng)的場(chǎng)景使用不同的算法完成了識(shí)別系統(tǒng)的設(shè)計(jì)，其中人數(shù)統(tǒng)計(jì)采用YOLO V2的功能進(jìn)行實(shí)現(xiàn)，在人流量相對(duì)少，且要求實(shí)時(shí)性高的環(huán)境之下，可以實(shí)現(xiàn)人物識(shí)別和位置跟蹤，如圖8所示。

圖8 YOLO V2人物檢測(cè)

7 結(jié)語(yǔ)

鑒于在非受限條件下人臉圖像分類準(zhǔn)確度低的問(wèn)題，本文應(yīng)用ResNet-101網(wǎng)絡(luò)和YOLO實(shí)時(shí)性檢測(cè)技術(shù)，完成了人臉識(shí)別，該方法的計(jì)算量小,所以易于實(shí)時(shí)處理，此外還提出了利用線性神經(jīng)網(wǎng)絡(luò)恢復(fù)圖像殘差的超分辨算法，檢驗(yàn)了現(xiàn)有算法的效率與精度；現(xiàn)階段對(duì)于高精度、高效率的檢測(cè)需求十分的迫切，在軟件上集合了兩者的功能，可以實(shí)現(xiàn)不同需求的識(shí)別；實(shí)驗(yàn)表明，該方法能夠有效地提高不使用大數(shù)據(jù)集時(shí)非受限條件下人臉圖像分類精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡