国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度殘差網(wǎng)絡(luò)和YOLO的人物識(shí)別系統(tǒng)

2018-11-03 06:04鄒阿金李承駿陳越鋒
現(xiàn)代計(jì)算機(jī) 2018年28期
關(guān)鍵詞:殘差尺度卷積

鄒阿金,李承駿,陳越鋒

(1.廣東海洋大學(xué)電子與信息工程學(xué)院電子信息工程系,湛江524088;2.廣東海洋大學(xué)電子與信息工程學(xué)院通信工程系,湛江524088;3.廣東海洋大學(xué)電子與信息工程學(xué)院自動(dòng)化系,湛江524088)

0 引言

人數(shù)檢測(cè)在現(xiàn)代社會(huì)具有廣泛的應(yīng)用,諸如學(xué)校、地鐵站、商場(chǎng)等公共場(chǎng)合的人流量統(tǒng)計(jì),其中安全問(wèn)題尤其重要,這就需要人為地對(duì)檢測(cè)到的視頻信息進(jìn)行實(shí)時(shí)統(tǒng)計(jì)和分析理解,此項(xiàng)目適用于公安或保障部門對(duì)特定場(chǎng)景進(jìn)行人流量控制,以防擁堵和意外的發(fā)生。如果商場(chǎng)加入人流量檢測(cè)系統(tǒng),就能定量分析出商場(chǎng)哪些消費(fèi)區(qū)的人流多,進(jìn)而改變商場(chǎng)的購(gòu)物區(qū)結(jié)構(gòu),促進(jìn)消費(fèi),提高經(jīng)濟(jì)效益;城市內(nèi)如發(fā)生突發(fā)事故,造成交通擁堵,疏散人流也可以根據(jù)市內(nèi)人流分布圖,制定合理的方案??偟膩?lái)說(shuō),人流量檢測(cè)在當(dāng)今社會(huì)有著十分深遠(yuǎn)的意義,由于計(jì)算機(jī)技術(shù)的迅猛發(fā)展,計(jì)算機(jī)硬件的支持度越來(lái)越廣,能訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)也越來(lái)越深;卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)代表,近年的發(fā)展十分迅速,其權(quán)值共享的連接方式大大減少了訓(xùn)練所需要的參數(shù)數(shù)量,降低了網(wǎng)絡(luò)的輸入維度,使得網(wǎng)絡(luò)具有更高的魯棒性,同時(shí)還有效地抑制了過(guò)擬合的問(wèn)題[1],目前許多神經(jīng)網(wǎng)絡(luò)的構(gòu)建都是基于卷積網(wǎng)絡(luò)的變形和改進(jìn)。

1 研究現(xiàn)狀

人群密集度的檢測(cè),主要通過(guò)調(diào)用現(xiàn)場(chǎng)監(jiān)控的攝像頭來(lái)獲得監(jiān)控的圖像信息,然后對(duì)圖像里的內(nèi)容進(jìn)行分析,進(jìn)而得到該地區(qū)的人流密集度。一般在不同場(chǎng)景之中,都會(huì)配備最少一個(gè)攝像頭,可以通過(guò)監(jiān)控前景的邊緣和前景的像素來(lái)實(shí)現(xiàn)場(chǎng)景的人群密度的估量。近年來(lái),用神經(jīng)網(wǎng)絡(luò)提取人物特征的方法已經(jīng)在人物檢測(cè)、人物識(shí)別領(lǐng)域得到廣泛應(yīng)用[1],對(duì)于相同的樣本,卷積神經(jīng)網(wǎng)絡(luò)會(huì)隨著層數(shù)的增加而提高模型的穩(wěn)定性和精確度,但是同時(shí)也存在梯度消失的現(xiàn)象,模型的精度不升反降,利用殘差網(wǎng)絡(luò)的殘差塊能很好地解決這個(gè)問(wèn)題。深度殘差網(wǎng)絡(luò)在ILSVRC和COCO的分類比賽之中獲得了五項(xiàng)第一的好成績(jī)[2],這些研究表明,網(wǎng)絡(luò)層越深,輸入層和輸出層的聯(lián)系越近,對(duì)于分類的效果也就更加地好,所以如果單純要提高目標(biāo)識(shí)別的精度,基于卷積神經(jīng)網(wǎng)絡(luò),只需要把網(wǎng)絡(luò)層的深度增加即可,殘差塊的提出給現(xiàn)在的研究帶來(lái)了許多創(chuàng)新。

2 訓(xùn)練過(guò)程

對(duì)訓(xùn)練使用的樣本數(shù)據(jù),進(jìn)行ROI感受視野區(qū)標(biāo)記,分為大、中、小的三類數(shù)據(jù)集,初始的輸入數(shù)據(jù)為250×200,另外還用了25×20的小樣本圖片,每次對(duì)于新的輸入,進(jìn)行放大、縮小處理得到三種尺度的圖片。使用wider face提供的數(shù)據(jù)(如圖1所示)作為樣本輸入網(wǎng)絡(luò)之中,其中包含已做好標(biāo)記的人臉框數(shù)據(jù)。對(duì)于不同距離的人臉檢測(cè),由于遠(yuǎn)近的關(guān)系,會(huì)產(chǎn)生人臉模糊度高,清晰度不夠的現(xiàn)象,這里還添加了上下文的數(shù)據(jù),如圖2所示,對(duì)于不清晰的人物,則加以上下文的判斷(人物的特征如:手、足、脖子,等等)。

圖1 基于ROI的人臉數(shù)據(jù)

圖2 人物上下文數(shù)據(jù)

3 圖片多尺度的檢測(cè)

目前密集人群識(shí)別精度不高的主要原因是:識(shí)別模型提取的特征不夠多,模型魯棒性不夠好。為了解決特征樣本不夠的問(wèn)題,制作多尺度的圖片;小尺寸的圖片可以幫助檢測(cè)小目標(biāo),大尺寸的可以包含更豐富信息。采用傳統(tǒng)的方法建立一個(gè)應(yīng)用于精細(xì)離散圖像金字塔的單尺度模型,如圖3所示,對(duì)圖片進(jìn)行不同分辨率的處理,并完成放大和縮小的操作,每次對(duì)輸入的圖片,通過(guò)放大和縮小,得到三幅不同尺度的圖片;針對(duì)不同的對(duì)象尺度構(gòu)建了不同的檢測(cè)器(在訓(xùn)練的數(shù)據(jù)相對(duì)小的情況下,這種方法可能會(huì)有較大的誤差);以此訓(xùn)練多種尺度混合的檢測(cè)器,在識(shí)別時(shí)基于不同的分辨率,用非最大抑制(Non Maximum Suppression)來(lái)獲得最終結(jié)果。

圖3 圖像金字塔模型

圖像金字塔,是一種透視的觀點(diǎn),以多分辨率來(lái)解釋圖像,現(xiàn)實(shí)之中也因?yàn)榕臄z的距離,對(duì)于得到的數(shù)據(jù)有多種的尺度,要實(shí)現(xiàn)遠(yuǎn)近模糊的識(shí)別,可將圖像數(shù)據(jù)集按照?qǐng)D像金字塔的原理,采樣得到不同的分辨率作為拓展的訓(xùn)練集,大大提高了模型的魯棒性。

圖4 人臉數(shù)據(jù)裁剪原理

圖4中是部分的特征,圖中虛線框內(nèi)的范圍越大代表感受的視野越大,即隨著ResNet的層數(shù)的增加,在提取特征的時(shí)候,不同尺度圖片提取到的特征有所不同,以下是本方法的測(cè)試結(jié)論。

(1)增加更多的上下文信息(感受野)有助于檢測(cè);

(2)對(duì)于小人臉,483×483的訓(xùn)練性能不好,精度下降,這是過(guò)擬合造成的現(xiàn)象;

(3)對(duì)于大人臉,更大的感受野帶來(lái)的提升已經(jīng)不是很明顯;結(jié)論是不同尺度目標(biāo)檢測(cè)都使用同樣大小的感受野.91×291。

4 網(wǎng)絡(luò)層的搭建

模型是用ResNet-101網(wǎng)絡(luò)訓(xùn)練獲得的,將每?jī)蓚€(gè)卷積層后的輸出分為兩條路,其中一條直接進(jìn)入weight layer下一層,另外一條路直接作為下一個(gè)卷積層的輸入。可以實(shí)現(xiàn)隨著網(wǎng)絡(luò)深度的增加而訓(xùn)練精度逐層提高,不會(huì)出現(xiàn)退化的現(xiàn)象。因?yàn)榈诙l路直接將低緯度的特征直接輸入到下一個(gè)網(wǎng)絡(luò)之中,不會(huì)因?yàn)榫矸e而丟失了數(shù)據(jù),大大提高了模型的準(zhǔn)確性。殘差塊的原理如圖5所示:

圖5 殘差塊原理圖

它有兩層,公式(1)中的σ表示的是非線性函數(shù)ReLU。

然后通過(guò)一個(gè)shortcut,和第二個(gè)ReLU,獲得輸出y:

當(dāng)需要對(duì)輸入和輸出維數(shù)進(jìn)行變化時(shí)(如改變通道數(shù)目),可以在shortcut時(shí)對(duì)x做一個(gè)線性變換Ws,如公式(3)所示,然而實(shí)驗(yàn)證明x已經(jīng)足夠了,不需要再進(jìn)行維度變換,除非需求是某個(gè)特定維度的輸出。

對(duì)于每個(gè)層,都包含了卷積層和歸一化的操作,最后通過(guò)激勵(lì)函數(shù)ReLU的操作,將數(shù)據(jù)輸出到下一層。有了快捷通道,可將低緯度的信息直接輸入到下一個(gè)層之中。對(duì)于7×7的數(shù)據(jù)輸入,卷積核選用3×3的矩陣,中間銜接數(shù)個(gè)殘差塊,最后經(jīng)過(guò)全局平均池化層進(jìn)入全連接層。

5 YOLO解決實(shí)時(shí)處理問(wèn)題

目標(biāo)檢測(cè)從R-CNN到Fast R-CNN,再到Faster R-CNN(候選區(qū)生成,特征提取,分類,位置精修),YO?LO利用單一的CNN網(wǎng)絡(luò),從像素到目標(biāo)的候選框以概率的形式輸出,達(dá)到了端到端優(yōu)化的一個(gè)目標(biāo),大大提高了處理的速度[3-4]。

YOLO V2的檢測(cè)非??欤@是它的優(yōu)點(diǎn),因?yàn)闆](méi)有復(fù)雜的檢測(cè)過(guò)程,只需要將圖像輸入到網(wǎng)絡(luò)就可以得到檢測(cè)結(jié)果,YOLO可以實(shí)現(xiàn)快速的檢測(cè)任務(wù),標(biāo)準(zhǔn)版本的YOLO的檢測(cè)速度在高配置的GPU上能達(dá)到45fps,更快的Fast YOLO的檢測(cè)速度可以達(dá)到155fps,YOLO是mAP是其他實(shí)時(shí)檢測(cè)系統(tǒng)的兩倍以上。

YOLO V2先對(duì)分類網(wǎng)絡(luò)進(jìn)行了fine tune,相比較YOLO V1的版本,YOLO V2參考了Fast R-CNN的方法,不是單純的利用全連接層的數(shù)據(jù)完成邊框的檢測(cè),YOLO V2使用了一種叫anchor boxes的候選框,它的原理是在一幅圖中,對(duì)于每個(gè)人物可能在的圖像的位置,建立9個(gè)候選窗口(有三種面積和三種比例的組合),這就說(shuō)明了YOLO V2為能夠做到識(shí)別和定位。

圖6 YOLO候選框原理

YOLO V2采用的是GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),雖然精度略低于VGG-16,但是它的實(shí)時(shí)性非常優(yōu)秀,適合于應(yīng)用開(kāi)發(fā),而且它具有定位和識(shí)別的功能,在一張圖片中可以快速找到目標(biāo)人物所在的位置。所以對(duì)于做產(chǎn)品應(yīng)用是非常合適的。

6 效果檢測(cè)

對(duì)于密集環(huán)境的人數(shù)統(tǒng)計(jì),例如考勤、人數(shù)評(píng)估等,需要較為精密的統(tǒng)計(jì);ResNet-101層的網(wǎng)絡(luò)層次較深,可以識(shí)別出800~1000人的環(huán)境,對(duì)于一般情況下的密集人數(shù)統(tǒng)計(jì)是沒(méi)有問(wèn)題的,可以直接統(tǒng)計(jì)出人群的密度。在GTX960的顯卡上,用CPU識(shí)別用了10秒,GPU時(shí)間可以大大縮短,達(dá)到了3秒內(nèi),這里因?yàn)榫W(wǎng)絡(luò)層的結(jié)構(gòu)并不能達(dá)到實(shí)時(shí),但是許多應(yīng)用是不需要實(shí)時(shí)的,對(duì)于統(tǒng)計(jì)來(lái)說(shuō),主要是省去了人為計(jì)數(shù)的麻煩。

圖7 密集人頭檢測(cè)

圖7所示的密集人頭識(shí)別,是根據(jù)淺層卷積神經(jīng)網(wǎng)絡(luò)提取人物低層特征,并采用卷積層將已提取的高層特征和低層特征進(jìn)行融合,一般的遮掩和小人臉的檢測(cè)都可以實(shí)現(xiàn),精度可以達(dá)到90%以上,本文根據(jù)適應(yīng)的場(chǎng)景使用不同的算法完成了識(shí)別系統(tǒng)的設(shè)計(jì),其中人數(shù)統(tǒng)計(jì)采用YOLO V2的功能進(jìn)行實(shí)現(xiàn),在人流量相對(duì)少,且要求實(shí)時(shí)性高的環(huán)境之下,可以實(shí)現(xiàn)人物識(shí)別和位置跟蹤,如圖8所示。

圖8 YOLO V2人物檢測(cè)

7 結(jié)語(yǔ)

鑒于在非受限條件下人臉圖像分類準(zhǔn)確度低的問(wèn)題,本文應(yīng)用ResNet-101網(wǎng)絡(luò)和YOLO實(shí)時(shí)性檢測(cè)技術(shù),完成了人臉識(shí)別,該方法的計(jì)算量小,所以易于實(shí)時(shí)處理,此外還提出了利用線性神經(jīng)網(wǎng)絡(luò)恢復(fù)圖像殘差的超分辨算法,檢驗(yàn)了現(xiàn)有算法的效率與精度;現(xiàn)階段對(duì)于高精度、高效率的檢測(cè)需求十分的迫切,在軟件上集合了兩者的功能,可以實(shí)現(xiàn)不同需求的識(shí)別;實(shí)驗(yàn)表明,該方法能夠有效地提高不使用大數(shù)據(jù)集時(shí)非受限條件下人臉圖像分類精度。

猜你喜歡
殘差尺度卷積
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度