鄒阿金,李承駿,陳越鋒
(1.廣東海洋大學(xué)電子與信息工程學(xué)院電子信息工程系,湛江524088;2.廣東海洋大學(xué)電子與信息工程學(xué)院通信工程系,湛江524088;3.廣東海洋大學(xué)電子與信息工程學(xué)院自動(dòng)化系,湛江524088)
人數(shù)檢測(cè)在現(xiàn)代社會(huì)具有廣泛的應(yīng)用,諸如學(xué)校、地鐵站、商場(chǎng)等公共場(chǎng)合的人流量統(tǒng)計(jì),其中安全問(wèn)題尤其重要,這就需要人為地對(duì)檢測(cè)到的視頻信息進(jìn)行實(shí)時(shí)統(tǒng)計(jì)和分析理解,此項(xiàng)目適用于公安或保障部門對(duì)特定場(chǎng)景進(jìn)行人流量控制,以防擁堵和意外的發(fā)生。如果商場(chǎng)加入人流量檢測(cè)系統(tǒng),就能定量分析出商場(chǎng)哪些消費(fèi)區(qū)的人流多,進(jìn)而改變商場(chǎng)的購(gòu)物區(qū)結(jié)構(gòu),促進(jìn)消費(fèi),提高經(jīng)濟(jì)效益;城市內(nèi)如發(fā)生突發(fā)事故,造成交通擁堵,疏散人流也可以根據(jù)市內(nèi)人流分布圖,制定合理的方案??偟膩?lái)說(shuō),人流量檢測(cè)在當(dāng)今社會(huì)有著十分深遠(yuǎn)的意義,由于計(jì)算機(jī)技術(shù)的迅猛發(fā)展,計(jì)算機(jī)硬件的支持度越來(lái)越廣,能訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)也越來(lái)越深;卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一個(gè)代表,近年的發(fā)展十分迅速,其權(quán)值共享的連接方式大大減少了訓(xùn)練所需要的參數(shù)數(shù)量,降低了網(wǎng)絡(luò)的輸入維度,使得網(wǎng)絡(luò)具有更高的魯棒性,同時(shí)還有效地抑制了過(guò)擬合的問(wèn)題[1],目前許多神經(jīng)網(wǎng)絡(luò)的構(gòu)建都是基于卷積網(wǎng)絡(luò)的變形和改進(jìn)。
人群密集度的檢測(cè),主要通過(guò)調(diào)用現(xiàn)場(chǎng)監(jiān)控的攝像頭來(lái)獲得監(jiān)控的圖像信息,然后對(duì)圖像里的內(nèi)容進(jìn)行分析,進(jìn)而得到該地區(qū)的人流密集度。一般在不同場(chǎng)景之中,都會(huì)配備最少一個(gè)攝像頭,可以通過(guò)監(jiān)控前景的邊緣和前景的像素來(lái)實(shí)現(xiàn)場(chǎng)景的人群密度的估量。近年來(lái),用神經(jīng)網(wǎng)絡(luò)提取人物特征的方法已經(jīng)在人物檢測(cè)、人物識(shí)別領(lǐng)域得到廣泛應(yīng)用[1],對(duì)于相同的樣本,卷積神經(jīng)網(wǎng)絡(luò)會(huì)隨著層數(shù)的增加而提高模型的穩(wěn)定性和精確度,但是同時(shí)也存在梯度消失的現(xiàn)象,模型的精度不升反降,利用殘差網(wǎng)絡(luò)的殘差塊能很好地解決這個(gè)問(wèn)題。深度殘差網(wǎng)絡(luò)在ILSVRC和COCO的分類比賽之中獲得了五項(xiàng)第一的好成績(jī)[2],這些研究表明,網(wǎng)絡(luò)層越深,輸入層和輸出層的聯(lián)系越近,對(duì)于分類的效果也就更加地好,所以如果單純要提高目標(biāo)識(shí)別的精度,基于卷積神經(jīng)網(wǎng)絡(luò),只需要把網(wǎng)絡(luò)層的深度增加即可,殘差塊的提出給現(xiàn)在的研究帶來(lái)了許多創(chuàng)新。
對(duì)訓(xùn)練使用的樣本數(shù)據(jù),進(jìn)行ROI感受視野區(qū)標(biāo)記,分為大、中、小的三類數(shù)據(jù)集,初始的輸入數(shù)據(jù)為250×200,另外還用了25×20的小樣本圖片,每次對(duì)于新的輸入,進(jìn)行放大、縮小處理得到三種尺度的圖片。使用wider face提供的數(shù)據(jù)(如圖1所示)作為樣本輸入網(wǎng)絡(luò)之中,其中包含已做好標(biāo)記的人臉框數(shù)據(jù)。對(duì)于不同距離的人臉檢測(cè),由于遠(yuǎn)近的關(guān)系,會(huì)產(chǎn)生人臉模糊度高,清晰度不夠的現(xiàn)象,這里還添加了上下文的數(shù)據(jù),如圖2所示,對(duì)于不清晰的人物,則加以上下文的判斷(人物的特征如:手、足、脖子,等等)。
圖1 基于ROI的人臉數(shù)據(jù)
圖2 人物上下文數(shù)據(jù)
目前密集人群識(shí)別精度不高的主要原因是:識(shí)別模型提取的特征不夠多,模型魯棒性不夠好。為了解決特征樣本不夠的問(wèn)題,制作多尺度的圖片;小尺寸的圖片可以幫助檢測(cè)小目標(biāo),大尺寸的可以包含更豐富信息。采用傳統(tǒng)的方法建立一個(gè)應(yīng)用于精細(xì)離散圖像金字塔的單尺度模型,如圖3所示,對(duì)圖片進(jìn)行不同分辨率的處理,并完成放大和縮小的操作,每次對(duì)輸入的圖片,通過(guò)放大和縮小,得到三幅不同尺度的圖片;針對(duì)不同的對(duì)象尺度構(gòu)建了不同的檢測(cè)器(在訓(xùn)練的數(shù)據(jù)相對(duì)小的情況下,這種方法可能會(huì)有較大的誤差);以此訓(xùn)練多種尺度混合的檢測(cè)器,在識(shí)別時(shí)基于不同的分辨率,用非最大抑制(Non Maximum Suppression)來(lái)獲得最終結(jié)果。
圖3 圖像金字塔模型
圖像金字塔,是一種透視的觀點(diǎn),以多分辨率來(lái)解釋圖像,現(xiàn)實(shí)之中也因?yàn)榕臄z的距離,對(duì)于得到的數(shù)據(jù)有多種的尺度,要實(shí)現(xiàn)遠(yuǎn)近模糊的識(shí)別,可將圖像數(shù)據(jù)集按照?qǐng)D像金字塔的原理,采樣得到不同的分辨率作為拓展的訓(xùn)練集,大大提高了模型的魯棒性。
圖4 人臉數(shù)據(jù)裁剪原理
圖4中是部分的特征,圖中虛線框內(nèi)的范圍越大代表感受的視野越大,即隨著ResNet的層數(shù)的增加,在提取特征的時(shí)候,不同尺度圖片提取到的特征有所不同,以下是本方法的測(cè)試結(jié)論。
(1)增加更多的上下文信息(感受野)有助于檢測(cè);
(2)對(duì)于小人臉,483×483的訓(xùn)練性能不好,精度下降,這是過(guò)擬合造成的現(xiàn)象;
(3)對(duì)于大人臉,更大的感受野帶來(lái)的提升已經(jīng)不是很明顯;結(jié)論是不同尺度目標(biāo)檢測(cè)都使用同樣大小的感受野.91×291。
模型是用ResNet-101網(wǎng)絡(luò)訓(xùn)練獲得的,將每?jī)蓚€(gè)卷積層后的輸出分為兩條路,其中一條直接進(jìn)入weight layer下一層,另外一條路直接作為下一個(gè)卷積層的輸入。可以實(shí)現(xiàn)隨著網(wǎng)絡(luò)深度的增加而訓(xùn)練精度逐層提高,不會(huì)出現(xiàn)退化的現(xiàn)象。因?yàn)榈诙l路直接將低緯度的特征直接輸入到下一個(gè)網(wǎng)絡(luò)之中,不會(huì)因?yàn)榫矸e而丟失了數(shù)據(jù),大大提高了模型的準(zhǔn)確性。殘差塊的原理如圖5所示:
圖5 殘差塊原理圖
它有兩層,公式(1)中的σ表示的是非線性函數(shù)ReLU。
然后通過(guò)一個(gè)shortcut,和第二個(gè)ReLU,獲得輸出y:
當(dāng)需要對(duì)輸入和輸出維數(shù)進(jìn)行變化時(shí)(如改變通道數(shù)目),可以在shortcut時(shí)對(duì)x做一個(gè)線性變換Ws,如公式(3)所示,然而實(shí)驗(yàn)證明x已經(jīng)足夠了,不需要再進(jìn)行維度變換,除非需求是某個(gè)特定維度的輸出。
對(duì)于每個(gè)層,都包含了卷積層和歸一化的操作,最后通過(guò)激勵(lì)函數(shù)ReLU的操作,將數(shù)據(jù)輸出到下一層。有了快捷通道,可將低緯度的信息直接輸入到下一個(gè)層之中。對(duì)于7×7的數(shù)據(jù)輸入,卷積核選用3×3的矩陣,中間銜接數(shù)個(gè)殘差塊,最后經(jīng)過(guò)全局平均池化層進(jìn)入全連接層。
目標(biāo)檢測(cè)從R-CNN到Fast R-CNN,再到Faster R-CNN(候選區(qū)生成,特征提取,分類,位置精修),YO?LO利用單一的CNN網(wǎng)絡(luò),從像素到目標(biāo)的候選框以概率的形式輸出,達(dá)到了端到端優(yōu)化的一個(gè)目標(biāo),大大提高了處理的速度[3-4]。
YOLO V2的檢測(cè)非??欤@是它的優(yōu)點(diǎn),因?yàn)闆](méi)有復(fù)雜的檢測(cè)過(guò)程,只需要將圖像輸入到網(wǎng)絡(luò)就可以得到檢測(cè)結(jié)果,YOLO可以實(shí)現(xiàn)快速的檢測(cè)任務(wù),標(biāo)準(zhǔn)版本的YOLO的檢測(cè)速度在高配置的GPU上能達(dá)到45fps,更快的Fast YOLO的檢測(cè)速度可以達(dá)到155fps,YOLO是mAP是其他實(shí)時(shí)檢測(cè)系統(tǒng)的兩倍以上。
YOLO V2先對(duì)分類網(wǎng)絡(luò)進(jìn)行了fine tune,相比較YOLO V1的版本,YOLO V2參考了Fast R-CNN的方法,不是單純的利用全連接層的數(shù)據(jù)完成邊框的檢測(cè),YOLO V2使用了一種叫anchor boxes的候選框,它的原理是在一幅圖中,對(duì)于每個(gè)人物可能在的圖像的位置,建立9個(gè)候選窗口(有三種面積和三種比例的組合),這就說(shuō)明了YOLO V2為能夠做到識(shí)別和定位。
圖6 YOLO候選框原理
YOLO V2采用的是GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),雖然精度略低于VGG-16,但是它的實(shí)時(shí)性非常優(yōu)秀,適合于應(yīng)用開(kāi)發(fā),而且它具有定位和識(shí)別的功能,在一張圖片中可以快速找到目標(biāo)人物所在的位置。所以對(duì)于做產(chǎn)品應(yīng)用是非常合適的。
對(duì)于密集環(huán)境的人數(shù)統(tǒng)計(jì),例如考勤、人數(shù)評(píng)估等,需要較為精密的統(tǒng)計(jì);ResNet-101層的網(wǎng)絡(luò)層次較深,可以識(shí)別出800~1000人的環(huán)境,對(duì)于一般情況下的密集人數(shù)統(tǒng)計(jì)是沒(méi)有問(wèn)題的,可以直接統(tǒng)計(jì)出人群的密度。在GTX960的顯卡上,用CPU識(shí)別用了10秒,GPU時(shí)間可以大大縮短,達(dá)到了3秒內(nèi),這里因?yàn)榫W(wǎng)絡(luò)層的結(jié)構(gòu)并不能達(dá)到實(shí)時(shí),但是許多應(yīng)用是不需要實(shí)時(shí)的,對(duì)于統(tǒng)計(jì)來(lái)說(shuō),主要是省去了人為計(jì)數(shù)的麻煩。
圖7 密集人頭檢測(cè)
圖7所示的密集人頭識(shí)別,是根據(jù)淺層卷積神經(jīng)網(wǎng)絡(luò)提取人物低層特征,并采用卷積層將已提取的高層特征和低層特征進(jìn)行融合,一般的遮掩和小人臉的檢測(cè)都可以實(shí)現(xiàn),精度可以達(dá)到90%以上,本文根據(jù)適應(yīng)的場(chǎng)景使用不同的算法完成了識(shí)別系統(tǒng)的設(shè)計(jì),其中人數(shù)統(tǒng)計(jì)采用YOLO V2的功能進(jìn)行實(shí)現(xiàn),在人流量相對(duì)少,且要求實(shí)時(shí)性高的環(huán)境之下,可以實(shí)現(xiàn)人物識(shí)別和位置跟蹤,如圖8所示。
圖8 YOLO V2人物檢測(cè)
鑒于在非受限條件下人臉圖像分類準(zhǔn)確度低的問(wèn)題,本文應(yīng)用ResNet-101網(wǎng)絡(luò)和YOLO實(shí)時(shí)性檢測(cè)技術(shù),完成了人臉識(shí)別,該方法的計(jì)算量小,所以易于實(shí)時(shí)處理,此外還提出了利用線性神經(jīng)網(wǎng)絡(luò)恢復(fù)圖像殘差的超分辨算法,檢驗(yàn)了現(xiàn)有算法的效率與精度;現(xiàn)階段對(duì)于高精度、高效率的檢測(cè)需求十分的迫切,在軟件上集合了兩者的功能,可以實(shí)現(xiàn)不同需求的識(shí)別;實(shí)驗(yàn)表明,該方法能夠有效地提高不使用大數(shù)據(jù)集時(shí)非受限條件下人臉圖像分類精度。