摘要:在基于視覺的人群計數(shù)研究中,針對計數(shù)中人群存在遮擋和個體尺寸不確定問題,提出一種多通道特征重構(gòu)密度圖的計數(shù)算法。模型利用膨脹卷積網(wǎng)絡(luò)對圖像進行多尺度特征提取,提高模型的感知區(qū)域,增強模型對尺度敏感性;通過多通道融合淺層特征生成人群密度圖,結(jié)合基于Earth-Mover距離的生成對抗機制提高模型精度。為驗證算法的有效性,分別與主流方法在標準數(shù)據(jù)集ShanghaiTech、UCF-QNRF、UCF-CC-50上進行對比實驗。實驗結(jié)果表明,提出的方法有效地提高了計數(shù)準確度,并對場景具有一定魯棒性。
關(guān)鍵詞:人群計數(shù);膨脹卷積網(wǎng)絡(luò);多通道;密度圖;生成對抗
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)35-0197-04
近幾年人群密度檢測已經(jīng)成為計算機視覺領(lǐng)域的重要研究課題,在視頻監(jiān)控、公共安全以及區(qū)域智能分析中得到廣泛應(yīng)用。該技術(shù)有效解決了大場景中人群計數(shù)問題,在人員無感的前提下,通過視頻信息檢測出當前場景中的人群密度,避免繁雜的卡口檢測設(shè)備,為安保實施提供準確的數(shù)據(jù)依據(jù)。
早期的人群密度檢測基于目標檢測方法實現(xiàn),利用檢測器檢測場景中人群,并進行數(shù)據(jù)的統(tǒng)計。基于檢測器的方法主要訓(xùn)練分類器,利用多級感知特征或是HOG、小波等特征去實現(xiàn)檢測計數(shù)[1,2,3],但在稠密人群圖像中,由于人群中存在遮擋與形變,使得依靠檢測的方法無法準確識別個體,繼而影響計數(shù)的準確性?;诨貧w的密度檢測方法,把人群計數(shù)問題劃歸到密度映射,以二維圖像到人群密度圖為研究對象,構(gòu)建端到端的映射模型。初期的密度映射模型一般依靠提取前景、邊緣、紋理等低級特征,利用貝葉斯一泊松回歸或是線性回歸等方法學(xué)習(xí)特征到密度的映射[4,5,6]。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,通過神經(jīng)網(wǎng)絡(luò)非線性回歸的方式預(yù)估密度圖,解決了傳統(tǒng)回歸方法中提取特征表征性能的不足問題。利用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)的特征提取能力,提取表征性能完備的深層特征,精確預(yù)估圖像中的人群密度。Zhang等人[7]提出多陣列結(jié)構(gòu)的密度特征提取模型,利用多尺度卷積核分別提取圖像特征,實現(xiàn)感受野多尺度變換,降低了尺度空間對特征的影響,并對多陣列特征進行融合映射。Sindagi等人[8]提出了一種全局上下文信息與局部上下文信息結(jié)合的方法,通過全局上下文信息降低多尺度在人群密度變化中的預(yù)估錯誤,局部上下文信息提升密度圖質(zhì)量。Sam等人[9]提出一種圖像區(qū)域篩選的思想,根據(jù)圖像塊中人群密度進行卷積網(wǎng)絡(luò)的選取,針對不同密度選取不同卷積核,實現(xiàn)密度自適應(yīng)匹配。Li等人[10]提出了應(yīng)用膨脹卷積神經(jīng)網(wǎng)絡(luò)(Dilated Convolutional Neural Network)的方法,利用VGG網(wǎng)絡(luò)提取密度圖特征,對特征進行膨脹卷積重構(gòu),降低人群密度離散化影響,保持局部鄰域的連續(xù)性。雖然深度學(xué)習(xí)網(wǎng)絡(luò)在人群計數(shù)中取得了較好的效果,但是在人群環(huán)境復(fù)雜,遮擋嚴重的情況下,往往會出現(xiàn)透視失真,現(xiàn)有網(wǎng)絡(luò)無法很好處理高密度區(qū)域的密度重構(gòu),無法有效提取高密度區(qū)域細節(jié)特征。在復(fù)雜場景中,人群圖像前景與后景個體尺寸差別較大,單一尺寸的卷積核已經(jīng)無法滿足任務(wù)需要。
針對高密度人群細節(jié)丟失與個體目標尺寸變換的問題,本文提出一種多通道特征重構(gòu)密度圖的方法。該方法利用膨脹核對圖像進行多尺度感知,擴大感知區(qū)域,解決個體空間尺度變化問題,對淺層特征進行多通道融合,保留了區(qū)域的細節(jié)特征,減少特征損失。并利用Resnet構(gòu)建殘差判別網(wǎng)絡(luò),在Earth-Mover距離空間對生成密度圖進行判別修正,提高密度回歸網(wǎng)絡(luò)精度。
1 提出算法
本文所提算法主要基于膨脹卷積核實現(xiàn)特征感知,并對多階特征進行跨層融合,在避免網(wǎng)絡(luò)擴張的基礎(chǔ)上提高網(wǎng)絡(luò)的感知范圍與感知精度。
1.1 U-GAnet網(wǎng)絡(luò)結(jié)構(gòu)
提出算法分為兩個網(wǎng)絡(luò):密度回歸網(wǎng)絡(luò)和殘差判別網(wǎng)絡(luò)。密度回歸網(wǎng)絡(luò)用于生成人群密度圖,殘差判別網(wǎng)絡(luò)對生成密度圖進行擬合修正,調(diào)整密度回歸網(wǎng)絡(luò)精度。密度回歸網(wǎng)絡(luò)[11]首先對人群圖像進行特征抽象提取,利用不同系數(shù)的膨脹卷積核進行局部感知。接著對提取的高階特征進行上采樣,并對網(wǎng)絡(luò)中的淺層特征進行融合處理,減少重構(gòu)過程中的特征損失。接著運用Resnet網(wǎng)絡(luò)對生成的密度圖與密度標定圖進行判別[12],判別后的結(jié)果對密度回歸網(wǎng)絡(luò)進行反饋,實現(xiàn)密度回歸網(wǎng)絡(luò)的優(yōu)化調(diào)整。
如圖1為U-GAnet架構(gòu)示意圖,由圖可知,在訓(xùn)練過程中,首先利用密度回歸網(wǎng)絡(luò)實現(xiàn)人群圖像到密度圖的映射,然后使用殘差判別網(wǎng)絡(luò)對生成密度圖與標定密度圖進行判別區(qū)分。
1.2密度回歸網(wǎng)絡(luò)
1.2.1膨脹卷積層
密度回歸網(wǎng)絡(luò)為增強網(wǎng)絡(luò)感知能力,提高網(wǎng)絡(luò)對個體尺寸的魯棒性,采用膨脹卷積作為特征提取和密度重構(gòu)的基本單元,可定義為:膨脹卷積輸出,x(m,n)表示輸入,ω(iJ)表示M×N膨脹卷積核,r為膨脹系數(shù),即r=1時,膨脹卷積為普通卷積層。
膨脹卷積層實現(xiàn)了池化與卷積的結(jié)合,完成了卷積過程稀疏化,在不增加網(wǎng)絡(luò)層參數(shù)數(shù)量的情況下擴大感受野,減少了層間級聯(lián)帶來過擬合現(xiàn)象。對于膨脹卷積層,一個小尺寸k×k卷積核可以在膨脹系數(shù)為r的前提下擴大到k+(k-1)(r-1),因此在回歸任務(wù)中,膨脹卷積可以更靈活的實現(xiàn)多尺度上下文信息的提取。如圖2所示,當膨脹系數(shù)為1時,可實現(xiàn)3×3區(qū)域的感知,膨脹系數(shù)為2和3時,感知區(qū)間分別擴張至5×5和7×7。相對于使用卷積與池化實現(xiàn)的特征映射,膨脹卷積可保留更多的細節(jié)特征[10],減少層間特征提取中的信息損失,保障了密度圖重構(gòu)中的深層信息。
1.2.2密度回歸網(wǎng)絡(luò)
密度回歸網(wǎng)絡(luò)如圖3所示,網(wǎng)絡(luò)由特征提取和密度重構(gòu)兩部分組成。特征提取部分基本單元包含兩層3×3膨脹卷積,實現(xiàn)膨脹系數(shù)為1、2與3局部卷積,每層利用ReLU激活函數(shù)實現(xiàn)局部特征的提取?;締卧€包括一個步長為2的2×2最大池化層,對特征層進行下采樣,實現(xiàn)特征空間稀疏化。在每一步下采樣中,都構(gòu)建特征融合通道,彌補高階特征在重構(gòu)密度圖中的丟失信息。密度重構(gòu)部分基本單元包括一個上采樣層,融合淺層特征實現(xiàn)2×2的上采樣。之后還包括2層3×3卷積層,并通過ReLU激活函數(shù)實現(xiàn)非線性回歸。由于每次卷積都存在邊界像素的丟失,所以在上采樣中需要對特征層中缺失像素進行填補。在密度回歸網(wǎng)絡(luò)最后一層用1×1卷積實現(xiàn)特征向量到密度空間映射。
這種多通道的網(wǎng)絡(luò)結(jié)構(gòu),使得在重構(gòu)密度過程中獲取更多的上下文信息,結(jié)構(gòu)采用上下采樣對稱的方式,便于淺層特征的傳遞,特征提取過程中對特征向量進行可用區(qū)域卷積,減少無關(guān)信息加入。
1.2.3殘差判別網(wǎng)絡(luò)
密度回歸網(wǎng)絡(luò)利用多層感知機生成人群密度圖,將原圖像中高維信息映射到密度空間。但在密度回歸網(wǎng)絡(luò)訓(xùn)練過程中,基于最大似然估計的SGD很難預(yù)估較復(fù)雜概率分布問題,因此設(shè)計殘差判別網(wǎng)絡(luò)提高感知機預(yù)估精度。殘差判別網(wǎng)絡(luò)用于區(qū)分標定密度圖與生成密度圖,與密度回歸網(wǎng)絡(luò)形成動態(tài)對抗機制,實現(xiàn)網(wǎng)絡(luò)自適應(yīng)優(yōu)化。為防止判別網(wǎng)絡(luò)在網(wǎng)絡(luò)層數(shù)增加時梯度消失,使用Resnet[13]作為判別網(wǎng)絡(luò),如圖4所示,構(gòu)成殘差網(wǎng)絡(luò)的基本單元可表示為:
1.2.4目標函數(shù)
為保證密度回歸網(wǎng)絡(luò)和殘差判別網(wǎng)絡(luò)在訓(xùn)練過程中達到動態(tài)平衡,避免因殘差判別網(wǎng)絡(luò)效果太好制約密度回歸網(wǎng)絡(luò)性能提升,減少網(wǎng)絡(luò)間性能失衡,本文使用Earth-Mover距離進行類別分布空間衡量。并且Earth-Mover距離可有效地抑制網(wǎng)絡(luò)訓(xùn)練過程中模態(tài)的消失現(xiàn)象。Earth-Mover距離定義為:
其中π(Pg,Pr)表示Pg與Pr聯(lián)合分布,x與y表示聯(lián)合分布γ中真實樣本和生成樣本。Earth-Mover距離表示聯(lián)合分布中所有分布樣點1范數(shù)期望的下確界,即表示Pg分布空間到達Pr所需的最小代價。
為得到EM(Pr,Pg)最優(yōu)解,通過Kantorovich-Rubinstein du-ality理論使Earth-Mover距離等價于:
其中‖f‖L≤1表示符合1-Lipschitz限制函數(shù),即滿足f(x1)-f(x2)|≤|x1-x2。Earth-Mover距離等價于Pg與Pr中所有樣本經(jīng)廠(*)變換后期望差的上確界。由此定義網(wǎng)絡(luò)目標函數(shù)為:
其中x與z分別表示人群圖像與標定密度圖,Gωg(*)與Dωd(*)分別表示密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò),ωg與ωd表示密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò)的權(quán)重系數(shù)。
2 實驗結(jié)果與分析
本實驗所用PC采用i5-6400處理器,主頻2.7GHz,TeslaP4 GPU,64位Ubuntu操作系統(tǒng),模型運行在Pytorch 1.20。U-GAnet在ShanghaiTech_part數(shù)據(jù)庫中進行訓(xùn)練,并在Shanghai-Tech_part、UCF_CC_50與UCF-QNRF數(shù)據(jù)集中進行分析比對。
ShanghaiTech數(shù)據(jù)集中包含1198幅標定圖像,共含有330165個人,分為A、B兩部分。ShanghaiTech_part_A中包含482幅高密度圖像,分辨率為589*868,其中300幅用于訓(xùn)練,182幅用于測試。ShanghaiTech_part_B中包含716幅低密度圖像,分辨率為768*1024,其中400幅用于訓(xùn)練,316幅用于測試。
UCF-QNRF數(shù)據(jù)集中包含1535張密集人群圖像,分辨率為2013*2902。數(shù)據(jù)集中出現(xiàn)會場、街道、教堂等多種場景,從不同視角進行采集,并存在不同強度光線。
UCF CC 50數(shù)據(jù)集中包含50幅密集場景下的灰度圖,分辨率為201O*2888,每幅圖像人數(shù)從94到4543不等。
為驗證所提算法的有效性,對生成結(jié)果與現(xiàn)存算法進行客觀比較,用均值絕對誤差(MAE)與均方誤差(MSE)進行網(wǎng)絡(luò)性能的量化比較。MAE反應(yīng)算法映射密度圖的精度,MSE反應(yīng)算法魯棒性。MAE與MSE定義為:
其中N表示測試數(shù)據(jù)集圖像數(shù)量,Ci與CiGT分別表示預(yù)估密度圖與標定密度圖。
2.1數(shù)據(jù)集預(yù)處理
數(shù)據(jù)集GCC、ShanghaiTech、UCF_CC_50與UCF-QNRF中對人群圖像中人群進行標定,對人群個體頭部中心點標定為1。為實現(xiàn)網(wǎng)絡(luò)回歸擬合,需要根據(jù)標定點生成密度圖,利用高斯核對標定區(qū)域進行高斯模糊處理,生成對應(yīng)密度圖[14]。高斯模糊處理可表示為:
其中x表示標定點臨近像素,N表示標定頭部個數(shù)。對于每個個體xi,用di表示k個臨近像素平均距離,Gσi(*)表示參數(shù)為σi的高斯核,σi=βdi,在文中設(shè)定β=0.3,k=3。
2.2膨脹卷積層性能的影響
為進一步說明膨脹卷積在處理密度映射中的有效性,在ShanghaiTech_part_A數(shù)據(jù)集中對不同膨脹系數(shù)時算法性能進行比對實驗。如表2所示,分別選定膨脹系數(shù)d=1,卷積核3*3時,即為普通卷積網(wǎng)絡(luò),得到MAE=127.4與MSE=198.1。當d=(1,2,3)時,對人群區(qū)間實現(xiàn)多尺度感知,得到MAE=87.3與MSE=125.6。由此可知,膨脹卷積層對人群密度具有更好的感知性,對感知區(qū)間的尺寸具有更好的魯棒性,提高網(wǎng)絡(luò)對個體尺寸的敏感度,提高映射精度。
2.3密度預(yù)估結(jié)果比較
為了驗證本文所提U-GAnet在人群密度回歸中的有效性,分別在ShanghaiTech_part_A+B、UCF_CC_50與UCF-QNRF四個數(shù)據(jù)庫中進行測試實驗,并與MCNN[7]與SwitchCNN[9]算法進行比較。如表1所示,通過實驗可知,本文算法在稠密人群與稀疏人群中都具有較好的效果,并且相對MCNN與SwitchCNN具有明顯的性能提升。通過UCF-QNRF中實驗,可以看出本文算法在多種場景下具有較好的實驗效果,并對光線的強度具有一定的魯棒性,有效抑制光強對模型的影響。圖5所示為U-GAnet下生成的人群密度圖,由圖可以清晰看出人群稠密區(qū)與于稀疏區(qū)域。
3 結(jié)論
本文提出的U-GAnet人群密度檢測模型,在多尺度密度回歸的基礎(chǔ)上,利用膨脹卷積完成區(qū)域多尺度感知,并實現(xiàn)提取特征稀疏處理,通過多通道特征融合方式,減少密度圖構(gòu)建中特征缺失。通過密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò)的對抗機制保障了模型的最優(yōu)解。實驗結(jié)果表明,提出算法在客觀指標具有明顯優(yōu)勢,優(yōu)于現(xiàn)存算法,但是仍存在問題:稠密區(qū)域感知能力有限,不能對稠密區(qū)域個體進行很好的感知區(qū)分。因此這將是需要進一步研究的關(guān)鍵問題。
參考文獻:
[1]M. Rodriguez,I.Laptev,J.Sivic, et al.Density-aware persondetection and tracking in crowds. In 2011 International Confer-ence on Computer Vision,IEEE,2011:2423-2430.
[2]M.Wang and X.Wang. Automatic adaptation of a generlc pe-destrian detector to a specific traffic scene. In 2011 lEEE Con-ference on Computer Vision and Pattern Recognition,IEEE,2011:3401-3408.
[3]B.Wu and R.Nevatia. Detection of multiple, partialIy occlud-ed humans in a single image by bayesian combination of edge-let part detectors. In 2005 Intemational Conference on Com-puter Vision,IEEE,2005:90-97.
[4]D. Ryan,S.Denman,C.Fookes, and S.Sridharan. Crowdcounting using multiple local features. In 2009 Digital ImageComputing: Techniques and Applications, pages 81-88. IEEE,2009.
[5]A.B.Chan, Z.-S.J.Liang,N.Vasconcelos. Privacy preserv-ing crowd monitoring: Counting people without people modelsor tracking. In 2008 IEEE Conference on Computer Visionand Pattern Recognition, pages 1-7. IEEE, 2008.
[6]A. B. Chan and N. Vasconcelos. Bayesian poisson regressionfor crowd counting. In 2009 IEEE 12th international confer-ence on computer vision, pages 545-551. IEEE. 2009.
[7]Y. Zhang, D. Zhou, S. Chen, et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition,2016:589-597.
[8]V. A. Sindagi and V. M. Patel. Generating high-quality crowddensity maps using contextual pyramid cnns. In Proceedingsof the IEEE Intemational Conference on Computer Vision,2017:1861-1870.
[9]D. B. Sam, S. Surya, R. V. Babu. Switching convolutional neu-ral network for crowd counting. In 2017 IEEE Conference onComputer Vision and Pattem Recognition(CVPR). IEEE. 2017:4031-4039.
[10]Y. Li, X. Zhang, D. Chen. Csrnet: Dilated convolutional neu-ral networks for understanding the highly congested scenes. InProceedings of the IEEE conference oncomputer vision andpattern recognition,2018:1091-1100.
[11]Olaf Ronneberger, Philipp Fischer, Thomas Brox. U-Net:Convolutional Networks for Biomedical Image Segmentation.Medical Image Computing and Computer-Assisted Interven-tion(MICCAI), Springer, LNCS, 2015(9351):234-241.
[12]Arjovsky M , Chintala S . Bottou. Leon. Wasserstein GAN[J].arXiv:1701.07875v3.2017.
[13]He K, Zhang X , Ren S , et al. Deep Residual Learning forImage Recognition[J]. 2015.
[14]Y. Zhang, D. Zhou, S. Chen, et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition,2016:589-597.
收稿日期:2019-08-20
作者簡介:趙新宇(1990-),男,碩士,主要研究方向為機器視覺、目標識別。