U-GAnet多通道特征重構(gòu)人群密度檢測模型

2019-03-07 05:22趙新宇

電腦知識與技術(shù) 2019年35期

摘要：在基于視覺的人群計數(shù)研究中，針對計數(shù)中人群存在遮擋和個體尺寸不確定問題，提出一種多通道特征重構(gòu)密度圖的計數(shù)算法。模型利用膨脹卷積網(wǎng)絡(luò)對圖像進行多尺度特征提取，提高模型的感知區(qū)域，增強模型對尺度敏感性;通過多通道融合淺層特征生成人群密度圖，結(jié)合基于Earth-Mover距離的生成對抗機制提高模型精度。為驗證算法的有效性，分別與主流方法在標準數(shù)據(jù)集ShanghaiTech、UCF-QNRF、UCF-CC-50上進行對比實驗。實驗結(jié)果表明，提出的方法有效地提高了計數(shù)準確度，并對場景具有一定魯棒性。

關(guān)鍵詞：人群計數(shù);膨脹卷積網(wǎng)絡(luò);多通道;密度圖;生成對抗

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2019）35-0197-04

近幾年人群密度檢測已經(jīng)成為計算機視覺領(lǐng)域的重要研究課題，在視頻監(jiān)控、公共安全以及區(qū)域智能分析中得到廣泛應(yīng)用。該技術(shù)有效解決了大場景中人群計數(shù)問題，在人員無感的前提下，通過視頻信息檢測出當前場景中的人群密度，避免繁雜的卡口檢測設(shè)備，為安保實施提供準確的數(shù)據(jù)依據(jù)。

早期的人群密度檢測基于目標檢測方法實現(xiàn)，利用檢測器檢測場景中人群，并進行數(shù)據(jù)的統(tǒng)計。基于檢測器的方法主要訓(xùn)練分類器，利用多級感知特征或是HOG、小波等特征去實現(xiàn)檢測計數(shù)[1，2，3]，但在稠密人群圖像中，由于人群中存在遮擋與形變，使得依靠檢測的方法無法準確識別個體，繼而影響計數(shù)的準確性?；诨貧w的密度檢測方法，把人群計數(shù)問題劃歸到密度映射，以二維圖像到人群密度圖為研究對象，構(gòu)建端到端的映射模型。初期的密度映射模型一般依靠提取前景、邊緣、紋理等低級特征，利用貝葉斯一泊松回歸或是線性回歸等方法學(xué)習(xí)特征到密度的映射[4，5，6]。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，通過神經(jīng)網(wǎng)絡(luò)非線性回歸的方式預(yù)估密度圖，解決了傳統(tǒng)回歸方法中提取特征表征性能的不足問題。利用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)的特征提取能力，提取表征性能完備的深層特征，精確預(yù)估圖像中的人群密度。Zhang等人[7]提出多陣列結(jié)構(gòu)的密度特征提取模型，利用多尺度卷積核分別提取圖像特征，實現(xiàn)感受野多尺度變換，降低了尺度空間對特征的影響，并對多陣列特征進行融合映射。Sindagi等人[8]提出了一種全局上下文信息與局部上下文信息結(jié)合的方法，通過全局上下文信息降低多尺度在人群密度變化中的預(yù)估錯誤，局部上下文信息提升密度圖質(zhì)量。Sam等人[9]提出一種圖像區(qū)域篩選的思想，根據(jù)圖像塊中人群密度進行卷積網(wǎng)絡(luò)的選取，針對不同密度選取不同卷積核，實現(xiàn)密度自適應(yīng)匹配。Li等人[10]提出了應(yīng)用膨脹卷積神經(jīng)網(wǎng)絡(luò)（Dilated Convolutional Neural Network）的方法，利用VGG網(wǎng)絡(luò)提取密度圖特征，對特征進行膨脹卷積重構(gòu)，降低人群密度離散化影響，保持局部鄰域的連續(xù)性。雖然深度學(xué)習(xí)網(wǎng)絡(luò)在人群計數(shù)中取得了較好的效果，但是在人群環(huán)境復(fù)雜，遮擋嚴重的情況下，往往會出現(xiàn)透視失真，現(xiàn)有網(wǎng)絡(luò)無法很好處理高密度區(qū)域的密度重構(gòu)，無法有效提取高密度區(qū)域細節(jié)特征。在復(fù)雜場景中，人群圖像前景與后景個體尺寸差別較大，單一尺寸的卷積核已經(jīng)無法滿足任務(wù)需要。

針對高密度人群細節(jié)丟失與個體目標尺寸變換的問題，本文提出一種多通道特征重構(gòu)密度圖的方法。該方法利用膨脹核對圖像進行多尺度感知，擴大感知區(qū)域，解決個體空間尺度變化問題，對淺層特征進行多通道融合，保留了區(qū)域的細節(jié)特征，減少特征損失。并利用Resnet構(gòu)建殘差判別網(wǎng)絡(luò)，在Earth-Mover距離空間對生成密度圖進行判別修正，提高密度回歸網(wǎng)絡(luò)精度。

1 提出算法

本文所提算法主要基于膨脹卷積核實現(xiàn)特征感知，并對多階特征進行跨層融合，在避免網(wǎng)絡(luò)擴張的基礎(chǔ)上提高網(wǎng)絡(luò)的感知范圍與感知精度。

1.1 U-GAnet網(wǎng)絡(luò)結(jié)構(gòu)

提出算法分為兩個網(wǎng)絡(luò)：密度回歸網(wǎng)絡(luò)和殘差判別網(wǎng)絡(luò)。密度回歸網(wǎng)絡(luò)用于生成人群密度圖，殘差判別網(wǎng)絡(luò)對生成密度圖進行擬合修正，調(diào)整密度回歸網(wǎng)絡(luò)精度。密度回歸網(wǎng)絡(luò)[11]首先對人群圖像進行特征抽象提取，利用不同系數(shù)的膨脹卷積核進行局部感知。接著對提取的高階特征進行上采樣，并對網(wǎng)絡(luò)中的淺層特征進行融合處理，減少重構(gòu)過程中的特征損失。接著運用Resnet網(wǎng)絡(luò)對生成的密度圖與密度標定圖進行判別[12]，判別后的結(jié)果對密度回歸網(wǎng)絡(luò)進行反饋，實現(xiàn)密度回歸網(wǎng)絡(luò)的優(yōu)化調(diào)整。

如圖1為U-GAnet架構(gòu)示意圖，由圖可知，在訓(xùn)練過程中，首先利用密度回歸網(wǎng)絡(luò)實現(xiàn)人群圖像到密度圖的映射，然后使用殘差判別網(wǎng)絡(luò)對生成密度圖與標定密度圖進行判別區(qū)分。

1.2密度回歸網(wǎng)絡(luò)

1.2.1膨脹卷積層

密度回歸網(wǎng)絡(luò)為增強網(wǎng)絡(luò)感知能力，提高網(wǎng)絡(luò)對個體尺寸的魯棒性，采用膨脹卷積作為特征提取和密度重構(gòu)的基本單元，可定義為：膨脹卷積輸出，x（m，n）表示輸入，ω（iJ）表示M×N膨脹卷積核，r為膨脹系數(shù)，即r=1時，膨脹卷積為普通卷積層。

膨脹卷積層實現(xiàn)了池化與卷積的結(jié)合，完成了卷積過程稀疏化，在不增加網(wǎng)絡(luò)層參數(shù)數(shù)量的情況下擴大感受野，減少了層間級聯(lián)帶來過擬合現(xiàn)象。對于膨脹卷積層，一個小尺寸k×k卷積核可以在膨脹系數(shù)為r的前提下擴大到k+（k-1）（r-1），因此在回歸任務(wù)中，膨脹卷積可以更靈活的實現(xiàn)多尺度上下文信息的提取。如圖2所示，當膨脹系數(shù)為1時，可實現(xiàn)3×3區(qū)域的感知，膨脹系數(shù)為2和3時，感知區(qū)間分別擴張至5×5和7×7。相對于使用卷積與池化實現(xiàn)的特征映射，膨脹卷積可保留更多的細節(jié)特征[10]，減少層間特征提取中的信息損失，保障了密度圖重構(gòu)中的深層信息。

1.2.2密度回歸網(wǎng)絡(luò)

密度回歸網(wǎng)絡(luò)如圖3所示，網(wǎng)絡(luò)由特征提取和密度重構(gòu)兩部分組成。特征提取部分基本單元包含兩層3×3膨脹卷積，實現(xiàn)膨脹系數(shù)為1、2與3局部卷積，每層利用ReLU激活函數(shù)實現(xiàn)局部特征的提取?；締卧€包括一個步長為2的2×2最大池化層，對特征層進行下采樣，實現(xiàn)特征空間稀疏化。在每一步下采樣中，都構(gòu)建特征融合通道，彌補高階特征在重構(gòu)密度圖中的丟失信息。密度重構(gòu)部分基本單元包括一個上采樣層，融合淺層特征實現(xiàn)2×2的上采樣。之后還包括2層3×3卷積層，并通過ReLU激活函數(shù)實現(xiàn)非線性回歸。由于每次卷積都存在邊界像素的丟失，所以在上采樣中需要對特征層中缺失像素進行填補。在密度回歸網(wǎng)絡(luò)最后一層用1×1卷積實現(xiàn)特征向量到密度空間映射。

這種多通道的網(wǎng)絡(luò)結(jié)構(gòu)，使得在重構(gòu)密度過程中獲取更多的上下文信息，結(jié)構(gòu)采用上下采樣對稱的方式，便于淺層特征的傳遞，特征提取過程中對特征向量進行可用區(qū)域卷積，減少無關(guān)信息加入。

1.2.3殘差判別網(wǎng)絡(luò)

密度回歸網(wǎng)絡(luò)利用多層感知機生成人群密度圖，將原圖像中高維信息映射到密度空間。但在密度回歸網(wǎng)絡(luò)訓(xùn)練過程中，基于最大似然估計的SGD很難預(yù)估較復(fù)雜概率分布問題，因此設(shè)計殘差判別網(wǎng)絡(luò)提高感知機預(yù)估精度。殘差判別網(wǎng)絡(luò)用于區(qū)分標定密度圖與生成密度圖，與密度回歸網(wǎng)絡(luò)形成動態(tài)對抗機制，實現(xiàn)網(wǎng)絡(luò)自適應(yīng)優(yōu)化。為防止判別網(wǎng)絡(luò)在網(wǎng)絡(luò)層數(shù)增加時梯度消失，使用Resnet[13]作為判別網(wǎng)絡(luò)，如圖4所示，構(gòu)成殘差網(wǎng)絡(luò)的基本單元可表示為：

1.2.4目標函數(shù)

為保證密度回歸網(wǎng)絡(luò)和殘差判別網(wǎng)絡(luò)在訓(xùn)練過程中達到動態(tài)平衡，避免因殘差判別網(wǎng)絡(luò)效果太好制約密度回歸網(wǎng)絡(luò)性能提升，減少網(wǎng)絡(luò)間性能失衡，本文使用Earth-Mover距離進行類別分布空間衡量。并且Earth-Mover距離可有效地抑制網(wǎng)絡(luò)訓(xùn)練過程中模態(tài)的消失現(xiàn)象。Earth-Mover距離定義為：

其中π（Pg，Pr）表示Pg與Pr聯(lián)合分布，x與y表示聯(lián)合分布γ中真實樣本和生成樣本。Earth-Mover距離表示聯(lián)合分布中所有分布樣點1范數(shù)期望的下確界，即表示Pg分布空間到達Pr所需的最小代價。

為得到EM（Pr，Pg）最優(yōu)解，通過Kantorovich-Rubinstein du-ality理論使Earth-Mover距離等價于：

其中‖f‖L≤1表示符合1-Lipschitz限制函數(shù)，即滿足f（x1）-f（x2）|≤|x1-x2。Earth-Mover距離等價于Pg與Pr中所有樣本經(jīng)廠（*）變換后期望差的上確界。由此定義網(wǎng)絡(luò)目標函數(shù)為：

其中x與z分別表示人群圖像與標定密度圖，Gωg（*）與Dωd（*）分別表示密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò)，ωg與ωd表示密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò)的權(quán)重系數(shù)。

2 實驗結(jié)果與分析

本實驗所用PC采用i5-6400處理器，主頻2.7GHz，TeslaP4 GPU，64位Ubuntu操作系統(tǒng)，模型運行在Pytorch 1.20。U-GAnet在ShanghaiTech_part數(shù)據(jù)庫中進行訓(xùn)練，并在Shanghai-Tech_part、UCF_CC_50與UCF-QNRF數(shù)據(jù)集中進行分析比對。

ShanghaiTech數(shù)據(jù)集中包含1198幅標定圖像，共含有330165個人，分為A、B兩部分。ShanghaiTech_part_A中包含482幅高密度圖像，分辨率為589*868，其中300幅用于訓(xùn)練，182幅用于測試。ShanghaiTech_part_B中包含716幅低密度圖像，分辨率為768*1024，其中400幅用于訓(xùn)練，316幅用于測試。

UCF-QNRF數(shù)據(jù)集中包含1535張密集人群圖像，分辨率為2013*2902。數(shù)據(jù)集中出現(xiàn)會場、街道、教堂等多種場景，從不同視角進行采集，并存在不同強度光線。

UCF CC 50數(shù)據(jù)集中包含50幅密集場景下的灰度圖，分辨率為201O*2888，每幅圖像人數(shù)從94到4543不等。

為驗證所提算法的有效性，對生成結(jié)果與現(xiàn)存算法進行客觀比較，用均值絕對誤差（MAE）與均方誤差（MSE）進行網(wǎng)絡(luò)性能的量化比較。MAE反應(yīng)算法映射密度圖的精度，MSE反應(yīng)算法魯棒性。MAE與MSE定義為：

其中N表示測試數(shù)據(jù)集圖像數(shù)量，Ci與CiGT分別表示預(yù)估密度圖與標定密度圖。

2.1數(shù)據(jù)集預(yù)處理

數(shù)據(jù)集GCC、ShanghaiTech、UCF_CC_50與UCF-QNRF中對人群圖像中人群進行標定，對人群個體頭部中心點標定為1。為實現(xiàn)網(wǎng)絡(luò)回歸擬合，需要根據(jù)標定點生成密度圖，利用高斯核對標定區(qū)域進行高斯模糊處理，生成對應(yīng)密度圖[14]。高斯模糊處理可表示為：

其中x表示標定點臨近像素，N表示標定頭部個數(shù)。對于每個個體xi，用di表示k個臨近像素平均距離，Gσi（*）表示參數(shù)為σi的高斯核，σi=βdi，在文中設(shè)定β=0.3，k=3。

2.2膨脹卷積層性能的影響

為進一步說明膨脹卷積在處理密度映射中的有效性，在ShanghaiTech_part_A數(shù)據(jù)集中對不同膨脹系數(shù)時算法性能進行比對實驗。如表2所示，分別選定膨脹系數(shù)d=1，卷積核3*3時，即為普通卷積網(wǎng)絡(luò)，得到MAE=127.4與MSE=198.1。當d=（1，2，3）時，對人群區(qū)間實現(xiàn)多尺度感知，得到MAE=87.3與MSE=125.6。由此可知，膨脹卷積層對人群密度具有更好的感知性，對感知區(qū)間的尺寸具有更好的魯棒性，提高網(wǎng)絡(luò)對個體尺寸的敏感度，提高映射精度。

2.3密度預(yù)估結(jié)果比較

為了驗證本文所提U-GAnet在人群密度回歸中的有效性，分別在ShanghaiTech_part_A+B、UCF_CC_50與UCF-QNRF四個數(shù)據(jù)庫中進行測試實驗，并與MCNN[7]與SwitchCNN[9]算法進行比較。如表1所示，通過實驗可知，本文算法在稠密人群與稀疏人群中都具有較好的效果，并且相對MCNN與SwitchCNN具有明顯的性能提升。通過UCF-QNRF中實驗，可以看出本文算法在多種場景下具有較好的實驗效果，并對光線的強度具有一定的魯棒性，有效抑制光強對模型的影響。圖5所示為U-GAnet下生成的人群密度圖，由圖可以清晰看出人群稠密區(qū)與于稀疏區(qū)域。

3 結(jié)論

本文提出的U-GAnet人群密度檢測模型，在多尺度密度回歸的基礎(chǔ)上，利用膨脹卷積完成區(qū)域多尺度感知，并實現(xiàn)提取特征稀疏處理，通過多通道特征融合方式，減少密度圖構(gòu)建中特征缺失。通過密度回歸網(wǎng)絡(luò)與殘差判別網(wǎng)絡(luò)的對抗機制保障了模型的最優(yōu)解。實驗結(jié)果表明，提出算法在客觀指標具有明顯優(yōu)勢，優(yōu)于現(xiàn)存算法，但是仍存在問題：稠密區(qū)域感知能力有限，不能對稠密區(qū)域個體進行很好的感知區(qū)分。因此這將是需要進一步研究的關(guān)鍵問題。

參考文獻：

[1]M. Rodriguez，I.Laptev，J.Sivic， et al.Density-aware persondetection and tracking in crowds. In 2011 International Confer-ence on Computer Vision，IEEE，2011：2423-2430.

[2]M.Wang and X.Wang. Automatic adaptation of a generlc pe-destrian detector to a specific traffic scene. In 2011 lEEE Con-ference on Computer Vision and Pattern Recognition，IEEE，2011：3401-3408.

[3]B.Wu and R.Nevatia. Detection of multiple， partialIy occlud-ed humans in a single image by bayesian combination of edge-let part detectors. In 2005 Intemational Conference on Com-puter Vision，IEEE，2005：90-97.

[4]D. Ryan，S.Denman，C.Fookes， and S.Sridharan. Crowdcounting using multiple local features. In 2009 Digital ImageComputing： Techniques and Applications， pages 81-88. IEEE，2009.

[5]A.B.Chan， Z.-S.J.Liang，N.Vasconcelos. Privacy preserv-ing crowd monitoring： Counting people without people modelsor tracking. In 2008 IEEE Conference on Computer Visionand Pattern Recognition， pages 1-7. IEEE， 2008.

[6]A. B. Chan and N. Vasconcelos. Bayesian poisson regressionfor crowd counting. In 2009 IEEE 12th international confer-ence on computer vision， pages 545-551. IEEE. 2009.

[7]Y. Zhang， D. Zhou， S. Chen， et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition，2016：589-597.

[8]V. A. Sindagi and V. M. Patel. Generating high-quality crowddensity maps using contextual pyramid cnns. In Proceedingsof the IEEE Intemational Conference on Computer Vision，2017：1861-1870.

[9]D. B. Sam， S. Surya， R. V. Babu. Switching convolutional neu-ral network for crowd counting. In 2017 IEEE Conference onComputer Vision and Pattem Recognition（CVPR）. IEEE. 2017：4031-4039.

[10]Y. Li， X. Zhang， D. Chen. Csrnet： Dilated convolutional neu-ral networks for understanding the highly congested scenes. InProceedings of the IEEE conference oncomputer vision andpattern recognition，2018：1091-1100.

[11]Olaf Ronneberger， Philipp Fischer， Thomas Brox. U-Net：Convolutional Networks for Biomedical Image Segmentation.Medical Image Computing and Computer-Assisted Interven-tion（MICCAI）， Springer， LNCS， 2015（9351）：234-241.

[12]Arjovsky M ， Chintala S . Bottou. Leon. Wasserstein GAN[J].arXiv：1701.07875v3.2017.

[13]He K， Zhang X ， Ren S ， et al. Deep Residual Learning forImage Recognition[J]. 2015.

[14]Y. Zhang， D. Zhou， S. Chen， et al. Singleimage crowd count-ing via multi-column convolutional neural network. In Pro-ceedings of the IEEE conference on computer vision and pat-tem recognition，2016：589-597.

收稿日期：2019-08-20

作者簡介：趙新宇（1990-），男，碩士，主要研究方向為機器視覺、目標識別。

電腦知識與技術(shù)2019年35期

電腦知識與技術(shù)的其它文章: 數(shù)據(jù)挖掘在零售電商交易風險預(yù)測中的應(yīng)用; 下蜀農(nóng)業(yè)信息網(wǎng)的研究與設(shè)計; 關(guān)于大數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法技術(shù)的研究; 數(shù)據(jù)挖掘在醫(yī)療系統(tǒng)中的應(yīng)用; 大數(shù)據(jù)時代的計算機網(wǎng)絡(luò)安全及防范措施; 醫(yī)院信息化建設(shè)中計算機網(wǎng)絡(luò)安全管理與維護

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

U-GAnet多通道特征重構(gòu)人群密度檢測模型