王勇杰 王少坤 朱姜華 張曉宇
摘要:針對人群計數(shù)問題,提出了一種基于卷積神經(jīng)網(wǎng)絡的人群計數(shù)網(wǎng)絡,該網(wǎng)絡由主干網(wǎng)和多級監(jiān)督分支結構組成,在主干網(wǎng)絡的多個階段引入注意力機制學習不同尺度的人群特征。算法采用VGG16模型的前13層作為主干網(wǎng),并且加入膨脹卷積網(wǎng)絡結構,融合圖像中的多尺度人群特征,解決多尺度人群計數(shù)問題,從而生成高質量的密度圖。同時,在3個不同尺度的分支結構中引入注意力機制,在損失函數(shù)中加入不同尺度的注意力損失,從而使整個網(wǎng)絡聚焦圖像中的人群區(qū)域。算法在4個主要的數(shù)據(jù)集上進行了測試,算法結果優(yōu)于最近其他的方法。
關鍵詞:人群計數(shù);卷積神經(jīng)網(wǎng)絡;注意力機制;多級監(jiān)督
中圖分類號:TP391.4文獻標志碼:A文章編號:1008-1739(2023)06-67-6
人群計數(shù)技術可以獲得圖像或視頻中的人群準確數(shù)量,可以用于安全監(jiān)控和行為建模。在廣場、景區(qū)等公共場所,人群計數(shù)的結果對一系列社會治安問題的預警具有重要作用[1-2]。因此,人群計數(shù)問題已經(jīng)成為視頻行人檢測和分析的重要組成部分。根據(jù)分析結果,不僅可以知道圖像中的總人數(shù),還可以知道圖像中人群的分布情況,從而可以有效防止一些潛在危險事件的發(fā)生。
較早的人群計數(shù)方法一般采用基于檢測的方式,利用行人檢測窗口[3]對圖片中的行人進行檢測,從而獲得行人總數(shù)。過程中,為了解決圖像中存在的遮擋問題,進一步提出了基于回歸的方法[4]。這種方法的主要思想是學習行人特征與行人總數(shù)之間的映射關系。隨著深度學習技術的快速發(fā)展,基于人群密度估計的方法被廣泛應用于人群計數(shù)任務中。
本文也采用基于密度估計的方法,在算法模型中引入多尺度行人特征和注意力機制,有效提升了人群檢測準確率。
采用人群密度估計的方式能夠很好地處理圖像中的遮擋和行人頭部尺度變化等問題。由于卷積神經(jīng)網(wǎng)絡強大的特征學習能力,同樣被研究人員用在人群密度估計的研究任務當中,并且取得了很大的進步。人群密度估計方法如圖1所示。
由于圖像中不同位置的人表現(xiàn)出不同的大小和尺寸,為了解決行人的尺度變化問題,許多研究人員已經(jīng)做了大量的人群計數(shù)研究工作,這些方法包括多分支結構[5]、顯式網(wǎng)絡集合[6]、多尺度卷積網(wǎng)絡[7]、注意機制[8]或特殊結構[9]等,這些方法都取得了顯著的效果。然而,這些方法的實現(xiàn)通常需要復雜的結構和復雜的訓練過程。
本文提出了一種由主干網(wǎng)和多分支結構組成的人群密度估計網(wǎng)絡,并引入注意力機制。網(wǎng)絡主干使用VGG16模型的前3個最大池化層。每個池化層之前增加多分支結構,利用膨脹卷積提取不同感受野的特征。同時在訓練過程中,還將多分辨率注意力圖產(chǎn)生的多尺度損失加入到損失函數(shù)中。
本文算法的核心是在模型訓練過程中引入更多的監(jiān)督,使整個網(wǎng)絡聚焦于圖像中的人群區(qū)域,從而降低圖像中的背景噪聲影響,網(wǎng)絡模型利用膨脹卷積和注意力機制來生成多尺度的注意力圖。最后,網(wǎng)絡模型將主干網(wǎng)絡不同階段的多尺度特征融合在一起,生成最終的密度圖,回歸總人群數(shù)。
2.1網(wǎng)絡結構
網(wǎng)絡模型結構如圖2所示。
圖2中的卷積層用通道數(shù)/內(nèi)核大小×內(nèi)核大小/膨脹率表示,C表示級聯(lián)操作,U表示上采樣操作。網(wǎng)絡模型結構采用VGG16模型的一部分作為主干網(wǎng)絡,即采用只有3×3卷積核的單主干網(wǎng)絡用作特征提取器。由于主干網(wǎng)絡中的卷積核尺寸較小,因此整個網(wǎng)絡模型計算量較小,收斂速度較快。網(wǎng)絡模型的融合特征分別來自主干網(wǎng)絡的4個卷積層:Conv1-2、Conv2-2、Conv3-3和Conv4-3。主干網(wǎng)絡VGG16模型有5個最大池化層,最大池化層可以通過降低圖像分辨率來減少計算量。但是為了避免特征圖太小,網(wǎng)絡模型只保留前3個最大池層。網(wǎng)絡模型為了得到充足的圖像特征,網(wǎng)絡將低層到高層的圖像特征進行融合,得到最終的密度圖。網(wǎng)絡模型使用了來自ImageNet的預先訓練過的VGG16模型參數(shù),并根據(jù)人群圖像進行了微調。由于預訓練模型在許多具有挑戰(zhàn)性的數(shù)據(jù)集上表現(xiàn)出良好的性能,因此選擇了這種策略,并通過實驗結果驗證了模型的訓練效果。
網(wǎng)絡模型的多分支結構用來生成多尺度的注意力圖,每個分支中采用膨脹卷積擴大卷積感受野,從而提取不同尺度的圖像特征。膨脹卷積可以獲得比正常卷積更大的感受野,并利用正常卷積進一步得到特征圖。多分支結構利用多尺度信息從局部到全局降低圖像的背景噪聲。多分支結構的輸出是注意力圖。在訓練過程中,采用不同分辨率的注意力圖(原始輸入圖像分辨率的1/4、1/16、1/64)對網(wǎng)絡進行多尺度監(jiān)督。
多分支結構的末尾通過Sigmoid激活函數(shù)將融合后的特征圖生成注意力圖。Sigmoid激活函數(shù)可以從特征圖中給出0或1的值,從而將圖像背景區(qū)域和人群頭部區(qū)域用注意力圖區(qū)分。因此,多分支結構中的注意力圖給出了融合特征圖中的頭部概率區(qū)域。在融合特征圖中,頭部的可能性區(qū)域設置為1,背景的可能性區(qū)域設置為0。在整個網(wǎng)絡模型訓練過程中,注意力圖用于調整網(wǎng)絡模型的焦點。
與以前的方法不同,很多模型算法中有太多的池化層,導致最終生成的密度圖分辨率太小。過多的池化層雖然可以加速模型的計算過程和防止過擬合,還能使模型提取更高層的特征信息,但在降低分辨率的過程中會丟失一些空間信息。因此模型使用上采樣操作將密度圖的大小恢復到原始輸入的大小,從而增加更多的圖像細節(jié)信息。此外,在每一次級聯(lián)操作之前,采用膨脹卷積從局部到全局得到圖像中的前景(人群區(qū)域),然后利用前景和真值密度圖計算注意力損失。由于從高層次提取的特征比從低層次提取的特征更具鑒別能力,因此模型對由高層次特征生成的密度圖賦予了更高的權重。
因此,該模型的整個流程是:將輸入圖像輸入到模型中,通過主干網(wǎng)絡進行特征提取獲得特征圖。將獲取的特征圖通過多分支結構得到級聯(lián)的特征圖,同時利用注意力機制生成多尺度的注意力圖,在網(wǎng)絡模型的多個階段進行監(jiān)督。由于批訓練和批歸一化可以穩(wěn)定訓練過程,加速模型損失收斂,所以在每個卷積層之后都應用了批歸一化。除了最后一層,模型在每個卷積層之后添加ReLU激活操作。
2.2密度圖
2.5參數(shù)訓練
在訓練過程中,為了避免數(shù)據(jù)冗余,只從輸入圖像的任意位置隨機裁剪固定大小。根據(jù)不同的數(shù)據(jù)集,裁剪的尺寸大小是不同的。裁剪后的圖像以概率0.5隨機水平翻轉,并用概率為0.3的參數(shù)0.5~1.5進行伽瑪對比度變換,達到數(shù)據(jù)增強的目的。由于UCF-QRNF數(shù)據(jù)集中的圖像分辨率很高,將這些數(shù)據(jù)集中的所有圖像調整為1 024 pixel×768 pixel。如上所述,真值注意力圖的分辨率大小調整為原始圖像的1/4、1/16、1/64。
對于網(wǎng)絡模型的主干網(wǎng)絡,使用來自ImageNet的預先訓練的模型來初始化。模型的其他卷積層用高斯函數(shù)初始化,標準差為0.01。算法模型使用具有固定學習率1×10-4的Adam來優(yōu)化網(wǎng)絡。批量大小設置為4,采用英偉達RTX 2080TI的GPU來加速計算過程。算法模型采用的軟件框架是Pytorch 1.1.0。
3實驗
算法模型已經(jīng)在4個公開的具有挑戰(zhàn)性的數(shù)據(jù)集(ShanghaiTech、UCF-QRNF、WorldExpo10和UCF_CC_50)上進行了大量實驗,實驗結果證明了算法模型的有效性。
3.1評價標準
3.2數(shù)據(jù)集
3.2.1 ShanghaiTech數(shù)據(jù)集
該數(shù)據(jù)集由文獻[5]提出,共包含1 198幅圖像,分為兩部分:PartA和PartB。PartA包含的482張圖片都來自互聯(lián)網(wǎng),其中300張用于訓練,182張用于測試。PartB包含的716張圖像都來自上海街頭的監(jiān)控,其中400張用于訓練,316張用于測試。在訓練過程中,PartA數(shù)據(jù)集中的圖像裁剪大小為300 pixel×300 pixel,PartB中圖像的裁剪大小為512 pixel×512 pixel。
將算法模型的實驗結果與其他最近的方法進行了比較。如表1所示,算法模型的實驗結果是所有比較方法中最好的。與排名第二的模型相比,模型的實驗結果使PartA的MAE提高了1.3,PartB的MAE提高了0.3,PartB的MSE提高了1.2。
3.2.2 UCF_CC_50數(shù)據(jù)集
該數(shù)據(jù)集包含50幅圖像,由文獻[19]提出的。由于數(shù)據(jù)集中的圖像數(shù)量較少,且圖像中人群分布不均勻,因此該數(shù)據(jù)集具有很大的挑戰(zhàn)性。由于圖像數(shù)量較少,采用了5折交叉驗證的方法來評估算法模型。在訓練過程中,此數(shù)據(jù)集中的圖像裁剪大小為300 pixel×300 pixel。
實驗結果如表2所示。從表2可以看出,在MAE和MSE方面,本算法模型取得了最好的實驗結果。與排名第二的模型相比,該方法的MAE提高了25.9,MSE提高了21.2。
3.2.3 WorldExpo10數(shù)據(jù)集
文獻[7]提出了包括199 923標簽頭在內(nèi)的2010年世博會數(shù)據(jù)集。數(shù)據(jù)集中的所有圖像都來自真實的世博場景。該數(shù)據(jù)集的3 980幅圖像用于訓練,其余圖像分為5個場景,每個場景120幅圖像用于測試。同時,該數(shù)據(jù)集還提供了ROI區(qū)域,因此實驗中的所有訓練和測試都是在ROI區(qū)域進行的。在訓練過程中,由于數(shù)據(jù)集中的圖像大小相同,該數(shù)據(jù)集中的裁剪大小就是圖像的原始大小。
表3顯示了本模型算法和其他最近網(wǎng)絡模型的對比結果,在5個測試場景中的3個場景中獲得了最低MAE(越低越好),并且在所有5個場景中獲得了最低的平均MAE。與第二排序法相比,該方法的MAE降低了0.8%。
3.2.4 UCF-QRNF數(shù)據(jù)集
這個包含1 535幅圖像的數(shù)據(jù)集是由文獻[20]提出的。該數(shù)據(jù)集中的1 201幅圖像用于訓練模型,其余圖像用于測試模型。此數(shù)據(jù)集中的所有圖像也來自互聯(lián)網(wǎng)。與其他數(shù)據(jù)集相比,該數(shù)據(jù)集中的圖像更為稠密,圖像中的背景更接近實際場景,對網(wǎng)絡應用具有更大的現(xiàn)實意義。如上所述,此數(shù)據(jù)集中的圖像大小調整為1 024 pixel×768 pixel,以加快計算速度。在訓練過程中,此數(shù)據(jù)集中的圖像裁剪大小為512 pixel×512 pixel。
實驗結果如表4所示,從表4可以看出,模型在這個數(shù)據(jù)集上并沒有得到最好的結果,只得到了第三名,但是結果非常接近最優(yōu)結果的值。與最佳網(wǎng)絡相比,模型在MAE上高出7.3,在MSE上高出14.5。
3.3消融實驗
在這一部分中,注意力圖損失的有效性在ShanghaiTech數(shù)據(jù)集上得到驗證。在實驗中,只使用VGG16主干和多分支結構來訓練模型,因此損失函數(shù)沒有注意力圖損失,結果如表5所示。與最近的其他方法相比,無注意力圖損失網(wǎng)絡的結果在該數(shù)據(jù)集的性能上也取得了顯著的進步。實驗結果表明,注意力損失對結果有很大的影響。
同時,還討論了損失函數(shù)中不同參數(shù)對最終結果的影響。在ShanghaiTech PartB數(shù)據(jù)集上嘗試了3個不同數(shù)量級的參數(shù),結果如表6所示。當設置為0.01時,結果最好。
針對人群計數(shù)問題,提出了一種新的基于卷積神經(jīng)網(wǎng)絡的模型來處理圖像中人頭尺度變化和背景噪聲。該模型利用VGG16主干網(wǎng)不同階段的多尺度特征生成密度圖。在主干網(wǎng)絡的多個階段引入膨脹卷積,融合多尺度特征圖,利用Sigmoid函數(shù)生成注意力圖。利用多尺度的注意力圖,模型可以更好地確定頭部的位置,生成高質量的密度圖。實驗結果表明,該模型比現(xiàn)有的方法具有更好的性能。
在進一步的研究過程中,將考慮圖像中存在的惡略自然天氣和光照變化等環(huán)境因素,提高算法在實際環(huán)境中的魯棒性。
參考文獻
[1]鈕嘉銘,楊宇.基于CNN的人群計數(shù)與密度估計研究綜述[J].軟件導刊, 2021, 20(8):247-252.
[2]向飛宇,張秀偉.基于卷積神經(jīng)網(wǎng)絡的人群計數(shù)算法研究[J].計算機技術與發(fā)展, 2021, 31(7):42-46.
[3] DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian Detection: An Evaluation of the State of the Art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4):743-761.
[4] CHAN A B, VASCONCELOS N. Bayesian Poisson Regression for Crowd Counting[C]// 2019 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009:545-551.
[5] ZHANG Y Y, ZHOU D S, CHEN S Q, et al. Single-image Crowd Counting via Multi-column Convolutional Neural Network[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016:589-597.
[6] ZHANG L,SHI Z,CHENG M, et al. Nonlinear Regression via Deep Negative Correlation Learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 982-998.
[7] ZHANG C, LI H S, WANG X G, et al. Cross-scene Crowd Counting via Deep Convolutional Neural Networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 833-841.
[8] GUO D, LI K, ZHA Z J, et al. Dadnet: Dilated-attentiondeformable ConVent for Crowd Counting[C]// Proceedings of the 27th ACM International Conference on Multimedia. Nice: ACM, 2019:1823-1832.
[9] SAM D B, SURYA S, BABU R V. Switching Convolutional Neural Network for Crowd Counting[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 5744-5752.
[10] LIU N,LONG Y,ZOU C, et al. ADCrowdNet: An Attention-injective Deformable Convolutional Network for Crowd Understanding[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 3320-3229.
[11] CHEN X Y, BIN Y R, GAO C X, et al. Relevant Region Prediction for Crowd Counting[J]. Neurocomputing, 2020, 407: 399-408.
[12] WANG S Z, LU Y, ZHOU T F, et al. SCLNet: Spatial Context Learning Network for Congested Crowd Counting[J]. Neurocomputing, 2020, 404:227-239.
[13] WANG Y J, ZHANG W, LIU Y Y, et al. Multi-density Map Fusion Network for Crowd Counting[J]. Neurocomputing, 2020, 397:31-38.
[14] VARIOR R R, SHUAI B, TIGHE J, et al. Scale-aware Attention Network for Crowd Counting[J/OL]. (2019-01-17)[2022-10-13]. https://arxiv.org/abs/1901.06026.
[15] JIANG X L, XIAO Z H, ZHANG B C, et al. Crowd Counting and Density Estimation by Trellis Encoder-Decoder Networks[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 6126-6135.
[16] SHI M J, YANG Z H, XU C, et al. Revisiting Perspective Information for Efficient Crowd Counting[C]// 2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019:7271-7280.
[17] ZHANG L, SHI M J, CHEN Q B. Crowd Counting via Scale-adaptive Convolutional Neural Network[C]// IEEE Winter Conference on Applications of Computer Vision. Lake Tahoe: IEEE, 2018:1113-1121.
[18] ZHU L, ZHAO Z J, LU C, et al. Dual Path Multi-scale Fusion Networks with Attention for Crowd Counting[J/OL].(2019-02-04) [2022-10-13]. https://arxiv.org/abs/1902.01115.
[19] IDREES H., SALEEMI I. SEIBERT C, et al. Multi-source Multi-scale Counting in Extremely Dense Crowd Images[C] // 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland: IEEE, 2013:2547-2554.
[20] IDREES H, TAYYAB M, ATHREY K, et al. Composition Loss for Counting, Density Map Estimation and Localization in Dense Crowds[C]// European Conference on Computer Vision. Munich: Springer, 2018:544-559.