朱宇斌
摘要:人群計(jì)數(shù)問題是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)經(jīng)典問題,旨在通過計(jì)算機(jī)的相關(guān)方法計(jì)算視頻或圖片場(chǎng)景中的人數(shù),對(duì)控制關(guān)鍵場(chǎng)所人數(shù)、指揮公共交通、控制疫情蔓延、保障社會(huì)穩(wěn)定具有重要積極意義。針對(duì)現(xiàn)有人群計(jì)數(shù)面臨的背景干擾與目標(biāo)遮擋問題,本文提出了基于相似性度量的人群計(jì)數(shù)方法。
關(guān)鍵詞:人群計(jì)數(shù);相似性度量;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)06-0179-02
1概述
整體來看,人群計(jì)數(shù)領(lǐng)域的方法主要有三大類[1] :基于檢測(cè)的方法、基于回歸的方法和基于 CNN 的方法。在人群計(jì)數(shù)發(fā)展初期,人們想到如果能夠使用 模型準(zhǔn)確地檢測(cè)出視頻或圖片中的每個(gè)目標(biāo),那么可以很好地計(jì)算總數(shù)。故而文獻(xiàn)[2]提出了基于檢測(cè)的方法。由于其準(zhǔn)確性和模型性能受到圖像分辨率低、目標(biāo)大小不一、目標(biāo)重疊模糊等因素的限制,文獻(xiàn)[3]提出基于回歸的模型進(jìn)一步提 升了效果。但回歸模型的相關(guān)方法仍然忽視了空間尺度的相關(guān)信息,僅僅得到一 個(gè)計(jì)數(shù)結(jié)果而不能學(xué)習(xí)到目標(biāo)的分布,其結(jié)果缺乏可信度和可解釋性。近年來, 基于 CNN 的方法模型能夠提取出有效的空間尺度、紋理特征等深層信息,在復(fù)雜監(jiān)控環(huán)境下的圖片和視頻數(shù)據(jù)上表現(xiàn)優(yōu)異,成為該領(lǐng)域的一大研究熱點(diǎn)。 圖1表示人群計(jì)數(shù)領(lǐng)域的里程碑,標(biāo)注了人群計(jì)數(shù)網(wǎng)絡(luò)的簡(jiǎn)要發(fā)展過程。近幾年大趨勢(shì)是使用基于多列和單列的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合目標(biāo)定 位和目標(biāo)追蹤等額外技術(shù)來設(shè)計(jì)人群計(jì)數(shù)網(wǎng)絡(luò),這也是未來的發(fā)展方向。
2基于相似性度量的人群計(jì)數(shù)方法
2.1 基于推土機(jī)距離的損失項(xiàng)
在統(tǒng)計(jì)學(xué)中,推土機(jī)距離(Earth mover's distance,又叫Wasserstein distance或Kantorovich-Rubinsterin metric)是用來衡量?jī)蓚€(gè)概率分布相似性的一種方法。顧名思義,假設(shè)在空間[D]上有兩堆形狀不同的土堆,則將把一堆土變形為另一堆土所需要花費(fèi)的最小代價(jià)定義為推土機(jī)距離。嚴(yán)格來說,當(dāng)兩個(gè)概率分布具有相同的積分總和(即兩堆土的總量是相等的),推土機(jī)距離的定義才有效,且等于一階Wasserstein距離。
為了解決背景干擾問題,本節(jié)引入推土機(jī)距離來度量真實(shí)密度圖和預(yù)測(cè)密度圖之間的相似性:
其中[μ]、[v]分別代表原始密度圖和預(yù)測(cè)密度圖上的概率分布,[M,d]為對(duì)應(yīng)圖像的度量空間。
基于推土機(jī)距離的損失項(xiàng)優(yōu)勢(shì)在于可以直接度量預(yù)測(cè)密度圖與真實(shí)密度圖之間的相似性,來替代通過高斯模糊預(yù)處理數(shù)據(jù)來度量預(yù)測(cè)密度圖與模糊后的真實(shí)密度圖的相似性。也就是說,使用高斯模糊來預(yù)處理數(shù)據(jù)會(huì)使目標(biāo)與背景融為一體、難以分辨,即使訓(xùn)練得到的模型損失很低,該模型學(xué)習(xí)到的仍然是模糊的真實(shí)密度圖。本節(jié)提出的基于推土機(jī)距離的損失項(xiàng)正是避開了這個(gè)問題來直接度量。從理論上說,使用該損失項(xiàng)訓(xùn)練得到的模型預(yù)期效果應(yīng)當(dāng)優(yōu)于使用模糊的真實(shí)密度圖訓(xùn)練的模型。
2.2 基于全變差距離的損失項(xiàng)
全變差(Total Variation)在數(shù)學(xué)中原本定義為曲線的一維弧長(zhǎng)。對(duì)樣本空間[Ω]上的兩個(gè)概率分布[P]、[Q],其全變差為:
基于全變差距離的損失項(xiàng)優(yōu)勢(shì)在于可以通過度量概率分布的總變化來計(jì)算預(yù)測(cè)密度圖與真實(shí)密度圖之間的差異大小,從而削弱由目標(biāo)遮擋帶來的計(jì)數(shù)影響。換句話說,當(dāng)圖片中的目標(biāo)被物體遮擋變得難以辨別時(shí),全變差距離能夠敏感地發(fā)現(xiàn)模型因該目標(biāo)造成的計(jì)數(shù)誤差,并直觀地通過損失項(xiàng)的值來反映誤差的大小。因此本節(jié)提出的基于全變差距離的損失項(xiàng)能夠從一定程度上緩解目標(biāo)遮擋問題,使用該損失項(xiàng)訓(xùn)練得到的模型預(yù)期效果應(yīng)當(dāng)優(yōu)于未解決目標(biāo)遮擋問題的模型。
2.3基于相似性度量的人群計(jì)數(shù)網(wǎng)絡(luò)
近年來,人群計(jì)數(shù)算法常基于遷移學(xué)習(xí),將預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)作為主干,添加額外的網(wǎng)絡(luò)模塊來進(jìn)行訓(xùn)練。遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,是將已有問題的解決模型利用在其他相關(guān)問題上,例如用來辨別車輛的模型也可以被用來辨別船只。
為了驗(yàn)證本文提出的基于相似性度量的損失函數(shù)在人群計(jì)數(shù)問題上的效果,實(shí)驗(yàn)將基于遷移學(xué)習(xí),直接使用該損失函數(shù)來訓(xùn)練VGG16網(wǎng)絡(luò),網(wǎng)絡(luò)模型的結(jié)構(gòu)如圖2所示。
本文實(shí)驗(yàn)直接使用VGG16網(wǎng)絡(luò)的優(yōu)勢(shì)在于:
1)可以直接使用預(yù)訓(xùn)練好的權(quán)重來微調(diào)網(wǎng)絡(luò),進(jìn)行遷移學(xué)習(xí),大大節(jié)省資源開銷,提升訓(xùn)練速度;
2)在人群計(jì)數(shù)問題中,相比于其他經(jīng)典卷積神經(jīng)網(wǎng)絡(luò),VGG16更多地被作為主干網(wǎng)絡(luò)來設(shè)計(jì)模型,這使得本文實(shí)驗(yàn)具有參考價(jià)值;
3)VGG16是一個(gè)簡(jiǎn)潔高效的卷積神經(jīng)網(wǎng)絡(luò),可以更純粹地評(píng)估本文提出的損失函數(shù)的效果。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)
為了驗(yàn)證提出方法的效果,本文將使用目前公開的Shanghai Tech數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。在人群計(jì)數(shù)問題中存在多種模型評(píng)價(jià)指標(biāo),最常用的評(píng)價(jià)指標(biāo)為平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)。
3.2實(shí)驗(yàn)結(jié)果與分析
表1展示了基于相似性度量的人群計(jì)數(shù)方法與經(jīng)典人群計(jì)數(shù)方法在Shanghai Tech數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果和對(duì)比。圖3 為對(duì)應(yīng)的預(yù)測(cè)效果。
通過定性分析各數(shù)據(jù)集上的實(shí)驗(yàn)效果可以發(fā)現(xiàn),本文設(shè)計(jì)的基于相似性度量的人群計(jì)數(shù)方法能夠很好地緩解人群計(jì)數(shù)問題中背景干擾和目標(biāo)遮擋問題。
4總結(jié)
為了緩解人群計(jì)數(shù)問題中背景干擾和目標(biāo)遮擋兩大問題,本文從理論出發(fā),引入了推土機(jī)距離和全變差距離來度量預(yù)測(cè)密度圖和真實(shí)密度圖之間的相似性,進(jìn)一步提出了基于相似性度量的損失函數(shù)。基于推土機(jī)距離的損失項(xiàng)優(yōu)勢(shì)在于可以避免使用高斯模糊處理造成目標(biāo)與背景融為一體的情況直接度量預(yù)測(cè)密度圖與真實(shí)密度圖的差異。基于全變差距離的損失項(xiàng)優(yōu)勢(shì)在于可以度量概率分布的總變化來削弱由目標(biāo)遮擋帶來的計(jì)數(shù)影響。通過實(shí)驗(yàn)最終證明了該方法的有效性,能夠在一定程度上緩解背景干擾和目標(biāo)遮擋兩大問題。
參考文獻(xiàn):
[1] Sindagi V A,Patel V M.A survey of recent advances in CNN-based single image crowd counting and density estimation[J].Pattern Recognition Letters,2018,107:3-16.
[2] Wu B,Nevatia R.Detection of multiple,partially occluded humans in a single image by Bayesian combination of edgelet part detectors[C]//Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1.October 17-21,2005,Beijing,China.IEEE,2005:90-97.
[3] Chan A B,Liang Z S John,Vasconcelos N.Privacy preserving crowd monitoring:Counting people without people models or tracking[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2008,Anchorage,AK,USA.IEEE,2008:1-7.
[4] Zhang Y Y,Zhou D S,Chen S Q,et al.Single-image crowd counting via multi-column convolutional neural network[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).June 27-30,2016,Las Vegas,NV,USA.IEEE,2016:589-597.
[5] Sam D B,Surya S,Babu R V.Switching convolutional neural network for crowd counting[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:4031-4039.
[6] Li Y H,Zhang X F,Chen D M.CSRNet:dilated convolutional neural networks for understanding the highly congested scenes[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.June 18-23,2018,Salt Lake City,UT,USA.IEEE,2018:1091-1100.
【通聯(lián)編輯:光文玲】