基于像素級(jí)注意力機(jī)制的人群計(jì)數(shù)方法

2020-03-06 12:55陳美云王必勝梁永博

計(jì)算機(jī)應(yīng)用 2020年1期

陳美云，王必勝，曹國(guó)，梁永博

(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，南京 210094)

0 引言

人群計(jì)數(shù)[1]旨在統(tǒng)計(jì)擁擠場(chǎng)景中的人數(shù)，通常存在遮擋、分辨率低、人員分布不均勻、場(chǎng)景復(fù)雜等干擾因素，是非常值得探究的一個(gè)方向。目前，城市的人口數(shù)量隨著城市化的發(fā)展急劇增長(zhǎng)，人口暴增導(dǎo)致各類(lèi)人群活動(dòng)顯著增加，如演唱會(huì)、路演、競(jìng)技賽等。為了更好地保障社會(huì)治安，對(duì)這些場(chǎng)景進(jìn)行準(zhǔn)確的人群計(jì)數(shù)是非常必要的一項(xiàng)工作[2]。卓越的人群計(jì)數(shù)工作對(duì)構(gòu)建高層次認(rèn)知能力有極大的作用，例如分析道路擁塞[3-4]、檢測(cè)異常狀況[5]、檢測(cè)特定事件[6]等。除此以外,優(yōu)秀的人群計(jì)數(shù)方法還可以推廣到車(chē)輛計(jì)數(shù)[7]、野生動(dòng)物密度估計(jì)[8]和計(jì)量顯微圖像中的細(xì)胞[9]等多個(gè)領(lǐng)域。

在深度學(xué)習(xí)方法盛行之前，人群計(jì)數(shù)的方法主要以檢測(cè)和回歸為主。

以檢測(cè)為主的人群計(jì)數(shù)算法先訓(xùn)練檢測(cè)器用以識(shí)別輸入圖中的個(gè)體，繼而將識(shí)別個(gè)體進(jìn)行累加得出總?cè)巳簲?shù)。過(guò)去采用檢測(cè)的人群計(jì)數(shù)算法是根據(jù)某些特征如方向梯度直方圖(Histogram of Oriented Gradients, HOG)[10]、Haar小波[11]等來(lái)訓(xùn)練檢測(cè)器，從而將人體檢測(cè)出來(lái)。不過(guò)，當(dāng)這種方式用來(lái)計(jì)數(shù)高密度人群時(shí)，就會(huì)受到遮擋、重疊等因素的嚴(yán)重干擾，而且這種方式在計(jì)算時(shí)間和計(jì)算資源方面占用比較大，性能不夠優(yōu)異。

針對(duì)高密度場(chǎng)景，有研究人員提出了回歸人群數(shù)目和人群特征兩者間映射關(guān)系的方法。回歸算法先進(jìn)行底層特征提取，然后進(jìn)行模型回歸。其中，底層特征由場(chǎng)景的紋理特征(如LBP(Local Binary Pattern))[12-13]、局部特征(如邊緣特征)、全局特征得來(lái)；然而，回歸算法在進(jìn)行模型回歸時(shí)會(huì)丟失掉部分關(guān)鍵的空間信息。

如今，科技的進(jìn)步使得圖形處理器(Graphics Processing Unit, GPU)極大地提升了計(jì)算能力，時(shí)間的推移使得大型數(shù)據(jù)庫(kù)更多地涌現(xiàn)，而這兩者的發(fā)展則使得深度學(xué)習(xí)[14]在提取特征和泛化模型方面性能優(yōu)越，甚至在許多方面已經(jīng)完全超越了傳統(tǒng)算法。

鑒于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)顯著提升了目標(biāo)識(shí)別、圖像分類(lèi)[14-15]等多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的準(zhǔn)確度，人群計(jì)數(shù)的研究人員也開(kāi)始嘗試采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)探索人群密度與人群圖像兩者的非線(xiàn)性關(guān)系。實(shí)驗(yàn)證明卷積神經(jīng)網(wǎng)絡(luò)在人群計(jì)數(shù)準(zhǔn)確性方面相比前兩種傳統(tǒng)方法提升顯著。

其實(shí)，采用卷積神經(jīng)網(wǎng)絡(luò)方式進(jìn)行人群計(jì)數(shù)也屬于回歸算法的一種。卷積神經(jīng)網(wǎng)絡(luò)先提取輸入圖片中的人群特征，然后通過(guò)回歸方式計(jì)算出人群總數(shù)。回歸方式分為兩種：一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片與人數(shù)間的映射關(guān)系，然后直接回歸計(jì)算出人群總數(shù)；另一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片和人群密度圖的映射關(guān)系，然后對(duì)密度圖進(jìn)行積分得出人群總數(shù)。

Zhang等[16]是第一個(gè)采用CNN來(lái)解決人群計(jì)數(shù)問(wèn)題的，不過(guò)，該方法回歸結(jié)果并非人群總數(shù)而是人群的密度等級(jí)。此后，Zhang等[17]針對(duì)提升跨場(chǎng)景計(jì)數(shù)性能不佳問(wèn)題，提出了一種先訓(xùn)練一些場(chǎng)景圖片，測(cè)試時(shí)從訓(xùn)練集中找到相似場(chǎng)景圖來(lái)微調(diào)網(wǎng)絡(luò)。雖然該算法提升了跨場(chǎng)景人群計(jì)數(shù)的準(zhǔn)確性，但占用的資源過(guò)多。Sindagi等[18]提出了一種輸入為整幅原始圖片的卷積神經(jīng)網(wǎng)絡(luò)，這是因?yàn)閳D片切塊存在重疊部分，會(huì)造成計(jì)算重復(fù)。Zhang等[19]提出了一種包含三列卷積核尺寸各異的多列卷積神經(jīng)網(wǎng)絡(luò)，各列子網(wǎng)絡(luò)對(duì)應(yīng)處理不同尺度的人群。該算法還考慮到了圖片拍攝角度的問(wèn)題，因此使用自適應(yīng)卷積核來(lái)生成密度圖。

可見(jiàn)針對(duì)人群計(jì)數(shù)這一課題，研究者們已經(jīng)提出了許多以卷積神經(jīng)網(wǎng)絡(luò)[14,20-21]為基礎(chǔ)的算法[16,18-19,22-23]，雖然識(shí)別效果不錯(cuò)，但仍然有一些基本問(wèn)題沒(méi)有得到很好解決。

由于人頭在不同地方的分布存在很大的差異，許多人群計(jì)數(shù)算法會(huì)將人群圖像劃分為不同人群密度等級(jí)的圖像塊[18,22]；然而由于真實(shí)密度圖是基于像素的，所以這種基于圖像塊圖像的分類(lèi)方法無(wú)法與真實(shí)密度圖完美匹配，使得最終估計(jì)的密度圖中會(huì)造成模糊。針對(duì)這一問(wèn)題，本文采用了一種新的不同于傳統(tǒng)注意力機(jī)制的像素級(jí)注意力機(jī)制。這種新方法不再對(duì)圖像塊進(jìn)行分類(lèi)，而是生成像素級(jí)的像素掩碼，從而指導(dǎo)密度估計(jì)網(wǎng)絡(luò)獲得更精確的密度值。

綜上所述，本文提出了相應(yīng)的改進(jìn)方法，采用了一種基于像素的注意力機(jī)制來(lái)處理人群非均勻分布的問(wèn)題。設(shè)計(jì)了一種新的以更少的學(xué)習(xí)參數(shù)學(xué)習(xí)到更多代表性特征的單列網(wǎng)絡(luò)，可以得到高效的人群計(jì)數(shù)結(jié)果。

1 算法分析

本章將介紹本文的整體算法結(jié)構(gòu)。如圖1所示，本文算法結(jié)構(gòu)主要包括兩個(gè)部分:像素級(jí)注意力機(jī)制(Pixel-level Attention Mechanism, PAM)和人群密度估計(jì)網(wǎng)絡(luò)。

圖1 整體網(wǎng)絡(luò)架構(gòu)Fig. 1 Overall network architecture

1.1 標(biāo)簽密度圖的生成

人群圖像的標(biāo)注是在人頭部中心作的點(diǎn)標(biāo)注。圖2(a)采用一個(gè)3×3大小的方格來(lái)代表人群圖像的局部區(qū)域，像素點(diǎn)值為1表示人，值為0則表示背景。

在圖像中假設(shè)每個(gè)人頭大小都是3×3像素，圖2(b)就是圖2(a)對(duì)應(yīng)的使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人群計(jì)數(shù)的標(biāo)簽密度圖，各個(gè)人頭區(qū)域的概率之和為1，得到完整的人群圖像密度圖后，對(duì)其進(jìn)行積分(求和)就是人群數(shù)目。

圖2 標(biāo)簽密度圖的生成Fig. 2 Generation of label density map

為了保存更多的空間信息，本文實(shí)際使用歸一化高斯核將每個(gè)頭部標(biāo)注模糊，估計(jì)圖像中每個(gè)人頭的大小并轉(zhuǎn)換為密度圖。步驟如下：

xi表示人頭中心坐標(biāo)位置，用函數(shù)δ(x-xi)表示，對(duì)于一幅有N個(gè)人頭標(biāo)注的人群圖像來(lái)說(shuō)，可以表示為H(x)函數(shù)：

(1)

將式(1)與高斯核進(jìn)行卷積，轉(zhuǎn)化為連續(xù)密度函數(shù)，如式(2)所示：

(2)

圖3 原圖和對(duì)應(yīng)生成的標(biāo)簽密度圖Fig. 3 Original image and corresponding generated label density map

1.2 像素注意力機(jī)制

人群計(jì)數(shù)的一些方法[22]將整幅圖像上的小塊分割成不同的密度類(lèi)，然后利用分類(lèi)結(jié)果提高局部密度估計(jì)的精度。這種圖像小塊級(jí)的注意力機(jī)制并不能很好地與真實(shí)值相匹配，因?yàn)檎鎸?shí)值反映的是每個(gè)特定像素的密度信息，因此，本文提出了一種像素級(jí)注意力機(jī)制來(lái)定量模擬圖像的局部密度信息。

生成的標(biāo)簽密度圖的每個(gè)像素都表示一個(gè)密度值。根據(jù)這些像素的密度值設(shè)定閾值，分成不同密度程度的類(lèi)別，以反映人群的多樣性。舉例來(lái)說(shuō)，類(lèi)別標(biāo)號(hào)為{0,1,2,3,4}，其中，{0}表示背景，{1,2,3,4}表示4種不同密集程度的人群。需要注意的是，針對(duì)不同的數(shù)據(jù)集，設(shè)置的密度等級(jí)會(huì)有所不同。至于設(shè)置多少類(lèi)別以及密度等級(jí)閾值大小可根據(jù)實(shí)驗(yàn)確定。本文根據(jù)局部區(qū)域的人頭大小通過(guò)實(shí)驗(yàn)設(shè)置了閾值，而類(lèi)別數(shù)量則由實(shí)驗(yàn)對(duì)比決定。具體實(shí)驗(yàn)結(jié)果見(jiàn)第2.2節(jié)。

將每個(gè)像素劃分到特定類(lèi)別是一個(gè)像素對(duì)像素的語(yǔ)義分割問(wèn)題，因此本文使用了表現(xiàn)性能優(yōu)異的全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[24]來(lái)解決像素劃分問(wèn)題。

直觀來(lái)看，用卷積層替換卷積神經(jīng)網(wǎng)絡(luò)的全連接層就得到了全卷積神經(jīng)網(wǎng)絡(luò)。全卷積神經(jīng)網(wǎng)絡(luò)的輸出是一幅已經(jīng)完成標(biāo)記的圖。

全卷積神經(jīng)網(wǎng)絡(luò)的輸入是大小為h*w的原圖，原圖經(jīng)過(guò)第1次卷積、池化以后縮小為原來(lái)的1/2；然后繼續(xù)進(jìn)行第2次卷積、池化，圖像變?yōu)樵瓉?lái)的1/4；第3次卷積、池化后輸出圖像是原始圖像的1/8，保留本次池化后的特征圖(featureMap)；然后經(jīng)歷第4次卷積、池化，輸出圖像是原始圖像的1/16，同樣保留本次池化后的特征圖(featureMap)；繼續(xù)進(jìn)行第5次卷積、池化，輸出圖像是原始圖像的1/32；接著進(jìn)行第6次卷積、第7次卷積操作，此時(shí)，輸出的圖像依然是原始圖像的1/32大小，但是featureMap數(shù)量改變了，此時(shí)的圖像稱(chēng)作熱圖(heatMap)。

上述保留的熱圖通過(guò)上采樣來(lái)還原圖片，但是得到的只是第5次卷積操作的卷積核特征，精度還不夠高，所以需要繼續(xù)向前迭代，具體的操作是先使用第4次卷積中的卷積核來(lái)反卷積上一個(gè)上采樣還原圖，其實(shí)就是作差值的過(guò)程，然后用第3次卷積中的卷積核來(lái)反卷積剛剛的上采樣還原圖，實(shí)現(xiàn)圖像的整體還原，其中兩次反卷積都是為了補(bǔ)充細(xì)節(jié)。

PAM的網(wǎng)絡(luò)如圖4所示，使用了全卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)，輸入為任意尺寸的自然圖，輸出則是與輸入圖大小相同的分類(lèi)圖。采用反卷積操作對(duì)相應(yīng)卷積層特征圖上采樣，在保留原始圖空間信息的同時(shí)還能夠預(yù)測(cè)每個(gè)像素，實(shí)現(xiàn)逐個(gè)像素的分類(lèi)。采用歸一化指數(shù)函數(shù)(Softmax函數(shù))來(lái)計(jì)算每個(gè)像素的損失，等同于一個(gè)訓(xùn)練樣本對(duì)應(yīng)一個(gè)像素。針對(duì)不同數(shù)據(jù)集，PAM網(wǎng)絡(luò)對(duì)FCN模型分別進(jìn)行微調(diào)，只需要重新定義網(wǎng)絡(luò)的輸出類(lèi)別數(shù)(保證輸出的類(lèi)別數(shù)與數(shù)據(jù)集對(duì)應(yīng)的密度級(jí)別種類(lèi)數(shù)一致)，從而輸出對(duì)應(yīng)的分類(lèi)圖。

圖4 PAM網(wǎng)絡(luò)(基于FCN結(jié)構(gòu)的像素級(jí)注意掩碼生成網(wǎng)絡(luò))Fig. 4 PAM network (pixel level attention mask generation network based on FCN structure)

1.3 改進(jìn)的人群密度估計(jì)網(wǎng)絡(luò)

人群密度估計(jì)[18,25]網(wǎng)絡(luò)的作用是將輸入圖像轉(zhuǎn)換成密度圖。由于圖像中不同位置的人頭尺度存在很大差異，現(xiàn)有的方法多是采用不同卷積核大小的多列網(wǎng)絡(luò)來(lái)求解；然而，多列網(wǎng)絡(luò)往往需要更多的時(shí)間，而且難以收斂。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，設(shè)計(jì)合理的單列網(wǎng)絡(luò)不僅同樣可以得到良好的計(jì)算結(jié)果，而且還降低了計(jì)算復(fù)雜度。本文設(shè)計(jì)的單列人群密度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 人群密度估計(jì)網(wǎng)絡(luò)Fig. 5 Crowd density estimation network

本文進(jìn)行了大量的實(shí)驗(yàn)來(lái)分析不同因素對(duì)最終結(jié)果的影響，這些因素包括深度、卷積核大小、卷積核大小順序和不同層的連接。為了與基準(zhǔn)方法進(jìn)行比較，本部分只使用原始RGB圖像作為輸入。通常，頭部較大的密度圖需要使用具有較大感受野的濾波器來(lái)提取特征，頭部較小的密度圖則應(yīng)使用感受野較小的濾波器提取特征，而一般來(lái)說(shuō)，合理的深層次網(wǎng)絡(luò)效果要優(yōu)于淺層網(wǎng)絡(luò)。

本文的人群密度估計(jì)網(wǎng)絡(luò)屬于卷積神經(jīng)網(wǎng)絡(luò)，設(shè)計(jì)思想來(lái)源于Zhang等[19]發(fā)表的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)，本文設(shè)計(jì)的網(wǎng)絡(luò)如圖5所示，將MCNN并行的3列融合成單列，借鑒其卷積核大小將本文網(wǎng)絡(luò)參數(shù)設(shè)定如下：7層網(wǎng)絡(luò)并且進(jìn)行PAM處理，卷積核分別為3×3、5×5、5×5、7×7、7×7、7×7、3×3(融合第3、5、6層輸出作為第7層輸入)。

每層卷積層的激活函數(shù)均采用修正線(xiàn)性單元(Rectified Linear Unit, ReLU)：

(3)

由于池化操作會(huì)丟失細(xì)節(jié)信息，所以?xún)H在第一層和第三層卷積后設(shè)置了步長(zhǎng)為2(stride=2)的最大池化操作；融合第3、5、6層輸出作為第7層輸入的設(shè)置，將合并的特征輸出到卷積核大小為3×3的第7層，在保證了網(wǎng)絡(luò)可以收斂的同時(shí)提高了網(wǎng)絡(luò)效果。把第3、5、6層提取的特征合并后輸出到卷積核大小為3×3的第7層卷積層，使用3×3卷積核替代1×1卷積核，可以估計(jì)出密度圖。該網(wǎng)絡(luò)有3個(gè)特點(diǎn)：

1)更深層次的單列架構(gòu)。內(nèi)核的大小和深度對(duì)于CNN來(lái)說(shuō)是至關(guān)重要的。

2)不同層次的拼接。受文獻(xiàn)[14,26-27]的啟發(fā)，將低層和高層連接在一起，學(xué)習(xí)底層信息(如形狀、顏色、紋理)和語(yǔ)義信息。

3)卷積核大小的逆序。在本文的網(wǎng)絡(luò)中，小卷積核在較低的層中選擇，而大卷積核在較高的層中選擇。這種策略的優(yōu)點(diǎn)有兩個(gè)：首先，使用反序的卷積核大小具有更大的感受野，可以獲得更多的上下文信息；其次，在合并相鄰層時(shí)，起到組合淺層和高層不同類(lèi)型信息的作用，提高預(yù)測(cè)準(zhǔn)確性。這是一個(gè)與現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)完全不同的考慮。

通過(guò)這些設(shè)計(jì)，本文的網(wǎng)絡(luò)與MCNN[17]和Sindagi[18]相比具有更少的參數(shù)，但得到了更好的結(jié)果。

1.4 損失函數(shù)

(4)

對(duì)于人群密度估計(jì)網(wǎng)絡(luò)模塊，采用歐幾里德?lián)p失層來(lái)測(cè)量真實(shí)值與估計(jì)密度圖之間的差異。損失函數(shù)定義如下:

(5)

其中：θ表示網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù)，Xi是輸入圖像，F(xiàn)(Xi;θ)和Fi分別為預(yù)測(cè)密度圖和真實(shí)值。

2 實(shí)驗(yàn)

在4個(gè)公開(kāi)的具有不同挑戰(zhàn)性的數(shù)據(jù)集上，將本文方法與上下文金字塔神經(jīng)網(wǎng)絡(luò)(Contextual Pyramid Convolutional Neural Network, CP-CNN)、多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)、交換卷積神經(jīng)網(wǎng)絡(luò)(Switching Convolutional Neural Network, Switch-CNN)[22]、擁塞場(chǎng)景識(shí)別網(wǎng)絡(luò)(Network for Congested Scene Recognition, CSRNet)[28]、檢測(cè)和密度估計(jì)網(wǎng)絡(luò)(Detection and Density Estimation Network, DecideNet)[29]等方法進(jìn)行了比較。這4個(gè)數(shù)據(jù)集分別是Shanghaitech數(shù)據(jù)集(包括part_A和part_B兩部分)、UCF_CC_50數(shù)據(jù)集以及WorldExpo_2010(Expo’10)數(shù)據(jù)集。有關(guān)這些數(shù)據(jù)集的數(shù)據(jù)信息詳見(jiàn)表1。

表1 各數(shù)據(jù)集相關(guān)信息 Tab. 1 Information about each dataset

2.1 評(píng)價(jià)指標(biāo)

根據(jù)現(xiàn)有的人群統(tǒng)計(jì)工作[19,22,28]，本文采用較為通用的兩個(gè)評(píng)價(jià)指標(biāo)——平均絕對(duì)誤差(Mean Absolute Error, MAE)和均方誤差(Mean Squared Error, MSE)，來(lái)對(duì)本文方法與現(xiàn)有方法的性能進(jìn)行比較。MAE和MSE定義如下:

(6)

(7)

2.2 PAM模塊的閾值選取

正如在2.2節(jié)中分析的那樣，對(duì)于不同的數(shù)據(jù)集需要人為地定義合適的PAM閾值和類(lèi)數(shù)，以?xún)?yōu)化性能。本文通過(guò)觀察對(duì)比根據(jù)真實(shí)值(Ground Truth)生成的密度圖對(duì)應(yīng)原圖的人群密集程度，從而劃分出人群密度等級(jí)以及閾值。結(jié)果劃分如表2。圖6(a)～(d)左圖為各數(shù)據(jù)集中選取的一幅原始圖片，圖6(a)～(d)右圖為對(duì)應(yīng)原始圖片經(jīng)PAM分割后得到的分類(lèi)圖。

表2 PAM模塊閾值劃分 Tab. 2 PAM module threshold division

圖6 各數(shù)據(jù)集經(jīng)PAM所得分類(lèi)圖Fig. 6 Classification map of each dataset obtained by PAM

2.3 參數(shù)設(shè)置及訓(xùn)練步驟

2.3.1 參數(shù)設(shè)置

本文模型是在配置為i7- 6700K CPU、NVIDIA GTX 1080 GPU(顯卡內(nèi)存為8 GB)的臺(tái)式機(jī)的Ubuntu系統(tǒng)下的Caffe框架下運(yùn)行的。訓(xùn)練過(guò)程采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)，訓(xùn)練階段的batchsize設(shè)置為1，為了提高模型的擬合速度，沖量設(shè)置為0.9，權(quán)重衰減設(shè)置為0.000 5來(lái)控制模型的過(guò)擬合。具體的模型參數(shù)設(shè)置見(jiàn)表3，其中base_lr為學(xué)習(xí)率，max_iter為最大迭代次數(shù)，lr_policy為學(xué)習(xí)策略。

表3 訓(xùn)練參數(shù)設(shè)置 Tab. 3 Training parameter setting

2.3.2 訓(xùn)練步驟

1)根據(jù)數(shù)據(jù)集的真實(shí)標(biāo)注Ground Truth采用歸一化高斯核生成標(biāo)簽密度圖density_map;

2)根據(jù)設(shè)定的閾值參數(shù)將density_map轉(zhuǎn)變?yōu)閯澐至讼袼氐燃?jí)的掩碼標(biāo)簽圖gt，采用FCN對(duì)原圖和掩碼標(biāo)簽圖gt進(jìn)行訓(xùn)練；

3)使用訓(xùn)練的FCN獲取圖像n通道標(biāo)簽圖(n為該數(shù)據(jù)集劃分的密度級(jí)別數(shù))，然后與原圖(3通道)融合為n+3通道圖，作為人群密度估計(jì)網(wǎng)絡(luò)的輸入；

4)訓(xùn)練人群密度估計(jì)網(wǎng)絡(luò)，使用訓(xùn)練的模型來(lái)估計(jì)圖片的人群密度，采用回歸計(jì)算得到人群總數(shù)。

算法偽代碼：

Train(){

初始化network的權(quán)和閾值；

while 終止條件不滿(mǎn)足{

for samples中的每個(gè)訓(xùn)練樣本X{

向前傳播輸入；

for 隱藏或輸出層每個(gè)單元j{

相對(duì)于前一層i，計(jì)算單元j的凈輸入；

計(jì)算單元j的輸出；

}

反向傳播誤差；

for 輸出層每個(gè)單元j{

計(jì)算誤差，選擇ReLU函數(shù)作為激活函數(shù)；

}

for network中每個(gè)權(quán)重ωij{

權(quán)重增值；

權(quán)重更新；

}

for network中每個(gè)偏差Qj{

偏差增值；

偏差更新；

}

2.4 Shanghaitech數(shù)據(jù)集

MCNN[19]中首次建立Shanghaitech數(shù)據(jù)集，數(shù)據(jù)集分為part_A和part_B兩部分：part_A的圖片總共482幅，是從互聯(lián)網(wǎng)上隨機(jī)收集的；而part_B的圖片總共716幅，是上海市區(qū)繁華的街道圖片。此外，part_B圖片中的人群分布相比part_A圖片中的人群分布更為稀疏。

該數(shù)據(jù)集總共有1 198幅標(biāo)記圖片：part_A部分300幅用于訓(xùn)練，182幅用于測(cè)試；part_B部分400幅用于訓(xùn)練，316幅用于測(cè)試。具體的信息可以在MCNN[19]中找到。表4是本文方法與其他方法在Shanghaitech數(shù)據(jù)集上的結(jié)果對(duì)比。

表4 Shanghaitech數(shù)據(jù)集上不同方法結(jié)果對(duì)比 Tab. 4 Comparison of results of different methods on Shanghaitech dataset

2.5 UCF_CC_50 數(shù)據(jù)集

UCF_CC_50數(shù)據(jù)集包含來(lái)自互聯(lián)網(wǎng)的50幅圖像。這是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集，因?yàn)樗粌H圖像數(shù)量非常有限，而且圖像的人群數(shù)量也變化巨大。人頭計(jì)數(shù)范圍在94～4 543，每幅圖像平均有1 280人。作者總共為這50幅圖像提供了63 974條標(biāo)注。

本文將這50幅圖像以7∶3的比例分成訓(xùn)練集和測(cè)試集。表5是本文方法與其他方法在UCF_CC_50數(shù)據(jù)集上的結(jié)果對(duì)比。

表5 UCF_CC_50數(shù)據(jù)集上不同方法的結(jié)果對(duì)比 Tab. 5 Comparison of results of different methods on UCF_CC_50 dataset

2.6 WorldExpo’10 數(shù)據(jù)集

WorldExpo’10 數(shù)據(jù)集是由Zhang等提出的[16]。該數(shù)據(jù)集包含1 132個(gè)帶注釋的視頻序列，由108個(gè)監(jiān)視槍攝像機(jī)拍攝，來(lái)自于2010年舉辦的上海世界博覽會(huì)。此數(shù)據(jù)集提供了3 980幀圖像，共計(jì)199 923個(gè)行人頭部中心標(biāo)注。其中3 380幀為訓(xùn)練集，另外600幀為測(cè)試集，測(cè)試數(shù)據(jù)集包含5個(gè)不同場(chǎng)景，每個(gè)場(chǎng)景有120個(gè)標(biāo)記幀。測(cè)試場(chǎng)景提供了5個(gè)不同的感興趣區(qū)域(Regions Of Interest, ROI)，因此人群計(jì)數(shù)只在ROI部分進(jìn)行。與其他數(shù)據(jù)集相比，該數(shù)據(jù)集人群數(shù)量相對(duì)較小，平均每個(gè)圖像有50人。表6是本文方法與其他方法在WorldExpo’10數(shù)據(jù)集上的結(jié)果對(duì)比。

表6 Expo’10數(shù)據(jù)集上不同方法的MAE比較結(jié)果 Tab. 6 MAE comparison of different methods on Expo ’10

3 結(jié)語(yǔ)

人群計(jì)數(shù)的任務(wù)是準(zhǔn)確估計(jì)出圖像中人群的總?cè)藬?shù)，同時(shí)給出人群密度的分布情況。人群計(jì)數(shù)可以用于事故預(yù)防、空間規(guī)劃、消費(fèi)習(xí)慣分析和交通調(diào)度等多個(gè)領(lǐng)域。除此之外，圖像人群計(jì)數(shù)算法還可以應(yīng)用到一些其他的計(jì)數(shù)領(lǐng)域，例如野生動(dòng)物計(jì)數(shù)、車(chē)輛計(jì)數(shù)、細(xì)胞計(jì)數(shù)等領(lǐng)域，因此，人群計(jì)數(shù)的研究具有十分重要的意義。

本文提出了一種由兩個(gè)模塊生成高質(zhì)量人群密度圖,達(dá)到精確的人群計(jì)數(shù)效果的新體系結(jié)構(gòu)。首先，與現(xiàn)有的采用分塊注意機(jī)制方法相比，生成像素級(jí)掩碼并與原圖結(jié)合，能夠更精確地估計(jì)局部密度。此外，本文所采用的單列網(wǎng)絡(luò)與其他估計(jì)器相比，該網(wǎng)絡(luò)可以用更少的參數(shù)得到相似甚至更好的結(jié)果。最后，在三個(gè)高挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，通過(guò)對(duì)比表明本文方法具有更好的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡