国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于像素級(jí)注意力機(jī)制的人群計(jì)數(shù)方法

2020-03-06 12:55陳美云王必勝梁永博
計(jì)算機(jī)應(yīng)用 2020年1期
關(guān)鍵詞:計(jì)數(shù)卷積密度

陳美云,王必勝,曹 國(guó),梁永博

(南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094)

0 引言

人群計(jì)數(shù)[1]旨在統(tǒng)計(jì)擁擠場(chǎng)景中的人數(shù),通常存在遮擋、分辨率低、人員分布不均勻、場(chǎng)景復(fù)雜等干擾因素,是非常值得探究的一個(gè)方向。目前,城市的人口數(shù)量隨著城市化的發(fā)展急劇增長(zhǎng),人口暴增導(dǎo)致各類(lèi)人群活動(dòng)顯著增加,如演唱會(huì)、路演、競(jìng)技賽等。為了更好地保障社會(huì)治安,對(duì)這些場(chǎng)景進(jìn)行準(zhǔn)確的人群計(jì)數(shù)是非常必要的一項(xiàng)工作[2]。卓越的人群計(jì)數(shù)工作對(duì)構(gòu)建高層次認(rèn)知能力有極大的作用,例如分析道路擁塞[3-4]、檢測(cè)異常狀況[5]、檢測(cè)特定事件[6]等。除此以外,優(yōu)秀的人群計(jì)數(shù)方法還可以推廣到車(chē)輛計(jì)數(shù)[7]、野生動(dòng)物密度估計(jì)[8]和計(jì)量顯微圖像中的細(xì)胞[9]等多個(gè)領(lǐng)域。

在深度學(xué)習(xí)方法盛行之前,人群計(jì)數(shù)的方法主要以檢測(cè)和回歸為主。

以檢測(cè)為主的人群計(jì)數(shù)算法先訓(xùn)練檢測(cè)器用以識(shí)別輸入圖中的個(gè)體,繼而將識(shí)別個(gè)體進(jìn)行累加得出總?cè)巳簲?shù)。過(guò)去采用檢測(cè)的人群計(jì)數(shù)算法是根據(jù)某些特征如方向梯度直方圖(Histogram of Oriented Gradients, HOG)[10]、Haar小波[11]等來(lái)訓(xùn)練檢測(cè)器,從而將人體檢測(cè)出來(lái)。不過(guò),當(dāng)這種方式用來(lái)計(jì)數(shù)高密度人群時(shí),就會(huì)受到遮擋、重疊等因素的嚴(yán)重干擾,而且這種方式在計(jì)算時(shí)間和計(jì)算資源方面占用比較大,性能不夠優(yōu)異。

針對(duì)高密度場(chǎng)景,有研究人員提出了回歸人群數(shù)目和人群特征兩者間映射關(guān)系的方法。回歸算法先進(jìn)行底層特征提取,然后進(jìn)行模型回歸。其中,底層特征由場(chǎng)景的紋理特征(如LBP(Local Binary Pattern))[12-13]、局部特征(如邊緣特征)、全局特征得來(lái);然而,回歸算法在進(jìn)行模型回歸時(shí)會(huì)丟失掉部分關(guān)鍵的空間信息。

如今,科技的進(jìn)步使得圖形處理器(Graphics Processing Unit, GPU)極大地提升了計(jì)算能力,時(shí)間的推移使得大型數(shù)據(jù)庫(kù)更多地涌現(xiàn),而這兩者的發(fā)展則使得深度學(xué)習(xí)[14]在提取特征和泛化模型方面性能優(yōu)越,甚至在許多方面已經(jīng)完全超越了傳統(tǒng)算法。

鑒于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)顯著提升了目標(biāo)識(shí)別、圖像分類(lèi)[14-15]等多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的準(zhǔn)確度,人群計(jì)數(shù)的研究人員也開(kāi)始嘗試采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)探索人群密度與人群圖像兩者的非線(xiàn)性關(guān)系。實(shí)驗(yàn)證明卷積神經(jīng)網(wǎng)絡(luò)在人群計(jì)數(shù)準(zhǔn)確性方面相比前兩種傳統(tǒng)方法提升顯著。

其實(shí),采用卷積神經(jīng)網(wǎng)絡(luò)方式進(jìn)行人群計(jì)數(shù)也屬于回歸算法的一種。卷積神經(jīng)網(wǎng)絡(luò)先提取輸入圖片中的人群特征,然后通過(guò)回歸方式計(jì)算出人群總數(shù)。回歸方式分為兩種:一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片與人數(shù)間的映射關(guān)系,然后直接回歸計(jì)算出人群總數(shù);另一種是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)輸入圖片和人群密度圖的映射關(guān)系,然后對(duì)密度圖進(jìn)行積分得出人群總數(shù)。

Zhang等[16]是第一個(gè)采用CNN來(lái)解決人群計(jì)數(shù)問(wèn)題的,不過(guò),該方法回歸結(jié)果并非人群總數(shù)而是人群的密度等級(jí)。此后,Zhang等[17]針對(duì)提升跨場(chǎng)景計(jì)數(shù)性能不佳問(wèn)題,提出了一種先訓(xùn)練一些場(chǎng)景圖片,測(cè)試時(shí)從訓(xùn)練集中找到相似場(chǎng)景圖來(lái)微調(diào)網(wǎng)絡(luò)。雖然該算法提升了跨場(chǎng)景人群計(jì)數(shù)的準(zhǔn)確性,但占用的資源過(guò)多。Sindagi等[18]提出了一種輸入為整幅原始圖片的卷積神經(jīng)網(wǎng)絡(luò),這是因?yàn)閳D片切塊存在重疊部分,會(huì)造成計(jì)算重復(fù)。Zhang等[19]提出了一種包含三列卷積核尺寸各異的多列卷積神經(jīng)網(wǎng)絡(luò),各列子網(wǎng)絡(luò)對(duì)應(yīng)處理不同尺度的人群。該算法還考慮到了圖片拍攝角度的問(wèn)題,因此使用自適應(yīng)卷積核來(lái)生成密度圖。

可見(jiàn)針對(duì)人群計(jì)數(shù)這一課題,研究者們已經(jīng)提出了許多以卷積神經(jīng)網(wǎng)絡(luò)[14,20-21]為基礎(chǔ)的算法[16,18-19,22-23],雖然識(shí)別效果不錯(cuò),但仍然有一些基本問(wèn)題沒(méi)有得到很好解決。

由于人頭在不同地方的分布存在很大的差異,許多人群計(jì)數(shù)算法會(huì)將人群圖像劃分為不同人群密度等級(jí)的圖像塊[18,22];然而由于真實(shí)密度圖是基于像素的,所以這種基于圖像塊圖像的分類(lèi)方法無(wú)法與真實(shí)密度圖完美匹配,使得最終估計(jì)的密度圖中會(huì)造成模糊。針對(duì)這一問(wèn)題,本文采用了一種新的不同于傳統(tǒng)注意力機(jī)制的像素級(jí)注意力機(jī)制。這種新方法不再對(duì)圖像塊進(jìn)行分類(lèi),而是生成像素級(jí)的像素掩碼,從而指導(dǎo)密度估計(jì)網(wǎng)絡(luò)獲得更精確的密度值。

綜上所述,本文提出了相應(yīng)的改進(jìn)方法,采用了一種基于像素的注意力機(jī)制來(lái)處理人群非均勻分布的問(wèn)題。設(shè)計(jì)了一種新的以更少的學(xué)習(xí)參數(shù)學(xué)習(xí)到更多代表性特征的單列網(wǎng)絡(luò),可以得到高效的人群計(jì)數(shù)結(jié)果。

1 算法分析

本章將介紹本文的整體算法結(jié)構(gòu)。如圖1所示,本文算法結(jié)構(gòu)主要包括兩個(gè)部分:像素級(jí)注意力機(jī)制(Pixel-level Attention Mechanism, PAM)和人群密度估計(jì)網(wǎng)絡(luò)。

圖1 整體網(wǎng)絡(luò)架構(gòu)Fig. 1 Overall network architecture

1.1 標(biāo)簽密度圖的生成

人群圖像的標(biāo)注是在人頭部中心作的點(diǎn)標(biāo)注。圖2(a)采用一個(gè)3×3大小的方格來(lái)代表人群圖像的局部區(qū)域,像素點(diǎn)值為1表示人,值為0則表示背景。

在圖像中假設(shè)每個(gè)人頭大小都是3×3像素,圖2(b)就是圖2(a)對(duì)應(yīng)的使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人群計(jì)數(shù)的標(biāo)簽密度圖,各個(gè)人頭區(qū)域的概率之和為1,得到完整的人群圖像密度圖后,對(duì)其進(jìn)行積分(求和)就是人群數(shù)目。

圖2 標(biāo)簽密度圖的生成Fig. 2 Generation of label density map

為了保存更多的空間信息,本文實(shí)際使用歸一化高斯核將每個(gè)頭部標(biāo)注模糊,估計(jì)圖像中每個(gè)人頭的大小并轉(zhuǎn)換為密度圖。步驟如下:

xi表示人頭中心坐標(biāo)位置,用函數(shù)δ(x-xi)表示,對(duì)于一幅有N個(gè)人頭標(biāo)注的人群圖像來(lái)說(shuō),可以表示為H(x)函數(shù):

(1)

將式(1)與高斯核進(jìn)行卷積,轉(zhuǎn)化為連續(xù)密度函數(shù),如式(2)所示:

(2)

圖3 原圖和對(duì)應(yīng)生成的標(biāo)簽密度圖Fig. 3 Original image and corresponding generated label density map

1.2 像素注意力機(jī)制

人群計(jì)數(shù)的一些方法[22]將整幅圖像上的小塊分割成不同的密度類(lèi),然后利用分類(lèi)結(jié)果提高局部密度估計(jì)的精度。這種圖像小塊級(jí)的注意力機(jī)制并不能很好地與真實(shí)值相匹配,因?yàn)檎鎸?shí)值反映的是每個(gè)特定像素的密度信息,因此,本文提出了一種像素級(jí)注意力機(jī)制來(lái)定量模擬圖像的局部密度信息。

生成的標(biāo)簽密度圖的每個(gè)像素都表示一個(gè)密度值。根據(jù)這些像素的密度值設(shè)定閾值,分成不同密度程度的類(lèi)別,以反映人群的多樣性。舉例來(lái)說(shuō),類(lèi)別標(biāo)號(hào)為{0,1,2,3,4},其中,{0}表示背景,{1,2,3,4}表示4種不同密集程度的人群。需要注意的是,針對(duì)不同的數(shù)據(jù)集,設(shè)置的密度等級(jí)會(huì)有所不同。至于設(shè)置多少類(lèi)別以及密度等級(jí)閾值大小可根據(jù)實(shí)驗(yàn)確定。本文根據(jù)局部區(qū)域的人頭大小通過(guò)實(shí)驗(yàn)設(shè)置了閾值,而類(lèi)別數(shù)量則由實(shí)驗(yàn)對(duì)比決定。具體實(shí)驗(yàn)結(jié)果見(jiàn)第2.2節(jié)。

將每個(gè)像素劃分到特定類(lèi)別是一個(gè)像素對(duì)像素的語(yǔ)義分割問(wèn)題,因此本文使用了表現(xiàn)性能優(yōu)異的全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[24]來(lái)解決像素劃分問(wèn)題。

直觀來(lái)看,用卷積層替換卷積神經(jīng)網(wǎng)絡(luò)的全連接層就得到了全卷積神經(jīng)網(wǎng)絡(luò)。全卷積神經(jīng)網(wǎng)絡(luò)的輸出是一幅已經(jīng)完成標(biāo)記的圖。

全卷積神經(jīng)網(wǎng)絡(luò)的輸入是大小為h*w的原圖,原圖經(jīng)過(guò)第1次卷積、池化以后縮小為原來(lái)的1/2;然后繼續(xù)進(jìn)行第2次卷積、池化,圖像變?yōu)樵瓉?lái)的1/4;第3次卷積、池化后輸出圖像是原始圖像的1/8,保留本次池化后的特征圖(featureMap);然后經(jīng)歷第4次卷積、池化,輸出圖像是原始圖像的1/16,同樣保留本次池化后的特征圖(featureMap);繼續(xù)進(jìn)行第5次卷積、池化,輸出圖像是原始圖像的1/32;接著進(jìn)行第6次卷積、第7次卷積操作,此時(shí),輸出的圖像依然是原始圖像的1/32大小,但是featureMap數(shù)量改變了,此時(shí)的圖像稱(chēng)作熱圖(heatMap)。

上述保留的熱圖通過(guò)上采樣來(lái)還原圖片,但是得到的只是第5次卷積操作的卷積核特征,精度還不夠高,所以需要繼續(xù)向前迭代,具體的操作是先使用第4次卷積中的卷積核來(lái)反卷積上一個(gè)上采樣還原圖,其實(shí)就是作差值的過(guò)程,然后用第3次卷積中的卷積核來(lái)反卷積剛剛的上采樣還原圖,實(shí)現(xiàn)圖像的整體還原,其中兩次反卷積都是為了補(bǔ)充細(xì)節(jié)。

PAM的網(wǎng)絡(luò)如圖4所示,使用了全卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu),輸入為任意尺寸的自然圖,輸出則是與輸入圖大小相同的分類(lèi)圖。采用反卷積操作對(duì)相應(yīng)卷積層特征圖上采樣,在保留原始圖空間信息的同時(shí)還能夠預(yù)測(cè)每個(gè)像素,實(shí)現(xiàn)逐個(gè)像素的分類(lèi)。采用歸一化指數(shù)函數(shù)(Softmax函數(shù))來(lái)計(jì)算每個(gè)像素的損失,等同于一個(gè)訓(xùn)練樣本對(duì)應(yīng)一個(gè)像素。針對(duì)不同數(shù)據(jù)集,PAM網(wǎng)絡(luò)對(duì)FCN模型分別進(jìn)行微調(diào),只需要重新定義網(wǎng)絡(luò)的輸出類(lèi)別數(shù)(保證輸出的類(lèi)別數(shù)與數(shù)據(jù)集對(duì)應(yīng)的密度級(jí)別種類(lèi)數(shù)一致),從而輸出對(duì)應(yīng)的分類(lèi)圖。

圖4 PAM網(wǎng)絡(luò)(基于FCN結(jié)構(gòu)的像素級(jí)注意掩碼生成網(wǎng)絡(luò))Fig. 4 PAM network (pixel level attention mask generation network based on FCN structure)

1.3 改進(jìn)的人群密度估計(jì)網(wǎng)絡(luò)

人群密度估計(jì)[18,25]網(wǎng)絡(luò)的作用是將輸入圖像轉(zhuǎn)換成密度圖。由于圖像中不同位置的人頭尺度存在很大差異,現(xiàn)有的方法多是采用不同卷積核大小的多列網(wǎng)絡(luò)來(lái)求解;然而,多列網(wǎng)絡(luò)往往需要更多的時(shí)間,而且難以收斂。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),設(shè)計(jì)合理的單列網(wǎng)絡(luò)不僅同樣可以得到良好的計(jì)算結(jié)果,而且還降低了計(jì)算復(fù)雜度。本文設(shè)計(jì)的單列人群密度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 人群密度估計(jì)網(wǎng)絡(luò)Fig. 5 Crowd density estimation network

本文進(jìn)行了大量的實(shí)驗(yàn)來(lái)分析不同因素對(duì)最終結(jié)果的影響,這些因素包括深度、卷積核大小、卷積核大小順序和不同層的連接。為了與基準(zhǔn)方法進(jìn)行比較,本部分只使用原始RGB圖像作為輸入。通常,頭部較大的密度圖需要使用具有較大感受野的濾波器來(lái)提取特征,頭部較小的密度圖則應(yīng)使用感受野較小的濾波器提取特征,而一般來(lái)說(shuō),合理的深層次網(wǎng)絡(luò)效果要優(yōu)于淺層網(wǎng)絡(luò)。

本文的人群密度估計(jì)網(wǎng)絡(luò)屬于卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)思想來(lái)源于Zhang等[19]發(fā)表的多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN),本文設(shè)計(jì)的網(wǎng)絡(luò)如圖5所示,將MCNN并行的3列融合成單列,借鑒其卷積核大小將本文網(wǎng)絡(luò)參數(shù)設(shè)定如下:7層網(wǎng)絡(luò)并且進(jìn)行PAM處理,卷積核分別為3×3、5×5、5×5、7×7、7×7、7×7、3×3(融合第3、5、6層輸出作為第7層輸入)。

每層卷積層的激活函數(shù)均采用修正線(xiàn)性單元(Rectified Linear Unit, ReLU):

(3)

由于池化操作會(huì)丟失細(xì)節(jié)信息,所以?xún)H在第一層和第三層卷積后設(shè)置了步長(zhǎng)為2(stride=2)的最大池化操作;融合第3、5、6層輸出作為第7層輸入的設(shè)置,將合并的特征輸出到卷積核大小為3×3的第7層,在保證了網(wǎng)絡(luò)可以收斂的同時(shí)提高了網(wǎng)絡(luò)效果。把第3、5、6層提取的特征合并后輸出到卷積核大小為3×3的第7層卷積層,使用3×3卷積核替代1×1卷積核,可以估計(jì)出密度圖。該網(wǎng)絡(luò)有3個(gè)特點(diǎn):

1)更深層次的單列架構(gòu)。內(nèi)核的大小和深度對(duì)于CNN來(lái)說(shuō)是至關(guān)重要的。

2)不同層次的拼接。受文獻(xiàn)[14,26-27]的啟發(fā),將低層和高層連接在一起,學(xué)習(xí)底層信息(如形狀、顏色、紋理)和語(yǔ)義信息。

3)卷積核大小的逆序。在本文的網(wǎng)絡(luò)中,小卷積核在較低的層中選擇,而大卷積核在較高的層中選擇。這種策略的優(yōu)點(diǎn)有兩個(gè):首先,使用反序的卷積核大小具有更大的感受野,可以獲得更多的上下文信息;其次,在合并相鄰層時(shí),起到組合淺層和高層不同類(lèi)型信息的作用,提高預(yù)測(cè)準(zhǔn)確性。這是一個(gè)與現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)完全不同的考慮。

通過(guò)這些設(shè)計(jì),本文的網(wǎng)絡(luò)與MCNN[17]和Sindagi[18]相比具有更少的參數(shù),但得到了更好的結(jié)果。

1.4 損失函數(shù)

(4)

對(duì)于人群密度估計(jì)網(wǎng)絡(luò)模塊,采用歐幾里德?lián)p失層來(lái)測(cè)量真實(shí)值與估計(jì)密度圖之間的差異。損失函數(shù)定義如下:

(5)

其中:θ表示網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),Xi是輸入圖像,F(xiàn)(Xi;θ)和Fi分別為預(yù)測(cè)密度圖和真實(shí)值。

2 實(shí)驗(yàn)

在4個(gè)公開(kāi)的具有不同挑戰(zhàn)性的數(shù)據(jù)集上,將本文方法與上下文金字塔神經(jīng)網(wǎng)絡(luò)(Contextual Pyramid Convolutional Neural Network, CP-CNN)、多列卷積神經(jīng)網(wǎng)絡(luò)(MCNN)、交換卷積神經(jīng)網(wǎng)絡(luò)(Switching Convolutional Neural Network, Switch-CNN)[22]、擁塞場(chǎng)景識(shí)別網(wǎng)絡(luò)(Network for Congested Scene Recognition, CSRNet)[28]、檢測(cè)和密度估計(jì)網(wǎng)絡(luò)(Detection and Density Estimation Network, DecideNet)[29]等方法進(jìn)行了比較。這4個(gè)數(shù)據(jù)集分別是Shanghaitech數(shù)據(jù)集(包括part_A和part_B兩部分)、UCF_CC_50數(shù)據(jù)集以及WorldExpo_2010(Expo’10)數(shù)據(jù)集。有關(guān)這些數(shù)據(jù)集的數(shù)據(jù)信息詳見(jiàn)表1。

表1 各數(shù)據(jù)集相關(guān)信息 Tab. 1 Information about each dataset

2.1 評(píng)價(jià)指標(biāo)

根據(jù)現(xiàn)有的人群統(tǒng)計(jì)工作[19,22,28],本文采用較為通用的兩個(gè)評(píng)價(jià)指標(biāo)——平均絕對(duì)誤差(Mean Absolute Error, MAE)和均方誤差(Mean Squared Error, MSE),來(lái)對(duì)本文方法與現(xiàn)有方法的性能進(jìn)行比較。MAE和MSE定義如下:

(6)

(7)

2.2 PAM模塊的閾值選取

正如在2.2節(jié)中分析的那樣,對(duì)于不同的數(shù)據(jù)集需要人為地定義合適的PAM閾值和類(lèi)數(shù),以?xún)?yōu)化性能。本文通過(guò)觀察對(duì)比根據(jù)真實(shí)值(Ground Truth)生成的密度圖對(duì)應(yīng)原圖的人群密集程度,從而劃分出人群密度等級(jí)以及閾值。結(jié)果劃分如表2。圖6(a)~(d)左圖為各數(shù)據(jù)集中選取的一幅原始圖片,圖6(a)~(d)右圖為對(duì)應(yīng)原始圖片經(jīng)PAM分割后得到的分類(lèi)圖。

表2 PAM模塊閾值劃分 Tab. 2 PAM module threshold division

圖6 各數(shù)據(jù)集經(jīng)PAM所得分類(lèi)圖Fig. 6 Classification map of each dataset obtained by PAM

2.3 參數(shù)設(shè)置及訓(xùn)練步驟

2.3.1 參數(shù)設(shè)置

本文模型是在配置為i7- 6700K CPU、NVIDIA GTX 1080 GPU(顯卡內(nèi)存為8 GB)的臺(tái)式機(jī)的Ubuntu系統(tǒng)下的Caffe框架下運(yùn)行的。訓(xùn)練過(guò)程采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD),訓(xùn)練階段的batchsize設(shè)置為1,為了提高模型的擬合速度,沖量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5來(lái)控制模型的過(guò)擬合。具體的模型參數(shù)設(shè)置見(jiàn)表3,其中base_lr為學(xué)習(xí)率,max_iter為最大迭代次數(shù),lr_policy為學(xué)習(xí)策略。

表3 訓(xùn)練參數(shù)設(shè)置 Tab. 3 Training parameter setting

2.3.2 訓(xùn)練步驟

1)根據(jù)數(shù)據(jù)集的真實(shí)標(biāo)注Ground Truth采用歸一化高斯核生成標(biāo)簽密度圖density_map;

2)根據(jù)設(shè)定的閾值參數(shù)將density_map轉(zhuǎn)變?yōu)閯澐至讼袼氐燃?jí)的掩碼標(biāo)簽圖gt,采用FCN對(duì)原圖和掩碼標(biāo)簽圖gt進(jìn)行訓(xùn)練;

3)使用訓(xùn)練的FCN獲取圖像n通道標(biāo)簽圖(n為該數(shù)據(jù)集劃分的密度級(jí)別數(shù)),然后與原圖(3通道)融合為n+3通道圖,作為人群密度估計(jì)網(wǎng)絡(luò)的輸入;

4)訓(xùn)練人群密度估計(jì)網(wǎng)絡(luò),使用訓(xùn)練的模型來(lái)估計(jì)圖片的人群密度,采用回歸計(jì)算得到人群總數(shù)。

算法偽代碼:

Train(){

初始化network的權(quán)和閾值;

while 終止條件不滿(mǎn)足{

for samples中的每個(gè)訓(xùn)練樣本X{

向前傳播輸入;

for 隱藏或輸出層每個(gè)單元j{

相對(duì)于前一層i,計(jì)算單元j的凈輸入;

計(jì)算單元j的輸出;

}

反向傳播誤差;

for 輸出層每個(gè)單元j{

計(jì)算誤差,選擇ReLU函數(shù)作為激活函數(shù);

}

for network中每個(gè)權(quán)重ωij{

權(quán)重增值;

權(quán)重更新;

}

for network中每個(gè)偏差Qj{

偏差增值;

偏差更新;

}

}

}

2.4 Shanghaitech數(shù)據(jù)集

MCNN[19]中首次建立Shanghaitech數(shù)據(jù)集,數(shù)據(jù)集分為part_A和part_B兩部分:part_A的圖片總共482幅,是從互聯(lián)網(wǎng)上隨機(jī)收集的;而part_B的圖片總共716幅,是上海市區(qū)繁華的街道圖片。此外,part_B圖片中的人群分布相比part_A圖片中的人群分布更為稀疏。

該數(shù)據(jù)集總共有1 198幅標(biāo)記圖片:part_A部分300幅用于訓(xùn)練,182幅用于測(cè)試;part_B部分400幅用于訓(xùn)練,316幅用于測(cè)試。具體的信息可以在MCNN[19]中找到。表4是本文方法與其他方法在Shanghaitech數(shù)據(jù)集上的結(jié)果對(duì)比。

表4 Shanghaitech數(shù)據(jù)集上不同方法結(jié)果對(duì)比 Tab. 4 Comparison of results of different methods on Shanghaitech dataset

2.5 UCF_CC_50 數(shù)據(jù)集

UCF_CC_50數(shù)據(jù)集包含來(lái)自互聯(lián)網(wǎng)的50幅圖像。這是一個(gè)非常具有挑戰(zhàn)性的數(shù)據(jù)集,因?yàn)樗粌H圖像數(shù)量非常有限,而且圖像的人群數(shù)量也變化巨大。人頭計(jì)數(shù)范圍在94~4 543,每幅圖像平均有1 280人。作者總共為這50幅圖像提供了63 974條標(biāo)注。

本文將這50幅圖像以7∶3的比例分成訓(xùn)練集和測(cè)試集。表5是本文方法與其他方法在UCF_CC_50數(shù)據(jù)集上的結(jié)果對(duì)比。

表5 UCF_CC_50數(shù)據(jù)集上不同方法的結(jié)果對(duì)比 Tab. 5 Comparison of results of different methods on UCF_CC_50 dataset

2.6 WorldExpo’10 數(shù)據(jù)集

WorldExpo’10 數(shù)據(jù)集是由Zhang等提出的[16]。該數(shù)據(jù)集包含1 132個(gè)帶注釋的視頻序列,由108個(gè)監(jiān)視槍攝像機(jī)拍攝,來(lái)自于2010年舉辦的上海世界博覽會(huì)。此數(shù)據(jù)集提供了3 980幀圖像,共計(jì)199 923個(gè)行人頭部中心標(biāo)注。其中3 380幀為訓(xùn)練集,另外600幀為測(cè)試集,測(cè)試數(shù)據(jù)集包含5個(gè)不同場(chǎng)景,每個(gè)場(chǎng)景有120個(gè)標(biāo)記幀。測(cè)試場(chǎng)景提供了5個(gè)不同的感興趣區(qū)域(Regions Of Interest, ROI),因此人群計(jì)數(shù)只在ROI部分進(jìn)行。與其他數(shù)據(jù)集相比,該數(shù)據(jù)集人群數(shù)量相對(duì)較小,平均每個(gè)圖像有50人。表6是本文方法與其他方法在WorldExpo’10數(shù)據(jù)集上的結(jié)果對(duì)比。

表6 Expo’10數(shù)據(jù)集上不同方法的MAE比較結(jié)果 Tab. 6 MAE comparison of different methods on Expo ’10

3 結(jié)語(yǔ)

人群計(jì)數(shù)的任務(wù)是準(zhǔn)確估計(jì)出圖像中人群的總?cè)藬?shù),同時(shí)給出人群密度的分布情況。人群計(jì)數(shù)可以用于事故預(yù)防、空間規(guī)劃、消費(fèi)習(xí)慣分析和交通調(diào)度等多個(gè)領(lǐng)域。除此之外,圖像人群計(jì)數(shù)算法還可以應(yīng)用到一些其他的計(jì)數(shù)領(lǐng)域,例如野生動(dòng)物計(jì)數(shù)、車(chē)輛計(jì)數(shù)、細(xì)胞計(jì)數(shù)等領(lǐng)域,因此,人群計(jì)數(shù)的研究具有十分重要的意義。

本文提出了一種由兩個(gè)模塊生成高質(zhì)量人群密度圖,達(dá)到精確的人群計(jì)數(shù)效果的新體系結(jié)構(gòu)。首先,與現(xiàn)有的采用分塊注意機(jī)制方法相比,生成像素級(jí)掩碼并與原圖結(jié)合,能夠更精確地估計(jì)局部密度。此外,本文所采用的單列網(wǎng)絡(luò)與其他估計(jì)器相比,該網(wǎng)絡(luò)可以用更少的參數(shù)得到相似甚至更好的結(jié)果。最后,在三個(gè)高挑戰(zhàn)性的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),通過(guò)對(duì)比表明本文方法具有更好的性能。

猜你喜歡
計(jì)數(shù)卷積密度
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱(chēng)空洞卷積模塊①
古代的計(jì)數(shù)方法
古代的人們是如何計(jì)數(shù)的?
“密度”練習(xí)
密度的應(yīng)用趣談
密度的不變性與可變性