余 鷹 李劍飛 錢 進 蔡 震 朱志亮
人群計數(shù)(Crowd Counting)屬于目標計數(shù)(Ob- ject Counting)領(lǐng)域的研究范疇,也是智能視頻監(jiān)控的重要研究內(nèi)容之一[1],可實時估計目標場景中人群的數(shù)量、密度或分布,能對擁擠人群及時預(yù)警或輔助異常事件的檢測,在視頻監(jiān)控[2-3]、公共安全管理[4-5]、商業(yè)信息采集[6-8]等領(lǐng)域具有廣泛的應(yīng)用前景.同時,人群計數(shù)算法可遷移到其它目標計數(shù)任務(wù),如細菌與細胞計數(shù)[9]、車輛計數(shù)[10]等,拓展人群計數(shù)算法的應(yīng)用范圍.因此,人群計數(shù)算法的研究具有重要的現(xiàn)實意義和應(yīng)用價值.
隨著計算機視覺和人工智能技術(shù)的快速發(fā)展,基于視頻圖像的人群計數(shù)算法不斷涌現(xiàn).按照工作原理的不同,可將現(xiàn)有的人群計數(shù)算法歸為3類:基于檢測的人群計數(shù)算法、基于區(qū)域回歸的人群計數(shù)算法和基于密度估計的人群計數(shù)算法.基于檢測的人群計數(shù)算法在遮擋嚴重的場景中應(yīng)用時存在一定的局限性,因此不適用于密集場景的人群計數(shù).基于區(qū)域回歸的人群計數(shù)算法雖然可用于大規(guī)模人群計數(shù)任務(wù),但只關(guān)注場景的目標總數(shù),無法提供人群的空間分布等細節(jié)信息.基于密度估計的人群計數(shù)算法適用于大規(guī)模群體目標數(shù)量統(tǒng)計,在每個像素點上提取圖像特征,再訓(xùn)練回歸模型,直接學(xué)習(xí)從像素點特征到目標密度圖的映射關(guān)系.生成的密度圖既反映場景中的人群分布狀況,也可通過區(qū)域密度求和得到任意區(qū)域的人群數(shù)量,是當前最普遍的也是最受關(guān)注的計數(shù)框架.
基于密度估計的人群計數(shù)算法又可劃分為傳統(tǒng)算法和基于深度學(xué)習(xí)的算法.傳統(tǒng)算法大多依賴手工特征,受手工特征表達能力不足的限制,性能較差,無法滿足人群密集場景的計數(shù)需求.隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,基于深度學(xué)習(xí)的人群計數(shù)算法逐漸占據(jù)主導(dǎo)地位.Zhang等[11]提出Crowd CNN(Convolutional Neural Networks) Model,通過跨場景訓(xùn)練交替預(yù)估人群密度和數(shù)量.為了解決人群場景中大規(guī)模尺度變化問題,Zhang等[12]提出MCNN(Multi-column CNN),每個分支采用不同大小卷積核,提取圖像中不同尺度特征,但是,MCNN輸出的人群密度圖較模糊且計算量較大.為此,Sam等[13]提出Switch-CNN(Switching CNN),在MCNN的基礎(chǔ)上加入Switch開關(guān),并將圖像進行平均劃分,然后自適應(yīng)地選擇合適的分支送入網(wǎng)絡(luò)中進行訓(xùn)練.該方法雖然一定程度上緩解MCNN的密度圖模糊問題,但在Switch選擇錯誤時,會額外增加錯誤開銷,降低準確率.Sindagi等[14]針對MCNN生成的密度圖模糊等問題,提出CP-CNN(Contextual Pyramid CNN),顯式合并全局和局部上下文信息,生成高質(zhì)量的人群密度圖.
多陣列網(wǎng)絡(luò)結(jié)構(gòu)雖然能提取多尺度特征,但訓(xùn)練難度較大,模型參數(shù)較多.近年來,Li等[15]提出CSRNet(Dilated CNN for Understanding the Highly Congested Scenes),在通過空洞卷積[16]擴大模型的感受野的同時保留原圖分辨率,并以此避免空間信息丟失.Cao等[17]提出SANet(Scale Aggregation Net-work),包含編碼器和解碼器兩部分.編碼器通過尺度聚合模塊提取多尺度特征,解碼器通過使用轉(zhuǎn)置卷積生成高分辨率密度圖.
總之,基于深度學(xué)習(xí)的人群計數(shù)算法依賴深度學(xué)習(xí)模型強大的特征自學(xué)習(xí)能力,不僅可有效避免手工特征設(shè)計過于繁瑣的問題,而且能靈活獲取圖像中人群分布的細節(jié)信息,提升密集場景人群計數(shù)的精度.
目前,雖然人群計數(shù)問題的相關(guān)研究已取得長足進步,但在人群密集、背景噪聲干擾較大的場景中,要實現(xiàn)準確的人群計數(shù)依然存在諸多困難和挑戰(zhàn).首先,良好的特征表達是準確計數(shù)的基礎(chǔ),然而目標尺度多樣性減弱提取特征的表達能力,如何獲取多尺度信息,增強特征判別力是提升計數(shù)算法性能的關(guān)鍵問題之一.其次,復(fù)雜背景噪聲會干擾計數(shù),因此如何去除背景噪聲,以便生成高質(zhì)量人群分布密度圖一直是實現(xiàn)準確計數(shù)的關(guān)鍵問題之一.針對尺度多樣性,Zhang等[12]提出MCNN,通過多陣列卷積結(jié)構(gòu)提取多尺度特征,但也有研究表明,這種多陣列結(jié)構(gòu)中不同分支學(xué)習(xí)的特征幾乎相似[15].針對背景噪聲,Hossain等[18]嘗試通過注意力機制引導(dǎo)網(wǎng)絡(luò)自動聚焦人群所在區(qū)域,但模型參數(shù)量和計算復(fù)雜度均較高,在高密度的場景中計數(shù)效果依舊不佳.
針對上述問題,本文提出基于多尺度特征融合的抗背景干擾人群計數(shù)網(wǎng)絡(luò)(Anti-Background Inter-ference Crowd Counting Network Based on Multi-scale Feature Fusion, AntiNet-MFF).以語義分割網(wǎng)絡(luò)U-Net[19]為基礎(chǔ),一方面通過串行跳層連接結(jié)構(gòu)獲取不同感受野,然后在不同尺度上捕捉信息并融合.其中:淺層網(wǎng)絡(luò)感受野較小,提取的高分辨率細粒度表層信息包含大量空間幾何細節(jié),適用于檢測小目標;深層網(wǎng)絡(luò)感受野較大,可關(guān)注到大目標,提取的高級抽象語義信息包含與整體輪廓相關(guān)的信息,有利于區(qū)分人群和背景區(qū)域.融合不同抽象層級的特征,可在不采用多陣列卷積結(jié)構(gòu)的條件下,提升計數(shù)模型對目標尺度變化的適應(yīng)性.為了進一步增強多尺度信息融合的效果,在網(wǎng)絡(luò)中添加多層次特征分割提取模塊(Hierarchical Feature Spilt Block, HFS Block)和多尺度上下文特征聚合模塊.另一方面,為了提升計數(shù)模型對人群區(qū)域的關(guān)注度,降低背景噪聲對計數(shù)性能的影響,在多尺度特征融合的基礎(chǔ)上,進行人群與背景區(qū)域的分割,將生成的背景分割圖作為注意力,指導(dǎo)計數(shù)模型聚焦人群區(qū)域,提升密度圖的生成質(zhì)量.
本文針對人群密集場景存在的目標多尺度及背景噪聲干擾的問題,基于U-Net網(wǎng)絡(luò),提出基于多尺度特征融合的抗背景干擾人群計數(shù)網(wǎng)絡(luò)(AntiNet-MFF).利用串行多分支結(jié)構(gòu)提取人群圖像多尺度特征,然后借助跳層連接實現(xiàn)不同尺度特征的融合,同時運用語義分割技術(shù)劃分人群和背景區(qū)域,生成注意力,指導(dǎo)計數(shù)模型專注人群區(qū)域,降低背景噪聲干擾.AntiNet-MFF整體架構(gòu)如圖1所示,包含編碼器和解碼器兩部分.
圖1 AntiNet-MFF整體架構(gòu)
前端編碼器的主要任務(wù)是提取圖像多尺度特征,便于后續(xù)的注意力生成和人群計數(shù).為了提取更豐富的多尺度特征,將U-Net網(wǎng)絡(luò)中3×3卷積全部替換為多層次特征分割提取模塊(HFS Block),然后經(jīng)過多次下采樣后,提取的多尺度特征送入后端解碼器進行特征融合.在解碼過程中,這些多尺度特征會經(jīng)歷多次融合和上采樣,最終生成背景分割注意力圖(Background-Segmentation Attention Map)和特征圖(Feature Map).
為了獲取高質(zhì)量人群密度圖(Density Map),將兩者對應(yīng)位置元素相乘,讓注意力指導(dǎo)計數(shù)過程,降低背景噪聲和人群目標尺度多樣化帶來的干擾.
鑒于網(wǎng)絡(luò)的輸入為任意大小的圖像,因此整個網(wǎng)絡(luò)采用全卷積結(jié)構(gòu),確保輸出的密度圖與輸入圖像尺寸相同.AntiNet-MFF結(jié)構(gòu)圖如圖2所示.
圖2 AntiNet-MFF網(wǎng)絡(luò)結(jié)構(gòu)圖
在CNN中,淺層特征圖分辨率較高,通常包含大量空間細節(jié)信息,適用于目標定位.深層特征圖保留較豐富的語義信息,適用于目標分類.語義分割網(wǎng)絡(luò)U-Net通過跳接結(jié)構(gòu)直接融合不同層次的多尺度特征,即將淺層詳細的空間上下文信息逐步融合到更深層次的特征中,增強特征的表達能力[20].
AntiNet-MFF網(wǎng)絡(luò)架構(gòu)參考U-Net的網(wǎng)絡(luò)結(jié)構(gòu),但在編碼器部分使用多層次特征分割提取模塊替換U-Net網(wǎng)絡(luò)原有的3×3卷積,在具有與普通卷積相近參數(shù)量的前提下,對卷積通道進行多層次分割提取,旨在將淺層特征圖中的細節(jié)信息進行多次分割復(fù)用后獲得更清晰的特征表達.編碼器最后一層連接多尺度上下文特征聚合模塊,進一步提取多尺度特征,為解碼階段提供更清晰的語義指導(dǎo).
1.1.1 基礎(chǔ)網(wǎng)絡(luò)
首先,參照U-Net網(wǎng)絡(luò)搭建編碼器基礎(chǔ)模型.編碼器的骨干網(wǎng)絡(luò)由13個卷積層和4個下采樣層組成,它們是多尺度特征提取的基礎(chǔ).具體結(jié)構(gòu)如圖2所示,編碼器共包含4個下采樣層,其中“卷積層(2 3×3 64)+下采樣”表示2個通道數(shù)為64的卷積層連接一個下采樣層,卷積核大小為3×3.編碼器基礎(chǔ)模型搭建好之后,再將除第1個卷積層之外的所有3×3卷積替換成HFS Block.這樣經(jīng)過多次卷積和下采樣之后,卷積層1~卷積層4這4層輸出的特征圖大小分別是原始圖像的1/2、1/4、1/8和1/16.與多陣列計數(shù)網(wǎng)絡(luò)偏好采用不同大小卷積核提取多尺度特征不同,AntiNet-MFF從單陣列網(wǎng)絡(luò)的不同卷積層提取多尺度特征,具有更靈活的訓(xùn)練過程和更少的計算量.
1.1.2 多層次特征分割提取模塊
多層次特征分割提取模塊(HFS Block)參照GhostNet網(wǎng)絡(luò)[21]進行構(gòu)建,基本架構(gòu)如圖3所示,通過替換普通卷積,以分割融合的方式提取多尺度特征.
圖3 HFS Block架構(gòu)圖
HFS Block的具體流程如圖4所示.首先,輸入圖像經(jīng)過1×1卷積獲得初始特征圖x.然后,x分割成s組特征子圖xi(i=1,2,…,s),每組的通道數(shù)均為w.第1組特征子圖x1直接作為本組的輸出y1,1,拼接到最后的輸出層.第2組特征子圖x2經(jīng)過3×3卷積輸出特征圖y2,等分為y2,1和y2,2,y2,1作為本組的輸出,y2,2送入下一組.其余特征子圖xi(i=3,4,…,s)與前一組輸入的yi-1,2進行拼接,然后經(jīng)過3×3卷積輸出特征圖yi(i=3,4,…,s).yi(i=3,4,…,s-1)被等分為yi,1和yi,2,yi,1作為本組輸出,yi,2送入下一組.第s組特征圖ys直接作為本組的輸出ys,1.此過程多次重復(fù),直到所有特征子圖均處理完畢.最后,拼接各組的輸出yi,1(i=1,2,…,s),使其和初始特征圖的通道數(shù)保持一致,其中各個yi,1的通道數(shù)各不相同.拼接后的特征圖會經(jīng)過1×1卷積進行重構(gòu).
圖4 HFS Block結(jié)構(gòu)圖
例如,若輸入的通道數(shù)為32,s=4,經(jīng)過1×1的卷積后通道數(shù)變?yōu)?4,均分為4個通道數(shù)為16的組.第1組直接拼接到輸出層,第2組特征圖經(jīng)過3×3卷積后,在通道維度上均分為通道數(shù)為8的兩個部分,第1部分直接拼接到輸出層,第2部分與第3組特征子圖進行拼接,通道數(shù)為24.然后,拼接后的第3組經(jīng)過3×3卷積后,在通道維度上均分為通道數(shù)為12的兩個部分,第1部分直接拼接到輸出層,第2部分與第4組進行拼接,通道為28.隨后,拼接后的第4組進行3×3卷積,直接拼接至輸出層.最后,4個通道數(shù)分別為16、8、12、28的特征進行拼接,輸出通道數(shù)為64的特征圖.分組數(shù)量s取不同值對計數(shù)模型的性能具有一定影響.
多層次特征分割提取模塊中yi的劃分是實現(xiàn)多尺度感知的關(guān)鍵.yi被均分為yi,1和yi,2,yi,1直接作為本組的輸出,更專注于圖像細節(jié)信息的表達,yi,2參與下一組的拼接.對于特征子圖xi,來自上一組的yi-1,2感受野更大,適合捕獲更大的目標,同時也包含豐富的抽象語義信息,可對多尺度特征的提取進行指導(dǎo).最后,拼接每組輸出的yi,1,復(fù)原成與原始輸入具有相同通道數(shù)的特征圖.yi的計算公式如下:
其中,Conv3×3(·)表示3×3卷積,xi表示經(jīng)過1×1卷積分割得到的第i組輸入,⊕表示通道上的拼接(Concat)操作.相比像素間簡單疊加的相加(Add)操作,拼接能保留特征表示的空間相關(guān)性信息.
1.1.3 多尺度上下文特征聚合模塊
多尺度上下文特征聚合模塊結(jié)構(gòu)如圖5所示,用于獲取不同感受野的上下文信息,擴展多尺度表達的范圍.
圖5 多尺度上下文特征聚合模塊結(jié)構(gòu)圖
多層次特征分割提取模塊在編碼階段能提取不同層級特征,在一定程度上豐富特征的尺度多樣性,但是連續(xù)的卷積和池化僅能在有限的尺度范圍內(nèi)提取多尺度信息.因此,采用金字塔池化[22]將編碼器最后一層卷積層4的特征圖池化為3種不同的尺寸.然后,利用1×1卷積整合不同通道維度上的特征信息,最后通過對低維的上下文信息特征圖進行雙線性插值上采樣,使其和輸入特征圖尺寸保持一致.
解碼器的主要作用是通過跳接進一步對編碼器提取的多尺度特征進行融合,并生成背景分割注意力圖,然后在注意力的指導(dǎo)下,生成更準確細致的人群密度圖.
如圖2所示,編碼器提取的特征圖經(jīng)過多尺度聚合輸入解碼器后,首先會進行上采樣,得到的特征圖與卷積層3輸出的特征圖進行拼接,然后輸入CCU (拼接+卷積層+上采樣)模塊進行聚合,CCU模塊的結(jié)構(gòu)如圖6(a)所示.圖2中的第2個CCU模塊聚合卷積層2跳接后的特征.經(jīng)過2個CCU 模塊的卷積和上采樣操作之后,輸出的特征圖與卷積層1跳接后的特征圖進行拼接,然后輸入CC(拼接+卷積層)模塊,CC模塊的結(jié)構(gòu)如圖6(b)所示.
(a)CCU 模塊 (b)CC模塊
CC模塊和CCU模塊均可聚合不同層次的多尺度特征,但是相比CCU模塊,CC模塊在結(jié)構(gòu)上缺少上采樣層,同時使用更平滑的卷積層實現(xiàn)特征轉(zhuǎn)換.與編碼器類似,解碼器中原有的3×3卷積全部替換為HFS Block.
解碼器包含兩路輸出,如圖2所示.路徑1生成背景分割注意力圖,路徑2融合注意力圖和特征圖,生成高質(zhì)量的密度圖進行計數(shù).
1.2.1 背景分割注意力圖
背景分割注意力圖可提供輸入圖像中人群的位置分布信息,減少背景噪聲對計數(shù)的干擾.設(shè)經(jīng)過CC模塊生成的密度特征圖為fden,則生成的背景分割注意力圖為:
Mb-seg=Sigmoid(W?fden+b),
其中,?表示卷積操作,W和b分別表示卷積的權(quán)重和偏置,Sigmoid(·)表示激活函數(shù),可在網(wǎng)絡(luò)層引入非線性,該函數(shù)輸出0~1之間的概率表示,用于指示人群區(qū)域的概率.
1.2.2 注意力特征融合
背景分割注意力圖生成后,還需要和解碼獲得的密度特征圖fden進行融合,從而在準確定位人群空間位置的基礎(chǔ)上生成高質(zhì)量的密度圖.首先,背景分割注意力圖Mb-seg通過和密度特征圖fden對應(yīng)位置元素相乘生成重新定義的密度特征圖:
Fre=fden⊙Mb-seg.
再通過1×1卷積動態(tài)學(xué)習(xí)兩者之間的關(guān)系,從而生成高質(zhì)量的密度圖:
FH-qua=Conv1×1(Fre).
其中⊙表示對應(yīng)位置元素相乘(Element-wise Mul-
tiply).在進行操作之前,Mb-seg需要進行擴張,使通道數(shù)和fden的通道數(shù)保持一致.
為了驗證AntiNet-MFF的有效性,在Shanghai-Tech[12]、UCF_CC_50[22]、UCF-QNRF[23]這3個經(jīng)典的人群計數(shù)數(shù)據(jù)集上進行實驗.數(shù)據(jù)集的詳細信息如表1所示.
表1 實驗數(shù)據(jù)集
ShanghaiTech數(shù)據(jù)集共包含1 198幅圖像,分為part_A和part_B兩部分,共標注330 165個頭部坐標.人群分布較密集的Part A數(shù)據(jù)集包含300幅訓(xùn)練圖像,182幅測試圖像,圖像分辨率是變化的.人群分布較稀疏的Part B數(shù)據(jù)集包含400幅訓(xùn)練圖像,316幅測試圖像,圖像分辨率固定不變.總體上,在ShanghaiTech數(shù)據(jù)集上進行精確計數(shù)是具有挑戰(zhàn)性的,因為該數(shù)據(jù)集無論是場景類型、透視角度,或是人群密度都是變化多樣的.
UCF_CC_50數(shù)據(jù)集內(nèi)容涵蓋音樂會、抗議活動、體育場和馬拉松比賽等不同場景,是第一個真正意義上具有挑戰(zhàn)性的大規(guī)模人群計數(shù)數(shù)據(jù)集.包含50幅不同分辨率的圖像,共標注63 075個頭部位置,其中每幅圖像包含的人數(shù)從94到4 543不等,密度等級變化極大.
UCF-QNRF數(shù)據(jù)集具有場景豐富,視角、密度及光照條件均變化多樣的特點,是一個具有挑戰(zhàn)性的人群計數(shù)數(shù)據(jù)集,包含1 535幅密集人群場景圖像,其中訓(xùn)練集1 201幅圖像,測試集334幅圖像,共標注1 251 642個目標.由于標注數(shù)量眾多,該數(shù)據(jù)集適合采用深度卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練.此外,該數(shù)據(jù)集圖像的分辨率很高,因此在訓(xùn)練過程中可能出現(xiàn)內(nèi)存不足的問題.
由于人群數(shù)據(jù)集標注困難,特別是在密集場景中,對人頭進行標注的代價極大,因此人群計數(shù)圖像資源十分有限.為了獲取更多的實驗數(shù)據(jù),在訓(xùn)練之前對人群圖像進行預(yù)處理.首先,將ShanghaiTech數(shù)據(jù)集上所有圖像的邊長調(diào)整至400.同時,針對UCF-QRNF、UCF_CC_50數(shù)據(jù)集圖像分辨率過大導(dǎo)致計算量過高的問題,統(tǒng)一將圖像調(diào)整為1 024×768的固定大小.然后,借鑒CSRNet[15]的數(shù)據(jù)擴充方法對訓(xùn)練數(shù)據(jù)進行裁剪.如圖7所示,在原圖上裁剪9個尺寸為原圖1/4的圖像子塊,其中前4個子塊P1由原圖均分為4份得到,后5個子塊P2由原圖隨機裁剪而成.后續(xù)將以0.5的概率對裁剪得到的圖像進行隨機水平翻轉(zhuǎn),并以0.3的概率對其進行γ對比度變換.對于ShanghaiTech 數(shù)據(jù)集上存在灰色圖像的現(xiàn)象,會以0.1的概率將彩色圖像轉(zhuǎn)換成灰色圖像.同時,為了匹配模型輸出,ground truth密度圖和背景分割注意力圖均被調(diào)整為原圖的1/2.
圖7 數(shù)據(jù)增強裁剪示例圖
在人群計數(shù)任務(wù)中,數(shù)據(jù)集通常會標注人頭的中心位置,為了實現(xiàn)基于密度圖的人群計數(shù),需要將這些人頭標注信息轉(zhuǎn)化為人群密度圖.本文參照SFANet(Dual Path Multi-scale Fusion Network with Attention Mechanism)[24],采用高斯核函數(shù)[25]對中心坐標進行處理,生成人群密度圖.具體步驟如下.
首先,使用脈沖函數(shù)δ(x-xi)表示人群圖像中N個人頭坐標:
其中xi為第i個人頭的中心位置.
然后,將圖像的人頭坐標通過高斯核函數(shù)轉(zhuǎn)化為連續(xù)的密度函數(shù),得到模糊化后的人群密度圖,即使用高斯核函數(shù)Gμ,σ2(X)對H(x)進行卷積,得到密度函數(shù):
其中,μ為高斯核的大小,σ為高斯核的標準差.
在ShanghaiTech數(shù)據(jù)集上,采用固定高斯核的方式生成人群密度圖,μ=15,σ=4.在UCF-QRNF、UCF_CC_50數(shù)據(jù)集上,采用自適應(yīng)高斯核的方式生成人群密度圖,再將密度圖尺寸統(tǒng)一規(guī)整為1 024×768,μ、σ采用文獻[26]的計算方法得到:
其中,int(·)為取整函數(shù),w為圖像寬度.
最終生成的密度圖FGT(x)作為ground truth密度圖參與訓(xùn)練.
根據(jù)已有的標注信息及密度圖可進一步生成背景分割注意力圖(B-Seg Attention Map).首先,使用固定高斯核函數(shù)生成人群分布密度圖FGT(x),然后根據(jù)給定的閾值th,如th=0.001,對得到的FGT(x)進行二值化處理,
對于FGT(x)中所有像素點pi,如果pi>th,映射為背景分割注意力圖上的像素值1;否則映射為像素值0,由此可得到人群背景分割注意力圖SGT(x).
需要特別說明的是,此處的背景分割注意力圖不同于傳統(tǒng)意義上的語義分割[27].后者需要詳細擬合每位行人的準確輪廓,而前者并不需要準確了解每人的詳細輪廓,主要是為了顯示人頭的大致位置和分布,以便在模型的訓(xùn)練過程中對人頭所在區(qū)域進行重點關(guān)注,從而達到強化人群區(qū)域和弱化背景噪聲的目的.實驗結(jié)果也表明,即使是這樣簡單的策略對計數(shù)性能的影響也是積極的.
本文選用預(yù)測人數(shù)與真實標注人數(shù)的絕對誤差(Mean Absolute Error, MAE)及均方誤差(Mean Square Error, MSE)度量網(wǎng)絡(luò)性能,其中,MAE主要評估網(wǎng)絡(luò)精度,MSE評估網(wǎng)絡(luò)魯棒性.MAE和MSE值越小,說明預(yù)測值誤差越小,性能越優(yōu),泛化能力越強.具體計算公式如下:
為預(yù)測人數(shù),F(xiàn)(l,w)為密度圖在(l,w)處的像素值,L、W分別為預(yù)測密度圖的長和寬.
為了生成人群分布密度圖,參考文獻[12],采用歐氏距離作為人群計數(shù)的損失函數(shù),用于度量預(yù)測密度圖與真實密度圖之間的差異:
除了密度圖回歸之外,對于背景分割注意力模塊,還引入交叉熵作為損失函數(shù):
在整個網(wǎng)絡(luò)的訓(xùn)練過程中,將兩種損失加權(quán)求和,生成最終的損失函數(shù):
Loss=Lden+λLb-seg,
其中,超參數(shù)λ可調(diào)節(jié)兩種損失的比例,本文設(shè)λ=0.1.
算法的實現(xiàn)基于Pytorch框架,數(shù)據(jù)集遍歷次數(shù)為500,批量大小設(shè)為1,采用Adam(Adaptive Moment Estimation)優(yōu)化器,初始學(xué)習(xí)率設(shè)為1×10-7,動量因子設(shè)為0.95,權(quán)重衰減設(shè)為5×10-4,填充方式采用邊界添加0(same)的方式.此外,后期在損失趨于穩(wěn)定時,對學(xué)習(xí)率進行適當調(diào)整.
在訓(xùn)練之前,對訓(xùn)練集樣本進行歸一化處理,保證圖像中每個像素點的值都位于(-1,1)內(nèi),避免出現(xiàn)訓(xùn)練內(nèi)存溢出.
本文選擇如下對比網(wǎng)絡(luò):Crowd CNN Model、MCNN[12]、Switch-CNN[13]、CP-CNN[14]、CSRNet[15]、SANet[17]、文獻[23]網(wǎng)絡(luò)、SFANet[26]、ic-CNN(Itera-tive Counting CNN)[28]、文獻[29]網(wǎng)絡(luò).各對比網(wǎng)絡(luò)在3個數(shù)據(jù)集上的實驗數(shù)據(jù)均取自原文獻.
各網(wǎng)絡(luò)在ShanghaiTech數(shù)據(jù)集上的實驗結(jié)果如表2所示,其中ic-CNN采用雙分支CNN結(jié)構(gòu)以生成高質(zhì)量密度圖.由表可見,AntiNet-MFF在MAE和MSE指標上的表現(xiàn)均為最優(yōu).無論是采用多陣列結(jié)構(gòu)的計數(shù)模型,如MCNN,還是采用空洞卷積的計數(shù)模型,如CSRNet,性能表現(xiàn)均差于AntiNet-MFF,這說明AntiNet-MFF的多尺度特征表達能力更強.此外,通過背景分割剔除背景噪聲的干擾,使網(wǎng)絡(luò)更專注于人群區(qū)域,也有助于計數(shù)性能的提升.
表2 各網(wǎng)絡(luò)在ShanghaiTech數(shù)據(jù)集上的實驗結(jié)果
MAE和MSE的收斂趨勢如圖8所示.由圖可知,經(jīng)過多次迭代,AntiNet-MFF的MAE、MSE可收斂到較穩(wěn)定的值.
各網(wǎng)絡(luò)在UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果如表3所示.由表可見,AntiNet-MFF的準確率和魯棒性優(yōu)于大部分計數(shù)網(wǎng)絡(luò),僅次于SFANet.SFANet也包含前端特征提取和后端特征融合兩部分,但后端由平行的兩路網(wǎng)絡(luò)構(gòu)成,一路生成注意力圖,另一路融合多尺度信息生成密度圖,而AntiNet-MFF的后端將注意力生成和信息融合在同一路網(wǎng)絡(luò)中完成.相比SFANet,AntiNet的后端減少一半?yún)?shù)量.此外,由于AntiNet-MFF的前后端都融入多層次特征分割提取模塊,能在保持性能不變的前提下,進一步降低參數(shù)量,因此,雖然AntiNet-MFF的性能略次于SFANet,但更簡單,計算復(fù)雜度更低.
表3 各網(wǎng)絡(luò)在UCF_CC_50數(shù)據(jù)集上的實驗結(jié)果
AntiNet-MFF在UCF_CC_50數(shù)據(jù)集上的MAE和MSE的收斂趨勢如圖9所示.由圖可見,經(jīng)過多次迭代,MAE和MSE均可收斂到較穩(wěn)定的值.此外,需要特別說明的是,UCF_CC_50數(shù)據(jù)集的樣本數(shù)據(jù)量太少,驗證效果可能偏弱.
圖9 AntiNet-MFF在UCF_CC_50數(shù)據(jù)集上的MAE和MSE曲線
各網(wǎng)絡(luò)在UCF-QNRF數(shù)據(jù)集上的實驗結(jié)果如表4所示,其中,文獻[29]網(wǎng)絡(luò)是一個端到端級聯(lián)CNN網(wǎng)絡(luò),可同時完成人群數(shù)量分類和密度圖估計兩個關(guān)聯(lián)的任務(wù),文獻[23]網(wǎng)絡(luò)可同時對計數(shù)、密度圖估計和定位這3個任務(wù)進行訓(xùn)練和估計.由表可見,AntiNet-MFF在MAE和MSE指標上優(yōu)于大部分計數(shù)網(wǎng)絡(luò),其較好的準確性和魯棒性進一步得到驗證.
表4 各網(wǎng)絡(luò)在UCF-QNRF數(shù)據(jù)集上的實驗結(jié)果
由于UCF-QNRF數(shù)據(jù)集包含數(shù)量極多的高分辨率圖像,人群密集,場景種類繁多,包括建筑物、道路、天空等野外真實的場景,光照及目標尺度變化多樣,因此訓(xùn)練過程對實驗的硬件條件要求較高.受已有實驗條件的限制,AntiNet-MFF的訓(xùn)練過程未及時收斂.AntiNet-MFF的MAE和MSE指標在UCF-QNRF數(shù)據(jù)集上的收斂趨勢如圖10所示.由圖可知,隨著遍歷次數(shù)的增加,MAE和MSE并未及時收斂到某個穩(wěn)定值,這也是AntiNet-MFF未取得最優(yōu)值的主要原因.
圖10 AntiNet-MFF在UCF_QNRF數(shù)據(jù)集上的MAE和MSE曲線
在HFS Block中,特征圖經(jīng)過1×1卷積后被分割成s組輸入,本節(jié)討論參數(shù)s的取值對AntiNet-MFF性能的影響.實驗在ShanghaiTech Part A數(shù)據(jù)集上進行,s分別取4種不同的值,結(jié)果如表5所示.由表可知,s取不同值對性能會產(chǎn)生一定影響.當s=8時,MAE和MSE達到最優(yōu).
表5 s不同時AntiNet-MFF的性能對比
為了驗證添加多尺度特征融合和背景分割注意力的有效性,移除編碼器中的HFS Block和多尺度上下文特征聚合模塊,恢復(fù)成普通的3×3卷積,同時移除解碼器中的背景分割注意力模塊,不考慮背景干擾,從而得到基礎(chǔ)模型BaseNet.然后,將Base-Net和融入HFS Block的基礎(chǔ)模型BaseNet_MFF在ShanghaiTech數(shù)據(jù)集上進行實驗對比,即從計數(shù)性能與模型參數(shù)量兩方面分析網(wǎng)絡(luò)優(yōu)劣,驗證多尺度特征融合模塊的有效性.
HFS Block的消融實驗結(jié)果如表6所示.由表可見,BaseNet-MFF性能優(yōu)于BaseNet,同時參數(shù)量也遠少于BaseNet.由此可知,在BaseNet中融入HFS Block可提升多尺度特征的表達能力和計數(shù)性能,同時有效減少參數(shù)量,因此降低模型復(fù)雜度的思路是正確可行的.
表6 HFS Block的消融實驗結(jié)果
其次,再將BaseNet和融入背景分割注意力模塊的基礎(chǔ)模型AntiBaseNet進行對比,結(jié)果如表7所示.
由表7可見,無論是在Part A數(shù)據(jù)集還是Part B數(shù)據(jù)集上,AntiBaseNet的MAE和MSE值都優(yōu)于Base-Net.由此可知,通過圖像分割方法添加注意力,指導(dǎo)生成更高質(zhì)量的密度圖、降低背景噪聲干擾的思路是正確可行的.
AntiNet-MFF相當是在BaseNet基礎(chǔ)上,同時添加HFS Block和背景分割注意力模塊.BaseNet、BaseNet-MFF、AntiBaseNet、AntiNet-MFF的消融實驗結(jié)果如圖11所示.由圖可知,添加兩個模塊中的任意一個,都會對性能產(chǎn)生積極影響,MAE和MSE值均會下降,尤其是兩個模塊同時添加時,性能達到最佳.
(a)Part A
此外,實驗發(fā)現(xiàn),背景分割注意力模塊的消融實驗結(jié)果優(yōu)于HFS Block,說明抑制人群圖像中的背景噪聲至關(guān)重要.
AntiNet-MFF的部分結(jié)果如圖12所示.可視化圖像全部選自ShanghaiTech數(shù)據(jù)集.由圖可見,背景分割注意力圖可指示人群所在位置,在它的指導(dǎo)下,生成的密度圖接近于真實密度圖.
(a)原始圖像
為了提高人群計數(shù)任務(wù)的準確性,本文提出基于多尺度特征融合的抗背景干擾人群計數(shù)網(wǎng)絡(luò)(AntiNet-MFF).首先,在語義分割網(wǎng)絡(luò)基礎(chǔ)上,在編碼階段融入多層次特征分割提取模塊,增強網(wǎng)絡(luò)對多尺度特征的表達能力.其次,在解碼階段,在注意力的指導(dǎo)下生成背景分割注意力圖,起到對背景噪聲的抑制作用.最后,通過與特征圖的融合,生成更高質(zhì)量的密度圖.此外,本文網(wǎng)絡(luò)是一個端對端的網(wǎng)絡(luò),可直接學(xué)習(xí)從原始圖像到目標密度圖的映射,降低模型的復(fù)雜度和參數(shù)計算量.在典型的人群計數(shù)數(shù)據(jù)集上的實驗表明,AntiNet-MFF可提高人群計數(shù)任務(wù)的準確性,具有較好的魯棒性和泛化能力.今后將考慮在人群高度密集、密度圖嚴重重疊的情況下,準確區(qū)分每個目標,避免重復(fù)積分導(dǎo)致目標計數(shù)結(jié)果存在差異的問題,從而進一步提升人群計數(shù)性能.