邢 靜 彭天亮
(1.西安培華學(xué)院 西安 710125)(2.江西省水信息協(xié)同感知與智能處理重點(diǎn)實(shí)驗(yàn)室 南昌 330099)(3.南昌工程學(xué)院 南昌 330099)
在城市交通中,使用計(jì)算機(jī)視覺(jué)技術(shù)通過(guò)圖像或監(jiān)控視頻流,對(duì)場(chǎng)景中車(chē)輛的數(shù)量進(jìn)行準(zhǔn)確而穩(wěn)健的估計(jì),以更好地指導(dǎo)交通信號(hào)燈的設(shè)置,對(duì)于智慧城市的建設(shè)具有重大意義。
現(xiàn)有的車(chē)輛統(tǒng)計(jì)方法一般可以分為兩類(lèi):基于檢測(cè)的方法和基于回歸的方法?;跈z測(cè)的方法通常假定可以通過(guò)使用給定的對(duì)象檢測(cè)器[1~3]來(lái)檢測(cè)和定位圖像上的目標(biāo),然后通過(guò)累積檢測(cè)結(jié)果進(jìn)行計(jì)算,然而,這些方法[4~6]需要巨大的計(jì)算資源而且往往受人為遮擋和復(fù)雜的限制背景在實(shí)際情況下,產(chǎn)生的相對(duì)較低魯棒性和準(zhǔn)確性。基于回歸的方法直接從圖像中計(jì)算車(chē)輛的數(shù)量。Chan等[7]使用手工特征來(lái)統(tǒng)計(jì)任務(wù)轉(zhuǎn)化為回歸問(wèn)題[8~9];提出了更多目標(biāo)相關(guān)的特征,包括基于結(jié)構(gòu)的特征和局部紋理的特征;Lempitsky等[10]提出了一種基于密度的算法,其通過(guò)整合估計(jì)的密度圖來(lái)進(jìn)行計(jì)數(shù)。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展[11~12],深層卷積神經(jīng)網(wǎng)絡(luò)在密度統(tǒng)計(jì)場(chǎng)景中也顯示了出較好的效果。Wan等[13]直接使用基于CNN的模型來(lái)建模圖像到數(shù)量的映射關(guān)系;Zhang等[14]提出了多列CNN來(lái)提取多尺度特征;Boominathan等[15]提出了一個(gè)多網(wǎng)絡(luò)的CNN來(lái)提高對(duì)目標(biāo)的分辨率;這些算法在解決尺度變換造成的分辨率問(wèn)題的同時(shí),使得網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,這些網(wǎng)絡(luò)在訓(xùn)練時(shí),需要預(yù)先訓(xùn)練單一網(wǎng)絡(luò)進(jìn)行全局優(yōu)化,且引入了更多參數(shù),需要消耗更多的計(jì)算資源,使得難以實(shí)際應(yīng)用。本文基于中心點(diǎn)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行車(chē)流的監(jiān)測(cè),一方面通過(guò)中心池化策略來(lái)檢測(cè)車(chē)輛的中心點(diǎn),以獲取可辨識(shí)的視覺(jué)特征信息,另一方面通過(guò)Focal Loss來(lái)對(duì)中心點(diǎn)周?chē)狞c(diǎn)進(jìn)行懲罰,進(jìn)而提高檢測(cè)的精度,所提方法在TRANCOS數(shù)據(jù)集[16]上達(dá)到了較好的效果,且相較單階段檢測(cè)方法有更高的檢測(cè)速度和精度。
由于透視、遮擋及尺度變化,圖像中通常包含不同尺度、不同程度遮擋的車(chē)輛組成,且標(biāo)注數(shù)據(jù)在目標(biāo)位置只有一個(gè)標(biāo)識(shí)點(diǎn),因此很難用一般的基于檢測(cè)的方法實(shí)現(xiàn)基于檢測(cè)的車(chē)輛統(tǒng)計(jì)。因此本文提出基于中心點(diǎn)檢測(cè)網(wǎng)絡(luò),來(lái)獲取車(chē)輛的特征信息,同時(shí)結(jié)合中心池化策略和Focal Loss來(lái)提高檢測(cè)精度。
基于中心點(diǎn)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,包括基本網(wǎng)絡(luò)結(jié)構(gòu)、中心池化和密度估計(jì)。其中基本網(wǎng)絡(luò)結(jié)構(gòu)采用52層的hourglass[17]網(wǎng)絡(luò),中心池化來(lái)獲取車(chē)輛相關(guān)的更加豐富和可辨識(shí)的視覺(jué)模式,如圖2所示。
圖1 基于中心點(diǎn)檢測(cè)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
其獲取物體在水平方向和垂直方向的特征,并將檢測(cè)的中心點(diǎn)作為物體所在的位置,具體網(wǎng)絡(luò)結(jié)構(gòu)如3所示。
其中池化操作均采用最大池化,不同在于池化操作的方向上,Left Pooling在操作上采用從左到右的方式,Right Pooling采用從右到左的方式,Top Pooling采用從上到下的方式,Bottom Pooling采用從下到上的方式,在進(jìn)行密度估計(jì)時(shí),激活函數(shù)均采用ReLU函數(shù)[18]實(shí)現(xiàn)。
圖2 中心池化
圖3 中心池化結(jié)構(gòu)
對(duì)于密度估計(jì)部分,為了高質(zhì)量地生成具有尺度相關(guān)性的密度圖,我們參考Zhang等[14]的由于尺度自適應(yīng)的核密度估計(jì)方法。對(duì)于圖像中車(chē)輛的標(biāo)注區(qū)域,我們采用一個(gè)高斯核Gσ來(lái)描述標(biāo)注點(diǎn)周?chē)鷧^(qū)域的密度分布,具體如式(1)所示:
其中,px,py分別為車(chē)輛所在的位置,σp為尺度自適應(yīng)的標(biāo)準(zhǔn)差。
在預(yù)測(cè)密度圖時(shí),各像素點(diǎn)的預(yù)測(cè)值采用Sigmoid 函數(shù)實(shí)現(xiàn),進(jìn)而結(jié)合 Focal Loss[19]定義最終的損失函數(shù):
其中,Y^xy為預(yù)測(cè)為中心點(diǎn)的概率,α,β為損失函數(shù)的超參數(shù),N為圖像中車(chē)輛的個(gè)數(shù),在實(shí)現(xiàn)中我們?cè)O(shè)置α=2,β=4。
對(duì)于周?chē)鷧^(qū)域大小的確定,我們結(jié)合構(gòu)建密度圖時(shí)的自適應(yīng)方法,對(duì)區(qū)域大小進(jìn)行預(yù)測(cè),具體采用L2損失實(shí)現(xiàn),如式(3)所示:
同時(shí)為了去除池化操作所帶來(lái)的誤差,我們對(duì)每個(gè)目標(biāo)所在位置的偏移量進(jìn)行預(yù)測(cè),具體采用L1損失實(shí)現(xiàn),如式(4)所示:
其中Op~為預(yù)測(cè)的局部偏移量,R為輸出層步長(zhǎng),p為中心點(diǎn)位置,p~為預(yù)測(cè)的中心點(diǎn)位置。
因此,整個(gè)網(wǎng)絡(luò)的損失函數(shù)由三部分組成,即:
訓(xùn)練過(guò)程采用Adam優(yōu)化算法,動(dòng)量設(shè)置為0.952。
圖4 Focal Loss(對(duì)中心點(diǎn)周?chē)狞c(diǎn)添加損失函數(shù))
對(duì)所提的基于中心點(diǎn)檢測(cè)的神經(jīng)網(wǎng)絡(luò)的評(píng)估,我們?cè)跇?biāo)準(zhǔn)的TRANCOS數(shù)據(jù)集[16]上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,我們的方法在精度和魯棒性方面均有較好的表現(xiàn),網(wǎng)絡(luò)的訓(xùn)練采用Pytorch[20]框架進(jìn)行實(shí)現(xiàn)。
采用平均絕對(duì)誤差(MAE)和網(wǎng)格平均絕對(duì)誤差(GAME)[13]來(lái)評(píng)估所提方法的性能,MAE 和GAME的計(jì)算見(jiàn)式(6)和式(7):
其中N代表測(cè)試圖像總數(shù),zi和分別為第i個(gè)圖像所對(duì)應(yīng)的真實(shí)值和估計(jì)值,一般來(lái)說(shuō),GAME較MAE更能評(píng)估算法的準(zhǔn)確度。
TRANCOS數(shù)據(jù)集[16]是一個(gè)大規(guī)模的車(chē)流統(tǒng)計(jì)數(shù)據(jù)集,其包含1244幅注釋圖像,每幅圖像都采用點(diǎn)標(biāo)注的方法進(jìn)行標(biāo)注,包含車(chē)輛數(shù)及位置,及街道的位置,共標(biāo)注46796輛車(chē)。在實(shí)驗(yàn)時(shí),用860幅圖像作為訓(xùn)練集,其余為測(cè)試集。
挑選數(shù)據(jù)中的三個(gè)樣例,采用所提方法進(jìn)行估計(jì),效果如圖5所示。
圖5 實(shí)驗(yàn)效果圖
在實(shí)驗(yàn)時(shí),我們將所提方法和其他三種方法進(jìn)行了比較,LBP+RP的方法采用LBP特征來(lái)回歸車(chē)流的數(shù)量,MCNN-CCR[14]采用多列CNN來(lái)進(jìn)行密度估計(jì),及將所提方法中的基本網(wǎng)絡(luò)變換為Resnet101來(lái)進(jìn)行密度估計(jì),對(duì)四種方法進(jìn)行驗(yàn)證,結(jié)果如表1所示,可看出所提方法的有效性,且具有較好的魯棒性。
表1 四種方法比較結(jié)果
在本文中,我們提出了一種基于中心池化策略的中心點(diǎn)檢測(cè)方法,并基于中心點(diǎn)檢測(cè)方法實(shí)現(xiàn)對(duì)車(chē)流量的統(tǒng)計(jì)。和其他基于CNN的方法相比,所提方法所采用的hourglass多級(jí)特征提取網(wǎng)絡(luò)架構(gòu),結(jié)合中心池化和Focal Loss,直接采用端到端的訓(xùn)練方法,來(lái)處理尺度、遮擋等因素對(duì)密度估計(jì)所造成的影響,實(shí)驗(yàn)表明了所提算法可以達(dá)到更高的精度和較好的魯棒性。