国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種融合引導(dǎo)濾波的密集人群計(jì)數(shù)方法研究

2022-07-11 01:12左安康陳錦秋謝小芳
電子技術(shù)與軟件工程 2022年7期
關(guān)鍵詞:集上空洞計(jì)數(shù)

左安康 陳錦秋 謝小芳

(1.遵義醫(yī)科大學(xué)醫(yī)學(xué)信息工程學(xué)院 貴州省遵義市 563000 2.遵義醫(yī)科大學(xué)圖書(shū)館 貴州省遵義市 563000)

1 引言

人群計(jì)數(shù)是計(jì)算特定場(chǎng)景中人群目標(biāo)的數(shù)量。隨著城市人口的迅速增加,在公共場(chǎng)合不可避免會(huì)出現(xiàn)大量的人群,當(dāng)人群過(guò)于密集時(shí),會(huì)帶來(lái)一定的不穩(wěn)定因素。對(duì)公共場(chǎng)合的密集人群及時(shí)進(jìn)行數(shù)量統(tǒng)計(jì),在人群密度超過(guò)一定預(yù)先設(shè)定的閾值時(shí)發(fā)出預(yù)警,能有效避免因人群大量聚集而引發(fā)的踩踏等事故。同時(shí)人群計(jì)數(shù)在交通客流量預(yù)測(cè),智能視頻監(jiān)控,動(dòng)態(tài)分配城市資源等方面都有著廣泛的應(yīng)用。

隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,監(jiān)控視頻設(shè)備越來(lái)越多,基于計(jì)算機(jī)視覺(jué)的人群計(jì)數(shù)方法因?yàn)槠涓咝院途珳?zhǔn)性而漸漸成為目前主流的方法。

在密集場(chǎng)景下的人群計(jì)數(shù)研究中,復(fù)雜背景通常會(huì)對(duì)計(jì)數(shù)結(jié)果的精度造成一定的干擾,針對(duì)該問(wèn)題,有研究者試圖采用圖像分割的方法將前景與背景進(jìn)行分割,在分割之后的前景上進(jìn)行人群計(jì)數(shù)。不正確的分割會(huì)對(duì)計(jì)數(shù)精度造成不可逆的影響,因此對(duì)這類算法的魯棒性要求非常高。

針對(duì)人群目標(biāo)在圖像中存在的尺度變化問(wèn)題,文獻(xiàn)采用多列網(wǎng)絡(luò)提取3 中不同大小尺度的特征,但多列網(wǎng)絡(luò)的運(yùn)算量不可避免會(huì)比單列網(wǎng)絡(luò)大許多。

針對(duì)以上情況,本文提出一種融合引導(dǎo)濾波的密集人群計(jì)數(shù)方法。

2 密集人群計(jì)數(shù)方法整體結(jié)構(gòu)

本文方法的網(wǎng)絡(luò)結(jié)構(gòu)可分為前端和后端兩部分,前端采用去掉全連接層的VGG16網(wǎng)絡(luò)提取特征,后端采用改進(jìn)的空洞卷積融合特征,最后輸出人群密度圖及人群數(shù)量。整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,具體可分為引導(dǎo)濾波去噪模塊,特征提取主干網(wǎng)絡(luò)模塊以及感受野擴(kuò)大模塊,下面分別介紹這三部分。

圖1:整體網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1 引導(dǎo)濾波去噪

濾波操作能夠使得特定頻率的圖像信號(hào)通過(guò),抑制其他頻率的信號(hào)。引導(dǎo)濾波在保持邊緣輪廓清晰的前提下,能夠有效減少無(wú)效信息的干擾,避免過(guò)擬合。對(duì)于給定引導(dǎo)圖像I,輸入圖像p,輸出圖像q,引導(dǎo)濾波的定義如下:

其中i 和j 是像素位置,濾波器權(quán)重W是關(guān)于引導(dǎo)圖像I 的函數(shù),引導(dǎo)濾波器相對(duì)于輸入圖像p 是線性的,在一個(gè)像素i 處的濾波輸出用一個(gè)加權(quán)平均值來(lái)表示。引導(dǎo)濾波的關(guān)鍵假設(shè)是引導(dǎo)圖像I 和輸出圖像q 之間存在局部線性相關(guān),即假設(shè)q 是一個(gè)以像素k 為中心的窗口ω內(nèi)的引導(dǎo)圖像I 的線性變換,計(jì)算公式為:

2.2 特征提取主干網(wǎng)絡(luò)

考慮到VGG 網(wǎng)絡(luò)強(qiáng)大的特征提取能力,本文采用VGG對(duì)數(shù)據(jù)集進(jìn)行特征提取,但是VGG 網(wǎng)絡(luò)過(guò)多的池化層會(huì)使得輸出特征圖的分辨率太小,不利于小目標(biāo)的人群計(jì)數(shù)。人群計(jì)數(shù)任務(wù)只有一個(gè)輸出類別,而原始網(wǎng)絡(luò)全連接層有1000 個(gè)類別,因此,本文最終選取了VGG-16 的前10 層提取特征,并去掉了全連接層,主干網(wǎng)絡(luò)如表1 所示。

表1 中卷積層的參數(shù)表示為“Conv(卷積核x 卷積核)-(卷積核數(shù)量)”,每個(gè)卷積層后接一個(gè)ReLU 激活函數(shù),為了保持和前一層相同的尺寸,卷積層采用了0 填充操作,池化窗口的大小為2x2,步長(zhǎng)為2。

表1:特征提取主干網(wǎng)絡(luò)

2.3 感受野擴(kuò)大模塊

空洞卷積最先是在圖像分割任務(wù)中被提出的,通過(guò)在正常卷積中間填充零,其目的是在卷積核尺寸不增加的前提下擴(kuò)大神經(jīng)元的感受野。

如圖2 所示,在正常卷積中間填充0 即為空洞卷積,空洞卷積可以在不增加參數(shù)的前提下擴(kuò)大感受野,缺點(diǎn)是特征圖會(huì)丟失一部分信息。

圖2:空洞卷積示意圖

為了彌補(bǔ)單列網(wǎng)絡(luò)處理多尺度人群信息的不足,本文基于空洞卷積設(shè)計(jì)了感受野擴(kuò)大模塊,使得網(wǎng)絡(luò)后端能獲取到不同尺度大小的特征信息,同時(shí),通過(guò)疊加合適的空洞率,有效避免了特征圖信息丟失問(wèn)題。

表2 中的感受野擴(kuò)大模塊主要由7 個(gè)帶空洞的卷積層構(gòu)成,參數(shù)表示為“Conv(卷積核x 卷積核)-(卷積核數(shù)量)-(空洞率)”,除最后一層外,每個(gè)卷積層后都接一個(gè)ReLU 激活函數(shù)。

表2:感受野擴(kuò)大模塊

3 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文提出方法的有效性,本文在兩個(gè)密集人群數(shù)據(jù)集上進(jìn)行了相關(guān)實(shí)驗(yàn)。

3.1 評(píng)價(jià)指標(biāo)

本文采用MAE 和MSE 來(lái)衡量算法性能。本文采用平均絕對(duì)誤差(Mean absolute error, MAE)和均方根誤差(mean squared error, MSE)來(lái)評(píng)價(jià)算法的性能,它們的定義分別如下:

3.2 數(shù)據(jù)集

ShanghaiTech 數(shù)據(jù)集,包含PartA 和PartB 兩部分,訓(xùn)練集和測(cè)試集共1198 張圖像、共包含了330165 個(gè)人頭標(biāo)注,場(chǎng)景變化多樣。其中,PartA 數(shù)據(jù)集十分密集,主要為一些大型集會(huì)、運(yùn)動(dòng)會(huì)等人群集中的場(chǎng)景,包含300 張訓(xùn)練圖像和182 張測(cè)試圖像,單張圖像的人群數(shù)量范圍為33 人至3139 人,人群十分密集;PartB 數(shù)據(jù)集為上海市區(qū)某街道實(shí)拍圖,包含400 張訓(xùn)練圖像和316 張測(cè)試圖像,單張圖像的人群數(shù)量范圍為9 人至578 人,人群密度總體不及PartA。

BeijingBRT 數(shù)據(jù)集為北京某個(gè)快速公交車站的候車人群,一共包含720 張訓(xùn)練圖像和560 張測(cè)試圖像,每張圖像分辨率大小固定為640x360。數(shù)據(jù)集采集了多個(gè)日期、從早到晚不同時(shí)刻的圖像,包含場(chǎng)景豐富:有白天強(qiáng)烈的太陽(yáng)光線、有陰天、有霧天、也有夜晚昏暗的場(chǎng)景。單張圖像人群范圍從1 人至64 人。

3.3 密度圖生成

對(duì)數(shù)據(jù)集采用的是點(diǎn)標(biāo)注的有監(jiān)督學(xué)習(xí)方法,點(diǎn)標(biāo)注的文件過(guò)于稀疏不能直接用于網(wǎng)絡(luò)訓(xùn)練,需要對(duì)其進(jìn)行預(yù)處理,轉(zhuǎn)換成可以用于網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)。其轉(zhuǎn)換過(guò)程如下:首先構(gòu)造一個(gè)二維矩陣,矩陣尺寸和原圖相同,矩陣中的值初始化置0,接下來(lái)將矩陣在圖像對(duì)應(yīng)標(biāo)注文件中有人的位置置1,再使用高斯核函數(shù)對(duì)稀疏的二維矩陣進(jìn)行卷積,使得每個(gè)孤立的點(diǎn)變成服從高斯分布的小塊連通區(qū)域。

根據(jù)數(shù)據(jù)集密集程度的不同,采用不同的高斯核函數(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在普通密集數(shù)據(jù)集下使用固定高斯核,在高度密集場(chǎng)景下則使用自適應(yīng)高斯核進(jìn)行轉(zhuǎn)換,生成用于訓(xùn)練的真實(shí)密度圖,自適應(yīng)高斯核定義如下:

3.4 參數(shù)設(shè)置

由于ShanghaiTech PartA 數(shù)據(jù)集密集度高,因此使用自適應(yīng)高斯核,ShanghaiTech PartB 和Beijing BRT 數(shù)據(jù)集則采用kernel=15 的固定高斯核。經(jīng)過(guò)多次實(shí)驗(yàn)對(duì)比,確定了如表3 所示的訓(xùn)練參數(shù)。

表3:訓(xùn)練參數(shù)設(shè)置

3.5 實(shí)驗(yàn)結(jié)果分析

為了獲取不同尺度下的人頭信息,在感受野擴(kuò)大模塊中設(shè)置了不同的空洞率。

表4 為本文提出的方法和目前的主流方法在ShanghaiTech 數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比??梢钥闯觯赑artA 數(shù)據(jù)集上本文提出方法的MAE 和MSE 分別為67.7 和105.4,在PartB 數(shù)據(jù)集上MAE 和MSE 分別為9.7 和16.2,均超過(guò)了其他方法,證明了本文方法的有效性。

表4:ShanghaiTech 數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

從表4 可以看出,在數(shù)據(jù)集PartA 上的誤差比PartB 大,原因在于PartA 數(shù)據(jù)集過(guò)于密集,人群被遮擋得比較嚴(yán)重,并且遠(yuǎn)處的人群目標(biāo)太小,因此,最后人群識(shí)別的MAE 及MSE 均不如PartB。

圖3 展示了在ShanghaiTech 數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果,可以看出,第一張圖真實(shí)人群是402人,估計(jì)的數(shù)量是444人,第二張圖像真實(shí)值是109 人,估計(jì)的數(shù)量是112,誤差較小,且人群空間分布較能反應(yīng)真實(shí)的分布情況。

圖3:ShanghaiTech 部分實(shí)驗(yàn)示例

表5 對(duì)比了本文方法和當(dāng)前主流方法在Beijing BRT 數(shù)據(jù)集上的性能表現(xiàn),可以看出,提出的方法MAE 為1.44,MSE 為2.06,超過(guò)了大部分方法,表現(xiàn)出了較好的性能。但是本文方法略微次于DR-ResNet,原因是該論文使用了一種深度遞歸網(wǎng)絡(luò)的方法,反復(fù)學(xué)習(xí)圖像特征,學(xué)習(xí)到了更深層次的特征。

表5:Bejing BRT 數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

圖4 展示了在BeijingBRT 數(shù)據(jù)集上的部分實(shí)驗(yàn)結(jié)果,真實(shí)人群是63 人,估計(jì)的人群數(shù)量是65 人,誤差較小,且人群空間分布較能反應(yīng)真實(shí)的分布情況。

圖4:BeijingBRT 部分實(shí)驗(yàn)示例

為了驗(yàn)證引導(dǎo)濾波預(yù)對(duì)網(wǎng)絡(luò)性能的影響,分別在上述兩個(gè)數(shù)據(jù)集上進(jìn)行了驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6 所示。

表6:引導(dǎo)濾波對(duì)比實(shí)驗(yàn)

從表6 可以看出,增加引導(dǎo)濾波后,在三個(gè)數(shù)據(jù)集上MAE 均有所下降。魯棒性方面,在PartA 數(shù)據(jù)集上,加入引導(dǎo)濾波去噪模塊后模型的MSE 下降了近10 個(gè)點(diǎn),說(shuō)明模型的泛化能力得到了明顯提升。在PartB 和BeijingBRT 兩個(gè)數(shù)據(jù)集上MSE 變化不明顯。

4 結(jié)論與展望

在人群計(jì)數(shù)研究中,針對(duì)密集場(chǎng)景下的復(fù)雜背景問(wèn)題,本文提出了一種融合引導(dǎo)濾波的密集人群計(jì)數(shù)方法,通過(guò)引導(dǎo)濾波去掉了復(fù)雜背景信息的學(xué)習(xí),同時(shí)保留人頭邊緣信息,有效減少了復(fù)雜背景信息對(duì)人群目標(biāo)的干擾。針對(duì)尺度變化問(wèn)題,本文提出一種擴(kuò)散的空洞卷積,通過(guò)設(shè)置合理的空洞率,有效避免了網(wǎng)格效應(yīng)造成的特征圖信息丟失,在兩個(gè)數(shù)據(jù)集上對(duì)比了本文方法和最近一些方法,本文方法在精度和魯棒性方面都有較大的提升,當(dāng)然,本文方法也有一些缺點(diǎn),例如主干網(wǎng)絡(luò)采用的是VGG,參數(shù)量及運(yùn)算量還是較大,下一步考慮采用更為輕量化的網(wǎng)絡(luò),以方便部署在移動(dòng)邊緣端設(shè)備上。

猜你喜歡
集上空洞計(jì)數(shù)
古人計(jì)數(shù)
遞歸計(jì)數(shù)的六種方式
Cookie-Cutter集上的Gibbs測(cè)度
古代的計(jì)數(shù)方法
鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
這樣“計(jì)數(shù)”不惱人
復(fù)扇形指標(biāo)集上的分布混沌
空洞的眼神
用事實(shí)說(shuō)話勝過(guò)空洞的說(shuō)教——以教育類報(bào)道為例
幾道導(dǎo)數(shù)題引發(fā)的解題思考