国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于RGB-T圖像的雙流殘差擴(kuò)張網(wǎng)絡(luò)人群計(jì)數(shù)算法

2023-12-14 06:13:04楊佩龍陳樹越楊尚瑜王佳宏
紅外技術(shù) 2023年11期
關(guān)鍵詞:全局尺度計(jì)數(shù)

楊佩龍,陳樹越,楊尚瑜,王佳宏

基于RGB-T圖像的雙流殘差擴(kuò)張網(wǎng)絡(luò)人群計(jì)數(shù)算法

楊佩龍,陳樹越,楊尚瑜,王佳宏

(常州大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,江蘇 常州 213164)

在人群計(jì)數(shù)中,針對(duì)尺度變化、行人分布不均以及夜間較差成像條件,提出了一種基于RGB-T(RGB-Thermal)圖像的多模態(tài)人群計(jì)數(shù)算法,稱為雙流殘差擴(kuò)張網(wǎng)絡(luò),它由前端特征提取網(wǎng)絡(luò)、多尺度的殘差擴(kuò)張卷積模塊和全局注意力模塊所構(gòu)成。其中,前端網(wǎng)絡(luò)用來提取RGB特征和熱特征,擴(kuò)張卷積模塊進(jìn)一步提取不同尺度的行人特征信息,全局注意力模塊用來建立全局特征之間的依賴關(guān)系。此外,還引入了一種新的多尺度差異性損失,以提高網(wǎng)絡(luò)的計(jì)數(shù)性能。為評(píng)估該方法,在RGBT-CC(RGBT Crowd Counting)數(shù)據(jù)集和DroneRGBT數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在RGBT-CC數(shù)據(jù)集上與CMCRL(Cross-modal Collaborative Representation Learning)算法相比該算法的GAME(0)(Grid Average Mean absolute Errors)和RMSE(Root Mean Squared Error)分別降低了0.8和3.49,在DroneRGBT數(shù)據(jù)集上與MMCCN(Multi-Modal Crowd Counting Network)算法比分別降低了0.34和0.17,表明具有較好的計(jì)數(shù)性能。

人群計(jì)數(shù);RGB-T圖像;擴(kuò)張卷積;全局注意力;多尺度差異性損失

0 引言

人群計(jì)數(shù)[1]作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),其目的是估計(jì)給定圖像或視頻中包含的行人數(shù)量。近些年,由于在人群流量檢測(cè)[2]、人群行為分析[3-4]和智能視頻監(jiān)控[5]等多方面的應(yīng)用,人群計(jì)數(shù)受到了越來越多的關(guān)注,也因此成為近幾年一個(gè)比較活躍的研究課題。但受到光照、尺度變化、遮擋、行人分布不均和圖像采集的不同視角等諸多外在因素的影響,人群計(jì)數(shù)依然是一個(gè)有挑戰(zhàn)性的研究領(lǐng)域。

在卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人群計(jì)數(shù)領(lǐng)域之前,人群計(jì)數(shù)的方法主要分為基于檢測(cè)的方法[6-7]和基于回歸的方法[8-9]。然而,這些方法都無法處理擁擠場(chǎng)景下,行人相互遮擋、背景干擾以及尺度變化等問題。為了解決這些問題,近幾年提出了很多基于神經(jīng)網(wǎng)絡(luò)回歸密度圖的方法[1,10-11]。目前大多回歸密度圖的方法都是從RGB圖像中提取行人特征,再根據(jù)提取的特征回歸密度圖。然而,該方法存在一個(gè)缺陷,在黑暗、大霧等幾乎看不見行人的場(chǎng)景中,僅依靠RGB圖像無法提取到有效的行人特征信息。隨著跨模態(tài)學(xué)習(xí)即RGB-T的流行[12],融合RGB信息和熱信息就成為了該問題的解決方案之一。RGB-T圖像(成對(duì)的RGB圖像和熱圖像)之間存在信息互補(bǔ),如圖1所示,在光線良好的場(chǎng)景下RGB圖片清晰,而熱圖像難以區(qū)分行人和背景。相反,在黑暗中熱圖像清晰,而RGB圖像則幾乎看不見行人。因此,如何對(duì)RGB信息和熱信息進(jìn)行融合以及圖像存在的尺度變化、行人分布不均等就成了當(dāng)前需要研究的主要問題。如,Liu等[13]引入了一個(gè)大規(guī)模的RGBT-CC數(shù)據(jù)集并提出了一種跨模態(tài)協(xié)作表示學(xué)習(xí)框架,通過提出的信息聚合分布模塊,來充分捕獲不同模態(tài)的互補(bǔ)信息。Peng等[14]提出了一種多模態(tài)人群計(jì)數(shù)網(wǎng)絡(luò)并引入了一個(gè)基于無人機(jī)的DroneRGBT數(shù)據(jù)集。Tang等[12]為解決該問題首次提出了一種三流自適應(yīng)融合網(wǎng)絡(luò)TAFNet,通過提出的信息改進(jìn)模塊來自適應(yīng)地將兩個(gè)輔助流的模式特征融合到主流信息中去。然而,以上3種算法的著重點(diǎn)都放在RGB信息和熱信息的融合上面,忽略了對(duì)圖像中尺度變化以及行人分布不均等問題的處理,這不利于生成高質(zhì)量的人群密度圖。

基于以上討論,本文給出一種新的多模態(tài)人群計(jì)數(shù)網(wǎng)絡(luò)模型,由于采用RGB圖像和熱圖像作為輸入,且前端網(wǎng)絡(luò)使用了雙流的VGG-19[15]的前12層卷積,因此該模型稱為雙流殘差擴(kuò)張網(wǎng)絡(luò)TSRDNet(Two-Stream Residual Dilation Network),它由前端網(wǎng)絡(luò)、殘差擴(kuò)張卷積模塊和全局注意力模塊組成。在殘差擴(kuò)張卷積模塊中,疊加的擴(kuò)張卷積層可以捕獲不同尺度的行人特征信息,包含1×1卷積的殘差連接可以改善網(wǎng)絡(luò)的信息流通并避免深層網(wǎng)絡(luò)的退化[16]。由于全局特征之間的依賴關(guān)系對(duì)算法理解場(chǎng)景來說至關(guān)重要,因此在每個(gè)多尺度的殘差擴(kuò)張卷積模塊之間引入了全局注意力模塊。全局注意力模塊通過對(duì)通道和空間信息進(jìn)行重新賦值,來提高模型的表達(dá)能力。此外,很多先前的方法,在訓(xùn)練過程中都使用歐幾里得損失來計(jì)算預(yù)測(cè)值與真值之間的差距。然而,使用歐幾里得損失的前提是默認(rèn)人群密度圖中每個(gè)像素點(diǎn)相互獨(dú)立,這忽略了密度圖局部之間的差異性,不利于生成高質(zhì)量的人群密度圖[17]。因此,為解決該問題,本文在歐幾里得損失的基礎(chǔ)上,設(shè)計(jì)了一種新的多尺度差異性損失。多尺度差異性損失根據(jù)預(yù)測(cè)值與真值之間在多個(gè)不同尺度上的差異,可以有效地衡量預(yù)測(cè)值與真值在全局和局部之間的差異性。通過對(duì)以上兩個(gè)損失算法進(jìn)行加權(quán)結(jié)合得到的綜合損失,可以加快網(wǎng)絡(luò)的收斂速度,并進(jìn)一步提高網(wǎng)絡(luò)的計(jì)數(shù)性能。

綜上所述,本文的主要貢獻(xiàn)如下:

1)提出了一種用于RGB-T圖像的多模態(tài)人群計(jì)數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型TSRDNet。該模型利用殘差擴(kuò)張卷積模塊和引入的全局注意力模塊,解決了RGB信息和熱信息融合中尺度變化、行人分布不均等問題,實(shí)現(xiàn)了高性能的人群計(jì)數(shù)。

2)設(shè)計(jì)了一種多尺度差異性損失,并與歐幾里得損失進(jìn)行加權(quán)結(jié)合。綜合后的損失函數(shù)可以更加有效地衡量預(yù)測(cè)值和真值之間在不同尺度上的差異,有助于網(wǎng)絡(luò)生成更高質(zhì)量的人群密度圖,提高計(jì)數(shù)的準(zhǔn)確性和魯棒性。

1 雙流殘差擴(kuò)張網(wǎng)絡(luò)(TSRDNet)的算法設(shè)計(jì)

本文算法核心是設(shè)計(jì)一個(gè)具有尺度多樣性的卷積神經(jīng)網(wǎng)絡(luò),用來融合RGB信息和熱信息并處理圖像中尺度變化和行人分布不均等問題。在這一部分,首先介紹提出的TSRDNet,包括前端網(wǎng)絡(luò)、殘差擴(kuò)張卷積模塊和全局注意力模塊等,該算法的總體結(jié)構(gòu)圖如圖2所示。其次,介紹多尺度差異性損失,它使預(yù)測(cè)的人群密度圖與真值之間在多個(gè)尺度中保持一致。

1.1 TSRDNet結(jié)構(gòu)

所給出的TSRDNet包括一個(gè)用來提取RGB特征和熱特征的前端網(wǎng)絡(luò),4個(gè)殘差擴(kuò)張卷積模塊,4個(gè)全局注意力模塊以及一個(gè)用來生成人群密度圖的1×1卷積層。

1.1.1 前端網(wǎng)絡(luò)

使用雙流的VGG-19[15]的前12層卷積作為模型的前端網(wǎng)絡(luò),其中一流輸入RGB圖像,另一流輸入熱圖像,如圖2所示。在當(dāng)前的卷積網(wǎng)絡(luò)中,使用更多小尺寸卷積核的卷積層堆疊的效果比起使用較少的大尺寸卷積核的卷積網(wǎng)絡(luò)更好[15]。而且,現(xiàn)有的深度學(xué)習(xí)框架、設(shè)備都對(duì)卷積核尺寸為3×3的卷積進(jìn)行了優(yōu)化,可以更快速地進(jìn)行計(jì)算。因此,選擇VGG-19[15]的前12層作為模型的特征提取網(wǎng)絡(luò),是在平衡算法的準(zhǔn)確性和計(jì)算資源消耗之間,實(shí)現(xiàn)了最優(yōu)解,適合用來進(jìn)行快速、準(zhǔn)確的人群計(jì)數(shù)。此外,為充分融合RGB信息和熱信息,將前端網(wǎng)絡(luò)提取的RGB特征和熱特征在通道維度上拼接在一起,輸入給殘差擴(kuò)張卷積模塊,利用卷積網(wǎng)絡(luò)的自學(xué)習(xí)能力進(jìn)行信息的自適應(yīng)融合。

1.1.2 殘差擴(kuò)張卷積模塊

由于采集人群圖像的角度、位置和距離等因素,導(dǎo)致收集的圖像中行人尺度變化很大并且分布不均。因此,為解決該問題,需要一個(gè)可以捕捉不同尺度特征的網(wǎng)絡(luò)模型。CSRNet[18]通過堆疊擴(kuò)張率為2的擴(kuò)張卷積,擴(kuò)大了卷積層的感受野,通過提取更多尺度的行人信息,來處理人群計(jì)數(shù)所面臨的問題。但是,該網(wǎng)絡(luò)模型中疊加的擴(kuò)張卷積都使用了相同的擴(kuò)張率,而相同擴(kuò)張率的擴(kuò)張卷積疊加會(huì)導(dǎo)致特征圖出現(xiàn)棋盤偽影現(xiàn)象,使網(wǎng)絡(luò)無法生成高質(zhì)量的人群密度圖。結(jié)合以上分析,提出了一種多尺度擴(kuò)張卷積模塊,該模塊由3個(gè)不同擴(kuò)張率的擴(kuò)張卷積疊加而成,其中擴(kuò)張率分別設(shè)置為1、2、3。這種特別選擇的擴(kuò)張率組合,可以有效地避免單一擴(kuò)張率的擴(kuò)張卷積疊加帶來的棋盤偽影現(xiàn)象。如圖3所示,在處理一維信息的情況下,通過一個(gè)擴(kuò)張率為2的三層擴(kuò)張卷積堆疊的網(wǎng)絡(luò)獲得一個(gè)像素信息,在此過程中只有15個(gè)像素點(diǎn)參與。如果需要處理的信息有兩個(gè)維度,此時(shí)這種網(wǎng)絡(luò)空洞的現(xiàn)象就會(huì)變得更加明顯。在處理一維信息的情況下,該模型丟失了大概一半(45%)的原始信息。因此這會(huì)嚴(yán)重影響最終的計(jì)數(shù)結(jié)果,因?yàn)橄袼丶?jí)別的回歸人群密度圖任務(wù),往往需要特征圖的原始細(xì)節(jié)信息。所以這里使用了這種特別設(shè)計(jì)的擴(kuò)張率組合方案。首先,第一層使用擴(kuò)張率為1的擴(kuò)張卷積可以覆蓋所有輸入的特征信息。其次使用擴(kuò)張率為2、3的擴(kuò)張卷積在不增加參數(shù)量的情況下,盡可能地?cái)U(kuò)大卷積的感受野,通過捕獲更多不同尺度的行人特征信息生成高質(zhì)量的人群密度圖。最后,在每一個(gè)擴(kuò)張卷積層后加上歸一化層和Relu層,用來加快模型的收斂速度,避免網(wǎng)絡(luò)出現(xiàn)梯度消失或梯度爆炸。

雖然以上所提出的多尺度擴(kuò)張卷積模塊,可以捕獲不同尺度的行人特征信息,但是沒有考慮到如何利用不同模塊之間的層次信息。因此,需要引入殘差連接來改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu)并改善網(wǎng)絡(luò)傳遞的信息流。在殘差連接中使用了一個(gè)1×1的卷積層,將輸出的特征圖通道數(shù)變?yōu)檩斎氲?/4,通過這種方式限制殘差連接后網(wǎng)絡(luò)的寬度。

1.1.3 全局注意力模塊

在人群計(jì)數(shù)領(lǐng)域中,建立全局特征之間的依賴關(guān)系,是算法理解場(chǎng)景的關(guān)鍵。然而,由于卷積固有的特性,其只能在領(lǐng)域像素之間建立聯(lián)系。雖然堆疊多層卷積也可以在全局特征之間建立聯(lián)系,但是這種方式的網(wǎng)絡(luò)很難優(yōu)化且效率低下,不便于對(duì)模型進(jìn)行訓(xùn)練[19]。因此,為解決該問題,本文提出了一種新的全局注意力機(jī)制,從加強(qiáng)通道和空間信息之間的信息交互出發(fā)。該注意力機(jī)制由兩個(gè)子模塊構(gòu)成,分別是通道注意力子模塊和空間注意力子模塊,它們的排列方式選擇順序放置,并將通道注意力子模塊放在空間注意力子模塊之前,如圖4所示。與CBAM(Convolutional Block Attention Module)[19]不同,在全局注意力模塊中本文重新設(shè)計(jì)了一個(gè)新的空間注意力子模塊。為了更好地提取特征的空間信息,該模塊使用兩個(gè)7×7卷積層構(gòu)成的瓶頸結(jié)構(gòu)進(jìn)行空間信息的融合,同時(shí)為了進(jìn)一步保留特征之間的映射關(guān)系,這里刪除了池化操作。全局注意力模塊通過對(duì)特征圖的通道和空間信息進(jìn)行權(quán)重再分配,來建模全局特征之間的聯(lián)系。在卷積神經(jīng)網(wǎng)絡(luò)中,通過此模塊自適應(yīng)的建立特征之間的映射關(guān)系。

圖4 全局注意力機(jī)制的結(jié)構(gòu)圖

全局注意力機(jī)制由兩個(gè)子模塊組成,輸入的特征圖依次經(jīng)過通道注意力子模塊和空間注意力子模塊,因此其處理過程可以用如下的計(jì)算方式表示:

式中:∈R××表示輸入的特征圖;c∈R×1×1表示通道注意力子模塊生成的通道注意力圖;1表示通道注意力子模塊的輸出特征圖;s∈1××表示空間注意力子模塊生成的空間注意力圖;2表示空間注意力子模塊的輸出特征圖;?表示逐元素相乘。

通道注意力子模塊,通過提取特征圖之間的通道信息,生成通道注意力圖,如圖5所示。在此處為了更加有效地聚合信息,需要對(duì)特征圖使用全局自適應(yīng)池化以壓縮其空間維度。因此,首先對(duì)輸入的特征圖分別進(jìn)行全局自適應(yīng)平均池化和全局自適應(yīng)最大池化操作,用來生成全局自適應(yīng)平均池化特征Ave和全局自適應(yīng)最大池化特征Max。之后將Ave和Max作為多層感知器(Multilayer Perceptron,MLP)的輸入,以此來提取輸入特征的通道信息。該MLP由全連接層組成,為了減少M(fèi)LP的參數(shù)量,其中間層大小設(shè)置為R/r×1×1,其中代表縮放比率。最后使用sigmoid函數(shù)聚合經(jīng)過MLP處理的Ave和Max??傊ǖ雷⒁饬D的生成方式,可用如下的計(jì)算方式表示:

式中:表示sigmoid函數(shù);0∈R×/r和1∈R/r×為MLP的共享參數(shù)。

在空間注意力子模塊中,利用輸入特征圖的空間維度信息生成空間注意力圖,如圖6所示??臻g注意力作為通道注意力的補(bǔ)充,其更關(guān)注特征的“位置”信息。首先,把通道注意力子模塊的輸出作為空間注意力子模塊的輸入,通過兩層卷積層來融合空間信息。在此過程中,為了減少卷積層的參數(shù)量,這里使用了與通道注意力子模塊中相同的縮放比率。其次,在特征圖的通道維度上計(jì)算其平均值,最后再經(jīng)過sigmoid函數(shù)生成空間注意力圖??傊臻g注意力圖的計(jì)算方式如下:

式中:f7×7表示卷積層的卷積核的尺寸為7×7;W0∈RC×C/r×H×W和W1∈RC/r×C×H×W表示為卷積層的參數(shù)。

1.2 損失函數(shù)

目前很多方法都是使用歐幾里得損失作為模型訓(xùn)練過程中優(yōu)化的損失函數(shù),但是歐幾里得損失只能計(jì)算全局的像素差異,其忽略了預(yù)測(cè)的密度圖與真值之間的局部差異。因此,本文提出了一種新的衡量預(yù)測(cè)值與真值之間全局和局部之間差異的多尺度差異性損失,并與歐幾里得損失進(jìn)行加權(quán)結(jié)合。綜合后的損失函數(shù),可以使網(wǎng)絡(luò)生成的密度圖在全局和局部之間都盡可能的接近真值。

歐幾里得損失用來衡量預(yù)測(cè)值和真值之間的全局像素差異,其可以用如下的形式定義:

多尺度差異性損失,旨在比較預(yù)測(cè)值與真值之間在不同尺度上的差異,作為歐幾里得損失的補(bǔ)充,其更關(guān)注預(yù)測(cè)值和真值之間的局部差異性。該損失的定義方式如下:

式中:代表計(jì)算時(shí)的尺度大小;max代表自適應(yīng)最大池化;k表示自適應(yīng)最大池化的輸出。

根據(jù)不同的尺度等級(jí)將密度圖分成不同的區(qū)域,并使用自適應(yīng)最大池化處理每一個(gè)區(qū)域,其結(jié)果就代表該區(qū)域的最大密度水平。通過計(jì)算預(yù)測(cè)值與真值在每一個(gè)區(qū)域的最大密度水平的差值,來確保預(yù)測(cè)值和真值之間在不同的尺度等級(jí)上盡可能的保持一致。在這里,為了平衡算法的準(zhǔn)確性和計(jì)算速度之間,本文選擇了3個(gè)不同的尺度等級(jí),其輸出大小分別為1×1、2×2、4×4。其中,1×1表示全局的密度水平差異,其余兩個(gè)代表不同尺度等級(jí)的密度水平差異。

對(duì)以上兩個(gè)損失函數(shù)進(jìn)行加權(quán)結(jié)合,得到模型最終訓(xùn)練過程中使用的損失函數(shù),該綜合損失可用如下的形式表示:

2+(1—)m(6)

式中:表示歐幾里得損失與多尺度差異性損失加權(quán)結(jié)合的超參數(shù)。

2 實(shí)驗(yàn)與結(jié)果分析

在這一部分,將介紹密度圖真值的生成方法、算法的評(píng)價(jià)標(biāo)準(zhǔn)、在RGBT-CC數(shù)據(jù)集[13]上的對(duì)比實(shí)驗(yàn)、在DroneRGBT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)、驗(yàn)證模型各個(gè)模塊有效性的消融實(shí)驗(yàn)、驗(yàn)證全局注意力模塊效果的對(duì)比實(shí)驗(yàn)以及參數(shù)實(shí)驗(yàn)。本模型代碼基于Pytorch框架,通過平均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布為所有的卷積層參數(shù)進(jìn)行隨機(jī)的初始賦值。在訓(xùn)練過程中使用Adam優(yōu)化器優(yōu)化模型的所有參數(shù),初始的學(xué)習(xí)率設(shè)置為0.00001,并將weight_decay設(shè)置為0.0005。

2.1 真值的生成

采用幾何自適應(yīng)高斯核生成人群圖像的密度圖真值,其原因是它可把輸入的每一張圖像的點(diǎn)標(biāo)注進(jìn)行自適應(yīng)的模糊處理,以生成可以代表該圖像人群信息的密度圖真值。幾何自適應(yīng)高斯核的定義方式如下[1]:

2.2 評(píng)價(jià)標(biāo)準(zhǔn)

當(dāng)前的很多方法,普遍使用平均絕對(duì)誤差MAE和均方根誤差RMSE作為模型的評(píng)價(jià)指標(biāo)。但是平均絕對(duì)誤差MAE只能評(píng)估整張圖像的全局誤差,無法對(duì)圖像的局部區(qū)域進(jìn)行有效的評(píng)估。因此本文使用網(wǎng)格平均絕對(duì)誤差GAME[13]代替MAE。具體來說,就是對(duì)于一個(gè)給定的等級(jí),將圖片分成4個(gè)非重疊的區(qū)域,分別計(jì)算每個(gè)區(qū)域的誤差,再把每個(gè)區(qū)域的結(jié)果進(jìn)行累加。當(dāng)?shù)扔诹銜r(shí),此時(shí)的GAME(0)就等于MAE。RMSE和GAME[13]可用如下的公式定義:

式中:代表測(cè)試集的圖片數(shù)量;EG分別代表第個(gè)測(cè)試圖片的估計(jì)值和真值;EG和代表第個(gè)測(cè)試圖片的第個(gè)區(qū)域的估計(jì)值和真值??傊惴ǖ臏?zhǔn)確性用網(wǎng)格平均絕對(duì)誤差GAME來評(píng)估,算法的魯棒性用均方根誤差RMSE來評(píng)估。

2.3 在RGBT-CC數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

RGBT-CC數(shù)據(jù)集是一個(gè)公開的用于多模態(tài)人群計(jì)數(shù)的RGB-T數(shù)據(jù)集,由Liu等[13]在2021年給出。該數(shù)據(jù)集一共有2300對(duì)(每一對(duì)包含一張普通RGB圖像和對(duì)應(yīng)的熱圖像)圖像,包含街道、商場(chǎng)、地鐵站等多種場(chǎng)景。一共標(biāo)注了138389名行人,平均每張圖片包含68人。其中有1013對(duì)圖像在光線明亮的環(huán)境下拍攝,1017對(duì)圖像在黑暗的環(huán)境中拍攝。實(shí)驗(yàn)中參照文獻(xiàn)[13]將整個(gè)數(shù)據(jù)集隨機(jī)分成3個(gè)部分,其中訓(xùn)練集包含1030對(duì)圖像,驗(yàn)證集包含200對(duì)圖像,測(cè)試集包含800對(duì)圖像。

為了驗(yàn)證提出算法的效果,在該數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)的結(jié)果如表1所示。對(duì)比其它算法,TSRDNet在所有的評(píng)價(jià)指標(biāo)上都獲得了較好的結(jié)果。與之前最優(yōu)的算法CMCRL[13]相比,在GAME(0)、GAME(1)、GAME(2)和GAME(3)上分別降低了0.8、1.18、1.65、4.13,在RMSE上降低了3.49。這表明了無論是準(zhǔn)確性還是魯棒性,本文算法均優(yōu)于其它的算法。此外,為了測(cè)試算法在不同光照條件下的性能,在明亮和黑暗的環(huán)境中分別做了對(duì)應(yīng)的實(shí)驗(yàn),結(jié)果如表2所示。與CMCRL[13]算法相比,在明亮的環(huán)境中GAME(0)、GAME(1)、GAME(2)、GAME(3)和RMSE分別提高了4.28、2.45、1.37、2.44和4.85,而在黑暗的場(chǎng)景中本文算法依然優(yōu)于CMCRL[13]算法。實(shí)驗(yàn)的結(jié)果驗(yàn)證了TSRDNet算法無論是在黑暗還是在明亮的環(huán)境下都有穩(wěn)定優(yōu)異的計(jì)數(shù)表現(xiàn)。最后,算法在RGBT-CC數(shù)據(jù)集上的部分測(cè)試結(jié)果如圖7所示。從圖中可以明顯地看出,本文算法生成的人群密度圖與真值之間的差異較小,估計(jì)的計(jì)數(shù)結(jié)果也比較接近真實(shí)值。

表1 在RGBT-CC數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

2.4 在DroneRGBT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)

DroneRGBT數(shù)據(jù)集是一個(gè)具有RGB和熱紅外圖像的無人機(jī)視角的多模態(tài)人群計(jì)數(shù)數(shù)據(jù)集,由Peng等在2020年提出[14]。該數(shù)據(jù)集一共有3600對(duì)圖像,包含校園、街道、公園、停車場(chǎng)和廣場(chǎng)等多種不同的場(chǎng)景。DroneRGBT數(shù)據(jù)集[14]一共標(biāo)注了175698名行人,最少的一張圖片包含1名行人,最多的一張圖片包含了403名行人,平均每張圖片包含49名行人。實(shí)驗(yàn)中參考文獻(xiàn)[14]的做法,將該數(shù)據(jù)集隨機(jī)分成兩個(gè)部分,其中訓(xùn)練集和測(cè)試集各包含1800對(duì)圖像。

表2 在RGBT-CC數(shù)據(jù)上不同光照環(huán)境下的對(duì)比實(shí)驗(yàn)結(jié)果

圖7 本文算法的部分測(cè)試結(jié)果

為驗(yàn)證本文算法的效果,在該數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)的結(jié)果如表3所示。與其它算法相比,TSRDNet在評(píng)價(jià)指標(biāo)上獲得了較好的結(jié)果。與之前最優(yōu)的算法MMCCN[14]相比,在GAME(0)和RMSE上分別降低了0.34和0.17。這表明在該數(shù)據(jù)集上無論是準(zhǔn)確性還是魯棒性,TSRDNet算法均要優(yōu)于其它的算法。最后,算法在DroneRGBT數(shù)據(jù)集上的部分測(cè)試結(jié)果如圖8所示。從圖8中可以發(fā)現(xiàn),無論是低密度圖像還是高密度圖像,本文算法均可以生成質(zhì)量較高的人群密度圖,獲得相對(duì)準(zhǔn)確的估計(jì)結(jié)果。

表3 在DroneRGBT數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果

圖8 本文算法的部分測(cè)試結(jié)果圖。第一列和第二列分別代表RGB圖像和熱圖像,第三列是對(duì)應(yīng)的人群密度圖真值,第四列是本文方法的預(yù)測(cè)值

2.5 在RGBT-CC數(shù)據(jù)集上的消融實(shí)驗(yàn)

為了驗(yàn)證本文算法各個(gè)模塊,包括前端網(wǎng)絡(luò)、殘差擴(kuò)張卷積模塊、全局注意力模塊以及一個(gè)綜合損失函數(shù)的有效性和整體結(jié)構(gòu)的合理性,在RGBT-CC數(shù)據(jù)集[13]上進(jìn)行了模型的消融實(shí)驗(yàn),消融實(shí)驗(yàn)的結(jié)果如圖9所示,其中圖中的值代表不同模型實(shí)驗(yàn)的GAME(0)和RMSE的測(cè)試結(jié)果。

圖9 消融實(shí)驗(yàn)結(jié)果對(duì)比圖

首先使用雙流的VGG-19[15]網(wǎng)絡(luò)的前12層構(gòu)成的前端網(wǎng)絡(luò)作為基準(zhǔn)模型,該基準(zhǔn)模型的GAME(0)和RMSE分別為26.39和40.92。從圖8中可以明顯地發(fā)現(xiàn)TSRDNet的實(shí)驗(yàn)結(jié)果要遠(yuǎn)遠(yuǎn)好于基準(zhǔn)模型的實(shí)驗(yàn)結(jié)果。之后,在保持TSRDNet的其它模塊不變的情況下,分別去除模型中的殘差連接結(jié)構(gòu)、全局注意力模塊和多尺度差異性損失,依次進(jìn)行測(cè)試。

在去除所有的全局注意力模塊后,算法的RMSE和GAME(0)分別為17.92和28.28,對(duì)比TSRDNet,RMSE提高了3.59,GAME(0)提高了3.11,這驗(yàn)證了全局注意力模塊對(duì)整個(gè)模型性能的提升。

在移除所有包含的殘差連接結(jié)構(gòu)后,模型測(cè)試的GAME(0)和RMSE分別為17.18和26.91,對(duì)比TSRDNet,GAME(0)提高了2.37,RMSE提高了2.22,這驗(yàn)證了殘差連接結(jié)構(gòu)對(duì)整個(gè)模型性能的提升。

與以上兩個(gè)模塊相比,多尺度差異性損失對(duì)整個(gè)模型的增益較小。移除多尺度差異性損失后,模型測(cè)試的GAME(0)和RMSE分別為15.01和25.54,對(duì)比TSRDNet,GAME(0)提高了0.2,RMSE提高了0.85這驗(yàn)證了多尺度差異性損失對(duì)整個(gè)模型性能的提升。

通過以上的實(shí)驗(yàn)證明,分別去除網(wǎng)絡(luò)的每個(gè)模塊后,算法的準(zhǔn)確性和魯棒性均有一定程度的下降。因此驗(yàn)證了網(wǎng)絡(luò)的每個(gè)模塊對(duì)其性能都有一定的增益,也說明了本文算法結(jié)構(gòu)上比較合理。

2.6 全局注意力模塊和CBAM的對(duì)比實(shí)驗(yàn)

在RGBT-CC數(shù)據(jù)集[13]上對(duì)模型使用全局注意力模塊和CBAM[19]對(duì)計(jì)數(shù)結(jié)果的影響進(jìn)行了實(shí)驗(yàn),結(jié)果如表4所示。從表中可以看出,模型使用全局注意力模塊可以獲得更好的計(jì)數(shù)結(jié)果,這也驗(yàn)證了本文提出的空間注意力子模塊的有效性。

表4 全局注意力模塊和CBAM的對(duì)比實(shí)驗(yàn)

2.7 參數(shù)實(shí)驗(yàn)

在RGBT-CC數(shù)據(jù)集上對(duì)綜合損失函數(shù)中的參數(shù)的取值進(jìn)行了參數(shù)的消融實(shí)驗(yàn),來獲到參數(shù)的最優(yōu)取值,圖10展示了參數(shù)實(shí)驗(yàn)的結(jié)果對(duì)比。其中,橫坐標(biāo)表示的取值變化,縱坐標(biāo)表示評(píng)估指標(biāo)值的變化。

圖10 參數(shù)l的消融實(shí)驗(yàn)的結(jié)果對(duì)比圖

根據(jù)圖10的(a)、(b)可以看出,模型評(píng)估指標(biāo)GAME(0)和RMSE關(guān)于參數(shù)取值的不同先遞減再遞增,當(dāng)=0.6時(shí),評(píng)估結(jié)果最好,因此取=0.6。

3 結(jié)論

本文提出了一種新的使用RGB-T圖像進(jìn)行多模態(tài)人群計(jì)數(shù)的網(wǎng)絡(luò)模型TSRDNet,該模型基于殘差擴(kuò)張卷積模塊和全局注意力模塊來進(jìn)行精確的人群計(jì)數(shù)。此外,為了進(jìn)一步的提升網(wǎng)絡(luò)的性能,在歐幾里得損失的基礎(chǔ)上還引入了一個(gè)新的多尺度差異性損失,通過對(duì)上述的兩個(gè)損失函數(shù)進(jìn)行加權(quán)結(jié)合,得到的綜合損失函數(shù)可以使網(wǎng)絡(luò)生成的人群密度圖在不同的尺度內(nèi)和真值保持一致。所提出的方法在RGBT-CC數(shù)據(jù)集[13]和DroneRGBT數(shù)據(jù)集[14]上進(jìn)行了廣泛的實(shí)驗(yàn),證明了算法的有效性。在未來的工作中,計(jì)劃進(jìn)一步地改進(jìn)全局注意力機(jī)制并結(jié)合多尺度差異性損失,使用更多其它場(chǎng)景下的RGB-T圖像對(duì)模型進(jìn)行訓(xùn)練,以提高算法在不同場(chǎng)景下的計(jì)數(shù)性能。

[1] 張宇倩, 李國輝, 雷軍, 等. FF-CAM:基于通道注意機(jī)制前后端融合的人群計(jì)數(shù)[J].計(jì)算機(jī)學(xué)報(bào), 2021, 44(2): 304-317.

ZHANG Yuqian, LI Guohui, LEI Jun, et al. FF-CAM: crowd counting based on front-end and back-end fusion of channel attention mechanism [J]., 2021, 44(2): 304-317.

[2] YANG Z, WEN J, HUANG K. A method of pedestrian flow monitoring based on received signal strength[J]., 2022, 2022(1): 1-17.

[3] 王曲, 趙煒琪, 羅海勇, 等. 人群行為分析研究綜述[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2018, 30(12): 2353-2365.

WANG Qu, ZHAO Weiqi, LUO Haiyong, et al. Review of research on crowd behavior analysis[J]., 2018, 30(12): 2353-2365.

[4] 蔣一, 侯麗萍, 張強(qiáng). 基于改進(jìn)空時(shí)雙流網(wǎng)絡(luò)的紅外行人動(dòng)作識(shí)別研究[J]. 紅外技術(shù), 2021, 43(9): 852-860.

JIANG Yi, HOU Liping, ZHANG Qiang. Research on infrared pedestrian action recognition based on improved space-time dual-stream network [J]., 2021, 43(9): 852-860.

[5] 趙才榮, 齊鼎, 竇曙光, 等. 智能視頻監(jiān)控關(guān)鍵技術(shù):行人再識(shí)別研究綜述[J]. 中國科學(xué): 信息科學(xué), 2021, 51(12): 1979-2015.

ZHAO Cairong, QI Ding, DOU Shuguang, et al. Key technologies for intelligent video surveillance: A review of pedestrian re-identification research [J].: Information Science, 2021, 51(12): 1979-2015.

[6] Enzweiler M, Gavrila D M. Monocular pedestrian detection: Survey and experiments[J]., 2008, 31(12): 2179-2195.

[7] LI M, ZHANG Z, HUANG K, et al. Estimating the number of people in crowded scenes by mid based foreground segmentation and head-shoulder detection[C]//2008 19th, 2008: 1-4.

[8] CHEN K, Loy C C, GONG S, et al. Feature mining for localised crowd counting[C]//, 2012: 3-12.

[9] Pham V Q, Kozakaya T, Yamaguchi O, et al. Count forest: Co-voting uncertain number of targets using random forest for crowd density estimation[C]//, 2015: 3253-3261.

[10] PAN S, ZHAO Y, SU F, et al. SANet++: enhanced scale aggregation with densely connected feature fusion for crowd counting[C]//2021-2021,(ICASSP), 2021: 1980-1984.

[11] 吳奇元, 王曉東, 章聯(lián)軍, 等. 融合注意力機(jī)制與上下文密度圖的人群計(jì)數(shù)網(wǎng)絡(luò)[J]. 計(jì)算機(jī)工程, 2022, 48(5): 235-241, 250.

WU Qiyuan, WANG Xiaodong, ZHANG Lianjun, et al. Crowd counting network integrating attention mechanism and context density map [J]., 2022, 48(5): 235-241, 250.

[12] TANG H, WANG Y, CHAU L-P. TAFNet: a three-stream adaptive fusion network for RGB-T crowd counting[J/OL]. arXiv preprint arXiv:2202.08517, 2022.https://doi.org/10.48550/arXiv.2202.08517.

[13] LIU L, CHEN J, WU H, et al. Cross-modal collaborative representation learning and a large-scale rgbt benchmark for crowd counting[C]//, 2021: 4823-4833.

[14] PENG T, LI Q, ZHU P. RGB-T crowd counting from drone: a benchmark and MMCCN network[C]//2020, 2021: 497-513.

[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//(ICLR), 2014: 1-14.

[16] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//, 2016: 770-778.

[17] DAI F, LIU H, MA Y, et al. Dense scale network for crowd counting[C]//2021, 2021: 64-72.

[18] LI Y, ZHANG X, CHEN D. Csrnet: Dilated convolutional neural networks for understanding the highly congested scenes[C]//, 2018: 1091-1100.

[19] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]//(ECCV), 2018: 3-19.

[20] ZHANG J, FAN D P, DAI Y, et al. UC-Net: uncertainty inspired RGB-D saliency detection via conditional variational autoencoders[C]//, 2020: 8582-8591.

[21] PANG Y, ZHANG L, ZHAO X, et al. Hierarchical dynamic filtering network for rgb-d salient object detection[C]//, 2020: 235-252.

[22] ZHANG Y, ZHOU D, CHEN S, et al. Single-image crowd counting via multi-column convolutional neural network[C]//P, 2016: 589-597.

[23] CAO X, WANG Z, ZHAO Y, et al. Scale aggregation network for accurate and efficient crowd counting[C]//(ECCV), 2018: 734-750.

[24] FAN D P, ZHAI Y, Borji A, et al. BBS-Net: RGB-D salient object detection with a bifurcated backbone strategy network[C]//, 2020: 275-292.

[25] ZHANG Q, CHAN A B. Wide-area crowd counting via ground-plane density maps and multi-view fusion cnns[C]//, 2019: 8297-8306.

[26] MA Z, WEI X, HONG X, et al. Bayesian loss for crowd count estimation with point supervision[C]//, 2019: 6142-6151.

[27] ZENG L, XU X, CAI B, et al. Multi-scale convolutional neural networks for crowd counting[C]//(ICIP), 2017: 465-469.

[28] SHEN Z, XU Y, NI B, et al. Crowd counting via adversarial cross-scale consistency pursuit[C]//, 2018: 5245-5254.

Two-Stream Residual Dilation Network Algorithm for Crowd Counting Based on RGB-T Images

YANG Peilong,CHEN Shuyue,YANG Shangyu,WANG Jiahong

(School of Computer and Artificial Intelligence, Changzhou University, Changzhou 213164, China)

We proposed a multimodal crowd counting algorithm based onRGB-Thermal (RGB-T) images (two-stream residual expansion network) in crowd counting, given scale changes, uneven pedestrian distribution, and poor imaging conditions at night. It has a front-end feature extraction network, multi-scale residual dilation convolution, and global attention modules. We used the front-end network to extract RGB and thermal features, and the dilated convolution module further extracted pedestrian feature information at different scales and used the global attention module to establish dependencies between global features. We also introduced a new multi-scale dissimilarity loss method to improve the counting performance of the network and conducted comparative experiments on the RGBT crowd counting (RGBT-CC) and DroneRGBT datasets to evaluate the method. Experimental results showed that compared with the cross-modal collaborative representation learning (CMCRL) algorithm on the RGBT-CC dataset, the grid average mean absolute error (GAME (0)) and root mean squared error (RMSE) of this algorithm are reduced by 0.8 and 3.49, respectively. On the DroneRGBT dataset, the algorithm are reduced by 0.34 and 0.17, respectively, compared to the multimodal crowd counting network (MMCCN) algorithm, indicating better counting performance.

crowd counting, RGB-T images, dilated convolution, global attention, multi-scale disparity loss

TP391

A

1001-8891(2023)11-1177-10

2022-07-13;

2022-09-13.

楊佩龍(1997-),男,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺。E-mail: 2247291086@qq.com。

陳樹越(1963-),男,教授,主要研究方向?yàn)橛?jì)算機(jī)視覺與檢測(cè)技術(shù)。E-mail:csyue2000@163.com。

江蘇省關(guān)鍵研究與發(fā)展計(jì)劃項(xiàng)目(BE2021012-5)。

猜你喜歡
全局尺度計(jì)數(shù)
Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
量子Navier-Stokes方程弱解的全局存在性
古人計(jì)數(shù)
遞歸計(jì)數(shù)的六種方式
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
古代的計(jì)數(shù)方法
落子山東,意在全局
金橋(2018年4期)2018-09-26 02:24:54
這樣“計(jì)數(shù)”不惱人
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
新思路:牽一發(fā)動(dòng)全局
当涂县| 景谷| 白山市| 荆州市| 宝鸡市| 冕宁县| 蒙城县| 普兰县| 绥宁县| 阿拉尔市| 腾冲县| 肥东县| 贵德县| 建平县| 板桥市| 宣城市| 荆门市| 皋兰县| 微山县| 合川市| 陕西省| 丰原市| 哈尔滨市| 崇礼县| 乌拉特后旗| 海口市| 城口县| 高淳县| 通道| 清新县| 平和县| 精河县| 三台县| 巴彦淖尔市| 昔阳县| 孝昌县| 辛集市| 山西省| 古田县| 攀枝花市| 刚察县|