融合雙流殘差網(wǎng)絡(luò)和注意力機(jī)制的群體行為識別方法

2022-05-30 10:48:04黃少年全琪賀子琴胡俊杰

電腦知識與技術(shù) 2022年30期

黃少年全琪賀子琴胡俊杰

摘要：文章為實(shí)現(xiàn)復(fù)雜場景下群體行為的自動(dòng)分析與識別，方便城市安全管理，建立融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型。首先，提取群體場景的靜態(tài)可視特征及動(dòng)態(tài)光流特征作為模型輸入，構(gòu)建融合時(shí)空注意力的雙流3D殘差網(wǎng)絡(luò)提取群體場景的深度特征，通過對深度可視特征及運(yùn)動(dòng)特征的多次融合實(shí)現(xiàn)群體行為識別。然后，基于真實(shí)群體視頻數(shù)據(jù)集CUHK開展實(shí)驗(yàn)，驗(yàn)證模型的合理性，并對比分析該模型與多種已有模型的行為識別結(jié)果。結(jié)果表明：融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型具有可靠的群體行為識別能力，與其他深度神經(jīng)網(wǎng)絡(luò)模型相比，該模型具有更高的準(zhǔn)確率和更優(yōu)的混淆矩陣。

關(guān)鍵詞：群體行為識別；殘差神經(jīng)網(wǎng)絡(luò)；注意力機(jī)制

中圖分類號：TP18? ? ? 文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2022）30-0001-03

開放科學(xué)（資源服務(wù)）標(biāo)識碼（OSID）：

隨著我國城市化進(jìn)程的快速發(fā)展，群體聚集的情況頻繁在各種公共場所中出現(xiàn)。群體高度聚集的公共場所很可能出現(xiàn)因群體擁擠引發(fā)的踩踏事件。因此，自動(dòng)分析、識別群體行為，理解復(fù)雜環(huán)境下的群體運(yùn)動(dòng)動(dòng)態(tài)，對于避免群體災(zāi)難性事件發(fā)生、提高城市公共安全管理能力具有重要意義。

隨著深度學(xué)習(xí)模型在圖像分類、視頻分析等領(lǐng)域的成功應(yīng)用，其在群體場景深度特征表示方面也取得了顯著進(jìn)步。Shao等[1]首次基于VGG-16深度網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)造時(shí)空切片卷積神經(jīng)網(wǎng)絡(luò)，提取群體場景在時(shí)間維度和空間維度上的深度特征表示。鑒于視頻序列中存在大量的時(shí)空信息，Simonyan等[2]首次提出雙流卷積神經(jīng)網(wǎng)絡(luò)完成人體行為識別。袁亞軍等[3]采用CNN模型學(xué)習(xí)群體靜態(tài)行為特征及動(dòng)態(tài)行為特征，并綜合兩種深度特征完成行為分析。以上研究表明，雙流深度神經(jīng)網(wǎng)絡(luò)能有效提取群體場景的時(shí)空深度特征表示，但上述研究中針對群體行為識別的模型較少，且識別準(zhǔn)確率有待進(jìn)一步提高。因此，為進(jìn)一步增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)對復(fù)雜群體場景的特征表示能力，提高群體行為識別的準(zhǔn)確率，筆者擬構(gòu)建融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型，實(shí)現(xiàn)群體行為識別，以期為城市公共安全群體管理提供新的途徑。

1 模型架構(gòu)

筆者提出了一種融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型，模型主要包括數(shù)據(jù)預(yù)處理、深度特征提取、特征融合及群體行為識別四個(gè)模塊。

1.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理包括空間域預(yù)處理和時(shí)間域預(yù)處理兩部分?？臻g域預(yù)處理指從群體視頻流中提取連續(xù)圖像序列作為空間域殘差網(wǎng)絡(luò)的輸入。為減少時(shí)間消耗和計(jì)算復(fù)雜度，從每個(gè)群體視頻的隨機(jī)位置提取的連續(xù)32幀圖像，并將其裁剪為[224×224]的幀序列。時(shí)間域預(yù)處理則指從圖像序列中提取對應(yīng)的連續(xù)光流序列作為時(shí)間域殘差網(wǎng)絡(luò)的輸入。光流是研究圖像動(dòng)態(tài)特征的常用方法，采用TV-L1（Total Variation-L1 Optical Flow）[4]光流估計(jì)模型提取群體序列的光流圖，該算法適合相鄰圖像幀間位移變化較小的運(yùn)動(dòng)特征提取。

1.2 深度特征提取模塊

傳統(tǒng)殘差網(wǎng)絡(luò)采用2D卷積提取深度特征，鑒于3D卷積在時(shí)空特征提取上的優(yōu)越性，構(gòu)建基于時(shí)空注意力機(jī)制的3D殘差網(wǎng)絡(luò)提取群體視頻的深度特征表示。該模塊基于殘差網(wǎng)絡(luò)ResNet50進(jìn)行設(shè)計(jì)，其原理圖如圖1所示。對于輸入的RGB圖像序列和光流圖序列，首先用卷積核為1×7×7的卷積層提取淺層特征，然后依次經(jīng)過Conv2_x、Conv3_x、Conv4_x 以及Conv5_x四個(gè)殘差塊，每個(gè)殘差塊均包含一個(gè)1×3×3和兩個(gè)1×1×1大小的卷積核。為避免隨著網(wǎng)絡(luò)深度增加而帶來的梯度消失問題，在每一個(gè)三維卷積層后增加BN層進(jìn)行批量歸一化，以加快訓(xùn)練網(wǎng)絡(luò)收斂的速度。

為進(jìn)一步提取群體深度特征的遠(yuǎn)距離依賴性，設(shè)計(jì)時(shí)空注意力模塊（Spatio-Temporal Attention Block， STA Block），在不改變?nèi)S殘差網(wǎng)絡(luò)原有結(jié)構(gòu)的基礎(chǔ)上，將該模塊插入Conv4_x殘差塊前面?；诜蔷植孔⒁饬C(jī)制的基本原理[5]，時(shí)空注意力模塊（STA Block）采用嵌入式高斯函數(shù)作為相似性度量函數(shù)，采用線性函數(shù)作為響應(yīng)函數(shù)，即：

[fxi，xj=e（Wθxi）T（Wφxj）]? ? ? ? ? ? ? ? ? ? ? ? ? （1）

[g（xj）=Wgxj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? （2）

其中，[Wθ]， [Wφ]，[Wg]為待學(xué)習(xí)的權(quán)重參數(shù)。通過公式（3）計(jì)算可得到[yi]的非局部時(shí)空注意力值，將該值與原始輸入特征[x]進(jìn)行殘差鏈接，即可得到時(shí)空注意力增強(qiáng)的特征[z]. 即：

[zi=wzyi+xi]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?（3）

其中，[wz]為待學(xué)習(xí)的權(quán)重參數(shù)，[+]表示殘差連接。STA Block模塊的結(jié)構(gòu)圖如圖2所示，圖中?表示矩陣乘法。

1.3 深度特征融合與識別

為進(jìn)一步提升群體行為識別的準(zhǔn)確率，采用[3D]卷積融合和[3D]池化融合方式構(gòu)建深度特征融合模塊。其中3D卷積融合的形式化表示為：

[ycat=concatzv， zm]? ? ? ? ? ? ? ? ? ? ? ? （4）

[y=ycat*f+b]? ? ? ? ? ? ? ? ? ? ? ? ? （5）

上式中，[zv， zm]分別為深度可視特征圖及運(yùn)動(dòng)特征圖，[zv， zm∈RT×H×W×D]，其中[T]為特征圖的時(shí)域尺寸，[H]和[W]分別表示特征圖的寬度和高度，[D]表示特征圖的通道數(shù)；[ycat]為[zv]和[zm]的直接連接且[ycat∈RT×H×W×2D]; [*]為3D卷積操作；[f]為[1×1×1]的卷積核；[b]為偏置常數(shù)。將卷積結(jié)果[y]輸入過濾器大小為1×2×2的3D最大池化，形成3D卷積融合。

1.4 模型參數(shù)

模型的空間域殘差網(wǎng)絡(luò)和時(shí)間域殘差神經(jīng)網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu)，分別對視頻的RGB幀序列以及光流序列進(jìn)行深度特征提取，時(shí)空注意力模塊（STA Block）被嵌入在Conv4_x殘差塊前，輔助提取具有遠(yuǎn)距離依賴性的群體時(shí)空特征。由于二維卷積不能很好地捕獲視頻序列間的時(shí)序關(guān)系，三維卷積不僅能捕獲局部空間信息，還能捕獲全局時(shí)間信息。因此，文中模型的卷積和池化操作均為三維卷積以及三維池化。模型詳細(xì)的參數(shù)設(shè)置如表1所示。

2 實(shí)驗(yàn)與分析

2.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理

實(shí)驗(yàn)中所有的群體行為視頻均來自CUHK群體數(shù)據(jù)集，該數(shù)據(jù)集包含來自215種群體場景下的474個(gè)視頻。該數(shù)據(jù)集的群體場景均在不同的監(jiān)控環(huán)境下獲取，包括機(jī)場、商場、街道等眾多城市公共場所，其包括的所有群體行為被分為八類，具體類別如表2所示。

類別1表現(xiàn)的是密集群體以不同的形態(tài)無規(guī)律地向四周行走；類別2和類別3表現(xiàn)的是群體中的絕大部分朝著同一方向行走；類別2的群體是以有組織的形態(tài)有序行走，群體中的個(gè)體行走方向相對穩(wěn)定；類別3的群體以無組織的形態(tài)行走，群體中的個(gè)體隨時(shí)都可能改變方向，極有可能發(fā)生擁堵情況；類別4～8表現(xiàn)的是公共交通和群體管理場所群體流的變化情況，類別4是不同方向的群體流合并，例如火車站進(jìn)站口的群體流場景；類別5是群體分散成多個(gè)流，例如火車站出站口的群體流場景；類別6是群體與反方向群體交叉行走，例如斑馬線上群體流場景；類別7與類別8表現(xiàn)的是自動(dòng)扶梯上人流情況，類別7比類別8場景更加復(fù)雜，包含了自動(dòng)扶梯周圍的人流情況。

選取每個(gè)視頻中隨機(jī)位置的連續(xù)32幀圖像作為訓(xùn)練數(shù)據(jù)，并將原圖像大小調(diào)整為[224×224]。為獲得更好的分類精度，對提取的RGB圖像數(shù)據(jù)和光流數(shù)據(jù)均進(jìn)行標(biāo)準(zhǔn)化處理。

2.2 模型訓(xùn)練

實(shí)驗(yàn)采用PyTorch1.9.0+CUDA11框架在Ubuntu18.04.5LTS操作系統(tǒng)下使用雙GPU（型號為：Nvidia3090）完成并行加速訓(xùn)練。模型中雙流網(wǎng)絡(luò)的輸入設(shè)置為連續(xù)的32幀RGB數(shù)據(jù)和連續(xù)的32幀光流數(shù)據(jù)。下面從數(shù)據(jù)清洗與預(yù)處理、訓(xùn)練、測試三個(gè)階段說明文中實(shí)驗(yàn)的具體設(shè)置。

1）數(shù)據(jù)清洗與預(yù)處理階段。首先對原始視頻進(jìn)行分類，其中80%用于訓(xùn)練集，20%用于測試集，將小于32幀的小視頻清除掉，然后采用TV-L1算法提取視頻的光流序列?？紤]到視頻間分辨率的不一致性，將提取的RGB幀和光流圖大小調(diào)整為[256×320]，并采用隨機(jī)裁剪與水平翻轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)增強(qiáng)。

2）訓(xùn)練階段。將預(yù)處理階段的RGB幀和光流圖裁剪為[224×224]，為了加快網(wǎng)絡(luò)的收斂速度，裁剪后的RGB幀和光流圖統(tǒng)一歸一化到[-1，1]。經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn)，BN層對整個(gè)網(wǎng)絡(luò)至關(guān)重要，在實(shí)驗(yàn)中產(chǎn)生過梯度爆炸、過擬合等一系列問題，在加入BN層后都有所緩解。因此，在訓(xùn)練過程中，每個(gè)3D卷積后都會(huì)加入一層BN層進(jìn)行批量歸一化。訓(xùn)練中采用小批量隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù)，批大小為6，動(dòng)量為0.9，權(quán)重衰減系數(shù)為5e-4。雙流網(wǎng)絡(luò)中兩個(gè)分支的初始學(xué)習(xí)率都為0.001，學(xué)習(xí)率改變策略為當(dāng)訓(xùn)練損失在6個(gè)epoch內(nèi)沒有降低時(shí)，將學(xué)習(xí)率降為原來的1/2。

3）測試階段。采用預(yù)留的20%的數(shù)據(jù)作為測試集，用來測試網(wǎng)絡(luò)的擬合能力，對于每幀圖像同樣采取隨機(jī)裁剪的方式進(jìn)行數(shù)據(jù)增強(qiáng)。采用top-1識別準(zhǔn)確率作為評價(jià)標(biāo)準(zhǔn)，最后判斷所有樣本的8類概率作為分類的結(jié)果。

2.3 實(shí)驗(yàn)結(jié)果分析

為驗(yàn)證模型的合理性，基于CUHK數(shù)據(jù)集開展多次實(shí)驗(yàn)，驗(yàn)證模型中各個(gè)模塊對群體行為識別結(jié)果的影響；并通過與已有方法的對比分析，驗(yàn)證模型的有效性。

通過以上實(shí)驗(yàn)分析，模型最終在Conv4_x殘差塊前插入STA Block模塊，且采用連接融合的方式進(jìn)行融合。為了獲取更好的實(shí)驗(yàn)效果，本次實(shí)驗(yàn)事先基于UCF101數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練能使網(wǎng)絡(luò)更好地學(xué)習(xí)到通用特征，使模型具有更好的泛化效果。

基于相同的實(shí)驗(yàn)數(shù)據(jù)集，文中方法與其他方法識別結(jié)果的對比如表6所示。從表6可知：文中方法的識別結(jié)果要優(yōu)于其他方法，與其他方法最好的結(jié)果（文獻(xiàn)[7]）相比，文中方法的準(zhǔn)確率提高了1.1%。而文獻(xiàn)[7]的數(shù)據(jù)預(yù)處理方式更為復(fù)雜：除了提取光流圖外，該方法還使用背景減除法對RGB圖像序列進(jìn)行了預(yù)處理。此外，該方法的輸入僅為連續(xù)的10幀圖像，而文中方法輸入為連續(xù)的32幀，顯然文中模型更具備捕獲遠(yuǎn)距離依賴性的能力。綜上所述，構(gòu)建的融合雙流3D殘差網(wǎng)絡(luò)與時(shí)空注意力的群體行為識別模型可有效地完成群體行為識別。

3 結(jié)論

1）針對群體行為識別任務(wù)，提出了一種融合時(shí)空注意力機(jī)制的雙流殘差網(wǎng)絡(luò)結(jié)構(gòu)。采用UCF101數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，將得到的參數(shù)初始化至整個(gè)網(wǎng)絡(luò)，并使用CUHK群體數(shù)據(jù)集對權(quán)重參數(shù)進(jìn)行微調(diào)，該模型對8種群體行為的分類識別具有更高的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合雙流殘差網(wǎng)絡(luò)和注意力機(jī)制的群體行為識別方法