黃少年 全琪 賀子琴 胡俊杰
摘要:文章為實(shí)現(xiàn)復(fù)雜場景下群體行為的自動(dòng)分析與識別,方便城市安全管理,建立融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型。首先,提取群體場景的靜態(tài)可視特征及動(dòng)態(tài)光流特征作為模型輸入,構(gòu)建融合時(shí)空注意力的雙流3D殘差網(wǎng)絡(luò)提取群體場景的深度特征,通過對深度可視特征及運(yùn)動(dòng)特征的多次融合實(shí)現(xiàn)群體行為識別。然后,基于真實(shí)群體視頻數(shù)據(jù)集CUHK開展實(shí)驗(yàn),驗(yàn)證模型的合理性,并對比分析該模型與多種已有模型的行為識別結(jié)果。結(jié)果表明: 融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型具有可靠的群體行為識別能力,與其他深度神經(jīng)網(wǎng)絡(luò)模型相比,該模型具有更高的準(zhǔn)確率和更優(yōu)的混淆矩陣。
關(guān)鍵詞:群體行為識別;殘差神經(jīng)網(wǎng)絡(luò);注意力機(jī)制
中圖分類號:TP18? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2022)30-0001-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
隨著我國城市化進(jìn)程的快速發(fā)展,群體聚集的情況頻繁在各種公共場所中出現(xiàn)。群體高度聚集的公共場所很可能出現(xiàn)因群體擁擠引發(fā)的踩踏事件。因此,自動(dòng)分析、識別群體行為,理解復(fù)雜環(huán)境下的群體運(yùn)動(dòng)動(dòng)態(tài),對于避免群體災(zāi)難性事件發(fā)生、提高城市公共安全管理能力具有重要意義。
隨著深度學(xué)習(xí)模型在圖像分類、視頻分析等領(lǐng)域的成功應(yīng)用,其在群體場景深度特征表示方面也取得了顯著進(jìn)步。Shao等[1]首次基于VGG-16深度網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)造時(shí)空切片卷積神經(jīng)網(wǎng)絡(luò),提取群體場景在時(shí)間維度和空間維度上的深度特征表示。鑒于視頻序列中存在大量的時(shí)空信息,Simonyan等[2]首次提出雙流卷積神經(jīng)網(wǎng)絡(luò)完成人體行為識別。袁亞軍等[3]采用CNN模型學(xué)習(xí)群體靜態(tài)行為特征及動(dòng)態(tài)行為特征,并綜合兩種深度特征完成行為分析。以上研究表明,雙流深度神經(jīng)網(wǎng)絡(luò)能有效提取群體場景的時(shí)空深度特征表示,但上述研究中針對群體行為識別的模型較少,且識別準(zhǔn)確率有待進(jìn)一步提高。因此,為進(jìn)一步增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)對復(fù)雜群體場景的特征表示能力,提高群體行為識別的準(zhǔn)確率,筆者擬構(gòu)建融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型,實(shí)現(xiàn)群體行為識別,以期為城市公共安全群體管理提供新的途徑。
1 模型架構(gòu)
筆者提出了一種融合雙流3D殘差網(wǎng)絡(luò)和時(shí)空注意力機(jī)制的群體行為識別模型,模型主要包括數(shù)據(jù)預(yù)處理、深度特征提取、特征融合及群體行為識別四個(gè)模塊。
1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括空間域預(yù)處理和時(shí)間域預(yù)處理兩部分??臻g域預(yù)處理指從群體視頻流中提取連續(xù)圖像序列作為空間域殘差網(wǎng)絡(luò)的輸入。為減少時(shí)間消耗和計(jì)算復(fù)雜度,從每個(gè)群體視頻的隨機(jī)位置提取的連續(xù)32幀圖像,并將其裁剪為[224×224]的幀序列。時(shí)間域預(yù)處理則指從圖像序列中提取對應(yīng)的連續(xù)光流序列作為時(shí)間域殘差網(wǎng)絡(luò)的輸入。光流是研究圖像動(dòng)態(tài)特征的常用方法,采用TV-L1(Total Variation-L1 Optical Flow)[4]光流估計(jì)模型提取群體序列的光流圖,該算法適合相鄰圖像幀間位移變化較小的運(yùn)動(dòng)特征提取。
1.2 深度特征提取模塊
傳統(tǒng)殘差網(wǎng)絡(luò)采用2D卷積提取深度特征,鑒于3D卷積在時(shí)空特征提取上的優(yōu)越性,構(gòu)建基于時(shí)空注意力機(jī)制的3D殘差網(wǎng)絡(luò)提取群體視頻的深度特征表示。該模塊基于殘差網(wǎng)絡(luò)ResNet50進(jìn)行設(shè)計(jì),其原理圖如圖1所示。對于輸入的RGB圖像序列和光流圖序列,首先用卷積核為1×7×7的卷積層提取淺層特征,然后依次經(jīng)過Conv2_x、Conv3_x、Conv4_x 以及Conv5_x四個(gè)殘差塊,每個(gè)殘差塊均包含一個(gè)1×3×3和兩個(gè)1×1×1大小的卷積核。為避免隨著網(wǎng)絡(luò)深度增加而帶來的梯度消失問題,在每一個(gè)三維卷積層后增加BN層進(jìn)行批量歸一化,以加快訓(xùn)練網(wǎng)絡(luò)收斂的速度。
為進(jìn)一步提取群體深度特征的遠(yuǎn)距離依賴性,設(shè)計(jì)時(shí)空注意力模塊(Spatio-Temporal Attention Block, STA Block),在不改變?nèi)S殘差網(wǎng)絡(luò)原有結(jié)構(gòu)的基礎(chǔ)上,將該模塊插入Conv4_x殘差塊前面?;诜蔷植孔⒁饬C(jī)制的基本原理[5],時(shí)空注意力模塊(STA Block)采用嵌入式高斯函數(shù)作為相似性度量函數(shù),采用線性函數(shù)作為響應(yīng)函數(shù),即:
[fxi,xj=e(Wθxi)T(Wφxj)]? ? ? ? ? ? ? ? ? ? ? ? ? (1)
[g(xj)=Wgxj]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
其中,[Wθ], [Wφ],[Wg]為待學(xué)習(xí)的權(quán)重參數(shù)。通過公式(3)計(jì)算可得到[yi]的非局部時(shí)空注意力值,將該值與原始輸入特征[x]進(jìn)行殘差鏈接,即可得到時(shí)空注意力增強(qiáng)的特征[z]. 即:
[zi=wzyi+xi]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
其中,[wz]為待學(xué)習(xí)的權(quán)重參數(shù),[+]表示殘差連接。STA Block模塊的結(jié)構(gòu)圖如圖2所示, 圖中?表示矩陣乘法。
1.3 深度特征融合與識別
為進(jìn)一步提升群體行為識別的準(zhǔn)確率,采用[3D]卷積融合和[3D]池化融合方式構(gòu)建深度特征融合模塊。其中3D卷積融合的形式化表示為:
[ycat=concatzv, zm]? ? ? ? ? ? ? ? ? ? ? ? (4)
[y=ycat*f+b]? ? ? ? ? ? ? ? ? ? ? ? ? (5)
上式中,[zv, zm]分別為深度可視特征圖及運(yùn)動(dòng)特征圖,[zv, zm∈RT×H×W×D],其中[T]為特征圖的時(shí)域尺寸,[H]和[W]分別表示特征圖的寬度和高度,[D]表示特征圖的通道數(shù);[ycat]為[zv]和[zm]的直接連接且[ycat∈RT×H×W×2D]; [*]為3D卷積操作;[f]為[1×1×1]的卷積核;[b]為偏置常數(shù)。將卷積結(jié)果[y]輸入過濾器大小為1×2×2的3D最大池化,形成3D卷積融合。
1.4 模型參數(shù)
模型的空間域殘差網(wǎng)絡(luò)和時(shí)間域殘差神經(jīng)網(wǎng)絡(luò)具有相同的網(wǎng)絡(luò)結(jié)構(gòu),分別對視頻的RGB幀序列以及光流序列進(jìn)行深度特征提取,時(shí)空注意力模塊(STA Block)被嵌入在Conv4_x殘差塊前,輔助提取具有遠(yuǎn)距離依賴性的群體時(shí)空特征。由于二維卷積不能很好地捕獲視頻序列間的時(shí)序關(guān)系,三維卷積不僅能捕獲局部空間信息,還能捕獲全局時(shí)間信息。因此,文中模型的卷積和池化操作均為三維卷積以及三維池化。模型詳細(xì)的參數(shù)設(shè)置如表1所示。
2 實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
實(shí)驗(yàn)中所有的群體行為視頻均來自CUHK群體數(shù)據(jù)集,該數(shù)據(jù)集包含來自215種群體場景下的474個(gè)視頻。該數(shù)據(jù)集的群體場景均在不同的監(jiān)控環(huán)境下獲取,包括機(jī)場、商場、街道等眾多城市公共場所,其包括的所有群體行為被分為八類,具體類別如表2所示。
類別1表現(xiàn)的是密集群體以不同的形態(tài)無規(guī)律地向四周行走;類別2和類別3表現(xiàn)的是群體中的絕大部分朝著同一方向行走;類別2的群體是以有組織的形態(tài)有序行走,群體中的個(gè)體行走方向相對穩(wěn)定;類別3的群體以無組織的形態(tài)行走,群體中的個(gè)體隨時(shí)都可能改變方向,極有可能發(fā)生擁堵情況;類別4~8表現(xiàn)的是公共交通和群體管理場所群體流的變化情況,類別4是不同方向的群體流合并,例如火車站進(jìn)站口的群體流場景;類別5是群體分散成多個(gè)流,例如火車站出站口的群體流場景;類別6是群體與反方向群體交叉行走,例如斑馬線上群體流場景;類別7與類別8表現(xiàn)的是自動(dòng)扶梯上人流情況,類別7比類別8場景更加復(fù)雜,包含了自動(dòng)扶梯周圍的人流情況。
選取每個(gè)視頻中隨機(jī)位置的連續(xù)32幀圖像作為訓(xùn)練數(shù)據(jù),并將原圖像大小調(diào)整為[224×224]。為獲得更好的分類精度,對提取的RGB圖像數(shù)據(jù)和光流數(shù)據(jù)均進(jìn)行標(biāo)準(zhǔn)化處理。
2.2 模型訓(xùn)練
實(shí)驗(yàn)采用PyTorch1.9.0+CUDA11框架在Ubuntu18.04.5LTS操作系統(tǒng)下使用雙GPU(型號為:Nvidia3090)完成并行加速訓(xùn)練。模型中雙流網(wǎng)絡(luò)的輸入設(shè)置為連續(xù)的32幀RGB數(shù)據(jù)和連續(xù)的32幀光流數(shù)據(jù)。下面從數(shù)據(jù)清洗與預(yù)處理、訓(xùn)練、測試三個(gè)階段說明文中實(shí)驗(yàn)的具體設(shè)置。
1)數(shù)據(jù)清洗與預(yù)處理階段。首先對原始視頻進(jìn)行分類,其中80%用于訓(xùn)練集,20%用于測試集,將小于32幀的小視頻清除掉,然后采用TV-L1算法提取視頻的光流序列??紤]到視頻間分辨率的不一致性,將提取的RGB幀和光流圖大小調(diào)整為[256×320],并采用隨機(jī)裁剪與水平翻轉(zhuǎn)的方式進(jìn)行數(shù)據(jù)增強(qiáng)。
2)訓(xùn)練階段。將預(yù)處理階段的RGB幀和光流圖裁剪為[224×224],為了加快網(wǎng)絡(luò)的收斂速度,裁剪后的RGB幀和光流圖統(tǒng)一歸一化到[-1,1]。經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn),BN層對整個(gè)網(wǎng)絡(luò)至關(guān)重要,在實(shí)驗(yàn)中產(chǎn)生過梯度爆炸、過擬合等一系列問題,在加入BN層后都有所緩解。因此,在訓(xùn)練過程中,每個(gè)3D卷積后都會(huì)加入一層BN層進(jìn)行批量歸一化。訓(xùn)練中采用小批量隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)參數(shù),批大小為6,動(dòng)量為0.9,權(quán)重衰減系數(shù)為5e-4。雙流網(wǎng)絡(luò)中兩個(gè)分支的初始學(xué)習(xí)率都為0.001,學(xué)習(xí)率改變策略為當(dāng)訓(xùn)練損失在6個(gè)epoch內(nèi)沒有降低時(shí),將學(xué)習(xí)率降為原來的1/2。
3)測試階段。采用預(yù)留的20%的數(shù)據(jù)作為測試集,用來測試網(wǎng)絡(luò)的擬合能力,對于每幀圖像同樣采取隨機(jī)裁剪的方式進(jìn)行數(shù)據(jù)增強(qiáng)。采用top-1識別準(zhǔn)確率作為評價(jià)標(biāo)準(zhǔn),最后判斷所有樣本的8類概率作為分類的結(jié)果。
2.3 實(shí)驗(yàn)結(jié)果分析
為驗(yàn)證模型的合理性,基于CUHK數(shù)據(jù)集開展多次實(shí)驗(yàn),驗(yàn)證模型中各個(gè)模塊對群體行為識別結(jié)果的影響;并通過與已有方法的對比分析,驗(yàn)證模型的有效性。
通過以上實(shí)驗(yàn)分析,模型最終在Conv4_x殘差塊前插入STA Block模塊,且采用連接融合的方式進(jìn)行融合。為了獲取更好的實(shí)驗(yàn)效果,本次實(shí)驗(yàn)事先基于UCF101數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。預(yù)訓(xùn)練能使網(wǎng)絡(luò)更好地學(xué)習(xí)到通用特征,使模型具有更好的泛化效果。
基于相同的實(shí)驗(yàn)數(shù)據(jù)集,文中方法與其他方法識別結(jié)果的對比如表6所示。從表6可知:文中方法的識別結(jié)果要優(yōu)于其他方法,與其他方法最好的結(jié)果(文獻(xiàn)[7])相比,文中方法的準(zhǔn)確率提高了1.1%。而文獻(xiàn)[7]的數(shù)據(jù)預(yù)處理方式更為復(fù)雜:除了提取光流圖外,該方法還使用背景減除法對RGB圖像序列進(jìn)行了預(yù)處理。此外,該方法的輸入僅為連續(xù)的10幀圖像,而文中方法輸入為連續(xù)的32幀,顯然文中模型更具備捕獲遠(yuǎn)距離依賴性的能力。綜上所述,構(gòu)建的融合雙流3D殘差網(wǎng)絡(luò)與時(shí)空注意力的群體行為識別模型可有效地完成群體行為識別。
3 結(jié)論
1)針對群體行為識別任務(wù),提出了一種融合時(shí)空注意力機(jī)制的雙流殘差網(wǎng)絡(luò)結(jié)構(gòu)。采用UCF101數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,將得到的參數(shù)初始化至整個(gè)網(wǎng)絡(luò),并使用CUHK群體數(shù)據(jù)集對權(quán)重參數(shù)進(jìn)行微調(diào),該模型對8種群體行為的分類識別具有更高的準(zhǔn)確率。