李 駿,程雅儒,謝 昭,孫永宣,吳克偉,2,武金金
(1合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥 230601;2 合肥工業(yè)大學(xué) 工業(yè)安全與應(yīng)急技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室,合肥 230601)
群體行為識(shí)別,是通過對(duì)人員密集場(chǎng)所的視頻分析,并對(duì)其突發(fā)性群體行為進(jìn)行識(shí)別,有利于維護(hù)公共場(chǎng)所安全,避免人員傷亡和財(cái)產(chǎn)損失,已被廣泛應(yīng)用于視頻監(jiān)控、視頻摘要、視頻檢索等領(lǐng)域。個(gè)體行為識(shí)別模型只需要識(shí)別個(gè)體的單獨(dú)行動(dòng),而群體行為識(shí)別,需要依據(jù)個(gè)體的行為,推斷出個(gè)體之間的群體活動(dòng)。視頻中,個(gè)體的關(guān)系是隱藏的,且行為特征具有復(fù)雜的時(shí)序信息,個(gè)體之間的行為會(huì)相互干擾,影響多人關(guān)系的估計(jì)結(jié)果,而解析個(gè)體的時(shí)序信息具有一定的挑戰(zhàn)性。
群體的外觀特征通常使用卷積神經(jīng)網(wǎng)絡(luò)來提取,但無法提取群體的時(shí)序信息。實(shí)驗(yàn)表明,雖然可以利用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)提取個(gè)體的時(shí)序信息,但會(huì)導(dǎo)致網(wǎng)絡(luò)性能下降?,F(xiàn)有的圖模型結(jié)構(gòu)只專注于群體的外觀信息和位置信息,不能夠很好地表達(dá)群體關(guān)系,導(dǎo)致群體行為識(shí)別效果欠佳。
針對(duì)上述問題,本文提出了一種時(shí)間上下文模塊,用來解決個(gè)體特征缺乏時(shí)序信息的問題。通過通道級(jí)的時(shí)間位移方法,每個(gè)個(gè)體的時(shí)序信息都得到增強(qiáng)。為了保證群體建模的完整性,構(gòu)建了基于融合通道級(jí)時(shí)間上下文特征的空間圖模型,該圖模型使用外觀和位置信息,實(shí)現(xiàn)對(duì)空間關(guān)系的編碼。在增強(qiáng)時(shí)序信息的基礎(chǔ)上,通過建立多個(gè)個(gè)體關(guān)系圖來模擬個(gè)體之間的相互關(guān)系,將每個(gè)個(gè)體的全部特征描述為圖模型的每個(gè)節(jié)點(diǎn),通過圖模型的推理,完成行為分類。
早期的視頻特征學(xué)習(xí)主要采用傳統(tǒng)手工制作的視覺特征,或采用與概率圖模型結(jié)合的方法。在圖模型的基礎(chǔ)上,多尺度模型And-or通過對(duì)不同的群體粒度進(jìn)行建模,對(duì)群組行為分類。雙流卷積神經(jīng)網(wǎng)絡(luò)還可以額外學(xué)習(xí)視頻幀的光流圖像特征,進(jìn)一步識(shí)別不同的行為。時(shí)間分段網(wǎng)絡(luò)在雙流的基礎(chǔ)上做出改進(jìn),通過稀疏采樣和加權(quán)池化來識(shí)別行為特征。膨脹三維卷積網(wǎng)絡(luò)通過將2D CNN參數(shù)膨脹拓展為3D CNN,可以解決TSN單一視頻權(quán)重的問題。
群體行為分析的細(xì)節(jié)存在于群體結(jié)構(gòu)中。與個(gè)體行為識(shí)別不同,群體行為識(shí)別更重要的是分析個(gè)體之間交互關(guān)系。層次關(guān)系網(wǎng)絡(luò)(HRN)使用固定的群體結(jié)構(gòu),來學(xué)習(xí)個(gè)體之間的相互關(guān)系強(qiáng)度。卷積關(guān)系機(jī)(CRM)使用多階段的群體結(jié)構(gòu)誤差,來優(yōu)化群體行為識(shí)別結(jié)果。時(shí)空注意力圖網(wǎng)絡(luò)stagNet被用于估計(jì)圖結(jié)構(gòu)中,用于表達(dá)目標(biāo)之間的關(guān)系。
圖卷積網(wǎng)絡(luò)(GCN)在結(jié)構(gòu)化數(shù)據(jù)的表示和推理方面具有優(yōu)勢(shì)。圖注意力交互模型(GAIM)將群體節(jié)點(diǎn)加入圖模型,并利用自注意力同時(shí)學(xué)習(xí)個(gè)體之間和個(gè)體與群體之間的關(guān)系。在圖模型中引入LSTM可以增強(qiáng)時(shí)序信息。置信度能量循環(huán)網(wǎng)絡(luò)(CERN)在LSTM的動(dòng)態(tài)特征基礎(chǔ)上構(gòu)建圖模型,在圖模型構(gòu)建階段,可以獲得群體的時(shí)序信息。本文在模型的設(shè)計(jì)中應(yīng)用了圖卷積網(wǎng)絡(luò),將個(gè)體的信息作為圖模型一個(gè)節(jié)點(diǎn)。為了保證群體建模的完整性,在圖構(gòu)建的過程中引入了多圖策略。
本文使用Inception-v3對(duì)視頻序列提取特征,通過RoIAlign從幀特征圖中提取每個(gè)個(gè)體的邊界框特征,將對(duì)齊的特征通過全連接層得到每個(gè)個(gè)體的原始特征。原始特征經(jīng)過通道級(jí)時(shí)間上下文模塊,與圖卷積特征相加得到多圖融合特征,最終融合特征通過群體分類器和個(gè)體分類器完成行為的分類。整體網(wǎng)絡(luò)框架如圖1所示。
圖1 融合時(shí)間和空間上下文特征的群體行為識(shí)別網(wǎng)絡(luò)Fig.1 The group activity recognition model based on temporal and spatial context features
本文設(shè)計(jì)了通道級(jí)時(shí)間上下文模塊,該模塊通過對(duì)個(gè)體特征的多個(gè)通道進(jìn)行時(shí)間平移,可以讓視頻幀獲得相鄰幀的時(shí)序信息,在圖模型的建立過程中增強(qiáng)模型的時(shí)序信息,并最終影響行為分類的結(jié)果。
通道級(jí)位移策略如圖2所示,對(duì)于個(gè)體特征的通道位移,本文分別采用時(shí)間延遲后移、時(shí)間雙向移動(dòng)、時(shí)間循環(huán)雙向移動(dòng)策略來實(shí)現(xiàn)。
圖2中描述了本文設(shè)計(jì)的3種位移方式,考慮了不同的位移方式對(duì)于模型性能的影響,并最終選擇時(shí)間循環(huán)雙向移動(dòng)作為模塊內(nèi)特征位移的方式。
圖2 通道級(jí)位移策略Fig.2 Channel-wise shift strategies
通過時(shí)間循環(huán)雙向移動(dòng)的位移策略,既增強(qiáng)了時(shí)序信息,也確保個(gè)體特征不會(huì)丟失,保證了圖模型構(gòu)建過程中建模的完整性。
由于圖模型能夠?qū)崿F(xiàn)結(jié)構(gòu)化數(shù)據(jù)的表示和推理,本文在建模中利用圖模型來模擬群體行為中的成對(duì)個(gè)體關(guān)系。圖定義為:{,},其中,節(jié)點(diǎn){v},邊{e},節(jié)點(diǎn)編號(hào)為1,2,…,,1,2,…,,這里表示群體中個(gè)體的數(shù)量;節(jié)點(diǎn)有外觀特征和位置特征;表示圖模型節(jié)點(diǎn)之間的相互關(guān)系。通過估計(jì)邊上的關(guān)系取值,構(gòu)成關(guān)系矩陣,表示個(gè)體和個(gè)體的關(guān)聯(lián)性。
在考慮上下文建模時(shí),對(duì)2個(gè)個(gè)體的特征使用線性變換來學(xué)習(xí)投影特征,在投影的基礎(chǔ)上,通過點(diǎn)積和歸一化來估計(jì)2個(gè)個(gè)體的關(guān)系。使用α來表示學(xué)習(xí)到的2個(gè)個(gè)體上下文特征關(guān)系值,計(jì)算方式如下:
本文建立了一組多圖的關(guān)系矩陣進(jìn)行圖推理。使用圖卷積網(wǎng)絡(luò)實(shí)現(xiàn)了圖的推理過程,對(duì)于圖中的目標(biāo)節(jié)點(diǎn),根據(jù)其周圍全部個(gè)體的權(quán)重進(jìn)行更新。研究中使用X來表示圖模型輸出的特征,其數(shù)學(xué)表述見如下:
將多圖融合特征通過Max Pooling池化層減少維度,得到群體行為特征。并將群體行為特征與權(quán)重參數(shù)矩陣做線性變化,可以得到每一幀的結(jié)果,將視頻序列的平均預(yù)測(cè)結(jié)果作為群體行為識(shí)別的結(jié)果。群體行為的預(yù)測(cè)標(biāo)簽y數(shù)學(xué)計(jì)算公式具體如下:
整個(gè)模型可以通過反向傳播的方式,進(jìn)行端到端的訓(xùn)練,使用損失函數(shù)來評(píng)價(jià)預(yù)測(cè)值和真實(shí)值偏差的程度,損失函數(shù)的運(yùn)算公式可寫為:
本文在Volleyball數(shù)據(jù)集和Collective Activity數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn)。對(duì)此擬做闡釋分述如下。
(1)Volleyball數(shù)據(jù)集。由55場(chǎng)排球比賽中收集的4 830個(gè)視頻片段組成,其中包括3 493個(gè)訓(xùn)練片段,1 377個(gè)測(cè)試片段。在每個(gè)視頻片段中,視頻的中間幀標(biāo)注了個(gè)體的邊界框、個(gè)體行為標(biāo)簽和群體行為標(biāo)簽。總地說來,群體行為標(biāo)簽有8種,分別是Right set、Right spike、Right pass、Right winpoint、Left set、Left spike、Left pass、Left winpoint;個(gè)體行為標(biāo)簽 有9種,分 別 是Blocking、Digging、Falling、Jumping、Moving、Setting、Spiking、Standing、Waiting。實(shí)驗(yàn)中,使用一個(gè)長(zhǎng)度為10的時(shí)間窗口,對(duì)應(yīng)于標(biāo)注幀的前5幀和后4幀。未被標(biāo)注的個(gè)體邊界框數(shù)據(jù)從該數(shù)據(jù)集提供的軌跡信息數(shù)據(jù)中獲取。
(2)Collective Activity數(shù)據(jù)集。由低分辨率相機(jī)拍攝的44個(gè)視頻片段組成,總共約為2 500幀。每個(gè)視頻片段每10幀有一個(gè)標(biāo)注,標(biāo)注包含個(gè)體行為和群體行為標(biāo)簽,以及個(gè)體的邊界框。共5個(gè)群體活動(dòng)標(biāo)簽,分別為Crossing、Waiting、Queueing、Walking、Talking;6個(gè)個(gè)體行為標(biāo)簽,分別為NA、Crossing、Waiting、Queueing、Walking、Talking。實(shí)驗(yàn)中的2/3視頻用于訓(xùn)練,其余用于測(cè)試。
本文采用多類正確率(Multi-Class Accuracy,)作為評(píng)價(jià)標(biāo)準(zhǔn),先求出所有類別的正確樣本數(shù),并除以所有類別的樣本總數(shù)來獲得多類正確率。
本文實(shí)驗(yàn)使用Inception-v3提取視頻特征,RoIAlign為每個(gè)個(gè)體提取1 024維度特征,這些特征是在每個(gè)個(gè)體邊界框約束下提取的。數(shù)據(jù)集參數(shù)設(shè)定如下:
(1)Volleyball數(shù)據(jù)集。網(wǎng)絡(luò)超參設(shè)置為:為8,參數(shù)為0.3,學(xué)習(xí)率初始設(shè)置為1e-4,權(quán)重參數(shù)為圖片寬度的1/5,網(wǎng)絡(luò)訓(xùn)練180個(gè)周期,每30個(gè)周期學(xué)習(xí)后變?yōu)橹暗?.5倍,學(xué)習(xí)率在4次衰減后停止衰減。
(2)對(duì)于Collective Activity數(shù)據(jù)集。網(wǎng)絡(luò)超參設(shè)置為:為16,參數(shù)為0.5,初始學(xué)習(xí)率為1e-3,權(quán)重參數(shù)為圖片寬度的1/5,網(wǎng)絡(luò)訓(xùn)練80個(gè)周期,每10個(gè)周期學(xué)習(xí)率變?yōu)橹暗?.1倍,學(xué)習(xí)率在4次衰減后停止衰減。
實(shí)驗(yàn)在64位Ubuntu16.04上進(jìn)行,編程環(huán)境選擇Python3.7,實(shí)驗(yàn)采用Pytorch1.4深度學(xué)習(xí)平臺(tái)。計(jì)算機(jī)配置英特爾Xeon(R)W-2133處理器,內(nèi)存為64 G,配有2塊GeForce RTX 2080Ti顯卡。
在Volleyball數(shù)據(jù)集上,本文方法與其它方法對(duì)比的結(jié)果見表1。由表1可以看出,本文方法的效果優(yōu)于其它方法,其識(shí)別準(zhǔn)確率相比于VC模型提高了1.0%。在個(gè)體行為準(zhǔn)確率識(shí)別中,也表現(xiàn)出了最佳的性能,相比于AT模型提高了0.4%。
表1 在Volleyball數(shù)據(jù)集上與其它方法的對(duì)比Tab.1 Comparison with the state-of-the-art methods on Volleyball dataset
在Collective Activity數(shù)據(jù)集上,本文方法與其它方法對(duì)比的結(jié)果見表2。由表2可知,本文方法性能優(yōu)于現(xiàn)有的行為識(shí)別方法。在群體行為識(shí)別準(zhǔn)確率上,本文模型相對(duì)于VC模型提高了0.4%;在個(gè)體行為識(shí)別準(zhǔn)確率上,相對(duì)于GLIL模型提高了0.2%。
表2 在Collective Activity數(shù)據(jù)集上與其它方法的對(duì)比Tab.2 Comparison with the state-of-the-art methods on Collective Activity dataset
為了驗(yàn)證本文方法的有效性以及各個(gè)模塊的效果,在Volleyball數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)分析。設(shè)計(jì)了一種特征通道位移的時(shí)間上下文模塊,討論了通道位移策略對(duì)于識(shí)別準(zhǔn)確率的影響。實(shí)驗(yàn)效果數(shù)據(jù)見表3。
表3 在Volleyball數(shù)據(jù)集上不同位移方式的效果Tab.3 Effects of different shift modes on Volleyball dataset
由表3可見,在使用時(shí)間循環(huán)雙向移動(dòng)時(shí),既得到完整的時(shí)序信息,也保證了個(gè)體特征的完整性,且正確率得到了明顯的提升。因此,本文最終選擇時(shí)間循環(huán)雙向移動(dòng)策略。
實(shí)驗(yàn)中使用t-SNE來可視化不同模型的標(biāo)簽分離度。其可視化結(jié)果如圖3所示。
從圖3中可以看出,相對(duì)于VC模型,本文方法在Right pass和Right winpoint這2類群體行為中有著更好的分離度,其它行為的分離度也優(yōu)于VC和MLIR模型,驗(yàn)證了使用本文方法學(xué)習(xí)到的場(chǎng)景特征有更好的分離效果。
圖3 在Volleyball數(shù)據(jù)集上t-SNE可視化Fig.3 t-SNE visualization on Volleyball dataset
本文提出了一種新的通道時(shí)間上下文模塊,通過在特征通道層面進(jìn)行通道時(shí)間位移,使用時(shí)間循環(huán)雙向移動(dòng)作為位移策略,有效增強(qiáng)了個(gè)體的時(shí)序信息。其次,本文構(gòu)建了基于融合通道級(jí)時(shí)間上下文特征的空間圖模型,實(shí)現(xiàn)多復(fù)雜空間關(guān)系的編碼。通過在2個(gè)公開的數(shù)據(jù)集上進(jìn)行試驗(yàn)分析,結(jié)果顯示本文方法優(yōu)于現(xiàn)有群體行為識(shí)別方法,驗(yàn)證了本文方法的有效性。