国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

場(chǎng)景關(guān)系圖學(xué)習(xí)的群組行為識(shí)別

2023-10-17 15:08:31焦暢吳克偉于磊謝昭李文中
計(jì)算機(jī)應(yīng)用研究 2023年10期

焦暢 吳克偉 于磊 謝昭 李文中

摘 要:為解決群組行為識(shí)別中復(fù)雜個(gè)體關(guān)系描述不準(zhǔn)確,造成的個(gè)體關(guān)系推理不可靠的問(wèn)題,關(guān)注于面向個(gè)體、群體、場(chǎng)景三個(gè)方面來(lái)構(gòu)建場(chǎng)景關(guān)系圖,提出場(chǎng)景關(guān)系圖網(wǎng)絡(luò)用于實(shí)現(xiàn)群組行為識(shí)別。該網(wǎng)絡(luò)包括特征提取模塊、場(chǎng)景關(guān)系圖推理模塊以及分類模塊。特征提取模塊通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取個(gè)體特征、群組特征、和場(chǎng)景特征。為了充分描述場(chǎng)景對(duì)于個(gè)體和群組描述的影響,場(chǎng)景關(guān)系圖推理模塊通過(guò)使用兩分支網(wǎng)絡(luò)分別建立個(gè)體—場(chǎng)景關(guān)系圖以及群組—場(chǎng)景關(guān)系圖幫助學(xué)習(xí)個(gè)體特征和群組特征。場(chǎng)景關(guān)系圖推理同時(shí)考慮了個(gè)體特征對(duì)群組特征的影響,并引入了跨分支關(guān)系。分類模塊用于將個(gè)體特征和群體特征進(jìn)行分類預(yù)測(cè)。實(shí)驗(yàn)結(jié)果顯示該方法在volleyball和collective activity數(shù)據(jù)集上的群組識(shí)別準(zhǔn)確率分別提升了1.1%和0.5%,證實(shí)了提出的場(chǎng)景關(guān)系圖在描述個(gè)體特征和群組特征上的有效性。

關(guān)鍵詞:群組行為識(shí)別;場(chǎng)景關(guān)系圖;關(guān)系建模;行為識(shí)別

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-045-3173-07

doi:10.19734/j.issn.1001-3695.2022.12.0828

Scene relation graph network for group activity recognition

Jiao Chang,Wu Kewei,Yu Lei,Xie Zhao,Li Wenzhong

(School of Computer Science & Information Engineering,Hefei University of Technology,Hefei 230601,China)

Abstract:To solve the problem of inaccurate description and unreliable relation inference in group activity recognition,this paper focused on constructing a scene relationship graph for three aspects:individual,group,and scene,and proposed a scene relationship graph network(SRGN) for group activity recognition.This method included a feature extraction module,a scene relation graph inference module,and a classification module.The feature extraction module extracted individual features,group features,and scene features by convolutional neural network.To fully explore the impact of scene on individual and group descriptions,the scene relation graph inference module learnt individual features and group features by building individual-scene and group-scene relationship graphs in a two-branch framework.Scene graph inference took into account the influence of individual on group and introduced a cross-branch module.It used

the classification module to classify individual features and group features for prediction.The experimental results show that the group recognition accuracy of the proposed method on volleyball and collective activity data sets is improved by 1.1% and 0.5%,respectively.It verifies the validity of the scene graph in describing individual feature and group feature.

Key words:group activity recognition;scene relation graph;relation modeling;action recognition

0 引言

群組行為識(shí)別是視頻理解中的一個(gè)重要問(wèn)題,這個(gè)任務(wù)是對(duì)多人組成的群組進(jìn)行集體活動(dòng)的分析,它是很多視覺(jué)應(yīng)用的基礎(chǔ)任務(wù),如公共監(jiān)控視頻分析、體育視頻分析以及社交場(chǎng)景分析等。傳統(tǒng)方法直接提取個(gè)體邊界框的深度特征作為群組特征[1~3],這導(dǎo)致個(gè)體特征在訓(xùn)練過(guò)程中缺少來(lái)自其他相關(guān)個(gè)體的影響信息,最終識(shí)別結(jié)果的精度也較低。盡管一些方法通過(guò)引入輔助信息,如標(biāo)簽語(yǔ)義[4]和人體骨架[5]等來(lái)幫助增強(qiáng)場(chǎng)景中一些重要個(gè)體的特征表達(dá),但都未取得明顯效果。

與面向視頻分類的人體行為識(shí)別不同,群組行為識(shí)別需要對(duì)多個(gè)成員的互動(dòng)以及他們周圍的環(huán)境(如其他成員和物體)進(jìn)行分析。因此近年來(lái)大部分的群組行為識(shí)別方法[6,7]不光考慮了個(gè)體特征提取,還從關(guān)系建模的角度來(lái)為個(gè)體特征添加補(bǔ)充信息來(lái)解決問(wèn)題。這些工作使用RNN[8]或者LSTM[9]構(gòu)建個(gè)體的關(guān)系,但這種方式不能計(jì)算關(guān)系權(quán)重,為所有個(gè)體提供的補(bǔ)充信息是沒(méi)有區(qū)分度的。為了進(jìn)一步挖掘個(gè)體間的關(guān)系,一些方法[10~14]引入了Transformer來(lái)計(jì)算注意力關(guān)系。其中AT[11]使用Transformer為個(gè)體特征計(jì)算自注意力關(guān)系,GF等工作[12,14]將個(gè)體先聚類然后計(jì)算類間的注意力,Dual-AI[13]構(gòu)造了時(shí)空Transformer,分別學(xué)習(xí)時(shí)間和空間的個(gè)體注意力,但Transformer模型復(fù)雜度較高,關(guān)系推理能力也較弱。隨著圖卷積網(wǎng)絡(luò)的興起,Wu等人[15]看中了其高效的關(guān)系推理能力,將其應(yīng)用在群組行為識(shí)別領(lǐng)域,提出了個(gè)體關(guān)系圖ARG。后續(xù)大部分的工作[16~22]將其作為關(guān)系建模的重要手段。其中MLIR等工作[16,20]構(gòu)建了不同層次的個(gè)體關(guān)系圖,DIN等工作[21,22]將關(guān)系圖擴(kuò)展到時(shí)間維度,為整個(gè)視頻建立時(shí)空個(gè)體關(guān)系圖。

上述關(guān)系圖模型都只考慮到了個(gè)體與個(gè)體之間的互動(dòng)關(guān)系,忽略了視頻圖像中重要的場(chǎng)景信息。一些方法[23~28]嘗試過(guò)使用場(chǎng)景特征來(lái)增強(qiáng)個(gè)體特征。StagNet[26]將動(dòng)作標(biāo)簽作為場(chǎng)景語(yǔ)義特征加入到關(guān)系推理,沒(méi)有考慮到場(chǎng)景的視覺(jué)特征。GAIM[27]將整張圖像壓縮成一個(gè)代表全局信息的節(jié)點(diǎn)特征,卻因此丟失了場(chǎng)景的完整空間信息。

到目前為止,盡管基于關(guān)系圖的群組行為識(shí)別的方法研究有了很大的進(jìn)展,但仍然存在一些問(wèn)題。圖1以一個(gè)群組行為右邊二傳(r-set)為例。首先,現(xiàn)有依靠邊界框定位提取個(gè)體特征,會(huì)由于某些動(dòng)作相似度較高導(dǎo)致個(gè)體關(guān)系描述不準(zhǔn)確的問(wèn)題。例如圖1(a)中雙手舉起的球員的動(dòng)作被識(shí)別成攔網(wǎng)(blocking),而跳起球員的動(dòng)作被識(shí)別成跳起(jumping)。模型不能準(zhǔn)確描述個(gè)體間的關(guān)系,導(dǎo)致群組行為識(shí)別錯(cuò)誤。其次,現(xiàn)有方法一般采用個(gè)體特征取最大池作為群組特征,存在群組特征描述不準(zhǔn)確的問(wèn)題。例如圖1(b)中,在兩種個(gè)體動(dòng)作spiking和setting同時(shí)出現(xiàn)時(shí),模型無(wú)法確定將哪一個(gè)作為群組行為的代表,將r-set識(shí)別成了r-spike。

造成上述問(wèn)題的主要原因在于現(xiàn)有方法忽略了圖像場(chǎng)景信息。場(chǎng)景中存在大量未被定位的物體,它們與群組以及個(gè)體之間有著潛在關(guān)系,有利于群組行為識(shí)別。如圖1(c)所示,在場(chǎng)景信息的輔助下,模型修正了圖1(a)和圖1(b)中的識(shí)別錯(cuò)誤。

針對(duì)上述問(wèn)題,本文提出了以下解決方案:為了解決個(gè)體關(guān)系描述不準(zhǔn)確的問(wèn)題,本文建立了個(gè)體—場(chǎng)景關(guān)系圖,按照關(guān)系權(quán)重來(lái)為個(gè)體特征加入場(chǎng)景信息作為增強(qiáng)特征。為了解決個(gè)體關(guān)系描述不準(zhǔn)確的問(wèn)題,本文使用聯(lián)合注意力機(jī)制計(jì)算個(gè)體對(duì)場(chǎng)景像素點(diǎn)的注意力,為個(gè)體特征提供像素級(jí)別的特征增強(qiáng),此方法可以精確地從場(chǎng)景的每個(gè)像素收集各個(gè)區(qū)域可能存在的相關(guān)信息。為了解決群組特征描述不準(zhǔn)確的問(wèn)題,本文建立了群組—場(chǎng)景關(guān)系圖,并采用雙分支結(jié)構(gòu)處理個(gè)體和群組的場(chǎng)景關(guān)系圖。群組—場(chǎng)景關(guān)系圖先初始化群組行為特征,然后賦予群組特征不同的位置坐標(biāo),借助協(xié)同注意力的方式在坐標(biāo)位置附近收集群組特征相關(guān)信息。在群組特征的學(xué)習(xí)過(guò)程中,為使個(gè)體特征得到加強(qiáng),本文在雙分支結(jié)構(gòu)中加入了跨分支關(guān)系,計(jì)算個(gè)體與群組的關(guān)系,將個(gè)體特征按關(guān)系權(quán)重加入到群組特征。

本文的貢獻(xiàn)可以總結(jié)如下:a)在傳統(tǒng)的個(gè)體關(guān)系圖中使用像素級(jí)別的場(chǎng)景特征來(lái)增強(qiáng)個(gè)體特征,用于解決群組行為識(shí)別中個(gè)體關(guān)系描述不準(zhǔn)確以及關(guān)系推理不可靠的問(wèn)題;b)本文的場(chǎng)景關(guān)系圖網(wǎng)絡(luò)(scene relationship graph network,SRGN)采用雙分支結(jié)構(gòu),分別建立個(gè)體—場(chǎng)景關(guān)系圖與群組—場(chǎng)景關(guān)系圖來(lái)學(xué)習(xí)準(zhǔn)確的個(gè)體特征和群組特征;c)本文在雙分支結(jié)構(gòu)中加入了一種跨分支關(guān)系,使用個(gè)體—場(chǎng)景關(guān)系圖學(xué)習(xí)的個(gè)體特征來(lái)改善群組特征。

1 場(chǎng)景關(guān)系圖網(wǎng)絡(luò)

視頻圖像中包含豐富的場(chǎng)景信息,有利于群組行為識(shí)別。為了學(xué)習(xí)圖像中潛在的場(chǎng)景關(guān)系,本文設(shè)計(jì)了一個(gè)場(chǎng)景關(guān)系圖網(wǎng)絡(luò),解決了以往方法對(duì)于場(chǎng)景信息利用不足的問(wèn)題。網(wǎng)絡(luò)框架如圖2所示,它包含特征提取模塊、場(chǎng)景關(guān)系圖推理模塊以及分類模塊。特征提取模塊對(duì)圖像特征生成個(gè)體特征、場(chǎng)景特征以及群組特征,作為第二階段的輸入。場(chǎng)景關(guān)系圖推理模塊解決了個(gè)體和群組與場(chǎng)景的關(guān)系建模問(wèn)題。對(duì)于一段輸入視頻,模型首先對(duì)每一幀圖像進(jìn)行前兩個(gè)階段的單獨(dú)處理,最后在時(shí)間維度取平均池化作為視頻特征。分類模塊對(duì)多幀圖像的特征進(jìn)行時(shí)間池化,然后輸入到分類器中得到標(biāo)簽。

1.1 特征提取模塊

特征提取模塊為后續(xù)建立場(chǎng)景關(guān)系圖提供場(chǎng)景特征、個(gè)體特征以及群組特征的準(zhǔn)備工作。使用Inception-v3[29]提取場(chǎng)景特征Xscene∈Euclid Math TwoRAph×w×d。接著對(duì)場(chǎng)景特征應(yīng)用RoIAlign[30]裁剪出NI個(gè)群組成員的邊界框,得到個(gè)體特征Xind∈Euclid Math TwoRApNI×d。然后Xind和Xscene進(jìn)行個(gè)體—場(chǎng)景關(guān)系圖推理來(lái)學(xué)習(xí)新的個(gè)體特征。為了生成群組特征,本文利用Xscene和Xind生成NG個(gè)群組行為token作為初始化群組特征Xgroup∈Euclid Math TwoRApNG×d。具體地,對(duì)場(chǎng)景特征應(yīng)用一個(gè)1×1的2D卷積將特征維度由d匯聚到NG。對(duì)降維后的特征使用線性變換函數(shù)加softmax得到一個(gè)空間注意力權(quán)重As∈

1.2 場(chǎng)景關(guān)系圖推理模塊

在缺失場(chǎng)景信息時(shí),個(gè)體關(guān)系描述不準(zhǔn)確會(huì)導(dǎo)致關(guān)系推理不可靠,從而得到不準(zhǔn)確的群組特征。為了學(xué)習(xí)個(gè)體特征和群組特征對(duì)場(chǎng)景的注意力關(guān)系,本文設(shè)計(jì)了場(chǎng)景關(guān)系圖推理模塊。該模塊采用雙分支結(jié)構(gòu),分別進(jìn)行個(gè)體—場(chǎng)景關(guān)系圖推理與群組—場(chǎng)景關(guān)系圖推理。具體地:a)個(gè)體—場(chǎng)景關(guān)系圖推理將Xind和Xscene作為輸入,加入對(duì)應(yīng)位置編碼得到個(gè)體節(jié)點(diǎn)ind和場(chǎng)景節(jié)點(diǎn)scene,并使用這兩種節(jié)點(diǎn)建立了個(gè)體—場(chǎng)景關(guān)系圖GIS={ind∪scene,EIS},其中EIS是兩種節(jié)點(diǎn)的連接邊,它的值代表了個(gè)體—場(chǎng)景關(guān)系;b)群組—場(chǎng)景關(guān)系圖推理先將群組token特征Xgroup轉(zhuǎn)換成群組節(jié)點(diǎn)group,然后使用group和場(chǎng)景節(jié)點(diǎn)scene一起建立群組—場(chǎng)景關(guān)系圖GGS={group∪scene,EGS}來(lái)學(xué)習(xí)新的群組特征,其中EGS是場(chǎng)景節(jié)點(diǎn)與群組節(jié)點(diǎn)的連接邊,它的值代表群組—場(chǎng)景關(guān)系;c)在雙分支結(jié)構(gòu)中,為了讓群組—場(chǎng)景關(guān)系圖推理過(guò)程中獲得個(gè)體特征的增強(qiáng),本文還使用了跨分支關(guān)系來(lái)學(xué)習(xí)得到融合群組特征Xfusegroup。

1.2.1 個(gè)體—場(chǎng)景關(guān)系圖推理

個(gè)體—場(chǎng)景關(guān)系圖推理模塊通過(guò)建立個(gè)體—場(chǎng)景關(guān)系圖來(lái)幫助改善個(gè)體特征,通過(guò)聯(lián)合注意力機(jī)制來(lái)計(jì)算個(gè)體對(duì)場(chǎng)景各個(gè)區(qū)域的關(guān)注程度,作為個(gè)體與場(chǎng)景的相互關(guān)系。然后使用圖推理為個(gè)體特征更新包含場(chǎng)景關(guān)系的信息,輸出新的個(gè)體特征。

圖3上半部分展示了該分支的結(jié)構(gòu)。它包含三個(gè)模塊,黃色部分是節(jié)點(diǎn)嵌入模塊,粉色部分是關(guān)系圖推理模塊,藍(lán)色部分是前饋網(wǎng)絡(luò)模塊(參見(jiàn)電子版)。為了在后續(xù)的場(chǎng)景關(guān)系計(jì)算中保留位置信息,節(jié)點(diǎn)嵌入模塊將輸入特征的位置編碼特征和原始特征一起嵌入到節(jié)點(diǎn)特征空間中。對(duì)于個(gè)體節(jié)點(diǎn),將Xind加上位置編碼后使用一個(gè)線性變換函數(shù)得到個(gè)體節(jié)點(diǎn)特征ind。接著對(duì)個(gè)體節(jié)點(diǎn)進(jìn)行一次基于自注意力的節(jié)點(diǎn)更新。這是為了捕捉不同位置不同個(gè)體之間的相關(guān)關(guān)系,使所有個(gè)體特征先在內(nèi)部根據(jù)注意力權(quán)重相互傳遞信息。對(duì)于場(chǎng)景節(jié)點(diǎn),為Xscene加上位置編碼后將特征維度降到d′,并且將空間維度拉平,得到場(chǎng)景節(jié)點(diǎn)特征scene。

考慮到個(gè)體節(jié)點(diǎn)和場(chǎng)景節(jié)點(diǎn)之間可能會(huì)有多種類型的相關(guān)關(guān)系,例如球員與觀眾,球員與教練,甚至球員與裁判之間的聯(lián)系。可以采用多頭協(xié)同注意力機(jī)制,每個(gè)注意頭專門處理一種場(chǎng)景關(guān)系類型。假設(shè)使用單個(gè)注意頭計(jì)算個(gè)體特征表示為X″ind=attention(ind,scene),則使用多頭注意力表示如下:

1.2.2 群組—場(chǎng)景關(guān)系圖推理

群組—場(chǎng)景關(guān)系圖推理模塊通過(guò)群組—場(chǎng)景關(guān)系圖來(lái)學(xué)習(xí)群組特征。圖3的下半部分展示了群組—場(chǎng)景關(guān)系圖分支,它的結(jié)構(gòu)與個(gè)體—場(chǎng)景關(guān)系圖推理類似。群組—場(chǎng)景關(guān)系圖推理同樣經(jīng)過(guò)節(jié)點(diǎn)嵌入層、場(chǎng)景關(guān)系圖推理層以及前饋網(wǎng)絡(luò)層這三個(gè)模塊來(lái)建立群組—場(chǎng)景關(guān)系圖并進(jìn)行推理。節(jié)點(diǎn)嵌入模塊使用了群組特征Xgroup生成群組節(jié)點(diǎn)group。具體地,為了讓Xgroup從場(chǎng)景中獲得不同區(qū)域的相關(guān)上下文,本文將群組行為特征的位置編碼加入,然后嵌入到了場(chǎng)景圖的節(jié)點(diǎn)空間,得到群組節(jié)點(diǎn)。

接著將scene和group交給場(chǎng)景關(guān)系圖推理模塊建立群組—場(chǎng)景關(guān)系圖,在場(chǎng)景中收集與群組行為相關(guān)的上下文信息。本文的群組節(jié)點(diǎn)是不同種類群組行為的查詢,這些查詢之間并沒(méi)有相關(guān)關(guān)系,而是與場(chǎng)景各區(qū)域特征有著強(qiáng)烈的聯(lián)系,所以只需要學(xué)習(xí)群組節(jié)點(diǎn)與場(chǎng)景節(jié)點(diǎn)的相關(guān)關(guān)系即可。

場(chǎng)景關(guān)系圖推理模塊計(jì)算群組節(jié)點(diǎn)group和場(chǎng)景節(jié)點(diǎn)scene的所有節(jié)點(diǎn)之間的協(xié)同注意力作為群組場(chǎng)景關(guān)系圖的邊EGS={eGSi,j|i=0,1,…,NG;j=0,1,…,hw}。其中eGSi,j代表第i個(gè)群組節(jié)點(diǎn)groupi和第j個(gè)場(chǎng)景節(jié)點(diǎn)scenej的注意力關(guān)系。在群組和場(chǎng)景的聯(lián)合注意力中,將groupi當(dāng)做查詢,scenej當(dāng)做鍵和值,計(jì)算群組節(jié)點(diǎn)與場(chǎng)景節(jié)點(diǎn)的聯(lián)合注意力,并通過(guò)注意力權(quán)重對(duì)場(chǎng)景像素特征加權(quán)求和來(lái)更新群組節(jié)點(diǎn)特征:

其中:X″group是圖推理過(guò)后的群組特征。群組—場(chǎng)景關(guān)系有多種不同類型,這同樣可以使用不同的注意力頭學(xué)習(xí)不同類型群組場(chǎng)景上下文關(guān)系。因此,也可以使用多頭注意力形式來(lái)學(xué)習(xí)X″group:

1.2.3 跨分支關(guān)系模塊

群組行為會(huì)受到其中個(gè)體動(dòng)作的影響,并且身處群組中的每個(gè)個(gè)體對(duì)群組行為的影響并不相同。因此,為了在群組特征的學(xué)習(xí)過(guò)程中使用個(gè)體特征來(lái)增強(qiáng)群組特征表示,本文設(shè)計(jì)了一個(gè)跨分支關(guān)系模塊來(lái)建立每個(gè)個(gè)體與不同群組之間的關(guān)系。圖3中,紫色方框是跨分支關(guān)系模塊。它位于兩個(gè)分支的每層圖推理輸出位置之間,在編碼過(guò)程中通過(guò)加強(qiáng)與群組行為相關(guān)的個(gè)體特征來(lái)改善群組節(jié)點(diǎn)特征。

具體地,為了得到不同群組行為對(duì)于場(chǎng)景中每個(gè)個(gè)體的注意力關(guān)系,本文先根據(jù)個(gè)體特征X″ind和群組特征X″group計(jì)算一個(gè)相似度分?jǐn)?shù)矩陣。接著使用

1.3 訓(xùn)練損失

對(duì)于一個(gè)T幀的輸入視頻片段,一共得到T×NI個(gè)個(gè)體特征,以及T×NG個(gè)群組特征。以往的方法一般先學(xué)習(xí)個(gè)體特征,然后對(duì)個(gè)體特征取最大池作為群組分類器的輸入,而本文單獨(dú)構(gòu)造了群組特征,對(duì)群組行為數(shù)量NG取最大池得到的才是真正的群組特征表示。最后將兩種特征在時(shí)間維度T上取平均池化后分別輸入到兩種分類器。分類器是兩個(gè)全連接層,最終輸出個(gè)體動(dòng)作預(yù)測(cè)標(biāo)簽Y^ind和群組行為預(yù)測(cè)標(biāo)簽Y^group。本文模型是以端到端的方式進(jìn)行訓(xùn)練的,損失函數(shù)使用的是標(biāo)準(zhǔn)的交叉熵?fù)p失函數(shù),表述如下:

其中:Lgroup和Lind分別是群組行為識(shí)別和個(gè)體動(dòng)作識(shí)別的損失函數(shù);Ygtgroup和Ygtind分別是群組行為和個(gè)體動(dòng)作的真實(shí)標(biāo)簽;Y^group和Y^ind則是模型的預(yù)測(cè)標(biāo)簽;λ是一個(gè)超參數(shù),它起到平衡兩種損失函數(shù)的作用。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集與評(píng)價(jià)標(biāo)準(zhǔn)

本文在本領(lǐng)域兩個(gè)廣泛使用的數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),它們分別是volleyball dataset(VD)[1]以及collective activity dataset(CAD)[31]。

1)volleyball dataset 該數(shù)據(jù)集包含55場(chǎng)排球比賽的視頻,每個(gè)視頻被分為數(shù)量不同的若干片段,總共4 830個(gè)片段(其中3 493段作為訓(xùn)練集,1 337段作為測(cè)試集),每一視頻片段的中間一幀有人工標(biāo)注,包括個(gè)體邊界框的坐標(biāo)、個(gè)體動(dòng)作的真實(shí)標(biāo)簽、群組動(dòng)作的真實(shí)標(biāo)簽。個(gè)體動(dòng)作標(biāo)簽有九類,包括waiting,setting,digging,falling,spiking,blocking,jumping,mo-ving,standing。群組行為標(biāo)簽有八類,包括right set,right spike,right pass,right win-point,left set,left spike,left pass,left win-point。

2)collective activity dataset 該數(shù)據(jù)集包含44個(gè)手持?jǐn)z像機(jī)拍攝的視頻,拍攝場(chǎng)景包括街道和室內(nèi),總共被分為2 481個(gè)片段(其中80%作為訓(xùn)練集,20%作為測(cè)試集)。每個(gè)片段的中間幀標(biāo)注個(gè)體邊界框和對(duì)應(yīng)的個(gè)體動(dòng)作。每幀圖像的邊界框數(shù)量不一,最大為13。個(gè)體動(dòng)作包括NA,crossing,wai-ting,queuing,walking and talking。群組行為標(biāo)簽根據(jù)場(chǎng)景中最多的個(gè)體動(dòng)作標(biāo)簽決定。

3)評(píng)價(jià)指標(biāo) 本文在兩個(gè)數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)均采用多類分類精度(multi-class classification accuracy,MCA),本文使用群組行為MCA(group)以及個(gè)體動(dòng)作MCA(individual)。

2.2 實(shí)驗(yàn)細(xì)節(jié)

對(duì)于volleyball dataset,輸入視頻圖像幀數(shù)T=10幀,輸入圖像大小調(diào)整至720×1 080。個(gè)體邊界框數(shù)量NI=12,群組token特征數(shù)量NG=8。所有輸入特征的維度d=1 024,轉(zhuǎn)換成節(jié)點(diǎn)特征的維度d′=128,后續(xù)輸出特征采用同樣的特征維度。個(gè)體分類器采用(128,9)的全連接層,群組分類器采用(128,8)的全連接層。訓(xùn)練期間,網(wǎng)絡(luò)超參數(shù)設(shè)置如下:批量訓(xùn)練樣本容量為8,dropout 比率為0.8,學(xué)習(xí)率初始化為10-4,網(wǎng)絡(luò)訓(xùn)練周期設(shè)置為150個(gè)周期,期間每經(jīng)過(guò)30個(gè)周期,將學(xué)習(xí)率下降到之前的1/2,經(jīng)歷4次衰減后會(huì)停止衰減學(xué)習(xí)率。

對(duì)于collective activity dataset,同樣輸入T=10幀的視頻圖像,將圖像大小調(diào)整為480×720。個(gè)體邊界框取最大數(shù)量NI=13,如果場(chǎng)景中的個(gè)體數(shù)量不足13個(gè),則缺少的部分使用全零的特征向量代替。群組token特征數(shù)量NG=5。所有輸入的特征維度為d=1 024,節(jié)點(diǎn)嵌入層以及輸出的特征維度為d′=128。群組分類器采用(128,5)的全連接層。訓(xùn)練期間,網(wǎng)絡(luò)的超參數(shù)設(shè)置如下:批量訓(xùn)練樣本容量為16;dropout比率為0.5;學(xué)習(xí)率初始化為10-3;網(wǎng)絡(luò)訓(xùn)練周期設(shè)置為50個(gè)周期,不采用學(xué)習(xí)率衰退策略。

兩個(gè)數(shù)據(jù)集的場(chǎng)景關(guān)系圖建立過(guò)程都使用了多頭聯(lián)合注意力模塊,本文將注意力頭的數(shù)量設(shè)置為m=4。兩個(gè)數(shù)據(jù)集都使用了Adam優(yōu)化器,參數(shù)設(shè)置分別為β1=0.9,β2=0.999和ε=10-8。所有實(shí)驗(yàn)的系統(tǒng)平臺(tái)為Ubuntu18.04操作系統(tǒng),使用深度學(xué)習(xí)框架PyTorch,GPU為兩張GTX 1080Ti顯卡。

2.3 對(duì)比實(shí)驗(yàn)

表1展示了在volleyball dataset數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,其中extra表示是否使用額外模態(tài)信息。

本文將對(duì)比方法主要分為非場(chǎng)景圖方法和場(chǎng)景圖方法兩類。非場(chǎng)景圖中,HDTM是傳統(tǒng)的深度學(xué)習(xí)方法,沒(méi)有使用關(guān)系建模加強(qiáng)特征。HRN和SRNN使用RNN關(guān)系建模。ARG、MLIR和DIN則使用了個(gè)體關(guān)系圖。AT、GF和Dual-AI使用了組合的Transformer學(xué)習(xí)個(gè)體關(guān)系。這些方法都沒(méi)有使用場(chǎng)景信息來(lái)增強(qiáng)個(gè)體特征表示。場(chǎng)景圖方法中,StagNet使用語(yǔ)義標(biāo)簽作為場(chǎng)景信息,GAIM則把整個(gè)場(chǎng)景特征壓縮成單個(gè)節(jié)點(diǎn)建立場(chǎng)景關(guān)系圖。

從表1中可以看出,本文方法在群組行為和個(gè)體動(dòng)作識(shí)別準(zhǔn)確率超越了其他方法,說(shuō)明本文方法學(xué)習(xí)到了準(zhǔn)確的群組特征和個(gè)體特征。與非場(chǎng)景圖方法相比,本文的場(chǎng)景關(guān)系圖方法能夠提供其所不能關(guān)注到的場(chǎng)景特征。具體地,傳統(tǒng)方法是因?yàn)闆](méi)有使用關(guān)系建模,而其他關(guān)系建模的方法是因?yàn)闆](méi)有將場(chǎng)景特征作為關(guān)系推理的對(duì)象,所以本文方法的識(shí)別性能更好。與其他的場(chǎng)景關(guān)系圖方法相比,本文方法可以提供更豐富的增強(qiáng)特征。而其他方法只利用了場(chǎng)景特征的一部分,忽略了所有像素級(jí)特征和個(gè)體特征存在的潛在關(guān)系,造成了其模型性能甚至不如某些個(gè)體關(guān)系圖方法。

表2展示了在collective activity數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果,其中extra表示是否使用額外模態(tài)信息。結(jié)果顯示,沒(méi)有使用關(guān)系建模的方法性能較差,例如HDTM。這可能是由于沒(méi)有計(jì)算關(guān)系權(quán)重,個(gè)體間也無(wú)法傳遞相關(guān)信息。CAD的群組行為識(shí)別是由場(chǎng)景中多數(shù)個(gè)體動(dòng)作共同決定的,構(gòu)造具有區(qū)分度的個(gè)體特征是很重要的。

加入額外模態(tài)特征可以幫助模型取得較好的識(shí)別效果,例如AT和GF的識(shí)別準(zhǔn)確率得到了提高,但同時(shí)可能引入不必要的額外噪聲?;趫D方法的模型可以學(xué)習(xí)個(gè)體關(guān)系作為特征更新的權(quán)重,同樣可以增強(qiáng)個(gè)體特征。其中ARG學(xué)習(xí)個(gè)體的個(gè)體關(guān)系,DIN則是時(shí)空關(guān)系一起學(xué)習(xí)。只是這些方法缺失了圖像中的場(chǎng)景信息,使用了場(chǎng)景圖的方法。StagNet沒(méi)有使用圖像特征作為場(chǎng)景特征,GAIM將圖像壓縮成單個(gè)節(jié)點(diǎn)。這些方法設(shè)計(jì)的場(chǎng)景特征都丟失了圖像的空間信息,因此沒(méi)有取得明顯的提升。本文的場(chǎng)景圖方法在沒(méi)有加入額外模態(tài)特征的前提下,充分利用了場(chǎng)景特征本身包含的上下文信息。與其他方法相比,本文方法在群組行為識(shí)別準(zhǔn)確率上有所提升,已經(jīng)具備與先進(jìn)方法相當(dāng)?shù)哪P托阅堋?/p>

2.4 消融實(shí)驗(yàn)

本節(jié)將在volleyball dataset上對(duì)本文所提出的模型進(jìn)行一系列消融實(shí)驗(yàn),以驗(yàn)證各個(gè)模塊方法的有效性和貢獻(xiàn)。

1)節(jié)點(diǎn)類型對(duì)模型的影響 本文的場(chǎng)景關(guān)系圖使用了多種類型的節(jié)點(diǎn),通過(guò)消融實(shí)驗(yàn)來(lái)驗(yàn)證不同節(jié)點(diǎn)的有效性。結(jié)果如表3所示。當(dāng)只使用ind,場(chǎng)景圖退化成個(gè)體關(guān)系圖ARG[15],并采用圖卷積建立個(gè)體關(guān)系。個(gè)體節(jié)點(diǎn)特征僅提取了個(gè)體邊界框內(nèi)的特征,本文將其當(dāng)做Base Model。在此基礎(chǔ)上可以加入場(chǎng)景上下文節(jié)點(diǎn)scene,并且使用GCN建立ind與scene的關(guān)系以進(jìn)行節(jié)點(diǎn)間的信息交換,結(jié)果顯示模型性能并未提升,這可能是因?yàn)镚CN將場(chǎng)景圖像特征壓縮到低維度空間,無(wú)法給個(gè)體節(jié)點(diǎn)提供詳細(xì)的場(chǎng)景空間信息。本文使用了場(chǎng)景關(guān)系圖(SRGN),取場(chǎng)景特征中的每個(gè)像素作為場(chǎng)景節(jié)點(diǎn),并且使用協(xié)同注意力機(jī)制建立個(gè)體節(jié)點(diǎn)與場(chǎng)景節(jié)點(diǎn)的關(guān)系。從結(jié)果來(lái)看模型性能有所提升,尤其是個(gè)體識(shí)別精度提升幅度較大。這是因?yàn)閭€(gè)體特征在圖推理過(guò)程中在場(chǎng)景節(jié)點(diǎn)中收集自身關(guān)注區(qū)域的場(chǎng)景上下文信息,加強(qiáng)了個(gè)體特征表示。以上三種方案將個(gè)體特征取最大池化作為群組行為特征交給分類器,而本文引入了一組獨(dú)立的群組節(jié)點(diǎn)特征group,在場(chǎng)景特征圖中收集相關(guān)群組行為信息。結(jié)果顯示模型的群組行為識(shí)別性能提升明顯。這是由于群組節(jié)點(diǎn)的特征不僅來(lái)自個(gè)體節(jié)點(diǎn),同時(shí)還來(lái)自場(chǎng)景中相關(guān)區(qū)域的上下文特征,所以群組特征得到了增強(qiáng)。

2)關(guān)系邊對(duì)模型的影響 場(chǎng)景關(guān)系圖有個(gè)體—場(chǎng)景關(guān)系圖分支和群組—場(chǎng)景關(guān)系圖分支。兩個(gè)分支的關(guān)系邊連接節(jié)點(diǎn)不同,學(xué)習(xí)到的關(guān)系類型也不同。為了證明不同類型關(guān)系建模的有效性,本文對(duì)場(chǎng)景圖的關(guān)系邊進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

根據(jù)實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:a)不加入場(chǎng)景關(guān)系邊,此時(shí)SRGN只能學(xué)習(xí)個(gè)體間的相關(guān)關(guān)系,關(guān)系的計(jì)算方法使用的是自注意力,相比于Base Model,模型性能提升較少;b)只使用個(gè)體—場(chǎng)景關(guān)系邊,相當(dāng)于模型只有個(gè)體—場(chǎng)景關(guān)系圖,此時(shí)個(gè)體節(jié)點(diǎn)可以利用場(chǎng)景特征信息加強(qiáng)個(gè)體特征,群組節(jié)點(diǎn)雖然無(wú)法獲得場(chǎng)景信息的加強(qiáng),但由于本身由場(chǎng)景特征和個(gè)體特征生成,所以模型的群組行為識(shí)別性能也得到了提升;c)加入群組—場(chǎng)景關(guān)系邊,相當(dāng)于采用了雙分支結(jié)構(gòu),此時(shí)場(chǎng)景圖可以建立群組和場(chǎng)景的關(guān)系。從結(jié)果可以看出,群組行為識(shí)別準(zhǔn)確率得到較大的提升,但是加入群組—場(chǎng)景關(guān)系圖對(duì)個(gè)體動(dòng)作識(shí)別性能影響較小,這是因?yàn)閮蓚€(gè)分支在特征學(xué)習(xí)的過(guò)程中沒(méi)有傳遞增強(qiáng)信息。本文將跨分支關(guān)系當(dāng)做個(gè)體與群組的連接邊加入,從結(jié)果可以看出,群組行為的識(shí)別準(zhǔn)確率得到大幅提升,這說(shuō)明個(gè)體特征對(duì)于群組特征的學(xué)習(xí)指導(dǎo)起到了作用,而個(gè)體動(dòng)作的識(shí)別準(zhǔn)確率提升較小。

3)多頭注意力對(duì)模型的影響 場(chǎng)景關(guān)系圖主要靠聯(lián)合注意力層對(duì)上下文信息進(jìn)行聚合,它采用多頭形式。在這里本文對(duì)注意力頭的個(gè)數(shù)進(jìn)行消融實(shí)驗(yàn),同時(shí)對(duì)是否使用位置編碼也進(jìn)行了研究。表5中,head表示注意力頭數(shù),PE表示是否使用位置編碼。從表5的實(shí)驗(yàn)結(jié)果來(lái)看,注意力頭的個(gè)數(shù)并不是越多越好,經(jīng)過(guò)驗(yàn)證,注意力頭數(shù)設(shè)置為4個(gè)最好,這是因?yàn)閳?chǎng)景與場(chǎng)景中的實(shí)例(個(gè)體節(jié)點(diǎn)或者群組節(jié)點(diǎn))關(guān)系不會(huì)有很多種類型,比如在排球比賽的視頻圖像中,場(chǎng)景信息包括觀眾、裁判、教練以及一些媒體記者等,一般不會(huì)出現(xiàn)更多更復(fù)雜的場(chǎng)景。因此設(shè)置更多的注意力頭學(xué)習(xí)到的場(chǎng)景關(guān)系都很相似,對(duì)模型性能提升不大。對(duì)于位置編碼信息,它在場(chǎng)景關(guān)系建模的過(guò)程中提供了坐標(biāo)信息,將實(shí)例節(jié)點(diǎn)的關(guān)注范圍縮小,更精確地收集了場(chǎng)景相關(guān)上下文信息,因此,位置編碼的使用是十分必要的。表5中,本文設(shè)置了一個(gè)未采用位置編碼的4頭注意力模塊,結(jié)果顯示識(shí)別準(zhǔn)確率相比使用了位置編碼的有所下降。

2.5 可視化結(jié)果分析

本文的場(chǎng)景圖根據(jù)場(chǎng)景像素節(jié)點(diǎn)與個(gè)體節(jié)點(diǎn)以及群組節(jié)點(diǎn)的注意力關(guān)系來(lái)為它們提取場(chǎng)景的上下文特征作為特征增強(qiáng)信息。為了驗(yàn)證場(chǎng)景關(guān)系有助于這兩種節(jié)點(diǎn)關(guān)注圖像中與自身相關(guān)的場(chǎng)景特征,本文將場(chǎng)景關(guān)系可視化,通過(guò)可視化圖分析兩種特征對(duì)場(chǎng)景中的哪些實(shí)例關(guān)注度更高。本文將不同方法對(duì)于群組行為的預(yù)測(cè)結(jié)果標(biāo)注在圖像上,紅色標(biāo)簽表示錯(cuò)誤的預(yù)測(cè)結(jié)果,綠色標(biāo)簽表示正確的預(yù)測(cè)結(jié)果(參見(jiàn)電子版)。

1)個(gè)體—場(chǎng)景關(guān)系可視化 圖4中,展示了各方法在識(shí)別個(gè)體動(dòng)作時(shí)對(duì)整個(gè)場(chǎng)景的注意力關(guān)系。圖4第一行是l-spike的示例,第二行是l-set的示例,從左至右三列分別是ARG、GAIM和本文的SRGN對(duì)圖像的注意力可視化圖。為方便展示,本文將所有個(gè)體對(duì)場(chǎng)景的注意力取平均,然后可視化在場(chǎng)景圖像中。該可視化圖以熱圖的形式呈現(xiàn),紅色的程度越深代表個(gè)體對(duì)這一場(chǎng)景區(qū)域關(guān)注度越高,則從該區(qū)域獲得場(chǎng)景上下文信息就越多。

從圖4中可以看出,ARG和GAIM的關(guān)注區(qū)域主要集中在球員身上,而忽略了球場(chǎng)周圍的場(chǎng)景信息。第一行l(wèi)-spike活動(dòng)中,ARG主要關(guān)注左側(cè)在網(wǎng)前蹲下的球員,這使模型認(rèn)為這是l-pass活動(dòng)。而GAIM關(guān)注左側(cè)后撤的白衣球員,這導(dǎo)致模型認(rèn)為這是一個(gè)l-set活動(dòng)。第二行l(wèi)-set活動(dòng)中,本文方法和GAIM捕捉到了排球在左邊二傳球員的正上方,因此判斷這是l-set活動(dòng),而ARG卻將其忽略導(dǎo)致判斷錯(cuò)誤得到l-pass。總結(jié)本文方法中個(gè)體特征對(duì)場(chǎng)景信息的關(guān)注重點(diǎn)主要為以下兩個(gè)方面:a)對(duì)場(chǎng)景中其他個(gè)體的關(guān)注,尤其是在群組互動(dòng)中起到關(guān)鍵作用的個(gè)體,在以往的工作中也提出過(guò),關(guān)鍵個(gè)體對(duì)其他個(gè)體的影響更大,例如第一行l(wèi)-spike活動(dòng)中正在做扣球動(dòng)作的球員,她的扣球動(dòng)作引起了整個(gè)群組行為的改變;b)場(chǎng)景中其他非球員的因素,例如第二行l(wèi)-set活動(dòng)中的排球,以及場(chǎng)邊教練組對(duì)場(chǎng)上球員的指揮,這些場(chǎng)景上下文信息都是以往方法中沒(méi)有重視的,而本文將這些信息作為個(gè)體的增強(qiáng)信息,使用場(chǎng)景關(guān)系圖捕捉這些信息,并且取得了良好的效果。

2)群組—場(chǎng)景關(guān)系可視化 圖5展示了各方法在群組特征的注意力可視化圖,其中第一行是r-spike的示例,第二行是r-winpoint的示例。本文將群組特征對(duì)場(chǎng)景的注意力取平均然后可視化在場(chǎng)景圖像中。本文設(shè)置的群組特征由個(gè)體特征和場(chǎng)景特征共同初始化,在場(chǎng)景關(guān)系圖推理過(guò)程收集圖像中的相關(guān)信息。

從圖5中可以看到,ARG和GAIM都有不同程度的識(shí)別錯(cuò)誤。第一行r-spike活動(dòng)中,ARG將右邊蹲下球員當(dāng)做關(guān)鍵人物,得到了r-pass的識(shí)別結(jié)果。GAIM關(guān)注到左側(cè)三名球員的動(dòng)作,于是判斷成l-pass。第二行r-winpoint活動(dòng)中,活動(dòng)的主體應(yīng)該是場(chǎng)上慶祝的球員,但由于場(chǎng)邊觀眾參與慶祝,導(dǎo)致ARG和GAIM關(guān)注區(qū)域偏移到左側(cè),都識(shí)別錯(cuò)誤得到l-winpoint。而本文的SRGN能夠準(zhǔn)確地定位發(fā)生區(qū)域,得到準(zhǔn)確的群組行為特征。本文方法中群組特征與場(chǎng)景關(guān)系的特點(diǎn)主要是:a)參與群組行為的個(gè)體以及周圍區(qū)域的場(chǎng)景,即相比于個(gè)體—場(chǎng)景關(guān)系,群組—場(chǎng)景關(guān)系對(duì)個(gè)體特征關(guān)注范圍更大,因?yàn)橐粋€(gè)群組行為需要多個(gè)個(gè)體參與,所以一個(gè)群組行為需要關(guān)注的成員個(gè)數(shù)也更多;b)與個(gè)體特征相比,對(duì)場(chǎng)外信息的關(guān)注減弱,更關(guān)注場(chǎng)內(nèi)提供的場(chǎng)景特征,這也是因?yàn)槿航M行為本身的特點(diǎn),即個(gè)體動(dòng)作以及它們之間相互作用構(gòu)成了群組行為。在個(gè)體—場(chǎng)景關(guān)系圖中已經(jīng)為個(gè)體特征融入了其他區(qū)域的場(chǎng)景信息,所以群組行為只需要關(guān)注個(gè)體特征。相比于其他方法采用個(gè)體特征最大池來(lái)代表群組特征,本文方法直接從整個(gè)圖像收集群組行為的相關(guān)信息可以得到準(zhǔn)確的群組特征。

3 結(jié)束語(yǔ)

本文提出了基于場(chǎng)景關(guān)系圖的群組行為識(shí)別方法,構(gòu)建了一個(gè)場(chǎng)景關(guān)系圖網(wǎng)絡(luò)(SRGN)。該網(wǎng)絡(luò)通過(guò)建立個(gè)體特征與場(chǎng)景像素點(diǎn)的關(guān)系解決了個(gè)體關(guān)系描述不準(zhǔn)確以及個(gè)體關(guān)系圖推理不可靠的問(wèn)題。SRGN還使用了群組特征生成模塊得到獨(dú)立的群組特征,幫助提高群組行為識(shí)別準(zhǔn)確率,解決了群組特征描述不準(zhǔn)確的問(wèn)題。對(duì)比實(shí)驗(yàn)證實(shí)了本文方法的有效性,后續(xù)工作可以考慮將場(chǎng)景關(guān)系圖拓展到時(shí)間維度,實(shí)現(xiàn)時(shí)空?qǐng)鼍瓣P(guān)系建模。

參考文獻(xiàn):

[1]Ibrahim M S,Muralidharan S,Deng Zhiwei,et al.A hierarchical deep temporal model for group activity recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1971-1980.

[2]Goyal A,Bhargava N,Chaudhuri S,et al.Hierarchical deep network for group discovery and multi-level activity recognition[C]//Proc of the 11th Indian Conference on Computer Vision,Graphics and Image Processing.New York:ACM Press,2018:1-7.

[3]戎煒,蔣哲遠(yuǎn),謝昭.基于聚類關(guān)聯(lián)網(wǎng)絡(luò)的群組行為識(shí)別[J].計(jì)算機(jī)應(yīng)用,2020,40(9):2507-2513.(Rong Wei,Jiang Zheyuan,Xie Zhao.Clustering relational network for group activity recognition[J].Journal of Computer Applications,2020,40(9):2507-2513.)

[4]Li Xin,Chuah M C.SBGAR:semantics based group activity recognition[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2895-2904.

[5]Zappardino F,Uricchio T,Seidenari L,et al.Learning group activities from skeletons without individual action labels[C]//Proc of the 25th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2021:10412-10417.

[6]Ibrahim M S,Mori G.Hierarchical relational networks for group activity recognition and retrieval[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:742-758.

[7]Shu Xiangbo,Tang Jinhui,Qi G J,et al.Hierarchical long short-term concurrent memory for human interaction recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,43(3):1110-1118.

[8]Biswas S,Gall J.Structural recurrent neural network(SRNN) for group activity analysis[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:1625-1632.

[9]Shu Xiangbo,Zhang Liyan,Sun Yunlian,et al.Host-parasite:graph LSTM-in-LSTM for group activity recognition[J].IEEE Trans on Neural Networks and Learning Systems,2020,32(2):663-674.

[10]張?zhí)煊?,許飛,江朝暉.基于時(shí)空自注意力轉(zhuǎn)換網(wǎng)絡(luò)的群組行為識(shí)別[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(5):77-81,87.(Zhang Tianyu,Xu Fei,Jiang Chaohui.Spatio-temporal transformer network for group activity recognition[J].Intelligent Computer and Applications,2021,11(5):77-81,87.)

[11]Gavrilyuk K,Sanford R,Javan M,et al.Actor-transformers for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:836-845.

[12]Li Shuaicheng,Cao Qianggang,Liu Lingbo,et al.GroupFormer:group activity recognition with clustered spatial-temporal Transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:13648-13657.

[13]Han Mingfei,Zhang D J,Wang Yali,et al.Dual-AI:dual-path actor interaction learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2022:2980-2989.

[14]王傳旭,劉冉.基于交互關(guān)系分組建模融合的組群行為識(shí)別算法[J].計(jì)算機(jī)與現(xiàn)代化,2022(1):1-9.(Wang Chuanxu,Liu Ran.Group activity recognition algorithm based on interaction relationship grouping modeling fusion[J].Computers and Modernization,2022(1):1-9.)

[15]Wu Jianchao,Wang Limin,Wang Li,et al.Learning actor relation graphs for group activity recognition[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:9956-9966.

[16]劉繼超,劉云,王傳旭.基于核心人物和交互關(guān)系建模的群組行為識(shí)別[J].青島科技大學(xué)學(xué)報(bào):自然科學(xué)版,2022,43(3):98-106.(Liu Jichao,Liu Yun,Wang Chuanxu.Group activity recognition based on relationship network and core person modeling[J].Journal of Qingdao University of Science and Technology:Natural Science,2022,43(3):98-106.)

[17]Pei Duoxuan,Li Annan,Wang Yunhong.Group activity recognition by exploiting position distribution and appearance relation[C]//Proc of International Conference on Multimedia Modeling.Cham:Springer,2021:123-135.

[18]Hu Guyue,Cui Bo,He Yuan,et al.Progressive relation learning for group activity recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:977-986.

[19]李駿,程雅儒,謝昭.融合時(shí)間和空間上下文特征的群體行為識(shí)別[J].智能計(jì)算機(jī)與應(yīng)用,2022,12(9):45-49,55.(Li Jun,Cheng Yaru,Xie Zhao.Group activity recognition based on temporal and spatial context features[J].Intelligent Computer and Applications,2022,12(9):45-49,55.)

[20]Lu Lihua,Lu Yao,Wang Shunzhou.Learning multi-level interaction relations and feature representations for group activity recognition[C]//Proc of the 27th International Conference on Multimedia Mo-deling.Berlin:Springer-Verlag,2021:617-628.

[21]Yuan Hangjie,Ni Dong,Wang Mang.Spatio-temporal dynamic infe-rence network for group activity recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:7456-7465.

[22]劉斯凡,林國(guó)丞,秦建偉.基于選擇性融合及關(guān)系推理的群組行為識(shí)別[J].計(jì)算機(jī)應(yīng)用研究,2023,40(3):914-918,924.(Liu Sifan,Lin Guocheng,Qin Jianwei.Group activity recognition based on selective fusion and relational reasoning[J].Application Research of Computers,2023,40(3):914-918,924.)

[23]黃江嵐,卿粼波,姜雪.融合場(chǎng)景及交互性特征的多人行為識(shí)別[J].四川大學(xué)學(xué)報(bào):自然科學(xué)版,2022,59(6):77-88.(Huang Jianglan,Qing Linbo,Jiang Xue.Multi person behavior recognition based on scene and interactive feature[J].Journal of Sichuan University:Natural Science Edition,2022,59(6):77-88.)

[24]Tang Yansong,Wang Zian,Li Peiyang,et al.Mining semantics-preserving attention for group activity recognition[C]//Proc of the 26th ACM International Conference on Multimedia.New York:ACM Press,2018:1283-1291.

[25]Tang Yansong,Lu Jiwen,Wang Zian,et al.Learning semantics-preserving attention and contextual interaction for group activity recognition[J].IEEE Trans on Image Processing,2019,28(10):4997-5012.

[26]Qi Mengshi,Qin Jie,Li Annan,et al.StagNet:an attentive semantic RNN for group activity recognition[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2018:104-120.

[27]Lu Lihua,Lu Yao,Yu Ruizhe,et al.GAIM:graph attention interaction model for collective activity recognition[J].IEEE Trans on Multimedia,2019,22(2):524-539.

[28]Yuan Hangjie,Ni Dong.Learning visual context for group activity re-cognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:3261-3269.

[29]Szegedy C,Vanhoucke V,Ioffe S,et al.Rethinking the inception architecture for computer vision[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:2818-2826.

[30]He Kaiming,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2961-2969.

[31]Choi W,Shahid K,Savarese S.What are they doing? Collective acti-vity classification using spatio-temporal relationship among people[C]//Proc of the 12th IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2009:1282-1289.

收稿日期:2022-12-28;修回日期:2023-02-20基金項(xiàng)目:安徽省重點(diǎn)研究與開(kāi)發(fā)計(jì)劃資助項(xiàng)目(202004d07020004);安徽省自然科學(xué)基金資助項(xiàng)目(2108085MF203);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(PA2021GDSK0072,JZ2021HGQA0219)

作者簡(jiǎn)介:焦暢(1998-),男,安徽黃山人,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、群組行為識(shí)別;吳克偉(1984-),男(通信作者),安徽合肥人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)(wu_kewei1984@163.com);于磊(1972-),男,安徽合肥人,講師,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué);謝昭(1980-),男,安徽合肥人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué);李文中(1995-),男,河南信陽(yáng)人,碩士,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué).

湘潭市| 科尔| 修水县| 开封县| 芜湖市| 神池县| 巴青县| 张家港市| 香港| 衡阳市| 东丽区| 嘉禾县| 屯留县| 郑州市| 随州市| 独山县| 墨玉县| 白水县| 博客| 南投市| 梅河口市| 通河县| 和龙市| 呼伦贝尔市| 湛江市| 鹤山市| 苏州市| 固原市| 麻城市| 屏边| 九江市| 华阴市| 宜兴市| 淳化县| 宣化县| 拉萨市| 绍兴县| 舞阳县| 仙桃市| 安化县| 将乐县|