摘要: 目前大卷積核模型在圖像領域已經(jīng)證明其有效性,但是在視頻領域還沒有優(yōu)秀的3D大卷積核模型。此外,之前的工作中忽視了時空行為檢測任務主體是人的特點,其中的骨干網(wǎng)絡只針對通用目標提取特征。針對上述原因,提出了一種含有特征融合結構的3D大卷積核神經(jīng)網(wǎng)絡feature fusion ConvNeXt3D(FFConvNeXt3D)。首先,將成熟的ConvNeXt網(wǎng)絡膨脹成用于視頻領域的ConvNeXt3D網(wǎng)絡,其中,預訓練權重也進行處理用于膨脹后的網(wǎng)絡。其次,研究了卷積核時間維度大小和位置對模型性能的影響。最后,提出了一個特征融合結構,著重提高骨干網(wǎng)絡提取人物大小目標特征的能力。在UCF101-24數(shù)據(jù)集上進行了消融實驗和對比實驗,實驗結果驗證了特征融合結構的有效性,并且該模型性能優(yōu)于其他方法。
關鍵詞: 大卷積核; 目標檢測; 時空行為檢測; 行為識別; 特征融合
中圖分類號: TP391
文獻標志碼: A
文章編號: 1671-6841(2025)02-0037-07
DOI: 10.13705/j.issn.1671-6841.2023124
FFConvNeXt3D: Large Convolutional Kernel Network for Extracting
Target Features of Medium and Large Size
HUANG Qiankun1, HUANG Wei2, LING Xinghong1,3,4
(1.School of Computer Science and Technology, Soochow University, Suzhou 215006, China;
2.Department of Computer Science, Soochow College, Soochow University, Suzhou 215006, China;
3.School of Computer Science and Artificial Intelligence, Suzhou City University, Suzhou
215104, China;
4.Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,
Jilin University, Changchun 130012, China)
Abstract: Large convolutional kernel models was proven effective in the image domain, but the available 3D large convolutional kernel models were not good enough in the video domain. Additionally,
the backbone network only could extract features for generic targets, and human was ignored as the subject in the spatio-temporal action detection task in previous work. To address these issues, a 3D large convolutional kernel neural network containing a feature fusion structure feature fusion ConvNeXt3D (FFConvNeXt3D) was proposed. Firstly, the mature ConvNeXt network into a ConvNeXt3D network was extended to the video domain, where pre-training weights were also processed for the expanded network. Secondly, the effect of the size and position of the temporal dimension of the convolutional kernel on the performance of the model was investigated. Finally, a feature fusion structure that would focus on improving the ability of the backbone network to extract features from targets of medium or larger size such as humans was proposed. The ablation experiments and comparison experiments were conducted on the UCF101-24 dataset. The experimental results verified the effectiveness of the feature fusion structure, and the model performed better than other methods.
Key words: large convolution kernel; object detection; spatio temporal action detection; action recognition; feature fusion
0 引言
視頻理解任務是指計算機視覺和機器學習領域中,對視頻內(nèi)容進行分析、理解和處理的任務。時空行為檢測(spatio temporal action detection)任務是視頻理解任務里一個重要的子任務,除了需要分類目標人物的動作,也需要確定人物的位置[1-2]。模型的性能非常依賴特征提取網(wǎng)絡的性能。Tang等[3]使用SlowFast[4]作為骨干網(wǎng)絡,Zhao等[5]使用CSN(channel-separated convolutional networks)[6],這些檢測網(wǎng)絡的分類性能都隨著骨干網(wǎng)絡性能提升得到了提升。
在圖像領域,ConvNeXt網(wǎng)絡吸收了swin transformer網(wǎng)絡的優(yōu)秀設計[7-8],重新對ResNet網(wǎng)絡改進[9],在速度和準確率上較為優(yōu)秀。而I3D(inflated 3D ConvNet)[10]證明了將成熟的2D網(wǎng)絡擴展成3D網(wǎng)絡是行之有效的方法。因此本文將ConvNeXt2D擴展為ConvNeXt3D網(wǎng)絡。保留ConvNeXt的一系列優(yōu)秀設計,同時將網(wǎng)絡的卷積核擴張成3D卷積核,在網(wǎng)絡結構里加入了提取時間信息的能力。通過I3D中提到的方法,將ConvNeXt的預訓練權重擴張成3D預訓練權重。同時對比了時間卷積核大小和位置對性能和速度的影響。
此外,目前的骨干網(wǎng)絡對所有尺寸的目標都統(tǒng)一提取特征,忽略了動作檢測任務的特點。動作檢測任務的目標主體是人,而人往往是中等和相對較大的物體,根據(jù)這一點,提出了一種特征融合結構,用于提取中等和較大尺寸物體的特征。在UCF101-24數(shù)據(jù)集上進行的大量對比實驗證明,本文提出的feature fusion ConvNeXt3D(FFConvNeXt3D)網(wǎng)絡具有優(yōu)秀的性能。
本文主要貢獻如下。
1) 提出了一種含有特征融合結構的3D大卷積核神經(jīng)網(wǎng)絡(FFConvNeXt3D),用于視頻理解中的時空行為定位任務,模型性能在UCF101-24數(shù)據(jù)集上達到了最優(yōu)。
2) 在UCF101-24數(shù)據(jù)集上進行了充分的消融實驗,證明了3×7×7卷積核和先2D再3D卷積的合理性。
3) 提出了一個有效的特征融合結構,能夠很好提升骨干網(wǎng)絡提取尺寸在中等及以上目標特征的能力。
1 相關工作
圖像領域的分類和檢測在視頻領域都有對應的任務,如行為識別、行為檢測。在實際生活中,大量的應用場景往往以視頻居多,視頻理解是非常值得研究且很有難度的方向。而視頻理解中以人為主體的行為識別和行為檢測任務更為重要。
1.1 時空行為檢測
行為識別任務是最基礎的視頻理解任務,給定一個剪輯好的視頻片段,片段中只會有一個動作。時空行為檢測任務類似于目標檢測在視頻領域的擴展,需要在樣本幀中識別待檢測人物,同時給出人物動作。行為檢測分為目標檢測和行為識別兩個任務,先利用優(yōu)秀的目標檢測器(如FasterRCNN[11])檢測人物邊界框,與此同時將視頻片段送入3D骨干網(wǎng)絡(如I3D等)得到特征[10],之后在3DCNN特征的基礎上執(zhí)行區(qū)域特征聚集,最后對得到的特征行為分類。
1.2 3D骨干網(wǎng)絡
在行為識別任務上,Carreira等[10]提出了I3D網(wǎng)絡,驗證了網(wǎng)絡從ImageNet圖像數(shù)據(jù)集學習的知識遷移到視頻領域。R(2+1)D[12] 和S3D[13]網(wǎng)絡用分解3D卷積的思想,將3D卷積分解成2D空間卷積和1D時間卷積,探索降低3D網(wǎng)絡方向計算量。SlowFast借鑒雙流網(wǎng)絡和分解3D卷積網(wǎng)絡的思想[4],利用快和慢兩個網(wǎng)絡分別融合不同幀率的網(wǎng)絡。CSN和X3D網(wǎng)絡借鑒了圖像領域分組卷積和深度可分離卷積的思想[6,14],保證精度的情況下大幅度降低了計算量[15]。本文將ConvNeXt,結合3DCNN網(wǎng)絡設計思路[15],重新設計了一個高效的大卷積核骨干網(wǎng)絡FFConvNext3D。
2 模型設計
本文提出了一個基于ConvNeXt2D設計的3DCNN網(wǎng)絡:FFConvNeXt3D網(wǎng)絡,它是由一個檢測器和一個骨干網(wǎng)絡構成。檢測器可以是任意的人體檢測器,本文使用文獻[16]中提到的檢測器。圖1顯示了FFConvNeXt3D的總體架構設計。具體為,輸入視頻片段并提取成連續(xù)的圖像幀Xi,輸入3D骨干網(wǎng)絡得到特征圖Xb,之后進入特征融合模塊后得到特征圖Xf∈RT×C×H×W,T、C、H、W分別是時間、通道、高度、寬度。
經(jīng)過3D平均池化后,去除時間維度,調(diào)整為Xo∈RC×H×W,
用公式表示為
Xo=AvgPool3D{ffeaturefusion[fbackbone(Xi)]}。
在Xi中取最后一幀F(xiàn)k作為關鍵幀,進入目標檢測器,得到N個人物的邊界框,同時在通道維度上復制C次,
{Bi}Ni=1=ObjectDetector(Fk),{Bi,j}NCi=1, j=1=fθ({Bi}Ni=1),
其中:fθ(·)表示通道維度上的復制。通過RoIAlign后得到人物特征{Pi∈RC×7×7}Ni=1,進行空間最大池化得到人物特征{Pi∈RC}Ni=1,將人物特征放入關系推理模塊進行關系建模[17]。用全連接層對人物特征進行分類。總結為
{Pi}Ni=1=RoIAlign(XO,{Bi,j}NCi=1, j=1),
{Pi}Ni=1=MaxPool({Pi}Ni=1),
Actioni=softmax{fc[RelationModule({Pi}Ni=1)]}。
2.1 時間維度膨脹
本文使用文獻[10]中2DCNN遷移3DCNN架構的方法,將N×N的2D卷積核擴張成N×N×N的3D卷積核,將預訓練權重也同步膨脹相應維度,并且將預訓練權重數(shù)值除以相應維度。
ConvNeXt是7×7的大卷積核,本文首先將卷積核擴張成7×7×7,但針對視頻樣本,時間維度和空間維度需要的感受野是不一樣的。本文空間分辨率從224×224開始下采樣,而時間分辨率是從32幀或者16幀開始,如果3D卷積核的時間維度和空間維度采用一樣的大小,會對提取該特征點的語義信息造成負面影響?,F(xiàn)實中人眼通過望遠鏡看一個固定的、有人物活動的區(qū)域時,當人物原地活動時,可以準確理解該人物動作,但如果人物的活動超出了望遠鏡的觀察范圍,則會對一個動作造成誤解,所以望遠鏡的視野(空間感受野)要跟上人物動作的變化速度(時間感受野)。如圖2,第一行框內(nèi)是3D卷積核當前的感受野范圍,當時間卷積核為3時,感受野范圍內(nèi)語義信息沒有過多的干擾信息。當時間卷積核為7時,空間感受野并沒有跟上時間感受野擴張的速度,所以感受野內(nèi)缺少了有效信息,多了干擾信息。所以我們將時間膨脹維度設置為3,實驗證明,3×7×7的卷積核更為合理,提取的語義特征更加明確。
2.2 慢速路徑
與以前的3DCNN網(wǎng)絡(如C3D等)不同的是,在第一個和第二個殘差塊中,本文沒有對時間維度進行卷積,因為在低層語義中,每個特征圖的像素點在時間維度上的相關性很低。之前一系列對卷積網(wǎng)絡可視化的工作表明,低層殘差塊輸出的特征圖局部細節(jié)信息豐富,而殘差塊的層數(shù)越往后,特征圖的語義信息愈加豐富。
如圖3,本文借鑒了SlowFast中慢速路徑的設計,只在第3個和第4個殘差塊中進行時間卷積,用灰色方塊標出。目前多數(shù)3DCNN架構的模型輸入圖片幀長度在8~64幀,最長為2 s左右,這在時空行為檢測任務中屬于較低的時間分辨率。因此本文在整個骨干網(wǎng)絡中不進行時間下采樣,在時間維度上保持高分辨率。網(wǎng)絡架構的細節(jié)如圖3所示。
2.3 特征融合
在目標檢測任務中,每個物體的尺寸不會完全相同,在特征金字塔結構(FPN)出現(xiàn)以前,小目標的檢測是一個難題,原因是通過類ResNet骨干網(wǎng)絡時,隨著空間分辨率的降低,網(wǎng)絡的提取特征變抽象的同時會損失定位信息。在行為識別這個領域里,任務檢測目標是人,往往是占據(jù)圖像中相當大的位置,而小目標應該是被剔除的對象。
針對如何去除干擾的背景,讓網(wǎng)絡將注意力集中在圖中的人物對象上,本文提出了一種特征融合結構,它將高層語義和低層定位信息相融合,得到的特征輸出層既包含用于分類的高層語義,又包含用于定位的低層信息。在對高層特征圖進行上采樣后,與低層特征圖融合出現(xiàn)的混疊效應,特征金字塔利用3×3的卷積來改善。本文采用了CSPConvNeXt3D塊來改善混疊效應,這對高層特征和低層特征的融合會更加有效。
特征金字塔是由上向下融合低層特征,目的是傳遞頂層的高級語義特征,但這遺漏了低層定位信息的傳遞。所以本文用路徑聚合結構加強了低層定位信息的傳遞[18]。在融合低層語義和高層語義之后,用CSPConvNeXt3D塊來加強特征融合,經(jīng)過路徑聚合結構后會得到三種分辨率的特征圖,取中等分辨率和高分辨率的特征圖,對應中等目標和大目標的人物。詳細的結構如圖4所示,其中28×28,14×14,7×7三種類型的箭頭分別代表了三種不同分辨率特征圖的傳遞。
特征金字塔是由上向下融合低層特征,目的是為了傳遞頂層的高級語義特征,但會遺漏低層定位信息的傳遞。本文用路徑聚合結構進行加強[18],同樣,在融合低層語義和高層語義之后,用CSPConvNext3D塊來加強特征融合。經(jīng)過路徑聚合結構后會得到三個分辨率的特征,取中等分辨率和高分辨率的特征圖,對應中等目標和大目標的人物。如圖4所示。
輸入圖像幀在經(jīng)過骨干網(wǎng)絡后取低、中、高三層特征圖,進入特征融合模塊。CSPConvNeXt3D塊的結構如圖4所示,輸入特征通過兩個3DConvBNSiLU塊將通道降維至原來的1/2。ConvNeXt3D塊和骨干網(wǎng)絡中ConvNeXt3D塊不同的是,沒有使用殘差連接。3DConvBNSiLU塊如圖4所示,由Conv3D、BatchNorm3D、SiLU激活函數(shù)組成,用于調(diào)整通道,融合特征。
3 實驗與分析
本文在UCF101-24數(shù)據(jù)集上進行對比實驗和消融實驗,驗證FFConvNext3D模型的有效性。
3.1 實驗設置
3.1.1 數(shù)據(jù)集 本文選用在行為檢測任務中常用的數(shù)據(jù)集UCF101-24。UCF101-24是UCF101數(shù)據(jù)集里面一個子集,并進行了重新標注,訓練集和測試集分別是2 284和923個視頻,數(shù)據(jù)集中包含24類動作。數(shù)據(jù)集樣本視頻分辨率為320×240,所有動作實例時長占了整個數(shù)據(jù)集時長的78%。
3.1.2 實驗方法 本文在訓練階段,目標人物邊界框使用真實邊界框(ground truth boxes),在測試階段,使用文獻[16]的人體檢測器,該檢測器在ImageNet和COCO數(shù)據(jù)集上進行預訓練。設置批處理大小為12,學習率為0.0001,權重衰減系數(shù)為0.0005,在UCF101-24數(shù)據(jù)集上進行微調(diào)10個輪次,定位精度可以達到91.7%。
在UCF101-24上,動作被分為24類獨立的動作,每個人物在一個視頻片段中只能有一類動作,因此這24類動作都是互斥的,后續(xù)使用softmax函數(shù)分類,并使用交叉熵損失函數(shù)進行訓練。在訓練階段,采用一些常規(guī)的數(shù)據(jù)增強的方法。
3.1.3 評價指標
在行為檢測任務中,需要綜合考慮分類與定位的性能。因此本文采用每幀檢測的各類別AP平均值
(frame-mean average precision,F(xiàn)rame-mAP)
作為評價指標。該指標考慮了模型的精度(P)和召回率(R),可以客觀地評估行為檢測算法的性能。交并比(IoU)是衡量預測框和真實框之間重疊程度的指標。當IoU大于等于某個閾值時,我們認為預測框和真實框匹配成功。本文取閾值為0.5,即統(tǒng)計所有IoU
≥
0.5人物框的動作分類。Frame-mAP的計算方法如下,
P=TPTP+FP,
R=TPTP+FN,
AP=∫10Pd(R),
Frame-mAP=∑Ni=1AAPiN,
其中:TP是正確檢測到人且動作分類正確的邊界框;
FP是正確檢測到人但動作分類錯誤的邊界框;
FN是漏檢的含人物邊界框和分類錯誤的含人物邊界框;
AAPi值為P-R曲線下面積,
i表示第i個類別;Frame-mAP表示每一幀中所有行為類別的平均精度,F(xiàn)rame-mAP50表示IoU為0.5時的Frame-mAP;N表示類別總數(shù),UCF101-24數(shù)據(jù)集有24個類別,因此N為24。
3.2 對比方法
如表1所示,本文分兩組進行對比實驗,第一組分別與以C3D為骨干網(wǎng)絡的T-CNN[19]、以ResNeXt3D-101為骨干網(wǎng)絡的YOWO[16]、以CSN-152為骨干網(wǎng)絡的TubeR和以SlowFast-50為骨干網(wǎng)絡的AIA進行比較[5,3]。第二組分別與TacNet[20]、ACT[21]、MOC[22]、STEP[23]、I3D[10]這5個雙流網(wǎng)絡對比。表中黑色加粗的結果是本文模型的結果。另外,本文提出了兩種規(guī)格模型,F(xiàn)FConvNeXt3D-Tiny和FFConvNeXt3D-Small。在僅使用ImageNet22K預訓練權重的情況下,F(xiàn)rame-mAP50指標達到了最優(yōu)。在所有動作中,識別效果較好的是擊劍類動作,這類動作的特征是圖片中背景干凈,沒有多余的干擾人群。識別效果較差的是籃球的扣籃類動作,這類動作背景里人物眾多,對識別目標人物的動作造成了干擾。
3.3 消融研究
所有消融實驗均在ConvNeXt-Tiny的基礎上進行,均用ImageNet22K數(shù)據(jù)集的預訓練權重,使用相同的人體檢測器。模型的輸入樣本為連續(xù)的16幀。不包含特征融合模塊時,骨干網(wǎng)絡的最后一個下采樣層不進行下采樣,保持14×14的空間分辨率。
1) 時間感受野。我們以ConvNeXt2D-Tiny作為基礎網(wǎng)絡,分別嘗試了3×7×7和7×7×7卷積核的效果。如表2所示,實驗結果證明3×7×7的3D卷積核大小效果是最好的,時間維度為7時,預測精度反而下降。這可能是因為時間維度和空間維度感受野并不相同,正如Transformer結構優(yōu)勢是對全局信息的獲取,更大的空間感受野也有助于提高目標特征的提取能力。
而時間感受野過大,且人物邊界框除關鍵幀以外均為復制過去的邊界框時,造成人物動作管不吻合實際人物位置的情況,影響了特征提取效果。人物動作管(action tubelets)是由一連串緊密相連的人物邊界框組成的,用于更細致地描述視頻中人物動作發(fā)生的位置。
而時間感受野過大,且人物邊界框除關鍵幀以外均為復制過去的邊界框時,造成人物動作管不吻合實際情況,影響了特征提取效果。
2) 2D卷積和3D卷積的順序。本文將模型分為兩個部分,第1部分為Stem、Res2、Res3層,第2部分為Res4、Res5層。如表3所示,分別在這兩部分使用不同的卷積,實驗結果證明先2D后3D卷積的效果更好且計算量更少。最后使用的結構是將ConvNeXt-Tiny的Res4和Res5的卷積核設置為3×7×7,其余各層大小均為1×7×7,不使用時間卷積。
3) 特征融合。本文比較了FPN和PAN的效果,表4中基線是不加特征融合,F(xiàn)PN只取7×7和14×14分辨率的特征圖,將7×7上采樣至14×14,并與14×14的特征圖進行拼接(Concat)操作。PAN同樣如此,取7×7和14×14分辨率的特征圖。如表4,我們嘗試了加入28×28的特征圖,平均精度反而
下降,產(chǎn)生該現(xiàn)象的原因是28×28的特征圖中存在較多的小面積人物特征,一般不是目標人物,導致了對正確識別目標人物的干擾。
4 結論
本文基于ConvNeXt網(wǎng)絡提出了FFConv-NeXt3D。在保留了ConvNeXt的大卷積核基礎上,分組卷積設計并同時改造成3D卷積網(wǎng)絡。本文還提出了新的特征融合結構,有效提高了骨干網(wǎng)絡的特征提取能力。在UCF101-24公開數(shù)據(jù)集的消融實驗證明,時間感受野需要和空間感受野匹配,因此3×7×7卷積核更合理。此外先2D再3D卷積效果更好,本文所提方法比單純特征金字塔的效果更好。將本文所提出的方法在UCF101-24數(shù)據(jù)集上和單純圖像幀輸入網(wǎng)絡、雙流輸入網(wǎng)絡進行了對比實驗,效果達到了最優(yōu)。
參考文獻:
[1] 王陽, 袁國武, 瞿睿, 等. 基于改進YOLOv3的機場停機坪目標檢測方法[J]. 鄭州大學學報(理學版), 2022, 54(5):22-28.
WANG Y, YUAN G W, QU R, et al. Target detection method of airport apron based on improved YOLOv3[J]. Journal of Zhengzhou university (natural science edition), 2022, 54(5):22-28.
[2] 蔣韋曄, 劉成明. 基于深度圖的人體動作分類自適應算法[J]. 鄭州大學學報(理學版), 2021, 53(1):16-21.
JIANG W Y, LIU C M. Adaptive algorithm for human motion classification based on depth map[J]. Journal of Zhengzhou university (natural science edition), 2021, 53(1):16-21.
[3] TANG J J, XIA J, MU X Z, et al. Asynchronous interaction aggregation for action detection[EB/OL].(2020-04-16)[2023-03-11]. https:∥arxiv.org/abs/2004.07485.pdf.
[4] FEICHTENHOFER C, FAN H Q, MALIK J, et al. SlowFast networks for video recognition[C]∥IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2020: 6201-6210.
[5] ZHAO J J, ZHANG Y Y, LI X Y, et al. TubeR: tubelet transformer for video action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 13588-13597.
[6] TRAN D, WANG H, FEISZLI M, et al. Video classification with channel-separated convolutional networks[C]∥IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE Press, 2020: 5551-5560.
[7] LIU Z, MAO H Z, WU C Y, et al. A ConvNet for the 2020s[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2022: 11966-11976.
[8] LIU Z, LIN Y T, CAO Y, et al. Swin transformer: hierarchical vision transformer using shifted windows[EB/OL]. (2021-03-25)[2023-03-11]. https:∥arxiv.org/abs/2103.14030.pdf.
[9] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.
[10]CARREIRA J, ZISSERMAN A. Quo vadis, action recognition? A new model and the kinetics dataset[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 4724-4733.
[11]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.
[12]TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 6450-6459.
[13]XIE S N, SUN C, HUANG J, et al. Rethinking spatiotemporal feature learning: speed-accuracy trade-offs in video classification[C]∥European Conference on Computer Vision. Cham: International Springer Publishing, 2018: 318-335.
[14]FEICHTENHOFER C. X3D: expanding architectures for efficient video recognition[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 200-210.
[15]佘顥, 吳伶, 單魯泉. 基于SSD網(wǎng)絡模型改進的水稻害蟲識別方法[J]. 鄭州大學學報(理學版), 2020, 52(3)49-54.
SHE H, WU L, SHAN L Q. Improved rice pest recognition based on SSD network model[J]. Journal of Zhengzhou university (natural science edition), 2020, 52(3): 49-54.
[16]KPKL O, WEI X Y, RIGOLL G. You only watch once: a unified CNN architecture for real-time spatiotemporal action localization[EB/OL]. (2019-11-15)[2023-03-11]. https:∥arxiv.org/abs/1911.06644.pdf.
[17]PAN J T, CHEN S Y, SHOU M Z, et al. Actor-context-actor relation network for spatio-temporal action localization[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2021: 464-474.
[18]LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2018: 8759-8768.
[19]HOU R, CHEN C, SHAH M. Tube convolutional neural network (T-CNN) for action detection in videos[EB/OL]. (2017-03-30)[2023-03-11]. https:∥arxiv.org/abs/1703.10664.pdf.
[20]SONG L, ZHANG S W, YU G, et al. TACNet: transition-aware context network for spatio-temporal action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 11979-11987.
[21]KALOGEITON V, WEINZAEPFEL P, FERRARI V, et al. Action tubelet detector for spatio-temporal action localization[C]∥IEEE International Conference on Computer Vision. Piscataway: IEEE Press, 2017: 4415-4423.
[22]LI Y X, WANG Z X, WANG L M, et al. Actions as moving points[C]∥European Conference on Computer Vision. Cham: Springer International Publishing, 2020: 68-84.
[23]YANG X T, YANG X D, LIU M Y, et al. STEP: spatio-temporal progressive learning for video action detection[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2020: 264-272.