摘 要:針對現(xiàn)有的行為識別方法缺少對視頻幀中區(qū)域級特征的學習,造成識別過程中對相似的行為類別混淆的問題,提出一種區(qū)域級時間變化網(wǎng)絡。該網(wǎng)絡包括局部-全局時間特征學習模塊、區(qū)域語義學習模塊、區(qū)域語義融合模塊。局部-全局時間特征學習模塊學習局部時間注意力,以增強局部視頻幀的運動特征,并將其聚合為全局時間區(qū)域特征。區(qū)域語義學習模塊通過計算區(qū)域中像素之間的相似度來構建可變化的區(qū)域語義卷積核,從而學習隨時間變化的行為語義特征。區(qū)域語義融合模塊將可變化區(qū)域特征和全局時間區(qū)域特征作為兩個獨立分支,分別學習每個分支特征的通道注意力用于特征融合。在Something-Something V1amp;V2與 Kinetics-400數(shù)據(jù)集上的實驗結果顯示,區(qū)域級時間變化網(wǎng)絡表現(xiàn)優(yōu)于多數(shù)行為識別方法,證明了該網(wǎng)絡能夠有效提升行為識別的性能。
關鍵詞:行為識別; 區(qū)域級特征; 卷積神經(jīng)網(wǎng)絡; 深度學習
中圖分類號:TP389.1 文獻標志碼:A
文章編號:1001-3695(2024)11-043-3495-07
doi:10.19734/j.issn.1001-3695.2024.01.0013
Regional temporal changes learning for action recognition
Yang Xingming, Xu Hao, Wang Zhiwen, Gao Xujie, Wu Kewei, Xie Zhao?
(School of Computer Science amp; Information Engineering, Hefei University of Technology, Hefei 230601, China)
Abstract:To solve the problem that existing action recognition methods lack the learning of regional-aware features in video frames, resulting in the confusion of similar action categories in the recognition process, this paper proposed a regional-aware temporal change network. This network included a local-global temporal feature learning module, a regional semantic lear-ning module, and a regional semantic fusion module. The local-global temporal feature learning module learned local temporal attention to enhance video frame features and aggregated them into global temporal region features. The regional semantic learning module constructed changeable region semantic convolution kernels by computing the similarity between pixels in the region to learn action semantic features over time. The regional semantic fusion module took the changeable regional features and global temporal regional features as two independent branches and learned the channel attention of each branch separately for feature fusion. Experiments on the Something-Something V1amp;V2 and Kinetics-400 datasets show that the regional-aware temporal change network performs better than most action recognition methods, proving that the network can effectively improve the performance of action recognition.
Key words:action recognition; regional feature; convolutional neural network; deep learning
0 引言
行為識別是一項具有挑戰(zhàn)性的任務,需要從視頻幀包含的不同語義的動作原子中識別出視頻中的行為語義,它已被廣泛應用在視頻理解[1]、視頻推薦和人-物交互[2,3]等領域。視頻中的動作包含一系列動作原子,動作原子的語義是通過分析動作的時間變化(包括移動的物體或人員)來解釋的,而物體(或人)會不斷改變其動作,導致不同時刻的動作原子語義不同?,F(xiàn)有的行為識別方法大多通過提取整個視頻幀的特征來判定視頻行為類別,卻忽略了學習視頻幀中區(qū)域級特征。這些方法主要分為基于卷積的方法和基于Transformer的方法?;诰矸e的方法可通過時間分段后聚合[4]、時間平移[5,6]和時間擴張卷積[7]描述時間變化,以解釋視頻的行為語義。時間變化在一定程度上表現(xiàn)為視頻的運動特征[8],許多工作也嘗試學習運動特征來提高模型的時間表達能力。文獻[9, 10]通過設計時差模塊學習運動特征,Wang等人[11]利用視頻的相關性來提取特征。為了選擇與動作相關的時空區(qū)域,一些方法通過時空補丁選擇[12]和前景提取[13],使模型更多地關注視頻幀中物體的運動區(qū)域。同時,還有一些工作[6,14~18]使用不同類型的時間注意力增強運動相關特征。這些方法大多基于二維卷積,在學習長時間視頻幀的特征時仍存在困難?;谌S卷積的方法可以捕捉局部時間間隔內(nèi)多個幀的動作特征,它們通過膨脹二維卷積核[19]、多視圖三維卷積[20]等方式將卷積神經(jīng)網(wǎng)絡擴展至時間維度。這些方法通過簡單堆疊多層三維卷積神經(jīng)網(wǎng)絡學習的局部特征得到全局時間特征,然而特征在多層網(wǎng)絡傳播過程中會逐層損失,導致它們難以關注到區(qū)域間細小的時間變化。基于Transformer的方法[21~23]可以捕捉全局序列中幀與幀之間的時間關系,但對幀中的所有區(qū)域都計算它們之間的自注意力,在產(chǎn)生巨大計算量的同時,模型更容易關注冗余的空間區(qū)域,而不是隨時間變化行為語義區(qū)域。此外還有一些方法不同于完全有監(jiān)督訓練方式,嘗試以自監(jiān)督[24]和弱監(jiān)督[25]的方式探索行為識別學習的新范式。
上述方法忽略了學習視頻幀中的區(qū)域級特征,沒有分析區(qū)域特征在時間上的變化,可能無法關注到視頻幀中全部的動作原子,從而影響視頻的行為識別。為解決以上問題,本文提出了一個區(qū)域級時間變化網(wǎng)絡(regional-aware temporal change network,RTCNet),該網(wǎng)絡首先通過局部時間增強關注幀之間較小的動作變化,為了學習全局時間關系,使用ConvLSTM[26](convolutional long short term memory)對局部增強特征進行聚合,以捕捉全局時間區(qū)域特征。為了分析區(qū)域特征的時間變化,本文通過學習區(qū)域像素之間的相似度,構建可變化的區(qū)域語義卷積核,用于學習區(qū)域語義特征,然后對區(qū)域語義特征和全局時間區(qū)域特征進行融合。
如圖1所示,(a)為行為類別“將某物插入某物,隨后拔出”的一個視頻幀序列,該行為擁有三種動作原子語義,分別是“使某物靠近某物”(藍色區(qū)域,見電子版,下同)、“將某物插入某物”(綠色區(qū)域)、“將某物拔出”(黃色區(qū)域)。分別使用TSM[5]與本文方法對該視頻進行識別,在(b)和(c)中分別展示了兩個網(wǎng)絡識別結果中得分最高的三個行為類別(Ⅰ為正確類別,Ⅱ、Ⅲ為錯誤類別)和它們對幀序列中不同動作原子語義相關區(qū)域的關注度。從圖1(b)中可以看到,TSM只學習到了藍色區(qū)域動作原子對應的語義特征,并將其用于解釋視頻的行為語義,導致把動作錯誤地判定為相近行為類別Ⅱ。在圖1(c)中,本文方法通過學習全局區(qū)域特征,使得模型關注區(qū)域覆蓋了整個視頻幀序列,并通過可變時間區(qū)域?qū)W習,加強了對關鍵動作相關區(qū)域的關注,尤其是黃色區(qū)域的動作原子,本文方法成功學習到了圖中物體逐漸遠離的時間變化,從而能夠捕捉到“將某物拔出”這一行為語義,在正確類別上的得分最高,作出了正確的類別判定。
本文的貢獻可總結如下:a)提出一種用于行為識別的區(qū)域級時間變化網(wǎng)絡,包括局部-全局時間特征學習、區(qū)域語義學習、區(qū)域語義融合三個模塊;b)設計了局部-全局時間特征學習模塊,關注于為區(qū)域特征學習提供局部和全局時間描述能力;c)設計了區(qū)域語義學習模塊,關注于學習隨著時間變化的區(qū)域語義卷積核,用于描述隨著時間變化的行為語義特征;d)設計了區(qū)域語義融合模塊,自適應融合可變化的區(qū)域特征和全局時間區(qū)域特征。
1 方法
圖2給出了本文提出的區(qū)域級時間變化網(wǎng)絡(RTCNet),它將局部-全局時間特征學習模塊(local-global temporal feature learning module,L-GTFL)、區(qū)域語義學習模塊(regional semantic learning module,RSL)、區(qū)域語義融合模塊(regional semantic fusion module,RSF)與ResNet50[27]結合。a)局部-全局時間特征學習模塊,包含局部時間增強、全局時間記憶兩部分。局部時間增強操作通過差分注意力的方式,抑制連續(xù)幀之間相似的靜態(tài)外觀特征,來捕獲連續(xù)幀之間的微小變化。全局時間記憶操作使用ConvLSTM[26]結構聚合長時間的空間特征,來描述區(qū)域特征的全局時間變化。b)區(qū)域語義學習模塊利用連續(xù)兩幀局部區(qū)域中的像素匹配關系,學習在不同區(qū)域上可變的卷積核,來解釋不同區(qū)域具有的不同行為語義。c)區(qū)域語義融合模塊融合區(qū)域可變化特征和區(qū)域全局時間特征權重,增強區(qū)域中行為語義特征。本文從每個視頻中采樣獲取視頻幀序列,并將整個序列映射為一個時空特征圖X∈?T×C×H×W作為整個網(wǎng)絡的輸入,其中T、C、H、W分別表示特征圖的幀數(shù)、通道數(shù)、高度和寬度。
1.1 局部-全局時間特征學習
圖3展示了局部-全局時間特征學習模塊的結構,包括局部時間增強(local temporal enhancement,LTE)與全局時間記憶(global temporal memory,GTM)兩個模塊。局部時間增強模塊通過關注相鄰幀中較小變化的區(qū)域,學習局部時間注意力,并用于增強時間特征,全局時間記憶模塊通過記憶視頻幀序列中的特征變化學習全局時間區(qū)域特征。
1.1.1 局部時間增強(LTE)
局部時間特征描述了相鄰幀之間的時間語義變化,它實際更多地關注基于外觀的特征,并且可能會忽略變化較小的區(qū)域。局部時間增強模塊捕獲兩個連續(xù)幀之間的特征變化,將這種變化描述為物體的運動特征。運動特征是對外觀特征的補充,將其估計為局部時間注意力,能夠進一步激活原本時間變化較小的區(qū)域特征。
對于給定的視頻幀輸入特征序列X∈? T×C×H×W,首先使用幀間差分,將特征在時間維度上偏移一個時間步獲得Xt+1,與原特征序列相減,用于估計兩個連續(xù)幀之間的空間特征變化??臻g特征變化經(jīng)過全局平均池化(global average pooling,GAP)學習一個通道級特征向量,可以描述每幀中的通道語義。將所有幀的通道向量匯總表示為通道的特征注意力矩陣A=GAP(Xt+1-X)∈? T×C。為了增強各幀通道向量之間的特征交互,從而更好地學習通道注意力,在時間維度T上對通道向量上使用一維卷積加強跨通道學習。之后對注意力矩陣使用sigmoid函數(shù),得到A′=2·sigmoid(conv1d(A))-1∈? T×C。特征注意力矩陣通過元素級(element-wise)乘法用于激活特征的每個通道,從而學習運動特征。最后使用殘差操作融合原始輸入特征與激活后特征,可以保留基于外觀的特征。具體地,將幀序列其中一幀特征表示為xt∈X,對應的特征注意力為a′t∈A′,特征注意力用于激活幀特征,則局部時間增強特征可表示為
局部時間增強模塊的輸出包含所有幀的特征Xlocal={xlocalt}。
1.1.2 全局時間記憶(GTM)
全局時間特征可用于描述視頻幀序列中的長期語義變化,這種變化對動作的解釋可能與相鄰幀之間的時間語義變化不一致,而行為識別更多地需要考慮整個視頻來解釋行為類別。因此,本文提出全局時間記憶模塊,利用學習到的局部時間增強特征聚合全局時間區(qū)域特征。為了描述時空特征中的語義變化,全局時間記憶使用ConvLSTM[26]的記憶機制,其中的記憶單元(memory cell)可以選擇每一幀的空間特征區(qū)域,視頻幀序列的局部時空特征可通過記憶機制進行聚合。
具體地,對局部時間增強特征Xlocal,首先使用1×1卷積壓縮特征通道數(shù)X′local=conv1×1(Xlocal)∈? T×C′×H×W,使用兩個分支來學習不同的語義,最大池化分支用于選擇最顯著的時空區(qū)域特征,三維卷積分支用于聚合不同時空位置的區(qū)域特征,合并兩個分支的特征后得到具有不同類型時空特征表示X″local=concat(maxpooling(X′local),conv3×3×3(X′local))。然后,使用ConvLSTM聚合時空特征表示,ConvLSTM中的記憶單元(me-mory cell)使用二維卷積操作,能夠保留特征的空間結構,同時將記憶單元中的特征傳遞給整個視頻特征序列,從而學習整個幀序列的時空特征。若將全部特征輸入到ConvLSTM中,會導致網(wǎng)絡模型計算量過大,不利于訓練優(yōu)化。為解決這個問題,本文劃分部分特征用于捕獲全局時空特征,劃分比例由參數(shù)α控制。將全局時空特征表示為Xlong=X″local,1:aC′,其余特征為X″local,αC′+1:C′,每幀的時間特征表示為xlong,t∈Xlong,經(jīng)過Conv-LSTM輸出的全局時間特征可表示為
然后將劃分的全局時間特征與剩余的特征合并,使用卷積恢復壓縮的通道,并使用殘差連接保留最初的局部時間增強特征,得到最終的全局時間區(qū)域特征X′global,過程如式(3)所示。
1.2 區(qū)域語義學習
圖4展示了區(qū)域語義學習模塊的結構。區(qū)域語義學習模塊(regional semantic learning,RSL)主要關注學習不同區(qū)域的時間變化語義,它從兩個相鄰幀特征中學習可變化的區(qū)域語義卷積核,用于捕獲各區(qū)域的時間變化。
圖5說明了視頻幀中不同區(qū)域具有不同的行為語義。在圖5(a)中,紅色框標注了變化的行為語義,區(qū)域中特征存在較明顯的變化(參見電子版)。白色框標注了視頻幀的背景區(qū)域,區(qū)域中的特征相對穩(wěn)定。在圖5(b)中,普通卷積不考慮區(qū)域中的特征變化,使用與區(qū)域無關的固定卷積核。此時,難以全面地描述變化的特征。在圖5(c)中,本文方法考慮區(qū)域中像素的匹配關系,設計可變化的卷積核。此時,視頻幀中的不同區(qū)域,由于具有不同的像素匹配關系,能夠?qū)W習到不同的卷積核。本文方法能夠更好地響應變化區(qū)域的內(nèi)容。在圖5(d)中,給出TSM[5]的可視化熱圖。TSM使用普通卷積,造成在第7幀、第8幀時,對語義變化區(qū)域沒有很好的響應,從而忽略了行為發(fā)生過程的特點,造成行為類別錯誤識別為“將某物插入某物”。在圖5(e)中,給出了本文方法的可視化熱圖。本文方法使用可變卷積,有效捕獲了第7幀、第8幀的行為語義。本文方法可以糾正TSM的錯誤行為識別結果,成功識別為“將某物插入某物,隨后拔出”。
為了描述區(qū)域語義,受到Li等人[28]在圖像領域研究的啟發(fā),區(qū)域語義學習模塊使用局部區(qū)域中像素之間的相似度關系作為區(qū)域語義卷積核。與固定卷積核不同,區(qū)域語義卷積核隨著視頻幀特征的變化而改變,可以自適應地學習區(qū)域語義。由于視頻數(shù)據(jù)的復雜性,一個語義區(qū)域內(nèi)可能包含多個語義,本文將它們表示為多個區(qū)域卷積核。這些區(qū)域卷積核最終用于特征卷積操作,幫助模型更好地捕捉區(qū)域語義變化。
區(qū)域語義學習模塊的輸入為局部-全局時間特征學習模塊的輸出。對輸入的全局時間區(qū)域特征x′global,t∈X′global,經(jīng)過分組的3×3卷積調(diào)整空間位置,再與下一幀的特征x′global,t+1∈X′global合并,并使用卷積調(diào)整合并后的通道數(shù),得到同時具有相鄰兩幀區(qū)域特征的xregiont=conv1×1(concat(conv3×3(x′global,t),x′global,t+1))。在區(qū)域特征的k×k的局部區(qū)域內(nèi),通過學習局部區(qū)域中心像素與區(qū)域內(nèi)其他像素的關系,使得中心像素的區(qū)域語義中含有k×k組像素間關系。針對每個區(qū)域可能包含的多個語義,使用多個區(qū)域卷積核分別代表不同的語義,卷積核數(shù)量為Ch。具體過程為,對經(jīng)過1×1卷積的視頻幀,將其中一個中心像素作為鍵(key)特征,將中心像素對應的k×k區(qū)域內(nèi)其他像素作為查詢(query)特征,公式表示如下:
Euclid ExtraaBp1×C(4)
其中:Wch表示卷積參數(shù);°表示卷積操作。然后,與文獻[29]類似,利用點乘計算中心像素與區(qū)域內(nèi)每個像素的關系,使用softmax函數(shù)對點乘進行縮放,縮放比例設置為dr=C。具體地,取第t幀的一個中心像素點(h,w),其中h∈[1,H],w∈[1,W],與其相鄰區(qū)域中的像素點(u,v)∈neighborh,w,像素之間關系的學習過程如下:
則第t幀中的多個區(qū)域卷積核可表示為
在得到可變化的區(qū)域語義卷積核后,利用區(qū)域卷積核對全局時間區(qū)域特征進行分組卷積,具體做法是先將原始輸入特征經(jīng)過1×1卷積映射為xgroupt=conv1×1(x′global,t),然后將特征分為與卷積核數(shù)量相同的Ch組,用ch表示組序號,則第ch組特征可記為xcht=xgroupt,ch,組序號ch∈[1,…,Ch],每組特征通道數(shù)為C/Ch。xcht通過特征分組序號選擇對應的區(qū)域卷積核relationcht進行卷積操作,以捕獲特定區(qū)域中的語義,之后將所有特征拼接合并,得到區(qū)域語義特征xsemt,這個過程可表示為
1.3 區(qū)域語義融合
圖6展示了區(qū)域語義融合模塊的結構。區(qū)域語義融合模塊將可變區(qū)域特征和全局時間區(qū)域特征作為兩個獨立分支,通過學習每個分支特征的通道注意力進行區(qū)域特征融合,最終得到區(qū)域增強的語義特征。區(qū)域語義融合模塊的兩個分支輸入分別對應圖4中區(qū)域語義學習模塊的兩個輸出,即區(qū)域語義特征xsemt與分組3×3卷積后的全局時間區(qū)域特征conv3×3(x′global,t)。首先將兩個分支簡單相加為x′sem,t=xsemt+conv3×3(x′global,t),對結果使用全局平均池化后經(jīng)過1×1卷積跨通道學習,得到具有跨通道的語義向量asemt=conv1×1(GAP(x′sem,t))∈? C′×1。然后使用兩個卷積層將通道向量再次劃分為兩個分支進行通道選擇,經(jīng)過softmax歸一化后用于特征增強。將卷積層參數(shù)表示為W1、W2,則兩個分支的在通道c上的注意力可分別表示為
其中:°代表卷積操作。兩種注意力被用來增強該分支上的通道級語義,雙分支注意力用于選擇與行為識別相關的兩個分支的語義,如式(9)所示。
最終輸出區(qū)域增強的語義特征為Xsel={xselt,c}。
1.4 模型實現(xiàn)
RTCNet使用ResNet50[27]作為主干網(wǎng)絡,將局部-全局時間特征學習模塊、區(qū)域語義特征學習模塊和區(qū)域語義特征融合模塊與ResNet50結構相結合。在ResNet50的Stage2-5中,RTCNet對其中的每個Bottleneck進行改造。在第一個1×1卷積之前,先使用可學習的時間平移操作[6],之后添加局部-全局時間特征學習模塊,來描述區(qū)域特征的局部-全局時間變化。在兩個1×1卷積之間,添加區(qū)域語義特征學習模塊和區(qū)域語義融合模塊,用于捕獲區(qū)域中的行為語義特征。在第二個1×1卷積之后,使用殘差連接,對時間平移操作后的特征和區(qū)域中的行為語義特征求和。在stage5后,使用一個全連接層作為分類器,計算每個視頻幀在不同類別上的得分。最后,RTCNet計算視頻所有幀的平均得分,用于行為類別的判斷。
區(qū)域級時間變化模塊流程如下:
輸入:視頻幀特征。
輸出:區(qū)域增強的語義特征。
a)使用局部時間增強模塊,得到局部時間增強特征" //式(1)
b)使用全局時間記憶模塊,得到全局時間區(qū)域特征" //式(2)(3)
c)使用區(qū)域語義學習模塊,得到區(qū)域語義特征" //式(4)~(7)
d)使用區(qū)域語義融合模塊,得到區(qū)域增強的語義特征" //式(8)(9)
最后將輸出的區(qū)域增強的語義特征用于后續(xù)的分類。
2 實驗
2.1 數(shù)據(jù)集與實驗設置
本文在行為識別的三個公開數(shù)據(jù)集上進行實驗。Something-Something V1數(shù)據(jù)集[2] 包含108 499個視頻片段,涵蓋174個動作類別。Something-Something V2數(shù)據(jù)集[2]是對Something-Something V1數(shù)據(jù)集的擴展,它包含220 847個視頻片段,涵蓋174個動作類別,視頻片段的平均時長為4 s。Something-Something 數(shù)據(jù)集是對不同物體執(zhí)行相同動作收集的,更多地通過學習物體的時間特征識別動作類別。Kinetics-400[1]包含300k個視頻片段,涵蓋400個動作類別,視頻片段的平均時長為10 s。Kinetics-400數(shù)據(jù)集是從與日常生活相關的YouTube視頻中收集而來,動作類別與物體和場景特征高度相關。本文按照文獻[5]的方式對這三個數(shù)據(jù)集劃分訓練集和測試集。
在訓練階段,本文使用文獻[4]的稀疏采樣方法,從每個視頻片段中提取T幀(在實驗中,T=8 或T=16)。將視頻幀的較短邊調(diào)整為256,利用中心裁剪和縮放抖動,最終將形狀為 224 ×224 ×3 的裁剪圖片輸入網(wǎng)絡。對于局部-全局時間特征學習模塊中的全局時間記憶模塊,參考文獻[15],設置壓縮后特征通道數(shù)C′=C/16,將通道比例參數(shù)α設置為0.5。區(qū)域語義學習模塊中,將學習的區(qū)域語義卷積核數(shù)量Ch設為8。網(wǎng)絡最后分類層的學習率和權重衰減為stage 2~5的5倍。實驗按照文獻[30]設置超參數(shù),在Something-Something v1和Something-Something v2數(shù)據(jù)集上,將批處理大小、初始學習率、權重衰減和dropout分別設為64、0.02、5E-4和0.5,在Kinetics-400數(shù)據(jù)集上,這些超參數(shù)分別設置為64、0.01、1E-4和0.5。在三個數(shù)據(jù)集上均使用小批量隨機梯度下降作為優(yōu)化器,共訓練50個epoch,并在第30、40、45個epoch將學習率縮減為原本的1/10。
在測試推理階段,本文采用兩種推理策略:
a)策略1(T frames×1 crop×1 clip):從視頻中采樣1個T幀的剪輯,將剪輯中心裁剪為224×224大小。使用該策略可以快速地完成推理。
b)策略2(T frames×3 crops×10 clips):從視頻中均勻采樣10個(Kinetics-400為10個,其他數(shù)據(jù)集為2個)剪輯,每個剪輯包含T幀,每幀以256×256大小進行3次采樣,對所有剪輯的類別分數(shù)取平均值最終得到每個視頻的分類得分。使用該策略可以獲得更精準的分類結果,但由于進行多次采樣,推理速度較慢。
實驗使用一臺服務器,服務器CPU為Intel Core i9-10900X。在訓練階段,使用四張NVIDIA GeForce RTX 3090顯卡。在測試推理階段,使用單張NVIDIA GeForce RTX 3090顯卡。實驗使用Ubuntu 18.04操作系統(tǒng),使用PyTorch框架實現(xiàn)網(wǎng)絡模型。
2.2 對比實驗
表1展示了本文方法在Something-Something V1amp;V2數(shù)據(jù)集上與其他現(xiàn)有先進方法的對比實驗結果,比較內(nèi)容包括不同推理策略下模型計算量(FLOPS)、模型參數(shù)量(Param)與top-1和top-5的分類準確率,—表示該論文未報告此數(shù)據(jù)。SAM-STI[31]使用三維時空注意力增強時間特征,ST-Adapter[32]與TPS[22]為基于Transformer的方法,它們采用自注意力進行長序列的時空建模。與本文相似,STDN[33]與GSF[34]通過改進二維卷積神經(jīng)網(wǎng)絡以增強時空表達能力,SIFA[18]與FMENet[35]通過幀間關系尋求提升識別準確率。STDN引入了時空混合自適應卷積,分別使用通道、時間、空間以及時空聯(lián)合注意力聚合局部和全局特征。GSF通過時空門控機制分解時空交互的特征后分別對時間和空間建模。它們?nèi)鄙賹r間變化區(qū)域的關注。SIFA研究相鄰幀之間的差異,從中獲取局部變形區(qū)域內(nèi)的時間注意力,以此估計物體在不同時刻的偏移,實現(xiàn)相鄰幀行為語義的對齊。FMENet通過幀間差分增加對相關動作區(qū)域的關注,并使用多層感受野對視頻行為的語義進行編碼。但它們?nèi)鄙賹σ曨l幀中全局區(qū)域語義變化的學習。本文提出的區(qū)域級時間變化網(wǎng)絡(RTCNet),使用局部時間注意力增強了局部時間特征,并進一步聚合全局時間區(qū)域特征,使用區(qū)域語義學習構建可變化的卷積核,可變化的卷積核能夠?qū)W習隨時間變化的行為語義特征,最后融合可變化的區(qū)域特征與全局時間區(qū)域特征進行特征增強。從實驗結果看,本文方法取得了明顯的性能上的增益,與現(xiàn)有的方法相比,實現(xiàn)了對多數(shù)方法在Something-Something V1amp;V2數(shù)據(jù)集上分類準確率的超越。
表2展示了在Kinetics-400數(shù)據(jù)集上的對比實驗結果。在使用8幀輸入的模型時,本文方法優(yōu)于FEXNet、T-STFT[36]、GSF等方法。從數(shù)據(jù)集本身的特點來看,Kinetics-400數(shù)據(jù)集以人類為中心,所包含的視頻中,大多是人類相關的行為,包括日常生活行為與一些常見的活動,如刷牙、抓魚等。該數(shù)據(jù)集中的動作類型與場景高度相關,網(wǎng)絡模型可能僅從視頻幀空間背景的外觀特征就可以推斷出動作類型,幀序列之間行為語義變化較小。本文方法主要通過關注視頻幀中的區(qū)域語義變化,從而改進模型在行為識別任務上的性能,因此在Kinetics-400數(shù)據(jù)集上不能完全體現(xiàn)本文方法的優(yōu)勢。但從實驗結果看,本文方法在Kinetics-400數(shù)據(jù)集上仍然優(yōu)于多數(shù)現(xiàn)有的方法,使用推理策略1時,在top-1準確率上,相較于表2中對比的最佳方法提升了0.4百分點,具有良好的表現(xiàn)。
2.3 消融實驗
本節(jié)中,對本文模型進行一系列的消融實驗,驗證模型各個部分的有效性。消融實驗使用Something-Something V1數(shù)據(jù)集,推理策略為策略1(8 frames×1 crop×1 clip),實驗結果報告的均為top-1準確率。
a)本文研究了局部-全局時間特征學習模塊(L-GTFL)、區(qū)域語義學習模塊(RSL)和區(qū)域語義融合模塊(RSF)的有效性。如表3所示,第一行為本文的基準模型。首先對局部-全局時間特征學習模塊中的兩部分進行消融研究,當僅進行局部時間增強(LTE)時,由于缺少對全局特征的關注,最終效果增益并不明顯,而從第3、4行可以看出,全局時間記憶(GTM)對分類準確率的提升十分顯著,這是由于視頻是由一系列幀組成的序列特征,全局建模對于序列特征是非常必要的,忽略全局時間特征會對最終視頻行為類別的判定有很大影響。在添加區(qū)域語義學習模塊后,模型能夠從全局時間區(qū)域特征中更加充分地學習視頻幀序列中的時間變化,因此準確率也有較大的提升,最后的區(qū)域語義融合則進一步增強了可變區(qū)域特征與全局時間特征。實驗表明,本文提出的各模塊對行為識別的準確率均有所增益。
b)表4展示了局部-全局時間特征學習模塊中不同通道劃分比例α對模型分類準確率、計算量和參數(shù)量的影響。α將特征分為兩部分,第一部分輸入到ConvLSTM中用于捕獲長期語義變化,第二部分直接保留局部時間增強特征。α=1的模型將所有特征通道輸入到ConvLSTM,當使用α=0.5的模型,計算量降低至37 GFLOPs,分類準確率與α=1的模型相近,為49.7%。而α=0.25的模型準確率/計算量降低至49.3%/32 G。該實驗說明全局時間區(qū)域特征對于識別視頻幀序列中的長期語義變化是重要的,當輸入的特征比例過少時,網(wǎng)絡不能充分捕獲長時間視頻幀序列的時間變化區(qū)域,從而影響整個行為類別的識別準確率,但當使用全部特征作為輸入時,模型計算量與參數(shù)量迅速增長,不利于訓練優(yōu)化。因此,為權衡模型的性能與計算量大小,本文設置α=0.5作為最終的比例參數(shù)。
c)表5展示了局部-全局時間特征學習模塊對區(qū)域時間變化學習的影響,將其逐步插入到已添加區(qū)域語義學習模塊和區(qū)域語義融合模塊的網(wǎng)絡模型的stage2~5中,探究該模塊的作用。從表5可知,當不插入該模塊時,由于缺乏對局部特征的增強與聚合,區(qū)域語義學習和區(qū)域語義融合無法有效地學習區(qū)域特征的時間變化,分類準確率僅為47.8%。而僅在stage 2插入該模塊時,區(qū)域語義學習和區(qū)域語義融合可以從全局時間區(qū)域特征中學習,此時識別準確率有了明顯提升,當將該模塊繼續(xù)插入到其他階段時,識別準確率逐步提升,最終達到49.7%的最佳水平。
2.4 可視化分析
圖7展示了本文不同模型與其他模型的可視化結果對比。使用輸入為8幀的模型,以熱圖[37]的形式可視化顯著性區(qū)域,用模型stage 5的輸出特征估計熱圖區(qū)域的分數(shù)。
圖7中,從上至下分別為原始視頻幀、TSM[5]熱圖、僅使用局部-全局時間特征學習模塊(L-GTFL)的模型熱圖、同時使用區(qū)域語義學習模塊(RSL)和區(qū)域語義融合模塊(RSF)的模型熱圖以及完整的區(qū)域級時間變化網(wǎng)絡(RTCNet)的熱圖。從行為類別為“抬起某物的一端,然后讓它掉下來”的視頻集合中選取一個樣例進行說明。該行為具有明顯的兩階段,包含了兩種行為語義,分別為“把某物抬起來”和“某物掉落下去”。TSM關注到“把某物抬起來”這一語義的相關幀,忽略了“某物掉落下去”,因而將動作誤判為類別“抬起上面有東西的某物”。僅使用L-GTFL的模型在全部的幀序列中感知動作變化,能夠在熱圖中明顯看到含有動作語義“把某物抬起來”的相關幀熱區(qū)覆蓋范圍進一步擴大,但仍然未捕獲到“某物掉落下去”的動作,導致將動作誤判為“舉起某物的一端而不讓它下降”。同時使用RSL與RSF的模型通過學習相鄰幀之間的區(qū)域語義變化,逐漸開始捕捉動作語義“某物掉落下去”的相關特征。本文提出的完整模型RTCNet則增強了對最后兩幀的特征學習,能夠正確地判定行為類別。
3 結束語
本文針對視頻幀序列中的區(qū)域特征學習,提出了一個區(qū)域級時間變化網(wǎng)絡。該網(wǎng)絡通過局部時間增強解決了相鄰幀之間微小運動容易被忽略的問題,并將增強后特征聚合為全局時間特征表示,解決了難以學習長序列視頻幀特征的問題,通過引入可變化的區(qū)域語義卷積核,可以在全局范圍內(nèi)學習區(qū)域的時間變化,并通過雙分支通道注意力進一步融合變化特征與全局時間特征。本文方法在Something-Something V1amp;V2和Kinetics-400數(shù)據(jù)集上分別取得了53.6%、66.1%、75.8%的top-1準確率,具有良好的性能。
參考文獻:
[1]Kay W, Carreira J, Simonyan K,et al. The kinetics human action video dataset[EB/OL]. (2017-05-19). https://arxiv.org/abs/1705.06950.
[2]Goyal R, Ebrahimi K S, Michalski V, et al. The “something something” video database for learning and evaluating visual common sense[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2017: 5842-5850.
[3]廖越, 李智敏, 劉偲. 基于深度學習的人—物交互關系檢測綜述[J]. 中國圖象圖形學報, 2022, 27(9): 2611-2628. (Liao Yue, Li Zhimin, Liu Si. A review of deep learning based human-object interaction detection[J]. Journal of Image and Graphics, 2022, 27(9): 2611-2628.)
[4]Wang Limin, Xiong Yuanjun, Wang Zhe, et al. Temporal segment networks: towards good practices for deep action recognition[C]//Proc of European Conference on Computer Vision. Berlin: Springer, 2016: 20-36.
[5]Lin Ji, Gan Chuang, Han Song. TSM: temporal shift module for efficient video understanding[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 7083-7093.
[6]Liu Zhaoyang, Luo Donghao, Wang Yabiao, et al. TEINet: towards an efficient architecture for video recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:11669-11676.
[7]Wang Jinpeng, Lin Yiqi, Zhang Manlin, et al. Multi-level temporal dilated dense prediction for action recognition[J]. IEEE Trans on Multimedia, 2021, 24: 2553-2566.
[8]梁緒, 李文新, 張航寧. 人體行為識別方法研究綜述[J]. 計算機應用研究, 2022, 39(3): 651-660. (Liang Xu, Li Wenxin, Zhang Hangning. Review of research on human action recognition methods[J]. Application Research of Computers, 2022, 39(3): 651-660.)
[9]Jiang Boyuan, Wang Mengmeng, Gan Weihao, et al. STM: spatio-temporal and motion encoding for action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 2000-2009.
[10]Wang Limin, Tong Zhan, Ji Bin, et al. TDN: temporal difference networks for efficient action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 1895-1904.
[11]Wang Heng, Tran D, Torresani L, et al. Video modeling with correlation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 352-361.
[12]Wang Yulin, Yue Yang, Lin Yuanze, et al. AdaFocus v2: end-to-end training of spatial dynamic networks for video recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Reco-gnition. Piscataway, NJ: IEEE Press, 2022: 20030-20040.
[13]Shen Zhongwei, Wu Xiaojun J, Xu Tianyang. FEXNet: foreground extraction network for human action recognition[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32(5): 3141-3151.
[14]Liu Zhaoyang, Wang Limin, Wu Wayne, et al. TAM: temporal adaptive module for video recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13708-13718.
[15]Li Yan, Ji Bin, Shi Xintian, et al. TEA: temporal excitation and aggregation for action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 909-918.
[16]Wu Mingyu, Jiang Boyuan, Luo Donghao, et al. Learning comprehensive motion representation for action recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 2934-2942.
[17]Xu Haotian, Jin Xiaobo, Wang Qiufeng, et al. Exploiting attention-consistency loss for spatial-temporal stream action recognition[J]. ACM Trans on Multimedia Computing, Communications, and Applications, 2022, 18(2s): 1-15.
[18]Long Fuchen, Qiu Zhaofan, Pan Yingwei, et al. Stand-alone inter-frame attention in video models[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 3192-3201.
[19]Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 6299-6308.
[20]Li Xianhang, Wang Yali, Zhou Zhipeng, et al. SmallBigNet: integrating core and contextual views for video classification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 1092-1101.
[21]Bertasius G, Wang H, Torresani L. Is space-time attention all you need for video understanding?[EB/OL]. (2021-02-09). https://arxiv.org/abs/2102.05095.
[22]Xiang Wangmeng, Li Chao, Wang Biao, et al. Spatio-temporal self-attention modeling with temporal patch shift for action recognition[C]//Proc of European Conference on Computer Vision. Berlin: Springer, 2022: 627-644.
[23]雷永升, 丁錳, 李居昊, 等. 基于改進雙流視覺Transformer的行為識別模型[J/OL]. 計算機科學. (2023-10-11)[2024-01-05]. http://kns.cnki.net/kcms/detail/50.1075.TP.20231010.1104.016.html. (Lei Yongsheng, Ding Meng, Li Juhao, et al. Action re-cognition model based on improved two stream vision transformer[J/OL]. Computer Science. (2023-10-11)[2024-01-05]. http://kns.cnki.net/kcms/detail/50.1075.TP.20231010.1104.016.html.)
[24]Kumar A, Kumar A, Vineet V, et al. Benchmarking self-supervised video representation learning[EB/OL]. (2023-06-09). https://arxiv.org/abs/2306.06010.
[25]包震偉, 劉丹, 米金鵬. 弱監(jiān)督與少樣本學習場景下視頻行為識別綜述[J]. 計算機應用研究, 2023, 40(6): 1629-1635. (Bao Zhenwei, Liu Dan, Mi Jinpeng. Review of video action recognition under weak supervision and few-shot learning[J]. Application Research of Computers, 2023,40(6): 1629-1635.)
[26]Shi Xingjian, Chen Zhourong, Wang Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 802-810.
[27]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.
[28]Li Yehao, Yao Ting, Pan Yingwei, et al. Contextual transformer networks for visual recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(2): 1489-1500.
[29]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[30]Xie Zhao, Chen Jiansong, Wu Kewei, et al. Global temporal diffe-rence network for action recognition[J]. IEEE Trans on Multimedia, 2022, 25: 7594-7606.
[31]Fu Jie, Gao Junyu, Xu Changsheng. Learning semantic-aware spatial-temporal attention for interpretable action recognition[J]. IEEE Trans on Circuits and Systems for Video Technology, 2021, 32(8): 5213-5224.
[32]Pan Junting, Lin Ziyi, Zhu Xiatian, et al. ST-Adapter: parameter-efficient image-to-video transfer learning[J]. Advances in Neural Information Processing Systems, 2022, 35: 26462-26477.
[33]Li Wei, Gong Weijun, Qian Yurong, et al. STAM: a spatio-temporal adaptive module for improving static convolutions in action recognition[J/OL]. The Visual Computer.(2023-12-07). https://doi.org/10.1007/s00371-023-03165-6.
[34]Sudhakaran S, Escalera S, Lanz O. Gate-shift-fuse for video action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2023, 2023(1): 1-16.
[35]Gao Xiong, Chang Zhaobin, Li Yande, et al. Fine-gained motion enhancement for action recognition: focusing on action-related regions[J]. Displays, 2023, 80: 102569.
[36]Kumawat S, Verma M, Nakashima Y, et al. Depthwise spatio-temporal STFT convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2021, 44(9): 4839-4851.
[37]Stergiou A, Kapidis G, Kalliatakis G, et al. Saliency tubes: visual explanations for spatio-temporal convolutions[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2019: 1830-1834.