張紅穎,安 征
(中國民航大學(xué)電子信息與自動(dòng)化學(xué)院,天津300300)
人體行為識(shí)別作為視頻理解的關(guān)鍵部分,一直以來都是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),在視頻監(jiān)控、虛擬現(xiàn)實(shí)、智能人機(jī)界面和社交視頻推薦等領(lǐng)域有很高的應(yīng)用價(jià)值[1-3],由于現(xiàn)實(shí)場(chǎng)景中存在著復(fù)雜背景、對(duì)象的外觀差異和不同類別行為的相似性等問題,使行為識(shí)別仍然是一個(gè)具有挑戰(zhàn)性的課題[4]。
視頻行為識(shí)別主要可以分為基于手工設(shè)計(jì)特征的方法[5]和基于深度學(xué)習(xí)的方法[6],而后者展現(xiàn)出了更好的性能,其中雙流卷積網(wǎng)絡(luò)[7-9]的方法能夠有效地在視頻中提取表觀信息和運(yùn)動(dòng)信息,在行為識(shí)別任務(wù)中取得了較好的識(shí)別效果,但是仍存在難以有效利用視頻中的時(shí)空信息的問題。為此,研究學(xué)者們提出了多種改進(jìn)方法,在網(wǎng)絡(luò)輸入方面,Bilen等[10]在保留次序信息的條件下將視頻序列壓縮為動(dòng)態(tài)圖,將其作為深度網(wǎng)絡(luò)的輸入,從而提取視頻中的時(shí)序信息,但是動(dòng)態(tài)圖的生成帶來了復(fù)雜的計(jì)算過程;在網(wǎng)絡(luò)結(jié)構(gòu)方面,F(xiàn)eichtenhofer等[11]等使用殘差網(wǎng)絡(luò)構(gòu)建雙流網(wǎng)絡(luò)模型,并提出在兩個(gè)卷積流之間加入短連接,以增強(qiáng)雙流網(wǎng)絡(luò)間的信息交互;在網(wǎng)絡(luò)融合方面,文獻(xiàn)[12]在隱藏層中間對(duì)兩個(gè)網(wǎng)絡(luò)融合,使網(wǎng)絡(luò)學(xué)習(xí)時(shí)間域特征和空間域特征的像素間關(guān)系,并提出了多種融合方式。雖然以上三個(gè)方面的改進(jìn)能夠使雙流網(wǎng)絡(luò)更好的利用視頻中的時(shí)空間信息,提高了行為識(shí)別準(zhǔn)確率,但是仍存在著無法捕捉視頻序列中時(shí)序關(guān)系的問題。此外,基于三維卷積神經(jīng)網(wǎng)絡(luò)的方法[13]在人體行為識(shí)別中也有不俗的表現(xiàn),但參數(shù)和計(jì)算量會(huì)大大增加。因此,Lin等[14]提出了一種時(shí)間移位思想(Temporal Shift Module,TSM),使用二維卷積神經(jīng)網(wǎng)絡(luò)提取視頻中的時(shí)序信息,但降低了網(wǎng)絡(luò)的空間特征學(xué)習(xí)能力。
綜合上述分析,本文提出了一種基于改進(jìn)雙流時(shí)空網(wǎng)絡(luò)的人體行為識(shí)別算法。受時(shí)間移位思想的啟發(fā),構(gòu)建了一個(gè)包含時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流的雙流網(wǎng)絡(luò)結(jié)構(gòu),提取包含時(shí)序關(guān)系信息的行為表觀特征和運(yùn)動(dòng)特征,從而提高對(duì)時(shí)序依賴較大行為識(shí)別的辨識(shí)能力。然而由于時(shí)間移位模塊的加入使網(wǎng)絡(luò)的空間特征學(xué)習(xí)能力下降,為解決此問題,將卷積注意力機(jī)制[15]加入到卷積神經(jīng)網(wǎng)絡(luò),通過在通道和空間上將學(xué)習(xí)到的注意力特征圖與網(wǎng)絡(luò)中生成的特征圖進(jìn)行加權(quán),加大對(duì)局部細(xì)節(jié)信息的關(guān)注,從而提高網(wǎng)絡(luò)的特征學(xué)習(xí)和表達(dá)能力,最后對(duì)兩個(gè)流的輸出類別得分進(jìn)行加權(quán)平均融合,得到最終的識(shí)別結(jié)果。
本文提出的基于改進(jìn)雙流時(shí)空網(wǎng)絡(luò)(Improved Two-stream Spatiotemporal Convolutional Neural Network,ITS-CNN)的人體行為識(shí)別算法的整體結(jié)構(gòu)如圖1所示,分為視頻分段隨機(jī)采樣、改進(jìn)雙流時(shí)空網(wǎng)絡(luò)和雙流融合三部分。首先對(duì)輸入視頻進(jìn)行分段隨機(jī)采樣,然后將采樣得到的RGB視頻幀和一組光流圖像(x方向和y方向)送入改進(jìn)雙流時(shí)空網(wǎng)絡(luò),得到視頻在時(shí)空表觀信息 流(Spatiotemporal Apparent Information Flow,SAI-flow)和時(shí)空運(yùn)動(dòng)信息流(Spatiotemporal Motion Information Flow,SMI-flow)上的初始類別得分,最后采用加權(quán)平均的方式對(duì)初始類別得分進(jìn)行融合,經(jīng)過Softmax得到最終的識(shí)別結(jié)果。
現(xiàn)有雙流網(wǎng)絡(luò)的方法在短時(shí)行為的識(shí)別中取得了較好的效果,但是由于只能從單張RGB視頻幀(空間流)和堆疊光流圖像(時(shí)間流)中學(xué)習(xí)表觀特征和運(yùn)動(dòng)特征,因此在對(duì)時(shí)間跨度較長的行為識(shí)別過程中會(huì)丟失部分重要信息,導(dǎo)致學(xué)習(xí)到的特征不能準(zhǔn)確的代表整個(gè)行為,從而對(duì)長時(shí)行為難以準(zhǔn)確識(shí)別。為此采用視頻分段隨機(jī)采樣策略,實(shí)現(xiàn)對(duì)整段行為視頻的有效學(xué)習(xí),同時(shí)稀疏采樣的方式減少了視頻中的冗余信息。具體地,將輸入視頻分成時(shí)間長度相等的K段{S1,S2,···,SK},然后對(duì)片段序列按如下方式進(jìn)行建模:
其中:使用下標(biāo)α和β區(qū)分時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流。Ti表示從對(duì)應(yīng)的視頻片段Si(i=1,2,···,K)中隨機(jī)采樣得到的片段序列,Tαi為視頻幀,Tβi為光流圖像;Pα和Pβ為計(jì)算Tαi和Tβi屬于每個(gè)類別得分的函數(shù),Wα和Wβ為時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流的網(wǎng)絡(luò)參數(shù);g是一個(gè)融合函數(shù),對(duì)所有Ti屬于同一類別的得分取平均值;Hα和Hβ分別為時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流的類別得分;λ和μ為雙流融合比例系數(shù);δ為Softmax函數(shù),用于預(yù)測(cè)整段視頻屬于每個(gè)行為類別的概率,將概率最高的類別判斷為該視頻的所屬行為。
此外,K段(文中將K取為3)之間的網(wǎng)絡(luò)參數(shù)共享,結(jié)合標(biāo)準(zhǔn)交叉熵?fù)p失,最終的損失函數(shù)為:
其中:C為行為類 別個(gè)數(shù),H=g(P(T1;W),P(T2;W),···,P(Tk;W)),yi為第i類行為的真實(shí)標(biāo)簽,Hi為第i類行為的分類得分。文中改進(jìn)雙流網(wǎng)絡(luò)的學(xué)習(xí)是一個(gè)非端到端的過程,即分別對(duì)兩個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練及測(cè)試,再對(duì)兩個(gè)網(wǎng)絡(luò)進(jìn)行融合。
結(jié)合標(biāo)準(zhǔn)反向傳播算法,利用多個(gè)片段來聯(lián)合優(yōu)化網(wǎng)絡(luò)參數(shù)W,在反向傳播過程中,網(wǎng)絡(luò)參數(shù)W相對(duì)于損失值L的梯度可以表示為:
2.3.1 時(shí)間移位模塊
視頻流的飛速增長給視頻理解帶來了巨大挑戰(zhàn),處理海量的視頻就要求以較低計(jì)算成本實(shí)現(xiàn)較高的精度。目前三維卷積在提取時(shí)空特征時(shí)具有良好的性能,但是由于計(jì)算密集,使得其部署成本昂貴。為此,Lin提出了一種具有高效率和高性能的時(shí)間移位模塊(Temporal Shift Module,TSM)[14],它能夠以二維卷積的復(fù)雜性實(shí)現(xiàn)類似于三維卷積的性能。
圖1 本文算法整體流程圖Fig.1 Overall structure of algorithm in this paper
時(shí)間移位模塊將卷積過程解耦為兩個(gè)步驟:分別為數(shù)據(jù)移動(dòng)(shift)和乘累加(multiply-accurate)。其中卷積運(yùn)算操作Y=Conv(W,X)可以表示為:Y=ω1Xi-1+ω2Xi+ω3Xi+1,卷積權(quán)重W=(ω1,ω2,ω3),輸入X是一個(gè)不定長度的一維向量。如圖2所示,在時(shí)間維度上對(duì)部分通道進(jìn)行-1,0,+1的數(shù)據(jù)移動(dòng),使來自相鄰幀的信息在移動(dòng)后與當(dāng)前幀的信息混合,從而實(shí)現(xiàn)對(duì)視頻的時(shí)序建模,在形式上可以表示為X-1i=Xi-1,X0i=Xi,X+1i=Xi+1;再分別乘以權(quán)重(ω1,ω2,ω3),得到Y(jié)=ω1X-1+ω2X0+ω3X+1。第一步shift可以在沒有任何乘法的情況下進(jìn)行,但是第二步乘累加的計(jì)算成本較高,為了不添加額外參數(shù)和計(jì)算成本,TSM將multiply-accurate合并到卷積神經(jīng)網(wǎng)絡(luò)中,因此不會(huì)添加額外的計(jì)算量。
圖2 時(shí)間移位操作Fig.2 Temporal shift module operation
一個(gè)視頻模型中的特征映射可以表示為:A∈RN×C×T×H×W,其中N為批量大小,C為通道數(shù),T是時(shí)間維度,H和W為空間分辨率。二維卷積在時(shí)間維度T上單獨(dú)工作,各通道的信息獨(dú)立存在,因此不具有時(shí)序建模能力。為此,本文引入TSM[14]模塊,通過沿著時(shí)間維度T向前和向后移動(dòng)部分通道,使來自相鄰片段序列的圖像(在時(shí)空表觀信息流中為RGB視頻幀,在時(shí)空運(yùn)動(dòng)信息流中為光流圖像)的通道信息混合,實(shí)現(xiàn)對(duì)視頻時(shí)序關(guān)系的建模,從而提取包含時(shí)序信息的行為表觀特征和運(yùn)動(dòng)特征。
2.3.2 卷積注意力模塊
為了解決時(shí)間移位帶來的空間特征學(xué)習(xí)能力下降的問題,本文引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[15],通過在通道和空間維度應(yīng)用通道注意力和空間注意力使網(wǎng)絡(luò)學(xué)習(xí)到視頻圖像中關(guān)鍵的局部細(xì)節(jié)信息,從而增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)與表達(dá)能力。
CBAM的結(jié)構(gòu)如圖3所示,給定一個(gè)中間特征映射F∈RC×H×W作為輸入,依次輸入一維通道注意力映射Mc∈RC×1×1和二維空間注意力映射Ms∈R1×H×W,總體注意力的計(jì)算過程可以概括為:
其中:?表示元素乘法,在乘法期間,注意力值相應(yīng)地被廣播,通道注意值沿著空間維度廣播,空間注意值沿著通道維度廣播,F(xiàn)″是最終的精確輸出。
通道注意力模塊使用全局最大和平均池化,聚合特征映射的空間信息,以生成兩個(gè)不同的空間上下文描述然后使用由多層感知器(Multi-Layer Perceptron,MLP)組成的共享網(wǎng)絡(luò)對(duì)這兩個(gè)不同的空間上下文描述進(jìn)行計(jì)算得到通道注意力特征映射Mc∈RC×1×1,具體計(jì)算過程如式(7)所示.
圖3 CBAM模塊Fig.3 Convolutional block attention module
其 中:σ表 示Sigmoid函 數(shù),W0∈RC/r×C,W1∈RC/r×C,r為約簡比;MLP的權(quán)值W0和W1對(duì)于兩個(gè)輸入都是共享的,并且在W0后面接Re-LU激活函數(shù)。
空間注意力模塊將通道注意力模塊輸出的特征映射作為此模塊的輸入,在通道維度使用全局最大和平均池化,得到兩個(gè)不同的特征描述:然后通過級(jí)聯(lián)的方式將兩個(gè)特征描述符合并,并使用卷積操作生成空間注意力特征映射MS(F)∈R1×H×W,空間注意力的計(jì)算過程為:
其中:σ表示Sigmoid函數(shù),f7×7表示卷積核大小為7×7的卷積運(yùn)算。
2.3.3 網(wǎng)絡(luò)結(jié)構(gòu)
時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流的具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,兩個(gè)流均以ResNet50[16]為基礎(chǔ)網(wǎng)絡(luò),采用殘差移位(residual shift)的方式將TSM添加到殘差塊(residual block)中,將CBAM在時(shí)空表觀信息流放置到殘差塊中,在時(shí)空運(yùn)動(dòng)信息流引入到最后一個(gè)卷積層后的位置,在實(shí)驗(yàn)中發(fā)現(xiàn)這種效果最好。分析原因可能是殘差移位的方式能夠使網(wǎng)絡(luò)更好的捕捉時(shí)序信息,而且在一定程度上緩解了由于捕捉時(shí)序信息而帶來的空間特征學(xué)習(xí)能力退化的問題。由于時(shí)空表觀信息流輸入的RGB視頻幀包含復(fù)雜的場(chǎng)景信息,將CBAM加入到殘差塊中對(duì)特征校準(zhǔn)能夠使網(wǎng)絡(luò)學(xué)習(xí)到更加精準(zhǔn)的空間表觀特征。在時(shí)空運(yùn)動(dòng)信息流中,由于輸入的光流圖像中只包含人體運(yùn)動(dòng)信息,采用原有網(wǎng)絡(luò)便能完成特征提取,使用CBAM對(duì)高層次特征進(jìn)行微調(diào)能夠使網(wǎng)絡(luò)獲取更精準(zhǔn)的特征表達(dá)。
圖4 改進(jìn)雙流時(shí)空網(wǎng)絡(luò)Fig.4 Improved two-stream convolution neural network
在UCF101[17]和HMDB51[18]數(shù)據(jù)集上對(duì)所提出算法進(jìn)行評(píng)估,并將實(shí)驗(yàn)結(jié)果與當(dāng)前主流的行為識(shí)別算法相比較以驗(yàn)證有效性。UCF101中的數(shù)據(jù)主要是來自YouTube的現(xiàn)實(shí)視頻,包含相機(jī)運(yùn)動(dòng)、復(fù)雜場(chǎng)景、光照變化、遮擋、視頻畫質(zhì)模糊等影響因素,包含101種行為類別,共有13 320段視頻組成,根據(jù)視頻中的行為類型可以劃分為5種:人與人交互、人與物品對(duì)象交互、身體運(yùn)動(dòng)、樂器演奏和體育運(yùn)動(dòng)項(xiàng)目。HMDB51主要由電影片段構(gòu)成,共包含6 766段視頻,共51個(gè)行為類別,每類至少包含100段視頻,包含的類別有單人行為、面部表情和操縱對(duì)象行為、人與人交互的行為、人與物交互等。根據(jù)兩個(gè)數(shù)據(jù)集官方提供的方式劃分3組訓(xùn)練集和測(cè)試集,將在3種劃分方式的測(cè)試集上得到的識(shí)別準(zhǔn)確率取平均值作為本文算法的最終識(shí)別結(jié)果。
實(shí)驗(yàn)在Ubuntu18.04系統(tǒng)下基于PyTorch 1.4.0+CUDA10.0+cudnn7.6.5實(shí)現(xiàn),計(jì)算機(jī)配置為Intel Xeon(R)Sliver 4112 CPU 2.6 GHz,NVIDA GeForce 2080Ti顯卡。采用小批量隨機(jī)梯度下降法,動(dòng)量為0.9。根據(jù)計(jì)算機(jī)的內(nèi)存大小和GPU利用率,將批量大小設(shè)置為8。初始學(xué)習(xí)率為0.001,訓(xùn)練25 epoch,每經(jīng)過10個(gè)epoch衰減一次,衰減率為0.1。光流圖像采用OpenCV庫中的TVL1,結(jié)合denseflow工具庫和GPU計(jì)算得到。
由于實(shí)驗(yàn)所用數(shù)據(jù)集容量較小,為避免在訓(xùn)練過程中出現(xiàn)過擬合,網(wǎng)絡(luò)采用在ImageNet+Kinetics行為數(shù)據(jù)庫上訓(xùn)練的權(quán)重初始化,利用角落裁剪和多尺度裁剪方法進(jìn)行數(shù)據(jù)增廣,對(duì)隨機(jī)采樣得到的340×256的圖像進(jìn)行裁剪。在角落裁剪中,對(duì)圖像從中心和4個(gè)對(duì)角裁剪為224×224大?。辉诙喑叨炔眉糁?,從中心和4個(gè)對(duì)角上分別從{168,192,224,256}中隨機(jī)抽取兩個(gè)值作為圖像的寬度和高度進(jìn)行裁剪,再將像素調(diào)整為224×224大小。此外凍結(jié)除第一層外其他卷積層的BN中的均值和方差參數(shù)。測(cè)試時(shí)對(duì)每個(gè)視頻段進(jìn)行兩次采樣,每次采樣8組RGB幀或光流圖像,將采樣圖像縮放后裁剪左右邊角和中心,使用具有較短邊為256像素的全分辨率圖像進(jìn)行測(cè)試評(píng)估。
為了驗(yàn)證時(shí)間移位模塊和卷積注意力模塊兩者在改進(jìn)雙流時(shí)空網(wǎng)絡(luò)中的相對(duì)重要性,進(jìn)行了如下消融實(shí)驗(yàn):
為了驗(yàn)證時(shí)間移位模塊的有效性,對(duì)加入該模塊前后本文算法在UCF101(split1)和HMDB51(split1)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率進(jìn)行比較,將分段數(shù)K設(shè)置為3,按照時(shí)間移位模塊的原始參數(shù)設(shè)置將移位比例倒數(shù)設(shè)置為8,實(shí)驗(yàn)結(jié)果如表1所示。
由表1結(jié)果可知,加入TSM模塊后時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流在UCF101上的識(shí)別準(zhǔn)確率分別提高了4.0%和3.6%,在HMDB51上分別提高了7.7%和2.4%。
表1 加入TSM前后準(zhǔn)確率對(duì)比Tab.1 Comparison of accuracy after adding TSM(%)
在實(shí)驗(yàn)結(jié)果中發(fā)現(xiàn)有些行為的識(shí)別準(zhǔn)確率出現(xiàn)了上升,而有些則出現(xiàn)了下降,為了便于分析,選取了準(zhǔn)確率上升和下降幅度最大的5個(gè)行為,其類別名稱及準(zhǔn)確率變化情況如表2所示。
表2 加入TSM后準(zhǔn)確率變化前5的行為Tab.2 Top 5 actions that change accuracy after adding TSM (%)
分析出現(xiàn)上述現(xiàn)象的原因可能是時(shí)間移位模塊加入后,卷積神經(jīng)網(wǎng)絡(luò)能夠提取到視頻中的時(shí)空信息,但是在捕獲時(shí)序信息的同時(shí)損失了一些空間特征學(xué)習(xí)能力,導(dǎo)致對(duì)空間場(chǎng)景信息依賴大的行為辨識(shí)效果下降,如在Baseball Pitch和Tennis Swing中,依靠場(chǎng)景中的棒球場(chǎng)和網(wǎng)球場(chǎng)就能夠得到較好的識(shí)別結(jié)果,而加入TSM后識(shí)別準(zhǔn)確率出現(xiàn)了下降。但是Jump Rope,Jumping Jack,High Jump等對(duì)時(shí)序信息的依賴性較強(qiáng),其準(zhǔn)確率的提升證明了通過引入時(shí)間移位模塊來使卷積神經(jīng)網(wǎng)絡(luò)提取行為視頻中的時(shí)空信息是可行的。
為了驗(yàn)證CBAM的有效性,在相同實(shí)驗(yàn)設(shè)置下與ResNet50和ResNet50+TSM進(jìn)行了對(duì)比測(cè)試,實(shí)驗(yàn)結(jié)果如表3所示,當(dāng)采用方式(c)和 (a)連接時(shí)得到了最好的識(shí)別結(jié)果。
表3 不同主干網(wǎng)絡(luò)下的識(shí)別準(zhǔn)確率Tab.3 Recognition accuracy under different networks (%)
表4 所示為加入卷積注意力模塊后準(zhǔn)確率提升最大的十個(gè)行為及其提高量,由結(jié)果可知,對(duì)Baseball Pitch,Shaving Beard,Tennis Swing,Kick Ball和Ride Horse等行為的識(shí)別準(zhǔn)確率都有了較大提升,在一定程度上解決了由于TSM的引入而帶來的空間特征學(xué)習(xí)能力下降的問題。同時(shí)對(duì)Laugh,Drink,Throw,Catch等面部和手部局部運(yùn)動(dòng)的行為以及Climb Stairs和Climb、Throw和Catch等相似行為的識(shí)別更加準(zhǔn)確,證明本文提出的結(jié)合注意力機(jī)制的方法能夠增強(qiáng)網(wǎng)絡(luò)的特征學(xué)習(xí)和表達(dá)能力,使網(wǎng)絡(luò)學(xué)習(xí)到更加精細(xì)的行為特征,提高了對(duì)近似行為的識(shí)別能力。
表4 加入注意力模塊后準(zhǔn)確率提升前10的行為Tab.4 Top 10 actions that increase accuracy after adding CBAM (%)
最后對(duì)時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)信息流的分類得分進(jìn)行加權(quán)平均融合,通過實(shí)驗(yàn)尋找最優(yōu)的比例系數(shù),由于在時(shí)空運(yùn)動(dòng)信息流上的準(zhǔn)確率更高,因此嘗試給其更大的權(quán)重系數(shù),由表5可知,當(dāng)融合比例為1:1.8時(shí)準(zhǔn)確率不再上升,此時(shí)得到了最高的平均準(zhǔn)確率。
為了體現(xiàn)本文算法在識(shí)別準(zhǔn)確率方面的優(yōu)勢(shì),選取UCF101和HMDB51數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),將本文算法與現(xiàn)有主流人體行為識(shí)別算法進(jìn)行比較,各算法在上述兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率如表6所示。
由表6可知,本文算法的識(shí)別準(zhǔn)確率較現(xiàn)有人體行為識(shí)別算法具有一定的優(yōu)勢(shì)。分析原因在于文中提出的改進(jìn)雙流時(shí)空網(wǎng)絡(luò)能夠有效利用視頻中的時(shí)序關(guān)系信息和空間信息,提高了對(duì)時(shí)序依賴較大行為的識(shí)別能力,以及增強(qiáng)了網(wǎng)絡(luò)學(xué)習(xí)空間局部細(xì)節(jié)特征的能力,對(duì)相似行為能夠更好地辨識(shí),從而提升了識(shí)別準(zhǔn)確率。
表6 不同算法的識(shí)別準(zhǔn)確率對(duì)比Tab.6 Comparison accuracy of different algorithms(%)
本文提出了一種基于改進(jìn)雙流時(shí)空網(wǎng)絡(luò)的人體行為識(shí)別算法,通過結(jié)合時(shí)間移位思想與注意力機(jī)制,構(gòu)建了一個(gè)包含時(shí)空表觀信息流和時(shí)空運(yùn)動(dòng)的信息流的雙流網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了對(duì)視頻中時(shí)間特征和空間特征的有效提取,同時(shí)采用卷積注意力模塊在通道和空間上強(qiáng)調(diào)關(guān)鍵細(xì)節(jié)特征,增強(qiáng)了網(wǎng)絡(luò)的特征表達(dá)能力,從而提高了對(duì)時(shí)序關(guān)系依賴較大行為和相似行為的辨識(shí)能力,實(shí)驗(yàn)結(jié)果證明:本文算法在人體行為識(shí)別數(shù)據(jù)集UCF101和HMDB51上的識(shí)別準(zhǔn)確率分別為96.3%和77.7%,相比已有算法取得了更高的識(shí)別準(zhǔn)確率。為進(jìn)一步提升算法的識(shí)別性能,今后還可以從構(gòu)建端到端的雙流網(wǎng)絡(luò)的角度進(jìn)行改進(jìn)。