王昊飛 李俊峰
摘? 要:針對ResNeXt網(wǎng)絡(luò)(殘差網(wǎng)絡(luò))中存在的對特征提取不充分,以及數(shù)據(jù)集中背景信息干擾的問題,將ResNeXt網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合,提出了一種基于注意力機(jī)制的ResNeXt模型。首先,在ResNeXt網(wǎng)絡(luò)的基礎(chǔ)上,將淺層和深層的特征融合生成新型網(wǎng)絡(luò)結(jié)構(gòu)。其次,將全連接層由全局平均池化層替代,然后在通道空間注意力機(jī)制中添加一個(gè)條件因子,同時(shí)將改進(jìn)后的注意力機(jī)制嵌入上述網(wǎng)絡(luò)中。最后,在UCF101和HMDB51上分別進(jìn)行實(shí)驗(yàn),得到了95.2%和65.6%的準(zhǔn)確率。研究表明,本文提出的模型可以有效地提取關(guān)鍵特征,充分利用不同層次的特征信息獲得較好的準(zhǔn)確率。
關(guān)鍵詞:人體行為識(shí)別;注意力機(jī)制;ResNeXt;全局平均池化
中圖分類號(hào):TP183? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Human Action Recognition Method based on Attention
Mechanism and Improved ResNeXt Network
WANG Haofei, LI Junfeng
(Faculty of Mechanical Engineering & Automation, Zhejiang Sci-Tech University, Hangzhou 310018, China)
haofeiwang@yeah.net; ljf2003zz@163.com
Abstract: Aiming at problems of insufficient feature extraction in ResNeXt network and background information interference in the dataset, this paper proposes a ResNeXt model based on attention mechanism, which combines the ResNeXt network and attention mechanism. First, based on ResNeXt network, shallow and deep features are merged to generate a new network structure. Second, the fully connected layer is replaced by a global average pooling layer. Then channel attention mechanism is improved by adding a condition factor. At the same time, the improved attention mechanism is embedded in the above-mentioned network. Finally, experiments are performed on UCF101 and HMDB51 respectively, and the accuracy rates of 95.2% and 65.6% are obtained. Experiments show that the proposed model can effectively extract key features, and make full use of feature information of different layers to achieve better accuracy.
Keywords: human action recognition; attention mechanism; ResNeXt network; global average pooling
1? ?引 言(Introduction)
人體行為識(shí)別技術(shù)是從包含運(yùn)動(dòng)信息的圖像、視頻中進(jìn)行識(shí)別的。在視頻監(jiān)控、智能家居、運(yùn)動(dòng)分析以及VR等領(lǐng)域都離不開人體行為的識(shí)別。人體行為識(shí)別已成為計(jì)算機(jī)視覺研究中的一個(gè)非常重要的領(lǐng)域[1]。由于視點(diǎn)的不同、背景的復(fù)雜性以及光照條件等的影響,人體行為識(shí)別仍然是一項(xiàng)非常具有挑戰(zhàn)性的課題。傳統(tǒng)人體行為識(shí)別是基于手工設(shè)計(jì)的特征[2]進(jìn)行識(shí)別,并且依賴數(shù)據(jù)集特征提取的先驗(yàn)知識(shí),耗費(fèi)大量的時(shí)間和精力。隨著深度學(xué)習(xí)的興起,解決了手動(dòng)設(shè)計(jì)特征的不足,在人體行為識(shí)別領(lǐng)域取得了重大進(jìn)展[3],已經(jīng)明顯超過了手工設(shè)計(jì)的特征。XIE等[4]提出了ResNeXt網(wǎng)絡(luò),用一種平行堆疊相同拓?fù)浣Y(jié)構(gòu)的blocks來代替殘差網(wǎng)絡(luò)三層卷積的block,同時(shí)增加了“基數(shù)”這一概念,減少了超參數(shù)數(shù)量,計(jì)算效率高,準(zhǔn)確率高。注意力機(jī)制可以將其他不重要的信息忽略掉,重點(diǎn)關(guān)注關(guān)鍵信息[5]。將注意力機(jī)制應(yīng)用到視頻中的行為識(shí)別,能夠有效提取視頻幀中的關(guān)鍵信息?;谏鲜龇椒?,為了充分提取視頻中的特征,本文對ResNeXt網(wǎng)絡(luò)進(jìn)行改進(jìn)并嵌入了改進(jìn)后的通道空間注意力機(jī)制模型。
2? 改進(jìn)后的ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)(Improved ResNeXt network architecture)
首先,本文將使用改進(jìn)后的ResNeXt網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)來提取時(shí)空特征,并將不同層次的特征進(jìn)行融合,以充分利用各類特征信息。其次,網(wǎng)絡(luò)中嵌入改進(jìn)后的通道空間注意力機(jī)制,使網(wǎng)絡(luò)更加關(guān)注有強(qiáng)反饋能力的特征。最后,經(jīng)過全局平均池化操作后送入softmax函數(shù)進(jìn)行分類,得到最終結(jié)果。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
本文采用的卷積網(wǎng)絡(luò)為ResNeXt101,主體由四個(gè)殘差模塊組成。殘差模塊的結(jié)構(gòu)如圖2所示,1×1×1和3×3×3表示卷積核大小,F(xiàn)表示通道數(shù),group表示分組卷積的組數(shù),即將特征圖分成group組的小特征圖。ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)采用VGG網(wǎng)絡(luò)和inception網(wǎng)絡(luò)中轉(zhuǎn)換合并的思想,用一種平行的相同拓?fù)浣Y(jié)構(gòu)的block進(jìn)行堆疊來進(jìn)行分組卷積,用來控制分組數(shù)量,在沒有增加參數(shù)復(fù)雜度的情況下提高了準(zhǔn)確率。
本文中網(wǎng)絡(luò)的殘差模塊分別用layer1、layer2、layer3、layer4表示,網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖3所示。隨著網(wǎng)絡(luò)的加深,一些細(xì)節(jié)特征被過濾掉,導(dǎo)致對提取到的特征利用不充分。本文改進(jìn)后的ResNeXt網(wǎng)絡(luò)將淺層網(wǎng)絡(luò)提取的細(xì)節(jié)特征和深層網(wǎng)絡(luò)提取的特征相融合,以充分利用各個(gè)層次所提取的特征信息。
對注意力機(jī)制輸出的特征進(jìn)行步長為2、卷積核大小為1的卷積,卷積操作后的特征和layer2輸出的特征相融合輸入layer3中繼續(xù)進(jìn)行卷積操作。同理,將和layer2融合后的特征進(jìn)行兩次步長為2、卷積核大小為1的卷積操作,并和layer4輸出的特征相融合。進(jìn)行卷積操作的目的是為了降低維度,使特征圖能夠進(jìn)行融合。文中沒有采用逐層特征融合,而是采用跳層融合的方式,首先是為了降低模型參數(shù),減少計(jì)算量;其次,如果采用逐層融合的方式,包含過多的特征,會(huì)造成冗余的信息。兩種特征采用element-wise進(jìn)行融合。
3? ?注意力機(jī)制(Attention mechanism)
注意力機(jī)制模型[6]如圖4所示,由通道注意力機(jī)制和空間注意力機(jī)制串聯(lián)組成,對特征圖在通道和空間維度上進(jìn)行注意力生成,可以在不明顯增加計(jì)算量的基礎(chǔ)上提高準(zhǔn)確率。
(1)通道注意力機(jī)制
本文對通道注意力機(jī)制進(jìn)行了改進(jìn),由于平均池化和最大池化提取到的特征有所區(qū)別,添加了條件因子來對不同的特征進(jìn)行權(quán)重分配。改進(jìn)后的通道注意力機(jī)制如圖5所示。首先將輸入特征圖在空間維度上進(jìn)行壓縮,分別進(jìn)行平均池化和最大池化操作,得到和。然后對得到的這兩個(gè)特征圖進(jìn)行權(quán)重分配,將這兩個(gè)重新分配的特征輸入一個(gè)共享網(wǎng)絡(luò)中,該共享網(wǎng)絡(luò)是包含一個(gè)隱藏層的多層感知機(jī)(MLP),經(jīng)過共享網(wǎng)絡(luò)的處理后,用element-wise求和輸出特征向量。
(2)空間注意力機(jī)制
空間注意力機(jī)制如圖6所示,將特征圖在通道維度上進(jìn)行壓縮。對輸入的特征圖分別在通道維度做平均池化和最大池化操作,得到兩個(gè)二維特征;然后,按照通道將特征進(jìn)行拼接得到一個(gè)特征圖;最后,對其進(jìn)行卷積操作,使得最終得到的特征圖和輸入的特征圖在空間維度上一致。
4? ?全局平均池化(Global average pooling)
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)分類時(shí)使用全連接層和softmax回歸層。但是,由于全連接層參數(shù)過多,計(jì)算量大,容易造成過擬合,同時(shí)全連接層容易導(dǎo)致特征圖損失空間位置信息。因此,本文采用全局平均池化層[7]來代替ResNeXt的全連接層,使特征圖和行為類別之間的聯(lián)系更加直觀,轉(zhuǎn)換為分類的概率更加容易,對空間位置信息的魯棒性更強(qiáng)。
全局平均池化是對每一個(gè)通道圖的所有像素求平均值,在特征提取的最后一個(gè)卷積層生成k 個(gè)特征圖;經(jīng)過全局平均池化層后得到k 個(gè)1×1的特征圖,將這些特征圖輸入softmax層,輸出結(jié)果就是k 個(gè)類別的置信度。
圖7為全局平均池化示意圖,圖8為全連接示意圖。本文對圖7和圖8進(jìn)行參數(shù)計(jì)算,假設(shè)輸入特征圖大小為3×3×3,則全連接層產(chǎn)生的參數(shù)個(gè)數(shù)為3×3×3×3=81 個(gè),而全局平均池化層將輸入特征進(jìn)行池化后直接送入softmax,所以參數(shù)個(gè)數(shù)為3×1×1×3=9 個(gè)。相比于全連接層,全局平均池化層的參數(shù)成倍數(shù)減少。
5? ?實(shí)驗(yàn)(Experiment)
5.1? ?數(shù)據(jù)集
(1)UCF101數(shù)據(jù)集
UCF101[8]是行為類別和樣本數(shù)量最多的數(shù)據(jù)庫之一,其中包含13,320 個(gè)視頻和101 個(gè)類別。數(shù)據(jù)庫的樣本取自從BBC/ESPN收集并從網(wǎng)絡(luò)上下載的各種運(yùn)動(dòng)的樣本。UCF101多樣性較強(qiáng),在相機(jī)運(yùn)動(dòng),人體的外形、形態(tài)、視點(diǎn)、背景、光照條件等各種不同的條件下存在較大差異,是目前為止最具挑戰(zhàn)性的數(shù)據(jù)庫之一。101 類行為被分成25 組,每組包括4—7 個(gè)視頻,主要分為人與物體之間的交互、人與人之間的交互、人體自身的行為、演奏樂器和運(yùn)動(dòng)五類,如畫眼妝、打籃球、打太極拳、彈吉他、攀巖等。同一組視頻可能有一些共同的特征,如背景、視點(diǎn)等。如圖9所示為部分動(dòng)作示意圖。
(2)HMDB51數(shù)據(jù)集
HMDB51[9]包含6,849 個(gè)視頻,總共51 個(gè)類別,每個(gè)類別至少包含101 個(gè)視頻。大多數(shù)視頻來自電影片段,有些來自公共數(shù)據(jù)庫,例如YouTube。動(dòng)作主要包含一般面部的行為、面部的操作與對象的操作、身體的行為、身體與對象交互的行為和人體自身的行為五類,如交談、喝水、倒立、騎自行車、擁抱等。部分動(dòng)作示意圖如圖10所示。
5.2? ?視頻采樣與參數(shù)設(shè)置
本文將視頻隨機(jī)的一個(gè)位置進(jìn)行均勻采樣生成16 幀的輸入片段,并通過裁剪的方式將樣本尺寸統(tǒng)一為112×112,所以網(wǎng)絡(luò)的輸入樣本大小為3×16×112×112。訓(xùn)練過程中,初始學(xué)習(xí)率設(shè)置為0.05,并在驗(yàn)證損失達(dá)到飽和后將其除以10,進(jìn)行學(xué)習(xí)率衰減優(yōu)化。使用動(dòng)量為0.9的隨機(jī)梯度下降優(yōu)化器來對網(wǎng)絡(luò)進(jìn)行優(yōu)化,使用ReLU激活函數(shù),采用交叉熵?fù)p失函數(shù)計(jì)算損失。
5.3? ?結(jié)果與分析
(1)不同條件因子下的比較實(shí)驗(yàn)
該部分就改進(jìn)的注意力機(jī)制中的條件因子的不同取值進(jìn)行實(shí)驗(yàn),分別在UCF101和HMDB51數(shù)據(jù)集劃分的spilt1部分進(jìn)行實(shí)驗(yàn),條件因子分別取0.1、0.3、0.5、0.7、0.9,得到的結(jié)果如圖11所示??梢钥闯?,在UCF101上,當(dāng)取值為0.5時(shí),效果較好;在HMDB51上,當(dāng)取值為0.7時(shí),效果較好。所以本文選取為0.5和0.7分別進(jìn)行實(shí)驗(yàn)。
(2)拆分實(shí)驗(yàn)
該部分將數(shù)據(jù)集UCF101和HMDB51分別拆分成三個(gè)部分進(jìn)行實(shí)驗(yàn),取三者的平均值作為最終結(jié)果。UCF101數(shù)據(jù)集被分成三個(gè)部分,每個(gè)部分包含測試集和訓(xùn)練集,每類行為的測試集和訓(xùn)練集總共為25 組,其中測試集包含7 組,訓(xùn)練集包含18 組。三種不同的拆分方式中的測試集交叉取前中后7 組,訓(xùn)練集取剩下的18 組,三個(gè)部分的測試集和訓(xùn)練集一一對應(yīng)。而HMDB51數(shù)據(jù)集隨機(jī)生成三種拆分方式。首先選擇元標(biāo)簽分布最平衡的片段,然后選擇與之關(guān)聯(lián)最小的第二、第三片段,一次得到三種不同的拆分方式。每種拆分方式的每類行為都包含70 組訓(xùn)練片段和30 組測試片段,結(jié)果如表1所示。
(3)有無注意力機(jī)制對比實(shí)驗(yàn)
該部分對添加了注意力機(jī)制的特征圖進(jìn)行了可視化,將生成的熱力圖和原圖相結(jié)合,如圖12所示。圖中熱力圖深色區(qū)域表示所預(yù)測到的行為,淺色區(qū)域表示背景部分,深色越深代表所受的關(guān)注越多??梢钥闯?,添加注意力機(jī)制模型后,能夠更有效地集中在關(guān)鍵信息處,能夠更好地提取行為的關(guān)鍵信息,以便提高識(shí)別的準(zhǔn)確率。本部分有無注意力機(jī)制模型進(jìn)行對比的實(shí)驗(yàn)結(jié)果如表2所示。由表2可知,添加注意力機(jī)制后,無論是在UCF101還是在HMDB51上的準(zhǔn)確率都有一定的提升。
(4)與其他算法的對比實(shí)驗(yàn)
為了驗(yàn)證本文算法的有效性,在數(shù)據(jù)集UCF101和HMDB51上,與近年來主流的iDT[10]、TSN[11]、Two-Stream CNN[12]等人體行為識(shí)別方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表3所示。結(jié)果表明,本文的識(shí)別模型相比一些主流模型準(zhǔn)確率有了大幅度提高,尤其在UCF101數(shù)據(jù)集上比iDT、Two-Stream分別提高了8.8%和7.2%。
6? ?結(jié)論(Conclusion)
本文提出了一種基于注意力機(jī)制的改進(jìn)ResNeXt模型,并將其用于視頻中的人體行為識(shí)別,將ResNeXt網(wǎng)絡(luò)中的淺層特征和高層特征相融合,充分利用不同層次的特征。在通道空間注意力機(jī)制中加入條件因子,對不同的池化分配權(quán)重,并嵌入改進(jìn)后的ResNeXt網(wǎng)絡(luò)中,能夠有效提取行為的關(guān)鍵特征;網(wǎng)絡(luò)的最后用全局平均池化層取代全連接層,降低了網(wǎng)絡(luò)過擬合的可能性,同時(shí)減少了參數(shù)。實(shí)驗(yàn)結(jié)果表明,本文提出的改進(jìn)ResNeXt人體行為識(shí)別模型在UCF101和HMDB51數(shù)據(jù)集上獲得了較好的識(shí)別率,具有一定的泛化性。
參考文獻(xiàn)(References)
[1] 周波,李俊峰.結(jié)合目標(biāo)檢測的人體行為識(shí)別[J].自動(dòng)化學(xué)報(bào),2020,46(09):1961-1970.
[2] 朱煜,趙江坤,王逸寧,等.基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J].自動(dòng)化學(xué)報(bào),2016,42(6):848-857.
[3] 周風(fēng)余,尹建芹,楊陽,等.基于時(shí)序深度置信網(wǎng)絡(luò)的在線人體動(dòng)作識(shí)別[J].自動(dòng)化學(xué)報(bào),2016,42(7):1030-1039.
[4] XIE S, GIRSHICK R. Aggregated residual transformations for deep neural networks[C]// IEEE.IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii, USA: IEEE, 2017:1492-1500.
[5] 王翔,任佳.基于多注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)故障診斷算法[J].浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,43(02):224-231.
[6] 徐巖,李曉振,吳作宏,等.基于殘差注意力網(wǎng)絡(luò)的馬鈴薯葉部病害識(shí)別[J].山東科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,40(02):
76-83.
[7] LIN M, CHEN Q, YAN S. Network in network[J/OL]. (2013-10-16)[2021-3-18]. https://arxiv.org/abs/1312.4400.
[8] SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J/OL]. (2012-10-3)[2021-3-18]. https://arxiv.org/abs/1212.0402.
[9] 朱紅蕾,朱昶勝,徐志剛.人體行為識(shí)別數(shù)據(jù)集研究進(jìn)展[J].自動(dòng)化學(xué)報(bào),2018,44(6):978-1004.
[10] 程海粟,李慶武,仇春春,等.基于改進(jìn)密集軌跡的人體行為識(shí)別算法[J].計(jì)算機(jī)工程,2016,42(08):199-205.
[11] WANG L, XIONG Y, WANG Z, et al. Temporal segment networks: Towards good practices for deep action recognition[C]// ECCV. The 14th European Conference on Computer Vision. Berlin, Germany: Springer, 2016:20-36.
[12] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J/OL]. (2014-6-9)[2021-3-18]. https://arxiv.org/abs/1406.2199.
作者簡介:
王昊飛(1994-),女,碩士生.研究領(lǐng)域:模式識(shí)別與智能系統(tǒng).
李俊峰(1978-),男,博士,副教授.研究領(lǐng)域:智能信息處理,缺陷檢測.