基于自注意力機(jī)制的視頻行為分析*

2022-02-16 08:32祝偉吳陳

計(jì)算機(jī)與數(shù)字工程 2022年1期

祝偉吳陳

（江蘇科技大學(xué)計(jì)算機(jī)學(xué)院鎮(zhèn)江 212003）

1 引言

視頻行為檢測(cè)在視頻監(jiān)控，醫(yī)療領(lǐng)域，智能人機(jī)交互、視頻檢索中有著廣泛的應(yīng)用，具有重要的研究?jī)r(jià)值［21］。視頻是由連續(xù)的圖片形式的幀組成的，相較于圖片多了時(shí)間上的維度，即幀之間的運(yùn)動(dòng)信息。從語義上理解視頻需要結(jié)合單個(gè)視頻幀包含的場(chǎng)景信息即空間特征和幀之間變化上的時(shí)間特征［17］。在過去的數(shù)十年間，傳統(tǒng)基于RGB 幀序列人體行為識(shí)別研究取得了很大進(jìn)展［10］。人工特征提取常用的方法有時(shí)空興趣點(diǎn)（Space Time Interest Point，STIP），視覺詞袋（Bag of Visual Words，BOVW），尺度不變特征轉(zhuǎn)換（Scale-Invariant Feature Transform，SIFT），方向梯度直方圖（Histograms of Oriented Gradient，HOG）和運(yùn)動(dòng)歷史圖像（Motion History Image，MHI）等，通過聚類等方法將上述初步提取的人工特征構(gòu)造出更易區(qū)分的子特征，然后使用如支持向量機(jī)等分類器對(duì)子特征進(jìn)行分類。傳統(tǒng)方法一般通過特征提取與表征、識(shí)別分類等步驟。由于視頻數(shù)是通過普通相機(jī)獲取的，本質(zhì)上就是一系列RGB 圖片組成的序列。RGB 圖片對(duì)各種環(huán)境變化比較敏感，如不同的運(yùn)動(dòng)場(chǎng)景、相機(jī)拍攝的角度、背景運(yùn)動(dòng)或相機(jī)運(yùn)動(dòng)、人為習(xí)慣造成運(yùn)動(dòng)上的差異等。因此，準(zhǔn)確把運(yùn)動(dòng)前景與背景完全分割，從圖像中提取運(yùn)動(dòng)的有效信息很困難。傳統(tǒng)方法從表示方式上可以分為整體表示法和局部表示法。整體表示法把一個(gè)行為的所有運(yùn)動(dòng)特征表示為一個(gè)整體，從整體分析行為。Blank 等提出了MEI 模板的體積擴(kuò)展，主要思想是提取人體幀上的剪影按時(shí)間序列拼接成三維形狀用來表示運(yùn)動(dòng)［4］。Weinland D 等提出通過運(yùn)動(dòng)歷史體（MHV）表示不同人在不同角度執(zhí)行不同動(dòng)作，并表明使用繞垂直軸的圓柱坐標(biāo)中的傅立葉變換，可以高效地執(zhí)行對(duì)齊和比較［5］。由于整體法不夠靈活，對(duì)運(yùn)動(dòng)細(xì)節(jié)不敏感，不能有效處理遮擋等問題。對(duì)于通過提取疊加運(yùn)動(dòng)主體輪廓獲取運(yùn)動(dòng)特征的方式無法處理輪廓內(nèi)部的細(xì)節(jié)特征。

在深度學(xué)習(xí)被廣泛使用之前，主流的方法是IDT，之后發(fā)展出來的算法很多都是在IDT 方法上進(jìn)行改進(jìn)。IDT 的思路是利用光流場(chǎng)來獲得視頻序列中的一些軌跡，再沿著軌跡提取HOF、HOG、MBH 等特征［11］。最后利用FV（Fisher Vector）方法對(duì)特征進(jìn)行編碼，再基于編碼訓(xùn)練結(jié)果訓(xùn)練SVM分類器。視頻比靜態(tài)圖像多了時(shí)間域，包含的特征更多，語義信息更復(fù)雜。為了提取時(shí)間域特征，視頻行為識(shí)別需要處理大量視頻幀并得到其中隱含的聯(lián)系［6］。深度學(xué)習(xí)出來后，陸續(xù)出來多種方式來嘗試解決這個(gè)問題。由于深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和特征表示，不用人工干預(yù)的特征提取可以保留更多也許在人類看來無意義但有價(jià)值的信息［22］。早期的深度學(xué)習(xí)方法是直接將視頻截幀，然后基于單幀進(jìn)行卷積提取特征。由于單幀圖片相對(duì)于整個(gè)視頻只是很少的一部分，對(duì)視頻的表述不夠充分。之后出現(xiàn)的雙流網(wǎng)絡(luò)分別以靜態(tài)圖像和光流圖作為輸入，使用兩個(gè)并行卷積網(wǎng)絡(luò)分別處理這兩種不同的輸入，最后兩個(gè)網(wǎng)絡(luò)的輸出取均值，得到最終的輸出結(jié)果［16］。由于視頻拍攝的環(huán)境是在時(shí)刻變化的，前后幀的差異不僅僅在運(yùn)動(dòng)主體的運(yùn)動(dòng)上，還有鏡頭晃動(dòng)、視角變化和環(huán)境光線突變等，甚至不同的攝像頭模組，不同的視頻編碼方式也會(huì)帶來噪聲［18］。

由于自然行為運(yùn)動(dòng)是連續(xù)的過程［19］，不同的行為可能包含很多相似的運(yùn)動(dòng)細(xì)節(jié)，因此理解辨別一個(gè)行為需要綜合前后的運(yùn)動(dòng)特征從整體上判斷［20］。結(jié)合以上因素，為了在視頻行為分析中提取有效的運(yùn)動(dòng)特征，減小環(huán)境變化帶來的無關(guān)信息，并對(duì)空間特征在時(shí)間軸上進(jìn)行融合編碼提取語義信息，本文提出了一種基于空間注意力機(jī)制以靜態(tài)圖像幀及其相鄰幀的灰度圖的視頻幀塊分別作為網(wǎng)絡(luò)輸入，分別用于計(jì)算空間特征與微運(yùn)動(dòng)特征，時(shí)間注意力機(jī)制將視頻的各個(gè)微運(yùn)動(dòng)特征融合提取運(yùn)動(dòng)的更高層語義特征的方法。在UCF101與HMDB51數(shù)據(jù)集上實(shí)現(xiàn)了94.78%和71.47%的準(zhǔn)確率。

2 基于三維卷積注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型

運(yùn)動(dòng)是連續(xù)的過程。視頻中的運(yùn)動(dòng)信息是表現(xiàn)在時(shí)間維度上的，也就是相鄰兩幀之間的像素變化，是離散的。鄰幀的像素變化組成運(yùn)動(dòng)的最小單元，可以稱為微動(dòng)作。這些微動(dòng)作前后關(guān)聯(lián)，構(gòu)成一個(gè)具體的行為。

在靜態(tài)圖片的分類、目標(biāo)檢測(cè)、分割的任務(wù)中卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)取得很大的成功。但對(duì)于靜態(tài)圖片很有效的二維卷積網(wǎng)絡(luò)架構(gòu)很難提取視頻中的運(yùn)動(dòng)特征。一種常用的方法是人工提取運(yùn)動(dòng)特征，其中典型的方法是Simonyan等提出的雙流卷積神經(jīng)網(wǎng)絡(luò)［2］，但這種方法需要預(yù)先耗費(fèi)大量時(shí)間計(jì)算光流圖，并且光流圖中會(huì)包含很多無效的運(yùn)動(dòng)特征。對(duì)于深度學(xué)習(xí)所期望的是能實(shí)現(xiàn)端到端的學(xué)習(xí)，所以使用三維卷積網(wǎng)絡(luò)的架構(gòu)把對(duì)運(yùn)動(dòng)特征的提取也包含網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)中是一個(gè)很好的選擇［23］。其中典型的是Tran 等提出的C3D（Convolutional 3D）網(wǎng)絡(luò)［15］，對(duì)于視頻數(shù)據(jù)增加了時(shí)間維度上的卷積，可同時(shí)提取空間特征與運(yùn)動(dòng)特征。但C3D 采用的是11層VGG Network的架構(gòu)，網(wǎng)絡(luò)層數(shù)雖然不深，但模型參數(shù)量十分龐大，需要大量的計(jì)算資源。

本文基于三維卷積網(wǎng)絡(luò)，對(duì)輸入的視頻數(shù)據(jù)在時(shí)間維度上進(jìn)行分塊，一個(gè)視頻抽取固定數(shù)量的塊，每一塊包含固定數(shù)量的幀。對(duì)抽取的每一塊進(jìn)行預(yù)處理，包括從每一塊內(nèi)隨機(jī)抽取一幀原始RGB圖，獲取塊內(nèi)每一幀的原始灰度圖。將RGB 圖與灰度圖分別作為模型的兩個(gè)輸入。為了有效提取塊內(nèi)的微動(dòng)作特征，將用于二維卷積的空間注意力機(jī)制拓展到三維。為了抽象出微動(dòng)作前后的語義特征，使用時(shí)間注意力機(jī)制對(duì)塊間的微動(dòng)作特征進(jìn)行融合編碼。

2.1 深層網(wǎng)絡(luò)模型結(jié)構(gòu)

模型的整體結(jié)構(gòu)如圖1 所示。模型有兩個(gè)輸入端，Gray Block 的維度（N×M）×112×112×1，是由N 個(gè)視頻塊幀的灰度圖（112×112×1）堆疊而成的，112分別為幀寬與幀高，RGB Block大小為（N×112×112×3）是與之對(duì)應(yīng)的，從每個(gè)視頻塊中隨機(jī)抽取的一個(gè)RGB 幀（112×112×3）堆疊而成。其中M 為N個(gè)視頻塊中每個(gè)視頻塊的幀數(shù)。輸入灰度幀的分支主要用于提取運(yùn)動(dòng)特征，視頻數(shù)據(jù)在淺層的運(yùn)動(dòng)特征主要表現(xiàn)在相鄰兩幀像素點(diǎn)的偏移，抽象的語義較少。模型淺層網(wǎng)絡(luò)主要目的是通過壓縮空間與鄰幀提取像素的偏移特征，其運(yùn)算如式（1）所示。

圖1 深層網(wǎng)絡(luò)模型整體結(jié)構(gòu)

其中m 為batch size，x 為網(wǎng)絡(luò)中某一層的特征塊，y為批歸一化層的輸出，γ，β分別為縮放、平移系數(shù)，是歸一化層需要學(xué)習(xí)的參數(shù)。計(jì)算方法如式（3）所示。

式中ε為非零常數(shù)，E（xi），Var（xi）分別為一個(gè)batch中特征塊對(duì)應(yīng)channel 的均值于方差，如式（4）和式（5）所示。

在網(wǎng)絡(luò)模型整體結(jié)構(gòu)示意圖中，灰度視頻塊先經(jīng)過兩層標(biāo)準(zhǔn)三維卷積，再與Self-attention 機(jī)制殘差連接，連接方式如式（6）所示。

式中x 表示自注意力機(jī)制上層的網(wǎng)絡(luò)輸出，y 表示自注意力機(jī)制與前層網(wǎng)絡(luò)殘差連接后的輸出，其輸出結(jié)果輸入Temporal 3D ResNeXt Block。同樣，對(duì)于RGB 視頻塊先經(jīng)過兩層三維卷積，由于RGB 分支的主要目的是提取場(chǎng)景特征，需要綜合考慮整個(gè)圖像的信息，結(jié)構(gòu)中沒有加入注意力機(jī)制，經(jīng)過三維卷積后的特征圖直接輸入3D ResNeXt Block中?；叶扰cRGB分支的特征圖在channel的維度進(jìn)行拼接，輸入Multihead Attention，最后經(jīng)過三層一維卷積與softmax 層后得到類別標(biāo)簽。模型的損失函數(shù)采用的是softmax 交叉熵?fù)p失函數(shù)，如式（7）所示。

其中p為實(shí)際的標(biāo)簽，q為模型的預(yù)測(cè)，N為p與q的維度。

2.2 3D ResNeXt Block的改進(jìn)

由于人或物體三維運(yùn)動(dòng)的靈活性，同個(gè)運(yùn)動(dòng)會(huì)因?yàn)橐暯腔蜻\(yùn)動(dòng)主體的差異，在時(shí)間軸上跨度有很大的差別。與靜態(tài)圖片中物體的外形特征相比，很難有效地在時(shí)間維度上的提取運(yùn)動(dòng)特征。通常的三維卷積在時(shí)間維度上采用相同單一的卷積核尺寸，很難有效融合不同時(shí)間軸跨度上的運(yùn)動(dòng)信息。針對(duì)這個(gè)問題，在ResNeXt Block 的基礎(chǔ)上進(jìn)行改進(jìn)，提出了Temporal 3D ResNeXt Block 結(jié)構(gòu)如圖2（b）所示。圖2（a）為原始的ResNeXt Block 結(jié)構(gòu)。Temporal 3D ResNeXt Block 的數(shù)學(xué)表達(dá)如式（8）所示。

式中C 表示block 內(nèi)channel 的分組數(shù)，每一組的τi的結(jié)構(gòu)相同。改進(jìn)后的block結(jié)構(gòu)在第一層上與原結(jié)構(gòu)相同，通過1×1×1的三維卷積核拆分并壓縮特征塊的通道。第二層采用1×3×3 的核僅在空間維度上卷積。第三層僅對(duì)時(shí)間維度卷積，對(duì)第二層的輸出分別采用1×1×1，3×1×1，5×1×1 三種不同尺寸的卷積核，并分別對(duì)對(duì)應(yīng)特征塊時(shí)間維度上進(jìn)行0、1、2尺寸的padding，使三種卷積核的輸出特征塊在時(shí)間維度上尺寸相同，然后在channel 的維度上拼接，最后通過卷積核尺寸為1×1×1的卷積層將特征塊通道恢復(fù)到輸入大小并與輸入殘差連接。

2.3 Self-attention機(jī)制結(jié)構(gòu)

由于存在相機(jī)位移、背景變化等與運(yùn)動(dòng)主體行為無關(guān)的運(yùn)動(dòng)，在提取特征時(shí)會(huì)包含無效的信息。采用self-attention 機(jī)制，網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示?；叶纫曨l塊經(jīng)過兩層三維卷積后得到的特征塊｛C1，C2，…Ck｝，其中Ck為第k 個(gè)通道的特征塊，w，h，d 分別為視頻幀特征塊的寬，高和幀數(shù)。｛C1，C2，…Ck｝分別經(jīng)過三個(gè)卷積分支，其中3D Conv1、3D Conv2 將通道壓縮至原來的1/a，將特征塊尺寸reshape 成（h×w，k/a，d）與（k/a，h×w，d）并在特征塊的寬和高的方向相乘得到尺寸為（h×w，h×w，d）的特征塊，再與經(jīng)過3D Conv3 卷積并將尺寸reshape 成（k，h×w，d）的特征塊在寬和高的方向相乘，得到的特征塊尺寸為（k，h×w，d）。最后經(jīng)過reshape 成與特征塊｛C1，C2，…Ck｝尺寸相同注意力矩陣。

圖3 Self-attention機(jī)制結(jié)構(gòu)

2.4 模型結(jié)構(gòu)分析

為了獲取不同時(shí)間跨度的特征信息，我們?cè)?D ResNeXt Block 中，將對(duì)視頻塊在時(shí)序通道上的卷積采用了三種尺度的卷積核，使提取到的特征中融合了更多不同時(shí)間跨度的運(yùn)動(dòng)特征。同時(shí)將空間通道的卷積與時(shí)間通道分離，減小了模型參數(shù)量。視頻的本質(zhì)是序列，模型前半部分的三維卷積對(duì)視頻數(shù)據(jù)的空間通道及短距離相鄰的時(shí)間通道壓縮編碼。即對(duì)應(yīng)的是相當(dāng)于將一個(gè)完整行為分割成多個(gè)微運(yùn)動(dòng)，再對(duì)每個(gè)微動(dòng)作編碼。模型后半部分采用的Multihead Attention 采用的是自然語言處理中Transformer的編碼器部分，將各個(gè)微動(dòng)作的編碼綜合，進(jìn)一步抽象融合成一個(gè)具體的行為特征。

3 實(shí)驗(yàn)

本實(shí)驗(yàn)數(shù)據(jù)采用的是UCF101 與HMDB51 公開數(shù)據(jù)集。其中UCF101 數(shù)據(jù)集中包含101 種行為類別，是在日?，F(xiàn)實(shí)環(huán)境中拍攝的13320 個(gè)視頻片段。HMDB51 數(shù)據(jù)集中包含51 種行為類別，6849個(gè)視頻片段，主要來源于影視作品，小部分來自現(xiàn)實(shí)環(huán)境。

3.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)集中的視頻片段隨機(jī)抽取80%作為訓(xùn)練集，20%測(cè)試集。每個(gè)視頻均勻分割成16 個(gè)部分，每個(gè)部分中隨機(jī)抽取連續(xù)的四幀，總幀數(shù)少于64的視頻，不足的幀用空白畫面補(bǔ)全。每一幀的大小按寬高比縮放并用零像素補(bǔ)全將尺寸調(diào)整至112×112。

3.2 實(shí)驗(yàn)結(jié)果與分析

深度網(wǎng)絡(luò)模型由pytorch 框架搭建。在UCF101 與HMDB51 數(shù)據(jù)集下，對(duì)單獨(dú)使用灰度幀的輸入分支、RGB幀輸入分支和融合兩種輸入的方式分別進(jìn)行了測(cè)試，未經(jīng)預(yù)訓(xùn)練的結(jié)果如表1所示。

表1 改進(jìn)的模型準(zhǔn)確率

從表1 中可以看出，融合了灰度幀分支和RGB幀分支的模型在準(zhǔn)確率上相對(duì)獨(dú)立分支有了很大提升。在加入Self-attention 機(jī)制后模型的準(zhǔn)確率進(jìn)一步增高，表明了Self-attention機(jī)制的有效性。

表2 展示了本文方法與已有算法模型經(jīng)過預(yù)訓(xùn)練后，在UCF101 與HMDB51 數(shù)據(jù)集上準(zhǔn)確率的比較。其中的Pre-training 為模型預(yù)訓(xùn)練使用的數(shù)據(jù)集。本文改進(jìn)的模型經(jīng)過kinetics數(shù)據(jù)集預(yù)訓(xùn)練后，與原始的ResNeXt101 算法相比，在HMDB51 數(shù)據(jù)集上的提升更明顯。通過表1、表2，表明了本文在模型結(jié)構(gòu)設(shè)計(jì)，ResNeXt Block 的改進(jìn)上對(duì)視頻行為識(shí)別準(zhǔn)確率的提升方面具有一定的作用。

表2 不同模型準(zhǔn)確率比較

4 結(jié)語

近些年來，深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺的圖像領(lǐng)域取得了巨大的成功。由于其端到端訓(xùn)練的設(shè)計(jì)思想簡(jiǎn)單，在海量數(shù)據(jù)的支持下，相較于人工設(shè)計(jì)的圖像分析算法可以應(yīng)付更復(fù)雜的環(huán)境，識(shí)別效果好，因而得到了越來越多的研究者的關(guān)注。相對(duì)于圖像分類，視頻中行為特征更豐富，語義更抽象，還有其在時(shí)間上的連續(xù)性都給識(shí)別任務(wù)增加了難度。雖然自行為識(shí)別研究以來已經(jīng)取得了不少成果，但是任然有很多困難需要面對(duì)。例如復(fù)雜的行為，多個(gè)運(yùn)動(dòng)主體的互動(dòng)及場(chǎng)景的多變等；在視頻的時(shí)序關(guān)系上，同個(gè)行為持續(xù)的時(shí)間有長(zhǎng)有短，開始與結(jié)束的分界很模糊，本文在ResNeXt Block 的改進(jìn)中采用的多時(shí)間尺度卷積核、對(duì)視頻進(jìn)行序列編碼后采用自然語言處理的方式針對(duì)這個(gè)問題雖然有所改善，但無法有效解決對(duì)需要長(zhǎng)時(shí)序關(guān)系推理、時(shí)效性要求高的行為識(shí)別任務(wù)中，未來還有很多問題有待研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡