祝 偉 吳 陳
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)
視頻行為檢測(cè)在視頻監(jiān)控,醫(yī)療領(lǐng)域,智能人機(jī)交互、視頻檢索中有著廣泛的應(yīng)用,具有重要的研究?jī)r(jià)值[21]。視頻是由連續(xù)的圖片形式的幀組成的,相較于圖片多了時(shí)間上的維度,即幀之間的運(yùn)動(dòng)信息。從語義上理解視頻需要結(jié)合單個(gè)視頻幀包含的場(chǎng)景信息即空間特征和幀之間變化上的時(shí)間特征[17]。在過去的數(shù)十年間,傳統(tǒng)基于RGB 幀序列人體行為識(shí)別研究取得了很大進(jìn)展[10]。人工特征提取常用的方法有時(shí)空興趣點(diǎn)(Space Time Interest Point,STIP),視覺詞袋(Bag of Visual Words,BOVW),尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT),方向梯度直方圖(Histograms of Oriented Gradient,HOG)和運(yùn)動(dòng)歷史圖像(Motion History Image,MHI)等,通過聚類等方法將上述初步提取的人工特征構(gòu)造出更易區(qū)分的子特征,然后使用如支持向量機(jī)等分類器對(duì)子特征進(jìn)行分類。傳統(tǒng)方法一般通過特征提取與表征、識(shí)別分類等步驟。由于視頻數(shù)是通過普通相機(jī)獲取的,本質(zhì)上就是一系列RGB 圖片組成的序列。RGB 圖片對(duì)各種環(huán)境變化比較敏感,如不同的運(yùn)動(dòng)場(chǎng)景、相機(jī)拍攝的角度、背景運(yùn)動(dòng)或相機(jī)運(yùn)動(dòng)、人為習(xí)慣造成運(yùn)動(dòng)上的差異等。因此,準(zhǔn)確把運(yùn)動(dòng)前景與背景完全分割,從圖像中提取運(yùn)動(dòng)的有效信息很困難。傳統(tǒng)方法從表示方式上可以分為整體表示法和局部表示法。整體表示法把一個(gè)行為的所有運(yùn)動(dòng)特征表示為一個(gè)整體,從整體分析行為。Blank 等提出了MEI 模板的體積擴(kuò)展,主要思想是提取人體幀上的剪影按時(shí)間序列拼接成三維形狀用來表示運(yùn)動(dòng)[4]。Weinland D 等提出通過運(yùn)動(dòng)歷史體(MHV)表示不同人在不同角度執(zhí)行不同動(dòng)作,并表明使用繞垂直軸的圓柱坐標(biāo)中的傅立葉變換,可以高效地執(zhí)行對(duì)齊和比較[5]。由于整體法不夠靈活,對(duì)運(yùn)動(dòng)細(xì)節(jié)不敏感,不能有效處理遮擋等問題。對(duì)于通過提取疊加運(yùn)動(dòng)主體輪廓獲取運(yùn)動(dòng)特征的方式無法處理輪廓內(nèi)部的細(xì)節(jié)特征。
在深度學(xué)習(xí)被廣泛使用之前,主流的方法是IDT,之后發(fā)展出來的算法很多都是在IDT 方法上進(jìn)行改進(jìn)。IDT 的思路是利用光流場(chǎng)來獲得視頻序列中的一些軌跡,再沿著軌跡提取HOF、HOG、MBH 等特征[11]。最后利用FV(Fisher Vector)方法對(duì)特征進(jìn)行編碼,再基于編碼訓(xùn)練結(jié)果訓(xùn)練SVM分類器。視頻比靜態(tài)圖像多了時(shí)間域,包含的特征更多,語義信息更復(fù)雜。為了提取時(shí)間域特征,視頻行為識(shí)別需要處理大量視頻幀并得到其中隱含的聯(lián)系[6]。深度學(xué)習(xí)出來后,陸續(xù)出來多種方式來嘗試解決這個(gè)問題。由于深度學(xué)習(xí)是學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和特征表示,不用人工干預(yù)的特征提取可以保留更多也許在人類看來無意義但有價(jià)值的信息[22]。早期的深度學(xué)習(xí)方法是直接將視頻截幀,然后基于單幀進(jìn)行卷積提取特征。由于單幀圖片相對(duì)于整個(gè)視頻只是很少的一部分,對(duì)視頻的表述不夠充分。之后出現(xiàn)的雙流網(wǎng)絡(luò)分別以靜態(tài)圖像和光流圖作為輸入,使用兩個(gè)并行卷積網(wǎng)絡(luò)分別處理這兩種不同的輸入,最后兩個(gè)網(wǎng)絡(luò)的輸出取均值,得到最終的輸出結(jié)果[16]。由于視頻拍攝的環(huán)境是在時(shí)刻變化的,前后幀的差異不僅僅在運(yùn)動(dòng)主體的運(yùn)動(dòng)上,還有鏡頭晃動(dòng)、視角變化和環(huán)境光線突變等,甚至不同的攝像頭模組,不同的視頻編碼方式也會(huì)帶來噪聲[18]。
由于自然行為運(yùn)動(dòng)是連續(xù)的過程[19],不同的行為可能包含很多相似的運(yùn)動(dòng)細(xì)節(jié),因此理解辨別一個(gè)行為需要綜合前后的運(yùn)動(dòng)特征從整體上判斷[20]。結(jié)合以上因素,為了在視頻行為分析中提取有效的運(yùn)動(dòng)特征,減小環(huán)境變化帶來的無關(guān)信息,并對(duì)空間特征在時(shí)間軸上進(jìn)行融合編碼提取語義信息,本文提出了一種基于空間注意力機(jī)制以靜態(tài)圖像幀及其相鄰幀的灰度圖的視頻幀塊分別作為網(wǎng)絡(luò)輸入,分別用于計(jì)算空間特征與微運(yùn)動(dòng)特征,時(shí)間注意力機(jī)制將視頻的各個(gè)微運(yùn)動(dòng)特征融合提取運(yùn)動(dòng)的更高層語義特征的方法。在UCF101與HMDB51數(shù)據(jù)集上實(shí)現(xiàn)了94.78%和71.47%的準(zhǔn)確率。
運(yùn)動(dòng)是連續(xù)的過程。視頻中的運(yùn)動(dòng)信息是表現(xiàn)在時(shí)間維度上的,也就是相鄰兩幀之間的像素變化,是離散的。鄰幀的像素變化組成運(yùn)動(dòng)的最小單元,可以稱為微動(dòng)作。這些微動(dòng)作前后關(guān)聯(lián),構(gòu)成一個(gè)具體的行為。
在靜態(tài)圖片的分類、目標(biāo)檢測(cè)、分割的任務(wù)中卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)取得很大的成功。但對(duì)于靜態(tài)圖片很有效的二維卷積網(wǎng)絡(luò)架構(gòu)很難提取視頻中的運(yùn)動(dòng)特征。一種常用的方法是人工提取運(yùn)動(dòng)特征,其中典型的方法是Simonyan等提出的雙流卷積神經(jīng)網(wǎng)絡(luò)[2],但這種方法需要預(yù)先耗費(fèi)大量時(shí)間計(jì)算光流圖,并且光流圖中會(huì)包含很多無效的運(yùn)動(dòng)特征。對(duì)于深度學(xué)習(xí)所期望的是能實(shí)現(xiàn)端到端的學(xué)習(xí),所以使用三維卷積網(wǎng)絡(luò)的架構(gòu)把對(duì)運(yùn)動(dòng)特征的提取也包含網(wǎng)絡(luò)的學(xué)習(xí)任務(wù)中是一個(gè)很好的選擇[23]。其中典型的是Tran 等提出的C3D(Convolutional 3D)網(wǎng)絡(luò)[15],對(duì)于視頻數(shù)據(jù)增加了時(shí)間維度上的卷積,可同時(shí)提取空間特征與運(yùn)動(dòng)特征。但C3D 采用的是11層VGG Network的架構(gòu),網(wǎng)絡(luò)層數(shù)雖然不深,但模型參數(shù)量十分龐大,需要大量的計(jì)算資源。
本文基于三維卷積網(wǎng)絡(luò),對(duì)輸入的視頻數(shù)據(jù)在時(shí)間維度上進(jìn)行分塊,一個(gè)視頻抽取固定數(shù)量的塊,每一塊包含固定數(shù)量的幀。對(duì)抽取的每一塊進(jìn)行預(yù)處理,包括從每一塊內(nèi)隨機(jī)抽取一幀原始RGB圖,獲取塊內(nèi)每一幀的原始灰度圖。將RGB 圖與灰度圖分別作為模型的兩個(gè)輸入。為了有效提取塊內(nèi)的微動(dòng)作特征,將用于二維卷積的空間注意力機(jī)制拓展到三維。為了抽象出微動(dòng)作前后的語義特征,使用時(shí)間注意力機(jī)制對(duì)塊間的微動(dòng)作特征進(jìn)行融合編碼。
模型的整體結(jié)構(gòu)如圖1 所示。模型有兩個(gè)輸入端,Gray Block 的維度(N×M)×112×112×1,是由N 個(gè)視頻塊幀的灰度圖(112×112×1)堆疊而成的,112分別為幀寬與幀高,RGB Block大小為(N×112×112×3)是與之對(duì)應(yīng)的,從每個(gè)視頻塊中隨機(jī)抽取的一個(gè)RGB 幀(112×112×3)堆疊而成。其中M 為N個(gè)視頻塊中每個(gè)視頻塊的幀數(shù)。輸入灰度幀的分支主要用于提取運(yùn)動(dòng)特征,視頻數(shù)據(jù)在淺層的運(yùn)動(dòng)特征主要表現(xiàn)在相鄰兩幀像素點(diǎn)的偏移,抽象的語義較少。模型淺層網(wǎng)絡(luò)主要目的是通過壓縮空間與鄰幀提取像素的偏移特征,其運(yùn)算如式(1)所示。
圖1 深層網(wǎng)絡(luò)模型整體結(jié)構(gòu)
其中m 為batch size,x 為網(wǎng)絡(luò)中某一層的特征塊,y為批歸一化層的輸出,γ,β分別為縮放、平移系數(shù),是歸一化層需要學(xué)習(xí)的參數(shù)。計(jì)算方法如式(3)所示。
式中ε為非零常數(shù),E(xi),Var(xi)分別為一個(gè)batch中特征塊對(duì)應(yīng)channel 的均值于方差,如式(4)和式(5)所示。
在網(wǎng)絡(luò)模型整體結(jié)構(gòu)示意圖中,灰度視頻塊先經(jīng)過兩層標(biāo)準(zhǔn)三維卷積,再與Self-attention 機(jī)制殘差連接,連接方式如式(6)所示。
式中x 表示自注意力機(jī)制上層的網(wǎng)絡(luò)輸出,y 表示自注意力機(jī)制與前層網(wǎng)絡(luò)殘差連接后的輸出,其輸出結(jié)果輸入Temporal 3D ResNeXt Block。同樣,對(duì)于RGB 視頻塊先經(jīng)過兩層三維卷積,由于RGB 分支的主要目的是提取場(chǎng)景特征,需要綜合考慮整個(gè)圖像的信息,結(jié)構(gòu)中沒有加入注意力機(jī)制,經(jīng)過三維卷積后的特征圖直接輸入3D ResNeXt Block中?;叶扰cRGB分支的特征圖在channel的維度進(jìn)行拼接,輸入Multihead Attention,最后經(jīng)過三層一維卷積與softmax 層后得到類別標(biāo)簽。模型的損失函數(shù)采用的是softmax 交叉熵?fù)p失函數(shù),如式(7)所示。
其中p為實(shí)際的標(biāo)簽,q為模型的預(yù)測(cè),N為p與q的維度。
由于人或物體三維運(yùn)動(dòng)的靈活性,同個(gè)運(yùn)動(dòng)會(huì)因?yàn)橐暯腔蜻\(yùn)動(dòng)主體的差異,在時(shí)間軸上跨度有很大的差別。與靜態(tài)圖片中物體的外形特征相比,很難有效地在時(shí)間維度上的提取運(yùn)動(dòng)特征。通常的三維卷積在時(shí)間維度上采用相同單一的卷積核尺寸,很難有效融合不同時(shí)間軸跨度上的運(yùn)動(dòng)信息。針對(duì)這個(gè)問題,在ResNeXt Block 的基礎(chǔ)上進(jìn)行改進(jìn),提出了Temporal 3D ResNeXt Block 結(jié)構(gòu)如圖2(b)所示。圖2(a)為原始的ResNeXt Block 結(jié)構(gòu)。Temporal 3D ResNeXt Block 的數(shù)學(xué)表達(dá)如式(8)所示。
式中C 表示block 內(nèi)channel 的分組數(shù),每一組的τi的結(jié)構(gòu)相同。改進(jìn)后的block結(jié)構(gòu)在第一層上與原結(jié)構(gòu)相同,通過1×1×1的三維卷積核拆分并壓縮特征塊的通道。第二層采用1×3×3 的核僅在空間維度上卷積。第三層僅對(duì)時(shí)間維度卷積,對(duì)第二層的輸出分別采用1×1×1,3×1×1,5×1×1 三種不同尺寸的卷積核,并分別對(duì)對(duì)應(yīng)特征塊時(shí)間維度上進(jìn)行0、1、2尺寸的padding,使三種卷積核的輸出特征塊在時(shí)間維度上尺寸相同,然后在channel 的維度上拼接,最后通過卷積核尺寸為1×1×1的卷積層將特征塊通道恢復(fù)到輸入大小并與輸入殘差連接。
由于存在相機(jī)位移、背景變化等與運(yùn)動(dòng)主體行為無關(guān)的運(yùn)動(dòng),在提取特征時(shí)會(huì)包含無效的信息。采用self-attention 機(jī)制,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示?;叶纫曨l塊經(jīng)過兩層三維卷積后得到的特征塊{C1,C2,…Ck},其中Ck為第k 個(gè)通道的特征塊,w,h,d 分別為視頻幀特征塊的寬,高和幀數(shù)。{C1,C2,…Ck}分別經(jīng)過三個(gè)卷積分支,其中3D Conv1、3D Conv2 將通道壓縮至原來的1/a,將特征塊尺寸reshape 成(h×w,k/a,d)與(k/a,h×w,d)并在特征塊的寬和高的方向相乘得到尺寸為(h×w,h×w,d)的特征塊,再與經(jīng)過3D Conv3 卷積并將尺寸reshape 成(k,h×w,d)的特征塊在寬和高的方向相乘,得到的特征塊尺寸為(k,h×w,d)。最后經(jīng)過reshape 成與特征塊{C1,C2,…Ck}尺寸相同注意力矩陣。
圖3 Self-attention機(jī)制結(jié)構(gòu)
為了獲取不同時(shí)間跨度的特征信息,我們?cè)?D ResNeXt Block 中,將對(duì)視頻塊在時(shí)序通道上的卷積采用了三種尺度的卷積核,使提取到的特征中融合了更多不同時(shí)間跨度的運(yùn)動(dòng)特征。同時(shí)將空間通道的卷積與時(shí)間通道分離,減小了模型參數(shù)量。視頻的本質(zhì)是序列,模型前半部分的三維卷積對(duì)視頻數(shù)據(jù)的空間通道及短距離相鄰的時(shí)間通道壓縮編碼。即對(duì)應(yīng)的是相當(dāng)于將一個(gè)完整行為分割成多個(gè)微運(yùn)動(dòng),再對(duì)每個(gè)微動(dòng)作編碼。模型后半部分采用的Multihead Attention 采用的是自然語言處理中Transformer的編碼器部分,將各個(gè)微動(dòng)作的編碼綜合,進(jìn)一步抽象融合成一個(gè)具體的行為特征。
本實(shí)驗(yàn)數(shù)據(jù)采用的是UCF101 與HMDB51 公開數(shù)據(jù)集。其中UCF101 數(shù)據(jù)集中包含101 種行為類別,是在日?,F(xiàn)實(shí)環(huán)境中拍攝的13320 個(gè)視頻片段。HMDB51 數(shù)據(jù)集中包含51 種行為類別,6849個(gè)視頻片段,主要來源于影視作品,小部分來自現(xiàn)實(shí)環(huán)境。
數(shù)據(jù)集中的視頻片段隨機(jī)抽取80%作為訓(xùn)練集,20%測(cè)試集。每個(gè)視頻均勻分割成16 個(gè)部分,每個(gè)部分中隨機(jī)抽取連續(xù)的四幀,總幀數(shù)少于64的視頻,不足的幀用空白畫面補(bǔ)全。每一幀的大小按寬高比縮放并用零像素補(bǔ)全將尺寸調(diào)整至112×112。
深度網(wǎng)絡(luò)模型由pytorch 框架搭建。在UCF101 與HMDB51 數(shù)據(jù)集下,對(duì)單獨(dú)使用灰度幀的輸入分支、RGB幀輸入分支和融合兩種輸入的方式分別進(jìn)行了測(cè)試,未經(jīng)預(yù)訓(xùn)練的結(jié)果如表1所示。
表1 改進(jìn)的模型準(zhǔn)確率
從表1 中可以看出,融合了灰度幀分支和RGB幀分支的模型在準(zhǔn)確率上相對(duì)獨(dú)立分支有了很大提升。在加入Self-attention 機(jī)制后模型的準(zhǔn)確率進(jìn)一步增高,表明了Self-attention機(jī)制的有效性。
表2 展示了本文方法與已有算法模型經(jīng)過預(yù)訓(xùn)練后,在UCF101 與HMDB51 數(shù)據(jù)集上準(zhǔn)確率的比較。其中的Pre-training 為模型預(yù)訓(xùn)練使用的數(shù)據(jù)集。本文改進(jìn)的模型經(jīng)過kinetics數(shù)據(jù)集預(yù)訓(xùn)練后,與原始的ResNeXt101 算法相比,在HMDB51 數(shù)據(jù)集上的提升更明顯。通過表1、表2,表明了本文在模型結(jié)構(gòu)設(shè)計(jì),ResNeXt Block 的改進(jìn)上對(duì)視頻行為識(shí)別準(zhǔn)確率的提升方面具有一定的作用。
表2 不同模型準(zhǔn)確率比較
近些年來,深度學(xué)習(xí)方法已經(jīng)在計(jì)算機(jī)視覺的圖像領(lǐng)域取得了巨大的成功。由于其端到端訓(xùn)練的設(shè)計(jì)思想簡(jiǎn)單,在海量數(shù)據(jù)的支持下,相較于人工設(shè)計(jì)的圖像分析算法可以應(yīng)付更復(fù)雜的環(huán)境,識(shí)別效果好,因而得到了越來越多的研究者的關(guān)注。相對(duì)于圖像分類,視頻中行為特征更豐富,語義更抽象,還有其在時(shí)間上的連續(xù)性都給識(shí)別任務(wù)增加了難度。雖然自行為識(shí)別研究以來已經(jīng)取得了不少成果,但是任然有很多困難需要面對(duì)。例如復(fù)雜的行為,多個(gè)運(yùn)動(dòng)主體的互動(dòng)及場(chǎng)景的多變等;在視頻的時(shí)序關(guān)系上,同個(gè)行為持續(xù)的時(shí)間有長(zhǎng)有短,開始與結(jié)束的分界很模糊,本文在ResNeXt Block 的改進(jìn)中采用的多時(shí)間尺度卷積核、對(duì)視頻進(jìn)行序列編碼后采用自然語言處理的方式針對(duì)這個(gè)問題雖然有所改善,但無法有效解決對(duì)需要長(zhǎng)時(shí)序關(guān)系推理、時(shí)效性要求高的行為識(shí)別任務(wù)中,未來還有很多問題有待研究。