国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征融合時(shí)序分割網(wǎng)絡(luò)的行為識(shí)別研究

2020-01-09 03:39李洪均丁宇鵬李超波張士兵
關(guān)鍵詞:光流時(shí)序卷積

李洪均 丁宇鵬 李超波 張士兵,3

1(南通大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇南通 226019)2(計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室(南京大學(xué)) 南京 210023)3(南通智能信息技術(shù)聯(lián)合研究中心 江蘇南通 226019)4(通科微電子學(xué)院 江蘇南通 226019)

人體行為識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù),受光照不同、背景復(fù)雜、多視角、類內(nèi)差異大等諸多因素的影響[1-3].人體行為識(shí)別算法主要分為2種:1)基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法[4-13];2)基于深度學(xué)習(xí)的方法[14-18].這2種方法各有優(yōu)劣,基于傳統(tǒng)機(jī)器學(xué)習(xí)的行為識(shí)別算法關(guān)鍵在于特征的提取,研究過(guò)程中往往會(huì)花費(fèi)心力設(shè)計(jì)滿足需求的特征,實(shí)現(xiàn)簡(jiǎn)單,但其表征行為動(dòng)作的能力也受限于提取的特征;基于深度學(xué)習(xí)的行為識(shí)別算法能夠自動(dòng)學(xué)習(xí)特征,但需要大量數(shù)據(jù)支撐,自動(dòng)提取的特征是否有效與網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、網(wǎng)絡(luò)參數(shù)選取等息息相關(guān).

行為識(shí)別中應(yīng)用深度學(xué)習(xí)最直接的方法即使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)對(duì)視頻的每一幀進(jìn)行識(shí)別,但這種方法并沒(méi)有考慮到連續(xù)視頻幀之間的運(yùn)動(dòng)信息.Ji等人[19]首次提出了3D卷積的概念,利用3D卷積核提取空間和時(shí)間特征用于行為識(shí)別.Simonyan等人[20]提出了雙流卷積神經(jīng)網(wǎng)絡(luò)用于行為識(shí)別,該網(wǎng)絡(luò)分為空間流卷積網(wǎng)絡(luò)和時(shí)間流卷積網(wǎng)絡(luò)2個(gè)部分.空間流卷積網(wǎng)絡(luò)以單幀RGB圖像為輸入,表示視頻中某一刻的靜態(tài)表觀信息;時(shí)間流卷積網(wǎng)絡(luò)以連續(xù)幾幀光流圖像堆疊在一起為輸入,表示物體的運(yùn)動(dòng)信息,最后將2個(gè)網(wǎng)絡(luò)的分類結(jié)果融合得到最終準(zhǔn)確率,該模型的提出打破了改進(jìn)版的稠密軌跡提取算法(improved dense trajectories, IDT)[21]在行為識(shí)別領(lǐng)域的領(lǐng)先地位.Tran等人[15]提出了一種新的3D卷積神經(jīng)網(wǎng)絡(luò)(convolutional 3 dimention, C3D),C3D網(wǎng)絡(luò)將連續(xù)視頻幀堆疊起來(lái)作為網(wǎng)絡(luò)輸入,利用3D卷積核在堆疊后形成的立方體中進(jìn)行卷積,較2D卷積核多了時(shí)間維度,這樣可以從連續(xù)幀上獲取運(yùn)動(dòng)信息,該算法最大的優(yōu)勢(shì)是識(shí)別速度較雙流算法提升了很多.至此,行為識(shí)別算法形成了兩大主流流派:一種是基于雙流卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別算法;另一種是基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別算法.

目前,主流的行為識(shí)別網(wǎng)絡(luò)輸入數(shù)據(jù)為RGB圖像和光流圖像.對(duì)于空間流卷積網(wǎng)絡(luò),輸入數(shù)據(jù)為RGB圖像,最開(kāi)始的空間流網(wǎng)絡(luò)采用逐幀輸入的方式,而目前公開(kāi)的數(shù)據(jù)集往往單幀圖像就能完成識(shí)別任務(wù),這種情況下空間流卷積網(wǎng)絡(luò)的輸入就存在大量冗余信息.為了減少逐幀輸入時(shí)連續(xù)幀之間的冗余,Zhu等人[22]提出了一種關(guān)鍵幀獲取的方法,挖掘視頻中對(duì)于行為識(shí)別有決定性的幀和關(guān)鍵區(qū)域,以此來(lái)提升準(zhǔn)確率與效率.雖然這個(gè)提取關(guān)鍵幀的方法可以集成到1個(gè)網(wǎng)絡(luò)中訓(xùn)練,但是其與目標(biāo)檢測(cè)網(wǎng)絡(luò)RCNN類似,先提取候選框,再選關(guān)鍵幀,網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜;Kar等人[23]提出了一種AdaScan特征聚集方法,判斷不同幀的重要程度,并據(jù)此聚集特征以實(shí)現(xiàn)提升準(zhǔn)確率與效率的目的,該方法整體模型較前一種方法簡(jiǎn)單.對(duì)于時(shí)間流卷積網(wǎng)絡(luò),輸入數(shù)據(jù)為光流圖像,光流提取耗時(shí)耗力,并且光流所包含的運(yùn)動(dòng)特征未必是最優(yōu)特征.不少研究者對(duì)光流進(jìn)行了改進(jìn),并且對(duì)其在行為識(shí)別中起到的作用進(jìn)行了研究.Zhu等人[24]提出了一種雙流卷積網(wǎng)絡(luò),在時(shí)間流網(wǎng)絡(luò)之前加入了MotionNet生成光流圖像,作為時(shí)間流卷積網(wǎng)絡(luò)的輸入,該方法提升了光流質(zhì)量;Sevilla-Lara等人[25]通過(guò)實(shí)驗(yàn)證明了光流對(duì)于行為識(shí)別有效是因?yàn)樗谋碛^特征不變性,其本身質(zhì)量評(píng)判指標(biāo)終點(diǎn)誤差(end-point-error, EPE)與行為識(shí)別準(zhǔn)確率并無(wú)強(qiáng)相關(guān)性,從測(cè)試的光流算法來(lái)看,光流在邊界處以及小位移處的精度對(duì)于行為識(shí)別算法性能的提升有強(qiáng)相關(guān)性,并且通過(guò)行為識(shí)別的損失函數(shù)值對(duì)光流進(jìn)行改進(jìn),使得識(shí)別準(zhǔn)確率得以提升.同樣,由于光流圖像的弊端,也有不少研究者在尋找能夠替代光流的特征方面做了一些工作.Zhang等人[26]利用運(yùn)動(dòng)向量來(lái)替代光流,運(yùn)動(dòng)向量原本用于視頻壓縮,不需要額外的計(jì)算就可以直接提取,極大地加快了雙流卷積網(wǎng)絡(luò)的識(shí)別速度,但精度有所降低;Choutas等人[27]提出了一種新型姿態(tài)特征,通過(guò)提取人體關(guān)鍵關(guān)節(jié)點(diǎn)的軌跡,并對(duì)其進(jìn)行顏色編碼,形成姿態(tài)特征圖像用于行為識(shí)別,其對(duì)于RGB圖像和光流圖像所提供的特征具有補(bǔ)充作用,單一使用表現(xiàn)不佳.僅通過(guò)改變雙流網(wǎng)絡(luò)的交互方式和提取新的運(yùn)動(dòng)特征作為網(wǎng)絡(luò)輸入,并不能同時(shí)解決精度與速度的問(wèn)題,網(wǎng)絡(luò)結(jié)構(gòu)的改變對(duì)于算法性能的提升也有決定性的作用.

近年來(lái),主要的行為識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)大都基于雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)發(fā)展而來(lái).Wang等人[28]提出了時(shí)序分割網(wǎng)絡(luò)(temporal segment network, TSN),利用多個(gè)雙流網(wǎng)絡(luò)提取不同時(shí)序位置上的短時(shí)運(yùn)動(dòng)信息并進(jìn)行融合,以解決傳統(tǒng)雙流只關(guān)注表觀特征和短時(shí)運(yùn)動(dòng)信息的問(wèn)題.Lan等人[29]繼承了TSN的優(yōu)良特性,對(duì)于不同時(shí)序位置上的短時(shí)運(yùn)動(dòng)信息進(jìn)行了加權(quán)融合;Zhou等人[30]提出了時(shí)序推理網(wǎng)絡(luò),該網(wǎng)絡(luò)建立在TSN基礎(chǔ)之上,增加了3層全連接網(wǎng)絡(luò)學(xué)習(xí)不同長(zhǎng)度視頻幀的權(quán)重,并對(duì)不同長(zhǎng)度的視頻幀進(jìn)行時(shí)序推理,最后進(jìn)行融合得到結(jié)果.Xu等人[31]結(jié)合了C3D和Faster-RCNN(faster-region convolutional neural network)[32]的思想提出了R-C3D(region-convolutional 3D network),R-C3D使用3D卷積提取視頻特征,采用了Faster-RCNN形式的思路,即先生成提議,再進(jìn)行候選區(qū)域池化,最后進(jìn)行分類和邊界回歸,該網(wǎng)絡(luò)可以對(duì)任意長(zhǎng)度的視頻進(jìn)行端到端行為識(shí)別,并且速度快、通用性好;Qiu等人[33]針對(duì)行為識(shí)別中采用的3D卷積進(jìn)行改造,提出了P3D網(wǎng)絡(luò)(pseudo-3D residual net, P3D ResNet),利用1×1×3卷積和3×1×1卷積代替3×3×3卷積,前者與2D卷積類似,提取空間流特征,后者用來(lái)獲取時(shí)間流特征,這種方法大大減少了計(jì)算量.不僅雙流卷積網(wǎng)絡(luò)和3D卷積神經(jīng)網(wǎng)絡(luò)可以提取時(shí)間流信息,利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[34]也可以進(jìn)行時(shí)間維度建模,這也是目前行為識(shí)別領(lǐng)域比較流行的一個(gè)方向.Long等人[35]提出了一種結(jié)合注意力機(jī)制的多模態(tài)LSTM結(jié)構(gòu),穩(wěn)定性高;Du等人[36]引入姿態(tài)注意力機(jī)制,結(jié)合了LSTM和CNN結(jié)構(gòu),能夠有效提取時(shí)空特征.另外,還有研究者在構(gòu)成深度網(wǎng)絡(luò)的通用部件方面做了研究,Wang等人[37]提出了一種新型的非局部網(wǎng)絡(luò)結(jié)構(gòu),將非局部操作作為一個(gè)高效、簡(jiǎn)單、通用的組件,能夠用來(lái)捕捉神經(jīng)網(wǎng)絡(luò)中的長(zhǎng)距離依賴關(guān)系.深度學(xué)習(xí)算法以雙流結(jié)構(gòu)和3D卷積為主,其中基于雙流結(jié)構(gòu)的算法精度高,速度較慢;而基于3D卷積的算法速度快,精度略低,整體高于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,在應(yīng)對(duì)復(fù)雜背景、類內(nèi)變化大等問(wèn)題方面較傳統(tǒng)算法有很大優(yōu)勢(shì).

本文針對(duì)主流的雙流卷積網(wǎng)絡(luò)輸入數(shù)據(jù)為RGB圖像和光流圖像的局限,利用低秩空間中稀疏特征能夠有效捕捉視頻中運(yùn)動(dòng)物體的信息特點(diǎn),對(duì)網(wǎng)絡(luò)輸入數(shù)據(jù)進(jìn)行補(bǔ)充.同時(shí),針對(duì)網(wǎng)絡(luò)中缺乏信息交互的特點(diǎn),將深度網(wǎng)絡(luò)中高層語(yǔ)義信息和低層細(xì)節(jié)信息結(jié)合起來(lái)共同識(shí)別行為動(dòng)作,使網(wǎng)絡(luò)性能更具優(yōu)勢(shì).本文的主要貢獻(xiàn)有2方面:

1) 研究了基于時(shí)序分割網(wǎng)絡(luò)的雙流卷積神經(jīng)網(wǎng)絡(luò),從網(wǎng)絡(luò)輸入數(shù)據(jù)的角度展開(kāi)研究,提出了融合稀疏特征的時(shí)序分割網(wǎng)絡(luò),更好地聚焦運(yùn)動(dòng)目標(biāo).

2) 針對(duì)特征利用率低的問(wèn)題,從網(wǎng)絡(luò)結(jié)構(gòu)的角度展開(kāi)研究,提出了多層特征融合的行為識(shí)別時(shí)序分割網(wǎng)絡(luò),更好地融合特征.

1 相關(guān)工作

1.1 雙流卷積神經(jīng)網(wǎng)絡(luò)

雙流卷積神經(jīng)網(wǎng)絡(luò)分為空間流卷積神經(jīng)網(wǎng)絡(luò)和時(shí)間流卷積神經(jīng)網(wǎng)絡(luò),這2個(gè)卷積神經(jīng)網(wǎng)絡(luò)分別處理視頻的空間維度和時(shí)間維度,分別提取空間信息和時(shí)間信息,雙流卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)如圖1所示.其中,空間信息是指視頻中的場(chǎng)景、物體等信息;時(shí)間信息是指視頻中物體的運(yùn)動(dòng)信息.

空間流卷積神經(jīng)網(wǎng)絡(luò)的輸入是單幀的RGB圖像,能有效地識(shí)別靜止圖像中的人體行為動(dòng)作,網(wǎng)絡(luò)結(jié)構(gòu)類似于常用的圖像分類網(wǎng)絡(luò),通常使用Alexnet,VGG16,GoogleNet等深度模型作為空間流卷積神經(jīng)網(wǎng)絡(luò),一般先在ImageNet上預(yù)訓(xùn)練,然后再將預(yù)訓(xùn)練的參數(shù)遷移到空間流網(wǎng)絡(luò)中來(lái),以提升網(wǎng)絡(luò)訓(xùn)練速度和性能.時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的輸入是堆疊的連續(xù)幀光流圖像,光流能夠表示視頻中物體的運(yùn)動(dòng)信息,是利用像素點(diǎn)在時(shí)域上的變化以及其在連續(xù)幀上的相關(guān)性來(lái)表示物體運(yùn)動(dòng)的一種方式.利用光流的這一特性,能有效識(shí)別連續(xù)幀之間的人體行為動(dòng)作,為了時(shí)空網(wǎng)絡(luò)融合時(shí)特征維度相匹配,時(shí)間流網(wǎng)絡(luò)結(jié)構(gòu)通常和空間流卷積網(wǎng)絡(luò)相同.

Fig. 1 Two-stream convolutional neural network圖1 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

雙流網(wǎng)絡(luò)的融合是指空間流網(wǎng)絡(luò)與時(shí)間流網(wǎng)絡(luò)之間的融合,一般分為2種形式:1)空間流和時(shí)間流2個(gè)獨(dú)立卷積網(wǎng)絡(luò)在它們的Softmax層后進(jìn)行融合,只是結(jié)果的融合,通常使用平均法和加權(quán)法融合不同類別的得分,得到最后的結(jié)果;2)時(shí)空網(wǎng)絡(luò)在中間特征層融合.一般在某一網(wǎng)絡(luò)層進(jìn)行時(shí)空特征融合后形成混合的時(shí)空卷積網(wǎng)絡(luò);另一種融合方式是形成混合的時(shí)空卷積網(wǎng)絡(luò)之后,保留單純的空間流卷積網(wǎng)絡(luò)或者時(shí)間流卷積網(wǎng)絡(luò),Softmax層之后再一次融合不同類別的得分,得到最終的結(jié)果.

1.2 3D卷積神經(jīng)網(wǎng)絡(luò)

在視頻序列中使用卷積神經(jīng)網(wǎng)絡(luò),最直接的方法是對(duì)視頻序列的每一幀圖像使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別,但是這樣對(duì)單幀圖像的處理沒(méi)有考慮連續(xù)幀之間的信息,在行為識(shí)別中行為的發(fā)生一般會(huì)持續(xù)一個(gè)過(guò)程,在連續(xù)幀之間存在運(yùn)動(dòng)信息.那么,為了有效利用連續(xù)幀之間的運(yùn)動(dòng)信息,文獻(xiàn)[15]提出一種3D卷積神經(jīng)網(wǎng)絡(luò)的方法,即在卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中采用3D卷積核進(jìn)行卷積,3D卷積核與2D卷積核相比,增加了時(shí)間維度,可以同時(shí)獲取時(shí)間和空間維度的特征,在行為識(shí)別特征表示方面優(yōu)于2D卷積.2D卷積是在單幀圖像的基礎(chǔ)上進(jìn)行卷積,通常選取3×3大小的卷積核,將2D卷積應(yīng)用于圖像將輸出圖像,將2D卷積應(yīng)用于多個(gè)圖像,將它們視為不同的通道,也會(huì)得到圖像.因此,2D卷積網(wǎng)絡(luò)在每次卷積操作之后都會(huì)丟失輸入信號(hào)的時(shí)間信息.3D卷積是在相鄰的幾幀圖像上進(jìn)行卷積,卷積核大小一般為3×3×3,只有3D卷積才能保留輸入信號(hào)的時(shí)間信息,如圖2所示:

Fig. 2 2D convolution and 3D convolution圖2 2D卷積與3D卷積

3D卷積神經(jīng)網(wǎng)絡(luò)體現(xiàn)時(shí)間維度是將多個(gè)連續(xù)的圖像幀堆疊在一起,形成1個(gè)立方體,然后在立方體中使用3D卷積核進(jìn)行卷積,卷積核的深度要小于堆疊的圖像幀的數(shù)量.因此,3D卷積中的每一個(gè)特征都會(huì)有相鄰幀的特征相連,在連續(xù)幀上的表示便能獲取到視頻中物體的運(yùn)動(dòng)信息.

1.3 時(shí)序分割網(wǎng)絡(luò)

給定1個(gè)視頻V,把它分成K段{S1,S2,…,SK},每段的時(shí)長(zhǎng)相等.那么時(shí)序分割網(wǎng)絡(luò)可以表示為

QTSN(T1,T2,…,TK)=H(g(F(T1;W),F(T2;W),…,F(TK;W))),

(1)

其中,(T1,T2,…,TK)是視頻V中的單一幀組成的序列,而Tk是由其對(duì)應(yīng)的視頻子片段Sk中的幀隨機(jī)采樣產(chǎn)生,k∈{1,2,…,K};F(Tk;W)是輸入屬于不同類別的分?jǐn)?shù)預(yù)測(cè)函數(shù),即視頻幀Tk經(jīng)參數(shù)為W的卷積神經(jīng)網(wǎng)絡(luò)后得到1個(gè)C維的向量,其表示Tk分別屬于C類行為動(dòng)作的預(yù)測(cè)得數(shù);g(·)是段共識(shí)函數(shù),將多個(gè)子視頻經(jīng)卷積神經(jīng)網(wǎng)絡(luò)得到的預(yù)測(cè)結(jié)果進(jìn)行融合,獲得關(guān)于視頻所屬類別的一致性預(yù)測(cè)結(jié)果G=(G1,G2,…,GC)T,C表示類別數(shù);基于以上的一致性預(yù)測(cè)結(jié)果,使用函數(shù)H(·)預(yù)測(cè)整個(gè)視頻屬于每個(gè)行為類別的概率,這里H(·)使用Softmax函數(shù),概率最高的類別就是視頻V所屬類別.結(jié)合分類常用的交叉熵?fù)p失,最終視頻V的類別預(yù)測(cè)損失函數(shù)可以表示為

(2)

其中,yi表示類別i的真值.這種時(shí)序分割網(wǎng)絡(luò)是可微的,或者至少有次梯度的,由函數(shù)g(·)的選擇決定,可以用反向傳播算法和多個(gè)子視頻幀來(lái)聯(lián)合優(yōu)化模型參數(shù)W.在反向傳播過(guò)程中,模型參數(shù)W關(guān)于損失值L的梯度為

(3)

其中,K是TSN使用的子視頻段數(shù).TSN從整個(gè)視頻中學(xué)習(xí)模型參數(shù)而不是1個(gè)短的片段.與此同時(shí),通過(guò)對(duì)所有視頻固定K,采用了一種稀疏時(shí)間采樣策略,其中采樣片段只包含一小部分幀.與先前使用密集采樣幀的方法相比,這種方法大大降低計(jì)算開(kāi)銷.時(shí)序分割網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示:

Fig. 3 Temporal segment network圖3 時(shí)序分割網(wǎng)絡(luò)結(jié)構(gòu)

2 特征融合時(shí)序分割網(wǎng)絡(luò)的行為識(shí)別

本節(jié)將詳細(xì)從網(wǎng)絡(luò)輸入數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)2個(gè)方面展開(kāi)研究:1)研究了融合稀疏特征的網(wǎng)絡(luò)輸入數(shù)據(jù),目的是稀疏特征聚焦于視頻中的前景目標(biāo),能夠有效地提取圖像中的運(yùn)動(dòng)物體,減少冗余信息,與RGB圖像和光流圖像包含的信息形成互補(bǔ);2)利用卷積神經(jīng)網(wǎng)絡(luò)可視化驗(yàn)證了淺層卷積能提取細(xì)節(jié)特征,深層卷積能提取語(yǔ)義特征,將深度網(wǎng)絡(luò)中高層特征的語(yǔ)義信息和低層特征的細(xì)節(jié)信息相結(jié)合,利用不同卷積層之間的特征優(yōu)勢(shì)互補(bǔ),有利于網(wǎng)絡(luò)捕捉人體行為的整體特征和不同類別之間的細(xì)節(jié)特征,從而提升行為識(shí)別的準(zhǔn)確率.圖4為算法的流程圖.具體步驟為:1)將輸入的視頻平均分為3個(gè)子視頻,對(duì)3個(gè)子視頻隨機(jī)采樣,獲取樣本的RGB、光流以及稀疏圖像,分別輸入到卷積網(wǎng)絡(luò)中;2)提取各數(shù)據(jù)類型不同卷積層的特征,將卷積網(wǎng)絡(luò)提取的特征按照不同的樣本類型進(jìn)行融合;3)利用Softmax函數(shù)進(jìn)行行為分類.

Fig. 4 Diagram of action recognition of temporal segment network based on feature fusion圖4 特征融合時(shí)序分割網(wǎng)絡(luò)的行為識(shí)別框圖

2.1 稀疏特征

許多實(shí)際應(yīng)用中已知的數(shù)據(jù)矩陣D往往是低秩或近似低秩的,但存在隨機(jī)幅值任意大且分布稀疏的誤差破壞了原有數(shù)據(jù)的低秩性,為了恢復(fù)矩陣D的低秩結(jié)構(gòu),可將矩陣D分解為2個(gè)矩陣之和,即D=A+E,其中矩陣A和E未知,但A是低秩的,E是稀疏的.

當(dāng)矩陣E的元素服從獨(dú)立同分布的高斯分布時(shí),可用經(jīng)典的主成分分析方法來(lái)獲得最優(yōu)的矩陣A,即轉(zhuǎn)換為最優(yōu)化問(wèn)題:

(4)

當(dāng)E為稀疏的大噪聲矩陣時(shí),PCA無(wú)法給出理想的結(jié)果,可用魯棒性主成分分析(robust principal component analysis, RPCA)來(lái)獲取最優(yōu)矩陣A,則式(4)問(wèn)題可以轉(zhuǎn)化為優(yōu)化問(wèn)題:

(5)

其中秩函數(shù)rank(·)、矩陣的0范數(shù)均非凸,變成了NP-hard問(wèn)題,需要對(duì)其松弛.因?yàn)椋朔稊?shù)是秩函數(shù)的凸包,且1范數(shù)是0范數(shù)的凸包,故式(5)的NP-hard問(wèn)題松弛后可轉(zhuǎn)化為凸優(yōu)化問(wèn)題:

Fig. 5 Comparison of RGB, optical flow and low rank data圖5 RGB、光流和低秩數(shù)據(jù)對(duì)比

(6)

對(duì)于式(6)所描述的RPCA問(wèn)題,可以使用增廣拉格朗日乘子法來(lái)優(yōu)化,拉格朗日函數(shù)為

(7)

其中,Y為拉格朗日乘子,μ是1個(gè)較小的正數(shù).

RPCA在圖像和視頻處理方向應(yīng)用廣泛,常用于圖像矯正、去噪、視頻背景建模與前景目標(biāo)提取等方面,類似地,還有圖像分割、顯著性檢測(cè)等[38-42].對(duì)于視頻中的前景目標(biāo)分割,由于幀與幀之間的相關(guān)性,背景被近似為低秩分量;而前景目標(biāo)只占據(jù)圖像中一小部分像素,例如人體運(yùn)動(dòng),運(yùn)動(dòng)的人體部分可以看作是稀疏分量.通過(guò)以上的增廣拉格朗日乘子法求解RPCA問(wèn)題,對(duì)于行為動(dòng)作視頻可以得到如圖5所示的稀疏特征.圖5中第1行表示RGB圖像,第2行表示x軸方向的行為運(yùn)動(dòng)光流圖像,第3行表示y軸方向的行為運(yùn)動(dòng)光流圖像,第4行表示稀疏圖像.由圖5可知,RGB圖像表示圖像的表觀特征,既包括背景,也包括前景目標(biāo);光流圖像表示圖像中運(yùn)動(dòng)物體的運(yùn)動(dòng)方向與速度,對(duì)于x軸方向,白色表示往右邊運(yùn)動(dòng),灰度值越高說(shuō)明運(yùn)動(dòng)速度越快,黑色表示往左邊運(yùn)動(dòng),灰度值越低說(shuō)明運(yùn)動(dòng)速度越快,其余灰色區(qū)域表示沒(méi)有運(yùn)動(dòng)物體,y軸方向同理,白色表示往上邊運(yùn)動(dòng),黑色表示往下運(yùn)動(dòng);而稀疏特征圖像不同于彩色和光流圖像,其聚焦前景目標(biāo)的行為動(dòng)作,能有效地提取出運(yùn)動(dòng)物體,同時(shí)去除背景能有效降低數(shù)據(jù)的冗余度,顯著提升網(wǎng)絡(luò)訓(xùn)練速度.

2.2 網(wǎng)絡(luò)特征融合

針對(duì)其網(wǎng)絡(luò)中缺乏信息交互的缺點(diǎn),將深度網(wǎng)絡(luò)中高層語(yǔ)義信息和低層細(xì)節(jié)信息結(jié)合起來(lái)共同識(shí)別行為動(dòng)作,使網(wǎng)絡(luò)性能更具優(yōu)勢(shì).多層特征融合是建立在卷積神經(jīng)網(wǎng)絡(luò)低層細(xì)節(jié)特征和高層語(yǔ)義特征基礎(chǔ)之上的,利用不同深度卷積層特征具備的特點(diǎn)來(lái)實(shí)現(xiàn).以inceptionv2網(wǎng)絡(luò)為例來(lái)說(shuō)明改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)工作原理,如圖6所示.該網(wǎng)絡(luò)是由多流卷積神經(jīng)網(wǎng)絡(luò)組合而成.對(duì)于空間流卷積神經(jīng)網(wǎng)絡(luò)而言,假設(shè)輸入的彩色圖像尺寸大小為224×224×3,首先選取尺寸大小為7×7、步長(zhǎng)為2的卷積核,利用卷積層提取輸入圖像的特征,得到64個(gè)大小為112×112的特征圖,然后進(jìn)行最大池化得到56×56的特征圖;選取尺寸大小為3×3、步長(zhǎng)為2的卷積核,再次卷積提取池化后的特征并二次池化,得到池化后的特征大小為28×28×192.接著,將得到的特征依次經(jīng)過(guò)10個(gè)inception結(jié)構(gòu)單元,分別是從結(jié)構(gòu)單元inception3a到inception5b,得到的特征大小為7×7×1 024,再次經(jīng)過(guò)1個(gè)平均池化輸出1×1×1 024的特征,展開(kāi)為1D向量作為全連接層的輸入之一;與此同時(shí),將淺層卷積后的輸出特征也展開(kāi)為1D向量送入全連接層.最后,以淺層卷積特征和深層卷積特征一同輸入全連接層,形成1×101的向量.

如圖6所示,以融合inception3a層的輸出特征和inception5b的輸出特征為例來(lái)說(shuō)明多層卷積特征融合過(guò)程.為了清楚說(shuō)明高低維度特征的融合原理,表1列出了卷積神經(jīng)網(wǎng)絡(luò)各層輸出的特征尺寸大小.

Table 1 Map Size of Network Layers表1 網(wǎng)絡(luò)各層輸出特征圖尺寸

Fig. 7 Feature visualization of convolutional neural networks圖7 卷積神經(jīng)網(wǎng)絡(luò)特征可視化

首先,輸入圖像經(jīng)過(guò)前2層卷積層和池化層之后得到28×28×192的特征圖,前2維數(shù)據(jù)表示特征圖的長(zhǎng)和寬,第3維數(shù)據(jù)表示通道數(shù).然后,將特征送入inception3a層,經(jīng)過(guò)inception結(jié)構(gòu)單元中的4個(gè)支路分別得到4組特征,將這4組特征串聯(lián)起來(lái)作為下一層的輸入.與此同時(shí),對(duì)該特征進(jìn)行池化操作,這里選擇平均池化,相較與最大池化,平均池化在減少維度的同時(shí),能夠保留更多的圖片背景信息,有利于信息傳遞到下一個(gè)模塊進(jìn)行特征提取,并且使得其尺寸與深層卷積特征尺寸相同,便于特征融合.另外,由于特征融合會(huì)增加特征維度,增大計(jì)算復(fù)雜度,通過(guò)卷積核為1×1的卷積做降維,得到淺層卷積特征.將淺層卷積特征與inception5b層的輸出特征串聯(lián)起來(lái),展開(kāi)為1維向量作為全連接層的輸入.

(8)

其中,1≤i≤H,1≤j≤M,1≤d≤D,并且xa,xb∈RH×M×D,y∈RH×M×D.

3 實(shí)驗(yàn)與仿真

本節(jié)在2個(gè)大型動(dòng)作數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),來(lái)驗(yàn)證融合特征的時(shí)序分割網(wǎng)絡(luò)的有效性.這2個(gè)數(shù)據(jù)集分別是UCF101和HMDB51.其中,UCF101數(shù)據(jù)集包含101個(gè)動(dòng)作類別和13 320個(gè)視頻剪輯;HMDB51數(shù)據(jù)集是包括各種來(lái)源(如電影和網(wǎng)絡(luò)視頻)的大量逼真視頻,數(shù)據(jù)集由來(lái)自51個(gè)動(dòng)作類別的6 849個(gè)視頻剪輯組成.實(shí)驗(yàn)遵循數(shù)據(jù)集原始評(píng)估方案,使用3個(gè)訓(xùn)練測(cè)試分組,分別為數(shù)據(jù)集分組1、數(shù)據(jù)集分組2、數(shù)據(jù)集分組3,并以這些分組的平均準(zhǔn)確率作為最終的行為識(shí)別準(zhǔn)確率.

本節(jié)實(shí)驗(yàn)使用小批量隨機(jī)梯度下降算法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù),批量大小設(shè)置為32,動(dòng)量設(shè)置為0.9.另外,使用數(shù)據(jù)集預(yù)先訓(xùn)練的模型初始化網(wǎng)絡(luò)權(quán)重,并在實(shí)驗(yàn)中設(shè)置了較小的學(xué)習(xí)率.對(duì)于空間網(wǎng)絡(luò),學(xué)習(xí)速率初始化為0.001,并且每2 000次迭代減少110,整個(gè)訓(xùn)練過(guò)程在10 000次迭代時(shí)停止;對(duì)于時(shí)間網(wǎng)絡(luò)和稀疏網(wǎng)絡(luò),將學(xué)習(xí)速率初始化為0.005,在12 000和18 000次迭代后減少到110,最大迭代次數(shù)設(shè)置為20 000.為了快速提取光流,選擇在OpenCV中用CUDA實(shí)現(xiàn)的TVL1光流算法;為了加速訓(xùn)練,采用了多個(gè)GPU的數(shù)據(jù)并行策略,使用Caffe和OpenMPI2實(shí)現(xiàn).

3.1 實(shí)驗(yàn)數(shù)據(jù)集

UCF101有13 320個(gè)視頻,包括101個(gè)動(dòng)作類別,動(dòng)作多樣性大,在攝像機(jī)運(yùn)動(dòng)、物體外觀和姿態(tài)、物體比例、視點(diǎn)、雜亂背景、光照條件等方面存在較大變化,并且動(dòng)作視頻均由剪輯而成,而非演員表演,具有一定的真實(shí)性,是目前最具挑戰(zhàn)性的數(shù)據(jù)集,數(shù)據(jù)集中部分動(dòng)作類別如圖8所示:

Fig. 8 Partial action categories in UCF101 dataset圖8 UCF101數(shù)據(jù)集部分動(dòng)作類別

HMDB51數(shù)據(jù)集包含6 766個(gè)視頻剪輯,分為51個(gè)動(dòng)作類別,每個(gè)動(dòng)作類別至少包含101個(gè)視頻剪輯,部分動(dòng)作類別如圖9所示.HMDB51數(shù)據(jù)集大部分來(lái)自電影,一小部分來(lái)自公共視頻網(wǎng)站,如Prelinger archive,YouTube和谷歌視頻等.

Fig. 9 Partial action categories in HMDB51 dataset圖9 HMDB51數(shù)據(jù)集部分動(dòng)作類別

3.2 實(shí)驗(yàn)環(huán)境

深度學(xué)習(xí)硬件環(huán)境:CPU E5-2696v4,GPU 2塊GTX1080Ti,256 GB固態(tài)硬盤(pán),32 GB內(nèi)存;網(wǎng)絡(luò)的學(xué)習(xí)與測(cè)試環(huán)境:Ubuntu16.04,NVIDIA CUDA 8.0,cudnnv5,Caffe,opencv3.0,Python.

3.3 稀疏特征引入效果

實(shí)驗(yàn)在UCF101和HMDB51這2個(gè)公共行為識(shí)別數(shù)據(jù)集上對(duì)其進(jìn)行了驗(yàn)證,并與近年來(lái)一些經(jīng)典算法以及常用算法進(jìn)行了比較,對(duì)比結(jié)果如表2所示:

Table 2Accuracy Comparison of Different Algorithms onUCF101 and HMDB51 Datasets

表2 UCF101和HMDB51數(shù)據(jù)集上不同算法準(zhǔn)確率比較%

Note: Bold fonts represent the best values in different algorithms.

從表2可以看出,算法分為3類:

第1類是不使用深度學(xué)習(xí)算法的傳統(tǒng)經(jīng)典機(jī)器學(xué)習(xí)算法,該類算法手動(dòng)提取行為特征,穩(wěn)定性高,在UCF101數(shù)據(jù)集上識(shí)別率可達(dá)到88%左右,在HMDB51數(shù)據(jù)集上識(shí)別率超過(guò)了61%.例如,文獻(xiàn)[46]中提出的一種名為MoFAP的組合運(yùn)動(dòng)特征,該特征由3部分組成:局部運(yùn)動(dòng)特征、運(yùn)動(dòng)原子、運(yùn)動(dòng)語(yǔ)句.其中,運(yùn)動(dòng)原子指運(yùn)動(dòng)過(guò)程中的某一子階段,而運(yùn)動(dòng)語(yǔ)句就是這些子階段的組合,例如跳高分為3個(gè)子階段,助跑、起跳和著陸,即運(yùn)動(dòng)原子;三者之間的不同組合就成為運(yùn)動(dòng)語(yǔ)句,通過(guò)這種方式使得特征對(duì)行為的表征能力更強(qiáng),以提高識(shí)別精度.

第2類是使用3D卷積的深度學(xué)習(xí)算法,該類算法速度快,可以達(dá)到實(shí)時(shí),且識(shí)別率較傳統(tǒng)算法高出4%以上.例如,文獻(xiàn)[48]認(rèn)為不同的動(dòng)作具有不同的時(shí)間和空間模式,有些行為可能需要長(zhǎng)時(shí)間的行為動(dòng)態(tài)才能辨認(rèn),提出了LTC網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)增加輸入視頻的時(shí)長(zhǎng)以提高識(shí)別準(zhǔn)確率.

第3類是使用雙流卷積神經(jīng)網(wǎng)絡(luò)的算法,該類算法精度最高,可以達(dá)到94%以上.由表2可知,融合稀疏特征的時(shí)序分割網(wǎng)絡(luò)較時(shí)序分割網(wǎng)絡(luò)有一定提升,在UCF101上識(shí)別率可達(dá)到96%以上,在HMDB51上識(shí)別率超過(guò)了76%.

3.4 多層特征融合實(shí)驗(yàn)

為了驗(yàn)證多層卷積特征融合卷積網(wǎng)絡(luò)的有效性,以UCF101數(shù)據(jù)集分組1的實(shí)驗(yàn)為例,從結(jié)構(gòu)單元inception3a層到inception5a層的輸出與inception5b層的特征進(jìn)行融合,各層融合之后的網(wǎng)絡(luò)識(shí)別率.表3列出了RGB、光流圖像和稀疏圖像訓(xùn)練的時(shí)序分割網(wǎng)絡(luò)在加入多層特征融合方法之后的識(shí)別率.與RGB圖像類似,利用光流圖像和稀疏圖像訓(xùn)練的時(shí)序分割網(wǎng)絡(luò)也是在incepteion5a層輸出的特征和incepteion5b層輸出的卷積特征融合后,得到的識(shí)別率最高,分別達(dá)到了93.56%和86.10%,光流基本維持不變,稀疏網(wǎng)絡(luò)較不融合淺層卷積特征的網(wǎng)絡(luò)識(shí)別率高了0.6%以上,說(shuō)明了淺層特征的加入對(duì)于網(wǎng)絡(luò)性能的改善.

Table 3Comparison Recognition Rate of Different ConvolutionLayers Fusion under UCF101 Dataset

表3 UCF101數(shù)據(jù)集分組1下不同卷積層融合的識(shí)別率對(duì)比%

為了進(jìn)一步驗(yàn)證多層特征融合的行為識(shí)別時(shí)序分割網(wǎng)絡(luò)的有效性,實(shí)驗(yàn)在UCF101和HMDB51這2個(gè)公共行為識(shí)別數(shù)據(jù)集上對(duì)其進(jìn)行了驗(yàn)證,并與近年來(lái)一些經(jīng)典算法以及常用算法進(jìn)行了比較,對(duì)比結(jié)果如表4所示.

Fig. 10 Accuracy confusion matrix on UCF101 dataset圖10 UCF101數(shù)據(jù)集準(zhǔn)確率混淆矩陣

從表4可以看出,多層特征融合的行為識(shí)別時(shí)序分割網(wǎng)絡(luò)較原有的融合稀疏特征的時(shí)序分割網(wǎng)絡(luò)有一定的提升,UCF101識(shí)別率為97.1%,在HMDB51數(shù)據(jù)集上可以達(dá)到76.7%,說(shuō)明淺層卷積層與深層卷積融合對(duì)于網(wǎng)絡(luò)性能的提升具有一定的作用.其準(zhǔn)確率混淆矩陣圖10和圖11所示,x軸表示預(yù)測(cè)的視頻動(dòng)作類別,y軸表示真實(shí)的視頻動(dòng)作類別,右側(cè)圖例顏色越深表示準(zhǔn)確率或者誤識(shí)率越高,顏色越淺表示準(zhǔn)確率或者誤識(shí)率越低;混淆矩陣對(duì)角線上的小方塊表示識(shí)別準(zhǔn)確率,其余位置的小方塊表示誤識(shí)率,即視頻實(shí)際屬于小方塊所在行對(duì)應(yīng)的類別,被誤識(shí)為小方塊所在列對(duì)應(yīng)的類別;且每一行小方塊對(duì)應(yīng)的概率之和為1,若該行對(duì)角線上的小方塊對(duì)應(yīng)的概率為1,該類別識(shí)別準(zhǔn)確率為100%,若該行對(duì)角線上的小方塊對(duì)應(yīng)的概率小于1,則該類別存在誤識(shí).例如UCF101數(shù)據(jù)集中,第80和第81個(gè)類別分別為滑板和滑雪,如圖12所示,分別例舉了其RGB圖像、光流圖像和稀疏圖像,可以看出這2個(gè)動(dòng)作類別較為相似,觀察混淆矩陣中局部放大部分可以發(fā)現(xiàn),這2個(gè)類別的誤識(shí)率相對(duì)于其他類別偏高.

Table 4 Accuracy Comparison of Different Algorithms on UCF101 and HMDB51 Datasets表4 UCF101和HMDB51數(shù)據(jù)集上不同算法準(zhǔn)確率比較 %

Note: Bold fonts represent the experimental results of our method.

Fig. 11 Accuracy confusion matrix on HMDB51 dataset圖11 HMDB51數(shù)據(jù)集準(zhǔn)確率混淆矩陣

Fig. 12 Legend of the 80th and 81st categories圖12 第80個(gè)和第81個(gè)類別圖例

4 總 結(jié)

本文研究了基于時(shí)序分割網(wǎng)絡(luò)的雙流卷積神經(jīng)網(wǎng)絡(luò),并在它的基礎(chǔ)上提出了融合稀疏特征的時(shí)序分割網(wǎng)絡(luò).同時(shí)針對(duì)特征利用率低的問(wèn)題,提出了多層特征融合的行為識(shí)別時(shí)序分割網(wǎng)絡(luò).本文基于稀疏特征和多層特征融合的行為識(shí)別網(wǎng)絡(luò),算法在公共庫(kù)UCF101和HMDB51上的識(shí)別效果要好于主流算法.

人體動(dòng)作識(shí)別是一項(xiàng)具有挑戰(zhàn)的任務(wù),本文提出特征融合時(shí)序分割網(wǎng)絡(luò)的行為識(shí)別,從網(wǎng)絡(luò)輸入數(shù)據(jù)的角度展開(kāi)研究,雖然在一定程度上和RGB圖像以及光流圖像表示的特征存在互補(bǔ),但單獨(dú)使用時(shí),效果均不如RGB圖像和光流圖像,如何優(yōu)化稀疏特征,減少矩陣分解過(guò)程中的信息缺失,提高它的表征能力,是需要進(jìn)一步研究.針對(duì)特征利用率低的問(wèn)題,從網(wǎng)絡(luò)結(jié)構(gòu)的角度展開(kāi)研究,提出了多層特征融合的行為識(shí)別時(shí)序分割網(wǎng)絡(luò),主要研究了淺層特征與深層特征的融合,雖然一定程度上提高了特征利用率,但是這還遠(yuǎn)遠(yuǎn)不夠,不同網(wǎng)絡(luò)之間的特征交互是需要進(jìn)一步研究.目前,大多數(shù)行為識(shí)別方法都使用光流來(lái)表示運(yùn)動(dòng)特征,但光流提取耗時(shí)耗力,并且光流所包含的運(yùn)動(dòng)特征未必是最優(yōu)特征,尋找優(yōu)質(zhì)的運(yùn)動(dòng)特征替代光流,提升行為識(shí)別效率,這些需要進(jìn)一步研究和探索.

猜你喜歡
光流時(shí)序卷積
顧及多種弛豫模型的GNSS坐標(biāo)時(shí)序分析軟件GTSA
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
基于改進(jìn)Cycle-GAN的光流無(wú)監(jiān)督估計(jì)方法
清明
基于GEE平臺(tái)與Sentinel-NDVI時(shí)序數(shù)據(jù)江漢平原種植模式提取
一種多尺度光流預(yù)測(cè)與融合的實(shí)時(shí)視頻插幀方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
你不能把整個(gè)春天都搬到冬天來(lái)
基于自適應(yīng)紋理復(fù)雜度的仿生視覺(jué)導(dǎo)航方法研究
古蔺县| 黎川县| 临安市| 石门县| 亚东县| 平武县| 漳平市| 朝阳市| 手机| 安仁县| 和硕县| 郴州市| 遵化市| 新安县| 余庆县| 大姚县| 社会| 河曲县| 嵊泗县| 义乌市| 兴化市| 泊头市| 图们市| 民县| 台州市| 丰原市| 商城县| 婺源县| 鞍山市| 交口县| 城口县| 五原县| 施秉县| 神池县| 横山县| 秦皇岛市| 宜宾县| 焉耆| 钟祥市| 元江| 临汾市|