国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙流網(wǎng)絡(luò)融合與時(shí)空卷積的人體行為識別

2021-11-10 03:41:01秦悅石躍祥
關(guān)鍵詞:光流雙流時(shí)空

秦悅 石躍祥

關(guān)鍵詞:深度學(xué)習(xí);時(shí)空卷積網(wǎng)絡(luò);雙流融合網(wǎng)絡(luò);R(2+1)D

近年來,隨著計(jì)算機(jī)科學(xué)與信息技術(shù)的快速發(fā)展,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域取得了一系列顯著成果。鑒于互聯(lián)網(wǎng)上多媒體視頻的激增,視頻行為識別在視頻監(jiān)控,人機(jī)交互和社交視頻推薦等方面也出現(xiàn)了廣泛的應(yīng)用。行為識別已經(jīng)成為計(jì)算機(jī)視覺重要分支中一個(gè)研究重點(diǎn)和難點(diǎn)?,F(xiàn)階段,該項(xiàng)研究仍存在許多困難。第一,相比圖像識別,視頻多出一個(gè)時(shí)序維度,即不僅要得出每幀視頻的靜態(tài)空間結(jié)構(gòu)信息,還要考慮視頻每幀之間的相似性問題和時(shí)態(tài)變化信息。第二,為了提高網(wǎng)絡(luò)的學(xué)習(xí)能力,研究中的深度學(xué)習(xí)算法不斷加深網(wǎng)絡(luò),容易出現(xiàn)效果變差的退化問題。盡管任何視頻幀都可用圖像來表示,但對僅基于動(dòng)作外觀無法捕獲的運(yùn)動(dòng)模式,特定的時(shí)空表示顯得至關(guān)重要。因此這項(xiàng)任務(wù)的關(guān)鍵在于如何合理使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行時(shí)空特征的聯(lián)合提取。空間特征主要涉及到視頻動(dòng)作中主體對象的外觀描述和環(huán)境描述,其本質(zhì)即靜態(tài)圖像識別,因此應(yīng)著重加強(qiáng)空間建模能力,從而更高效地獲取空間語義。對此深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法已取得很好的效果并廣泛應(yīng)用。時(shí)間特征是通過捕獲光流特征——在幾個(gè)連續(xù)幀之間堆疊的光流位移場,明確地描述視頻幀之間的運(yùn)動(dòng)特征。光流網(wǎng)絡(luò)不需要隱式地估計(jì)運(yùn)動(dòng)類別,可大大降低識別的難度。

針對時(shí)空特征的聯(lián)合問題,研究人員提出眾多辦法。第一個(gè)嘗試是空間特征信息與時(shí)間運(yùn)動(dòng)信息并行建模,利用兩個(gè)CNN網(wǎng)絡(luò)將原始視頻幀和光流圖片被用作輸人流分別進(jìn)行訓(xùn)練的雙流神經(jīng)網(wǎng)絡(luò)。第二個(gè)嘗試,在識別靜止圖像的2D ConvNets(C2D)基礎(chǔ)上,提出3D ConvNets(C3D)來處理視頻數(shù)據(jù)。在C3D中,將2D卷積核替換為多一個(gè)時(shí)間維度的3D卷積核,使得空間特征和時(shí)間特征共同學(xué)習(xí)。然而大量的模型參數(shù)和低下的計(jì)算效率限制了網(wǎng)絡(luò)的有效性和使用性,其效果并沒有達(dá)到預(yù)期。隨后,同一作者提出基于ResNet以C3D網(wǎng)絡(luò)為基礎(chǔ)的R-C3D網(wǎng)絡(luò)。該網(wǎng)絡(luò)減小了參數(shù)數(shù)量,降低近兩倍的FLOPs,加快了網(wǎng)絡(luò)速度。不僅如此,在同一數(shù)據(jù)集中提高了識別精準(zhǔn)率,模型的性能遠(yuǎn)遠(yuǎn)好過C3D。同時(shí)實(shí)現(xiàn)針對任意長度視頻和任意長度類別行為的端到端檢測。該網(wǎng)絡(luò)充分利用了ResNet網(wǎng)絡(luò),有效解決較深網(wǎng)絡(luò)存在的梯度消失或者梯度爆炸的情況,使得網(wǎng)絡(luò)能自動(dòng)學(xué)習(xí)到不同層次的特征。然而,雖然該結(jié)構(gòu)實(shí)現(xiàn)了端到端的檢測,但識別準(zhǔn)確度仍然不高。

1相關(guān)工作

自2012年Alexnet在圖像分類中大放異彩,便奠定了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional

NeuralNetwork,CNN)在計(jì)算機(jī)視覺領(lǐng)域中的重要地位。卷積神經(jīng)網(wǎng)絡(luò)的局部連通性有利于過濾器的學(xué)習(xí),也在一定程度上降低了計(jì)算復(fù)雜度,非常適用于高維圖像的學(xué)習(xí),適合引入到視頻的識別和分類領(lǐng)域中來。視頻中的一些動(dòng)作可以僅從靜態(tài)圖像中的物體外觀信息來識別,例如擊劍等具特征的運(yùn)動(dòng)項(xiàng)目。而對于其他運(yùn)動(dòng)來說很難從單個(gè)幀來區(qū)分,例如行走和跑步,打哈欠和大笑,蝶泳和蛙泳等。由此Simonyan等人提出一種雙流神經(jīng)網(wǎng)絡(luò)(twostream convolutional networks, TwostreamCNN),視頻中的空間特征和時(shí)間特征分開提取和訓(xùn)練,其架構(gòu)的兩個(gè)流都使用卷積神經(jīng)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)之間得到的不同信息起到了互補(bǔ)的作用,最后通過兩個(gè)網(wǎng)絡(luò)的softmax層分?jǐn)?shù)平均結(jié)合后得出識別結(jié)果。

雙流架構(gòu)考慮了時(shí)間維度信息的重要性,也有空間建模思想,但忽略了針對視頻動(dòng)作識別的兩個(gè)重要因素:(i)兩個(gè)獨(dú)立網(wǎng)絡(luò)分別訓(xùn)練,無法學(xué)習(xí)到時(shí)間特征和空間特征的像素間的關(guān)系。(ii)無法捕捉時(shí)間與空間特征之間的像素關(guān)系如何隨著時(shí)間演變。將空間特征和時(shí)間特征結(jié)合起來考慮,能為動(dòng)作識別提供更多線索,從而提升網(wǎng)絡(luò)的識別效果。

后續(xù)有人提出TDD網(wǎng)絡(luò)結(jié)合傳統(tǒng)手工特征IDT方法Xd軌跡,提高雙流網(wǎng)絡(luò)識別連續(xù)動(dòng)作的能力。Feichtenhofer等人將ResNet運(yùn)用到雙流神經(jīng)網(wǎng)絡(luò)中,將原本的二維神經(jīng)網(wǎng)絡(luò)擴(kuò)展到三維,直接學(xué)習(xí)空時(shí)域特征。但該算法輸入部分的視頻相鄰幀冗余度過高。提出了幾個(gè)不同時(shí)間域上的特征采樣融合方法:早期融合(earlyfusion),將一定數(shù)量的連續(xù)視頻幀作為CNN的輸入,使得網(wǎng)絡(luò)第一層濾波器就能學(xué)習(xí)到特征;緩慢融合(slow fusion),隨著神經(jīng)網(wǎng)絡(luò)輸入逐層次持續(xù)增加時(shí)間域;晚期融合(late fusion),合并不同時(shí)間域的幀上獨(dú)立神經(jīng)網(wǎng)絡(luò)的全連接層。與單一的空間神經(jīng)網(wǎng)絡(luò)性能相比,上述方法并沒有獲得顯著的提升效果,由此可見模型并沒有充分利用時(shí)間信息。

201 5年Du Tran等人提出了一種更加直接和簡單的3D卷積時(shí)空特征學(xué)習(xí)方法(convolutional 3D,C3D)。相比2D卷積神經(jīng)網(wǎng)絡(luò)(2D ConvNets),3D卷積神經(jīng)網(wǎng)絡(luò)(3D ConvNets)是對CNN的三維拓展,將所有卷積從d×d更改為3×d×d,有助于學(xué)習(xí)視頻中的時(shí)間特征信息。通過實(shí)驗(yàn)證明,C3D網(wǎng)絡(luò)的性能優(yōu)于文獻(xiàn)[8]中的輸入幀融合算法。C3D的提出達(dá)到了從低級語義的提取上升到高級抽象語義提取高度,超越了傳統(tǒng)的深度學(xué)習(xí)方法也超過了傳統(tǒng)手工法,是一個(gè)簡單又高效的模型。但計(jì)算量過于龐大,精度有待提高。經(jīng)過研究與探索發(fā)現(xiàn),在動(dòng)作行為識別的分析方面,2D卷積網(wǎng)絡(luò)依舊是最好的選擇。而引入了時(shí)空維度特征的3D卷積網(wǎng)絡(luò)也為視頻的識別研究帶來了明顯的進(jìn)步。遺憾的是兩者皆有缺陷,2D卷積網(wǎng)絡(luò)由于無法提取長序列視頻特征,容易丟失許多關(guān)鍵信息;3D卷積網(wǎng)絡(luò)計(jì)算量過大,導(dǎo)致參數(shù)過多,需要占用許多存儲(chǔ)空間等問題。Zhaofan Qiu等提出Pseud03D Residual Net (P3D ResNet),基于ResNet網(wǎng)絡(luò)將3D卷積核進(jìn)行一系列的變形,將3D卷積拆分為1D關(guān)于時(shí)間信息的卷積以及2D關(guān)于空間信息的卷積,既獲得了時(shí)序信息,又可以大大減少計(jì)算量。基于上述情況,Du Tran等提出R(2+1)D卷積塊,建立在R3D已經(jīng)將ResNet運(yùn)用到3D卷積網(wǎng)絡(luò)上的基礎(chǔ)上進(jìn)行的改動(dòng)。并在kinetics數(shù)據(jù)集上做了相關(guān)實(shí)驗(yàn),論證了其可用性,證明將3D卷積核分解成單獨(dú)的空間和時(shí)間分開提取可提高精度。另外,實(shí)驗(yàn)中網(wǎng)絡(luò)將輸入RGB圖片的結(jié)果和輸入光流圖的結(jié)果進(jìn)行融合后又取得了最好的效果,由此可知,時(shí)序特征與空間特征的結(jié)合尤為重要。

基于上述分析,深度學(xué)習(xí)在視頻行為識別中的研究還存在以下問題:

問題1提出的雙流架構(gòu)由于只是在后期softmax層之后進(jìn)行分?jǐn)?shù)融合,導(dǎo)致對于時(shí)間特征與空間特征的提取并沒有學(xué)習(xí)到之間的像素對應(yīng)關(guān)系。視頻存在變化性數(shù)據(jù),任意幀之間的相似性很大,需結(jié)合空間特征與時(shí)間特征提取出連續(xù)幀之間的關(guān)聯(lián)特征——時(shí)空特征。

問題2提出的架構(gòu)受到時(shí)間尺度的限制。因?yàn)榭臻gConvNet只在單個(gè)視頻幀上運(yùn)行,時(shí)間ConvNet僅在若干個(gè)相鄰光流幀的堆棧上運(yùn)行,導(dǎo)致無法處理長時(shí)間尺度的視頻。

問題3提出的網(wǎng)絡(luò)證明3D卷積核更適合視頻的特征提取,但計(jì)算量過于龐大,參數(shù)過多,影響了整體網(wǎng)絡(luò)的識別效果。

基于上述分析,在雙流神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)基礎(chǔ)上,引入了將時(shí)空特征分離的R(2+1)D卷積神經(jīng)網(wǎng)絡(luò),提出一種基于雙流網(wǎng)絡(luò)融合與時(shí)空卷積的人體行為識別模型。(Spatiotemporal-r(2+l)d)

2雙流網(wǎng)絡(luò)融合與時(shí)空卷積的網(wǎng)絡(luò)設(shè)計(jì)

2.1R(2+1)D卷積網(wǎng)絡(luò)

應(yīng)用于本文的R(2+1)D網(wǎng)絡(luò)模型將傳統(tǒng)的3D卷積改變?yōu)椋?+1)D卷積塊,計(jì)算分為空間2D卷積和時(shí)間1D卷積。把的t×d×d的3D卷積核變?yōu)?×d×d和t×1×1的兩個(gè)卷積核。3D卷積分解使得2D卷積和1D卷積之間產(chǎn)生了額外的激活函數(shù)(ReLU),網(wǎng)絡(luò)中的非線性函數(shù)數(shù)目加倍增加了復(fù)雜性更利于網(wǎng)絡(luò)的學(xué)習(xí)。除此之外,單獨(dú)的空間與時(shí)間分量能夠使網(wǎng)絡(luò)優(yōu)化變得更加容易,大大降低了訓(xùn)練誤差。

本節(jié)的R(2+1)D網(wǎng)絡(luò)模型的基本架構(gòu)如表1所示,選用了34層的網(wǎng)絡(luò)和兩層的殘差學(xué)習(xí)單元。網(wǎng)絡(luò)包含4個(gè)卷積殘差塊,中括號外為每個(gè)殘差塊在堆棧中重復(fù)的次數(shù)。第一個(gè)卷積層過濾器大小為3×7X 7,步長為IX2X2。四個(gè)殘差塊中卷積核大小設(shè)置為1×3×3和3×1×1,其中conv_3x、conv_4x、conv_5x步長為2×2×2。卷積殘差塊后連接一個(gè)全局時(shí)空池化層,產(chǎn)生一個(gè)512維的特征向量,再送人全連接層,最后通過softmax層輸出最終識別結(jié)果。R(2+1)D網(wǎng)絡(luò)的第一層輸人為雙流融合后的A個(gè)時(shí)空特征圖。

2.2整體網(wǎng)絡(luò)框架設(shè)計(jì)

為了進(jìn)一步提高視頻識別精度,選擇在淺層網(wǎng)絡(luò)對輸入的相對分辨率高的圖像進(jìn)行空間動(dòng)作建模和時(shí)間信息建模,使用雙通道2D Conv并行提取時(shí)空特征。在后期深層網(wǎng)絡(luò)使用3D Conv,再次進(jìn)行時(shí)空建模。提出的Spatiotemporal-r(2+1)d端到端模型將雙流神經(jīng)網(wǎng)絡(luò)提取的特征進(jìn)行權(quán)重調(diào)整與融合得到中層語義特征,輸入到R(2+1)D網(wǎng)絡(luò)當(dāng)中進(jìn)一步學(xué)習(xí),完成行為識別。同時(shí)為了實(shí)現(xiàn)對長時(shí)間視頻有效,在輸入部分使用視頻分段方法。整體框架如圖1所示。

網(wǎng)絡(luò)框架分為三個(gè)模塊,對輸入視頻進(jìn)行分段和圖像預(yù)處理、雙流網(wǎng)絡(luò)部分的加權(quán)融合、R(2+1)D網(wǎng)絡(luò)的再次空間建模。首先將視頻分成K個(gè)等長的片段{S1,S2,…,s},其中S,,由多幀組成。每個(gè)視頻幀丁。從s。中隨機(jī)取樣,將T。作為空間網(wǎng)絡(luò)的輸入,提取得到的特征圖為,這里的a代表空域提取的特征圖。時(shí)域網(wǎng)絡(luò)則對應(yīng)輸入連續(xù)光流圖像,設(shè)t時(shí)刻為視頻幀T的對應(yīng)時(shí)間,那么在時(shí)間t時(shí)刻對應(yīng)的L個(gè)連續(xù)光流幀圖片在時(shí)間域上的位置為得到的時(shí)域特征圖為x,6代表時(shí)域網(wǎng)絡(luò)提取的特征圖。再通過加權(quán)的sum融合法得到后續(xù)輸入到R(2+1)D網(wǎng)絡(luò)上連續(xù)的個(gè)時(shí)空特征圖M∈R

Spatiotemporal-r(2+1)d端到端模型在雙流網(wǎng)絡(luò)進(jìn)行特征融合后得到的時(shí)空特征圖為中層語義信息,這里時(shí)空雙流網(wǎng)絡(luò)去掉了全接連層,因?yàn)槿B接層輸出的是高級語義特征會(huì)影響圖像在時(shí)間軸上的信息,不利于后續(xù)的建模。隨后將得到的中層語義信息輸入到效果比C3D網(wǎng)絡(luò)更好的R(2+1)D網(wǎng)絡(luò)進(jìn)行后續(xù)時(shí)空建模。R(2+1)D使用的是經(jīng)典網(wǎng)絡(luò)ResNet。在雙流網(wǎng)絡(luò)與三維卷積網(wǎng)絡(luò)融合串聯(lián)的情況下,組成的深度網(wǎng)絡(luò)容易出現(xiàn)梯度消失的情況,使得網(wǎng)絡(luò)效果變差。ResNet在一定程度可解決深度網(wǎng)絡(luò)的梯度消失問題。

設(shè)計(jì)的網(wǎng)絡(luò)框架在輸人中導(dǎo)人的光流圖像形成光流信息包涵了每一個(gè)靜態(tài)視頻幀圖像的運(yùn)動(dòng)信息,提高了時(shí)空特征在像素點(diǎn)上的關(guān)聯(lián)性和處理視頻幀采樣的魯棒性。

2.3雙流網(wǎng)絡(luò)融合方法

人類的視覺皮層存在兩條路徑流,即腹測流(venteal stream)執(zhí)行對運(yùn)動(dòng)物體的識別功能和背測流(dorsal stream)執(zhí)行識別具體運(yùn)動(dòng)信息(motion)。兩條路徑流的研究不僅成為雙流神經(jīng)網(wǎng)絡(luò)的科學(xué)支撐,也體現(xiàn)了光流在視頻識別中是不可缺少的信息。同時(shí)在動(dòng)作識別中,一個(gè)視頻序列中的靜態(tài)圖像涵蓋了很強(qiáng)的運(yùn)動(dòng)信息,基于單幀的2DConvNet已經(jīng)取得了很好的效果。將光流信息和空間信息融合獲得中級語義信息,有利于識別度的提高。傳統(tǒng)的雙流神經(jīng)網(wǎng)絡(luò)最終只是在識別結(jié)果上的分?jǐn)?shù)結(jié)合,在此對兩個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),將雙流分別提取的特征加權(quán)融合。

將兩個(gè)2D ConvNet在特定的卷積層融合,需要考慮兩個(gè)因素。首先兩個(gè)輸入在同一時(shí)刻要具有相同的空間維度;其次需要注意空間網(wǎng)絡(luò)通道是否對應(yīng)時(shí)間網(wǎng)絡(luò)通道。

雙流神經(jīng)網(wǎng)絡(luò)的特征圖疊加融合法可以應(yīng)用于VGG網(wǎng)絡(luò)中的任意點(diǎn),唯一的約束條件是兩個(gè)輸入特征圖具有相同的維度,這一點(diǎn)可用上采樣來實(shí)現(xiàn)。并且處于相對應(yīng)的通道,D=D。在堆疊通道之后,后續(xù)網(wǎng)絡(luò)層中的濾波器必須學(xué)習(xí)這些通道之間的對應(yīng)關(guān)系,以便區(qū)分不同的動(dòng)作。本文設(shè)計(jì)的網(wǎng)絡(luò)架構(gòu)如圖2所示,選擇在第五個(gè)卷積層后,將空間流網(wǎng)絡(luò)融合到時(shí)間流網(wǎng)絡(luò)中,并且去除了空間流卷積神經(jīng)網(wǎng)絡(luò)在第五個(gè)卷積層之后的結(jié)構(gòu)。串聯(lián)的雙流網(wǎng)絡(luò)部分含有五個(gè)卷積層和五個(gè)池化層。隨后在數(shù)據(jù)集上的訓(xùn)練過程中用前饋與反向傳播的方法調(diào)整參數(shù)。在conv5融合后的特征圖為提取的行為識別中級語義特征。

3實(shí)驗(yàn)分析

實(shí)驗(yàn)分為3個(gè)部分。(1)對雙流網(wǎng)絡(luò)融合的不同位置進(jìn)行實(shí)驗(yàn)效果對比;(2)對雙流網(wǎng)絡(luò)sum融合法中空域網(wǎng)絡(luò)權(quán)重和時(shí)域網(wǎng)絡(luò)權(quán)重u取值的討論和實(shí)驗(yàn);(3)將本文提出基于深度學(xué)習(xí)的Spatiotemporal- r(2+1)d視頻行為識別網(wǎng)絡(luò)框架與目前的一些經(jīng)典方法進(jìn)行比較。

3.1實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)配置GPU為NVIDIA GeForce RTX2080TiX 2,操作系統(tǒng)為Ubuntu 19. 10 lts.實(shí)驗(yàn)框架基于pytorch-1. 4+cdua 10.1.243 +cudnn7.6.4開源框架完成。

3.2實(shí)驗(yàn)數(shù)據(jù)集

選用UCF-101和HMDB51兩個(gè)目前基于深度學(xué)習(xí)視頻行為識別領(lǐng)域中最為廣泛應(yīng)用的數(shù)據(jù)集進(jìn)行評估實(shí)驗(yàn)。UCF-10l的數(shù)據(jù)集樣本主要來源于YouTube上的視頻,總共有13320段視頻,包含101類行為,每段視頻大約7s左右,視頻幀像素為320×240。行為內(nèi)容有五大類。包含人與物體的交互運(yùn)動(dòng),如畫眉毛、刷牙、扔球;人的身體運(yùn)動(dòng),如嬰兒爬行、俯臥撐等;人與人的交互運(yùn)動(dòng),如跳舞、理發(fā)、按揉頭部等。以及演奏和體育類運(yùn)動(dòng),跑步、踢球、跳遠(yuǎn)等。圖3展示了UCF-101中幾個(gè)正確示例。HMDB51數(shù)據(jù)集則來源于各種電影和YouTube網(wǎng)絡(luò)視頻,共6849段視頻,包含51類。視頻幀的像素為320 X 240。包含人物身體動(dòng)作以及各種交互行為。與UCF-IOI數(shù)據(jù)集相比,該數(shù)據(jù)集來源數(shù)據(jù)量少,造成對于網(wǎng)絡(luò)的訓(xùn)練有限。在實(shí)驗(yàn)中將兩個(gè)數(shù)據(jù)集分成均分成3組,分別是訓(xùn)練集、驗(yàn)證集、測試集。UCF-10I中每組包含9500多個(gè)訓(xùn)練視頻,2400多個(gè)測試視頻和1300多個(gè)驗(yàn)證視頻。HMDB51中每組包含3500多個(gè)訓(xùn)練視頻,1000多個(gè)測試視頻和500多個(gè)驗(yàn)證視頻。同一數(shù)據(jù)集測試結(jié)果的3組實(shí)驗(yàn)結(jié)果取均值為本文最終的實(shí)驗(yàn)結(jié)果。

3.3參數(shù)設(shè)置與訓(xùn)練

網(wǎng)絡(luò)框架分為兩個(gè)模塊。雙流網(wǎng)絡(luò)模塊采用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的VGGM2048模型,R(2+I)D網(wǎng)絡(luò)模塊采用在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練過的R(1+1) D-34模型。利用小批量的隨機(jī)梯度下降法,動(dòng)量為0.9,dropout率為0.5,batch-size設(shè)置為32。損失函數(shù)為Cross EntropyLoss。在網(wǎng)絡(luò)中加入BN(Batch Normalization)層來加速網(wǎng)絡(luò)收斂速度,在很大程度上防止過擬合,改善梯度消失問題。

整體網(wǎng)絡(luò)分為空域和時(shí)域兩個(gè)層。空域網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)置為0. 005,每間隔10000次就減少為原來的1/10,共進(jìn)行30000次迭代??臻g卷積神經(jīng)網(wǎng)絡(luò)輸入是單個(gè)視頻幀,輸入的大小由隨機(jī)位置裁剪為224X224的子圖。為了進(jìn)一步擴(kuò)充數(shù)據(jù),本文對圖片進(jìn)行水平翻轉(zhuǎn)、角度旋轉(zhuǎn)、水平偏移數(shù)據(jù)增強(qiáng)方法。時(shí)域網(wǎng)絡(luò)的初始學(xué)習(xí)率設(shè)為0. 01,在第30000次迭代后每20000次迭代將學(xué)習(xí)率縮小為原先的1/10,在迭代80000次后停止訓(xùn)練。時(shí)間流卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,輸入連續(xù)視頻光流圖,本文的光流圖像使用TV-L1法進(jìn)行計(jì)算。輸人大小為224×224X 2L,根據(jù)的結(jié)論得知L設(shè)置為10時(shí)效果最好,由于光流圖存在水平和垂直兩個(gè)方向,最終光流堆疊為20個(gè)密集光流圖。下面兩個(gè)圖展示了算法在UCF-10I數(shù)據(jù)集上的訓(xùn)練結(jié)果。圖五可以明顯看到,隨著訓(xùn)練次數(shù)增加,交叉熵?fù)p失不斷下降。圖四中,訓(xùn)練在第100個(gè)epoch學(xué)習(xí)率減小,準(zhǔn)確率大幅度上升,并且在第200個(gè)epoch之后準(zhǔn)確率趨于穩(wěn)定。

3.4雙流網(wǎng)絡(luò)融合不同位置的性能分析

在未設(shè)置sum融合權(quán)重的情況下(U,=1:1)分別在五個(gè)卷積層的不同位置融合空域網(wǎng)絡(luò)和時(shí)域網(wǎng)絡(luò)分別提取的特征圖。兩個(gè)網(wǎng)絡(luò)提取的特征比重一樣,討論在網(wǎng)絡(luò)中不同位置融合對識別效果的影響。表2列出在UCF-IOI數(shù)據(jù)集和HMDB51數(shù)據(jù)集split 1上不同位置融合的準(zhǔn)確率。明顯看到融合位置在網(wǎng)絡(luò)的第五個(gè)卷積層后的識別效果最好。同時(shí)與雙流卷積神經(jīng)網(wǎng)絡(luò)原文中提到的在softmax層的雙通道分?jǐn)?shù)融合效果相比,特征圖的融合法更勝一籌。

3.5不同融合策略下的識別性能評估

空間卷積網(wǎng)絡(luò)與時(shí)間卷積網(wǎng)絡(luò)的sum融合法通過設(shè)空域加權(quán)系數(shù)和時(shí)域加權(quán)系數(shù)U形成不同權(quán)重的融合,得到最后的輸出特征圖。選擇在雙流卷積網(wǎng)絡(luò)模塊的第五個(gè)卷積層對融合系數(shù)比例進(jìn)行不同策略的實(shí)驗(yàn)。實(shí)驗(yàn)分別在UCF-101數(shù)據(jù)集和HMDB51數(shù)據(jù)集上取3組的平均準(zhǔn)確率來對比(all splits)。網(wǎng)絡(luò)的行為識別性能如表3所示,權(quán)重比例分別取了7種不同占比,可以看出來當(dāng)空間特征圖占比大時(shí),識別精度隨之下降;反之當(dāng)時(shí)間特征圖占比較大時(shí)精度隨之上升。可得出結(jié)論,時(shí)域網(wǎng)絡(luò)提取的時(shí)間信息對整體網(wǎng)絡(luò)性能起著重要的作用??偨Y(jié)發(fā)現(xiàn)當(dāng):u=4:6時(shí)網(wǎng)絡(luò)識別性能最好,達(dá)到了最高的精度。

3.6與經(jīng)典算法的對比

為了證明提出的網(wǎng)絡(luò)框架具備一定的優(yōu)勢,與現(xiàn)有的一些經(jīng)典算法在公開數(shù)據(jù)集UCF-101和HMDB-51上進(jìn)行對比。表4列出了不同的對比算法,包括傳統(tǒng)的手工設(shè)計(jì)特征算法(IDT)及基于深度學(xué)習(xí)的算法??梢悦黠@看到基于深度學(xué)習(xí)算法的框架(序號3,4,5)相較于基于稠密軌跡使用的不同特征編碼方法(序號1,2)準(zhǔn)確率得到大幅度的提高。其中C3D算法由于網(wǎng)絡(luò)參數(shù)過多,導(dǎo)致效果相對較差。但C3D網(wǎng)絡(luò)提出的3D Conv開啟了以3D卷積核為基礎(chǔ)的時(shí)空卷積神經(jīng)網(wǎng)絡(luò)研究方向,對于視頻的行為識別具有重要意義。同時(shí)可以看到,對比最原始的雙流卷積神經(jīng)網(wǎng)絡(luò)算法加入了LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)后準(zhǔn)確率也得到了提高,表示合理將雙流網(wǎng)絡(luò)與其他方法相結(jié)合是可以提高識別效果的。基于雙流卷積網(wǎng)絡(luò)算法進(jìn)行改進(jìn),針對長時(shí)間視頻時(shí)空建模,在UCF-101和HMDB51上分別取得了92. 1%和66. 1%的識別準(zhǔn)確率。對比雙流方法分別提高了4. 1%和6.7%,與其他經(jīng)典算法相比本方法也獲得了更高的精準(zhǔn)度。本算法在數(shù)據(jù)集UCF-101上運(yùn)算速度為89幀每秒,相比改進(jìn)基礎(chǔ)的雙流神經(jīng)網(wǎng)絡(luò)提升了很多,滿足基于深度學(xué)習(xí)方法快速處理視頻數(shù)據(jù)的實(shí)時(shí)性要求。同時(shí)本算法還實(shí)現(xiàn)了端到端的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)了基于視頻行為識別任務(wù)上的有效性。

6結(jié)論

實(shí)現(xiàn)了一種基于視頻分段的雙流融合與時(shí)空卷積網(wǎng)絡(luò)的人體行為識別方法,在UCF101和HMDB51數(shù)據(jù)集上進(jìn)行了識別分類的訓(xùn)練和測試。完成了對雙流網(wǎng)絡(luò)融合的不同位置進(jìn)行實(shí)驗(yàn)效果對比工作,同時(shí)對雙流網(wǎng)絡(luò)sum融合法中空域網(wǎng)絡(luò)權(quán)重和時(shí)域網(wǎng)絡(luò)權(quán)重取值進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)時(shí)域特征對識別效果起著重要的作用。最后將提出的基于深度學(xué)習(xí)的Spatiotemporal-r(2+1)d端到端視頻行為識別網(wǎng)絡(luò)框架與目前的一些經(jīng)典方法進(jìn)行比較,證明了將時(shí)空特征融合之后的中層語義特征輸入到時(shí)空卷積模型中能夠進(jìn)一步提高行為識別的準(zhǔn)確率。

猜你喜歡
光流雙流時(shí)空
方一帆
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
四川省成都市雙流區(qū)東升迎春小學(xué)
跨越時(shí)空的相遇
雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
鏡中的時(shí)空穿梭
四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
玩一次時(shí)空大“穿越”
基于物理學(xué)的改善粒子圖像測速穩(wěn)健光流方法研究
時(shí)空之門
庆阳市| 叙永县| 靖远县| 博野县| 博湖县| 安阳市| 临洮县| 武鸣县| 宣城市| 同心县| 德格县| 巴林左旗| 若尔盖县| 噶尔县| 沙雅县| 北川| 秀山| 榆社县| 秦皇岛市| 蚌埠市| 罗山县| 麻城市| 通江县| 江陵县| 中方县| 蚌埠市| 巴里| 涿鹿县| 闸北区| 时尚| 丰都县| 胶州市| 巴彦淖尔市| 西峡县| 伊宁县| 大名县| 广元市| 昌江| 江孜县| 华蓥市| 东莞市|