国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時空異構(gòu)雙流卷積網(wǎng)絡(luò)的行為識別

2022-03-18 05:01:14丁雪琴朱軼昇朱浩華劉光燦
計算機(jī)應(yīng)用與軟件 2022年3期
關(guān)鍵詞:雙流網(wǎng)絡(luò)結(jié)構(gòu)異構(gòu)

丁雪琴 朱軼昇 朱浩華 劉光燦

(南京信息工程大學(xué)自動化學(xué)院 江蘇 南京 210000)

0 引 言

行為識別是計算機(jī)視覺研究的一個熱點(diǎn),目標(biāo)是從一個未知的視頻或圖像序列中自動分析其中正在進(jìn)行的行為。它在視頻監(jiān)控、行為分析、智能家居、視頻檢索和人機(jī)智能交互等領(lǐng)域發(fā)揮著重要的作用,但由于視點(diǎn)變化、背景雜亂和光照條件等限制,行為識別仍然面臨著重大挑戰(zhàn)。近年來,深度卷積網(wǎng)絡(luò)(ConvNets)[1]在圖像和語音識別方面取得了巨大的突破。此后,計算機(jī)視覺的研究人員一直試圖將卷積網(wǎng)絡(luò)轉(zhuǎn)移到行為識別上來應(yīng)用。

與圖像領(lǐng)域的成功相比,深度學(xué)習(xí)在基于視頻的行為識別領(lǐng)域發(fā)展相對緩慢。主要有兩個原因:(1) 與圖像數(shù)據(jù)集相比,視頻數(shù)據(jù)的規(guī)模和多樣性是不可比擬的,因此需要建立一個用于深度網(wǎng)絡(luò)訓(xùn)練的大規(guī)模標(biāo)記視頻數(shù)據(jù)庫;(2) 與二維圖像相比,視頻包含更多的時序信息,引入了比圖像更復(fù)雜的分析工作。

為了解決上述問題,近年來人們針對基于深度卷積網(wǎng)絡(luò)的視頻行為識別進(jìn)行了許多嘗試,也獲得快速發(fā)展。Karpathy等[2]比較了幾種用于行為識別的卷積網(wǎng)絡(luò)體系結(jié)構(gòu),并在一個非常大的Sports-1M數(shù)據(jù)集上進(jìn)行了相應(yīng)的訓(xùn)練過程。Tran等[3]介紹了一種基于三維卷積網(wǎng)絡(luò)的動作識別方法。Simonyan等[4]提出了一種基于雙流網(wǎng)絡(luò)的性能優(yōu)化方法。雖然這些方法在一定限度上利用了視頻中的時間信息,但它們只關(guān)注短期的運(yùn)動變化,沒有捕獲視頻中的長時間信息。為了解決這個問題,Wang等[5]提出了一種從視頻數(shù)據(jù)中提取長時間信息的時域網(wǎng)絡(luò)(TSN)。對于時間跨度較長的視頻行為識別而言,單幀或者是單個短片段中單幀堆棧的數(shù)據(jù)量是不夠的,需要采用密集時間采樣的方式來獲取長范圍時間結(jié)構(gòu),但是這樣會存在視頻連續(xù)幀之間的冗余,因此要用稀疏的時間采樣來代替密集的時間采樣,也就是對視頻做抽幀的時候采取較為稀疏的抽幀方式,這樣可以去除一些冗余信息,同時降低計算量。Cho等[6]提出了一個新的時空融合網(wǎng)絡(luò)(STFN),它集成了整個視頻的外觀和運(yùn)動信息的時間動態(tài),然后將捕獲的時間動態(tài)信息進(jìn)行融合,以獲得更好的視頻級表示,并通過端到端訓(xùn)練進(jìn)行學(xué)習(xí)。Martinez等[7]利用細(xì)粒度識別方面的進(jìn)展來改進(jìn)行為識別的模型,將重點(diǎn)放在如何提高網(wǎng)絡(luò)的表示能力,也就是改進(jìn)網(wǎng)絡(luò)的最后一層,在這一層中變化對計算成本的影響很小。Torpey等[8]使用三維卷積神經(jīng)網(wǎng)絡(luò)從視頻采樣片段中分別提取局部外觀和運(yùn)動特征,將局部特征連接起來形成全局表示,然后用全局表示訓(xùn)練一個線性支持向量機(jī)來執(zhí)行行為分類。

基于以上方法,本文提出一種基于行為識別的雙流卷積網(wǎng)絡(luò)結(jié)構(gòu)。在原雙流網(wǎng)絡(luò)結(jié)構(gòu)中,時間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)具有相同的結(jié)構(gòu),但人們對表觀和運(yùn)動的理解是兩個截然不同的過程,因此空間和時間網(wǎng)絡(luò)應(yīng)該是不一樣的。為了解決這一難題,本文提出了一種基于時空異雙流網(wǎng)絡(luò)的行為識別方法。此外,為了從視頻序列中提取長時間信息,將視頻分段[5]的思想引入到提出的時空異構(gòu)網(wǎng)絡(luò)中。實驗結(jié)果表明,本文時空異構(gòu)雙流網(wǎng)絡(luò)的性能優(yōu)于時空同構(gòu)網(wǎng)絡(luò)。

1 時空異構(gòu)雙流卷積網(wǎng)絡(luò)模型

本文基于雙流卷積網(wǎng)絡(luò),提出了時空異構(gòu)的雙流網(wǎng)絡(luò)結(jié)構(gòu),在此基礎(chǔ)上,將BN-Inception和ResNet引入作為時空異構(gòu)雙流網(wǎng)絡(luò)的基本網(wǎng)絡(luò),最后引入視頻分段的思想,建立了視頻分段的時空異構(gòu)雙流卷積網(wǎng)絡(luò)模型,整體框架如圖1所示。

圖1 整體框架

1.1 時空異構(gòu)雙流網(wǎng)絡(luò)

時空異構(gòu)雙流網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其采用了不同的網(wǎng)絡(luò)結(jié)構(gòu)??梢钥闯?,設(shè)計時空異構(gòu)雙流網(wǎng)絡(luò)有兩個動機(jī):(1) 當(dāng)雙流網(wǎng)絡(luò)中的時空網(wǎng)絡(luò)具有相同的結(jié)構(gòu)即時空同構(gòu)時,雙流合并時會產(chǎn)生大量的冗余信息;(2) 由于人對表觀和運(yùn)動的理解是兩個截然不同的過程,所以時空的網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該是不一樣的。

圖2 時空異構(gòu)雙流結(jié)構(gòu)

輸入數(shù)據(jù)的形式是RGB圖像和光流場,如圖3所示。單個RGB圖像是對視頻的中的某一幀的靜態(tài)外觀進(jìn)行編碼,光流場是視頻的光流信息用來獲取運(yùn)動信息。與原始的雙流卷積神經(jīng)網(wǎng)絡(luò)[1]一樣,空間卷積神經(jīng)網(wǎng)絡(luò)對單個RGB圖像進(jìn)行操作,而時間卷積神經(jīng)網(wǎng)絡(luò)以一組連續(xù)的光流場作為輸入。

圖3 輸入數(shù)據(jù)形式

1.2 網(wǎng)絡(luò)架構(gòu)

一個好的視頻網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該提取更多不同的時空信息。為了最大限度地挖掘時空異構(gòu)雙流網(wǎng)絡(luò)的潛力,本文在時空異構(gòu)雙流網(wǎng)絡(luò)中引入ResNet和BN-Inception網(wǎng)絡(luò)作為提取時空特征的網(wǎng)絡(luò)結(jié)構(gòu)。

1.2.1殘差網(wǎng)絡(luò)

圖4 殘差單元結(jié)構(gòu)

殘差單元被定義為[9]:

xl+1=σ(xl+F(xl;wl))

(1)

式中:xl和xl+1分別為第l層的輸入和輸出;F(xl;wl)是非線性殘差映射;σ(·)表示ReLU函數(shù)[10]。殘差單元的主要優(yōu)勢是跨層連接的方式可以從第一層直接傳播到網(wǎng)絡(luò)中的任何層,避免了梯度爆炸和消失的問題。同時,跨層連接不會引入額外的參數(shù)和計算復(fù)雜度,而且可以加快網(wǎng)絡(luò)的收斂速度。

1.2.2BN-Inception

BN-Inception[11]用一個非常有效的正則化方法,使大型卷積網(wǎng)絡(luò)的訓(xùn)練速度加快,同時收斂后的分類準(zhǔn)確率也得到大幅提高。它不再依賴于具有技巧性的參數(shù)初始化點(diǎn),可以使用更大的學(xué)習(xí)率加快訓(xùn)練過程,另外其正則化手段可以有效緩解Sigmoid或tanh等激活函數(shù)的梯度消失問題,同時在一定程度上也降低了對Dropout等手段的依賴。

由于ResNet能夠通過增加相當(dāng)?shù)纳疃葋硖岣邷?zhǔn)確率,BN-Inception網(wǎng)絡(luò)用一個非常有效的正則化方法,讓大型卷積網(wǎng)絡(luò)的訓(xùn)練速度加快,同時收斂后的分類準(zhǔn)確率也得到大幅提高。因此本文將ResNet和BN-Inception網(wǎng)絡(luò)作為基本網(wǎng)絡(luò),構(gòu)建了一個更深層次的時空異構(gòu)雙流網(wǎng)絡(luò)。與雙流網(wǎng)絡(luò)使用的VGG網(wǎng)絡(luò)相比,ResNet具有更少的濾波器和更低的計算復(fù)雜度。雖然增加了ResNet的深度,但ResNet- 50(38億次)和ResNet-101(76億次)的計算復(fù)雜度仍然低于VGG-16(153億次)和VGG-19(196億次)。

1.3 建模長范圍時間結(jié)構(gòu)

視頻中的長時間信息對行為識別也起著非常重要的作用。從TSN[5]中得到引導(dǎo),通過視頻分段來提取視頻序列中長時間的時間信息來提高時空異構(gòu)雙流網(wǎng)絡(luò)的性能。根據(jù)時間的長短,將視頻分成K個等長片段{S1,S2,…,SK},基于分段的空時異構(gòu)雙流卷積網(wǎng)絡(luò)Y對行為的識別可以表示為:

Y(T1,T2,…,TK)=H(g(F(T1;W),F(T2;W),…,

F(TK;W)))

(2)

式中:(T1,T2,…,TK)是一個片段序列,每個代碼片段TK從其對應(yīng)的片段SK中隨機(jī)采樣,在空間網(wǎng)絡(luò)對應(yīng)的是RGB幀圖像,時間網(wǎng)絡(luò)是光流;F(TK;W)是一個帶有參數(shù)W的卷積神經(jīng)網(wǎng)絡(luò)函數(shù),該函數(shù)對代碼片段TK進(jìn)行操作,生成所有類的類分?jǐn)?shù);分段融合函數(shù)g(·)將多個短片段的輸出融合,得到空間網(wǎng)絡(luò)或時間網(wǎng)絡(luò)的特征。利用輸出函數(shù)H(·)對識別結(jié)果進(jìn)行分類,利用Softmax函數(shù)得到各行為類別的概率值。

分段融合的最終損失函數(shù)定義為:

(3)

式中:C表示動作類別的數(shù)量;yi表示關(guān)于類別i的基準(zhǔn)標(biāo)簽;Gi=g(F(T1;W),F(T2;W),…,F(TK;W))是類i的類得分,通過對K個片段的同一類別的得分進(jìn)行平均得到。本文利用多個片段,用標(biāo)準(zhǔn)的反向傳播算法聯(lián)合優(yōu)化模型參數(shù)W。反向傳播過程中,W的梯度對時空異構(gòu)雙流網(wǎng)絡(luò)行為識別損失值L可以推導(dǎo)出如下公式:

(4)

然后,通過小批量隨機(jī)梯度下降法得到相關(guān)的模型參數(shù)。從式(4)可以看出,使用K個小片段的類別融合G來更新參數(shù)。使用此類優(yōu)化方式,能學(xué)習(xí)到視頻級的模型參數(shù),進(jìn)而獲得長期的時間信息。

2 實 驗

2.1 數(shù)據(jù)集

本文在UCF101[12]和HMDB51[13]兩大數(shù)據(jù)集上驗證方法的有效性。UCF101數(shù)據(jù)集包含101個動作類和13 320個視頻剪輯。HMDB51由51個動作類別的6 766個視頻剪輯組成。對于這兩個數(shù)據(jù)集,本文遵循THUMOS13挑戰(zhàn)機(jī)制[14]的評估方案,在訓(xùn)練和測試過程中,將每個數(shù)據(jù)集分為三組,以三組數(shù)據(jù)的平均準(zhǔn)確性作為評價模型效果的指標(biāo)。

2.2 基本參數(shù)設(shè)置

本次實驗是基于PyTorch 0.3.0深度學(xué)習(xí)框架。采用MBGD來學(xué)習(xí)網(wǎng)絡(luò)參數(shù),批量參數(shù)為256,動量參數(shù)為0.9,使用來自ImageNet的預(yù)訓(xùn)練模型初來始化網(wǎng)絡(luò)權(quán)重。在實驗中設(shè)置了一個較小的學(xué)習(xí)率。對于空間網(wǎng)絡(luò),初始化學(xué)習(xí)率為0.001,每2 000次迭代減少到它的1/10次。整個訓(xùn)練過程在4 500次迭代停止。對于時間網(wǎng)絡(luò),設(shè)置初始化學(xué)習(xí)率為0.005,經(jīng)過12 000和18 000次迭代后,學(xué)習(xí)率降低到它的1/10,最大迭代設(shè)置為20 000。

在測試過程中按照雙流網(wǎng)絡(luò)結(jié)構(gòu)[4]的測試方法。在相同的時間間隔內(nèi),從動作視頻中采樣25幀RGB幀或光流堆棧。對于每個采樣幀,通過裁剪4個角、1個中心和其水平翻轉(zhuǎn)來獲得網(wǎng)絡(luò)的10個輸入。本文融合時空網(wǎng)絡(luò)采用的是加權(quán)平均,設(shè)置空間網(wǎng)絡(luò)和時間網(wǎng)絡(luò)的權(quán)值比為1 ∶1.5。以下所有的實驗都是在UCF101第一組數(shù)據(jù)集上進(jìn)行。

2.3 不同分段數(shù)目性能分析

將視頻分為K個等長的片段來對長范圍時間視頻進(jìn)行建模。當(dāng)視頻段數(shù)較少時,會導(dǎo)致行為信息提取不足,訓(xùn)練模型過于簡單;當(dāng)視頻段數(shù)較多時,將導(dǎo)致數(shù)據(jù)冗余,增加計算量。表1顯示了使用ResNet50/101網(wǎng)絡(luò)時,不同視頻段下時間網(wǎng)絡(luò)的識別性能。結(jié)果表明,將視頻分成三段時有較好的識別性能。因此在以下實驗中,視頻片段的數(shù)目都設(shè)置為3。

表1 時間網(wǎng)絡(luò)中不同視頻段數(shù)的行為識別準(zhǔn)確率對比(%)

2.4 不同分段融合函數(shù)性能分析

在式(2)中,分段融合函數(shù)由函數(shù)g(·)定義。本文評估了最大池化、平均池化和加權(quán)平均池化三個融合方案來作為融合函數(shù)的形式。實驗結(jié)果見表2??梢钥闯觯骄鼗瘮?shù)可以獲得最佳性能,最大池化的方式整體性能較差,可能是由于視頻分段中內(nèi)容不同會導(dǎo)致判別誤差比較大。因此在以下實驗中,本文選擇平均池化作為默認(rèn)的分段融合函數(shù)。

表2 基于BN-Inception結(jié)構(gòu)下不同融合方式準(zhǔn)確率對比(%)

2.5 時空異構(gòu)和時空同構(gòu)網(wǎng)絡(luò)分析

本節(jié)中的所有實驗都是在UCF101的第一組數(shù)據(jù)上進(jìn)行的。本文將時空異構(gòu)網(wǎng)絡(luò)分為同一類型的不同深度的網(wǎng)絡(luò)和不同類型的網(wǎng)絡(luò)。測試使用了ResNet-50、ResNet-101和BN-Inception[11]。比較了三種不同網(wǎng)絡(luò)結(jié)構(gòu)的性能,分別為:(1) 具有相同結(jié)構(gòu)的時空網(wǎng)絡(luò);(2) 深度不同但結(jié)構(gòu)相同的時空網(wǎng)絡(luò);(3) 具有不同網(wǎng)絡(luò)結(jié)構(gòu)的時空網(wǎng)絡(luò)。在實驗中可以發(fā)現(xiàn)結(jié)構(gòu)相同但深度不同的時空網(wǎng)絡(luò)的性能要優(yōu)于時空同構(gòu)網(wǎng)絡(luò),實驗結(jié)果見表3。從雙流融合的結(jié)果來看,ResNet-101是時間網(wǎng)絡(luò)的最佳選擇。選擇ResNet-101作為時間網(wǎng)絡(luò),選擇不同結(jié)構(gòu)的BN-Inception作為空間網(wǎng)絡(luò)時,其對UCF101的第一組數(shù)據(jù)的準(zhǔn)確率為92.24%。實驗表明,時空異構(gòu)網(wǎng)絡(luò)的性能優(yōu)于時空同構(gòu)網(wǎng)絡(luò)。

表3 時空異構(gòu)和時空同構(gòu)網(wǎng)絡(luò)的準(zhǔn)確率比較(%)

2.6 與現(xiàn)有方法對比

表4將本文方法與現(xiàn)有方法進(jìn)行比較,如基于稠密軌跡編碼方式的DT[15]和iDT[16]表示方法、基于深度學(xué)習(xí)方法的3D卷積網(wǎng)絡(luò)(C3D)[17]、雙流卷積網(wǎng)絡(luò)(Two Stream)[4]、空間時間分解卷積網(wǎng)絡(luò)(FSTCN)[18]和長期卷積網(wǎng)絡(luò)(LTC)[21]。從表4中UCF 101和HMDB51數(shù)據(jù)集可以看出,本文方法優(yōu)于其他方法。與雙流方法(Two Stream)[4]相比,其準(zhǔn)確率分別提高了4.3百分點(diǎn)和3.1百分點(diǎn)。驗證了時空異構(gòu)雙流網(wǎng)絡(luò)在基于長時間結(jié)構(gòu)上的建模是效果顯著的,相比于時空同構(gòu)雙流網(wǎng)絡(luò),時空異構(gòu)雙流網(wǎng)絡(luò)的性能有一定的提高。

表4 本文方法與其他方法的準(zhǔn)確率比較(%)

3 結(jié) 語

本文提出了一種用于人體行為識別的時空異構(gòu)雙流網(wǎng)絡(luò)。由于人類對表象和運(yùn)動的認(rèn)識和理解是兩個完全不同的過程,本文改進(jìn)了現(xiàn)有的方法,設(shè)計了不同的網(wǎng)絡(luò)結(jié)構(gòu)來提取時空信息。通過實驗研究在性能上對時空異構(gòu)雙流網(wǎng)絡(luò)和時空同構(gòu)雙流網(wǎng)絡(luò)進(jìn)行比較,從結(jié)果可見時空異構(gòu)雙流網(wǎng)絡(luò)的性能更好。同時為了發(fā)掘時空異構(gòu)網(wǎng)絡(luò)的最大潛力,以ResNets和BN-Inception作為基本網(wǎng)絡(luò)來提取更多的表觀和運(yùn)動特征。在此基礎(chǔ)上,建立了視頻的長時間時間信息提取結(jié)構(gòu)。通過端到端培訓(xùn),該網(wǎng)絡(luò)在HMDB51和UCF101數(shù)據(jù)集上的性能顯著提高。

猜你喜歡
雙流網(wǎng)絡(luò)結(jié)構(gòu)異構(gòu)
方一帆
四川省成都市雙流區(qū)東升迎春小學(xué)
試論同課異構(gòu)之“同”與“異”
雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
四川省成都雙流中學(xué)實驗學(xué)校
overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實證分析
镇平县| 麻阳| 青阳县| 永寿县| 呼图壁县| 思南县| 迁安市| 京山县| 固阳县| 砚山县| 灌南县| 上思县| 漳平市| 达孜县| 隆林| 桐乡市| 榆社县| 安达市| 稷山县| 盐池县| 东丽区| 温州市| 崇文区| 澳门| 兴海县| 华阴市| 辉县市| 阜南县| 二连浩特市| 当涂县| 云林县| 嘉祥县| 定日县| 无锡市| 炉霍县| 尼勒克县| 桃园市| 忻州市| 前郭尔| 镇坪县| 左权县|