基于關(guān)注度網(wǎng)絡(luò)的行為識別

2019-03-11 07:29:31周義范樓苗張舟

智能計算機與應用 2019年6期

周義范樓苗張舟

摘要：行為識別是計算機視覺領(lǐng)域的一個重要研究課題，具有廣泛的應用前景。針對現(xiàn)實中對視頻整體序列結(jié)構(gòu)建模會增加大量的冗余信息，提出了一種基于時空關(guān)注度長短期記憶網(wǎng)絡(luò)（spatial-Temporal Attention Long-Short Term Memory.STA-LSTM）的行為識別框架，提高了行為識別效率。利用GoogLeNet逐層卷積視頻幀，自動聚合蘊含邊、角和線等底層特征以生成具有顯著結(jié)構(gòu)性的高層語義特征。在LSTM中引入關(guān)注度網(wǎng)絡(luò)來學習關(guān)注度權(quán)重，利用光流掩膜分割有效的運動前景區(qū)域，從而優(yōu)化關(guān)注度權(quán)重，將其與卷積特征相結(jié)合作為STA-LSTM模型的輸入特征，從而進行行為識別。在UCF101數(shù)據(jù)集上的實驗結(jié)果表明，本文方法優(yōu)于當前的一些先進方法。

關(guān)鍵詞：行為識別;長短期記憶網(wǎng)絡(luò);關(guān)注度;光流掩膜

0引言

識別視頻中的行為動作是計算機視覺重要任務(wù)之一，其目的是從視頻中提取、分析和表達行為動作信息。該技術(shù)正被廣泛應用于視頻監(jiān)控、人機交互、醫(yī)療看護等領(lǐng)域。隨著深度學習技術(shù)在計算機視覺中越來越多的應用，也為研究行為識別開拓了新的方向。然而深度學習本身由于需要大數(shù)據(jù)量和網(wǎng)絡(luò)參數(shù)數(shù)目過多等局限性，使得模型在計算方面付出了較大的代價。對此，本文重點研究如何挖掘視頻中的有效信息，設(shè)計泛華能力強的深度神經(jīng)網(wǎng)絡(luò)，識別視頻中的行為動作。

早期的一些研究主要是利用卷積神經(jīng)網(wǎng)絡(luò)來學習視頻中行為的深度表達。Karpathy等人介紹了一種多規(guī)模Sports-1M視頻數(shù)據(jù)集，來訓練深度卷積神經(jīng)網(wǎng)絡(luò)。Simonyan等人提出一種雙流卷積神經(jīng)網(wǎng)絡(luò)，通過分別處理RGB圖像和光流圖中的外觀和運動信息達到了比較好的行為識別效果。然而，使用卷積神經(jīng)網(wǎng)絡(luò)僅能捕捉極少的時序信息。對此，循環(huán)神經(jīng)網(wǎng)絡(luò)能夠較好地解決這個問題，尤其是LSMe.在視頻序列建模方面效果顯著。然而現(xiàn)實場景中，由于視頻時長以及視頻中動作所發(fā)生的區(qū)域不同，對視頻整體序列結(jié)構(gòu)建模會增加大量的冗余信息。對此，本文在循環(huán)神經(jīng)網(wǎng)絡(luò)中引入關(guān)注度機制，其能夠模擬人類視覺注意力轉(zhuǎn)移機制，將有限的認知資源聚集于場景中重要的刺激，而抑制那些不重要的信息。具體來說，利用GoogLeNet逐層卷積視頻幀，自動聚合蘊含邊、角和線等底層特征，以生成具有顯著結(jié)構(gòu)性的高層語義特征。在LSTM模型中引入關(guān)注度機制，來學習關(guān)注度權(quán)重系數(shù)矩陣。由于視頻中的背景噪聲和相機移動等因素的影響，利用卷積神經(jīng)網(wǎng)絡(luò)作用于RGB圖像得到的特征不能準確地捕捉視頻中的行為動作信息。針對這個問題，本文利用光流掩膜對視頻中的運動前景區(qū)域進行分割，以此來校正網(wǎng)絡(luò)所學習到的關(guān)注度權(quán)重。將關(guān)注度系數(shù)和卷積特征相結(jié)合，生成新的特征激活圖序列。其中高值表示顯著性區(qū)域，即得到STA-LSTM網(wǎng)絡(luò)的顯著性輸入特征，然后對特征進行學習，從而識別視頻中的行為。本文主要貢獻是：

（1）提出了一種新穎的深度學習框架——STA-LSTM用于視頻中的行為識別，在端到端的處理過程中，本文方法可以準確地捕捉行為的外觀信息和動作信息。

（2）提出的STA-LSTM模型能夠有效地去除冗余信息，提取行為發(fā)生的有效區(qū)域，提高模型識別效率。

（3）將本文方法應用于UCF101數(shù)據(jù)集取得了良好的識別效果，與當前一些優(yōu)秀的研究工作相比，在識別性能方面得到了顯著地提升。

1相關(guān)工作

行為識別的目的是從未知視頻或圖像序列中自動識別其中進行的行為動作，行為本身是相關(guān)聯(lián)的一系列二維空間圖像在時間方向上的連接。因此，行為本身具有空間和時間上的結(jié)構(gòu)關(guān)聯(lián)特性。行為特有的空間和時間結(jié)構(gòu)特性，為許多研究者指明了行為識別的正確方向。

早期行為識別主要使用一些傳統(tǒng)算法，Vemulapalli等人在Lie群組中用曲線表示每個動作并且使用SVM分類器來識別行為，Zanfir等人提出了一種移動姿態(tài)框架，結(jié)合修改后的kNN分類器進行低延遲行為識別。Carlsson等人通過從動作視頻中提取到的關(guān)鍵幀以及保存的動作原型之間做模板來完成行為，其中，形狀信息是用Canny邊緣檢測器得到的邊緣數(shù)據(jù)來表示的。這種方法能夠容忍圖像和樣本之間一定程度的形變，且能夠準確識別不同人體姿態(tài)形成的相似的形狀。Tang等人采用隱馬爾科夫（HMM）模型建模行為的隱狀態(tài)變化過程。Pei等人將行為分解為具有語義原子動作集合并定義原子為行為體與目標交互關(guān)系的集合，通過與或圖學習原子動作的時序關(guān)系，能夠有效剔除時序錯誤的與或圖行為解釋，提升了識別及預測行為的性能。

后來深度學習技術(shù)在計算機視覺中得到廣泛應用，Heilbron等人）使用序列編碼器（即LSTM），可以模擬隨著時間推移的C3D特征的演變，使用定位模塊生成整個輸入視頻中不同時間長度的候選提議的開始和結(jié)束時間，以進行行為提議。Simonyan等人通過在光流上訓練一個神經(jīng)網(wǎng)絡(luò)來整合運動信息。利用外觀和光流特性，動作識別的準確性顯著提高。Lin等人嘗試使用序列過程提取時空特征，即提取一維時間信息到二維空間信息。該端到端系統(tǒng)考慮長短運動模式，并實現(xiàn)良好的性能。NC等人運用深度神經(jīng)網(wǎng)絡(luò)模型，結(jié)合幀序列分析視頻的長期依賴信息用于行為識別。Srivastava等人提出了一種基于興趣點LSTM的無監(jiān)督訓練方法，使用編碼器LSTM將輸入序列映射成固定長度表示;然后使用單個或多個解碼器LSTm.對其進行解碼以執(zhí)行輸入序列的重構(gòu)或預測未來序列：最后對這個無監(jiān)督的預訓練LSTM進行微調(diào)，以適應人類行為識別任務(wù)。

融入注意力機制的循環(huán)網(wǎng)絡(luò)模型可以提取行為發(fā)生的時空有效區(qū)域，有效剔除視頻中的冗余信息。Yao等人介紹了一種時序注意力機制用于視頻標題生成。Bazzani等人提出一種關(guān)注度模型學習視頻中的重要區(qū)域，對每一幀使用高斯混合進行視覺關(guān)注度建模。Sharma等人使用三層LSTM網(wǎng)絡(luò)，引人注意力機制，在網(wǎng)絡(luò)中加入關(guān)注區(qū)域的移動、縮放機制，連續(xù)部分信息的序列化輸入，學習視頻的關(guān)鍵運動部位。受這些研究工作的啟發(fā)，本文使用光流掩膜對視頻中的運動前景區(qū)域進行分割，在不增加模型復雜度的情況下，還能利用重要的運動信息，能夠有效提取場景中顯著性區(qū)域，實驗結(jié)果表明本文方法取得了良好的識別正確率。

2 模型框架

本文的模型架構(gòu)如圖1所示。首先利用GoogLeNet對視頻幀序列進行卷積，提取最后一層卷積層特征：在LSTM中引入關(guān)注度機制，作用于卷積層特征的每一個區(qū)域;利用光流掩膜提取每一幀的運動前景區(qū)域作用于關(guān)注度網(wǎng)絡(luò)，得到新的關(guān)注度權(quán)重矩陣，將之與卷積層特征相結(jié)合。作為STA-LSTM模型的輸入特征，通過對特征的學習，進而對視頻中的行為進行識別。

2.1 特征提取

本文使用在ImageNet數(shù)據(jù)集上預訓練好的GoogLeNet模型，逐層卷積已重新調(diào)節(jié)大小為224×224的視頻幀序列，提取最后一層卷積層特征。此卷積層包含1024個特征圖，包含了輸入視頻幀的空間外觀信息，其形狀為7x7×1024大小的特征立方體。因此，在每一個時間步長t.提取的向量維度是49x 1024。將這些特征立方體分解為特征片段：G_t=[G_t.1，G_t.2，…G_t.49]，這49個特征片段對應于輸入視頻幀的不同區(qū)域，本文的關(guān)注度模型就是選擇性地關(guān)注這49個區(qū)域。

2.2 時空關(guān)注度的表達

使用GoogLeNet得到最后一層卷積層特征之后，在LSTM中引入關(guān)注度機制，作用于卷積層特征的每一個區(qū)域。同時，利用光流掩膜分割有效的運動前景，從而修正行為發(fā)生的有效區(qū)域，即本文提出的STA-LSTM模型，如圖2所示。圖中左側(cè)藍色框內(nèi)為初始化記憶單元和隱單元。為了達到快速收斂的效果，使用兩個三層感知器來初始化STA-LSTM模型的記憶單元和隱單元，以此來計算初始的關(guān)注度得分公式如下：

行為識別中，視頻幀中僅有一部分區(qū)域和行為發(fā)生相關(guān)。顯然，為視頻幀中不同的區(qū)域分配不同的關(guān)注度權(quán)重，只需要關(guān)注這些行為發(fā)生的區(qū)域。如圖1所示，針對打網(wǎng)球這一行為而言，主要關(guān)注點為手臂、球拍和網(wǎng)球本身。由于視頻幀本身是連續(xù)的，相鄰幀之間存在強烈的時序依賴關(guān)系，所以可以利用t-1時刻的編碼特征來預測t時刻的關(guān)注度權(quán)重，然后用此權(quán)重來精煉模型的輸入特征，t時刻單個STA-LSTM單元結(jié)構(gòu)如圖2所示。使用關(guān)注度模型作用于視頻幀中的7x7個區(qū)域來預測49個區(qū)域的關(guān)注度權(quán)重，其得分l_t.i可以表示為：

其中，W_l.i表示softmax函數(shù)對應于第i個位置的權(quán)重，i=1.2.…，49.t=1.2.…，T;T為序列化幀數(shù)的長度;l_t.i表示第‘幀的第i個區(qū)域的關(guān)注度權(quán)重。

由于場景中存在背景噪聲的干擾，而且同種行為可以發(fā)生在不同的場景中，因此，人們利用光流掩膜對運動前景和后景進行分割，對行為的發(fā)生區(qū)域進行初始劃分，表示為m_t.i，當分割后的第i個區(qū)域為運動前景時，m_t.i為1;當分割后的第i個區(qū)域為背景噪聲時，m_t.i為0。對視頻幀的前景和后景進行分割可以對關(guān)注度模型掃描區(qū)域加以有效地限制。提取出前景區(qū)域后，對前景區(qū)域中的關(guān)注度得分進行統(tǒng)計求和。此處，設(shè)置和的閾值為Th.定義新的時空關(guān)注度得分S_t.i，如下所示：

2.3 STA-LSTM模型

使用光流掩膜對行為前景和后景進行分割，有效地限制了關(guān)注度模型的關(guān)注范圍，而不是利用光流特征和外觀特征分別計算關(guān)注度得分。在利用外觀和動作特征的同時還降低了網(wǎng)絡(luò)復雜度，減少了計算量。得到上述關(guān)注度得分后，如圖2所示，STA-LSTM模型的輸入可以表示為：

其中，W和b表示LSTM參數(shù)。公式（5）、（6）和（8）中的f_t真是忘記門，i_t是輸入門，o_t是輸出門。g_t如公式（7）計算所得，表示t時刻候選記憶單元狀態(tài)。公式（9）和（10）中的c_t和h_t表示t時刻記憶單元狀態(tài)和隱單元狀態(tài)，x_t代表t時刻的輸入特征。σ（·）和tanh（·）表示sigmoid和tanh激活函數(shù)，⊙表示哈達馬積。

STA-LSTM模型的核心就是忘記門和輸入門，忘記門根據(jù)當前的輸入x_t、上一時刻狀態(tài)c_t-1和上一時刻輸出h_t-1，共同決定哪一部分記憶需要被遺忘。輸入門根據(jù)x_t，C_t-1和h_t-1決定哪些部分將進入當前時刻的狀態(tài)C_t。STA-LSTM結(jié)構(gòu)在計算得到新的狀態(tài)C_t后，通過輸出門根據(jù)最新的狀態(tài)C_t、上一時刻的輸出h_t-1和當前的輸入x_t來決定該時刻的輸出h_t。

最后，使用sofimax函數(shù)作用于最后一個隱單元得到最終結(jié)果：

y_d=softmax（W_sh_T+b_s），（11）

其中，y_d代表模型預測值;d表示子序列的樣本編號;W_s和b_s為softmax函數(shù)的參數(shù)。

2.4 損失函數(shù)

本文的樣本損失函數(shù)如下：

其中，第一項表示交叉熵損失函數(shù)，第二項表示模型其它參數(shù)的正則化約束。

3 實驗

3.1數(shù)據(jù)集

本文方法所用的數(shù)據(jù)集為UCFl01.其中包含13320個視頻，分為101種行為類別，選取每個類別視頻總數(shù)的三分之二作為訓練集，剩下的作為測試集。所有視頻均采集于現(xiàn)實場景，在相機移動、物體外觀、人物姿態(tài)等方面變化多樣，因此廣泛應用于各種行為分析的研究。

3.2 實驗細節(jié)及評價標準

將所有視頻分解為視頻幀序列，并將分辨率重新調(diào)整為224×224大小，將視頻幀序列輸入在ImageNet數(shù)據(jù)集預訓練好的GoogLeNet模型中。本實驗取其最后一層卷積層特征作為STA-LSTM模型的輸入，STA-LSTM結(jié)構(gòu)隱單元的數(shù)量為1024.權(quán)值衰減系數(shù)人設(shè)為10^-5，優(yōu)化算法使用Adadelta.深度學習框架為了heano。模型在訓練和測試時序列化輸入幀的數(shù)量均為了（T=16）幀，將視頻幀按照步長為1分成多個T幀的子序列。在測試階段，針對每個視頻預測其所有子序列的所屬類別，并和標簽值相比較統(tǒng)計正確的類別數(shù)，作為該視頻的識別正確率，最后對所有視頻的正確率求均值作為最終的識別正確率。

3.3 實驗結(jié)果及分析

首先，通過表1來驗證本文的時空關(guān)注度對識別效果產(chǎn)生的影響。其次，通過設(shè)置前景區(qū)域中時空關(guān)注度得分和不同閾值（Th），觀察模型在UCF101數(shù)據(jù)集上的識別效果，見表2。最后將本文方法和當前一些優(yōu)秀方法進行比較，比較結(jié)果見表3。由表1可明顯看出，在引人時空關(guān)注度后，本文所提出的新模型所取得的效果顯著，從而證實了本文方法可以應用于行為識別。

由表2可知，不同的Th值對實驗結(jié)果有很大的影響。當Th較小時，不能提供有效的參考區(qū)域，當Th較大時，由于背景噪聲、相機移動、光照條件等影響，造成前景分割的不準確，容易對關(guān)注度模型矯正過度。經(jīng)實驗驗證，當Th值為0.7時，識別效果最佳。

表3表明，與當前一些優(yōu)秀方法相比，本文方法所達到的識別正確率更高。而且，相比于其它關(guān)注度方法而言，本文通過光流掩膜分割運動前景區(qū)域后，模型能夠更有效地關(guān)注視頻中顯著區(qū)域，提高識別效率的同時并沒有增加模型復雜度。如圖3所示，圖中（a）、（b）、（c）分別表示原始視頻幀、本文方法所學習到的顯著性區(qū)域、Soft Attention Model學習到的顯著性區(qū)域，可以看出本文方法能夠更準確地學習顯著性區(qū)域。為了進一步論證本文關(guān)注度網(wǎng)絡(luò)的效果，如圖4所示，在“顛球”這一行為中，本文方法可以準確地捕捉足球、膝蓋和腳等顯著性區(qū)域。

為了更詳細地觀察本文方法的細節(jié)效果，逐幀定位單個視頻的具體識別情況。這里以該幀為首的子序列的識別正確率作為該幀的識別正確率。抽取一個行為類別為“扣籃（Basketball Dunk）”的視頻，如圖5所示，觀察該視頻全部幀的識別情況。為了便于觀察，本圖只選取識別正確率排名前三的類別，如圖6所示，分別為“扣籃”、“投籃（BasketballShooting）”和“扣球（Volleyball Spiking）”。顯然，本文方法將該視頻正確地識別為“扣籃”，因為“投籃”和“扣籃”的相同點就是這兩種行為都需要籃球，“扣球”和“扣籃”相似之處在于“扣”這一動作特性，在不影響判別準確性的前提下，本文方法也將“扣籃”這一行為以微小的概率預測成“投籃”或者“扣球”這兩種行為。

4 結(jié)束語

本文提出一種循環(huán)時空關(guān)注度網(wǎng)絡(luò)，用于視頻中的行為識別。通過外觀等特征學習視頻中的顯著性區(qū)域，同時利用光流掩膜分割運動前景區(qū)域?qū)﹃P(guān)注度網(wǎng)絡(luò)學習到的顯著性區(qū)域進行校準劃分，使得模型能夠更準確地關(guān)注視頻中的顯著性區(qū)域從而捕捉更重要的信息，提高行為識別效率。實驗結(jié)果表明，與當前一些優(yōu)秀方法相比，本文方法所達到的識別正確率更高。相對于UCF101的行為類別較為簡單易理解。未來，希望本文的方法可以應用于更加復雜的視頻場景中，如大型監(jiān)控場景下的視頻理解、異常檢測等，將有助于維護公共安全等領(lǐng)域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于關(guān)注度網(wǎng)絡(luò)的行為識別