一種基于深度學(xué)習(xí)的異常行為識(shí)別方法

2018-05-17 09:30:05楊銳羅兵郝葉林常津津

五邑大學(xué)學(xué)報(bào)（自然科學(xué)版） 2018年1期

楊銳，羅兵，郝葉林，常津津

楊銳，羅兵，郝葉林，常津津

（五邑大學(xué) 信息工程學(xué)院，廣東江門 529020）

異常行為識(shí)別與檢測(cè)在安防領(lǐng)域有廣泛的應(yīng)用前景，但現(xiàn)有的異常行為識(shí)別方法時(shí)序信息利用率低，準(zhǔn)確率和處理速度還難以滿足實(shí)際需要. 本文采用三維密集連接深度網(wǎng)絡(luò)結(jié)構(gòu)對(duì)采集視頻的時(shí)序和空間特征進(jìn)行基于深度學(xué)習(xí)的建模，對(duì)打架、徘徊、搶劫這三類異常行為以及正常行為類進(jìn)行識(shí)別，采用多個(gè)可變時(shí)序深度的卷積核，并結(jié)合深度可分離卷積層重新設(shè)計(jì)了時(shí)序過渡層，更多地利用輸入信號(hào)中的時(shí)序信息. 模擬實(shí)驗(yàn)結(jié)果表明，本文提出的改進(jìn)方法準(zhǔn)確率達(dá)92.5%，進(jìn)一步提高了模型的準(zhǔn)確率和泛化性能.

異常行為；動(dòng)作識(shí)別；深度學(xué)習(xí)；時(shí)序過渡

異常行為識(shí)別是行為識(shí)別中一個(gè)具體化的子類，相對(duì)其他種類的行為識(shí)別，異常行為的研究顯得更具有現(xiàn)實(shí)意義，它關(guān)乎人們切身利益——安全，異常行為的發(fā)生通常標(biāo)志著異常事件的發(fā)生. 自動(dòng)柜員機(jī)（ATM）24小時(shí)工作無人值守，為日常生活帶來了方便的同時(shí)也存在安全隱患，ATM機(jī)取款后被搶劫的犯罪事件常有發(fā)生. 通過ATM的視頻監(jiān)控自動(dòng)識(shí)別取款室范圍內(nèi)的異常行為顯得尤為重要. 當(dāng)識(shí)別出搶劫、打架、徘徊等行為時(shí)，系統(tǒng)自動(dòng)報(bào)警并主動(dòng)暫?，F(xiàn)金支付、暫停退卡或鎖閉防護(hù)室門等后續(xù)動(dòng)作，可以有效預(yù)防ATM機(jī)前的犯罪行為. 因此，基于視頻的異常行為識(shí)別是需要研究的關(guān)鍵技術(shù).

深度學(xué)習(xí)理論在靜態(tài)圖像識(shí)別和檢測(cè)上的優(yōu)越表現(xiàn)為具有時(shí)間序列的視頻行為識(shí)別研究提供了新的思路，使得行為識(shí)別和深度學(xué)習(xí)理論的緊密結(jié)合成為了智能視頻分析領(lǐng)域的研究熱點(diǎn)[1]. 與此同時(shí)，現(xiàn)有行為識(shí)別的研究表明，深度學(xué)習(xí)比傳統(tǒng)的機(jī)器學(xué)習(xí)在處理具有復(fù)雜動(dòng)作的視頻行為識(shí)別中更有效. 本文利用深度學(xué)習(xí)方法對(duì)特定場(chǎng)景下的ATM機(jī)前異常行為進(jìn)行識(shí)別，設(shè)計(jì)了具有密集連接特性的深度網(wǎng)絡(luò)，挖掘時(shí)序線索并結(jié)合深度可分離卷積（Depthwise Separable Convolution）[2]，充分利用了動(dòng)作間的時(shí)序信息、空間信息進(jìn)行識(shí)別，使異常行為識(shí)別性能明顯改善.

1 深度學(xué)習(xí)與異常行為識(shí)別

1.1 異常行為的定義

異常行為的定義取決于應(yīng)用場(chǎng)景，并且會(huì)受到一定程度的主觀影響，從而導(dǎo)致同一種行為在不同場(chǎng)景下會(huì)有不同的定義，例如從暴恐案發(fā)生現(xiàn)場(chǎng)逃離的人群，是一種典型的異常行為，而參加馬拉松賽跑的人群則是一種正常行為，同樣都是人群跑動(dòng)行為卻有著截然不同的定義，因此對(duì)異常行為作出明確的定義往往是不太合適的. 但一般而言，異常行為應(yīng)該具備低頻性、可疑性以及非典型性. 結(jié)合具體的應(yīng)用場(chǎng)景來說，對(duì)異常行為的定義是可行的，也是非常必要的. 正是由于異常行為定義的不確定性因素在的影響，使得同一種算法適用于通用的應(yīng)用場(chǎng)景變得不切實(shí)際. 為了最小化這種不確定性因素的影響，需具體問題具體分析，首先需要確定應(yīng)用的場(chǎng)景，根據(jù)應(yīng)用場(chǎng)景來分析并定義異常行為類別.

1.2 異常行為的分類

單人異常行為（如徘徊、越界、跌倒等）是只需一個(gè)人參與的一類異常行為. 交互行為異常（如搶劫、打架等）通常指雙方發(fā)生肢體沖突的一類異常行為. 群體異常行為（如因騷亂造成的人群逃離）指由多人形成的一個(gè)不可分的、整體上發(fā)生的一類異常行為，需綜合考慮群體密度與運(yùn)動(dòng)特征. 由此可見，針對(duì)ATM機(jī)所處的場(chǎng)景，適合研究單人異常行為中的徘徊以及交互異常行為中的打架和搶劫這3類異常行為.

1.3 基于深度學(xué)習(xí)的異常行為識(shí)別

深度學(xué)習(xí)目前已廣泛應(yīng)用于行為識(shí)別，但鮮有將深度學(xué)習(xí)專門用于特定場(chǎng)景異常行為識(shí)別的.而現(xiàn)有的大型標(biāo)準(zhǔn)數(shù)據(jù)集通常都是生活中常見的視頻行為數(shù)據(jù)，也使得基于深度學(xué)習(xí)的異常行為識(shí)別研究難以推廣.

卷積神經(jīng)網(wǎng)絡(luò)在諸如分類、檢測(cè)、分割等針對(duì)靜態(tài)圖像的計(jì)算機(jī)視覺任務(wù)中表現(xiàn)十分出色，而對(duì)于基于視頻分析的任務(wù)，靜態(tài)圖像中使用的二維卷積并不能很好地捕獲視頻序列中的運(yùn)動(dòng)信息，因此通常需要引入額外的輔助信息，如在二維卷積的基礎(chǔ)上增加時(shí)間維度擴(kuò)展為三維卷積，以便同時(shí)獲得捕獲時(shí)序和空間運(yùn)動(dòng)信息的能力.

在深度學(xué)習(xí)行為識(shí)別中一種常用的方法是使用雙流卷積神經(jīng)網(wǎng)絡(luò). Simonyan等人[3]提出了一個(gè)雙路的卷積神經(jīng)網(wǎng)絡(luò)，用來分別捕獲空間和時(shí)序信息，主要特點(diǎn)是使用兩種模態(tài)的特征，使用RGB以及堆疊的光流幀，其中RGB用來提供外形信息，引入的光流用來捕獲行為時(shí)序上的運(yùn)動(dòng)特征，后續(xù)也出現(xiàn)了各種基于雙流網(wǎng)絡(luò)的變體[4-5]，極大地提高了動(dòng)作識(shí)別的性能，然而雙流網(wǎng)絡(luò)一般需要事先提取光流，且對(duì)于大型數(shù)據(jù)集來說，這是一個(gè)非常耗時(shí)的過程，不適宜進(jìn)行端到端的學(xué)習(xí).

為解決雙流網(wǎng)絡(luò)中存在的上述問題，三維卷積神經(jīng)網(wǎng)絡(luò)逐漸進(jìn)入了人們的視野，并在行為識(shí)別任務(wù)中取得了革命性的突破. Ji等人[6]最先提出并應(yīng)用三維卷積從視頻中提取時(shí)空特征進(jìn)行人體動(dòng)作識(shí)別. Tran等人[7]提出了C3D（Convolutional 3D）網(wǎng)絡(luò)，C3D通過增加時(shí)間維度可同時(shí)對(duì)外觀和運(yùn)動(dòng)信息進(jìn)行建模，并且在各種視頻分析任務(wù)上超過了二維卷積神經(jīng)網(wǎng)絡(luò)特征，后續(xù)C3D的變體[8-10]也充分證明了三維卷積神經(jīng)網(wǎng)絡(luò)相比二維卷積神經(jīng)網(wǎng)絡(luò)更適合時(shí)空特征學(xué)習(xí). 另外，在考慮使用基于C3D進(jìn)行行為識(shí)別的實(shí)際應(yīng)用中，Gu[10]提出了具有密集連接特性的深度卷積神經(jīng)網(wǎng)路3D DenseNet，并對(duì)購(gòu)物行為進(jìn)行了識(shí)別，取得了不錯(cuò)的效果，這得益于該網(wǎng)絡(luò)具有足夠的深度以及最大化了信息的流動(dòng). 深度三維卷積神經(jīng)網(wǎng)絡(luò)中常用的基于視頻的異常行為識(shí)別流程如圖1所示.

圖1 基于視頻的異常行為識(shí)別流程

Huang[11]等人提出了一種具有密集連接特性的深度卷集神經(jīng)網(wǎng)絡(luò)DenseNet. 在該網(wǎng)絡(luò)所有的層中，兩兩之間都存在連接，也就是說，網(wǎng)絡(luò)每一層的輸入都是由前面所有層輸出特征圖的并集組成，而該層所學(xué)習(xí)的特征圖也會(huì)作為后面所有層的輸入. DenseNet可以有效解決梯度消失問題，強(qiáng)化特征傳播，支持特征重用以及大幅度減少參數(shù)數(shù)量. 鑒于C3D以及密集連接特性的諸多優(yōu)點(diǎn)，本文同樣也采用了類似具有密集連接特性的C3D網(wǎng)絡(luò)進(jìn)行異常行為識(shí)別.

2 深層網(wǎng)絡(luò)模型的改進(jìn)

2.1 異常行為識(shí)別現(xiàn)有技術(shù)的不足

在人體行為識(shí)別中，人體是非剛性的目標(biāo)主體，其行為出現(xiàn)的形式具有非常大的靈活性，這使得識(shí)別和檢測(cè)異常行為變得非常具有挑戰(zhàn)性，因此如何有效提取可判別的行為特征是一個(gè)研究難點(diǎn). 與行為的外形特征相比，由于時(shí)序上的運(yùn)動(dòng)特征往往不能很好地建模，容易造成部分關(guān)鍵時(shí)序運(yùn)動(dòng)信息發(fā)生丟失. 在以往的時(shí)序結(jié)構(gòu)中，大多在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中使用一種固定時(shí)序深度的三維卷積進(jìn)行特征提取，這種方式不利于融合多時(shí)間跨度的時(shí)序信息，從而導(dǎo)致時(shí)序信息得不到充分利用，進(jìn)而阻礙了行為識(shí)別準(zhǔn)確率的進(jìn)一步提升. 為了彌補(bǔ)這種不足，使用可變時(shí)序深度三維卷積并結(jié)深度可分離卷積融合多時(shí)間跨度的時(shí)序信息，使用密集連接的特性最大化網(wǎng)絡(luò)的信息流動(dòng)，使得時(shí)空信息被充分利用以提高行為識(shí)別準(zhǔn)確率.

2.2 基于3D DenseNet的改進(jìn)

為了有效地完成行為識(shí)別任務(wù)，需增加DenseNet的時(shí)間維度以擴(kuò)展到三維的情形從而構(gòu)成3D DenseNet. 為此，我們根據(jù)C3D網(wǎng)絡(luò)結(jié)合DenseNet實(shí)現(xiàn)了3D DenseNet的相關(guān)算法，并將包含固定時(shí)序卷積核深度的時(shí)序過渡層擴(kuò)展為包含多個(gè)可變時(shí)序深度的卷積核過渡層，使其能夠?qū)r(shí)序信息進(jìn)一步提煉并建模. 在3D DenseNet基礎(chǔ)上通過增加深度可分離卷積的可變時(shí)序深度三維卷積進(jìn)行了進(jìn)一步的改進(jìn)，使得改進(jìn)后的網(wǎng)絡(luò)能更加充分利用動(dòng)作間的時(shí)序信息進(jìn)行建模.

與DenseNet中定義類似，3D DenseNet中兩個(gè)相鄰的三維密集塊之間的層稱為時(shí)序過渡層，并通過三維卷積和池化來改變特征圖的大小. 時(shí)序過渡層由4個(gè)串聯(lián)的可變時(shí)序深度的三維卷積層組成，后面接一個(gè)1×1×1的三維卷積層和一個(gè)2×2×2的平均池化層. 由于層之間的特征圖存在大小差異，導(dǎo)致池化圖層執(zhí)行下采樣操作時(shí)會(huì)與執(zhí)行式（5）中特征圖的串聯(lián)操作沖突，故需將網(wǎng)絡(luò)劃分為多個(gè)密集連接的密集塊，并在它們之間添加過渡層. 如圖2所示，三維時(shí)序卷積以端到端的方式進(jìn)行學(xué)習(xí).

圖2 三維時(shí)序卷積

表1 整體結(jié)構(gòu)設(shè)計(jì)

2.3 模型結(jié)構(gòu)改進(jìn)分析

普通卷積操作為

深度可分離卷積在式（6）的基礎(chǔ)上，考慮區(qū)域和通道的方式變?yōu)橄瓤紤]區(qū)域再考慮通道的方式，實(shí)現(xiàn)了區(qū)域和通道分離. 深度可分離卷積的計(jì)算過程是在執(zhí)行逐點(diǎn)卷積（Pointwise Convolution）前先執(zhí)行深度卷積（Depthwise Convolution）：

從而構(gòu)成

3 實(shí)驗(yàn)及結(jié)果分析

表2 實(shí)驗(yàn)數(shù)據(jù)集的組成結(jié)構(gòu)

圖3 實(shí)驗(yàn)數(shù)據(jù)集中的部分訓(xùn)練樣本

為了證明本算法的有效性，本實(shí)驗(yàn)實(shí)現(xiàn)了3D DenseNet的相關(guān)算法，并在其基礎(chǔ)上按照上述的改進(jìn)細(xì)節(jié)在自建的ATM前異常行為模擬數(shù)據(jù)集上實(shí)施了本次對(duì)比實(shí)驗(yàn). 表3和表4分別為使比對(duì)算法和本算法在相同驗(yàn)證集中的統(tǒng)計(jì)結(jié)果.

表3 比對(duì)算法在驗(yàn)證集中的統(tǒng)計(jì)結(jié)果

表4 本算法在驗(yàn)證集中的統(tǒng)計(jì)結(jié)果

將表3和表4的統(tǒng)計(jì)結(jié)果匯總為表5所示.

表5 算法比對(duì)結(jié)果

從表5中可以看出，對(duì)打架行為的識(shí)別的準(zhǔn)確率最高，搶劫行為的識(shí)別準(zhǔn)確率最低，徘徊和取款行為居中并且識(shí)別準(zhǔn)確率相近. 這可以解釋為打架行為動(dòng)作幅度大，具有的運(yùn)動(dòng)特征比較明顯，而搶劫行為與打架行為有著較高的相似度，甚至可以看作是打架行為的特例，導(dǎo)致?lián)尳傩袨樽R(shí)別較為困難. 同樣，徘徊行為和取款行為也存在一定的共性，但徘徊行為相對(duì)于取款行為來說空間位置變化比較大，使得徘徊行為和取款行為可以較為容易區(qū)分并準(zhǔn)確識(shí)別. 對(duì)表5中的行為類別準(zhǔn)確率進(jìn)行平均得到了表6中的平均準(zhǔn)確率，并在表6中對(duì)模型參數(shù)量進(jìn)行了比較.

表6 平均準(zhǔn)確率和模型參數(shù)量

從表6中的實(shí)驗(yàn)結(jié)果可以看出，本文算法與改進(jìn)前的算法在準(zhǔn)確率上有了進(jìn)一步的提升，同時(shí)模型參數(shù)量?jī)H有小幅度的增加. 這說明了本算法在參數(shù)效率和準(zhǔn)確率之間得到了較好的平衡.

圖4 測(cè)試集中測(cè)試結(jié)果部分視頻截圖

從圖4結(jié)果來看，能較為準(zhǔn)確地識(shí)別出對(duì)應(yīng)的行為，由此證明了本實(shí)驗(yàn)改進(jìn)算法的有效性.

為驗(yàn)證模型的泛化能力，從網(wǎng)絡(luò)上下載了幾個(gè)與訓(xùn)練類別相關(guān)的視頻片段，并對(duì)其進(jìn)行測(cè)試.

圖5 實(shí)際測(cè)試結(jié)果部分視頻截圖

從圖5結(jié)果來看，本算法可以較好地識(shí)別實(shí)際場(chǎng)景中的對(duì)應(yīng)行為，具有較好的模型泛化性能.

4 總結(jié)

將深度學(xué)習(xí)應(yīng)用于ATM視頻的異常行為識(shí)別，改進(jìn)深度網(wǎng)絡(luò)結(jié)構(gòu)模型，在基于3D DenseNet引入具有可變時(shí)序深度的卷積核過渡層并結(jié)合深度可分離卷積層，提高了模型對(duì)時(shí)序信息的利用率，進(jìn)一步提高了模型的準(zhǔn)確率和泛化性能. 由于對(duì)送入到時(shí)序過渡層中的特征實(shí)施了適當(dāng)?shù)慕稻S操作，使得參數(shù)效率和準(zhǔn)確率獲得較為理想的折中效果. 由于實(shí)驗(yàn)條件和資源有限，獲取的樣本數(shù)量還不夠大，在后續(xù)的工作中將結(jié)合實(shí)際ATM視頻，研究增加樣本數(shù)量后如何提高識(shí)別的準(zhǔn)確性.

[1] 朱煜，趙江坤，王逸寧，等. 基于深度學(xué)習(xí)的人體行為識(shí)別算法綜述[J]. 自動(dòng)化學(xué)報(bào)，2016, 42(6): 848-857.

[2] CHOLLET F. Xception: deep learning with depthwise separable convolutions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, Hawaii: IEEE，2017: 1251-1258.

[3] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos [C]// International Conference on Neural Information Processing Systems, Montreal: MIT Press，2014:568-576.

[4]FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal multiplier networks for video action recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017: 7445-7454.

[5] FEICHTENHOFER C, PINZ A, WILDES R. Spatiotemporal residual networks for video action recognition [C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc, 2016: 3476-3484.

[6] JI Shuiwang, XU W, YANG Ming, et al. 3D Convolutional Neural Networks for Human Action Recognition [J]. IEEE Transaction Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

[7] TRAN D, BOURDEV L, FERGUS R, et al. Learning Spatiotemporal Features with 3D Convolutional Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV), Boston：IEEE, 2015: 4489-4497.

[8] HARA K, KATAOKA H, SATOH Y. Learning spatio-temporal features with 3D residual networks for action recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017: 3154-3160.

[9] SHOU Zheng, CHAN J, ZAREIAN A, et al. CDC: convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, Hawaii: IEEE, 2017: 1417-1426.

[10] GU Dongfeng. 3D densely connected convolutional network for the recognition of human shopping actions [D]. Ottawa: University of Ottawa, 2017.

[11] HUANG Gao, LIU Zhuang, VAN der M L, et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Hawaii: IEEE, 2017: 2261-2269.

[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems, California: NIPS, 2017: 6000-6010.

[責(zé)任編輯：韋韜]

A Method for Abnormal Behavior Recognition Based on Deep Learning

YANGRui, LUOBing, HAOYe-lin, CHANGJin-jin

(School of Information Engineering, Wuyi University, Jiangmen 529020, China)

Abnormal behavior recognition and detection have extensive application prospects in the field of security; however, the existing abnormal behavior recognition methods are low in the utilization rate of temporal information, and the accuracy and speed of processing cannot meet the actual needs. In this paper, the 3-D densely connected deep network architecture is employed to perform modeling of the temporal and spatial features of the video acquisition based on deep learning, and to recognize normal behavior and the three types of abnormal behavior: fighting, loitering, and robbery. Multiple convolution kernels with variable temporal depth combined with depthwise separable convolutional layers can be adopted to redesign the time series transition layer so as to make more use of temporal information from the input signals. Simulation results show that the accuracy of the proposed method reaches 92.5%, which further improves the accuracy and generalization performance of the model.

abnormal behavior; action recognition; deep learning; temporal transition

1006-7302（2018）02-0023-08

TP216.1

2018-03-09

楊銳（1992—），男，湖北孝感人，在讀碩士生，主要研究方向?yàn)閿?shù)字圖像處理及應(yīng)用；羅兵，教授，博士，碩士生導(dǎo)師，通信作者，主要研究方向?yàn)闄C(jī)器視覺、智能信息處理、數(shù)家圖像處理及應(yīng)用.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于深度學(xué)習(xí)的異常行為識(shí)別方法

1 深度學(xué)習(xí)與異常行為識(shí)別

1.1 異常行為的定義

1.2 異常行為的分類

1.3 基于深度學(xué)習(xí)的異常行為識(shí)別

2 深層網(wǎng)絡(luò)模型的改進(jìn)

2.1 異常行為識(shí)別現(xiàn)有技術(shù)的不足

2.2 基于3D DenseNet的改進(jìn)

2.3 模型結(jié)構(gòu)改進(jìn)分析

3 實(shí)驗(yàn)及結(jié)果分析

4 總結(jié)