徐飛
摘要:為了使視頻監(jiān)控系統(tǒng)達(dá)到較高的智能化水平,提高工作效率,實(shí)現(xiàn)自動(dòng)檢測并反饋異常情況,該文提出了一種基于深度學(xué)習(xí)的視頻目標(biāo)異常行為分析算法,針對(duì)考場和網(wǎng)上評(píng)卷監(jiān)控視頻,判斷目標(biāo)是否存在異常行為,基于目標(biāo)及骨架模型檢測、目標(biāo)跟蹤和目標(biāo)行為分析多端結(jié)合的方法在此方面更有效,在考場和網(wǎng)上評(píng)卷監(jiān)控視頻中的考生和老師異常行為分析具有明顯的效果,能夠解決考場和網(wǎng)上評(píng)卷監(jiān)控視頻中人工查找異常,工作效率低及視頻存儲(chǔ)冗余大,無法過濾無關(guān)緊要的視頻等問題。
關(guān)鍵詞:深度學(xué)習(xí);骨架模型;考場監(jiān)控
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)20-0230-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
1概述
考場和網(wǎng)上評(píng)卷監(jiān)控視頻系統(tǒng)大多處于傳統(tǒng)模式,其主要功能和應(yīng)用還是停留在攝像和存儲(chǔ)上,即“只記錄不判斷”,一旦發(fā)現(xiàn)異常情況,只能通過人工回看存儲(chǔ)的視頻查找異常,因此目前的視頻監(jiān)控主要存在以下問題:需人工回看查找異常,工作效率低;視頻存儲(chǔ)冗余大,無法過濾無關(guān)緊要的視頻。
近年來,隨著計(jì)算機(jī)視覺領(lǐng)域的飛速發(fā)展,以及機(jī)器學(xué)習(xí)技術(shù)、深度學(xué)習(xí)技術(shù)等深度應(yīng)用,基于監(jiān)控視頻的拓展研究領(lǐng)域越來越廣泛,應(yīng)用相關(guān)技術(shù)對(duì)視頻中的人體行為進(jìn)行分析,將現(xiàn)有的簡單行為識(shí)別和語義描述推廣到更為復(fù)雜的未知場景下的行為分析與自然語言描述變得越來越重要。目前視頻行為分析方法主要通過深度學(xué)習(xí)實(shí)現(xiàn),其中主要分為基于端到端的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)的方法和基于目標(biāo)及骨架模型檢測、目標(biāo)跟蹤和目標(biāo)行為分析多端結(jié)合的方法。這兩種方法在行為識(shí)別方面都取得了不錯(cuò)的效果。
但針對(duì)考場和網(wǎng)上評(píng)卷監(jiān)控視頻,由于視頻中存在多個(gè)目標(biāo)且間隔較小,基于端到端的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)方法對(duì)目標(biāo)行為分析效果不明顯,為了實(shí)現(xiàn)更加智能化的目標(biāo)行為分析方法,判斷目標(biāo)是否存在異常行為,基于目標(biāo)及骨架模型檢測、目標(biāo)跟蹤和目標(biāo)行為分析多端結(jié)合的方法在此方面更有效,基于此,本文提出一種新穎的基于深度學(xué)習(xí)的視頻目標(biāo)異常行為分析算法。
2基于深度學(xué)習(xí)的視頻目標(biāo)異常行為分析
綜合考慮監(jiān)控環(huán)境和目標(biāo)行為的檢測與分析,實(shí)現(xiàn)基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)動(dòng)態(tài)行為分析算法,其主要分為四個(gè)關(guān)鍵的處理階段:第一階段是基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)核跟蹤算法,實(shí)現(xiàn)了多個(gè)目標(biāo)檢測及目標(biāo)骨架模型檢測和使用非極大值抑制算法確定目標(biāo)在不同相鄰圖像序列之間所處的位置,實(shí)現(xiàn)跟蹤目標(biāo)的目的;第二階段是選取目標(biāo)關(guān)鍵坐標(biāo)信息,目的是去掉目標(biāo)姿態(tài)中多余的坐標(biāo)點(diǎn)和非規(guī)則的目標(biāo)圖像有利于對(duì)目標(biāo)行為分析,降低行為識(shí)別錯(cuò)誤率;第三階段是界定目標(biāo)行為,提取目標(biāo)正常行為和異常行為時(shí)的特征向量,經(jīng)過SVM分類器進(jìn)行動(dòng)作分類,其中SVM分類器由大量目標(biāo)行為動(dòng)作特征訓(xùn)練得到;第四階段是結(jié)合SVM分類器的學(xué)習(xí)算法和特征向量相似度匹配算法修正行為界定參數(shù),實(shí)現(xiàn)了動(dòng)態(tài)行為分析算法對(duì)識(shí)別錯(cuò)誤的目標(biāo)行為進(jìn)行再學(xué)習(xí)和即時(shí)屏蔽相似識(shí)別錯(cuò)誤的行為的功能?;谏疃葘W(xué)習(xí)的目標(biāo)考場異常行為分析主要原理如圖1。
2.1基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)和跟蹤
基于深度學(xué)習(xí)的視頻目標(biāo)異常行為分析算法,首先實(shí)現(xiàn)的是目標(biāo)檢測,目的是從視頻序列的場景圖像中準(zhǔn)確檢測、提取出目標(biāo)。目標(biāo)檢測是數(shù)字圖像處理技術(shù)的一個(gè)主要組成部分,也是計(jì)算機(jī)視覺、模式識(shí)別、目標(biāo)跟蹤與識(shí)別、安全監(jiān)控等眾多領(lǐng)域的重點(diǎn)和難點(diǎn),在許多領(lǐng)域都有廣泛的應(yīng)用背景。智能監(jiān)控系統(tǒng)中的后續(xù)處理與目標(biāo)檢測效果的優(yōu)劣直接相關(guān),比如后續(xù)的行為理解和分析等。因此,目標(biāo)檢測效果的優(yōu)劣關(guān)系到整個(gè)系統(tǒng)的優(yōu)劣性和實(shí)用性。
基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)算法實(shí)現(xiàn)了對(duì)目標(biāo)及其抽象姿態(tài)的檢測,即通過人體結(jié)構(gòu)關(guān)系優(yōu)化算法連接每個(gè)目標(biāo)的關(guān)鍵關(guān)節(jié)坐標(biāo)點(diǎn)實(shí)現(xiàn)對(duì)目標(biāo)抽象姿態(tài)的檢測,主要原理步驟如下:
1)利用卷積神經(jīng)網(wǎng)絡(luò)CNN_1(VGG網(wǎng)絡(luò)模型)對(duì)圖像進(jìn)行特征提取生成特征圖,目的是過濾無關(guān)背景;
2)分別利用兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN_2_1和CNN_2_2分別為全連接網(wǎng)絡(luò)模型)對(duì)圖像特征圖進(jìn)行分布式處理,CNN_2_1實(shí)現(xiàn)檢測人體關(guān)節(jié)坐標(biāo)區(qū)域并通過非極大值抑制算法進(jìn)行優(yōu)化得到最優(yōu)的人體關(guān)節(jié)坐標(biāo)點(diǎn),CNN_2_2實(shí)現(xiàn)檢測人體結(jié)構(gòu)關(guān)系區(qū)域并通過人體結(jié)構(gòu)關(guān)系向量優(yōu)化算法得到單一人體結(jié)構(gòu)區(qū)域,聯(lián)合人體關(guān)節(jié)坐標(biāo)點(diǎn)和單一人體結(jié)構(gòu)區(qū)域得到人體目標(biāo)抽象姿態(tài)。
3)優(yōu)化神經(jīng)網(wǎng)絡(luò)模型循環(huán)迭代至損失函數(shù)值最小得到最優(yōu)的單一目標(biāo)人體抽象姿態(tài)(包含人體關(guān)節(jié)坐標(biāo)點(diǎn))。
算法中卷積神經(jīng)網(wǎng)絡(luò)CNN_1是為了滿足提取圖像特征的需要由大量目標(biāo)圖像訓(xùn)練得到,卷積神經(jīng)網(wǎng)絡(luò)CNN_2_1是為了滿足檢測關(guān)節(jié)坐標(biāo)區(qū)域的需要由大量目標(biāo)圖像通過標(biāo)定關(guān)節(jié)位置的高斯響應(yīng)訓(xùn)練得到,卷積神經(jīng)網(wǎng)絡(luò)CNN_2_2是為了滿足檢測結(jié)構(gòu)關(guān)系區(qū)域的需要由大量目標(biāo)圖像通過標(biāo)定和計(jì)算人體部件位置訓(xùn)練得到。另外對(duì)得到的每個(gè)目標(biāo)骨骼模型在圖像序列之間建立目標(biāo)相關(guān)骨骼模型流,由于考場中有多個(gè)目標(biāo)且移動(dòng)幅度較小,所以使用非極大值抑制算法確定目標(biāo)在不同相鄰圖像序列之間所處的位置,實(shí)現(xiàn)跟蹤目標(biāo)的目的,便于對(duì)連續(xù)圖像序列中的每個(gè)目標(biāo)進(jìn)行行為分析?;谏疃葘W(xué)習(xí)的人體姿態(tài)估計(jì)原理圖如圖2:
2.2選取目標(biāo)關(guān)鍵部位坐標(biāo)信息
根據(jù)視頻監(jiān)控下的場景,目標(biāo)在考試或網(wǎng)上評(píng)卷過程中的行為主要集中體現(xiàn)在目標(biāo)的頭部、肩部、胳膊等上半身部位,對(duì)目標(biāo)進(jìn)行行為分析主要是對(duì)目標(biāo)上半身部位的分析。因此,需要對(duì)人體姿態(tài)估計(jì)算法得到的目標(biāo)抽象姿態(tài)做進(jìn)一步處理,去掉上半身以外的部位。
首先,根據(jù)人體姿態(tài)估計(jì)算法,找出需要去掉的身體部位的坐標(biāo)點(diǎn)的操作實(shí)際上就是把去掉部位對(duì)應(yīng)的坐標(biāo)點(diǎn)置為0,得到所需部位關(guān)鍵坐標(biāo)點(diǎn),然后對(duì)所需的人體關(guān)鍵坐標(biāo)點(diǎn)進(jìn)行連接。另外,為了避免對(duì)拍攝不當(dāng)或存在遮擋的目標(biāo)產(chǎn)生錯(cuò)誤的行為分析,算法中把是否拍攝到目標(biāo)上半身關(guān)鍵部位將目標(biāo)圖像定義為規(guī)則圖像和非規(guī)則圖像,規(guī)則圖像是包含目標(biāo)頭部、肩部、胳膊或者頭部、肩部或者肩部、胳膊的圖像,其他的圖像為非規(guī)則圖像。系統(tǒng)中采用丟棄非規(guī)則圖像,只處理規(guī)則圖像的策略實(shí)現(xiàn)行為分析,示意圖如圖3:
2.3目標(biāo)行為特征提取與分析
目標(biāo)行為界定就是目標(biāo)異常行為識(shí)別的過程,異常行為識(shí)別是指對(duì)人體行為通過機(jī)器語言和算法進(jìn)行分析和描述,并采用自然語言對(duì)其進(jìn)行理解,這個(gè)過程為行為-視頻-分析-描述-行為,即測試序列通過預(yù)先建立的異常行為分類器進(jìn)行行為分類,可以簡單地認(rèn)為是時(shí)空變化的數(shù)據(jù)分類。因此,人體異常行為識(shí)別的關(guān)鍵技術(shù)是如何依靠樣本建立人體行為分類器,并且該分類器能夠適應(yīng)在相似背景下的空間和時(shí)間尺度上的變化特征來更新和學(xué)習(xí)。
目標(biāo)行為界定的原理是在基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)算法的基礎(chǔ)上,對(duì)目標(biāo)關(guān)鍵部位的變化進(jìn)行特征表示,然后通過SVM分類器進(jìn)行行為識(shí)別。
特征表示的原理流程是在通過人體姿態(tài)估計(jì)算法檢測到目標(biāo)圖像中建立統(tǒng)一坐標(biāo)系,計(jì)算連續(xù)兩張圖像中目標(biāo)的關(guān)鍵點(diǎn)坐標(biāo)變化幅度值、方向和胳膊連接線、兩肩連接線、頭部連接線相互之間的角度變化并組成特征向量,特征向量提取示意圖如圖4所示。
行為識(shí)別的原理流程是把行為特征向量通過SVM分類器進(jìn)行分類,得到行為類型,判斷目標(biāo)行為是否為異常行為,其中SVM分類器是經(jīng)過標(biāo)注和提取大量目標(biāo)行為特征向量訓(xùn)練學(xué)習(xí)得到。
目標(biāo)行為界定原理圖如圖5:
2.4相似度匹配和反饋學(xué)習(xí)
目標(biāo)行為分析在實(shí)際應(yīng)用中,不可避免地會(huì)出現(xiàn)對(duì)某些行為發(fā)生了錯(cuò)誤的識(shí)別,即把正常的行為識(shí)別為錯(cuò)誤的行為。系統(tǒng)會(huì)產(chǎn)生誤報(bào),影響正??荚?,為了達(dá)到即時(shí)屏蔽類似錯(cuò)誤識(shí)別的行為的目的,并后期可以對(duì)SVM分類器進(jìn)行反饋學(xué)習(xí),設(shè)計(jì)了基于特征向量相似度匹配的行為識(shí)別修正算法和錯(cuò)誤識(shí)別的行為特征向量反饋學(xué)習(xí)算法。
基于特征向量相似度匹配的行為識(shí)別修正算法的原理是把錯(cuò)誤識(shí)別的行為的特征向量保存到修正庫中,并根據(jù)實(shí)際行為類型記錄到修正庫中,將修正庫中的特征向量與每次提取的行為特征向量進(jìn)行余弦相似度匹配,并設(shè)定相似度閾值,當(dāng)通過SVM分類器界定結(jié)果與相似度匹配結(jié)果一致時(shí),得到最終行為界定結(jié)果。反饋學(xué)習(xí)算法的原理是利用了分類器模型能夠再學(xué)習(xí)的優(yōu)點(diǎn),當(dāng)目標(biāo)行為界定算法對(duì)于一些行為發(fā)生錯(cuò)誤識(shí)別時(shí),反饋學(xué)習(xí)算法通過人工標(biāo)記錯(cuò)誤識(shí)別的行為類型反饋給SVM分類器,SVM分類器經(jīng)多次訓(xùn)練后可以自動(dòng)修正行為分類中的參數(shù)并提高行為識(shí)別準(zhǔn)確率。
3實(shí)驗(yàn)
在應(yīng)用中,因?yàn)榭紙龊途W(wǎng)上評(píng)卷視頻中存在大量冗余,所以我們采取在視頻中采樣圖像的方式進(jìn)行目標(biāo)動(dòng)態(tài)行為分析,我們算法中所使用的卷積網(wǎng)絡(luò)模型和SVM分類器都是經(jīng)過長時(shí)間積累的考場和網(wǎng)上評(píng)卷監(jiān)控視頻中的圖像數(shù)據(jù)進(jìn)行標(biāo)注和訓(xùn)練得到。在應(yīng)用測試中,我們把異常行為分類準(zhǔn)確率作為衡量算法優(yōu)劣的標(biāo)準(zhǔn)。
在某省一場考試中,實(shí)時(shí)處理近3000小時(shí)監(jiān)控視頻,視頻分辨率為720p,對(duì)三個(gè)目標(biāo)異常動(dòng)作(轉(zhuǎn)身,伸手,起身)測試結(jié)果如下:
4總結(jié)
智能視頻動(dòng)態(tài)行為分析作為視頻監(jiān)控的一個(gè)發(fā)展方向,已經(jīng)得到越來越多的關(guān)注,可以預(yù)見的是,考場和網(wǎng)上評(píng)卷現(xiàn)場監(jiān)控視頻環(huán)境下的目標(biāo)行為分析將對(duì)考場和網(wǎng)上評(píng)卷現(xiàn)場秩序考試中的突發(fā)狀況發(fā)揮著越來越重要的監(jiān)控作用。
本文在研究和分析了基于視頻序列的動(dòng)態(tài)行為分析關(guān)鍵技術(shù)的基礎(chǔ)上,圍繞考場和網(wǎng)上評(píng)卷現(xiàn)場中對(duì)目標(biāo)的異常行為分析識(shí)別要求,設(shè)計(jì)了基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)動(dòng)態(tài)行為分析算法,雖然目前這種應(yīng)用技術(shù)受到監(jiān)控視頻質(zhì)量、目標(biāo)行為樣本數(shù)量和計(jì)算能力的影響,還不夠成熟,但它能夠檢測和識(shí)別考場和網(wǎng)上評(píng)卷現(xiàn)場中部分異常動(dòng)作(轉(zhuǎn)身,伸手,起身)。
參考文獻(xiàn):
[1] Cho S H, Kang H B. Abnormal behavior detection using hybrid agents in crowded scenes[J]. Pattern Recognition Letters, 2014, 44: 64-70.
[2] 李婧. 電子監(jiān)考異常行為的檢測與研究[D]. 太原: 太原理工大學(xué), 2013.
[3] 李慧. 基于視頻的考場異常行為識(shí)別研究[D]. 天津:天津財(cái)經(jīng)大學(xué), 2012.
[4] 楊帆. 智能化考場中考生考勤的關(guān)鍵技術(shù)研究[D]. 昆明:昆明理工大學(xué), 2014.
[5] 張銀霞, 馬小川, 楊季彪, 等. 基于卡爾曼濾波的考生異常行為檢測與識(shí)別[J]. 齊齊哈爾大學(xué)學(xué)報(bào) :自然科學(xué)版, 2017(6):16-19.
[6] Arifoglu D, Bouchachia A. Activity recognition and abnormal behaviour detection with recurrent neural networks[J]. Procedia Computer Science, 2017, 110: 86-93.
[7] 韓貴金, 趙勇. 基于樹形圖結(jié)構(gòu)模型的人體姿態(tài)估計(jì)[D]. 西安:西安郵電大學(xué)學(xué)報(bào),2013.
[8] 李少波, 趙毅夫, 趙群飛, 等. 機(jī)器人的人體姿態(tài)動(dòng)作識(shí)別與模仿算法[J]. 計(jì)算機(jī)工程,2013(8):181-186.
[9] Chong Y S, Tay Y H. Modeling representation of videos for anomaly detection using deep learning: A review[J]. Computer Science, 2015.
[10] Castro D, Hickson S, Bettadapura V, et al. Predicting daily activities from egocentric images using deep learning[C]//proceedings of the 2015 ACM International symposium on Wearable Computers. ACM, 2015: 75-82.