胡秀云
DOI:10.16660/j.cnki.1674-098x.2104-5640-3698
摘? 要:視頻監(jiān)控作為一種應(yīng)用廣泛的安全監(jiān)控技術(shù),自誕生以來就受到了人們的重視。為了實(shí)現(xiàn)對行人異常行為的檢測。本文采用一種基于自編碼器的檢測模型,采用半監(jiān)督學(xué)習(xí)方法,采用包含很少或沒有異常事件的圖像序列進(jìn)行訓(xùn)練。具體來說,由卷積自動編碼器組成的深層神經(jīng)網(wǎng)絡(luò)被用來以一種非監(jiān)督的方式處理數(shù)據(jù)幀,捕獲數(shù)據(jù)中的空間結(jié)構(gòu)。然后將這些空間結(jié)構(gòu)組合在一起組成數(shù)據(jù)表示,并由三層卷積長短期記憶模型(Long Short Term Memory, LSTM)組成時間編碼器學(xué)習(xí)編碼空間結(jié)構(gòu)。最后將這些特征數(shù)據(jù)通過規(guī)則性得分,根據(jù)得分進(jìn)而對行人異常行為與否作出判斷。經(jīng)過研究可以對異常行為作出判斷。
關(guān)鍵詞:行人異常? 自編碼器? 空間結(jié)構(gòu)? 長短期記憶模型
中圖分類號:TP319? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A文章編號:1674-098X(2021)05(a)-0082-04
Pedestrian Anomaly Detection Method Based on Autoencoder
HU Xiuyun
(School of Information, Shenyang Ligong University, Shenyang, Liaoning Province, 110159? China)
Abstract: Video surveillance, as a widely used security monitoring technology, has been paid attention to since its birth. In order to detect the abnormal behavior of pedestrians. This paper is based on self-encoder, using unsupervised learning method, using the image sequence containing few or no abnormal events.In particular, deep neural networks composed of convolutional autoencoders are used to process data frames in an semi-supervised manner to capture spatial structure in the data. And then these spatial structures are combined to form data representations, and a three-layer convolutional Long Short Term Memory (LSTM) is used to form a time encoder to learn the coding spatial structure. Finally, through the regular score, the characteristic data are judged according to the score. The study can judge the abnormal behavior.
Key Words: Pedestrian anomaly; Self-encoder; Spatial structure; Long short term memory
視頻監(jiān)控作為一種應(yīng)用廣泛的安全監(jiān)控技術(shù),自誕生之日起就受到人們的重視。行人異常檢測中的異常其本身是指偏離了正常行為的一些不正常的行為,例如,逆行、聚集、摔倒、斗毆等。大多數(shù)這些不正常的情況事先是未知的,因?yàn)檫@將需要預(yù)測所有的異常形式,可能會發(fā)生事情的規(guī)范。因此,根本不可能為所有不正?;虿灰?guī)則的事物學(xué)習(xí)一個模型。相比獲得不正常事件更容易獲得正常的視頻數(shù)據(jù)場景。所以我們可以集中在設(shè)置一個訓(xùn)練數(shù)據(jù)只包含正常的視覺模式。
1? 行人異常檢測方法簡述
本文提出了一個新的視頻數(shù)據(jù)表示框架,該框架通過一系列通用特征來表示視頻數(shù)據(jù)。具體來說,一個由一堆卷積自動編碼器組成的深層神經(jīng)網(wǎng)絡(luò)被用來以一種非監(jiān)督的方式處理視頻幀,捕捉視頻中的空間結(jié)構(gòu),最后組成包含空間結(jié)構(gòu)特征對的視頻表示。當(dāng)一個異常事件發(fā)生時,最近的視頻幀會和之前的視頻幀有顯著的不同。利用自編碼器訓(xùn)練了一個端到端模型,該模型由一個特征提取器和一個時間編解碼器組成,它們共同學(xué)習(xí)幀輸入的時間模式。該方法利用只含正常場景的視頻進(jìn)行訓(xùn)練。以最小化輸入圖像與學(xué)習(xí)模型重建的輸出圖像之間的重建誤差為目標(biāo),采用的方法包括3個主要階段。
2? 行人異常檢測系統(tǒng)設(shè)計(jì)
2.1 圖像預(yù)處理
在數(shù)據(jù)的輸入上,傳統(tǒng)的圖像識別輸入的都是3通道的RGB彩色圖像,而在行人檢測中檢測的是連續(xù)的視頻片段。以往的檢測手段如Hasan[1]等人提出的滑動窗口會失去視頻中空間和時間特征。所以本文采用3D卷積[2],3D卷積的對象是三維圖像,是多張圖像按照一個時間序列的形式進(jìn)行輸入,卷積核的平移方向包括平面上的高、寬以及時間維度上的幀數(shù),這樣可以很好地保留空間和時間特征。
3D卷積:通常情況下對視頻進(jìn)行卷積都是使用2D CNN,對視頻中每一幀圖像進(jìn)行卷積,但這種卷積方式的缺點(diǎn)就是會損失時間維度的幀間運(yùn)動信息。使用3D CNN能更好地捕獲視頻中的時間和空間特征信息,3D CNN對圖像序列采用3D卷積核進(jìn)行卷積操作,如圖1所示。
2.2 特征學(xué)習(xí)
提出了一種時空卷積自動編碼器來學(xué)習(xí)訓(xùn)練幀中的規(guī)則模式。該體系結(jié)構(gòu)由兩部分組成: 用于學(xué)習(xí)每個視頻幀空間結(jié)構(gòu)的空間自編碼器和用于學(xué)習(xí)編碼空間結(jié)構(gòu)的時間自編碼器。
2.2.1 3D空間卷積自編碼器
卷積網(wǎng)絡(luò)的主要目的是從輸入圖像中提取特征??臻g卷積通過輸入數(shù)據(jù)的小范圍圖像特征,保持像素之間的空間關(guān)系??臻g自編碼器和解碼器分別有兩個卷積和去卷積層。數(shù)學(xué)上,卷積運(yùn)算執(zhí)行的是濾波器和輸入的局部區(qū)域的乘積[3]。假設(shè)我們有n×n輸入層,其次是卷積層。如果我們使用 m×m的濾波器,卷積層輸出將是大?。╪-m + 1)×(n-m + 1)×3。設(shè)置輸入視頻幀大小為10的序列,經(jīng)過卷積和編碼后再經(jīng)過解碼和反卷積[4]操作最后重構(gòu)出視頻序列??臻g卷積自編碼器構(gòu)造如圖2所示。
2.2.2 3D時間卷積自編碼器
時間自編碼器是一個三層的卷積長短期記憶模型(Long Short Term Memory,LSTM)[5],它包含了一個叫做忘記網(wǎng)關(guān)的循環(huán)門。卷積層可以很好地對物體進(jìn)行識別,LSTM模型廣泛應(yīng)用于序列學(xué)習(xí)和時間序列建模。在這個結(jié)構(gòu)中,LSTMS可以防止回傳錯誤消失或爆炸,從而可以處理長序列,并且可以捕獲更高層次的信息。卷積LSTM是LSTM體系結(jié)構(gòu)的變體,是由shi[6]等人提出的,最近被用于視頻幀預(yù)測。相比卷積長短期記憶模型(FC-LSTM),卷積LSTM使用卷積層代替全連接層。使用3D卷積直接提取數(shù)據(jù)的空間和時間特征,從而可以使卷積神經(jīng)網(wǎng)絡(luò)能更好地處理序列信息。將編碼序列按時間順序輸入到卷積LSTM網(wǎng)絡(luò)中對視頻動態(tài)變化進(jìn)行建模,由于一個編碼便能描述圖像中的幾幀,即使在預(yù)測模型中LSTM網(wǎng)絡(luò)僅僅能記憶輸入序列中最后的幾個編碼,也能保證LSTM網(wǎng)絡(luò)中記憶的內(nèi)容包含了原視頻中足夠長的內(nèi)容,強(qiáng)迫模能更好地學(xué)習(xí)特征表征。空間卷積自編碼器構(gòu)造如圖3所示。
對流單元可由公式(1)到(6)來概括,輸入端以圖像形式輸入,而每個連接的權(quán)重集則由卷積濾波器取代。這使得對流Lstm能夠比Fc-Lstm更好地處理圖像,因?yàn)樗軌蛲ㄟ^每個對流Lstm狀態(tài)在時間上傳播空間特性。
方程(1)表示遺忘層,(2)和(3)表示添加新信息的地方,(4)結(jié)合新舊信息,而(5)和(6)輸出到目前為止學(xué)到的東西到下一步的lstm單元。變量xt表示輸入向量,ht表示隱藏狀態(tài),Ct表示時間t時的細(xì)胞狀態(tài),t表示可訓(xùn)練的權(quán)重矩陣,b表示偏向向量,符號表示卷積,符號 表示矩陣乘積。
2.3 規(guī)律性得分
模型訓(xùn)練完成后,通過輸入測試數(shù)據(jù)對模型進(jìn)行性能評估,檢驗(yàn)?zāi)P湍芊裨诒3州^低誤報率的情況下檢測出異常事件[7]。訓(xùn)練得到的自編碼器重構(gòu)分支可以將輸入而變換為與其相似的原圖中空間位置為(x,y),所在幀數(shù)t的損失為e(x,y,t)。其中I(x,y,t)為該點(diǎn)的像素值,F(xiàn)w()為自編碼器對該值的非線性變換過程,我們使用以下公式來計(jì)算幀的損失:
得到時刻t視頻幀上每個點(diǎn)的損失后,可以通過對該幀的異常值進(jìn)行求和來得到這一幀異常總和,最終這一幀的異常打分函數(shù)如下:
然后用0到1之間的比例來計(jì)算異常值sa(t)。因此,規(guī)則性得分sr(t)可以簡單地從1減去反常性得分:
3? 數(shù)據(jù)增強(qiáng)
在訓(xùn)練數(shù)據(jù)缺乏的時候,會出現(xiàn)模型的泛化能力降低從而導(dǎo)致過擬合的現(xiàn)象。這時可以采用數(shù)據(jù)增強(qiáng)的方法對數(shù)據(jù)進(jìn)行擴(kuò)充來解決這種問題。數(shù)據(jù)增強(qiáng)的方法包括對圖像進(jìn)行尺度大小的改變、亮度調(diào)整、旋轉(zhuǎn)、裁剪等[8]。針對本任務(wù)中的連續(xù)視頻幀,使用跨步1、跨步2和跨步3連接兩組鏡頭。例如,第一個跨步序列由幀{1,2,3,4,5,6,7,8,9,10}組成,而第二個跨步序列包含幀號{1,3,5,7,9,11,13,15,17,19},第三個跨步序列包含幀號{1,4,7,10,13,16,19,22,25,28}。為防止訓(xùn)練數(shù)據(jù)集過大,還可以將圖像轉(zhuǎn)換為灰度圖像以降低維數(shù)。
4? 結(jié)語
在這項(xiàng)研究中,將深度學(xué)習(xí)應(yīng)用于具有挑戰(zhàn)性的行人異常檢測問題。提出了一個異常時間序列檢測問題,并應(yīng)用空間特征提取器和時間序列測量器相結(jié)合的方法來解決這個問題。對象層不僅保留了全卷積長短期記憶模型的優(yōu)點(diǎn),而且由于其固有的卷積結(jié)構(gòu)也適用于時空數(shù)據(jù)。將卷積特征提取技術(shù)引入編解碼結(jié)構(gòu)中,建立了一個適用于視頻異常檢測的端到端可訓(xùn)練模型。將空間信息與時間信息很好地結(jié)合起來,從而判斷視頻塊中是否存在異常。本實(shí)驗(yàn)是半監(jiān)督學(xué)習(xí),需要準(zhǔn)備事先視頻片段進(jìn)行訓(xùn)練。未來,機(jī)器將會越來越少的依賴人類進(jìn)行無監(jiān)督學(xué)習(xí),在無監(jiān)督學(xué)習(xí)的基礎(chǔ)下怎樣能夠精準(zhǔn)識別異常以及提高魯棒性將是一個重點(diǎn)的研究方向。
參考文獻(xiàn)
[1] Hasan M,Choi J,Neumann J,et al.Learning Temporal Regularity in Video Sequences[C].2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016,733-742.
[2] 黎敏婷.基于卷積神經(jīng)網(wǎng)絡(luò)的視頻異常檢測算法[D].成都:華南理工大學(xué),2019.
[3] 李炳臻,劉克,顧佼佼,等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)時代,2021(4):8-12.
[4] 鮑天龍.基于深度學(xué)習(xí)的監(jiān)控視頻中的異常事件檢測和對象識別[D].北京:中國科學(xué)技術(shù)大學(xué),2019.
[5] 馮亞闖.視頻中的異常事件檢測算法研究[D].西安:中國科學(xué)院大學(xué)(中國科學(xué)院西安光學(xué)精密機(jī)械研究所), 2016,106-108.
[6] Shi,Xingjian,Chen,et al.Convolutional lstm network: A machine learning approach for precipitation nowcasting[R].Cambridge, MA, USA:Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 1,2015,802-810.
[7] 盧博文.基于深度學(xué)習(xí)的監(jiān)控視頻中的異常行為的檢測算法研究[D].南京:南京郵電大學(xué),2020,23-24.
[8] 張揚(yáng).基于卷積自編碼器的異常事件檢測研究[D].杭州:浙江大學(xué),2018,24-25.