国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的視頻異常檢測方法綜述*

2022-09-21 08:36李慧斌
計算機工程與科學 2022年9期
關(guān)鍵詞:重構(gòu)樣本分類

何 平,李 剛,李慧斌,2

(1.西安交通大學數(shù)學與統(tǒng)計學院,陜西 西安 710049;2.大數(shù)據(jù)算法與分析技術(shù)國家工程實驗室,陜西 西安 710049)

1 引言

面對日常生活中不斷涌現(xiàn)的各類安全威脅和時刻存在的突發(fā)狀況,以視頻監(jiān)控為工具進行安防的舉措已凸顯出強大優(yōu)勢。近年來隨著社會經(jīng)濟的快速發(fā)展與視頻傳感技術(shù)的不斷普及,監(jiān)控系統(tǒng)已被廣泛應(yīng)用于地鐵、社區(qū)和校園等各類公共場所[1]。然而,規(guī)??焖僭鲩L的視頻監(jiān)控系統(tǒng)所產(chǎn)生的海量視頻數(shù)據(jù)對基于人工判讀的視頻異常事件檢測帶來了巨大挑戰(zhàn)。傳統(tǒng)依靠人工觀看事后監(jiān)控影像記錄從而發(fā)現(xiàn)異常的方式不僅消耗了大量人力資源,而且還可能會造成無法及時彌補的錯誤或遺漏[2]。因此,開發(fā)一種不依賴大量人力,能自動從監(jiān)控視頻中分析并發(fā)現(xiàn)異常情況的技術(shù)顯得至關(guān)重要,這種技術(shù)即為視頻異常檢測技術(shù)。

Figure 1 General process of video anomaly detection method圖1 視頻異常檢測方法的一般流程

視頻異常通常指視頻中出現(xiàn)不正常的外觀或運動屬性,或在不正常的時間或空間出現(xiàn)正常的外觀或運動屬性[3]。由于異常樣本的稀缺性和多樣性,視頻異常檢測方法通常僅對正常樣本分布進行建模,測試時將偏離正常樣本分布的視頻幀或視頻片段視為異常[4]。從異常類型而言,外觀異常通常指空間異常,包括像素級別的局部異常與幀級別的全局異常;運動異常通常指時間異常,即與時序相關(guān)的上下文異常。視頻異常檢測任務(wù)即為檢測出視頻中存在的時間異常和空間異常[5]。由于特定場景下監(jiān)控視頻的背景往往固定不變,所以監(jiān)控視頻為典型的單一場景視頻,基于單一場景的視頻異常檢測研究也是本文綜述的重點內(nèi)容。

目前,監(jiān)控視頻異常檢測領(lǐng)域主要有以下綜述文獻:Popoola等人[6]介紹了針對人類行為的異常檢測方法,將方法劃分為聚類法、動態(tài)Bayes和主題模型法,但由于提出時間較早,對深度學習方法覆蓋較少;Kiran等人[7]從建模角度出發(fā),將深度學習方法劃分為重構(gòu)、預(yù)測及生成方法,但文中缺少對這些方法異常檢測效果的對比分析;彭嘉麗等人[8]從學習范式角度出發(fā),總結(jié)了有監(jiān)督、弱監(jiān)督及無監(jiān)督視頻異常檢測方法;胡正平等人[9]將視頻異常檢測方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督3類,但文獻[8,9]引用的文獻較少,綜述不夠詳盡;王志國等人[10]從事件提取、表示及建模角度進行了綜述,但對深度學習方法建模描述較少。

針對以上不足,本文從區(qū)分正常視頻和異常視頻的基本原理出發(fā),對基于深度學習的監(jiān)控視頻異常檢測方法進行全面和系統(tǒng)的綜述。本文主要貢獻如下所示:

(1)從基本概念、方法流程、任務(wù)類型及學習范式等方面系統(tǒng)闡述了視頻異常檢測的基本內(nèi)涵,并側(cè)重強調(diào)了面向?qū)嶋H需求時檢測精度與檢測效率之間的平衡問題。

(2)從正常與異常判定的基本原理出發(fā),將基于深度學習的視頻異常檢測方法分為基于重構(gòu)的方法、基于預(yù)測的方法、基于分類的方法及基于回歸的方法4類。系統(tǒng)綜述了各類方法的基本思想、代表性文獻及其優(yōu)缺點。

(3)全面總結(jié)了現(xiàn)有單場景視頻異常檢測數(shù)據(jù)集與評價指標,對比分析了代表性方法的性能,并從數(shù)據(jù)集、方法以及評估指標3個方面對異常檢測研究的未來發(fā)展方向進行了展望。

2 視頻異常檢測概述

視頻異常檢測任務(wù)流程如圖1所示。對于給定的某一特定場景下的正常視頻數(shù)據(jù)樣本,首先從中提取視頻幀或視頻窗內(nèi)圖像的運動及外觀特征,并建立模型對正常樣本的分布進行學習。測試時,將提取的測試樣本特征輸入模型,模型依據(jù)重構(gòu)誤差、預(yù)測誤差、異常分數(shù)和峰值信噪比等指標對其進行異常判定。

2.1 視頻異常檢測的基本類型

視頻異常檢測的基本類型可分為以下2種:

(1)局部異常和全局異常:局部異常通常指在適度或密集擁擠環(huán)境中某個個體的活動明顯偏離其相鄰個體;全局異常是指特定場景下整體異常,也許局部個體的活動可能是正常的。

(2)時間異常和空間異常:時間異常是指與運動信息相關(guān)的異常,反映視頻幀之間的變化規(guī)律;空間異常是指與位置相關(guān)的異常,反映視頻幀內(nèi)部的異常信息。

2.2 視頻異常檢測的學習范式

視頻異常檢測主要有4種學習范式,分別為有監(jiān)督、無監(jiān)督、弱監(jiān)督和自監(jiān)督。

(1)有監(jiān)督學習:有監(jiān)督學習是指已知數(shù)據(jù)樣本和其一一對應(yīng)的標簽,通過模型訓練,將所有數(shù)據(jù)樣本映射到不同類別標簽的過程。對于視頻異常檢測,即指使用正常樣本和異常樣本以及相應(yīng)的標簽,訓練一個二分類器進行異常檢測。但是,由于異常視頻的稀缺性,使得基于有監(jiān)督學習的視頻異常檢測方法較為少見。

(2)無監(jiān)督學習:基于無監(jiān)督學習的異常視頻檢測是指不依賴視頻標注信息,依靠樣本數(shù)據(jù)之間的相似性對正常樣本進行學習、聚類或分布建模,測試時把遠離正常樣本的視頻看作異常,進而實現(xiàn)異常檢測。使用無監(jiān)督學習范式進行視頻異常檢測通常需要提供充足的正常視頻數(shù)據(jù)。

(3)弱監(jiān)督學習:基于弱監(jiān)督學習的視頻異常檢測是指僅依賴視頻級標注信息進行建模,在測試時可進行逐幀或視頻片段的異常檢測?;谌醣O(jiān)督學習的視頻異常檢測方法對于數(shù)據(jù)的標簽依賴大幅降低,不再依賴逐幀標簽,很大程度上降低了數(shù)據(jù)的標注工作量,方便使用大規(guī)模數(shù)據(jù)集,進而可增強檢測方法對不同場景的適應(yīng)能力,以及對不同異常類型的檢測性能。

(4)自監(jiān)督學習:基于自監(jiān)督學習的視頻異常檢測是指模型直接從無標簽數(shù)據(jù)中自行學習,無需標注數(shù)據(jù)。自監(jiān)督學習不再依賴標注,而是通過學習數(shù)據(jù)各部分之間的聯(lián)系,從大規(guī)模的無標簽數(shù)據(jù)中挖掘自身的監(jiān)督信息生成的標簽,用于指導自身進行訓練。自監(jiān)督視頻異常檢測方法通??紤]的是一種更具有挑戰(zhàn)的實驗設(shè)置,即不依賴任何訓練數(shù)據(jù)。

2.3 視頻異常檢測的評價方式

視頻異常檢測主要有2種評價方式,分別為精度優(yōu)先和效率優(yōu)先。

(1)精度優(yōu)先:精度優(yōu)先的視頻異常檢測方法要求對異常的檢測和定位有較高的精度和較低的虛警率。該類方法的目的是通過使用所有可用的訓練數(shù)據(jù)集視頻、固定的模型參數(shù)和預(yù)定義或微調(diào)的異常閾值來保證高精度,但很難保證模型的實時性。

(2)效率優(yōu)先:效率優(yōu)先的視頻異常檢測方法旨在以最快的幀處理速度獲得具有競爭力的精度來檢測和定位視頻異常。該類方法的目的是使視頻異常檢測方法能夠具有較快的實時處理速度,滿足在線檢測的需求,因而更適合實際應(yīng)用。

3 基于深度學習的視頻異常檢測方法

不同于大多基于學習范式和建模流程的分類策略,本文從區(qū)分正常視頻和異常視頻的基本原理出發(fā),將基于深度學習的視頻異常檢測方法分為基于重構(gòu)的方法、基于預(yù)測的方法、基于分類的方法和基于回歸的方法。

3.1 基于重構(gòu)的方法

基于重構(gòu)的視頻異常檢測方法的核心思想是通過訓練正常視頻數(shù)據(jù)來獲得正常數(shù)據(jù)的分布表示。在測試過程中,正常測試樣本會具有較小的重構(gòu)誤差,而異常樣本的重構(gòu)誤差則較大,從而實現(xiàn)視頻的異常檢測。若令x代表一個視頻片段或視頻幀,g代表重構(gòu)x的神經(jīng)網(wǎng)絡(luò),f()代表計算x與g(x)之間重構(gòu)誤差的函數(shù),ε代表重構(gòu)誤差,基于重構(gòu)的深度學習方法可以看作是在極小化式(1)中的重構(gòu)誤差。

ε=f(x,g(x))

(1)

一種常用的重構(gòu)方法為自編碼器。Xu等人[11]提出了一種外觀運動深度網(wǎng)絡(luò)AMDN(Appearance and Motion Deep Net),能夠同時提取視頻的外觀和運動信息,并使用多個單類支持向量機SVM(Support Vector Machine)預(yù)測每個輸入的異常得分,最后集成分數(shù)用于最終的異常檢測。Hasan等人[12]提出了2種基于自編碼器的方法,首先利用傳統(tǒng)手工方法提取時空特征,并在其上學習一個全連接的自編碼器;其次建立一個全卷積前饋自編碼器學習局部特征和分類器作為端到端的學習框架,使其能夠在很少或者無監(jiān)督的情況下進行視頻異常檢測。但是,由于深度神經(jīng)網(wǎng)絡(luò)的學習能力較強,導致自編碼器有時不僅能將正常樣本重構(gòu)得較好,同時也使得異常樣本具有較小的重構(gòu)誤差。針對這一問題,Gong等人[13]提出了一種改進的自編碼器,稱為記憶增強自編碼器MemAE(Memory-augmented AutoEncoder)。當給定輸入時,該方法首先從編碼器獲取編碼,然后使用它作為查詢檢索最相關(guān)的記憶項進行重構(gòu)。Park等人[14]在Gong等人[13]的研究工作基礎(chǔ)上,使用一個具有更新方案的記憶模塊,使得記錄數(shù)據(jù)原型模式的項可以不斷更新,以更好地記住正常樣本,并在公開基準數(shù)據(jù)集上取得了可以媲美當時最先進方法的異常檢測效果。

基于重構(gòu)的視頻異常檢測的另一種常用方法為稀疏編碼,其思想主要是通過構(gòu)造一組能夠表達正常視頻的字典,使得正常視頻能夠通過該字典很好地重構(gòu)出來,而異常的視頻則會變得模糊甚至無法重構(gòu)。假設(shè)輸入的視頻特征X=[x1,x2,…,xk],其中每個xi代表正常的視頻幀特征,基于稀疏編碼方法的目標是找到一個最優(yōu)字典D,從而能夠通過稀疏系數(shù)α=[α1,α2,…,αk]將X重構(gòu)出來,其中D和α通過交替迭代優(yōu)化獲得。其目標函數(shù)如式(2)所示:

(2)

Zhao等人[15]早在2011年提出了一種無監(jiān)督的動態(tài)稀疏編碼方法檢測視頻中的異常事件,該方法首先對輸入視頻序列提取時空興趣點,并依據(jù)上下文視頻數(shù)據(jù)學習字典,在測試過程中依據(jù)字典基底能否重構(gòu)出查詢事件來判定異常??紤]到字典的大小會影響模型的計算復雜度,Cong等人[16]設(shè)計了一種具有稀疏一致性約束的字典選擇方法,通過引入稀疏重構(gòu)代價SRC(Sparse Reconstruction Cost)達到壓縮字典的目的。此外,Luo等人[17]指出基于字典學習的異常檢測方法在稀疏系數(shù)迭代優(yōu)化過程中非常耗時,于是提出一種時間相干稀疏編碼TSC(Temporally-coherent Sparse Coding)網(wǎng)絡(luò),用于約束相鄰幀以相似的重構(gòu)系數(shù)進行編碼,并使用一種特殊類型的堆疊遞歸神經(jīng)網(wǎng)絡(luò)sRNN(stacked Recurrent Neural Network)映射TSC,從而實現(xiàn)參數(shù)的加速優(yōu)化。Luo等人[18]在文獻[17]的基礎(chǔ)上對TSC進行了改進,在TSC的sRNN上再疊加一層,以減少優(yōu)化過程中字典和稀疏系數(shù)交替更新計算成本??紤]到視頻異常檢測實時性的重要性,Wu等人[19]提出一種雙流神經(jīng)網(wǎng)絡(luò)提取隱藏層的時空融合特征STFF(Spatial-Temporal Fusion Features),并對STFF使用快速稀疏編碼網(wǎng)絡(luò)FSCN(Fast Sparse Coding Network)來構(gòu)建一個字典,F(xiàn)SCN與傳統(tǒng)網(wǎng)絡(luò)相比,不僅測試速度快了數(shù)百倍,而且精度也達到了先進水平。

3.2 基于預(yù)測的方法

(3)

Liu等人[20]提出了一種基于預(yù)測模型進行視頻異常檢測的框架,使用U-Net(U-shaped Network)作為生成器用于生成未來幀,并使用強度損失、梯度損失和光流損失共同約束生成的未來幀質(zhì)量,再通過判別器判斷生成幀的真假,以強化預(yù)測模型的預(yù)測能力。受LSTM(Long Short-Term Memory)處理時序數(shù)據(jù)的啟發(fā),Medel等人[21]提出了一種復合的Conv-LSTM(Convolutional LSTM),對視頻序列進行建模,通過對解碼過程進行約束,能夠重構(gòu)過去幀和預(yù)測未來幀,進而實現(xiàn)視頻的異常檢測。Lu等人[22]將VAE(Variational AutoEncoder)與Conv-LSTM相結(jié)合,提出Conv-VRNN(Convolutional Variational Recurrent Neural Network)網(wǎng)絡(luò)結(jié)構(gòu),用于生成視頻未來幀。考慮到預(yù)測過程中均方差損失函數(shù)可能造成的未來幀模糊現(xiàn)象,Mathieu等人[23]使用一種卷積網(wǎng)絡(luò),通過交替卷積和矯正線性單元ReLU(Rectified Linear Unit)生成未來幀,并提出將多尺度結(jié)構(gòu)、對抗訓練和圖像梯度差異3種不同的特征學習策略進行融合的方法來生成清晰的未來幀。此外,Ye等人[24]提出了一種深度預(yù)測編碼網(wǎng)絡(luò)AnoPCN(A novel deep Predictive Coding Network)來解決異常檢測問題,該網(wǎng)絡(luò)由預(yù)測編碼模塊PCM(Predictive Coding Module)和誤差細化模塊ERM(Error Refinement Module)組成,將PCM設(shè)計成Conv-LSTM網(wǎng)絡(luò)結(jié)構(gòu)用于生成未來幀,引入ERM重構(gòu)預(yù)測誤差,通過將重構(gòu)和預(yù)測方法統(tǒng)一到端到端的框架中實現(xiàn)異常檢測。

3.3 基于分類的方法

雖然目前主流模型主要依賴基于重構(gòu)和未來幀的預(yù)測方法,但仍然有一些研究工作將該問題看作是分類問題。這種分類方法可以用一個通用的公式描述:令x代表輸入視頻幀或視頻片段,h()代表通過網(wǎng)絡(luò)訓練得到的映射函數(shù),y表示相應(yīng)的所屬類別,公式如式(4)所示:

y=h(x),y∈R

(4)

基于分類的視頻異常檢測方法主要分為單分類和多分類2種?;趩畏诸惙椒ǖ囊曨l異常檢測的主要思想是通過正常視頻數(shù)據(jù)訓練一個單類分類器,在測試過程中分類器只需要判別給定數(shù)據(jù)是否屬于該類即可。Sabokrou等人[25]受GAN(Generative Adversarial Network)在無監(jiān)督和半監(jiān)督環(huán)境中訓練深度模型的啟發(fā),提出了一種基于單分類的視頻異常檢測方法。在此基礎(chǔ)上,Wu等人[26]提出了一種深度單分類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),使用堆疊的卷積編碼器生成低維的高級表示信息,并通過結(jié)合對抗機制與解碼器,能夠在僅給定正常樣本的前提下訓練得到緊湊的單類分類器,進而實現(xiàn)異常檢測。對于多分類的視頻異常檢測方法,Narasimhan等人[27]提出了一種利用局部特征和全局特征的方法,對于局部特征,在視頻立方體塊上使用圖像相似度來表示時間和空間特征,使用訓練后的自編碼器的特征向量來表示全局特征,再將特征送入高斯分類器進行二分類異常檢測。Ionescu等人[28]將異常檢測問題轉(zhuǎn)化為一個單對剩余類的二分類問題,在卷積自編碼器生成的特征上使用聚類,訓練一個單對剩余類分類器來區(qū)分聚類。在測試過程中若通過分類器得到的最高分類分數(shù)為負數(shù),則表明該樣本不屬于任何聚類,即將其標記為異常。除二分類外,Xu等人[29]提出一種自適應(yīng)幀內(nèi)分類網(wǎng)絡(luò)AICN(Adaptive Intra-frame Classification Network),將視頻異常檢測任務(wù)轉(zhuǎn)化為多分類問題。該網(wǎng)絡(luò)接受原始輸入,將提取的運動和外觀特征分為若干個子區(qū)域,并對每一個子區(qū)域進行分類。在測試過程中若該子區(qū)域的測試分類結(jié)果與真實分類不同,則被視為異常。

3.4 基于回歸的方法

除了上述提到的基于重構(gòu)、基于預(yù)測和基于分類的方法以外,一些研究人員也將該問題定義為回歸問題。其主要思想是將異常得分作為評估指標,設(shè)置適當?shù)拈撝?,若異常得分高于閾值,則將其視作異常,否則便為正常。令x代表輸入的視頻幀,k()代表輸入x的函數(shù),實數(shù)z表示輸出的異常分數(shù),如式(5)所示:

z=k(x),z∈R

(5)

Sultani等人[30]提出了一種主要在弱監(jiān)督條件下訓練的多示例學習方法,首先將每一個訓練視頻分成數(shù)量相等的片段,分別構(gòu)成正例包(只包含正常視頻幀)和負例包(至少包含一幀異常視頻幀),使用C3D(Convolutional 3D)對每個視頻片段提取時空特征;再將特征輸入神經(jīng)網(wǎng)絡(luò)進行打分,從正例包和負例包中分別挑出得分最高的片段用于訓練模型參數(shù);最后通過鉸鏈損失使得模型對異常樣本輸出高分,而對正常樣本輸出低分,在測試時依據(jù)模型輸出的異常得分進行判定。在此基礎(chǔ)上,Kamoona等人[31]指出文獻[30]使用的鉸鏈損失函數(shù)是不光滑的,在優(yōu)化過程中可能會面臨梯度消失的風險,提出了一種新的損失函數(shù),從而使得模型對輸出異常得分具有魯棒性。由于提取視頻特征對于輸出異常得分至關(guān)重要,Zhu等人[32]放棄使用C3D,改為計算光流信息,再將計算得到的光流信息輸入到時間增強網(wǎng)絡(luò)輸出異常得分。這一方法顯著提高了異常檢測的性能。考慮到手工標注正常/異常視頻數(shù)據(jù)的復雜性,Pang等人[33]設(shè)計了一種端到端可訓練的視頻異常檢測方法,該方法可以在無需手工標記正常/異常數(shù)據(jù)的基礎(chǔ)上進行表示學習并輸出異常得分,進而實現(xiàn)視頻的異常檢測。

3.5 小結(jié)

本節(jié)主要從區(qū)分正常視頻和異常視頻的基本原理出發(fā),將基于深度學習的視頻異常檢測方法分為基于重構(gòu)、基于預(yù)測、基于分類及基于回歸4類方法。這4類方法的對比、歸納和總結(jié)如表1所示。

Table 1 Comparison and summary of different kinds of methods

基于重構(gòu)和基于預(yù)測的方法對提取的視頻幀特征依賴性很高,具有較高的空間復雜度和時間復雜度,對異常較少的視頻數(shù)據(jù)檢測效果較好,適用于視頻數(shù)量較少的數(shù)據(jù)集,能夠?qū)墑e的異常進行有效的時空檢測與定位。基于分類的方法適用于具有充足正常視頻的數(shù)據(jù)集,從而有利于更好地學習到正常視頻模式的分布,但也需要更多的訓練時間,能夠檢測并定位到視頻幀級別的異常。上述基于重構(gòu)、基于預(yù)測和基于分類的方法通常采用無監(jiān)督的學習范式,適用于對視頻進行幀級別的檢測定位。作為對比,基于回歸的方法通常與弱監(jiān)督學習方法相結(jié)合,適用于視頻數(shù)量較多的大型數(shù)據(jù)集,主要對視頻級別或視頻片段級別進行異常檢測,能夠檢測定位到視頻中的視頻片段是否包含異常。

4 視頻異常檢測數(shù)據(jù)集

表2列出了目前常用的6個單場景異常檢測數(shù)據(jù)集的具體信息。

(1)UMN數(shù)據(jù)集。

UMN數(shù)據(jù)集[34]共有11個視頻,包含校園草坪、室內(nèi)和廣場3個不同場景。該數(shù)據(jù)集屬于全局異常行為的數(shù)據(jù)集。由于此數(shù)據(jù)集包含的視頻數(shù)量較少,使用重構(gòu)方法能夠充分捕捉到全局特征并進行幀級檢測定位。目前基于深度學習方法在該數(shù)據(jù)上的異常檢測準確率已經(jīng)達到99.7%,研究人員逐漸不再使用此數(shù)據(jù)集。

(2)Subway數(shù)據(jù)集。

Subway數(shù)據(jù)集[35]包含地鐵入口處(Entrance)和出口處(Exit)2類視頻。該數(shù)據(jù)集包含的視頻數(shù)量較少,使用重構(gòu)的方法能充分捕捉到視頻中的位置異常,進而進行幀級別的異常檢測定位。由于該數(shù)據(jù)集包含的異常數(shù)量較少且異常種類相對單一,可泛化性相對較差,因此現(xiàn)階段的研究人員較少使用。

(3)UCSD Pedestrain數(shù)據(jù)集。

UCSD行人數(shù)據(jù)集[36]的拍攝場景為某大學校園人行道。該數(shù)據(jù)集屬于局部異常行為數(shù)據(jù)集,數(shù)據(jù)集中視頻數(shù)量相對充足,適合基于重構(gòu)、基于預(yù)測和基于分類等方法。目前在UCSD Ped1和UCSD Ped2數(shù)據(jù)集上達到的幀級別異常檢測準確率分別為97.4%和97.8%。雖然準確率相對較高,但由于該數(shù)據(jù)集異常數(shù)量和異常種類相對充分,其目前仍是較受歡迎的幾個基準數(shù)據(jù)集之一。

(4)CUHK Avenue數(shù)據(jù)集。

CUHK Avenue數(shù)據(jù)集[37]的拍攝場景為某大學校園主干道路。該數(shù)據(jù)集包含的視頻數(shù)量適中,適于基于重構(gòu)、基于預(yù)測和基于分類等方法。目前在CUHK Avenue數(shù)據(jù)集上達到的幀級別異常檢測準確率為90.4%,還具有很大的提升空間,是目前使用較多的幾個基準數(shù)據(jù)集之一。

(5)Street Scene數(shù)據(jù)集。

Street Scene數(shù)據(jù)集[38]的拍攝場景為某城市街道。該數(shù)據(jù)集是于2020年提出的,具有相對充足的視頻數(shù)量,適合基于重構(gòu)、基于預(yù)測和基于分類等方法。目前使用此數(shù)據(jù)集的論文較少,但考慮到其包含的異常數(shù)量和異常類型的多樣性,在實際城市街道中會具有較好的泛化性能,后續(xù)應(yīng)該會被眾多研究人員使用。

(6)IITB Corridor數(shù)據(jù)集。

IITB-Corridor數(shù)據(jù)集[39]是Rodrigues等人在2020年創(chuàng)建的大型數(shù)據(jù)集。該數(shù)據(jù)集適合采用回歸的方法,結(jié)合弱監(jiān)督學習范式,進行視頻級別或視頻片段級別的異常檢測定位。雖然目前使用較少,但考慮到該數(shù)據(jù)集包含充足的異常數(shù)量和異常種類,在實際人類活動中具有很好的泛化能力,后續(xù)應(yīng)該會被眾多研究人員使用。

Table 2 Commonly used single-scene anomaly datasets

5 視頻異常檢測性能評估

5.1 方法性能評價

(1)混淆矩陣。

當異常樣本被預(yù)測為異常時,稱為真陽性TP(True Positive);當正常樣本被預(yù)測為正常時,稱為真陰性TN(True Negative);當正常樣本被預(yù)測為異常時,稱為假陽性FP(False Positive);當異常樣本被預(yù)測為正常時,稱為假陰性FN(False Negative)。綜合上述4個指標可以評價分類方法性能,即為混淆矩陣。

(2)ROC曲線。

ROC(Receiver Operating Characteristic)曲線是基于真陽率TPR(True Positive Rate)和假陽率FPR(False Positive Rate)繪制的曲線,ROC曲線包含的面積AUC(Area Under Curve)通常用于評價方法的性能。

(3)等錯誤率。

等錯誤率EER(Equal Error Rate)定義為當真陽率TPR與假陽率FPR相等時,錯誤分類視頻幀所占的百分比。EER值越小,表明異常檢測方法性能越好。

5.2 方法性能比較

表3展示了近5年來基于深度學習的視頻異常檢測方法在UCSD、CUHK Avenue和Subway 3個代表性單場景數(shù)據(jù)集上的性能。由表3可知:

(1)從整體上看,基于重構(gòu)的方法在UCSD Ped1數(shù)據(jù)集上的異常檢測效果最好?;陬A(yù)測和分類的方法在UCSD Ped2數(shù)據(jù)集上總體表現(xiàn)較好,使用持續(xù)學習的回歸類方法在該數(shù)據(jù)集上獲得了最高檢測精度。相比之下,現(xiàn)有方法在CUHK Avenue數(shù)據(jù)集上的AUC普遍較低,基于卷積自編碼器的分類方法的檢測精度最高。而Subway Entrance和Subway Exit數(shù)據(jù)集相對使用較少。

Table 3 Performance comparison of video anomaly detection methods based on deep learning

(2)基于自編碼器的深度學習模型在基于重構(gòu)、基于預(yù)測、基于分類和基于回歸4類方法中均被廣泛采用。其原因在于大多視頻異常檢測方法均采用無監(jiān)督學習范式訓練模型。而基于編碼-解碼表示學習的自編碼器在無監(jiān)督學習范式下可有效學習高維數(shù)據(jù)的低維表示。

(3)由于表中單場景視頻異常檢測數(shù)據(jù)集UCSD、Subway和CUHK Avenue的訓練集均為正常視頻,且視頻中背景相對固定不變,只有前景發(fā)生變化,因此適合采用無監(jiān)督的視頻異常檢測方法,通過學習正常視頻的分布表示可獲得較高的檢測精度。

6 挑戰(zhàn)與展望

6.1 挑戰(zhàn)

目前基于深度學習方法的視頻異常檢測研究主要面臨著以下挑戰(zhàn)和問題:(1)正常視頻和異常視頻之間的數(shù)據(jù)不平衡性。(2)缺乏異常視頻的注釋,對異常定義模糊。隨著現(xiàn)實生活中使用端到端的深度學習方法進行異常檢測的部署,一些舊的數(shù)據(jù)集(如UMN、Subway或UCSD等)已經(jīng)無法滿足深度學習對于訓練數(shù)據(jù)的需求,從而嚴重阻礙了端到端可訓練深度學習模型的發(fā)展[56]。(3)基于深度學習方法進行視頻異常檢測的計算成本較高。(4)深度學習模型對于視頻異常檢測尚不具有普適性。

6.2 展望

基于上述視頻異常檢測研究面臨的挑戰(zhàn)和問題,本文對其未來的研究方向提出了以下展望。

6.2.1 構(gòu)建更多的數(shù)據(jù)集

考慮到視頻異常檢測在實際生活中的應(yīng)用,從泛化角度出發(fā),未來應(yīng)該構(gòu)建更多大規(guī)模的、具有豐富異常數(shù)量和異常種類并且?guī)в性敿毊惓撕灥臄?shù)據(jù)集?,F(xiàn)有的視頻異常檢測數(shù)據(jù)集大多為單場景數(shù)據(jù)集,雖然無監(jiān)督方法在其上取得了較高的異常檢測準確率,但是在實際應(yīng)用中的泛化性還遠遠不夠。例如,對于城市交通監(jiān)控視頻,期望異常檢測方法能夠?qū)Τ鞘袃?nèi)所有交通道路的監(jiān)控視頻進行異常檢測而不局限于某一固定街區(qū)的道路監(jiān)控視頻。近年來,多場景視頻異常檢測問題逐漸受到關(guān)注,現(xiàn)已發(fā)布了UCF Crime[30]、Shanghaitech[57]和XD Violence[58]等包含多個場景的數(shù)據(jù)集。但是,對于未來的發(fā)展,仍需要包含更多異常種類和異常數(shù)量的大型數(shù)據(jù)集。

6.2.2 設(shè)計更好的方法

雖然許多先進的深度學習方法都沒有對處理速度進行說明,但通過調(diào)查發(fā)現(xiàn),盡管目前大多數(shù)的方法都能夠取得較高的異常檢測準確率,但大多數(shù)都還不能夠?qū)崟r性部署,其中一個關(guān)鍵原因在于深度學習方法提取視頻有效特征的時間成本過高。從實際應(yīng)用的角度考慮,及時準確地發(fā)現(xiàn)異常能夠有效降低異常事件造成的損失,所以未來需要設(shè)計新的方法進行高效的視頻數(shù)據(jù)預(yù)處理和特征提取,進而突破處理速度的限制,使得這些系統(tǒng)能夠用于實時的檢測場景。

6.2.3 提出更可靠的評估指標

目前絕大多數(shù)研究對于視頻異常檢測的評估均使用幀級別的異常檢測評估指標。但是,從實際的應(yīng)用角度考慮,視頻異常檢測更應(yīng)該確定到幀內(nèi)的異常區(qū)域。一些研究人員嘗試使用像素級指標,但其使用的像素級指標仍在計數(shù)真陽性幀和假陽性幀,而不是真陽性異常區(qū)域和假陽性異常區(qū)域?,F(xiàn)有的像素級評估指標將檢測到的異常區(qū)域與真實的異常區(qū)域重合度超過40%的視為真陽性幀,將檢測到至少包含1個像素的異常區(qū)域與真實標簽為不存在異常區(qū)域的現(xiàn)象視為假陽性幀[38]。但這種評估指標既不會獎勵局部異常區(qū)域的緊湊性,也不會懲罰局部異常區(qū)域的松散性。因此,未來需要提出更可靠的評估指標,以評估精準檢測到的局部異常區(qū)域。

猜你喜歡
重構(gòu)樣本分類
視頻壓縮感知采樣率自適應(yīng)的幀間片匹配重構(gòu)
長城敘事的重構(gòu)
分類算一算
用樣本估計總體復習點撥
高鹽肥胖心肌重構(gòu)防治有新策略
分類討論求坐標
規(guī)劃·樣本
教你一招:數(shù)的分類
北京的重構(gòu)與再造
說說分類那些事