李文中 吳克偉 孫永宣 焦暢 熊思璇
摘 要:異常檢測(cè)使用有限的訓(xùn)練集獲得區(qū)分度高的特征,但是當(dāng)異常實(shí)例與正常實(shí)例存在較多相似特征時(shí),模型會(huì)因?yàn)楫惓L卣鲄⑴c正常特征編碼產(chǎn)生誤差。針對(duì)上述問題,提出了一種新型的對(duì)比記憶網(wǎng)絡(luò)的弱監(jiān)督視頻異常檢測(cè)方法。該方法在自動(dòng)編碼器的基礎(chǔ)上使用對(duì)比學(xué)習(xí)框架,分離出與實(shí)際異常相似的樣本特征,并設(shè)計(jì)記憶網(wǎng)絡(luò)抑制正常樣本內(nèi)偏向異常的特征表達(dá),提高了重建樣本的穩(wěn)定性。該算法構(gòu)建了一種兩階段的異常行為檢測(cè)網(wǎng)絡(luò)。在階段一,利用對(duì)比學(xué)習(xí)方法來增加正常行為特征和異常行為特征的差異,并利用該階段學(xué)習(xí)到的特征構(gòu)造記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)與抑制項(xiàng)。在階段二,將記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)設(shè)為多時(shí)刻正常行為特征,并利用記憶網(wǎng)絡(luò)的抑制項(xiàng)更新增強(qiáng)項(xiàng)中偏向異常的特征信息,從而區(qū)分編碼中正常與異常特征。該方法在UCF Crime和ShanghaiTech數(shù)據(jù)集的平均AUC值達(dá)到83.26%和87.53%,相較于現(xiàn)有方法分別提升了1.14%和2.43%。結(jié)果顯示,該方法能夠有效預(yù)測(cè)異常事件的發(fā)生時(shí)間。
關(guān)鍵詞:異常檢測(cè);對(duì)比學(xué)習(xí);記憶網(wǎng)絡(luò)
中圖分類號(hào):TP381 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-043-3162-06
doi:10.19734/j.issn.1001-3695.2022.12.0829
Video anomaly detection combining with contrastive memory network
Li Wenzhong,Wu Kewei,Sun Yongxuan,Jiao Chang,Xiong Sixuan
(School of Computer Science & Information Engineering,Hefei University of Technology,Hefei 230601,China)
Abstract:Anomaly detection aims to capture the discriminative features with limited training samples.However,when some anomalies share common compositional patterns with the normal training data,the model likely reconstructs the anomalies well,leading to the miss detection of anomalies.To mitigate this drawback,this paper proposed a novel contrastive memory network,which used the contrast learning framework to separate the sample features based on the autoencoder,and then designed a memory network to suppress the normal features similar to anomaly.This method proposed a two-stage framework for detecting abnormal events.In the first stage,the method used contrastive learning to increase the difference between normal features and abnormal features,and gained representation to be the augment memory and suppression memory of memory network.In the second stage,the model used augment memory to record multi-time normal behavior features,and used suppression memory to constrain the expression of pseudo anomaly items in the augment memory.The AUC value reached 83.26% on UCF Crime datasets and 87.53% on ShanghaiTech datasets,which were 1.14% and 2.43% higher than the existing methods.The results demonstrate that this method can efficiently predict the temporal localization of anomaly events.
Key words:anomaly detection;contrastive learning;memory network
0 引言
視頻監(jiān)控中的異常檢測(cè)指的是對(duì)不涉及普通行為的異常檢測(cè)[1,2],在智能監(jiān)控等領(lǐng)域應(yīng)用廣泛。該技術(shù)主要存在兩個(gè)難點(diǎn)。首先是異常行為具有歧義性,在界定異常行為時(shí),相似的動(dòng)作在不同場(chǎng)合卻是不同類型,如自行車行駛在公路上是正常的,出現(xiàn)在人行道則是異常的。其次是異常樣本難以直接獲取,真實(shí)場(chǎng)景中正常動(dòng)作多,而異常行為少,異常樣本不僅在長序列視頻中占比低,而且缺乏幀級(jí)標(biāo)簽,這使異常檢測(cè)難以像有監(jiān)督學(xué)習(xí)般獲取與類型相匹配的特征,考慮到視頻級(jí)標(biāo)簽容易獲取,因此多采用弱監(jiān)督方法定位異常視頻幀。
大多數(shù)現(xiàn)有弱監(jiān)督方法[3~8]依賴多實(shí)例學(xué)習(xí),雖然可以通過視頻級(jí)標(biāo)簽檢測(cè)異常幀,但是當(dāng)異常視頻片段與正常視頻片段存在較多相似特征時(shí),多實(shí)例學(xué)習(xí)往往難以準(zhǔn)確定位異常幀。文獻(xiàn)[9~13]通過重建視頻幀的方法檢測(cè)異常,使用正常視頻數(shù)據(jù)訓(xùn)練編碼器來獲得正常數(shù)據(jù)的分布。在測(cè)試過程中,正常測(cè)試樣本具有較小的重構(gòu)誤差,異常樣本具有較大的重構(gòu)誤差。只使用正常視頻樣本訓(xùn)練編碼器,在辨別異常樣本時(shí),編碼器會(huì)因?yàn)閺奈匆娺^異常樣本而給出較高的重建誤差,有利于區(qū)分異常,當(dāng)異常外觀呈現(xiàn)多樣化時(shí),編碼器又會(huì)因?yàn)闆]有見過異常樣本而無法檢測(cè)微小的或者部分可見的異常。如在圖1中,編碼器獲得正常幀的分布表示,因?yàn)闆]有用異常幀進(jìn)行訓(xùn)練使得異常幀重建誤差大,但是針對(duì)不同的異常種類,如偷竊、辱罵、夜盜和奔跑,由于異常幀與正常幀外觀和運(yùn)動(dòng)動(dòng)作差異小,編碼器會(huì)因?yàn)闆]有見到異常導(dǎo)致誤判。如果以弱監(jiān)督異常視頻樣本訓(xùn)練編碼器,由于缺少異常幀級(jí)標(biāo)簽而無法直接獲取異常特征。本文在自動(dòng)編碼器的基礎(chǔ)上使用對(duì)比學(xué)習(xí)框架,考慮到對(duì)比學(xué)習(xí)能將相似特征間的距離拉近,并將不相似特征間的距離推遠(yuǎn)[14~16],以對(duì)比學(xué)習(xí)分離正常與異常特征,然后設(shè)計(jì)記憶網(wǎng)絡(luò)分別存儲(chǔ)正常特征與異常特征,通過異常特征來約束正常樣本內(nèi)偏向異常的特征表達(dá),使模型以有代表性的記憶項(xiàng)重構(gòu)正常樣本。
本文提出一種兩階段的對(duì)比記憶網(wǎng)絡(luò)模型用于異常行為檢測(cè),該模型將對(duì)比學(xué)習(xí)捕獲的差異化分布特征用于構(gòu)建記憶網(wǎng)絡(luò),提高模型的準(zhǔn)確率;使用視頻級(jí)異常數(shù)據(jù)構(gòu)建對(duì)比學(xué)習(xí)的正負(fù)例,并設(shè)計(jì)了緊湊性對(duì)比損失函數(shù)和描述性對(duì)比損失函數(shù),有效地區(qū)分了正常樣本特征與異常樣本特征。本文構(gòu)造記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)和抑制項(xiàng)分別存儲(chǔ)特征空間中的兩種行為特征,并通過抑制項(xiàng)約束增強(qiáng)項(xiàng)中的無關(guān)特征表達(dá),緩解相似特征參與編碼的現(xiàn)象。在UCF Crime和ShanghaiTech異常檢測(cè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法能夠有效區(qū)分正常行為特征和異常行為特征,并且檢測(cè)效果優(yōu)于現(xiàn)有的方法。
1 方法
1.1 總體框架描述
階段一,首先使用對(duì)比學(xué)習(xí)生成正常樣本與異常樣本的差異化特征表達(dá)空間??紤]到真實(shí)場(chǎng)景中正常實(shí)例與異常實(shí)例的多樣性,本文不追求細(xì)粒度特征表達(dá)的差異,而是通過緊湊性對(duì)比損失函數(shù),將結(jié)構(gòu)相似的正常特征拉近,描述性對(duì)比損失函數(shù)將結(jié)構(gòu)不相似的異常特征推遠(yuǎn)。使正常和異常編碼特征分別呈現(xiàn)聚集效果,以用于構(gòu)建記憶網(wǎng)絡(luò)。階段二,本文將對(duì)比學(xué)習(xí)階段捕獲的特征用于構(gòu)造記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)和抑制項(xiàng),此時(shí)增強(qiáng)項(xiàng)的特征分布偏向于正常,而抑制項(xiàng)的特征分布更偏向于異常。根據(jù)圖像重建誤差判斷異常會(huì)因?yàn)檎Ec異常存在相似特征,使模型對(duì)正常數(shù)據(jù)編碼時(shí)部分異常特征也參與構(gòu)建正常模式。為避免這種現(xiàn)象,本文計(jì)算記憶抑制項(xiàng)與記憶增強(qiáng)項(xiàng)兩者間的余弦相似度,將相似度高的記憶項(xiàng)從記憶增強(qiáng)項(xiàng)中去除,實(shí)現(xiàn)約束增強(qiáng)項(xiàng)中偏向異常的記憶項(xiàng)表達(dá)。
1.2 對(duì)比學(xué)習(xí)階段
在階段一對(duì)比學(xué)習(xí)時(shí),本文使用多種數(shù)據(jù)增強(qiáng)方式擴(kuò)充訓(xùn)練數(shù)據(jù),如隨機(jī)裁剪、隨機(jī)顏色失真和隨機(jī)高斯模糊等,主要從隨機(jī)裁剪和隨機(jī)顏色失真兩相關(guān)視圖構(gòu)建正例[14]。假定以s表示視頻樣本特征,其中s1和s2取自正常視頻,s3和s4取自異常視頻。本文以{s,s+}表示構(gòu)建的正例對(duì),其中*表示任意一種數(shù)據(jù)增強(qiáng)方式,{s,s+}表示使用同一片段的不同表示構(gòu)建的正例對(duì),這里同一片段不同表示指的是使用同一正?;虍惓R曨l片段的隨機(jī)顏色裁剪和隨機(jī)顏色失真表示。在構(gòu)建對(duì)比學(xué)習(xí)負(fù)例樣本時(shí),考慮到異常樣本的弱標(biāo)簽屬性,本文不再關(guān)注如何獲取異常行為特征,而是通過隨機(jī)選擇正?;虍惓R曨l片段的方式構(gòu)造負(fù)例對(duì){s,s-},這里負(fù)例對(duì)不一定表示樣本間存在較大的特征差異,而僅意味著構(gòu)建負(fù)例對(duì)的樣本來自不同的語義片段組合,例如將來自正常視頻的片段與來自異常異常的片段一起制作了負(fù)例對(duì)。在對(duì)比學(xué)習(xí)階段,本文使用視頻片段s1s2、s3s4構(gòu)建了正例對(duì),使用視頻片段s1s3、s2s4構(gòu)造了負(fù)例對(duì)。
由于異常視頻的弱標(biāo)簽屬性,異常特征無法直接獲取,且異常視頻中正常視頻片段占比多,而異常視頻片段占比少,造成異常特征表達(dá)不明顯的難題。為此本文設(shè)計(jì)了描述性對(duì)比損失函數(shù)以及緊湊性對(duì)比損失函數(shù),旨在增強(qiáng)正常與異常特征分布的差異性,使之呈現(xiàn)不同的聚集效果。描述性對(duì)比損失增強(qiáng)正常與異常分類效果,即正常與異常樣本在特征空間里良好的區(qū)分性,緊湊性對(duì)比損失增強(qiáng)相似數(shù)據(jù)的聚集效果,增加異常特征表達(dá)。本文將取自相同語義視頻片段s1s2、s3s4及其增強(qiáng)視頻片段組合構(gòu)建正例對(duì){s,s+},不同語義的視頻片段s1s3、s2s4組合構(gòu)建負(fù)例對(duì){s,s-},通過描述性以及緊湊性對(duì)比損失函數(shù)迫使模型拉近樣本與相似特征的距離,推遠(yuǎn)與異類特征的距離。設(shè)計(jì)損失函數(shù)時(shí),首先計(jì)算視頻片段間的相似度,如式(1)(2)所示。
通過階段一對(duì)比損失losscon約束編碼特征空間,使相似特征能夠拉近,不相似特征推遠(yuǎn)。階段一模型訓(xùn)練結(jié)束后,輸出對(duì)比學(xué)習(xí)表示,將聚類以構(gòu)建記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)與抑制項(xiàng),由特征分布的差異性可知,增強(qiáng)項(xiàng)的特征分布更偏向于正常,而抑制項(xiàng)的特征分布更偏向于異常。本文使用最近鄰方法更新正常樣本特征分布的聚類中心Cp,在此基礎(chǔ)上找到相距最遠(yuǎn)且由異常視頻中特征組成的負(fù)例樣本特征分布中心Cn。本文使用如下的更新策略不斷地調(diào)整特征分布中心。
a)當(dāng)編碼特征取自正常樣本時(shí),直接使用該特征調(diào)整Cp;
b)當(dāng)編碼特征取自異常樣本時(shí),通過計(jì)算該特征與Cp的余弦相似度,并將該值與異常偏向判定閾值ε比較:當(dāng)相似度高于ε時(shí),本文視編碼特征取自異常視頻的正常動(dòng)作片段,即調(diào)整Cp;當(dāng)相似度低于ε時(shí),本文視編碼特征取自異常視頻的異常動(dòng)作片段,即調(diào)整Cn。
即以Cp為中心選擇最相似的L項(xiàng)特征構(gòu)造記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng),以Cn為中心選擇最相似的N項(xiàng)特征構(gòu)建記憶網(wǎng)絡(luò)的抑制項(xiàng),詳情見1.3節(jié)。
1.3 記憶網(wǎng)絡(luò)
異常特征與正常特征有較多的相似性時(shí),往往會(huì)因?yàn)楫惓L卣鲄⑴c正常編碼而使異常視頻幀被模型誤判為正常。記憶網(wǎng)絡(luò)[17,18]能夠存儲(chǔ)典型正常特征向量,緩解異常編碼重建的難題。與文獻(xiàn)[17,18]不同,本文的記憶網(wǎng)絡(luò)設(shè)計(jì)兩個(gè)類別的記憶項(xiàng),將偏向于正常的特征構(gòu)建記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng),偏向于異常的特征構(gòu)造記憶網(wǎng)絡(luò)的抑制項(xiàng),并使用抑制項(xiàng)約束增強(qiáng)項(xiàng)內(nèi)偏向異常的特征表達(dá),從而減少異常特征參與圖像重構(gòu)。
1.3.1 記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)
在階段一對(duì)比學(xué)習(xí)時(shí),本文將對(duì)比學(xué)習(xí)表示聚類構(gòu)建了記憶網(wǎng)絡(luò)的記憶項(xiàng)M,記憶項(xiàng)M是由L+N個(gè)K維向量組成的二維矩陣(L+N)×K,L+N表示記憶網(wǎng)絡(luò)的記憶項(xiàng)數(shù)量,K表示記憶項(xiàng)特征維數(shù),矩陣的每一行向量1×K構(gòu)成了記憶項(xiàng)mi,其中記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)Me是由二維矩陣前L行向量mei組成,記憶網(wǎng)絡(luò)的抑制項(xiàng)Mc由二維矩陣后N行向量mci組成。本文使用Me重構(gòu)輸入樣本,獲取特征。
如圖2所示,給定一個(gè)樣本x,則fe(·):x→z表示編碼器,fd(·):→表示解碼器。其中編碼器將輸入樣本編碼成特征z,特征z經(jīng)增強(qiáng)項(xiàng)內(nèi)相關(guān)記憶項(xiàng)重構(gòu)后輸出,再由解碼器反向解碼后輸出重構(gòu)樣本。獲取重構(gòu)特征時(shí),首先查詢檢索與編碼特征z相似度最高的記憶項(xiàng),使用強(qiáng)制收縮策略,使增強(qiáng)項(xiàng)能夠以最少的記憶項(xiàng)重構(gòu)z,減少無關(guān)信息的干擾。
本文利用記憶尋址計(jì)算輸入特征z與增強(qiáng)項(xiàng)內(nèi)各記憶項(xiàng) mei的余弦相似度(式(6)),將相似度正則后獲得相似度量w(式(7)),wi則表示度量 w第i個(gè)元素。輸入特征z與相似度量w矩乘后,獲得輸出特征(式(8))。w描述了增強(qiáng)項(xiàng)內(nèi)各記憶項(xiàng)與輸入特征z的相關(guān)性,如果本文能以相關(guān)度最高的記憶項(xiàng)重構(gòu)輸入特征z,就能避免無關(guān)特征信息的干擾。由于記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)內(nèi)存儲(chǔ)的是偏向正常特征的原型信息,這意味著本文能以有限且典型的代表特征重構(gòu)輸入特征z。為此對(duì)相似度量w采用強(qiáng)制收縮的策略使增強(qiáng)項(xiàng)能用代表性更高的記憶項(xiàng)重構(gòu)z,強(qiáng)制收縮策略本質(zhì)上是一種注意力機(jī)制,旨在輸出 時(shí)更關(guān)注典型記憶項(xiàng),如式(9)所示。
其中:max(·,0)表示ReLU 激活函數(shù);δ表示正標(biāo)量。實(shí)驗(yàn)時(shí)本文發(fā)現(xiàn)模型在閾值λ∈[1/L,3/L]時(shí)有較高的性能。經(jīng)強(qiáng)制收縮后,本文對(duì)i進(jìn)行正則化i=i/‖‖1,此時(shí)輸出特征=Me。此處的強(qiáng)制收縮策略有利于模型以較少但更具有代表性的原型特征表示正常樣本,學(xué)習(xí)更多抽象特征表達(dá)。
1.3.2 記憶網(wǎng)絡(luò)抑制項(xiàng)
與文獻(xiàn)[17,18]不同的是,本文在階段一用異常樣本構(gòu)造了記憶網(wǎng)絡(luò)的抑制項(xiàng),所以更新記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)時(shí),階段二就間接使用了與測(cè)試集相重疊的異常樣本,實(shí)現(xiàn)使用抑制項(xiàng)約束增強(qiáng)項(xiàng)內(nèi)記憶項(xiàng)表達(dá)的目的。如圖2所示,記憶網(wǎng)絡(luò)抑制項(xiàng)使用Mc表示,與增強(qiáng)項(xiàng)類似,抑制項(xiàng)是N×K 的二維矩陣,N描述了抑制項(xiàng)內(nèi)記憶項(xiàng)數(shù)量,在UCF Crime和ShanghaiTech等常用異常檢測(cè)數(shù)據(jù)集中,正常動(dòng)作視頻片段的時(shí)長要遠(yuǎn)遠(yuǎn)高于異常視頻片段時(shí)長,所以此處 N 文獻(xiàn)[17,18]訓(xùn)練模型時(shí)關(guān)注降低視頻幀的重建誤差,即模型以較少且更有代表的特征重建正常樣本,但同時(shí)也會(huì)忽略運(yùn)動(dòng)等細(xì)粒度信息。為避免這種現(xiàn)象,本文計(jì)算輸入特征z與輸出特征之間的相似度d(z,)(式(11)),并將其與異常偏向判定閾值ε相比較,當(dāng)d(z,)低于閾值ε時(shí),本文認(rèn)為輸入特征z經(jīng)記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)重構(gòu)后丟失信息較多,參考文獻(xiàn)[17]記憶項(xiàng)更新策略,本文使用輸入特征z更新抑制項(xiàng),以使更多的細(xì)粒度特征參與視頻幀重建任務(wù)。當(dāng)d(z,)高于閾值ε時(shí),不再更新抑制項(xiàng),而直接使用增強(qiáng)項(xiàng)重構(gòu)輸入特征z。為保留更多的記憶項(xiàng)特征,閾值ε初始設(shè)置為0.5。 為實(shí)現(xiàn)使用抑制項(xiàng)約束增強(qiáng)項(xiàng)內(nèi)偏向異常的記憶項(xiàng)表達(dá),本文去除增強(qiáng)項(xiàng)內(nèi)與抑制項(xiàng)記憶項(xiàng)相似度高的部分,此處以更新式(10)的相似度量i實(shí)現(xiàn)。如式(12)所示,za由輸入特征z用記憶網(wǎng)絡(luò)的抑制項(xiàng)重構(gòu)獲得(圖2)。通過記憶尋址本文得到特征za與增強(qiáng)項(xiàng)內(nèi)各記憶項(xiàng)mei的相似度d(za,mei),并使用ReLU函數(shù)保留度量值高于ε的部分,調(diào)整i值,實(shí)現(xiàn)約束增強(qiáng)項(xiàng)內(nèi)偏向異常的記憶項(xiàng)表達(dá)。 1.3.3 模型訓(xùn)練 a)重建損失?;趫D像重構(gòu)的方法,其關(guān)鍵在于輸入正常圖像編解碼,并以降低重構(gòu)誤差為目標(biāo)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在此過程中,較常用的損失函數(shù)是均方誤差[19],它用圖像重構(gòu)前后所有像素點(diǎn)的像素值之差的平方均值衡量圖像重構(gòu)的質(zhì)量。本文定義{xt}Tt=1為包含T個(gè)正常樣本特征的訓(xùn)練集,表示每個(gè)樣本特征相應(yīng)的重構(gòu)特征,如式(13)所示,本文首先最小化真實(shí)輸入xt與重建輸出t間的均方誤差。 其中:α是網(wǎng)絡(luò)訓(xùn)練時(shí)的超參數(shù),實(shí)驗(yàn)表明當(dāng)α=0.000 2時(shí),模型性能表現(xiàn)良好。通過目標(biāo)函數(shù) losssec的約束,視頻幀重建時(shí),不僅能利用反向傳播和鏈?zhǔn)椒▌t更新網(wǎng)絡(luò)參數(shù),也能使用記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)和抑制項(xiàng)更新參數(shù),兩者共同作用使模型以有限且典型的記憶項(xiàng)重構(gòu)訓(xùn)練樣本。 階段一 對(duì)比學(xué)習(xí) 輸入:取自正常視頻與異常視頻的樣本特征s。 輸出:偏向正常的特征Me;偏向異常的特征Mc。 for 1 to 50 do //50表示迭代周期數(shù) 使用緊湊性對(duì)比損失losscom和描述性對(duì)比損失lossdesc迭代訓(xùn)練,輸出更新后的。 end for 使用最近鄰方法將聚類,更新正常樣本中心Cp,異常樣本中心Cn 輸出與Cp最相似的特征Me,與Cn最相似的特征Mc 階段二 記憶學(xué)習(xí) 輸入:正常視頻樣本特征x;偏向正常的特征Me;偏向異常的特征Mc。//x部分取自s 輸出:重建的正常樣本特征;更新后的特征Me。 for 1 to 50 do 使用編碼器fe(·):x→z將樣本特征x編碼成特征z,使用Me重構(gòu)z得到,計(jì)算z與的相似度d(z,),與異常偏向判定閾值ε比較。 if d(z,)>ε: 使用Me重構(gòu)z得到,通過解碼器fd(·):→輸出重建特征,利用重建損失函數(shù)lossrec和交叉熵函數(shù)lossentro迭代更新參數(shù)。 else: 使用Mc更新Me記憶項(xiàng),以更新后的Me重構(gòu)特征z,將輸出輸入解碼器fd(·):→。 end for 輸出重建后正常樣本特征,更新后的特征Me。 階段二完成后,Me記錄著正常樣本典型的原型特征,模型通過學(xué)習(xí)正常樣本典型的原型特征,可用于解決不同數(shù)據(jù)類型的異常識(shí)別任務(wù)。 1.3.4 模型測(cè)試 本文使用均方誤差和峰值信噪比判斷視頻幀是正常還是異常。如圖3所示,由于增強(qiáng)項(xiàng)內(nèi)記憶項(xiàng)存儲(chǔ)的是偏向正常的特征,在假設(shè)正常樣本編碼特征z與記憶項(xiàng)mei類似的前提下,計(jì)算z與增強(qiáng)項(xiàng)內(nèi)各記憶項(xiàng)的均方誤差,如式(16)所示。 2 實(shí)驗(yàn)分析 2.1 數(shù)據(jù)集 本文在UCF Crime和ShanghaiTech數(shù)據(jù)集評(píng)估了本文方法。UCF Crime數(shù)據(jù)集有14種異常類型,1 900個(gè)未剪輯的視頻,這些視頻都是在真實(shí)場(chǎng)景中捕獲的。它有290個(gè)帶有幀級(jí)時(shí)間注釋的視頻,本文使用僅具有視頻級(jí)標(biāo)簽的樣本對(duì)幀級(jí)時(shí)間標(biāo)簽的視頻進(jìn)行訓(xùn)練和測(cè)試。訓(xùn)練集包括800個(gè)正常視頻和810個(gè)異常視頻,測(cè)試集包括150個(gè)正常和140個(gè)異常視頻。視頻的長度從1 min到40 min不等。每個(gè)視頻包含1~2個(gè)異常片段。劃分訓(xùn)練集和測(cè)試集時(shí),按照參考文獻(xiàn)[4]提供的分割策略。ShanghaiTech數(shù)據(jù)集有437個(gè)視頻,包括13種場(chǎng)景中的130個(gè)異常事件。它具有像素級(jí)的真實(shí)值,表示幀級(jí)異常事件。訓(xùn)練集包括175個(gè)正常視頻和63個(gè)異常視頻,測(cè)試集包括155個(gè)正常視頻和44個(gè)異常視頻,視頻片段的長度從15 s到超過1 min不等。劃分訓(xùn)練集和測(cè)試集時(shí),按照文獻(xiàn)[20]提供的分割策略。 2.2 實(shí)驗(yàn)細(xì)節(jié) 本文使用 PyTorch 深度學(xué)習(xí)庫來實(shí)現(xiàn)整個(gè)框架,并用兩塊 NVIDIA GeForce GTX 1080Ti 圖形卡來進(jìn)行實(shí)驗(yàn)。在計(jì)算特征前,每個(gè)視頻幀的大小重新調(diào)整為256×256像素,并將幀速率固定為 30 fps,然后再進(jìn)行階段一和二的訓(xùn)練。 在階段一,使用三維卷積編碼器即C3D編碼器作為輸入視頻的特征提取器。每個(gè)視頻片段的幀數(shù)都設(shè)置為16。C3D編碼器由四個(gè)卷積層組成,卷積核尺寸分別是3×2×96、3×2×128、3×2×256和3×2×256,除最后一個(gè)卷積層外,每個(gè)卷積層后存在批量正則層與激活層。訓(xùn)練樣本被編碼器映射至同一特征表示空間,在特征空間中檢索和比較正負(fù)例對(duì)的距離,此時(shí)無須額外的特征提取計(jì)算參數(shù)。即在特征空間內(nèi)最近鄰方法完成聚類后,以Cp為中心找到相距最近的L-1個(gè)特征項(xiàng),一起組成含有L個(gè)記憶項(xiàng)的增強(qiáng)項(xiàng),以Cn為中心找到相距最近的N-1個(gè)特征項(xiàng),組成含有N個(gè)記憶項(xiàng)的抑制項(xiàng)。同文獻(xiàn)[18]的設(shè)置, 這里將L設(shè)置為2 000,N-1的大小在后續(xù)實(shí)驗(yàn)中進(jìn)行詳細(xì)討論。 在階段二,本文使用三維卷積的自動(dòng)編解碼器提取視頻特征,網(wǎng)絡(luò)只輸入正常視頻數(shù)據(jù),幀數(shù)設(shè)置和編碼器結(jié)構(gòu)同階段一,解碼器的結(jié)構(gòu)被設(shè)計(jì)為Dconv3(3,2,256)-Dconv3(3,2,128)-Dconv3(3,2,96)-Dconv3(3,2,1),其中Dconv3表示反卷積??紤]到視頻特征的復(fù)雜性,本文讓記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)的各記憶項(xiàng)存儲(chǔ)編碼特征的像素級(jí)特征,即增強(qiáng)項(xiàng)的設(shè)置為2 000×256。記憶網(wǎng)絡(luò)的抑制項(xiàng)初始設(shè)置128×256,訓(xùn)練時(shí)使用抑制項(xiàng)約束記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)內(nèi)偏向異常的記憶項(xiàng)表達(dá),使增強(qiáng)項(xiàng)能用更具代表性的特征重構(gòu)圖像。訓(xùn)練時(shí)使用學(xué)習(xí)率為0.001的Adam 優(yōu)化器,階段一特征空間的劃分和階段二記憶網(wǎng)絡(luò)的更新各持續(xù)50個(gè)周期。測(cè)試時(shí),度量權(quán)重μ設(shè)置為0.7[17],并使用輸入數(shù)據(jù)的均方誤差和峰值信噪比判斷視頻幀是正常還是異常。 2.3 實(shí)驗(yàn)結(jié)果分析 2.3.1 評(píng)價(jià)指標(biāo) 本文使用兩個(gè)指標(biāo)來評(píng)估模型的性能。第一個(gè)檢測(cè)指標(biāo)是基于幀的受試者工作特征曲線ROC以及該曲線下方面積AUC。通過繪制不同閾值設(shè)置下的真陽性率TPR和假陽性率FPR,ROC曲線可以表現(xiàn)分類器性能。計(jì)算出上述各個(gè)指標(biāo)值之后繪制ROC曲線,其中ROC曲線的橫坐標(biāo)是FPR,縱坐標(biāo)是TPR,ROC曲線越靠近左上角,說明該檢測(cè)器的效果越好,此時(shí)曲線下面積AUC越大,魯棒的檢測(cè)模型常具有較高的AUC值。另一個(gè)檢測(cè)指標(biāo)是虛警率。由于FPR也被稱為虛警率,這里使用 50%閾值的 FPR 作為虛警率。由于實(shí)時(shí)監(jiān)控視頻的主要部分是正常的,所以健壯的模型在正常片段上也應(yīng)具有較低的虛警率。 2.3.2 消融實(shí)驗(yàn) 為獲取更加真實(shí)的實(shí)驗(yàn)效果,本文在ShanghaiTech數(shù)據(jù)集上進(jìn)行了如下消融實(shí)驗(yàn),分別包括:a)評(píng)估對(duì)比記憶網(wǎng)絡(luò)不同級(jí)別的損失函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響;b)評(píng)估抑制項(xiàng)內(nèi)記憶項(xiàng)數(shù)量對(duì)于檢測(cè)結(jié)果的影響;c)評(píng)估異常判定閾值 ε對(duì)于檢測(cè)結(jié)果的影響。 1)評(píng)估對(duì)比記憶網(wǎng)絡(luò)中不同級(jí)別的損失函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響 圖4展示了網(wǎng)絡(luò)不同級(jí)別的損失函數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響。由于缺少異常行為片段的幀級(jí)標(biāo)簽,常見的基于記憶模型的異常行為檢測(cè)方法[17,18]中只使用和測(cè)試集不重疊的正常視頻計(jì)算重構(gòu)損失lossrec,讓網(wǎng)絡(luò)只記憶正常行為特征。本文以此為基線,在訓(xùn)練集中引入異常視頻,并提出緊湊性對(duì)比損失losscom和描述性對(duì)比損失lossdesc,從兩者的結(jié)合角度引入不同的訓(xùn)練樣本和損失函數(shù)約束網(wǎng)絡(luò),性能表現(xiàn)如圖4所示。 從圖4可以看出,在訓(xùn)練集中引入異常行為視頻可以有效提升網(wǎng)絡(luò)的檢測(cè)性能,這是因?yàn)楫惓P袨橐曨l的引入增加了不同運(yùn)動(dòng)特征之間的差異性,此時(shí)網(wǎng)絡(luò)在學(xué)習(xí)的過程中不僅關(guān)注如何降低重構(gòu)誤差,而且關(guān)注如何學(xué)習(xí)區(qū)分度高的特征,避免只識(shí)別單一行為時(shí)導(dǎo)致網(wǎng)絡(luò)泛化能力過強(qiáng)。同時(shí)可以看到描述性對(duì)比損失lossdesc和緊湊性對(duì)比損失losscom在單獨(dú)使用時(shí)對(duì)檢測(cè)效果的提升類似,這是因?yàn)閮烧咧魂P(guān)注視頻內(nèi)部或者視頻之間的差異性和聯(lián)系性,當(dāng)共同考慮兩者時(shí),即考慮不同類別運(yùn)動(dòng)的差異性和同類運(yùn)動(dòng)的聯(lián)系性時(shí),效果得到提升。 本節(jié)進(jìn)一步展示了不同的損失對(duì)于聚類空間的影響,使用 t-SNE[21]對(duì)特征分布進(jìn)行可視化分析,如圖5所示。圖5(a)~(d)分別對(duì)應(yīng)圖5中的不同方法。 圖(a)表示不引入正負(fù)例對(duì),在訓(xùn)練的過程中只通過重構(gòu)損失lossrec調(diào)整網(wǎng)絡(luò)。由于沒有計(jì)算特征之間的相似度,來自正常視頻中的片段與來自異常視頻中的片段特征均勻地分布在特征空間中,此時(shí)沒有獲得運(yùn)動(dòng)特征的抽象表達(dá)。引入正負(fù)例后,圖(b)表示使用重構(gòu)損失lossrec和緊湊性對(duì)比損失losscom訓(xùn)練模型,圖(c)表示使用重構(gòu)損失lossrec和描述性對(duì)比損失lossdesc調(diào)整網(wǎng)絡(luò)。從圖(b)和(c)可以看出,動(dòng)作特征相似的片段會(huì)在特征空間中聚集,但單獨(dú)的緊湊性對(duì)比損失losscom或描述性級(jí)損失lossdesc無法更加細(xì)致地描繪出各個(gè)特征之間的異同點(diǎn),圖中出現(xiàn)了多個(gè)聚集區(qū)域,無法用于構(gòu)建記憶網(wǎng)絡(luò)的記憶項(xiàng)。 圖(d)表示引入正負(fù)例對(duì)后使用重構(gòu)損失lossrec、緊湊性對(duì)比損失lossrec以及描述性對(duì)比損失lossdesc來調(diào)整網(wǎng)絡(luò)。正常視頻之間的緊湊性級(jí)損失可以使正常特征相互吸引,異常視頻之間的緊湊性損失可以分離出視頻中的異常行為片段和正常行為片段,最后通過描述性對(duì)比損失拉近不同視頻中類似特征的距離,增加不相似特征間的距離。 2)評(píng)估抑制項(xiàng)內(nèi)記憶項(xiàng)數(shù)量對(duì)于檢測(cè)結(jié)果的影響 如表1所示,展示了抑制項(xiàng)的記憶項(xiàng)數(shù)量不同時(shí)對(duì)檢測(cè)結(jié)果的影響。根據(jù)文獻(xiàn)[17]的設(shè)置,記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)的項(xiàng)數(shù)設(shè)置為2 000,用于存儲(chǔ)正常行為特征。記憶網(wǎng)絡(luò)的抑制項(xiàng)主要存儲(chǔ)和正常行為相似度較低的特征,經(jīng)由式(12)選取相似度最低的N項(xiàng)特征進(jìn)行更新,N取不同值時(shí),抑制項(xiàng)對(duì)增強(qiáng)項(xiàng)的約束程度也會(huì)有變化。N從128開始,每隔128進(jìn)行一次實(shí)驗(yàn),從表1中可以看出,當(dāng)N=256時(shí),檢測(cè)效率最高,當(dāng)N超過256時(shí),導(dǎo)致記憶網(wǎng)絡(luò)增強(qiáng)項(xiàng)內(nèi)需要更新的記憶項(xiàng)數(shù)超過了10%,使部分正常特征也被更新,造成最終檢測(cè)效率逐步下降。 3)評(píng)估異常判定閾值ε對(duì)于檢測(cè)結(jié)果的影響 表2給出了不同的判定閾值對(duì)于檢測(cè)結(jié)果的影響,當(dāng)特征相似度高于閾值ε時(shí),認(rèn)為這兩項(xiàng)特征來自于同一類型的運(yùn)動(dòng),反之認(rèn)為這兩項(xiàng)特征屬于不同類型的運(yùn)動(dòng)。從表2可以看出,當(dāng)ε過小或者過大的時(shí)候,檢測(cè)效果提升都不明顯。這是因?yàn)楫?dāng)ε過大的時(shí)候,檢測(cè)網(wǎng)絡(luò)對(duì)正常行為的要求增加,此時(shí)符合要求的數(shù)量減少,記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)中存儲(chǔ)的特征無法很好地描述正常行為,導(dǎo)致將部分正常行為視為異常行為;當(dāng)ε過小,檢測(cè)網(wǎng)絡(luò)對(duì)正常行為的要求降低,此時(shí)符合要求的數(shù)量增加,使部分異常行為也被判定為正常行為。從表2中可以看出,當(dāng)ε=0.7 時(shí)檢測(cè)效果最佳。 2.3.3 對(duì)比實(shí)驗(yàn) 為說明模型提高了異常檢測(cè)效果,將本文方法與其他現(xiàn)有的基于自動(dòng)編碼器的主流方法進(jìn)行比較,如表3所示。這些方法在訓(xùn)練過程中只學(xué)習(xí)正常視頻的正常模式,測(cè)試時(shí)根據(jù)樣本與模型的偏離程度判斷其異常性,屬于無監(jiān)督學(xué)習(xí)的范疇。由于在訓(xùn)練過程中沒有異常視頻參與,該類方法也會(huì)將異常樣本誤判為正常。本文方法從視頻和片段兩個(gè)層面進(jìn)行特征對(duì)比,降低時(shí)空噪聲對(duì)檢測(cè)結(jié)果的影響,并利用記憶網(wǎng)絡(luò)存儲(chǔ)行為特征的抽象表達(dá),避免無關(guān)運(yùn)動(dòng)的影響。在UCF Crime和ShanghaiTech數(shù)據(jù)集,平均AUC值達(dá)到83.26%和87.53%,證明了本文方法的改進(jìn),提升了異常事件的檢測(cè)。 從表3可以看出,相較于圖卷積編碼器[20],U-Net編碼器[22]、U-LSTM編碼器[24]和全卷積編碼器[25,26],采用C3D網(wǎng)絡(luò)[4,23]作為編碼器效果更好,說明C3D能夠獲得更加穩(wěn)健的深度特征。文獻(xiàn)[17,18]在自動(dòng)編碼器的基礎(chǔ)上添加記憶網(wǎng)絡(luò),該網(wǎng)絡(luò)存儲(chǔ)的典型樣本特征提升了正常樣本重建的穩(wěn)定度,性能表現(xiàn)優(yōu)于普通的全卷積編碼器,但弱于C3D網(wǎng)絡(luò)作為編碼器的方法,這可能因?yàn)镃3D網(wǎng)絡(luò)能更有效地捕捉時(shí)空特征,所以本文在對(duì)比學(xué)習(xí)階段也選擇C3D網(wǎng)絡(luò)編碼器,以提高模型特征提取效果。本文方法性能較文獻(xiàn)[17,18]有所提升,這是因?yàn)槟P褪褂糜洃浘W(wǎng)絡(luò)的抑制項(xiàng)約束了增強(qiáng)項(xiàng)內(nèi)偏向異常的記憶項(xiàng)表達(dá),使模型不僅能夠根據(jù)正常樣本與異常樣本間特征差異進(jìn)行聚類,還能在使用編碼器編碼、解碼器解碼的過程中清除原始視頻中的無關(guān)特征。 在UCF Crime和ShanghaiTech數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法能夠提高異常檢測(cè)的效果。特別地,UCF Crime數(shù)據(jù)集包含13個(gè)不同的場(chǎng)景,這增加了在該數(shù)據(jù)集上異常檢測(cè)的難度。ShanghaiTech數(shù)據(jù)集中的場(chǎng)景均為校園道路環(huán)境,此時(shí)正常事件和異常事件有相同的定義,同時(shí)在高層次特征上也有類似的表現(xiàn)。實(shí)驗(yàn)表明,本文模型可以增加對(duì)異常事件的識(shí)別能力。 本文使用兩張NVIDIA GeForceGTX 1080Ti 圖形卡在ShanghaiTech數(shù)據(jù)集研究了所提方法的計(jì)算復(fù)雜度。測(cè)試時(shí),對(duì)比記憶網(wǎng)絡(luò)檢測(cè)出視頻幀是否異常總耗時(shí)35.4 ms(28 fps),優(yōu)于文獻(xiàn)U-Net編碼器[22]的40 ms,VGG-f[28]編碼器的50 ms。與每幀需要耗時(shí)35.4 ms相比,更新記憶網(wǎng)絡(luò)項(xiàng)幾乎不消耗額外的計(jì)算時(shí)間,每幀僅耗時(shí)0.5 ms。 本節(jié)將模型在 UCF Crime 和 ShanghaiTech 數(shù)據(jù)集上進(jìn)一步可視化,并與文獻(xiàn)[24,26]對(duì)比檢測(cè)效果。如圖6、7所示,其中灰色填充部分表示異常行為發(fā)生的真實(shí)時(shí)間段。圖6展示了在ShanghaiTech數(shù)據(jù)集的01_0014.mp4視頻上的檢測(cè)結(jié)果,圖7展示了在UCF Crime數(shù)據(jù)集的Burglary021_x264.mp4視頻上的檢測(cè)結(jié)果。從圖6、7中可以看出,本文方法能有效檢測(cè)出異常行為的發(fā)生。 3 結(jié)束語 本文基于對(duì)比記憶網(wǎng)絡(luò)進(jìn)行異常行為檢測(cè),其目標(biāo)是在無幀級(jí)標(biāo)簽時(shí)劃分特征空間內(nèi)正常行為和異常行為,根據(jù)兩種行為的差異進(jìn)行異常行為檢測(cè)。本文使用編碼器生成潛在特征空間,在該空間上對(duì)正常特征和異常特征進(jìn)行聚類,然后選取聚類后的特征分別作為記憶網(wǎng)絡(luò)的增強(qiáng)項(xiàng)和抑制項(xiàng),其中記憶網(wǎng)絡(luò)的抑制項(xiàng)約束了增強(qiáng)項(xiàng)內(nèi)偏向異常的特征表達(dá),緩解了正常與異常的相似特征參與圖像重構(gòu)的難題。在UCF Crime和ShanghaiTech數(shù)據(jù)集上的實(shí)驗(yàn)研究表明,本文方法能夠預(yù)測(cè)異常事件的發(fā)生時(shí)間,并且優(yōu)于現(xiàn)有方法。但缺點(diǎn)是記憶網(wǎng)絡(luò)只存儲(chǔ)正常行為與異常行為的典型特征,限制了部分低層次特征的表達(dá)。C3D編碼特征內(nèi)存在豐富的時(shí)序信息,接下來研究重點(diǎn)是找到高效的時(shí)序建模方法,提高模型對(duì)異常事件的識(shí)別能力。 參考文獻(xiàn): [1]Cook A A,Msrl G,F(xiàn)an Zhong.Anomaly detection for IoT time-series data:a survey[J].IEEE Internet of Things Journal,2019,7(7):6481-6494. [2]呂承侃,沈飛,張正濤,等.圖像異常檢測(cè)研究現(xiàn)狀綜述[J].自動(dòng)化學(xué)報(bào),2022,48(6):1402-1428.(Lyu Chengkan,Shen Fei,Zhang Zhengtao,et al.Review of image anomaly detection[J].Acta Automatica Sinica,2022,48(6):1402-1428.) [3]Paszke A,Gross S,Massa F,et al.PyTorch:an imperative style,high-performance deep learning library[C]//Proc of the 33rd Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:8024-8035. [4]Sultani W,Chen Chen,Shah M.Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6479-6488. [5]Tian Yu,Pang Guansong,Chen Yuanhong,et al.Weakly-supervised video anomaly detection with robust temporal feature magnitude lear-ning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:4955-4966. [6]Wu Peng,Liu Jing,Shi Yujia,et al.Not only look,but also listen:learning multimodal violence detection under weak supervision[M]//Vedaldi A,Bischof H,Brox T,et al.Computer Vision.Cham:Springer,2020:322-339. [7]Zhong J X,Li Nannan,Kong Weijie,et al.Graph convolutional label noise cleaner:train a plug-and-play action classifier for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1237-1246. [8]肖進(jìn)勝,申夢(mèng)瑤,江明俊,等.融合包注意力機(jī)制的監(jiān)控視頻異常行為檢測(cè)[J].自動(dòng)化學(xué)報(bào),2022,48(12):2951-2959.(Xiao Jinsheng,Shen Mengyao,Jiang Mingjun,et al.Abnormal behavior detection algorithm with video-bag attention mechanism in surveillance vi-deo[J].Acta Automatica Sinica,2022,48(12):2951-2959.) [9]Cai T T,F(xiàn)rankle J,Schwab D J,et al.Are all negatives created equal in contrastive instance discrimination?[EB/OL].(2020-10-25).https://arxiv.org/abs/2010.06682. [10]Gudovskiy D,Ishizaka S,Kozuka K.CFLOW-AD:real-time unsupervised anomaly detection with localization via conditional normalizing flows[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2022:1819-1828. [11]Sepehr M,Sasan M,Jennings N R.Unsupervised anomaly detection with LSTM autoencoders using statistical data-filtering[J].Applied Soft Computing,2021,108:article ID 107443. [12]周佳航,邢紅杰.基于雙自編碼器和Transformer網(wǎng)絡(luò)的異常檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2023,43(1):22-29.(Zhou Jiahang,Xing Hongjie.Novelty detection method based on dual autoencoders and Transformer network[J].Journal of Computer Applications,2023,43(1):22-29.) [13]陳澄,胡燕.融合記憶增強(qiáng)的視頻異常檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(15):253-259.(Chen Cheng,Hu Yan.Video anomaly detection combining memory-augmented[J].Computer Engineering and Applications,2022,58(15):253-259.) [14]Chen Ting,Kornblith S,Norouzi M,et al.A simple framework for con-trastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning.[S.l.]:JMLR.org,2020:1597-1607. [15]Winkens J,Bunel R,Roy A G,et al.Contrastive training for improved out-of-distribution detection[EB/OL].(2020-07-10).https://arxiv.org/abs/2007.05566. [16]Bommes L,Hoffmann M,Buerhop-Lutz C,et al.Anomaly detection in IR images of PV modules using supervised contrastive learning[J].Progress in Photovoltaics:Research and Applications,2022,30(6):597-614. [17]Park H,Noh J,Ham B.Learning memory-guided normality for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:14360-14369. [18]Gong Dong,Liu Lingqiao,Le V,et al.Memorizing normality to detect anomaly:memory-augmented deep autoencoder for unsupervised ano-maly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1705-1714. [19]Bergmann P,Lwe S,F(xiàn)auser M,et al.Improving unsupervised defect segmentation by applying structural similarity to autoencoders[C]//Proc of the 14th International Joint Conference on Computer Vision,Imaging and Computer Graphics Theory and Applications.Pisca-taway,NJ:IEEE Press,NJ,2019:372-380. [20]Zhong J X,Li Nannan,Kong Weijie,et al.Graph convolutional label noise cleaner:train a plug-and-play action classifier for anomaly detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1237-1246. [21]Van Der Maaten L.Accelerating t-SNE using tree-based algorithms[J].The Journal of Machine Learning Research,2014,15(1):3221-3245. [22]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomaly detection:a new baseline[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:6536-6545. [23]Zhao Yiru,Deng Bing,Shen Chen,et al.Spatio-temporal autoencoder for video anomaly detection[C]//Proc of the 25th ACM International Conference on Multimedia.New York:ACM Press,2017:1933-1941. [24]Li Yuanyuan,Cai Yiheng,Liu Jiaqi,et al.Spatio-temporal unity networking for video anomaly detection[J].IEEE Access,2019,7:172425-172432. [25]Dubey S,Boragule A,Gwak J,et al.Anomalous event recognition in videos based on joint learning of motion and appearance with multiple ranking measures[J].Applied Sciences,2021,11(3):1344. [26]Zaheer M Z,Mahmood A,Astrid M,et al.CLAWS:clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection[C]//Proc of the 16th European Conference on Computer Vision.Berlin:Springer-Verlag,2020:358-376. [27]Hasan M,Choi J,Neumann J,et al.Learning temporal regularity in video sequences[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:733-742. [28]Ionescu R T,Smeureanu S,Alexe B,et al.Unmasking the abnormal events in video[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2914-2922. 收稿日期:2022-12-28;修回日期:2023-02-25基金項(xiàng)目:安徽省重點(diǎn)研究與開發(fā)計(jì)劃資助項(xiàng)目(202004d07020004);安徽省自然科學(xué)基金資助項(xiàng)目(2108085MF203);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(PA2021GDSK0072,JZ2021HGQA0219) 作者簡介:李文中(1995-),男,河南信陽人,碩士研究生,主要研究方向?yàn)楫惓z測(cè)、視頻圖像分析;吳克偉(1984-),男(通信作者),安徽合肥人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橛?jì)算機(jī)視覺、人工智能、模式識(shí)別(wu_kewei1984@163.com);孫永宣(1978-),男,安徽合肥人,講師,博士,主要研究方向?yàn)橹悄苄畔⑻幚?;焦暢?998-),男,安徽黃山人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺、群組行為識(shí)別;熊思璇(1997-),女,湖北襄陽人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺.