劉邦義 周激流 張衛(wèi)華
暴力行為檢測是行為識別的一個重要研究方向,在網(wǎng)絡(luò)信息審查和智能安全領(lǐng)域具有廣闊的應(yīng)用前景.針對目前的時序模型在復(fù)雜背景下不能有效提取人體運動特征和常規(guī)循環(huán)神經(jīng)網(wǎng)絡(luò)無法聯(lián)系輸入上下文的問題,本文提出一種時序邊界注意力循環(huán)神經(jīng)網(wǎng)絡(luò)TEAR-Net.首先,以本文提出的一種全新的運動特征提取模塊MOE為基礎(chǔ),在保留輸入視頻段序列背景信息的前提下加強運動邊界區(qū)域.運動邊界對于動作識別的作用要遠大于圖像其他區(qū)域,因此運動邊界加強能夠有效提高動作特征的提取效率,從而提升后續(xù)網(wǎng)絡(luò)的識別精度.其次,引入了一種全新的結(jié)合上下文語境和注意力機制的循環(huán)卷積門單元(CSA-ConvGRU),提取連續(xù)幀之間的流特征以及不同幀的獨立特征,并關(guān)注關(guān)鍵幀,能夠極大提升動作識別的效率,以少量參數(shù)和較低計算量的代價掌握視頻流的全局信息,從而有效提高識別準確率.本文提出的模型在目前最新的公開數(shù)據(jù)集RWF-2000和RLVS上進行了多種實驗.實驗結(jié)果表明,本文提出的網(wǎng)絡(luò)在模型規(guī)模和檢測精度上均優(yōu)于目前主流的暴力行為識別算法.
暴力行為; 時序信息; 運動邊界; 注意力機制; 上下文
TP391A2023.023003
收稿日期: 2022-01-17
基金項目: 四川省科技計劃(2022YFQ0047)
作者簡介: 劉邦義(1998-), 男, 碩士研究生, 主要研究方向為計算機視覺、模式識別等. E-mail: 228980603@qq.com
通訊作者: 張衛(wèi)華. E-mail: zhangweihua@scu.edu.cn
Temporal edge attention recurrent neural networkfor violence detection
LIU Bang-Yi1,? ZHOU Ji-Liu1, ZHANG Wei-Hua2
(1. College of? Electronic Information Engineering, Sichuan University, Chengdu? 610065, China;
2. College of Computer Science, Sichuan University, Chengdu? 610065, China)
Violence detection is one of the most important research topic in behavior recognition,which has great potential applications in network information review and intelligent security.The published works cannot keep their performance in the complexity environments, because they cannot effectively extract movement features and contact consecutive frames. Hence, a novel method is proposed in this paper, which is referred to as temporal edge attention recurrent neural network (TEAR-Net). First, we propose a novel motion object enhancement (MOE) module, which enhances the motion edge while keeping the background information of the video sequences. Because the motion edge has a much greater effect on motion recognition than other areas of the image, the enhancement of motion edge can effectively improve the extraction efficiency of action features, and thus the recognition accuracy is improved. Then we introduce a novel recurrent convolutional gate unit CSA-ConvGRU, which combines context and attention mechanism. It can extract the stream features among consecutive frames and the independent features of each frame. Attention mechanism can help to focus on key frames, which greatly improve the efficiency of action recognition, capture the global information of the video stream with a lower cost, and thus effectively improve recognition accuracy. The proposed model has been tested on the currently lastest public datasets RWF-2000 and RLVS. The experimental results show that the proposed model outperforms the state-of-the-art violence detection algorithms in terms of computational cost and detection accuracy.
Violence; Temporal information; Motion edge; Attention mechanism; Context
1 引 言伴隨著城鎮(zhèn)化的規(guī)模不斷擴大和人口的聚集,群眾對公共區(qū)域安全的監(jiān)管需求日益提升,各種監(jiān)控設(shè)備被廣泛部署.如今大部分的公共安全監(jiān)管仍然采取基于人工觀察的方式,因此盡管底層感知設(shè)備布置較為完善,但是仍然具有較高的漏檢率和錯檢率.這導(dǎo)致有時不能及時處理應(yīng)急事件.因此一種基于計算機圖像技術(shù)的異常行為檢測算法是急需的,由于圖像技術(shù)的快速、準確、輕量化、高拓展性且易于維護等特點,這類方法具有較大的社會價值和應(yīng)用前景[1].
視頻作為安防監(jiān)控的載體,由連續(xù)的圖像構(gòu)成,具有高度的時空相關(guān)性[2].相較于圖片,視頻往往具有更為豐富的信息,例如幀間的時間語義信息和空間語義信息.然而,視頻具有輸入維度高,時空信息難以解耦提取等難題.因此,如何提出一種針對視頻的實時準確輕量化的異常行為檢測算法是十分困難的,具有較高的研究價值.
近年來,行為識別的研究熱度不斷提高,許多算法相繼被提出,根據(jù)特征提取方法的不同,可以被分為基于傳統(tǒng)圖像處理和基于深度學習的方法.Wang等[3]提出密集軌跡提取的相關(guān)算法(Dense Trajectories, DT ),通過將三種特征描述子方向梯度直方圖融合編碼后進行分類,最終取得了較好的效果.傳統(tǒng)方法具有不需要訓(xùn)練以及對硬件設(shè)備要求低等優(yōu)點,但是它們在面對背景復(fù)雜等情況下往往難以維持較好的表現(xiàn),因為其提取的特征泛化能力不足.
神經(jīng)網(wǎng)絡(luò)近年來得到飛速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為神經(jīng)網(wǎng)絡(luò)的代表算法在諸多重要圖像任務(wù)如分類[4]和分割[5]上均取得了矚目的成績.深度學習能夠獲得樣本深層特征表示,故基于深度學習的方法往往具有較強的魯棒性和較高的識別精度.行為識別算法可被分為多流卷積神經(jīng)網(wǎng)絡(luò)(Multi Stream CNN,MSCNN)的模型、時空序列模型和時間序列模型[6].Simonyan等[7]提出雙流CNN模型,該模型分別從單幀RGB圖像和多幀稠密光流圖中提取視頻的時空信息,最后將特征融合進行分類,取得較好的效果.盡管多流CNN模型在提取動作信息特征有一定優(yōu)勢,但是光流信息的提取需要大量算力,增大了計算開銷,難以在邊緣設(shè)備部署.
時空模型采用三維卷積提取時空特征.Tran等[8]在三維卷積的基礎(chǔ)提出3D卷積模型(Convolutional 3D,C3D),C3D為三維卷積和池化的線性組合,故模型簡單訓(xùn)練速度較快.為了緩解C3D參數(shù)量大的問題,Qiu等[9]提出了偽3D(Pseudo-3D, P3D)模型,Tran等[10]提出了 R(2+1)D模型.兩種模型的都采用將時空域分離進行靈活組合的思路,從而在保證模型參數(shù)量小的同時,能夠提升所提取特征的鑒別性和魯棒性.
時序模型采用CNN與遞歸神經(jīng)網(wǎng)絡(luò)級聯(lián)的方式提取時序特征.Hochreiter和Schmidhuber[11]提出長短期記憶單元(Long Short Term Memory, LSTM),被認為是時序模型最有代表性的方法之一.此后,Donahue等[12]提出了長期循環(huán)卷積網(wǎng)絡(luò)(Long-term Recurrent Convolution Network, LRCN),LRCN將CNN和由LSTM單元組成的遞歸神經(jīng)網(wǎng)絡(luò)級聯(lián),分別提取輸入的空間信息和時間信息.Melis等[13]在自然語言處理領(lǐng)域中發(fā)現(xiàn)隨著模型的復(fù)雜程度的加深,LSTM單元中的輸入與隱藏層之間的相關(guān)性會逐漸消失,進而提出了形變LSTM.Cho等[14]提出循環(huán)門單元(Gated Recurrent Units, GRU),GRU相較于LSTM具有參數(shù)量更少,訓(xùn)練速度更快等優(yōu)點.Shi等[15]提出了ConvLSTM,ConvLSTM通過將LSTM中的全連接層替換為卷積層,使該結(jié)構(gòu)不僅可以建立時序關(guān)系還可以像CNN一樣提取局部空間特征.Lin等[16]在ConvLSTM中增加基于記憶單元的自注意力模塊(Memory-based Self-Attention Module, SAM)預(yù)測記錄全局時空特征,以此來提取輸入中具有代表性的時空特征.
盡管時序模型取得了較好的識別效果,但該類方法在復(fù)雜背景下不能有效提取人體運動特征.相較于其他任務(wù)的視頻數(shù)據(jù)而言,安防監(jiān)控視頻需對大范圍場景進行監(jiān)控,因此安防監(jiān)控視頻中的運動主體并不突出,目標往往較小,同時背景非常復(fù)雜.而時序模型針對具有突出主體的視頻數(shù)據(jù)具有較好的識別效果,而當背景復(fù)雜并且運動目標較小時,該類方法難以保持其良好的識別性能.其主要原因是冗雜信息占據(jù)視頻的主導(dǎo)地位,直接使用原始視頻訓(xùn)練如LRCN為代表的時序模型時難以取得良好的識別效果.而這些算法為緩解這個問題往往使用幀差法消除背景信息的干擾,但與此同時運動區(qū)域的動作信息也會被一并刪除.
時序模型的根基是以ConvLSTM為代表的遞歸神經(jīng)網(wǎng)絡(luò).該網(wǎng)絡(luò)深度和視頻長度相關(guān),視頻越長網(wǎng)絡(luò)越深.而遞歸神經(jīng)網(wǎng)絡(luò)中層級之間缺乏聯(lián)系,在深度增加的同時網(wǎng)絡(luò)會傾向關(guān)注近期輸入的信息,而忽視早期信息隨著深度的增加逐漸被忽視.因此,這類模型難以對上下文信息建立有效聯(lián)系.
為了緩解上述的問題,有效提取出視頻主體運動的時空特征,減少復(fù)雜背景對模型的影響以提高識別準確率同時克服以往模型中上下文相關(guān)性不足的問題,本文提出了一種時序邊界注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(Temporal Edge Attention Recurrent Neural Network, TEAR-Net).本文主要貢獻可以總結(jié)如下:
(1) 本文提出一種全新的視頻幀處理模塊(Motion Object Enhancement, MOE),MOE可以基于幀間圖像差異提取出運動邊界,減少背景等因素的干擾,從而有效提高識別精度.
(2) 本文提出一種基于語境化的自注意力機制循環(huán)單元(Contextualization and Self-Attention ConvGRU, CSA-ConvGRU)對時序信息進行提取.相較于其他結(jié)構(gòu),CSA-ConvGRU在參數(shù)大小、顯存占用和訓(xùn)練速度上更占優(yōu)勢.此外相比于ConvGRU,CSA-ConvGRU對長時中的短時時序特征擁有更強的敏感性,相較于其他方法,本文提出方法在公共數(shù)據(jù)集上取得了令人滿意的效果.
2 網(wǎng)絡(luò)結(jié)構(gòu)
為緩解識別率低,參數(shù)量大等問題,本文提出TEAR-Net,整體框架圖如圖1所示,由三個主要部分組成分別為視頻幀預(yù)處理模塊,卷積特征提取網(wǎng)絡(luò)和注意力-長短時特征提取網(wǎng)絡(luò).MOE為視頻幀預(yù)處理模塊的主要成分,MOE對聚合幀塊做一系列的操作提取運動目標,在有效剔除可能造成干擾背景信息的同時保留主要運動目標.卷積特征提取網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò) (Residual Network, ResNet)[17]來提取幀圖像中的運動特征.在注意力-長短時特征提取網(wǎng)絡(luò)中,本文提出CSA-ConvGRU,能夠有效獲取時間序列中的關(guān)鍵特征,使之能夠提取更具有鑒別性的時空信息.
為了避免歧義,本文將對一些基本內(nèi)容進行數(shù)學定義.其中,輸入為視頻V,其中V的維度是V∈RN×T×C×H×W,N,T,C,H和W分別代表批尺寸,幀序列長度,圖像通道數(shù)以及幀圖像的長寬.V由幀圖像組成,其中幀圖像維度可以被表示為Vt∈RN×C×H×W, t表示視頻中的第t幀.δ代表sigmod激活函數(shù),pool代表平均池化層.
2.1 運動目標檢測模塊
在行為識別中,背景信息往往不是重要特征并且通常會對結(jié)果造成極大的干擾.因此,為了去除背景信息加強運動區(qū)域,本文提出一種全新的視頻幀處理模塊(Motion Object Enhancement, MOE)對運動區(qū)域進行加強.不同于多流的方法,該方法不需計算額外的光流信息,即可對運動目標進行強化,具有快速,運算算力和硬件設(shè)施要求低等優(yōu)點.
MOE的整體框架圖如圖2所示,共分為4步.首先,計算聚合幀塊中相鄰圖像間不同通道維度的一階導(dǎo)數(shù)的均方根(Root Mean Square, RMS),第t幀圖像的RMS可以被表示為vt,其中vt∈RN×H×W,具體計算過程由式(1)表示.
vt=∑t+1i=t-1∑Cj=1(Vji+1-Vji)22(1)
由式(1)求得圖像的RMS后,利用全局平均池化層和激活層對空間信息bt進行進一步提取,其中bt∈RN×1×H×W,計算過程如式(2)所示.通過這種方式,使MOE不僅可以有效提取運動邊界,同時還能對提取的運動邊界進行平滑與膨脹.
bt=ReLU(pool(vt))(2)
其次,對得到的bt進行歸一化處理,并將處理的歸一化數(shù)據(jù)進行掩碼提取,從而得到邊界清晰的運動區(qū)域mt.本文采用的歸一化方式是實例歸一化(Instance Normalization, IN)[18],IN可以進一步剔除圖像的全局信息進而凸顯個體差異.具體計算方法如式(3)~(5)所示.
μti=1HW∑Wl=1∑Hm=1xti,lm(3)
σ2ti=1HW∑Wl=1∑Hm=1xti,lm-μti2(4)
yti,jk=xii,jk-μtiσ2ti+ε(5)
然而在式(2)中提取的運動邊界仍然存在些許瑕疵,即圖像中包含了非主要運動目標的噪聲區(qū)域.除此之外,運動目標的特征值往往較大,在之后進行處理的過程中會出現(xiàn)亮度失常的情況.因此需要對歸一化后的bt的取值范圍進行約束,去除不必要噪聲并且避免亮度爆炸的問題,這些問題使得在之后對圖像特征進行提取的時候,特征質(zhì)量急劇下降從而導(dǎo)致較低的識別準確率.因此,為了解決上述問題,本文在歸一化操作之后引入閾值化操作,得到運動目標掩碼圖像mt∈RN×1×H×W,i∈RH×W,具體的閾值化過程如式(6)所示.
mti=0, bti<0
0.8, bti≥0(6)
得到掩碼mt后,將mt與Vt點乘并與Vt求和組成殘差結(jié)構(gòu)得到最后的運動目標強化輸出Y(t).MOE中之所以采用殘差方式來進行連接,是因為該方式不僅增強動態(tài)變化區(qū)域,還保留了視頻中的場景信息,這使得網(wǎng)絡(luò)被迫發(fā)現(xiàn)和獲取差異化信息的時間特征.具體過程如式(7)所示.
Yt=Vt+1+mt⊙Vt+1(7)
其中⊙代表了張量之間的哈瑪達積.
如圖3所示,模塊輸出Y(t)∈RN×3×H×W將應(yīng)該被予以關(guān)注的運動物體對應(yīng)的圖像區(qū)域進行凸顯.
2.2 時序特征提取網(wǎng)絡(luò)
ConvGRU在保持參數(shù)量較少的同時,可以對時序信息進行有效提取,被廣泛用于動作識別任務(wù).然而,隨著網(wǎng)絡(luò)深度的增加,淺層ConvGRU模塊通過幀圖像提取的隱藏層特征會隨著級聯(lián)層數(shù)的增加而逐漸被更新,在此過程中大部分淺層特征信息會丟失,但在動作識別領(lǐng)域中,淺層語義信息往往包含重要的信息,因此僅使用ConvGRU的識別網(wǎng)絡(luò)無法達到令人滿意的效果[16].為了緩解這個問題,本文將自注意力機制與ConvGRU相結(jié)合,提出了SA-ConvGRU模塊.自注意力機制的作用是從信號中學習特征的權(quán)重,使得網(wǎng)絡(luò)關(guān)注更重要的特征,從而保障后續(xù)分類的正確率,其早先被應(yīng)用于自然語言處理領(lǐng)域,隨后被廣泛應(yīng)用于圖像識別、圖像合成和視頻預(yù)測等領(lǐng)域,并取得良好效果.在SAM中,如圖4所示,記憶單元Mt能夠保存每一層中的部分特征,通過上一時刻的Mt-1與當前時刻的隱藏層輸出Ht進行自相關(guān)操作并配合更新門更新輸出H︿t與Mt,本文引入自注意力機制,使得SA-ConvGRU模塊的輸出H︿t能夠從Mt中獲取到淺層語義特征信息,從而緩解ConvGRU中淺層信息丟失的問題,并進而提升分類精度.
雖然SA-ConvGRU相較于ConvGRU可以對不同層級的特征進行學習,選擇對識別任務(wù)影響較大的特征賦予更多的關(guān)注,有效緩解了ConvGRU難以保留淺層語義信息的問題.但是該模塊并沒有建立不同時刻輸入的聯(lián)系,當前時刻的輸入和上一時刻的隱藏層狀態(tài)輸出是完全獨立的,忽略了上下文的關(guān)系,而這種關(guān)系對于處理時間步較長的數(shù)據(jù)是大有幫助的[13].為了更好地提取輸入與語境之間的相關(guān)信息,增強模塊對上下文的建模能力,本文將語境化模塊(Contextualization Block, CB)和自注意力機制模塊進行結(jié)合,提出CSA-ConvGRU,其整體結(jié)構(gòu)如圖5所示,包含了三個單元模塊:語境化模塊、ConvGRU和SAM.CSA-ConvGRU的整體更新遞推公式如下所示:
x^t,h^t-1=CBxt,ht-1(8)
ht=ConvGRUx^t,h^t-1(9)
h^t,Mt=SAMht,Mt-1(10)
在CB中,上下文關(guān)聯(lián)性是通過交互模式來提取的,具體公式如式(11)(12)所示.CB通過引入額外的門控運算,使得兩個輸入之間能進行計算交互,最終使得輸入xt與ht-1之間具有更加豐富的交互表示,從而提高ConvGRU模型的泛化能力與時序建模能力.
x^t=2×δWh*ht-1⊙xt(11)
h^t-1=2×δWx*x^t⊙ht-1(12)
ConvGRU根據(jù)當前時刻輸入、上一層的輸出與自身記憶單元中的信息來獲取時序特征,其框架圖如圖5所示,整體更新迭代計算過程如式(13)~(16)所示.張量rt和zt分別為重置門和更新門的輸出,rt控制CB模塊輸出h︿t-1進入更新門后的記憶單元ht中信息的數(shù)量.更新門的輸出zt決定當前的輸出狀態(tài)中需要分別包含多少上一時刻的隱藏層收集的信息和當前時刻記憶的內(nèi)容.
z^t=δWz*h^t-1,x^t(13)
r^t=δWf*h^t-1,x^t(14)
h~t=tanhWh*rt⊙h^t-1,x^t(15)
ht=1-zt⊙h^t-1+zt⊙h~t(16)
SAM通過引入Attention單元,使得輸出的當前時刻的隱藏狀態(tài)h︿t包含了當前的全局時空信息.整個單元的結(jié)構(gòu)圖如圖4所示,相關(guān)公式如式(17)~(23)所示.使用兩個注意力模塊將兩個輸入分別提取出其中的重要特征后進行拼接得到聚合特征Z.使用門控機制求得更新門門值it與更新值gt,通過這兩個值即能自適應(yīng)的更新記憶單元Mt與最后的輸出h︿t.
Ah=SoftMaxhTtWThqWThkht(17)
Am=SoftMaxMTt-1WThqWTmkMt-1(18)
Z=Wz*Whv*htAh,Wmv*Mt-1Am(19)
it=δWmi*Z,ht(20)
gt=tanhWmg*Z,ht(21)
Mt=1-it⊙Mt-1+it⊙gt(22)
h^t=δWmo*Z,ht⊙Mt(23)
3 實驗結(jié)果與分析
為了驗證本文提出的暴力檢測框架的有效性,本文使用兩個最新的數(shù)據(jù)集RWF-2000[19]和Real Life Violence Situations(RLVS)[20]進行多次實驗.實驗環(huán)境如下所示:Intel Xeon E3-1231 v3 CPU,Nvidia Geforce GTX1080 GPU,Ubuntu 20.04,PyTorch 1.9.0架構(gòu).
3.1 實驗數(shù)據(jù)集
RWF-2000數(shù)據(jù)集包含從YouTube收集的2000個經(jīng)過剪輯的監(jiān)控視頻.訓(xùn)練集包括1600個視頻,測試集包括400個視頻.該數(shù)據(jù)集中的視頻片段全部由實際場景中的安防攝像頭獲取,所以視頻具有場景豐富、人數(shù)眾多和光照復(fù)雜等特點,是目前最具挑戰(zhàn)性的暴力行為識別的數(shù)據(jù)集之一.
RLVS數(shù)據(jù)集由YouTube收集的監(jiān)控視頻和人為拍攝的共計2000個視頻經(jīng)過剪輯組成.訓(xùn)練集包括1600個視頻,測試集包括400個視頻.其中的暴力行為視頻是在監(jiān)獄、街道和學校等環(huán)境中拍攝的,而非暴力行為視頻是在運動場和競技場等環(huán)境中拍攝的,包括游泳、射箭及打籃球等項目.
3.2 相關(guān)參數(shù)設(shè)置
預(yù)處理:首先將數(shù)據(jù)集中的視頻樣本進行逐幀切割,每一個視頻段中包含38幀寸為224×224的幀圖像.對于訓(xùn)練數(shù)據(jù)而言,首先將輸入的視頻幀的尺寸擴展到256×256像素大小,隨后按照50%的概率對圖像進行隨機翻轉(zhuǎn),然后在圖像4個頂角和中心的5個位置上隨機剪裁224×224的像素格.最后使用ImageNet數(shù)據(jù)集中的均值與歸一化系數(shù)進行標準化操作.
相關(guān)參數(shù)設(shè)置:從預(yù)處理完后的視頻段以等差間隔的方式抽取30個視頻幀作為網(wǎng)絡(luò)輸入.在訓(xùn)練過程中使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet18模型提取視頻幀圖像特征,使用Adam優(yōu)化器和交叉熵損失函數(shù)對網(wǎng)絡(luò)進行優(yōu)化,優(yōu)化器中參數(shù)設(shè)置為:第一次估計的指數(shù)衰減率β1=0.5;第二次估計的指數(shù)衰次減率β2=0.99、權(quán)重衰減L2=5×e-4.初始學習率被設(shè)置為1×10-4,學習率衰減使用余弦退火衰減方法,其中余弦函數(shù)周期Tmax設(shè)置為64,總共迭代輪次被設(shè)置為150.
3.3 CNN主干網(wǎng)絡(luò)探索實驗
在RWF-2000數(shù)據(jù)集上,保證網(wǎng)絡(luò)另外兩個模塊不變的情況下使用三種主流神經(jīng)網(wǎng)絡(luò)模型進行測試,分別為AlexNet[21],VGG[22]和ResNet.實驗結(jié)果如表1所示.
通過實驗結(jié)果不難發(fā)現(xiàn),盡管在視頻幀預(yù)處理網(wǎng)絡(luò)中采用了MOE對運動邊界進行了增強,但是通過分析數(shù)據(jù)集視頻不難得知真實場景下的暴力沖突圖像場景往往十分復(fù)雜.由于AlexNet深度過淺并不能有效地提取出其中的特征信息,導(dǎo)致識別準確度不高.而Vgg網(wǎng)絡(luò)雖然有著足夠的深度能夠提取出深層抽象特征,但是Vgg16的模型大小已經(jīng)增加到25.45 M,并且模型訓(xùn)練時間較長收斂緩慢.考慮到模型大小和識別精度,本文采用ResNet18來提取幀圖像中的運動特征信息.殘差結(jié)構(gòu)可以有效避免梯度消失,同時在保證模型參數(shù)輕量的情況下?lián)碛凶銐虻木W(wǎng)絡(luò)深度提取出單幀圖像運動特征
3.4 消融實驗
為了驗證本文提出的MOE和CSA-ConvGRU 結(jié)構(gòu)在暴力行為檢測中的有效性和泛化性,在相同的實驗條件下,我們在RWF-2000數(shù)據(jù)集上對這兩個模塊的所有組合進行了消融實驗.從顯存占用情況、模型大小和識別準確率三個方面進行對比,其中顯存占用大小是在batch size為1的條件下檢測,實驗結(jié)果如表2所示,組合模型的訓(xùn)練和測試準確度的變化情況如圖6a~6c所示.
一方面,由于MOE使用了連續(xù)三幀的信息并進行了一系列的歸一化和閾值化操作,所以相較于將兩幀之差作為運動特征的幀差法能夠包含更精確和豐富的人體運動信息,從而在不引入額外參數(shù)的情況下有效地提高識別精度.從表2中可以發(fā)現(xiàn)MOE相比于簡單的幀差法在模型大小和顯存占用上并沒有明顯的增加,但是識別準確上升了2.25%.這也說明本文所提出的MOE能在不增加模型大小以及運算復(fù)雜度的基礎(chǔ)上顯著的提升識別精度.從圖6a和圖6c中可以看出添加了MOE的網(wǎng)絡(luò)在訓(xùn)練過程中收斂速度更快.這也從側(cè)面說明了MOE能夠有效地提取出人體運動邊界從而加快訓(xùn)練速度.
另一方面,添加了CB模塊和SAM的CSA-ConvGRU結(jié)構(gòu)相比于ConvLSTM結(jié)構(gòu)能夠獲得更多的上下文特征信息,并且更加關(guān)注視頻段中發(fā)生暴力沖突的片段,從而擁有了更多的關(guān)鍵且豐富的特征信息.如表2所示,CSA-ConvGRU模型大小與占用顯存幾乎與ConvLSTM持平,但是識別準確率大約提升了2.75%.圖6b和圖6c顯示出新的結(jié)構(gòu)在每次測試時均擁有更高的準確度.二者都說明了CSA-ConvGRU結(jié)構(gòu)的優(yōu)越性與泛化性.
3.5 與其他主流檢測方法對比
為了進一步驗證本文提出的模型的性能,我們分別在公開的暴力行為數(shù)據(jù)集RWF-2000和RLVS上進行訓(xùn)練和測試.數(shù)據(jù)集的稀缺極大程度阻礙了暴力檢測的相關(guān)研究.為了全面評估本文提出模型的識別能力,本節(jié)將所對比的方法分為兩類,分別是最新提出的暴力行為檢測方法和近年來提出的先進的通用動作識別方法.其中,暴力行為檢測方法包括Inception-Resnet-V2+DI[23]、Flow Gated[19]、SPIL[24]、X3D XS[25]、ECA-two cascade TSM[26]、SepConvLSTM-M[27]、SAM-GhostNet-ConvLSTM[6]和ViolenceNet OF[28].而通用動作識別方法包含C3D[8]、P3D[9]、TEA[29]、R(2+1)D[10]以及LRCN[12],所有方法的識別準確率在表3進行展示.
SAM-GhostNet-ConvLSTM是基于LRCN的改進模型,二者均使用了與本文模型類似的循環(huán)卷積神經(jīng)網(wǎng)絡(luò).LRCN方法在RWF-2000上的效果并不理想,主要原因是該網(wǎng)絡(luò)沒有對各幀圖像進行處理而是直接將其送入網(wǎng)絡(luò)中并僅采用簡單的LSTM提取時序特征,故時空特征中混入了大量的干擾信息,從而導(dǎo)致識別的準確率較低.SAM-GhostNet-ConvLSTM模型使用普通的幀差法對運動特征進行提取從而去除了無用的背景干擾,緩解LRCN中引入過多背景信息的問題.但是由于幀差法在復(fù)雜背景下的提取效果并不令人滿意,同時ConvLSTM模塊存在淺層語義信息丟失和無法利用上下文信息的問題,導(dǎo)致最后的識別準確率仍然無法令人滿意.相較于上述兩種方法,本文提出的MOE能夠加強視頻幀的運動特征,使CNN能夠更加有效地對運動主體的特征進行提取,并且CSA-ConvGRU單元可以更加有效地提取全局特征,可以緩解上述兩種方法中存在的問題.從結(jié)果來看,得益于MOE和CSA-ConvGRU單元有效建立不同幀間聯(lián)系并自動化地對不同層級特征進行關(guān)注,所提出的模型得到了顯著的效果提升,在兩個公開的暴力行為檢測數(shù)據(jù)集上均取得了最好的識別效果.
4 結(jié) 論
本文提出了一種時序邊界注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(TEAR-Net).該方法可以有效解決運動人體特征提取不足的難題,同時還使用具有語境化和注意力機制的CSA-ConvGRU結(jié)構(gòu)進一步增加模型對于輸入信息的上下文和全局特征的提取.所提出的TEAR-Net在RWF-2000和RLVS兩個基于真實場景下所收集的公開數(shù)據(jù)集上的識別精度可以達到90.50%和97.75%.實驗結(jié)果表明,相比于目前的暴力行為識別方法,TEAR-Net具有更高的識別率,能夠適應(yīng)監(jiān)控場景下的暴力行為檢測任務(wù).
參考文獻:
[1] Thys S, Van Ranst W, Goedemé T. Fooling automated surveillance cameras: adversarial patches to attack person detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Long Beach, CA, USA: IEEE, 2019.
[2] Vuran M C, AkanB, Akyildiz I F. Spatio-temporal correlation: theory and applications for wireless sensor networks [J].Comput? Netw, 2004, 45: 245.
[3] Wang H, Klser A, Schmid C, et al. Dense trajectories and motion boundary descriptors for action recognition [J]. Int J Comput Vis, 2013, 103: 60.
[4] 池濤, 王洋, 陳明.多層局部感知卷積神經(jīng)網(wǎng)絡(luò)的高光譜圖像分類[J]. 四川大學學報: 自然科學版,2020, 57: 103.
[5] 李頔, 王艷, 馬宗慶, 等.基于DenseASPP模型的超聲圖像分割[J]. 四川大學學報: 自然科學版,2020, 57: 741.
[6] Liang Q, Li Y, Yang K, et al. Long-term recurrent convolutional network violent behaviour recognition with attention mechanism [C]//MATEC Web of Conferences. Sanya, China:EDP Sciences, 2021, 336: 05013.
[7] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]. Adv? Condens Matter Phys, 2014, 27: 1.
[8] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015.
[9] Qiu Z, Yao T, Mei T. Learning spatio-temporal representation with pseudo-3d residual networks[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017.
[10] Tran D,Wang H, Torresani L, et al. A closer look at spatiotemporal convolutions for action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, Utah, USA: IEEE, 2018.
[11] Hochreiter S, Schmidhuber J. Long short-term memory [J].Neural Comput, 1997, 9: 1735.
[12] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA: IEEE, 2015.
[13] Melis G, Koisk T, Blunsom P. Mogrifier LSTM[EB/OL].[2022-01-03].https://arxiv.org/abs/1909.01792.
[14] Cho K, van Merrinboer B, Gulehre , et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: ACL, 2014.
[15] Shi X, Chen Z, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]//Advances In Neural Information Processing Systems. Montréal, CANADA: MIT Press, 2015.
[16] Lin Z, Li M, Zheng Z, et al. Self-attention convlstm for spatiotemporal prediction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. New York, USA: AAAI, 2020.
[17] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA: IEEE, 2016.
[18] Ulyanov D,Vedaldi A, Lempitsky V. Instance normalization: the missing ingredient for fast stylization[EB/OL].[2022-01-03].https://arxiv.org/abs/1607.08022.
[19] Cheng M, Cai K, Li M. Rwf-2000: An open large scale video database for violence detection [C]//Proceedings of the 25th International Conference on Pattern Recognition. Milan, Italy: IEEE, 2021.
[20] Soliman M M, Kamal M H, Nashed MAEM, et al. Violence recognition from videos using deep learning techniques [C]//Proceedings of the 2019 Ninth International Conference on Intelligent Computing and Information Systems. New York, USA: IEEE, 2019.
[21] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [J]. Commun ACM, 2017, 60: 84.
[22] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL].[2022-01-23].https://arxiv.org/abs/1409.1556.
[23] Jain A, Vishwakarma D K. Deep NeuralNet for violence detection using motion features from dynamic images[C]//Proceedings of the Third International Conference on Smart Systems and Inventive Technology. Tirunelveli, India: IEEE, 2020.
[24] Su Y, Lin G, Zhu J, et al. Human interaction learning on 3D skeleton point clouds for video violence recognition [C]//Proceedings of the European Conference on Computer Vision. Glasgow, UK: Springer, 2020.
[25] Santos F, Dures D, Marcondes F S, et al. Efficient violence detection using transfer learning [C]//Proceedings of the Practical Applications of Agents and Multi-Agent Systems. Salamanca, Spain: Spinger, 2021.
[26] Liang Q, Li Y, Chen B, et al. Violence behavior recognition of two-cascade temporal shift module with attention mechanism [J]. J Electron Imag, 2021, 30: 043009.
[27] Islam Z, Rukonuzzaman M, Ahmed R, et al. Efficient two-stream network for violence detection using separable convolutional LSTM [C]//International Joint Conference on Neural Networks. Shenzhen, China: IEEE, 2021.
[28] Rendón-Segador F J, lvarez-García J A, Enríquez F, et al. ViolenceNet: dense multi-head self-attention with bidirectional convolutional LSTM for detecting violence [J].Electronics, 2021, 10: 1601.
[29] Li Y, Ji B, Shi X, et al. Tea: Temporal excitation and aggregation for action recognition [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, Washington, USA: IEEE, 2020.