国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

封閉環(huán)境下暴力行為檢測

2021-07-03 03:52:16王怡明
現(xiàn)代計算機 2021年12期
關鍵詞:小管暴力行為卷積

王怡明

(四川大學計算機學院,成都610065)

0 引言

公共場所中的暴力行為會對公民安全和社會穩(wěn)定構成嚴重威脅?,F(xiàn)代城市公共場所中往往都有大量的監(jiān)控設備用于對突發(fā)事件的監(jiān)測,產(chǎn)生的龐大數(shù)據(jù)給監(jiān)察者帶來了巨大的壓力。因此,在監(jiān)控數(shù)據(jù)中自動檢測擾亂公共秩序的暴力事件并提示報警具有十分重要的意義。本文重點研究了監(jiān)控視頻中封閉環(huán)境下暴力行為檢測。

傳統(tǒng)方法的大致思路是根據(jù)專業(yè)知識從輸入數(shù)據(jù)中提取復雜的手工特征,然后用機器學習中的分類算法,如支持向量機(Support Vector Machine,SVM)、隨機森林(Random Forest,RF)等,對樣本進行分類。最初的做法[1]通過提取圖像中的血和火等特征并輔以音頻信號特征來檢測暴力行為??紤]到真實生活中暴力行為的多樣性以及音頻信息的缺失,研究者們提出了更加合理的特征來判斷暴力行為,例如劇烈運動所造成的模糊區(qū)域,連續(xù)兩幀之差或計算光流得到的運動區(qū)域等。同時也提出用時空興趣點(Space Time Interest Points,STIP)[10]、Motion Scale-Invariance Feature Trans?form(MoSIFT)[11]等來描述行為特征,進而對行為分類。在空間域提取興趣點的方法有很多,例如比較常見的角點檢測[2]。但空域中的興趣點只包含圖像中的空間信息,而沒有圖像的運動信息。Laptev 等人[3]將角點思想擴展到了時域,Dollár 等人[4]提出更完善的時空興趣點檢測方法,為更加準確識別行為提供了幫助。總的來說,傳統(tǒng)方法使用“手工”特征來描述行為。盡管在一些情況下使用這些特征進行檢測有較好的魯棒性,準確率也能達到較高的水平,但是大多需要大量計算,其效率也不高。

與傳統(tǒng)方法不同的是,深度學習方法可以直接作用于原始輸入數(shù)據(jù)并自動提取需要的特征,大大減小了各類任務的難度,也提高了性能和計算效率。在用深度學習解決行為識別問題上有一個重要的方法——3D 卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)[5-7]。與經(jīng)典的2D-CNN 不同的是,3D-CNN 的卷積核等算子都是三維的,它能在2D-CNN 的基礎上進一步獲取、整合數(shù)據(jù)的時間信息。其中一個經(jīng)典的網(wǎng)絡模型是C3D[7]。

然而,單純的行為識別并不能檢測出暴力行為發(fā)生的時空位置。受two-stage 目標識別算法[13]的啟發(fā),本文結合目標識別和行為識別算法,實現(xiàn)了暴力行為識別及定位。

1 算法實現(xiàn)

大部分的行為識別算法的輸入為一個視頻片段,然后通過相關算法計算得出結論(即輸入樣本的行為類型)。但是在實際生活中,視頻片段中所包含的往往是多人、多行為。例如視頻監(jiān)控的同一畫面中可能有人在打架,有人在旁邊圍觀,有人在行走、逃跑等。所以在實際的應用中,直接對輸入樣本進行分類的算法可能并沒有廣泛的實用性及實際需求的性能。此外,大部分算法只是給輸入的視頻片段一個行為分類的標簽,而沒有行為發(fā)生的具體時間和空間位置。本文將two-stage 目標檢測算法的思想擴展到暴力行為檢測任務上。檢測過程具體來說可以分為兩個階段,第一階段是采用目標識別算法作為區(qū)域推薦網(wǎng)絡,得出運動實例(即行為執(zhí)行者)在每一幀上的空間位置(即邊界框),將有限連續(xù)幀的所有邊界框按一定的關系組合起來成為多個可能發(fā)生行為的管道(tubes)。接下來就是第二階段,將從第一階段得到的行為管道(action tubes)分別映射到對應原圖(或者特征圖)上進行裁剪。裁剪后的圖像(或特征圖)經(jīng)過統(tǒng)一處理(resize 或RoI pool?ing 等操作)后根據(jù)不同行為管道依次送入3D-CNN 網(wǎng)絡進行分類。

本文介紹的暴力行為檢測方案的大致流程如圖1所示。通過結合目標識別和行為識別領域的算法,在提高識別準確率的情況下還能得到行為發(fā)生的時空位置。接下來將詳細介紹實驗方案以及使用到的具體算法。

圖1 算法流程

1.1 區(qū)域推薦模型

區(qū)域推薦模型的作用是獲取圖像中目標可能存在的位置。在本文中,我們希望用目標檢測模型來獲得每幀中人的位置,進而獲得一段時間內(nèi)運動實例的連續(xù)活動軌跡。

可用的目標檢測算法有很多,本文采用了一個成熟且高效的目標檢測模型——YOLOv3[9]。與上文中提到的two-stage 模型不同,YOLO 是one-stage,將目標檢測作為回歸問題來求解。其核心思想是將輸入圖像劃分成網(wǎng)格,直接在輸出層回歸出以各格點為中心物體的邊界框信息以及分類。由于計算流程更加簡單,使得YOLO 有較高的準確度的情況下以實時速度進行檢測。

本文任務是實現(xiàn)的是人類暴力行為檢測,因此本文中使用的YOLO 稍微不同于原始模型。本文中YO?LO 只檢測一個類別——人,并預測每幀中所有人所在的位置。此外,檢測對象相對固定,因此僅在最后兩不同的特征尺度下進行預測,使用的6 個先驗框(anchor boxes)同樣由K-means 類聚算法在數(shù)據(jù)集(描述于1.3小節(jié))上得到,兩個尺度分別分配3 個不同大小的先驗框。損失函數(shù)方面,對類別和置信度使用二值交叉熵損失,對位置信息使用smooth L1 損失。

1.2 行為分類模型

在深度學習領域,行為分類模型同樣有許多可以使用的方法,例如雙流網(wǎng)絡模型[12]和基于3D 卷積(3D convolution)[5-7]的神經(jīng)網(wǎng)絡模型等。雙流網(wǎng)絡模型綜合RGB 圖像的空間信息和光流圖像的時間信息來判斷樣本的運動類型。由于雙流網(wǎng)絡需要引入額外的光流計算,因此在本文中采用了另一種經(jīng)典的分類模型——3D-CNN。2D 卷積在圖像識別方面有非常好的效果,但是由于結構上的限制,它不能有效地提取時間維度的信息。3D 卷積采用的是三維的卷積核,所以更加適合視頻數(shù)據(jù)的處理,在擁有時間維度的視頻上能更合理地提取相關特征。

由于暴力行為檢測任務是一個二分類問題,因此我們選擇設計一個小型的網(wǎng)絡模型。本文的分類模型的網(wǎng)絡結構如圖2 所示。其中每個Conv_X 都包含一個卷積層、一個Batch Normalization(BN)層和一個Re?LU 非線性激活層。這里的模型結構大體與C3D[7]相同,并且輸入都是包含16 幀的視頻片段,分辨率為112×112。不同的是本文采用了全卷積的形式,用步長為2 的卷積層代替池化層。并且加入了BN 層來幫助加快收斂、消除了其他正則化形式的需要。AvgPool是平均池化層,Global 意思是全局平均池化。最后用一個全連接層(Full Connected layer,F(xiàn)C)得到預測結果,2 指的是兩個類別——暴力事件和正常事件。使用交叉熵作為訓練的損失函數(shù)。

表1 分類模型網(wǎng)絡結構

1.3 實現(xiàn)細節(jié)

首先將輸入視頻分成一系列的幀,逐幀送入?yún)^(qū)域推薦模型(YOLO)中。通過分析暴力行為的特征可發(fā)現(xiàn),這是一種群體行為,至少是兩個人的活動。所以在得到人的邊界框后,將同一幀中邊界框間的交并比(In?tersection over Union,IoU)和框中心點間的相對距離兩個指標都在一定閾值內(nèi)的框進行合并,得到一個個暴力行為可能發(fā)生的可疑區(qū)域。這種做法能幫助算法排除一些不可能發(fā)生暴力行為的區(qū)域,減少計算量。由于可疑區(qū)域包含的冗余信息更少,因此能幫助后續(xù)行為識別算法更準確地注意到暴力行為本身的特征而不是其他信息,使算法得到更精確的識別結果。

接下來就需要將不同幀中的區(qū)域按一定關系關聯(lián)起來構成行為管道。由于行為分類模型的輸入是包含16 幀的視頻片段,因此我們首先按時間順序依次獲取包含16 個區(qū)域的行為小管(action tubelet)。構建方法如下。初始化:在第一幀中,每個可疑區(qū)域都為起始區(qū)域開始構建不同的行為小管。鏈接:隨后幀中的可疑區(qū)域將按條件分配給現(xiàn)存的行為小管,條件為:①該區(qū)域未被分配,②該區(qū)域與現(xiàn)存小管的重疊度大于某一閾值,③該區(qū)域與某小管的重疊度大于與其他小管的重疊度。若可疑區(qū)域最終沒被分配將作為新的行為小管的開始。終止:若現(xiàn)存某一行為小管的長度達到16,則將終止擴展并取出。若現(xiàn)存某一行為小管的長度小于16 且沒有被分配新的區(qū)域,這個小管將被終止并拋棄。得到完整的行為小管后,需要把小管中所包含的區(qū)域映射回原始圖像或者特征圖上進行裁剪(在實驗中我們選擇映射到原始圖像)組成待分類的視頻樣本。由于小管中區(qū)域大小可能不一致,因此我們將小管中所有區(qū)域的位置和大小統(tǒng)一為能包含所有區(qū)域的最小區(qū)域。 假設裁剪出的視頻樣本尺寸為3×16×W×H,其中3 為圖像RGB 三個通道,W和H分別為區(qū)域的寬和高。視頻樣本將被統(tǒng)一調(diào)整大小至3×16×112×112,隨后送入行為分類模型進行分類。

監(jiān)控視頻的幀率往往在20~30 fps 之間,每幀都進行檢測是一項比較耗時和冗余的工作,并且經(jīng)過實驗發(fā)現(xiàn)這也不是必須的。為了減少計算量,增加行為識別所需要的時間信息,我們降低了檢測的采樣率,即讓幀序列不是全部進入?yún)^(qū)域推薦網(wǎng)絡,而是按一定的間隔(例如隔幀檢測)。

2 實驗及結果

暴力行為數(shù)據(jù)集是由我們邀請學生扮演,拍攝不同人群、不同角度下的暴力行為視頻集。最后通過手工標注暴力行為在視頻中的位置來得到完整的監(jiān)督信息。我們的數(shù)據(jù)集有381 段視頻,按照8:2 的比例劃分成訓練集和驗證集。為了增加數(shù)據(jù)多樣性,實驗中使用了常用的數(shù)據(jù)增強技術。具體來說,在微調(diào)目標檢測模型和訓練分類模型時,對輸入數(shù)據(jù)使用隨機翻轉、隨機尺度變化和隨機裁剪。注意,分類模型的輸入是圖片序列,因此尺度變化和裁剪的參數(shù)在同一個序列中應該是相同的。最后選擇學習率為10-4、權重衰減率為5×10-4的Adam 優(yōu)化器來訓練優(yōu)化模型。

實驗中采用上述方法對數(shù)據(jù)集中的驗證集進行檢測,結果如表2 所示,其中Frame-AP/Video-AP 表示幀級/視頻級平均查準率(Average Precision,AP),其IoU 閾值都是0.5。部分定性檢測結果如圖2 所示。此外,本文還從網(wǎng)絡上下載了一些打架模擬視頻進行檢測,其檢測結果說明了我們模型良好的泛化性。

圖2 部分檢測結果的展示

表2 實驗評價指標

第一行為我們數(shù)據(jù)集中的驗證樣本。第二行為網(wǎng)絡上獲取的監(jiān)控視頻。圖片左上角behavior 指的是此場景下行為的類型。紅色框為行為發(fā)生的空間位置,confidence 為判斷該位置為暴力事件的置信度。

3 結語

本文介紹了一個封閉環(huán)境下暴力行為檢測的方案,這個方案不僅能檢測到視頻中是否發(fā)生了指定的暴力行為,而且能對行為者進行時空定位。并且我們在模型和其他方面提出了一些減少計算的方法,最終實現(xiàn)了性能和速度均衡的實時檢測(即使在使用顯卡的筆記本電腦上)。此外,我們的方案還能很方便地擴展到時空行為檢測任務,只需要把3D-CNN 分類網(wǎng)絡從二分類擴展到多分類即可。但是本文所提出的方法也存在不足,例如復雜環(huán)境(人群密集)下的檢測、twostage 方案在時空行為檢測上帶來的弊端等。這些問題是接下來的工作。

猜你喜歡
小管暴力行為卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
引導隊員向完美進發(fā)
輔導員(2020年6期)2020-04-23 12:43:12
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
和你在安詳?shù)纳鐓^(qū)走一走
派出所工作(2018年4期)2018-09-10 06:40:58
基于傅里葉域卷積表示的目標跟蹤算法
3D打印腎臟近在咫尺
飛碟探索(2016年11期)2016-11-14 19:33:44
媒介分析:動畫暴力對兒童的影響
戲劇之家(2016年6期)2016-04-16 13:01:01
第一次遭遇家暴該怎么處理?
婦女生活(2015年6期)2015-07-13 06:17:20
一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
電視技術(2014年19期)2014-03-11 15:38:20
所暴力行為
海外英語(2013年5期)2013-08-27 09:39:15
玉屏| 湾仔区| 泰和县| 慈利县| 孟津县| 诸暨市| 易门县| 望城县| 宽甸| 和林格尔县| 清水县| 沁源县| 襄城县| 米泉市| 太仆寺旗| 仁寿县| 亚东县| 尉犁县| 加查县| 丘北县| 岐山县| 合水县| 桃园县| 同德县| 朝阳县| 新巴尔虎右旗| 常州市| 吉木萨尔县| 禄劝| 重庆市| 大余县| 绥德县| 临漳县| 扶沟县| 马龙县| 巴林左旗| 上思县| 曲靖市| 宜良县| 五华县| 社旗县|