胡正平,張 樂,李淑芳,趙夢瑤
(1. 燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2. 燕山大學(xué) 河北省信息傳輸與信號處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
在智能化深入普及和公共安全被高度重視的今天,人們對于智能視頻監(jiān)控系統(tǒng)尤其是具有實(shí)現(xiàn)實(shí)時(shí)性視頻大數(shù)據(jù)處理能力智能監(jiān)控系統(tǒng)需求日益增長,視頻異常檢測技術(shù)也持續(xù)成為視覺計(jì)算研究熱點(diǎn)。
視頻監(jiān)控系統(tǒng)異常目標(biāo)檢測與定位問題實(shí)際上可以看作特殊視頻序列中目標(biāo)檢測問題或是特殊視頻序列中行為識別問題,先前研究人員所提出算法更傾向于將這一問題作為特殊行為識別問題來解決,例如Radu Tudor Ionescu等人將視頻序列均勻分割為10×10時(shí)空塊,對時(shí)空塊進(jìn)行特征提取并采用一階支持向量機(jī)實(shí)現(xiàn)異常目標(biāo)檢測和定位[1]。該方法對整個(gè)視頻序列進(jìn)行處理,計(jì)算量較為龐大的同時(shí)引入噪聲,影響異常目標(biāo)準(zhǔn)確判別。更多異常檢測方法采用均勻分割和光流結(jié)合方法對視頻序列進(jìn)行時(shí)空興趣塊提取,僅對時(shí)空興趣塊進(jìn)行處理從而完成視頻異常檢測任務(wù),例如,Zhou Shifu等人將整個(gè)視頻的時(shí)空興趣塊直接輸入三維卷積神經(jīng)網(wǎng)絡(luò)(3D ConvNets,C3D)進(jìn)行特征學(xué)習(xí),解決視頻異常行為檢測和定位問題[2]。類似的Sabokrou Mohammad等人采用級聯(lián)三維神經(jīng)網(wǎng)絡(luò)方法,由三維自動編碼器檢測出時(shí)空興趣塊送入C3D中進(jìn)行訓(xùn)練完成視頻異??焖贆z測和定位[3]??紤]到監(jiān)控?cái)z像頭往往以俯瞰方式拍攝監(jiān)控視頻,距離攝像頭較近物體在監(jiān)控畫面中處于靠下位置并占據(jù)較大面積,而距離攝像頭較遠(yuǎn)物體以較小面積處于視頻畫面中靠上位置。研究人員采用非均勻分割及光流結(jié)合方法對視頻序列進(jìn)行前景提取,更大程度上保證每個(gè)興趣塊中包含更少種類更多信息[4]。盡管非均勻細(xì)胞分割已在較大程度上提高定位和識別準(zhǔn)確率,然而在現(xiàn)實(shí)分塊時(shí)往往難以保證將每個(gè)行為完整分割到不同時(shí)空興趣塊中或是每個(gè)時(shí)空興趣塊中僅包含一種行為,同時(shí),這種分步式方法較費(fèi)時(shí)繁瑣,不適用于實(shí)際場景運(yùn)用。Mahdyar Ravanbakhsh等人在不對視頻序列進(jìn)行分割情況下,通過生成式對抗網(wǎng)絡(luò)(Generative Adversarial Nets, GAN)中生成模型和判別模型之間博弈實(shí)現(xiàn)監(jiān)控視頻中端對端無監(jiān)督異常行為檢測與定位。采用生成式對抗網(wǎng)絡(luò)對正常場景幀圖像和對應(yīng)光流圖訓(xùn)練得到場景正常行為內(nèi)部表示,并在測試階段將測試數(shù)據(jù)外觀表示和運(yùn)動表示與正常數(shù)據(jù)進(jìn)行比較,由于異常區(qū)域無論是外觀表示或是運(yùn)動表示都異于正常數(shù)據(jù),因此通過計(jì)算局部符合程度可以檢測出異常區(qū)域[5]。本文將異常檢測任務(wù)看作特殊目標(biāo)檢測任務(wù)進(jìn)行處理,采用目標(biāo)檢測方法實(shí)現(xiàn)端對端視頻監(jiān)控異常目標(biāo)檢測與定位。
深度學(xué)習(xí)不僅提高了普通二維圖像分類問題的準(zhǔn)確率,也為目標(biāo)檢測領(lǐng)域提供新思路和方法。研究人員提出基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Networks,R-CNN)目標(biāo)檢測方法大大提高了目標(biāo)檢測精度,該方法先采用選擇性搜索獲取候選區(qū)域,然后對每個(gè)候選區(qū)域采用深度卷積網(wǎng)絡(luò)進(jìn)行特征提取并進(jìn)行SVM分類,從而得到一個(gè)初始檢測結(jié)果,最后再次使用深度卷積網(wǎng)絡(luò)特征結(jié)合SVM回歸模型得到更精確邊界框[6]。基于R-CNN,研究者提出快速R-CNN(Fast R-CNN),該方法不再對候選區(qū)域進(jìn)行卷積而是對整個(gè)圖像進(jìn)行卷積,通過一個(gè)雙任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)候選區(qū)域分類和邊界框擬合同步完成,該方法訓(xùn)練、測試時(shí)間是R-CNN的1/9[7]。R-CNN和Fast R-CNN都是采用選擇搜索獲得候選區(qū)域。因此,研究人員提出更快速R-CNN(Faster R-CNN)直接通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)候選區(qū)域生成,該方法由兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)組成,即:區(qū)域候選生成網(wǎng)絡(luò)(Region Proposal Network, RPN)及實(shí)現(xiàn)候選區(qū)域分類和邊框回歸的Fast R-CNN,F(xiàn)aster R-CNN與Fast R-CNN相比將訓(xùn)練和測試時(shí)間縮短近10倍[8]。盡管R-CNN、Fast R-CNN以及Faster R-CNN將目標(biāo)檢測精度和速度提高到新水平,然而這幾種方法都是單獨(dú)實(shí)現(xiàn)候選區(qū)域生成,使得目標(biāo)檢測過程較為繁瑣和費(fèi)時(shí)。針對這一問題,研究人員提出YOLO(You Only Look Once),該方法摒棄生成候選區(qū)域中間步驟,將輸入圖像用均勻網(wǎng)格劃分并在每個(gè)網(wǎng)格單元預(yù)測邊界框,并通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)邊界框回歸以及類別預(yù)測,真正意義上實(shí)現(xiàn)判定識別一步式完成[9]。YOLO精簡目標(biāo)檢測流程,在測試圖像時(shí)可實(shí)現(xiàn)每秒45幀,相比之前方法速度有很大提升,但是YOLO邊界框預(yù)測局限性較大,每個(gè)單元格僅可預(yù)測兩個(gè)邊界框一個(gè)判別類別。此外,由于YOLO采用多層卷積后的高級特征完成目標(biāo)識別,因此檢測精度不夠理想,尤其是對于小目標(biāo)檢測。為此,文獻(xiàn)[10]融合YOLO和Faster R-CNN目標(biāo)檢測思路,提出單次多目標(biāo)檢測(Single Shot multibox Detector, SSD),該算法引入預(yù)測卷積濾波器,在不同6個(gè)特征圖上使用2組3×3卷積核分別做分類和邊界框回歸,同時(shí)允許從卷積神經(jīng)網(wǎng)絡(luò)不同特征層進(jìn)行檢測結(jié)果預(yù)測,小目標(biāo)可由底層特征層實(shí)現(xiàn)預(yù)測,而較大目標(biāo)可由高層特征層進(jìn)行預(yù)測,如此可適應(yīng)不同大小目標(biāo)檢測要求。
本文期望采用目標(biāo)檢測思路解決視頻監(jiān)控系統(tǒng)中異常目標(biāo)檢測與定位問題,提出端對端SSD實(shí)時(shí)視頻監(jiān)控異常目標(biāo)檢測與定位算法,使用遷移學(xué)習(xí)訓(xùn)練方法,對輸入視頻幀進(jìn)行單一卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,同步實(shí)現(xiàn)特征學(xué)習(xí)、行為分類以及異常目標(biāo)定位。
當(dāng)采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)時(shí),不同卷積層可得到不同尺寸特征圖,一般來說,底層特征圖對于邊緣信息更為敏感,可提供較為豐富細(xì)節(jié)信息,而高層特征圖可提供較為豐富的語義信息,對于監(jiān)控視頻異常目標(biāo)檢測來說,異常目標(biāo)種類多樣,若使用多尺度特征在多種特征圖上進(jìn)行預(yù)測理論上可獲得更好的檢測效果。如圖1所示,為更準(zhǔn)確地對不同尺寸異常目標(biāo)進(jìn)行檢測,本文使用SSD算法,在6個(gè)卷積特征圖中采用3×3的卷積核進(jìn)行異常目標(biāo)檢測:conv4_3,conv7,conv8_2,conv9_2,conv10_2以及conv11_2。以圖1中Conv4_3為例,分類器:Conv:3×3×(4×(類別+4))表示采用3×3卷積核設(shè)置目標(biāo)預(yù)選框,其中3×3表示卷積核大小,第一個(gè)4表示本特征圖中每個(gè)像素點(diǎn)生成4個(gè)預(yù)選框(6表示本特征圖中每個(gè)像素點(diǎn)生成6個(gè)預(yù)選框),第二個(gè)4表示預(yù)測框4個(gè)坐標(biāo)。本文算法網(wǎng)絡(luò)框圖如圖1所示,在傳統(tǒng)VGG-16網(wǎng)絡(luò)基礎(chǔ)上,將原先全連接層fc6和fc7層改為卷積層,同時(shí)刪除全連接層fc8以及所有Dropout層,并將Pool5從2×2池化改為3×3池化,分別在Conv7、Conv8_2、Conv9_2卷積層特征圖上對每個(gè)像素點(diǎn)構(gòu)造6個(gè)尺寸不同的預(yù)測邊界框,分別在Conv4_3、Conv10_2、Conv11_2層卷積層特征圖上對每個(gè)像素點(diǎn)構(gòu)造4個(gè)尺寸不同的預(yù)測邊界框,然后根據(jù)置信度得到其類別與置信度,且過濾掉屬于背景的預(yù)測框,對置信度小于閾值0.5的預(yù)測框進(jìn)行濾除,并對剩下的預(yù)測框進(jìn)行原視頻幀映射,以獲得預(yù)測框真實(shí)的位置信息,再對置信度降序排列,并保留部分預(yù)測框進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS),遍歷消除重疊及不準(zhǔn)確邊界框,得到最終異常目標(biāo)檢測結(jié)果。
在進(jìn)行訓(xùn)練時(shí),需在先驗(yàn)框和真實(shí)標(biāo)簽框之間實(shí)現(xiàn)匹配,為表述方便,這里將先驗(yàn)坐標(biāo)框稱為源框,并將能夠與真實(shí)標(biāo)簽框相匹配的源框認(rèn)作正樣本,其余認(rèn)作負(fù)樣本。SSD訓(xùn)練匹配策略采用兩種匹配方法,雙向匹配和預(yù)測匹配。雙向匹配是將每個(gè)真實(shí)標(biāo)簽框和與它有最大交并比(Intersection Over Union,IOU)的源框相匹配,這種方法確保每個(gè)真實(shí)標(biāo)簽框僅與一源框匹配。在進(jìn)行預(yù)測匹配時(shí),首先進(jìn)行雙向匹配,對于沒有進(jìn)行匹配的源框,將它們與任意真實(shí)標(biāo)簽框嘗試匹配,若二者IOU值大于閾值(本文閾值設(shè)置為0.5),視為二者相匹配。預(yù)測匹配可為每個(gè)真實(shí)標(biāo)簽框生成更多正樣本先驗(yàn)匹配,從而使網(wǎng)絡(luò)具備預(yù)測多個(gè)重疊目標(biāo)預(yù)選框高置信度能力。在進(jìn)行匹配時(shí),將源框視為不可知類,即并不考慮源框真實(shí)類別,并在匹配后,將匹配到的真實(shí)標(biāo)簽保留,用于置信損失計(jì)算。
顯然,匹配之后負(fù)樣本數(shù)量會遠(yuǎn)多于正樣本,訓(xùn)練時(shí)會存在網(wǎng)絡(luò)過于重視負(fù)樣本問題,從而導(dǎo)致?lián)p失不夠穩(wěn)定,因此,采用難負(fù)樣本挖掘方法,將目標(biāo)候選框按照置信度得分進(jìn)行排序,并挑選得分較高預(yù)選框進(jìn)行訓(xùn)練將負(fù)樣本和正樣本比例調(diào)整在3∶1左右,以達(dá)到更好訓(xùn)練結(jié)果。
目標(biāo)預(yù)選框是在不同特征圖上施加一組(4~6個(gè))特定大小、具有不同縱橫比和尺寸邊界框,圖2中給出8×8網(wǎng)格特征圖和4×4網(wǎng)格特征圖目標(biāo)預(yù)選框示例。本方法采用基礎(chǔ)特征(1×1)預(yù)測每個(gè)目標(biāo)預(yù)選框偏移量Δ(x1,y1,x2,y2)及對所有類別置信度(c1,c2,…,cp)。在訓(xùn)練階段,將先驗(yàn)框(源框)與真實(shí)標(biāo)簽框進(jìn)行匹配,如圖2所示,將目標(biāo)預(yù)選框與騎自行車和小車相匹配,一個(gè)被認(rèn)作正樣本,一個(gè)被認(rèn)作負(fù)樣本,然后,通過對定位損失和置信損失加權(quán)計(jì)算得到最終損失,并將誤差反向傳播。
SSD中預(yù)選框生成是以特征圖中每個(gè)像素中點(diǎn)為中心,生成一系列同心預(yù)選框,并將這些預(yù)選框從特征圖位置映射回原輸入視頻幀位置。若使用m個(gè)不同大小特征圖進(jìn)行預(yù)測預(yù)選框時(shí),fk表示第k個(gè)特征圖大小,其中k∈[1,m],則每個(gè)特征圖預(yù)選框邊長為
(1)
(2)
(3)
其中,αr表示縱橫比,且αr∈{1,2,3,1/2,1/3}。當(dāng)縱橫比αr為1時(shí),預(yù)選框大小為
(4)
即總共有6種不同預(yù)選框,預(yù)選框生成規(guī)則示例圖如圖2所示。若M×N特征圖中每一像素點(diǎn)需預(yù)測q個(gè)目標(biāo)預(yù)選框,且每個(gè)目標(biāo)預(yù)選框需預(yù)測M×N×K個(gè)類別置信度及4(或6)個(gè)偏移量,則此特征圖共預(yù)測M×N×K個(gè)目標(biāo)預(yù)選框,且共有(q+4)M×N×K(或(q+6)M×N×K)個(gè)輸出。本文所采用網(wǎng)絡(luò)結(jié)構(gòu)分別在卷積層Conv4_3、Conv7_2(fc7)、Conv8_2、Conv9_2、Conv10_2、Conv11_2特征圖上進(jìn)行異常目標(biāo)檢測,其中Conv7_2(fc7)、Conv8_2、Conv9_2進(jìn)行目標(biāo)預(yù)選框生成時(shí)每個(gè)像素點(diǎn)預(yù)測6個(gè)邊界框,即生成6個(gè)偏移量,其余三層生成4個(gè)。因此在這6個(gè)卷積層特征圖上分別獲得38×38×4=5 776、19×19×6=2 116、10×10×6=600、5×5×6=150、3×3×4=36、1×1×4=4個(gè)目標(biāo)預(yù)選框,整個(gè)網(wǎng)絡(luò)共獲得5 576+2 116+600+150+36+4=8 732個(gè)目標(biāo)預(yù)選框。
L(x,c,l,g)=Lconf(x,c)+αLloc(x,l,g),
(5)
其中,α為0.06,定位偏移損失Lloc為預(yù)測框坐標(biāo)與真實(shí)標(biāo)簽框坐標(biāo)之間l2范數(shù):
(6)
本文算法采用多類邏輯損失作為類別置信度損失Lconf,其適用于每個(gè)類別相互獨(dú)立但互不排斥的情況,可由下式計(jì)算:
(7)
本文在多個(gè)卷積層特征圖上進(jìn)行異常目標(biāo)檢測與定位,會出現(xiàn)大量重疊或定位不準(zhǔn)確邊界框,采用設(shè)置IOU閾值方法可以濾除部分邊界框,然而閾值過大會丟失部分檢測目標(biāo)產(chǎn)生目標(biāo)漏檢情況,閾值過小無法有效濾除重疊邊界框。也就是說,僅依靠設(shè)置IOU閾值無法達(dá)到較為理想邊界框過濾效果,因此采用非極大值抑制方法進(jìn)行迭代優(yōu)化以濾除IOU閾值方法無法濾除的邊界框。
非極大值抑制通過置信度得分對局部最大值進(jìn)行搜索,從而抑制非極大值。非極大值抑制過程如圖3所示,首先將所有邊界框按照置信度得分進(jìn)行排序,并選取其中得分最高邊界框,然后遍歷其余邊界框,計(jì)算當(dāng)前被遍歷框與當(dāng)前得分最高框之間IOU值,示意圖見圖4,其定義式為
(8)
該值表示邊界框和真實(shí)標(biāo)簽框重疊度,若IOU大于某一閾值,則將當(dāng)前被遍歷框抑制,再從未處理框中重新選擇新得分最高框,如此迭代、遍歷、消除。IOU值越大表示異常檢測越準(zhǔn)確,且IOU≤1,IOU值是邊界框A與真實(shí)標(biāo)簽框B重疊面積占兩者并集面積比值,即
(9)
本方法采用遷移學(xué)習(xí)方法進(jìn)行訓(xùn)練,在已有模型的基礎(chǔ)上進(jìn)行新數(shù)據(jù)的訓(xùn)練,在進(jìn)行匹配時(shí),由已有模型的權(quán)重對新數(shù)據(jù)中的目標(biāo)進(jìn)行預(yù)選框生成從而和源框進(jìn)行匹配,與重新進(jìn)行訓(xùn)練相比,這種在已有模型進(jìn)行訓(xùn)練的方法能夠節(jié)約標(biāo)簽標(biāo)注時(shí)間和精力,比隨機(jī)生成的權(quán)重能夠在更短的時(shí)間內(nèi)得到更好的訓(xùn)練效果。首次模型訓(xùn)練時(shí),遷移學(xué)習(xí)模型采用官方提供的預(yù)訓(xùn)練模型VGG_ILSVRC_16_layer_fc_reduced.caffemodel,之后采用首次訓(xùn)練得到的模型進(jìn)行遷移學(xué)習(xí)訓(xùn)練。實(shí)驗(yàn)從UCSDPed1數(shù)據(jù)集14 000個(gè)視頻幀中手動選取1 400幀進(jìn)行標(biāo)簽標(biāo)注,其中500幀用于網(wǎng)絡(luò)測試,900幀用于網(wǎng)絡(luò)訓(xùn)練,同時(shí)從UCSDPed2數(shù)據(jù)集4 560個(gè)視頻幀中手動選取1 020幀用于網(wǎng)絡(luò)訓(xùn)練,630幀用于網(wǎng)絡(luò)測試。該方法能夠保證通過較少訓(xùn)練數(shù)據(jù)達(dá)到適應(yīng)性較強(qiáng)較為準(zhǔn)確的異常目標(biāo)檢測與定位效果。由于對單個(gè)行人進(jìn)行正常樣本標(biāo)注會導(dǎo)致正常樣本數(shù)量遠(yuǎn)遠(yuǎn)大于異常樣本,導(dǎo)致數(shù)據(jù)失衡從而無法得到較為有效異常檢測效果,因此,本文對整個(gè)人群運(yùn)動區(qū)域進(jìn)行標(biāo)注,在進(jìn)行網(wǎng)絡(luò)訓(xùn)練時(shí),采用包括水平翻轉(zhuǎn)、剪裁、放大在內(nèi)多種數(shù)據(jù)增強(qiáng)方法,增加訓(xùn)練樣本個(gè)數(shù)的同時(shí)構(gòu)造多種形狀大小的正常和異常目標(biāo),增加算法特征學(xué)習(xí)魯棒性。
為評估異常檢測有效性,本算法在行人數(shù)據(jù)集UCSD上采用不同評估準(zhǔn)則與多種算法進(jìn)行效果對比。
UCSD數(shù)據(jù)集包括兩個(gè)子集Ped1和Ped2,分辨率分別為158×238、360×240,Ped1中包含34個(gè)用于訓(xùn)練的正常視頻序列及36個(gè)用于測試含有異常的視頻序列,每個(gè)視頻序列幀長為200。Ped2包含16個(gè)用于訓(xùn)練的正常視頻序列和12個(gè)用于測試的包含異常的視頻序列,每個(gè)序列幀長120到170不等。UCSD數(shù)據(jù)集中訓(xùn)練樣本只含正常行為即正常的行人,測試集中的某一幀中可能不存在、存在一個(gè)或多個(gè)異常行為,其中異常類型主要有:自行車、滑板、小型汽車,輪椅等。Ped1中的物體分辨率較低給識別造成一定的難度而Ped2中的遮擋問題比較嚴(yán)重,因此,UCSD是一個(gè)具有挑戰(zhàn)性的擁擠場景下局部異常數(shù)據(jù)集。
實(shí)驗(yàn)采用的異常檢測評估標(biāo)準(zhǔn)是受試者工作特征( Receiver Operating Characteristic, ROC)曲線、曲線下的等誤差率(Equal Error Rate, EER)和曲線下的面積(Area Under Curve, AUC)。EER是ROC曲線上假陽性率(False Positive Rate, FPR)與假陰性率(False Negative Rate, FNR)相等的點(diǎn)即ROC曲線與ROC空間中對角線([0,1]-[1,0]連線)的交點(diǎn)。ROC曲線下EER越小AUC越大,表明算法性能越好?;赗OC曲線的評估標(biāo)準(zhǔn)分為3個(gè)級別:幀級準(zhǔn)則,像素級準(zhǔn)則及雙像素級準(zhǔn)則。幀級準(zhǔn)則中,若檢測出某一幀至少含有一個(gè)異常行為則記為異常幀。像素級準(zhǔn)則中,若某一幀中所有真實(shí)異常行為所在像素塊的40%以上被正確檢測到,則視為異常幀。雙像素級準(zhǔn)則中若某幀被視為異常幀需滿足:①此幀滿足像素級準(zhǔn)則標(biāo)準(zhǔn);②被檢測為異常的區(qū)域至少β%(本文采用10%)真實(shí)標(biāo)簽為異常[10]。這一準(zhǔn)則不僅要求在時(shí)間和空間上對異常進(jìn)行準(zhǔn)確的檢測和定位,對于假陽性錯(cuò)判也十分敏感。
在UCSDPed2中異常檢測效果如圖5所示,在UCSDPed1中異常檢測效果如圖6所示,其中框的左上角顯示normal表示運(yùn)動活動區(qū)域,顯示abnormal表示異常所在位置,由圖可見,本文算法對于UCSD數(shù)據(jù)集中的自行車、小型汽車、滑板等異常目標(biāo)皆能做出較為準(zhǔn)確的異常檢測,同時(shí)得到的異常目標(biāo)邊界框較傳統(tǒng)的分塊方法如S-TCNN[2]更為適應(yīng),定位也更為精準(zhǔn)。
幀級與像素級準(zhǔn)則下對UCSD 數(shù)據(jù)集中異常檢測效果同已有優(yōu)秀方法比較如表1所示,Ped1中幀級準(zhǔn)則EER為26.88%,與同樣滿足實(shí)時(shí)性異常檢測的Binary Feature[17]相比僅落后1.54%,而在更嚴(yán)格的像素級準(zhǔn)則下EER為30.21%,優(yōu)于Binary Feature[17]17.89%,表明本算法在實(shí)現(xiàn)異常目標(biāo)實(shí)時(shí)性檢測與定位的同時(shí)能夠?qū)崿F(xiàn)較為準(zhǔn)確的檢測。Ped2中幀級準(zhǔn)則下,EER僅落后Cascade DNN[3]3.6%,優(yōu)于GAN[5]0.0381,像素級準(zhǔn)則下EER為13.81%,分別優(yōu)于OCELM[13]3.19%,優(yōu)于Cascade DNN[3]5.19%,AUC為0.897 2優(yōu)于S-T CNN[2]0.037 2,優(yōu)于OCELM[13]0.096 2,顯然本方法與近幾年經(jīng)典方法相比檢測效果同樣具有優(yōu)越性。在Ped2幀級和像素級準(zhǔn)則下,本算法與滿足實(shí)時(shí)性檢測的Binary Feature[17]方法相比,檢測效果具有明顯的優(yōu)越性,表明本方法對于視頻幀畫面更為清晰,異常目標(biāo)尺寸更大且人群走向?yàn)樗椒较虻腜ed2視頻場景能夠?qū)崿F(xiàn)實(shí)時(shí)性、較為準(zhǔn)確的異常目標(biāo)檢測及定位。
表1 UCSD中幀級和像素級EER、AUC比較Tab.1 EER and AUC for frame and pixel level comparisons on UCSD
雙像素準(zhǔn)則下,實(shí)驗(yàn)效果比較如表2所示。Ped1中EER是31.1%,落后Cascade DNN[3]6.6%,在Ped2中EER是14.09%,優(yōu)于Cascade DNN[3]9.71%,優(yōu)于Mohammad Sabokrou[11]13.41%,表明本方法在準(zhǔn)確檢測出異常行為的同時(shí)對正常行為誤判概率也較低。
本算法在不同準(zhǔn)則下ROC曲線圖如圖7所示,由圖明顯得出,本算法在Ped2中的效果優(yōu)于Ped1,原因有以下幾點(diǎn): 1) Ped 2中幀圖像尺寸更大,像素更高,目標(biāo)尺寸也相對更大,對于特征學(xué)習(xí)更有利;2) Ped 2與Ped 1場景中人群走向不同,相對來說Ped 2中人群水平移動對于目標(biāo)學(xué)習(xí)更有利;3) Ped 1中異常情況較Ped 2更為復(fù)雜,在進(jìn)行訓(xùn)練時(shí)對于異常目標(biāo)學(xué)習(xí)困難更大。
表2 UCSD Ped1、Ped2中雙像素級EER比較Tab.2 EER for dual pixel level comparisons on UCSD Ped1 and Ped2
本算法在UCSD數(shù)據(jù)集中實(shí)時(shí)性對比如表3所示,SSD算法在訓(xùn)練時(shí)統(tǒng)一處理輸入視頻幀為299×299,因此本算法在UCSDPed1和Ped2中實(shí)時(shí)性效果一致,每秒可處理58幀視頻,即每幀視頻處理時(shí)間為0.017秒,實(shí)時(shí)性能力較其他算法具有明顯優(yōu)越性。本方法在Ped1中像素級準(zhǔn)則下檢測效果優(yōu)于MDT[19],CFS[15],Binary Feature[17],OCELM[13],實(shí)時(shí)性較以上方法也具有優(yōu)越性,在Ped2幀級及像素級準(zhǔn)則下檢測效果皆優(yōu)于MDT[19],S-TCNN[2],C-DNN[3],CFS[15],Binary Feature[17],OCELM[13],且實(shí)時(shí)性也具有明顯優(yōu)越性。因此,本方法在滿足實(shí)時(shí)性檢測的同時(shí)能夠?qū)崿F(xiàn)較為準(zhǔn)確的監(jiān)控視頻異常目標(biāo)檢測與定位。
表3 UCSD數(shù)據(jù)集運(yùn)行時(shí)間比較
本文提出端對端SSD實(shí)時(shí)監(jiān)控視頻異常目標(biāo)檢測與定位算法,借鑒目標(biāo)檢測思路,實(shí)現(xiàn)復(fù)雜場景下端對端實(shí)時(shí)視頻異常檢測。算法不再單獨(dú)使用RPN網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測,而是在不同6個(gè)卷積特征圖上采用2組3×3卷積核實(shí)現(xiàn)異常分類和異常目標(biāo)定位。這種從CNN不同特征層進(jìn)行異常目標(biāo)檢測和定位方法,不僅簡化異常目標(biāo)檢測流程,節(jié)約異常檢測時(shí)間,同時(shí)從不同尺度對目標(biāo)進(jìn)行學(xué)習(xí)可適應(yīng)不同大小目標(biāo)檢測要求。最后采用非極大值抑制方法對于大量存在重疊邊界框進(jìn)行有效剔除,得到異常目標(biāo)在視頻幀中的準(zhǔn)確定位,該算法每幀可處理近58幀視頻,滿足異常檢測實(shí)時(shí)性需求。