曾 婷,黃東軍
(中南大學(xué) 計算機(jī)學(xué)院,長沙 410083)
當(dāng)今社會人口數(shù)量龐大,諸如恐怖襲擊、暴力搶劫、校園欺凌等各類社會矛盾時有發(fā)生,公共安全問題已經(jīng)成為了國家重點關(guān)注領(lǐng)域。為切實提高社會治理水平,各地增加了監(jiān)控攝像頭的數(shù)量,擴(kuò)大了監(jiān)控攝像頭的覆蓋面積,一個巨大的視頻監(jiān)控網(wǎng)絡(luò)正在形成,這就導(dǎo)致了視頻監(jiān)控數(shù)據(jù)的爆炸式增長。這必然對視頻監(jiān)控系統(tǒng)提出了新的要求,需要其從大量數(shù)據(jù)中獲取有用信息并智能化地進(jìn)行分析。
早期的模擬視頻監(jiān)控系統(tǒng)以及數(shù)字化視頻監(jiān)控系統(tǒng)僅僅提供了一些簡單的功能模塊,例如視頻捕獲、視頻存儲等[1],它難以實現(xiàn)異常事件的事前預(yù)警,這意味著監(jiān)控視頻數(shù)據(jù)只能用于事發(fā)時的記錄和事發(fā)后的審計回放。對于數(shù)據(jù)的分析與查找,需要依靠人工來進(jìn)行。由于人類無法24小時不間斷地對視頻數(shù)據(jù)進(jìn)行甄別篩選,在工作中難免會出現(xiàn)漏看、誤判的情況,既浪費了大量人力資源,也不利于在黃金時間進(jìn)行案件分析與處理。
為了解決上述問題,許多研究人員轉(zhuǎn)向智能監(jiān)控系統(tǒng)的研究。國外研究起步較早,1997年,卡內(nèi)基梅隆大學(xué)以及其他幾個高校一起參與了(visual surveillance and monitoring,VSAM)項目的研發(fā)[2],VSAM系統(tǒng)主要用于戰(zhàn)地的實時監(jiān)控以及信息采集,它對視頻進(jìn)行自動化解析并且利用分布式監(jiān)控網(wǎng)絡(luò)對復(fù)雜環(huán)境中單人的行為進(jìn)行識別與持續(xù)監(jiān)控,從而有利于指揮中心對戰(zhàn)地情況實時分析并快速做出決策。IBM與馬里蘭大學(xué)開發(fā)的W4[3]實現(xiàn)了對人物以及其行為的實時監(jiān)控,能夠有效地識別出個體的異常情況。2004年,針對機(jī)場的安保問題,法國國家信息與自動化研究所(INRIA,institute national de recherche en information et en automatique)與雷丁大學(xué)共同開展了機(jī)場智能監(jiān)控項目AVITRACK[4],它可以進(jìn)行異常行為預(yù)警。2005年,萬國商業(yè)機(jī)器公司(IBM,international business machines corporation)研發(fā)了智能監(jiān)控系統(tǒng)S3[5],通過聯(lián)合硬件、軟件以及服務(wù),S3可以對監(jiān)控視頻序列中的關(guān)鍵信息進(jìn)行提取并分析,從而實現(xiàn)了對異常事件的實時預(yù)警。
雖然起步較晚,但是國內(nèi)各界對智能監(jiān)控系統(tǒng)的研究也取得了顯著的成果。2008年北京奧運會期間,我國采用了中國科學(xué)院研發(fā)的實時智能視頻監(jiān)控預(yù)警系統(tǒng)[6]來對各個場景,尤其是鳥巢區(qū)域,進(jìn)行24小時人流監(jiān)控和智能分析,實現(xiàn)對異常事件進(jìn)行實時預(yù)警的作用。后續(xù)地,北京地鐵13號線也應(yīng)用了這個系統(tǒng),對監(jiān)控范圍內(nèi)的可疑人員進(jìn)行跟蹤,幫助安保人員抓獲竊賊,大大提高了公共安全。香港中文大學(xué)利用集體理論估計集體動作,從而實現(xiàn)對視頻中異常動作的檢測[7]。為了加強(qiáng)城市的治安管理,2013年深圳市貝爾信智能系統(tǒng)有限公司研發(fā)了智能視頻分析系統(tǒng),該系統(tǒng)能在不同天氣環(huán)境下對人員入侵、徘徊、丟包、消失等行為進(jìn)行報警[8]。西北工業(yè)大學(xué)所研發(fā)的Great Wall系統(tǒng)可以對復(fù)雜環(huán)境中的運動目標(biāo)進(jìn)行檢測、識別、跟蹤以及行為分析等[9]。
由于異常行為與正常行為之間的界限沒有統(tǒng)一的標(biāo)準(zhǔn),不同場景下,正常行為與異常行為可以相互轉(zhuǎn)化,例如:商場踢球?qū)儆诋惓P袨?,但操場踢球?qū)儆谡P袨椤D壳拜^多關(guān)于異常行為檢測的研究是基于特定場景來展開的,如銀行、電梯、高速公路、旅游景區(qū)等等。檢測異常行為一般來說包括3個功能模塊:1)分離前景與背景,檢測運動目標(biāo);2)對目標(biāo)進(jìn)行特征提取,表示運動行為;3)利用異常檢測算法對行為進(jìn)行判別。基本流程如圖1所示。
圖1 智能視頻系統(tǒng)異常行為檢測基本流程
本文針對性地分析異常檢測算法模塊,將現(xiàn)有的異常行為檢測算法進(jìn)行歸類總結(jié)并對比。具體安排如下:第一節(jié)引言部分對國內(nèi)外研發(fā)的智能監(jiān)控系統(tǒng)進(jìn)行簡要介紹;第二節(jié)根據(jù)異常行為檢測算法依據(jù)的不同分別從能量、推斷、重構(gòu)、推理、深度學(xué)習(xí)幾個方面對相關(guān)研究成果進(jìn)行梳理并對比分析;第三節(jié)分析目前異常行為檢測所面臨的挑戰(zhàn),同時針對性地提出方案;最后進(jìn)行總結(jié)。
目前已經(jīng)有了許多種針對異常行為檢測的算法,根據(jù)劃分準(zhǔn)則的不同,可以有不同的分類方法。本文根據(jù)異常行為檢測算法依據(jù)的不同,將其分為能量法、聚類法、重構(gòu)法、推斷法以及深度學(xué)習(xí)法,其各自的依據(jù)、可行技術(shù)方向以及特點如表1所示。以下各個小節(jié)分別詳細(xì)介紹各個類別的檢測算法。
表1 異常行為檢測算法比較
利用能量進(jìn)行異常行為檢測的算法認(rèn)為運動會產(chǎn)生相應(yīng)的能量,可以在利用速度等相關(guān)運動特征計算出該運動所對應(yīng)的能量后,直接通過給定的閾值來判斷該運動行為是否屬于異常行為。特征提取通常提取的是運動速度、運動方向、運動加速度等,可以通過獲取Harris角等手段來進(jìn)行,當(dāng)對象是人群時,還可以提取人群密度。跟蹤特征經(jīng)常利用光流技術(shù)來實現(xiàn),常見的有KLT特征跟蹤器。通過特征跟蹤可以得到用于描述運動的矢量場,從而構(gòu)建合適的能量模型用于判斷,基本流程如圖2所示。
圖2 能量法異常行為檢測算法基本流程
目前使用動能作為判斷依據(jù)的算法較多。文獻(xiàn)[10]中,作者提出一種方法來估計一組感興趣點的突然變化和異常運動變化,但它只考慮了運動特征的變化,如方向和運動幅度,而忽略了群體運動幅度的總值,并且其定義的方向直方圖峰值在大多數(shù)人群場景中很難得到。文獻(xiàn)[11]中,作者定義了基于動能的人群能量,并且通過對能量進(jìn)行小波分析來實現(xiàn)異常行為檢測,但其忽略了運動方向信息?;谖墨I(xiàn)[10]以及文獻(xiàn)[11],文獻(xiàn)[12]提出了一種基于光流來估計運動方向以及動能的方法,該方法認(rèn)為運動變化是由兩個相鄰幀之間目標(biāo)動能的變化導(dǎo)致的,作者結(jié)合人群密度定義群體動能,同時為了更好地利用運動方向信息,其利用運動方向熵定義了標(biāo)準(zhǔn)化互信息(NMI),低NMI表示兩向量場相似性高,即運動方向變化小,高NMI意味著方向相似性較低。因此最終基于運動方向與運動幅值一致性觀點來檢測異常行為。文獻(xiàn)[13]同樣將熵的概念運用于場景理解,作者根據(jù)前景像素分布概率定義人群熵,并結(jié)合人群密度定義人群分布指數(shù)CDI,最終通過群體動能判斷行為是否異常。
考慮到個體相互影響,段晶晶[14]等人通過綜合考量群體運動程度、運動方向以及個體相對位置3個方面,構(gòu)建了群體KOD能量特征,并結(jié)合隱馬爾科夫模型進(jìn)行群體異常檢測。為了更好地研究運動特征,王喬等人[15]針對諸如跑步、打斗等異常行為提出了異常行為整體能量觀點,他將行為發(fā)生者的個體能量以及雙方的交互能量進(jìn)行整合構(gòu)成整體能量。
上述文獻(xiàn)僅僅考慮物體運動時的動能來構(gòu)建能量模型,而Xiong等人[16]將能量進(jìn)一步劃分為動能和勢能,從圖像勢能模型中得到人群密度的估計,并且通過X軸和Y軸上所建立得前景直方圖的概率分布來定義人群分布指數(shù)表示分散度,結(jié)合人群密度和人群分布基于閾值分析來進(jìn)行異常檢測,但該方法只能對特定行為:跑步以及聚集進(jìn)行檢測。
能量法異常行為檢測算法對于分析人群整體的運動情況效果較好,但是由于擁擠情況下個體之間相互遮擋,所以單獨分析個體的運動情況相對困難。
利用聚類進(jìn)行異常行為檢測的算法認(rèn)為給定一個特征空間,正常行為與異常行為是可以區(qū)分的,且異常行為樣本點與正常行為樣本簇之間明顯存在離群分界性。
圖3 聚類法異常行為檢測算法基本思路
Wang 等人[17]為了計算不同尺寸時空立方體之間的相似性,設(shè)計了一種由兩層樹構(gòu)成的碼本數(shù)據(jù)結(jié)構(gòu),第一層根據(jù)長度對立方體分類,第二層使用K-Means對不同類別立方體進(jìn)行聚類,基于給定的閾值利用LDA(latent dirichlet allocation)模型進(jìn)行異常檢測,此方法需要預(yù)先知道立方體類別的個數(shù),只適用于某一類型的數(shù)據(jù)。文獻(xiàn)[18]從微觀角度描述個體運動,并進(jìn)行MeanShift聚類,從介觀角度描述團(tuán)體運動,最后根據(jù)聚類中心在特征空間中所屬的區(qū)域進(jìn)行正?;虍惓P袨榕袛啵摲椒ú灰箢A(yù)先知道類別個數(shù),但其結(jié)果過分依賴于帶寬的設(shè)置。
為了適應(yīng)類別未知的行為,一些研究使用在線聚類的方法,例如,文獻(xiàn)[19]對視頻進(jìn)行密集采樣,構(gòu)建STVs(spatio-temporal video volumes)并進(jìn)行分組,使用機(jī)器人框架來近似區(qū)域STVs之間的組合關(guān)系并使用在線模糊聚類跟蹤主導(dǎo)時空活動,從而檢測異常行為。文獻(xiàn)[20]中,作者對運動區(qū)域進(jìn)行KLT角點提取,并通過光流法獲得運動矢量,針對塊內(nèi)各個運動矢量利用高斯分布來計算塊運動模式。然后,利用在線聚類方法對各個運動模式進(jìn)行聚類,將后續(xù)未歸類模式劃分成正常類和異常類。由于該方法是基于角點提取與光流法相結(jié)合來進(jìn)行的,它容易受到光照、相機(jī)角度、相機(jī)位置的影響。
目前也有不少利用針對軌跡進(jìn)行聚類的算法,例如,胡智輝[21]利用密度峰聚類算法聚類船舶軌跡,并通過掃描線獲得典型軌跡,進(jìn)而計算偏差閾值,最后利用該閾值進(jìn)行船舶行為是否異常的判定。另外基于半徑[22]、蟻群[23]、k中心點[24]等聚類手段同樣可以用于異常行為檢測[25]。
利用重構(gòu)進(jìn)行異常行為檢測的算法認(rèn)為正常行為之間的關(guān)聯(lián)性較強(qiáng),一個正常行為通??梢詷?gòu)建字典來進(jìn)行重構(gòu),基本框架如圖4所示。
圖4 重構(gòu)法異常行為檢測基本框架
Zhao[26]等人通過稀疏編碼的視頻來學(xué)習(xí)基本字典,并以在線方式對字典進(jìn)行更新。在已知字典D的情況下,為每個查詢事件學(xué)習(xí)重構(gòu)權(quán)重向量,通過目標(biāo)函數(shù)值與給定閾值的比較結(jié)果判斷待測事件是否異常。
Chen等人[27]提出了一種基于增量稀疏組合學(xué)習(xí)的時空上下文感知異常事件檢測方法,該方法利用后到達(dá)的視頻數(shù)據(jù),以增量方式在線更新學(xué)習(xí)模型。徐志通等人[28]通過運動軌跡構(gòu)造正常行為字典,并對稀疏重構(gòu)的軌跡以及幅值方向直方圖熵加權(quán)處理,進(jìn)而檢測異常行為。
除了可以通過上述文獻(xiàn)所使用的稀疏矩陣來進(jìn)行重構(gòu),還可以利用低秩矩陣來實現(xiàn)。文獻(xiàn)[29]利用低秩矩陣近似法計算出訓(xùn)練數(shù)據(jù)的具有代表性的運動子空間,然后計算測試數(shù)據(jù)的運動矩陣并進(jìn)行代表性子空間的低階近似,通過近似誤差與用戶定義的閾值來判斷是否異常。Wen等人[30]提出了一種用于檢測異常的自適應(yīng)級聯(lián)字典學(xué)習(xí)框架,該框架將異常檢測視為具有級聯(lián)詞典的一類分類問題,級聯(lián)的每個階段構(gòu)造自適應(yīng)字典以使用無成本最小二乘優(yōu)化解來檢測異常。
重構(gòu)法的關(guān)鍵在于構(gòu)建合適的字典,字典的質(zhì)量大大地影響檢測的效果。
利用推斷進(jìn)行異常檢測的算法是一種數(shù)據(jù)變化規(guī)律的理解問題,由于行為數(shù)據(jù)不斷變化,此類算法需要理解其中的變化規(guī)律,從而判定行為是否異常。Gao等人[31]通過構(gòu)建視頻單元的運動特征向量并對其使用高斯混合模型來學(xué)習(xí)正常行為,同時計算待測行為正常水平的概率,最終利用概率值來判斷行為是否異常。
目前,大多數(shù)推斷型異常行為檢測是基于隱馬爾可夫模型來進(jìn)行的。文獻(xiàn)[32]提出了一種分層上下文隱馬爾可夫模型(HC-HMM),用于護(hù)理中心視頻流的行為理解,從而實現(xiàn)老年人日常行為異常的監(jiān)測。文獻(xiàn)[33]提出了隱馬爾可夫主題模型以及主題隱馬爾可夫?qū)哟文P蛠磉M(jìn)行場景中的行為聚類,并基于累積的測度在線判斷行為的異常性。文獻(xiàn)[34]通過訓(xùn)練分布式隱馬爾可夫模型來捕捉極其擁擠的場景中的穩(wěn)態(tài)時間運動關(guān)系,并將這些時間信息納入置信度度量,從而使得能夠檢測具有異常時間轉(zhuǎn)換的運動模式。文獻(xiàn)[35]通過描述運動行為的數(shù)據(jù)對場景建模,并利用隱馬爾可夫模型生成離群值數(shù)據(jù)來模擬異常情況,從而建立運動行為模型,最后使用基于人群密度信息和運動行為的統(tǒng)計相似性匹配最適當(dāng)?shù)哪P瓦M(jìn)行異常檢測。
此外,還可以基于貝葉斯網(wǎng)絡(luò)進(jìn)行異常檢測。文獻(xiàn)[36]將視頻分割成播放中斷序列并從每個播放中斷序列中提取若干特征,然后使用貝葉斯網(wǎng)絡(luò)檢測相關(guān)事件。
由于隱馬爾科夫模型相對于貝葉斯網(wǎng)絡(luò)更適合于時間序列數(shù)據(jù),故其在異常行為檢測上的應(yīng)用更加廣泛。
隨著深度學(xué)習(xí)在計算機(jī)視覺領(lǐng)域不斷發(fā)展,一些學(xué)者開始利用深度學(xué)習(xí)進(jìn)行異常行為檢測。文獻(xiàn)[37]將多步的全局特征及局部特征結(jié)合用于分類并使用卷積稀疏編碼的方法來預(yù)先訓(xùn)練每個階段的濾波器,從而進(jìn)行行人檢測,其取得了比較好的檢測效果。為了解決傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型只能處理2D輸入的問題,Ji等人[38]提出了3D CNN模型,其通過在卷積神經(jīng)網(wǎng)絡(luò)的卷積層進(jìn)行3D卷積來捕獲沿空間維度和時間維度的判別特征,進(jìn)而獲得相鄰幀之間的運動信息。
由于上述算法是有監(jiān)督地進(jìn)行學(xué)習(xí),在學(xué)習(xí)過程中需要大量的帶有標(biāo)簽的樣本數(shù)據(jù),這無疑會導(dǎo)致復(fù)雜度增加,故此一些學(xué)者轉(zhuǎn)向研究無監(jiān)督式深度學(xué)習(xí)算法。
自編碼網(wǎng)絡(luò)是一種無監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò),它采用的是反向傳播方式,其目標(biāo)是學(xué)習(xí)一個函數(shù)使得目標(biāo)值與輸入值盡可能相等,結(jié)構(gòu)如圖5所示。
圖5 自編碼網(wǎng)絡(luò)結(jié)構(gòu)圖
部分研究基于自編碼網(wǎng)絡(luò)來進(jìn)行。例如,Xu 等人[39]基于去噪自編碼網(wǎng)絡(luò)進(jìn)行圖像重構(gòu),提取運動和外觀特征,并利用多個單類SVM進(jìn)行分類,最后將外觀分?jǐn)?shù)以及運動分?jǐn)?shù)的結(jié)合視為最終異常分?jǐn)?shù),該算法能有效地檢測出異常行為并進(jìn)行標(biāo)記,
另一種無監(jiān)督式學(xué)習(xí)網(wǎng)絡(luò)是限制波爾茲曼機(jī)[40],輸入數(shù)據(jù)構(gòu)成該網(wǎng)絡(luò)的可見層的神經(jīng)元,隱藏層h與可見層v之間通過權(quán)值矩陣W相連,同時,隱藏層各神經(jīng)元以及可見層各神經(jīng)元有其對應(yīng)的偏置量bi,ai,該網(wǎng)絡(luò)通過條件概率不斷進(jìn)行調(diào)參優(yōu)化,尋找?guī)缀跖c輸入相等的隱藏層,其結(jié)構(gòu)如圖6所示。
圖6 限制波爾茲曼機(jī)結(jié)構(gòu)圖
文獻(xiàn)[41]使用條件限制波爾茲曼機(jī)來建模多種類型的人體運動。后續(xù)地,Le等人[42],Pei等人[43]設(shè)計了基于波爾茲曼機(jī)的深度學(xué)習(xí)網(wǎng)絡(luò)用于學(xué)習(xí)時空特征,進(jìn)而實現(xiàn)動作識別。
當(dāng)然,其他的深度學(xué)習(xí)網(wǎng)絡(luò)也可以應(yīng)用于異常行為檢測。Fang等人[44]將多尺度直方圖光流和顯著性信息結(jié)合到視頻幀的時空特征中并采用PCANet來提取異常事件檢測的高級特征。Mohammad等[45]首次提出將FCNN應(yīng)用于異常行為檢測,其將預(yù)先訓(xùn)練的分類CNN應(yīng)用于一個FCN中,以產(chǎn)生同時描述運動和形狀的視頻區(qū)域,并提出一種新的FCN結(jié)構(gòu),用于時間有效的異常檢測和定位。
基于深度學(xué)習(xí)的異常檢測算法數(shù)據(jù)表達(dá)能力強(qiáng),是未來智能視頻監(jiān)控系統(tǒng)中進(jìn)行場景理解的可行研究方向之一。但其也存在著模型較為復(fù)雜、計算成本較高以及優(yōu)化相對困難等問題,這些都是未來需要解決的。
目前用于視頻異常行為檢測最常用的數(shù)據(jù)集大體分為兩類,一類用于個體異常行為檢測,如UCSD、BEHAVE、CAVIAR、UCF-Crime、Avenue等;另一類用于群體異常行為檢測,如UMN。
UCSD包括Ped1和Ped2兩個部分,Ped1用于監(jiān)控垂直方向人行道上的行為,共包括70個視頻序列,其中34個全部為正常行為,用于訓(xùn)練,另外36個包含異常行為的視頻序列用于測試,由于攝像機(jī)固定,人群行為的縱向變化會存在透視畸變;Ped2用于監(jiān)控水平方向人行道上的行為,共包括28個視頻序列,其中16個全部為正常行為,用于訓(xùn)練,另外12個包含異常行為的視頻序列用于測試;UCSD數(shù)據(jù)集中包含的異常行為有:騎自行車、滑冰、開車、輪椅,侵入草地等等。
BEHAVE數(shù)據(jù)集是由斜向下方向視角攝像機(jī)拍攝完成,包括4個視頻短片,共11個視頻序列內(nèi)容為多人交互行為,包括:打斗、并行、并跑、追逐、靠近、遠(yuǎn)離等。
CAVIAR數(shù)據(jù)集包括INRIA Labs入口以及里斯本購物商場走廊兩個場景下的監(jiān)控視頻,分辨率為384×288像素,每秒25幀,其中包含的行為有:步行、閑逛徘徊、昏倒、丟包、并行、分離、打架、進(jìn)出商場等。
UCF-Crime數(shù)據(jù)集包含1 900個監(jiān)控視頻,總計時長有128個小時,其對于異常行為進(jìn)行了詳細(xì)的分類,如縱火、攻擊、搶劫、虐待、爆炸、槍擊、虐待等,共有13種,故部分研究人員使用該數(shù)據(jù)集進(jìn)行行為識別。
Avenue數(shù)據(jù)集包含37個視頻片段,共有30 562幀,其中16個用于訓(xùn)練,其中包含的行為皆為正常行為,另外21個用于測試,包含了奔跑,投擲、方向錯誤以及異常物體等異常樣本。但該數(shù)據(jù)集存在相機(jī)抖動、正常模式較少等挑戰(zhàn)。
UMN數(shù)據(jù)集由草地、廣場、室內(nèi)走廊3個場景下的監(jiān)控視頻組成,共包含11個視頻片段,每個視頻前面部分為正常行為,后面部分為人群同向奔跑或人群逃散等異常行為,視頻對異常幀進(jìn)行幀級標(biāo)注,由于該數(shù)據(jù)集人群密度較大,遮擋相對嚴(yán)重,故其多用于群體異常行為檢測。
上述公開數(shù)據(jù)集對比見表2。
表2 異常行為檢測常用數(shù)據(jù)集對比
由表2可以看出,目前用于群體異常事件的數(shù)據(jù)集較少,更多的公開數(shù)據(jù)集是用于低密度人群或單人行為的檢測與識別。
國內(nèi)外對于智能監(jiān)控系統(tǒng)中異常行為檢測算法的研究已經(jīng)有很多年,學(xué)者們不斷地設(shè)計出更優(yōu)化的算法,但是仍然面臨著如下挑戰(zhàn)。
1)目標(biāo)遮擋問題亟待解決:
對場景中的目標(biāo)進(jìn)行異常行為檢測時經(jīng)常會出現(xiàn)遮擋問題,這是計算機(jī)視覺領(lǐng)域場景理解的一大難題。遮擋問題分為兩類,一類是非目標(biāo)物體遮擋目標(biāo)物體,例如石頭,花草、電線桿等障礙物;另一類是人群密度較大時目標(biāo)物體之間的相互遮擋,例如廣場、車站、電梯廂等地方。任何一類遮擋問題都將導(dǎo)致運動目標(biāo)的行為不能被準(zhǔn)確地觀察并理解,尤其是密集人群中的個體運動。
2)異常檢測模型尚不具有普適性:
由于人群場景中可能存在成千上萬種行為,幾乎不可能對每一種行為都進(jìn)行定義,尤其是那些缺乏異常的視頻數(shù)據(jù)使得這一問題更加明顯,所以只能將各種行為大致劃分為正常群組以及異常群組。但是異常行為與正常行為之間的界限沒有統(tǒng)一的標(biāo)準(zhǔn),不同場景下,同一行為可能被認(rèn)為是異常行為,也有可能被認(rèn)為是正常行為,故而研究出具有普適性的異常行為檢測模型是必要的。
3)如何去除場景多樣性帶來的干擾:
天氣、光照等因素是產(chǎn)生場景多樣性的重要原因,同樣不同位置、不同角度的攝像頭也會導(dǎo)致場景多樣化,從而產(chǎn)生干擾。如何去除場景多樣性帶來的噪聲是提高異常行為檢測準(zhǔn)確率的基礎(chǔ)與重要環(huán)節(jié)。
根據(jù)現(xiàn)有算法以及所面臨的挑戰(zhàn),我們認(rèn)為:
針對場景多樣性問題,可以利用深度學(xué)習(xí)模型強(qiáng)大的學(xué)習(xí)能力盡可能的將多個場景中的數(shù)據(jù)一并輸入并進(jìn)行訓(xùn)練,構(gòu)建一個能適應(yīng)多場景的學(xué)習(xí)模型。
針對密集人群中目標(biāo)遮擋問題,由于場景結(jié)構(gòu)力模型可以用于分析密集人群中的局部運動,從整體運動情況間接地推斷個體運動情況,而社會力模型可以分析群體中的個體情況,我們可以基于這兩種模型進(jìn)行設(shè)計,稀疏場景采用社會力模型,稠密場景采用結(jié)構(gòu)力模型。
針對檢測模型不具有普適性問題,我們可以建立場景模型庫,根據(jù)當(dāng)前場景主體事件在線推斷適用于當(dāng)前場景的模型再進(jìn)行后續(xù)處理。
智能監(jiān)控系統(tǒng)可以應(yīng)用在眾多領(lǐng)域,尤其是安防領(lǐng)域?qū)σ恍┲匾獔龊希纾恒y行、車站、電梯、機(jī)場等,進(jìn)行異常行為檢測與跟蹤,從而智能化的進(jìn)行預(yù)警等操作。本文綜述了智能視頻監(jiān)控系統(tǒng)異常行為檢測的研究發(fā)展現(xiàn)狀,對比不同檢測算法并根據(jù)現(xiàn)有文獻(xiàn)總結(jié)了其可采用的技術(shù)分支,同時也分析了目前異常行為檢測研究中所面臨的挑戰(zhàn),對于未來算法的設(shè)計,提供了思路。我相信隨著異常行為檢測技術(shù)的不斷發(fā)展,未來智能視頻監(jiān)控系統(tǒng)將會實現(xiàn)魯棒性更好的算法在多個不同場景中的應(yīng)用。