崔斌(浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院)
視覺(jué)采集系統(tǒng)已經(jīng)在各類(lèi)經(jīng)濟(jì)場(chǎng)景中逐步普及。歸納起來(lái)主要有三類(lèi)應(yīng)用,首先是各類(lèi)展館、會(huì)議中心,其中各類(lèi)論壇、講座頻繁舉行。第二是各類(lèi)市場(chǎng)經(jīng)營(yíng)場(chǎng)所,交易人群眾多,人流量大。第三是伴隨著智能家居、智能辦公的推進(jìn),各類(lèi)視頻采集設(shè)備進(jìn)入千家萬(wàn)戶(hù)和辦公場(chǎng)所。當(dāng)前大部分場(chǎng)景下,還是停留在視覺(jué)信息采集和存儲(chǔ)上,很難實(shí)現(xiàn)實(shí)時(shí)監(jiān)控異常行為并進(jìn)行處置。伴隨著CNN(卷積神經(jīng)網(wǎng)絡(luò))、LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))及深度學(xué)習(xí)建模等技術(shù)的發(fā)展,目前已經(jīng)具備了對(duì)異常行為提取、識(shí)別、學(xué)習(xí)及利用的條件,可以對(duì)視頻監(jiān)控畫(huà)面中出現(xiàn)的異常行為,如非安全時(shí)段進(jìn)入、進(jìn)入限制區(qū)域、人員跌倒、人員高速移動(dòng)等行為進(jìn)行檢測(cè),進(jìn)而對(duì)危險(xiǎn)行為進(jìn)行預(yù)警,同時(shí)便于進(jìn)行事后的回溯。
(一)深度學(xué)習(xí)技術(shù)
隨著近年來(lái)計(jì)算能力和計(jì)算資源的飛速發(fā)展,計(jì)算及數(shù)據(jù)存儲(chǔ)的成本大大降低,網(wǎng)絡(luò)基礎(chǔ)設(shè)施的不斷改善,也為萬(wàn)物互聯(lián)及高速數(shù)據(jù)傳輸提供了必要的條件。通過(guò)對(duì)問(wèn)題特診的抽象總結(jié),建立深度學(xué)習(xí)模型,進(jìn)而提出問(wèn)題解決方案方興未艾,尤其是在圖像識(shí)別,智能家居、自動(dòng)駕駛等領(lǐng)域,已經(jīng)進(jìn)行了較多的有益嘗試。深度學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)模型,將原始信息進(jìn)行抽象及逐層分解,進(jìn)而表示為分類(lèi)及回歸,以及其他更高層的特征描述。
在視覺(jué)識(shí)別領(lǐng)域,對(duì)捕捉到的視頻行為進(jìn)行比較及分類(lèi)一直以來(lái)都比較困難。最初采用的是單標(biāo)簽分類(lèi)法,即某一段視頻只會(huì)標(biāo)注一個(gè)標(biāo)簽,如攀爬、跳躍、行走等。隨著技術(shù)的發(fā)展,目前較多的采用多標(biāo)簽的技術(shù),同時(shí)可以添加時(shí)序、場(chǎng)景等維度,從而將視頻進(jìn)行多維度,細(xì)化的分類(lèi)。同時(shí)由于一些異常事件的相關(guān)的樣本較少,即小概率事件樣本的采集及數(shù)據(jù)積累比較困難,需要逐步建立起異常行為數(shù)據(jù)樣本庫(kù)。
(二)CNN(卷積神經(jīng)網(wǎng)絡(luò))
1998 年,LeCun 等人[1]提出了名為 LeNet-5 的首個(gè)卷積神經(jīng)網(wǎng)絡(luò)(Convoluted Neural Network,CNN)模型,這個(gè)模型涵蓋了全連接層、池化層和卷積層,該模型主要應(yīng)用于從原始數(shù)據(jù)中進(jìn)行提取事務(wù)特征的場(chǎng)景。隨著深度學(xué)習(xí)應(yīng)用領(lǐng)域的不斷拓展,CNN 成為了該領(lǐng)域使用范圍最廣、相關(guān)支持廠(chǎng)家較多的一種研究模型。Two-Stream CNN 方法[2]最早是 VGG 團(tuán)隊(duì)在 NIPS 上提出來(lái)的,現(xiàn)在已經(jīng)成為了動(dòng)作識(shí)別方面研究的一個(gè)主流方向。Two-Stream CNN方法如其名字一樣由兩部分組成,第一部分用于圖像處理,第二部分負(fù)責(zé)處理光流信息,最后將兩個(gè)部分進(jìn)行整合、分類(lèi)并存儲(chǔ)。
在雙流CNN 基礎(chǔ)上,后期又提出了TSN(Temporal Segments Networks),此方法是雙流CNN 的改進(jìn)。TSN 的策略是將視頻信息分成 K 個(gè)分段,然后對(duì)這K 個(gè)分段的每個(gè)分段都隨機(jī)的選出一個(gè)更短的片段,對(duì)這些更短的片段,采用雙流CNN 的策略進(jìn)行特征提取,最后再對(duì)這些片段上采集的信息進(jìn)行進(jìn)一步的融合,進(jìn)而提高視頻識(shí)別的準(zhǔn)確性。
(三)LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))
隨著技術(shù)的發(fā)展,Hochreiter[3]等人提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)技術(shù)。LSTM 是一種特殊的 RNNs,相對(duì)于 RNNs 不會(huì)有梯度消失的問(wèn)題,它能夠?qū)W習(xí)長(zhǎng)期依賴(lài)。經(jīng)過(guò)相關(guān)研究者的不斷努力,該技術(shù)變得越來(lái)越成熟。通過(guò)特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,解決對(duì)時(shí)間序列的依賴(lài)問(wèn)題。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)由遺忘門(mén)、傳入門(mén)、輸出門(mén)組成,可以擬合序列數(shù)據(jù),通過(guò)遺忘門(mén)和輸出門(mén)忘記部分信息來(lái)解決梯度消失的問(wèn)題[4]。
LSTM 非常適合處理與時(shí)間序列高度相關(guān)的問(wèn)題,它可以方便的對(duì)視頻中的短時(shí)間和長(zhǎng)時(shí)間信息進(jìn)行模擬,但是也存在缺點(diǎn),即對(duì)未來(lái)信息未能處理,只能從單一方向?qū)W習(xí)。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)對(duì)傳統(tǒng)的LSTM 進(jìn)行了改進(jìn),捕獲了相關(guān)信息的發(fā)生時(shí)間,從時(shí)間點(diǎn)前后進(jìn)行了信息的捕獲,模擬相反方向的信息,具有更強(qiáng)的針對(duì)時(shí)序信息的處理能力。
(四)三維卷積及行為預(yù)測(cè)
三維卷積在CNN 的基礎(chǔ)上,進(jìn)一步采集更多的時(shí)間及空間信息。3D 卷積將輸入的多個(gè)連續(xù)幀堆疊成立方體,然后使用 3D卷積在堆疊立方體中執(zhí)行卷積操作。[5]這種結(jié)構(gòu),可以進(jìn)行提取特征的累加,捕獲各類(lèi)運(yùn)動(dòng)信息,并對(duì)具有近似特種的多個(gè)連續(xù)圖像進(jìn)行連接,比對(duì),過(guò)濾相同特征信息。三維卷積中單次卷積操作則可同時(shí)對(duì)指定時(shí)間長(zhǎng)度視頻幀的同一個(gè)二維局部區(qū)域進(jìn)行卷積,再對(duì)提取到的特征進(jìn)行疊加,針對(duì)連續(xù)3 張輸入圖片使用兩種卷積核進(jìn)行三維卷積后可以得到2 張?zhí)卣鲌D[6]。通過(guò)視頻檢測(cè)中捕捉到的信息,需要對(duì)后續(xù)的行為進(jìn)行預(yù)測(cè),在此方面相關(guān)學(xué)者也進(jìn)行了較多的嘗試。行為的預(yù)測(cè)主要分類(lèi)兩個(gè)大類(lèi),第一類(lèi)是研究人和空間的關(guān)系,并預(yù)測(cè)在特定空間下,人的后續(xù)行為。另一類(lèi)是研究人與人之間的關(guān)系,這類(lèi)研究難度極大,即判斷特定人之間,某個(gè)或某類(lèi)人群的后續(xù)行為。由于人員特征識(shí)別及分類(lèi)的困難性,以及特定群體人群定義的復(fù)雜性,人類(lèi)行為中的偶然性,情緒左右的突發(fā)性等問(wèn)題,從而帶來(lái)預(yù)測(cè)結(jié)果的不確定性和多樣性。在異常行為檢測(cè)方面提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)理論,該理論提出生成器和判別器的概念,通過(guò)生成器和判別器的對(duì)抗性學(xué)習(xí)訓(xùn)練。
本次研究主要針對(duì)人群異常行為的檢測(cè),在正常視頻監(jiān)控及畫(huà)面錄制的基礎(chǔ)上,系統(tǒng)對(duì)視頻畫(huà)面進(jìn)行的異常行為進(jìn)行定位,當(dāng)人群中出現(xiàn)異常行為時(shí),系統(tǒng)需要能夠?qū)Ξ惓P袨檫M(jìn)行詳細(xì)記錄,必要時(shí)對(duì)異常行為進(jìn)行報(bào)警。對(duì)異常行為或異常行為人進(jìn)行重點(diǎn)的視頻畫(huà)面捕捉,為事后的回溯追蹤做準(zhǔn)備。該系統(tǒng)原型主要由五部分組成視頻信息采集、異常數(shù)據(jù)資源庫(kù)、數(shù)據(jù)處理模塊、數(shù)據(jù)訓(xùn)練模塊、異常行為捕獲及展示,各模塊具體實(shí)現(xiàn)細(xì)節(jié)如下:
(一)視頻信息采集
該模塊主要完成正常的視頻數(shù)據(jù)信息采集,包括視頻錄制、分頻道存儲(chǔ),云臺(tái)自動(dòng)控制、夜視補(bǔ)光、數(shù)據(jù)網(wǎng)絡(luò)存儲(chǔ)等。目前大部分的人員密集場(chǎng)所室已經(jīng)具備視頻監(jiān)控條件,但是對(duì)部分老舊的設(shè)備,如模擬攝像機(jī)、非聯(lián)網(wǎng)攝像機(jī)、標(biāo)清攝像機(jī)等設(shè)備,還需進(jìn)行更換,否則無(wú)法實(shí)現(xiàn)異常行為的檢測(cè)。同時(shí)對(duì)于重點(diǎn)區(qū)域、重點(diǎn)設(shè)備存放處要加大攝像機(jī)的布置數(shù)量,確保監(jiān)控?zé)o死角,同時(shí)對(duì)走廊,出入口等位置要配備清晰度高廣角攝像機(jī),以便對(duì)人群實(shí)現(xiàn)高覆蓋的監(jiān)控。
(二)異常數(shù)據(jù)資源庫(kù)
對(duì)于深度學(xué)習(xí)來(lái)說(shuō),其中一個(gè)關(guān)鍵點(diǎn)就是如何建立足夠豐富的學(xué)習(xí)資源庫(kù),在這里需要引進(jìn)異常行為數(shù)據(jù)資源,如各種跳躍、聚集、快速跑動(dòng)、物品傾覆、火光等,這些數(shù)據(jù)資源分類(lèi)存儲(chǔ)以后,相關(guān)異常事件發(fā)生時(shí),可以針對(duì)捕捉到的異常行為,在資源庫(kù)中進(jìn)行比對(duì),從而快速確定異常事件,并進(jìn)行必要的操作或預(yù)警。
(三)數(shù)據(jù)處理模塊
首先,將視頻幀使用雙線(xiàn)性差值縮放成圖片,將圖片處理按照標(biāo)準(zhǔn)化進(jìn)行。將連續(xù)的視頻幀作為一個(gè)單元,在單元基礎(chǔ)上進(jìn)行疊加,從而使其成為一條訓(xùn)練樣本。從而形成一個(gè)描述為寬、深、高、頻道四個(gè)維度的矩陣,各個(gè)維度以數(shù)字化形式描述特征,如彩色圖像描述為1,黑白圖像描述為0。
(五)異常行為捕獲及展示模塊
異常行為捕獲及展示模塊,主要是在視頻監(jiān)控過(guò)程中,對(duì)檢測(cè)畫(huà)面分幀進(jìn)行識(shí)別及比對(duì),結(jié)合預(yù)測(cè)信息和重構(gòu)的誤差計(jì)算出檢測(cè)行為與深度學(xué)習(xí)資料庫(kù)信息中的異常行為相似度得分。進(jìn)一步生成異常區(qū)域視圖,異常人群高清晰度面部捕捉、異常行為告警、全局畫(huà)面人數(shù)統(tǒng)計(jì)、人群擁堵報(bào)警、貴重設(shè)備移動(dòng)警告、紅線(xiàn)區(qū)域闖入告警燈信息,并可以通過(guò)各類(lèi)終端進(jìn)行展示。