袁紅春, 張文鳳
(上海海洋大學 信息學院,上海 201306)
近年來,監(jiān)控視頻數(shù)據(jù)急劇增長.隨著人們對公共安全的重視程度的增加,監(jiān)控視頻的異常檢測成為計算機視覺領域的重要研究方向.監(jiān)控領域可用于智慧城市、市場、銀行、商場、街道等多種公共場所.不同于普通二分類問題,視頻異常檢測的訓練數(shù)據(jù)并不充分,導致異常行為和正常行為的數(shù)據(jù)分布嚴重不均衡.另外,異常行為的定義復雜且模棱兩可,不同的場景中有不同的定義,作為異常事件的正類內(nèi)的高方差可能包含多種不同的類.傳統(tǒng)的視頻異常檢測方法一般通過人工提取特定視頻特征[1,2],基于時空的方法側(cè)重于提取空間與時間維度上的特征來表征視頻的運動狀態(tài),通過計算閾值判斷行為是否為異常.主要包括光流特征[3]、光流方向直方圖[4]、方向梯度直方圖[5]等.基于跟蹤的方法主要利用速度、方向、位置、長度等特征建立正常軌跡,根據(jù)這類靜態(tài)特征提取目標的運動軌跡,判斷是否為異常軌跡點.如Wang等人[6]通過改進正則化方式提出密集軌跡算法用于行為識別.Tung[7]等人通過建立一個區(qū)域轉(zhuǎn)換模型,獲取物體的正常軌跡.訓練時設定閾值為最大觀測似然值,測試時大于該閾值的判定為異常.傳統(tǒng)方法在簡單的目標場景中能夠根據(jù)選定的靜態(tài)特征判定目標行為類別,但對于復雜的視頻交互場景,選定的特征表示能力深受限制,且耗時費力.
近幾年,無監(jiān)督學習在視頻異常檢測領域顯示出良好的競爭力.一類是重構(gòu)模型,基于正態(tài)性建模的思想通過對編解碼結(jié)構(gòu)進行訓練,并重新生成輸入圖像.測試時對異常事件進行重構(gòu)會產(chǎn)生較大的重構(gòu)誤差.另一類是預測模型,通過前n幀預測后面幀,通過預測值和真實值的誤差判斷異常.
自編碼器(Autoencoder,AE)被廣泛地應用于重構(gòu)模型,將高維輸入X編碼成低維的隱變量h,從而迫使神經(jīng)網(wǎng)絡學習最有用的特征,解碼器的作用是把隱藏層的隱變量h還原到初始維度.重構(gòu)模型的目標是通過最小化重構(gòu)誤差重建輸入的視頻幀,當訓練好的模型遇到異常視頻數(shù)據(jù),會得到較大的重構(gòu)誤差.在重構(gòu)建模過程中,可以采用多種技術表征監(jiān)控視頻中的正常行為.AE作為一種典型的時序特征提取算法,鑒于其具有良好的表征能力,現(xiàn)已經(jīng)廣泛應用于圖像的重構(gòu)工作.文獻[8]利用卷積自編碼器(Convolutional Autoencoders,CAE)構(gòu)建時空模型用于學習正常行為的信息.Luo等人[9]提出一種基于深度學習的無監(jiān)督學習模型,稱為外觀和運動深度網(wǎng)絡(Appearance and Motion DeepNet,AMDN),模型第一階段采用堆疊降噪自編碼器(Denoising Autoencoders,DAE)提取外觀和運動特征.第2階段利用第1階段得到的特征圖,使用多個單類支持向量機(Support Vector Machine,SVM)模型計算異常得分.哈桑等人[10]提出使用CAE學習視頻中的空間規(guī)則模式.這類方法利用2D卷積和池化運算作用在空間維度上,不能捕獲異?;顒拥臅r間特征.為了提取時序數(shù)據(jù)的時空相關性,Shi等人[11]對降水預報的時空預測問題提出ConvLSTM(Convolutional LSTM Network),利用卷積提取同一時間步的空間關系,利用LSTM提取相鄰時間步的相關性.對比光流法,其能夠更好的處理邊緣信息,泛化效果更好.Luo等人[12]提出將CNN與ConvLSTM結(jié)合,使用CNN對單幀視頻進行編碼,使用ConvLSTM記憶運動信息的外觀變化.Ye等人[13]通過結(jié)合卷積LSTM和RGB圖差異捕獲長期運動信息.Park等人[14]引入記憶模塊Memory,在記憶模塊中記錄正常數(shù)據(jù),利用輸入作為查詢項檢索記憶模塊中最相似的一項進行重構(gòu),利用Hard Shringkage策略增加尋址權(quán)重的稀疏性,實現(xiàn)異常事件的檢測.MEMAE(Memory-Augmented Deep Autoencoder)模型能夠記憶重要的正態(tài)模式,用于基于重建的正態(tài)模型.但是,重建前景對象只使用非常少的一部分正態(tài)模式,只記憶重要的正態(tài)模式有時也會導致信息丟失.Lonescu等人[15]引入一種以對象為中心的CAE學習框架學習運動和外觀特征,利用聚類方法訓練異常分類器,實現(xiàn)正類樣本與其他樣本的分離.最近一項工作中,Li等人[16]利用雙流自編碼器架構(gòu)分別提取外觀和運動信息.然而,雙流網(wǎng)絡的結(jié)構(gòu)調(diào)整和光流特征的提取需要較大的時耗.在視覺領域,注意力機制應用廣泛,主體是通道注意力機制和空間注意力機制兩類.SENet[17](Squeeze-and-Excitation Networks)通過門控機制,生成通道權(quán)重實現(xiàn)特征圖的校準.Wang等人[18]提出對卷積網(wǎng)絡的中間階段堆疊注意力模塊,添加注意模塊增強特征信息.
基于預測的方法中,U-Net是一種典型的重構(gòu)誤差判別算法,通過添加跳躍連接分支減少降維導致的信息損失,在圖像重構(gòu)中被廣泛使用.如Tang等人[19]將生成器設計成兩個串聯(lián)的 U-Net 網(wǎng)絡,前一塊U-Net用于未來幀做預測,后一塊重建前一個U-Net生成的預測幀,未來幀預測只能預測正常事件的發(fā)生,有利于放大異常幀的重構(gòu)誤差,進而對異常事件的識別,重構(gòu)有利于增強預測的未來幀,該模型實現(xiàn)了良好的異常檢測效果.Nguyen等人[20]設計了一個未來幀預測框架,通過訓練一個U-Net網(wǎng)絡,網(wǎng)絡輸入T幀的訓練視頻片段,預測出時間為T+1的幀.Liu[21]等人基于U-Net的預測模型,通過計算規(guī)則性得分判斷異常行為.Chen等人[22]根據(jù)目標幀和預測幀構(gòu)造損失函數(shù),提出利用滑動窗口的異常分數(shù)估計方法,該雙向預測模型有效地提高模型的準確性.Li 等人[23]提出多變量高斯完全卷積對抗自編碼器,依據(jù)普通視頻的潛在表示基于先驗分布,異常視頻幀不處于先驗分布的事實,采用基于能量的方法,根據(jù)訓練模型的概率分數(shù)得到異常視頻的異常得分.利用梯度光流表示視頻片段的特征進一步提高模型的檢測效果.
考慮到預測方法高度依賴先驗知識,前后幀的任意變化對檢測效果影響很大,本文選擇構(gòu)建魯棒性相對較高的重構(gòu)模型.R-STAE[24]在編碼網(wǎng)絡后添加單級殘差模塊有效地解決了深度網(wǎng)絡中的梯度消失問題.Yang[25]等人依據(jù)著名神經(jīng)科學理論提出SimAM注意力機制,利用能量函數(shù)并快速求解解析解的方式為每個神經(jīng)元計算三維權(quán)重.鑒于SimAM注意力機制作為一種新型注意力操作,避免傳統(tǒng)注意力機制需要訓練對應子網(wǎng)絡的權(quán)重.本文為R-STAE殘差網(wǎng)絡結(jié)合SimAM注意力機制,為每個特征點分配對應的動態(tài)權(quán)重值,實現(xiàn)更好的聚焦主體目標信息,提高CNN對視頻幀序列的顯著性區(qū)域的特征表示.再引入跳躍連接,帶有跳躍連接的殘差網(wǎng)絡能夠聚合網(wǎng)絡不同層間的重要全局信息,降低信息傳遞中的特征損失.為了在時域方面捕獲空間特征的關聯(lián)性,Song[26]采用BiConvLSTM提取時間維度的空間特性,彌補循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)無法捕捉圖像序列中運動特性的缺陷.本文模型利用CNN聯(lián)合BiConvLSTM捕獲時空特征,著重分析人群局部外觀和運動變化,在基準數(shù)據(jù)集UCSD-Ped1和UCSD-Ped2上,相比最先進的重構(gòu)方法,本文提出的網(wǎng)絡模型具有更優(yōu)或相近的實驗結(jié)果.
近年來,深度學習得到迅速發(fā)展,自編碼器通過損失最小化可以有效地編碼任何給定的數(shù)據(jù)分布.最近的工作中,R-STAE通過設計帶殘差模塊的自編碼器,有效地檢測到視頻中的異常行為.為了提高模型表征特征圖的重要區(qū)域的能力,本文為殘差模塊融入SimAM注意力機制.不同于R-STAE殘差模塊的作用點,本文將殘差模塊應用到所有的編碼結(jié)構(gòu)和解碼結(jié)構(gòu)(除了編碼網(wǎng)絡和解碼網(wǎng)絡的輸出層),并對殘差塊引入稠密連接,最大程度地融合不同層間的信息.當前提取時序特征多選擇LSTM網(wǎng)絡和光流法,如Li等人[16]利用光流法提取時間流的運動模式,需要較大的時耗和網(wǎng)絡結(jié)構(gòu)調(diào)整.文獻[9-12]利用ConvLSTM獲取視頻序列的外觀和運動變化取得良好的實驗結(jié)果.本文利用堆疊的BiConvLSTM獲取時空相關性,融合前后序列信息 共同表達時空特征信息.
傳統(tǒng)的注意力機制,如通道注意力機制與空間注意力機制,只能在單一維度上細化特征,而在其他維度上同等對待,利用特征圖生成基于通道的一維權(quán)重和基于空間的二維權(quán)重,并拓展權(quán)重最終形成注意力特征圖.SimAM注意力模塊是一種能夠同等對待所有維度的注意力機制,其能生成優(yōu)于一維或二維權(quán)重的三維權(quán)重.視覺神經(jīng)科學領域?qū)⒎烹娔J矫黠@不同于周圍神經(jīng)元的一類神經(jīng)元認為是信息最豐富的神經(jīng)元,該類神經(jīng)元有明顯空間抑制效應應當被賦予重要權(quán)重.為了找到具有空間抑制效應的神經(jīng)元,Yang等人通過為每個神經(jīng)元定義能量函數(shù),如公式(1)所示,依據(jù)能量函數(shù)可以算出解析解表示每個神經(jīng)元的能量值,進而計算出每個神經(jīng)元的重要權(quán)重值.
(1)
(2)
本文設計的融合R-STAE殘差模塊和SimAM注意力機制的殘差網(wǎng)絡如圖1所示,它由兩組相同的結(jié)構(gòu)組成,每組結(jié)構(gòu)由級聯(lián)卷積接一個批量歸一化層和tanh激活函數(shù),再融合SimAM注意力機制.大卷積級聯(lián)會導致參數(shù)暴漲,通過級聯(lián)卷積細化特征,使用小卷積核級聯(lián)卷積能夠減少參數(shù)計算,再通過批量歸一化層和tanh激活網(wǎng)絡層對特征圖進行非線性映射.為了區(qū)分特征圖中顯著特征區(qū)域,嵌入SimAM注意力模塊到卷積中,SimAM模塊對多維特征圖計算每個神經(jīng)元的3維權(quán)重,得到在通道和空間均有顯著性區(qū)別的特征圖.考慮到relu函數(shù)沒有上限,激活函數(shù)選擇使用tanh函數(shù).最后,殘差模塊接入按通道特征聯(lián)合的跳躍連接,借助跳躍連接concatenate操作將殘差模塊輸入和輸出特征圖按照通道維度進行合并,通道聯(lián)合操作可以增強跨層間特征信息的傳輸,更多圖像語義特征得以保留.
圖1 融合SimAM注意力的殘差結(jié)構(gòu)
圖2殘差時空自編碼器網(wǎng)絡結(jié)構(gòu)圖的BiConvLSTM模塊展示了BiConvLSTM網(wǎng)絡結(jié)構(gòu).單一的ConvLSTM僅有前向傳遞的信息決定輸出,而BiConvLSTM由一組前向ConvLSTM和一組后向ConvLSTM組成,當輸入多維向量的特征后,由正反兩個方向的ConvLSTM處理輸入數(shù)據(jù),可以捕捉長期和短期的潛在表示,兩個方向上通過卷積操作不斷更新隱藏層狀態(tài)和存儲單元狀態(tài),最終通過兩個方向的隱藏層狀態(tài)決定最終隱層狀態(tài).公式(3)給出了經(jīng)過雙向時空結(jié)構(gòu)的輸出結(jié)果yt,hf和hb表示t時刻的正向隱藏層和反向隱藏層的狀態(tài),tanh激活函數(shù)用于對正向和反向的信息進行非線性映射到輸出.
圖2 殘差時空自編碼器網(wǎng)絡結(jié)構(gòu)
(3)
如圖2所示,本文提出一種融合SimAM注意力機制和BiConvLSTM的殘差時空自編碼器模型.利用正常事件的視頻數(shù)據(jù)訓練自編碼模型,空間自動編碼器用于學習視頻序列的空間相關性,BiConvLSTM用于學習空間結(jié)構(gòu)的時間相關性.數(shù)據(jù)的空間表示和運動表示將被輸入到解碼器后進行信息重建.正態(tài)性模型訓練完成后,利用測試結(jié)果與真實結(jié)果的偏差檢測異常,根據(jù)重構(gòu)誤差計算每一幀視頻的規(guī)則性分數(shù).
主干網(wǎng)絡結(jié)構(gòu)部分,本文參考AlexNet網(wǎng)絡的大卷積核以及Inception結(jié)構(gòu)堆疊不同尺寸卷積核可獲得比單一尺寸更豐富的特征,卷積核使用11×11和5×5的卷積核,這種大卷積核的選擇使得網(wǎng)絡感受野更大,獲得的卷積信息更豐富.T幀視頻序列先輸入到卷積核為11×11的卷積網(wǎng)絡,提取大量低級的局部特征.RS-BCAE殘差是對R-STAE的殘差部分的拓展,2組級聯(lián)3×3的卷積融合無參SimAM注意力機制,卷積后添加了歸一化層和激活層,不同于傳統(tǒng)注意力機制(如通道注意力機制、空域注意力機制), 3D注意力SimAM對所有空間位置和通道都同等對待,且不需要額外設計子網(wǎng)絡,利用能量函數(shù)計算每個神經(jīng)元的權(quán)值,實現(xiàn)對特征增強處理,更好聚焦主體特征,降低大卷積核帶來的參數(shù)暴增.特征降維處理中,考慮到下采樣偏重于高級特征,易損失分辨率,分別使用步長為4,2的卷積操作降低特征維度.
本文使用3層堆疊的BiConvLSTM提取視頻序列的時空相關性.BiConvLSTM是ConvLSTM的增強網(wǎng)絡,圖2 BiConvLSTM模塊展示了每層BiConvLSTM單元的具體組成.每個時間步長里,數(shù)據(jù)輸入到多個BiConvLSTM單元進行級聯(lián)處理,每個BiConLSTM單元由前向和反向ConvLSTM單元組成,上一個單元隱藏層狀態(tài)和細胞狀態(tài)輸入到下一個單元.前一時間步長的輸出作為后一時間步長的輸入.所有的狀態(tài)轉(zhuǎn)換均經(jīng)過卷積操作,并對隱藏層進行零填充保持輸入和輸出的大小一致.解碼器結(jié)構(gòu)主干層使用反卷積操作獲得全局特征卷積核大小分別為5×5和11×11,由文獻[27]啟發(fā),反卷積層后分別接R-STAE殘差和本文設計的殘差模塊,交替使用卷積和反卷積進一步對特征圖進行增強.反卷積是一種特殊的正向卷積,先按照一定的比例通過補0來擴大輸入圖像的尺寸,再進行正向卷積.本文分別使用步長為1,2,4的反卷積恢復特征圖維度,最終獲得與輸入序列相同尺寸的T幀重構(gòu)序列.
在異常檢測中,采用標準化重構(gòu)誤差的量化方法,借鑒哈桑[10]等論文中提出的方法通過計算原始信息和重構(gòu)信息之間的重構(gòu)誤差判斷正常和異常行為,并通過繪制誤差曲線反映該方法改進異常檢測方面的直觀性.
模型基于正態(tài)性建模思想,正常視頻序列的均方誤差值更小,異常視頻序列的均方誤差更大,利用歐氏距離計算輸入視頻序列和輸出視頻序列之間的均方誤差,如公式(4)和公式(5)所示:
(4)
(5)
根據(jù)視頻序列的重構(gòu)誤差,可計算出單幀誤差,對單幀重構(gòu)誤差計算標準化分數(shù),對結(jié)果做歸一化處理,如公式(6)所示:
(6)
其中e(t)表示視頻幀t的重構(gòu)誤差,e(t)min和e(t)max表示重構(gòu)誤差中的最小值和最大值,E(t)代表視頻幀t標準化分數(shù),當重構(gòu)誤差越大,標準化分數(shù)值越大.
實驗所用數(shù)據(jù)來自加利福利亞大學圣地亞哥分校(UCSD)行人數(shù)據(jù)集UCSD-Ped1和 UCSD-Ped2.視頻異常行為的定義是模棱兩可、不明確的.對于不同的現(xiàn)實場景,同一個行為是否屬于異常經(jīng)常依據(jù)環(huán)境而定,人行道上行走是正常行為,但是,在草坪上行走就被認為屬于異常行為.加利福尼亞大學圣地亞哥分校的研究人員收集了用于異常行為檢測的數(shù)據(jù)集.Ped1數(shù)據(jù)集由34個訓練視頻和36個測試視頻組成,Ped2數(shù)據(jù)集由16個訓練視頻和12個測試視頻組成.訓練視頻僅包含正常行為,測試片段包含正常行為和異常行為,異常行為包括在步行區(qū)行駛機動車、自行車等.
本文按照視頻幀提取、圖像去噪、圖像歸一化、零均值化和數(shù)據(jù)幀合成的處理流程對視頻數(shù)據(jù)做預處理.為了獲取更詳細的視頻信息和降低漏報率,選擇逐幀提取的方式,利用scikit-video包提取視頻幀.
由于進行異常檢測的視頻一般是人員相對密集的公共場所,環(huán)境較為復雜,不可避免地存在大量噪聲,需要對圖像進行去噪.將視頻幀轉(zhuǎn)換為灰度圖像以減少數(shù)據(jù)尺寸.本文采用中值濾波器法,對灰度圖使用模板像素的灰度中值代替原有的目標像素值,中值濾波能在去除噪聲的同時有效地保護邊緣信息.
圖像歸一化[28]處理使用min-max標準化.對圖像的像素值作線性變換,將值映射到[0,1]之間.本文將數(shù)據(jù)幀大小統(tǒng)一被調(diào)整為256×256,將像素值歸一化為0~1.
零均值化將所有視頻幀的灰度平均值中心化到0,通過改變圖像灰度值的分布,這有利于降低數(shù)據(jù)大小,進而提高模型的計算能力.先計算所有待訓練圖像的灰度平均值,通過遍歷n張圖像的所有像素值計算灰度均值I*,轉(zhuǎn)換函數(shù)如公式(7)所示.再用原始圖像減去灰度均值I*,得到零均值化圖像,該操作使得圖像均值為0,灰度值分布發(fā)生平移.
(7)
其中I*表示圖像灰度均值,n表示圖像數(shù)量,I(x,y)表示圖像某點的像素值.
為了捕獲數(shù)據(jù)在時間維度上的關聯(lián)關系,采用特定的T幀在時間軸上堆疊數(shù)據(jù),生成HDF5文件.模型不需要任何的特征變換,使用長度為T的滑動窗口進行特征提取.當T取值增加時,將容納更長的運動信息,因而也會導致模型收斂時間變長.本文在實驗階段設置時間步長T分別為4和10.
受文獻[10,29]的啟發(fā),將AUC(area under curve,AUC)和等錯誤率(Equal Error Rate,EER)作為模型性能的評估指標,AUC是指通過計算不同閾值的受試者操作特性曲線(receiver operation characteristics,ROC)下面積.在正負樣本的分布發(fā)生變化時,ROC有良好的不變性特性,如異常檢測中的類不平衡現(xiàn)象.對于二分類問題,基于機器學習的模型一般將分類問題轉(zhuǎn)化為概率,將AUC作為評價指標,避免通過手動設置閾值,將預測概率轉(zhuǎn)化為類別的過程.等錯誤率EER是ROC曲線上假陽率FPR與假陰率FNR相等的點,表現(xiàn)為[0,1]與[1,0]的連線同ROC曲線的交點.算法性能評估AUC面積越大,EER越小,表示性能越好.
本文設計兩類對比實驗,第1組消融實驗對RS-BCAE的殘差模塊、跳躍連接以及 BiConvLSTM的有效性做了評估.公用數(shù)據(jù)集上,RS-BCAE的殘差模塊的AUC對比R-STAE殘差模塊、不含殘差模塊、經(jīng)典殘差結(jié)構(gòu)ResNetV1、ResNetV2的實驗結(jié)果.將殘差結(jié)構(gòu)替換成上述其他殘差結(jié)構(gòu)時,自編碼器主干網(wǎng)絡結(jié)構(gòu)保持不變.如表1所示,本文設計的融合注意力機制和R-STAE的殘差結(jié)構(gòu)的AUC值高于其他殘差模塊的實驗結(jié)果,精度提高4%以上,相比R-STAE,本文將殘差模塊應用于CAE的所有層,不僅僅是編解碼中間部位.由實驗結(jié)果可知,融合SimAM注意力機制的殘差結(jié)構(gòu)及調(diào)整殘差模塊作用點更好地優(yōu)化網(wǎng)絡結(jié)構(gòu),整體提高了模型檢測性能.
表1 殘差模塊對比結(jié)果
為了減少信息在傳遞過程中的損失,讓正常前景細節(jié)盡可能得到保留,殘差模塊末端引入跳躍連接,利用稠密連接融合淺層特征和殘差輸出的深層特征圖,增強層間信息提取能力.表2分別給出按特征圖的通道維度連接、求和跳躍連接、不包含跳躍連接的RS-BCAE性能對比結(jié)果,按特征圖通道維度連接的方式能夠保留更多的全局信息,降低信息損失.
表2 跳躍連接有無性能對比結(jié)果
不同于FC-LSTM,ConvLSTM中的輸入和隱藏層、隱藏層間均將全連接替換成卷積操作,用于提取同一時間步長內(nèi),待測值之間的空間相關性,內(nèi)部的LSTM結(jié)構(gòu)用于提取相鄰時間步長之間的相關性.BiConvLSTM使用前向與后向兩組ConvLSTM的最后狀態(tài)共同決定信息流.本文為此做了另一組消融實驗如表3所示,對比兩者之間對時序特征提取的能力.在時空特征提取上,BiConvLSTM在時空相關性的表達上略優(yōu)于ConvLSTM,且模型的穩(wěn)定性相對更高.
表3 兩種記憶網(wǎng)絡的對比結(jié)果
第3組實驗對比其他重構(gòu)模型Conv AE、ConvLSTM AE以及MEMAE的AUC值.圖3和圖4表示模型在數(shù)據(jù)集上UCSD的AUC值和EER值,在UCSD-Ped1和UCSD-Ped2上分別為0.865和0.94,EER值分別為0.209和0.12.以UCSD-Ped2為例,圖5展示模型在殘差塊性能方面的對比圖,文中分別實驗包含RS-BCAE殘差、ResNetV1、ResNetV2和不含殘差模塊的模型,其中RS-BCAE殘差得到的精度高于其他殘差模塊,高于不包含殘差模塊的實驗結(jié)果,且精度高于R-STAE精度.本文的融合SimAM注意力機制的殘差結(jié)構(gòu)對提高模型精度具有有效性.圖6分別繪制重構(gòu)模型Conv AE、ConvLSTM AE、MEMAE、RS-BCAE的ROC曲線,本文RS-BCAE的精度比Conv AE模型提高約5%,比ConvLSTM AE模型高5.2%,比MEMAE記憶網(wǎng)絡模型提升約4%,記憶網(wǎng)絡模型MEMAE重建前景對象只使用非常少的部分的特征表示,這種只記憶重要的正態(tài)模式有時也會導致信息丟失.本文對CAE的所有層(輸出層除外)均使用按通道連接的跳躍連接,盡可能地融合全局特征信息,降低長程信息的損失.
圖3 UCSD-Ped1 ROC曲線
圖4 UCSD-Ped2 ROC曲線
圖5 幀級ROC 上不同殘差塊的比較
圖6 幀級ROC上不同重構(gòu)模型的比較
為了說明RS-BCAE模型的有效性,在基準數(shù)據(jù)集UCSD-Ped1和UCSD-Ped2上,本文模型分別列出幾種經(jīng)典算法、深度學習的重構(gòu)算法.深度學習方法中包含近兩年的方法,如MEMAE、ST-CaAE和R-STAE等.如表4所示,RS-BCAE模型的精度遠遠高于傳統(tǒng)模型的性能,在UCSD-Ped1上,RS-BCAE模型低于時空級聯(lián)自編碼器的實驗結(jié)果,高于其他模型精度.在UCSD-Ped2上,RS-BCAE模型高于其他重構(gòu)模型精度,且EER值低于其他模型.可以看出在基準數(shù)據(jù)集UCSD上,本文的模型在重構(gòu)模型中有良好的競爭效果.
表4 UCSD數(shù)據(jù)集上不同算法的對比結(jié)果
為了提高算法的觀測效果,本文繪制了測試視頻序列的得分曲線圖,可視化重構(gòu)誤差值.圖7(a)和圖7(c)是視頻幀原圖,圖7(b)和圖7(d)分別對應圖7(a)和圖7(c)的誤差可視化結(jié)果,通過對模型輸出的重構(gòu)圖和輸入圖之間的誤差值做可視化處理,異常行為存在的像素區(qū)域更加明亮,表示誤差值較大.圖7(b)中步行區(qū)域出現(xiàn)騎行行為,圖7(d)步行區(qū)域出現(xiàn)汽車行駛和騎行的異常行為,圖中這些異常行為區(qū)域顏色較為明亮,其誤差值較大.圖8(a)和圖8(b)分別展示了UCSD-Ped1和UCSD-Ped2的某個視頻片段,灰色區(qū)域表示實際異常行為的發(fā)生時間,圖8(a)在第175-200幀出現(xiàn)了人行道上騎車的異常行為.圖8(b)在第31~180幀之間出現(xiàn)人行道上騎行的異常行為.本文基于正態(tài)性建模思路,模型僅學習正常行為事件,而沒有學習異常行為的規(guī)則模式.當待測視頻出現(xiàn)異常行為的時候,預測幀和輸入幀之間的重構(gòu)誤差會增加,根據(jù)公式(6)得出,灰色區(qū)域規(guī)則性得分會嚴重上升.
圖7 異常幀原始圖和誤差可視化結(jié)果圖
圖8 UCSD數(shù)據(jù)集的異常片段
本文提出一種基于SimAM注意力機制和BiConvLSTM的殘差時空模型對時空事件進行檢測,利用卷積神經(jīng)網(wǎng)絡和深度BiConvLSTM分別提取視頻序列的時空特征.設計一種融合新型注意力機制和R-STAE殘差結(jié)構(gòu)的殘差結(jié)構(gòu),使用按通道連接的跳躍連接聚合不同層次間的全局特征.本文設計三組消融實驗和一組模型對比試驗.首先,對比R-STAE殘差、ResNetV1、ResNetV2和不包含跳躍連接的模型精度,驗證本文設計的殘差結(jié)構(gòu)的有效性.另外兩組消融實驗分別驗證了添加按特征圖連接的跳躍連接和堆疊BiConvLSTM的有效性.最后,模型實驗對比包括最新的其他重構(gòu)模型精度.本文模型RS-BCAE的檢測效果優(yōu)于或近似其他重構(gòu)模型.