楊 樂(lè),黎亦凡,陳 曦,司恒斌,任曉龍,林平遠(yuǎn),張志宏
(1.國(guó)網(wǎng)陜西省電力公司信息通信公司,陜西西安 710065;2.廈門(mén)大學(xué)信息學(xué)院,福建廈門(mén) 361005)
隨著國(guó)家電網(wǎng)基礎(chǔ)設(shè)施的快速發(fā)展,電力生產(chǎn)中如何保證施工人員的安全性成為電力事業(yè)建設(shè)的關(guān)注重點(diǎn)之一。由于電力作業(yè)的特殊性,再小的安全隱患都會(huì)導(dǎo)致很?chē)?yán)重的后果[1]。因此,除了施工人員需嚴(yán)格按照操作手冊(cè)進(jìn)行操作外,還專門(mén)設(shè)立了安監(jiān)部門(mén)及現(xiàn)場(chǎng)安全員以提供安全保障。采用安全員在場(chǎng)監(jiān)督的管理方法,雖然在一定程度上能夠督促施工人員遵守安全性防護(hù)規(guī)則,但其不僅耗時(shí)耗力,也無(wú)法保證24 h 全天候安全監(jiān)管。
近年來(lái),由于高清監(jiān)控的全面化普及以及深度學(xué)習(xí)技術(shù)的快速發(fā)展,以高清攝像頭作為媒介的計(jì)算機(jī)視覺(jué)技術(shù)為電力作業(yè)場(chǎng)景下的實(shí)時(shí)檢測(cè)應(yīng)用提供了廣泛的解決方案[2-13]。
電力作業(yè)環(huán)境下的違規(guī)行為檢測(cè)一直是實(shí)現(xiàn)智能化安全監(jiān)管的重大難題之一,雖然其本質(zhì)上同屬于行為檢測(cè),但與傳統(tǒng)行為檢測(cè)的不同在于,電力生產(chǎn)環(huán)境中的違規(guī)行為檢測(cè)存在著一定的數(shù)據(jù)瓶頸且多屬于長(zhǎng)時(shí)動(dòng)作,有別于拍手、擊掌等原子動(dòng)作以及跳躍等短時(shí)動(dòng)作,長(zhǎng)時(shí)動(dòng)作往往需要更多的上下文信息及時(shí)空間信息間的交互。目前基于深度學(xué)習(xí)的行為檢測(cè)方法主要分為2 種:(1)基于雙流卷積的方式[14-15],將空間信息和時(shí)間信息分別進(jìn)行建模,雖然針對(duì)一些簡(jiǎn)單的原子動(dòng)作能夠取得較好的結(jié)果,但在短時(shí)和長(zhǎng)時(shí)動(dòng)作的檢測(cè)中準(zhǔn)確率較低;(2)利用三維卷積直接進(jìn)行特征提取,可直接在2 個(gè)維度上進(jìn)行特征的提取從而加強(qiáng)特征之間的關(guān)聯(lián)性,但提取特征粒度較粗,難以達(dá)到令人滿意的準(zhǔn)確率。這2 種方法雖然能夠?qū)崿F(xiàn)行為識(shí)別,但難以應(yīng)用于電力生產(chǎn)環(huán)境下的違規(guī)行為檢測(cè)。
本文針對(duì)目前電力生產(chǎn)場(chǎng)景中存在的違規(guī)行為進(jìn)行調(diào)研,以跨越圍欄場(chǎng)景作為應(yīng)用背景制作相關(guān)數(shù)據(jù)集用于實(shí)驗(yàn)結(jié)果的驗(yàn)證,并提出了一種新穎的行為識(shí)別模型ST-SlowFast(Spatio-Temporal SlowFast)。該模型同時(shí)結(jié)合時(shí)間及空間維度信息以增強(qiáng)視頻行為識(shí)別魯棒性。
本文的主要貢獻(xiàn)如下:(1)以跨越圍欄作為典型樣例并制作了用于驗(yàn)證模型性能的數(shù)據(jù)集;(2)在雙流模型的基礎(chǔ)上構(gòu)建了基于注意力機(jī)制的第三條特征融合通道,同時(shí)補(bǔ)足了時(shí)空間信息以及長(zhǎng)上下文信息之間的交互。
Simonyan 提出的雙流卷積網(wǎng)絡(luò)(Two-stream Convolution Neural Network,Two-stream CNN)[16]首次利用密集光流信息捕捉時(shí)間上的運(yùn)動(dòng)特征,并設(shè)計(jì)了雙流卷積網(wǎng)絡(luò)架構(gòu),通過(guò)對(duì)不同維度的信息建模完成最后的行為分類(lèi)。時(shí)間分段網(wǎng)絡(luò)(Temporal Segment Network,TSN)[17]針對(duì)雙特征提取網(wǎng)絡(luò)的龐大計(jì)算量做出優(yōu)化,采用隨機(jī)時(shí)間片分割的方式對(duì)視頻信息進(jìn)行輸入處理,在降低了計(jì)算量的同時(shí),補(bǔ)全了雙流網(wǎng)絡(luò)對(duì)長(zhǎng)時(shí)間建模能力不足的問(wèn)題。時(shí)間關(guān)系網(wǎng)絡(luò)(Temporal Relation Network,TRN)[18]則致力于探索時(shí)間信息的關(guān)系,它使用ResNet[19]網(wǎng)絡(luò)對(duì)特征進(jìn)行提取,并設(shè)計(jì)了新的時(shí)間片融合方式獲取長(zhǎng)時(shí)信息,利用多尺度特征融合提高模型的魯棒性。文獻(xiàn)[16-18]的方法雖然在一定程度上解決了二維卷積無(wú)法處理時(shí)間維度的問(wèn)題,但其模型的復(fù)雜性以及僅沿著單一維度特征提取的局限性導(dǎo)致其難以廣泛應(yīng)用,雙流行為檢測(cè)通過(guò)最直接方式對(duì)不同維度的信息進(jìn)行建模,但在提取特征時(shí)兩者的關(guān)聯(lián)性較低,因此在短時(shí)和長(zhǎng)時(shí)行為檢測(cè)中難以達(dá)到令人滿意的性能。
對(duì)于視頻流數(shù)據(jù)而言,二維卷積網(wǎng)絡(luò)通常只能夠?qū)ζ渲械囊粠瑘D像進(jìn)行處理,通過(guò)雙流卷積網(wǎng)絡(luò)雖然能夠完成視頻流行為檢測(cè),但模型參數(shù)量以及實(shí)時(shí)性仍然難以令人滿意。三維卷積由Ji 等[20]提出,作為二維卷積的延申,三維卷積處理視頻特征時(shí)可很好地保留時(shí)間維度信息,所取得的特征也具有更強(qiáng)的關(guān)聯(lián)性。三維卷積雖然在特征提取上契合視頻流數(shù)據(jù),但在檢測(cè)結(jié)果上相較于雙流卷積提升不夠明顯。因此在結(jié)合了雙流結(jié)構(gòu)以及三維卷積的基礎(chǔ)上,He 等人提出了SlowFast[15],它通過(guò)模擬生物視覺(jué)機(jī)制構(gòu)建不同幀率的通道以提取視頻數(shù)據(jù)特征,并且與此前傳統(tǒng)的僅采用雙流結(jié)構(gòu)或是三維卷積的方法相比在精確率上有了較大的提升。考慮到當(dāng)前行為檢測(cè)模型的性能主要依賴于幀級(jí)檢測(cè)以及三維卷積的長(zhǎng)時(shí)建模,為了更好地區(qū)分相似的對(duì)象,Sun 等人提出了一種融合環(huán)境特征的行為檢測(cè)模型(Actor-centric Relation Network,ACRN)[21],提高了模型的判別性,通過(guò)三維卷積直接進(jìn)行特征抽取的方式涵蓋了過(guò)多的背景噪聲,容易對(duì)長(zhǎng)時(shí)動(dòng)作檢測(cè)產(chǎn)生影響。
SlowFast 提出了一種不同于雙流行為檢測(cè)的雙通道架構(gòu),其靈感來(lái)自靈長(zhǎng)類(lèi)視覺(jué)系統(tǒng)中2 種不同視網(wǎng)膜神經(jīng)節(jié)細(xì)胞的功能,文中分別將他們稱為慢速(Slow)和快速(Fast)通道;這2 條通道通過(guò)簡(jiǎn)單的拼接完成時(shí)空特征之間的交互,最后由一個(gè)全連接層來(lái)完成分類(lèi)。
Slow 通道和Fast 通道作為特征提取網(wǎng)絡(luò),可以采用如ResNet,MobileNet[22]等結(jié)構(gòu),他們之間主要區(qū)別在于輸入的幀采樣率。相較于Fast 通道而言,Slow 通道是一個(gè)低幀率輸入通道,對(duì)于輸入的視頻數(shù)據(jù),它用一個(gè)大的時(shí)間步長(zhǎng)(一般設(shè)置為16 來(lái)進(jìn)行采樣),這意味著每秒30 幀視頻經(jīng)過(guò)采樣后只有2 個(gè)關(guān)鍵幀,其目的在于獲取時(shí)間片內(nèi)的語(yǔ)義信息;Fast 通道通常選用和Slow 通道一樣的網(wǎng)絡(luò)結(jié)構(gòu),其主要差別在于參數(shù)量大小,為了獲得連貫的動(dòng)作細(xì)節(jié)特征,F(xiàn)ast 通路以高采樣率對(duì)輸入視頻進(jìn)行采樣(時(shí)間步長(zhǎng)表示為t/a,t 代表原始視頻的幀率,a 表示下采樣大小,通常設(shè)置為4)。由于采樣率較高,F(xiàn)ast 路徑相對(duì)于Slow 路徑將通道維度的值設(shè)置得較低,以減少浮點(diǎn)計(jì)算量。
SlowFast 通過(guò)巧妙的方式提出了一種雙通道的結(jié)構(gòu)以同時(shí)捕捉語(yǔ)義特征及動(dòng)作特征,但在SlowFast 論文中實(shí)驗(yàn)部分在針對(duì)Fast 通道進(jìn)行消融時(shí)發(fā)現(xiàn)僅保留Slow 通道的結(jié)果與雙通道結(jié)果差異不大。這是因?yàn)殡p通道之間的信息融合機(jī)制過(guò)于簡(jiǎn)單(主要采用三維卷積對(duì)時(shí)間維度進(jìn)行下采樣以達(dá)到相同的維度),這種形式雖然簡(jiǎn)單有效,但是并沒(méi)有充分利用Fast 通道當(dāng)中的連續(xù)動(dòng)作特征。本文針對(duì)SlowFast 的雙通道融合機(jī)制進(jìn)行優(yōu)化,額外設(shè)計(jì)了一條時(shí)空間注意力機(jī)制通道用于重分配不同尺度下語(yǔ)義及動(dòng)作特征權(quán)重,以更好地對(duì)雙通道特征進(jìn)行融合,并整合不同感受野下的上下文特征,從而增強(qiáng)了時(shí)空間以及長(zhǎng)上下文信息的交互,提升長(zhǎng)時(shí)行為檢測(cè)的準(zhǔn)確性。
ST-SlowFast 的網(wǎng)絡(luò)細(xì)節(jié)結(jié)構(gòu)及模型框架結(jié)構(gòu)分別如圖1、圖2 所示。
圖1 ST-SlowFast模型細(xì)節(jié)結(jié)構(gòu)圖Fig.1 Detail structure of ST-SlowFast model
圖2 ST-SlowFast框架結(jié)構(gòu)圖Fig.2 Framework structure of ST-SlowFast
網(wǎng)絡(luò)模塊的輸入包括5 個(gè)維度分別為B,C,T,W,H,分別代表訓(xùn)練批量數(shù)、通道維度數(shù)、采樣幀數(shù)、圖像寬度值和圖像高度值。圖2 中第1 條低幀率圖片輸入通道為Slow 通道,第3 條高幀率圖片輸入通道為Fast 通道,其中b和a為超參數(shù),b用于調(diào)整Fast 通道中像素通道維度數(shù),文中設(shè)置為0.125;a用于調(diào)整采樣幀率,文中設(shè)置為4,中間進(jìn)行特征融合的通道為本文所添加的ST-Pathway(Spatio-Temporal Pathway),圖1 中展示了圖2 各個(gè)模塊的實(shí)現(xiàn)細(xì)節(jié)。
由圖1 可知,ST-SlowFast 中Slow,F(xiàn)ast 及ST 通道采用的網(wǎng)絡(luò)結(jié)構(gòu)均為ResNet-101[19],包含輸入層、輸出層及33 個(gè)ResNet 模塊,其中的m和n分別表示中間特征層的數(shù)量以及每一個(gè)特征層對(duì)應(yīng)的殘差連接模塊數(shù),時(shí)空間注意力模塊被用于每一個(gè)中間特征輸出層。
Transformer[23]是一個(gè)端到端的注意力機(jī)制模塊,最早應(yīng)用于自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域中,以解決RNN 網(wǎng)絡(luò)的長(zhǎng)時(shí)依賴局限性以及推理速度慢等問(wèn)題[24-25],其通過(guò)全局注意力機(jī)制計(jì)算的方式為細(xì)粒度特征分配權(quán)重,從而解決了長(zhǎng)時(shí)依賴問(wèn)題。在圖像分類(lèi)領(lǐng)域中,視覺(jué)Transformer(Vision Transformer,VIT)[26]首 次 以Transformer 完全替代卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)模塊,將輸入圖片劃分為塊的方式減少注意力計(jì)算復(fù)雜度,并且通過(guò)添加可學(xué)習(xí)參數(shù)保證塊與塊之間的相對(duì)位置。本文基于此,針對(duì)視頻流的三維輸入提出了2 個(gè)處理時(shí)空間特征的Transformer 結(jié)構(gòu):空間注意力模塊(Spatio Transformer)和時(shí)間注意力模塊(Temporal Transformer),并將兩者融入ST-SlowFast 以解決SlowFast 語(yǔ)義動(dòng)作特征間的自適應(yīng)融合。
Spatio Transformer 的結(jié)構(gòu)如圖3 所示,Slow 和Fast 通道此時(shí)的輸入維度分別為(B,C,T,W,H)及(B,b?C,a?T,W,H)。從結(jié)構(gòu)組成來(lái)看,Spatio Transformer 包含多頭交叉注意力層(Multi-head Cross Attention,MCA)、標(biāo) 準(zhǔn) 化 層(Layer Norm,LN)、多層感知機(jī)層(Multi-Layer Perceptron,MLP)及殘差連接層,同時(shí)在訓(xùn)練時(shí)加入隨機(jī)失活層(Dropout)以防止過(guò)擬合。
圖3 Spatio Transformer模塊Fig.3 Module of Spatio Transformer.
對(duì)于輸入的不同維度特征,Spatio Transformer首先通過(guò)三維卷積對(duì)通道維度和時(shí)間維度進(jìn)行變換,使兩者統(tǒng)一;然后為了對(duì)階段輸出特征與雙通道模塊間的注意力分布圖進(jìn)行計(jì)算,采用維度變換方式把時(shí)間維度整合到通道維度中,同時(shí)將像素點(diǎn)整合成一維向量的形式。同時(shí)為了保證模型推理的速度,采用了分塊計(jì)算(文中塊大小設(shè)置為14×14),并加入線性層(Linear Layer)學(xué)習(xí)1 組參數(shù)用于記錄像素塊的位置信息,整體過(guò)程如下所示:
式中:Ofast為快通道的階段輸出特征;RS 為維度變換操作,變換形式如式(3);Oslow為慢通道的階段輸出特征;out為局部網(wǎng)絡(luò)模塊的輸出;outmlp為經(jīng)過(guò)MLP 層的輸出;MCA 為T(mén)ransformer 中的關(guān)鍵模塊,其計(jì)算過(guò)程如下:
式中:Wq,Wk,Wv為對(duì)Oslow和Ofast進(jìn)行線性變換的權(quán)重參數(shù),Q,K,V分別為注意力機(jī)制計(jì)算時(shí)的Query,Key 及Value;d為特征向量嵌入維度,1/縮放操作用于解決點(diǎn)乘操作可能導(dǎo)致的梯度消失。
式(7)—式(10)說(shuō)明了注意力圖的運(yùn)算過(guò)程,多頭注意力機(jī)制通過(guò)多個(gè)參數(shù)矩陣對(duì)輸入特征進(jìn)行注意力計(jì)算,其中每一個(gè)注意力頭headi可表示為:
式中:headi為第i個(gè)注意力頭的輸出結(jié)果。
由多個(gè)注意力頭進(jìn)行聚合的結(jié)果OMCA表示如下:
式中:⊕為連接操作;Wo為輸出層的權(quán)重;l為注意力頭的總數(shù)。
Spatio Transformer 通過(guò)注意力機(jī)制對(duì)Slow 和Fast 通道所生成的語(yǔ)義特征和空間特征在像素區(qū)域進(jìn)行聚合,從而捕捉Slow 通道中的重點(diǎn)動(dòng)作變化區(qū)域。
Temporal Transformer 的結(jié)構(gòu)如圖4 所示,從結(jié)構(gòu)組成上Temporal Transformer 與Spatio Transformer相近,但為了從時(shí)間維度上捕捉Fast 通道幀序列中的重點(diǎn)幀,在進(jìn)行MCA 前需要重新對(duì)維度變化進(jìn)行設(shè)計(jì)。Temporal Transformer 并不對(duì)時(shí)間維度進(jìn)行變化以保留時(shí)間特征,而是將圖像像素點(diǎn)轉(zhuǎn)化為一維向量,同時(shí)以注意力機(jī)制捕捉像素點(diǎn)變換劇烈的時(shí)間幀;其整體過(guò)程類(lèi)似于Spatio Transformer,但是在RS 操作上有所變換,變換細(xì)節(jié)如式(13)所示:
圖4 Temporal Transformer模塊Fig.4 Module of Temporal Transformer
Spatio-temporal Transformer 結(jié)構(gòu)在雙通道特征間搭建了一個(gè)基于注意力機(jī)制的橋梁,在保留了CNN歸納偏置特性的同時(shí)增加了全局注意力權(quán)重分配。
本文制作了一個(gè)基于AVA[27]格式的跨欄違規(guī)行為檢測(cè)數(shù)據(jù)集,共包含132 個(gè)視頻剪輯片段。根據(jù)原子動(dòng)作進(jìn)行分解,數(shù)據(jù)集中的標(biāo)簽包含站立、行走和跨越3 個(gè)類(lèi)別。數(shù)據(jù)預(yù)處理過(guò)程如下:(1)將視頻以每秒30 幀的形式進(jìn)行分割;(2)從每秒中挑選1 幀作為關(guān)鍵幀并進(jìn)行數(shù)據(jù)標(biāo)注;(3)使用目標(biāo)跟蹤方法為關(guān)鍵幀添加身份標(biāo)簽。經(jīng)過(guò)數(shù)據(jù)預(yù)處理,共有11 513 幀圖像,其中397 幀為進(jìn)行動(dòng)作標(biāo)注的關(guān)鍵幀。將數(shù)據(jù)集中的80%作為訓(xùn)練集,其余部分作為測(cè)試集。
實(shí)現(xiàn)ST-SlowFast 所采用的pytorch 版本為1.12.1,并且在NVIDIA TITAN XP 上完成訓(xùn)練。模型在訓(xùn)練的過(guò)程中使用Adam 優(yōu)化器進(jìn)行梯度更新,學(xué)習(xí)率設(shè)置為0.000 2,β1和β2分別設(shè)置為0.9和0.999,權(quán)重衰減系數(shù)設(shè)置為0.000 1,迭代輪次為500;使用ResNet-101 作為特征提取主干模型,選取在Kinetics-400 上進(jìn)行訓(xùn)練的預(yù)訓(xùn)練的權(quán)重作為快慢通道的初始權(quán)重,對(duì)ST 通道的權(quán)重進(jìn)行訓(xùn)練。
本文采用平均精確度均值(mean Average Precision,mAP)作為實(shí)驗(yàn)指標(biāo)。該值需要對(duì)數(shù)據(jù)集中的每一個(gè)類(lèi)計(jì)算精確度均值(Average Precision,AP)值,該值同時(shí)與精確率Vpre和召回率Vrec這2 項(xiàng)指標(biāo)相關(guān):
式中:TP,F(xiàn)P,F(xiàn)N分別為真陽(yáng)、真陰及假陰的樣本個(gè)數(shù)。
由于Vpre和Vrec是一對(duì)矛盾的值,因此采用AP來(lái)對(duì)結(jié)果進(jìn)行評(píng)估更加直觀,其計(jì)算方式為統(tǒng)計(jì)不同Vpre和Vrec值曲線下的面積VAP:
式中:P和R分別為準(zhǔn)確率和召回率。
真實(shí)場(chǎng)景應(yīng)用中通常涉及到多個(gè)類(lèi)別下的模型性能評(píng)估,因此mAP 的使用頻次更高,其是多個(gè)類(lèi)別AP 的均值,可采用OmAP表示為:
式中:OAPj為第j個(gè)類(lèi)別的值;N為類(lèi)別總數(shù)。
為了更好地評(píng)估ST-SlowFast 在跨欄行為檢測(cè)上的性能,本文選取SlowFast,SlowOnly 及ACRN[21]作為對(duì)比方法。實(shí)驗(yàn)結(jié)果如表1 所示,其中OmAP在計(jì)算時(shí)所采用的重疊面積閾值設(shè)置為0.5。由表1 可知,本文所提出的ST-SlowFast 相較于其他方法在mAP 值上都有較大的提升。對(duì)比基線模型SlowFast,本文所提出的模型在性能上提高了約22%。由此可知,第3 條特征通道添加讓模型能夠捕捉到抬腳等細(xì)微動(dòng)作的變化。STSlowFast 可視化結(jié)果如圖5 所示,其中綠色檢測(cè)框表示檢測(cè)所得結(jié)果。從圖5 可以看出,在室內(nèi)外環(huán)境中ST-SlowFast 對(duì)跨欄違規(guī)行為均有較好的檢測(cè)結(jié)果。
表1 跨欄檢測(cè)數(shù)據(jù)集上不同物體檢測(cè)器的比較Table 1 Comparison of different object detectors on hurdle detection dataset
圖5 可視化結(jié)果Fig.5 Visualization results
消融實(shí)驗(yàn)將分別僅保留Spatio Transformer 和Temporal Transformer 模塊,以驗(yàn)證每個(gè)模塊的作用。消融實(shí)驗(yàn)結(jié)果如表2 所示,其中√代表使用該模塊,×代表不使用該模塊。
表2 消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experiment results
由表2 可知,融合兩個(gè)模塊的ST-SlowFast 的實(shí)驗(yàn)結(jié)果相較于單獨(dú)加入Spatio 模塊及Temporal模塊所得到的結(jié)果獲得了更高的mAP 值,說(shuō)明本文所提出的2 個(gè)模塊均能夠有效地提升模型的性能。
本文針對(duì)傳統(tǒng)行為檢測(cè)方法存在的缺陷提出了一種時(shí)空間信息融合網(wǎng)絡(luò)ST-SlowFast,利用時(shí)空間注意力通道將不同尺度的雙通道特征進(jìn)行細(xì)粒度融合,能在低幀率空間語(yǔ)義和高幀率時(shí)間語(yǔ)義間捕獲更多細(xì)節(jié)信息。在跨越圍欄違規(guī)行為檢測(cè)背景下,ST-SlowFast 在檢測(cè)準(zhǔn)確率上有著顯著提升,能夠有效地降低安全監(jiān)管的人力成本。