黨偉超, 張澤杰, 白尚旺, 龔大力, 吳喆峰
(1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024;2.精英數(shù)智科技股份有限公司,山西 太原 030006)
穩(wěn)定的電力供應(yīng)是保障煤礦安全生產(chǎn)的前提[1]。井下配電室是煤礦電力供應(yīng)系統(tǒng)的重要一環(huán),因此,需要對井下配電室進(jìn)行定期巡檢,及時(shí)發(fā)現(xiàn)隱患并進(jìn)行處理[2]。當(dāng)前判斷人員是否按規(guī)定完成巡檢任務(wù),主要是通過檢查紙質(zhì)記錄及監(jiān)控室人工監(jiān)視,存在巡檢人員作弊、人工監(jiān)視工作量大等問題。因此,有必要研究配電室巡檢行為智能識(shí)別方法,以確保巡檢人員按照規(guī)定完成巡檢,保障煤礦電力系統(tǒng)安全。
對于煤礦井下配電室巡檢行為檢測來說,其主導(dǎo)因素是人,對人體行為的視覺分析顯得尤為重要。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)[3]由于其特殊的網(wǎng)絡(luò)結(jié)構(gòu),特別適用于計(jì)算機(jī)視覺任務(wù)。當(dāng)前主流的基于CNN的人體行為識(shí)別方法主要有以下3種:① 三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)方法。Ji Shuiwang等[4]提出了3D CNN模型,將傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)(2D CNN)模型拓展到3D CNN模型并提取空間和時(shí)間2個(gè)維度上的特征。D.Tran等[5]在文獻(xiàn)[4]的基礎(chǔ)上提出了可以基于視頻提取特征的 C3D網(wǎng)絡(luò)。但是,3D CNN模型的計(jì)算量很大,且當(dāng)網(wǎng)絡(luò)深度增加時(shí),在數(shù)據(jù)樣本不夠大的情況下,容易產(chǎn)生過擬合,人體行為識(shí)別效果不佳。② CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合的方法。J.Donahue等[6]提出了長期循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Long-term Recurrent Convolutional Network, LRCN)。LRCN的結(jié)構(gòu)包括長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和CNN兩部分。LRCN充分利用了視頻空間維度和時(shí)間維度上的信息,但是只能避免梯度消失問題,未解決梯度爆炸問題。③ 雙流CNN方法[7]。所謂雙流,即網(wǎng)絡(luò)由分別處理空間(RGB圖像幀)和時(shí)間(堆疊光流幀)維度的2個(gè)CNN組成。該方法采用多任務(wù)訓(xùn)練方法將2個(gè)網(wǎng)絡(luò)進(jìn)行融合,獲取行為特征,但是對長視頻中的行為識(shí)別效果不佳。
井下配電室監(jiān)控視頻持續(xù)時(shí)間較長且行為類型復(fù)雜,傳統(tǒng)雙流CNN方法對此類行為識(shí)別效果較差。針對該問題,本文對雙流CNN方法進(jìn)行改進(jìn),提出了一種基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別方法。首先,將每個(gè)巡檢視頻等分為3個(gè)部分,分別對應(yīng)巡檢開始、巡檢中和巡檢結(jié)束;采用雙流CNN方法對各部分視頻進(jìn)行分別處理,即隨機(jī)采樣獲取代表空間特征的RGB圖像及代表運(yùn)動(dòng)特征的10幀X方向和10幀Y方向的連續(xù)光流圖像;將RGB圖像和光流圖像分別輸入空間流CNN和時(shí)間流CNN進(jìn)行特征提取,在各自流內(nèi)對等分網(wǎng)絡(luò)的輸出特征進(jìn)行融合;對2個(gè)流的預(yù)測特征進(jìn)行加權(quán)融合,獲取巡檢行為識(shí)別結(jié)果。
配電室巡檢行為動(dòng)作由一系列簡單動(dòng)作組合而成,為保證每類動(dòng)作分類準(zhǔn)確,類型間差別明顯,對巡檢動(dòng)作進(jìn)行了詳細(xì)分解。根據(jù)煤礦配電室巡檢有關(guān)規(guī)定,巡檢人員應(yīng)定時(shí)認(rèn)真檢查各種儀表、線路、進(jìn)線柜、出線柜等,以發(fā)現(xiàn)電力設(shè)備運(yùn)行隱患,保證配電設(shè)備安全運(yùn)行。巡檢過程中,巡檢人員除站立查看、檢測外,還需下蹲檢測線路、設(shè)備等,確保完成規(guī)定檢測;配電室范圍較大,完成整個(gè)配電室的巡檢需要多次走動(dòng);完成巡檢后,需按規(guī)定進(jìn)行記錄,一般有站立記錄和坐下記錄2種情況。因此,將巡檢行為分為5類,分別為站立檢測、下蹲檢測、走動(dòng)、站立記錄、坐下記錄。完成這5類中的4類即可認(rèn)為完成了巡檢行為。
巡檢行為發(fā)生在背景較為固定的井下配電室,且由多個(gè)簡單動(dòng)作組成,完成一次巡檢行為需要數(shù)分鐘。使用現(xiàn)有公開數(shù)據(jù)集進(jìn)行模型訓(xùn)練,巡檢動(dòng)作識(shí)別效果較差,準(zhǔn)確率不高,因此,專門制作了用于配電室巡檢行為識(shí)別的數(shù)據(jù)集IBDS5。IBDS5數(shù)據(jù)集采集于現(xiàn)有的煤礦井下配電室視頻監(jiān)控系統(tǒng)。攝像頭安裝于配電室入口處正上方,距地面2.5 m,光源對準(zhǔn)配電室內(nèi)部,確保能清晰地拍攝人物動(dòng)作。共采集21段視頻(共計(jì)10.5 h),經(jīng)過人工挑選從每段視頻中提取包含5類動(dòng)作的樣本,共計(jì)提取400個(gè)視頻樣本,每類動(dòng)作樣本數(shù)約為80個(gè),每個(gè)視頻樣本長度約為5 s。巡檢動(dòng)作分類如圖1所示。
站立檢測和下蹲檢測行為都可分為3個(gè)部分:與設(shè)備剛接觸、進(jìn)行設(shè)備檢測和完成檢測后準(zhǔn)備離開設(shè)備。如果對整個(gè)視頻進(jìn)行隨機(jī)幀采樣,就不能很好地學(xué)習(xí)此類動(dòng)作的特征。因此,將視頻分割成3個(gè)等長且不重疊的視頻段,對每段視頻分別進(jìn)行RGB圖像幀和堆疊光流幀提取。將獲取到的圖像幀分別輸入對應(yīng)的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)進(jìn)行特征提取,然后在各自流內(nèi)對網(wǎng)絡(luò)輸出特征進(jìn)行融合,最后對2個(gè)流的預(yù)測特征進(jìn)行加權(quán)融合,獲取巡檢行為識(shí)別結(jié)果。巡檢行為識(shí)別總體框架如圖2所示。
(a)站立檢測
(b)下蹲檢測
(c)走動(dòng)
(d)坐下記錄
(e)站立記錄
圖2 巡檢行為識(shí)別總體框架
將代表行為類別的視頻分割為3個(gè)等長的視頻段V1,V2,V3,基于分段采樣的時(shí)空雙通道CNN表達(dá)式為
(1)
式中:H為輸出函數(shù),用于對識(shí)別結(jié)果進(jìn)行分類,得到每個(gè)行為類別的概率值,本文選用softmax函數(shù);g為聚合函數(shù),用于對3個(gè)分段特征以均值方法進(jìn)行融合,得到空間流或者時(shí)間流的特征;Tj表示視頻第j個(gè)分段的隨機(jī)采樣,j=1,2,3;F(Tj;W)表示用參數(shù)為W的CNN對Tj進(jìn)行特征提取,時(shí)間流和空間流網(wǎng)絡(luò)在3個(gè)視頻片段上分別共享各自網(wǎng)絡(luò)的一套參數(shù)W。
softmax函數(shù)表達(dá)式為
(2)
式中Gi為分段共識(shí)函數(shù),Gi=g(Fi(T1),Fi(T2),Fi(T3)),i=1,2,…,C,C為行為分類的總類別數(shù),C=5。
通過softmax函數(shù)預(yù)測得到整段視頻被識(shí)別分類為每一類行為的概率。為避免訓(xùn)練過程太慢,結(jié)合標(biāo)準(zhǔn)分類交叉熵?fù)p失函數(shù),得到關(guān)于分段共識(shí)函數(shù)Gi的損失函數(shù)為
(3)
式中yi為第i類行為的真實(shí)標(biāo)簽值。
模型是有梯度的,使用標(biāo)準(zhǔn)的反向傳播算法,利用多個(gè)片段來聯(lián)合優(yōu)化參數(shù)W。在反向傳播過程中,損失函數(shù)L(yi,Gi)對于模型參數(shù)W的梯度為
(4)
式中K為視頻分段數(shù),K=3。
網(wǎng)絡(luò)是從3個(gè)視頻段即完整的視頻中學(xué)習(xí)模型參數(shù),而不是從單一的短片段中學(xué)習(xí)模型參數(shù)。
通過空間流網(wǎng)絡(luò)對視頻中隨機(jī)采樣的靜態(tài)RGB圖像進(jìn)行訓(xùn)練,提取巡檢行為的空間特征。在靜態(tài)圖片識(shí)別過程中,目標(biāo)物體的姿態(tài)與背景起著至關(guān)重要的作用。IBDS5數(shù)據(jù)集采集于煤礦井下,背景固定且變化較少,能更好地實(shí)現(xiàn)空間特征提取。
卷積網(wǎng)絡(luò)分類器以端到端的多層方式進(jìn)行集成,通過網(wǎng)絡(luò)層數(shù)量的疊加豐富圖像特征。第一代經(jīng)典的LeNet網(wǎng)絡(luò)模型集成了5層卷積層,后來逐漸發(fā)展出8層的AlexNet模型、19層的VggNet模型及22層的GoogLeNet模型。大量實(shí)驗(yàn)表明,卷積層數(shù)的增加可以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力,提高圖像分類準(zhǔn)確率。但是增加網(wǎng)絡(luò)層數(shù)也會(huì)帶來隨機(jī)梯度消失問題,網(wǎng)絡(luò)準(zhǔn)確率達(dá)到飽和狀態(tài)后會(huì)迅速下降,因此,CNN的層數(shù)最多為20。HE Kaiming等[8]提出了ResNet模型,并利用殘差網(wǎng)絡(luò)將CNN的層數(shù)增加到152,將錯(cuò)誤率降低了3.75%。殘差網(wǎng)絡(luò)大大提高了圖像識(shí)別率。ResNet網(wǎng)絡(luò)不僅可以加深CNN的層數(shù),而且有效解決了因?qū)訑?shù)疊加導(dǎo)致的訓(xùn)練誤差增大的問題。本文采用ResNet152提取圖像的空間特征。
視頻中的運(yùn)動(dòng)信息對于行為識(shí)別至關(guān)重要,光流因其簡單實(shí)用并能表達(dá)圖像序列運(yùn)動(dòng)信息被廣泛用于提取行為運(yùn)動(dòng)特征。B.K.P.Horn等[9]推導(dǎo)出了圖像序列光流的計(jì)算公式,因光流數(shù)值接近0且有正有負(fù),為了能夠作為時(shí)間流網(wǎng)絡(luò)通道的輸入,需要對其進(jìn)行線性變換,最終將X,Y方向的光流保存為2張灰度圖像。本文使用TV-L1[10]方法提取視頻的光流幀,提取結(jié)果如圖3所示。
(a)X方向光流
(b)Y方向光流
時(shí)間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)都采用ResNet152網(wǎng)絡(luò)進(jìn)行巡檢行為識(shí)別。因?yàn)闀r(shí)間流和空間流網(wǎng)絡(luò)都在ImageNet[11]上進(jìn)行預(yù)訓(xùn)練,所以第1個(gè)卷積層輸入的通道數(shù)為3??臻g流網(wǎng)絡(luò)輸入的是RGB圖像,不需要進(jìn)行調(diào)整。而對于時(shí)間流來說,采用10幀X方向的連續(xù)堆疊光流幀和10幀Y方向的連續(xù)堆疊光流幀進(jìn)行運(yùn)動(dòng)特征提取,相當(dāng)于向網(wǎng)絡(luò)輸入20幅光流圖像,與第1個(gè)卷積層的通道數(shù)不匹配。采用跨模態(tài)交叉預(yù)訓(xùn)練的方法解決該問題,即獲取第1個(gè)卷積層的3個(gè)通道的權(quán)值后,取其平均值,再復(fù)制20份作為時(shí)間流網(wǎng)絡(luò)第1個(gè)卷積層20個(gè)通道的權(quán)值,而時(shí)域網(wǎng)絡(luò)其他層的權(quán)值與空域?qū)?yīng)層的權(quán)值參數(shù)相同。
由式(1)可得整個(gè)空間流網(wǎng)絡(luò)的行為識(shí)別結(jié)果Sspatial和時(shí)間流網(wǎng)絡(luò)的行為識(shí)別結(jié)果Stemporal分別為
Sspatial=g(F(T1;W),F(T2;W),F(T3;W))
(5)
Stemporal=g(F(T1;W),F(T2;W),F(T3;W))
(6)
對Sspatial和Stemporal進(jìn)行加權(quán)求和,得到最后的視頻分類結(jié)果Slabels:
Slabels=k1Sspatial+k2Stemporal
(7)
式中k1,k2分別為空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)權(quán)值,均為正整數(shù)。
為了得到一個(gè)好的分類模型,機(jī)器學(xué)習(xí)方法需要足夠的訓(xùn)練樣本用于學(xué)習(xí)。IBDS5數(shù)據(jù)集訓(xùn)練樣本相對較少,為避免因訓(xùn)練樣本數(shù)據(jù)不足造成過擬合情況,使用了數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)技術(shù)。
通過數(shù)據(jù)增強(qiáng)技術(shù),可擴(kuò)大輸入數(shù)據(jù)的規(guī)模,增加樣本的差異性,并增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。對RGB圖像幀和光流圖像幀使用了角度翻轉(zhuǎn)、平移變換、邊角剪裁、尺度抖動(dòng)[12]等數(shù)據(jù)增強(qiáng)方法。邊角剪裁是指對輸入圖像的1個(gè)中心區(qū)域和邊緣4個(gè)角落區(qū)域進(jìn)行裁剪,裁剪后的圖像與原圖像差異性較大,網(wǎng)絡(luò)輸入的變化增加,因此,能有效減小過擬合的影響。尺度抖動(dòng)是指將輸入圖像裁剪為固定尺寸,本文將輸入圖像從1 920×1 080修正為256×340,然后裁剪寬和高,寬和高的尺寸在{256,224,196,168}中隨機(jī)采樣,再將裁剪區(qū)域尺寸修正為224×224后輸入對應(yīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
遷移學(xué)習(xí)是指利用已有的知識(shí)來解決不同但相似的問題,即使用預(yù)訓(xùn)練模型來克服目標(biāo)任務(wù)數(shù)據(jù)不足的缺點(diǎn)。對于新目標(biāo)任務(wù),需要將預(yù)訓(xùn)練網(wǎng)絡(luò)模型中最后一個(gè)用于分類的全連接層替換成新的針對目標(biāo)任務(wù)類別數(shù)目的全連接層。本文采用的源域數(shù)據(jù)集為UCF101行為識(shí)別數(shù)據(jù)集,目標(biāo)數(shù)據(jù)集為IBDS5數(shù)據(jù)集。首先對源域數(shù)據(jù)集進(jìn)行處理,構(gòu)建訓(xùn)練集和測試集,并進(jìn)行預(yù)處理;將預(yù)處理后的數(shù)據(jù)輸入ImageNet網(wǎng)絡(luò)中進(jìn)行預(yù)訓(xùn)練,保存參數(shù);將預(yù)訓(xùn)練保存的參數(shù)加載到目標(biāo)域神經(jīng)網(wǎng)絡(luò)模型(本文采用VGG16,ResNet18/34/50/101/152)中,并將模型中最后一個(gè)用于分類的全連接層設(shè)置為對應(yīng)的5類輸出;最后對IBDS5數(shù)據(jù)集進(jìn)行處理,并輸入遷移后的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,得到行為識(shí)別結(jié)果。
基于Pytorch1.1.0深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)所使用的硬件及軟件配置見表1。
在實(shí)驗(yàn)過程中,將IBDS5數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集3個(gè)部分。這3個(gè)部分之間沒有交集,數(shù)據(jù)量比例為3∶1∶1。
4.2.1 空間流網(wǎng)絡(luò)訓(xùn)練
將每個(gè)包含巡檢行為的視頻等分為3段短視頻,從每段視頻中隨機(jī)抽取RGB圖像,輸入空間流網(wǎng)絡(luò)進(jìn)行特征提取,然后融合3段視頻的識(shí)別結(jié)果,獲得空間流網(wǎng)絡(luò)的識(shí)別結(jié)果。
表1 實(shí)驗(yàn)軟硬件配置
空間流網(wǎng)絡(luò)基本參數(shù)設(shè)置:初始學(xué)習(xí)率為0.000 1,批尺寸Batch-size為16,訓(xùn)練2 000代,每50輪測試1次,超參數(shù)momentum為0.9。學(xué)習(xí)率是非常重要的一個(gè)超參數(shù),甚至能左右模型性能,本文采用隨機(jī)梯度下降優(yōu)化算法,根據(jù)學(xué)習(xí)結(jié)果自動(dòng)更新學(xué)習(xí)率。
為加快網(wǎng)絡(luò)收斂速度并抑制神經(jīng)網(wǎng)絡(luò)過擬合現(xiàn)象[13],在全連接層后增加一個(gè)丟包層,對網(wǎng)絡(luò)進(jìn)行優(yōu)化。在訓(xùn)練過程中,隨機(jī)丟棄神經(jīng)網(wǎng)絡(luò)單元及其連接,抑制過擬合現(xiàn)象。設(shè)置空間流網(wǎng)絡(luò)的丟失率為0.9。表2給出了網(wǎng)絡(luò)結(jié)構(gòu)為VGG16,ResNet18,ResNet34,ResNet50,ResNet101,ResNet152的空間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率。其中Top-1準(zhǔn)確率是指預(yù)測排名第一的類別與實(shí)際結(jié)果相符的概率。
從表2可看出,與其他網(wǎng)絡(luò)結(jié)構(gòu)相比,ResNet152結(jié)構(gòu)的空間流網(wǎng)絡(luò)取得了最高的行為識(shí)別準(zhǔn)確率,Top-1準(zhǔn)確率達(dá)到了94.47%。
4.2.2 時(shí)間流網(wǎng)絡(luò)訓(xùn)練
時(shí)間流網(wǎng)絡(luò)訓(xùn)練與空間流網(wǎng)絡(luò)訓(xùn)練類似。將每個(gè)包含巡檢行為的視頻等分為3段短視頻,從每段視頻中隨機(jī)抽取10幀X方向和10幀Y方向的連續(xù)堆疊光流幀,輸入時(shí)間流網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),然后融合3段視頻的識(shí)別結(jié)果,獲得時(shí)間流網(wǎng)絡(luò)的識(shí)別結(jié)果。
相對較大的初始學(xué)習(xí)率有利于網(wǎng)絡(luò)快速收斂,因此,設(shè)置初始學(xué)習(xí)率為0.001。丟失率設(shè)置為0.8。其他參數(shù)與空間流網(wǎng)絡(luò)參數(shù)相同。時(shí)間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率見表3。
從表3可看出,ResNet152結(jié)構(gòu)的時(shí)間流網(wǎng)絡(luò)取得了最高的行為識(shí)別準(zhǔn)確率,Top-1準(zhǔn)確率達(dá)到了96.22%。
表3 時(shí)間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率
ResNet152結(jié)構(gòu)的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)性能最好,因此,對其進(jìn)行進(jìn)一步加權(quán)融合。設(shè)置多種權(quán)重比例進(jìn)行實(shí)驗(yàn)分析,結(jié)果見表4。
表4 雙流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率
從表4可看出,當(dāng)空間流和時(shí)間流的權(quán)重比例逐漸減小時(shí),Top-1準(zhǔn)確率逐漸上升,這說明時(shí)間流網(wǎng)絡(luò)提取的運(yùn)動(dòng)特征對巡檢行為識(shí)別有更重要的作用。當(dāng)k1和k2的比例為1∶2時(shí),Top-1準(zhǔn)確率最高,達(dá)到了98.92%。而單獨(dú)空間流網(wǎng)絡(luò)使用ResNet152網(wǎng)絡(luò)的Top-1準(zhǔn)確率為94.47%,單獨(dú)時(shí)間流網(wǎng)絡(luò)使用ResNet152網(wǎng)絡(luò)的Top-1準(zhǔn)確率為96.22%,這說明集成雙流網(wǎng)絡(luò)的特征可以有效提升巡檢行為識(shí)別性能。
4.4.1 IBDS5數(shù)據(jù)集實(shí)驗(yàn)
不同方法在IBDS5數(shù)據(jù)集上的準(zhǔn)確率見表5。3D-CNN方法的Top-1準(zhǔn)確率為92.48%,這是由于巡檢行為數(shù)據(jù)集樣本較少,出現(xiàn)了過擬合問題,導(dǎo)致識(shí)別效果不佳。傳統(tǒng)雙流CNN方法的Top-1準(zhǔn)確率為94.27%,這是由于配電室巡檢監(jiān)控視頻持續(xù)時(shí)間較長,而傳統(tǒng)雙流CNN方法對含有復(fù)雜動(dòng)作的長視頻識(shí)別效果不佳。雙流CNN+LSTM 方法[14]的Top-1準(zhǔn)確率為95.86%,亦低于本文方法。
表5 不同方法在IBDS5數(shù)據(jù)集上的準(zhǔn)確率
4.4.2 UCF101數(shù)據(jù)集實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文方法的性能,使用UCF101數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。UCF101數(shù)據(jù)集是目前行為識(shí)別領(lǐng)域應(yīng)用最廣泛的數(shù)據(jù)集,共包含101類動(dòng)作,由25個(gè)人每人做4~7組動(dòng)作,每個(gè)視頻時(shí)長為2~10 s,共13 320個(gè)視頻,共6.5 GB。
使用UCF101數(shù)據(jù)集訓(xùn)練時(shí),采用Split1訓(xùn)練/測試分割方案,空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)的權(quán)重比例為1∶2,實(shí)驗(yàn)結(jié)果見表6。
表6 不同方法在UCF101數(shù)據(jù)集上的準(zhǔn)確率
對比表5和表6可知,各種方法在IBDS5數(shù)據(jù)集上的識(shí)別準(zhǔn)確率均高于在UCF101數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。其原因在于IBDS5數(shù)據(jù)集的背景較固定,而UCF101數(shù)據(jù)集的背景變化較大,且人員遮擋問題較嚴(yán)重。
(1)提出了一種基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別方法。自制配電室巡檢行為數(shù)據(jù)集IBDS5,通過實(shí)驗(yàn)討論并分析了不同網(wǎng)絡(luò)結(jié)構(gòu)和不同權(quán)重比例集成策略對識(shí)別準(zhǔn)確率的影響。
(2)實(shí)驗(yàn)結(jié)果表明,以ResNet152網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),且權(quán)重比例為1∶2的空間流和時(shí)間流雙流融合網(wǎng)絡(luò)具有較高的識(shí)別準(zhǔn)確率,Top-1準(zhǔn)確率達(dá)到98.92%;本文方法在IBDS5數(shù)據(jù)集和公共數(shù)據(jù)集UCF101上的識(shí)別準(zhǔn)確率均優(yōu)于3D-CNN、傳統(tǒng)雙流CNN等現(xiàn)有方法。
(3)本文方法仍存在以下不足:當(dāng)多個(gè)巡檢人員同時(shí)巡檢時(shí),巡檢人員之間可能出現(xiàn)相互遮擋的情況,造成誤識(shí)別和未識(shí)別問題。下一步工作將在多人巡檢行為識(shí)別方面進(jìn)行研究,以滿足實(shí)際應(yīng)用需求。