基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別

2020-05-07 09:13黨偉超張澤杰白尚旺龔大力吳喆峰

工礦自動(dòng)化 2020年4期

黨偉超，張澤杰，白尚旺，龔大力，吳喆峰

(1.太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，山西太原 030024；2.精英數(shù)智科技股份有限公司，山西太原 030006)

0 引言

穩(wěn)定的電力供應(yīng)是保障煤礦安全生產(chǎn)的前提[1]。井下配電室是煤礦電力供應(yīng)系統(tǒng)的重要一環(huán)，因此，需要對井下配電室進(jìn)行定期巡檢，及時(shí)發(fā)現(xiàn)隱患并進(jìn)行處理[2]。當(dāng)前判斷人員是否按規(guī)定完成巡檢任務(wù)，主要是通過檢查紙質(zhì)記錄及監(jiān)控室人工監(jiān)視，存在巡檢人員作弊、人工監(jiān)視工作量大等問題。因此，有必要研究配電室巡檢行為智能識(shí)別方法，以確保巡檢人員按照規(guī)定完成巡檢，保障煤礦電力系統(tǒng)安全。

對于煤礦井下配電室巡檢行為檢測來說，其主導(dǎo)因素是人，對人體行為的視覺分析顯得尤為重要。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)[3]由于其特殊的網(wǎng)絡(luò)結(jié)構(gòu)，特別適用于計(jì)算機(jī)視覺任務(wù)。當(dāng)前主流的基于CNN的人體行為識(shí)別方法主要有以下3種：① 三維卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)方法。Ji Shuiwang等[4]提出了3D CNN模型，將傳統(tǒng)的二維卷積神經(jīng)網(wǎng)絡(luò)(2D CNN)模型拓展到3D CNN模型并提取空間和時(shí)間2個(gè)維度上的特征。D.Tran等[5]在文獻(xiàn)[4]的基礎(chǔ)上提出了可以基于視頻提取特征的 C3D網(wǎng)絡(luò)。但是，3D CNN模型的計(jì)算量很大，且當(dāng)網(wǎng)絡(luò)深度增加時(shí)，在數(shù)據(jù)樣本不夠大的情況下，容易產(chǎn)生過擬合，人體行為識(shí)別效果不佳。② CNN與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合的方法。J.Donahue等[6]提出了長期循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Long-term Recurrent Convolutional Network, LRCN)。LRCN的結(jié)構(gòu)包括長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory，LSTM)和CNN兩部分。LRCN充分利用了視頻空間維度和時(shí)間維度上的信息，但是只能避免梯度消失問題，未解決梯度爆炸問題。③ 雙流CNN方法[7]。所謂雙流，即網(wǎng)絡(luò)由分別處理空間(RGB圖像幀)和時(shí)間(堆疊光流幀)維度的2個(gè)CNN組成。該方法采用多任務(wù)訓(xùn)練方法將2個(gè)網(wǎng)絡(luò)進(jìn)行融合，獲取行為特征，但是對長視頻中的行為識(shí)別效果不佳。

井下配電室監(jiān)控視頻持續(xù)時(shí)間較長且行為類型復(fù)雜，傳統(tǒng)雙流CNN方法對此類行為識(shí)別效果較差。針對該問題，本文對雙流CNN方法進(jìn)行改進(jìn)，提出了一種基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別方法。首先，將每個(gè)巡檢視頻等分為3個(gè)部分，分別對應(yīng)巡檢開始、巡檢中和巡檢結(jié)束；采用雙流CNN方法對各部分視頻進(jìn)行分別處理，即隨機(jī)采樣獲取代表空間特征的RGB圖像及代表運(yùn)動(dòng)特征的10幀X方向和10幀Y方向的連續(xù)光流圖像；將RGB圖像和光流圖像分別輸入空間流CNN和時(shí)間流CNN進(jìn)行特征提取，在各自流內(nèi)對等分網(wǎng)絡(luò)的輸出特征進(jìn)行融合；對2個(gè)流的預(yù)測特征進(jìn)行加權(quán)融合，獲取巡檢行為識(shí)別結(jié)果。

1 巡檢行為數(shù)據(jù)集

配電室巡檢行為動(dòng)作由一系列簡單動(dòng)作組合而成，為保證每類動(dòng)作分類準(zhǔn)確，類型間差別明顯，對巡檢動(dòng)作進(jìn)行了詳細(xì)分解。根據(jù)煤礦配電室巡檢有關(guān)規(guī)定，巡檢人員應(yīng)定時(shí)認(rèn)真檢查各種儀表、線路、進(jìn)線柜、出線柜等，以發(fā)現(xiàn)電力設(shè)備運(yùn)行隱患，保證配電設(shè)備安全運(yùn)行。巡檢過程中，巡檢人員除站立查看、檢測外，還需下蹲檢測線路、設(shè)備等，確保完成規(guī)定檢測；配電室范圍較大，完成整個(gè)配電室的巡檢需要多次走動(dòng)；完成巡檢后，需按規(guī)定進(jìn)行記錄，一般有站立記錄和坐下記錄2種情況。因此，將巡檢行為分為5類，分別為站立檢測、下蹲檢測、走動(dòng)、站立記錄、坐下記錄。完成這5類中的4類即可認(rèn)為完成了巡檢行為。

巡檢行為發(fā)生在背景較為固定的井下配電室，且由多個(gè)簡單動(dòng)作組成，完成一次巡檢行為需要數(shù)分鐘。使用現(xiàn)有公開數(shù)據(jù)集進(jìn)行模型訓(xùn)練，巡檢動(dòng)作識(shí)別效果較差，準(zhǔn)確率不高，因此，專門制作了用于配電室巡檢行為識(shí)別的數(shù)據(jù)集IBDS5。IBDS5數(shù)據(jù)集采集于現(xiàn)有的煤礦井下配電室視頻監(jiān)控系統(tǒng)。攝像頭安裝于配電室入口處正上方，距地面2.5 m，光源對準(zhǔn)配電室內(nèi)部，確保能清晰地拍攝人物動(dòng)作。共采集21段視頻(共計(jì)10.5 h)，經(jīng)過人工挑選從每段視頻中提取包含5類動(dòng)作的樣本，共計(jì)提取400個(gè)視頻樣本，每類動(dòng)作樣本數(shù)約為80個(gè)，每個(gè)視頻樣本長度約為5 s。巡檢動(dòng)作分類如圖1所示。

2 巡檢行為識(shí)別總體框架

站立檢測和下蹲檢測行為都可分為3個(gè)部分：與設(shè)備剛接觸、進(jìn)行設(shè)備檢測和完成檢測后準(zhǔn)備離開設(shè)備。如果對整個(gè)視頻進(jìn)行隨機(jī)幀采樣，就不能很好地學(xué)習(xí)此類動(dòng)作的特征。因此,將視頻分割成3個(gè)等長且不重疊的視頻段，對每段視頻分別進(jìn)行RGB圖像幀和堆疊光流幀提取。將獲取到的圖像幀分別輸入對應(yīng)的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)進(jìn)行特征提取，然后在各自流內(nèi)對網(wǎng)絡(luò)輸出特征進(jìn)行融合，最后對2個(gè)流的預(yù)測特征進(jìn)行加權(quán)融合，獲取巡檢行為識(shí)別結(jié)果。巡檢行為識(shí)別總體框架如圖2所示。

(a)站立檢測

(b)下蹲檢測

(c)走動(dòng)

(d)坐下記錄

(e)站立記錄

圖2 巡檢行為識(shí)別總體框架

將代表行為類別的視頻分割為3個(gè)等長的視頻段V1,V2,V3，基于分段采樣的時(shí)空雙通道CNN表達(dá)式為

(1)

式中：H為輸出函數(shù)，用于對識(shí)別結(jié)果進(jìn)行分類，得到每個(gè)行為類別的概率值，本文選用softmax函數(shù);g為聚合函數(shù)，用于對3個(gè)分段特征以均值方法進(jìn)行融合，得到空間流或者時(shí)間流的特征；Tj表示視頻第j個(gè)分段的隨機(jī)采樣,j=1,2,3；F(Tj;W)表示用參數(shù)為W的CNN對Tj進(jìn)行特征提取，時(shí)間流和空間流網(wǎng)絡(luò)在3個(gè)視頻片段上分別共享各自網(wǎng)絡(luò)的一套參數(shù)W。

softmax函數(shù)表達(dá)式為

(2)

式中Gi為分段共識(shí)函數(shù)，Gi=g(Fi(T1),Fi(T2),Fi(T3)),i=1,2,…,C,C為行為分類的總類別數(shù)，C=5。

通過softmax函數(shù)預(yù)測得到整段視頻被識(shí)別分類為每一類行為的概率。為避免訓(xùn)練過程太慢，結(jié)合標(biāo)準(zhǔn)分類交叉熵?fù)p失函數(shù)，得到關(guān)于分段共識(shí)函數(shù)Gi的損失函數(shù)為

(3)

式中yi為第i類行為的真實(shí)標(biāo)簽值。

模型是有梯度的，使用標(biāo)準(zhǔn)的反向傳播算法，利用多個(gè)片段來聯(lián)合優(yōu)化參數(shù)W。在反向傳播過程中，損失函數(shù)L(yi,Gi)對于模型參數(shù)W的梯度為

(4)

式中K為視頻分段數(shù)，K=3。

網(wǎng)絡(luò)是從3個(gè)視頻段即完整的視頻中學(xué)習(xí)模型參數(shù)，而不是從單一的短片段中學(xué)習(xí)模型參數(shù)。

3 巡檢行為識(shí)別具體實(shí)現(xiàn)

3.1 空間流網(wǎng)絡(luò)

通過空間流網(wǎng)絡(luò)對視頻中隨機(jī)采樣的靜態(tài)RGB圖像進(jìn)行訓(xùn)練，提取巡檢行為的空間特征。在靜態(tài)圖片識(shí)別過程中，目標(biāo)物體的姿態(tài)與背景起著至關(guān)重要的作用。IBDS5數(shù)據(jù)集采集于煤礦井下，背景固定且變化較少，能更好地實(shí)現(xiàn)空間特征提取。

卷積網(wǎng)絡(luò)分類器以端到端的多層方式進(jìn)行集成，通過網(wǎng)絡(luò)層數(shù)量的疊加豐富圖像特征。第一代經(jīng)典的LeNet網(wǎng)絡(luò)模型集成了5層卷積層，后來逐漸發(fā)展出8層的AlexNet模型、19層的VggNet模型及22層的GoogLeNet模型。大量實(shí)驗(yàn)表明，卷積層數(shù)的增加可以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力，提高圖像分類準(zhǔn)確率。但是增加網(wǎng)絡(luò)層數(shù)也會(huì)帶來隨機(jī)梯度消失問題，網(wǎng)絡(luò)準(zhǔn)確率達(dá)到飽和狀態(tài)后會(huì)迅速下降，因此，CNN的層數(shù)最多為20。HE Kaiming等[8]提出了ResNet模型，并利用殘差網(wǎng)絡(luò)將CNN的層數(shù)增加到152，將錯(cuò)誤率降低了3.75%。殘差網(wǎng)絡(luò)大大提高了圖像識(shí)別率。ResNet網(wǎng)絡(luò)不僅可以加深CNN的層數(shù)，而且有效解決了因?qū)訑?shù)疊加導(dǎo)致的訓(xùn)練誤差增大的問題。本文采用ResNet152提取圖像的空間特征。

3.2 時(shí)間流網(wǎng)絡(luò)

視頻中的運(yùn)動(dòng)信息對于行為識(shí)別至關(guān)重要，光流因其簡單實(shí)用并能表達(dá)圖像序列運(yùn)動(dòng)信息被廣泛用于提取行為運(yùn)動(dòng)特征。B.K.P.Horn等[9]推導(dǎo)出了圖像序列光流的計(jì)算公式，因光流數(shù)值接近0且有正有負(fù)，為了能夠作為時(shí)間流網(wǎng)絡(luò)通道的輸入，需要對其進(jìn)行線性變換，最終將X,Y方向的光流保存為2張灰度圖像。本文使用TV-L1[10]方法提取視頻的光流幀，提取結(jié)果如圖3所示。

(a)X方向光流

(b)Y方向光流

時(shí)間流網(wǎng)絡(luò)和空間流網(wǎng)絡(luò)都采用ResNet152網(wǎng)絡(luò)進(jìn)行巡檢行為識(shí)別。因?yàn)闀r(shí)間流和空間流網(wǎng)絡(luò)都在ImageNet[11]上進(jìn)行預(yù)訓(xùn)練，所以第1個(gè)卷積層輸入的通道數(shù)為3?？臻g流網(wǎng)絡(luò)輸入的是RGB圖像，不需要進(jìn)行調(diào)整。而對于時(shí)間流來說，采用10幀X方向的連續(xù)堆疊光流幀和10幀Y方向的連續(xù)堆疊光流幀進(jìn)行運(yùn)動(dòng)特征提取，相當(dāng)于向網(wǎng)絡(luò)輸入20幅光流圖像，與第1個(gè)卷積層的通道數(shù)不匹配。采用跨模態(tài)交叉預(yù)訓(xùn)練的方法解決該問題，即獲取第1個(gè)卷積層的3個(gè)通道的權(quán)值后，取其平均值，再復(fù)制20份作為時(shí)間流網(wǎng)絡(luò)第1個(gè)卷積層20個(gè)通道的權(quán)值，而時(shí)域網(wǎng)絡(luò)其他層的權(quán)值與空域?qū)?yīng)層的權(quán)值參數(shù)相同。

3.3 雙通道特征融合

由式(1)可得整個(gè)空間流網(wǎng)絡(luò)的行為識(shí)別結(jié)果Sspatial和時(shí)間流網(wǎng)絡(luò)的行為識(shí)別結(jié)果Stemporal分別為

Sspatial=g(F(T1;W),F(T2;W),F(T3;W))

(5)

Stemporal=g(F(T1;W),F(T2;W),F(T3;W))

(6)

對Sspatial和Stemporal進(jìn)行加權(quán)求和，得到最后的視頻分類結(jié)果Slabels：

Slabels=k1Sspatial+k2Stemporal

(7)

式中k1，k2分別為空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)權(quán)值，均為正整數(shù)。

3.4 數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)

為了得到一個(gè)好的分類模型，機(jī)器學(xué)習(xí)方法需要足夠的訓(xùn)練樣本用于學(xué)習(xí)。IBDS5數(shù)據(jù)集訓(xùn)練樣本相對較少，為避免因訓(xùn)練樣本數(shù)據(jù)不足造成過擬合情況，使用了數(shù)據(jù)增強(qiáng)和遷移學(xué)習(xí)技術(shù)。

通過數(shù)據(jù)增強(qiáng)技術(shù)，可擴(kuò)大輸入數(shù)據(jù)的規(guī)模,增加樣本的差異性，并增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。對RGB圖像幀和光流圖像幀使用了角度翻轉(zhuǎn)、平移變換、邊角剪裁、尺度抖動(dòng)[12]等數(shù)據(jù)增強(qiáng)方法。邊角剪裁是指對輸入圖像的1個(gè)中心區(qū)域和邊緣4個(gè)角落區(qū)域進(jìn)行裁剪，裁剪后的圖像與原圖像差異性較大，網(wǎng)絡(luò)輸入的變化增加，因此,能有效減小過擬合的影響。尺度抖動(dòng)是指將輸入圖像裁剪為固定尺寸，本文將輸入圖像從1 920×1 080修正為256×340，然后裁剪寬和高，寬和高的尺寸在{256,224,196,168}中隨機(jī)采樣，再將裁剪區(qū)域尺寸修正為224×224后輸入對應(yīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

遷移學(xué)習(xí)是指利用已有的知識(shí)來解決不同但相似的問題，即使用預(yù)訓(xùn)練模型來克服目標(biāo)任務(wù)數(shù)據(jù)不足的缺點(diǎn)。對于新目標(biāo)任務(wù)，需要將預(yù)訓(xùn)練網(wǎng)絡(luò)模型中最后一個(gè)用于分類的全連接層替換成新的針對目標(biāo)任務(wù)類別數(shù)目的全連接層。本文采用的源域數(shù)據(jù)集為UCF101行為識(shí)別數(shù)據(jù)集，目標(biāo)數(shù)據(jù)集為IBDS5數(shù)據(jù)集。首先對源域數(shù)據(jù)集進(jìn)行處理，構(gòu)建訓(xùn)練集和測試集，并進(jìn)行預(yù)處理；將預(yù)處理后的數(shù)據(jù)輸入ImageNet網(wǎng)絡(luò)中進(jìn)行預(yù)訓(xùn)練，保存參數(shù)；將預(yù)訓(xùn)練保存的參數(shù)加載到目標(biāo)域神經(jīng)網(wǎng)絡(luò)模型(本文采用VGG16,ResNet18/34/50/101/152)中，并將模型中最后一個(gè)用于分類的全連接層設(shè)置為對應(yīng)的5類輸出；最后對IBDS5數(shù)據(jù)集進(jìn)行處理，并輸入遷移后的神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練，得到行為識(shí)別結(jié)果。

4 實(shí)驗(yàn)分析

4.1 參數(shù)設(shè)置

基于Pytorch1.1.0深度學(xué)習(xí)框架進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)所使用的硬件及軟件配置見表1。

在實(shí)驗(yàn)過程中，將IBDS5數(shù)據(jù)集分為訓(xùn)練集、測試集和驗(yàn)證集3個(gè)部分。這3個(gè)部分之間沒有交集，數(shù)據(jù)量比例為3∶1∶1。

4.2 不同網(wǎng)絡(luò)結(jié)構(gòu)性能對比

4.2.1 空間流網(wǎng)絡(luò)訓(xùn)練

將每個(gè)包含巡檢行為的視頻等分為3段短視頻，從每段視頻中隨機(jī)抽取RGB圖像，輸入空間流網(wǎng)絡(luò)進(jìn)行特征提取，然后融合3段視頻的識(shí)別結(jié)果，獲得空間流網(wǎng)絡(luò)的識(shí)別結(jié)果。

表1 實(shí)驗(yàn)軟硬件配置

空間流網(wǎng)絡(luò)基本參數(shù)設(shè)置：初始學(xué)習(xí)率為0.000 1，批尺寸Batch-size為16，訓(xùn)練2 000代，每50輪測試1次，超參數(shù)momentum為0.9。學(xué)習(xí)率是非常重要的一個(gè)超參數(shù)，甚至能左右模型性能，本文采用隨機(jī)梯度下降優(yōu)化算法，根據(jù)學(xué)習(xí)結(jié)果自動(dòng)更新學(xué)習(xí)率。

為加快網(wǎng)絡(luò)收斂速度并抑制神經(jīng)網(wǎng)絡(luò)過擬合現(xiàn)象[13]，在全連接層后增加一個(gè)丟包層，對網(wǎng)絡(luò)進(jìn)行優(yōu)化。在訓(xùn)練過程中，隨機(jī)丟棄神經(jīng)網(wǎng)絡(luò)單元及其連接，抑制過擬合現(xiàn)象。設(shè)置空間流網(wǎng)絡(luò)的丟失率為0.9。表2給出了網(wǎng)絡(luò)結(jié)構(gòu)為VGG16,ResNet18,ResNet34,ResNet50,ResNet101,ResNet152的空間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率。其中Top-1準(zhǔn)確率是指預(yù)測排名第一的類別與實(shí)際結(jié)果相符的概率。

從表2可看出，與其他網(wǎng)絡(luò)結(jié)構(gòu)相比，ResNet152結(jié)構(gòu)的空間流網(wǎng)絡(luò)取得了最高的行為識(shí)別準(zhǔn)確率，Top-1準(zhǔn)確率達(dá)到了94.47%。

4.2.2 時(shí)間流網(wǎng)絡(luò)訓(xùn)練

時(shí)間流網(wǎng)絡(luò)訓(xùn)練與空間流網(wǎng)絡(luò)訓(xùn)練類似。將每個(gè)包含巡檢行為的視頻等分為3段短視頻，從每段視頻中隨機(jī)抽取10幀X方向和10幀Y方向的連續(xù)堆疊光流幀，輸入時(shí)間流網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)，然后融合3段視頻的識(shí)別結(jié)果，獲得時(shí)間流網(wǎng)絡(luò)的識(shí)別結(jié)果。

相對較大的初始學(xué)習(xí)率有利于網(wǎng)絡(luò)快速收斂，因此，設(shè)置初始學(xué)習(xí)率為0.001。丟失率設(shè)置為0.8。其他參數(shù)與空間流網(wǎng)絡(luò)參數(shù)相同。時(shí)間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率見表3。

從表3可看出，ResNet152結(jié)構(gòu)的時(shí)間流網(wǎng)絡(luò)取得了最高的行為識(shí)別準(zhǔn)確率，Top-1準(zhǔn)確率達(dá)到了96.22%。

表3 時(shí)間流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率

4.3 權(quán)重比例確定

ResNet152結(jié)構(gòu)的空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)性能最好，因此,對其進(jìn)行進(jìn)一步加權(quán)融合。設(shè)置多種權(quán)重比例進(jìn)行實(shí)驗(yàn)分析，結(jié)果見表4。

表4 雙流網(wǎng)絡(luò)在IBDS5數(shù)據(jù)集上的準(zhǔn)確率

從表4可看出，當(dāng)空間流和時(shí)間流的權(quán)重比例逐漸減小時(shí)，Top-1準(zhǔn)確率逐漸上升，這說明時(shí)間流網(wǎng)絡(luò)提取的運(yùn)動(dòng)特征對巡檢行為識(shí)別有更重要的作用。當(dāng)k1和k2的比例為1∶2時(shí)，Top-1準(zhǔn)確率最高，達(dá)到了98.92%。而單獨(dú)空間流網(wǎng)絡(luò)使用ResNet152網(wǎng)絡(luò)的Top-1準(zhǔn)確率為94.47%，單獨(dú)時(shí)間流網(wǎng)絡(luò)使用ResNet152網(wǎng)絡(luò)的Top-1準(zhǔn)確率為96.22%，這說明集成雙流網(wǎng)絡(luò)的特征可以有效提升巡檢行為識(shí)別性能。

4.4 不同方法性能對比

4.4.1 IBDS5數(shù)據(jù)集實(shí)驗(yàn)

不同方法在IBDS5數(shù)據(jù)集上的準(zhǔn)確率見表5。3D-CNN方法的Top-1準(zhǔn)確率為92.48%，這是由于巡檢行為數(shù)據(jù)集樣本較少，出現(xiàn)了過擬合問題，導(dǎo)致識(shí)別效果不佳。傳統(tǒng)雙流CNN方法的Top-1準(zhǔn)確率為94.27%，這是由于配電室巡檢監(jiān)控視頻持續(xù)時(shí)間較長，而傳統(tǒng)雙流CNN方法對含有復(fù)雜動(dòng)作的長視頻識(shí)別效果不佳。雙流CNN+LSTM 方法[14]的Top-1準(zhǔn)確率為95.86%，亦低于本文方法。

表5 不同方法在IBDS5數(shù)據(jù)集上的準(zhǔn)確率

4.4.2 UCF101數(shù)據(jù)集實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證本文方法的性能，使用UCF101數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。UCF101數(shù)據(jù)集是目前行為識(shí)別領(lǐng)域應(yīng)用最廣泛的數(shù)據(jù)集，共包含101類動(dòng)作，由25個(gè)人每人做4～7組動(dòng)作，每個(gè)視頻時(shí)長為2～10 s，共13 320個(gè)視頻，共6.5 GB。

使用UCF101數(shù)據(jù)集訓(xùn)練時(shí)，采用Split1訓(xùn)練/測試分割方案，空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)的權(quán)重比例為1∶2，實(shí)驗(yàn)結(jié)果見表6。

表6 不同方法在UCF101數(shù)據(jù)集上的準(zhǔn)確率

對比表5和表6可知，各種方法在IBDS5數(shù)據(jù)集上的識(shí)別準(zhǔn)確率均高于在UCF101數(shù)據(jù)集上的識(shí)別準(zhǔn)確率。其原因在于IBDS5數(shù)據(jù)集的背景較固定，而UCF101數(shù)據(jù)集的背景變化較大，且人員遮擋問題較嚴(yán)重。

5 結(jié)論

(1)提出了一種基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別方法。自制配電室巡檢行為數(shù)據(jù)集IBDS5，通過實(shí)驗(yàn)討論并分析了不同網(wǎng)絡(luò)結(jié)構(gòu)和不同權(quán)重比例集成策略對識(shí)別準(zhǔn)確率的影響。

(2)實(shí)驗(yàn)結(jié)果表明，以ResNet152網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)，且權(quán)重比例為1∶2的空間流和時(shí)間流雙流融合網(wǎng)絡(luò)具有較高的識(shí)別準(zhǔn)確率，Top-1準(zhǔn)確率達(dá)到98.92%；本文方法在IBDS5數(shù)據(jù)集和公共數(shù)據(jù)集UCF101上的識(shí)別準(zhǔn)確率均優(yōu)于3D-CNN、傳統(tǒng)雙流CNN等現(xiàn)有方法。

(3)本文方法仍存在以下不足：當(dāng)多個(gè)巡檢人員同時(shí)巡檢時(shí)，巡檢人員之間可能出現(xiàn)相互遮擋的情況，造成誤識(shí)別和未識(shí)別問題。下一步工作將在多人巡檢行為識(shí)別方面進(jìn)行研究，以滿足實(shí)際應(yīng)用需求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡