摘要:現(xiàn)有的煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為(如攀爬、跨越、倚靠帶式輸送機(jī)等)識(shí)別方法對(duì)特征提取不充分、難以考慮到行為時(shí)間差異,導(dǎo)致違規(guī)行為識(shí)別準(zhǔn)確率不高。針對(duì)該問(wèn)題,基于ResNet50 模型,提出了一種基于多特征融合時(shí)差網(wǎng)絡(luò)(MFFTDN)的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法,將多特征融合和時(shí)間差分進(jìn)行結(jié)合,對(duì)不同時(shí)間段的行為進(jìn)行多特征融合。首先在原始模型ResNet50 的第2 和第3 階段引入短期多特征融合(STMFF) 模塊,將來(lái)自多個(gè)連續(xù)幀的時(shí)間和特征拼接在一起,再對(duì)融合后的特征進(jìn)行時(shí)間差分計(jì)算,即相鄰幀的特征差值,以在短期內(nèi)捕捉局部動(dòng)作變化。然后在原始模型ResNet50 的第4 階段引入長(zhǎng)期多特征融合(LTMFF) 模塊,將來(lái)自連續(xù)幀的短期多特征拼接在一起,再對(duì)相鄰時(shí)間點(diǎn)的特征進(jìn)行時(shí)間差分計(jì)算,以獲取行為的長(zhǎng)期多特征。最后將融合后的特征進(jìn)行分類,輸出識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明:① 該方法的平均精度和準(zhǔn)確率較原始模型ResNet50 分別提高了8.18% 和8.47%,說(shuō)明同時(shí)引入STMFF 和LTMFF 模塊能夠有效提取到不同時(shí)間段的多特征信息。② 該方法在自建煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為數(shù)據(jù)集上的準(zhǔn)確率為89.62%,平均精度為89.30%,模型的參數(shù)量為197.2 ×106。③ Grad?CAM 熱力圖顯示,該方法能夠更有效地關(guān)注到違規(guī)行為的關(guān)鍵區(qū)域,精確捕捉到井下帶式輸送機(jī)區(qū)域的違規(guī)行為。
關(guān)鍵詞:帶式輸送機(jī);不安全行為;違規(guī)行為識(shí)別;短期多特征融合;長(zhǎng)期多特征融合;多特征融合時(shí)差網(wǎng)絡(luò);時(shí)間差分
中圖分類號(hào):TD634 文獻(xiàn)標(biāo)志碼:A
0 引言
大量的數(shù)據(jù)統(tǒng)計(jì)表明,由于煤礦井下作業(yè)人員的違規(guī)行為所引發(fā)的死亡事故占煤礦安全事故的80% 以上, 其中帶式輸送機(jī)區(qū)域的安全事故占27%[1]。識(shí)別帶式輸送機(jī)區(qū)域的違規(guī)行為可減少人員傷亡,具有重要的實(shí)際意義。通過(guò)參考煤礦安全管理?xiàng)l例,概括出幾種帶式輸送機(jī)區(qū)域頻繁發(fā)生的典型礦工不安全行為:攀爬、跨越、倚靠帶式輸送機(jī)等。當(dāng)前對(duì)礦工違規(guī)行為的識(shí)別主要通過(guò)人工觀看視頻的方式,極易造成工作人員視覺(jué)疲勞而引發(fā)漏判或誤判現(xiàn)象。隨著計(jì)算機(jī)技術(shù)的發(fā)展,使用計(jì)算機(jī)技術(shù)代替人工識(shí)別違規(guī)行為成為研究熱點(diǎn)之一。
目前井下違規(guī)行為的主要識(shí)別方式包括物聯(lián)網(wǎng)監(jiān)測(cè)[2-3]和計(jì)算機(jī)視覺(jué)識(shí)別。物聯(lián)網(wǎng)監(jiān)測(cè)是通過(guò)在礦工身上佩戴傳感器,采集由不同行為引發(fā)的運(yùn)動(dòng)數(shù)據(jù),然后分析數(shù)據(jù)的差異來(lái)進(jìn)行識(shí)別。但傳感器隨著使用次數(shù)的增加會(huì)逐漸老化,礦井下復(fù)雜的環(huán)境會(huì)導(dǎo)致傳感器信號(hào)帶有許多噪聲,從而影響識(shí)別結(jié)果,不能滿足實(shí)際需求。基于計(jì)算機(jī)視覺(jué)的井下行為識(shí)別以端到端的方式從數(shù)據(jù)中學(xué)習(xí)特征,再進(jìn)行分類。按照網(wǎng)絡(luò)結(jié)構(gòu)的不同可分為基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)的行為識(shí)別[4-5],基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的行為識(shí)別[6]、基于雙流卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別[7-8]和基于混合深度學(xué)習(xí)網(wǎng)絡(luò)的行為識(shí)別[9-10]。這些方法能更準(zhǔn)確地識(shí)別復(fù)雜行為模式,具有更高的識(shí)別準(zhǔn)確性和可靠性。按照卷積的不同,將CNN 分為2D 卷積網(wǎng)絡(luò)和3D 卷積網(wǎng)絡(luò),其中,2D 卷積網(wǎng)絡(luò)提取空間特征,但對(duì)時(shí)間信息不夠敏感,而3D 卷積網(wǎng)絡(luò)則在保留通道信息的同時(shí)處理時(shí)間信息,能更有效地捕捉視頻動(dòng)態(tài)行為?;赗NN 的行為識(shí)別方法能夠有效地捕捉各幀之間的相關(guān)性,但數(shù)據(jù)量較大時(shí),調(diào)參的過(guò)程相對(duì)復(fù)雜。雙流卷積神經(jīng)網(wǎng)絡(luò)可以有效地融合2 個(gè)獨(dú)立網(wǎng)絡(luò)的輸出,但融合過(guò)程可能增加模型設(shè)計(jì)的復(fù)雜性?;旌仙疃葘W(xué)習(xí)網(wǎng)絡(luò)結(jié)合了不同網(wǎng)絡(luò)模型的優(yōu)點(diǎn),提高了模型的適應(yīng)性和泛化性,但也面臨著計(jì)算成本的挑戰(zhàn)。在井下行為識(shí)別中,不同場(chǎng)景的行為識(shí)別需求和挑戰(zhàn)有所不同,而帶式輸送機(jī)通常處于狹窄、通風(fēng)條件有限的環(huán)境中,容易受到煤塵、光照等因素的影響,現(xiàn)有方法在識(shí)別該區(qū)域的行為時(shí)可能會(huì)對(duì)部分行為的特征提取不完全,從而影響識(shí)別效果。
針對(duì)帶式輸送機(jī)區(qū)域,文獻(xiàn)[11]提出了一種基于改進(jìn)運(yùn)動(dòng)歷史圖描述礦工行為過(guò)程的方法,該方法的識(shí)別準(zhǔn)確率較高,但只適合較為簡(jiǎn)單的場(chǎng)景,當(dāng)存在遮擋時(shí)會(huì)影響準(zhǔn)確率。在解決帶式輸送機(jī)區(qū)域復(fù)雜多變的環(huán)境和動(dòng)作問(wèn)題時(shí),使用單一特征建??赡軙?huì)面臨一些限制,沒(méi)有考慮到動(dòng)作的多樣性、動(dòng)作變化的實(shí)時(shí)性,導(dǎo)致難以捕捉到動(dòng)作的更細(xì)粒度的特征。使用多特征融合建模時(shí),能夠很大程度地提高模型的準(zhǔn)確率。文獻(xiàn)[12]提出了一種組合注意力機(jī)制和密集殘差的方法來(lái)改進(jìn)模型,以識(shí)別礦工安全、違規(guī)乘坐帶式輸送機(jī),在行為較相似時(shí)也能夠較好地識(shí)別出來(lái)。然而,這種方法在制作基于關(guān)鍵點(diǎn)的行為識(shí)別數(shù)據(jù)集時(shí)存在一定的難度。文獻(xiàn)[13]提出了基于雙流模式的高層場(chǎng)景特征融合方法,對(duì)Gist 特征進(jìn)行更高層次的學(xué)習(xí)并實(shí)現(xiàn)對(duì)原始圖像的語(yǔ)義抽象,對(duì)井下帶式輸送機(jī)區(qū)域的拋扔雜物、跨越、攀爬等不安全行為進(jìn)行識(shí)別,該方法具有較高的識(shí)別率,但需要將多種網(wǎng)絡(luò)進(jìn)行融合,復(fù)雜度較高,處理速度不足以滿足要求,且未能考慮到動(dòng)作在不同時(shí)間內(nèi)的變化差異,使用單一的時(shí)間尺度不能進(jìn)行更加精細(xì)的區(qū)分。
針對(duì)目前煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法在特征提取方面存在的不足,且難以有效考慮行為的時(shí)間變化,本文提出一種基于多特征融合時(shí)差網(wǎng)絡(luò)(Multi-feature Fusion for Time-difference Networks,MFFTDN)的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法,將多特征融合[14]和時(shí)間差分[15]結(jié)合,對(duì)不同時(shí)間段的行為進(jìn)行多特征融合。首先在原始模型Res-Net50 的第2 和第3 階段引入短期多特征融合(ShorttermMulti-featur Fusion,STMFF)模塊,將來(lái)自多個(gè)連續(xù)幀的時(shí)間和特征拼接在一起,再對(duì)融合后的特征進(jìn)行時(shí)間差分計(jì)算,即相鄰幀的特征差值,以在短期內(nèi)捕捉局部動(dòng)作變化。然后在ResNet50 的第4 階段引入長(zhǎng)期多特征融合(Long-term Multi-feature Fusion,LTMFF)模塊,將來(lái)自連續(xù)幀的短期多特征拼接在一起,再對(duì)相鄰時(shí)間點(diǎn)的特征進(jìn)行差分計(jì)算,以獲取行為的長(zhǎng)期多特征。最后將融合后的特征進(jìn)行分類,輸出識(shí)別結(jié)果。
1 MFFTDN 架構(gòu)
單特征建模忽略了全局信息,無(wú)法徹底捕捉到動(dòng)作特征。MFFTDN 則能充分利用完整的視頻信息來(lái)學(xué)習(xí)動(dòng)作的多個(gè)特征,并使用視頻幀均勻采樣來(lái)提高效率,結(jié)構(gòu)如圖1 所示。MFFTDN 基于ResNet50模型,在stage0 到stage4 這5 個(gè)階段中插入STMFF和LTMFF 模塊。其中,stage0 階段和stage3 階段為ResNet50 網(wǎng)絡(luò)的原始模塊,stage0 階段由7×7 的卷積層和最大池化層組成, stage3 階段由1×1 的卷積層和3×3 的卷積層堆疊而成(這種堆疊重復(fù)6 次)。在stage1 階段和stage2 階段中,將第1 個(gè)1×1 的卷積層替換為STMFF 模塊,其余保持不變,并分別重復(fù)堆疊3 次和4 次。將stage4 階段替換為L(zhǎng)TMFF,并重復(fù)堆疊3 次。
首先,對(duì)于一組給定的行為幀序列,經(jīng)stage0 階段對(duì)視頻幀進(jìn)行下采樣并降低維度。其次, 經(jīng)stage1 和stage2 階段提取行為的短期多特征,再將這種特征輸入到stage3 階段提取更深層次的信息。然后,將更深層次的信息輸入到stage4 階段以提取行為的長(zhǎng)期多特征信息。最后,將所提取的特征信息經(jīng)全局平均池化層和全連接層輸出行為預(yù)測(cè)結(jié)果。
1.1 STMFF 模塊
由于相鄰幀在局部窗口中差別不大,模型對(duì)視頻中的幀進(jìn)行了采樣,平均每8 幀采樣1 幀。STMFF在網(wǎng)絡(luò)的早期提取局部的短期多特征信息, 如圖2 所示。
首先將大小為H ×W ×C ×T的特征圖Fin沿著通道進(jìn)行分裂,其中H 為高度,W 為寬度,T 為時(shí)間。設(shè)沿著c1方向的分裂系數(shù)為r1, 分裂后的特征為F1 = r1 · Fin。沿著c2方向的分裂系數(shù)為r2, 使用3×1×1的卷積核對(duì)特征圖的高度?寬度特征進(jìn)行建模,得到FH×W。使用3×1×1的卷積核對(duì)特征圖的高度?時(shí)間進(jìn)行建模,得到FH×T。使用1×1×3的卷積核對(duì)特征圖的寬度?時(shí)間進(jìn)行建模, 得到FW×T。將FH×W,F(xiàn)H×T,F(xiàn)W×T融合, 得到初步融合后的特征F2 ∈ RH×W×C×T,接著將F2與F1融合得到幀的細(xì)節(jié)融合特征Fcon ∈ RH×W×C×T。
式中:KH×W,KH×T,KW×T分別為特征圖在高度?寬度、高度?時(shí)間、寬度?時(shí)間方向上的卷積核;i 為特征圖幀數(shù);concat 為拼接操作。
其次,為了解決相鄰幀之間位置不對(duì)齊的問(wèn)題,使用跨段信息來(lái)增強(qiáng)幀之間的關(guān)聯(lián)。使用1×1的卷積將Fcon及其前后幀的特征維度壓縮為RH×W×C/r。計(jì)算第i-1幀特征圖Fi-1和第i 幀特征圖Fi之間的對(duì)齊時(shí)間差D(Fi-1,F(xiàn)i)、第i幀特征圖Fi 和第i+1幀特征圖Fi+1 之間的對(duì)齊時(shí)間差D(Fi,F(xiàn)i+1),并使用1×1 的卷積核計(jì)算第i 幀特征圖Fi 與第i-1幀特征圖Fi-1 和第i+1幀特征圖Fi+1 之間的對(duì)齊卷積G(Fi-1)和G(Fi+1)。
D(Fi-1,F(xiàn)i) = Fi -G(Fi-1) (6)
D(Fi,F(xiàn)i+1) = Fi -G(Fi+1) (7)
然后,使用時(shí)間對(duì)齊的多尺度模塊來(lái)提取短距離運(yùn)動(dòng)信息。這一過(guò)程主要包括多尺度模塊融合操作、卷積和激活卷積結(jié)果。多尺度融合模塊由conv3×3和“Pooling+Conv1+upSample”構(gòu)成,其中Conv1×1代表1×1 的卷積,Pooling代表平均池化,up-Sample 代表雙線性上采樣,在多尺度融合之后特征維度變?yōu)镽C×H×W。再將RC×H×W的特征使用“Conv2+sigmoid” 進(jìn)行壓縮和激活卷積結(jié)果, 即可得到第i?1 幀特征圖Fi-1 和第 幀特征圖Fi 的短期運(yùn)動(dòng)的多尺度運(yùn)動(dòng)信息M(Fi-1,F(xiàn)i) ∈ RC×1×1、第i 幀特征圖Fi 與第i+1 幀特征圖Fi+1 的短期多尺度運(yùn)動(dòng)信息M(Fi,F(xiàn)i+1) 2 RC×1×1。
式中:s(·) 為sigmoid 函數(shù);N(·) 為1×1 的卷積;Hj 為從不同的感受野j 提取的運(yùn)動(dòng)信息。
最后,將短距離運(yùn)動(dòng)信息和細(xì)節(jié)融合特征Fcon融合,得到短期多特征融合信息F ∈ RH×WC×T。
F = Fcon ⊙1=2 [M(Fi-1,F(xiàn)i)+M(Fi,F(xiàn)i+1)] (10)
式中⊙為同或運(yùn)算。
1.2 LTMFF 模塊
STMFF 模塊能夠有效捕捉動(dòng)作序列的短期特征,但在捕捉動(dòng)作序列的長(zhǎng)期特征時(shí)會(huì)受到限制。在網(wǎng)絡(luò)后期,不同行為的時(shí)間尺度和空間特征差異更為明顯,而LTMFF 模塊能夠?qū)⒉煌瑫r(shí)空段的特征相關(guān)聯(lián),以更好地利用上下文信息,將該模塊同時(shí)作用于空間和時(shí)間上,對(duì)局部多特征進(jìn)行增強(qiáng),通過(guò)全局角度學(xué)習(xí)每個(gè)特征點(diǎn)的時(shí)空信息。為了適應(yīng)變化粒度更大的時(shí)空尺度,將卷積重新設(shè)置為自適應(yīng)時(shí)空卷積,如圖3 所示。
首先,將大小為H ×W ×C ×T的幀通過(guò)時(shí)間平均池化和空間平均池化計(jì)算得到2 種不同的幀描述向量Vt = P(Xt) Vs = P(Xs)。其中, Xt和Xs分別為第 i幀原始的時(shí)間和空間特征,P(·)為全局平均池化,Vt ∈ RC×T Vs ∈ RH×W。
其次,通過(guò)采用2 層一維卷積將局部上下文向量Vt和Vs進(jìn)行堆疊,并以比率r進(jìn)行維度壓縮。同時(shí)為了能夠獲取更大的感受野,進(jìn)一步納入全局時(shí)空信息,將線性映射函數(shù)A(g)添加到局部向量中,得到全局時(shí)間信息B(Xt,g)和全局空間信息B(Xs,g),其中g(shù)為空間和時(shí)間維度上的全局平均集合值。
B(Xt,g) = N(δ(m(N(Vt + A(g))))) (11)
B(Xs,g) = N(δ(m(N(Vs + A(g))))) (12)
式中 (·) 和m(·) 分別為ReLU 函數(shù)和batchnorm 函數(shù)。
將全局時(shí)間信息B(Xt,g)和全局空間信息B(Xs,g)中最后一個(gè)卷積的權(quán)重初始化為0,再添加常數(shù)1,即可得到校準(zhǔn)權(quán)重αt和αs。
αt = 1+ B(Xt,g) (13)
αs = 1+ B(Xs,g) (14)
然后,將校準(zhǔn)權(quán)重αt和αs分別與基本權(quán)重θb乘,即可得到第i幀的時(shí)間權(quán)重θt∈RT×C×k2和空間權(quán)θs∈RH×W×k2。
Xt = θtXt = (αtθb)Xt (15)
?Xs = θsXs = (αsθb)Xs (16)
式中Xt和X s分別為校準(zhǔn)之后時(shí)間和空間特征。
最后,將校準(zhǔn)后的時(shí)間特征、空間特征和原始特征融合,得到長(zhǎng)期多特征融合信息B ∈ RH×W×C×T。
2 實(shí)驗(yàn)分析
2.1 數(shù)據(jù)集構(gòu)建
數(shù)據(jù)集來(lái)源于煤礦現(xiàn)場(chǎng)的攝像視頻, 涵蓋了3 類動(dòng)作,其中一類是正常行為,另外兩類是頻繁出現(xiàn)的違規(guī)行為,包括攀爬、跨越和倚靠帶式輸送機(jī)。共采集到460 個(gè)視頻,如圖4 所示。為了解決類別間不平衡的問(wèn)題,采用隨機(jī)擦除、色彩抖動(dòng)和鏡像翻轉(zhuǎn)對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)處理,獲得1 230 個(gè)視頻樣本。每個(gè)視頻的時(shí)長(zhǎng)為4~7 s,以確保每個(gè)行為類別的樣本相對(duì)平衡。對(duì)每個(gè)視頻進(jìn)行了分類標(biāo)注,并按照6∶2∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.2 實(shí)驗(yàn)設(shè)置
選擇具有簡(jiǎn)單和模塊化結(jié)構(gòu)的ResNet 作為主干網(wǎng)絡(luò),將STMFF 集成到ResNet 的第2 和第3 階段,以提取行為的短期多特征信息。將LTMFF 集成到ResNet 的第4 階段, 以提取行為的長(zhǎng)期多特征信息。為了加快模型的訓(xùn)練速度,在多特征融合模塊中使用可分離卷積。選擇PyTorch 框架作為實(shí)驗(yàn)的訓(xùn)練模型,并在RTX 3090 硬件平臺(tái)上進(jìn)行訓(xùn)練。
訓(xùn)練過(guò)程中,設(shè)置學(xué)習(xí)率為0.01,進(jìn)行25 輪訓(xùn)練, 每隔10 輪學(xué)習(xí)率衰減為原來(lái)的50%, 共進(jìn)行150 輪訓(xùn)練。為了優(yōu)化訓(xùn)練過(guò)程,采用動(dòng)量為0.9、動(dòng)量衰減為10?4 的SGD 優(yōu)化器,并且每個(gè)GPU 處理一小批包含8 個(gè)視頻剪輯的數(shù)據(jù)。為了提高訓(xùn)練速度,在視頻的時(shí)間軸上均勻采樣多個(gè)片段,并使用softmax 概率的平均值作為最終預(yù)測(cè)結(jié)果,采用準(zhǔn)確率和參數(shù)量來(lái)衡量模型的性能。其中,top1_acc 表示與實(shí)際結(jié)果相符的類別準(zhǔn)確率,mean_acc 表示平均精度,params 表示模型的參數(shù)量。
2.3 消融實(shí)驗(yàn)
為了證明本文引入STMFF 和LTMFF 模塊的有效性,進(jìn)行消融實(shí)驗(yàn),結(jié)果見(jiàn)表1??煽闯鰡为?dú)添加STMFF 模塊時(shí), mean_acc 和top1_acc 較原始模型ResNet50 分別提升了4.07% 和4.23%,這是由于在早期使用STMFF 模塊能有效提取到短期多特征。單獨(dú)添加LTMFF 模塊時(shí),mean_acc 和top1_acc 較原始模型ResNet50 分別提升了6.98% 和7.15%,這是由于在網(wǎng)絡(luò)后期關(guān)聯(lián)了上下文特征信息,擴(kuò)大了感受野。當(dāng)同時(shí)添加STMFF 和LTMFF 模塊時(shí),mean_acc 和top1_acc 較原始模型ResNet50 分別提高了8.18% 和8.47%,達(dá)到89.30% 和89.62%,這是由于同時(shí)引入STMFF 和LTMFF 模塊能夠有效提取不同時(shí)間段的多特征信息。
2.4 對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文方法的性能,選擇現(xiàn)階段具有代表性的行為識(shí)別方法進(jìn)行比較,包括三維卷積網(wǎng)絡(luò)(Convolutional 3D,C3D)[16]、僅慢速網(wǎng)絡(luò)(Slow-OnlyNetwork, SlowOnly) [17]、快慢速網(wǎng)絡(luò) (SlowFast Network,SlowFast) [18]、時(shí)間偏移網(wǎng)絡(luò)(Temporal ShiftModule, TSM) [19]、時(shí)間敏感變壓器 (Time-SensitiveTransformer, TimesFormer)[20]、時(shí)間金字塔網(wǎng)絡(luò)(TemporalPyramid Network,TPN)[21]。各行為識(shí)別方法對(duì)比結(jié)果見(jiàn)表2。
由表2 可看出,本文的參數(shù)量為C3D 的1/3,這是因?yàn)镃3D 同時(shí)對(duì)動(dòng)作的三維特征進(jìn)行建模,提高了識(shí)別精度,但需要大量參數(shù),增加了計(jì)算量。本文方法的mean_acc 和top1_acc 較SlowFast 方法分別提高了9.72% 和10.39%,參數(shù)量較SlowFast 方法減少了25.93%,這是因?yàn)镾lowFast 方法雖然結(jié)合了慢速路徑和快速路徑的特征,但其時(shí)間尺度選擇可能不適合井下行為的識(shí)別。本文方法的參數(shù)量較Slow-Only 減少了28.6%,這是因?yàn)镾lowOnly 方法使用了較多的卷積層和更大的卷積核,以更高的分辨率來(lái)捕捉空間和時(shí)間信息。本文方法的mean_acc 和top1_acc 較TimesFormer 方法分別提高了34.72% 和34.6%, 參數(shù)量較TimesFormer 方法減少了71.99%,這是因?yàn)門(mén)imesFormer 方法需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,本文的數(shù)據(jù)集無(wú)法適應(yīng)該模型。本文方法的mean_acc 和top1_acc 較TPN 和TSM 方法分別提高了21.22%,15.94% 和21.11%,15.67%,這是因?yàn)門(mén)PN和TSM 方法主要對(duì)空間特征進(jìn)行建模,而對(duì)時(shí)間特征的提取很弱。本文方法能夠有效將多特征融合和時(shí)間差分結(jié)合,在提高行為識(shí)別準(zhǔn)確率的同時(shí),還能保持較低的參數(shù)量,更適用于帶式輸送機(jī)區(qū)域的違規(guī)行為識(shí)別。
2.5 可視化結(jié)果
選用可視化工具Grad?CAM 對(duì)本文方法和C3D,SlowOnly,TPN 方法進(jìn)行可視化展示,如圖5 所示。
從圖5 可看出,對(duì)于行走和跨越行為,本文方法、C3D 和SlowOnly 的熱力圖顯示模型主要關(guān)注在人物動(dòng)作上,其中本文方法覆蓋范圍較為集中,C3D和SlowOnly 覆蓋范圍較為分散。對(duì)于倚靠行為,本文方法的熱力圖顯示其關(guān)注點(diǎn)集中在倚靠的姿勢(shì)上,而TPN 的關(guān)注區(qū)域相對(duì)分散,無(wú)法準(zhǔn)確捕捉到倚靠動(dòng)作的細(xì)節(jié)。這說(shuō)明本文方法能夠更有效地關(guān)注到違規(guī)行為的關(guān)鍵區(qū)域,更精確地捕捉到井下帶式輸送機(jī)區(qū)域的違規(guī)行為。
3 結(jié)論
1) 針對(duì)目前煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法準(zhǔn)確率不高的問(wèn)題, 提出了一種基于MFFTDN 的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法。在早期使用STMFF 模塊提取行為的短期多特征,在后期使用LTMFF 模塊提取行為的長(zhǎng)期多特征,這2 種模塊采用可分離卷積的設(shè)計(jì)方式,從而提高了識(shí)別準(zhǔn)確率并降低了計(jì)算量。
2) 所提方法在自建井下帶式輸送機(jī)區(qū)域違規(guī)行為數(shù)據(jù)集上的準(zhǔn)確率為89.62%,平均精度為89.30%;與代表性方法C3D,SlowOnly,TPN 和TSM 等相比,該方法能夠更有效地識(shí)別出帶式輸送機(jī)區(qū)域的違規(guī)行為;Grad?CAM 熱力圖顯示,該方法能更有效地關(guān)注違規(guī)行為的關(guān)鍵區(qū)域,精確捕捉井下帶式輸送機(jī)區(qū)域的違規(guī)行為。
3) MFFTDN 在捕捉幀與幀之間動(dòng)作關(guān)聯(lián)性時(shí)的計(jì)算時(shí)間較長(zhǎng),下一步將研究使用更少的時(shí)間來(lái)捕捉幀之間的關(guān)聯(lián)特征,在更短的時(shí)間內(nèi)分析出時(shí)間差。
參考文獻(xiàn)(References):
[ 1 ]張培森,李復(fù)興,朱慧聰,等. 2008—2020 年煤礦事故統(tǒng)計(jì)分析及防范對(duì)策[J]. 礦業(yè)安全與環(huán)保, 2022,49(1):128-134.
ZHANG Peisen, LI Fuxing, ZHU Huicong, et al.Statistical analysis and prevention countermeasures ofcoal mine accidents from 2008 to 2020[J]. Mining Safety & Environmental Protection, 2022, 49(1) :128-134.
[ 2 ]趙小虎,黃程龍. 基于Kinect 的礦井人員違規(guī)行為識(shí)別算法研究[J]. 湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,47(4):92-98.
ZHAO Xiaohu, HUANG Chenglong. Research onidentification algorithm of mine person's violationbehavior based on Kinect[J]. Journal of HunanUniversity(Natural Sciences),2020,47(4):92-98.
[ 3 ]PIENAAR S W, MALEKIAN R. Human activityrecognition using visual object detection[C]. IEEE 2ndWireless Africa Conference, Pretoria,2019:1-5.
[ 4 ]梁晨陽(yáng),華鋼. 基于信道狀態(tài)信息的井下人員行為識(shí)別方法研究[J]. 煤炭技術(shù),2022,41(11):182-186.
LIANG Chenyang, HUA Gang. Research onidentification method of underground personnel behaviorbased on channel state information[J]. CoalTechnology,2022,41(11):182-186.
[ 5 ]ZHANG Xin, ZHU Yan, DENG Li, et al. A slowfastbehavior recognition algorithm incorporating motionsaliency[C]. 2nd International Conference on ComputerGraphics, Artificial Intelligence, and Data Processing,Guangzhou,2022. DOI:10.1117/12.2674969.
[ 6 ]王璇,吳佳奇,陽(yáng)康,等. 煤礦井下人體姿態(tài)檢測(cè)方法[J]. 工礦自動(dòng)化,2022,48(5):79-84.
WANG Xuan, WU Jiaqi, YANG Kang, et al. Humanposture detection method in coal mine[J]. Journal ofMine Automation,2022,48(5):79-84.
[ 7 ]黨偉超,張澤杰,白尚旺,等. 基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別[J]. 工礦自動(dòng)化,2020,46(4):75-800.
DANG Weichao,ZHANG Zejie,BAI Shangwang,et al.Inspection behavior recognition of underground powerdistribution room based on improved two-stream CNNmethod[J]. Industry and Mine Automation, 2020,46(4):75-80.
[ 8 ]LIU Xiaoyang, LIU Jinqiang, ZHENG Haolin. Gaitrecognition method of coal mine personnel based ontwo-stream neural network[J]. Journal of MiningScience and Technology,2021,6(2):218-227.
[ 9 ]劉斌,侯宇輝,王延輝. 基于井下軌跡數(shù)據(jù)的煤礦人員違規(guī)行為識(shí)別[J]. 煤炭與化工,2021,44(10):82-85.
LIU Bin, HOU Yuhui, WANG Yanhui. Recognition ofillegal behavior of coal mine personnel based onunderground trajectory data[J]. Coal and ChemicalIndustry,2021,44(10):82-85.
[10]WANG Zheng, LIU Yan, DUAN Siyuan, et al. Anefficient detection of non-standard miner behavior usingimproved YOLOv8[J]. Computers and ElectricalEngineering, 2023, 112. DOI: 10.1016/J.COMPELECENG.2023.109021.
[11]仝澤友,[11] 丁恩杰. 礦井皮帶區(qū)礦工違規(guī)行為識(shí)別方法[J]. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,41(2):40-46,6-7.
TONG Zeyou, DING Enjie. Identification method ofminer violation behavior in mine belt area[J]. Journal ofHenan University of Science and Technology(NaturalScience),2020,41(2):40-46,6-7.
[12]李善華,肖濤,李肖利,等. 基于DRCA?GCN 的礦工動(dòng)作識(shí)別模型[J]. 工礦自動(dòng)化, 2023, 49(4) : 99-105,112.
LI Shanhua, XIAO Tao, LI Xiaoli, et al. Miner actionrecognition model based on DRCA-GCN[J]. Journal ofMine Automation,2023,49(4):99-105,112.
[13]陳天,閆雨寒,徐達(dá)偉,等. 基于改進(jìn)雙流算法的礦工行為識(shí)別方法研究[J]. 河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,42(4):47-53,7.
CHEN Tian, YAN Yuhan, XU Dawei, et al. Researchon miner behavior recognition method based onimproved two-stream algorithm[J]. Journal of HenanUniversity of Science and Technology(NaturalScience),2021,42(4):47-53,7.
[14]WU Wenhao, HE Dongliang, LIN Tianwei, et al.MVFNet: multi-view fusion network for efficient videorecognition[C]. AAAI Conference on ArtificialIntelligence,Vancouver,2021. DOI:10.48550/arXiv.2012.06977.
[15]XIE Zhao, CHEN Jiansong, WU Kewei, et al. Globaltemporal difference network for action recognition[J].IEEE Transactions on Multimedia,2023,25:7594-7606.
[16]TRAN D, BOURDEV L, FERGUS R, et al. Learningspatiotemporal features with 3D convolutionalnetworks[C]. IEEE International Conference onComputer Vision,Santiago,2015:4489-4497.
[17]FEICHTENHOFER C, FAN Haoqi, MALIK J, et al.SlowFast networks for video recognition[C]. IEEE/CVFInternational Conference on Computer Vision, Seoul,2019:6201-6210.
[18]LIN Ji,GAN Chuang,HAN Song. TSM:temporal shiftmodule for efficient video understanding[C]. IEEE/CVFInternational Conference on Computer Vision, Seoul,2019:7082-7092.
[19]WANG Limin, XIONG Yuanjun, WANG Zhe, et al.Temporal segment networks:towards good practices fordeep action recognition[C]. Computer Vision andPattern Recognition,Amsterdam,2016:20-36.
[20]BERTASIUS G, WANG Heng, TORRESANI L. Isspace-time attention all you need for video understanding?[C]. International Conference on Machine Learning,Vienna,2021. DOI:10.48550/arXiv.2102.05095.
[21]YANG Ceyuan, XU Yinghao, SHI Jianping, et al.Temporal pyramid network for action recognition[C].IEEE/CVF Conference on Computer Vision and PatternRecognition,Seattle,2020:588-597.
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021YFB4000905);國(guó)家自然科學(xué)基金項(xiàng)目(62101432,62102309);陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2022JM-508)。