基于多特征融合時(shí)差網(wǎng)絡(luò)的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別

2024-10-01 00:00:00馬天姜梅楊嘉怡張杰慧丁旭涵

工礦自動(dòng)化 2024年7期

摘要：現(xiàn)有的煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為（如攀爬、跨越、倚靠帶式輸送機(jī)等）識(shí)別方法對(duì)特征提取不充分、難以考慮到行為時(shí)間差異，導(dǎo)致違規(guī)行為識(shí)別準(zhǔn)確率不高。針對(duì)該問(wèn)題，基于ResNet50 模型，提出了一種基于多特征融合時(shí)差網(wǎng)絡(luò)（MFFTDN）的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法，將多特征融合和時(shí)間差分進(jìn)行結(jié)合，對(duì)不同時(shí)間段的行為進(jìn)行多特征融合。首先在原始模型ResNet50 的第2 和第3 階段引入短期多特征融合（STMFF）模塊，將來(lái)自多個(gè)連續(xù)幀的時(shí)間和特征拼接在一起，再對(duì)融合后的特征進(jìn)行時(shí)間差分計(jì)算，即相鄰幀的特征差值，以在短期內(nèi)捕捉局部動(dòng)作變化。然后在原始模型ResNet50 的第4 階段引入長(zhǎng)期多特征融合（LTMFF）模塊，將來(lái)自連續(xù)幀的短期多特征拼接在一起，再對(duì)相鄰時(shí)間點(diǎn)的特征進(jìn)行時(shí)間差分計(jì)算，以獲取行為的長(zhǎng)期多特征。最后將融合后的特征進(jìn)行分類，輸出識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明：① 該方法的平均精度和準(zhǔn)確率較原始模型ResNet50 分別提高了8.18% 和8.47%，說(shuō)明同時(shí)引入STMFF 和LTMFF 模塊能夠有效提取到不同時(shí)間段的多特征信息。② 該方法在自建煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為數(shù)據(jù)集上的準(zhǔn)確率為89.62%，平均精度為89.30%，模型的參數(shù)量為197.2 ×106。③ Grad?CAM 熱力圖顯示，該方法能夠更有效地關(guān)注到違規(guī)行為的關(guān)鍵區(qū)域，精確捕捉到井下帶式輸送機(jī)區(qū)域的違規(guī)行為。

關(guān)鍵詞：帶式輸送機(jī)；不安全行為；違規(guī)行為識(shí)別；短期多特征融合；長(zhǎng)期多特征融合；多特征融合時(shí)差網(wǎng)絡(luò)；時(shí)間差分

中圖分類號(hào)：TD634 文獻(xiàn)標(biāo)志碼：A

0 引言

大量的數(shù)據(jù)統(tǒng)計(jì)表明，由于煤礦井下作業(yè)人員的違規(guī)行為所引發(fā)的死亡事故占煤礦安全事故的80% 以上，其中帶式輸送機(jī)區(qū)域的安全事故占27%[1]。識(shí)別帶式輸送機(jī)區(qū)域的違規(guī)行為可減少人員傷亡，具有重要的實(shí)際意義。通過(guò)參考煤礦安全管理?xiàng)l例，概括出幾種帶式輸送機(jī)區(qū)域頻繁發(fā)生的典型礦工不安全行為：攀爬、跨越、倚靠帶式輸送機(jī)等。當(dāng)前對(duì)礦工違規(guī)行為的識(shí)別主要通過(guò)人工觀看視頻的方式，極易造成工作人員視覺(jué)疲勞而引發(fā)漏判或誤判現(xiàn)象。隨著計(jì)算機(jī)技術(shù)的發(fā)展，使用計(jì)算機(jī)技術(shù)代替人工識(shí)別違規(guī)行為成為研究熱點(diǎn)之一。

目前井下違規(guī)行為的主要識(shí)別方式包括物聯(lián)網(wǎng)監(jiān)測(cè)[2-3]和計(jì)算機(jī)視覺(jué)識(shí)別。物聯(lián)網(wǎng)監(jiān)測(cè)是通過(guò)在礦工身上佩戴傳感器，采集由不同行為引發(fā)的運(yùn)動(dòng)數(shù)據(jù)，然后分析數(shù)據(jù)的差異來(lái)進(jìn)行識(shí)別。但傳感器隨著使用次數(shù)的增加會(huì)逐漸老化，礦井下復(fù)雜的環(huán)境會(huì)導(dǎo)致傳感器信號(hào)帶有許多噪聲，從而影響識(shí)別結(jié)果，不能滿足實(shí)際需求。基于計(jì)算機(jī)視覺(jué)的井下行為識(shí)別以端到端的方式從數(shù)據(jù)中學(xué)習(xí)特征，再進(jìn)行分類。按照網(wǎng)絡(luò)結(jié)構(gòu)的不同可分為基于卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Networks，CNN）的行為識(shí)別[4-5]，基于循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Networks，RNN）的行為識(shí)別[6]、基于雙流卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別[7-8]和基于混合深度學(xué)習(xí)網(wǎng)絡(luò)的行為識(shí)別[9-10]。這些方法能更準(zhǔn)確地識(shí)別復(fù)雜行為模式，具有更高的識(shí)別準(zhǔn)確性和可靠性。按照卷積的不同，將CNN 分為2D 卷積網(wǎng)絡(luò)和3D 卷積網(wǎng)絡(luò)，其中，2D 卷積網(wǎng)絡(luò)提取空間特征，但對(duì)時(shí)間信息不夠敏感，而3D 卷積網(wǎng)絡(luò)則在保留通道信息的同時(shí)處理時(shí)間信息，能更有效地捕捉視頻動(dòng)態(tài)行為?；赗NN 的行為識(shí)別方法能夠有效地捕捉各幀之間的相關(guān)性，但數(shù)據(jù)量較大時(shí)，調(diào)參的過(guò)程相對(duì)復(fù)雜。雙流卷積神經(jīng)網(wǎng)絡(luò)可以有效地融合2 個(gè)獨(dú)立網(wǎng)絡(luò)的輸出，但融合過(guò)程可能增加模型設(shè)計(jì)的復(fù)雜性?；旌仙疃葘W(xué)習(xí)網(wǎng)絡(luò)結(jié)合了不同網(wǎng)絡(luò)模型的優(yōu)點(diǎn)，提高了模型的適應(yīng)性和泛化性，但也面臨著計(jì)算成本的挑戰(zhàn)。在井下行為識(shí)別中，不同場(chǎng)景的行為識(shí)別需求和挑戰(zhàn)有所不同，而帶式輸送機(jī)通常處于狹窄、通風(fēng)條件有限的環(huán)境中，容易受到煤塵、光照等因素的影響，現(xiàn)有方法在識(shí)別該區(qū)域的行為時(shí)可能會(huì)對(duì)部分行為的特征提取不完全，從而影響識(shí)別效果。

針對(duì)帶式輸送機(jī)區(qū)域，文獻(xiàn)[11]提出了一種基于改進(jìn)運(yùn)動(dòng)歷史圖描述礦工行為過(guò)程的方法，該方法的識(shí)別準(zhǔn)確率較高，但只適合較為簡(jiǎn)單的場(chǎng)景，當(dāng)存在遮擋時(shí)會(huì)影響準(zhǔn)確率。在解決帶式輸送機(jī)區(qū)域復(fù)雜多變的環(huán)境和動(dòng)作問(wèn)題時(shí)，使用單一特征建?？赡軙?huì)面臨一些限制，沒(méi)有考慮到動(dòng)作的多樣性、動(dòng)作變化的實(shí)時(shí)性，導(dǎo)致難以捕捉到動(dòng)作的更細(xì)粒度的特征。使用多特征融合建模時(shí)，能夠很大程度地提高模型的準(zhǔn)確率。文獻(xiàn)[12]提出了一種組合注意力機(jī)制和密集殘差的方法來(lái)改進(jìn)模型，以識(shí)別礦工安全、違規(guī)乘坐帶式輸送機(jī)，在行為較相似時(shí)也能夠較好地識(shí)別出來(lái)。然而，這種方法在制作基于關(guān)鍵點(diǎn)的行為識(shí)別數(shù)據(jù)集時(shí)存在一定的難度。文獻(xiàn)[13]提出了基于雙流模式的高層場(chǎng)景特征融合方法，對(duì)Gist 特征進(jìn)行更高層次的學(xué)習(xí)并實(shí)現(xiàn)對(duì)原始圖像的語(yǔ)義抽象，對(duì)井下帶式輸送機(jī)區(qū)域的拋扔雜物、跨越、攀爬等不安全行為進(jìn)行識(shí)別，該方法具有較高的識(shí)別率，但需要將多種網(wǎng)絡(luò)進(jìn)行融合，復(fù)雜度較高，處理速度不足以滿足要求，且未能考慮到動(dòng)作在不同時(shí)間內(nèi)的變化差異，使用單一的時(shí)間尺度不能進(jìn)行更加精細(xì)的區(qū)分。

針對(duì)目前煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法在特征提取方面存在的不足，且難以有效考慮行為的時(shí)間變化，本文提出一種基于多特征融合時(shí)差網(wǎng)絡(luò)（Multi-feature Fusion for Time-difference Networks，MFFTDN）的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法，將多特征融合[14]和時(shí)間差分[15]結(jié)合，對(duì)不同時(shí)間段的行為進(jìn)行多特征融合。首先在原始模型Res-Net50 的第2 和第3 階段引入短期多特征融合（ShorttermMulti-featur Fusion，STMFF）模塊，將來(lái)自多個(gè)連續(xù)幀的時(shí)間和特征拼接在一起，再對(duì)融合后的特征進(jìn)行時(shí)間差分計(jì)算，即相鄰幀的特征差值，以在短期內(nèi)捕捉局部動(dòng)作變化。然后在ResNet50 的第4 階段引入長(zhǎng)期多特征融合（Long-term Multi-feature Fusion，LTMFF）模塊，將來(lái)自連續(xù)幀的短期多特征拼接在一起，再對(duì)相鄰時(shí)間點(diǎn)的特征進(jìn)行差分計(jì)算，以獲取行為的長(zhǎng)期多特征。最后將融合后的特征進(jìn)行分類，輸出識(shí)別結(jié)果。

1 MFFTDN 架構(gòu)

單特征建模忽略了全局信息，無(wú)法徹底捕捉到動(dòng)作特征。MFFTDN 則能充分利用完整的視頻信息來(lái)學(xué)習(xí)動(dòng)作的多個(gè)特征，并使用視頻幀均勻采樣來(lái)提高效率，結(jié)構(gòu)如圖1 所示。MFFTDN 基于ResNet50模型，在stage0 到stage4 這5 個(gè)階段中插入STMFF和LTMFF 模塊。其中，stage0 階段和stage3 階段為ResNet50 網(wǎng)絡(luò)的原始模塊，stage0 階段由7×7 的卷積層和最大池化層組成， stage3 階段由1×1 的卷積層和3×3 的卷積層堆疊而成（這種堆疊重復(fù)6 次）。在stage1 階段和stage2 階段中，將第1 個(gè)1×1 的卷積層替換為STMFF 模塊，其余保持不變，并分別重復(fù)堆疊3 次和4 次。將stage4 階段替換為L(zhǎng)TMFF，并重復(fù)堆疊3 次。

首先，對(duì)于一組給定的行為幀序列，經(jīng)stage0 階段對(duì)視頻幀進(jìn)行下采樣并降低維度。其次，經(jīng)stage1 和stage2 階段提取行為的短期多特征，再將這種特征輸入到stage3 階段提取更深層次的信息。然后，將更深層次的信息輸入到stage4 階段以提取行為的長(zhǎng)期多特征信息。最后，將所提取的特征信息經(jīng)全局平均池化層和全連接層輸出行為預(yù)測(cè)結(jié)果。

1.1 STMFF 模塊

由于相鄰幀在局部窗口中差別不大，模型對(duì)視頻中的幀進(jìn)行了采樣，平均每8 幀采樣1 幀。STMFF在網(wǎng)絡(luò)的早期提取局部的短期多特征信息，如圖2 所示。

首先將大小為H ×W ×C ×T的特征圖Fin沿著通道進(jìn)行分裂，其中H 為高度，W 為寬度，T 為時(shí)間。設(shè)沿著c1方向的分裂系數(shù)為r1，分裂后的特征為F1 = r1 · Fin。沿著c2方向的分裂系數(shù)為r2，使用3×1×1的卷積核對(duì)特征圖的高度?寬度特征進(jìn)行建模，得到FH×W。使用3×1×1的卷積核對(duì)特征圖的高度?時(shí)間進(jìn)行建模，得到FH×T。使用1×1×3的卷積核對(duì)特征圖的寬度?時(shí)間進(jìn)行建模，得到FW×T。將FH×W，F(xiàn)H×T，F(xiàn)W×T融合，得到初步融合后的特征F2 ∈ RH×W×C×T，接著將F2與F1融合得到幀的細(xì)節(jié)融合特征Fcon ∈ RH×W×C×T。

式中：KH×W，KH×T，KW×T分別為特征圖在高度?寬度、高度?時(shí)間、寬度?時(shí)間方向上的卷積核；i 為特征圖幀數(shù)；concat 為拼接操作。

其次，為了解決相鄰幀之間位置不對(duì)齊的問(wèn)題，使用跨段信息來(lái)增強(qiáng)幀之間的關(guān)聯(lián)。使用1×1的卷積將Fcon及其前后幀的特征維度壓縮為RH×W×C/r。計(jì)算第i-1幀特征圖Fi-1和第i 幀特征圖Fi之間的對(duì)齊時(shí)間差D（Fi-1，F(xiàn)i）、第i幀特征圖Fi 和第i+1幀特征圖Fi+1 之間的對(duì)齊時(shí)間差D（Fi，F(xiàn)i+1），并使用1×1 的卷積核計(jì)算第i 幀特征圖Fi 與第i-1幀特征圖Fi-1 和第i+1幀特征圖Fi+1 之間的對(duì)齊卷積G（Fi-1）和G（Fi+1）。

D（Fi-1，F(xiàn)i） = Fi -G（Fi-1）（6）

D（Fi，F(xiàn)i+1） = Fi -G（Fi+1）（7）

然后，使用時(shí)間對(duì)齊的多尺度模塊來(lái)提取短距離運(yùn)動(dòng)信息。這一過(guò)程主要包括多尺度模塊融合操作、卷積和激活卷積結(jié)果。多尺度融合模塊由conv3×3和“Pooling+Conv1+upSample”構(gòu)成，其中Conv1×1代表1×1 的卷積，Pooling代表平均池化，up-Sample 代表雙線性上采樣，在多尺度融合之后特征維度變?yōu)镽C×H×W。再將RC×H×W的特征使用“Conv2+sigmoid” 進(jìn)行壓縮和激活卷積結(jié)果，即可得到第i?1 幀特征圖Fi-1 和第幀特征圖Fi 的短期運(yùn)動(dòng)的多尺度運(yùn)動(dòng)信息M（Fi-1，F(xiàn)i） ∈ RC×1×1、第i 幀特征圖Fi 與第i+1 幀特征圖Fi+1 的短期多尺度運(yùn)動(dòng)信息M（Fi，F(xiàn)i+1） 2 RC×1×1。

式中：s（·）為sigmoid 函數(shù)；N（·）為1×1 的卷積；Hj 為從不同的感受野j 提取的運(yùn)動(dòng)信息。

最后，將短距離運(yùn)動(dòng)信息和細(xì)節(jié)融合特征Fcon融合，得到短期多特征融合信息F ∈ RH×WC×T。

F = Fcon ⊙1=2 [M（Fi-1，F(xiàn)i）+M（Fi，F(xiàn)i+1）] （10）

式中⊙為同或運(yùn)算。

1.2 LTMFF 模塊

STMFF 模塊能夠有效捕捉動(dòng)作序列的短期特征，但在捕捉動(dòng)作序列的長(zhǎng)期特征時(shí)會(huì)受到限制。在網(wǎng)絡(luò)后期，不同行為的時(shí)間尺度和空間特征差異更為明顯，而LTMFF 模塊能夠?qū)⒉煌瑫r(shí)空段的特征相關(guān)聯(lián)，以更好地利用上下文信息，將該模塊同時(shí)作用于空間和時(shí)間上，對(duì)局部多特征進(jìn)行增強(qiáng)，通過(guò)全局角度學(xué)習(xí)每個(gè)特征點(diǎn)的時(shí)空信息。為了適應(yīng)變化粒度更大的時(shí)空尺度，將卷積重新設(shè)置為自適應(yīng)時(shí)空卷積，如圖3 所示。

首先，將大小為H ×W ×C ×T的幀通過(guò)時(shí)間平均池化和空間平均池化計(jì)算得到2 種不同的幀描述向量Vt = P（Xt） Vs = P（Xs）。其中， Xt和Xs分別為第 i幀原始的時(shí)間和空間特征，P（·）為全局平均池化，Vt ∈ RC×T Vs ∈ RH×W。

其次，通過(guò)采用2 層一維卷積將局部上下文向量Vt和Vs進(jìn)行堆疊，并以比率r進(jìn)行維度壓縮。同時(shí)為了能夠獲取更大的感受野，進(jìn)一步納入全局時(shí)空信息，將線性映射函數(shù)A（g）添加到局部向量中，得到全局時(shí)間信息B（Xt，g）和全局空間信息B（Xs，g），其中g(shù)為空間和時(shí)間維度上的全局平均集合值。

B（Xt，g） = N（δ（m（N（Vt + A（g）））））（11）

B（Xs，g） = N（δ（m（N（Vs + A（g）））））（12）

式中（·）和m（·）分別為ReLU 函數(shù)和batchnorm 函數(shù)。

將全局時(shí)間信息B（Xt，g）和全局空間信息B（Xs，g）中最后一個(gè)卷積的權(quán)重初始化為0，再添加常數(shù)1，即可得到校準(zhǔn)權(quán)重αt和αs。

αt = 1+ B（Xt，g）（13）

αs = 1+ B（Xs，g）（14）

然后，將校準(zhǔn)權(quán)重αt和αs分別與基本權(quán)重θb乘，即可得到第i幀的時(shí)間權(quán)重θt∈RT×C×k2和空間權(quán)θs∈RH×W×k2。

Xt = θtXt = （αtθb）Xt （15）

?Xs = θsXs = （αsθb）Xs （16）

式中Xt和X s分別為校準(zhǔn)之后時(shí)間和空間特征。

最后，將校準(zhǔn)后的時(shí)間特征、空間特征和原始特征融合，得到長(zhǎng)期多特征融合信息B ∈ RH×W×C×T。

2 實(shí)驗(yàn)分析

2.1 數(shù)據(jù)集構(gòu)建

數(shù)據(jù)集來(lái)源于煤礦現(xiàn)場(chǎng)的攝像視頻，涵蓋了3 類動(dòng)作，其中一類是正常行為，另外兩類是頻繁出現(xiàn)的違規(guī)行為，包括攀爬、跨越和倚靠帶式輸送機(jī)。共采集到460 個(gè)視頻，如圖4 所示。為了解決類別間不平衡的問(wèn)題，采用隨機(jī)擦除、色彩抖動(dòng)和鏡像翻轉(zhuǎn)對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)處理，獲得1 230 個(gè)視頻樣本。每個(gè)視頻的時(shí)長(zhǎng)為4～7 s，以確保每個(gè)行為類別的樣本相對(duì)平衡。對(duì)每個(gè)視頻進(jìn)行了分類標(biāo)注，并按照6∶2∶2 的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

2.2 實(shí)驗(yàn)設(shè)置

選擇具有簡(jiǎn)單和模塊化結(jié)構(gòu)的ResNet 作為主干網(wǎng)絡(luò)，將STMFF 集成到ResNet 的第2 和第3 階段，以提取行為的短期多特征信息。將LTMFF 集成到ResNet 的第4 階段，以提取行為的長(zhǎng)期多特征信息。為了加快模型的訓(xùn)練速度，在多特征融合模塊中使用可分離卷積。選擇PyTorch 框架作為實(shí)驗(yàn)的訓(xùn)練模型，并在RTX 3090 硬件平臺(tái)上進(jìn)行訓(xùn)練。

訓(xùn)練過(guò)程中，設(shè)置學(xué)習(xí)率為0.01，進(jìn)行25 輪訓(xùn)練，每隔10 輪學(xué)習(xí)率衰減為原來(lái)的50%，共進(jìn)行150 輪訓(xùn)練。為了優(yōu)化訓(xùn)練過(guò)程，采用動(dòng)量為0.9、動(dòng)量衰減為10?4 的SGD 優(yōu)化器，并且每個(gè)GPU 處理一小批包含8 個(gè)視頻剪輯的數(shù)據(jù)。為了提高訓(xùn)練速度，在視頻的時(shí)間軸上均勻采樣多個(gè)片段，并使用softmax 概率的平均值作為最終預(yù)測(cè)結(jié)果，采用準(zhǔn)確率和參數(shù)量來(lái)衡量模型的性能。其中，top1_acc 表示與實(shí)際結(jié)果相符的類別準(zhǔn)確率，mean_acc 表示平均精度，params 表示模型的參數(shù)量。

2.3 消融實(shí)驗(yàn)

為了證明本文引入STMFF 和LTMFF 模塊的有效性，進(jìn)行消融實(shí)驗(yàn)，結(jié)果見(jiàn)表1?？煽闯鰡为?dú)添加STMFF 模塊時(shí)， mean_acc 和top1_acc 較原始模型ResNet50 分別提升了4.07% 和4.23%，這是由于在早期使用STMFF 模塊能有效提取到短期多特征。單獨(dú)添加LTMFF 模塊時(shí)，mean_acc 和top1_acc 較原始模型ResNet50 分別提升了6.98% 和7.15%，這是由于在網(wǎng)絡(luò)后期關(guān)聯(lián)了上下文特征信息，擴(kuò)大了感受野。當(dāng)同時(shí)添加STMFF 和LTMFF 模塊時(shí)，mean_acc 和top1_acc 較原始模型ResNet50 分別提高了8.18% 和8.47%，達(dá)到89.30% 和89.62%，這是由于同時(shí)引入STMFF 和LTMFF 模塊能夠有效提取不同時(shí)間段的多特征信息。

2.4 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證本文方法的性能，選擇現(xiàn)階段具有代表性的行為識(shí)別方法進(jìn)行比較，包括三維卷積網(wǎng)絡(luò)（Convolutional 3D，C3D）[16]、僅慢速網(wǎng)絡(luò)（Slow-OnlyNetwork， SlowOnly） [17]、快慢速網(wǎng)絡(luò) （SlowFast Network，SlowFast） [18]、時(shí)間偏移網(wǎng)絡(luò)（Temporal ShiftModule， TSM） [19]、時(shí)間敏感變壓器（Time-SensitiveTransformer， TimesFormer）[20]、時(shí)間金字塔網(wǎng)絡(luò)（TemporalPyramid Network，TPN）[21]。各行為識(shí)別方法對(duì)比結(jié)果見(jiàn)表2。

由表2 可看出，本文的參數(shù)量為C3D 的1/3，這是因?yàn)镃3D 同時(shí)對(duì)動(dòng)作的三維特征進(jìn)行建模，提高了識(shí)別精度，但需要大量參數(shù)，增加了計(jì)算量。本文方法的mean_acc 和top1_acc 較SlowFast 方法分別提高了9.72% 和10.39%，參數(shù)量較SlowFast 方法減少了25.93%，這是因?yàn)镾lowFast 方法雖然結(jié)合了慢速路徑和快速路徑的特征，但其時(shí)間尺度選擇可能不適合井下行為的識(shí)別。本文方法的參數(shù)量較Slow-Only 減少了28.6%，這是因?yàn)镾lowOnly 方法使用了較多的卷積層和更大的卷積核，以更高的分辨率來(lái)捕捉空間和時(shí)間信息。本文方法的mean_acc 和top1_acc 較TimesFormer 方法分別提高了34.72% 和34.6%，參數(shù)量較TimesFormer 方法減少了71.99%，這是因?yàn)門(mén)imesFormer 方法需要大量的數(shù)據(jù)集進(jìn)行訓(xùn)練，本文的數(shù)據(jù)集無(wú)法適應(yīng)該模型。本文方法的mean_acc 和top1_acc 較TPN 和TSM 方法分別提高了21.22%，15.94% 和21.11%，15.67%，這是因?yàn)門(mén)PN和TSM 方法主要對(duì)空間特征進(jìn)行建模，而對(duì)時(shí)間特征的提取很弱。本文方法能夠有效將多特征融合和時(shí)間差分結(jié)合，在提高行為識(shí)別準(zhǔn)確率的同時(shí)，還能保持較低的參數(shù)量，更適用于帶式輸送機(jī)區(qū)域的違規(guī)行為識(shí)別。

2.5 可視化結(jié)果

選用可視化工具Grad?CAM 對(duì)本文方法和C3D，SlowOnly，TPN 方法進(jìn)行可視化展示，如圖5 所示。

從圖5 可看出，對(duì)于行走和跨越行為，本文方法、C3D 和SlowOnly 的熱力圖顯示模型主要關(guān)注在人物動(dòng)作上，其中本文方法覆蓋范圍較為集中，C3D和SlowOnly 覆蓋范圍較為分散。對(duì)于倚靠行為，本文方法的熱力圖顯示其關(guān)注點(diǎn)集中在倚靠的姿勢(shì)上，而TPN 的關(guān)注區(qū)域相對(duì)分散，無(wú)法準(zhǔn)確捕捉到倚靠動(dòng)作的細(xì)節(jié)。這說(shuō)明本文方法能夠更有效地關(guān)注到違規(guī)行為的關(guān)鍵區(qū)域，更精確地捕捉到井下帶式輸送機(jī)區(qū)域的違規(guī)行為。

3 結(jié)論

1）針對(duì)目前煤礦井下帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法準(zhǔn)確率不高的問(wèn)題，提出了一種基于MFFTDN 的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別方法。在早期使用STMFF 模塊提取行為的短期多特征，在后期使用LTMFF 模塊提取行為的長(zhǎng)期多特征，這2 種模塊采用可分離卷積的設(shè)計(jì)方式，從而提高了識(shí)別準(zhǔn)確率并降低了計(jì)算量。

2）所提方法在自建井下帶式輸送機(jī)區(qū)域違規(guī)行為數(shù)據(jù)集上的準(zhǔn)確率為89.62%，平均精度為89.30%；與代表性方法C3D，SlowOnly，TPN 和TSM 等相比，該方法能夠更有效地識(shí)別出帶式輸送機(jī)區(qū)域的違規(guī)行為；Grad?CAM 熱力圖顯示，該方法能更有效地關(guān)注違規(guī)行為的關(guān)鍵區(qū)域，精確捕捉井下帶式輸送機(jī)區(qū)域的違規(guī)行為。

3） MFFTDN 在捕捉幀與幀之間動(dòng)作關(guān)聯(lián)性時(shí)的計(jì)算時(shí)間較長(zhǎng)，下一步將研究使用更少的時(shí)間來(lái)捕捉幀之間的關(guān)聯(lián)特征，在更短的時(shí)間內(nèi)分析出時(shí)間差。

參考文獻(xiàn)（References）：

[ 1 ]張培森，李復(fù)興，朱慧聰，等. 2008—2020 年煤礦事故統(tǒng)計(jì)分析及防范對(duì)策[J]. 礦業(yè)安全與環(huán)保， 2022，49（1）：128-134.

ZHANG Peisen， LI Fuxing， ZHU Huicong， et al.Statistical analysis and prevention countermeasures ofcoal mine accidents from 2008 to 2020[J]. Mining Safety & Environmental Protection， 2022， 49（1）：128-134.

[ 2 ]趙小虎，黃程龍. 基于Kinect 的礦井人員違規(guī)行為識(shí)別算法研究[J]. 湖南大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，47（4）：92-98.

ZHAO Xiaohu， HUANG Chenglong. Research onidentification algorithm of mine person's violationbehavior based on Kinect[J]. Journal of HunanUniversity（Natural Sciences），2020，47（4）：92-98.

[ 3 ]PIENAAR S W， MALEKIAN R. Human activityrecognition using visual object detection[C]. IEEE 2ndWireless Africa Conference， Pretoria，2019：1-5.

[ 4 ]梁晨陽(yáng)，華鋼. 基于信道狀態(tài)信息的井下人員行為識(shí)別方法研究[J]. 煤炭技術(shù)，2022，41（11）：182-186.

LIANG Chenyang， HUA Gang. Research onidentification method of underground personnel behaviorbased on channel state information[J]. CoalTechnology，2022，41（11）：182-186.

[ 5 ]ZHANG Xin， ZHU Yan， DENG Li， et al. A slowfastbehavior recognition algorithm incorporating motionsaliency[C]. 2nd International Conference on ComputerGraphics， Artificial Intelligence， and Data Processing，Guangzhou，2022. DOI：10.1117/12.2674969.

[ 6 ]王璇，吳佳奇，陽(yáng)康，等. 煤礦井下人體姿態(tài)檢測(cè)方法[J]. 工礦自動(dòng)化，2022，48（5）：79-84.

WANG Xuan， WU Jiaqi， YANG Kang， et al. Humanposture detection method in coal mine[J]. Journal ofMine Automation，2022，48（5）：79-84.

[ 7 ]黨偉超，張澤杰，白尚旺，等. 基于改進(jìn)雙流法的井下配電室巡檢行為識(shí)別[J]. 工礦自動(dòng)化，2020，46（4）：75-800.

DANG Weichao，ZHANG Zejie，BAI Shangwang，et al.Inspection behavior recognition of underground powerdistribution room based on improved two-stream CNNmethod[J]. Industry and Mine Automation， 2020，46（4）：75-80.

[ 8 ]LIU Xiaoyang， LIU Jinqiang， ZHENG Haolin. Gaitrecognition method of coal mine personnel based ontwo-stream neural network[J]. Journal of MiningScience and Technology，2021，6（2）：218-227.

[ 9 ]劉斌，侯宇輝，王延輝. 基于井下軌跡數(shù)據(jù)的煤礦人員違規(guī)行為識(shí)別[J]. 煤炭與化工，2021，44（10）：82-85.

LIU Bin， HOU Yuhui， WANG Yanhui. Recognition ofillegal behavior of coal mine personnel based onunderground trajectory data[J]. Coal and ChemicalIndustry，2021，44（10）：82-85.

[10]WANG Zheng， LIU Yan， DUAN Siyuan， et al. Anefficient detection of non-standard miner behavior usingimproved YOLOv8[J]. Computers and ElectricalEngineering， 2023， 112. DOI： 10.1016/J.COMPELECENG.2023.109021.

[11]仝澤友，[11] 丁恩杰. 礦井皮帶區(qū)礦工違規(guī)行為識(shí)別方法[J]. 河南科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，41（2）：40-46，6-7.

TONG Zeyou， DING Enjie. Identification method ofminer violation behavior in mine belt area[J]. Journal ofHenan University of Science and Technology（NaturalScience），2020，41（2）：40-46，6-7.

[12]李善華，肖濤，李肖利，等. 基于DRCA?GCN 的礦工動(dòng)作識(shí)別模型[J]. 工礦自動(dòng)化， 2023， 49（4）： 99-105，112.

LI Shanhua， XIAO Tao， LI Xiaoli， et al. Miner actionrecognition model based on DRCA-GCN[J]. Journal ofMine Automation，2023，49（4）：99-105，112.

[13]陳天，閆雨寒，徐達(dá)偉，等. 基于改進(jìn)雙流算法的礦工行為識(shí)別方法研究[J]. 河南科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2021，42（4）：47-53，7.

CHEN Tian， YAN Yuhan， XU Dawei， et al. Researchon miner behavior recognition method based onimproved two-stream algorithm[J]. Journal of HenanUniversity of Science and Technology（NaturalScience），2021，42（4）：47-53，7.

[14]WU Wenhao， HE Dongliang， LIN Tianwei， et al.MVFNet： multi-view fusion network for efficient videorecognition[C]. AAAI Conference on ArtificialIntelligence，Vancouver，2021. DOI：10.48550/arXiv.2012.06977.

[15]XIE Zhao， CHEN Jiansong， WU Kewei， et al. Globaltemporal difference network for action recognition[J].IEEE Transactions on Multimedia，2023，25：7594-7606.

[16]TRAN D， BOURDEV L， FERGUS R， et al. Learningspatiotemporal features with 3D convolutionalnetworks[C]. IEEE International Conference onComputer Vision，Santiago，2015：4489-4497.

[17]FEICHTENHOFER C， FAN Haoqi， MALIK J， et al.SlowFast networks for video recognition[C]. IEEE/CVFInternational Conference on Computer Vision， Seoul，2019：6201-6210.

[18]LIN Ji，GAN Chuang，HAN Song. TSM：temporal shiftmodule for efficient video understanding[C]. IEEE/CVFInternational Conference on Computer Vision， Seoul，2019：7082-7092.

[19]WANG Limin， XIONG Yuanjun， WANG Zhe， et al.Temporal segment networks：towards good practices fordeep action recognition[C]. Computer Vision andPattern Recognition，Amsterdam，2016：20-36.

[20]BERTASIUS G， WANG Heng， TORRESANI L. Isspace-time attention all you need for video understanding？[C]. International Conference on Machine Learning，Vienna，2021. DOI：10.48550/arXiv.2102.05095.

[21]YANG Ceyuan， XU Yinghao， SHI Jianping， et al.Temporal pyramid network for action recognition[C].IEEE/CVF Conference on Computer Vision and PatternRecognition，Seattle，2020：588-597.

基金項(xiàng)目：國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目（2021YFB4000905）；國(guó)家自然科學(xué)基金項(xiàng)目（62101432，62102309）；陜西省自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目（2022JM-508）。

工礦自動(dòng)化2024年7期

工礦自動(dòng)化的其它文章: 煤礦井下鉆探數(shù)字化監(jiān)測(cè)系統(tǒng); 深埋礦井沿空留巷切頂卸壓底板變形控制; 巖質(zhì)高邊坡結(jié)構(gòu)面識(shí)別及產(chǎn)狀統(tǒng)計(jì)信息采集方法; 高階煤吸附孔結(jié)構(gòu)特征及其對(duì)甲烷吸附能力的影響; 煤礦井下金屬結(jié)構(gòu)等效儲(chǔ)能模型耦合電磁波能量安全性分析; 基于智能化礦山數(shù)據(jù)分類與編碼規(guī)范的元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建方法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多特征融合時(shí)差網(wǎng)絡(luò)的帶式輸送機(jī)區(qū)域違規(guī)行為識(shí)別