国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)ED-YOLOv5s的礦井安全帽佩戴檢測(cè)算法

2024-11-12 00:00郭云飛侯艷文陶虹京
無(wú)線互聯(lián)科技 2024年19期

摘要:煤礦井下工作中安全帽佩戴是事關(guān)工人生命安全的一大關(guān)鍵要素?;谝曨l圖像進(jìn)行分析的技術(shù)雖可以較好地檢測(cè)工人安全帽佩戴情況從而將事故帶來(lái)的損害最小化,但是在礦井下的圖像收集過(guò)程中往往存在各種各樣的現(xiàn)實(shí)因素,例如環(huán)境復(fù)雜、存在多個(gè)目標(biāo)等,給技術(shù)人員造成很大的干擾。針對(duì)以上問題,文章通過(guò)引進(jìn)EMA注意力機(jī)制與DIoU損失函數(shù),提出了一種改進(jìn)的ED-YOLOv5s模型。在自制數(shù)據(jù)集上對(duì)該模型進(jìn)行了消融實(shí)驗(yàn),結(jié)果表明該模型相比原模型在圖像檢測(cè)速度和精度方面都有較大的提升。隨后,文章將該算法與YOLOv7-tiny、YOLOv8進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果顯示文章算法在礦井下安全帽檢測(cè)的mAP@50%達(dá)到了97.3%。

關(guān)鍵詞:圖像分析;YOLOv5s;EMA;DIoU

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A

0 引言

在我國(guó)眾多高危行業(yè)(尤其是煤礦行業(yè))中,安全帽對(duì)施工人員的生命安全起著至關(guān)重要的作用,然而一些工人缺乏安全意識(shí)不全程佩戴安全帽的現(xiàn)象屢見不鮮。對(duì)于上述情況,我國(guó)很多礦業(yè)的生產(chǎn)現(xiàn)場(chǎng)使用視頻分析技術(shù)對(duì)工人佩戴安全帽情況進(jìn)行識(shí)別與檢測(cè),但該技術(shù)在識(shí)別過(guò)程中存在檢測(cè)精度低、圖像檢測(cè)速度慢等問題,因此,基于視頻的檢測(cè)識(shí)別技術(shù)迫切需要改進(jìn)。

基于深度學(xué)習(xí)的方法可分為“兩階段”方法和“單階段”方法[1]。“兩階段”方法首先使用算法提取特征,然后生成候選區(qū)域,最后使用分類器進(jìn)行分類回歸。該方法的優(yōu)勢(shì)在于顯著提高檢測(cè)精度,但不具備良好的時(shí)效性?!皢坞A段”方法采用端對(duì)端的方式對(duì)圖像中的目標(biāo)位置進(jìn)行檢測(cè)、分類。SSD[2] 模型和YOLO[3] 模型是“單階段”算法中常用的2類。SSD模型對(duì)小目標(biāo)檢測(cè)能力較差。YOLO模型的原理是將安全帽檢測(cè)識(shí)別轉(zhuǎn)化為回歸問題,使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行預(yù)測(cè),判定邊界框位置及目標(biāo)類別概率,小目標(biāo)檢測(cè)能力較強(qiáng)。

YOLO模型因其檢測(cè)速度快、精度高在工業(yè)中被普遍應(yīng)用??蒲腥藛T對(duì)YOLO模型進(jìn)行了不斷的改進(jìn)。YOLOv3[4]首先出現(xiàn)了DarkNet53網(wǎng)絡(luò),結(jié)合使用AIIFO0oCcdzZkZJYMlkruO1ozkcZF6LZjhegre9Rgfs=FPN架構(gòu)和多尺度融合等方式,提高了對(duì)小目標(biāo)檢測(cè)的精確度。YOLOv4[5]提出了具有不同層間交叉的CSPDarkNet53,使用 Mosaic數(shù)據(jù)增強(qiáng)方法和自我對(duì)抗訓(xùn)練方式提高網(wǎng)絡(luò)的檢測(cè)與識(shí)別的性能。YOLOv5[6]引進(jìn)了模型檢測(cè)和數(shù)據(jù)優(yōu)化處理,操作簡(jiǎn)單并且易移植,小目標(biāo)檢測(cè)精度較高[7-8]。

YOLOv5模型一直處于不斷更新中,現(xiàn)已有4種官方的算法模型,分別為YOLOv5s、 YOLOv5m、YOLOv5l和YOLOv5x。YOLOv5s模型的網(wǎng)絡(luò)深度和特征圖寬度最小,考慮到該技術(shù)將應(yīng)用于煤礦行業(yè),本文根據(jù)礦下復(fù)雜的環(huán)境,對(duì)模型網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整以提高算法檢測(cè)能力。本文以YOLOv5s為基礎(chǔ),通過(guò)引入EMA注意力機(jī)制和DIoU損失函數(shù),提出了一種改進(jìn)的ED-YOLOv5s模型。

1 YOLOv5s安全帽檢測(cè)算法

1.1 YOLOv5s模型

YOLOv5原模型主要包括4個(gè)部分:輸入端、主干、頸部網(wǎng)絡(luò)和預(yù)測(cè)頭。輸入端采用的是Mosaic數(shù)據(jù)增強(qiáng)。主干采用Focus和CSPDarkNet53 2種結(jié)構(gòu)相結(jié)合。CSPDarkNet53是特征提取的核心,可以借助殘差塊來(lái)快速實(shí)現(xiàn)對(duì)特征圖的降維,在保障檢測(cè)精度的前提下,提升特征提取性能。頸部網(wǎng)絡(luò)采用空間金字塔池(Spatial Pyramid Pooling,SPP)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)的結(jié)構(gòu),用以加強(qiáng)不同特征層的特征聚合,提高不同目標(biāo)網(wǎng)絡(luò)檢測(cè)的能力。最終由輸出端輸出目標(biāo)的坐標(biāo)及分類結(jié)果。

YOLOv5s是在YOLOv5的基礎(chǔ)上在主干中添加CSP1_X結(jié)構(gòu),在頸部網(wǎng)絡(luò)設(shè)置CSP2_X結(jié)構(gòu),增大了2層之間的反向傳播梯度值,減小了梯度消失,使得YOLOv5的網(wǎng)絡(luò)提取特征性能增強(qiáng)。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.2 YOLOv5s算法原理

輸入端對(duì)接收到的圖像進(jìn)行處理并校正圖像格式。主干網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,便于后續(xù)對(duì)該目標(biāo)的檢測(cè)工作。頸部網(wǎng)絡(luò)對(duì)來(lái)自主干網(wǎng)絡(luò)的特征圖進(jìn)行卷積操作或采樣操作,保證能同時(shí)處理不同分辨率的圖像信息以提高檢測(cè)的魯棒性。預(yù)測(cè)頭是該模型的核心,可將接收到的已處理的特征圖轉(zhuǎn)化為預(yù)測(cè)結(jié)果、生成邊界框位置、置信度等信息。

1.3 ED-YOLOv5s算法

由于煤礦下復(fù)雜多樣的環(huán)境,改進(jìn)后的視頻分析技術(shù)依然存在無(wú)法準(zhǔn)確提取多尺度目標(biāo)的關(guān)鍵特征、檢測(cè)不具備實(shí)時(shí)性等問題。為提高檢測(cè)實(shí)時(shí)性、準(zhǔn)確率,本研究在不損失檢測(cè)精度的前提下,提出了一種改進(jìn)的ED-YOLOv5s的安全帽檢測(cè)模型。改進(jìn)如下:

1.3.1 引入EMA注意力機(jī)制

深度學(xué)習(xí)中的注意力機(jī)制是指在復(fù)雜環(huán)境中將注意力放在關(guān)鍵點(diǎn)上,選出關(guān)鍵信息,忽略無(wú)關(guān)信息。注意力機(jī)制也可以形象地理解為在生活中當(dāng)人們?cè)诓檎覉D片中的物體信息時(shí),會(huì)更仔細(xì)地關(guān)注符合此物體特征的圖片,忽略不符合的圖片區(qū)域,即注意力的合理高效分配。此模塊已經(jīng)被應(yīng)用于自然語(yǔ)言處理、圖像檢測(cè)、語(yǔ)音識(shí)別等諸多領(lǐng)域?;谧⒁饬C(jī)制的模型可以用來(lái)記錄信息間的位置關(guān)系,進(jìn)而根據(jù)信息的權(quán)重去度量不同信息特征的重要程度[9]。此外,加入此模塊后建立動(dòng)態(tài)權(quán)重參數(shù),提高了深度學(xué)習(xí)算法效率和運(yùn)行速度,對(duì)傳統(tǒng)深度學(xué)習(xí)有很多改善。EMA網(wǎng)絡(luò)如圖2所示。

根據(jù)注意力機(jī)制的原理可知,計(jì)算公式為:

Attention(Query,Source)=∑Lxi=1Similarity(Query,Keyi)×Valuei

其中,Lx表示Source的長(zhǎng)度,Attention從大量信息中有選擇地篩選并聚焦到這些重要信息上,忽略不重要的信息。聚焦的過(guò)程體現(xiàn)在權(quán)重系數(shù)的計(jì)算上,權(quán)重越大越聚焦在對(duì)應(yīng)的Value值上。

EMA注意力機(jī)制由AE、AM、AR 3個(gè)模塊組成。AE是指EM算法的第E步,該步驟為觀測(cè)數(shù)據(jù)形成被骨干網(wǎng)絡(luò)提取的特征圖,包含數(shù)據(jù)Z形成的注意力圖。AM模塊即為EM算法的第M步,該步驟對(duì)AE模塊得到的似然函數(shù)進(jìn)行計(jì)算求得最大期望,進(jìn)而得到一組新的基。以上2個(gè)模塊進(jìn)行交替工作,當(dāng)數(shù)據(jù)表現(xiàn)為收斂時(shí),AR模塊對(duì)此進(jìn)行重建特征圖。

EMA模型與一般的注意力機(jī)制不同,它不參與計(jì)算每個(gè)像素之間的聯(lián)系,而是本著期望最大化的理念來(lái)查找一組具有代表性的基,然后使用這組基對(duì)先前骨干網(wǎng)絡(luò)提取得到的特征圖進(jìn)行重新組建,在滿足上下文信息的條件下獲得具有最少點(diǎn)的特征圖,可以有效地降低時(shí)空復(fù)雜度。換言之,EMA模型可以根據(jù)較高權(quán)重去著重考慮關(guān)鍵信息,忽略低權(quán)重信息。即使在復(fù)雜環(huán)境中,EMA模型也可以抓住主要信息,實(shí)現(xiàn)了信息處理資源的高效分配,具有較高可擴(kuò)展性和魯棒性。此外,EMA模型還可以將選定的重要信息與其他模塊進(jìn)行共享,實(shí)現(xiàn)信息的互通。

1.3.2 引入DIoU損失函數(shù)

損失函數(shù)是用來(lái)評(píng)價(jià)模型穩(wěn)定性的重要指標(biāo),可以較大程度地影響檢測(cè)結(jié)果和模型收斂速度,對(duì)于目標(biāo)檢測(cè)的精度及模型收斂速度有重要作用。DIoU損失函數(shù)可以加快邊界框回歸速率,提高定位精度,加快對(duì)目標(biāo)的檢測(cè)速率。該損失函數(shù)在IoU損失函數(shù)的基礎(chǔ)上添加了一個(gè)懲罰,可以最小化和歸一化中心點(diǎn)距離,加快了收斂過(guò)程。此外,DIoU損失函數(shù)是對(duì)GIoU損失函數(shù)的優(yōu)化,收斂速度更快。

在訓(xùn)練過(guò)程中,當(dāng)出現(xiàn)絕緣子數(shù)據(jù)集與預(yù)測(cè)框中心點(diǎn)位置相同的情況時(shí),盡管預(yù)測(cè)框形狀不同,DIoU回歸值大小依然保持相同。當(dāng)2個(gè)邊界框之間存在包含、平等和垂直等情況時(shí),DIoU能使預(yù)測(cè)框更快地回歸[10]。

DIoU的損失函數(shù)可以表示為:

LDIoU=1-IoU+ρ2(b,bgt)c2

在上述公式中,ρ為歐氏距離,c為目標(biāo)預(yù)測(cè)框與實(shí)際框內(nèi)部最小的外接矩形之間的對(duì)角線距離。DIoU同時(shí)考慮了兩者的重疊面積與中心點(diǎn)距離。當(dāng)發(fā)生預(yù)測(cè)框在真實(shí)框內(nèi)部且兩者存在交集時(shí),在參考中心點(diǎn)距離后可加快邊界框回歸速率,進(jìn)而加快DIoU損失函數(shù)的收斂。DIoU的原理如圖3所示。

2 ED-YOLOv5模型網(wǎng)絡(luò)結(jié)構(gòu)

改進(jìn)后的ED-YOLOv5s如圖4所示。本文在YOLOv5s模型中的骨干網(wǎng)絡(luò)添加注意力機(jī)制(EMA)模塊,將圖像中安全帽設(shè)置為提取特征,進(jìn)而檢測(cè)工人安全帽佩戴情況。將基于Focal Loss和GIoU Loss的組合替換為DIoU損失函數(shù),加快了收斂速度。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境

本研究使用自制數(shù)據(jù)集。該數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集、測(cè)試集3類,共包含6421張圖像。此數(shù)據(jù)集中包含了井下及地面工人安全帽佩戴的數(shù)據(jù),綜合考慮了場(chǎng)地、光線、個(gè)人姿勢(shì)和是否遮擋等復(fù)雜條件,具備十足的可靠性。在測(cè)試過(guò)程中,所有YOLO模型訓(xùn)練的epoch為100,Batch-size為8,學(xué)習(xí)率為0.0001,而且為避免測(cè)試中出現(xiàn)過(guò)擬合采用了早停策略。

3.2 消融實(shí)驗(yàn)

為了驗(yàn)證改進(jìn)的ED-YOLOv5s的性能,本研究進(jìn)行了消融實(shí)驗(yàn)。該實(shí)驗(yàn)以YOLOv5s模型為基礎(chǔ)模型,對(duì)EMA注意力機(jī)制、DIoU損失函數(shù)分別進(jìn)行分析,了解各模塊對(duì)提升模型性能分別發(fā)揮的作用以及對(duì)結(jié)構(gòu)改進(jìn)的有效程度。根據(jù)結(jié)果的精確率(P)、平均均值精度(mAP@50%)、召回率(R)的數(shù)值來(lái)分析改進(jìn)后的ED-YOLOv5s網(wǎng)絡(luò)對(duì)井下安全帽佩戴情況的檢測(cè)性能。依據(jù)算法參數(shù)量、每秒傳輸幀數(shù)來(lái)評(píng)價(jià)改進(jìn)算法的優(yōu)劣。實(shí)驗(yàn)結(jié)果如表1所示。

表1給出了使用數(shù)據(jù)集后的消融實(shí)驗(yàn)結(jié)果, ①為加入EMA注意力機(jī)制, ②為加入DIoU損失函數(shù), ③為同時(shí)加入EMA注意力機(jī)制和DIoU損失函數(shù)。結(jié)果顯示mAP@50%分布提升1.0%、0.7%、1.2%,同時(shí)加入EMA注意力機(jī)制和DIoU損失函數(shù)模型的mAP@50%值最大;加入EMA注意力機(jī)制的模型精確度明顯提高,表明此模塊可以較好地捕捉關(guān)鍵特征。同時(shí),加入DIoU損失函數(shù)后FPS值顯著增大,檢測(cè)更具實(shí)時(shí)性。依據(jù)mAP@50%值及FPS值可知本研究ED-YOLOv5s算法精度更高、檢測(cè)速度更快,可以更好地適用于煤礦企業(yè)。

3.3 對(duì)比試驗(yàn)

當(dāng)引入EMA注意力機(jī)制模塊后,本研究發(fā)現(xiàn)EMA注意力機(jī)制的數(shù)量與添加位置的不同也會(huì)使模型產(chǎn)生不同的精度、檢測(cè)速率。因此,本研究針對(duì)不同情況進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。

表2給出了3種不同模型及原始模型在自制數(shù)據(jù)集上的檢測(cè)與識(shí)別數(shù)據(jù)。可以看出:4種模型的參數(shù)量和模型體積大致相等;YOLOv5s的模型召回率最高,但精度偏低;YOLOv5s+1EMA的圖像處理速度最快,但精度低于YOLOv5s+3EMA;YOLOv5s+2EMA的精度、mAP@50%值以及FPS值均小于其余3種模型,性能較差。相比之下 YOLOv5s+3EMA的精度最高、mAP@50%值最大、檢測(cè)實(shí)時(shí)性最好。

為直觀地看出不同損失函數(shù)對(duì)YOLOv5s模型圖像處理速度和精度的影響,本文對(duì)YOLOv5s原模型以及分別采用SIoU損失函數(shù)、EIoU損失函數(shù)、DIoU損失函數(shù)的4類模型進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

表3給出了YOLOv5s在分別采用SIoU、EIoU、DIoU不同損失函數(shù)后在相同數(shù)據(jù)集上的檢測(cè)與識(shí)別數(shù)據(jù)。可以看出:YOLOv5s原模型的精度、檢測(cè)速度均低于其他3種模型;YOLOv5s+SIoU的精度最高,在精度、模型召回率及檢測(cè)速度上均優(yōu)于原模型;YOLOv5s+EIoU的精度最低,但區(qū)域3項(xiàng)指標(biāo)模型均優(yōu)于上述2種模型;YOLOv5s+DIoU的精度及模型召回率均高于原模型且mAP@50%值和FPS值最大。由此可得采用DIoU損失函數(shù)的模型平均均值精度最高,圖像檢測(cè)速度最快,更具實(shí)時(shí)性。

為進(jìn)一步探究本文模型對(duì)礦井下安全帽佩戴情況的檢測(cè)效果,本研究將改進(jìn)后的ED-YOLOv5s模型、YOLOv7-tiny以及YOLOv8算法使用相同樣本和訓(xùn)練環(huán)境,對(duì)它們進(jìn)行客觀的指標(biāo)對(duì)比。實(shí)驗(yàn)結(jié)果如表4所示。

表4列出了3種算法在相同數(shù)據(jù)集上的檢測(cè)與識(shí)別后的結(jié)果。使用檢測(cè)精度P、模型召回率、平均均值精度等的數(shù)據(jù)結(jié)果對(duì)其性能進(jìn)行評(píng)價(jià),結(jié)果表明:YOLOv8的精度、mAP@50%值、FPS值均小于ED-YOLOv5s,但參數(shù)量和模型體積較??;YOLOv7-tiny的精度、模型召回率、mAP@50%值以及FPS值均小于ED-YOLOv5s和YOLOv8。3種模型中本文改進(jìn)模型的mAP@50%值最高,圖像處理速度最快。

3.4 檢測(cè)效果

如圖5所示,可看出本研究改進(jìn)的ED-YOLOv5s模型對(duì)煤礦井下的圖像檢測(cè)精度高,可以較好地實(shí)時(shí)性地對(duì)工人安全帽佩戴情況進(jìn)行檢測(cè)。

4 結(jié)語(yǔ)

本研究針對(duì)礦井下視頻檢測(cè)精度低、檢測(cè)速度慢、不具備實(shí)時(shí)性等問題,以YOLOv5s為基礎(chǔ)提出了一種結(jié)合EMA注意力機(jī)制和DIoU損失函數(shù)的改進(jìn)的ED-YOLOv5s模型。使用自制數(shù)據(jù)集對(duì)該模型進(jìn)行消融實(shí)驗(yàn),結(jié)果表明2處改進(jìn)點(diǎn)可以顯著地提升YOLOv5s的性能。為了解改進(jìn)效果,本文將該模型與YOLOv7-tiny、YOLOv8進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示本文模型可以很好地檢測(cè)工人安全帽佩戴情況,具備檢測(cè)速度快、精度較高等優(yōu)勢(shì),可以較好地解決煤礦井下的現(xiàn)有問題。

參考文獻(xiàn)

[1]李寶奇,黃海寧,劉紀(jì)元,等.基于改進(jìn)SSD的合成孔徑聲納圖像感興趣小目標(biāo)檢測(cè)方法[J].電子學(xué)報(bào),2024(3):762-771.

[2]王琳毅,白靜,李文靜,等.YOLO系列目標(biāo)檢測(cè)算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2023(14):15-29.

[3]王濤,馮浩,秘蓉新,等.基于改進(jìn)YOLOv3-SPP算法的道路車輛檢測(cè)[J].通信學(xué)報(bào),2024(2):68-78.

[4]閔鋒,況永剛,毛一新,等.改進(jìn)YOLOv4的遙感圖像目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2024(2):396-404.

[5]貴向泉,秦慶松,孔令旺.基于改進(jìn)YOLOv5s的小目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2024(4):1134-1140.

[6]趙睿,劉輝,劉沛霖,等.基于改進(jìn)YOLOv5s的安全帽檢測(cè)算法[J].北京航空航天大學(xué)學(xué)報(bào),2021(8):2050-2061.

[7]岳衡,黃曉明,林明輝,等.基于改進(jìn)YOLOv5的安全帽佩戴檢測(cè)[J].計(jì)算機(jī)與現(xiàn)代化,2022(6):104-108,126.

[8]張麗麗,陳真,劉雨軒,等.基于ZYNQ的YOLOv3-SPP實(shí)時(shí)目標(biāo)檢測(cè)系統(tǒng)[J].光學(xué)精密工程,2023(4):543-551.

[9]陳偉,江志成,田子建,等.基于YOLOv8的煤礦井下人員不安全動(dòng)作檢測(cè)算法[EB/OL].(2024-03-25)[2024-07-11].http://kns.cnki.net/kcms/detail/11.2402.td.20240322.1343.003.html.

[10]曹雨淇,徐慧英,朱信忠,等.基于YOLOv8改進(jìn)的打架斗毆行為識(shí)別算法:EFD-YOLO[EB/OL].(2024-01-26)[2024-07-11].http://kns.cnki.net/kcms/detail/43.1258.TP.20240126.0819.002.html.

(編輯 王雪芬)

Detection algorithm for wearing safety helmet undermine based on improved ED-YOLOv5s

GUO Yunfei, HOU Yanwen, TAO Hongjing

(College of Coal Engineering, Shanxi Datong University, Datong 037000, China)

Abstract: Wearing a helmet in underground coal mine is a key factor concerning the safety of workers. Although the video image analysis technology can better detect the helmet wearing of workers to minimize the damage caused by accidents, there are often various realistic factors in the image collection process under the mine, such as complex environment and multiple targets. These problems will cause a lot of interference to the technicians. To address the above problems, this study proposed an improved ED-YOLOv5s model by introducing the EMA attention mechanism with the DIoU loss function. In this paper, we conducted ablation experiments on CUMT-HelmeT dataset, and the results show that it is greatly improved in image detection speed and accuracy compared with the original model. After comparing the algorithm with YOLOv7-tiny and YOLOv8, result display that the mAP@50% is 97.3%

Key words: image analysis; YOLOv5s; EMA; DIoU