燕碧娟 王凱民 郭鵬程 鄭馨旭 董浩 劉勇
摘要:針對現(xiàn)有煤矸檢測模型存在的特征提取不充分、參數(shù)量大、檢測精度低且實時性差等問題,提出了一種基于YOLOv5s?FSW 模型的選煤廠煤矸檢測方法。該模型在YOLOv5s 的基礎(chǔ)上進(jìn)行改進(jìn),首先將主干網(wǎng)絡(luò)的C3 模塊替換為FasterNet Block 結(jié)構(gòu),通過降低模型的參數(shù)量和計算量提高檢測速度;然后,在頸部網(wǎng)絡(luò)引入無參型SimAM 注意力機制,增強模型對復(fù)雜環(huán)境下重要目標(biāo)的關(guān)注,進(jìn)一步提高模型的特征提取能力;最后,在輸出端用Wise?IoU 替換CIoU 邊界框損失函數(shù),使模型聚焦普通質(zhì)量錨框,提高收斂速度和邊框的檢測精度。消融實驗結(jié)果表明:與YOLOv5s 模型相比,YOLOv5s?FSW 模型的平均精度均值(mAP)提高了1.9%,模型權(quán)重減少了0.6 MiB,參數(shù)量減少了4.7%,檢測速度提高了19.3%。對比實驗結(jié)果表明:YOLOv5s?FSW 模型的mAP 達(dá)95.8%,較YOLOv5s?CBC,YOLOv5s?ASA,YOLOv5s?SDE 模型分別提高了1.1%,1.5% 和1.2%,較YOLOv5m,YOLOv6s 模型分別提高了0.3%,0.6%;檢測速度達(dá)36.4 幀/s,較YOLOv5s?CBC,YOLOv5s?ASA 模型分別提高了28.2% 和20.5%,較YOLOv5m,YOLOv6s,YOLOv7 模型分別提高了16.3%,15.2%,45.0%。熱力圖可視化實驗結(jié)果表明:YOLOv5s?FSW 模型對煤矸目標(biāo)特征區(qū)域更加敏感且關(guān)注度更高。檢測實驗結(jié)果表明:在環(huán)境昏暗、圖像模糊、目標(biāo)相互遮擋的復(fù)雜場景下,YOLOv5s?FSW 模型對煤矸目標(biāo)檢測的置信度得分高于YOLOv5s 模型,且有效避免了誤檢和漏檢現(xiàn)象的發(fā)生。
關(guān)鍵詞:煤矸檢測;YOLOv5s;FasterNet Block;SimAM 注意力機制;Wise?IoU 邊界框損失函數(shù)
中圖分類號:TD948.9文獻(xiàn)標(biāo)志碼:A
0 引言
近年來中國的能源結(jié)構(gòu)正在逐步優(yōu)化升級,但煤炭依然扮演著能源保障的核心角色[1-3]。在煤炭開采過程中不可避免地會混入煤矸,這不僅會降低煤炭品質(zhì),還會影響環(huán)境與生態(tài),并有可能觸發(fā)山體滑坡等災(zāi)害。因此,準(zhǔn)確快速地識別煤矸是進(jìn)行有效分揀的基礎(chǔ),也是選煤廠智能化選煤技術(shù)研究的一個焦點[4-5]。傳統(tǒng)的煤矸分選技術(shù)包括人工分揀、射線法、重介法和跳汰分選法等,這些方法通常效率較低且易造成環(huán)境污染[6-9]。隨著深度學(xué)習(xí)技術(shù)的進(jìn)展,基于目標(biāo)檢測技術(shù)的物體識別方法開始在工業(yè)領(lǐng)域得到廣泛應(yīng)用。
目前深度學(xué)習(xí)與煤矸檢測結(jié)合的研究已取得一定的成果。蔡秀凡等[10]通過修改K?means 初始錨框參數(shù)與增加一個檢測通道,降低了小塊煤矸漏檢率與誤檢率,但檢測結(jié)果的魯棒性有待檢驗。來文豪等[11]選取多光譜系統(tǒng)中的3 個波段創(chuàng)建煤矸圖像數(shù)據(jù)集,并基于改進(jìn)的YOLOv4 模型檢測煤矸,但模型檢測時間偏長,影響了檢測的實時性。高如新等[12]對YOLOv5s 模型的損失函數(shù)進(jìn)行優(yōu)化,提高了邊界框檢測的準(zhǔn)確率,但并未提升煤矸的檢測速度。鄭道能[13]引入空洞卷積替代tiny YOLOv3 模型中部分卷積層,擴大模型感受野,提高了模型計算速度,但對檢測小塊煤矸不太友好。陳彪等[14]將YOLOX?S 主干網(wǎng)絡(luò)替換為Ghost?S 結(jié)構(gòu),并用SIoU 邊界框損失函數(shù)代替原損失函數(shù),提高了模型的特征提取能力和準(zhǔn)確率,但沒有解決復(fù)雜環(huán)境下煤矸檢測精度較低的問題。桂方俊等[15]將YOLOv5m 模型的Neck 部分修改為雙向特征金字塔結(jié)構(gòu),提高了模型的檢測速度,但特征提取不充分,降低了煤矸的檢測精度。張釋如等[16]通過在YOLOv5s 模型的Backbone 中引入空洞卷積和殘差塊優(yōu)化空間金字塔池化(Spatial Pyramid Pooling, SPP)模塊結(jié)構(gòu),強化多尺度特征融合,提高了對小目標(biāo)煤矸的檢測精度,降低了煤矸識別的誤檢率和漏檢率,但網(wǎng)絡(luò)的參數(shù)較多,對模型的檢測速度影響較大。張磊等[17]在YOLOv5s 中將普通卷積替換為深度可分離卷積,顯著降低了模型的參數(shù)量和計算量,提高了煤矸檢測速度,但降低了模型的特征提取能力,影響了模型的檢測精度。
針對上述問題,本文提出了一種基于YOLOv5s?FSW 模型的煤矸檢測方法。首先,在主干網(wǎng)絡(luò)中引入FasterNet Block 結(jié)構(gòu),以減少模型的參數(shù)量和計算量,從而提高檢測速度。然后,在頸部網(wǎng)絡(luò)添加無參型SimAM 注意力機制來提高模型的特征提取能力,特別是復(fù)雜環(huán)境中的煤矸檢測精度。最后,采用Wise?IoU(Wise-Intersection over Union) 損失函數(shù)替代CIoU(Complete Intersection over Union),以提高模型的收斂速度和邊界框定位精度。
1 YOLOv5s?FSW 模型建立
1.1 YOLOv5 基礎(chǔ)模型選擇
YOLOv5 共有YOLOv5n, YOLOv5s, YOLOv5m,YOLOv5l,YOLOv5x 5 個版本,其網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入端(Input) 、主干網(wǎng)絡(luò)(Backbone) 、頸部網(wǎng)絡(luò)(Neck) 、輸出端(Prediction) 4 個部分組成[18-19]。輸入端主要對輸入數(shù)據(jù)進(jìn)行預(yù)處理。主干網(wǎng)絡(luò)通過一系列卷積層、池化層和快速空間金字塔池化(SpatialPyramid Pooling-Fast,SPPF)對特征圖進(jìn)行不同尺度的特征提取和融合,以提升模型的檢測精度。頸部網(wǎng)絡(luò)通過自頂向下傳遞語義信息和自底向上傳遞位置信息進(jìn)行不同特征的融合,提高模型檢測能力。輸出端輸出計算得到的網(wǎng)絡(luò)預(yù)測結(jié)果。從YOLOv5n開始,模型的檢測精度逐步提高,但模型深度和模型寬度也在依次增大,導(dǎo)致模型復(fù)雜度和參數(shù)量增大,影響了檢測速度。由于采煤和運煤現(xiàn)場大都為算力較低的嵌入式設(shè)備,難以滿足部署大模型的條件。綜合對模型檢測精度、速度及算力的考慮,本文選用YOLOv5s 作為基礎(chǔ)模型。
1.2 YOLOv5s?FSW 模型
YOLOv5s?FSW 模型是在YOLOv5s 基礎(chǔ)上改進(jìn)而來,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。將主干網(wǎng)絡(luò)中的部分C3 模塊替換為FasterNet Block 結(jié)構(gòu),降低參數(shù)量和計算量。在頸部網(wǎng)絡(luò)添加SimAM 注意力機制,使模型聚焦目標(biāo)有效特征,降低對無關(guān)信息的關(guān)注度。在輸出端采用Wise?IoU 替換CIoU 邊界框損失函數(shù),提高模型的定位精度和收斂速度。
1.2.1 FasterNet Block 結(jié)構(gòu)
在YOLOv5s 中,主干網(wǎng)絡(luò)主要包括Conv 模塊、SPPF 模塊、C3 模塊。Conv 模塊包括卷積(Conv2d)層、批量歸一化(Batch Normalization,BN)層和SILU激活函數(shù);SPPF 模塊可處理輸入圖像并獲得多尺度的特征表示; C3 模塊可增加網(wǎng)絡(luò)的深度和感受野,提高模型的特征提取能力,但C3 模塊的參數(shù)量較大、計算復(fù)雜度高,影響模型檢測速度,難以滿足選煤廠煤矸檢測任務(wù)的實時性要求。因此,本文采用FasterNet Block 結(jié)構(gòu)[20]替換主干網(wǎng)絡(luò)中部分C3 模塊,通過降低內(nèi)存訪問量和計算量來提升模型的檢測速度。
FasterNet Block 為由1 個部分卷積(PartialConvolution, PConv)層和2 個逐點卷積(Point?WiseConvolution,PWConv)層組成的倒置殘差塊結(jié)構(gòu),如圖2 所示,其中*為卷積運算。FasterNet Block 結(jié)構(gòu)通過PConv 層對輸入特征的部分通道進(jìn)行空間特征提取,維持其余通道不變,并將首個或尾個連續(xù)通道作為整個特征圖的表征進(jìn)行計算,在保證一般性的同時,維持輸入和輸出特征的通道數(shù)一致。PConv層通過減少冗余計算和內(nèi)存訪問實現(xiàn)降低計算量,從而提高模型計算速度和運行速度。為充分利用不同通道的所有信息,在PConv 層后引入2 個PWConv層對特征通道進(jìn)行操作,第1 個PWConv 層用于減少特征圖的通道數(shù),降低計算成本,第2 個PWConv層用于恢復(fù)特征通道數(shù),并將空間信息和通道信息融合,以提高網(wǎng)絡(luò)的表達(dá)能力。為保證模型的特征多樣性并實現(xiàn)更低的延遲,將BN 層和ReLU 激活函數(shù)放置在2 個PWConv 層之間,以提高模型性能。
FasterNet Block 中PConv 層的計算量為
F = hwk2c2p(1)
式中:h 和w 分別為輸入特征圖的高和寬;k 為PConv層的卷積核大??;cp 為PConv 層作用于輸入特征圖的通道數(shù),cp 通常取輸入特征圖通道數(shù)c 的1/4,此時PConv 層的計算量為常規(guī)卷積的1/16,同時內(nèi)存訪問量僅為常規(guī)卷積的1/4,其內(nèi)存訪問量為
f = 2hwcp +k2c2p≈2hwcp (2)
1.2.2 SimAM 注意力機制
YOLOv5s 提取輸入圖像特征時無法對不同的通道信息實行不同程度的關(guān)注,影響模型的檢測精度。煤矸檢測任務(wù)中目標(biāo)之間特征差異小,尤其在選煤廠、煤礦井下等復(fù)雜場景中目標(biāo)與背景區(qū)分度小,影響模型對煤矸目標(biāo)的特征提取能力,導(dǎo)致模型檢測精度低,甚至出現(xiàn)誤檢、漏檢的現(xiàn)象。本文在頸部網(wǎng)絡(luò)中添加注意力機制以增強模型的特征提取能力。深度學(xué)習(xí)中的注意力機制是一種常用的數(shù)據(jù)處理技術(shù),通過從眾多信息中選出對當(dāng)前任務(wù)最關(guān)鍵的信息并抑制不相關(guān)的次要信息,增強網(wǎng)絡(luò)的特征提取能力,提升模型識別的效率和準(zhǔn)確率。常見的注意力機制如壓縮和激勵注意力機制(Squeeze-and-Excitation,SE)[21]、卷積塊注意力機制(ConvolutionalBlock Attention Module, CBAM) [22]和高效通道注意力機制(Efficient Channel Attention, ECA) [23]等均是基于通道維度或空間維度進(jìn)行權(quán)重分配,且會在網(wǎng)絡(luò)中帶入額外的參數(shù),既限制了注意力權(quán)重學(xué)習(xí)的靈活性,又增加了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性。與傳統(tǒng)的通道注意力和空間注意力相比,SimAM 注意力機制在不向網(wǎng)絡(luò)添加參數(shù)的情況下,可根據(jù)能量函數(shù)直接計算特征圖的三維權(quán)重,其原理如圖3 所示[24]。SimAM 通過計算神經(jīng)元的能量函數(shù),為每個神經(jīng)元分配唯一權(quán)重,以度量目標(biāo)神經(jīng)元和其他神經(jīng)元的線性可分性,從而找到含有最大信息量的神經(jīng)元,并依據(jù)神經(jīng)元的重要性實現(xiàn)注意力權(quán)重的計算,具體的神經(jīng)元能量函數(shù)為
式中:M 為當(dāng)前通道上所有神經(jīng)元個數(shù);xi 為輸入特征目標(biāo)神經(jīng)元的第i 個相鄰神經(jīng)元。
由式(3)可知, e*t越小,目標(biāo)神經(jīng)元與其相鄰神經(jīng)元的差異越明顯,表明該目標(biāo)神經(jīng)元的重要性越高,其重要性可由1/e*t表示。對輸入特征進(jìn)行增強處理。
式中:X為通過 Sigmoid 函數(shù)限制注意力權(quán)重的異常值后與輸入特征相乘得到的增強特征;E 為每個通道維度上的能量函數(shù)矩陣;⊙為點積運算;X 為輸入特征。
1.2.3 Wise?IoU 邊界框損失函數(shù)
目標(biāo)檢測中通常使用交并比(Intersection overUnion,IoU) [25]判斷網(wǎng)絡(luò)預(yù)測框的準(zhǔn)確性,但I(xiàn)oU 無法體現(xiàn)預(yù)測框和真實框之間的距離信息及長寬比的相似性。YOLOv5s 以CIoU 為邊界框損失函數(shù)[26]。CIoU 使用預(yù)測框和真實框的寬高比作為懲罰項,并考慮了邊界框回歸時重疊面積、中心點距離及長寬比3 個重要因素,使模型在邊界框回歸時不僅只關(guān)注邊界框的大小,還關(guān)注邊界框的形狀,有助于更準(zhǔn)確地定位目標(biāo)的邊界,但計算復(fù)雜,且默認(rèn)樣本的質(zhì)量較高,導(dǎo)致模型收斂速度較慢、泛化能力較差,阻礙了模型的優(yōu)化。由于煤矸目標(biāo)與背景相似,且存在相互重疊與遮擋等問題,人工標(biāo)注圖像數(shù)據(jù)時難免會產(chǎn)生一些低質(zhì)量標(biāo)注框,影響模型的檢測精度與穩(wěn)定性。若低質(zhì)量樣本較多,一味地增強邊界框回歸會使模型檢測性能下降。因此本文在輸出端采用Wise?IoU[27]邊界框損失函數(shù)(式(7))代替CIoU。Wise?IoU 引入了動態(tài)聚焦機制,并能根據(jù)當(dāng)前情況計算出最適合的梯度增益分配策略,通過離群度判斷錨框的質(zhì)量,給高質(zhì)量和低質(zhì)量錨框分配較小的梯度增益,從而使模型更加關(guān)注普通質(zhì)量的錨框,整體提高模型的檢測性能。
2 實驗分析
2.1 數(shù)據(jù)采集
為驗證模型的有效性,在山西大同某煤礦井下現(xiàn)場和煤炭仿真實驗室共采集1 263 張分辨率為1 280×960 的煤矸圖像。圖像目標(biāo)中包括單塊煤、單塊矸石及多塊煤與矸石相互遮擋等場景。為確保數(shù)據(jù)集的質(zhì)量和可用性,刪除不清晰及質(zhì)量較差的圖像,將剩余的1 133 張煤矸圖像用LabelImg 軟件進(jìn)行標(biāo)注,并保存為煤矸數(shù)據(jù)集,如圖4 所示。將自制數(shù)據(jù)集按照8∶1∶1 的比例劃分為訓(xùn)練集、驗證集和測試集, 其中訓(xùn)練集918 張、驗證集106 張、測試集109 張。為了加快訓(xùn)練速度,將數(shù)據(jù)集分辨率統(tǒng)一調(diào)整為640×480。
2.2 模型訓(xùn)練
煤矸目標(biāo)檢測實驗使用的操作系統(tǒng)為Windows11, CPU 為Intel(R) Xeon(R) E5?2686 v4, 顯卡為NVIDIA GeForce RTX 3060,顯存為12 GiB。深度學(xué)習(xí)框架為PyTorch1.13.1, CUDA 版本為11.6, Python版本為3.8.10。實驗?zāi)P陀?xùn)練參數(shù)設(shè)置如下:學(xué)習(xí)率初始值為0.01,學(xué)習(xí)率周期為0.2,動量因子為0.937,權(quán)重衰減系數(shù)為0.000 5,批處理大小為32,迭代次數(shù)為300。
2.3 消融實驗
為了觀察模型各組件的重要性和貢獻(xiàn)度,利用測試集進(jìn)行消融實驗。為了保證實驗的一致性,各改進(jìn)模型除了改進(jìn)部分有所不同,其余部分相對YOLOv5s 基礎(chǔ)模型保持不變。改進(jìn)模型1 為采用FasterNet Block 結(jié)構(gòu)替換YOLOv5s 主干網(wǎng)絡(luò)的部分C3 模塊;改進(jìn)模型2 為在YOLOv5s 的頸部網(wǎng)絡(luò)添加SimAM 注意力機制;改進(jìn)模型3 為用Wise?IoU代替CIoU 邊界框損失函數(shù),實驗結(jié)果見表1。
由表1 可看出,改進(jìn)模型1 的參數(shù)量、權(quán)重、計算量較YOLOv5s 分別減少了4.7%,4.4%,9.5%,檢測速度較YOLOv5s 提高了23.9%,但模型的平均精度均值(mean Average Precision, mAP) 較YOLOv5s 降低了0.4%,這是由于將主干網(wǎng)絡(luò)部分C3 模塊替換為FasterNet Block 結(jié)構(gòu)后,降低了冗余計算量和內(nèi)存訪問量,參數(shù)量和計算量下降,提高了模型的檢測速度,但模型的檢測精度略微下降。改進(jìn)模型2 的召回率、mAP 較YOLOv5s 分別提升了0.5%,0.3%,檢測速度較YOLOv5s 降低了4.6%,這是由于頸部網(wǎng)絡(luò)添加SimAM 注意力機制,在不增加參數(shù)量和計算量的情況下,模型能聚焦特征差異,準(zhǔn)確地捕捉特征間的交互信息,增強網(wǎng)絡(luò)特征提取能力,提高了模型的檢測精度。改進(jìn)模型3 的精確率、召回率、mAP 較YOLOv5s 分別提高了1.2%, 1.1%, 1.4%, 說明采用Wise?IoU 代替CIoU 邊界框損失函數(shù),模型聚焦普通質(zhì)量的錨框回歸,提高了模型定位精度、收斂速度和穩(wěn)定性。YOLOv5s?FSW 模型的參數(shù)量、權(quán)重、計算量較YOLOv5s 分別減少了4.7%, 4.4%, 9.5%, mAP、檢測速度較YOLOv5s 分別提高了1.9%, 19.3%, 表明YOLOv5s?FSW 模型降低了參數(shù)量和計算量,提高了檢測精度和檢測速度,更加適合選煤廠復(fù)雜環(huán)境下的煤矸檢測任務(wù)。
2.4 對比實驗
為進(jìn)一步驗證YOLOv5s?FSW 模型對煤矸的檢測性能,在同一實驗環(huán)境下設(shè)置了對比實驗。對比實驗的檢測模型選取YOLOv5 算法變體YOLOv5s?CBC[12]、YOLOv5s?ASA[16]、YOLOv5s?SDE[17]及主流目標(biāo)檢測模型YOLOv5m, YOLOv6s, YOLOv7。YOLOv5s?CBC 模型在主干網(wǎng)絡(luò)中添加CBAM 注意力機制,頸部網(wǎng)絡(luò)采用BiFPN 結(jié)構(gòu),使用CIoU 替換DIoU(Distance Intersection over Union, 距離交并比)損失函數(shù); YOLOv5s?ASA 模型使用殘差A(yù)SPP(Atrous Spatial Pyramid Pooling,空洞空間金字塔池化) 模塊替換SPP 模塊, AdaBelief 優(yōu)化算法代替Adam 優(yōu)化算法;YOLOv5s?SDE 模型在主干網(wǎng)絡(luò)中添加SE 注意力模塊,在頸部網(wǎng)絡(luò)用深度可分離卷積替換普通卷積,然后將CIoU 損失函數(shù)替換為EIoU。在同一實驗環(huán)境下對各目標(biāo)檢測模型進(jìn)行多輪訓(xùn)練和測試,對比實驗結(jié)果見表2。
由表2 可看出, YOLOv5s?FSW 模型的mAP 較YOLOv5s?CBC、YOLOv5s?ASA、YOLOv5s?SDE 模型分別提高了1.1%、1.5% 和1.2%, 但計算量較YOLOv5s?SDE 模型增大了18.2%,檢測速度降低了3.7%, YOLOv5s?FSW 模型的計算量較YOLOv5s?CBC 和YOLOv5s?ASA 模型分別減少了10.1% 和8.3%, 檢測速度分別提高了28.2% 和20.5%;YOLOv5s?FSW 模型的mAP 較YOLOv5m,YOLOv6s模型分別提高了0.3%, 0.6%,檢測速度分別提高了16.3% 與15.2%,權(quán)重分別減少了27.1, 25.6 MiB,計算量分別減少了70.1% 與68.4%。與YOLOv7 模型對比, 雖然YOLOv5s?FSW 模型的mAP 降低了0.3%,但權(quán)重減少了58.2 MiB,計算量減少了86.4%,檢測速度提高了45.0%。對比實驗結(jié)果表明,針對類似改進(jìn)YOLOv5 模型及其他YOLO 模型變體,本文提出的YOLOv5s?FSW 模型在檢測精度和檢測速度上性能更加均衡,滿足選煤廠煤矸檢測需求。
2.5 熱力圖可視化實驗
為了直觀地展現(xiàn)模型對煤矸目標(biāo)檢測區(qū)域的關(guān)注度, 本文分別采用YOLOv5s 模型與YOLOv5s?FSW 模型融合Grad?CAM 算法對煤矸測試圖像進(jìn)行熱力圖可視化實驗,分析模型對煤矸目標(biāo)檢測區(qū)域的關(guān)注,結(jié)果如圖5 所示。紅色高亮區(qū)域表示模型提取煤矸目標(biāo)特征時重點關(guān)注的區(qū)域,煤矸表面紅色高亮區(qū)域顏色越深、覆蓋越廣,表示模型對煤矸目標(biāo)區(qū)域的關(guān)注度越高。從圖5 可看出,YOLOv5s?FSW 模型較YOLOv5s 模型對煤矸目標(biāo)特征區(qū)域更加敏感,且關(guān)注度更高。
2.6 煤矸檢測實驗
為了進(jìn)一步驗證YOLOv5s?FSW 模型的檢測實用性,收集了山西大同某煤礦井下現(xiàn)場拍攝的煤矸圖像,并與從實驗室采集的測試集圖像中挑選出具有代表性的煤矸圖像分別對YOLOv5s 和YOLOv5s?FSW 模型進(jìn)行測試。本文所用的測試圖像包括環(huán)境昏暗、圖像模糊、目標(biāo)相互遮擋3 種復(fù)雜場景,模型檢測效果如圖6 所示??煽闯鲈诃h(huán)境昏暗的場景下,圖像中有2 塊矸石和3 塊煤,YOLOv5s 模型對煤的檢測精度偏低(置信度得分小于0.8) ,且出現(xiàn)了1 塊煤誤檢為矸石(置信度得分為0.37)和漏檢1 塊煤的情況,而YOLOv5s?FSW 模型正確檢測出了全部煤和矸石目標(biāo),且置信度得分較高;在圖像模糊的場景下,圖像中有2 塊矸石和2 塊煤,YOLOv5s 模型漏檢了1 塊煤,而YOLOv5s?FSW 模型正確檢測出了煤和矸石目標(biāo),且置信度得分高于YOLOv5s 模型;在目標(biāo)相互遮擋的場景下,圖像中的目標(biāo)都為煤,雖然YOLOv5s 模型正確檢測出了全部目標(biāo),但有一半目標(biāo)數(shù)量的置信度得分小于0.9,而YOLOv5s?FSW 模型不但檢測出了全部目標(biāo),而且置信度得分大于0.94。綜合上述分析可知,YOLOv5s?FSW 模型在引入SimAM 注意力機制、使用Wise?IoU 損失函數(shù)后,增強了模型對復(fù)雜場景的抗干擾能力和特征提取能力,使其能夠在選煤廠環(huán)境昏暗、圖像模糊、目標(biāo)相互遮擋等復(fù)雜場景下展現(xiàn)良好的檢測性能,避免了誤檢與漏檢現(xiàn)象的發(fā)生。
3 結(jié)論
1) 為解決煤矸檢測精度低與速度慢的問題,提出了一種基于YOLOv5s?FSW 模型的煤矸檢測方法。在YOLOv5s 的主干網(wǎng)絡(luò)融合FasterNet Block 模塊,模型參數(shù)量和計算量分別降低了4.7% 與9.5%,模型權(quán)重減少了4.4%,檢測速度提高了23.9%;頸部網(wǎng)絡(luò)引入無參型SimAM 注意力機制,使模型聚焦煤矸目標(biāo)特征的關(guān)鍵信息,模型mAP 提高了0.3%;輸出端用Wise?IoU 代替CIoU 邊界框損失函數(shù),使模型聚焦普通質(zhì)量的錨框回歸,提高了煤矸預(yù)測框的定位精度,mAP 提高了1.4%,增強了模型的魯棒性。
2) 與同類型改進(jìn)模型相比, YOLOv5s?FSW模型的mAP 較YOLOv5s?CBC, YOLOv5s?ASA,YOLOv5s?SDE 模型分別提高了1.1%, 1.5%, 1.2%。與YOLOv5s 模型相比,YOLOv5s?FSW 模型的精確率達(dá)到91.8%, mAP 提高了1.9%,檢測速度提高了19.3%,參數(shù)量減少了4.7%,模型權(quán)重降低了4.4%。與YOLOv5m 與YOLOv6s 模型相比, YOLOv5s?FSW 模型的mAP 和檢測速度均有提高,參數(shù)量、計算量和模型權(quán)重有所下降;與YOLOv7 相比,雖然YOLOv5s?FSW 模型的mAP 降低了0.3%,但計算量減少了86.4%,檢測速度提高了45.0%,模型權(quán)重減少了58.2 MiB,僅為13.1 MiB,有利于模型的快速移植和部署。
3) 熱力圖對比實驗和煤矸石檢測實驗分別顯示:YOLOv5s?FSW 模型對煤矸目標(biāo)特征區(qū)域更加敏感且關(guān)注度更高;在環(huán)境昏暗、圖像模糊、目標(biāo)相互遮擋的復(fù)雜場景下,采用YOLOv5s?FSW 模型進(jìn)行煤矸目標(biāo)檢測的置信度得分均高于YOLOv5s 模型,并有效避免了誤檢和漏檢現(xiàn)象的發(fā)生,表現(xiàn)出良好的檢測性能。
參考文獻(xiàn)(References):
[ 1 ]金智新,曹孟濤,王宏偉. “中等收入”與新“雙控”背景下煤炭行業(yè)轉(zhuǎn)型發(fā)展新機遇[J]. 煤炭科學(xué)技術(shù),2023,51(1):45-58.
JIN Zhixin, CAO Mengtao, WANG Hongwei. Newopportunities for coal industry transformation anddevelopment under the background of the level of amoderately developed country and a new "dual control"system[J]. Coal Science and Technology,2023,51(1):45-58.
[ 2 ]李君清,李寅琪. 煤炭產(chǎn)業(yè)經(jīng)濟走勢及煤炭企業(yè)對策研究[J]. 中國煤炭,2023,49(3):16-22.
LI Junqing,LI Yinqi. Study on the development trend ofcoal industry economy and countermeasures of coalenterprises[J]. China Coal,2023,49(3):16-22.
[ 3 ]周宏春. 新型能源體系破解能源保供與降碳雙重壓力研究與探討[J]. 中國煤炭,2023,49(5):1-10.
ZHOU Hongchun. Research and discussion on breakingthe dual pressure of energy supply guarantee and carbonreduction by the new energy system[J]. China Coal,2023,49(5):1-10.
[ 4 ]朱吉茂,孫寶東,張軍,等. “雙碳”目標(biāo)下我國煤炭資源開發(fā)布局研究[J]. 中國煤炭,2023,49(1):44-50.
ZHU Jimao, SUN Baodong, ZHANG Jun, et al.Research on China's coal resources development layoutunder the goals of carbon peak and carbon neutrality[J].China Coal,2023,49(1):44-50.
[ 5 ]唐玨,王俊. “雙碳”目標(biāo)下煤炭發(fā)展及對策建議[J].中國礦業(yè),2023,32(9):22-31.
TANG Jue, WANG Jun. Coal development andcountermeasures under the carbon peaking and carbonneutrality goals[J]. China Mining Magazine, 2023,32(9):22-31.
[ 6 ]郭靜,李磊,李志明. 干法選煤技術(shù)創(chuàng)新進(jìn)展及其節(jié)能節(jié)水降污效果分析[J]. 中國煤炭,2022,48(5):68-75.
GUO Jing, LI Lei, LI Zhiming. Innovation progress ofdry coal preparation technology and analysis of its effectof energy saving, water saving and pollutionreduction[J]. China Coal,2022,48(5):68-75.
[ 7 ]劉志杰. 重介洗煤技術(shù)在選煤廠的應(yīng)用[J]. 能源與節(jié)能,2023(7):136-138.
LIU Zhijie. Application of heavy medium coal washingtechnology in coal preparation plant[J]. Energy andEnergy Conservation,2023(7):136-138.
[ 8 ]ZHANG Ningbo, LIU Changyou. Radiationcharacteristics of natural gamma-ray from coal andgangue for recognition in top coal caving[J]. ScientificReports,2018,8(1):190.
[ 9 ]韓子彬,王麗宏,申志剛,等. 基于X 射線分選方法在選煤廠中的應(yīng)用[J]. 煤炭科學(xué)技術(shù), 2022, 50(增刊1):327-332.
HAN Zibin, WANG Lihong, SHEN Zhigang, et al.Application of X-ray separation method in coalpreparation plant[J]. Coal Science and Technology,2022,50(S1):327-332.
[10]蔡秀凡,謝金辰. YOLOv4 煤矸石檢測方法研究[J].煤炭工程,2022,54(8):157-162.
CAI Xiufan, XIE Jinchen. YOLOv4-based detectionmethod of coal and gangue[J]. Coal Engineering,2022,54(8):157-162.
[11]來文豪,周孟然,胡鋒,等. 基于多光譜成像和改進(jìn)YOLOv4 的煤矸石檢測[J]. 光學(xué)學(xué)報,2020,40(24):72-80.
LAI Wenhao, ZHOU Mengran, HU Feng, et al. Coalgangue detection based on multi-spectral imaging andimproved YOLOv4[J]. Acta Optica Sinica, 2020,40(24):72-80.
[12]高如新,常嘉浩,杜亞博,等. 基于改進(jìn)YOLOv5s 的煤矸石目標(biāo)檢測算法[J]. 電子測量技術(shù),2023,46(13):95-101.
GAO Ruxin, CHANG Jiahao, DU Yabo, et al. Coalgangue target detection algorithm based on improvedYOLOv5s[J]. Electronic Measurement Technology,2023,46(13):95-101.
[13]鄭道能. 一種改進(jìn)的tiny YOLOv3 煤矸石快速識別模型[J]. 工礦自動化,2023,49(4):113-119.
ZHENG Daoneng. An improved tiny YOLOv3 rapidrecognition model for coal-gangue[J]. Journal of MineAutomation,2023,49(4):113-119.
[14]陳彪,盧兆林,代偉,等. 基于輕量化HPG?YOLOX?S模型的煤矸石圖像精準(zhǔn)識別[J]. 工礦自動化,2022,48(11):33-38.
CHEN Biao, LU Zhaolin, DAI Wei, et al. Accuraterecognition of coal-gangue image based on lightweightHPG-YOLOX-S model[J]. Journal of MineAutomation,2022,48(11):33-38.
[15]桂方俊,李堯. 基于CBA?YOLO 模型的煤矸石檢測[J]. 工礦自動化,2022,48(6):128-133.
GUI Fangjun, LI Yao. Coal gangue detection based onCBA-YOLO model[J]. Journal of Mine Automation,2022,48(6):128-133.
[16]張釋如,黃綜瀏,張袁浩,等. 基于改進(jìn)YOLOv5 的煤矸識別研究[J]. 工礦自動化,2022,48(11):39-44.
ZHANG Shiru, HUANG Zongliu, ZHANG Yuanhao,et al. Coal and gangue recognition research based onimproved YOLOv5[J]. Journal of Mine Automation,2022,48(11):39-44.
[17]張磊,王浩盛,雷偉強,等. 基于YOLOv5s?SDE 的帶式輸送機煤矸目標(biāo)檢測[J]. 工礦自動化, 2023,49(4):106-112.
ZHANG Lei, WANG Haosheng, LEI Weiqiang, et al.Coal gangue target detection of belt conveyor based onYOLOv5s-SDE[J]. Journal of Mine Automation,2023,49(4):106-112.
[18]REDMON J, FARHADI A. YOLOv3: an incrementalimprovement[C]. IEEE Conference on Computer Visionand Pattern Recognition,Salt Lake City,2018:89-95.
[19]蘆碧波, 周允, 李小軍, 等. 融合注意力機制的YOLOv5 輕量化煤礦井下人員檢測算法[J]. 煤炭技術(shù),2023,42(10):200-203.
LU Bibo, ZHOU Yun, LI Xiaojun, et al. YOLOv5lightweight coal mine underground personnel detectionalgorithm base on attention mechanism[J]. CoalTechnology,2023,42(10):200-203.
[20]CHEN Jierun, KAO Shiuhong, HE Hao, et al. Run,don't walk: chasing higher FLOPS for faster neuralnetworks[C]. IEEE/CVF Conference on ComputerVision and Pattern Recognition, Vancouver, 2023:12021-12031.
[21]HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitationnetworks[C]. IEEE Conference on Computer Vision andPattern Recognition,Salt Lake City,2018:7132-7141.
[22]WOO S, PARK J C, LEE J Y, et al. Cbam:convolutional block attention module[C]. EuropeanConference on Computer Vision,Munich,2018:3-19.
[22]柏羅,張宏[23] 立,王聰. 基于高效注意力和上下文感知的目標(biāo)跟蹤算法[J]. 北京航空航天大學(xué)學(xué)報, 2022,48(7):1222-1232.
BAI Luo, ZHANG Hongli, WANG Cong. Targettracking algorithm based on efficient attention andcontext awareness[J]. Journal of Beijing University ofAeronautics and Astronautics,2022,48(7):1222-1232.
[24]YANG Lingxiao, ZHANG Ruyuan, LI Lida, et al.Simam: a simple, parameter-free attention module forconvolutional neural networks[C]. InternationalConference on Machine Learning, New York, 2021:11863-11874.
[25]JIANG Borui, LUO Ruixuan, MAO Jiayuan, et al.Acquisition of localization confidence for accurateobject detection[C]. European Conference on ComputerVision,Munich,2018:816-832.
[26]ZHENG Zhaohui, WANG Ping, REN Dongwei, et al.Enhancing geometric factors in model learning andinference for object detection and instancesegmentation[J]. IEEE Transactions on Cybernetics,2021,52(8):8574-8586.
[27]TONG Zanjia, CHEN Yuhang, XU Zewei, et al.Wise?IoU: bounding box regression loss with dynamicfocusing mechanism[J]. Computer Science,2023. DOI:10.48550/arXiv.2301.10051.
基金項目:山西省重點研發(fā)計劃項目(202102010101010)。