摘 要:帶鋼作為現(xiàn)代鋼鐵產(chǎn)業(yè)的核心產(chǎn)品,劃痕檢測(cè)對(duì)于確保產(chǎn)品質(zhì)量、提升生產(chǎn)效率和降低成本至關(guān)重要,廣泛應(yīng)用于汽車制造、金屬加工、電子產(chǎn)品生產(chǎn)等領(lǐng)域。然而,劃痕形態(tài)各異且易受光照、背景和噪聲等因素影響,使得檢測(cè)任務(wù)極具挑戰(zhàn)性。近年來,隨著空間數(shù)據(jù)智能技術(shù)的不斷進(jìn)步,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法(如Faster RCNN、SSD、YOLO 等) 在檢測(cè)任務(wù)中表現(xiàn)出色,通過自動(dòng)學(xué)習(xí)、特征檢測(cè)和精準(zhǔn)目標(biāo)定位,在復(fù)雜背景下也能準(zhǔn)確檢測(cè)?;冢伲希蹋希觯的P瓦M(jìn)行了算法結(jié)構(gòu)的改進(jìn),將空間金字塔池化(Spatial Pyramid Pooling,SPP) 模塊替換為快速空間金字塔池化(SpatialPyramid PoolingFast,SPPF) 模塊,引入注意力機(jī)制,改進(jìn)現(xiàn)有的目標(biāo)檢測(cè)算法,提升劃痕檢測(cè)的準(zhǔn)確性和魯棒性。結(jié)合卷積塊注意力機(jī)制模塊(Convolutional Block Attention Module,CBAM) 構(gòu)建了YOLOv5CBAM 模型。CBAM 通過關(guān)注通道和空間維度上的信息,使模型更精準(zhǔn)地聚焦于劃痕區(qū)域,提升了檢測(cè)效果。實(shí)驗(yàn)結(jié)果顯示,YOLOv5CBAM 模型在各類交并比(Intersection over Union,IoU) 閾值下相較于YOLOv5,精確率、召回率和mAP @ 0. 5 有著較好的表現(xiàn),分別提升了5. 6% 、9. 1% 和5. 9% 。隨著空間數(shù)據(jù)智能技術(shù)的不斷進(jìn)步,未來有望為劃痕檢測(cè)提供更多創(chuàng)新思路和解決方案。
關(guān)鍵詞:劃痕檢測(cè);YOLOv5;卷積塊注意力機(jī)制模塊;模型構(gòu)建與訓(xùn)練
中圖分類號(hào):TP315 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1003-3106(2024)12-2789-11
0 引言
鋼鐵工業(yè)作為國(guó)家經(jīng)濟(jì)的基礎(chǔ)支撐產(chǎn)業(yè),不僅是構(gòu)建現(xiàn)代化強(qiáng)國(guó)的重要基石,還扮演著推動(dòng)綠色低碳發(fā)展的角色。帶鋼作為當(dāng)代鋼鐵工業(yè)的核心產(chǎn)出品,伴隨著工業(yè)智能制造技術(shù)的持續(xù)進(jìn)步,其市場(chǎng)需求正不斷攀升。然而,隨著生產(chǎn)能力的增強(qiáng),市場(chǎng)對(duì)于帶鋼品質(zhì)的期望也越來越高。熱軋工序在帶鋼制造中扮演著核心角色,被眾多工廠采用。在熱軋帶鋼的生產(chǎn)過程中,表面劃痕的存在與否成為了衡量產(chǎn)品質(zhì)量的關(guān)鍵指標(biāo)。劃痕等缺陷會(huì)顯著降低產(chǎn)品的品質(zhì),從而影響熱軋帶鋼質(zhì)量的整體水平。
從20 世紀(jì)70 年代以來,渦流[1]、紅外線[2]等多種檢測(cè)方法開始興起。紅外檢測(cè)方法是一種以工件瞬態(tài)導(dǎo)熱原理為基礎(chǔ)的非破壞性測(cè)試手段[3]。從20 世紀(jì)90 年代起,人們開始對(duì)帶鋼的表面缺陷進(jìn)行研究,有了一些較成熟的檢測(cè)方法。張濤等[4]提出了一種改進(jìn)的層次分析法,機(jī)器視覺技術(shù)借助電荷耦合器件(Charge Coupled Device,CCD)相機(jī)的廣泛應(yīng)用,正在逐步取代傳統(tǒng)的帶鋼表面缺陷檢測(cè)方法,發(fā)展成為識(shí)別帶鋼表面缺陷的主要技術(shù)手段[4]。在國(guó)外,許多企業(yè)較早地采用機(jī)器視覺技術(shù)來檢測(cè)帶鋼的表面瑕疵。德國(guó)的Parsytec 公司成功研發(fā)了一種使用面陣CCD 攝像頭的HTS2 帶鋼表面缺陷檢測(cè)系統(tǒng)[5]。Hang 等[6]提出一種基于領(lǐng)域像素灰度閾值的缺陷檢測(cè)方法,通過缺陷及其相鄰像素的灰度情況來判斷缺陷類型,獲得了良好的效果。然而,某些缺陷可能會(huì)被誤歸為背景,進(jìn)而造成分類錯(cuò)誤。為了解決這一問題,提出一種基于背景差分與改進(jìn)遺傳算法最大熵的軌道表面缺陷分割方法[7]。該方法首先采用改進(jìn)的列灰度均值背景圖像建模技術(shù)對(duì)軌道表面圖像進(jìn)行背景建模,隨后通過計(jì)算軌道表面圖像與背景圖像的差分來獲取差分圖像。其次,利用改進(jìn)遺傳算法的最大熵原理來確定差分圖像的最佳分割閾值,并對(duì)其進(jìn)行二值化處理。最后,對(duì)軌道表面的二值圖像進(jìn)行形態(tài)學(xué)處理和濾波,從而得到軌道表面缺陷的分割圖像。這一解決方案在帶鋼表面缺陷檢測(cè)領(lǐng)域表現(xiàn)出色且相對(duì)成熟,至今仍在廣泛應(yīng)用。在國(guó)內(nèi),北京科技大學(xué)徐科等[8]采用多個(gè)面陣CCD 攝像機(jī)同步捕獲鋼板表面圖像,并通過構(gòu)建一個(gè)由多臺(tái)客戶機(jī)與一臺(tái)服務(wù)器組成的并行計(jì)算機(jī)系統(tǒng),成功實(shí)現(xiàn)了對(duì)鋼板表面部分缺陷的高效檢測(cè)。Li 等[9]采用智能漩渦、漏磁記憶檢測(cè)儀等技術(shù)對(duì)曲軸外表面進(jìn)行無損檢測(cè),但是檢測(cè)成本過高且誤差過大,對(duì)小目標(biāo)的檢測(cè)效果不佳。上海寶鋼集團(tuán)攜手東北大學(xué)共同研發(fā)了一款熱軋鋼板表面缺陷檢測(cè)系統(tǒng),已在寶鋼集團(tuán)的生產(chǎn)車間中付諸實(shí)踐應(yīng)用[10]。
近期,計(jì)算機(jī)技術(shù)的快速進(jìn)步使得利用深度學(xué)習(xí)技術(shù)識(shí)別帶鋼表面缺陷的圖像成為了研究的熱點(diǎn)。當(dāng)前,許多關(guān)于帶鋼表面缺陷檢測(cè)的研究都集中在運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional NeuralNetwork,CNN)自動(dòng)進(jìn)行特征提取和缺陷識(shí)別,這種方法省去了手動(dòng)特征提取的環(huán)節(jié),并且通常能夠達(dá)到比傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)更優(yōu)的檢測(cè)性能。He 等[11]提出了一套創(chuàng)新的缺陷檢測(cè)框架,該框架首先對(duì)缺陷圖像進(jìn)行分類,然后根據(jù)不同類別的缺陷使用特定的卷積核來提取特征,最終確定缺陷的位置。雖然這種方法在提高缺陷檢測(cè)率方面表現(xiàn)出色,但也帶來了模型復(fù)雜性增加的問題。主要分為以SSD[12]、CenterNet[13]、YOLO 系列[14]為代表的單階段網(wǎng)絡(luò),以及以RCNN[15]、Fast RCNN[16]、Faster RCNN[17]和Mask RCNN[18]為代表的兩階段網(wǎng)絡(luò)。二者之間的主要區(qū)別在于是否存在生成區(qū)域候選框的階段。一階段目標(biāo)檢測(cè)算法無需預(yù)先生成區(qū)域候選框。檢測(cè)結(jié)果可以通過網(wǎng)絡(luò)直接計(jì)算,速度很快,但檢測(cè)精度可能相對(duì)較低。兩階段目標(biāo)檢測(cè)算法過程分為2 個(gè)階段。首先,生成候選框,然后根據(jù)這些候選框優(yōu)化檢測(cè)點(diǎn)以獲得更高的準(zhǔn)確性,但代價(jià)是檢測(cè)速度較慢。這種方法檢測(cè)精度較高,但是檢測(cè)速度較慢。其中,在2015 年Joseph Redmon 和AliFarhadi 首次提出YOLO 系列[19]算法,其檢測(cè)速度和精度非常平衡,更適合檢測(cè)工業(yè)缺陷。東北大學(xué)的宋克臣教授團(tuán)隊(duì)創(chuàng)新性地引入了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)應(yīng)用于帶鋼表面缺陷檢測(cè),采用GAN 技術(shù),有效緩解了帶鋼表面缺陷分類任務(wù)中樣本稀缺的問題,通過創(chuàng)建大量的未標(biāo)記缺陷圖像數(shù)據(jù)來增強(qiáng)缺陷識(shí)別能力[20]。這種方法顯著擴(kuò)充了缺陷圖像的庫(kù)容,盡管如此,GAN 在訓(xùn)練階段相對(duì)繁瑣,且在模擬復(fù)雜場(chǎng)景下的缺陷時(shí)遇到了一些難題。此外,該團(tuán)隊(duì)還提出了一種名為缺陷檢測(cè)網(wǎng)絡(luò)(Defect Detection Network,DDN)的網(wǎng)絡(luò)架構(gòu),該架構(gòu)是對(duì)Faster RCNN 的改進(jìn),顯著提高了模型的檢測(cè)精度,成功實(shí)現(xiàn)了端到端的帶鋼表面缺陷檢測(cè)[21]。雖然該模型在檢測(cè)精度方面表現(xiàn)優(yōu)異,但其檢測(cè)速度較慢,尚無法滿足實(shí)時(shí)檢測(cè)的需求。季娟娟等[22]提出了一種將注意力機(jī)制與YOLOv4 相結(jié)合的網(wǎng)絡(luò),該網(wǎng)絡(luò)分割模型凸顯出鋼表面缺陷,識(shí)別微小的缺陷,但由于只用了空間注意力機(jī)制,特征提取能力較差。
針對(duì)現(xiàn)有的目標(biāo)檢測(cè)算法仍存在一定的局限性,且對(duì)劃痕檢測(cè)任務(wù)的檢測(cè)準(zhǔn)確性不高、對(duì)復(fù)雜背景的魯棒性不強(qiáng),本文引入了基于YOLOv5 模型,將空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊替換成快速空間金字塔池化(Spatial PyramidPoolingFast,SPPF)模塊,并結(jié)合卷積塊注意力機(jī)制模塊(Convolutional Block Attention Module,CBAM)構(gòu)建了YOLOv5CBAM 模型,通過同時(shí)關(guān)注通道和空間2 個(gè)維度的信息,使得模型能夠更加關(guān)注劃痕區(qū)域,從而提高檢測(cè)的準(zhǔn)確性。
1 相關(guān)理論與技術(shù)
1. 1 YOLOv5
在目標(biāo)檢測(cè)領(lǐng)域,基于候選區(qū)域的算法曾經(jīng)是關(guān)鍵技術(shù)。這種方法主要經(jīng)歷2 個(gè)階段:從大量的候選位置中篩選出最合適的幾個(gè);在這些選定的區(qū)域進(jìn)行對(duì)象的識(shí)別和位置的精確調(diào)整。YOLO 算法則采用不同的策略,通過一個(gè)CNN 直接在整幅圖像上識(shí)別和定位對(duì)象,將目標(biāo)檢測(cè)的任務(wù)轉(zhuǎn)換為一次性的回歸問題,實(shí)現(xiàn)了目標(biāo)類別和位置的同時(shí)預(yù)測(cè)。
YOLO 的亮點(diǎn)在于其快速、實(shí)時(shí)和高效的性能表現(xiàn),能夠在速度與精確度之間找到一個(gè)優(yōu)秀的平衡點(diǎn)。YOLO 算法將圖像分割成S×S 的格子,每個(gè)格子負(fù)責(zé)預(yù)測(cè)對(duì)象的類別和位置。這種方法摒棄了傳統(tǒng)的候選區(qū)域提取步驟,通過簡(jiǎn)化的流程加速了檢測(cè)速度。YOLO 檢測(cè)系統(tǒng)主要由一個(gè)基礎(chǔ)的網(wǎng)絡(luò)結(jié)構(gòu)和若干后續(xù)的卷積層組成。它常用的基礎(chǔ)網(wǎng)絡(luò),如DarkNet53,是一個(gè)事先訓(xùn)練好的深卷積網(wǎng)絡(luò)。后續(xù)卷積層的任務(wù)是產(chǎn)生目標(biāo)的邊框和分類標(biāo)簽。在訓(xùn)練階段,YOLO 利用交叉熵和均方誤差等多種損失函數(shù)來優(yōu)化模型,在推斷階段,則通過結(jié)合框的類別概率和置信度得分來過濾和校正最終的檢測(cè)結(jié)果。
圖像劃分網(wǎng)格如圖1 所示[23]。展示了眾多的三維網(wǎng)格,每個(gè)網(wǎng)格都能夠檢測(cè)和識(shí)別圖中的物體。當(dāng)物體中心位于某個(gè)特定網(wǎng)格內(nèi),該網(wǎng)格便啟動(dòng)檢測(cè)程序。通過邊緣條紋技術(shù),圖像中物體的微小細(xì)節(jié)得以更準(zhǔn)確地捕獲。邊界框以其特有的形態(tài)和功能而顯著,其寬度(bw )、高度(bh )、類型(如人、車輛、紅綠燈等)以及中心點(diǎn)位置都能被明確地確定。邊界框如圖2 所示,清楚展示了邊界框的示例,使用紅色輪廓來突出顯示邊界框。
YOLO 是一種創(chuàng)新的目標(biāo)檢測(cè)方法,通過將傳統(tǒng)的目標(biāo)檢測(cè)任務(wù)簡(jiǎn)化為單一的回歸問題,并結(jié)合CNN 來進(jìn)行高效識(shí)別,顯著提升了檢測(cè)的速度和精度。YOLO 的架構(gòu)由多個(gè)關(guān)鍵模塊組成,這些模塊相互配合,共同提升模型性能。首先,YOLO 采用了殘差塊設(shè)計(jì),不僅優(yōu)化了訓(xùn)練速度,還提高了模型的準(zhǔn)確性。其次,在目標(biāo)檢測(cè)過程中,YOLO 通過邊框回歸為每個(gè)檢測(cè)到的目標(biāo)預(yù)測(cè)獨(dú)特的邊框,提供包括目標(biāo)位置和尺寸的關(guān)鍵信息。此外,YOLO 使用交并比(Intersection over Union,IoU)來評(píng)估預(yù)測(cè)邊框與真實(shí)邊框之間的重合程度,從而驗(yàn)證預(yù)測(cè)的準(zhǔn)確性。通過這些模塊的整合,YOLO 實(shí)現(xiàn)了在復(fù)雜場(chǎng)景下高效、準(zhǔn)確的目標(biāo)檢測(cè)能力。最終結(jié)果如圖3 所示。
圖3 中的圖片被分割成多個(gè)網(wǎng)格,每個(gè)網(wǎng)格能夠準(zhǔn)確地預(yù)測(cè)出B 個(gè)邊框,并為每個(gè)邊框分配置信度得分。使用單元模型來識(shí)別每個(gè)物體的類別,特別關(guān)注汽車、狗和自行車等對(duì)象。采用多CNN 并行處理不同的預(yù)測(cè)任務(wù),通過綜合分析來確保預(yù)測(cè)與實(shí)際相符。此方法排除了與目標(biāo)屬性不相關(guān)的邊緣條件,利用精心設(shè)計(jì)的邊框精確識(shí)別物體。圍繞汽車和自行車的是鮮明的色彩邊緣,營(yíng)造出城堡般的輪廓;而狗則被深藍(lán)色的邊框明確標(biāo)出,這種處理技術(shù)有效強(qiáng)調(diào)了目標(biāo)的特征,提升了檢測(cè)的精確度和可靠性。
YOLOv5s 模型的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。
YOLOv5 的架構(gòu)被劃分為Input、Backbone、Neck 及Prediction 四個(gè)關(guān)鍵部分。在Input 階段,采用Mosaic數(shù)據(jù)增強(qiáng)技術(shù)對(duì)輸入的圖像進(jìn)行隨機(jī)裁剪和合并,旨在提升模型對(duì)新場(chǎng)景的適應(yīng)性。Backbone 階段為特征提取的核心,決定了模型的整體性能。YOLOv5 運(yùn)用跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network,CSPNet)架構(gòu)對(duì)特征圖進(jìn)行切割和處理,一部分經(jīng)過卷積層,另一部分進(jìn)行下采樣,之后合并這兩部分,增加了對(duì)非線性特征的識(shí)別能力,改善了模型對(duì)復(fù)雜環(huán)境和多樣目標(biāo)的檢測(cè)效率。在Neck 階段,采用C3 卷積塊進(jìn)一步融合特征圖。在Prediction 階段,處理后的特征圖被用來精準(zhǔn)預(yù)測(cè)目標(biāo)的位置和尺寸。
1. 2 CBAM
注意力機(jī)制(Attention Mechanism)是機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)一種廣泛應(yīng)用的數(shù)據(jù)處理技術(shù),它覆蓋了自然語(yǔ)言處理、圖像識(shí)別、語(yǔ)音識(shí)別等多種機(jī)器學(xué)習(xí)任務(wù)。這一機(jī)制通過賦予不同信息以不同的權(quán)重(代表其重要程度),實(shí)現(xiàn)對(duì)信息的差異化關(guān)注。具體而言,注意力機(jī)制可被視為由查詢矩陣(Query)、鍵(Key)以及通過計(jì)算這些元素得到的加權(quán)平均值所構(gòu)成的多層感知器(Multilayer Perceptron,MLP )結(jié)構(gòu)。
CBAM 是一種旨在提升CNN 性能的注意力機(jī)制模塊[24],通過引入通道注意力和空間注意力來提高模型的感知能力,從而在不增加網(wǎng)絡(luò)復(fù)雜性的情況下改善性能。CBAM 的主要目標(biāo)是克服傳統(tǒng)CNN 在處理不同尺度、形狀和方向信息時(shí)的局限性[25]。為此,CBAM 引入了2 種注意力機(jī)制:通道注意力和空間注意力機(jī)制。
CBAM 是一種簡(jiǎn)單有效的前饋CNN 的注意力模塊,給出一個(gè)中間的特征圖,然后CBAM 會(huì)按照2 個(gè)獨(dú)立的維度(通道和空間)依次推導(dǎo)出注意圖示,然后用自適應(yīng)特征優(yōu)化乘以輸入特征圖推導(dǎo)出注意圖示,將其與輸入特征圖相乘來推導(dǎo)出注意圖示。經(jīng)過這2 個(gè)注意力模塊的共同作用后,得到最終的注意力增強(qiáng)特征圖,傳遞給網(wǎng)絡(luò)的下一層進(jìn)行進(jìn)一步處理。這種注意力機(jī)制有助于提高網(wǎng)絡(luò)在視覺任務(wù)上的表現(xiàn)。
CBAM 的應(yīng)用范圍廣泛,已被應(yīng)用于各種領(lǐng)域,如目標(biāo)檢測(cè)、圖像分割、圖像分類等。通過引入CBAM,很多模型在各種任務(wù)中都取得了顯著的性能提升。