摘要:瓷磚作為常見的建筑裝飾材料,其質(zhì)量直接關(guān)系到建筑的美觀性和使用安全性。傳統(tǒng)的瓷磚瑕疵檢測方法存在效率低下和準確性不高的問題。為此,文章提出了一種基于改進YOLOv8算法的瓷磚瑕疵檢測方法,旨在提高檢測的精度和速度。通過增設(shè)小目標檢測層,強化深層和淺層語義信息的融合,從而確保模型能夠識別更多的小目標瑕疵;同時,在頸部結(jié)構(gòu)中引入GAM注意力機制,使模型能夠關(guān)注到圖像中瑕疵的關(guān)鍵區(qū)域。實驗結(jié)果表明,改進后的算法在瓷磚瑕疵檢測任務(wù)中表現(xiàn)出色,模型的mAP(平均精確率均值)達到89.83%,能有效檢測多種類型的瑕疵,為瓷磚生產(chǎn)的質(zhì)量控制提供了有力的技術(shù)支持。
關(guān)鍵詞:瓷磚瑕疵檢測;YOLOv8;改進算法;注意力機制
中圖分類號:TP391.41;TP18" " "文獻標識碼:A" " "文章編號:1674-0688(2024)12-0006-06
0 引言
瓷磚作為建筑裝飾領(lǐng)域的重要材料,其表面質(zhì)量至關(guān)重要。瑕疵不僅影響瓷磚的美觀,還可能降低其使用壽命和性能。隨著瓷磚生產(chǎn)規(guī)模的不斷擴大,傳統(tǒng)的人工檢測方法在效率和準確性方面已難以滿足實際需求。因此,利用先進的計算機視覺技術(shù)實現(xiàn)瓷磚瑕疵的自動檢測具有重要的現(xiàn)實意義。目標檢測是計算機視覺領(lǐng)域的重要任務(wù),其發(fā)展主要集中于兩階段目標檢測和一階段目標檢測兩個方面。兩階段目標檢測憑借高精度和可靠性,在復(fù)雜任務(wù)中得到了廣泛應(yīng)用。該方法先生成候選區(qū)域,再利用分類器進行處理,如R-CNN(基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò))[1]、Fast R-CNN[2]、Faster R-CNN[3]和Mask R-CNN[4]等。這些算法通過RPN(區(qū)域提議網(wǎng)絡(luò))生成候選區(qū),并利用CNN(卷積神經(jīng)網(wǎng)絡(luò)) 進行分類和回歸,雖然精度較高,但是計算復(fù)雜,推理速度慢,不適用于實時應(yīng)用。相比之下,一階段目標檢測簡化了檢測流程,將目標檢測任務(wù)簡化為單個階段,無需生成中間候選區(qū)域,直接預(yù)測目標類別和位置,如YOLO(You Only Look Once)、SSD(單次多框檢測)和RetinaNet(視網(wǎng)膜網(wǎng)絡(luò))等。這些模型通過單次前向傳播,直接從輸入圖像生成目標類別和邊界框預(yù)測結(jié)果,顯著提升了計算效率,縮短了處理時間。
隨著智能工業(yè)時代的到來,深度學(xué)習(xí)技術(shù)在工業(yè)生產(chǎn)檢測中的應(yīng)用日益廣泛,特別是在瓷磚表面缺陷檢測領(lǐng)域取得了顯著成果,但仍存在不足。例如,Samarawickrama等[5]采用Matlab軟件,通過對比圖像中特定區(qū)域內(nèi)白色像素比例與整體占比來檢測瓷磚表面缺陷,但該方法易受圖像質(zhì)量、光照條件以及缺陷類型多樣性的影響。如果瓷磚表面缺陷不以白色像素為主要特征,或圖像受到噪聲、陰影等干擾,可能導(dǎo)致誤檢或漏檢。Cao等[6]提出的基于改進Cascade-RCNN網(wǎng)絡(luò)的瓷磚表面缺陷檢測模型,雖然能在不同紋理背景下準確定位和識別缺陷,但是模型的訓(xùn)練和優(yōu)化需大量標注數(shù)據(jù),并且對計算資源要求較高。如果瓷磚表面缺陷類型過于復(fù)雜或多樣,模型泛化能力可能會受限。Lu等[7]提出的多滑動窗口檢測方法有效解決了因瓷磚紋理干擾導(dǎo)致的誤檢問題,但該方法需對高分辨率瓷磚圖像進行裁剪和切片處理,提高了處理的復(fù)雜性和時間成本。同時,切片之間的重疊部分可能導(dǎo)致重復(fù)檢測或遺漏。Zhang等[8]的方法雖然適用于復(fù)雜紋理瓷磚表面缺陷的識別,但是改進的SSR(Single Scale Retinex)算法和顯著性檢測等步驟提高了算法的復(fù)雜性和計算量。如果瓷磚表面缺陷與背景紋理相似或融合,該方法可能面臨挑戰(zhàn)。Alamsyah等[9]采用的數(shù)字圖像處理技術(shù)雖然能精準識別瓷磚表面缺陷,但是中位濾波器預(yù)處理和灰度共生矩陣特征提取等步驟易受圖像噪聲、光照變化等因素影響。同時,KNN(k-Nearest Neighbor)分類算法的性能受訓(xùn)練數(shù)據(jù)集質(zhì)量和數(shù)量的限制。
相較于傳統(tǒng)目標檢測技術(shù),基于深度學(xué)習(xí)的目標檢測方法在精準度和魯棒性方面更優(yōu),但仍存在不足。深度學(xué)習(xí)模型的訓(xùn)練和優(yōu)化需要大量計算資源和時間成本;模型泛化能力受訓(xùn)練數(shù)據(jù)集多樣性和質(zhì)量的限制;如果瓷磚表面缺陷類型或紋理特征發(fā)生顯著變化,模型可能需重新訓(xùn)練或調(diào)整參數(shù)以適應(yīng)新環(huán)境。鑒于現(xiàn)有瓷磚表面瑕疵檢測方法的局限性,本文提出了一種基于改進YOLOv8[10]的創(chuàng)新模型。該模型通過增設(shè)小目標檢測層,有效融合了深層與淺層語義信息,顯著提升了模型對小瑕疵的識別能力。同時,在模型頸部結(jié)構(gòu)中引入GAM(Gated Attention Module,全局注意力模塊)注意力機制,使模型能夠精準聚焦于圖像中的瑕疵關(guān)鍵區(qū)域,大幅降低了誤檢率。此外,本文對YOLOv8模塊的損失函數(shù)進行了優(yōu)化,將CIoU替換為Focal EIoU[11],進一步提高了預(yù)測框的精確度,加速了模型收斂過程,從而全面提升了瓷磚瑕疵檢測模型的性能。這一系列精心設(shè)計的優(yōu)化措施,共同推動了瓷磚瑕疵檢測技術(shù)的實質(zhì)性進步。
1 YOLOv8算法概述
YOLOv8是Ultralytics公司在YOLO系列中的最新成果,代表了新一代實時對象檢測深度學(xué)習(xí)框架的水平。它不僅延續(xù)了YOLO系列的高效與實時檢測優(yōu)勢,還通過多方面的深度優(yōu)化與革新,實現(xiàn)了檢測精度與性能的雙重提升。YOLOv8采用了改良的骨干網(wǎng)絡(luò)結(jié)構(gòu),如CSPNet(Cross Stage Partial Network)[12],這一設(shè)計在大幅減少參數(shù)量的同時,顯著增強了特征提取的效能與深度,確保了模型在保持輕量化的同時,仍能精準捕捉并解析豐富的圖像特征。與前代如YOLOv5等版本相比,YOLOv8摒棄了傳統(tǒng)的錨點檢測方式,轉(zhuǎn)而采用無錨檢測策略,直接預(yù)測目標的中心坐標與邊界框。這一變革不僅簡化了檢測流程,還在提升檢測精度與效率方面取得了顯著成效,同時避免了手動調(diào)整錨點的繁瑣過程,加速了非極大值抑制(NMS)等關(guān)鍵推理步驟的執(zhí)行。此外,YOLOv8在Backbone與Neck部分融入了創(chuàng)新元素,如C2f模塊,通過增設(shè)跳躍連接、豐富梯度流等手段,進一步強化了特征提取的廣度與深度,從而全面提升了模型的整體性能。值得一提的是,YOLOv8在單目標檢測算法的基礎(chǔ)上實現(xiàn)了顯著優(yōu)化與拓展,展現(xiàn)出卓越的跨尺度感知能力,極大地提升了瑕疵檢測的精準度與效率。YOLOv8結(jié)構(gòu)圖見圖1。
2 瓷磚表面缺陷瑕疵數(shù)據(jù)集
2.1 瓷磚表面瑕疵缺陷分類
本文使用的數(shù)據(jù)集來源于廣東工業(yè)制造創(chuàng)新大賽的智能算法競賽——瓷磚瑕疵檢測環(huán)節(jié)。該數(shù)據(jù)集包含豐富的瓷磚瑕疵樣本,共計5 388張圖像,涵蓋了約12 000個檢測目標。瓷磚瑕疵類型多樣,具體包括邊異常、角異常、白色點瑕疵、淺色塊瑕疵、深色點塊瑕疵以及光圈瑕疵(圖2)。
2.2 瓷磚表面瑕疵類型分析處理
原數(shù)據(jù)集圖像的高分辨率及眾多瑕疵目標會導(dǎo)致訓(xùn)練過程耗時且檢測效果不佳,極大地增加了模型學(xué)習(xí)的難度,因為目標相對于原圖尺度較小。為顯著提升模型運行速度和檢測精度,本實驗采取了高效的數(shù)據(jù)集離線切片策略。將原始大尺寸圖片切割成多個640×640像素的小圖,作為模型訓(xùn)練的輸入數(shù)據(jù)。離線處理確保了數(shù)據(jù)處理的高效性和便捷性。
在切圖過程中,設(shè)計了一個640×640像素的滑動窗口,從原始圖像的左上角開始,按從左到右、從上到下的順序逐步滑動切割。為避免切割邊緣落在瑕疵目標上導(dǎo)致目標被截斷,特別設(shè)置了重疊區(qū)域,使相鄰滑動窗口之間存在20%的交集(即重疊比例為0.2)。這一措施有效保障了瑕疵目標的完整性,減少了因切割導(dǎo)致的信息丟失。在計算切圖步長時,根據(jù)重疊比例確定步長為512像素。從原圖左上角開始切圖,切出圖像的左上角坐標x、y依次遞增,但在最后一步時,需調(diào)整切圖的重疊部分,確保不超出原圖范圍。例如,當y坐標遞增到5 120后,下一步的y坐標應(yīng)調(diào)整為6 000-640,以避免超出原圖6 000像素的高度。
在標簽處理上,切圖對應(yīng)的標簽變化僅涉及簡單的幾何變換(即左上角坐標的加減運算)。將所有原始數(shù)據(jù)集切成640×640像素的小圖后,剔除純背景圖像,數(shù)據(jù)集規(guī)模擴大至21 422張圖片,極大地豐富了訓(xùn)練樣本。通過采取離線切片策略并精心設(shè)計切圖過程,成功解決了原始數(shù)據(jù)集圖像分辨率高、目標尺度小的問題,為模型訓(xùn)練提供了豐富且高效的訓(xùn)練樣本。為科學(xué)劃分數(shù)據(jù)集,隨機選取其中5 000張圖片作為訓(xùn)練集,用于模型的訓(xùn)練與優(yōu)化;隨機選取1 000張圖片作為驗證集,用于評估模型的性能與泛化能力。
3 改進的YOLOv8算法在瓷磚瑕疵檢測中的應(yīng)用
3.1 設(shè)計檢測模型
基于瓷磚瑕疵檢測的任務(wù)特性,鑒于瓷磚瑕疵通常表現(xiàn)為像素點少、形狀多樣、大小不一,并且與背景紋理高度相似,導(dǎo)致瑕疵特征難以有效提取,傳統(tǒng)方法易出現(xiàn)漏檢和誤檢問題。同時,原始的YOLOv8模型在檢測瓷磚中的微小瑕疵時,也存在信息丟失和性能不足的情況。因此,本文在YOLOv8模型基礎(chǔ)上進行了針對性的改進,以提升模型對瓷磚瑕疵檢測的準確性和整體性能。改進后的模型設(shè)計如下。
(1)針對瓷磚瑕疵尺度小且變化多樣的特點,模型中增加了小目標檢測層。這一改進旨在更好地捕捉瓷磚圖像中的細微瑕疵特征,同時增強深層和淺層語義信息的融合程度,確保模型能夠識別并定位更多的小目標瑕疵。通過引入該層,模型在處理瓷磚瑕疵檢測任務(wù)時,能夠更細致地分析圖像細節(jié),減少漏檢情況,從而提高檢測精度。此外,增設(shè)小目標檢測層有效融合了深層與淺層語義信息,顯著提升了模型對小瑕疵的識別能力。
(2)在模型的頸部結(jié)構(gòu)中,引入了GAM注意力機制。GAM注意力機制能夠引導(dǎo)模型關(guān)注圖像中包含瑕疵的關(guān)鍵區(qū)域,從而有效區(qū)分瑕疵與背景紋理。這一改進使得模型在處理具有復(fù)雜紋理背景的瓷磚圖像時,能夠更準確地定位瑕疵位置,減少誤檢情況,提高檢測的魯棒性和準確性。
(3)為優(yōu)化預(yù)測框并提高模型的收斂效果,將YOLOv8模塊中的CIoU損失函數(shù)替換為Focal EIoU損失函數(shù)。Focal EIoU損失函數(shù)在CIoU的基礎(chǔ)上進行了改進,更加關(guān)注預(yù)測框與真實框之間的重疊程度和形狀差異,同時賦予難以分類的樣本更高權(quán)重。這一改進不僅提高了模型的檢測性能,而且還使模型在檢測瓷磚瑕疵時能夠更準確地預(yù)測瑕疵的位置和大小,有助于模型在訓(xùn)練過程中更快收斂至最優(yōu)解。改進后的YOLOv8網(wǎng)絡(luò)結(jié)構(gòu)見圖3。
3.2 增強小目標檢測能力
針對瓷磚表面瑕疵尺寸較小且細節(jié)豐富的特點,在YOLOv8模型的基礎(chǔ)上增加了小目標檢測層。由于小目標樣本尺寸偏小且子采樣系數(shù)偏大,因此YOLOv8在利用深層特征圖捕捉小目標特征時面臨挑戰(zhàn)。原始模型設(shè)計針對640×640像素的輸入圖像,最小檢測尺度設(shè)定為80×80像素,導(dǎo)致高度或?qū)挾刃∮?0像素的目標在單個網(wǎng)格的檢測圖像中難以被識別,從而使原始模型對小目標的檢測失效。為解決此問題,本文提出在模型中引入一個小目標檢測層。該檢測層尺寸為160×160像素,并配備了一個額外的融合特征模塊和一個新增的檢測頭。
改進過程具體如下:在原本第十五層輸出的檢測后,新增一個Upsample-Concat-C2f結(jié)構(gòu),用于小目標分支160×160檢測頭的輸出。隨后,使用一個CBS-Concat-C2f結(jié)構(gòu),先將160×160卷積變換為80×80,再與第十五層輸出的80×80檢測頭進行融合。通過上述改進,網(wǎng)絡(luò)不僅提升了對于小目標的檢測精度,還擴大了其檢測范圍。
3.3 引入GAM注意力機制
在模型的頸部架構(gòu)中,融入了GAM注意力機制。GAM機制憑借其卓越的能力,能夠精準地引導(dǎo)模型聚焦于圖像中瑕疵的關(guān)鍵區(qū)域,同時有效削弱無關(guān)背景信息的干擾,從而大幅提升檢測的精確度和魯棒性。即使面臨復(fù)雜多變的紋理和光照條件,模型也能準確識別出瑕疵。
GAM注意力模塊構(gòu)造圖見圖4,該模塊利用全局觀察和建模技術(shù),深入挖掘圖像特征中的關(guān)鍵信息,并顯著增強不同通道與空間之間的交互作用。在處理流程中,輸入特征圖F1,與通道注意力圖Mc進行逐個通道的乘法運算,以此凸顯對瑕疵檢測至關(guān)重要的通道特征。隨后,經(jīng)過初步處理的特征與空間注意力圖Ms進行逐元素的乘法運算,進一步精確鎖定瑕疵在圖像中的具體位置。通道注意力子模塊構(gòu)造圖見圖5,該子模塊采用先進的3D置換方法,在高度、寬度和通道數(shù)3個維度上同時存儲和處理信息,實現(xiàn)對圖像特征的全面理解。接著,引入一個包含兩層的多層感知機(MLP),用于進一步加深通道與空間之間的內(nèi)在聯(lián)系,提升模型對特征信息的挖掘能力??臻g注意力子模塊構(gòu)造圖見圖6,該子模塊利用兩個7×7的卷積層(Conv)對輸入圖的空間信息進行精細的融合和處理,從而實現(xiàn)對瑕疵位置的精確捕捉。為確保通道注意力子模塊和空間注意力子模塊在處理特征信息時的一致性和協(xié)調(diào)性,兩個模塊在設(shè)計中采用了相同的縮小比率,這一設(shè)計策略不僅簡化了模型的復(fù)雜度,還進一步提升了模型的穩(wěn)定性和可靠性。
4 實驗與分析
4.1 實驗配置
實驗環(huán)境配置如下:CPU采用16核AMD EPYC 9654 96核心處理器,內(nèi)存配置為60 GB,GPU選用RTX 4090顯卡(單卡,24 GB)。本實驗采用最新版本的PyTorch 2.0深度學(xué)習(xí)框架,結(jié)合Python編程語言,構(gòu)建了高效、準確的瓷磚瑕疵檢測模型。
4.2 評價指標
在目標檢測領(lǐng)域,為全面評估模型的檢測性能,通常采用準確率(P)、召回率(R)以及平均精確率均值(mAP)等關(guān)鍵指標,用以評價模型的檢測精度。
[P=TpTp+Fp×100%]," " " " " " (1)
[R=TpTp+Fn×100%]," " " " " " " (2)
[mAP=j=1nAPjn]," " " " " " " " " " " " " "(3)
其中:Tp表示正確預(yù)測為正例的數(shù)量,反映分類器在正例識別上的準確性;Fp表示錯誤預(yù)測為正例的數(shù)量,反映分類器在正例識別上的誤報率; Fn表示錯誤預(yù)測為負例的數(shù)量,反映分類器在正例識別上的漏報率;n代表數(shù)據(jù)集中的類別總數(shù);APj表示第j個類別的平均精度,它是通過計算不同召回率水平下的mAP得到,反映分類器在該類別上的綜合檢測能力。
4.3 目標檢測算法實驗對比
為全面評估YOLOv8算法及其改進版本的性能,本文選取當前流行的單階段目標檢測算法YOLOv5s與YOLOv8n,以及經(jīng)典的兩階段目標檢測算法Faster-RCNN作為參照對象進行對比實驗,實驗結(jié)果(表1)展示了不同算法在P、R、mAP等關(guān)鍵指標上的表現(xiàn)。分析表1中的數(shù)據(jù)可知,未經(jīng)優(yōu)化的YOLOv8n算法在P、R及mAP得分上均優(yōu)于其他對比算法。在此基礎(chǔ)上,進一步對YOLOv8算法進行了針對性改進,改進后的TOLOv8檢測效果圖見圖7。實驗結(jié)果顯示,改進后的YOLOv8算法精確度達到89.83%,實現(xiàn)了對瓷磚表面瑕疵點的精準識別,并且其mAP得分相比原始YOLOv8n算法顯著提升了13.59%,充分驗證了改進措施的有效性與算法優(yōu)化后的巨大潛力。
5 結(jié)語
本文提出了一種基于改進的 YOLOv8 算法的瓷磚瑕疵檢測方法。通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、引入注意力機制及替換損失函數(shù),該方法有效地提高了瓷磚瑕疵檢測的精度。實驗結(jié)果顯示,改進后的YOLOv8算法在瓷磚瑕疵檢測任務(wù)中展現(xiàn)出良好的性能,能夠滿足實際生產(chǎn)中的檢測需求。未來的研究可進一步探索將該算法應(yīng)用于實際生產(chǎn)線,實現(xiàn)實時、在線的瓷磚瑕疵檢測,從而為瓷磚生產(chǎn)行業(yè)的質(zhì)量控制提供更高效、可靠的技術(shù)支撐。
6 參考文獻
[1]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR'14),June 23-28,2014,Columbus,Ohio.USA:IEEE Computer Society,c2014:580-587.
[2]Girshick R.Fast r-cnn[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV'15),December 7-13,2015,Santiago,Chile.USA:IEEE Computer Society,c2015:1440-1448.
[3]REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.
[4]He K,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//2017 IEEE International Conference on Computer Vision(ICCV),October 22-29,2017,Venice,Italy.New York:IEEE,c2017:2980-2988.
[5]SAMARAWICKRAMA Y C,WICKRAMASINGHE C D. Matlab based automated surface defect detection system for ceremic tiles using image processing[C]//2017 6th National Conference on Technology and Management(NCTM),January 27,2017,Malabe,Sri Lanka.New York:IEEE,c2017:34-39.
[6]CAO Y,WANG Y,F(xiàn)ENG H,et al.Method for detecting surface defects of ceramic tile based on improved Cascade RCNN[C]//2022 4th International Conference on Frontiers Technology of Information and Computer(ICFTIC),December 2-4,2022,Qingdao,China.New York:IEEE,c2022:41-45.
[7]LU Q,LIN J,LUO L,et al.A supervised approach for automated surface defect detection in ceramic tile quality control[J].Advanced Engineering Informatics,2022,53:101692.
[8]ZHANG H,PENG L,YU S,et al.Detection of surface defects in ceramic tiles with complex texture[J].IEEE Access,2021,9:92788-92797.
[9]ALAMSYAH R,WIRANATA A D R.Defect detection of ceramic tiles using median filtering, morphological techniques,gray level co-occurrence matrix,and K-nearest neighbor method[J].Scientific Research Journal,2019,7(4).
[10]TERVEN J,CóRDOVA-E D M,ROMERO-G J A.A comprehensive review of yolo architectures in computer vision:From yolov1 to yolov8 and yolo-nas[J].Machine Learning and Knowledge Extraction,2023,5(4):1680-1716.
[11]ZHANG Y F,REN W,ZHANG Z,et al.Focal and efficient IOU loss for accurate bounding box regression[J].Neurocomputing,2022,506:146-157.
[12]Wang C Y,Liao H Y M,Wu Y H,et al.CSPNet:A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops(CVPRW),June 14-19,2020,Seattle,WA,USA.New York:IEEE,c2020:1571-1580.
*湖南省教育廳科學(xué)研究項目“基于改進Mask R-CNN的表面缺陷檢測算法研究”(23C0194)。
【作者簡介】周先超,男,湖南常德人,在讀碩士研究生,研究方向:工業(yè)大數(shù)據(jù)分析、工業(yè)異常檢測;劉強(通信作者),男,湖北隨州人,碩士,副教授,研究方向:模式識別、智能信息處理;韓曉諾,男,河北邢臺人,在讀碩士研究生,研究方向:人工智能、工業(yè)異常檢測;林鑫,男,河南南陽人,在讀碩士研究生,研究方向:人工智能、工業(yè)異常檢測;王文川,湖南衡陽人,在讀碩士研究生,研究方向:人工智能、工業(yè)異常檢測;高榕檣,男,山西代縣人,本科,高級工程師,研究方向:大數(shù)據(jù)分析、智能信息處理。
【引用本文】周先超,劉強,韓曉諾,等.基于自注意力機制的YOLOv8瓷磚瑕疵檢測[J].企業(yè)科技與發(fā)展,2024(12):6-11.