査云威 陳志豪 李偉朝
關鍵詞:手機屏幕;缺陷檢測;Faster R-cnn;注意力機制
中圖法分類號:TP391 文獻標識碼:A
1引言
隨著科技的發(fā)展,我國逐步成為制造業(yè)強國,對工業(yè)產品的要求越來越高。以手機屏幕為例,在手機屏幕的制作工藝過程中,由于作業(yè)環(huán)境和技術等因素的影響,一些產品總會出現(xiàn)一些不可避免的缺陷,如屏幕會產生氣泡、劃痕、錫灰等。目前,大多數(shù)手機屏幕的缺陷檢測系統(tǒng)都是基于傳統(tǒng)的計算機視覺,較少使用深度學習的方法對手機屏幕進行缺陷檢測。為此,本文引入了深度學習缺陷檢測方法,在用殘差網絡Resnet50作為Faster R-cnn的backbone的基礎上,在Resnet50的不同Block中加入卷積注意力模塊CBAM( Convolutional Block Attention Module),實驗結果表明,改進后模型檢測效果明顯提升。
2算法模型
本文用缺陷檢測的典型代表Faster R-cnn作為基本模型,用殘差網絡Resnet50代替VGG16作為FasterR-cnn的backbone,在Resnet50的不同Block中加入卷積注意力模塊CBAM。
2.1 Faster R-cnn
由于性能優(yōu)越,F(xiàn)aster R-cnn是two-stage目標檢測模型中的杰出代表,其基本結構如圖1所示。主要分為以下三個模塊:特征提取網絡;RPN(Region Proposal Network)層,即區(qū)域選擇網絡;Rol Pooling層,即區(qū)域池化網絡。特征提取網絡主要采用深層卷積神經網絡提取圖形中的特征信息,用于缺陷檢測中的位置回歸和分類。圖片通過本層,經過一系列的卷積池化操作后,最后得到feature map。我們可以把RPN層看作是一種全卷積網絡,此層是端對端的訓練方式,最終結果是為了得到推薦候選區(qū)域Proposals。而在區(qū)域池化網絡中,特征圖經過該網絡后會得到大小相同的候選框,保證全連接層的正常運行,選用分塊池化的方式將候選框統(tǒng)一為固定尺寸。最后,使用最大池化的方式輸出固定尺寸的特征圖。
2.2注意力機制CBAM
卷積注意力機制模塊CBAM模擬人的大腦皮層對重點事物特別關注的特性,以提高準確度。其本質是通過網絡對輸入圖片的訓練學習,學習圖像的特征,產生一組特征權重系數(shù),并強調圖形的重點語義區(qū)域,而對不相關的背景區(qū)域減少注意力資源的機制。CBAM注意力機制是一種混合域注意力機制,分別在通道域和空間域上進行注意力特征權重的生成。
在通道域注意力模塊中,輸入的特征圖F,高為H,寬為W,通道為C,先進行一次基于width和height的全局最大池化。同時,進行一次基于width和height的全局平均池化,分別得到AvgPoolhw和Maxpoolhw,再將AvgPoolhw和Maxpoolhw輸入共享全連接層中,而后分別輸出對應的特征圖,將輸出的特征作基于element-wise的加和操作后,用sigmoid激活函數(shù),生成通道注意力特征,即M_c。最后,將M_c和輸入特征圖F做element-wise乘法操作,生成空間注意力模塊需要的輸入特征F′,具體如圖2所示。
F′輸入空間域注意力模塊中,先分別進行基于通道的全局最大池化和全局平均池化操作,得到兩個高為H,寬為W,通道為1的特征圖,然后先后將這兩個特征圖做concat操作得到高為H,寬為W,通道為2的特征矩陣,再經過7×7的卷積操作,把通道維度降到一,即高為H,寬為W,通道為1。同樣,經過sigmoid激活函數(shù),得到空間注意力特征,即M_s。最后,將該特征和該模塊的輸入特征F′做乘法,得到最終生成的特征權重,具體如圖3。
3數(shù)據處理及評價指標
本文的數(shù)據集來源于廣東省某手機屏幕制造廠商,由4631張帶有缺陷的屏幕圖像組成,包括1124張正常樣本,3507張帶缺陷的樣本,1654個氣泡缺陷,1393個劃痕缺陷和1034個錫灰缺陷。用labelimg工具對缺陷樣本進行標注,標注的信息包括缺陷在圖片中的像素位置(由xml文件記錄),缺陷類別(氣泡bubble、劃痕scratch、錫灰tin ash)和缺陷圖像文件名。而對于正常的樣本圖像不做缺陷標注。
本實驗把3704張圖片作為訓練集,927張圖片作為測試集。IoU(Intersection over Union)是衡量目標檢測結果中預測框和真實框重合程度的指標,它反映了目標檢測算法的準確度。其中,IoU的定義如下:其中,Area(A)代表真實標準框面積,Area(B)代表模型預測框面積。IoU的值越高,說明模型預測框和真實標準框重合面積占總面積越高,重合程度更高,預測越準確,性能越高。
當IoU比值比TP閾值高,則表示模型對于圖片缺陷區(qū)域的預測是正確的,TP(True Positives)加一;如果比TP閾值低,則表示模型對于圖片缺陷區(qū)域的預測是錯誤的,F(xiàn)P(False Positives)加一。根據TP,F(xiàn)N,F(xiàn)P計算出評價模型性能的其他指標,分別為Recall,Precision,AP值,公式如下:
Precision,又稱精確率,表示被正確預測的缺陷樣本在所有圖片的占比,精確率反映模型的誤檢程度,Precision值越高也表明模型的誤檢率越低。召回率Recall表示的是被正確預測的缺陷樣本在帶缺陷的圖片樣本中的占比,反映模型的漏檢程度,召回率越高,模型的漏檢率越低。AP值則是由Recall,Precision兩個維度分別作為橫縱坐標下圍成的P-R曲線下的面積,AP反映檢測模型的綜合性能,AP的值越大說明手機屏幕缺陷檢測模型的綜合性能越好。
4實驗部分
4.1實驗設計
本文模型是在Windows平臺利用Pytorch1.8.0實現(xiàn)的,訓練PC主要配置為i7-12700 2.10GHz
GPU(GTX-3060),內存64GB。在訓練過程中,動量值、初始學習率、訓練輪次分別設置為0.9,0.001,400。
4.2對照實驗
本文擬用殘差網絡Resnet50作為Faster R-cnn的backbone網絡層(圖4),分別選取了Blockl,Block2和Block4作為插入CBAM的模塊。
表1的實驗數(shù)據以不同的插入方式分組為行,以固定閾值為列,在每種不同的插入方式中,記錄IoU閾值在0.1~0.9下模型的Recall,Precision,AP值。實驗中在每個閾值下最高的AP值均用下劃線標出。分析表1可以得出,在各IoU閾值情況下,與baseline對比,插入CBAM模型的RecallPrecision,,AP值都得到不同程度的提升,其中AP值提高了1.21%~6%,即插入CBAM注意力機制的Faster R-cnn檢測模型的綜合性能越好。一般認為,IOU閾值為0.3時模型的檢測能力更接近工業(yè)要求,此時AP值最高的改進模型為Block4后加入CBAM模塊的Faster R-cnn模型。在IoU=0.3時,相較于baseline,Recall值提升了3.33%,Precision值提升了5.18%,AP值提高了6.52%。
5結束語
為了提高工業(yè)生產過程中檢測手機屏幕缺陷的準確率,本文改進Faster R-cnn模型,用殘差網絡代替vgg16,然后以不同方式在特征提取網絡添加CBAM注意力機制。分析實驗數(shù)據表明,在模型加入CBAM注意力機制后,各個IoU閾值上模型的各項指標較原始模型都有明顯提升。由此表明,本文改進后的Faster-Rcnn在手機屏幕缺陷檢測工業(yè)領域具有重要意義。
作者簡介:
查云威(1998—),碩士,研究方向:計算機視覺。