基于改進Faaster R-Cnn的手機屏幕缺陷檢測方法研究

2023-01-20 14:49査云威陳志豪李偉朝

計算機應用文摘·觸控 2022年22期

査云威　陳志豪　李偉朝

關鍵詞：手機屏幕；缺陷檢測；Faster R-cnn;注意力機制

中圖法分類號：TP391 文獻標識碼：A

1引言

隨著科技的發(fā)展，我國逐步成為制造業(yè)強國，對工業(yè)產品的要求越來越高。以手機屏幕為例，在手機屏幕的制作工藝過程中，由于作業(yè)環(huán)境和技術等因素的影響，一些產品總會出現(xiàn)一些不可避免的缺陷，如屏幕會產生氣泡、劃痕、錫灰等。目前，大多數(shù)手機屏幕的缺陷檢測系統(tǒng)都是基于傳統(tǒng)的計算機視覺，較少使用深度學習的方法對手機屏幕進行缺陷檢測。為此，本文引入了深度學習缺陷檢測方法，在用殘差網絡Resnet50作為Faster R-cnn的backbone的基礎上，在Resnet50的不同Block中加入卷積注意力模塊CBAM（ Convolutional Block Attention Module），實驗結果表明，改進后模型檢測效果明顯提升。

2算法模型

本文用缺陷檢測的典型代表Faster R-cnn作為基本模型，用殘差網絡Resnet50代替VGG16作為FasterR-cnn的backbone，在Resnet50的不同Block中加入卷積注意力模塊CBAM。

2.1 Faster R-cnn

由于性能優(yōu)越，F(xiàn)aster R-cnn是two-stage目標檢測模型中的杰出代表，其基本結構如圖1所示。主要分為以下三個模塊：特征提取網絡；RPN（Region Proposal Network）層，即區(qū)域選擇網絡；Rol Pooling層，即區(qū)域池化網絡。特征提取網絡主要采用深層卷積神經網絡提取圖形中的特征信息，用于缺陷檢測中的位置回歸和分類。圖片通過本層，經過一系列的卷積池化操作后，最后得到feature map。我們可以把RPN層看作是一種全卷積網絡，此層是端對端的訓練方式，最終結果是為了得到推薦候選區(qū)域Proposals。而在區(qū)域池化網絡中，特征圖經過該網絡后會得到大小相同的候選框，保證全連接層的正常運行，選用分塊池化的方式將候選框統(tǒng)一為固定尺寸。最后，使用最大池化的方式輸出固定尺寸的特征圖。

2.2注意力機制CBAM

卷積注意力機制模塊CBAM模擬人的大腦皮層對重點事物特別關注的特性，以提高準確度。其本質是通過網絡對輸入圖片的訓練學習，學習圖像的特征，產生一組特征權重系數(shù)，并強調圖形的重點語義區(qū)域，而對不相關的背景區(qū)域減少注意力資源的機制。CBAM注意力機制是一種混合域注意力機制，分別在通道域和空間域上進行注意力特征權重的生成。

在通道域注意力模塊中，輸入的特征圖F，高為H，寬為W，通道為C，先進行一次基于width和height的全局最大池化。同時，進行一次基于width和height的全局平均池化，分別得到AvgPoolhw和Maxpoolhw，再將AvgPoolhw和Maxpoolhw輸入共享全連接層中，而后分別輸出對應的特征圖，將輸出的特征作基于element-wise的加和操作后，用sigmoid激活函數(shù)，生成通道注意力特征，即M_c。最后，將M_c和輸入特征圖F做element-wise乘法操作，生成空間注意力模塊需要的輸入特征F′，具體如圖2所示。

F′輸入空間域注意力模塊中，先分別進行基于通道的全局最大池化和全局平均池化操作，得到兩個高為H，寬為W，通道為1的特征圖，然后先后將這兩個特征圖做concat操作得到高為H，寬為W，通道為2的特征矩陣，再經過7×7的卷積操作，把通道維度降到一，即高為H，寬為W，通道為1。同樣，經過sigmoid激活函數(shù)，得到空間注意力特征，即M_s。最后，將該特征和該模塊的輸入特征F′做乘法，得到最終生成的特征權重，具體如圖3。

3數(shù)據處理及評價指標

本文的數(shù)據集來源于廣東省某手機屏幕制造廠商，由4631張帶有缺陷的屏幕圖像組成，包括1124張正常樣本，3507張帶缺陷的樣本，1654個氣泡缺陷，1393個劃痕缺陷和1034個錫灰缺陷。用labelimg工具對缺陷樣本進行標注，標注的信息包括缺陷在圖片中的像素位置（由xml文件記錄），缺陷類別（氣泡bubble、劃痕scratch、錫灰tin ash）和缺陷圖像文件名。而對于正常的樣本圖像不做缺陷標注。

本實驗把3704張圖片作為訓練集，927張圖片作為測試集。IoU（Intersection over Union）是衡量目標檢測結果中預測框和真實框重合程度的指標，它反映了目標檢測算法的準確度。其中，IoU的定義如下：其中，Area（A）代表真實標準框面積，Area（B）代表模型預測框面積。IoU的值越高，說明模型預測框和真實標準框重合面積占總面積越高，重合程度更高，預測越準確，性能越高。

當IoU比值比TP閾值高，則表示模型對于圖片缺陷區(qū)域的預測是正確的，TP（True Positives）加一；如果比TP閾值低，則表示模型對于圖片缺陷區(qū)域的預測是錯誤的，F(xiàn)P（False Positives）加一。根據TP，F(xiàn)N，F(xiàn)P計算出評價模型性能的其他指標，分別為Recall，Precision，AP值，公式如下：

Precision，又稱精確率，表示被正確預測的缺陷樣本在所有圖片的占比，精確率反映模型的誤檢程度，Precision值越高也表明模型的誤檢率越低。召回率Recall表示的是被正確預測的缺陷樣本在帶缺陷的圖片樣本中的占比，反映模型的漏檢程度，召回率越高，模型的漏檢率越低。AP值則是由Recall，Precision兩個維度分別作為橫縱坐標下圍成的P-R曲線下的面積，AP反映檢測模型的綜合性能，AP的值越大說明手機屏幕缺陷檢測模型的綜合性能越好。

4實驗部分

4.1實驗設計

本文模型是在Windows平臺利用Pytorch1.8.0實現(xiàn)的，訓練PC主要配置為i7-12700 2.10GHz

GPU（GTX-3060），內存64GB。在訓練過程中，動量值、初始學習率、訓練輪次分別設置為0.9，0.001，400。

4.2對照實驗

本文擬用殘差網絡Resnet50作為Faster R-cnn的backbone網絡層（圖4），分別選取了Blockl，Block2和Block4作為插入CBAM的模塊。

表1的實驗數(shù)據以不同的插入方式分組為行，以固定閾值為列，在每種不同的插入方式中，記錄IoU閾值在0.1～0.9下模型的Recall，Precision，AP值。實驗中在每個閾值下最高的AP值均用下劃線標出。分析表1可以得出，在各IoU閾值情況下，與baseline對比，插入CBAM模型的RecallPrecision，，AP值都得到不同程度的提升，其中AP值提高了1.21%～6%，即插入CBAM注意力機制的Faster R-cnn檢測模型的綜合性能越好。一般認為，IOU閾值為0.3時模型的檢測能力更接近工業(yè)要求，此時AP值最高的改進模型為Block4后加入CBAM模塊的Faster R-cnn模型。在IoU=0.3時，相較于baseline，Recall值提升了3.33%，Precision值提升了5.18%，AP值提高了6.52%。

5結束語

為了提高工業(yè)生產過程中檢測手機屏幕缺陷的準確率，本文改進Faster R-cnn模型，用殘差網絡代替vgg16，然后以不同方式在特征提取網絡添加CBAM注意力機制。分析實驗數(shù)據表明，在模型加入CBAM注意力機制后，各個IoU閾值上模型的各項指標較原始模型都有明顯提升。由此表明，本文改進后的Faster-Rcnn在手機屏幕缺陷檢測工業(yè)領域具有重要意義。

作者簡介：

查云威（1998—），碩士，研究方向：計算機視覺。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進Faaster R-Cnn的手機屏幕缺陷檢測方法研究