侯春佳,何博俠,胡金松,俞杰,陳旭洋
(南京理工大學(xué) 機械工程學(xué)院, 南京 210094)
在航空航天以及制導(dǎo)系統(tǒng)中使用的O 形密封圈(以下簡稱“O 形圈”),其特征尺寸與表面質(zhì)量是影響主機可靠性的重要因素,必須要做到100%全檢。由于O 形圈材料的柔性特征以及外表面的全向曲面特征,當(dāng)前以人工為主的測量與檢測方法存在著測檢效率低、結(jié)果不穩(wěn)定、耗費人力多三大缺點,已不能滿足航空航天和國防工業(yè)快速發(fā)展的需要。
目前,針對O 形圈表面缺陷的檢測方法主要有人工目測法、傳統(tǒng)圖像處理方法和基于深度學(xué)習(xí)的檢測方法。人工目測法[1]通過人眼利用放大鏡檢測缺陷,這種方法檢測效率低,尤其是長時間的重復(fù)勞動,不但容易造成視覺疲勞,而且檢測的一致性和穩(wěn)定性也難以保證。在圖像處理領(lǐng)域,HUANG Lian 等[2]采用多相機方式采集O 形圈圖像,利用奇異值分解法檢測O 形圈缺陷。由于受到奇異值選取數(shù)量的影響,選取的奇異值越少,能提取的缺陷越多,但是帶入的噪聲也越多,另外算法的穩(wěn)定性受到環(huán)境光照影響較大,檢測結(jié)果不穩(wěn)定。LI Xiaoguang 等[3]提出了一種基于粒子群優(yōu)化的K-Means 聚類圖像分割算法,利用SURF(Speeded-Up Robust Features)算法提取O 形圈圖像的特征點,根據(jù)粒子群適應(yīng)度方差函數(shù),選擇粒子群優(yōu)化和K-Means 算法相結(jié)合計算出的插入點,通過迭代,優(yōu)化K-Means 算法的初始聚類中心,提高了K-Means 算法聚類迭代的效率。通過實驗驗證了該算法可用于密封圈的準確檢測。以上傳統(tǒng)圖像處理方法適用于對特定形態(tài)的表面缺陷進行檢測,對于微小型O 形圈,由于其尺寸小、缺陷面積占比小,缺陷形態(tài)復(fù)雜多樣,隱層網(wǎng)絡(luò)較淺,語義表達能力弱,無法提取出特征復(fù)雜的微小型表面缺陷。同時,當(dāng)一幅O 形圈圖像包含多類缺陷時,上述算法無法對缺陷進行正確分類。
隨著卷積神經(jīng)網(wǎng)絡(luò)的提出,基于深度學(xué)習(xí)的目標檢測算法因其結(jié)構(gòu)簡單、通用性好等特點,被廣泛應(yīng)用于目標檢測領(lǐng)域[4]。與其他計算機視覺任務(wù)相比,小目標檢測(Small Object Detection,SOD)存在可用特征少、定位精度要求高、數(shù)據(jù)集中小目標占比少、樣本不均衡和小目標聚集的問題。LIU Sicheng 等[5]提出基于YOLOv5 改進的小目標檢測算法,采用數(shù)據(jù)增強策略并更改網(wǎng)絡(luò)卷積步長,解決了小目標像素占比少、易重疊和難以分辨等問題,改進后的算法與原始的YOLOv5 模型進行對比,平均準確率(mean Average Precision,mAP)提升約3%。QI Linglong 等[6]提出基于YOLOv7 的小目標檢測算法,對YOLOv7 網(wǎng)絡(luò)模型中的MPConv 模塊進行改進,以減少網(wǎng)絡(luò)處理過程造成的特征損失,改進后的YOLOv7 模型相比原網(wǎng)絡(luò),mAP 提升約4%。YU Liya 等[7]提出了一種基于YOLOv3 改進的齒輪缺陷檢測網(wǎng)絡(luò)(smoothing-YOLOv3,S-YOLO),在S-YOLO 網(wǎng)絡(luò)的前端加入圖像平滑層,減弱了在線采集齒輪圖像時的背景噪聲,結(jié)果表明,S-YOLO 網(wǎng)絡(luò)比YOLOv3 對復(fù)雜背景下的微小缺陷具有更好的識別能力。上述算法雖然檢測能力好,但總體來看,其檢測效率比較低,檢測準確率也有提升空間。
本文研究的微小型航天O 形圈,內(nèi)徑尺寸范圍在Φ1.8 mm~Φ20 mm 之間,對其表面缺陷形態(tài)的分析,發(fā)現(xiàn)大部分缺陷具有小目標特征,缺陷標注像素小于圖像總像素的0.33%,屬于典型的小目標檢測[8],符合此類特征的缺陷有飛邊、雜質(zhì)和流痕等[9]。EMO(Efficient Model)[10]是一種輕量級主干網(wǎng)絡(luò),僅由卷積和多頭注意力模塊組成,可減少整體檢測的參數(shù)量進而縮短推理時間,其多頭注意力模塊能夠聚焦于圖像中的待測目標,并且能夠包含目標層的上下文信息,檢測小目標時精度更高。Next-ViT(Next Generation Vision Transformer)[11]是一種基于Transformer[12]的工業(yè)部署模型,模型雖然減少了Transformer 模塊的比例,但仍然保留了Transformer 網(wǎng)絡(luò)精度高的優(yōu)勢,在模型訓(xùn)練時能快速提高網(wǎng)絡(luò)性能,在檢測任務(wù)中也能在檢測速度和檢測精度之間取得較好的平衡。特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)將側(cè)向連接與自上而下的連接組合起來,能得到不同分辨率的特征圖,這些特征圖包含了原來最深層特征圖的語義信息,通過這種方式可以獲得高分辨率、強語義的特征,有利于小目標的檢測。本文以EMO 和Next-ViT 作為O 形圈缺陷檢測模型的主干網(wǎng)絡(luò),并在主干網(wǎng)絡(luò)與分類回歸網(wǎng)絡(luò)之間加入FPN,來提升微小型O 形圈缺陷檢測的效率和準確率。
常見的殘差結(jié)構(gòu)在提取特征前先將輸入通道數(shù)壓縮,然后擴展通道,最后輸出相應(yīng)的特征通道數(shù),通道數(shù)中間小兩頭大,而基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的反向殘差模塊(Inverted Residual Block,IRB)結(jié)構(gòu)與殘差結(jié)構(gòu)相反,提取特征前先擴張輸入特征通道,通道數(shù)中間大兩頭小,這種結(jié)構(gòu)減少了整體網(wǎng)絡(luò)的參數(shù)量和計算量,從而使推理速度得到提高。Transformer 是基于自注意力機制(self-attention)的模型,在機器視覺領(lǐng)域的性能與CNN 接近,Transformer 中的前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Networks,F(xiàn)FN)和多頭自注意力模塊(Multi-headed Self-attention,MHSA)結(jié)構(gòu)與IRB 相同,并且在識別小目標時都有良好的性能。本文使用IRB、MHSA 和FFN 歸納出通用的元移動模塊(Meta Mobile Block,MMB),其結(jié)構(gòu)如圖1所示,其中λ為圖像輸入通道數(shù)和輸出通道數(shù)的比,F(xiàn)為有效算子。當(dāng)輸入MHSA 中Q=X( ∈RC×H×W)且經(jīng)過卷積后的圖像通道數(shù)Xe=V(∈RλC×H×W)時,可推導(dǎo)出改進的EW-MHSA 模塊[10]。當(dāng)MMB 中有效算子F滿足式(1)時,即深度卷積(Depthwise Separable Convolutional,DW-Conv)[13]改進的擴展窗口多頭自注意力模塊(Expanded Window Multi-headed Self-attention,EW-MHSA)通過跳躍連接,可推導(dǎo)出反向殘差移動模塊(Inverted Residual Mobile Block,iRMB),其結(jié)構(gòu)如圖2 所示,其中,跳躍連接可以解決訓(xùn)練過程中梯度爆炸和梯度消失問題。
圖1 MMB 模塊結(jié)構(gòu)Fig.1 The structure of MMB module
圖2 iRMB 模塊結(jié)構(gòu)Fig.2 The structure of iRMB module
iRMB 僅由卷積模塊和改進的多頭自注意力模塊組成,不含其他復(fù)雜的算子,可使整個網(wǎng)絡(luò)輕量化。僅使用iRMB 模塊設(shè)計一種類似Resnet 的模型—EMO,其模型結(jié)構(gòu)如圖3 所示。以EMO 為網(wǎng)絡(luò)主干,將其P2、P3 和P5 層分別與FPN 連接,構(gòu)建出輕量化目標檢測模型Efficient-FPN Model,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4(a)所示,該網(wǎng)絡(luò)包含的CBS 模塊、C3 模塊、SPP 模塊的結(jié)構(gòu)分別如圖4(b)~(d)所示。
圖3 EMO 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The network structure of EMO
圖4 Efficient-FPN Model 網(wǎng)絡(luò)及其子模塊結(jié)構(gòu)Fig.4 The structure of Efficient-FPN Model network and its submodule
O 形圈表面缺陷大部分具有小目標特征,為實現(xiàn)小目標檢測,本文以Next-ViT 為主干網(wǎng)絡(luò),構(gòu)造新的檢測模型,使用全新的混合策略,提高模型對小目標的檢測能力。Next-ViT 是基于Transformer[12]的工業(yè)部署模型,其結(jié)構(gòu)如圖5 所示,主要由NCB(Next Convolution Block)模塊和NTB(Next Transformer Block)模塊組成。NCB 是一種新的多頭卷積注意力模塊,保留Transformer 模塊的突出性能且部署難度較低;NTB作為一個輕量級模塊,能夠有效捕捉低像素和低頻信號,滿足小目標檢測的需求。傳統(tǒng)的混合策略只在最后幾個網(wǎng)絡(luò)層堆疊Transformer 模塊,在淺層階段無法捕捉全局信息,而NCB 和NTB 均以一種新的混合策略—下階段混合策略(Next Hybrid Strategy,NHS)進行堆疊,NHS 在每個階段中順序疊加N 個NCB 和一個NTB,在NTB 中進行局部和全局信息的融合。NHS 解決了傳統(tǒng)混合策略在淺層階段無法捕捉全局信息的問題,在控制Transformer 模塊比例的情況下,顯著提高模型在下游任務(wù)中的性能,不但能實現(xiàn)高效部署,而且能加強對小目標的檢測性能。
圖5 Next-ViT 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 The network structure of Next-ViT
Next-ViT 遵循分層金字塔架構(gòu),圖像輸入到模型中后,分辨率逐漸降低為原來的1/32,而通道維度在各階段逐漸擴展。以Next-ViT 為網(wǎng)絡(luò)主干,將其P2、P3 和P5 層分別與FPN 連接,構(gòu)建出目標檢測網(wǎng)絡(luò)Transformer-FPN Model,其結(jié)構(gòu)如圖6 所示。Transformer-FPN Model 在減少Transformer 模塊比例的同時,保留了Transformer 網(wǎng)絡(luò)精度高的優(yōu)勢,不僅在檢測任務(wù)中有良好的檢測速度和檢測精度,當(dāng)有新樣本加入,需要進一步訓(xùn)練、更新模型時,該模型也能快速適應(yīng)新樣本,快速提高網(wǎng)絡(luò)性能。
圖6 Transformer-FPN Model 網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 The network structure of Transformer-FPN Model
根據(jù)GB/T3452 中CS 級標準和航空航天工程實際需求,把缺陷類型分為飛邊(flash)、流痕(flow mark)、雜質(zhì)(foreign material)、凹痕(indention)、分模線凸起(parting-line projection)5 類。以上述5 類缺陷為檢測目標制作O 形圈數(shù)據(jù)集,此數(shù)據(jù)集由11 679 張大小為320×320 的O 形圈表面缺陷圖像組成,命名為Seal_images,分為訓(xùn)練集9 459 張、驗證集1 052 張和測試集1 168 張,其中每張圖像至少含有一種缺陷,具體缺陷類型及數(shù)量如圖7 所示。本次實驗使用5 種目標檢測模型進行數(shù)據(jù)訓(xùn)練和檢測,分別為YOLOv5s、YOLOv5x、YOLOv5z、Efficient-FPN Model 和Transformer-FPN Model,其中YOLOv5s、YOLOv5x 分別為YOLOv5 基礎(chǔ)檢測模型;YOLOv5z 為ZHANG Meng 等[14]設(shè)計的檢測太陽能電池表面缺陷的模型,此模型在YOLOv5 模型加入注意力機制和可變形卷積,檢測效果良好;以YOLOv5s、YOLOv5x、YOLOv5z 為對照組,旨在檢驗本文模型的檢測效果。實驗所用計算機配置為CPU: Intel(R) Core(TM) i5-6500 3.20 GHz 4.00 G,GPU: NVIDIA GTX 2080Ti。使用的操作系統(tǒng)為Ubuntu16.04,安裝了CUDA 和cuDNN 庫。
圖7 O 形圈數(shù)據(jù)集中的缺陷類型和數(shù)量Fig.7 Type and number of defects in the O-ring datasets
本文使用的O 形圈數(shù)據(jù)集,由自主設(shè)計的O 形圈缺陷測檢系統(tǒng)采集所得,采集的圖像像素值達到500 萬像素,如圖8(a)所示。因為O 形圈圖像背景信息冗余,且在百萬級像素的圖像中,缺陷像素占比小,該尺寸的圖像無法直接輸入到上述的檢測模型中。本文使用圖像分割算法將圖8(a)中O 形圈圖像分割為42 張大小為320×320 的圖像,這種大小的圖像能使小目標缺陷特征表現(xiàn)的更加突出,有利于缺陷檢測。分割后的圖像按照原圖位置進行坐標的標定,如圖8(b)所示。將圖8(b)中的圖像,分別傳入Transformer-FPN Model 網(wǎng)絡(luò)中進行預(yù)測,最后按照原圖位置進行拼接,得到圖8(c)的檢測結(jié)果。
圖8 O 形圈圖像Fig.8 The images of O-ring
為了驗證本文所提算法的性能,在O 形圈數(shù)據(jù)集Seal_images 上進行對比實驗。對比實驗所使用訓(xùn)練集、驗證集、測試集均相同,各模型訓(xùn)練和優(yōu)化的超參數(shù)也相同,網(wǎng)絡(luò)訓(xùn)練一共迭代300 次,每迭代10 次,在O 形圈驗證集上測1 次損失值和準確率,訓(xùn)練時在驗證集上收斂性結(jié)果如圖9 所示,實驗結(jié)果如表1 所示。
表1 五種模型在O 形圈數(shù)據(jù)集上的實驗結(jié)果Table 1 Experimental results of five models on O-ring datasets
圖9 五種檢測模型的訓(xùn)練結(jié)果Fig.9 Training results of five detection models
圖9 表明,本文提出的兩種檢測模型的收斂速度均快于其他模型,收斂的損失值均小于其他模型,其中Transformer-FPN Model模型收斂的損失值最小、收斂速度最快,且檢測精度最高。從表1 的實驗結(jié)果可以看出,在參數(shù)量和計算量相近的情況下,Transformer-FPN Model 模型的mAP 相比YOLOv5z 提升6.5%,比YOLOv5x 提升8.1%,檢測速度相比YOLOv5z 降低7.2%,相比YOLOv5x 提升19.1%。Efficient-FPN Model模型在參數(shù)量和計算量明顯優(yōu)于其他模型的同時,檢測速度達到110.8 frame/s;相比于同為輕量級網(wǎng)絡(luò)的YOLOv5s 模型,其檢測速度提升4.4%,mAP 提升11.7%,參數(shù)量降低70.1%,實現(xiàn)了O 形圈表面缺陷的實時和準確檢測。測試集部分典型圖像在不同模型上測試的結(jié)果如圖10 所示,可以看出本文提出的模型Efficient-FPN Model和Transformer-FPN Model對五類缺陷都有良好的檢測能力,且均優(yōu)于其他三種模型。
圖10 測試集部分圖像在不同模型上的測試結(jié)果Fig.10 Test results of some images in the test datasets for different models
本文使用的部署設(shè)備為嵌入式工控機,工控機配置為CPU: Intel(R) Core(TM)i5-4500 3.20 GHz 4.00 G,GPU: NVIDIA GTX 1660Ti,其余配置與實驗計算機配置相同。本次檢測1 168 張大小為320×320 的圖像,不同模型具體檢測結(jié)果如表2 所示。由表2 實驗數(shù)據(jù)表明,在檢測大小為320×320 的圖像時,本文提出的Efficient-FPN Model 和Transformer-FPN Model 缺陷檢測模型每秒可分別完成91.1 幀、56.3 幀圖像的推理,能夠滿足工業(yè)場景下對檢測速度的要求。
表2 五種模型在嵌入式工控機上的檢測結(jié)果Table 2 Detection results of the five models on the embedded industrial computer
航天液壓系統(tǒng)使用的O 形密封圈對表面缺陷有著嚴格的控制要求,因O 形圈呈全向曲面特征,無論從何種角度成像,圖像上均存在比較嚴重的高亮區(qū)域和深暗區(qū)域,隨機出現(xiàn)的缺陷與這些非均勻成像區(qū)域交織在一起,對表面缺陷的檢測和分類造成很大的困難,尤其對于微小型O 形圈,細小的缺陷對算法的敏感度和分類能力均提出較高要求。為應(yīng)對上述問題,本文基于深度學(xué)習(xí)方法提出兩種檢測模型Efficient-FPN Model 和Transformer-FPN Model。實驗表明,Efficient-FPN Model 和Transformer-FPN Model 的mAP 相比YOLOv5x 分別提升2.8%、8.1%,相比YOLOv5z 分別提升1.2%、6.5%,相比YOLOv5s 分別提升11.7%、17.0%,其中Transformer-FPN Model 模型的mAP 最高,達到91.4%;在檢測速度方面,Efficient-FPN Model模型的檢測速度最快,達到110.8 frame/s,相比YOLOv5x、YOLOv5z 和YOLOv5s 分別提升70.7%、33.0%、4.4%,Transformer-FPN Model 算法的在檢測速度上略有不足,相對YOLOv5z 和YOLOv5s 分別降低7.2%、27.1%,但是相對于YOLOv5x 提升了19.1%。在自主研制的航天密封圈智能測量與測檢設(shè)備中,將上述算法部署于嵌入式工控機,進行航天系統(tǒng)用微小型O 形圈的缺陷檢測,Efficient-FPN Model 的檢測速度最快可達91.1 frame/s,實現(xiàn)了微小型O 形圈表面缺陷的在線實時檢測。