吳志遠,陳新度,2,吳 磊,2
(1. 廣東工業(yè)大學(xué) 機電工程學(xué)院,廣東 廣州 510000;2. 廣東省計算機集成制造重點實驗室,廣東 廣州 510000)
缺陷檢測是工業(yè)生產(chǎn)過程中重要的一環(huán),隨著制造業(yè)的快速發(fā)展,自動化和智能化成為當前發(fā)展主要趨勢之一[1]。利用機器視覺代替人工完成缺陷檢測任務(wù),不僅可以降低成本,還可以提高效率和檢測準確率。機器視覺在工業(yè)缺陷檢測的應(yīng)用主要包括數(shù)據(jù)采集和缺陷檢測兩個過程,普遍的方法是通過工業(yè)相機和光源搭建采集平臺采集2D 圖像,利用機器學(xué)習(xí)或者深度學(xué)習(xí)方法進行缺陷檢測。
但僅通過RGB 圖像信息有時候無法對某些缺陷特征進行表達[2,3],如鋼軌表面的污漬等假缺陷容易被識別為軋痕而被誤判,邊緣過渡光滑的鼓包缺陷無明顯輪廓而識別不出來等。近些年來隨著3D 數(shù)據(jù)采集設(shè)備的發(fā)展,深度相機的精度也得到顯著提升。通過采集3D 數(shù)據(jù)進行缺陷檢測可以彌補2D 缺陷檢測的不足。如徐平等[4]通過結(jié)構(gòu)光對物體表面孔特征進行提取和檢測應(yīng)用。
對筆記本面板表面進行缺陷檢測,缺陷類型包括劃痕、鼓包、麻點等,其中鼓包和麻點等缺陷通過2D相機難以采集到明顯的缺陷特征,若通過深度相機進行數(shù)據(jù)采集,只能滿足對深度空間的缺陷類型的檢測,無法識別出劃痕等顏色空間的缺陷。而市面上現(xiàn)有的RGB-D 相機,主要應(yīng)用在行為識別,場景三維重建等領(lǐng)域[5],其中基于雙目視覺方案的不適用于表面無明顯特征的物體檢測,基于飛行時間法和編碼結(jié)構(gòu)光原理的深度相機深度圖像分辨率較低[6,7],需要后期對深度圖進行超分辨率處理[8],都不適用于高精度的缺陷檢測。
針對上述難點,通過線結(jié)構(gòu)光三角測量法和錯位取值的方法搭建了RGB-D 數(shù)據(jù)采集平臺,在一臺相機上同時獲取高分辨率的RGB 圖和深度圖,制作成數(shù)據(jù)集;并通過基于Swin Transformer 優(yōu)化的Mask RCNN 深度學(xué)習(xí)模型對數(shù)據(jù)集進行訓(xùn)練和檢測,滿足同時對深度空間和顏色空間缺陷類型的檢測要求。
激光三角測量法原理是通過激光投射到被測物體表面后反射到相機傳感器的位置,利用三角形相似原理計算出被測點離相機的距離,從而獲取被測物體表面的深度信息。
激光三角測量法分為直射式和斜射式兩種[9],兩者區(qū)別在于激光與被測物體表面的角度,圖1 為直射式結(jié)構(gòu)。直射式結(jié)構(gòu)中,激光線垂直于物體表面,相機接收被測物體表面的散射光和漫反射光,直射式優(yōu)點在于激光照射位置始終處于物體的同一行中,不隨物體表面高度變化,適用于表面粗糙度高形狀相對復(fù)雜的物體。
直射式激光三角法的三角幾何關(guān)系如下:
由公式1 推出:
其中,L1為物距,L2為相機鏡頭的焦距。x為被測表面的相對高度,x′為激光在相機靶面的偏移絕對值,x和x′存在正相關(guān)關(guān)系,可通過x′求得被測物體表面深度信息。
Mask RCNN[10]是二階段的深度學(xué)習(xí)框架,第一階段通過主干特征提取網(wǎng)絡(luò)RoI 感興趣區(qū)域;第二階段是對RoI 區(qū)域進行分類、定位回歸和分割。Mask RCNN 的主干特征提取網(wǎng)絡(luò)ResNet 同大多數(shù)深度學(xué)習(xí)網(wǎng)絡(luò)一樣屬于CNN 網(wǎng)絡(luò),存在單層網(wǎng)絡(luò)無法捕獲遠距離特征的缺點,需要通過不斷堆疊多個卷積層來實現(xiàn)局部信息到全局信息的學(xué)習(xí)。而Swin Transformer[11]網(wǎng)絡(luò)基于Attention 注意力機制,從一開始就能實現(xiàn)對全局特征的學(xué)習(xí),具有較強的特征學(xué)習(xí)能力。將Mask RCNN 的主干特征提取網(wǎng)絡(luò)改為Swin Transformer 能有效提高模型的檢測能力。
圖2 基于Swin-T 的Mask RCNN 框架
Swin Transformer 網(wǎng)絡(luò)由Swin Transformer block堆疊而成,主要模塊是(S)W-MSA,如圖3 所示,MSA通過自注意力Self-Attention[12]實現(xiàn)全局特征學(xué)習(xí)。
圖3 Swin-T block 模型結(jié)構(gòu)
本方案使用一臺彩色相機和線激光發(fā)射器,同時采集RGB 圖像和深度圖像,且要求深度圖的分辨率和RGB 圖像保持一致,以實現(xiàn)高精度的要求。
RGB-D 相機內(nèi)部負責采集深度圖像的一般為紅外相機或者在相機鏡頭前會加裝濾光片,濾除激光以外的光源,避免其他光源的干擾,激光中心線提取效果好。本方案設(shè)計用一臺相機同時獲取深度信息和RGB 信息,因為要采集RGB 圖像,需要去除濾光片的同時加入光源,這將導(dǎo)致激光的成像質(zhì)量受到其他光源影響。針對外部光源干擾問題,提出圖像通道做差的方法,獲取清晰的激光線圖像。如圖4 所示,(a)為相機采集原圖,激光波長為405 nm,藍色通道圖像的激光線最為清晰,提取B 通道可得灰度圖像(b)。(b)中沉頭孔邊緣位置受環(huán)境光影響,反射光強烈,像素值較高,直接影響激光中心線的提取效果,如(c)中所示,沉頭孔邊緣位置被錯誤的識別為激光線中心。通過對圖像的分析,發(fā)現(xiàn)激光線位置的強度主要來自405 nm 波段的激光光源,B 通道強度明顯高于其他通道;而沉頭孔邊緣處的高強度來自于其他光源的反射光,三個通道的強度值大致相同。將B 通道和G 通道相減,可消除邊緣處反射光的影響,得到清晰的激光圖,如(d)所示。最后對(d)進行激光中心線提取,得到準確的提取結(jié)果,如圖(e)。獲取每幀圖像的激光中心線的位置后,通過激光三角測量法即可計算出深度信息。
圖4 激光中心線提取過程
從一幀圖像中獲取激光位置的深度信息的同時,還需獲取該位置的RGB 信息,而激光線位置過度曝光,RGB 信息無法在同一幀中直接獲取。本研究采用錯位取值的方法,從第k幀圖像中獲取激光中心線處的深度信息,從(k+n)幀圖像中恢復(fù)第k幀圖像激光中心線處的RGB 信息,n為錯位值,取激光線寬2倍。如圖5 所示,在第(k+n)幀圖像中,虛線位置的RGB 值即為第k幀圖像的激光線位置RGB 值。
圖5 錯位取值法
實驗平臺采用的600W 像素的CMOS 面陣相機,分辨率為3072*2048,相機靶面尺寸7.18×5.32 mm(1/1.8”),像元尺寸2.4 μm*2.4 μm,鏡頭焦距12 mm。激光發(fā)射器采用線激光器,波長為405 nm,功率200 mW,線寬約0.5 mm。光源采用白色條形光源,直線運動系統(tǒng)采用伺服電機加絲杠方案,采集平臺如圖6 所示。
圖6 RGB-D 數(shù)據(jù)采集平臺
以相機3072 像素方向為X軸,電機直線運動方向為Y軸,激光方向為Z軸。將X軸方向單像素精度定為0.02 mm,則X方向視野應(yīng)為0.02*3072 = 61 mm。Y軸精度應(yīng)與X軸一致,所以Y軸的運動速度需要與相機的幀率相對應(yīng)。當相機幀率為1000 fps,每一幀的采集時間為1 ms,則Y軸每1 ms 運動行程0.02 mm,直線運動速度為20 mm/s。
由公式2 可知,和并非正比關(guān)系,故Z軸精度不是常量,Z軸精度取決于圖1 中的參數(shù)和物距L1。由X軸視野大小可確定物距L1= 104 mm,設(shè)定θ=45°,當x′=2.4 μm(1 個像元尺寸)時,x= 29 μm,在基準平面上方,Z軸單像素精度高于0.029 mm。
由于數(shù)據(jù)采集平臺搭建過程中存在安裝誤差,系統(tǒng)參數(shù)L1和無法保證絕對準確,故需要對系統(tǒng)進行標定。由公式2 有:
其中,L2是相機焦距,相機安裝角度θ和物距L1是存在安裝誤差,令:
可得:
k1和k2為系統(tǒng)參數(shù),標定時通過標準塊測得兩組值(x,x1′),(x,x2′),帶入公式5 中可求得k1和k2,即可得到x和x′的數(shù)量關(guān)系。
完成平臺搭建和標定后,對筆記本面板進行數(shù)據(jù)采集,得到RGB 圖像和深度圖像。將RGB 圖像轉(zhuǎn)換成灰度圖像,并求取深度圖像的梯度圖,如圖7 所示,將灰度圖、深度圖和梯度圖合并成三通道圖像作為深度學(xué)習(xí)網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。
圖7 數(shù)據(jù)集圖像對應(yīng)的三個通道
從圖7 中可看出,鼓包和麻點缺陷雖在灰度圖像上特征不明顯,但深度圖和梯度圖上能觀察到明顯特征;而劃痕雖然也具有深度信息,但因為劃痕寬度極小,深度信息難以采集,故僅在灰度圖上有明顯特征。
將采集的圖像數(shù)據(jù)進行整理,減少訓(xùn)練時內(nèi)存的消耗,將圖像分割成512 × 512 大小,并標注缺陷標簽,制作成數(shù)據(jù)集,最后對數(shù)據(jù)集進行訓(xùn)練和測試。
實驗對比了傳統(tǒng)Mask RCNN 和基于Swin Transformer 的Mask RCNN 算法,缺陷檢測結(jié)果見表1。三種缺陷的平均檢測精度達到86.5% mAP,說明采集平臺采集的多種缺陷特征能夠被有效的檢測識別。基于Swin-T 的Mask RCNN 模型檢測效果得到提升,mAP 提升了9.5%,檢測效果更好。尤其是針對大目標,APL提升了13.3%,也說明了Transformer 全局學(xué)習(xí)能力的優(yōu)勢。
表1 Mask RCNN 模型缺陷檢測結(jié)果
搭建了的RGB-D 數(shù)據(jù)采集平臺,在61 mm 視野時,X、Y軸方向單像素精度為0.02 mm,Z軸方向精度高于0.029 mm。使用此平臺對筆記本面板進行RGB-D 數(shù)據(jù)采集,并制作成數(shù)據(jù)集進行缺陷檢測。經(jīng)實驗,該數(shù)據(jù)采集平臺能有效采集筆記本面板上深度空間的缺陷類型(鼓包、麻點)和顏色空間的缺陷類型(劃痕)的缺陷特征。利用深度學(xué)習(xí)方法對筆記本面板表面進行缺陷檢測,平均檢測精度mAP 達到86.5%,滿足對筆記本面板表面的缺陷檢測要求。