張平均,翁悅,王小紅,李穩(wěn)穩(wěn),林藝斌
(1.福建工程學(xué)院 電子電氣與物理學(xué)院,福建 福州350118;2.漳州鑫華成機(jī)械制造有限公司,福建 漳州 363999)
人造板在生產(chǎn)過程中由于原料的成分與配比、技術(shù)設(shè)備工藝等因素,表面會(huì)出現(xiàn)油污、膠斑、裂紋和沙痕等缺陷[1]。目前人造板表面缺陷檢測(cè)主要還是依靠人工識(shí)別,容易產(chǎn)生錯(cuò)檢和漏檢,亟需開發(fā)基于機(jī)器視覺的人造板表面缺陷圖像檢測(cè)方法[2]。
圖像分割是缺陷檢測(cè)過程中一個(gè)關(guān)鍵的步驟,目的是在缺陷分類識(shí)別前將缺陷區(qū)域從人造板表面圖像中分割出來。2018年,郭慧[3]等人提出一種基于灰度共生矩陣分層聚類的缺陷提取算法,根據(jù)缺陷區(qū)域與正常區(qū)域紋理不同的特點(diǎn)來提取缺陷,但分割缺陷的過程較長(zhǎng),需設(shè)定待提取的缺陷特征。2020年,郭慧[4]等人又提出了一種自適應(yīng)快速閾值圖像分割算法,通過改進(jìn)Otsu算法能夠根據(jù)當(dāng)前圖像給出最佳的類間分割閾值,但對(duì)于原料成分復(fù)雜、表面粗糙的人造板,缺陷的閾值與背景十分接近,無法達(dá)到預(yù)期檢測(cè)效果。近年來,深度學(xué)習(xí)在圖像處理領(lǐng)域表現(xiàn)出色,有不少研究者將圖像的語義分割技術(shù)應(yīng)用于材料缺陷檢測(cè)[5]。2019年,He[6]等人提出了一種混和全卷積神經(jīng)網(wǎng)絡(luò)(mix full convolutionnal net work,Mix-FCN)的方法來檢測(cè)木材表面的缺陷,準(zhǔn)確率達(dá)到91.31%。UNet是由全卷積神經(jīng)網(wǎng)絡(luò)(FCN)改進(jìn)得到的網(wǎng)絡(luò),主要應(yīng)用于醫(yī)學(xué)圖像細(xì)胞分割[7]。2020年,Rahman[8]等人提出了一種融合多注意力機(jī)制的UNet卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于太陽能電池缺陷檢測(cè),提高了檢測(cè)的準(zhǔn)確率。2021年,謝艦[9]等人基于UNet網(wǎng)絡(luò)的架構(gòu)添加輔助損失函數(shù)并進(jìn)行在線數(shù)據(jù)增強(qiáng),提升了磁瓦表面缺陷的分割準(zhǔn)確率。上述所用UNet的特征提取網(wǎng)絡(luò)都是基于VGG16(visual geometry group 16)網(wǎng)絡(luò)構(gòu)造的[10],網(wǎng)絡(luò)層數(shù)較少,上一層提取的缺陷特征不能充分表達(dá)到下一層,并且隨著網(wǎng)絡(luò)加深,梯度不斷消失,產(chǎn)生學(xué)習(xí)效率下降與準(zhǔn)確率無法有效提高的問題,同時(shí)直連的跳躍連接方法無法突出顯示目標(biāo)區(qū)域信息,容易被干擾信息影響,混入噪聲。
本研究針對(duì)缺陷特征提取與目標(biāo)區(qū)域位置信息學(xué)習(xí)兩個(gè)問題,提出一種基于注意力機(jī)制的殘差UNet語義分割網(wǎng)絡(luò)模型,對(duì)人造板的表面圖像缺陷提取更深層次特征,增強(qiáng)模型泛化能力,提高缺陷分割的準(zhǔn)確率與精度。
UNet網(wǎng)絡(luò)是一種從端到端的檢測(cè)網(wǎng)絡(luò)系統(tǒng),主要包含上采樣、下采樣和跳躍連接。網(wǎng)絡(luò)由兩條對(duì)稱路徑構(gòu)成,左半部分實(shí)現(xiàn)下采樣過程,過程中圖像不斷進(jìn)行卷積操作和下采樣,以提取圖像特征,獲取特征信息,該過程稱為編碼過程。本研究選取ResNet50(resdiual network 50)網(wǎng)絡(luò)替換原始的VGG16特征提取網(wǎng)絡(luò)部分,該網(wǎng)絡(luò)是2015年由He[11]等人提出的殘差網(wǎng)絡(luò)模型,能有效緩解梯度彌散和網(wǎng)絡(luò)退化兩個(gè)問題,增強(qiáng)各層之間的特征融合,更好地保留缺陷區(qū)域的特征信息。ResNet50的殘差塊包括3個(gè)卷積層,排序?yàn)椋?×1,3×3,1×1,還有線性單元ReLU和線性映射Identity。ResNet50第二層殘差塊內(nèi)部結(jié)構(gòu)如圖1所示。
圖1 ResNet50第二層殘差塊內(nèi)部結(jié)構(gòu)
在殘差結(jié)構(gòu)中,Identity可以把先前丟失的信息重新傳入網(wǎng)絡(luò),此前的權(quán)值層信息x與此時(shí)的輸出殘差F(x)疊加后再通過激活函數(shù)得到輸出H(x)輸入到網(wǎng)絡(luò)下一層,殘差的表述如下:
F(x)=H(x)-x
(1)
ResNet50特征提取部分通過4個(gè)層數(shù)的殘差塊的疊加構(gòu)成,每層殘差塊疊加的數(shù)量依次為3、4、6、3,如表1所示。
表1 ResNet50特征提取網(wǎng)絡(luò)結(jié)構(gòu)
UNet網(wǎng)絡(luò)結(jié)構(gòu)中的跳躍連接過程是將上采樣過程中的特征圖與下采樣過程中的特征圖融合,融合方式是疊加特征圖通道數(shù)。但在卷積操作過程中,特征圖被不斷壓縮,缺陷的有效信息逐漸丟失。為了提高準(zhǔn)確性,本研究在原有的跳躍連接上嵌入一種聚焦注意力機(jī)制模塊(attention focusing mechanism module)[12],模塊內(nèi)部如圖2所示。該模塊能夠提取多尺度圖像特征,捕捉上下文信息,聚焦目標(biāo)區(qū)域,增強(qiáng)對(duì)缺陷區(qū)域類別和位置的信息學(xué)習(xí)。提取的特征圖隨后通過跳躍連接進(jìn)行合并,引入針對(duì)局部區(qū)域的注意力系數(shù),抑制不相關(guān)的背景區(qū)域信息,突出顯示缺陷區(qū)域。
圖2 聚焦注意力機(jī)制模塊內(nèi)部結(jié)構(gòu)
(2)
加權(quán)后的特征經(jīng)過ReLU后再與1×1×1卷積進(jìn)行點(diǎn)乘運(yùn)算得到注意力中間矩陣qatt,如式(3)所示:
qatt=ΦT(σ1(ws))
(3)
式中的σ1表示ReLU激活函數(shù),Φ表示1×1×1卷積。qatt經(jīng)過Sigmoid激活函數(shù)得到最終基于空間的注意力權(quán)重矩陣,如式(4)所示:
α=σ2(qatt(f;δatt))
(4)
式中的σ2表示Sigmoid激活函數(shù),δatt表示特征提取過程中的參數(shù)。最后把更新后的注意力權(quán)重矩陣和輸入的原始特征圖f點(diǎn)乘得到信息更豐富的輸出特征圖m,如式(5)所示:
m=α·f
(5)
本研究通過將左半部分編碼過程中的特征提取網(wǎng)絡(luò)換為提取深層次特征效果更好的ResNet50網(wǎng)絡(luò),將原始的ResNet50網(wǎng)絡(luò)最后部分的全連接層和平均池化層去掉,保留特征提取結(jié)構(gòu),并在跳躍連接中嵌入一種聚焦注意力機(jī)制模塊來抑制干擾信息,聚焦缺陷位置,保留目標(biāo)區(qū)域有效信息,加強(qiáng)編碼過程的特征與右半部分解碼過程(上采樣)的特征進(jìn)行對(duì)應(yīng)拼接,擴(kuò)大特征圖尺寸,對(duì)目標(biāo)精確定位,最后進(jìn)行二分類或多分類的輸出。將改進(jìn)后的網(wǎng)絡(luò)命名為融合聚焦注意力機(jī)制的殘差UNet(attention focusing residual UNet, Att-ResUNet),其網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。
圖3 Att-ResUNet網(wǎng)絡(luò)結(jié)構(gòu)
本次實(shí)驗(yàn)的人造板表面缺陷數(shù)據(jù)集由漳州鑫華成機(jī)械制造有限公司提供,共52張膠斑缺陷圖片,為避免訓(xùn)練過程中過擬合現(xiàn)象的出現(xiàn),利用數(shù)據(jù)增強(qiáng)對(duì)訓(xùn)練集進(jìn)行擴(kuò)充,通過對(duì)圖片旋轉(zhuǎn)角度、鏡像翻轉(zhuǎn)、等比例縮放、對(duì)比度調(diào)節(jié)方法,形成468張圖片,并對(duì)所有圖片的缺陷位置做好對(duì)應(yīng)標(biāo)注,訓(xùn)練集和測(cè)試集按4∶1劃分。
本次實(shí)驗(yàn)選取像素準(zhǔn)確率(pixel accuracy,PA)和平均交并比(mean intersection over union,MIoU)作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)。
像素準(zhǔn)確率是一種比較簡(jiǎn)單的評(píng)價(jià)指標(biāo),它是通過預(yù)測(cè)類別正確的像素?cái)?shù)占總像素?cái)?shù)的比例來表示,其表達(dá)式為:
(6)
其中,F(xiàn)N表示被模型錯(cuò)誤的分為負(fù)例,實(shí)際是正例;FP為被模型錯(cuò)誤的分為正例,實(shí)際是負(fù)例;TP為被模型正確的分為正例,實(shí)際為正例;TN為被模型正確的分為負(fù)例,實(shí)際為負(fù)例。
平均交并比是對(duì)IoU指標(biāo)優(yōu)化的結(jié)果,IoU表示一種類別預(yù)測(cè)結(jié)果和真實(shí)值的交集與并集的比值,MIoU是計(jì)算每類的IoU的均值,其表達(dá)式為:
(7)
為確保實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確性與有效性,本文實(shí)驗(yàn)都是在同一臺(tái)基于Windows10操作系統(tǒng)電腦上完成,電腦的硬件環(huán)境和軟件環(huán)境如表2所示。
表2 實(shí)驗(yàn)環(huán)境
訓(xùn)練開始時(shí)將輸入的圖片尺寸統(tǒng)一處理成256×256,訓(xùn)練過程中使用Adam算法進(jìn)行優(yōu)化,迭代300個(gè)訓(xùn)練周期,前100個(gè)周期學(xué)習(xí)率調(diào)為0.001,100個(gè)周期之后學(xué)習(xí)率調(diào)整為0.000 1,動(dòng)量為0.9,采樣批數(shù)據(jù)為2。實(shí)驗(yàn)采用的二分類損失函數(shù)(binary cross entropy,BCE),公式如下:
BCE=
(8)
為了驗(yàn)證設(shè)計(jì)模型的效果,本研究選取傳統(tǒng)的UNet、UNet結(jié)合聚焦注意力模塊(attention focusing UNet, Att-UNet)和特征提取網(wǎng)絡(luò)更換為殘差網(wǎng)絡(luò)的UNet(residual UNet, ResUNet)3種網(wǎng)絡(luò)模型與Att-ResUNet 模型進(jìn)行實(shí)驗(yàn)對(duì)比,研究引入不同模塊的作用。
表3所示為4種模型的實(shí)驗(yàn)結(jié)果??梢奤Net分別引入殘差網(wǎng)絡(luò)和聚焦注意力機(jī)制模塊的2種網(wǎng)絡(luò)在像素準(zhǔn)確率和平均交并比兩個(gè)指標(biāo)上較傳統(tǒng)的UNet有小幅提升,而將2個(gè)模塊同時(shí)融入到UNet中時(shí),像素準(zhǔn)確率提升了4.49%,平均交并比提升了12.53%,2項(xiàng)評(píng)價(jià)指標(biāo)達(dá)到了更優(yōu)。
表3 4種模型實(shí)驗(yàn)指標(biāo)對(duì)比
4種模型對(duì)膠斑缺陷的分割效果如圖4所示,傳統(tǒng)UNet模型缺陷邊界粗糙且模糊,引入殘差網(wǎng)絡(luò)的ResUNet模型增強(qiáng)了上下文信息表示,缺陷的邊緣輪廓更為清晰,而引入注意力模塊的Att-UNet模型有效消除了不必要的噪聲,去除了非缺陷目標(biāo)的干擾像素點(diǎn),同時(shí)引入2個(gè)模塊的Att-ResUNet 模型分割出的區(qū)域圖像更加連續(xù)、平滑。實(shí)驗(yàn)結(jié)果表明,本研究所提出的Att-ResUNet網(wǎng)絡(luò)顯著提高了缺陷分割的精度。
圖4 4種模型膠斑缺陷分割效果對(duì)比
針對(duì)人造板表面缺陷圖像,傳統(tǒng)算法對(duì)缺陷特征提取能力弱,無法準(zhǔn)確學(xué)習(xí)目標(biāo)區(qū)域位置信息的問題,本研究提出了一種基于改進(jìn)UNet的語義分割網(wǎng)絡(luò)模型,將原始UNet特征提取網(wǎng)絡(luò)換成ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)并去掉最后的平均池化層和全連接層,增強(qiáng)上下層有效特征的傳遞,更加有效地提取缺陷的細(xì)節(jié)特征,同時(shí)在原始網(wǎng)絡(luò)的跳躍連接層中引入一種聚焦注意力機(jī)制模塊,對(duì)人造板表面背景的噪聲信息進(jìn)行抑制、消除干擾,保存有效位置信息。
實(shí)驗(yàn)選取原始UNet、Att-UNet和ResUNet與本研究所提出的網(wǎng)絡(luò)模型進(jìn)行對(duì)比實(shí)驗(yàn)。結(jié)果表明,同時(shí)引入2個(gè)模塊的Att-ResUNet網(wǎng)絡(luò)在像素準(zhǔn)確率和平均交并比兩個(gè)指標(biāo)上提升更高,且缺陷圖像分割精度更優(yōu),驗(yàn)證了改進(jìn)網(wǎng)絡(luò)模型有效,達(dá)到了人造板表面缺陷圖像分割的精度要求。