宋智勇 潘海鵬
摘 ?要:在復(fù)雜圖案織物表面缺陷檢測(cè)任務(wù)中,傳統(tǒng)分割算法在特征融合時(shí)忽略了不同尺度特征的語(yǔ)義差異,從而造成了分割精度的下降。針對(duì)這個(gè)問(wèn)題,提出了一種注意力引導(dǎo)特征融合的缺陷檢測(cè)方法。使用空間注意力模塊來(lái)抑制紋理背景的干擾,突出缺陷信息;使用自注意力金字塔池化模塊整合局部特征和全局特征,進(jìn)一步增強(qiáng)特征表示;使用通道注意力模塊引導(dǎo)網(wǎng)絡(luò)選擇有用特征,實(shí)現(xiàn)深層特征與淺層特征更好地進(jìn)行信息融合。實(shí)驗(yàn)結(jié)果顯示,相較于傳統(tǒng)分割算法,本文方法在像素精度、平均像素精度以及均交并比三個(gè)指標(biāo)上均有所提升,證明了算法的有效性。
關(guān)鍵詞:注意力機(jī)制;多尺度融合;缺陷檢測(cè)
中圖分類號(hào):TP391 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: In the task of detecting defects on the surface of fabrics with complex patterns, traditional segmentation algorithms ignore the semantic differences of different scale features in feature fusion, resulting in a decrease in segmentation accuracy. To solve this problem, this paper proposes a defect detection method based on attention-guided feature fusion. Spatial attention module is used to suppress the interference of the texture background and highlight defect information.
Self-attention pyramid pooling module is used to integrate local and global features to further enhance feature representation. Channel attention module is used to guide the network to select useful features, so to achieve better information fusion of deep features and shallow features. The experimental results show that compared with the traditional segmentation algorithm, the proposed method has improved pixel accuracy, average pixel accuracy, and mean intersection over union, which shows the effectiveness of the algorithm.
Keywords: attention mechanism; multi-scale fusion; defect detection
1 ? 引言(Introduction)
織物表面缺陷檢測(cè)是紡織工業(yè)生產(chǎn)中的一項(xiàng)重要任務(wù),許多企業(yè)采用人工的方法進(jìn)行缺陷檢測(cè),檢測(cè)效率低,易疲勞。隨著機(jī)器視覺(jué)技術(shù)的發(fā)展,表面缺陷自動(dòng)檢測(cè)成為研究熱點(diǎn)。傳統(tǒng)機(jī)器視覺(jué)缺陷檢測(cè)方法可分為基于統(tǒng)計(jì)[1]、模型[2]、光譜[3]和結(jié)構(gòu)[4]的方法,然而,這些方法依賴于手工設(shè)計(jì)的特征,對(duì)紋理背景變化敏感,泛化性能差。高性能計(jì)算機(jī)的普及使得深度學(xué)習(xí)在工業(yè)中得到了廣泛應(yīng)用,目前缺陷檢測(cè)主要依賴基于卷積網(wǎng)絡(luò)的圖像分類、目標(biāo)檢測(cè)以及語(yǔ)義分割方法。景軍鋒等[5]利用微調(diào)后的Alexnet網(wǎng)絡(luò)對(duì)兩種織物表面的缺陷進(jìn)行分類。趙志勇等[6]提出了一種基于inereception-resnet-v2網(wǎng)絡(luò)的織物缺陷檢測(cè)算法,對(duì)復(fù)雜背景下的織物缺陷進(jìn)行檢測(cè)和分類,準(zhǔn)確率能夠達(dá)到99%。史甜甜[7]利用深度可分離卷積與Fisher準(zhǔn)則約束相結(jié)合對(duì)周期性圖案缺陷進(jìn)行檢測(cè)。景軍鋒等[8]提出了一種應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的色織物缺陷檢測(cè)算法。在缺陷檢測(cè)任務(wù)中,分割任務(wù)被認(rèn)為是最困難的挑戰(zhàn),相較于傳統(tǒng)的分割算法忽視了不同尺度特征之間的語(yǔ)義差異,本文基于全卷積網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)了注意力引導(dǎo)特征融合的網(wǎng)絡(luò)模型,使用專門的特征融合方法更好地將深層和淺層特征相融合,得到了更加精細(xì)的分割結(jié)果。首先簡(jiǎn)單介紹了傳統(tǒng)的語(yǔ)義分割算法;其次對(duì)我們的整體模型以及各個(gè)模塊進(jìn)行介紹分析;最后通過(guò)對(duì)比實(shí)驗(yàn)證明本文所提算法的有效性。
2 ? 語(yǔ)義分割算法(Semantic segmentation algorithm)
2.1 ? 全卷積網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)通常包括一系列卷積層與全連接層,圖像經(jīng)過(guò)卷積層后通過(guò)全連接層將特征矩陣轉(zhuǎn)換為一個(gè)固定長(zhǎng)度的特征向量。與卷積神經(jīng)網(wǎng)絡(luò)不同的是,全卷積網(wǎng)絡(luò)(FCN)[9]使用全卷積層代替了全連接層,其結(jié)構(gòu)如圖1所示。原圖進(jìn)入FCN網(wǎng)絡(luò)中,通過(guò)一系列卷積層和下采樣池化層得到深層特征圖,為了保證分割精度,使用跳層連接融合深層的語(yǔ)義信息和淺層的空間信息,采用反卷積的上采樣方法逐步恢復(fù)圖像信息。根據(jù)跳層連接方式可分為FCN-32S、FCN-16S、FCN-8S三種不同的結(jié)構(gòu),其中FCN-32S直接使用32 倍上采樣恢復(fù)圖像信息,F(xiàn)CN-16S指的是通過(guò)跳層連接后上采樣16 倍恢復(fù)圖像信息,F(xiàn)CN-8S指的是通過(guò)跳層連接后上采樣8 倍恢復(fù)圖像信息。
2.2 ? 編碼解碼結(jié)構(gòu)U-net
U-net[10]是基于全卷積網(wǎng)絡(luò)FCN的一種左右對(duì)稱的編碼解碼結(jié)構(gòu),如圖2所示。它因?yàn)樾嗡谱帜窾而被稱為U-net,包含編碼、解碼、跳層連接三個(gè)模塊,輸入圖像經(jīng)過(guò)多次降采樣,感受野不斷增加,得到高層語(yǔ)義信息的深層特征,然后以對(duì)稱的方式在同深度的特征圖跳層連接進(jìn)行融合,不同于全卷積網(wǎng)絡(luò)FCN,U-net網(wǎng)絡(luò)的特征融合方式為通道級(jí)聯(lián)。編碼器的下采樣選擇了最大池化操作,上采樣選擇了反卷積結(jié)構(gòu),由于卷積過(guò)程中選擇了valid(不填充)操作,為了保證融合過(guò)程中大小相同,采用截取后再?gòu)?fù)制的方法進(jìn)行對(duì)齊。
3 ? 方法(Method)
3.1 ? 整體網(wǎng)絡(luò)結(jié)構(gòu)
本部分將詳細(xì)討論模型的實(shí)現(xiàn)過(guò)程,圖3顯示了模型的總體結(jié)構(gòu),由編碼器、解碼器、跳層連接和注意力引導(dǎo)多尺度融合四個(gè)模塊組成。圖像經(jīng)過(guò)編碼器部分來(lái)提取圖像特征,將最后一層卷積層得到的深層特征送入自注意力金字塔池化模塊(SP)獲取豐富的上下文信息,將淺層特征送入空間注意力模塊(PA)抑制背景信息。特征融合方式有兩條自上而下的路徑,第一條路徑融合時(shí)通過(guò)1*1卷積對(duì)齊深層淺層特征通道數(shù),通過(guò)使用類似FPN結(jié)構(gòu)的逐元素相加方法層層遞進(jìn)地整合深層和淺層特征,實(shí)現(xiàn)特征的初步融合,經(jīng)過(guò)初步融合的特征具備多尺度信息;第二條路徑使用的是級(jí)聯(lián)通道特征融合方式來(lái)疊加不同層級(jí)的特征圖,使用3*3卷積對(duì)融合的特征圖進(jìn)行通道變換,使用通道注意力模塊(CA)學(xué)習(xí)通道間的相關(guān)性,自適應(yīng)地計(jì)算加權(quán)特征,過(guò)濾出與有意義的特征對(duì)應(yīng)的特征映射,對(duì)有效信息進(jìn)行增強(qiáng)。
3.2 ? 空間注意力模塊
淺層特征包含大量的細(xì)節(jié)紋理信息,然而淺層特征語(yǔ)義信息不足,直接進(jìn)行特征融合會(huì)引入大量噪聲,使用空間注意力模塊(PA)可以增強(qiáng)判別性特征的特征表示能力,抑制背景信息,更加集中于特征的位置信息,增強(qiáng)特征表達(dá)??臻g注意力模塊結(jié)構(gòu)如圖4所示。為了提取多尺度位置信息,增加感受野,借鑒文獻(xiàn)[11]所提出的GCN模塊,使用大卷積核對(duì)稱分離卷積對(duì)通道特征圖進(jìn)行壓縮得到兩個(gè)一維通道特征圖,通過(guò)逐元素相加的方式聚合特征信息,使用Sigmoid激活函數(shù)得到歸一化后的空間注意力權(quán)重信息,與原始特征圖進(jìn)行逐元素相乘得到加權(quán)空間注意力特征圖,最后與原始特征圖逐元素相加得到最后的輸出特征圖。
3.3 ? 自注意力金字塔池化模塊
深層特征具有豐富的語(yǔ)義信息,可以幫助挖掘缺陷的詳細(xì)位置,為了有效提取全局特征信息,擴(kuò)大感受野,在編碼器末端添加自注意力金字塔池化模塊(SP),如圖5所示。它包含左邊的金字塔池化模塊和右邊的自注意力模塊兩個(gè)部分,金字塔池化模塊將特征圖劃分為多個(gè)區(qū)域,每個(gè)區(qū)域中的像素都可以看作全局表示,包含1*1、2*2、3*3和6*6這四種不同尺寸的池化操作,多種不同的池化意味著提取到了更加豐富的高層特征,有助于減少信息丟失。通過(guò)四種不同尺寸的池化操作得到四個(gè)尺寸的特征圖,通過(guò)雙線性插值對(duì)這些特征圖進(jìn)行上采樣,將不同級(jí)別的特征進(jìn)行通道級(jí)聯(lián)融合特征,作為最后的金字塔池化全局特性,融合不同區(qū)域的上下文信息。通過(guò)對(duì)不同區(qū)域的上下文進(jìn)行聚合,提升了網(wǎng)絡(luò)利用全局上下文信息的能力。深層特征經(jīng)過(guò)金字塔池化模塊獲取全局信息后,為了進(jìn)一步增強(qiáng)缺陷分割網(wǎng)絡(luò)的特征表示,有必要捕獲全局信息,建模像素和全局的聯(lián)系。使用自注意力模塊對(duì)遠(yuǎn)程特征依賴性進(jìn)行建模,過(guò)濾由全局特征傳遞的不相關(guān)信息,進(jìn)一步強(qiáng)調(diào)或抑制不同空間位置中的特征。自注意力模塊結(jié)構(gòu)如圖5右半部分所示,通過(guò)矩陣相乘操作來(lái)建模像素和全局的聯(lián)系。首先輸入特征圖經(jīng)過(guò)三個(gè)分支的1*1卷積生成三個(gè)新特征圖、、。為了計(jì)算某一位置與所有像素之間的相似性,將進(jìn)行轉(zhuǎn)置后與進(jìn)行矩陣相乘得到相似性矩陣,計(jì)算公式如式(1)所示,表示第個(gè)位置對(duì)第個(gè)位置的影響,因?yàn)樘卣鲌D含有通道,矩陣相乘相當(dāng)于位置所有通道的值與位置所有通道的值進(jìn)行點(diǎn)乘操作,值越大代表兩個(gè)位置相似性越高。對(duì)相似性矩陣進(jìn)行Softmax歸一化操作得到相關(guān)權(quán)重系數(shù),將經(jīng)過(guò)Softmax歸一化操作后的相似性矩陣與進(jìn)行矩陣相乘,最后與原特征圖進(jìn)行逐像素相加后,再通過(guò)1*1卷積進(jìn)行信息整合得到最后的自注意力模塊輸出。自注意力模塊通過(guò)對(duì)所有位置特征的加權(quán)求和學(xué)習(xí)獲取任意兩個(gè)位置之間的空間依賴,捕捉遠(yuǎn)距離信息,進(jìn)一步增強(qiáng)了特征表示。
3.4 ? 通道注意力模塊
通道注意力模塊(CA)作用于不同尺度特征跨層融合階段,直接相加或者通道級(jí)聯(lián)融合方式?jīng)]有考慮到不同通道間特征的相關(guān)性和重要性,通過(guò)計(jì)算通道之間的相互關(guān)系,對(duì)信息的重要程度進(jìn)行重新分配,指導(dǎo)特征圖進(jìn)行加權(quán)。通道注意力模塊結(jié)構(gòu)如圖6所示,給定輸入特征F,使用全局平均池化操作和全局最大池化操作得到兩個(gè)包含全局信息的C*1*1特征圖。并行的全局平均池化操作和全局最大池化操作可以防止單一池化操作造成信息丟失過(guò)多,參數(shù)共享層SL中包含全連接層FC和ReLU激活函數(shù),可以建模通道中的相互關(guān)系,將輸出的兩個(gè)特征圖通過(guò)逐像素相加聚合語(yǔ)義信息。使用Sigmoid激活函數(shù)得到權(quán)重參數(shù)Fc,與原特征圖F逐元素相乘得到加權(quán)特征圖F'。借鑒殘差機(jī)制將經(jīng)過(guò)通道注意力細(xì)化的特征圖F'與原特征圖F逐元素相加后得到最終的輸出特征圖Fc''。通道注意力模塊計(jì)算公式如式(2)—式(4)所示。
4 ? 實(shí)驗(yàn)(Experiment)
4.1 ? 數(shù)據(jù)集
本文使用的密集織物圖片數(shù)據(jù)來(lái)自香港大學(xué)數(shù)據(jù)庫(kù),包含星形圖案、點(diǎn)圖案、箱形圖案三種背景類型的織物共166 張圖片,選取45 張缺陷圖片和75 張無(wú)缺陷圖片作為訓(xùn)練集,30 張缺陷圖片作為測(cè)試集。為了防止過(guò)擬合,我們使用隨機(jī)旋轉(zhuǎn)、左右翻轉(zhuǎn)、上下翻轉(zhuǎn)等方式進(jìn)行數(shù)據(jù)擴(kuò)充??椢锶毕輬D片如圖7所示。
4.2 ? 參數(shù)設(shè)置
本文實(shí)驗(yàn)基于Windows系統(tǒng)下搭建的PyTorch深度學(xué)習(xí)框架,詳細(xì)硬件環(huán)境和軟件環(huán)境如表1所示。訓(xùn)練時(shí),使用SGD隨機(jī)梯度下降法進(jìn)行優(yōu)化,初始學(xué)習(xí)率為0.01,動(dòng)量為0.7,批量大小為4,迭代500 個(gè)周期。實(shí)驗(yàn)中的圖像大小為256256。訓(xùn)練過(guò)程loss曲線如圖8所示,loss不斷下降,說(shuō)明網(wǎng)絡(luò)訓(xùn)練正常。
4.3 ? 評(píng)價(jià)指標(biāo)
為了評(píng)估所提出方法的有效性,使用了三個(gè)評(píng)價(jià)指標(biāo),即像素精度PA、平均像素精度MPA、均交并比MIoU,計(jì)算公式如式(5)—式(7)所示。
其中,表示包括背景的總類別,表示實(shí)際是類被推斷為類的像素?cái)?shù)量,表示實(shí)際是類被推斷為類的像素?cái)?shù)量,表示實(shí)際是類被推斷為類的像素?cái)?shù)量。PA是最簡(jiǎn)單的評(píng)價(jià)指標(biāo),指的是正確的像素與總像素的比值;MPA表示的是所有類別像素精度均值;均交并比MIoU計(jì)算的是分割圖與真實(shí)標(biāo)注的交集與并集比,值越大,說(shuō)明分割效果越好。
4.4 ? 實(shí)驗(yàn)結(jié)果分析
我們選擇FCN和U-net網(wǎng)絡(luò)作為對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。
對(duì)比表2中的結(jié)果,本文所提出的模型在像素精度PA、平均像素精度MPA、均交并比MIoU三個(gè)指標(biāo)上均有所提升。由于引入了空間注意力機(jī)制,有效抑制了復(fù)雜紋理背景信息,增強(qiáng)了特征表達(dá),提高了像素準(zhǔn)確性,與FCN-8S方法相比,平均像素精度MPA提高了2.53%;由于引入了自注意力金字塔池化模塊,有效利用了全局信息,增強(qiáng)了上下文表示;由于引入了通道注意力模塊指導(dǎo)不同尺度特征融合,對(duì)各個(gè)尺度特征權(quán)值進(jìn)行重新分配,得到了更好地融合效果,相比U-net方法,均交并比MIoU提高了2.31%,缺陷分割邊緣更加精細(xì)。模型的分割效果如圖9所示,實(shí)驗(yàn)結(jié)果表明,本文所提出的基于注意力引導(dǎo)的特征融合網(wǎng)絡(luò)顯著提高了缺陷分割的準(zhǔn)確性。
5 ? 結(jié)論(Conclusion)
傳統(tǒng)分割方法直接采用逐元素相加或者級(jí)聯(lián)通道的特征融合方式,未能對(duì)融合后的特征進(jìn)行進(jìn)一步的分析,使得融合后的特征包含大量的無(wú)關(guān)信息。針對(duì)此問(wèn)題,本文提出了一種基于注意力引導(dǎo)特征融合的缺陷分割方法,通過(guò)注意力引導(dǎo)特征融合模塊整合編解碼信息。相較于傳統(tǒng)算法,本文使用空間注意力機(jī)制減少了淺層特征中的背景等噪聲信息的干擾,保存有效的位置信息,編碼器末端使用自注意力金字塔池化模塊建立更豐富的全局語(yǔ)義信息,將通道注意力用于深層淺層特征融合階段提取重要信息,提高了特征融合的質(zhì)量。實(shí)驗(yàn)結(jié)果表明,我們的方法具有良好的缺陷分割效果。未來(lái),我們將致力于使用圖像級(jí)標(biāo)簽而非像素級(jí)標(biāo)簽進(jìn)行缺陷分割來(lái)減少對(duì)人工標(biāo)記的依賴。
參考文獻(xiàn)(References)
[1] HU J, HE Z, WENG G, et al. Detection of chemical fabric defects on the basis of morphological processing[J]. The Journal of The Textile Institute, 2016, 107(2):233-241.
[2] 李敏,崔樹芹,謝治平.高斯混合模型在印花織物疵點(diǎn)檢測(cè)中的應(yīng)用[J].紡織學(xué)報(bào),2015,36(8):94-98.
[3] DEOTALE N T, SARODE T K. Fabric defect detection adopting combined GLCM, Gabor wavelet features and random decision forest[J]. 3D Research, 2019, 10(1):5.
[4] JIA L, CHEN C, LIANG J, et al. Fabric defect inspection based on lattice segmentation and Gabor filtering[J]. Neurocomputing, 2017, 238:84-102.
[5] 景軍鋒,劉嬈.基于卷積神經(jīng)網(wǎng)絡(luò)的織物表面缺陷分類方法[J].測(cè)控技術(shù),2018,37(09):20-25.
[6] 趙志勇,葉林,桑紅石,等.深度學(xué)習(xí)在布匹缺陷檢測(cè)中的應(yīng)用[J].國(guó)外電子測(cè)量技術(shù),2019,38(08):110-116.
[7] 史甜甜.基于Fisher準(zhǔn)則的深層卷積神經(jīng)網(wǎng)絡(luò)織物疵點(diǎn)檢測(cè)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(03):140-145.
[8] 景軍鋒,范曉婷,李鵬飛,等.應(yīng)用深度卷積神經(jīng)網(wǎng)絡(luò)的色織物缺陷檢測(cè)[J]. 紡織學(xué)報(bào),2017,38(02):68-74.
[9] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(4):640-651.
[10] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation[C]// NAVAB N. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015:234-241.
[11] PENG C, ZHANG X, YU G, et al. Large kernel matters—improve semantic segmentation by global convolutional network[C]// IEEE. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, New York: IEEE, 2017:4353-4361.
作者簡(jiǎn)介:
宋智勇(1996-),男,碩士生.研究領(lǐng)域:圖像處理.
潘海鵬(1965-),男,碩士,教授.研究領(lǐng)域:工業(yè)控制自動(dòng)化.