陳法法,成孟騰,楊蘊(yùn)鵬,陳保家,肖文榮,肖能齊
(三峽大學(xué)水電機(jī)械設(shè)備設(shè)計(jì)與維護(hù)湖北省重點(diǎn)實(shí)驗(yàn)室,443002,湖北宜昌)
金屬銹蝕是指金屬材料在周圍介質(zhì)(水、空氣、化學(xué)溶劑等)作用下產(chǎn)生物理體積與化學(xué)性質(zhì)的損耗與破壞的過(guò)程。在工程上,銹蝕會(huì)直接引起金屬構(gòu)件斷面面積減少、截面應(yīng)力提高,由此導(dǎo)致構(gòu)件承載能力、剛度和穩(wěn)定性下降。金屬銹蝕不僅會(huì)縮短金屬構(gòu)件的使用壽命,甚至?xí)斐蓢?yán)重的災(zāi)難性事故。例如:我國(guó)廣州海印橋在使用6.5年后、濟(jì)南黃河公路大橋使用13年后,均因拉索銹蝕嚴(yán)重,不得不全部更換[1];美國(guó)加利福尼亞州Folsom壩溢洪道弧形鋼閘門由于銹蝕嚴(yán)重,支臂不能有效承載扭曲彎矩,閘門在關(guān)閉時(shí)突然發(fā)生垮塌[2]。在已發(fā)生的事故警示下,各主管部門已經(jīng)充分認(rèn)識(shí)到銹蝕檢測(cè)、評(píng)估和防護(hù)加固的重要性。
金屬構(gòu)件產(chǎn)生銹蝕后,其表面呈現(xiàn)出凹凸不平、銹皮泛起等特征形貌,這些特征是進(jìn)行銹蝕等級(jí)評(píng)測(cè)的重要數(shù)據(jù)來(lái)源。目前工程界對(duì)金屬構(gòu)件局部銹蝕特征的檢測(cè)主要依賴于人工目測(cè),然而由于金屬構(gòu)件表面在銹蝕形成初期特征微弱,在銹蝕動(dòng)態(tài)發(fā)展過(guò)程中銹蝕分布不規(guī)則,利用人工目測(cè)很難對(duì)其銹蝕程度、銹蝕面積及銹蝕顏色等特征信息進(jìn)行定量描述,檢測(cè)結(jié)果的可靠性不易保證。
隨著機(jī)器視覺(jué)和圖像處理技術(shù)的快速發(fā)展,圖像作為一種記錄和描述信息的載體在金屬銹蝕檢測(cè)領(lǐng)域展現(xiàn)出強(qiáng)大的應(yīng)用潛力[3]。銹蝕區(qū)域檢測(cè)可以理解為圖像前景分割問(wèn)題,通過(guò)圖像采集設(shè)備獲取金屬表面的銹蝕圖像,結(jié)合銹蝕區(qū)域的顏色和紋理特征建立像素分類準(zhǔn)則,利用圖像處理算法提取銹蝕區(qū)域特征,進(jìn)而實(shí)現(xiàn)對(duì)金屬構(gòu)件銹蝕等級(jí)的定量評(píng)測(cè)。例如:郭建斌等通過(guò)對(duì)腐蝕圖像進(jìn)行灰度及二值化處理,對(duì)水工結(jié)構(gòu)鋼表面銹蝕特征及分布狀況進(jìn)行了定量描述[4];盧樹杰等根據(jù)銹蝕區(qū)域HSV空間的顏色特征,并結(jié)合單目視差原理對(duì)鋼結(jié)構(gòu)表面的銹蝕區(qū)域進(jìn)行了檢測(cè)與分割[5];文獻(xiàn)[6]融合機(jī)器視覺(jué)和數(shù)據(jù)挖掘方法,從金屬表面提取出銹蝕區(qū)域數(shù)字特征?;跀?shù)字圖像處理的銹蝕分割方法對(duì)于理想場(chǎng)景、簡(jiǎn)單背景、規(guī)則構(gòu)件下的銹蝕圖像分割具有一定的適用性。在實(shí)際工程應(yīng)用中,不規(guī)則金屬構(gòu)件往往受限于復(fù)雜背景干擾、遮擋等特殊工作場(chǎng)景,傳統(tǒng)數(shù)字圖像處理方法難以客觀準(zhǔn)確的獲取銹蝕分割特征。
近年來(lái),深度學(xué)習(xí)的迅速發(fā)展為銹蝕區(qū)域分割提供了一種新的思路,它具備準(zhǔn)確可靠地檢測(cè)并提取復(fù)雜背景下銹蝕特征的潛質(zhì),能夠?yàn)殇P蝕特征量化評(píng)估提供理論數(shù)據(jù)支撐[7]。Liu等研究了海洋鋼結(jié)構(gòu)涂層破損與銹蝕檢測(cè)問(wèn)題,使用VGG19和Faster R-CNN對(duì)邊緣銹蝕、表面銹蝕和未銹蝕3種類型的區(qū)域進(jìn)行分類[8];Papamarkou等使用ResNets深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)核燃料的不銹鋼罐中的腐蝕進(jìn)行檢測(cè),能夠快速推斷出圖像中的目標(biāo)是否存在腐蝕跡象[9]。但是上述方法只能對(duì)銹蝕狀況定性分析,卻無(wú)法準(zhǔn)確識(shí)別并提取銹蝕區(qū)域。Ortiz等通過(guò)飛行器采集被檢金屬表面圖像,采用FFNN構(gòu)建CBC檢測(cè)模型,能夠從圖像中識(shí)別并提取出銹蝕區(qū)域[10];王達(dá)磊等基于U-Net架構(gòu)設(shè)計(jì)了深度神經(jīng)網(wǎng)絡(luò),對(duì)自制的蘇通大橋銹蝕圖像進(jìn)行語(yǔ)義分割,并對(duì)提取到的銹蝕區(qū)域進(jìn)行了定量分析[11];普渡大學(xué)Qian Cheng采用RefineNet、PSPNet、U-Net等深度網(wǎng)絡(luò)對(duì)金屬表面銹蝕圖像進(jìn)行語(yǔ)義分割,實(shí)驗(yàn)表明在小樣本數(shù)據(jù)中PSPNet和U-Net均能夠有效識(shí)別并提取銹蝕區(qū)域,而其中U-Net識(shí)別準(zhǔn)確率較高且識(shí)別速度較快[12]。
上述基于深度學(xué)習(xí)的銹蝕區(qū)域分割模型針對(duì)典型的金屬構(gòu)件銹蝕缺陷取得了一定的分割效果,但對(duì)于銹蝕程度較輕或是金屬構(gòu)件局部小區(qū)域的銹蝕特征,其分割精度往往偏離真實(shí)的銹蝕場(chǎng)景。同時(shí),傳統(tǒng)的深度學(xué)習(xí)方法在小樣本數(shù)據(jù)集中也很難完整的聚焦于全部銹蝕特征像素,存在銹蝕特征誤判的情形。
U-Net深度學(xué)習(xí)網(wǎng)絡(luò)作為經(jīng)典的深度學(xué)習(xí)模型,它具備訓(xùn)練樣本少、分割精度高等優(yōu)勢(shì)[13]。在U-Net網(wǎng)絡(luò)中嵌入注意力機(jī)制能夠?qū)︿P蝕圖像語(yǔ)義分割進(jìn)行有效監(jiān)督[14-16],使網(wǎng)絡(luò)模型聚焦于學(xué)習(xí)局部銹蝕語(yǔ)義特征,精確辨識(shí)偽銹蝕特征,從而進(jìn)一步優(yōu)化網(wǎng)絡(luò)的圖像分割效果,增強(qiáng)U-Net網(wǎng)絡(luò)的魯棒性和泛化推廣能力?;诖?本文在U-Net深度學(xué)習(xí)網(wǎng)絡(luò)中嵌入雙注意力機(jī)制,構(gòu)建集成的銹蝕圖像分割模型,以實(shí)現(xiàn)復(fù)雜背景下銹蝕區(qū)域特征的定量檢測(cè)和精確分割。
基于深度學(xué)習(xí)語(yǔ)義分割的銹蝕區(qū)域檢測(cè)方法,本質(zhì)是一個(gè)像素級(jí)別的辨識(shí)問(wèn)題[17],基本原理如下:首先將銹蝕圖像輸入到全卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行前向傳播,輸出與原圖尺寸一致的概率圖;再將其與手工標(biāo)注的二值化標(biāo)簽圖像進(jìn)行比對(duì),分別對(duì)每一個(gè)像素進(jìn)行損失值計(jì)算,并據(jù)此進(jìn)行反向傳播,指導(dǎo)網(wǎng)絡(luò)更新權(quán)重,如此迭代更新,直到網(wǎng)絡(luò)模型學(xué)習(xí)到最優(yōu)權(quán)重參數(shù)。訓(xùn)練好的模型能夠區(qū)分圖像上的銹蝕像素或非銹蝕像素,對(duì)銹蝕像素和非銹蝕像素分別涂上不同顏色,即可得到精準(zhǔn)的銹蝕區(qū)域分割圖。
U-Net網(wǎng)絡(luò)是基于FCN優(yōu)化改進(jìn)得到的一種輕量級(jí)全卷積神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)主要包括編碼器和解碼器兩部分,分別對(duì)應(yīng)于圖像的下采樣操作和上采樣操作[18-19]。編碼器由4個(gè)相同的編碼塊組成,每組編碼塊包含2個(gè)卷積核為3×3的卷積層和1個(gè)2×2的最大池化層(下采樣),激活函數(shù)采用ReLU,每經(jīng)過(guò)一次下采樣操作,特征圖尺寸減半,通道數(shù)翻倍;解碼器由4個(gè)相同的解碼塊組成,每組解碼塊包含2個(gè)卷積核為3×3的卷積層和1個(gè)2×2的反卷積層(上采樣),將反卷積之后的結(jié)果與來(lái)自對(duì)應(yīng)下采樣的特征圖進(jìn)行拼接,之后采用2次3×3卷積進(jìn)行卷積運(yùn)算,激活函數(shù)同樣采用ReLU,每經(jīng)過(guò)一次上采樣操作,特征圖尺寸翻倍,通道數(shù)減半;在上采樣的最后一層中,采用1個(gè)卷積核為1×1的卷積層將特征向量映射到網(wǎng)絡(luò)的輸出層。傳統(tǒng)U-Net模型結(jié)構(gòu)[20-21]如圖1所示。
圖1 U-Net網(wǎng)絡(luò)結(jié)構(gòu)圖
在銹蝕區(qū)域檢測(cè)中,為了在復(fù)雜背景下實(shí)現(xiàn)對(duì)局部微小銹蝕區(qū)域、偽銹蝕區(qū)域進(jìn)行準(zhǔn)確區(qū)分,設(shè)計(jì)了雙注意力特征融合模塊,將其運(yùn)用在下采樣和上采樣之間同尺度的跨層連接中,使網(wǎng)絡(luò)聚焦于局部銹蝕特征的識(shí)別,改善分割效果。
雙注意力特征融合模塊如圖2所示。首先來(lái)自上采樣的深層特征圖H包含豐富的分類信息,來(lái)自下采樣的淺層特征圖L包含豐富的位置信息,令前者通過(guò)通道注意力模塊CAM,后者通過(guò)空間注意力模塊SAM,實(shí)現(xiàn)特征重標(biāo)定;然后將二者相加進(jìn)行融合,送入通道注意力模塊CAM,形成結(jié)合位置和分類信息的注意力權(quán)重,將該權(quán)重與淺層特征圖L進(jìn)行相乘,增強(qiáng)對(duì)銹蝕特征的學(xué)習(xí);最后將得到的特征圖與深層特征圖H相加,得到輸出特征圖O。
圖2 雙注意力特征融合模塊
在DAFFM模塊中,設(shè)計(jì)了兩種注意力子模塊,即通道注意力模塊(CAM)和空間注意力模塊(SAM)[22-23],分別如圖3、圖4所示。在通道注意力模塊CAM中,首先對(duì)輸入特征圖X做全局平均池化(global average pooling, GAP)操作,得到每一個(gè)通道特征圖的全局信息特征值,然后進(jìn)行1×1卷積,最后通過(guò)ReLU激活和Sigmoid操作對(duì)特征進(jìn)行非線性轉(zhuǎn)換,將數(shù)值壓縮到0到1之間,生成注意力權(quán)重。利用該權(quán)重與輸入特征圖X進(jìn)行相乘得到輸出特征圖Y,從而實(shí)現(xiàn)通道方向上特征重標(biāo)定。
圖3 通道注意力模塊
圖4 空間注意力模塊
在空間注意力模塊SAM中,利用1×1卷積核,將通道數(shù)降至1,此時(shí)特征圖中每一個(gè)像素都是該像素在全部通道方向上的一個(gè)特征值,對(duì)該特征值進(jìn)行Sigmoid操作,生成注意力權(quán)重,再與輸入特征圖X相乘,即可得到寬和高方向上重標(biāo)定的特征圖Y。
為了提升語(yǔ)義分割模型的運(yùn)行速度,需要在保證識(shí)別精度的同時(shí),盡可能地減小模型尺寸、降低計(jì)算復(fù)雜度[24]。為此,本文借鑒MobileNet和ResNet設(shè)計(jì)了一種深度可分離殘差卷積模塊(DSRCM),將其運(yùn)用在上采樣階段,同時(shí)引入殘差結(jié)構(gòu),對(duì)淺層和深層特征進(jìn)行融合,提高特征提取能力。此外,該模塊中還使用了組歸一化(group normalization, GN),來(lái)適應(yīng)小批量數(shù)據(jù)的訓(xùn)練。深度可分離殘差卷積模塊如圖5所示。
圖5 深度可分離殘差卷積模塊
本文基于U-Net設(shè)計(jì)了一種用于銹蝕區(qū)域檢測(cè)的語(yǔ)義分割模型,其基本架構(gòu)如圖6所示。為了便于理解,將各層特征圖的尺寸(記為a)和通道數(shù)(記為b)以a2×b的形式標(biāo)注,各特征圖所在的層數(shù)在側(cè)邊使用圓圈序號(hào)進(jìn)行了標(biāo)注,各符號(hào)的含義在圖例中給出。
圖6 銹蝕圖像語(yǔ)義分割網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)整體分為下采樣、上采樣兩大部分。在下采樣過(guò)程中,使用去掉全連接層的VGG16作為前端特征提取器。第1層使用由兩組3×3卷積(步長(zhǎng)為1,填充邊距為1)、批歸一化(batch normalization, BN)、ReLU激活組成的標(biāo)準(zhǔn)卷積模塊提取特征。第2層使用最大池化進(jìn)行下采樣后,執(zhí)行前述標(biāo)準(zhǔn)卷積操作。第3層到第5層中,為了加強(qiáng)網(wǎng)絡(luò)的特征提取能力,使用了3組上文中的卷積池化操作。在下采樣過(guò)程中,每增加一層,特征圖尺寸減半,通道數(shù)翻倍(其中第5層通道數(shù)不變)。
在上采樣過(guò)程中,為了防止過(guò)擬合,首先將第5層以0.5的概率進(jìn)行Dropout操作;再經(jīng)過(guò)雙線性插值上采樣后,與來(lái)自下采樣階段第4層的同尺度特征圖一并送入注意力模塊中,輸出加強(qiáng)語(yǔ)義信息的特征圖。為了進(jìn)一步提取特征,將特征圖繼續(xù)送入深度可分離殘差卷積模塊。在第6層到第9層均采取了上述操作,每增加一層,特征圖尺寸翻倍,通道數(shù)減半。對(duì)第9層的特征圖,使用1×1卷積,將特征圖通道數(shù)降至1,然后進(jìn)行Sigmoid操作,從而得到預(yù)測(cè)概率圖。在預(yù)測(cè)時(shí),使用第9層的輸出概率圖,以0.5作為閾值生成二值化分割圖像。
本文模型中的模型訓(xùn)練與測(cè)試流程如圖7所示。首先對(duì)銹蝕圖像數(shù)據(jù)集進(jìn)行預(yù)處理,劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集;然后使用VGG16預(yù)訓(xùn)練權(quán)重對(duì)模型進(jìn)行初始化,并結(jié)合訓(xùn)練集和驗(yàn)證集使用動(dòng)態(tài)學(xué)習(xí)率衰減策略對(duì)模型進(jìn)行迭代更新;最后將測(cè)試集輸入到訓(xùn)練好的銹蝕圖像分割模型上進(jìn)行測(cè)試,從而實(shí)現(xiàn)銹蝕圖像的區(qū)域分割。
圖7 本文模型的訓(xùn)練與測(cè)試流程
銹蝕圖像語(yǔ)義分割本質(zhì)上是一個(gè)像素級(jí)別的二分類任務(wù),通常采用二進(jìn)制交叉熵?fù)p失函數(shù)(binary cross entropy loss, BCE Loss)計(jì)算誤差。然而,在銹蝕圖像中,銹蝕像素?cái)?shù)遠(yuǎn)少于非銹蝕像素?cái)?shù),存在類不平衡問(wèn)題,使用二進(jìn)制交叉熵會(huì)導(dǎo)致所預(yù)測(cè)結(jié)果被非銹蝕像素所主導(dǎo),造成識(shí)別能力下降。同時(shí),在銹蝕圖像中,銹蝕區(qū)域往往比非銹蝕區(qū)域更難識(shí)別,存在難易不均衡問(wèn)題。因此,為了克服這些問(wèn)題,本文采用焦點(diǎn)損失函數(shù),其計(jì)算公式[25]如下
FL(pt)=-αt(1-pt)γlog(pt)
(1)
(2)
式中:p為模型輸出的類別概率,p∈[0,1];αt為第t類樣本的損失權(quán)重,所有類別的損失權(quán)重之和為1;γ控制難易樣本損失的大小,且γ≥0。當(dāng)γ增大時(shí),模型會(huì)更加關(guān)注難以區(qū)分的樣本;當(dāng)γ=0時(shí),焦點(diǎn)損失函數(shù)退化成帶αt的普通交叉熵?fù)p失函數(shù)。
為了定量評(píng)價(jià)本文所構(gòu)建的網(wǎng)絡(luò)模型在銹蝕圖像語(yǔ)義分割中的性能,采用準(zhǔn)確率(Acc)、精確率(Pre)、召回率(Rec)、Dice系數(shù)(Dice)和交并比(Iiu)等作為評(píng)價(jià)指標(biāo),計(jì)算公式如下
(3)
(4)
(5)
(6)
(7)
式中:TP為實(shí)際是銹蝕且被準(zhǔn)確識(shí)別為銹蝕的像素點(diǎn)數(shù)量;FN為實(shí)際是銹蝕卻被識(shí)別為非銹蝕的像素點(diǎn)數(shù)量;TN為實(shí)際是非銹蝕且被準(zhǔn)確識(shí)別為非銹蝕的像素點(diǎn)數(shù)量;FP為實(shí)際是非銹蝕卻被識(shí)別為銹蝕的像素點(diǎn)數(shù)量。上述指標(biāo)的取值范圍均在0到1之間,數(shù)值越大,則表明模型性能越好。
由于目前沒(méi)有公開的銹蝕圖像數(shù)據(jù)集,本文所采用的數(shù)據(jù)集來(lái)源于網(wǎng)上搜索的500張不同尺寸的銹蝕圖像。本文數(shù)據(jù)集圖像涵蓋了多種應(yīng)用場(chǎng)景下的銹蝕特征,從帶有局部銹蝕的鋼架橋到整體發(fā)生銹蝕的鋼制管道等,銹蝕大小與銹蝕程度覆蓋范圍較廣。
銹蝕通常伴隨著鋼材表面的涂層破損,銹蝕部位往往會(huì)呈現(xiàn)紅棕色,嚴(yán)重時(shí)甚至變?yōu)楹诩t色,而且銹蝕表面較為粗糙。因此,在對(duì)原始數(shù)據(jù)集制作標(biāo)簽時(shí),按照以上經(jīng)驗(yàn)對(duì)圖像中的銹蝕區(qū)域進(jìn)行判定并標(biāo)注,標(biāo)注工具采用Photoshop CS6。原始數(shù)據(jù)集中每一例數(shù)據(jù)都包括標(biāo)簽圖像,圖像標(biāo)注如圖8所示,其中圖8a為原始的銹蝕圖像,圖8b為最終的標(biāo)簽圖像,銹蝕區(qū)域用白色標(biāo)注,其像素值設(shè)為255,背景區(qū)域用黑色標(biāo)注,其像素值設(shè)為0。在完成所有圖像數(shù)據(jù)的標(biāo)注工作后,按照8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集(400張)、驗(yàn)證集(50張)、測(cè)試集(50張)。
(a)原始銹蝕圖像
為了增加數(shù)據(jù)的多樣性,避免過(guò)擬合發(fā)生,采用水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)、放大1.4倍、旋轉(zhuǎn)45°并放大1.4倍、亮度增強(qiáng)至1.2倍、亮度降低至0.8倍以及高斯模糊等操作對(duì)訓(xùn)練集和驗(yàn)證集進(jìn)行離線增強(qiáng)。以上增強(qiáng)操作可將訓(xùn)練集數(shù)據(jù)擴(kuò)充至3 200張,驗(yàn)證集擴(kuò)充至400張。對(duì)于測(cè)試集,則不采取增強(qiáng)操作,直接用于模型評(píng)估從而保證測(cè)試集數(shù)據(jù)的真實(shí)性。
為了對(duì)所提方法進(jìn)行合理評(píng)估,所有模型均在Windows10+Python3.6+Pytorch1.0環(huán)境下訓(xùn)練和測(cè)試,使用內(nèi)存為24 GB的GeForce RTX 3090顯卡進(jìn)行加速。
通過(guò)預(yù)訓(xùn)練權(quán)重來(lái)改善模型的性能,使用在大規(guī)模數(shù)據(jù)集ImageNet上訓(xùn)練得到的VGG16模型參數(shù)初始化所提模型的編碼部分,然后與解碼部分結(jié)合進(jìn)一步訓(xùn)練和微調(diào),將VGG16強(qiáng)大的特征提取能力遷移到銹蝕圖像的銹蝕區(qū)域分割中。
通過(guò)選擇自適應(yīng)矩估計(jì)優(yōu)化器(Adam)來(lái)進(jìn)行網(wǎng)絡(luò)優(yōu)化更新,設(shè)置一階矩估計(jì)的指數(shù)衰減率為0.9,二階矩估計(jì)的指數(shù)衰減率為0.999,權(quán)重衰減系數(shù)為0.000 01。設(shè)置批大小為4,訓(xùn)練輪數(shù)為50個(gè)epoch,初始學(xué)習(xí)率為0.001,使用ReduceLROnPlateau動(dòng)態(tài)學(xué)習(xí)率調(diào)整策略,完成學(xué)習(xí)率自動(dòng)衰減。即在每個(gè)epoch訓(xùn)練完成后,就在驗(yàn)證集上進(jìn)行測(cè)試,記錄其損失值。當(dāng)檢測(cè)到2個(gè)epoch下驗(yàn)證集的損失值未發(fā)生下降時(shí),將學(xué)習(xí)率調(diào)整為原來(lái)的50%。學(xué)習(xí)率最小值設(shè)置為0.000 001。
3.4.1 不同算法效果對(duì)比 為了驗(yàn)證本文所提方法在銹蝕語(yǔ)義分割中的有效性,選擇傳統(tǒng)圖像分割模糊C均值法(FCM)、傳統(tǒng)的深度語(yǔ)義分割模型FCN、SegNet、U-Net、DeepLab V3+作對(duì)比測(cè)試,對(duì)同一組測(cè)試圖像進(jìn)行銹蝕分割,其檢測(cè)結(jié)果如圖9所示。
(a)鐵板 (b)護(hù)欄(c)金屬支柱(d)鐵架 (e)鐵片
圖9中每一列分別由銹蝕圖像原圖、人工標(biāo)注的真實(shí)圖像以及不同模型的輸出圖像組成。通過(guò)對(duì)比圖9可以發(fā)現(xiàn):當(dāng)圖像中前景與背景差異較大、紋理較簡(jiǎn)單時(shí),傳統(tǒng)FCM圖像分割模型借助人工篩選結(jié)果,能夠粗略分割出銹蝕區(qū)域(如圖9a所示),但在復(fù)雜背景下,幾乎無(wú)法辨識(shí)出銹蝕區(qū)域(如圖9d、圖9e所示);深度學(xué)習(xí)模型總體上比傳統(tǒng)圖像分割效果更好;SegNet、U-Net對(duì)非銹蝕區(qū)域的區(qū)分能力較差,分割出的銹蝕區(qū)域出現(xiàn)孔洞、輪廓斷開的情況較多,邊緣不夠平滑(如圖9b、圖9d所示);FCNs在總體輪廓的識(shí)別上效果較好,但細(xì)節(jié)上無(wú)法聚焦,因此出現(xiàn)了一些誤判(如圖9d、圖9e所示);DeepLab V3+整體上識(shí)別效果較好,但是部分圖像中出現(xiàn)較多孔洞(如圖9b、9c);本文模型所設(shè)計(jì)的注意力機(jī)制以及預(yù)訓(xùn)練策略,使得模型更加聚焦于銹蝕區(qū)域與非銹蝕區(qū)域的細(xì)節(jié)區(qū)分,得到的銹蝕區(qū)域輪廓連續(xù),且對(duì)于面積小的局部銹蝕區(qū)域也能準(zhǔn)確識(shí)別(如圖9b所示)。
采用3.1節(jié)中的評(píng)價(jià)指標(biāo)基于測(cè)試集分別對(duì)不同深度學(xué)習(xí)模型進(jìn)行定量分析,采用單張圖片的測(cè)試時(shí)間t分析模型時(shí)間復(fù)雜度,各算法在50張測(cè)試集圖像上評(píng)價(jià)指標(biāo)的平均值如表1所示。從表1可以看出:本文模型在準(zhǔn)確率、召回率、Dice系數(shù)和IoU系數(shù)上性能明顯優(yōu)于傳統(tǒng)深度學(xué)習(xí)方法,在精確率上也較傳統(tǒng)方法有較大優(yōu)勢(shì);單張圖片的平均測(cè)試時(shí)間中,相較于FCNs等經(jīng)典網(wǎng)絡(luò),本文模型由于結(jié)構(gòu)更為復(fù)雜,因此測(cè)試時(shí)間略有增加,而語(yǔ)義分割常用網(wǎng)絡(luò)DeepLab V3+由于骨干網(wǎng)絡(luò)層數(shù)更深導(dǎo)致測(cè)試時(shí)間相對(duì)較長(zhǎng)。
表1 不同深度學(xué)習(xí)模型的銹蝕圖像分割性能對(duì)比
3.4.2 各模塊效果驗(yàn)證 為了分析本文所構(gòu)建的網(wǎng)絡(luò)中各個(gè)模塊的作用,訓(xùn)練了4個(gè)不同的網(wǎng)絡(luò)用于對(duì)比分析。第1個(gè)模型為原始的UNet;第2個(gè)模型為VGG-UNet,在第1個(gè)模型的基礎(chǔ)上,前端特征提取部分采用了去掉全連接層的VGG16結(jié)構(gòu),上采樣采用了深度可分離殘差卷積;第3個(gè)模型為VGG-UNet-Att,在第2個(gè)模型的基礎(chǔ)上加上了注意力機(jī)制;第4個(gè)模型為P-VGG-UNet-Att,在第3個(gè)模型上加上了預(yù)訓(xùn)練權(quán)重,這也是本文所采用的最終模型。以上4個(gè)模型均采用同一套數(shù)據(jù)集,使用相同的損失函數(shù)和訓(xùn)練策略,并保證相關(guān)參數(shù)一致,分別訓(xùn)練以上模型,其結(jié)果如表2所示。
從表2中可以看出,當(dāng)逐步引入所改進(jìn)的模塊時(shí),模型在準(zhǔn)確率、召回率、Dice系數(shù)和交并比系數(shù)上均得到了不同程度的提升。在原始UNet上使用VGG作為前端特征提取,并采用深度可分離殘差卷積后,模型的交并比上升了2.6%;引入注意力機(jī)制后,上升了1.6%;進(jìn)一步使用預(yù)訓(xùn)練權(quán)重后,交并比上升了5%。
表2 各模型效果的定量評(píng)價(jià)表
此外,對(duì)比分析一些復(fù)雜場(chǎng)景下的銹蝕圖像,分別測(cè)試這4種模型的銹蝕分割效果,如圖10所示。從圖10可以看出,引入注意力機(jī)制以及預(yù)訓(xùn)練權(quán)重后,能夠加強(qiáng)模型對(duì)銹蝕區(qū)域的辨識(shí)能力,所得到的銹蝕分割圖像具有更清晰的邊緣輪廓,并且對(duì)不同銹蝕程度下的同一銹蝕區(qū)域具有好的包容性,幾乎沒(méi)有出現(xiàn)孔洞和不連續(xù)的情況。
(a)鐵架 (b)鏈條 (c)鐵環(huán) (d)齒輪 (e)扶手
不同深度學(xué)習(xí)網(wǎng)絡(luò)模型在訓(xùn)練集中50個(gè)epoch的準(zhǔn)確率和損失函數(shù)值變化如圖11所示。從圖11a可以看出,FCNs模型的收斂速度較慢,其在30個(gè)訓(xùn)練周期后才接近收斂,其他模型在20個(gè)訓(xùn)練周期即已接近收斂,由此可知本文模型收斂速度快且波動(dòng)幅度小;從圖11b可以看出,SegNet模型的準(zhǔn)確率最低,而U-Net和DeepLab V3+模型的較為接近,本文模型的準(zhǔn)確率經(jīng)過(guò)50個(gè)訓(xùn)練周期后在訓(xùn)練集中達(dá)到97.8%,相比其他模型有較大優(yōu)勢(shì)。
(a)訓(xùn)練集損失函數(shù)值
3.4.3 工程測(cè)試驗(yàn)證 為了驗(yàn)證本文網(wǎng)絡(luò)結(jié)構(gòu)的魯棒性和有效性,對(duì)實(shí)地復(fù)雜場(chǎng)景采集到帶有銹蝕的圖像進(jìn)行分割,如圖12所示。由圖12a可以看出,對(duì)于幾種不同尺寸和形狀的銹蝕鋼材圖像,本文模型能夠精準(zhǔn)識(shí)別出銹蝕區(qū)域;由圖12b可以看出,鋼材在不同部位出現(xiàn)了不同程度的銹蝕,在左下角還存在零散的小面積點(diǎn)蝕,對(duì)于這種銹蝕圖像,本文模型也能夠定位到銹蝕區(qū)域,給出準(zhǔn)確的銹蝕輪廓;由圖12c可以看出,即使鋼材出現(xiàn)了十分微弱的粉狀銹蝕,模型也能識(shí)別出主要的銹蝕區(qū)域,包容性較強(qiáng);由圖12d可以看出,圓桶內(nèi)壁的銹蝕區(qū)域處于不同的光照條件下,一部分被陽(yáng)光直射,另一部分則處于陰影之中,對(duì)于這種情況,模型也能兼容,將二者同樣識(shí)別為同一銹蝕區(qū)域;由圖12e可以看出,鋼材處于復(fù)雜的山地環(huán)境,而枯黃的葉子等由于與銹蝕顏色較為接近通常會(huì)對(duì)傳統(tǒng)網(wǎng)絡(luò)模型的識(shí)別造成較大干擾,但在圖12e中其對(duì)本文模型干擾較小,模型仍能準(zhǔn)確識(shí)別該銹蝕鋼材的主體輪廓;由圖12f可以看出,當(dāng)拍攝的銹蝕圖像存在景深效果時(shí),不會(huì)對(duì)模型造成嚴(yán)重干擾,說(shuō)明模型已經(jīng)學(xué)習(xí)到銹蝕的高級(jí)語(yǔ)義信息,具有較強(qiáng)的抗干擾能力。
(a)金屬制品 (b)鐵柵欄 (c)門把手 (d)鐵桶 (e)水管 (f)消防栓
綜上所述,本文所提模型能處理各種復(fù)雜環(huán)境下的銹蝕圖像,具有較強(qiáng)的魯棒性和實(shí)用性。
本文針對(duì)復(fù)雜多變背景圖像中銹蝕區(qū)域難以精確分割的問(wèn)題,提出一種融合雙注意力機(jī)制和U-Net網(wǎng)絡(luò)的銹蝕圖像區(qū)域分割方法,得出如下結(jié)論:
(1)采用VGG16預(yù)訓(xùn)練權(quán)重對(duì)U-Net模型進(jìn)行初始化,并采用深度可分離殘差卷積模塊減少模型尺寸,不僅能夠有效降低小樣本導(dǎo)致的網(wǎng)絡(luò)過(guò)擬合問(wèn)題,而且可以提高網(wǎng)絡(luò)特征學(xué)習(xí)能力,加快收斂速度;
(2)在改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu)中引入雙注意力機(jī)制并使用動(dòng)態(tài)學(xué)習(xí)率衰減策略對(duì)模型進(jìn)行迭代更新,加強(qiáng)對(duì)于銹蝕目標(biāo)特征的學(xué)習(xí),抑制復(fù)雜多變背景的干擾,實(shí)現(xiàn)了在復(fù)雜多變背景中的銹蝕特征檢測(cè),提高了銹蝕區(qū)域分割的精度和效率;
(3)分別從不同算法效果對(duì)比、各模塊效果驗(yàn)證和工程測(cè)試驗(yàn)證多個(gè)角度,從實(shí)例上對(duì)本文算法進(jìn)行驗(yàn)證,準(zhǔn)確率達(dá)到95.5%,交并比指標(biāo)為81.4%,單張圖片的測(cè)試時(shí)間為0.596 s,多個(gè)評(píng)價(jià)指標(biāo)均顯示出所提方法在圖像銹蝕區(qū)域分割中整體性能更優(yōu),具備一定的有效性和實(shí)用性。