劉榮升,李追風(fēng),馮慶賀,遲明路,李仁惠
(河南工學(xué)院 智能工程學(xué)院,河南 新鄉(xiāng) 453003)
近年來(lái),中國(guó)混凝土建筑數(shù)量急速增長(zhǎng),然而當(dāng)混凝土表面遭受外力破壞和自身結(jié)構(gòu)變化后會(huì)出現(xiàn)各種各樣的裂縫缺陷[1]。如何精準(zhǔn)高效地檢測(cè)混凝土表面裂縫缺陷已經(jīng)成為一個(gè)嚴(yán)峻的挑戰(zhàn)。
傳統(tǒng)混凝土表面裂縫缺陷識(shí)別只能通過(guò)人工進(jìn)行人眼視覺(jué)識(shí)別,這種方法不僅費(fèi)時(shí)費(fèi)力,而且可能會(huì)威脅到巡檢人員的安全[2]。為了有效解決這一問(wèn)題,基于數(shù)字圖像處理的混凝土表面裂縫缺陷識(shí)別技術(shù)逐漸引起研究者們的關(guān)注[3]。對(duì)比人工視覺(jué)識(shí)別,基于數(shù)字圖像處理的識(shí)別不僅具有省時(shí)省力特點(diǎn),而且也更加安全可靠。此外,基于數(shù)字圖像處理的識(shí)別還可以有效規(guī)避人為主觀因素對(duì)混凝土表面裂縫缺陷識(shí)別結(jié)果的不確定影響。
鑒于當(dāng)前研究現(xiàn)狀,本文將基于數(shù)字圖像處理的混凝土表面裂縫缺陷識(shí)別算法劃分為傳統(tǒng)手工特征算法和深度神經(jīng)網(wǎng)絡(luò)模型算法。傳統(tǒng)手工特征算法可以概括為邊緣特征檢測(cè)算法[4]、圖像平滑特征檢測(cè)算法[5]和圖像分割特征檢測(cè)算法[6,7]。最近,隨著人工智能技術(shù)的飛速發(fā)展與廣泛應(yīng)用,深度神經(jīng)網(wǎng)絡(luò)模型算法開(kāi)始在混凝土表面裂縫缺陷識(shí)別領(lǐng)域中逐漸展露鋒芒[8,9]。相較于邊緣特征、圖像平滑特征和圖像分割特征,深度神經(jīng)網(wǎng)絡(luò)模型算法則是從圖像分類的角度進(jìn)行混凝土表面裂縫缺陷識(shí)別[10]。但是基于圖像分類的預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型并不適合直接用于混凝土表面裂縫缺陷識(shí)別任務(wù),主要原因在于基于圖像分類的預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型常常采用自然場(chǎng)景圖像進(jìn)行訓(xùn)練,與混凝土表面裂縫缺陷識(shí)別的圖像之間存在一定語(yǔ)義差距會(huì)導(dǎo)致混凝土表面裂縫缺陷識(shí)別的精準(zhǔn)度降低[11]。
為了有效提升混凝土表面裂縫缺陷識(shí)別的精準(zhǔn)度,本文提出一種基于ResNet50微調(diào)網(wǎng)絡(luò)模型。
在ImageNet圖像數(shù)據(jù)集上預(yù)訓(xùn)練的LeNet、AlexNet、GoogLeNet、VGG和ResNet等網(wǎng)絡(luò)模型已經(jīng)在圖像處理領(lǐng)域取得了令人矚目的成績(jī)[12]。對(duì)比其他網(wǎng)絡(luò)模型,ResNet網(wǎng)絡(luò)模型主要優(yōu)勢(shì)在于以下三個(gè)方面:
(1)ResNet網(wǎng)絡(luò)模型設(shè)計(jì)了殘差模塊有效解決了其他網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問(wèn)題。
如圖1所示,可以看到殘差模塊的輸入為a,輸出為b,網(wǎng)絡(luò)模型中殘差模塊定義如下所示:
圖1 殘差模塊
b=F(a)+a
(1)
式中,F( )代表網(wǎng)絡(luò)待學(xué)習(xí)的殘差函數(shù)。
將公式(1)進(jìn)行變換,可得:
F(a)=b-a
(2)
殘差函數(shù)F實(shí)際上是右側(cè)b-a的殘差,稱為“殘差函數(shù)”,其包含有兩個(gè)分支,其一是左側(cè)的殘差函數(shù),其二是右側(cè)的對(duì)輸入的恒等映射。這兩個(gè)分支經(jīng)過(guò)一個(gè)簡(jiǎn)單整合(對(duì)應(yīng)元素的相加)后,再經(jīng)過(guò)一個(gè)非線性的變換 ReLU 激活函數(shù),從而形成整個(gè)殘差學(xué)習(xí)模塊。由多個(gè)殘差模塊堆疊而成的網(wǎng)絡(luò)結(jié)構(gòu)稱作“殘差網(wǎng)絡(luò)”[13]。
(2)ResNet網(wǎng)絡(luò)模型解決了其他網(wǎng)絡(luò)模型中由于網(wǎng)絡(luò)深度疊加導(dǎo)致網(wǎng)絡(luò)性能變差的問(wèn)題。
(3)ResNet網(wǎng)絡(luò)模型提升了之前網(wǎng)絡(luò)模型在自然場(chǎng)景圖像分類任務(wù)中的有效性。
(4)ResNet網(wǎng)絡(luò)模型提供了多個(gè)網(wǎng)絡(luò)模型版本(ResNet18、ResNet34、ResNet50、ResNet101和ResNet152)用于滿足不同任務(wù)需求。
考慮到ResResNet18和ResNet34在有效性上的缺陷、ResNet101和ResNet152在實(shí)用性上的缺陷,本文選用ResNet50作為微調(diào)的基準(zhǔn)網(wǎng)絡(luò)模型。
眾所周知,數(shù)據(jù)對(duì)網(wǎng)絡(luò)模型的微調(diào)至關(guān)重要[14]。數(shù)據(jù)不足容易引起網(wǎng)絡(luò)模型的過(guò)擬合問(wèn)題,同時(shí)也會(huì)嚴(yán)重影響網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試效果。數(shù)據(jù)增廣不僅可以有效防止網(wǎng)絡(luò)模型發(fā)生過(guò)擬合問(wèn)題,而且可以有效增加數(shù)據(jù)的多樣性進(jìn)而提升網(wǎng)絡(luò)模型的性能。因此混凝土表面圖像數(shù)據(jù)增廣在ResNet50微調(diào)網(wǎng)絡(luò)模型中成為了非常重要的一步。
基于以上分析,本文采用光照變換、裁剪和翻轉(zhuǎn)來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。光照變換主要是為了增強(qiáng)微調(diào)網(wǎng)絡(luò)模型的光照泛化能力。裁剪不僅可以增加圖像數(shù)據(jù)多樣性,而且可以減少微調(diào)網(wǎng)絡(luò)模型對(duì)局部區(qū)域的關(guān)注,從而提高模型的尺寸魯棒性和泛化能力。翻轉(zhuǎn)可以增強(qiáng)網(wǎng)絡(luò)模型在微調(diào)過(guò)程中對(duì)方向變換的泛化能力。如圖2所示,可以看到圖(a)為混凝土表面圖像數(shù)據(jù)原圖,圖(b)為光照變換后圖像,圖(c)為裁剪后圖像,圖(d)翻轉(zhuǎn)后圖像。
(a)原圖 (b)光照變換
微調(diào)網(wǎng)絡(luò)模型作為遷移學(xué)習(xí)的一種,本質(zhì)是將預(yù)訓(xùn)練網(wǎng)絡(luò)模型從源域遷移到目標(biāo)域,從而使得網(wǎng)絡(luò)模型適應(yīng)于目標(biāo)域任務(wù)。本文將用于自然場(chǎng)景圖像分類任務(wù)的預(yù)訓(xùn)練ResNet50網(wǎng)絡(luò)模型作為源域,用于混凝土表面裂縫缺陷識(shí)別任務(wù)的ResNet50微調(diào)網(wǎng)絡(luò)模型作為目標(biāo)域。如文獻(xiàn)[15]和[16]所述,源域定義如下:
D=(x,P(X))
(3)
式中,x代表源域特征空間,x∈ {x1,x2,…,xn};P(X)表示源域邊緣概率分布。目標(biāo)域定義如下:
T=(y,f(·))
(4)
式中,y代表目標(biāo)域標(biāo)簽空間,y∈ {y1,y2,…,yn},在本文中y僅有兩個(gè)值0或1,0代表沒(méi)有裂縫的混凝土表面圖像;1代表有裂縫的混凝土表面圖像;f(·)表示標(biāo)簽預(yù)測(cè)函數(shù),f(·)∈{xi,yi},其中xi∈x,yi∈y。從概率分布角度,f(·)等價(jià)于P(y/x)。本文所提出的ResNet50微調(diào)網(wǎng)絡(luò)模型就是基于預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)模型特征空間來(lái)優(yōu)化目標(biāo)域T中的標(biāo)簽預(yù)測(cè)函數(shù)f(·)。
本文將ResNet50微調(diào)網(wǎng)絡(luò)模型的構(gòu)建劃分為兩個(gè)部分:微調(diào)全連接層和微調(diào)卷積層[17]。如圖3所示,在微調(diào)全連接層步驟中,為了滿足混凝土表面裂縫缺陷圖像識(shí)別任務(wù),本文將原始全連接層中的1000類修改為2類,即沒(méi)有裂縫圖像類和有裂縫圖像類。在微調(diào)卷積層步驟中,本文將原始全連接層模塊1、模塊2、模塊3、模塊4進(jìn)行凍結(jié),將模塊5解凍處理[15]。主要原因在于模塊1至4主要學(xué)習(xí)圖像的底層紋理特征、形狀特征和結(jié)構(gòu)特征。隨著卷積層的不斷加深,模塊5所學(xué)習(xí)特征為高層語(yǔ)義特征,所以本文優(yōu)先解凍模塊5中的權(quán)重參數(shù)并進(jìn)行再訓(xùn)練,這樣不僅可以獲得一個(gè)具有較高識(shí)別率的ResNet50微調(diào)網(wǎng)絡(luò)模型,同時(shí)也可以很大程度上節(jié)省網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間成本。
圖3 微調(diào)ResNet50網(wǎng)絡(luò)模型算法流程圖
本文實(shí)驗(yàn)環(huán)境硬件信息如表1所示。
表1 硬件平臺(tái)信息
本文選取文獻(xiàn)[16]數(shù)據(jù)集中的2500張圖像,并將2500張圖像增廣至10,000張,用于ResNet50微調(diào)網(wǎng)絡(luò)模型的訓(xùn)練和測(cè)試。在網(wǎng)絡(luò)模型訓(xùn)練中,超參數(shù)設(shè)定為:學(xué)習(xí)率LearningRate設(shè)定為0.001,學(xué)習(xí)率調(diào)整參數(shù)Gramma設(shè)定為0.1,批處理大小BatchSize設(shè)定為32,步長(zhǎng)StepSize設(shè)定為3,訓(xùn)練輪次NumEpoch設(shè)定為6。訓(xùn)練集與測(cè)試集比例設(shè)定為9∶1。定量的識(shí)別效果評(píng)價(jià)指標(biāo)采用精準(zhǔn)率(Accuracy)進(jìn)行評(píng)價(jià)。
如圖4混凝土表面裂縫缺陷識(shí)別示例所示,從宏觀上,可以看到無(wú)裂縫圖像和有裂縫圖像都識(shí)別正確。從微觀上,一方面可以看到當(dāng)無(wú)裂縫圖像存在明顯的光照變化、紋理變化、痕跡及雜物干擾時(shí),ResNet50微調(diào)網(wǎng)絡(luò)模型都可以給出正確識(shí)別結(jié)果。尤其是從最后一張無(wú)裂縫圖像中可以看到,當(dāng)存在人眼都難以辨別的劃痕干擾時(shí),ResNet50微調(diào)網(wǎng)絡(luò)模型依然可以準(zhǔn)確識(shí)別。另一方面,可以看到當(dāng)有裂縫圖像存在大小變化、方向變化、尺度變化、多條裂縫交叉和周邊雜物干擾時(shí)都可以正確識(shí)別出有裂縫圖像。尤其是從最后一張有裂縫圖像中可以看到,當(dāng)存在人眼都難以辨別的微小裂縫時(shí),ResNet50微調(diào)網(wǎng)絡(luò)模型仍然可以準(zhǔn)確識(shí)別。綜上所述,定性評(píng)價(jià)結(jié)果驗(yàn)證了所提出微調(diào)網(wǎng)絡(luò)模型在混凝土表面裂縫缺陷任務(wù)上的實(shí)用性。
(a) 無(wú)裂縫圖像
表2列出了在數(shù)據(jù)集上,ResNet50(原始)和ResNet50微調(diào)網(wǎng)絡(luò)模型(本文)的Accuracy對(duì)比結(jié)果。其中,ResNet50(原始)采用ImageNet數(shù)據(jù)預(yù)訓(xùn)練的原始權(quán)重。Positive代表有裂紋圖像,Negative代表無(wú)裂紋圖像。表中粗體數(shù)值表示在數(shù)據(jù)集上的最高Accuracy值。
表2 在數(shù)據(jù)集上平均準(zhǔn)確率對(duì)比
從表2可以觀察到ResNet50微調(diào)網(wǎng)絡(luò)模型(本文)在數(shù)據(jù)集上Positive和Negative的Accuracy(%)為99.6和99.8,明顯優(yōu)于ResNet50(原始)方法的97.3和97.6。主要原因在于以下兩個(gè)方面:一方面,ResNet50微調(diào)網(wǎng)絡(luò)模型在訓(xùn)練階段采用數(shù)據(jù)增廣后的圖像,增強(qiáng)了微調(diào)網(wǎng)絡(luò)模型對(duì)光照變化、尺度變化和方向變換的魯棒性;另一方面,ResNet50微調(diào)網(wǎng)絡(luò)模型在訓(xùn)練階段優(yōu)先解凍模塊5中的權(quán)重參數(shù)并進(jìn)行再訓(xùn)練,提升了ResNet50微調(diào)網(wǎng)絡(luò)模型針對(duì)混凝土表面裂縫缺陷識(shí)別的性能。綜上所述,定量評(píng)價(jià)結(jié)果驗(yàn)證了所提出微調(diào)網(wǎng)絡(luò)模型在識(shí)別混凝土表面裂縫缺陷任務(wù)中的有效性。
本文提出了一種ResNet50微調(diào)網(wǎng)絡(luò)模型。在數(shù)據(jù)準(zhǔn)備階段,通過(guò)光照變換、裁剪和翻轉(zhuǎn)來(lái)有效擴(kuò)增數(shù)據(jù)集;在模型構(gòu)建階段,通過(guò)微調(diào)全連接層和微調(diào)卷積層來(lái)構(gòu)建適用于混凝土表面裂縫缺陷識(shí)別的ResNet50微調(diào)網(wǎng)絡(luò)模型;在實(shí)驗(yàn)評(píng)價(jià)階段,通過(guò)定性和定量的實(shí)驗(yàn)驗(yàn)證了本文所提ResNet50微調(diào)網(wǎng)絡(luò)模型的實(shí)用性和有效性。
(責(zé)任編輯 王 磊)