趙普 谷艷昌 張大偉 吳云星
摘要:大壩表面混凝土裂縫的檢測與識別對大壩安全具有重要意義,為此開展了基于深度學(xué)習(xí)方法的混凝土裂縫織別方法研究。針對裂縫圖像具有復(fù)雜拓?fù)浣Y(jié)構(gòu)和正負(fù)樣本不平衡等特點(diǎn),在典型U-net中嵌入了ASPP和CBAM優(yōu)化模塊,同時(shí)以Dice+BCE混合損失函數(shù)代替了單一交叉熵?fù)p失函數(shù)。結(jié)果表明:所創(chuàng)建的改進(jìn)U-net在自制實(shí)例大壩裂縫圖像數(shù)據(jù)集上表現(xiàn)優(yōu)異,交并比IoU和F1分?jǐn)?shù)分別為47.05%和62.99%,對比典型U-net分別提高了5.41%和5.19%,對比PSPNet分別提高了3.05%和3.31%。改進(jìn)的U-net在裂縫分割任務(wù)中像素分類更精確,多尺度信息更豐富,具有良好的泛化能力和魯棒性,可為大壩混凝土結(jié)構(gòu)表面裂縫檢測與識別提供更優(yōu)的手段。
關(guān)鍵詞:混凝土裂縫檢測; 深度學(xué)習(xí); 語義分割; U-net模型優(yōu)化; 大壩安全
中圖法分類號: TV698.1
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.04.033
0引 言
混凝土結(jié)構(gòu)是水工建筑物的重要組成部分,由于混凝土抗拉強(qiáng)度低,受收縮徐變、外界溫度變化、地基變形等內(nèi)外因素的共同影響[1],在施工和運(yùn)行階段往往不可避免地產(chǎn)生各種型式的裂縫。如果不及時(shí)對裂縫進(jìn)行判別和修復(fù),隨著裂縫持續(xù)發(fā)展,會(huì)使結(jié)構(gòu)承載力降低,耐久度下降甚至出現(xiàn)滲漏等問題[2]。因此,定期檢測和評估混凝土結(jié)構(gòu)表面裂縫及其危害,對工程安全具有重要意義。
開展大壩混凝土結(jié)構(gòu)裂縫檢測與識別,是當(dāng)前研究的熱點(diǎn)和難點(diǎn)問題。早期裂縫檢測以人工方式為主,存在工作強(qiáng)度大、效率低、安全性差等缺點(diǎn)。而較先進(jìn)的無損檢測方法例如超聲波法、紅外熱成像法、斷層掃描法[1]等,受儀器限制,也無法應(yīng)用于大范圍檢測。隨著計(jì)算機(jī)技術(shù)和數(shù)字圖像處理技術(shù)的發(fā)展,以數(shù)字圖像為基礎(chǔ)的裂縫檢測方法(如閾值分割、邊緣檢測和滲流模型等)展現(xiàn)出了高精度、非接觸式和便捷直觀等優(yōu)勢[3]。如王波等[4]設(shè)計(jì)的一種機(jī)器人廊道巡檢系統(tǒng)中就搭載了裂縫檢測模塊,通過高斯背景建模和邊緣檢測算法自動(dòng)提取裂縫輪廓進(jìn)行分析;馬嘉文[5]針對大壩裂縫圖像噪聲干擾問題,通過小波變換、閾值濾波等一系列算法處理,實(shí)現(xiàn)了良好的去噪效果。然而這些方法在實(shí)際應(yīng)用中存在一些明顯的缺陷:① 這類算法通常基于圖像的底層特征,如顏色、邊緣、紋理等進(jìn)行分割,對光影、復(fù)雜紋理細(xì)節(jié)等噪聲很敏感,難以保證裂縫提取質(zhì)量;② 當(dāng)裂紋寬度變化顯著或與圖像背景之間對比度低時(shí),極易導(dǎo)致裂紋中斷或消失;③ 接縫噪聲前后處理程序復(fù)雜,需要大量人工參數(shù)調(diào)整,致使自動(dòng)化檢測的實(shí)現(xiàn)十分困難[6]。
深度學(xué)習(xí)方法的出現(xiàn)使裂縫檢測技術(shù)水平邁上一個(gè)新的臺階。它的基本思想是利用多層非線性結(jié)構(gòu)對數(shù)據(jù)樣本進(jìn)行特征學(xué)習(xí),從而實(shí)現(xiàn)對數(shù)據(jù)信息的預(yù)測或分類等任務(wù)。與傳統(tǒng)數(shù)字圖像處理方法相比,深度學(xué)習(xí)可以自適應(yīng)地學(xué)習(xí)和優(yōu)化模型,不需要設(shè)定過多參數(shù),并且能從圖像數(shù)據(jù)中挖掘到深層特征,可以有效應(yīng)對噪聲干擾。在裂縫檢測任務(wù)中,通過深度學(xué)習(xí)方法可以提取和融合不同背景尺寸和不同級別的特征圖,顯著提高裂縫檢測的效率和準(zhǔn)確性[7]。
基于深度學(xué)習(xí)的語義分割是一種將類別標(biāo)簽分配到圖像每個(gè)像素上的方法[8],通過給裂縫和背景分別貼上正和負(fù)的標(biāo)簽,輸出二值分割結(jié)果圖,可實(shí)現(xiàn)混凝土表面裂縫缺陷檢測。U-net是語義分割領(lǐng)域中的典型模型之一,最先由Ronneberger等[9]提出,因其獨(dú)特的“U”型對稱結(jié)構(gòu)得名,起初被用于醫(yī)學(xué)圖像分割,得益于其優(yōu)異的性能,后逐漸被應(yīng)用于各種分割任務(wù)。Liu等[10]首次將U-net用于混凝土裂縫檢測,相比于Cha等[11]提出的DCNN(深度卷積網(wǎng)絡(luò)),具有更好的魯棒性、更高的效率和識別精度。在裂縫檢測應(yīng)用方面,國內(nèi)也有不少學(xué)者對U-net進(jìn)行優(yōu)化調(diào)整,取得了良好效果。瞿中等[12]在U-net網(wǎng)絡(luò)的每個(gè)池化層后都進(jìn)行一次上采樣操作,將其與池化之前的卷積層進(jìn)行融合,最大程度提取了原始圖像細(xì)節(jié)信息和全局信息,通過與傳統(tǒng)滲流模型在混凝土路面裂縫的檢測對比,證實(shí)其具有更優(yōu)效果。常惠等[13]在U-net網(wǎng)絡(luò)中引入殘差模塊,加強(qiáng)特征傳播,減少信息損失,然后引入注意力機(jī)制SE模塊,增強(qiáng)對關(guān)鍵區(qū)域信息的提取,在鐵路隧道裂縫數(shù)據(jù)集上達(dá)到了較高的精度和較短的運(yùn)行耗時(shí)。曹錦綱等[14]也在U-net中引入了一種注意力機(jī)制AFM模塊,以充分利用全局信息和增加對不同尺度裂縫的魯棒性,所創(chuàng)建的ACNet在公共裂縫數(shù)據(jù)集CFD和CRACK500上,比典型U-net和傳統(tǒng)圖像處理方法裂縫定位更精確、細(xì)節(jié)更豐富。以上學(xué)者均在U-net典型網(wǎng)絡(luò)結(jié)構(gòu)上做了改進(jìn),但主要針對網(wǎng)絡(luò)的特征提取能力,而較少關(guān)注裂縫圖像本身特點(diǎn)。本文從裂縫的形狀和分布特點(diǎn)出發(fā),引入針對大壩裂縫特征提取的優(yōu)化模塊,擬對典型U-net網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)研究,以期實(shí)現(xiàn)更優(yōu)的裂縫圖像分割方法,拓延大壩裂縫檢測與識別技術(shù)理論。
1改進(jìn)U-net
1.1典型U-net
典型U-net結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)可分為左右兩部分,左邊部分為編碼器(Encoder),對輸入圖像用卷積和池化層的堆疊進(jìn)行4次下采樣提取圖像特征;右邊為解碼器(Decoder),對特征圖進(jìn)行4次上采樣,每次都與左側(cè)的特征圖采取拼接(Concatenate)操作進(jìn)行特征融合,最后輸出分割結(jié)果。U-net可實(shí)現(xiàn)像素級的圖像分割任務(wù),且獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)使其可以在數(shù)據(jù)集量較小的條件下依然表現(xiàn)良好,是目前十分常用的人工智能圖像分割算法。
1.2裂縫圖像特點(diǎn)
與常見語義分割數(shù)據(jù)集相比,裂縫圖像具有以下幾個(gè)特點(diǎn),通常也是分割任務(wù)中的難點(diǎn):
(1) 裂縫形狀曲折多變。裂縫圖像復(fù)雜多變,具有不同的拓?fù)浣Y(jié)構(gòu)和寬度,而標(biāo)準(zhǔn)卷積只能獲取單一上下文信息,無法有效同時(shí)提取細(xì)紋和寬縫特征[15],即缺乏多尺度特征提取能力。
(2) 裂縫往往貫穿整張圖片。傳統(tǒng)U-net采用3×3卷積核,感受野較小,導(dǎo)致全局信息提取能力不足。
(3) 前景與背景像素嚴(yán)重不平衡。前景像素,也就是裂縫本身的像素點(diǎn),只占整張圖像的一小部分,若使用傳統(tǒng)的交叉熵?fù)p失函數(shù)(Cross Entropy Loss),會(huì)導(dǎo)致背景漸變主導(dǎo)[16],忽略較小的裂縫特征。
針對以上裂縫圖像特點(diǎn)以及典型U-net在特征提取方面的不足之處等,本文提出引進(jìn)空間金字塔空洞卷積(Atrous Spatial Pyramid Pooling,ASPP)模塊和混合注意力(Convolutional Block Attention Module,CBAM)機(jī)制以加強(qiáng)和豐富特征提取,使用Dice Loss加交叉熵的混合損失函數(shù)以應(yīng)對前景背景像素樣本失衡的問題。
1.3ASPP模塊
ASPP意為空洞空間卷積金字塔池化或多孔空間金字塔池化,是空洞(Atrous)卷積和空間金字塔池化(Spatial Pyramid Pooling)[17]的結(jié)合??斩淳矸e是在標(biāo)準(zhǔn)卷積的基礎(chǔ)上引進(jìn)了一個(gè)膨脹率(Dilation Rate)[18],圖片中相鄰的像素點(diǎn)往往存在信息冗余,故而空洞卷積具備兩個(gè)優(yōu)勢:一是擴(kuò)大感受野,二是能夠捕獲多尺度信息。由于空洞卷積得到的某一層的結(jié)果中,鄰近的像素是從相互獨(dú)立的子集中卷積得到的,相互之間缺少依賴,因此也存在局部信息丟失和遠(yuǎn)距離信息缺少相關(guān)性的不足。
ASPP一開始在DeepLabv2[19]中提出,模塊結(jié)構(gòu)如圖2所示。其以空間金字塔池化為框架,對于給定的輸入以不同膨脹率的空洞卷積并行采樣,擴(kuò)大通道數(shù),然后再通過1×1的卷積將通道數(shù)降低到預(yù)期的值,即以多個(gè)比例捕捉了圖像上下文信息,提取了多尺度特征。
1.4CBAM模塊
CBAM[20]是輕量級的卷積注意力模塊,結(jié)合了通道注意力(Channel Attention Module,CAM)和空間注意力(Spatial Attention Module,SAM)。通道注意力讓網(wǎng)絡(luò)關(guān)注圖像內(nèi)容,而空間注意力則關(guān)注圖像中物體的位置。在卷積過程中,給定任意一個(gè)中間特征圖,CBAM將注意力沿特征圖的通道和空間兩個(gè)獨(dú)立的維度進(jìn)行映射,然后將注意力乘以特征映射,對輸入特征圖進(jìn)行自適應(yīng)特征細(xì)化。
1.5混合損失函數(shù)
損失函數(shù)(Loss Function)用來衡量預(yù)測與實(shí)際的差距程度,在模型訓(xùn)練過程中起監(jiān)督作用。裂縫分割屬于二分類問題,可采用二分類交叉熵(Binary Cross Entropy,BCE)損失函數(shù),定義如下:
Dice Loss求交形式可以理解為mask掩碼操作,固定大小的正樣本區(qū)域計(jì)算的loss不會(huì)隨著圖片大小而變,訓(xùn)練更傾向于挖掘前景區(qū)域信息,而交叉熵會(huì)公平處理正負(fù)樣本,這在正樣本占比較小時(shí)是十分不利的。但使用單一的Dice損失函數(shù)有時(shí)會(huì)導(dǎo)致梯度發(fā)生很大變化,使訓(xùn)練出現(xiàn)較大波動(dòng)[8]。因此,本文采用“BCE+Dice”混合損失函數(shù),可以在保證訓(xùn)練穩(wěn)定的條件下,很好地處理正負(fù)樣本不平衡的問題。
1.6改進(jìn)U-net網(wǎng)絡(luò)結(jié)構(gòu)
1.6.1數(shù)據(jù)集選擇
大壩裂縫相較于常見的道路和建筑缺陷裂縫,通常寬度更細(xì)、形態(tài)更多變,并且與水壓力和溫度等因素密切相關(guān),可能涉及較高的安全風(fēng)險(xiǎn)。因此,大壩裂縫檢測的關(guān)鍵在于全面、準(zhǔn)確地識別到已有的裂縫,不放過任何細(xì)微的、不起眼的部位。
Kaggle是全球最大的公開在線數(shù)據(jù)科學(xué)競賽平臺,包含各種內(nèi)容和形式的數(shù)據(jù)集。從該平臺篩選出一個(gè)與大壩裂縫十分接近的數(shù)據(jù)集,總共288組大小為512×512的RGB混凝土表面裂縫圖像和對應(yīng)的二值標(biāo)簽圖,其中包含許多裂紋寬度小、形態(tài)變化多樣的圖像樣本,部分示例樣本如圖4所示。通過該數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行優(yōu)化測試,可以保證在將優(yōu)化后的網(wǎng)絡(luò)模型應(yīng)用于實(shí)例數(shù)據(jù)集時(shí)的有效性。
1.6.2確認(rèn)網(wǎng)絡(luò)結(jié)構(gòu)
理論上ASPP和CBAM模塊可以放在網(wǎng)絡(luò)中的任一層,將兩個(gè)模塊以不同的數(shù)量及其組合嵌入U(xiǎn)-net主干網(wǎng)絡(luò),通過所選數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行初步訓(xùn)練,根據(jù)訓(xùn)練過程中Dice得分和Loss值變化衡量網(wǎng)絡(luò)性能。Dice得分最高、Loss最小為最佳網(wǎng)絡(luò)結(jié)構(gòu)。
最終確定改進(jìn)U-net網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,在編碼層的每個(gè)初始卷積后銜接一個(gè)ASPP模塊,以增強(qiáng)特征提取的能力;由ASPP產(chǎn)生的特征圖,除了進(jìn)行下采樣操作,還通過跳躍連接與對應(yīng)解碼層的特征圖相融合,這樣做是為了同時(shí)保留低階和高階特征,即保持尺度多樣性;在編碼層與解碼層的過渡位置添加CBAM注意力模塊,以關(guān)注重點(diǎn)部位而忽略多余的背景。
2模型訓(xùn)練
2.1數(shù)據(jù)準(zhǔn)備
2.1.1數(shù)據(jù)增強(qiáng)
數(shù)據(jù)增強(qiáng)的目的是讓有限的數(shù)據(jù)產(chǎn)生更多信息,以增加訓(xùn)練樣本數(shù)量和多樣性,提高模型魯棒性和泛化能力。本文將原數(shù)據(jù)集平均分為兩組,每組分別以不同的參數(shù)進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、顏色抖動(dòng)、對比度增強(qiáng)和亮度增強(qiáng)的操作,對樣本數(shù)量進(jìn)行擴(kuò)充。部分增強(qiáng)數(shù)據(jù)示例如圖6所示。
2.1.2數(shù)據(jù)劃分
進(jìn)行數(shù)據(jù)增強(qiáng)后的樣本數(shù)量變?yōu)樵瓉淼?倍,一共1 728組樣本和標(biāo)簽。在網(wǎng)絡(luò)訓(xùn)練之前,將總數(shù)據(jù)的10%劃分為驗(yàn)證集,在訓(xùn)練過程中實(shí)時(shí)計(jì)算Dice得分以衡量訓(xùn)練效果,同時(shí)防止過擬合。此外,另選30張未參與訓(xùn)練且具有代表性的裂縫圖片作為測試集,以檢驗(yàn)?zāi)P偷聂敯粜院头夯芰Α?/p>
2.2參數(shù)設(shè)置
運(yùn)行環(huán)境為RTX2060GPU(6G),基于Python 3.9和開源深度學(xué)習(xí)框架Pytorch。設(shè)置Batch Size(批大小,即每次輸入的圖像張數(shù))為1,Epoch(總數(shù)據(jù)的迭代輪數(shù))為5,初始學(xué)習(xí)率為0.001,采用RMSProp優(yōu)化器加速梯度下降并自適應(yīng)調(diào)整學(xué)習(xí)率,上采樣步驟使用計(jì)算速度相對較快的雙線性插值取代轉(zhuǎn)置卷積。
2.3訓(xùn)練結(jié)果
分別對加入了ASPP與CBAM優(yōu)化模塊和未加入模塊的模型進(jìn)行訓(xùn)練。訓(xùn)練過程中Dice得分、loss及學(xué)習(xí)率變化對比如圖7~9所示,曲線均通過指數(shù)平均移動(dòng)法(Exponential Moving Average,EMA)進(jìn)行平滑處理。
從圖7可以看出,幾乎在整個(gè)訓(xùn)練過程中,改進(jìn)U-net的Dice得分始終大于原始模型,從第4 000步開始Dice穩(wěn)定在0.82左右,最終為0.836。圖8為loss曲線,由于采用組合損失函數(shù),loss無較大差異,在0.1左右上下波動(dòng)。圖9中,改進(jìn)U-net學(xué)習(xí)率下降更快,表明模型特征提取能力更強(qiáng),參數(shù)更新速度大于典型網(wǎng)絡(luò)結(jié)構(gòu)。
3模型評價(jià)
3.1評價(jià)指標(biāo)
對于二分類問題,樣本有正負(fù)兩個(gè)類別,因此模型的預(yù)測結(jié)果和真實(shí)標(biāo)簽的組合有4種tp,fp,fn和tn,如表1所列。分別表示:實(shí)際為正樣本預(yù)測為正樣本,實(shí)際為負(fù)樣本預(yù)測為正樣本,實(shí)際為正樣本預(yù)測為負(fù)樣本,實(shí)際為負(fù)樣本預(yù)測為負(fù)樣本。
事實(shí)上,F(xiàn)1等效于Dice Coefficient。以上指標(biāo)取值均在0~1之間,越接近1表明模型性能越好,其中IoU和F1為二分類語義分割中最常用的指標(biāo),能綜合反映模型整體的分割效果和精度。
3.2消融試驗(yàn)
為驗(yàn)證本文所提出改進(jìn)策略對模型性能提升的有效性,每次只引入一種優(yōu)化方法,在原數(shù)據(jù)集和測試集上分別訓(xùn)練和測試模型,通過與典型U-net的比較對該方法進(jìn)行評價(jià)。引入ASPP和CBAM對網(wǎng)絡(luò)訓(xùn)練過程中的Dice影響曲線以及使用不同損失函數(shù)對Dice的影響如圖10所示,每種優(yōu)化模型在測試集的分割精度指標(biāo)統(tǒng)計(jì)見表2。
從圖10可以看出,加入ASPP的網(wǎng)絡(luò)Dice系數(shù)穩(wěn)定后為83.54%,CBAM為82.46%,相比原始網(wǎng)絡(luò)的81.59%分別提高約2%和1%,證實(shí)加入優(yōu)化模塊可在一定程度上提升網(wǎng)絡(luò)性能。在圖11中,單一的損失函數(shù)在訓(xùn)練前期Dice波動(dòng)較大,而使用混合損失函數(shù)可以明顯提升網(wǎng)絡(luò)訓(xùn)練穩(wěn)定性。
從表2分析得知,各個(gè)改進(jìn)方法對網(wǎng)絡(luò)性能都有一定的提升效果。其中,改進(jìn)后的模型在測試集上的IoU和F1均大于典型U-net。此外,通過數(shù)據(jù)增強(qiáng)擴(kuò)充數(shù)據(jù)集也使模型的分割精度得到了提升,IoU和F1分別提高0.62%和1.2%。
3.3對照試驗(yàn)
為了評估改進(jìn)U-net在不同方法中的優(yōu)越性,本文選取了閾值分割方法和PSPNet(Pyramid Scene Parsing Network)作為對照組,通過在測試集上的分割效果對比表明深度學(xué)習(xí)方法和傳統(tǒng)數(shù)字處理方法之間以及不同深度學(xué)習(xí)方法之間的差異性。
(1) 閾值分割。
閾值分割是一種簡單常見的圖像分割方法,該方法基于一個(gè)或多個(gè)閾值將圖像像素劃分為兩個(gè)或多個(gè)組,使其在同一組中具有相似的灰度值。由于閾值分割易受圖片噪聲影響,閾值設(shè)置太高會(huì)導(dǎo)致分割結(jié)果噪點(diǎn)太多,而太低又不能完整體現(xiàn)裂縫形態(tài),故人工為每一張測試圖像調(diào)整最優(yōu)閾值。
(2) PSPNet。
PSPNet同樣是一種用于圖像語義分割的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型[22]。該模型最大的特點(diǎn)在于采用了金字塔池化(Pyramid Pooling)結(jié)構(gòu),可以有效地捕獲不同尺度的語義信息,從而提高分割精度。對PSPNet使用相同的數(shù)據(jù)集進(jìn)行訓(xùn)練,基本訓(xùn)練參數(shù)如下:
主干特征提取網(wǎng)絡(luò),Mobilenet;Max Epoch,16;Batch Size,2;Loss Function,Dice;初始學(xué)習(xí)率,5×10-4;梯度優(yōu)化器,Adam。
3.4評價(jià)結(jié)果
閾值分割、PSPNet、典型U-net以及改進(jìn)U-net 4種方法在測試集的分割效果對比如圖12所示。
由圖12分析得知:在裂縫圖片無陰影、噪聲較少時(shí),閾值分割方法具有不錯(cuò)的表現(xiàn),如第5組,但當(dāng)出現(xiàn)陰影和其他干擾時(shí),分割圖中出現(xiàn)較多噪點(diǎn),如第3組右上角,且閾值分割由于參數(shù)固定無法同時(shí)保證粗紋和細(xì)支的完整性;PSPNet相比閾值分割效果有明顯提升,很好地抑制了噪聲,裂縫整體形態(tài)較完整,但細(xì)節(jié)刻畫能力不足,且存在較多斷點(diǎn);典型U-net與PSPNet無較大差別,同樣存在較多斷點(diǎn),并且由于U-net感受野較小,存在裂縫末端未識別的現(xiàn)象,如第3組;改進(jìn)U-net對比前幾組效果提升顯著,不僅解決了噪聲、斷點(diǎn)和未識別的問題,同時(shí)細(xì)節(jié)刻畫更完整,多尺度信息更豐富。
對測試集通過4種方法生成的分割圖分別計(jì)算P、R、A、IoU和F1并求算術(shù)平均值,統(tǒng)計(jì)結(jié)果見表3。由于裂縫標(biāo)簽圖本身存在一定誤差,使得某些指標(biāo)數(shù)值偏小,但從對比結(jié)果來看,PSPNet和U-net總體表現(xiàn)相近,各項(xiàng)指標(biāo)均大于閾值分割,其中U-net準(zhǔn)確率P提升9.01%,PSPNet召回率R提升10.17%,表明深度學(xué)習(xí)方法比傳統(tǒng)圖像處理算法定位更準(zhǔn)確,抗噪聲能力更強(qiáng);改進(jìn)U-net對比閾值分割有十分顯著的提升,IoU和F1分別提高12.62%和12.01%,而對比PSPNet,IoU和F1分別提高5.53%和5.21%,表明改進(jìn)U-net無論是相較于傳統(tǒng)數(shù)字圖像算法還是在同類深度學(xué)習(xí)算法間都體現(xiàn)了明顯的優(yōu)勢。
4實(shí)例應(yīng)用
為了驗(yàn)證改進(jìn)U-net在實(shí)際工程應(yīng)用中的性能,筆者制作了大壩工程裂縫數(shù)據(jù)集。數(shù)據(jù)來自一座土石壩和一座混凝土壩各個(gè)部位,如上游護(hù)坡、壩頂?shù)缆?、溢洪道等不同程度的裂縫照片。初始的31張照片經(jīng)過固定大小的裁剪后生成93張512×512的圖片,用python第三方庫labelme對照片中的裂縫進(jìn)行手動(dòng)標(biāo)簽繪制,生成93組裂縫圖片和對應(yīng)的mask標(biāo)簽,其中68組用數(shù)據(jù)增強(qiáng)方法生成408組訓(xùn)練數(shù)據(jù),另外的25組用于模型測試。實(shí)例工程數(shù)據(jù)集樣本示例如圖13所示。
對408組樣本進(jìn)行模型訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置與2.2節(jié)中相同。由于實(shí)例數(shù)據(jù)集樣本數(shù)量較少,故采用遷移學(xué)習(xí)的方法,加載上文中訓(xùn)練好的模型初始權(quán)值和閾值,可使得網(wǎng)絡(luò)訓(xùn)練收斂速度更快,并且能在一定程度上提升模型整體的泛化性能。
對25組測試圖片分別用閾值分割、PSPNet、典型U-net和改進(jìn)U-net做測試,分割圖對比結(jié)果如圖14所示。從第2~4組中可以看出,在裂紋較細(xì)、路徑曲折的條件下,閾值分割和典型U-net均有模糊和中斷的現(xiàn)象,且在第5組中典型U-net存在較多噪點(diǎn);PSPNet在抗噪方面表現(xiàn)出良好的性能,在第5組中消除了大部分噪點(diǎn),但仍然存在斷點(diǎn)和消失的問題;改進(jìn)U-net分割效果更清晰,保持了裂紋完整性,細(xì)節(jié)捕捉更全面,綜合性能優(yōu)于其他模型。
4種方法分割精度指標(biāo)統(tǒng)計(jì)見表4,基本趨勢與3.4節(jié)中一致。以IoU和F1為依據(jù),分割精度排序?yàn)殚撝捣指?典型U-net 5結(jié) 論 本文針對混凝土結(jié)構(gòu)裂縫圖像特點(diǎn)以及典型U-net在特征提取上的不足之處,將ASPP和CBAM模塊嵌入U(xiǎn)-net主干網(wǎng)絡(luò)中,加強(qiáng)和豐富了網(wǎng)絡(luò)的特征提取能力;并用Dice+BCE的混合損失函數(shù)取代單一交叉熵?fù)p失函數(shù),在訓(xùn)練穩(wěn)定的條件下解決了由正負(fù)樣本不平衡導(dǎo)致的訓(xùn)練效果差的問題,創(chuàng)建了改進(jìn)的U-net混凝土裂縫圖像分割識別方法。 通過自制大壩工程裂縫圖像數(shù)據(jù)集對多種分割方法進(jìn)行了測試,在閾值分割、PSPNet、典型U-net以及改進(jìn)U-net這4種方法中,改進(jìn)U-net綜合性能最優(yōu),IoU和F1分別為47.05%和62.99%,對比典型U-net分別提高5.41%和5.19%,對比PSPNet分別提高3.05%和3.31%。改進(jìn)U-net在裂縫圖像分割任務(wù)中,像素分類更精確,多尺度信息更豐富,可在干擾條件下實(shí)現(xiàn)混凝土表面裂縫的有效分割與識別,拓延了裂縫檢測識別技術(shù)和理論發(fā)展,對監(jiān)控和評估大壩混凝土結(jié)構(gòu)安全具有重要實(shí)際意義。 參考文獻(xiàn): [1]溫作林.基于深度學(xué)習(xí)的混凝土裂縫識別[D].杭州:浙江大學(xué),2019. [2]武維毓,房國忠,魏櫻,等.基于數(shù)值仿真的大壩壩頂裂縫成因及危害性分析[J].人民長江,2020,51(增2):270-274. [3]楊松,邵龍?zhí)?,郭曉霞,?基于骨架和分形的混凝土裂縫圖像識別算法[J].儀器儀表學(xué)報(bào),2012,33(8):1850-1855. [4]王波,趙遠(yuǎn),劉喜泉,等.智能巡檢機(jī)器人在大壩廊道運(yùn)維中的應(yīng)用[J].人民長江,2022,53(7):227-231. [5]馬嘉文.基于圖像處理的大壩裂縫檢測算法研究[D].哈爾濱:哈爾濱工程大學(xué),2019. [6]TANG T Z,ALLEN A,ZHANG L L,et al.Pixel-level pavement crack segmentation with encoder-decoder network[J].Measurement,2021,184:109914. [7]KHERADMANDI N,MEHRANFAR V.A critical review and comparative study on image segmentation-based techniques for pavement crack detection[J].Construction and Building Materials,2022,321:126162. [8]KNIG J,JENKINS M D,BARRIE P,et al.A convolutional neural network for pavement surface crack segmentation using residual connections and attention gating[C]∥2019 IEEE International Conference on Image Processing(ICIP),2019:1460-1464. [9]RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[C]∥Medical Image Computing and Computer-Assisted Intervention:18th International Conference,2015. [10]LIUZ Q,CAO Y W,WANG Y Z,et al.Computer vision-based concrete crack detection using U-net fully convolutional networks[J].Automation in Construction,2019,104:129-139. [11]CHAY J,CHOI W,BUYUKOZTURK O.Deep learning-based crack damage detection using convolution neural networks[J].Computet-Aided Civil and Infrastructure Engineering,2017(8):1-18. [12]瞿中,謝釔.基于全U網(wǎng)絡(luò)的混凝土路面裂縫檢測算法[J].計(jì)算機(jī)科學(xué),2021,48(4):187-191. [13]?;?,饒志強(qiáng),趙玉林,等.基于改進(jìn)U-Net網(wǎng)絡(luò)的隧道裂縫分割算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(22):215-222. [14]曹錦綱,楊國田,楊錫運(yùn).基于注意力機(jī)制的深度學(xué)習(xí)路面裂縫檢測[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2020,32(8):1324-1333. [15]FAN Z,LI C,CHEN Y,et al.Automatic crack detection on road pavements using encoder-decoder architecture[J].Materials,2020,13(13):2960-2982. [16]張林,張雪利,路霖,等.基于殘差U-Net網(wǎng)絡(luò)的染色體圖像分割方法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,34(2):208-215. [17]HE K,ZHANG X,REN S,et al.Spatial pyramid pooling in deep convolutional networks for visual recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916. [18]許征波,楊煜俊.基于多任務(wù)深度學(xué)習(xí)的快速人像自動(dòng)摳圖[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2020,53(8):740-745. [19]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Deeplab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2018,40(4):834-848. [20]WOO S,PARK J,LEE J Y,et al.CBAM:convolutional block attention module[C]∥ECCV,2018:3-19. [21]MILLETARI F,NAVAB N,AHMADI S A.V-Net:fully convolutional neural networks for volumetric medical image segmentation[C] ∥2016 Fourth International Conference on 3D Vision (3DV).IEEE,2016:565-571. [22]ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:2881-2890. (編輯:鄭 毅)