劉 森
(長沙理工大學(xué)土木工程學(xué)院,湖南 長沙 410114)
作為當(dāng)今建筑中的主要材料,混凝土在建筑中起著至關(guān)重要的作用?;炷猎诜圻^程中,因荷載的作用和材料性能的退化,使其表面出現(xiàn)裂縫,不僅影響建筑物的美觀和耐久性,甚至?xí)s短建筑物的使用壽命,威脅其結(jié)構(gòu)安全。因此,要及時(shí)發(fā)現(xiàn)裂縫的位置,分析裂縫出現(xiàn)的原因和損傷程度,并采取措施來防止裂縫進(jìn)一步延伸。
近年來,隨著深度學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)已被廣泛應(yīng)用于各種分割任務(wù)中,并在裂縫檢測領(lǐng)域中表現(xiàn)出不錯(cuò)的性能。特別是,U-Net[1]及其變體在該領(lǐng)域的應(yīng)用更成功,如建筑物表面裂縫檢測[2]、橋梁裂縫檢測[3]、路面裂縫檢測[4]和混凝土裂縫檢測[5]等。然而,因卷積操作的歸納偏置,使其無法學(xué)習(xí)全局,完成遠(yuǎn)端的信息交互,從而阻礙分割網(wǎng)絡(luò)的進(jìn)一步提升。通過引入Transformer[6]模型來彌補(bǔ)卷積的缺陷。利用Transformer 在特征圖中捕捉長距離特征的優(yōu)勢,能有效彌補(bǔ)CNN因局部偏置和權(quán)值共享對全局信息把握不足的缺點(diǎn)。Swin-Unet[7]是一種基于U-Net改進(jìn)的純Transformer模型,其延用CNN 中的 U 型網(wǎng)絡(luò)架構(gòu),并通過 Swin Transformer[8]模塊來彌補(bǔ)卷積操作的缺陷,能更好進(jìn)行局部及全局的語義特征學(xué)習(xí),有著更優(yōu)的性能。因此,本研究借鑒深度學(xué)習(xí)領(lǐng)域的Swin-Unet分割模型來完成混凝土的裂縫檢測。
目前,圖像分割主要基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。其中,U 型網(wǎng)絡(luò)(U-Net)作為經(jīng)典的CNN,其在利用跳躍連接的同時(shí),保留在下采樣中丟失的細(xì)節(jié)信息和在低分辨率圖像中獲取到的全局特征,這種融合不同尺度特征的編碼器-解碼器的結(jié)構(gòu)設(shè)計(jì)能大幅度提升分割模型的性能。因此,Swin-Unet 模型延用這種U型架構(gòu),同時(shí)引入Swin Transformer模塊來彌補(bǔ)卷積操作無法進(jìn)行遠(yuǎn)程信息交互的缺陷。
與傳統(tǒng)的U-Net 結(jié)構(gòu)相同,整個(gè)Swin-Unet 模型由3 部分組成,即編碼器(左側(cè)部分)、解碼器(右側(cè)部分)以及跳躍連接(中間跨線部分),如圖1所示。
圖1 Swin-Unet模型架構(gòu)
1.1.1 編碼器。輸入的圖片先通過patch par?tition 模塊,其將圖片切分成大小相等,且互不重疊的分塊,并對每個(gè)分塊進(jìn)行線性嵌入,可將輸入向量的維度變成預(yù)先設(shè)置好的值,圖中維度用C 來表示。隨后將嵌入的分塊依次送入Swin Transformer模塊和patch 融合層,用來生成不同尺度的特征表述。其中,Swin Transformer 模塊負(fù)責(zé)學(xué)習(xí)特征,patch 融合層負(fù)責(zé)下采樣操作,將輸入該層的特征圖的分辨率縮放至一半。
1.1.2 解碼器。解碼器由多個(gè)Swin Trans?former模塊和patch 擴(kuò)張層組成。patch 擴(kuò)張層進(jìn)行上采樣操作,將輸入該層的特征圖擴(kuò)充至2 倍分辨率,最后一個(gè)patch 擴(kuò)張層會(huì)將特征圖擴(kuò)充至4 倍分辨率,用于將特征圖還原成原圖尺寸,最后通過線性映射層進(jìn)行像素級別的預(yù)測,判斷被預(yù)測的像素點(diǎn)是否屬于裂縫。
1.1.3 跳躍連接。和傳統(tǒng)的U-Net一樣,跨線負(fù)責(zé)的是特征融合,以級聯(lián)的方式將特征圖輸送到解碼器來融合多尺度特征,從而彌補(bǔ)原始信息的丟失。
1.2.1 Swin Transformer模塊。Swin Transformer是整個(gè)網(wǎng)絡(luò)最基礎(chǔ)的模塊,和傳統(tǒng)的多頭注意力(MSA)結(jié)構(gòu)不同的是,Swin Transformer 是基于滑動(dòng)窗口構(gòu)建的,圖2 為兩個(gè)串聯(lián)的Swin Transformer 模塊。每個(gè)Swin Transformer 模塊由兩個(gè)層歸一化(Layer Norm)層、多頭自注意力模塊和多層感知機(jī)(MLP)組成。
圖2 兩個(gè)串聯(lián)的Swin Transformer模塊
在兩個(gè)連續(xù)的Swin Transformer模塊中,分別采用基于窗口的多頭自注意力模塊(W-MSA)和基于滑動(dòng)窗口的多頭自注意力模塊(SW-MSA)。
Yao 等[9]提出的多頭注意力(MSA)采用的是全局自注意力機(jī)制,即在整張圖上進(jìn)行自注意力計(jì)算,其計(jì)算復(fù)雜度與圖片大小成平方關(guān)系。當(dāng)圖像增大時(shí),計(jì)算量也會(huì)飛速上漲。W-MSA 使用窗口對計(jì)算范圍進(jìn)行限制,在每個(gè)窗口內(nèi)進(jìn)行自注意力計(jì)算,可極大降低計(jì)算的復(fù)雜度,提高訓(xùn)練速度。但因每個(gè)窗口互不重疊,每次進(jìn)行自注意力計(jì)算時(shí),窗口與窗口間沒有信息交流,SW-MSA 通過滑動(dòng)窗口來實(shí)現(xiàn)窗口與窗口間的信息交流。采用基于滑動(dòng)窗口的自注意力模塊,不僅具有標(biāo)準(zhǔn)的transformer 自注意力機(jī)制的全局信息提取能力,還能降低計(jì)算復(fù)雜度。MSA 復(fù)雜度與W-MSA 復(fù)雜度的計(jì)算公式見式(1)、式(2)。
式中:H 為圖片的高;W 為圖片的寬;C 為圖片的維度;Ω為復(fù)雜度計(jì)算函數(shù);M為圖塊數(shù)量。
由于試驗(yàn)采用長寬均為512 的RGB 圖像,通過patch partition 模塊后切分出的圖塊個(gè)數(shù)應(yīng)為128 ×128,遠(yuǎn)小于圖像像素點(diǎn)個(gè)數(shù)512 × 512。因此,理論上Swin Transformer更有利于模型的訓(xùn)練。
1.2.2 patch 融合層。為了讓圖像有層級式的概念,這里要用到類似池化的操作。在Swin-Unet中,Patch 融合層是將圖像的高和寬縮小至原來的一半,將圖像維度升為原來的2倍。patch融合操作如圖3 所示。先將每個(gè)圖塊隔一個(gè)像素選取一個(gè)數(shù)值,將圖片切分成4 塊,然后將切分開的圖塊進(jìn)行通道融合,其維度將會(huì)擴(kuò)大為原圖塊的4 倍,最后通過全連接層,將其維度壓縮為原圖塊的2倍。
圖3 patch merging模塊
混淆矩陣(見圖4)是情形分析表,顯示以下四組記錄的數(shù)目,即作出正確判斷的肯定記錄(真陽性)、作出錯(cuò)誤判斷的肯定記錄(假陰性)、作出正確判斷的否定記錄(真陰性)以及作出錯(cuò)誤判斷的否定記錄(假陽性)。
圖4 混淆矩陣
其中,TruePositive(TP)為樣本的真實(shí)類別是正類,模型識(shí)別結(jié)果為正類;FalseNegative(FN)為樣本的真實(shí)類別是正類,模型識(shí)別結(jié)果為負(fù)類;False Positive(FP)為樣本的真實(shí)類別是負(fù)類,模型識(shí)別結(jié)果為正類;True Negative(TN)為樣本的真實(shí)類別是負(fù)類,模型識(shí)別結(jié)果為負(fù)類。
2.1.1 F1 score。
精準(zhǔn)率(Precision)是指被預(yù)測為正樣本的檢測框,其預(yù)測正確的占比,見式(3)。
召回率(Recall)是被正確檢測出來的真實(shí)框占所有真實(shí)框的比例,見式(4)。
考慮Precision 和Recall 是一對矛盾的度量,為了能夠綜合考慮這兩個(gè)指標(biāo),引入F1 score,其計(jì)算公式見式(5)。
式中:P為精確率;R為召回率。
2.1.2 交并比(IOU)。IOU 是用來評價(jià)兩個(gè)區(qū)域的相似性,是度量兩個(gè)檢測框的交疊程度。考慮試驗(yàn)是二分類,且背景所占的比例大,用IOU 作為評價(jià)指標(biāo)比平均交并比(MIOU)更合理,IOU 的計(jì)算公式見式(6)。
式中:Bgt為真實(shí)框,即提前標(biāo)注好的裂縫框;Bp為預(yù)測框,即模型預(yù)測出來的裂縫框。
本研究的裂縫圖像采集對象為已投入使用的居民樓,共采集到300 張裂縫圖片。采集工具為大疆御Mavic Air2 無人機(jī),無人機(jī)攜帶相機(jī)所拍攝的照片最大尺寸為4 800 萬像素,所拍照片為三通道的RGB 圖像??紤]到圖像尺寸過大導(dǎo)致模型難以訓(xùn)練,將采集到的圖像裁剪為長寬均為512 的RGB圖像。
同時(shí),由于采集到的圖像背景過于單一,難以達(dá)到泛化的目的。因此,為豐富數(shù)據(jù)集的多樣性,讓模型學(xué)到豐富的裂縫圖像特征,提高模型的泛化性能和復(fù)雜背景下裂縫分割的魯棒性,本研究采用公 共 數(shù) 據(jù) 集 Original_Crack_DataSet_1024_1024[10]、Concrete Crack Images for Classification[11]、CrackFor?est和CRACK500進(jìn)行輔助訓(xùn)練。從中篩選出3 200張圖片用于該試驗(yàn)。其中,包含橋梁裂縫、道路裂縫、建筑外墻裂縫。將這3 518張圖片按訓(xùn)練集、驗(yàn)證集和測試集約8∶1∶1 的比例進(jìn)行劃分,即2 918張圖片作為訓(xùn)練集、300 張圖片作為驗(yàn)證集、300 張圖片作為測試集(見圖5)。
為了驗(yàn)證本研究提出的模型的分割性能,采用PSPNet[12]、U-Net、Res U-Net[13]、DeepLabV3+[14]、TransUnet 等5 種模型進(jìn)行比較。在保證數(shù)據(jù)集相同的前提下,訓(xùn)練網(wǎng)絡(luò)模型,并通過驗(yàn)證集測得的評價(jià)指標(biāo)與通過測試集預(yù)測出的分割結(jié)果進(jìn)行對模型分析比較。
通過比較其精準(zhǔn)率、召回率、F1、IOU 來驗(yàn)證訓(xùn)練效果(見表1)。
由表1 可知,Swin-Unet 的識(shí)別效果最好,其次是TransUnet,其評價(jià)指標(biāo)分?jǐn)?shù)與Swin-Unet 相差無幾,但其訓(xùn)練時(shí)間更久,這是因?yàn)門ransUnet 使用的是全局自注意力機(jī)制,圖片越大,計(jì)算量就越大。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,U-Net 的識(shí)別效果最佳,但其F1分?jǐn)?shù)與IOU仍略低于Swin-Unet。
圖 數(shù)據(jù)集示例圖
表1 評價(jià)指標(biāo)
在測試集中隨機(jī)抽取4 張圖片進(jìn)行預(yù)測,各模型的分割結(jié)果見表2。
表2 預(yù)測結(jié)果
對比分割效果可以發(fā)現(xiàn),在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,U-Net的分割效果最佳,但第1、2、3張圖仍有部分地方有較大瑕疵。Swin-Unet 對測試圖進(jìn)行分割,雖有些許瑕疵,但仍然取得最好的分割效果。
通過對試驗(yàn)結(jié)果進(jìn)行分析,從評價(jià)結(jié)果和分割效果兩方面進(jìn)行對比,Swin-Unet 比卷積神經(jīng)網(wǎng)絡(luò)有相對較好的檢測效果。這表明Transformer 更利于圖片特征的提取。對比計(jì)算復(fù)雜度,并通過試驗(yàn)進(jìn)行驗(yàn)證,Swin-Unet 與transunet 在數(shù)據(jù)集、學(xué)習(xí)率和batchsize 都相同的前提下,Swin-Unet 的訓(xùn)練時(shí)間更短,且不降低識(shí)別效果。這說明基于窗口的自注意力機(jī)制比全局自注意力機(jī)制更有利于對模型的訓(xùn)練。