唐源 董紹江 劉超 閆凱波
文章編號(hào):2096-398X2024)03-0166-08
(重慶交通大學(xué) 機(jī)電與車輛工程學(xué)院, 重慶 400074)
摘 要:針對(duì)現(xiàn)有網(wǎng)絡(luò)執(zhí)行路面裂縫分割任務(wù)時(shí),特征利用不充分、高層語(yǔ)義信息提取不足的問(wèn)題,提出了一種改進(jìn)SegFormer網(wǎng)絡(luò)的路面裂縫分割算法.首先,為充分利用提取到的特征,摒棄了原網(wǎng)絡(luò)以多層感知機(jī)(Multilayer Perceptron,MLP)作為解碼器的方案,重新設(shè)計(jì)了融合不同尺度特征的解碼器,并在特征融合時(shí)引入注意力模塊為其提供信息融合指導(dǎo),加強(qiáng)了高低層特征間的聯(lián)系;其次,為彌補(bǔ)高層語(yǔ)義信息不足,設(shè)計(jì)了結(jié)合部分卷積(Partial Convolution,PConv)的空間高效卷積池化模塊(Space Efficient Convolutional Pooling Module,SECPM),提升了模型對(duì)不同尺度裂縫的分割性能;最后,針對(duì)路面裂縫不受位置、形狀等方面限制的特點(diǎn),提出了一種新的數(shù)據(jù)增強(qiáng)方法,提高了模型的泛化性能.在公開數(shù)據(jù)集Crack500進(jìn)行實(shí)驗(yàn),相較于原網(wǎng)絡(luò),改進(jìn)模型的F1和mIoU分別提升了1.03%、1.32%,本文提出的方法能更好地適應(yīng)路面裂縫分割任務(wù).
關(guān)鍵詞:語(yǔ)義分割; 特征融合; 路面裂縫; 部分卷積
中圖分類號(hào):U418.6+6??? 文獻(xiàn)標(biāo)志碼: A
An improved pavement crack segmentation algorithm based on SegFormer network
TANG Yuan, DONG Shao-jiang*, LIU Chao, YAN ai-bo
School of Mechantronics and Vehicle Engineering, Chongqing Jiaotong University, Chongqing 400074, China)
Abstract:Aiming at the problems of inadequate feature utilization and insufficient extraction of high-level semantic information in pavement crack segmentation by existing networks,an improved pavement crack segmentation algorithm based on SegFormer network was proposed.Firstly,in order to make full use of the extracted features,the original scheme of using Multilayer Perceptron MLP) as decoder was abandoned,and the decoder fused different scale features was redesigned.The attention module was introduced to provide information fusion guidance during feature fusion,and the relationship between high and low features was strengthened.Secondly,in order to make up for the lack of high-level semantic information,a Space Efficient Convolutional Pooling Module SECPM) combined with Partial Convolution PConv) was designed.The segmentation performance of the model for cracks of different scales is improved.Finally,a new data enhancement method was proposed to improve the generalization performance of the pavement crack,which was not limited by location,shape,etc.Experiments were carried out on Crack500,and compared with the original network,F(xiàn)1 and mIoU of the improved model improved by 1.03% and 1.32%,respectively.The method proposed in this paper can better adapt to the task of pavement crack segmentation.
Key words:semantic segmentation; feature fusion; pavement cracks; partial convolution
0 引言
裂縫是路面最為常見(jiàn)的缺陷之一[1],當(dāng)路面出現(xiàn)大量裂縫時(shí),影響路面美觀,同時(shí)也會(huì)影響行駛安全,故而定期檢查并發(fā)現(xiàn)路面裂縫是道路管理部門的一項(xiàng)重要工作.近年來(lái),隨著深度學(xué)習(xí)在圖像、語(yǔ)音等方面的廣泛應(yīng)用,深度學(xué)習(xí)表現(xiàn)出了極為強(qiáng)大的特征提取能力和泛化能力[2].因此,不少研究人員將深度學(xué)習(xí)應(yīng)用到路面裂縫檢測(cè)任務(wù)當(dāng)中.
深度學(xué)習(xí)在路面裂縫的應(yīng)用可大致分為三個(gè)階段:第1個(gè)階段是利用卷積神經(jīng)網(wǎng)絡(luò)滑動(dòng)窗口,實(shí)現(xiàn)裂縫的分類[3];第2個(gè)階段是圖像目標(biāo)檢測(cè)技術(shù),實(shí)現(xiàn)路面裂縫精確定位[4];第3個(gè)階段則是利用像素級(jí)語(yǔ)義分割技術(shù),實(shí)現(xiàn)路面裂縫形態(tài)特征的精確提?。?].相較于前兩階段,裂縫像素級(jí)語(yǔ)義分割技術(shù)有著無(wú)可比擬的優(yōu)勢(shì),不僅能夠輸出目標(biāo)類別,還能夠準(zhǔn)確展現(xiàn)目標(biāo)在圖像當(dāng)中的位置形態(tài),通過(guò)此技術(shù)可為以后實(shí)現(xiàn)路面受損程度的自動(dòng)評(píng)估提供幫助[6].
為實(shí)現(xiàn)像素級(jí)語(yǔ)義分割技術(shù),涌現(xiàn)出了一批優(yōu)秀的分割網(wǎng)絡(luò).Long等[7]提出全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN),首先使用卷積層實(shí)現(xiàn)像素級(jí)別上端到端的預(yù)測(cè);Hou等[8]改進(jìn)了編碼器與解碼器對(duì)稱的多尺度特征融合結(jié)構(gòu)U-Net,引入多尺度密集擴(kuò)張卷積網(wǎng)絡(luò)將低層次的細(xì)節(jié)信息與高層語(yǔ)義信息融合,提升了圖像分割效果;Chen 等[9]提出了DeepLabV3網(wǎng)絡(luò)并設(shè)計(jì)了空洞空間金字塔池化層(Atrous Spatial Pyramid Pooling,ASPP)來(lái)增加特征提取網(wǎng)絡(luò)的感受野,加強(qiáng)高層語(yǔ)義特征,之后的DeepLabV3+在此基礎(chǔ)上引入了編解碼合結(jié)構(gòu)[10],提高了分割邊界準(zhǔn)確度;heng 等[11]在編碼器引入Vision Transformer結(jié)構(gòu)進(jìn)行全局上下文建模,提出了SETR網(wǎng)絡(luò)模型,為語(yǔ)義分割任務(wù)提供了新的思路.翟軍治等[12]在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)計(jì)了一種多語(yǔ)義特征關(guān)聯(lián)模塊,實(shí)現(xiàn)不同語(yǔ)義信息的特征融合增強(qiáng),但高層語(yǔ)義挖掘不充分;Xie 等[13]提出了無(wú)位置編碼、輸出多尺度特征的SegFormer網(wǎng)絡(luò),編碼器僅使用多層感知機(jī),執(zhí)行效率較高,但忽略了特征層間聯(lián)系,特征利用不充分.而在實(shí)際工程中面臨著路面裂縫尺度變化大、形狀各異等挑戰(zhàn),上述網(wǎng)絡(luò)存在特征利用不充分、高層語(yǔ)義信息不足等問(wèn)題,執(zhí)行路面裂縫分割任務(wù)時(shí)往往表現(xiàn)不佳.
因此,為更好地適應(yīng)路面裂縫分割任務(wù),本文提出了一種改進(jìn)SegFormer網(wǎng)絡(luò)的路面裂縫分割算法,改進(jìn)工作具體如下:
1)為解決特征利用不充分的問(wèn)題,利用SegFormer網(wǎng)絡(luò)編碼器MiT-B1實(shí)現(xiàn)圖像裂縫的特征提取,而解碼器摒棄了原網(wǎng)絡(luò)以多層感知機(jī)作為解碼器的方案,采用本文所設(shè)計(jì)的特征融合網(wǎng)絡(luò)(Feature Fusion Network,F(xiàn)FN)作為解碼器.同時(shí),為抑制融合時(shí)產(chǎn)生的冗余信息,利用通道注意力模塊(Channel Attention Module,CAM)為高低層提供信息融合指導(dǎo),加強(qiáng)了特征層之間的聯(lián)系.
2)為彌補(bǔ)高層語(yǔ)義信息不足的問(wèn)題,設(shè)計(jì)了一種結(jié)合部分卷積PConv[14]算子的空間高效卷積池化模塊用于強(qiáng)化高層特征信息,提高模型對(duì)不同尺度裂縫的分割性能.
3)針對(duì)裂縫不受位置、形狀等方面限制的特點(diǎn),提出了一種新的數(shù)據(jù)增強(qiáng)方法,用于提高模型泛化性能.
1 SegFormer網(wǎng)絡(luò)簡(jiǎn)介
如圖1所示,SegFormer網(wǎng)絡(luò)包括編碼器和解碼器兩部分.編碼器整個(gè)結(jié)構(gòu)由4個(gè)Transformer Block堆疊而成,利用重疊塊合并(Overlap Patch Merging,OPM)結(jié)構(gòu)設(shè)計(jì)卷積核大小和步幅,實(shí)現(xiàn)對(duì)輸入圖像的縮放,從而形成分層特征.然后將OPM得到的特征層依次輸入高效自注意力(Efficient Self-Attention,ESA)層、混合前饋網(wǎng)絡(luò)(Mix Feed Forward Network,MixFFN)層進(jìn)行特征增強(qiáng),同時(shí),為獲取到更豐富的語(yǔ)義特征信息,將多個(gè)ESA和MixFFN進(jìn)行疊加,使得特征提取網(wǎng)絡(luò)加深,提高特征提取效率.圖像經(jīng)編碼器的4個(gè)Transformer Block處理后分別輸出不同分辨率的特征圖,而后特征圖經(jīng)MLP統(tǒng)一調(diào)整輸出通道數(shù)C為256,并通過(guò)雙線性插值上采樣調(diào)整特征圖的寬高至原圖像寬高的1/4,然后將不同層所處理后得到的特征圖拼接起來(lái),得到通道數(shù)為1 024的特征圖,將其通過(guò)兩個(gè)卷積核為1×1的卷積模塊處理后輸出預(yù)測(cè)的語(yǔ)義分割圖像.
2 改進(jìn)模型
2.1 模型整體結(jié)構(gòu)
本文所改進(jìn)的模型采取編碼器-解碼器的架構(gòu).其中編碼器為原網(wǎng)絡(luò)的MiT-B1,其主要超參數(shù)如表1所示.
其中Embed dims為不同階段輸出特征圖的通道數(shù).Num heads為每一階段中N的值,即ESA和MixFFN疊加重復(fù)的次數(shù).Mlp ratios為每一階段MixFFN利用多層感知機(jī)輸出通道與輸入通道維數(shù)的比例系數(shù),Sr ratios為每一階段高效自注意力層ESA計(jì)算、V參數(shù)矩陣尺寸的縮放系數(shù).
為解決特征層利用不充分、高層語(yǔ)義信息不足的問(wèn)題,改進(jìn)模型的解碼器采用自行設(shè)計(jì)的FFN.模型整體結(jié)構(gòu)如圖2所示.
輸入圖像經(jīng)編碼器Transformer Block處理后分別輸出不同分辨率的特征圖,直接將特征圖上采樣至同等分辨率后再整合在一起進(jìn)行特征提取,容易丟失細(xì)節(jié)特征信息.因此,為更好地提取存在于不同分辨率的特征圖信息,本文利用CAM和SECPM設(shè)計(jì)了多尺度特征融合的解碼器結(jié)構(gòu)FFN.
首先將從Transformer Block4得到的高層特征圖X4∈R512×H32×W32輸入到SECPM調(diào)整特征圖通道數(shù)為256.經(jīng)SECPM處理后產(chǎn)生兩個(gè)分支,一個(gè)分支直接上采樣輸出至Feature map,另一個(gè)分支利用卷積核為1×1的卷積模塊CBL由標(biāo)準(zhǔn)卷積、批歸一化、ReLU構(gòu)成)調(diào)整通道數(shù)為256,再通過(guò)雙線性插值上采樣改變特征圖分辨率,得到X3∈R256×H16×W16,后與上一層輸出的特征圖進(jìn)行特征融合,利用CAM作特征信息融合指導(dǎo),同時(shí)調(diào)整特征圖通道數(shù)為256.對(duì)其他Transformer Block輸出的特征圖做類似處理,最后在Feature map上得到由4個(gè)分支上采樣拼接而成的特征圖M∈R1 024×H4×W4,對(duì)得到的特征圖經(jīng)兩次卷積核大小為1×1的卷積調(diào)整其輸出通道后,再上采樣至原圖大小,最后輸出語(yǔ)義分割圖像.
2.2 空間高效卷積池化模塊
為彌補(bǔ)網(wǎng)絡(luò)高層語(yǔ)義信息不足的問(wèn)題,常常擴(kuò)大感受野,增加卷積時(shí)對(duì)特征層映射區(qū)域的范圍,但同時(shí)也帶來(lái)了運(yùn)算效率的降低.而本文在特征頂層引入部分卷積算子構(gòu)造了空間高效卷積池化模塊,可挖掘更豐富的高層語(yǔ)義信息,同時(shí)并不會(huì)影響運(yùn)行效率.
部分卷積算子結(jié)構(gòu)原理如圖3所示.PConv將輸入特征在通道維度上劃分r份(r=4),并對(duì)第1份通道進(jìn)行尺寸不變的卷積特征提取,而為通道形狀不發(fā)生改變,造成信息丟失,將卷積后的通道與后r-1)份通道直接進(jìn)行拼接即可.PConv并不會(huì)影響模型檢測(cè)性能,但可有效降低運(yùn)算成本.
部分卷積計(jì)算量FLOPs和內(nèi)存訪問(wèn)量Amount為:
FLOPs:H×W×k2×C2p
Amount:H×W×2CP+k2×C2p≈H×W×2CP(1)
其中特征圖通道與卷積通道數(shù)比例CCp=r,所以部分卷積計(jì)算量和內(nèi)存訪問(wèn)量?jī)H為標(biāo)準(zhǔn)卷積的1r2,1r.
PConv可降低計(jì)算成本,但仍有不足之處,在卷積過(guò)程中只考慮到了對(duì)第一部分通道進(jìn)行特征提取,而忽略了其他通道上的特征,不可避免存在信息丟失.因此,為充分提取高層語(yǔ)義信息,提出SECPM彌補(bǔ)上述不足之處,實(shí)現(xiàn)了多層次多通道的特征提取,其結(jié)構(gòu)如圖4所示.
1)建立跨窗口連接.由 Transformer Block4 產(chǎn)生的高層特征圖先通過(guò)Spatial Shuffle,如圖4所示完成窗口重組,可打破特征層空間約束,建立跨窗口連接,實(shí)現(xiàn)特征圖空間信息流通.
2)上層分支輸出Xout1.對(duì)輸入特征Xin進(jìn)行全局池化Global pooling,GP)獲取其全局特征信息,再依次通過(guò)卷積、Sigmod激活函數(shù)后輸出得到Xout1,上層分支輸出將為后續(xù)特征提供全局融合指導(dǎo).
Xout1=sigmodf7×7(2)
式(2)中:f7×7代表卷積核大小為7×7的標(biāo)準(zhǔn)卷積.
3)中層分支輸出Xout2.
Xout2=CBL1×1Xin)(3)
式(3)中:CBL1×1為1×1標(biāo)準(zhǔn)卷積、批歸一化、ReLU三部分.
4)下層分支輸出Xout3.先在輸入特征Xin在通道維度上劃分4部分,然后利用卷積核為3×3的PWConv部分卷積結(jié)合逐點(diǎn)卷積)輸出形狀為16×16×256的特征層將作為下一層的輸入,之后將對(duì)第2、3、4部分的通道分別利用卷積核大小為5×5、7×7、9×9?PWConv進(jìn)行特征提取,而每一層輸出都將作為下一層的輸入,最后將不同層獲取到的特征圖在空間尺度上完成特征融合,輸出Xout3.
Xi+1=PWConvi+1k×kXin),i=0
PWConvi+1k×kXi),i=1,2,3[JB)],k=3,5,7,9
Xout3=∑3j=1PWConvj+1k×kXj)+X1(4)
式(4)中:PWConvnk×k代表對(duì)第n部分先進(jìn)行卷積核大小為k×k的部分卷積,再進(jìn)行逐點(diǎn)卷積;
5)特征融合.為充分利用不同分支獲得的高層語(yǔ)義特征,將中層分支與下層分支特征圖進(jìn)行融合,并利用上層分支得到的全局信息為特征融合提供信息指導(dǎo),避免了常規(guī)多層次特征融合缺乏信息指導(dǎo)的設(shè)計(jì)缺陷.
Xout=Xout1Xout2Xout3)(5)
式(5)中:、分別代表特征融合相加、逐元素相乘.
SECPM實(shí)現(xiàn)了多層次多通道的特征提取,完成了不同分支的特征融合,能夠挖掘更豐富的高層語(yǔ)義信息,增加了模型對(duì)不同尺度裂縫的分割能力,同時(shí)引入部分卷積緩解了因擴(kuò)大感受野帶來(lái)的效率衰減的問(wèn)題,提高了運(yùn)算性能.
2.3 通道注意力模塊
輸入圖像經(jīng)編碼器處理后將產(chǎn)生四層不同尺度的特征圖,為抑制不同尺度特征融和時(shí)產(chǎn)生的冗余信息,本文在低層特征與高層特征融合處構(gòu)建了通道注意力模塊,其結(jié)構(gòu)如圖5所示.
首先將從低層上采樣2倍獲得的特征與高層特征在通道維度上進(jìn)行拼接.為降低網(wǎng)絡(luò)參數(shù),同時(shí)實(shí)現(xiàn)信息快速流通,將拼接后的特征圖在寬維度上拆分為X1、X2,X1∈RC×H×W/2在通道維度上分別進(jìn)行全局平均池化Average Pooling,AvgP)和全局最大池化Maximum Pooling,MaxP)獲取兩個(gè)不同維度的全局信息,然后將兩者相加融合得到池化后的通道權(quán)重特征Cweight∈RC×1×1.為打破通道約束,實(shí)現(xiàn)不同通道間信息流通,將得到的權(quán)重特征Cweight?Reshape形狀為C4×4×1×1,然后依次通過(guò)Transpose(4×C4×1×1)、Flatten(C×1×1),Sigmoid激活函數(shù)后得到最終的通道權(quán)重特征Cweight,通過(guò)改變權(quán)重特征形狀再恢復(fù),實(shí)現(xiàn)了跨通道信息交流,同時(shí)并未增加模型參數(shù)量.將得到的通道權(quán)重特征Cweight與原輸入特征X1逐元素相乘后再與X2拼接用以恢復(fù)輸入原有尺度,最后利用卷積調(diào)整其通道數(shù)后輸出.
2.4 數(shù)據(jù)增強(qiáng)
為提高模型對(duì)于路面裂縫分割的泛化能力,而路面裂縫不受位置、形狀等方面限制,并且截取裂縫局部任意一段都可單獨(dú)作為分割目標(biāo).本文針對(duì)路面裂縫提出了一種隨機(jī)替換(Random Substituting,RS)的數(shù)據(jù)增強(qiáng)方法,箭頭方向代表選擇區(qū)域替代方向,而所替代的區(qū)域并非直接替代,其效果如圖6所示.
為保證新生成數(shù)據(jù)環(huán)境整體保持一致,而不引入其他差異較大的環(huán)境影響分割效果,因此僅在同一張圖片上完成操作,其算法流程圖如圖7所示.
隨機(jī)替換數(shù)據(jù)增強(qiáng)對(duì)分割目標(biāo)存在一定限制,執(zhí)行分割任務(wù)如果需要以一個(gè)整體作為分割目標(biāo),不能以局部單獨(dú)作為分割目標(biāo)存在,在訓(xùn)練時(shí)使用隨機(jī)替換,產(chǎn)生的圖像往往會(huì)失去其原有特征,容易對(duì)模型分割產(chǎn)生負(fù)面影響.
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)環(huán)境為AMD Ryzen 7 5800H CPU,16 GB內(nèi)存,GeForce GTX3060 GPU,Windows 10 操作系統(tǒng),在 Pytorch 框架下完成實(shí)驗(yàn).
本文為驗(yàn)證改進(jìn)模型的有效性,在公開數(shù)據(jù)集Crack500[15]上進(jìn)行了實(shí)驗(yàn)驗(yàn)證.Crack500數(shù)據(jù)集共3 368張圖片,將數(shù)據(jù)集按照8∶2的比例劃分訓(xùn)練集、驗(yàn)證集,為加速模型訓(xùn)練,加載預(yù)訓(xùn)練MiT-B1模型參數(shù)作為預(yù)訓(xùn)練權(quán)重.
3.2 評(píng)價(jià)指標(biāo)
本文除采用神經(jīng)網(wǎng)絡(luò)常用的準(zhǔn)確率Precision,P ),召回率Recall,R )、調(diào)和均值 F1作為指標(biāo)外,還采用平均交并比(mean Intersection over Union,mIoU)作為評(píng)價(jià)指標(biāo),以M表示.
mIoU=1k+1∑ki=0pii∑kj=0pij+∑kj=0pji-pii(6)
式(6)中:k為有效類別數(shù)目,pij表示真實(shí)標(biāo)簽類別i預(yù)測(cè)為類別j的像素?cái)?shù),故pii、pij、pji分別表示正陽(yáng)性像素點(diǎn)、假陽(yáng)性像素點(diǎn)以及假陰性像素點(diǎn).
3.3 網(wǎng)絡(luò)性能對(duì)比
為客觀評(píng)價(jià)本文所改進(jìn)模型分割路面裂縫的性能,將本文改進(jìn)模型與PSPNet、HRNet、Deeplabv3+以及SegFormer等方法進(jìn)行多次對(duì)比實(shí)驗(yàn),并取實(shí)驗(yàn)的平均值作為評(píng)價(jià)指標(biāo)結(jié)果,其結(jié)果如表2所示.
通過(guò)表2可以看出,本文所改進(jìn)的模型相較于近年優(yōu)秀模型表現(xiàn)出更好的檢測(cè)性能.與基準(zhǔn)模型SegFormer相比,模型表現(xiàn)更加優(yōu)秀,調(diào)和均值F1和mIoU指標(biāo)上分別提升1.03%、1.32%,獲得更好的檢測(cè)性能;與其他優(yōu)秀模型對(duì)比,本文模型在調(diào)和均值F1分別高于PSPNet、HRNet、Deeplabv3+等模型3.55%、4.18%、2.87%,在平均交并比mIoU分別高于PSPNet、HRNet、Deeplabv3+等模型4.07%、4.92%、3.69%.本文所改進(jìn)的路面裂縫分割方法明顯優(yōu)于其他對(duì)比模型,這是因?yàn)槁访媪芽pCrack500數(shù)據(jù)集檢測(cè)目標(biāo)形狀各異,大小不一,而本文所設(shè)計(jì)的SECPM能夠兼顧不同尺度的特征融合,挖掘更豐富的高層語(yǔ)義信息,并提出了隨機(jī)替換的數(shù)據(jù)增強(qiáng)方法,提升了模型分割的泛化性能.
本文模型與SegFormer、Deeplabv3+、PSPNet等模型進(jìn)行了可視化對(duì)比,如圖8所示.
由圖8可知,在第一行圖片當(dāng)中,改進(jìn)模型對(duì)于細(xì)長(zhǎng)裂縫比其他模型能夠較為完整的展現(xiàn)出裂縫全貌,僅漏掉少部分目標(biāo);在第二行圖片當(dāng)中,改進(jìn)模型對(duì)于裂縫大小在逐漸發(fā)生變化,且在原圖當(dāng)中裂縫表現(xiàn)不明顯的圖片中,能夠挖掘更多的圖片細(xì)微特征,較為明顯的展現(xiàn)出了裂縫的細(xì)節(jié)信息;在第三行圖片當(dāng)中,改進(jìn)模型對(duì)于裂縫較大的目標(biāo)在展現(xiàn)細(xì)節(jié)和裂縫完整程度等方面同樣能夠表現(xiàn)出更好檢測(cè)效果.
3.4 消融實(shí)驗(yàn)
為了解所改進(jìn)解碼器FFN中各個(gè)模塊對(duì)于提升模型性能大小,本文設(shè)計(jì)了相應(yīng)的消融實(shí)驗(yàn).本文共設(shè)計(jì)了5組不同的消融對(duì)比實(shí)驗(yàn),如表3所示.P1為對(duì)SegFormer進(jìn)行測(cè)試,解碼器為原始的MLP;P2~P5則將解碼器更換為本文所設(shè)計(jì)的特征融合網(wǎng)絡(luò)FFN,并逐次增加CAM、SECPM、RS,通過(guò)比較模型的P、R、F1、M來(lái)分析各個(gè)模塊對(duì)于模型性能的提升.
從整體來(lái)看,相較于SegFormer模型,本文所改進(jìn)的各個(gè)模塊對(duì)模型性能都有所提升.SegFormer的解碼器從MLP替換為FFN,將不同尺度的特征進(jìn)行了特征融合,使得不同尺度的特征產(chǎn)生了聯(lián)系,模型的準(zhǔn)確率和平均交并比有了顯著提升.而在不同尺度特征融合時(shí)將CAM嵌入其中,能夠有效過(guò)濾掉在特征融合時(shí)所產(chǎn)生的冗余信息, F1、mIoU均有提升.將SECPM接入模型,從不同尺度來(lái)提取特征圖所存在的細(xì)節(jié)特征,并進(jìn)行特征融合加強(qiáng),從表3中實(shí)際數(shù)據(jù)可以看出,所設(shè)計(jì)的SECPM能夠更好的挖掘圖像特征,準(zhǔn)確率略微下降,但其他指標(biāo)提升明顯.最后,在訓(xùn)練時(shí)使用了RS數(shù)據(jù)增強(qiáng)方法,能夠挖掘更多細(xì)節(jié)信息,使得模型對(duì)于分割裂縫具有更好的泛化性能, F1和mIoU分別提升0.65%、0.28%,表現(xiàn)出更好的分割效果.
3.5 注意力模塊對(duì)比實(shí)驗(yàn)
為驗(yàn)證提出的CAM對(duì)于模型性能提升有效,與CA[16]、GAM[17]以及CBAM[18]進(jìn)行了橫向?qū)Ρ葘?shí)驗(yàn).從表4所示的注意力模塊橫向?qū)Ρ葘?shí)驗(yàn)當(dāng)中可以看出,在不添加注意力模塊時(shí)F1與mIoU僅為89.13%和81.39%,而在特征融合時(shí)添加不同注意力機(jī)制產(chǎn)生了各不相同的結(jié)果,融合GAM、CBAM后,模型性能不升反降,主要由于高低層特征是基于通道維度上的融合,空間融合后使得模型結(jié)構(gòu)冗余,性能衰退,而在添加自行設(shè)計(jì)的CAM之后,模型性能提升最明顯,F(xiàn)1與mIoU分別提升0.14%和0.36%.結(jié)果表明本文所提出的CAM可以有效實(shí)現(xiàn)高低層的特征融合,提高模型對(duì)裂縫的分割性能.
3.6 系統(tǒng)界面
基于改進(jìn)模型具有較好的裂縫分割能力,使用QT6為其設(shè)計(jì)了一套分割程序界面.該系統(tǒng)界面支持正常的文件導(dǎo)入、保存以及退出功能,同時(shí)支持對(duì)一張圖片使用不同網(wǎng)絡(luò)模型完成分割.例如基于SegFormer、Deeplabv3+、PSPNet等模型的分割.該界面如圖9所示.
圖9 分割系統(tǒng)界面
4 結(jié)論
針對(duì)現(xiàn)有網(wǎng)絡(luò)執(zhí)行路面裂縫分割任務(wù)時(shí),特征利用不充分、高層語(yǔ)義信息提取不足的問(wèn)題,提出了一種改進(jìn)SegFormer網(wǎng)絡(luò)的路面裂縫分割算法,提出了一種提高裂縫分割模型泛化性能的數(shù)據(jù)增強(qiáng)方法;在網(wǎng)絡(luò)結(jié)構(gòu)上,設(shè)計(jì)了一種特征融合網(wǎng)絡(luò)FFN作為分割網(wǎng)絡(luò)的解碼器,加強(qiáng)了特征層之間的聯(lián)系,并對(duì)設(shè)計(jì)的CAM進(jìn)行了橫向?qū)Ρ仍囼?yàn);構(gòu)造了空間高效卷積池化模塊用于挖掘更深層次的高層特征信息,彌補(bǔ)高層語(yǔ)義信息不足的問(wèn)題.在Crack500數(shù)據(jù)集上驗(yàn)證,改進(jìn)模型相較于原模型在F1和mIoU指標(biāo)上分別提升1.03%和1.32%,同時(shí)也優(yōu)于其他主流分割模型,能夠更好地適用在路面裂縫分割任務(wù)當(dāng)中.
未來(lái)研究工作為:(1)將提出的數(shù)據(jù)增強(qiáng)方法進(jìn)一步改進(jìn),并將其推廣到其他分割任務(wù),提高應(yīng)用性;(2)將裂縫分割算法移植到機(jī)器人設(shè)備當(dāng)中,通過(guò)分析像素區(qū)域大小,實(shí)現(xiàn)機(jī)器人對(duì)路面裂縫受損程度的自動(dòng)化評(píng)估.
參考文獻(xiàn)
[1] Cao W M,Liu Q F,He? Q.Review of pavement defect detection methods.IEEE Access,2020,8:14 531-14 544.
[2] 王改華,翟乾宇,曹清程,等.基于MoblieNet v2的圖像語(yǔ)義分割網(wǎng)絡(luò).陜西科技大學(xué)學(xué)報(bào),2022,401):174-181.
[3] Cha Y J,Choi W,Büyükztürk O.Deep learning-based crack damage detection using convolutional neural networks.Computer-Aided Civil and Infrastructure Engineering,2017,325):361-378.
[4] umar P,Batchu S,Swamy S N,et al.Real-time concrete damage detection using deep learning for high rise structures .IEEE Access,2021,9:112 312-112 331.
[5] Han C J,Ma T,Huyan J,et al.CrackW-net:A novel pavement crack image segmentation convolutional neural network .IEEE Transactions on Intelligent Transportation Systems,2022,2311):22 135-22 144.
[6] 張偉光,鐘靖濤,呼延菊,等.基于VGG16-UNet語(yǔ)義分割模型的路面龜裂形態(tài)提取與量化.交通運(yùn)輸工程學(xué)報(bào),2023,232):166-182.
[7] Long J,Shelhamer E,Darrell T,et al.Fully convolutional networks for semantic segmentation[C]//2015 IEEE conference on Computer Vision and Pattern Recognition CVPR).Boston,New York:IEEE Press,2015:3 431-3 440.
[8] Hou Y,Liu ,hang T,et al.C-UNet:Complement UNet for remote sensing road extraction.Sensors,2021,216):2 153.
[9] Chen L C,Papandreou G,okkinos I,et al.DeepLab:semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs.IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,404):834-848.
[10] Yu L J,eng? X,Liu A,et al.A lightweight complex-valued DeepLabv3+for semantic segmentation of PolSAR image .IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:930-943.
[11] heng S,Lu J,hao H,et al.Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern RecognitionCVPR).New York:IEEE Press,2021:6 881-6 890.
[12] 翟軍治,孫朝云,裴莉莉,等.多尺度特征增強(qiáng)的路面裂縫檢測(cè)方法.交通運(yùn)輸工程學(xué)報(bào),2023,231):291-308.
[13] Xie E,Wang W,Yu ,et al.SegFormer:Simple and efficient design for semantic segmentation with transformers.Advances in Neural Information Processing Systems,2021,34:12 077-12 090.
[14] Chen J,ao S,He H,et al.Run,Don&apso;t walk:Chasing higher FLOPS for faster neural networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition CVPR).Vancouver,Canada:IEEE,2023:12 021-12 031.
[15] Yang F,hang L,Yu S J,et al.Feature pyramid and hierarchical boosting network for pavement crack detection.IEEE Transactions on Intelligent Transportation Systems,2020,214):1 525-1 535.
[16] Hou Q,hou D,F(xiàn)eng J.Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition CVPR).Online:IEEE,2021:13 713-13 722.
[17] Liu S,Wang Y,Yu Q,et al.CEAM-YOLOv7:Improved YOLOv7 based on channel expansion and attention mech anism for driver distraction behavior detection.IEEE Access,2022,10:129 116-129 124.
[18] Woo S,Park J,Lee J Y,et al.CBAM:Convolutional block attention module[C] //Proceedings of the European Conference on Computer Vision ECCV).Munich,Germany:Springer,2018:3-19.
【責(zé)任編輯:陳 佳】
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目51775072)
作者簡(jiǎn)介:唐 源1998—),男,四川廣安人,在讀碩士研究生,研究方向:圖像處理
通訊作者:董紹江1982—),男,山東煙臺(tái)人,教授,博士生導(dǎo)師,研究方向:機(jī)電一體化技術(shù),dongshaojiang100@163.com