仝澤興,雷 斌,2,蔣 林,2,王念先,2
(1.武漢科技大學(xué) 冶金裝備及其控制教育部重點(diǎn)實驗室,武漢 430081) (2.武漢科技大學(xué) 機(jī)器人與智能系統(tǒng)研究院,武漢 430081)
隨著城市化進(jìn)程的不斷推進(jìn),我國的公路交通系統(tǒng)得到了飛速發(fā)展。截至2019年末,我國公路總里程達(dá)到519.81萬千米[1],穩(wěn)居世界第一。但隨著公路建設(shè)規(guī)模不斷擴(kuò)大,公路病害也逐漸產(chǎn)生,其中裂縫是最常見,最容易發(fā)生的一種路面病害[2],如果不盡早采取措施處理,將會對公路交通體系造成嚴(yán)重的損害,因此需要定期對路面裂縫進(jìn)行檢測。
傳統(tǒng)的裂縫檢測主要以人工檢測為主,但這種方法效率低下且依賴工人的經(jīng)驗,具有一定的局限性?,F(xiàn)階段,隨著計算機(jī)視覺及模式識別領(lǐng)域的快速發(fā)展,國內(nèi)外的一些專家學(xué)者們提出了多種以目標(biāo)檢測網(wǎng)絡(luò)為主體的裂縫檢測網(wǎng)絡(luò),如:李良福等[3]提出了一種基于深度學(xué)習(xí)的橋梁裂縫檢測算法,通過滑動窗口算法切分圖像解決了數(shù)據(jù)樣本不足的問題,通過DBCC(深度批次全卷積網(wǎng)絡(luò))分類模型結(jié)合改進(jìn)的滑動窗口算法對裂縫進(jìn)行檢測,但滑動窗口切分法得到的圖像需人工判讀才能找出包含裂縫的圖像,因此這種數(shù)據(jù)擴(kuò)增方法效率較低;毛鶯池等[4]改進(jìn)了以ResNet-50為特征提取網(wǎng)絡(luò)結(jié)合多任務(wù)增強(qiáng)RPN(區(qū)域選取)的FasterR-CNN[5]目標(biāo)檢測網(wǎng)絡(luò),并對大壩裂縫進(jìn)行檢測;李想等[6]利用SSD(單點(diǎn)多尺度目標(biāo)檢測器)目標(biāo)檢測算法對混凝土結(jié)構(gòu)裂縫進(jìn)行高精度檢測。這些以目標(biāo)檢測網(wǎng)絡(luò)為主體的裂縫檢測網(wǎng)絡(luò)雖可以通過目標(biāo)檢測框輸出裂縫在圖片背景的相對位置與目標(biāo)區(qū)域塊,但裂縫分布路徑不規(guī)整,形態(tài)延展非線性,具有特殊的拓?fù)浣Y(jié)構(gòu),而這些裂縫檢測網(wǎng)絡(luò)無法捕獲裂縫的分布路徑、拓?fù)浣Y(jié)構(gòu)、形狀延展和密度信息等。然而,這些信息往往非常重要,也可為更深入地提取像素級的可量化信息提供潛力,例如計算裂縫的長度、平均寬度、最大寬度、面積等。為此,另一些專家學(xué)者提出并改進(jìn)了以圖像處理技術(shù)與圖像分割網(wǎng)絡(luò)為主體的裂縫分割網(wǎng)絡(luò),例如:徐歡等[7]提出了基于OpenCV開源平臺和改進(jìn)Canny算子的路面裂縫分割算法來提取分割路面裂縫;JI等[8]基于Deeplabv3+語義分割網(wǎng)絡(luò)提出了一種分割瀝青路面裂縫的方法,并通過FPT(正交骨架線法)算法對裂縫進(jìn)行量化計算。這些以圖像處理算法與圖像分割網(wǎng)絡(luò)為主體的裂縫分割網(wǎng)絡(luò)雖然能獲取裂縫的分布路徑、拓?fù)浣Y(jié)構(gòu)、形狀延展和密度等信息,但是在動態(tài)地對路面裂縫進(jìn)行分割時缺乏裂縫在圖像中的相對位置信息,而帶有裂縫缺陷的路面往往少于正常路面,從而很難從諸多分割圖像中篩選并定位含有裂縫的圖像。為解決這些問題,筆者提出一種針對路面裂縫的檢測分割網(wǎng)絡(luò),選用高精度的YOLO V5目標(biāo)檢測網(wǎng)絡(luò)作為主框架,并為YOLO V5添加分割模塊,以同時對路面裂縫進(jìn)行檢測和分割;針對裂縫數(shù)據(jù)集不足的問題,提出了應(yīng)用生成對抗網(wǎng)絡(luò)對裂縫數(shù)據(jù)集進(jìn)行擴(kuò)增的方法。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量標(biāo)注完成的圖像作為數(shù)據(jù)集來完成。豐富和高質(zhì)量的數(shù)據(jù)集可以很大程度地提升模型精度和性能。但目前暫無開源且標(biāo)注完成的路面裂縫數(shù)據(jù)集,而自行采集路面裂縫圖像工作量較大且極易受到路面交通及車輛通行的影響,具有一定的危險性。因此文章的一部分?jǐn)?shù)據(jù)集由無人機(jī)低空懸停拍攝采集,另一部分?jǐn)?shù)據(jù)集由數(shù)據(jù)擴(kuò)增網(wǎng)絡(luò)提供。
GAN(生成對抗網(wǎng)絡(luò))[9]是近年來數(shù)據(jù)擴(kuò)增領(lǐng)域最有效的手段之一,其在已擁有部分?jǐn)?shù)據(jù)集的基礎(chǔ)上,自動生成與已有數(shù)據(jù)集相似的數(shù)據(jù)對數(shù)據(jù)集進(jìn)行擴(kuò)增。因此,文章引入GAN網(wǎng)絡(luò)對路面裂縫數(shù)據(jù)集進(jìn)行擴(kuò)增。GAN網(wǎng)絡(luò)的工作框圖如圖1所示,GAN網(wǎng)絡(luò)由生成器和判別器組成,其中,隨機(jī)生成的噪聲向量為G-Net(生成器)的輸入,G-Net通過隨機(jī)生成的噪聲向量生成一張假圖像,而D-Net(判別器)的輸入為真實拍攝的圖像,將G-Net生成的圖像和真實圖像輸入到D-Net中進(jìn)行判別,D-Net會根據(jù)兩張圖的相似程度給出置信度評分并反饋到G-Net中,若置信度較低,則G-Net會調(diào)整參數(shù)使得生成圖像更加相似于真實圖像,從而G-Net的生成能力得到提升,再將生成的假圖像輸入到D-Net中進(jìn)行判別,使得D-Net的判別能力得到提升,在此過程中G-Net與D-Net相互博弈,直至D-Net判別不出來G-Net生成的圖像是真是假。D-Net和G-Net兩部分的損失為
圖1 GAN網(wǎng)絡(luò)的工作框圖
LD-Net=log[T(x)]+log{1-D[G(z)]}
(1)
LG-Net=log{D[G(z)]}
(2)
式中:LD-Net為D-Net的損失函數(shù);T(x)為D-Net對真實圖像的判別結(jié)果;D[G(z)]為D-Net對生成圖像G(z)的判別結(jié)果,判別結(jié)果的范圍為[0,1],結(jié)果越接近1則說明置信度越高。
D-Net對生成圖像的判別結(jié)果D[G(z)]應(yīng)當(dāng)盡可能地為0,對真實圖像的判別結(jié)果T(x)應(yīng)當(dāng)盡可能的為1,因此log[T(x)]與log{1-D[G(Z)]}應(yīng)當(dāng)盡可能地小,直至接近于零。對于G-Net,若D[G(z)]越接近1,則說明生成器生成的圖像置信度越高,越能以假亂真地替代真實數(shù)據(jù)作為訓(xùn)練樣本,這時生成器的能力也會越來越強(qiáng),因此log{D[G(z)]}也應(yīng)當(dāng)越來越小。G-Net與D-Net的相互博弈會使兩個網(wǎng)絡(luò)的性能交替上升,與此同時,兩個網(wǎng)絡(luò)的損失值也會越來越小。GAN網(wǎng)絡(luò)的總損失如式(3)所示(E為數(shù)學(xué)期望),其中,minTmaxDV(D,G)為log[T(x)]的最小化與D[G(Z)]的最大化函數(shù),其目的是在兩個網(wǎng)絡(luò)博弈的過程中使得D-Net的判別能力最大化和G-Net與原始數(shù)據(jù)集分布的最小化。
minTmaxDV(D,G)=Ex~Pdata(x)[logT(x)]+
Ez~Pz(z){log{1-D[G(z)]}}
(3)
YOLO V5網(wǎng)絡(luò)框架圖如圖2所示,YOLO V5目標(biāo)檢測網(wǎng)絡(luò)主要由特征提取、特征融合、預(yù)測輸出3大模塊組成。YOLO V5的特征提取模塊采用CSPDarknet53網(wǎng)絡(luò),CSPDarknet53是在Darknet的基礎(chǔ)上借鑒了CSPNet的經(jīng)驗所產(chǎn)生的特征提取網(wǎng)絡(luò)結(jié)構(gòu),其通過CSP(跨階段局部網(wǎng)絡(luò))模塊劃分基礎(chǔ)層的特征映射,然后通過跨階段層次結(jié)構(gòu)合并特征,在保持輕量化與準(zhǔn)確性的同時降低了模型推理時的計算量。YOLO V5在特征提取網(wǎng)絡(luò)的后端添加了SPP(空間金字塔池化)層,通過最大池化來增加主干特征的接收范圍,同時分離特征提取網(wǎng)絡(luò)提取到的不同尺度的特征。特征融合網(wǎng)絡(luò)采用與YOLOV4相同的FPN(區(qū)域選取)與PAN(路徑聚合網(wǎng)絡(luò))的方式將深層特征圖包含的強(qiáng)語義信息與淺層特征圖包含的強(qiáng)定位信息充分融合,提高檢測的定位準(zhǔn)度與語義信息強(qiáng)度。輸出層采用GIOU(廣義交并化)損失與非極大值抑制的方法來提高檢測的準(zhǔn)確度與精度。
圖2 YOLO V5網(wǎng)絡(luò)框架圖
為使YOLO V5網(wǎng)絡(luò)能同時獲取裂縫的相對位置信息與形態(tài)延展信息,需要在YOLO V5網(wǎng)絡(luò)中嵌入圖像分割模塊。PSPnet是現(xiàn)階段效果較好的圖像分割網(wǎng)絡(luò)之一,其核心模塊為池化金字塔層。PSPnet網(wǎng)絡(luò)的結(jié)構(gòu)圖如圖3所示(圖中GAP為平均池化層,Conv為卷積層),PSPnet通過帶有空洞卷積的特征提取網(wǎng)絡(luò)Resnet101[10]對輸入圖像進(jìn)行8倍下采樣,即下采樣至輸入圖像尺寸的1/8,來獲取更大的感受野,然后通過池化核大小不同的池化金字塔層聚合不同區(qū)域的上下文信息,最后通過上采樣還原輸入圖像的尺寸及細(xì)節(jié)信息以實現(xiàn)對圖像像素級的分割。借鑒PSPnet中的思想,以池化金字塔層為核心來搭建圖像分割模塊,最后將搭建完成的分割模塊嵌入YOLO V5網(wǎng)絡(luò)中組成PSP-YOLO檢測分割算法,以實現(xiàn)目標(biāo)檢測和圖像分割同時進(jìn)行。
圖3 PSPnet網(wǎng)絡(luò)的結(jié)構(gòu)圖
2.2.1 級聯(lián)混合空洞卷積策略
由于YOLO V5的特征提取網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)提取到的1/8特征圖未包含空洞卷積,感受野不足,而圖像全局的語義信息往往需要較大的感受野才能獲得,因此需要在池化金字塔層的前端添加空洞卷積層來擴(kuò)大感受野。圖像分割模塊工作框圖如圖4所示,為避免多次堆疊空洞卷積造成的局部信息丟失問題,采用HDC(混合空洞卷積)[11]策略來避免空洞卷積所帶來的信息缺失,即通過堆疊不同空洞率的混合空洞卷積來避免信息缺失,從而達(dá)到感受野覆蓋全圖的目的??斩绰实倪x擇策略如式(4)所示。
圖4 圖像分割模塊工作框圖
Mi=max[Mi+1-2ri,Mi+1-2(Mi+1-ri),ri]
(4)
式中:Mi為第i層最大的空洞率;ri為第i層的空洞率,若共有n層,則Mn=rn。
卷積核的大小為k×k,當(dāng)M2 2.2.2 通道注意力機(jī)制 通過級聯(lián)混合空洞卷積的特征圖經(jīng)過池化金字塔層得到了不同區(qū)域的上下文信息,融合與篩選這些特征可以去除冗余信息,使特征的針對性更強(qiáng),進(jìn)而提高圖像分割的精度。采用通道注意力機(jī)制來融合與篩選這些特征,其主要思想是通過對特征圖的處理得到其不同通道的權(quán)重占比,從而得到通道的權(quán)重矩陣,再將得到的權(quán)重矩陣與原特征圖相乘得到加權(quán)后的特征圖,增強(qiáng)了重要的特征,削弱不重要的特征。如圖4(圖中Add為相加操作;Mul為相乘操作;Contact為拼接操作;Sigmoid為激活函數(shù))右側(cè)工作框圖所示,首先將池化金字塔層輸出的特征圖分為兩個分支,附分支上采用全局平均池化對池化金字塔層輸出的不同尺度的特征圖進(jìn)行壓縮,從而得到通道數(shù)與原特征圖相同,大小為1×1的特征圖;緊接著通過兩個全連接層學(xué)習(xí)通道注意力,第一個全連接層后采用Relu激活函數(shù),第二個全連接層后使用Sigmoid函數(shù)將輸出壓縮至0~1之間,以獲得通道的權(quán)重矩陣;然后將學(xué)習(xí)得到的通道權(quán)重矩陣通過矩陣乘法與原特征圖相乘,得到加權(quán)后的特征圖,再與主分支的特征圖相加實現(xiàn)特征的融合與篩選;最后將融合與篩選過的特征圖通過一個1×1的卷積降維,然后通過上采樣還原圖像真實尺寸并輸出分割后的裂縫圖像。 PSP-YOLO檢測分割算法網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,其在原YOLO V5的基礎(chǔ)上嵌入了上文介紹的圖像分割模塊,即將分割模塊嵌入至檢測輸出層的前端,通過先行的圖像分割細(xì)化特征,減少冗余背景對檢測精度的影響從而提升檢測精度。 圖5 PSP-YOLO檢測分割算法網(wǎng)絡(luò)結(jié)構(gòu) 試驗基于python編程語言與ubuntu20.04系統(tǒng)并在GPU版本下的pytorch深度學(xué)習(xí)環(huán)境下進(jìn)行,其中顯卡型號為NVIDIA GeForce RTX 3060,torch版本為pytorch1.9.0。在訓(xùn)練過程中采用動態(tài)學(xué)習(xí)率的方法,初始學(xué)習(xí)率為0.001,迭代次數(shù)為1 000。 數(shù)據(jù)集為500張路面裂縫圖像,其中300張由無人機(jī)低空懸停拍攝完成(部分見圖6),另外200張由第二節(jié)中所提出的GAN網(wǎng)絡(luò)生成,圖7(a)為GAN網(wǎng)絡(luò)初期生成的裂縫圖像樣本,圖7(b)為GAN網(wǎng)絡(luò)的G-Net與D-Net損失值最小時生成的裂縫圖像樣本,可以看出,當(dāng)GAN網(wǎng)絡(luò)損失值最小時生成的裂縫圖像極其接近真實的裂縫圖像,可以作為PSP-YOLO檢測分割網(wǎng)絡(luò)的訓(xùn)練樣本。 圖6 無人機(jī)拍攝的數(shù)據(jù)樣本 圖7 GAN網(wǎng)絡(luò)在不同損失值時生成的數(shù)據(jù)樣本 將數(shù)據(jù)集中的500張圖像按照8…1…1的比例進(jìn)行訓(xùn)練,即400張為訓(xùn)練集,50張為驗證集,50張為測試集。 根據(jù)數(shù)據(jù)集的特點(diǎn),選取平均檢測精度(MAP)和交并比作為檢測分割算法的基本評價指標(biāo),前者用于衡量算法檢測模塊的識別精度,后者是分割模塊預(yù)測輸出的目標(biāo)區(qū)域塊與手工標(biāo)定的目標(biāo)區(qū)域塊的重疊率,用于評判分割模塊的精度。 3.2.1 視覺對比分析 在該數(shù)據(jù)集下試驗PSP-YOLO算法與原YOLO V5算法,并從測試集中抽取了兩組試驗結(jié)果進(jìn)行對比分析,結(jié)果如圖8所示(每張分圖的左圖為原YOLO V5算法的結(jié)果,右圖為PSO-YOLO算法的結(jié)果)。在圖8(a)中,原YOLO V5算法雖然可以檢測出裂縫的上部,但對于裂縫的中段位置,其并沒有輸出目標(biāo)檢測框,出現(xiàn)了斷層現(xiàn)象,而PSP-YOLO檢測分割算法準(zhǔn)確地在裂縫分布路徑上的每個位置都分配了目標(biāo)檢測框且目標(biāo)檢測框的平均置信度約為0.96,大于原YOLO V5算法的置信度,且在檢測到裂縫對象的同時對裂縫進(jìn)行了圖像分割,獲取了裂縫的分布路徑與延展形態(tài)等信息。在圖8(b)中,原YOLO V5算法在處理背景較為復(fù)雜的裂縫時出現(xiàn)了誤檢現(xiàn)象,而PSP-YOLO檢測分割算法沒有出現(xiàn)誤檢。綜上所述,在相同的試驗條件下,PSP-YOLO檢測分割算法相較于原YOLO V5算法的抗干擾能力更強(qiáng),誤檢率和漏檢率更低。 圖8 兩種算法的兩組試驗結(jié)果視覺對比 3.2.2 量化對比分析 為進(jìn)一步驗證PSP-YOLO檢測分割算法的可靠性,采用量化對比的方法對原YOLO V5算法與PSP-YOLO算法進(jìn)行分析。圖9為兩種算法的P-R曲線(召回率-精確率曲線),曲線所圍面積即為網(wǎng)絡(luò)的平均檢測精度,面積越大則說明該網(wǎng)絡(luò)的精度越高。由圖9可知,PSP-YOLO算法的檢測精度高于原YOLO V5算法的檢測精度,更加適用于路面裂縫檢測的實際應(yīng)用。 圖9 兩種網(wǎng)絡(luò)的P-R曲線 此外,背景的復(fù)雜性不同也會影響到算法的檢測精度,在試驗階段,對于高度復(fù)雜背景的裂縫圖像,YOLO V5常常會出現(xiàn)誤判現(xiàn)象。因此,將測試集中的圖像根據(jù)背景復(fù)雜程度的不同分為3組進(jìn)行試驗,分別為輕度復(fù)雜背景、中度復(fù)雜背景、高度復(fù)雜背景。不同復(fù)雜度背景的裂縫圖像如圖10所示,可見輕度復(fù)雜背景中的裂縫拓?fù)湫螒B(tài)較為簡單,粗細(xì)均勻,背景顏色與紋理清晰且單一,沒有圖像噪聲的影響;中度復(fù)雜背景中的裂縫較為細(xì)小,背景顏色與紋理較為復(fù)雜,容易產(chǎn)生引起網(wǎng)絡(luò)誤判的噪聲因素;高度復(fù)雜背景中裂縫的拓?fù)湫螒B(tài)復(fù)雜,裂縫粗細(xì)不均且細(xì)小,背景顏色與紋理十分復(fù)雜且背景中的噪聲繁多,很容易使網(wǎng)絡(luò)產(chǎn)生誤判。 圖10 不同復(fù)雜度背景的裂縫圖像 圖11與圖12分別為YOLO V5與PSP-YOLO算法在檢測不同復(fù)雜度背景裂縫圖像時的結(jié)果與平均精度。從圖11可以看出,兩種算法在處理輕度復(fù)雜背景的裂縫圖像時都有較好的表現(xiàn),而在處理中度與高度復(fù)雜背景時,YOLO V5算法出現(xiàn)了誤判現(xiàn)象。從圖12可以看出,在處理高度復(fù)雜背景中的裂縫圖像時,PSP-YOLO算法的精度明顯高于原YOLO V5算法的精度。因此,從試驗結(jié)果可知,PSP-YOLO算法在保持高檢測精度的基礎(chǔ)上魯棒性更強(qiáng),能夠很好地應(yīng)對復(fù)雜背景對裂縫檢測的干擾。 圖11 兩種算法檢測不同復(fù)雜度背景裂縫的結(jié)果 圖12 兩種算法檢測不同復(fù)雜度背景圖像時的平均精度 3.2.3 分割模塊的對比分析 在文章數(shù)據(jù)集下,PSP-YOLO算法與原PSPnet的分割結(jié)果如圖13所示。 圖13 PSP-YOLO算法與原PSPnet算法的分割結(jié)果 采用平均交并(網(wǎng)絡(luò)預(yù)測的裂縫像素點(diǎn)個數(shù)與標(biāo)定的真實裂縫像素點(diǎn)個數(shù)的比值的平均數(shù))作為分割模塊的評價指標(biāo)。PSP-YOLO算法與原PSPnet的平均交并比分別為74.68%,73.14%,可見,PSP-YOLO算法的平均交并比高于原PSPnet算法的。這是由于PSP-YOLO算法采用的級聯(lián)空洞卷積策略與通道注意力機(jī)制增強(qiáng)了分割模塊的感受野與特征表達(dá)能力,所以PSP-YOLO算法能更高效、更高精度地對裂縫圖像進(jìn)行分割。 針對目前裂縫檢測領(lǐng)域存在的問題與不足,對YOLO V5算法進(jìn)行改進(jìn),添加了分割模塊,并通過試驗驗證,說明了提出的PSP-YOLO算法能在檢測裂縫目標(biāo)的同時對其進(jìn)行圖像分割,更適合工程實際需要,且精度優(yōu)于原YOLO V5與PSPnet算法的精度。提出的GAN網(wǎng)絡(luò)擴(kuò)增數(shù)據(jù)集的方法也能有效解決裂縫樣本不足的問題。文章提出方法的局限性在于,PSP-YOLO算法分割模塊精度容易受到光照、天氣等因素的影響。2.3 PSP-YOLO檢測分割算法
3 試驗與結(jié)果
3.1 數(shù)據(jù)集的介紹
3.2 試驗結(jié)果與分析
4 結(jié)語