張力波 邵黎明 曹鐵
摘要:機(jī)場道面裂縫影響著飛機(jī)的安全起降,當(dāng)前機(jī)場主要依靠傳統(tǒng)的人工巡查方式檢測(cè)道面裂縫。隨著深度學(xué)習(xí)算法的快速發(fā)展,語義分割模型在保證精度的前提下推理速度不斷提高,為自動(dòng)實(shí)時(shí)檢測(cè)道面裂縫提供了技術(shù)支撐。在此背景下,結(jié)合語義分割模型的研究成果,提出了一種在機(jī)器人巡檢過程中實(shí)時(shí)檢測(cè)機(jī)場道面裂縫的方法。
關(guān)鍵詞:機(jī)場道面;裂縫檢測(cè);深度學(xué)習(xí);實(shí)時(shí)語義分割
中圖分類號(hào):TP391.41;V351.11? ? 文獻(xiàn)標(biāo)志碼:A? ? 文章編號(hào):1671-0797(2022)04-0082-04
DOI:10.19514/j.cnki.cn32-1628/tm.2022.04.024
0? ? 引言
裂縫是機(jī)場道面最主要的表觀結(jié)構(gòu)病害,同時(shí)也是威脅飛機(jī)安全起降的重要隱患。目前機(jī)場主要依靠人工巡檢的方式檢測(cè)道面裂縫,這種傳統(tǒng)方法精度差、效率低,且大型機(jī)場的跑道面積大使得檢測(cè)人員的工作量巨大。因此,大型機(jī)場對(duì)道面裂縫的自動(dòng)化識(shí)別需求越來越強(qiáng)烈。
2012年,被稱為“神經(jīng)網(wǎng)絡(luò)之父”的Hinton和他的學(xué)生Alex Krizhevsky利用深度神經(jīng)網(wǎng)絡(luò)理論設(shè)計(jì)的AlexNet[1]取得ImageNet競賽冠軍,自此之后,人工智能的深度學(xué)習(xí)方法開始蓬勃發(fā)展。到目前為止,深度神經(jīng)網(wǎng)絡(luò)在機(jī)器視覺領(lǐng)域已經(jīng)取得大量的研究成果,并在多個(gè)工業(yè)場景落地使用,如采用FaceNet[2]等人臉識(shí)別算法進(jìn)行人臉識(shí)別;GAN[3]網(wǎng)絡(luò)用于風(fēng)格化圖片的生成;HRnet[4]等姿態(tài)檢測(cè)網(wǎng)絡(luò)用于檢測(cè)人或其他感興趣物體的行為姿態(tài);YOLO[5]、FasterRCNN[6]等目標(biāo)檢測(cè)模型用于行人、車輛以及其他感興趣物體的檢測(cè);U-Net[7]、SegNet[8]及DeepLab[9]等語義分割模型用于醫(yī)學(xué)影像中的病變檢測(cè)、機(jī)械制造中的缺陷檢測(cè)以及自動(dòng)駕駛中的物體檢測(cè)。其中,語義分割模型可對(duì)無固定形狀的缺陷進(jìn)行檢測(cè),但最初的語義分割模型結(jié)構(gòu)復(fù)雜,檢測(cè)速度慢,不利于工業(yè)落地。2016年6月推出的ENet[10]相對(duì)于SegNet,其檢測(cè)速度大大提高,在NVIDIA TitanX顯卡上實(shí)現(xiàn)了每秒檢測(cè)46張像素尺寸為1 920×1 080的圖片。從2016年至今,實(shí)時(shí)語義分割模型的精度與速度不斷提高,其中2021年推出的DDRNet[11]在NVIDIA GTX2080Ti顯卡上實(shí)現(xiàn)了每秒檢測(cè)108張像素尺寸為2 048×1 024的圖片,已符合工業(yè)落地的要求。
道面裂縫的檢測(cè)在機(jī)器視覺領(lǐng)域?qū)儆跈z測(cè)任務(wù),當(dāng)前主要有目標(biāo)檢測(cè)和語義分割兩大類算法處理檢測(cè)任務(wù)。如圖1所示,目標(biāo)檢測(cè)算法在圖片上檢測(cè)出感興趣物體后用方框標(biāo)記出其在圖片上的位置;如圖2所示,語義分割算法則能夠在檢測(cè)出感興趣物體后對(duì)物體沿著輪廓進(jìn)行分割。考慮到裂縫的長度、面積等外觀特征后續(xù)將用于計(jì)算道面損壞情況[12],本文選擇在TensorFlow框架下復(fù)現(xiàn)和改進(jìn)當(dāng)前性能表現(xiàn)好的實(shí)時(shí)語義分割模型DDRNet(深度雙分辨率網(wǎng)絡(luò)),用于機(jī)場道面裂縫的自動(dòng)檢測(cè)。
1? ? DDRNet概述
1.1? ? 總體結(jié)構(gòu)
DDRNet全稱是深度雙分辨率網(wǎng)絡(luò)(Deep Dual-
resolution Networks),總體結(jié)構(gòu)如圖3所示,輸入圖像在經(jīng)過兩個(gè)殘差塊后,特征提取被分成兩個(gè)具有不同分辨率的平行分支:一個(gè)高分辨率分支(圖中上路分支)生成相對(duì)高分辨率的特征映射,另一個(gè)低分辨率分支通過多次下采樣操作提取豐富的上下文信息。兩個(gè)分支之間橋接多個(gè)雙邊融合以實(shí)現(xiàn)有效的信息融合,并在最后通過add的形式進(jìn)行特征融合,融合后的特征經(jīng)過卷積模塊得到最終的預(yù)測(cè)結(jié)果。另外,DDRNet模型提出了能夠極大增加感受野的深度聚合金字塔合并模塊(DAPPM),該模塊比普通的PPM能更充分地提取信息。
1.2? ? 殘差塊
殘差塊(Residual Block)是He等提出的殘差網(wǎng)絡(luò)中的基本結(jié)構(gòu),可以解決深度神經(jīng)網(wǎng)絡(luò)的退化問題。殘差塊的結(jié)構(gòu)如圖4所示,其中,X表示輸入,H(X)是期望的復(fù)雜潛在映射,當(dāng)網(wǎng)絡(luò)較深時(shí),難以直接擬合H(X)。模型已經(jīng)學(xué)習(xí)到較飽和的準(zhǔn)確率時(shí),后續(xù)的學(xué)習(xí)目標(biāo)則轉(zhuǎn)變?yōu)楹愕扔成涞膶W(xué)習(xí),即H(X)=X,從而確保在后面的層次中不會(huì)造成精度下降。殘差塊通過“shortcut connections”的方式,直接把輸入X傳到輸出,使輸出結(jié)果為H(X)=F(X)+X,其中F(X)稱為“殘差映射”。F(X)=
H(X)-X,當(dāng)F(X)=0時(shí)即實(shí)現(xiàn)恒等映射,于是,殘差網(wǎng)絡(luò)相當(dāng)于將學(xué)習(xí)目標(biāo)從學(xué)習(xí)復(fù)雜潛在映射H(X)變?yōu)閷W(xué)習(xí)將殘差映射F(X)的結(jié)果逼近于0,使得準(zhǔn)確率不會(huì)隨著網(wǎng)絡(luò)的加深而下降。因此,殘差塊結(jié)構(gòu)的出現(xiàn),大大加深了深度神經(jīng)網(wǎng)絡(luò)的深度。
1.3? ? 雙邊融合結(jié)構(gòu)
雙邊融合結(jié)構(gòu)是人體姿態(tài)檢測(cè)網(wǎng)絡(luò)HRNet中的一種重要結(jié)構(gòu),通過多次重復(fù)的雙邊融合實(shí)現(xiàn)對(duì)多分辨率子網(wǎng)絡(luò)的多尺度特征融合。雙邊融合的主要結(jié)構(gòu)如圖5所示,高分辨率分支通過卷積層下采樣后與低分辨率分支融合,低分辨率分支通過插值上采樣層后與高分辨率分支融合。
1.4? ? DAPPM模塊
如圖6所示,受MSFNet和Res2Net的啟發(fā),DDRNet提出了將深度特征聚合與金字塔池化相結(jié)合的DAPPM模塊。該模塊首先通過大尺度的池化核和步長獲得不同分辨率的特征圖,不同分辨率的特征圖經(jīng)上采樣后再以層次殘差的方式進(jìn)行信息融合,融合后的特征通過1×1卷積進(jìn)行壓縮。為了便于優(yōu)化,在壓縮特征上增加了一個(gè)輸入的快捷連接。DAPPM提取的信息比PPM更加豐富。
2? ? 模型的訓(xùn)練與結(jié)果處理
2.1? ? 數(shù)據(jù)的收集與增強(qiáng)
深度學(xué)習(xí)需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,故首先通過自研的道面自動(dòng)檢測(cè)機(jī)器人從機(jī)場收集數(shù)據(jù)。如圖7所示,機(jī)器人主要由機(jī)器人小車、線陣相機(jī)、全景相機(jī)、雷達(dá)以及工控機(jī)組成,其中線陣相機(jī)負(fù)責(zé)采集道面的圖像數(shù)據(jù),圖像數(shù)據(jù)的尺寸為2 048×2 048;工控機(jī)負(fù)責(zé)機(jī)器人小車的自動(dòng)/遠(yuǎn)程控制以及采集圖片的預(yù)處理。機(jī)器人采集的圖像如圖8所示。
其次還要收集公共的裂縫數(shù)據(jù)集CFD、GAPS384和CRACK500來作為補(bǔ)充。為了進(jìn)一步擴(kuò)充訓(xùn)練數(shù)據(jù),對(duì)各數(shù)據(jù)集進(jìn)行了亮度調(diào)節(jié)、鏡像、旋轉(zhuǎn)、裁剪以及仿射彈性變換等數(shù)據(jù)增強(qiáng)操作。經(jīng)過數(shù)據(jù)的收集與增強(qiáng),共獲得36 912幅裂縫圖片。
2.2? ? 實(shí)驗(yàn)結(jié)果
將裂縫圖片中的80%作為訓(xùn)練數(shù)據(jù)對(duì)DDRNet模型進(jìn)行訓(xùn)練,訓(xùn)練完成后用剩余的20%進(jìn)行測(cè)試,部分測(cè)試效果如圖9所示。本次測(cè)試用平均交并比(MIoU)作為算法準(zhǔn)確性評(píng)價(jià)指標(biāo),本次調(diào)優(yōu)訓(xùn)練達(dá)到的最好效果為MIoU=72.8%,滿足對(duì)裂紋探測(cè)的需求,后續(xù)將通過采集更多數(shù)據(jù)提高模型檢測(cè)精度。本次測(cè)試的主機(jī)顯卡為NVIDIA RTX3090,對(duì)像素尺寸為1 024×1 024圖片的檢測(cè)速度為120 fps。巡檢機(jī)器人采集圖片的像素尺寸為2 048×2 048,可分割為4張1 024×1 024像素尺寸的圖片,因此,該算法每秒可檢測(cè)25張以上巡檢機(jī)器人采集的圖片,達(dá)到了實(shí)時(shí)性的要求。
3? ? 結(jié)語
針對(duì)道面裂縫病害實(shí)時(shí)檢測(cè)以及輪廓提取等問題,本文結(jié)合深度學(xué)習(xí)快速語義分割算法的最新研究成果,采用DDRNet算法對(duì)道面裂縫病害進(jìn)行實(shí)時(shí)檢測(cè)。通過實(shí)驗(yàn)驗(yàn)證,DDRNet可實(shí)現(xiàn)對(duì)一臺(tái)2K攝像機(jī)采集圖像進(jìn)行實(shí)時(shí)檢測(cè),且對(duì)裂縫病害的檢測(cè)精度達(dá)到了應(yīng)用要求。在后續(xù)的研究工作中,可繼續(xù)從快速語義分割模型的角度出發(fā),搭建道面病害實(shí)時(shí)檢測(cè)系統(tǒng)。
[參考文獻(xiàn)]
[1] KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet Classification with Deep Convolutional Neural Networks[J].Communications of the ACM,2017,60(6):84-90.
[2] SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:A Unified Embedding for Face Recognition and Clustering[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2015:815-823.
[3] CHOI Y,CHOI M,KIM M,et al.StarGAN:Unified Generative Adversarial Networks for Multi-domain Image-to-Image Translation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2018:8789-8797.
[4] SUN K,ZHAO Y,JIANG B R,et al.High-Resolution Representations for Labeling Pixels and Region[J/OL].arXiv:1904.04514,2019.[2021-10-29].https://arxiv.org/pdf/1904.04514.pdf.
[5] REDMON J,F(xiàn)ARHADI A.YOLOv3:An Incremental Impr-ovement[J/OL].arXiv:1804.02767,2018.[2021-10-29].https://arxiv.org/pdf/1804.02767.pdf.
[6] REN S Q,HE K,GIRSHICK R,et al.Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[7] RONNEBERGER O,F(xiàn)ISCHER P,BROX T.U-Net:Convolutional Networks for Biomedical Image Segmentation[J/OL].arXiv:1505.04597,2015.[2021-10-29].https://arxiv.org/pdf/1505.04597.pdf.
[8] BADRINARAYANAN V,KENDALL A,CIPOLLA R.SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(12):2481-2495.
[9] CHEN L C,PAPANDREOU G,KOKKINOS I,et al.DeepLab:Semantic Image Segmentation with Deep Convolut-ional Nets,Atrous Convolution,and Fully Connected CRFs[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834-848.
[10] PASZKE A,CHAURASIA A,KIM S,et al.ENet:A Deep Neural Network Architecture for Real-Time Semantic Segmentation[J/OL].arXiv:1606.02147, 2016.[2021-10-29].https://arxiv.org/pdf/1606.02147v1.pdf.
[11] HONG Y D,PAN H H,SUN W C,et al.Deep Dual- resolution Networks for Real-time and Accu-rate Semantic Segmentation of Road Scenes[J].Journal of Latex Class Files,2015,14(8):1-12.
[12] 民用機(jī)場道面評(píng)價(jià)管理技術(shù)規(guī)范:MH/T 5024—2019[S].
收稿日期:2021-11-02
作者簡介:張力波(1991—),男,四川眉山人,工程師,研究方向:機(jī)場安全。
3227500338221