陳智羽,閔 鋒
武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢430205
隨著科技的發(fā)展,我國(guó)鐵路里程數(shù)已經(jīng)一躍成為世界第一,高鐵營(yíng)業(yè)里程已達(dá)2.9×104km,超過世界高鐵總里程的2/3,成為世界上高鐵里程最長(zhǎng)、運(yùn)輸密度最高、成網(wǎng)運(yùn)營(yíng)場(chǎng)景最復(fù)雜的國(guó)家。在這種情況下,鐵路的安全維護(hù)便成為了一個(gè)難題?,F(xiàn)階段,我國(guó)對(duì)于鐵路接觸網(wǎng)的維護(hù)和檢修,是依靠接觸網(wǎng)懸掛狀態(tài)檢測(cè)監(jiān)測(cè)裝置(4C)車[1]對(duì)支柱桿進(jìn)行拍攝,然后通過大量人工對(duì)每張圖像進(jìn)行查看,進(jìn)行故障的排查。4C系統(tǒng)采集的圖像均為高分辨率圖像,需要人工對(duì)圖像進(jìn)行多次縮放操作查看,這樣的檢測(cè)方式受限于技術(shù)人員的個(gè)人經(jīng)驗(yàn)水平、注意力的集中程度等諸多不可控因素,且存在故障篩查時(shí)間長(zhǎng)、漏檢風(fēng)險(xiǎn)高等問題。對(duì)于我國(guó)鐵路的里程數(shù)來說,人工的方式是無法及時(shí)發(fā)現(xiàn)故障,保證鐵路安全的。
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展[2],各種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)[3-4]和目標(biāo)跟蹤算法[5]被提出。深度卷積神經(jīng)網(wǎng)絡(luò)可以通過收集大量目標(biāo)物體的圖像樣本,進(jìn)行訓(xùn)練,得到目標(biāo)物體的檢測(cè)模型,所以神經(jīng)網(wǎng)絡(luò)被運(yùn)用在各個(gè)領(lǐng)域中,如:人臉識(shí)別[6]、視網(wǎng)膜血管分割[7]等。而目前廣泛使用的目標(biāo)檢測(cè)算法分為雙步目標(biāo)檢測(cè)算法和單步目標(biāo)檢測(cè)算法兩種。雙步目標(biāo)檢測(cè)算法常用的有:快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(fast region-based convolutional neural networks,F(xiàn)ast R-CNN)[8],加速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region-based convolutional neural networks,F(xiàn)aster R-CNN)[9],分割掩模的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask region-based convolutional neural networks,Mask R-CNN)[10]等,該類算法是先生成一系列樣本的候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)在這些候選框中進(jìn)行樣本分類,以此完成對(duì)目標(biāo)的檢測(cè)和識(shí)別。而單步目標(biāo)檢測(cè)算法則不用產(chǎn)生候選框,直接將目標(biāo)邊框定位的問題轉(zhuǎn)化為回歸問題處理,因此檢測(cè)速度較快。該類算法常用的有:?jiǎn)吸c(diǎn)多盒探測(cè)(single shot multi box detector,SSD)[11],統(tǒng)一的實(shí)時(shí)目標(biāo)檢測(cè)(you only look once:unified,real-time object detection,YOLO)[12],第三代統(tǒng)一的實(shí)時(shí)目標(biāo)檢測(cè)算法(you only look once:unified,real-time object detection V3,YOLO V3)[13]等??紤]到我國(guó)鐵路接觸網(wǎng)的里程長(zhǎng)度,所需要檢測(cè)的樣本數(shù)量巨大,選用更加迅速的單步目標(biāo)檢測(cè)算法。YOLO是最先使用回歸的方法,直接從一張圖像中檢測(cè)物體的邊界框坐標(biāo)與類別,采用視覺幾何組16(visual geometry group 16,VGG16)作為基礎(chǔ)網(wǎng)絡(luò)的,其速度是Faster R-CNN的3倍,但由于YOLO[14]采用網(wǎng)格劃分的思想,對(duì)每個(gè)單元格都預(yù)測(cè)其中包含物體的置信度及其類別分?jǐn)?shù),造成YOLO的檢測(cè)精度偏低,對(duì)小物體及較密集的物體檢測(cè)效果較差。YOLO V3具有較快的檢測(cè)速度和較高的檢測(cè)精度,所以本文選擇YOLO V3對(duì)接觸網(wǎng)絕緣子進(jìn)行檢測(cè)。
目前,對(duì)于絕緣子的研究集中在輸電線上的絕緣子,對(duì)于鐵路接觸網(wǎng)的絕緣子研究較少。可以借鑒輸電線路中絕緣子的研究方法,對(duì)鐵路接觸網(wǎng)中絕緣子檢測(cè)作指導(dǎo)。由于輸電線路上沒有4C巡檢車,所以輸電線路的方法多是基于航拍的圖像中的絕緣子進(jìn)行研究,文獻(xiàn)[15-16]為解決絕緣子的錯(cuò)檢、漏檢等問題,將絕緣子分解成多個(gè)存在交集的可變型部件,并對(duì)其進(jìn)行檢測(cè)。在保證子目標(biāo)檢測(cè)精度與速度的前提下,利用各部件之間相交區(qū)域的特征及含義,對(duì)其進(jìn)行聚合并重新定義,使檢測(cè)到的目標(biāo)區(qū)域更準(zhǔn)確。由于鐵路上有4C車對(duì)接觸網(wǎng)進(jìn)行拍攝,相較于無人機(jī)拍攝圖像距離更近,設(shè)備更穩(wěn)定,成像更清晰,獲取更方便。所以在已有4C圖像的情況下,直接以4C圖像作為數(shù)據(jù)集進(jìn)行訓(xùn)練是一種更好的選擇。
由于目前對(duì)接觸網(wǎng)絕緣子研究較少,沒有公共數(shù)據(jù)集,需自己制作數(shù)據(jù)集。4C車拍攝鐵路接觸網(wǎng)圖像如圖1所示,從圖1可以看到鐵路接觸網(wǎng)分為單桿和雙桿,單桿較為簡(jiǎn)單,而雙桿相對(duì)來說較為復(fù)雜。接觸網(wǎng)上面比較重要的部件,有雙耳套筒、抱箍、絕緣子和底座等。使用LABELIMG程序,對(duì)圖像中的重要部件進(jìn)行框選、分類、制作,用5 258張鐵路接觸網(wǎng)圖像作為訓(xùn)練數(shù)據(jù)集,另外選取500張圖像作為測(cè)試數(shù)據(jù)集。
圖1接觸網(wǎng)圖像:(a)單桿,(b)雙桿Fig.1 Catenary image:(a)single rod,(b)double rods
為了能清楚的表現(xiàn)各個(gè)部件的狀態(tài)細(xì)節(jié),4C拍攝的單張圖像大小一般為6 576像素×4 384像素。而雙耳套筒和絕緣子底座在圖像中的像素只有不到500像素×500像素的大小,只占整個(gè)圖像的0.9%不到。YOLO V3是以回歸思想作為算法的基礎(chǔ),好處是計(jì)算速度快,但對(duì)小目標(biāo)的檢測(cè)準(zhǔn)確率不夠高。同時(shí),YOLO V3在檢測(cè)時(shí),會(huì)出現(xiàn)重定位現(xiàn)象,如圖2所示,接觸網(wǎng)底座位置出現(xiàn)了多個(gè)檢測(cè)框。
圖2 YOLO V3檢測(cè)結(jié)果圖Fig.2 Detection result image of YOLO V3
YOLO V3采用的是53層的特征提?。―arknet-53)[14]網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)主要是由一系列的1×1和3×3的卷積層(convolutional layers,CL)組成,因?yàn)榇司W(wǎng)絡(luò)中有53個(gè)CL,所以叫做Darknet-53(53層網(wǎng)絡(luò)不包括Residual層)。
Darknet-53借鑒了殘差網(wǎng)絡(luò)(residual network,RN)的想法,由5個(gè)殘差塊(residual block,RB)組成,每個(gè)殘差塊又是由多個(gè)殘差單元(resnet unit,RU)組成。而上述結(jié)構(gòu)是以輸入圖像為256像素×256像素進(jìn)行檢測(cè)的,更為常用的圖像為416像素×416像素,均為32的倍數(shù)。輸入416像素×416像素的結(jié)構(gòu)檢測(cè)的3個(gè)特征層大小分別為52×52,26×26,13×13。
其中13×13層負(fù)責(zé)檢測(cè)大型目標(biāo),26×26層負(fù)責(zé)檢測(cè)中型目標(biāo),52×52層負(fù)責(zé)檢測(cè)小型目標(biāo)。因此,需要針對(duì)小目標(biāo)檢測(cè),對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行修改。在Darknet-53的第2個(gè)殘差塊到第3個(gè)殘差塊之間增加一層殘差塊,利用這個(gè)4倍降采樣的特征融合目標(biāo)檢測(cè)層對(duì)小目標(biāo)進(jìn)行訓(xùn)練,提高對(duì)小目標(biāo)檢測(cè)的準(zhǔn)確率。增加殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3增加殘差塊的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of added rsidual block
圖3中,前面的數(shù)字4表示4倍降采樣,128,256表示卷積過慮器的數(shù)量,1×1和3×3表示卷積的大小,52×52表示輸出特征圖的大小。
針對(duì)重定位現(xiàn)象,采用定位框去重算法。即在檢測(cè)時(shí)對(duì)定位框進(jìn)行判斷,如果該定位框與其他定位框的標(biāo)簽一樣,且重疊區(qū)域超過一定的閾值,便尋找兩個(gè)定位框的最大外接矩形,讓最大外接矩形作為新的定位框,代替原本的兩個(gè)定位框,使得兩個(gè)定位框進(jìn)行融合。實(shí)驗(yàn)時(shí),閾值取自身區(qū)域的80%,由于拍攝角度原因,在拍雙桿的時(shí)候,可能存在同一部件相互遮擋的問題,故閾值不能設(shè)置過低。
因同一路段的鐵路接觸網(wǎng)具有同質(zhì)性,所以在同一路段下拍攝的4C的圖像就具有相似性,絕緣子部件的位置大體相同。所以對(duì)于相似圖像,可以用上一張圖像的檢測(cè)結(jié)果,作為下一張圖像的檢測(cè)候選區(qū)域,只需要在候選區(qū)域附近搜索,而不需要全圖搜索,可以極大的提高檢測(cè)速度。判斷兩張圖像的相似性,采用感知哈希算法。該算法給每張圖像生成一個(gè)“指紋”,兩張“指紋”字符串漢明距離越小,說明兩張圖像越相似。通過指紋的相似度,可對(duì)圖像進(jìn)行分類。當(dāng)判斷兩張圖像屬于同一類時(shí),將第一張圖像定位區(qū)域作為后一張圖像的檢測(cè)候選區(qū)域,只在候選區(qū)域掃描,避免了全圖大范圍掃描,從而實(shí)現(xiàn)對(duì)檢測(cè)算法的加速。
YOLO V3算法對(duì)輸入的圖像,都會(huì)被放縮為416像素×416像素大小,然后進(jìn)行訓(xùn)練。在416像素×416像素的訓(xùn)練之后,采用多尺度檢測(cè),檢測(cè)結(jié)果顯示,與訓(xùn)練大小保持一致,即在416像素×416像素的尺度下,檢測(cè)效果最好。
改進(jìn)后的算法流程如圖4所示:首先用LABELIMG程序制作訓(xùn)練所需的數(shù)據(jù)集,另選取500張圖像用作測(cè)試;然后用改進(jìn)后的算法對(duì)制作的數(shù)據(jù)集進(jìn)行訓(xùn)練,得到訓(xùn)練后的模型;之后檢測(cè)圖像,檢測(cè)前計(jì)算圖像的哈希碼,通過哈希碼判斷該圖像的相似性。如果相似則采用候選區(qū)域掃描策略進(jìn)行檢測(cè),否則采用全圖掃描策略進(jìn)行檢測(cè);初步檢測(cè)完成后,進(jìn)行檢測(cè)框的去重;最后完成檢測(cè),輸出檢測(cè)后的圖像。
圖4絕緣子檢測(cè)流程圖Fig.4 Flow chart of insulator detection
使用5 258張4C接觸網(wǎng)圖像進(jìn)行訓(xùn)練,并在416像素×416像素的尺度下檢測(cè)。然后與YOLO V3,F(xiàn)AST R-CNN的檢測(cè)結(jié)果進(jìn)行對(duì)比。測(cè)試結(jié)果如表1所示,由于3種方法都不存在誤識(shí)別,故不進(jìn)行統(tǒng)計(jì)。
通過表1可以看出,對(duì)比FAST R-CNN,無論是YOLO V3還是改進(jìn)后的算法,準(zhǔn)確率都有很大提升,耗時(shí)也有大幅度的下降。改進(jìn)后YOLO V3的漏檢數(shù)有明顯下降,準(zhǔn)確率有較大的提升,絕緣子檢測(cè)的準(zhǔn)確率從93.6%提升至99.2%,證明增加一個(gè)對(duì)小目標(biāo)友好的4倍降采樣的殘差塊,提高了算法對(duì)于小目標(biāo)檢測(cè)的準(zhǔn)確率。
表1絕緣子檢測(cè)結(jié)果統(tǒng)計(jì)表Tab.1 Statistical table of insulator detection results
使用感知哈希的加速效果依賴于圖像中待檢區(qū)域的個(gè)數(shù),當(dāng)待檢區(qū)域數(shù)量較少時(shí),其候選區(qū)域少,加速效果更加明顯。單桿圖像平均耗時(shí)由1.32 s減少到0.53 s,雙桿圖像平均耗時(shí)由1.32 s減少到0.9 s。使用同一相機(jī)在同一條線路中連續(xù)拍攝的200張圖像作為測(cè)試樣本,測(cè)試結(jié)果如表2所示,使用全圖掃描策略約耗時(shí)264 s,使用候選區(qū)域掃描約耗時(shí)143 s,其中146張利用了候選區(qū)域掃描。通過感知哈希算法分類圖像,對(duì)同類圖像采用候選區(qū)域掃描策略加速,速度提升46%,如果連續(xù)處理的圖像數(shù)量越多其速度提升越明顯。
表2加速效果統(tǒng)計(jì)表Tab.2 Statistical table of time efficiency analysis
改進(jìn)YOLO算法檢測(cè)結(jié)果如圖5所示。從圖5可以看出,改進(jìn)后的算法不僅對(duì)小目標(biāo)的檢出率很高,而且置信度保持在很高的分?jǐn)?shù)。在圖5(a)中,接觸網(wǎng)的上方,有一個(gè)與絕緣子一樣的部件,但此部件并不在檢測(cè)范圍內(nèi),為干擾項(xiàng)。由于與絕緣子的角度不同,因此被算法排除;圖5(b)中,有許多桿間支撐裝置,與雙耳套筒使用了相同的零件,該零件并不在檢測(cè)范圍內(nèi),為干擾項(xiàng)。由于此部件有彎折,因此被算法排除;圖5(c)為雙桿接觸網(wǎng)圖像,外部的支撐桿對(duì)內(nèi)部桿上的抱箍造成了遮擋,使其像素信息不全,但該算法依然將其檢出。通過這些例子可以看出,在復(fù)雜情況下,算法取得了較好的檢測(cè)結(jié)果,表明改進(jìn)后的算法有良好的檢測(cè)能力與抗干擾能力。
圖5檢測(cè)結(jié)果圖:(a)絕緣子干擾圖,(b)雙耳套筒干擾圖,(c)抱箍遮擋圖Fig.5 Test results of images:(a)insulator blocked image,(b)clevis end holder for tuble blocked image,(c)holt hoop iron blocked image
綜上所述,本文提出了一種基于改進(jìn)YOLO V3的絕緣子檢測(cè)方法,實(shí)驗(yàn)結(jié)果表明,該方法可以檢測(cè)出鐵路接觸網(wǎng)上的絕緣子部件,不僅檢出率高,而且速度快,抗干擾能力強(qiáng),適用于大多數(shù)環(huán)境,基本滿足鐵路接觸網(wǎng)檢測(cè)要求的準(zhǔn)確性和快速性。下一步工作將在絕緣子檢測(cè)定位的基礎(chǔ)上,對(duì)絕緣子的缺陷檢測(cè)展開研究。