李利榮,王子炎,張 開,楊荻椿,熊 煒,鞏朋成
(1.湖北工業(yè)大學(xué)電氣與電子工程學(xué)院,湖北 武漢 430068;2.湖北工業(yè)大學(xué)太陽能高效利用湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430068)
經(jīng)過多年的發(fā)展,目標(biāo)檢測技術(shù)有了廣泛的應(yīng)用,期間涌現(xiàn)出了許多經(jīng)典的目標(biāo)檢測算法。目前針對列車部件的檢測方法可分為基于傳統(tǒng)的視覺檢測方法和基于深度學(xué)習(xí)的檢測方法。在傳統(tǒng)檢測方法中,Kilian等人[1]采用中值濾波對圖像去噪,再通過邊緣檢測算法結(jié)合提取的部件特征對機(jī)車閘瓦等部位進(jìn)行檢測,取得了良好的檢測效果。針對列車底部部件形狀復(fù)雜難以檢測這一問題,謝冠星[2]提出了一種改進(jìn)的SIFT(Scale-Invariant Feature Transform)特征點(diǎn)檢測算法,在增加了列車底部部件邊緣梯度變化明顯的特征點(diǎn)數(shù)量的同時(shí)減少了部件平坦區(qū)域檢測的特征點(diǎn)數(shù)量,提高了特征點(diǎn)匹配的準(zhǔn)確度,有效提升了部件識別精度。Zhang等人[3]提出了一種基于局部二值模式LBP(Local Binary Patterns)和Gabor-GA(Gabor Genetic Algorithm)的優(yōu)化理論列車中心板螺栓檢測方法,首先將不同尺度的多通道Gabor小波作用到圖像上,再通過遺傳算法對每個(gè)Gabor通道得到的權(quán)值進(jìn)行優(yōu)化,最后將加權(quán)后的特征進(jìn)行串接并通過支持向量機(jī)進(jìn)行分類。該方法提供了一種新的優(yōu)化思路,在一定程度上提升了檢測性能。Sun等人[4]基于圖像金字塔模型和鄰近傳播理論提出了一種快速自適應(yīng)馬爾可夫隨機(jī)場算法,實(shí)現(xiàn)了對列車空氣制動(dòng)系統(tǒng)、轉(zhuǎn)向架和緊固螺栓的自動(dòng)檢測。上述方法雖具有一定的檢測效果,但大多需要經(jīng)過人工預(yù)處理提取相應(yīng)的部件特征,有一定的局限性,且在列車底部這樣的復(fù)雜場景中沒有較好的泛化性能。
近幾年,深度學(xué)習(xí)得到迅速發(fā)展,越來越多的研究者采用深度卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolution Neural Network)進(jìn)行目標(biāo)檢測。與傳統(tǒng)檢測方法相比,深度卷積神經(jīng)網(wǎng)絡(luò)可以通過增加卷積網(wǎng)絡(luò)層數(shù)來獲得更深層次的語義信息,同時(shí)可以通過引入更多高維特征和尺度信息來提高檢測精度。目前,基于深度學(xué)習(xí)的目標(biāo)檢測大致可以分為一階段檢測網(wǎng)絡(luò)和二階段檢測網(wǎng)絡(luò)2個(gè)分支。Girshick等人[5]最先提出的R-CNN(Regions with Convolutional Neural Network feature)目標(biāo)檢測網(wǎng)絡(luò)是最典型的二階段檢測網(wǎng)絡(luò),將分類模型運(yùn)用到目標(biāo)檢測中,分類模型的部分網(wǎng)絡(luò)層作為骨干網(wǎng)絡(luò)進(jìn)行特征提取。舒娟[6]提出了一種基于深度學(xué)習(xí)的車輛零部件檢測方法。該方法以Faster R-CNN[7]為基礎(chǔ)網(wǎng)絡(luò)框架,并在此基礎(chǔ)上采用多尺度和密集采樣策略生成候選區(qū)域,在提升檢測性能的同時(shí)降低了網(wǎng)絡(luò)復(fù)雜度。吳建雄[8]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)車部件檢測方法,在骨干網(wǎng)絡(luò)基礎(chǔ)上增加了一個(gè)角度距離分支網(wǎng)絡(luò),提高了網(wǎng)絡(luò)對全局特征的提取能力。Kumar等人[9]提出將Resnet(Residual network)[10]殘差網(wǎng)絡(luò)嵌入Faster R-CNN中,有效提升了對遙感圖像的檢測精度,同時(shí)也提高了檢測速度。相較于二階段的檢測網(wǎng)絡(luò),一階段的檢測網(wǎng)絡(luò)沒有候選區(qū)域生成步驟,而是直接預(yù)測具體類別,并進(jìn)行邊框回歸,在速度上有明顯的提升。針對一階段檢測器沒有候選框生成導(dǎo)致的正負(fù)例樣本和難易樣本不平衡的問題,Lin等人[11]提出了Retinanet網(wǎng)絡(luò),引入Focal Loss損失函數(shù)抑制易分負(fù)樣本梯度,有效平衡了正負(fù)樣本數(shù)。Xin等人[12]改進(jìn)了損失函數(shù)的計(jì)算方法,提出了XIoU Loss(X-Intersection over Union Loss)損失函數(shù),并針對不同網(wǎng)絡(luò)模型進(jìn)行了實(shí)驗(yàn)對比。結(jié)果表明:引入新的損失函數(shù)對列車底部部件的檢測效果有較大提升。Redmon等人[13]提出了YOLOv3(You Only Look Once v3)算法,在骨干網(wǎng)絡(luò)中加入殘差模塊,以解決網(wǎng)絡(luò)過深帶來的梯度問題,并融入多尺度特征進(jìn)行檢測,在保證檢測速度的同時(shí),進(jìn)一步提升檢測精度。受啟發(fā)于YOLO系列和殘差網(wǎng)絡(luò)的成功,郝旭政等人[14]在此基礎(chǔ)上提出了一種改進(jìn)的深度殘差網(wǎng)絡(luò)行人檢測方法,有效地降低了定位誤差。郝駿等人[15]針對低對比度下的運(yùn)動(dòng)目標(biāo)提出了一種基于YOLO與殘差網(wǎng)絡(luò)算法的改進(jìn)檢測算法,有效提升了檢測速度并大幅度降低了漏檢率。上述文獻(xiàn)是目前實(shí)際運(yùn)用較多的檢測網(wǎng)絡(luò),從中發(fā)現(xiàn)引入殘差模塊可以給網(wǎng)絡(luò)性能帶來極大的提升。
本文根據(jù)機(jī)車底部零件分布的復(fù)雜性,以殘差網(wǎng)絡(luò)Resnet50為基礎(chǔ),提出了一種基于OSE-dResnet網(wǎng)絡(luò)的列車底部零件檢測算法,設(shè)計(jì)了一種改進(jìn)后的d-Resnet(detection Residual Network)網(wǎng)絡(luò),并在該網(wǎng)絡(luò)中嵌入OSEnet(Odd Squeeze-and-Excitation networks)模塊,增強(qiáng)特征提取性能;同時(shí)采用特征金字塔結(jié)構(gòu)[16]進(jìn)行不同維度的特征融合,使網(wǎng)絡(luò)能夠?qū)W到更加豐富的低維特征和高維特征,更加精確地檢測到車底零件。實(shí)驗(yàn)結(jié)果顯示,本文算法對車底部件的檢測效果有較大的提升。
目前大多數(shù)基于深度學(xué)習(xí)的目標(biāo)檢測模型都是采用Resnet50作為特征提取網(wǎng)絡(luò)。原始的Resnet50網(wǎng)絡(luò)主要由卷積模塊(conv block)和恒等模塊(identity block)組成,其中conv block用于改變特征維度和增大感受野;identity block則用于加深網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)共有50層。本文所提出的列車底部零件檢測算法整體結(jié)構(gòu)如圖1所示,主要由特征提取模塊(P1~P7)、特征融合模塊(C3~C7)以及分類和回歸模塊組成。其中,特征提取模塊為殘差模塊,起到提取圖像特征的作用;特征融合模塊中使用的是經(jīng)過上采樣與特征拼接后的特征。本文在Resnet50結(jié)構(gòu)基礎(chǔ)上,對特征提取模塊做了一些改進(jìn)設(shè)計(jì),在原始的Resnet50的結(jié)構(gòu)上增加了2層額外的特征層,同時(shí)在此基礎(chǔ)上引入了注意力機(jī)制,并在特定的模塊上引入了2條傳輸通道,這些改進(jìn)大大提高了目標(biāo)檢測的性能。
Figure 1 Overall structure of the proposed algorithm
本文采用在Resnet50基礎(chǔ)上改進(jìn)后的d-Resnet結(jié)合OSEnet作為特征提取網(wǎng)絡(luò),稱其為OSE-dResnet網(wǎng)絡(luò)。原始的Resnet50網(wǎng)絡(luò)共有4個(gè)階段,每個(gè)階段包含的殘差模塊數(shù)量分別為3,4,6,3,每個(gè)殘差模塊由1個(gè)conv block和若干identity block組成,conv block和identity block結(jié)構(gòu)如圖2所示。
Figure 2 Unit module of Resnet50
為了增加特征提取的豐富性和提高準(zhǔn)確度,本文在Resnet50的基礎(chǔ)上增加了P6和P7階段(見圖1),網(wǎng)絡(luò)一共有56層,并且在每個(gè)模塊的identity block中引入了2條傳輸通道。如圖3所示,原始的identity block由2個(gè)大小為1×1的卷積塊和1個(gè)大小為3×3的卷積塊組成,改進(jìn)后的identity block將第1個(gè)1×1卷積塊的輸入和輸出同3×3卷積塊的輸出進(jìn)行拼接操作(Concatenate,見圖3中C連接),然后將拼接后的結(jié)果作為第2個(gè)1×1卷積塊的輸入,再進(jìn)行卷積操作,將不同特征層進(jìn)行了拼接,實(shí)現(xiàn)了不同特征的強(qiáng)化多重提取,提升了整體效果。另外,為了充分考慮特征通道之間的關(guān)聯(lián)性,使網(wǎng)絡(luò)能夠提取到更有價(jià)值的特征,在每個(gè)改進(jìn)后的identity block中嵌入OSEnet模塊,二者的組合方式如圖3所示。
Figure 3 Unit module of OSE-dResnet
OSEnet模塊是在SEnet[17]基礎(chǔ)上改進(jìn)而來的,與SEnet一樣,OSEnet分為壓縮和激勵(lì)2個(gè)部分,采用特征重標(biāo)定的方式融合特征通道,壓縮部分采用自適應(yīng)全局池化,將維度為C大小為W×H的輸入壓縮到維度為C大小為1×1的輸出,這個(gè)輸出特征融合了全局信息。SEnet通過2個(gè)全連接層對特征維度進(jìn)行縮放,第1個(gè)全連接層使用參數(shù)r將維度為C的輸入變成維度為C/r的輸出,然后通過第2個(gè)全連接層還原到初始維度,期間會(huì)進(jìn)行降維,這將導(dǎo)致信息損失;OSEnet將激勵(lì)部分原有的2層全連接層替換成1個(gè)卷積核大小為1的卷積,在一定程度上減少了信息丟失,同時(shí)減少了計(jì)算量,使得網(wǎng)絡(luò)運(yùn)行效率得到提升。OSEnet結(jié)構(gòu)如圖4所示。
Figure 4 Structure of OSEnet
特征融合模塊對特征提取模塊的結(jié)果進(jìn)行融合,通過將擁有不同分辨率和不同語義信息的特征通道相加來提高網(wǎng)絡(luò)對不同大小物體的檢測效果。首先對P7階段的計(jì)算結(jié)果進(jìn)行一次降維,得到C7,將特征維度由8×4×2 048變成8×4×256;再對C7采取特征上采樣操作,將C7由8×4×256維變?yōu)?6×8×256維度;最后對P6進(jìn)行降維,并將運(yùn)算結(jié)果與C7上采樣的結(jié)果相加得到C6。同理,將P5~P3的特征層數(shù)分別進(jìn)行降維,再與上一層上采樣的結(jié)果相加,對應(yīng)得到C5~C3的結(jié)果。特征融合只是在特征提取網(wǎng)絡(luò)的基礎(chǔ)上引入傳輸通道,在提升模型效果的同時(shí)不會(huì)增加參數(shù)量,且計(jì)算量的少量增加也可忽略。
經(jīng)過特征融合后會(huì)得到大小不同但維度相同的5類特征,這5類特征經(jīng)過分類網(wǎng)絡(luò)及回歸網(wǎng)絡(luò)處理后將得到檢測結(jié)果。分類網(wǎng)絡(luò)包括4個(gè)維度為256的卷積核和1個(gè)維度為N×K的卷積核,這里的K為輸入特征層所擁有的先驗(yàn)框的數(shù)量,N為所要檢測目標(biāo)的種類個(gè)數(shù),特征經(jīng)過N×K的卷積核處理后輸出分類結(jié)果?;貧w網(wǎng)絡(luò)包括4個(gè)維度為256的卷積核和1個(gè)維度為4×K的卷積核,輸出結(jié)果是每個(gè)先驗(yàn)框坐標(biāo)的變化情況,將先驗(yàn)框與其變化情況相結(jié)合得到預(yù)測框位置信息。經(jīng)過分類和回歸網(wǎng)絡(luò)處理后會(huì)得到多個(gè)預(yù)測框,最后篩選出得分大于給定閾值的預(yù)測框,利用這些框的位置信息和得分進(jìn)行非極大值抑制處理得到最終檢測結(jié)果。
為了提升檢測性能,在訓(xùn)練網(wǎng)絡(luò)之前使用K-means[18]聚類算法得到適合本文數(shù)據(jù)集的4種不同大小的先驗(yàn)框,并根據(jù)不同特征層進(jìn)行尺寸調(diào)整,每個(gè)特征層都可以將輸入圖像分切為與該特征層長寬對應(yīng)的網(wǎng)格。
對特征融合模塊的5層輸出特征圖,由于其他特征層尺寸過大,本文只列舉了最后2層特征層,如圖5所示。其中,圖5a表示輸入圖像,圖5b和圖5c分別表示特征層C6和C7中先驗(yàn)框的分布情況,特征層C7的尺度為8×4,所以整個(gè)圖像會(huì)被分為8×4個(gè)網(wǎng)格,然后以每個(gè)框的中心建立4個(gè)通過聚類得出的形狀不同的先驗(yàn)框,其他特征層同理。
Figure 5 Structure of prior box
模型訓(xùn)練階段需要通過最小化損失函數(shù)來提升模型整體性能。本文所采用的損失函數(shù)包括分類損失部分和回歸損失部分,本文將二者結(jié)合作為總的損失計(jì)量。
本文設(shè)計(jì)的檢測模型屬于一階段檢測模型,利用先驗(yàn)框來提升檢測性能,但同樣會(huì)出現(xiàn)正負(fù)樣本以及難易樣本比例失衡的現(xiàn)象,故本文采用Retinanet網(wǎng)絡(luò)所使用的Focal Loss作為模型的分類損失函數(shù)。與交叉熵?fù)p失函數(shù)相比,F(xiàn)ocal Loss在它的基礎(chǔ)上引入了權(quán)重系數(shù)αt,通過調(diào)整αt的大小來降低負(fù)樣本對訓(xùn)練造成的影響。同時(shí),引入系數(shù)(1-pt)γ來調(diào)整易分類樣本和難分類樣本間的權(quán)重,增加了難分類樣本對損失值的貢獻(xiàn)。損失函數(shù)定義如式(1)所示:
FL(pt)=-αt(1-pt)γln(pt)
(1)
其中,pt表示樣本預(yù)測為正的概率,當(dāng)γ取值為2,αt取值為0.25時(shí)的實(shí)驗(yàn)結(jié)果為最優(yōu)。
回歸損失函數(shù)采用Smooth Loss損失函數(shù),其定義如式(2)所示,其導(dǎo)數(shù)形式如式(3)所示:
(2)
(3)
其中,x表示預(yù)測值與真實(shí)值之間的差距。Smooth Loss損失函數(shù)能夠限制梯度大小,結(jié)合了L1Loss和L2Loss的優(yōu)勢,使得損失函數(shù)在0點(diǎn)處也存在導(dǎo)數(shù),網(wǎng)絡(luò)更具魯棒性。從式(3)中可以看出,當(dāng)預(yù)測框與實(shí)際框的差距過大時(shí),不會(huì)導(dǎo)致梯度過大,當(dāng)二者差距變小時(shí),也能保證足夠小的梯度。
總的損失函數(shù)如式(4)所示:
Loss=FL(pt)+SmoothL1(x)
(4)
本文所使用的數(shù)據(jù)集由武昌鐵路局提供。原始的數(shù)據(jù)集通過架設(shè)在鐵軌邊的高清線陣相機(jī)拍攝獲得,每幅圖像的寬為2 048個(gè)像素,而高則為29 956~39 956個(gè)像素不等,無法直接輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,需要對原始數(shù)據(jù)進(jìn)行裁剪修正。裁剪方式如式(5)所示:
h=(w-h1)n+(n-1)h1
(5)
其中,h和w分別表示原始圖像的總長度和寬度,h1表示裁剪出n幅圖像后多余矩形的高。這樣的裁剪方式十分簡單,適合運(yùn)用在長寬比很大的圖像上。裁剪原則是保持圖像寬度不變,對不同圖像進(jìn)行高度上的裁剪。為了使計(jì)算方便,本文首先將輸入圖像統(tǒng)一裁剪為2 048×4 096尺寸大小,由于整體數(shù)據(jù)集的限制,裁剪后的數(shù)據(jù)量不夠且含有部分無目標(biāo)圖像,需要對數(shù)據(jù)集進(jìn)行擴(kuò)充,經(jīng)過平移、轉(zhuǎn)置、鏡像和旋轉(zhuǎn)等幾何變換將數(shù)據(jù)集由原來的5 123幅擴(kuò)充到了11 747幅;然后將處理后的數(shù)據(jù)按比例劃分,其中8 037幅圖像組成訓(xùn)練集,3 710幅圖像組成測試集;最后利用標(biāo)注工具對每幅圖像中的5類目標(biāo)進(jìn)行標(biāo)注。
本文所有實(shí)驗(yàn)均在Ubuntu 16.04和Pytorch深度學(xué)習(xí)框架環(huán)境中進(jìn)行,顯卡選用NVIDIA RTX 2080ti,處理器為英特爾i7-8700(3.2 GHz),內(nèi)存大小為16 GB。訓(xùn)練過程中,對數(shù)據(jù)進(jìn)行50輪訓(xùn)練,由于圖像尺寸太大,受內(nèi)存限制,每次輸入網(wǎng)絡(luò)訓(xùn)練的圖像數(shù)為4,迭代次數(shù)為20萬次,網(wǎng)絡(luò)采用Adam優(yōu)化器,網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為1×10-4。
實(shí)驗(yàn)對列車底部總共5類零件做檢測分析,共選用8 037幅圖像作為訓(xùn)練集,其中包括2 044個(gè)ZDL1(I型車軸)、2 132個(gè)Label(車標(biāo))、2 162個(gè)Hook(掛鉤)、2 304個(gè)Lift-rod(活塞桿)和3 283個(gè)ZDL2(II型車軸)。隨機(jī)挑選了3 710幅圖像作為實(shí)驗(yàn)的測試集,其中包括625個(gè)ZDL1、702個(gè)Label、867個(gè)Hook、916個(gè)Lift-rod和1 075個(gè)ZDL2。
為了驗(yàn)證本文設(shè)計(jì)的特征拼接融合的有效性,進(jìn)行了3組消融對比實(shí)驗(yàn),采用3種不同的網(wǎng)絡(luò)框架,第1個(gè)是本文提出的結(jié)合d-Resnet和OSEnet的網(wǎng)絡(luò)框架(OSE-dResnet),第2個(gè)在第1個(gè)的基礎(chǔ)上去掉特征拼接后的網(wǎng)絡(luò)框架(OSEnet),第3個(gè)是原始的Resnet50網(wǎng)絡(luò)框架,表1展示了這3種網(wǎng)絡(luò)框架對上述5類不同零件的檢測結(jié)果。
從表1的檢測結(jié)果可以看出,嵌入特征拼接和OSEnet模塊的網(wǎng)絡(luò)框架在不同類別以及平均精度上均達(dá)到最優(yōu)。在同時(shí)嵌入OSEnet模塊的基礎(chǔ)上,有特征拼接網(wǎng)絡(luò)的平均精度要高于沒有特征拼接的,嵌入OSEnet模塊后的網(wǎng)絡(luò)要比原始Resnet50網(wǎng)絡(luò)的準(zhǔn)確度高。
Table1 Result of melt expriment
另一方面,為了更明顯地體現(xiàn)本文算法的性能,將本文算法與目前工業(yè)運(yùn)用較多的幾種算法進(jìn)行性能比較,采用平均準(zhǔn)確度均值mAP(mean Average Precision)和FPS(Frames Per Second)指標(biāo)來衡量各算法性能,表2展示了不同算法的比較結(jié)果。
Table 2 Performance comparison of different algorithms
表2展示了SSD(Single Shot multibox Detector) 、YOLOv3、Faster R-CNN、RPDet(point set RePresentation for object Detection)[19]、FCOS(Fully Convolutional One-Stage object detection)[20]和本文算法的測試結(jié)果。從表2中可以看出,本文提出的檢測算法準(zhǔn)確度最高。這6類算法的骨干網(wǎng)絡(luò)均以殘差模塊為基礎(chǔ),其中,本文算法在檢測速度和檢測準(zhǔn)確度上均高于Faster R-CNN二階段檢測算法的,檢測精度要高于FCOS的,總體性能良好。但是,本文提出的檢測算法在檢測速度上還有待提高,這也是后續(xù)繼續(xù)研究的目標(biāo)。
為體現(xiàn)網(wǎng)絡(luò)的檢測性能,同時(shí)對本文算法和FCOS的檢測結(jié)果做可視化處理,可視化結(jié)果如圖6所示,圖6a為本文算法的檢測結(jié)果,圖6b為FCOS檢測的結(jié)果。左上角有檢測類別和置信度值的矩形框?yàn)闄z測結(jié)果,其它矩形框?yàn)閷?shí)際標(biāo)注結(jié)果。由檢測結(jié)果可見,F(xiàn)COS檢測存在漏檢和錯(cuò)檢,且檢測框與實(shí)際框的重合度不高,而在同樣的圖像條件下,本文算法的檢測框與實(shí)際標(biāo)注框高度吻合。
Figure 6 The visualized results
本文提出一種基于OSE-dResnet網(wǎng)絡(luò)的列車底部零件檢測算法,在殘差網(wǎng)絡(luò)基礎(chǔ)上通過引入特征拼接實(shí)現(xiàn)了特征信息互補(bǔ),同時(shí)引入注意力機(jī)制,通過融合各個(gè)特征通道,獲知各通道的重要程度,再進(jìn)行權(quán)重分配,從而提升了重要特征層的權(quán)重。實(shí)驗(yàn)結(jié)果表明,本文所提出的算法針對列車底部零件取得了更高的檢測精度。未來的工作將進(jìn)一步研究如何優(yōu)化網(wǎng)絡(luò),降低網(wǎng)絡(luò)復(fù)雜度,提升特征提取效率,提高整體檢測性能。