王瑞峰,陳小屹
(蘭州交通大學(xué) 自動(dòng)化與電氣工程學(xué)院,甘肅 蘭州 730070)
由于自然和人為因素,鐵路限界內(nèi)時(shí)常出現(xiàn)落石、滾木、動(dòng)物以及行人,對(duì)設(shè)備及人員安全造成威脅.檢測(cè)系統(tǒng)及時(shí)發(fā)現(xiàn)鐵路異物,準(zhǔn)確識(shí)別異物并進(jìn)行報(bào)警,對(duì)保證有關(guān)部門快速高效地處理突發(fā)事件具有重要意義.
鐵路異物入侵檢測(cè)方式分為接觸式和非接觸式.一般采用非接觸式,目前常見(jiàn)的檢測(cè)方法包含視頻檢測(cè)法、雷達(dá)檢測(cè)法、超聲檢測(cè)法和紅外線屏障檢測(cè)法[1].其中視頻檢測(cè)法可以檢測(cè)出異物的位置、大小,具有直觀性,且檢測(cè)精度更高.文獻(xiàn)[2]基于機(jī)器視覺(jué)與嵌入式技術(shù)對(duì)獲得異物進(jìn)行分類,使用卡爾曼濾波進(jìn)行行為分析,以濾除干擾.文獻(xiàn)[3]在背景差分的基礎(chǔ)上,提出基于前景目標(biāo)統(tǒng)計(jì)分布的鐵路背景更新方法.文獻(xiàn)[4-5]將深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到異物檢測(cè)中,通過(guò)訓(xùn)練得到適用的模型.但上述方法中,傳統(tǒng)視覺(jué)算法易受到光線和氣候變化的影響,背景差分的方法也普遍存在誤報(bào)率高,且不能確定侵限異物的種類.深度學(xué)習(xí)在鐵路侵限研究中正成為一個(gè)新的研究方向,但卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為雙階段檢測(cè)算法,需要預(yù)先設(shè)置大量先驗(yàn)框,檢測(cè)速度較慢且算法復(fù)雜.YOLO 算法作為單階段檢測(cè)算法,大大提高了檢測(cè)速度[6],但準(zhǔn)確度有待提升.在此基礎(chǔ)上增加了Darknet-53 網(wǎng)絡(luò)和FPN網(wǎng)絡(luò),以及增加尺度特征圖后得到Y(jié)OLOv3[7],檢測(cè)精度有所提高,但對(duì)小目標(biāo)效果不明顯.而對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的4 個(gè)部分都做了改進(jìn)后的YOLOv5 模型檢測(cè)速度和精度相比前文提出的方法效果更好[8].
本文提出在YOLOv5 里加入卷積塊注意力模型[9],使入侵目標(biāo)獲得更多的關(guān)注,提高異物的表征能力,忽略不必要特征,避免小目標(biāo)和被遮擋目標(biāo)未被檢測(cè)出來(lái)造成遺漏,從而提高模型判別異物的精確度.改進(jìn)YOLO 算法中的損失函數(shù),考慮到不同圖像會(huì)出現(xiàn)相同損失函數(shù)的情況,提出CIOULoss,降低網(wǎng)絡(luò)損耗,提高收斂速度.輸入模型前通過(guò)CLAHE 提高圖像的對(duì)比度,防止因圖像不清晰未檢測(cè)到異物.本文在原有YOLOv5 的基礎(chǔ)上,考慮實(shí)時(shí)目標(biāo)檢測(cè)中的各種因素,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),提高檢測(cè)精度,加快收斂速度.
通過(guò)對(duì)鐵路場(chǎng)景進(jìn)行觀察,鐵路盡頭為中心呈放射狀,只要加強(qiáng)區(qū)域間的直線特征,就能更好區(qū)分軌道區(qū)域[10].所以選用霍夫變換進(jìn)行直線檢測(cè),得到霍夫矩陣和峰值,調(diào)整高斯卷積核角度,加強(qiáng)邊界點(diǎn)的權(quán)重.
選用Canny 算子進(jìn)行邊緣檢測(cè),該算法具有良好的邊緣定位精度和抗噪性.邊緣檢測(cè)使圖像特征信息簡(jiǎn)化,并且增加紋理通道,提取到有用的信息.為尋找鐵路場(chǎng)景中最強(qiáng)的直線特征,即共線點(diǎn)最多的直線的方程參數(shù),將邊緣檢測(cè)結(jié)果(圖1).進(jìn)行霍夫變換得到霍夫變換矩陣和峰值點(diǎn)(選取4 個(gè)),即直線特征分布圖,如圖2 所示,右側(cè)邊欄為灰度值,灰度值越高圖像越亮.
圖1 邊緣特征圖像Fig.1 The edge feature map
霍夫變換中使用的傾角定義為 θ′,范圍為 ±90?,高斯卷積核里的傾角定義為θ,范圍為0~180°.直角坐標(biāo)系下與極坐標(biāo)下交點(diǎn)坐標(biāo)直線方程參數(shù)的對(duì)應(yīng)關(guān)系如下所示:
根據(jù)霍夫變換結(jié)果可知共線點(diǎn)最多的直線傾角分別為?70°、78°、85°和88°.兩者轉(zhuǎn)換關(guān)系為高斯卷積核旋轉(zhuǎn)的角度為160°、12°、5°和2°.
選取卷積核后,將 RGB 彩色模型轉(zhuǎn)化為HIS彩色模型,能夠較好地模擬人的色彩感受,因而在特征矢量中加入H(色調(diào))、S(飽和度)、I(亮度),包括像素點(diǎn)的紋理特征、色調(diào)、飽和度和亮度等4個(gè)通道.圖像中每個(gè)像素在各個(gè)通道內(nèi)進(jìn)行高斯卷積運(yùn)算,計(jì)算公式如下:
式中:C為通道,θ為卷積核的傾斜,(x,y)為像素的空間坐標(biāo).
在得到邊界點(diǎn)權(quán)重后,經(jīng)過(guò)Sigmoid 運(yùn)算后篩除掉弱邊界點(diǎn)權(quán)重,最終得到碎片區(qū)域,經(jīng)過(guò)Mask R-CNN[11]識(shí)別得到需要的軌道入侵區(qū)域.軌道區(qū)域識(shí)別過(guò)程圖如圖3 所示.
圖3 軌道區(qū)域識(shí)別過(guò)程圖Fig.3 Process diagram of track area identification
YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)主要由輸入端、Backbone、Neck、Prediction 等4 部分組成,主要改進(jìn)Backbone 部分.Backbone 增加了Focus 的切片操作,并且YOLOv5 設(shè)計(jì)了兩種C3 結(jié)構(gòu),用于特征提取.但經(jīng)過(guò)兩層的C3 模塊,特征信息丟失[12],導(dǎo)致目標(biāo)檢測(cè)時(shí)軌道上的小目標(biāo)和遮擋目標(biāo)會(huì)被遺漏.圖4 為改進(jìn)后的YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)圖,在Backbone的C3 模塊后加入CBAM.
圖4 YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)圖Fig.4 Improve the block diagram of the YOLOv5 network
2.1 融合卷積塊注意力模型為了改進(jìn)原模型的缺陷,在Backbone 的C3 模塊后引入CBAM,讓特征覆蓋更多的區(qū)域,從而提高識(shí)別目標(biāo)的概率.利用注意力機(jī)制增強(qiáng)了網(wǎng)絡(luò)的表征力,重點(diǎn)突出需要識(shí)別物體的特點(diǎn).
CBAM 主要是通過(guò)通道和空間兩個(gè)維度進(jìn)行特征提?。▓D5).經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)兩個(gè)模塊順序排列,且通道模塊位于空間模塊前效果更好.
圖5 CBAM 模塊Fig.5 CBAM module
圖5 中,藍(lán)色方框中的部分為通道注意力,紅色方框內(nèi)的部分為空間注意力.特征圖F 輸入后,先進(jìn)入通道注意力,分別進(jìn)行GAP 和GMP,得到的特征圖再分別輸入到兩層神經(jīng)網(wǎng)絡(luò),神經(jīng)元個(gè)數(shù)分別為為1×1×C/r(將C壓縮到C/r,用于計(jì)算量減少,經(jīng)過(guò)實(shí)驗(yàn),r為16 可實(shí)現(xiàn)性能和計(jì)算量的平衡)和1×1×C,通過(guò)加和操作和sigmoid 操作,得到通道注意力MC,如下所示:
式中:MLP 為通道維度內(nèi)的多層感知機(jī),AvgPool (F)和MaxPool (F)為平均池化和最大池化,avg 為平均值,max 為最大值.
將MC和輸入F做乘法操作,得到空間通道的輸入.同樣分別進(jìn)行GAP 和GMP,得到H×W×1 的特征圖,兩者堆疊得到H×W×2 特征圖;接著經(jīng)過(guò)卷積和 ReLU 激活函數(shù),降低維度為H×W×1;最后將經(jīng)過(guò) Sigmoid 標(biāo)準(zhǔn)化處理后的特征圖與輸入特征圖進(jìn)行合并,從而在空間和通道兩個(gè)維度上完成對(duì)特征圖的重新標(biāo)定,如下所示:
數(shù)值表征了特征圖該點(diǎn)的重要程度,數(shù)值大的地方更易受到關(guān)注,通過(guò)感受野反推回原圖像,即表示了該區(qū)域的重要程度.
2.2 優(yōu)化損失函數(shù)為了更準(zhǔn)確地了解模型檢測(cè)效果,需對(duì)損失函數(shù)進(jìn)行改進(jìn).在YOLOv5 模型中,使用 GIOU 計(jì)算邊界的回歸損失,計(jì)算公式如下:
式中:IOU 為衡量真實(shí)目標(biāo)框與實(shí)際檢測(cè)目標(biāo)框差異的一種參數(shù),GIOU(Generalized IOU)為泛化的IOU,AC為兩個(gè)框的最小外接矩形,u為并集.
但是,GIOU 也存在缺點(diǎn):當(dāng)兩個(gè)預(yù)測(cè)框高寬相同,且處于同一水平面時(shí),GIOU 就退化為IOU.此外,GIOU 和IOU 還存在收斂較慢、回歸不夠準(zhǔn)確的缺點(diǎn).所以提出了DIOU,解決了目標(biāo)實(shí)際框與目標(biāo)預(yù)測(cè)框重合位置不相同但I(xiàn)OU Loss 和GIOU Loss 結(jié)果一樣的情況,如圖6 所示,實(shí)線框?yàn)槟繕?biāo)框,虛線框?yàn)轭A(yù)測(cè)框,預(yù)測(cè)框位于真實(shí)框內(nèi)部時(shí),GIOU 值相同,但圖6 內(nèi)預(yù)測(cè)框位置并不一致.其計(jì)算公式如下:
圖6 預(yù)測(cè)框和真實(shí)框的位置關(guān)系Fig.6 Positional relationship between prediction box and real box
式中:DIOU(Distance IOU)為改進(jìn)的IOU,gt(ground truth)為真實(shí)框,b和bgt分別代表預(yù)測(cè)和真實(shí)中心坐標(biāo)的參數(shù),d為兩個(gè)矩形中心點(diǎn)連接線,ρ 是兩個(gè)中心點(diǎn)距離,c為兩個(gè)矩形的最小外接矩形對(duì)角線.
如何將損失函數(shù)降到最低,需要考慮長(zhǎng)寬比、重疊面積和中心點(diǎn)距離3 個(gè)參數(shù)[13].CIOU 相比DIOU 增加了檢測(cè)框尺度和長(zhǎng)和寬的Loss,預(yù)測(cè)框會(huì)更接近真實(shí)框.其計(jì)算公式為:
式中:CIOU (Complete IOU)為改進(jìn)的IOU,v和α為長(zhǎng)寬比,w、h和wgt、hgt分別代表預(yù)測(cè)框的高、寬和真實(shí)框的高、寬.
2.3 圖像特征增強(qiáng)為應(yīng)對(duì)鐵路監(jiān)控拍攝時(shí)光線不強(qiáng),存在惡劣天氣影響而導(dǎo)致圖像不清晰的情況,需對(duì)圖像進(jìn)行特征增強(qiáng).直方圖均衡是一種簡(jiǎn)單的方法,自適應(yīng)直方圖均衡化(Adaptive Histogram Equalization,AHE)是在圖像灰度化后,計(jì)算各個(gè)灰度值的概率并得到分布圖像,通過(guò)其分布函數(shù)映射使得灰度概率密度均勻分布[14].然而,這是一種全局處理方法,它不能很好地處理太亮或太暗的區(qū)域,會(huì)使圖像噪聲增大.所以在此基礎(chǔ)上,將限制CLAHE 算法應(yīng)用于圖像增強(qiáng)中,它是在AHE 的基礎(chǔ)上增加了閾值區(qū)域.在直方圖中,超過(guò)閾值的像素?cái)?shù)據(jù)被均勻地分布在其他區(qū)域,這不僅保證了直方圖的區(qū)域不變,而且限制了變化的范圍.計(jì)算過(guò)程如下:
步驟1將原圖像進(jìn)行擴(kuò)充并劃分為長(zhǎng)乘寬為4×8 的格子.
步驟2設(shè)每個(gè)格子的面積為S,初始上限閾值T為2.5,計(jì)算公式為:
步驟3獲取圖像直方圖.
步驟4在此基礎(chǔ)上,采用預(yù)先設(shè)置的閾值T,對(duì)直方圖進(jìn)行分割,使大于閾值的像素?cái)?shù)量再進(jìn)行分配.
步驟5對(duì)對(duì)比度限制后的直方圖進(jìn)行直方圖均衡獲取映射函數(shù),函數(shù)表達(dá)式為:
式中:T為變換函數(shù),ri和Si分別為原圖像和映射后的灰度值,n為像素總數(shù),ni為出現(xiàn)k灰度級(jí)的像素?cái)?shù).
步驟6利用映射函數(shù)處理原圖像.
CLAHE 處理后效果圖如圖7 所示,可以看出,經(jīng)過(guò)直方圖均衡后的圖像清晰度明顯提高,為后續(xù)異物的準(zhǔn)確識(shí)別奠定了良好的基礎(chǔ).
圖7 不清晰圖像處理效果對(duì)比圖Fig.7 Comparison of drawing unclear processing effect
3.1 實(shí)驗(yàn)環(huán)境與模型訓(xùn)練實(shí)驗(yàn)中使用的操作系統(tǒng)為Ubuntu 20.04,CPU 型號(hào)為Intel(R) CPU E5-2620v3@2.4 GHz,GPU 為GeForce GTX 1080Ti,測(cè)試框架為Pytorch.
由于能獲取的鐵路異物照片較少,為了使實(shí)驗(yàn)數(shù)據(jù)結(jié)果更準(zhǔn)確,將1 000 張鐵路異物圖片添加到Pascal Voc2012 數(shù)據(jù)集中.但收集到的數(shù)據(jù)集無(wú)法直接用于模型訓(xùn)練,所以采用labelimg 對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,指定圖片中目標(biāo)的位置和標(biāo)簽,并保存成xml 格式.訓(xùn)練集和測(cè)試集的比例設(shè)定為9∶1.
實(shí)驗(yàn)的迭代次數(shù)設(shè)置為300,迭代批量為64,epoch 為3,動(dòng)量參數(shù)為0.92,優(yōu)化器選擇Adam.訓(xùn)練時(shí)使用Warmup 訓(xùn)練預(yù)熱,在前期為了防止過(guò)擬合現(xiàn)象,避免模型震蕩,選用較低的學(xué)習(xí)率,為0.001.訓(xùn)練一段時(shí)間后,為加快模型收斂,將學(xué)習(xí)率調(diào)高至0.2.之后為了使模型繼續(xù)更新,利用余弦退火使其不陷入馬鞍面.
3.2 評(píng)價(jià)指標(biāo)及結(jié)果分析本文采用平均精度均值m(mean average precision,mAP)、精確率P(precision)、召回率R(recall)、檢測(cè)速度以及損失函數(shù)CIOU_Loss 這5 種評(píng)價(jià)指標(biāo)評(píng)估模型的性能.檢測(cè)速度定義為每秒可以處理的圖片數(shù),損失函數(shù)計(jì)算公式為式(7),其余指標(biāo)的計(jì)算公式如下:
式中:A為插值后的precision-recall 曲線下的面積,但只計(jì)算了一類;K為種類數(shù);m為目標(biāo)檢測(cè)上所有類的A的均值;TP代表IOU 大于設(shè)定閾值的檢測(cè)框數(shù)目;FP代表IOU 小于設(shè)定閾值的檢測(cè)框數(shù)目;FN代表漏檢的目標(biāo)數(shù)目[15].實(shí)驗(yàn)中閾值設(shè)定為0.9,P反映了模型檢測(cè)的準(zhǔn)確度,R反映了模型是否將目標(biāo)檢測(cè)全部檢測(cè)到無(wú)遺漏的情況.
圖8、圖9 顯示的是經(jīng)過(guò)改進(jìn)后的模型召回率和精確率.從圖8 中可以看出,YOLOv5 在訓(xùn)練50輪后召回率達(dá)到0.8 左右,100 輪后達(dá)到0.85 左右,而經(jīng)過(guò)模型改進(jìn)后召回率在訓(xùn)練50 輪后也到了0.89 左右,100 輪后達(dá)到0.91 左右.最終經(jīng)過(guò)改進(jìn)召回率提升了7%.圖9 中YOLOv5 在50 輪后精確度達(dá)到0.8 左右,100 輪后穩(wěn)定到0.86;經(jīng)過(guò)改進(jìn)后,50 輪精確率穩(wěn)定到了0.9 左右,在訓(xùn)練100 輪之后,精確率也穩(wěn)定到了0.95 左右,提升了10%.可以看出,加入注意力機(jī)制后可提升骨干網(wǎng)絡(luò)特征提取的能力,關(guān)注更多被忽略的語(yǔ)義信息.
圖8 改進(jìn)前后召回率變化對(duì)比曲線Fig.8 Change curve of recall rate before and after improvement
圖9 改進(jìn)前后精確度變化曲對(duì)比曲線Fig.9 Change curve of accuracy before and after improvement
平均精度均值經(jīng)過(guò)訓(xùn)練也達(dá)到了一個(gè)穩(wěn)定值,100 輪后達(dá)到0.93 左右,如圖10 所示,改進(jìn)前后mAP 值明顯提高,證明了經(jīng)過(guò)改進(jìn)后算法可以更準(zhǔn)確地檢測(cè)出目標(biāo).圖11 為損失函數(shù)迭代過(guò)程圖.從圖11 可以看出,YOLOv5 在50 輪后,損失值才達(dá)到0.04 左右,最終穩(wěn)定到0.038 左右;在換成CIOU 損失函數(shù)后,初始損失值在0.07 左右,最終穩(wěn)定在0.03,在50 輪時(shí),損失值已經(jīng)降到0.04 以下,這證明了改進(jìn)后預(yù)測(cè)框可以快速逼近真實(shí)框.
圖10 改進(jìn)前后mAP 變化對(duì)比曲線Fig.10 Change curve of mAP before and after improvement
圖11 改進(jìn)前后損失函數(shù)迭代過(guò)程對(duì)比圖Fig.11 Iterative process of loss function before and after improvement
為了分別驗(yàn)證每種改進(jìn)的效果,在同一數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn).依次在模型上加入CBAM 和CIOU 損失函數(shù).表格內(nèi)“√”為添加該改進(jìn).
從表1 可以看出,引入CBAM 后平均精度均值提高了2.72%,實(shí)驗(yàn)結(jié)果表明,CBAM 方法能夠提高復(fù)雜環(huán)境下的異物目標(biāo)識(shí)別能力.引入CIOU后提升較小,平均精度均值提高了1.25%.但可以看出改進(jìn)后效果較為明顯.
表1 兩種改進(jìn)的消融實(shí)驗(yàn)結(jié)果Tab.1 Results of two improved ablation experiments
為進(jìn)一步驗(yàn)證本文算法的有效性,將本文算法與SSD[16]、Faster R-CNN[17]、YOLOv3、YOLOv5算法在同一數(shù)據(jù)集上同一配置環(huán)境進(jìn)行對(duì)比.將mAP 和檢測(cè)速度作為評(píng)價(jià)指標(biāo).對(duì)比結(jié)果如表2所示.
表2 不同檢測(cè)模型能力對(duì)比Tab.2 Comparison of the capabilities of different detection models
表2 顯示,改進(jìn)后算法的mAP 值可以達(dá)到0.941,相比于YOLOv3 提高最多,為14.62%,其次比SSD 提高了12.43%,而相比于YOLOv5 算法提高了7%,最后高于Faster R-CNN4.2%.與其他4 種檢測(cè)方法相比,本方法的檢測(cè)準(zhǔn)確率最高,但由于加入了CBAM 模塊,模型復(fù)雜度有所提高,檢測(cè)速度稍不及原始YOLOv5 算法,檢測(cè)速度下降了7.1%.但是,通常的實(shí)時(shí)檢測(cè)滿足25 幀/s 即可,所以該方法的實(shí)時(shí)性也達(dá)到了要求.
圖12 為原有和改進(jìn)后的模型對(duì)比圖,第1 行為原YOLOV5 模型仿真結(jié)果,第2 行為本文算法仿真結(jié)果,選取了較為典型的幾張,兩者對(duì)比可知,在將原YOLOV5 的損失函數(shù)GIOU_Loss 改為CIOU_Loss,圖12 邊界框標(biāo)記更加細(xì)致,不會(huì)框住其余目標(biāo).并且在backbone 主干網(wǎng)絡(luò)里加入了注意力機(jī)制,可以捕捉到更多的特征信息,舍棄掉不明顯信息,因而提升異物識(shí)別準(zhǔn)確率.這代表增加注意力機(jī)制后,網(wǎng)絡(luò)里可以提取到更多的位置信息和語(yǔ)義信息,特征提取方面更加細(xì)節(jié),并且小目標(biāo)和被遮擋目標(biāo)也被檢測(cè)了出來(lái).
圖12 原YOLOv5 模型與本文算法模型結(jié)果對(duì)比圖Fig.12 Comparison of the results of the original YOLOv5 model and the algorithm model in this paper
在原有YOLOv5 算法的基礎(chǔ)上,分別從圖像增強(qiáng)、注意力機(jī)制和損失函數(shù)3 個(gè)方面進(jìn)行了改進(jìn),該方法能很好地解決復(fù)雜環(huán)境下物體的識(shí)別能力差或存在遮擋等問(wèn)題,并且檢測(cè)框更為精確.經(jīng)過(guò)消融實(shí)驗(yàn)對(duì)比和與不同模型對(duì)比后,證明了該算法的有效性.改進(jìn)后圖像平均檢測(cè)精度提高到0.941,檢測(cè)速度為39 幀/s,達(dá)到實(shí)時(shí)檢測(cè)要求.但收集到的實(shí)驗(yàn)數(shù)據(jù)較少,導(dǎo)致檢測(cè)精度有限,需進(jìn)一步擴(kuò)充相關(guān)數(shù)據(jù)樣本.并且在增加模型復(fù)雜度,提升檢測(cè)精度的同時(shí)會(huì)增加檢測(cè)時(shí)間,后續(xù)會(huì)在不影響算法和模型的性能的前提下繼續(xù)改進(jìn)識(shí)別速度.本文改進(jìn)后的模型也可以應(yīng)用到其他目標(biāo)檢測(cè)領(lǐng)域,如汽車、農(nóng)業(yè)、醫(yī)學(xué)等場(chǎng)景中.