摘 要:針對復雜環(huán)境下高鐵軌道入侵異物對列車的安全行駛有嚴重的威脅,而現(xiàn)有檢測方法不能滿足實際的高鐵軌道異物檢測工作,提出一種基于改進YOLOv7 的高鐵異物入侵檢測算法。引入CARAFE 算子作為上采樣算法,減少輸入圖像的特征信息損失,增大網(wǎng)絡(luò)感受野;在YOLOv7 模型中引入GhostConv 卷積,可以有效地減少模型的計算量和參數(shù)量;引入全局注意力機制(Global Attention Mechanisms,GAM),增強全局信息交互能力和表達能力,提高檢測性能;采用Alpha_GIoU 損失函數(shù),提升小目標的檢測能力和模型的收斂速度。實驗結(jié)果表明,改進后的YOLOv7-CGGA 模型的平均檢測精度(mean Average Precision,mAP) 和平均每秒推理速度(Frames Per Second,FPS) 值分別達到96. 7% 和96. 1,與原YOLOv7模型相比,分別提升了1. 6% 和31. 1,較好地平衡了模型的檢測精度和效率,可以滿足實際的檢測需求。
關(guān)鍵詞:YOLOv7;高鐵;異物入侵;深度學習
中圖分類號:TN919. 81 文獻標志碼:A 開放科學(資源服務(wù))標識碼(OSID):
文章編號:1003-3106(2024)05-1099-11
0 引言
隨著我國鐵路行業(yè)的快速發(fā)展,近年來高鐵已逐漸成為人們外出旅行的首選交通方式。截至2022 年底,全國鐵路營業(yè)里程達到15. 5 萬km,其中高鐵里程為4. 2 萬km,高鐵里程穩(wěn)居世界第一[1]。然而,高鐵的安全問題一直是人們關(guān)注的焦點,在高速行駛的過程中,如果軌道上存在異物,將對列車的正常運行造成嚴重威脅。因此,高鐵軌道異物檢測技術(shù)的研究和應(yīng)用具有重要意義。目前,傳統(tǒng)的高鐵軌道異物檢測技術(shù)主要是指在高速運行的列車上利用各種傳感器和裝置來檢測軌道上的異物,如破碎的石子、家禽、行人和汽車等。李志南等[2]設(shè)計了一種融合攝像頭和二維激光雷達的鐵路軌道異物檢測技術(shù),可為鐵路安全檢測系統(tǒng)的智能化激光雷達檢測技術(shù)提供理論參考和依據(jù)。林向會[3]提出了一種基于視頻的鐵路異物侵限檢測的新方法,該方法先劃分和提取鐵路軌道侵限區(qū)域,然后利用改進后的YOLOv3-tiny 算法對異物進行檢測,并且部署到硬件平臺上,可以滿足實時檢測的需求。Wang 等[4]提出了一種新的、簡單的、統(tǒng)一的檢測軌道監(jiān)控系統(tǒng)傳感器異物入侵的算法,不僅能夠快速、準確地檢測異物,而且能夠有效地減少軌跡監(jiān)控系統(tǒng)中需要存儲的大數(shù)據(jù)量。Liu 等[5]提出了一種車站軌道區(qū)域智能異物入侵檢測系統(tǒng)的設(shè)計方案,利用傳感器采集和傳輸數(shù)據(jù),結(jié)合智能算法對掃描數(shù)據(jù)進行處理。雖然這些技術(shù)能夠提高高鐵運行的安全性、可靠性和經(jīng)濟效益,但是還存在諸多不足,如安裝和維修這些檢測系統(tǒng)需要耗費大量資金和人力資源,受環(huán)境因素影響較大,在不同環(huán)境因素會對這些傳感器產(chǎn)生干擾,誤判率較高,從而影響檢測的準確率。
近年來,隨著人工智能技術(shù)的迅速發(fā)展,其在計算機視覺領(lǐng)域被廣泛應(yīng)用,基于人工智能深度學習的目標檢測算法在高鐵異物檢測方面也取得了重要進展。在使用目標檢測算法對鐵路軌道異物檢測任務(wù)中,俞軍燕等[6]提出了一種基于改進MobileNet模型的航拍視頻軌道異物檢測方法,能有效檢測出航拍視頻中的軌道異物,但是存在誤檢和漏檢的問題。張劍等[7]使用YOLOv3 設(shè)計出一種高鐵異物檢測方法,但是該模型的參數(shù)量較大導致檢測效率較低。管嶺等[8]提出了一種基于改進YOLOv4-tiny 的軌道異物入侵檢測輕量級模型,模型參數(shù)量和體積分別降低50% 和55% ,很大程度上提升了網(wǎng)絡(luò)的實時性,但是檢測精度僅達到66. 3% 。葉濤等[9]設(shè)計出一種基于LAM-Net 的軌道入侵異物自主檢測系統(tǒng),可以實現(xiàn)在復雜的鐵路軌道交通情況下對異物的檢測,檢測精度為92. 96% ,但是模型尺寸較大,不易部署在邊緣設(shè)備上。因此,上述研究不能滿足實際工作中的檢測需求,模型的檢測精度和效率還有待進一步提升。
為了解決上述問題,本文提出一種基于改進YOLOv7 的高鐵異物檢測算法,在檢測效率和精度之間取得了較好的平衡。在YOLOv7 網(wǎng)絡(luò)的引入上采樣算子CARAFE,可以擴大網(wǎng)絡(luò)的感受野和提升網(wǎng)絡(luò)的檢測性能;將GhostConv 卷積引入網(wǎng)絡(luò)的ELAN 和ELANW 模塊,可以有效減少計算量和參數(shù)量,從而提升檢測效率;其次引入GAM 注意力機制,使模型更具有小目標區(qū)域的針對性,從而提高網(wǎng)絡(luò)的檢測性能;最后,為解決CIoU 損失函數(shù)在小目標檢測中收斂不穩(wěn)定的問題,選擇Alpha_GIoU 函數(shù)去替代CIoU 損失函數(shù),可以提升模型的收斂速度和小目標檢測能力。
1 改進YOLOv7 的網(wǎng)絡(luò)結(jié)構(gòu)
1. 1 YOLOv7 網(wǎng)絡(luò)架構(gòu)
YOLOv7 是You Only Look Once(YOLO)系列的最新算法,在目標檢測領(lǐng)域應(yīng)用廣泛[10-11]。與其他YOLO 系列網(wǎng)絡(luò)模型相比,YOLOv7 在結(jié)構(gòu)上進行了優(yōu)化和創(chuàng)新,使其在檢測精度、速度和適應(yīng)性方面都得到了顯著提升。
YOLOv7 的檢測思路與YOLO 系列的其他網(wǎng)絡(luò)模型相似,其結(jié)構(gòu)如圖1 所示,主要由輸入端(input)、主干網(wǎng)絡(luò)(backbone)、頭部網(wǎng)絡(luò)(head)和預測頭(prediction)組成。輸入端的主要作用是對輸入的圖像進行一系列預處理操作,包括Mosaic 數(shù)據(jù)增強、自適應(yīng)錨框計算以及圖片縮放等。
主干網(wǎng)絡(luò)由若干CBS 卷積模塊、ELAN 模塊及MP1 模塊組成。CBS 模塊由卷積層、批量標準化BN 層和SiLU 激活函數(shù)組成。ELAN 模塊由若干個卷積模塊組成,通過控制最短最長的梯度路徑,從而更有效地學習和收斂。
頭部網(wǎng)絡(luò)主要包括SPPCSPC 模塊、ELANW 模塊、UPsmaple 模塊和MP-2 模塊。它對主干網(wǎng)絡(luò)的輸出圖像進行特征處理,采用路徑聚合特征金字塔網(wǎng)絡(luò)(Path Aggregtion Feature Pyramid Network,PAF-PN)結(jié)構(gòu)進行多尺度的特征融合[12]。采用自上而下的結(jié)構(gòu),將深層的強語義特征傳遞下來,對整個金字塔進行特征加強;通過自下而上的結(jié)構(gòu),將淺層的圖像結(jié)構(gòu)、顏色、邊緣和位置等特征信息傳遞上去,從而實現(xiàn)不同層次特征高效融合。
預測頭采用REP 結(jié)構(gòu)(降低誤差剪枝法),對PAFPN 結(jié)構(gòu)輸出的P3、P4、P5 特征進行通道數(shù)調(diào)整。最后,將這些特征送入一個1 ×1 的卷積模塊,用于預測圖像的置信度、類別和錨框信息,并生成最終的檢測結(jié)果。
1. 2 上采樣算子CARAFE
在YOLOv7 網(wǎng)絡(luò)模型中的UPsample 模塊使用最鄰近插值的方式完成上采樣操作。即對于圖像的每一個像素點,選取距離該像素點最近的一個像素作為它的像素值,而忽略了其他3 個相鄰像素值的影響,從而造成插值生成的圖像灰度上的不連續(xù),在灰度變化的地方存在明顯的鋸齒狀。因此為了更好地對高鐵異物進行檢測,本文使用上采樣算子CA-RAFE[13] 對該網(wǎng)絡(luò)的上采樣算法進行替換。CARAFE 在引入較少參數(shù)和計算量的情況下,可以擴大網(wǎng)絡(luò)的感受野,還可以減少對輸入圖像的處理過程中特征信息的損失,從而提高異物檢測的性能。
CARAFE 由2 個模塊組成,分別是上采樣核預測模塊和特征重組模塊,其結(jié)構(gòu)如圖2 所示。假設(shè)上采樣倍率為σ,給定一個形狀為H×W×C 的輸入特征圖,CARAFE 首先利用上采樣核預測模塊預測上采樣核,然后利用特征重組模塊完成上采樣,得到形狀為σH×σW×C 的輸出特征圖。
1. 3 GhostConv 卷積。
由于卷積神經(jīng)網(wǎng)絡(luò)的不斷演進和嵌入式設(shè)備需求的增加,在有限的內(nèi)存和計算資源下部署更高效、更輕量級的神經(jīng)網(wǎng)絡(luò)已成為卷積神經(jīng)網(wǎng)絡(luò)未來發(fā)展的趨勢。Han 等[14]充分揭示了特征圖潛在信息的本質(zhì)特征,并利用特征圖的冗余特性進行一系列成本低廉的線性變換,提出了一種更輕量級的卷積模塊GhostConv。本文利用這種輕量級的GhostConv 模塊替代YOLOv7 模型中的ELAN 和ELAN-W 模塊中的部分普通卷積模塊,用來減少網(wǎng)絡(luò)的計算量和參數(shù)量。普通卷積與GhostConv 卷積分別如圖3 和圖4 所示,顯示了普通卷積與GhostConv 卷積的區(qū)別。
GhostConv 卷積在少量傳統(tǒng)卷積的基礎(chǔ)上進行了廉價的線性運算,將普通卷積分為兩部分:第一部分是進行普通卷積,但嚴格控制普通卷積的數(shù)量;第二部分是利用普通卷積給出的固有特征映射,進行一系列簡單的線性運算,生成更多的特征映射,然后將2 次獲得的特征圖連接起來,形成新的輸出。這樣可以在保證模型性能的情況下,大幅度減少參數(shù)和計算量,從而實現(xiàn)更高效、更輕量級的神經(jīng)網(wǎng)絡(luò)部署。設(shè)h、w 和c 為輸入特征的高、寬和通道數(shù),輸出特征的高度和寬度為H 和W,卷積核數(shù)量為n,卷積核大小為k,線性變換卷積核大小為d,變換數(shù)量為s。rs 和rc 分別為普通卷積和GhostConv 卷積的計算量和參數(shù)量之比,計算如下:
結(jié)合式(1)和式(2)可以看出,計算量和參數(shù)量之比受變換數(shù)量s 的影響,即生成特征圖越多,模型加速效果越好。由此可知,在模型中引入GhostConv卷積可以有效地減少模型的計算量和參數(shù)量,提高模型的運行速度和效率。
1. 4 GAM 注意力機制
注意力機制最早起源于對人類視覺的研究,模擬了人類選擇性地關(guān)注某些可見信息而忽略其他信息以合理利用有限的視覺處理資源的現(xiàn)象,通過只選擇輸入信息的一部分或者對輸入信息的不同部分賦予不同的權(quán)重來解決信息冗余的問題,同時用于提高神經(jīng)網(wǎng)絡(luò)的表達能力和泛化能力。
為了較好地平衡模型的輕量化和檢測精度,本文提出將GAM 注意力機制[15]添加到YOLOv7 網(wǎng)絡(luò)中。GAM 重新設(shè)計了CBAM 的子模塊,具有通道注意力機制模塊和空間注意力機制2 個模塊。通過選擇性聚焦于通道和空間的期望部分來提取相關(guān)信息,在三維通道、空間寬度和空間高度上捕獲重要特征,以提高模型的識別精度。GAM 注意力機制的整體結(jié)構(gòu)如圖5 所示。
通道注意力子模塊使用三維排列來保存3 個維度的信息,采用多層感知器放大跨維通道空間相關(guān)性??臻g注意力子模塊采用了2 個7 ×7 的卷積層進行空間信息融合。通過減小信息離散度,增強全局信息交互能力,增強網(wǎng)絡(luò)的表達能力,使模型更具有目標區(qū)域的針對性,從而提高網(wǎng)絡(luò)的檢測性能。
1. 5 Alpha_GIoU 損失函數(shù)
YOLOv7 網(wǎng)絡(luò)模型的總損失函數(shù)為3 種不同損失的加權(quán)和,其中包括定位損失(LCIoU )、置信度損失(Lobj)和分類損失(Lcls )。YOLOv7 中的損失函數(shù)如式(3)所示。其中,置信度損失和分類損失函數(shù)使用二元交叉熵損失,定位損失使用CIoU 損失函數(shù)。CIoU 損失函數(shù)如式(4)所示。
式中:ρ 表示預測框和真實框之間的歐幾里得距離,(b,bgt)表示預測框與真實框的中心點坐標,c 表示能夠同時能夠包含預測框和真實框的最小外接矩形的對角線距離,β 表示平衡參數(shù),wgt / hgt 和w / h 分別表示真實框和預測框的寬度和高度的比值;變量v用來衡量寬度和高度的比值是否一致,且從式(6)可以看出,當預測框與真實框的寬高比相等時,v 為0,將無法穩(wěn)定地表達寬高比的懲罰項。同時這種傳統(tǒng)的CIoU 損失函數(shù)只考慮了真實框與預測框的距離、重疊區(qū)域和縱橫比,而沒有考慮真實框與預測框的夾角,導致模型的收斂速度較慢。其次,CIoU 損失函數(shù)在處理小目標時表現(xiàn)不佳,容易產(chǎn)生過度擬合的情況。此外,CIoU 損失函數(shù)對目標邊界框的大小和位置變化比較敏感,如果目標邊界框與預測邊界框之間存在較大的偏移或畸變,將會導致?lián)p失函數(shù)值的不穩(wěn)定性。
與CIoU 損失函數(shù)相比,Alpha_GIoU 損失函數(shù)的計算方式更簡單,模型的訓練速度也會更快;同時考慮了目標框之間的長寬比和位置關(guān)系,可以更精確地計算2 個目標框的重疊程度,從而加快模型收斂速度;在檢測小目標時,CIoU 損失函數(shù)可能會因為分母較小而導致梯度消失或爆炸的問題,而Alpha_GIoU 損失函數(shù)采用了平方根形式的約束項,對小目標的檢測效果更好。Alpha_GIoU 是一種基于GIoU 損失函數(shù)的冪函數(shù),通過調(diào)整參數(shù)α 的值以滿足不同的回歸精度。Alpha_GIoU 損失函數(shù)的計算公式如下:
式中:C 為預測框與真實框的最小限界矩形,Bp 和Bgt 分別為預測框和真實框之間的并集區(qū)域,當預測框和真實框之間出現(xiàn)重合現(xiàn)象時,α 為功率參數(shù),當α = 1 時,Alpha_GIoU 損失函數(shù)即為原始的GIoU 損失函數(shù)。
因此,本文最終選擇Alpha_GIoU 損失函數(shù)替代基準模型中的CIoU 損失函數(shù),并將功率參數(shù)α 設(shè)置為3。
2 實驗和分析
2. 1 實驗環(huán)境和超參數(shù)
本文所有實驗均在同一實驗環(huán)境上完成,實驗環(huán)境具體配置信息如表1 所示。
訓練網(wǎng)絡(luò)模型時,優(yōu)化器為隨機梯度下降(Sto-chastic Gradient Descent,SGD),將迭代次數(shù)設(shè)置為300,權(quán)重衰減系數(shù)設(shè)置為0. 000 5,初始學習率設(shè)置為0. 001,學習率動量設(shè)置為0. 937,批量大小設(shè)置為16。
2. 2 實驗數(shù)據(jù)集
本文所使用的實驗數(shù)據(jù)集為自建數(shù)據(jù)集,該數(shù)據(jù)集包括貴州境內(nèi)的幾個高鐵站站臺的部分監(jiān)控視頻素材,以及一部分網(wǎng)絡(luò)上收集到的高鐵軌道異物入侵圖像,包含人、石頭、汽車、狗、牛、羊和火車7 種對象。經(jīng)過篩選后,該數(shù)據(jù)集共有3 000 張圖像,圖像分辨率為1 920 pixel×1 080 pixel,部分數(shù)據(jù)集示例如圖6 所示。
2. 3 圖像預處理
針對數(shù)據(jù)集樣本較少易造成模型訓練時出現(xiàn)過擬合的情況,為增強模型泛化性和魯棒性,本文將對所有原始圖像進行預處理操作。首先將原始圖像的分辨率都調(diào)整為640 pixel×640 pixel,然后對該數(shù)據(jù)集進行數(shù)據(jù)增強操作,即對每一張圖像做椒鹽噪聲、顏色抖動和翻轉(zhuǎn)以及調(diào)整圖像對比度操作,該數(shù)據(jù)集由原來的3 000 張圖像擴充為12 000 張。根據(jù)YOLOv7 網(wǎng)絡(luò)訓練的所需格式,使用LabelImg 工具對12 000 張圖像分別進行標注,包含軌道異物的位置和類別信息。然后按照8 ∶ 1 ∶ 1 的比例劃分數(shù)據(jù)集,其中訓練集9 600 張、測試集1 200 張、驗證集1 200 張。
2. 4 評價指標
在目標檢測過程中,通過檢測圖像來定性評價和評估模型性能,即比較是否存在錯檢、漏檢的情況。本文的實驗采用了多個指標來衡量模型檢測性能,包括所有類別的平均檢測精度均值(meanAverage Precision,mAP )、參數(shù)量(Parameters,Pa-rams)、計算量(GFLOPs)和平均每秒推理速度(Frames Per Second,FPS)。在計算mAP 時,需要先計算每個類別的平均精度(Average Precision,AP),其表示數(shù)據(jù)集中該類別的檢測精度平均值,然后將不同類別的AP 值進行平均化,得到mAP,計算如下:
式中:P 表示查準率,即模型識別的正確結(jié)果在所識別的所有結(jié)果中的比率;R 表示查全率,即模型識別的正確結(jié)果在數(shù)據(jù)集中需要被識別出結(jié)果的比率;N 表示數(shù)據(jù)集中待檢測的類別數(shù)目,本實驗中N =7,即人、石頭、火車、狗、牛和羊7 種入侵異物。
FPS 幀率是指網(wǎng)絡(luò)每秒鐘可預測的圖片數(shù)量,FPS 越高,網(wǎng)絡(luò)的推理速度越快。模型的FPS 越高,就能更好地滿足實時檢測需求。
2. 5 實驗
2. 5. 1 不同訓練策略實驗
為了研究不同邊界損失函數(shù)和注意力機制模塊對本文改進算法的性能影響,分別設(shè)置了2 組對比實驗,2 組實驗硬件環(huán)境和其他參數(shù)均相同。表2和表3 分別展示了不同損失函數(shù)和對本文模型的檢測效果影響。通過表2 的不同損失函數(shù)對比實驗結(jié)果可以看出,損失函數(shù)的改變對模型的FPS 影響不大,但是當引入Alpha_GIoU 損失函數(shù)時,該模型的mAP@ 0. 5 和mAP@ 0. 5:0. 95 都是最高的,因此選擇Alpha _ GIoU 損失函數(shù)替換YOLOv7 模型中的CIoU 損失函數(shù)。從表3 不同注意力機制模塊對比實驗結(jié)果可知,在基準模型中分別引進3 種注意力機制后,模型的參數(shù)量均變化不大,但是加入GAM注意力機制的模型的mAP@ 0. 5 和mAP@ 0. 5:0. 95在3 種注意力機制中是最高的。
為了進一步探究GAM 注意力機制的最優(yōu)應(yīng)用位置,以達到最佳的檢測效果,本文設(shè)計了3 組實驗,實驗結(jié)果如表4 所示。第一組實驗是在backbone 網(wǎng)絡(luò)的3 個輸出層之后添加GAM 注意力機制;第二組實驗是將GAM 注意力機制替換MP-2模塊中的一個CBS 模塊;第三組實驗是在backbone網(wǎng)絡(luò)的最后一層和head 網(wǎng)絡(luò)的3 個輸出層之后添加GAM 注意力機制。通過表1 的實驗結(jié)果可以發(fā)現(xiàn),第二組和第三組實驗都能夠提升模型的精度,而且只帶來了較小的計算開銷,但是第三組實驗效果更好。基于此,本文在backbone 網(wǎng)絡(luò)的最后一層和head 網(wǎng)絡(luò)的3 個輸出層之后添加GAM 注意力機制。
2. 5. 2 消融實驗
為了驗證本文所提出的各種改進策略的效果,需要設(shè)計消融實驗來進行驗證。在相同實驗條件下,通過消融實驗對比分析各種改進策略給模型的檢測效果帶來的影響。消融實驗的對比結(jié)果如表5所示。
從表5 可以看出,在基準模型中引入CARAFE算子后,參數(shù)量和計算量變化不大,但是可以擴大模型的感受野和減少特征提取過程中的信息損失,從而使模型的mAP @ 0. 5 提升0. 5% ;引入輕量級的GhostConv 卷積后,較初始網(wǎng)絡(luò)模型,mAP @ 0. 5 降低1. 5% ,以損失模型的檢測精度為代價,使得參數(shù)量和計算量分別減少4. 97 MB 和16. 6 GFLOPs,同時使模型的FPS 提升31. 4;引入GAM 注意力機制之后,可以在三維通道、空間寬度和空間高度上捕獲輸入圖像的重要特征,以提高模型的識別精度,較初始網(wǎng)絡(luò)模型,mAP@ 0. 5 提升1. 3% ;當把CARAFE算子、GhostConv 卷積、GAM 注意力機制和Alpha _GIoU 損失函數(shù)同時引入到YOLOv7 網(wǎng)絡(luò)中時,較基準模型,參數(shù)量減少了4. 8 MB,計算量減少了16. 3 GFLOPs,FPS 增加了31. 1,mAP@ 0. 5 提升了1. 6% 。上述消融實驗表明,在基準模型模型中引入GhostConv 卷積,可以很大程度上減少該模型的參數(shù)量和計算量,雖然會使平均檢測精度均值會有一點降低,但是通過引入CARAFE 算子、GAM 注意力機制和Alpha_GIoU 損失函數(shù),可以彌補GhostConv 卷積所帶來的精度的下降,同時還可以加快模型的檢測速度。因此,通過上述改進可以使本文的模型在檢測精度和檢測速度上取得較好的平衡。
2. 5. 3 不同模型對比實驗
為了評估本文所提出的改進算法的可行性與有效性,本文將最終提出的算法與YOLOv7、YOLOv7tiny、YOLOv6[16]、YOLOv5s[17]、YOLOv4[18]、YOLOv3SPP[19]、RetinaNet[20]、SSD[21]、Faster R-CNN[22]算法在本文的數(shù)據(jù)集上進行實驗對比,實驗結(jié)果如表6所示。
從表6 可知,本文提出的YOLOv7-CGGA 改進算法相較于其他算法模型,在mAP@ 0. 5 上最高,同時FPS 也取得較好的表現(xiàn)。其中相較于參數(shù)量最少的YOLOv7-tiny 網(wǎng)絡(luò),雖然它的參數(shù)量僅有6. 03 MB、FPS 高達114,但是該網(wǎng)絡(luò)的檢測精度僅為88. 7% ;相比于檢測速度較相近的YOLOv5s 算法和YOLOv6-tiny 算法,本文提出的算法在平均檢測精度均值上有明顯優(yōu)勢,其精度比YOLOv5s 高12. 5% ,比YOLOv6-tiny 高10. 6% ;相較于其他的網(wǎng)絡(luò)如SSD、Faster R-CNN、RetinaNet、YOLOv3-SPP 以及YOLOv4算法,本文所提算法的FPS 均高于這些網(wǎng)絡(luò),且檢測精度分別高了31. 2% 、26. 5% 、28. 2% 、14. 4% 和15% 。與上述所有算法相比,本文提出的基于改進YOLOv7 的高鐵異物檢測算法不僅在檢測精度上達到了96. 7% ,同時保持較好的實時性,整體表現(xiàn)顯著,證明了本文所提出的改進算法的可行性和有效性。
2. 5. 4 檢測效果分析
為了更好地驗證本文算法,將對基準模型YOLOv7 網(wǎng)絡(luò)改進前后的檢測效果進行對比分析,如圖7 所示。圖7(a)出現(xiàn)了漏檢現(xiàn)象,圖7(c)和圖7(e)都出現(xiàn)了誤檢現(xiàn)象,在圖中都用紅色虛線方框做了標記;而圖7(b)、圖7(d)和圖7(f)中檢測出所有的目標且有著更高的檢測精度。這表明在復雜的高鐵軌道背景下,本文算法擁有更好的檢測效果。
3 結(jié)束語
本文提出一種YOLOv7-CGGA 的高鐵異物檢測算法,可以對高鐵軌道上的常見入侵異物進行實時穩(wěn)定的檢測,應(yīng)用于軌道的日常檢測和維修。首先將上采樣算法替換為CARAFE 算子,解決了上采樣過程中圖像出現(xiàn)不連續(xù)和鋸齒狀的問題;其次在YOLOv7 網(wǎng)絡(luò)中將普通卷積替換為GhostConv 卷積,可以減少模型的參數(shù)量和計算量,加快模型的檢測速度;然后在主干網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)中添加GAM 注意力機制模塊,增強對目標區(qū)域的感知能力,從而提升網(wǎng)絡(luò)的檢測性能;最后使用Alpha_GIoU 損失函數(shù)替換YOLOv7 網(wǎng)絡(luò)中的CIoU 損失函數(shù),提升小目標的檢測能力和模型的收斂速度。多次實驗驗證表明,本文改進算法的mAP 和FPS 分別到達了96. 7% 和96. 1,較基準模型相比,分別提升了1. 6%和31. 1,可以用于實際的高鐵軌道異物檢測工作。
參考文獻
[1] 胡昊. 面向高鐵運行環(huán)境安全的侵限監(jiān)測關(guān)鍵技術(shù)研究[D]. 北京:中國鐵道科學研究院,2022.
[2] 李志南,劉瑋,韓麗娟,等. 基于二維LiDAR 的軌道侵入異物檢測系統(tǒng)與方法研究[J]. 光電子· 激光,2020,31(3):262-268.
[3] 林向會. 基于視頻分析的鐵路異物侵限檢測系統(tǒng)的設(shè)計[D]. 貴陽:貴州大學,2021
[4] WANG X,CHEN F E,LIANG X M. Foreign BodyIntrusion Detection Algorithm for Track Surveillance Systems in Smart Cities[C]∥2020 Chinese Automation Congress (CAC). Shanghai:IEEE. 2020:5209-5213.
[5] LIU K Y,LI L F,TAN F G. A Design of IntelligentForeign Object Intrusion Detection System in Subway Station Track Area[C]∥ Sixth International Conference onTransportation Engineering. Chengdu:[s. n. ],2020:1092-1097.
[6] 俞軍燕,黃皓冉,楊毅,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的航拍視頻軌道異物檢測方法[J]. 城市軌道交通研究,2022,25(10):91-97.
[7] 張劍,王等準,莫光健,等. 基于改進YOLOv3 的高鐵異物入侵檢測算法[J]. 計算機技術(shù)與發(fā)展,2022,32(2):69-74.
[8] 管嶺,賈利民,謝征宇. 融合注意力機制的軌道入侵異物檢測輕量級模型研究[J]. 鐵道學報,2023,45(5):72-81.
[9] 葉濤,趙宗揚,鄭志康. 基于LAMNet 的軌道侵入界異物自主檢測系統(tǒng)[J]. 儀器儀表學報,2022,43 (9):206-218.
[10]WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7:Trainable Bagoffreebies Sets New Stateoftheart forRealtime Object Detectors[C]∥2023 IEEE / CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:7464-7475.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al. You OnlyLook Once:Unified,Realtime Object Detection [C]∥2016 IEEE Conference on Computer Vision and PatternRecognition. Las Vegas:IEEE,2016:779-788.
[12] GE Z,LIU S T,WANG F,et al. YOLOX:ExceedingYOLO Series in 2021[EB / OL]. (2021-07-18)[2023-05-11]. https:∥arxiv. org / abs / 2107. 08430v2.
[13] WANG J Q,CHEN K,XU R,et al. CARAFE:Contentaware Reassembly of Features[C]∥2019 IEEE / CVF International Conference on Computer Vision. Seoul:IEEE,2019:3007-3016.
[14] HAN K,WANG Y H,TIAN Q,et al. GhostNet:More Features from Cheap Operations[C]∥2020 IEEE / CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:1577-1586.
[15] LIU Y C,SHAO Z R,HOFFMANN N. Global AttentionMechanism:Retain Information to Enhance Channelspatial Interactions [EB / OL]. (2021 - 12 - 10 )[2023 -05-11]. https:∥arxiv. org / abs / 2112. 05561.
[16] LI C Y,LI L L,JIANG H L,et al. YOLOv6:A SinglestageObject Detection Framework for Industrial Applications[EB / OL]. (2022-09-07)[2023-05-11]. https:∥arxiv.org / abs/ 2209. 02976.
[17] ZHU X K,LYU S C,WANG X,et al. TPHYOLOv5:Improved YOLOv5 Based on Transformer Prediction Headfor Object Detection on Dronecaptured Scenarios[C]∥2021 IEEE / CVF International Conference on ComputerVision. Montreal:IEEE,2021:2778-2788.
[18] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. YOLOv4:Optimal Speed and Accuracy of Object Detection [EB /OL]. (2020 - 04 - 23)[2023 - 05 - 11]. https:∥ arxiv.org / abs / 2004. 10934.
[19] PEBRIANTO W,MUDJIRAHARDJO P,PRAMONO S H,et al. YOLOv3 with Spatial Pyramid Pooling for ObjectDetection with Unmanned Aerial Vehicles [EB / OL ].(2023-05-21)[2023-05-24]. https:∥arxiv. org / abs /2305. 12344.
[20] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal Loss forDense Object Detection [C]∥ 2017 IEEE InternationalConference on Computer Vision. Venice:IEEE,2017:2999-3007.
[21] LIU W,ANGUELOV D,ERHAN D,et al. SSD:SingleShot Multibox Detector [C]∥ Computer Vision - ECCV2016. Amsterdam:Springer,2016:21-37.
[22] REN S Q,HE K M,GIRSHICK R,et al. Faster RCNN:Towards Realtime Object Detection with Region ProposalNetworks[J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2017,39(6):1137-1149.
作者簡介
晏 朋 男,(1999—),碩士研究生。主要研究方向:圖像處理和目標檢測。
李遇鑫 男,(1998—),碩士研究生。主要研究方向:計算機視覺和目標檢測。
李治林 男,(1997—),碩士研究生。主要研究方向:圖像處理和目標檢測。
王等準 男,(1997—),碩士研究生。主要研究方向:圖像處理和自動駕駛。
李修? 女,(2000—),碩士研究生。主要研究方向:圖像處理和目標檢測。
余 梅 女,(1998—),碩士研究生。主要研究方向:圖像處理。
(*通信作者)謝本亮 男,(1978—),博士,副教授。主要研究方向:計算機視覺、深度學習。
基金項目:貴州省基礎(chǔ)研究計劃(自然科學類)項目(黔科合基礎(chǔ)-ZK[2023]一般060);半導體功率器件教育部工程研究中心開放基金項目(ERCMEKFJJ2019-(06)