[摘 要]隨著世界工業(yè)化的發(fā)展,自卸卡車可極大地降低人力成本,加快工作效率,在露天礦區(qū)得到了廣泛應(yīng)用。然而,卡車電動(dòng)輪的主機(jī)架在使用約2萬~4萬 h 后易出現(xiàn)開裂現(xiàn)象,需要進(jìn)行維修。目前的裂紋檢測主要通過人工目測和物理方法進(jìn)行。然而,這些方法在日常維護(hù)時(shí)難以實(shí)現(xiàn),無法滿足快速、實(shí)時(shí)檢測的要求。針對(duì)現(xiàn)有算法的問題,開發(fā)了基于改進(jìn)YOLOv9 的自卸卡車電動(dòng)輪主機(jī)架裂紋檢測算法。對(duì)收集到的圖像進(jìn)行了人工標(biāo)注,并制作成數(shù)據(jù)集。模型使用YOLOv9 網(wǎng)絡(luò)并將骨干網(wǎng)絡(luò)中Conv 替換為Ghost Module,減少模型參數(shù)與冗余計(jì)算。實(shí)驗(yàn)結(jié)果表明,該模型識(shí)別準(zhǔn)確度為93%,在保證實(shí)時(shí)性的基礎(chǔ)上,具備較高的準(zhǔn)確度。
[關(guān)鍵詞]改進(jìn)YOLOv9 ;電動(dòng)輪主機(jī)架;開裂檢測
[中圖分類號(hào)]TP391.41 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]2095–6487(2024)09–0153–03
近年來,在露天礦區(qū)使用的220 t 級(jí)自卸卡車電動(dòng)輪大修時(shí)發(fā)現(xiàn)部分卡車電動(dòng)輪主機(jī)架存在開裂現(xiàn)象,且開裂數(shù)量較多。該故障已經(jīng)成為影響 220 t 卡車安全運(yùn)行的一個(gè)主要因素。電動(dòng)輪主機(jī)架開裂現(xiàn)象在日常檢修時(shí)難以察覺,只有在電動(dòng)輪整機(jī)拆解時(shí)才能進(jìn)行檢測,電動(dòng)輪運(yùn)行期間存在較大隱患,所以如何實(shí)時(shí)檢測電動(dòng)輪主機(jī)架是否開裂成為了一個(gè)亟待解決的問題。
計(jì)算機(jī)視覺與深度學(xué)習(xí)的融合與發(fā)展,使得卷積神經(jīng)網(wǎng)絡(luò)(CNN)在目標(biāo)檢測、圖像分類等領(lǐng)域得到了廣泛應(yīng)用。YOLO 系列的算法在道路裂縫檢測方面具有廣泛的應(yīng)用,而電動(dòng)輪的主機(jī)架裂縫與道路裂縫相似,所以提出了基于改進(jìn)YOLOv9的電動(dòng)輪主機(jī)架開裂檢測算法。YOLOv9 解決了數(shù)據(jù)通過深度網(wǎng)絡(luò)傳輸時(shí)信息丟失的問題,是現(xiàn)階段最高效的目標(biāo)檢測算法之一。但是在資源有限的設(shè)備上運(yùn)行時(shí),YOLOv9的實(shí)時(shí)性難以保證,因此提出使用Ghost Module 替換YOLOv9 中的Conv 層,用于減少模型參數(shù)量與冗余計(jì)算,加快模型的推理時(shí)間。稱其為YOLOv9-GM。
1 YOLOv9原理介紹
深度神經(jīng)網(wǎng)絡(luò)中普遍存在信息瓶頸問題,即數(shù)據(jù)X 在進(jìn)行變換時(shí)可能會(huì)導(dǎo)致信息丟失,隨著深度神經(jīng)網(wǎng)絡(luò)的層數(shù)越多,原始信息的丟失越嚴(yán)重。這將導(dǎo)致梯度不可靠與網(wǎng)絡(luò)收斂性差。解決信息瓶頸問題的方法之一是使用可逆函數(shù)??赡婧瘮?shù)在對(duì)數(shù)據(jù)X 進(jìn)行變換時(shí),原始數(shù)據(jù)不會(huì)丟失。PreAct-ResNet 中原始數(shù)據(jù)X 以完整的形式在網(wǎng)絡(luò)中傳遞,即使在網(wǎng)絡(luò)層數(shù)在1 000 層以上也可以很快收斂。但是這種方法當(dāng)層數(shù)較少時(shí),難以找到簡單的映射函數(shù)來將數(shù)據(jù)映射到目標(biāo)。PGI(可編程梯度信息)可為目標(biāo)任務(wù)提供完整的輸入信息來計(jì)算目標(biāo)函數(shù),從而獲得可靠的梯度信息來更新網(wǎng)絡(luò)權(quán)重。GELAN(高效層聚合網(wǎng)絡(luò))僅使用傳統(tǒng)的卷積算子實(shí)現(xiàn)了比基于最先進(jìn)技術(shù)的深度卷積設(shè)計(jì)更高的參數(shù)利用率,同時(shí)顯示出輕量、快速和準(zhǔn)確的巨大優(yōu)勢?;诂F(xiàn)階段硬件對(duì)于傳統(tǒng)卷積算子的優(yōu)化,YOLOv9 具有更快的運(yùn)行速度。
1.1 PGI
PGI 由主分支、輔助可逆分支和多級(jí)輔助信息3個(gè)部分組成。輔助可逆分支生成可靠的梯度來更新網(wǎng)絡(luò)參數(shù),確保損失函數(shù)根據(jù)完整的信息計(jì)算出可靠的損失。多級(jí)輔助信息處理深度監(jiān)管導(dǎo)致的誤差累積問題。
1.1.1 AuxiliaryReversible Branch——輔助可逆分支
輔助可逆分支是深度監(jiān)管分支的拓展,主分支能夠從輔助可逆分支中接收可靠的梯度信息。這些梯度信息將驅(qū)動(dòng)參數(shù)學(xué)習(xí),來幫助主分支提取由于信息瓶頸而丟失的重要信息。但是,輔助可逆分支也是費(fèi)時(shí)的,其推理時(shí)間最大將增加20%。所以,在YOLOv9 中,輔助可逆分支將在推理截?cái)嗳コ?,保留了原始網(wǎng)絡(luò)的推理能力。針對(duì)可逆網(wǎng)絡(luò)在較淺的網(wǎng)絡(luò)表現(xiàn)不佳問題,PGI 中不強(qiáng)迫主分支保留完整信息,而是通過輔助監(jiān)督機(jī)制生成可靠的梯度來更新主分支中的參數(shù),其可以應(yīng)用于較淺的網(wǎng)絡(luò)。
1.1.2 Multi-level Auxiliary Information——多級(jí)輔助信息
多級(jí)輔助信息是針對(duì)多個(gè)預(yù)測分支的深度監(jiān)督架構(gòu)中特征金字塔會(huì)丟失預(yù)測目標(biāo)對(duì)象所需的大量信息而設(shè)計(jì)的。多級(jí)輔助信息的概念是在輔助監(jiān)督的特征金字塔層次層和主分支之間插入一個(gè)集成網(wǎng)絡(luò),對(duì)來自不同預(yù)測頭的梯度信息進(jìn)行組合,并且傳遞到主分支,驅(qū)動(dòng)主分支的參數(shù)更新。
1.2 Generalized ELAN——廣義GELAN
廣義GELAN 是結(jié)合兩種神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),帶有梯度路徑規(guī)劃的 CSPNet 和 ELAN。其目的是實(shí)現(xiàn)輕量化、推理速度和準(zhǔn)確性。
卷積層的輸出特征具有一定的冗余,即特征圖在不同通道之間具有高度的相似性。
Ghost Module 將相似的特征由內(nèi)在特征變換生成。這種變換相較于卷積層,計(jì)算量大幅減少。內(nèi)在特征由傳統(tǒng)卷積生成,通常較少。這將減少大量的參數(shù)量與FLOPs。
2 試驗(yàn)與分析
2.1 數(shù)據(jù)集制作
由于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測方法需要大量的樣本驅(qū)動(dòng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí),如果樣本的數(shù)量不足,模型將難以將所有的神經(jīng)元充分訓(xùn)練,甚至產(chǎn)生過擬合使得模型在訓(xùn)練集上表現(xiàn)遠(yuǎn)優(yōu)于在測試集上的表現(xiàn)。模型的泛化能力差。數(shù)據(jù)集的制作使用現(xiàn)場拍攝的大量電動(dòng)輪主機(jī)架裂痕的圖片文件與視頻文件,將視頻文件轉(zhuǎn)換化為圖片文件時(shí),每秒抽取一張圖片,避免大量圖片的同質(zhì)化,影響模型訓(xùn)練??偣采?00 張帶有裂縫的圖片,將產(chǎn)生的圖片使用Labelimg 工具對(duì)圖片中的裂痕處進(jìn)行標(biāo)注,標(biāo)注的label 文件使用txt文件格式存儲(chǔ)。文件包含所有的數(shù)據(jù)按照4 ∶ 1 分為訓(xùn)練集和測試集。試驗(yàn)環(huán)境使用的批量大小為16。使用Adam 優(yōu)化器。epoch 為100,檢測時(shí)輸入圖片均為640×640 像素。GPU 為RTX 3090,Cuda11.2。
2.2 試驗(yàn)結(jié)果與分析
為了將模型與基線模型進(jìn)行比較,使用準(zhǔn)確率,召回率,mAP_0.5,mAP_0.5 :0.95 為主要的評(píng)估指標(biāo)。其中mAP_0.5 為IoU 設(shè)為0.5 時(shí),計(jì)算每一類的平均準(zhǔn)確度,然后所有類別求平均,即mean AveragePrecision(mAP)。mAP_0.5 :0.95 即為在不同IoU 閾值(從0.5 到0.95,步長0.05)上的平均mAP。
Precision,即分類正確的正樣本個(gè)數(shù)占分類器分成的所有正樣本個(gè)數(shù)的比例,計(jì)算如下:
P=TP/TP+FP(1)
Recall,即分類正確的正樣本個(gè)數(shù)占正樣本個(gè)數(shù)的比例,計(jì)算如下:
R=TP/TP+FN(2)
式(1)和式(2)中,TP:真正,被模型分類正確的正樣本;FN:假負(fù),被模型分類錯(cuò)誤的正樣本;FP:假正,被模型分類錯(cuò)誤的負(fù)樣本;TN:真負(fù),被模型分類正確的負(fù)樣本。
本試驗(yàn)主要用于電動(dòng)輪主機(jī)架開裂目標(biāo)檢測,輸出中只有兩種情況,即有開裂現(xiàn)象或者無開裂現(xiàn)象。
YOLOv9-GM 與YOLOv9 試驗(yàn)結(jié)果對(duì)比見表1。
由試驗(yàn)結(jié)果可以得出,YOLOv9 mAP_0.5 達(dá)到了99%, 但在參數(shù)量方面YOLOv9-GM 具有明顯優(yōu)勢。YOLOv9-GM 在保持高準(zhǔn)確度的基礎(chǔ)上,將Yolov9 的模型參數(shù)量縮減了7%,Ghost Module 減少了大量的參數(shù)量與FLOPs。識(shí)別到開裂現(xiàn)象的準(zhǔn)確度達(dá)到99.5%,召回率也達(dá)到了99.8%,這代表著數(shù)據(jù)集中開裂的類別得到了全面的檢測。在IoU 的閾值大于0.5 時(shí),平均識(shí)別準(zhǔn)確度在99%,模型可準(zhǔn)確的識(shí)別到電動(dòng)輪主機(jī)架開裂的位置。在檢測結(jié)果中,YOLOv9-GM 目標(biāo)檢測算法在電動(dòng)輪主機(jī)架開裂檢測方面取得了良好的檢測效果。
為了驗(yàn)證算法在YOLO 系列中的檢測性能,將YOLOv9-GM 與YOLOv5s、YOLOv7 的YOLO 系列模型進(jìn)行比較。這3 種算法對(duì)裂縫檢測的結(jié)果見表2。
從表2 中可以看出,YOLOv9-GM 與YOLOv5s、YOLOv7 相比, 在準(zhǔn)確度方面分別提高了2.1% 與4.2%, 并且分別提高了3.3%、1.1% 的mAP_0.5。YOLOv7 采用了swish 激活函數(shù),相較于YOLOv5s使用的ReLU 激活函數(shù),swish 激活函數(shù)具有更好的非線性表達(dá)能力,所以相較于YOLOv5s,YOLOv7在mAP_0.5 上提高了2.2%,在mAP_0.5 :0.95 上提高了3.3%。
3 結(jié)束語
對(duì)YOLOv9 進(jìn)行輕量化的改進(jìn),為自卸卡車電動(dòng)輪主機(jī)架開裂檢測提供了高性能,低時(shí)延的方法。該方法不需要設(shè)計(jì)專家特征或者對(duì)圖像預(yù)處理,可實(shí)時(shí)性的對(duì)主機(jī)架的開裂情況做出處理。通過多組試驗(yàn)對(duì)改進(jìn)的YOLOv9 模型進(jìn)行評(píng)估。試驗(yàn)結(jié)果表明,該模型有較強(qiáng)的識(shí)別性能,且模型復(fù)雜度較低。
然而,自卸卡車的工作環(huán)境惡劣,這對(duì)系統(tǒng)穩(wěn)定性提出了更高的要求。因此在惡劣環(huán)境下增強(qiáng)系統(tǒng)的穩(wěn)定性成為未來研究工作的重點(diǎn)。
參考文獻(xiàn)
[1] 陳嘉銳,崔得龍,邱澤環(huán),等. 基于YOLOv5s 模型的新型道路裂縫檢測系統(tǒng)[J]. 現(xiàn)代電子技術(shù),2023,46(13):62-66.
[2] 陳剛. 面向大規(guī)模圖像檢索的深度哈希方法研究[D]. 北京:北京郵電大學(xué),2020.
[3] 王偉光. 基于相變材料的太赫茲可編程超表面設(shè)計(jì)與應(yīng)用研究[D]. 北京:北京郵電大學(xué),2023.