摘 要:為了準(zhǔn)確識(shí)別不同類型鉤舌,確保自動(dòng)復(fù)鉤機(jī)器人能夠根據(jù)火車連接鉤舌狀態(tài)實(shí)時(shí)調(diào)整機(jī)械臂的位姿,提出了一種基于改進(jìn)YOLOv5的火車連接鉤舌識(shí)別方法。首先,將YOLOv5主干網(wǎng)絡(luò)中原有的C3模塊替換為梯度流豐富的C2F模塊(cross feature module),YOLOv5頸部網(wǎng)絡(luò)中原有的C3模塊替換為基于FasterNet模塊構(gòu)建的輕量化C3_FasterNet模塊,并將CoordConv模塊嵌入到Y(jié)OLOv5的主干網(wǎng)絡(luò)末端。其次,基于現(xiàn)場(chǎng)實(shí)測(cè)的火車連接鉤舌圖像進(jìn)行了識(shí)別測(cè)試。結(jié)果表明: 改進(jìn)的YOLOv5算法在降低模型參數(shù)量的同時(shí),可以有效提升對(duì)鉤舌目標(biāo)的檢測(cè)精度,火車鉤舌識(shí)別精度達(dá)到了98.7%,相較于原始算法,模型參數(shù)量減少了10.8%。研究結(jié)果為復(fù)鉤機(jī)器人在執(zhí)行鉤舌復(fù)位和車廂連接操作方面提供了一種有效的解決方案。
關(guān)鍵詞:模式識(shí)別;圖像處理;復(fù)鉤機(jī)器人;火車鉤舌;目標(biāo)識(shí)別;YOLOv5
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A
Recognition method of train connection hook tongue
based on improved YOLOv5
Abstract:
In order to accurately identify different types of train connection hook tongues and ensure that the automatic re-hook robot adjusts the pose of the robot arm in real time according to the status of the hook tongues, a train connection hook tongue recognition method based on an improved YOLOv5 model was proposed. First, the original C3 module in the YOLOv5 backbone network was replaced with the C2F module (cross feature module) of rich gradient flow, and the original C3 module in the YOLOv5 neck network was replaced with the lightweight C3_FasterNet module based on the FasterNet block, and the CoordConv module was embedded at the end of the YOLOv5 backbone network.Second, the recognition test was carried out based on the spot measured image of the train connection hook tongue. The results show that the improved YOLOv5 algorithm can effectively improve the detection accuracy of the hook tongue target while reducing the numbers of model parameters. The identification accuracy of the hook tongue reaches 98.7%, and the numbers of model parameters are reduced by 10.8% compared with the original algorithm, which can provide an effective solution for the re-hook robot in the operation of hook tongue resetting and carriage connection.
Keywords:
pattern recognition; image processing; re-hook robot; train connection hook tongue; target recognition; YOLOv5
隨著鐵路交通運(yùn)輸?shù)牟粩喟l(fā)展,火車運(yùn)輸成為重要的物流方式之一。在火車運(yùn)輸過程中,車廂之間的連接采用鉤舌連接,連接牢固且能夠承受牽引力[1-3]。在燃煤電廠輸煤系統(tǒng)翻車、卸煤過程中,需要進(jìn)行車廂的分離和連接工作,即火車連接的車鉤和鉤舌的復(fù)鉤操作。然而,人工復(fù)鉤需要操作人員手動(dòng)進(jìn)行,如果操作不當(dāng)或有疏忽,可能導(dǎo)致車廂連接不牢固,從而引發(fā)安全事故。而自動(dòng)復(fù)鉤能夠快速、準(zhǔn)確完成連接,減少人工操作,降低人員受傷的風(fēng)險(xiǎn),提高車廂的周轉(zhuǎn)率,進(jìn)而提高整個(gè)供應(yīng)鏈的作業(yè)效率。
目前關(guān)于自動(dòng)復(fù)鉤機(jī)器人的研究還比較少,文獻(xiàn)[4]設(shè)計(jì)了一種軌道式摘鉤機(jī)器人,對(duì)火車車鉤的連接手柄的識(shí)別率達(dá)到了94.1%,對(duì)復(fù)鉤機(jī)器人及對(duì)鉤舌自動(dòng)識(shí)別的研究具有較高的借鑒價(jià)值。近年來,深度學(xué)習(xí)在圖像自動(dòng)識(shí)別領(lǐng)域取得了顯著進(jìn)展[5-6]。YOLO是一種快速、簡(jiǎn)單且高效的目標(biāo)檢測(cè)算法,在處理實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)景時(shí)得到了廣泛應(yīng)用[7-8]。文獻(xiàn)[9]提出了一種改進(jìn)YOLOv5的紅外船舶目標(biāo)識(shí)別算法,通過改變損失函數(shù)優(yōu)化算法的回歸過程,避免了誤檢和漏檢的問題。文獻(xiàn)[10]提出了一種改進(jìn)YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò)模型,通過重新設(shè)計(jì)金字塔和跳躍連接,取代原有的網(wǎng)絡(luò)模型,有效捕捉目標(biāo)的跨尺度特征信息,避免梯度消失現(xiàn)象,提高目標(biāo)識(shí)別的準(zhǔn)確率。為了應(yīng)對(duì)在復(fù)雜場(chǎng)景下初始錨框難以與目標(biāo)匹配的問題,文獻(xiàn)[11]提出了一種基于YOLOv5的增強(qiáng)多尺度目標(biāo)檢測(cè)方法,改進(jìn)幅度達(dá)到5.2%。文獻(xiàn)[12]在YOLOv5模型的主干部分加入CASM(convolutional attention for spectral data modeling)注意力機(jī)制,使用真實(shí)的礦井皮帶圖像數(shù)據(jù)集測(cè)試了模型的檢測(cè)性能,mAP(mean average precision)較原始算法提升了20%,達(dá)到了95.4%。
自動(dòng)復(fù)鉤機(jī)器人需要根據(jù)火車連接鉤舌狀態(tài)實(shí)時(shí)調(diào)整機(jī)械臂的位姿,對(duì)實(shí)時(shí)性要求較高。針對(duì)該需求,本文提出了一種基于改進(jìn)YOLOv5的火車連接鉤舌目標(biāo)識(shí)別方法,通過對(duì)現(xiàn)有YOLOv5算法的網(wǎng)絡(luò)模型進(jìn)行優(yōu)化設(shè)計(jì),以期在減少模型參數(shù)量的同時(shí),提升模型的識(shí)別精度。
1 火車車廂連接結(jié)構(gòu)分析
車鉤位于車廂之間或車頭與車廂之間的連接位置,中國現(xiàn)有的車廂均采用對(duì)撞式車鉤,因其具有連接、牽引及緩沖等優(yōu)點(diǎn),得到了廣泛應(yīng)用。車鉤有2種狀態(tài),分別是連接狀態(tài)與解鎖狀態(tài)。其中,連接狀態(tài)是指車鉤在后車廂的擠壓碰撞下,使得前車與后車的鉤舌嚙合達(dá)到閉鎖,該過程稱為火車車廂復(fù)鉤。因此,在2節(jié)車廂連接之前,使鉤舌處于打開狀態(tài)很重要。
復(fù)鉤機(jī)器人配備的攝像頭能夠?qū)崟r(shí)檢測(cè)火車車廂連接用的鉤舌及其位置,然后復(fù)鉤機(jī)器人執(zhí)行機(jī)構(gòu)開始動(dòng)作,掰開鉤舌完成復(fù)位,使2節(jié)車廂準(zhǔn)確連接。一旦完成復(fù)鉤操作并確認(rèn)安全,火車可以重新啟動(dòng)并繼續(xù)行駛。復(fù)鉤機(jī)器人工作示意圖如圖1所示。
2 基于改進(jìn)YOLOv5算法的網(wǎng)絡(luò)模型分析
2.1 基礎(chǔ)算法選擇
基于YOLOv5算法的靈活性、高效性以及優(yōu)異的檢測(cè)精度,將其作為火車鉤舌檢測(cè)的改進(jìn)算法的基礎(chǔ)模型。YOLOv5算法能夠快速處理圖像并實(shí)時(shí)輸出檢測(cè)結(jié)果,這對(duì)于需要實(shí)時(shí)監(jiān)測(cè)的火車鉤舌檢測(cè)至關(guān)重要,能夠確保任何異常狀態(tài)被及時(shí)識(shí)別和處理,從而保障復(fù)鉤機(jī)器人的安全運(yùn)行。YOLOv5算法不僅在標(biāo)準(zhǔn)檢測(cè)環(huán)境中表現(xiàn)出色,而且對(duì)不同尺度目標(biāo)的適應(yīng)性以及在復(fù)雜背景下的魯棒性較好,特別適合在燃煤電廠輸煤系統(tǒng)中火車鉤舌可能遇到的復(fù)雜視覺環(huán)境。YOLOv5算法通過自適應(yīng)錨點(diǎn)和多尺度訓(xùn)練策略,能夠有效提高對(duì)這些變化的適應(yīng)能力。此外,YOLOv5算法的網(wǎng)絡(luò)模型配置靈活,可以根據(jù)具體的應(yīng)用需求調(diào)整模型的大小和復(fù)雜度,這在資源受限的邊緣計(jì)算設(shè)備上顯得尤為重要。YOLOv5算法支持在不犧牲太多性能的前提下對(duì)模型進(jìn)行簡(jiǎn)化和優(yōu)化,使得模型不僅能在高性能服務(wù)器上運(yùn)行,也能在現(xiàn)場(chǎng)部署的較低性能設(shè)備上有效運(yùn)行。
2.2 改進(jìn)YOLOv5的火車連接鉤舌識(shí)別算法設(shè)計(jì)
在燃煤電廠輸煤系統(tǒng)中,火車鉤舌所處環(huán)境復(fù)雜,受到光線、灰塵等因素的影響,原始YOLOv5算法在提取關(guān)鍵信息時(shí)受到限制,可能導(dǎo)致鉤舌檢測(cè)出現(xiàn)錯(cuò)檢或漏檢。針對(duì)上述問題,本文在YOLOv5算法基礎(chǔ)上進(jìn)行了如下改進(jìn)。
1)主干網(wǎng)絡(luò)引入C2F模塊 通過結(jié)合深層和淺層特征,C2F模塊增強(qiáng)了模型對(duì)不同尺度目標(biāo)的檢測(cè)能力。深層特征提供豐富的語義信息,而淺層特征負(fù)責(zé)細(xì)節(jié)的捕捉,這種特征融合策略有助于在各種尺度下改善模型的檢測(cè)精度。
2)主干網(wǎng)絡(luò)引入CoordConv注意力機(jī)制模塊 在主干網(wǎng)絡(luò)末端添加CoordConv注意力機(jī)制模塊,CoordConv模塊通過在卷積層中加入坐標(biāo)信息,增加了模型對(duì)物體空間位置的敏感性,從而能更精確地定位和識(shí)別目標(biāo),特別是在視覺信息復(fù)雜或部分遮擋的場(chǎng)景中。
3)頸部網(wǎng)絡(luò)優(yōu)化 將頸部的C3模塊替換為基于FasterNet模塊設(shè)計(jì)的輕量型C3_FasterNet模塊,旨在提高處理速度的同時(shí)保持檢測(cè)性能,適應(yīng)實(shí)時(shí)運(yùn)行的需求。
2.3 主干網(wǎng)絡(luò)中C2F模塊嵌入設(shè)計(jì)
在YOLOv5模型的主干網(wǎng)絡(luò)中,原本的C3模塊已被新的C2F模塊特征提取模塊替代,以提高模型在復(fù)雜視覺任務(wù)中的性能,C2F模塊結(jié)構(gòu)如圖2所示[13]。
其中,ConvBNSiLU代表一個(gè)序列操作:首先是卷積;其次是批量歸一化;最后是激活函數(shù)。Split表示將輸入特征圖分割成多個(gè)部分。BottleNeck結(jié)構(gòu)是一種特殊的卷積結(jié)構(gòu),它能夠減少參數(shù)量,從而降低模型的計(jì)算量。Contact表示將前面的特征圖與BottleNeck的輸出進(jìn)行通道維度的拼接。
首先,通過1×1卷積對(duì)輸入的特征圖進(jìn)行跨通道信息的整合。此步驟關(guān)鍵在于快速有效融合特征信息,從而為后續(xù)處理提供準(zhǔn)備。其次,通過切片操作,特征圖被分割為2部分,增加了特征處理的靈活性。分割后的一部分特征圖接受多次BottleNeck處理,每次處理后的結(jié)果與最初的1×1卷積結(jié)果進(jìn)行拼接。這種反復(fù)拼接的設(shè)計(jì)模式不僅增強(qiáng)了特征的多樣性,而且允許模型在不同處理階段有效地利用梯度信息。通過這種方式,C2F模塊能夠綜合并強(qiáng)化不同層次的特征,為模型提供更為豐富和復(fù)雜的信息。最后的1×1卷積步驟將經(jīng)過多重處理的特征圖壓縮回原始通道數(shù),實(shí)現(xiàn)了模型的輕量化,并優(yōu)化了訓(xùn)練效率和輸出效果。這一系列優(yōu)化措施使得C2F模塊比原C3模塊在處理復(fù)雜視覺任務(wù)時(shí)更為高效和靈活。這種特征提取模塊的優(yōu)勢(shì)在文獻(xiàn)[13]中得到了體現(xiàn)。在該研究中,C2F模塊的應(yīng)用顯著改善了YOLOv8n模型在田間環(huán)境中識(shí)別和分類被遮擋油茶果的能力。與C3模塊相比,C2F模塊在特征整合和梯度信息的利用上具有明顯的優(yōu)勢(shì),尤其適合處理遮擋和動(dòng)態(tài)變化較大的場(chǎng)景?;疖囥^舌檢測(cè)是一個(gè)要求模型快速準(zhǔn)確處理和精準(zhǔn)識(shí)別高速移動(dòng)物體的高難度應(yīng)用。C2F模塊通過其增強(qiáng)的特征處理能力和高效的信息整合能力,為這類高要求的實(shí)時(shí)檢測(cè)任務(wù)提供了理想的解決方案。因此,將C3模塊替換為C2F模塊不僅優(yōu)化了模型在火車鉤舌檢測(cè)中的性能,還提高了其整體的識(shí)別精度和處理速度。
2.4 主干網(wǎng)絡(luò)中CoordConv模塊嵌入設(shè)計(jì)
在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,注意力機(jī)制幫助模型專注于數(shù)據(jù)中的關(guān)鍵部分,忽略不重要的信息,這使得網(wǎng)絡(luò)更有效地學(xué)習(xí)對(duì)結(jié)果影響大的特征。為了增強(qiáng)對(duì)鉤舌位置信息的關(guān)注度,采用了 CoordConv 模塊,如圖3所示[14]。CoordConv 模塊通過向傳統(tǒng)卷積層引入額外的坐標(biāo)信息,增強(qiáng)模型對(duì)圖像空間位置的關(guān)注,如圖3 b)所示。在輸入特征圖時(shí)添加2個(gè)附加通道i coordinate和j coordinate,這2個(gè)附加的通道用于注入位置信息到特征圖中,使得網(wǎng)絡(luò)能夠更準(zhǔn)確地學(xué)習(xí)和處理有關(guān)對(duì)象位置的信息。該模塊在處理需要精確的空間定位任務(wù)(例如目標(biāo)檢測(cè)和圖像分割等方面)中展現(xiàn)出更高的效率和更高的準(zhǔn)確性。在實(shí)驗(yàn)中,使用CoordConv模塊提升改進(jìn)模型處理復(fù)雜空間關(guān)系的能力,從而提升模型整體的目標(biāo)檢測(cè)能力。
2.5 頸部網(wǎng)絡(luò)中C3_FasterNet模塊嵌入設(shè)計(jì)
在輕量級(jí)目標(biāo)檢測(cè)領(lǐng)域,常見的網(wǎng)絡(luò)模型(如MobileNet,ShuffleNet和GhostNet)通過深度分離卷積(DWConv)或組卷積(GConv)實(shí)現(xiàn)模型輕量化,有效減少了參數(shù)量。然而,這些模型對(duì)內(nèi)存需求較高,推理速度較慢,且模型包含的數(shù)據(jù)拼接、洗牌和池化等操作對(duì)推理速度至關(guān)重要。盡管輕量化網(wǎng)絡(luò)通常采用倒殘差結(jié)構(gòu)和線性瓶頸設(shè)計(jì)以進(jìn)一步減輕模型負(fù)擔(dān),但深度分離卷積的使用增加了網(wǎng)絡(luò)寬度和內(nèi)存訪問,尤其在內(nèi)存受限的移動(dòng)設(shè)備上可能影響實(shí)時(shí)檢測(cè)的效率。因此,采用FasterNet輕量化網(wǎng)絡(luò)結(jié)構(gòu),不僅減少了計(jì)算冗余和內(nèi)存訪問量,而且保持了高效的推理性能,是資源在受限環(huán)境中理想的輕量級(jí)目標(biāo)檢測(cè)解決方案。
FasterNet由1個(gè)PConv模塊和2個(gè)Conv模塊構(gòu)成,F(xiàn)asterNet 模塊結(jié)構(gòu)如圖4所示[15-16]。1個(gè)PConv模塊后面跟著2個(gè) PWConv模塊, PConv只需在輸入通道的一部分上應(yīng)用常規(guī)Conv進(jìn)行空間特征提取,并保持其余通道不變。對(duì)于連續(xù)或規(guī)則的內(nèi)存訪問,將第1個(gè)或最后1個(gè)連續(xù)的通道視為整個(gè)特征圖進(jìn)行計(jì)算。為了充分有效利用來自所有通道的信息,進(jìn)一步將逐點(diǎn)卷積(PWConv)附加到PConv模塊上。 在2個(gè) PWConv模塊之間有歸一化層和激活函數(shù)。針對(duì)激活函數(shù)GeLU的高計(jì)算復(fù)雜性和在某些硬件上的效率不足,選擇使用ReLU作為激活函數(shù)。ReLU計(jì)算過程簡(jiǎn)單,使其在需要快速處理的應(yīng)用中更為高效。ReLU還加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,避免了梯度消失的問題,并通過其稀疏激活特性提高了計(jì)算效率。
在C3模塊的執(zhí)行過程中,需要進(jìn)行5次卷積操作,這不僅增加了模型的參數(shù)量,也相應(yīng)地提高了內(nèi)存消耗。這種增加的資源需求會(huì)降低模型的運(yùn)行效率,延長(zhǎng)訓(xùn)練時(shí)間,并最終影響到模型的處理速度。為此基于FasterNet模塊設(shè)計(jì)了 C3_FasterNet模塊,模塊結(jié)構(gòu)如圖5所示。該模塊能夠在保證模型精度的同時(shí),大幅度降低參數(shù)量和計(jì)算量,加快原始網(wǎng)絡(luò)的推理速度。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 數(shù)據(jù)集制作與擴(kuò)充
自動(dòng)復(fù)鉤機(jī)器人在執(zhí)行打開鉤舌操作時(shí)需要準(zhǔn)確識(shí)別并定位鉤舌。為了實(shí)現(xiàn)這一目標(biāo),機(jī)器人必須學(xué)習(xí)和記憶不同類型火車鉤舌的外觀特征。實(shí)驗(yàn)數(shù)據(jù)集包含來自不同火車車廂連接部位的圖像,涵蓋了不同型號(hào)、不同環(huán)境背景下的火車鉤舌(見圖6),共計(jì)收集了3 000張圖像。這些圖像用于訓(xùn)練目標(biāo)識(shí)別模型,使其能夠辨識(shí)不同類型的鉤舌。利用Labelimg工具對(duì)所有圖片進(jìn)行標(biāo)注。根據(jù)摘取方式不同將火車鉤舌分為2類,分別為60型和70型鉤舌(見圖7),分別設(shè)置為“one”和“two” 2種標(biāo)簽。
3.2 評(píng)價(jià)指標(biāo)分析
評(píng)價(jià)指標(biāo)是衡量目標(biāo)檢測(cè)算法質(zhì)量和性能的重要標(biāo)準(zhǔn),本文采用精確率(P)、召回率(R)、平均精度(mAP)對(duì)模型效果進(jìn)行評(píng)估。其中
mAP@0.5表示在交并比(intersection over union,IoU)閾值設(shè)置為0.5 情況下的mAP值。IoU用于衡量預(yù)測(cè)的邊界框與真實(shí)邊界框之間的重疊程度,當(dāng) IoU 閾值設(shè)置為 0.5 時(shí),預(yù)測(cè)的邊界框與真實(shí)邊界框的重疊程度至少達(dá)到50%,則認(rèn)為是有效檢測(cè)。mAP@0.5:0.95指標(biāo)計(jì)算的是在 IoU 閾值為0.5~0.95(以 0.05 為步長(zhǎng))時(shí)的mAP值。模型的參數(shù)規(guī)模是指構(gòu)成模型的參數(shù)總數(shù),包括權(quán)重和偏置等,反映了模型的容量和潛在的學(xué)習(xí)能力,參數(shù)規(guī)模較大的模型通常具有更高的學(xué)習(xí)能力和更復(fù)雜的功能,但同時(shí)也可能導(dǎo)致更高的計(jì)算成本和存儲(chǔ)需求。計(jì)算指標(biāo)如式(1)—式(4)所示。
式中:TP(真陽性)是模型成功檢測(cè)并正確分類的實(shí)際目標(biāo)數(shù)量,表示模型正確檢測(cè)的能力;FP(假陽性)是模型錯(cuò)誤標(biāo)記目標(biāo)的數(shù)目,表示模型的誤檢情況;FN(假陰性)是模型未能檢測(cè)到的目標(biāo)數(shù),表示模型的漏檢情況。這些指標(biāo)共同評(píng)估目標(biāo)檢測(cè)模型的準(zhǔn)確性和可靠性。
式中:N為數(shù)據(jù)集中檢測(cè)目標(biāo)的類別數(shù)目;i是當(dāng)前所屬的類別編號(hào)。本文中N設(shè)置為2,即2種不同類型的車鉤。
3.3 損失函數(shù)曲線分析
在YOLOv5目標(biāo)檢測(cè)模型中包含3種主要損失函數(shù),即定位損失(box_loss)、置信度損失(obj_loss)和分類損失(cls_loss)。定位損失函數(shù)計(jì)算預(yù)測(cè)的邊界框與實(shí)際邊界框之間的誤差;置信度損失函數(shù)用于衡量模型對(duì)目標(biāo)存在的置信程度;分類損失函數(shù)用于判斷模型預(yù)測(cè)的類別是否正確。使用改進(jìn)的YOLOv5算法在自制數(shù)據(jù)集上進(jìn)行訓(xùn)練和驗(yàn)證,定位損失、置信度損失和分類損失的損失函數(shù)曲線如圖8所示。由圖8可知,函數(shù)損失值隨著訓(xùn)練次數(shù)的增加而降低,下降的幅值逐漸緩慢,在達(dá)到100次左右時(shí),損失值逐漸趨于平緩,表明改進(jìn)算法模型的函數(shù)損失值波動(dòng)平緩最終達(dá)到穩(wěn)定值,模型訓(xùn)練結(jié)束。
模型的精度指標(biāo)如圖9所示。在YOLOv5模型的基礎(chǔ)上融入C3_FasterNet網(wǎng)絡(luò)、C2F模塊與CoordConv注意力機(jī)制建立改進(jìn)模型。與基礎(chǔ)模型對(duì)比,改進(jìn)后的模型在各項(xiàng)性能評(píng)估指標(biāo)上均表現(xiàn)出更快的收斂速度和更高的性能。此外,改進(jìn)模型在達(dá)到穩(wěn)態(tài)后展現(xiàn)了更佳的穩(wěn)定性,表明其更能高效利用訓(xùn)練數(shù)據(jù)。從定量角度來看,初始訓(xùn)練階段改進(jìn)模型性能的提升速度遠(yuǎn)超基礎(chǔ)模型,減少了所需的訓(xùn)練時(shí)間,并提高了模型的實(shí)用性。
3.4 算法結(jié)果分析
對(duì)YOLOv5改進(jìn)算法與基礎(chǔ)算法進(jìn)行了對(duì)比實(shí)驗(yàn),將實(shí)驗(yàn)分為基礎(chǔ)實(shí)驗(yàn)、頸部網(wǎng)絡(luò)優(yōu)化、主干網(wǎng)絡(luò)特征增強(qiáng)。選取召回率(R)、精確率(P)、mAP@0.5,mAP@0.5:0.95與模型的參數(shù)量為指標(biāo),結(jié)果如表1所示。
由表1可知,使用C3_FasterNet模塊,在保證精確率、召回率、mAP值的同時(shí),模型的參數(shù)量大幅減少。在此基礎(chǔ)上使用C2F模塊替換掉原有的C3模塊,明顯提升了模型處理復(fù)雜信息的能力。最后加入注意力機(jī)制CoordConv有助于增強(qiáng)有效特征,抑制無效特征。與基礎(chǔ)模型對(duì)比,改進(jìn)模型在精確率上提高了2.2個(gè)百分點(diǎn),達(dá)到了98.7%,召回率上升了3.3個(gè)百分點(diǎn),達(dá)到了95.5%,mAP@0.5增長(zhǎng)了2.8個(gè)百分點(diǎn),達(dá)到了98.4%。同時(shí),模型的參數(shù)量從2 066 623個(gè)減少到1 843 327個(gè),降低了10.8%,顯著提升了計(jì)算效率。改進(jìn)后的模型不僅優(yōu)化了性能,同時(shí)也減輕了計(jì)算負(fù)荷,能夠更好地應(yīng)用于鉤舌的目標(biāo)檢測(cè)工作。
3.5 基于Grad-CAM可視化分析
Grad-CAM(gradient-weighted class activation mapping)是一種用于生成卷積神經(jīng)網(wǎng)絡(luò)決策可視化解釋的技術(shù),主要通過產(chǎn)生熱力圖以直觀地展示卷積神經(jīng)網(wǎng)絡(luò)在作出特定決策時(shí)哪些區(qū)域被賦予了更高的重要性[17]。Grad-CAM常應(yīng)用于網(wǎng)絡(luò)的最后一個(gè)卷積層以提取類別信息,這個(gè)層的輸出特征圖用高級(jí)圖像表示。相對(duì)于這些特征圖的梯度網(wǎng)絡(luò)類別特定類別得分通過反向傳播計(jì)算得出,揭示每個(gè)單元對(duì)類別得分的影響。通過對(duì)這些梯度在空間維度上進(jìn)行全局平均池化,得到每個(gè)通道的權(quán)重,反映其對(duì)目標(biāo)類別的重要性。將權(quán)重與相應(yīng)特征圖相乘并求和,生成類激活映射(class activation mapping,CAM),突出顯示模型在作決策時(shí)的關(guān)注區(qū)域。CAM通常以熱力圖的形式展示可視化模型的關(guān)注點(diǎn),為了闡釋 YOLOv5改進(jìn)算法在模型中的作用,輸入2張遮擋背景下的鉤舌圖片(見圖10)。采用GradCAM技術(shù)生成模型的熱力圖,如圖11所示。圖中不同的顏色表示模型對(duì)圖像不同區(qū)域的關(guān)注程度,顏色的變化從藍(lán)色到紅色,表示關(guān)注程度的遞增。通過對(duì)比,改進(jìn)后的算法在鉤舌檢測(cè)上表現(xiàn)出更集中的熱力圖響應(yīng),說明其對(duì)鉤舌特征的識(shí)別能力更強(qiáng),更適合鉤舌檢測(cè)任務(wù)。
3.6 與其他算法對(duì)比分析
表2為改進(jìn)YOLOv5算法與其他算法的對(duì)比結(jié)果。由表2可知,改進(jìn)的YOLOv5算法在鉤舌目標(biāo)檢測(cè)中表現(xiàn)出色,具備高準(zhǔn)確性和高效率。其mAP達(dá)到98.4%,明顯優(yōu)于YOLOv8,F(xiàn)asterRCNN和SSD。參數(shù)量?jī)H為1.843 M,遠(yuǎn)低于其他模型,使得YOLOv5算法更易于在資源有限的設(shè)備上部署和運(yùn)行。此外,其計(jì)算量(GFLOPS,每秒10億次的浮點(diǎn)運(yùn)算數(shù))低至4.0,相較于FasterRCNN(370.21)和SSD(62.75)的算法顯著減小了計(jì)算負(fù)擔(dān)。這些特點(diǎn)使改進(jìn)YOLOv5算法不僅在高精度目標(biāo)檢測(cè)上效果顯著,而且在處理速度和資源利用上極具優(yōu)勢(shì),特別適合需要快速準(zhǔn)確反應(yīng)的應(yīng)用場(chǎng)景,如移動(dòng)或嵌入式系統(tǒng)中的實(shí)時(shí)目標(biāo)檢測(cè)。
4 在自動(dòng)復(fù)鉤機(jī)器人中的應(yīng)用分析
火車進(jìn)行復(fù)鉤時(shí),復(fù)鉤機(jī)構(gòu)的1號(hào)機(jī)械臂配備了傳感器與攝像頭,用于自動(dòng)識(shí)別手柄的位置。一旦手柄被識(shí)別,1號(hào)機(jī)械臂自動(dòng)扳動(dòng)手柄松開鉤舌。2號(hào)機(jī)械臂被激活,并使用傳感器與攝像頭識(shí)別鉤舌的準(zhǔn)確位置,自動(dòng)執(zhí)行掰開鉤舌的動(dòng)作。掰開鉤舌完成復(fù)位,使2節(jié)車廂準(zhǔn)確連接。一旦完成復(fù)鉤操作并確認(rèn)安全,火車可以重新啟動(dòng)并繼續(xù)行駛。這個(gè)流程中2個(gè)機(jī)械臂各自負(fù)責(zé)不同的任務(wù),協(xié)同工作實(shí)現(xiàn)整個(gè)復(fù)鉤過程。圖12為復(fù)鉤機(jī)器人現(xiàn)場(chǎng)復(fù)鉤整體流程圖。
5 結(jié) 語
為了使復(fù)鉤機(jī)器人在移動(dòng)過程中快速識(shí)別火車鉤舌的類型和位置,保證機(jī)器人的實(shí)時(shí)檢測(cè)性能,本文提出了一種改進(jìn)YOLOv5的火車連接鉤舌目標(biāo)識(shí)別算法,主要研究結(jié)論如下。
1)在主干網(wǎng)絡(luò)中添加C2F模塊與CoordConv注意力機(jī)制模塊,可實(shí)現(xiàn)在主干網(wǎng)絡(luò)中并行提取不同尺度的特征,提高網(wǎng)絡(luò)的感受野,增強(qiáng)對(duì)目標(biāo)鉤舌的識(shí)別能力,識(shí)別精度達(dá)到了98.7%,與基礎(chǔ)算法相比提升了2.2個(gè)百分點(diǎn)。
2)在頸部網(wǎng)絡(luò)中添加輕量型的C3_FasterNet模塊,可減少網(wǎng)絡(luò)的計(jì)算復(fù)雜度和模型大小。在保持較高性能的同時(shí),模型的參數(shù)量相較于基礎(chǔ)算法減少了10.8%,有效提升了模型的運(yùn)行效率與推理速度。
3)通過可視化分析,改進(jìn)YOLOv5算法較原始算法,可以更準(zhǔn)確識(shí)別火車鉤舌的所在位置?;诟倪M(jìn)YOLOv5算法研制的自動(dòng)復(fù)鉤機(jī)器人成功實(shí)現(xiàn)了火車鉤舌的識(shí)別和復(fù)鉤。
鉤舌目標(biāo)識(shí)別會(huì)受到惡劣復(fù)雜環(huán)境因素的干擾,使得模型難以保持穩(wěn)定的性能。為了克服這些局限性,未來可以利用數(shù)據(jù)增強(qiáng)技術(shù)提供更多樣化、更豐富的數(shù)據(jù)集,提高模型對(duì)惡劣復(fù)雜環(huán)境的適應(yīng)性,以確保模型能夠更好地捕捉不同類型鉤舌的特征,提高鉤舌目標(biāo)識(shí)別的魯棒性。
參考文獻(xiàn)/References:
[1] 田曉晨,朱濤,王超,等.鐵路重載貨車鉤舌疲勞裂紋萌生壽命分析[J].機(jī)械強(qiáng)度,2022,44(3):696-704.
TIAN Xiaochen,ZHU Tao,WANG Chao,et al.Analysis on fatigue crack initiation life of coupler knuckle of railway heavy-haul wagon[J].Journal of Mechanical Strength,2022,44(3):696-704.
[2] 王超,朱濤,肖守訥,等.基于分離體子模型的重載貨車鉤舌三維裂紋擴(kuò)展研究[J].鐵道學(xué)報(bào),2022,44(8):42-49.
WANG Chao,ZHU Tao,XIAO Shoune,et al.Research on 3D crack propagation of heavy-haul wagon coupler knuckle based on separated body submodel[J].Journal of the China Railway Society, 2022,44(8):42-49.
[3] 尹敏軒,朱濤,楊冰,等.基于可靠性的重載貨車鉤舌疲勞斷裂壽命[J].機(jī)械工程學(xué)報(bào),2021,57(4):210-218.
YIN Minxuan,ZHU Tao,YANG Bing,et al.Fatigue fracture life of heavy-haul wagon′s coupler knuckle based on reliability[J].Journal of Mechanical Engineering,2021,57(4):210-218.
[4] 張淵博.鐵路自動(dòng)摘鉤機(jī)器人設(shè)計(jì)及車鉤視覺檢測(cè)[D].沈陽:沈陽工業(yè)大學(xué),2020.
ZHANG Yuanbo.Design of Railway Automatic Unhook Robot and Visual Inspection of Couplers[D]. Shenyang:Shenyang University of Technology,2020.
[5] 祝銘悅,牛梓儒,萬勇,等.基于圖像的地鐵車站施工人員不安全行為識(shí)別研究[J].河北工業(yè)科技,2023,40(1):27-32.
ZHU Mingyue,NIU Ziru,WAN Yong,et al.Research on identification of unsafe behaviors of construction personnel in subway station based on images[J].Hebei Journal of Industrial Science and Technology, 2023,40(1):27-32.
[6] 董春峰,楊春金,周萬珍.一種基于感受野增強(qiáng)的人臉檢測(cè)方法[J].河北工業(yè)科技,2022,39(6):474-479.
DONG Chunfeng,YANG Chunjin,ZHOU Wanzhen.A face detection method based on perceptual field enhancement[J].Hebei Journal of Industrial Science and Technology,2022,39(6):474-479.
[7] 劉亞姣,于海濤,劉寶順,等.基于YOLOv3的H型鋼表面缺陷檢測(cè)系統(tǒng)[J].河北工業(yè)科技, 2021,38(3):231-235.
LIU Yajiao,YU Haitao,LIU Baoshun,et al.H-beam surface defect detection system based on YOLOv3 algorithm[J].Hebei Journal of Industrial Science and Technology,2021,38(3):231-235.
[8] 武宇平,劉海旭,吳勁芳,等.改進(jìn)的YOLOv3-Tiny網(wǎng)絡(luò)在風(fēng)機(jī)葉片損傷檢測(cè)中的應(yīng)用[J].河北工業(yè)科技,2021,38(5):401-408.
WU Yuping,LIU Haixu,WU Jinfang,et al.Application of improved YOLOv3-Tiny network in fan blade damage detection[J].Hebei Journal of Industrial Science and Technology,2021,38(5):401-408.
[9] 劉芬,孫杰,張帥,等.基于YOLOv5的紅外船舶目標(biāo)檢測(cè)算法[J].紅外與激光工程,2023,52(10):214-225.
LIU Fen,SUN Jie,ZHANG Shuai,et al.Infrared ship target detection algorithm based on YOLOv5[J].Infrared and Laser Engineering,2023,52(10):214-225.
[10]劉建騏,閆河,王瀟棠,等.改進(jìn)金字塔和跳躍連接的YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò)[J].控制與決策,2023,38(6):1730-1736.
LIU Jianqi,YAN He,WANG Xiaotang,et al.YOLOv5 object detection network with improved pyramid and skip connection[J].Control and Decision,2023,38(6):1730-1736.
[11]惠康華,楊衛(wèi),劉浩翰,等.基于YOLOv5的增強(qiáng)多尺度目標(biāo)檢測(cè)方法[J].兵工學(xué)報(bào),2023,44(9):2600-2610.
HUI Kanghua,YANG Wei,LIU Haohan,et al.Enhanced multi-scale target detection method based on YOLOv5[J].Acta Armamentarii,2023,44(9):2600-2610.
[12]YOU K S,LIU H Z.Feature detection of mineral zoning in spiral slope flow under complex conditions based on improved YOLOv5 algorithm[J].Physica Scripta,2024,99(1):016001.
[13]周宏平,金壽祥,周磊,等.基于遷移學(xué)習(xí)與YOLOv8n的田間油茶果分類識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(20):159-166.
ZHOU Hongping,JIN Shouxiang,ZHOU Lei,et al.Classification and recognition of Camellia oleifera fruit in the field based on transfer learning and YOLOv8n[J].Transactions of the Chinese Society of Agricultural Engineering,2023,39(20):159-166.
[14]王玲敏,段軍,辛立偉.引入注意力機(jī)制的YOLOv5安全帽佩戴檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2022,58(9):303-312.
WANG Lingmin,DUAN Jun,XIN Liwei.YOLOv5 helmet wear detection method with introduction of attention mechanism[J].Computer Engineering and Applications,2022,58(9):303-312.
[15]喬琛,韓夢(mèng)瑤,高葦,等.基于Faster-NAM-YOLO的黃瓜霜霉病菌孢子檢測(cè)[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(12):288-299.
QIAO Chen,HAN Mengyao,GAO Wei,et al.Quantitative detection of cucumber downy mildew spores at multi-scale based on Faster-NAM-YOLO[J].Transactions of the Chinese Society for Agricultural Machinery,2023,54(12):288-299.
[16]張勇進(jìn),徐健,張明星.面向輕量化的改進(jìn)YOLOv7棉雜檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2024,44(7):2271-2278.
ZHANG Yongjin,XU Jian,ZHANG Mingxing.Lightweight algorithm for impurity detection in raw cotton based on improved YOLOv7[J].Journal of Computer Applications,2024,44(7):2271-2278.
[17]湯文權(quán),陳灼廷,王東橋,等.基于改進(jìn)YOLOv5的皮蛋裂紋在線檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2024,55(2):384-392.
TANG Wenquan,CHEN Zhuoting,WANG Dongqiao,et al.Crack detection method for preserved eggs based on improved YOLOv5 for online inspection[J].Transactions of the Chinese Society for Agricultural Machinery,2024,55(2):384-392.