閆 彬 樊 攀 王美茸 史帥旗 雷小燕 楊福增
(1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部蘋果全程機(jī)械化科研基地, 陜西楊凌 712100; 3.農(nóng)業(yè)農(nóng)村部北方農(nóng)業(yè)裝備科學(xué)觀測(cè)實(shí)驗(yàn)站, 陜西楊凌 712100; 4.黃土高原土壤侵蝕與旱地農(nóng)業(yè)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100)
目前蘋果采摘機(jī)器人[1-5]可以實(shí)現(xiàn)對(duì)其視覺(jué)范圍內(nèi)未被遮擋或僅被樹(shù)葉遮擋蘋果的直接采摘,而針對(duì)被枝干遮擋的蘋果,若未經(jīng)精確識(shí)別而直接對(duì)其進(jìn)行采摘可能會(huì)造成果實(shí)損傷,或機(jī)械手、機(jī)械臂損壞[6]。
深度學(xué)習(xí)技術(shù)因具有能夠?qū)λ杉畔?shù)據(jù)的特征進(jìn)行較好地挖掘與提取的優(yōu)點(diǎn),近年來(lái),已經(jīng)被廣泛應(yīng)用于目標(biāo)識(shí)別領(lǐng)域中[7-10]。截至目前,在基于深度學(xué)習(xí)的蘋果目標(biāo)識(shí)別方面,已經(jīng)有許多深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),如YOLOv2[11]、YOLOv3[12-14]、YOLOv4[15]、YOLOv5s[6]、Faster R-CNN[16-19]、DaSNet-v2[20]、R-FCN[21]、LedNet[22]、FCOS[23]、DaSNet[24]和Mask R-CNN[25]等,都被成功應(yīng)用于檢測(cè)蘋果樹(shù)上的果實(shí)目標(biāo)。
然而,現(xiàn)有的算法大多將復(fù)雜果園環(huán)境(蘋果被樹(shù)葉遮擋、枝干遮擋、果實(shí)遮擋和混合遮擋等)下的不同蘋果劃分為同一類目標(biāo)進(jìn)行識(shí)別,而現(xiàn)實(shí)中極有可能會(huì)造成果實(shí)的損傷,或采摘手、機(jī)械臂的損壞。本研究團(tuán)隊(duì)前期針對(duì)蘋果被樹(shù)枝干遮擋的情形進(jìn)行了識(shí)別[6],以引導(dǎo)機(jī)器人避開(kāi)對(duì)這些果實(shí)的采摘,但會(huì)導(dǎo)致一部分蘋果漏采。另一方面,若根據(jù)蘋果被枝干遮擋的不同情形而相應(yīng)地改變采摘手的位姿,則可以使機(jī)器人實(shí)現(xiàn)對(duì)該類蘋果的迂回采摘,以降低不必要的采摘損失。然而,目前尚未見(jiàn)可以區(qū)分枝干單側(cè)遮擋(即枝干遮擋蘋果的上、下、左、右側(cè))、多側(cè)遮擋情形下蘋果識(shí)別算法的研究報(bào)道。
為解決蘋果采摘機(jī)器人采摘識(shí)別時(shí)所面臨的上述問(wèn)題,本文基于人工智能算法,提出一種采摘機(jī)器人的蘋果采摘方式識(shí)別方法,擬實(shí)現(xiàn)對(duì)蘋果樹(shù)上不同枝干遮擋情形下果實(shí)的實(shí)時(shí)識(shí)別,從而為機(jī)械手主動(dòng)調(diào)整位姿以避開(kāi)枝干的遮擋進(jìn)行果實(shí)采摘提供視覺(jué)引導(dǎo),以期降低蘋果的采摘損失。
以現(xiàn)代標(biāo)準(zhǔn)果園中紡錘形栽培模式下的紅富士蘋果果實(shí)為研究對(duì)象,該栽培模式下的蘋果樹(shù)行距約4 m,株距約1.2 m,樹(shù)高約3.5 m,適合蘋果采摘機(jī)器人入園進(jìn)行自動(dòng)化采摘作業(yè)。采摘機(jī)器人所面臨的實(shí)際采摘情況如圖1所示。
圖1 機(jī)器人所面臨的蘋果采摘情況示意圖Fig.1 Schematic of apple picking situation that robot confronted
對(duì)位于陜西省乾縣農(nóng)業(yè)科技試驗(yàn)示范基地的現(xiàn)代標(biāo)準(zhǔn)蘋果園與西北農(nóng)林科技大學(xué)白水蘋果試驗(yàn)站中的蘋果樹(shù)進(jìn)行圖像采集。分別采集晴天與陰天條件下的蘋果樹(shù)圖像,拍攝時(shí)段包括上午、中午與下午,圖像采集設(shè)備為佳能Canon PowerShot G16型相機(jī),分別在不同的拍攝距離下(0.5~1.5 m)選擇多種角度進(jìn)行圖像采集,共采集蘋果圖像1 400幅。具體包含以下情況:果實(shí)被樹(shù)葉遮擋、果實(shí)被枝干遮擋(枝干遮擋蘋果的上、下、左、右側(cè)或多側(cè)遮擋)、混合遮擋、果實(shí)之間重疊、順光角度、逆光角度和側(cè)光角度等(圖2、3)。所采集圖像分辨率為4 000像素×3 000像素,格式為JPEG。
圖2 不同情況下的蘋果圖像Fig.2 Apple images under different conditions
圖3 果實(shí)被枝干遮擋的不同情形Fig.3 Different situations of apples occluded by branches
從所采集的圖像中隨機(jī)選取拍攝質(zhì)量穩(wěn)定的344幅圖像(晴天與陰天各172幅)作為測(cè)試集,另隨機(jī)選取1 014幅圖像用于模型訓(xùn)練。測(cè)試集圖像中含不可采摘果實(shí)1 202個(gè),可直接采摘果實(shí)1 952個(gè),上側(cè)采摘果實(shí)658個(gè),下側(cè)采摘果實(shí)909個(gè),左側(cè)采摘果實(shí)950個(gè)和右側(cè)采摘果實(shí)865個(gè)。
使用LabelImg圖像數(shù)據(jù)標(biāo)注軟件在壓縮后的果樹(shù)圖像中繪制蘋果的外接矩形框以實(shí)現(xiàn)果實(shí)的人工標(biāo)注。圖像標(biāo)注時(shí),需要基于每個(gè)蘋果的最小外接矩形進(jìn)行標(biāo)注,以保證矩形框內(nèi)盡可能少地包含背景。其中,根據(jù)機(jī)器人在蘋果園采摘作業(yè)時(shí)所面臨的實(shí)際情況,將圖像中需要識(shí)別的蘋果目標(biāo)分別劃歸入6個(gè)類別進(jìn)行數(shù)據(jù)標(biāo)注,具體的類別劃分規(guī)則為:將圖像中未被遮擋或僅被樹(shù)葉遮擋的蘋果標(biāo)注為“可直接采摘”類,將果實(shí)上側(cè)被枝干遮擋的蘋果標(biāo)注為“下側(cè)采摘”類,下側(cè)被枝干遮擋的蘋果標(biāo)注為“上側(cè)采摘”類,左側(cè)被枝干遮擋的蘋果標(biāo)注為“右側(cè)采摘”類,右側(cè)被枝干遮擋的蘋果標(biāo)注為“左側(cè)采摘”類,其他情況下的蘋果標(biāo)注為“不可采摘”類。
另一方面,由于較遠(yuǎn)處種植行(非機(jī)器人所處的當(dāng)前果樹(shù)種植行)中的蘋果與采摘機(jī)器人間的距離過(guò)大,故機(jī)器人無(wú)法對(duì)其進(jìn)行采摘作業(yè)。而機(jī)器人視覺(jué)系統(tǒng)所獲取的蘋果樹(shù)圖像中會(huì)不可避免地拍攝到較遠(yuǎn)種植行中的蘋果,因此并不能將其作為有效的待識(shí)別/采摘目標(biāo)。因而模型需要避免對(duì)較遠(yuǎn)處他行蘋果的識(shí)別。故在蘋果圖像數(shù)據(jù)集標(biāo)注時(shí),對(duì)于較遠(yuǎn)處他行的蘋果均不進(jìn)行標(biāo)簽標(biāo)注。最后,保存標(biāo)注后所生成的XML格式文件。
為了豐富訓(xùn)練集的圖像數(shù)據(jù),以更好地提取不同標(biāo)注類別蘋果的特征,對(duì)訓(xùn)練集圖像進(jìn)行數(shù)據(jù)擴(kuò)增。由于存在光照與天氣等不確定因素,導(dǎo)致機(jī)器人在果園進(jìn)行識(shí)別采摘作業(yè)時(shí)的視覺(jué)感知環(huán)境十分復(fù)雜,為了提高蘋果采摘方式識(shí)別模型的泛化能力,對(duì)訓(xùn)練集的圖像分別進(jìn)行亮度增強(qiáng)與減弱的數(shù)據(jù)增強(qiáng)方式:首先,將原始圖像轉(zhuǎn)換至HSV彩色空間;然后,將圖像的V分量(亮度分量)乘以不同的權(quán)重系數(shù);最后,將新合成的HSV彩色空間圖像轉(zhuǎn)換至RGB彩色空間,實(shí)現(xiàn)圖像亮度的增強(qiáng)和減弱。在本研究中,利用亮度增強(qiáng)產(chǎn)生2種亮度的圖像:H+S+1.2V和H+S+1.6V,其中H為色調(diào)分量,S為飽和度分量;利用亮度減弱產(chǎn)生2種亮度的圖像:H+S+0.6V和H+S+0.8V。
另外,考慮到圖像采集裝置在拍攝過(guò)程中可能產(chǎn)生的噪聲以及由于設(shè)備晃動(dòng)或樹(shù)枝干抖動(dòng)而使所獲取的圖像存在模糊的情況,分別對(duì)圖像添加了方差為0.02的高斯噪聲,進(jìn)行了運(yùn)動(dòng)模糊處理。在運(yùn)動(dòng)模糊處理中,將運(yùn)動(dòng)濾波器的參數(shù)(LEN,θ)(LEN代表長(zhǎng)度,表示攝像機(jī)線性運(yùn)動(dòng)的像素;θ代表其逆時(shí)針?lè)较蛐D(zhuǎn)的角度)設(shè)置為(7,45)。然后利用Matlab中的imfilter函數(shù)對(duì)圖像進(jìn)行模糊處理。將經(jīng)過(guò)數(shù)據(jù)擴(kuò)增處理后所得到的共7 098幅圖像作為訓(xùn)練集數(shù)據(jù)用于后續(xù)蘋果采摘方式識(shí)別模型的訓(xùn)練。
YOLOv5網(wǎng)絡(luò)架構(gòu)具有檢測(cè)精度高、運(yùn)行速度快的優(yōu)勢(shì),最高檢測(cè)速度可達(dá)140幀/s[26]。另一方面,該網(wǎng)絡(luò)模型的權(quán)重文件較小,與YOLOv4模型相比縮小了近90%,這使得YOLOv5模型適合部署到嵌入式設(shè)備上以實(shí)現(xiàn)對(duì)目標(biāo)的實(shí)時(shí)檢測(cè)。由于模型的檢測(cè)精度、實(shí)時(shí)性與是否輕量化直接關(guān)系到機(jī)器人識(shí)別果實(shí)采摘方式的準(zhǔn)確率與效率,因此本研究以YOLOv5架構(gòu)為基礎(chǔ),改進(jìn)設(shè)計(jì)蘋果采摘機(jī)器人的果實(shí)采摘方式識(shí)別網(wǎng)絡(luò)。
YOLOv5網(wǎng)絡(luò)[6,27-28]具體包含了YOLOv5s、YOLOv5m、YOLOv5l與YOLOv5x 4種架構(gòu),其主要區(qū)別為在網(wǎng)絡(luò)的特定位置處所包含的特征提取模塊數(shù)量和卷積核數(shù)量不同,4種模型的參數(shù)數(shù)量和體積依次增大,指標(biāo)參數(shù)如表1所示。
表1 YOLOv5 4種架構(gòu)模型指標(biāo)參數(shù)Tab.1 Model parameters of four YOLOv5 architectures
由于本研究共需要識(shí)別6類目標(biāo),且對(duì)模型的識(shí)別實(shí)時(shí)性與輕量化要求較高,綜合考慮模型識(shí)別的準(zhǔn)確率、效率及模型的體積,確定以YOLOv5m架構(gòu)(圖4)為基礎(chǔ),改進(jìn)設(shè)計(jì)蘋果采摘方式識(shí)別網(wǎng)絡(luò)。
圖4 原始的YOLOv5m網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Architecture of original YOLOv5m network
YOLOv5m架構(gòu)主要由Backbone網(wǎng)絡(luò)、Neck網(wǎng)絡(luò)和Detect網(wǎng)絡(luò)組成。Backbone網(wǎng)絡(luò)即特征提取網(wǎng)絡(luò),是在不同的圖像細(xì)粒度上聚合并形成圖像特征的卷積神經(jīng)網(wǎng)絡(luò)。Backbone網(wǎng)絡(luò)的第1層為Focus模塊(圖5),該模塊的設(shè)計(jì)主要是為了減少模型的計(jì)算量以加快訓(xùn)練速度,其主要功能是:首先通過(guò)切片操作將輸入的3通道圖像(YOLOv5m架構(gòu)默認(rèn)的圖像輸入尺寸為3×640×640)切分成4份3×320×320的切片,然后使用Concat操作從深度上連接這4個(gè)切片,輸出的特征圖尺寸為12×320×320,進(jìn)而再通過(guò)由48個(gè)卷積核組成的卷積層,生成48×320×320的輸出,最后再經(jīng)過(guò)BN層(Batch normalization)和Hardswish激活函數(shù)后將結(jié)果輸入到下一層。
圖5 Focus模塊Fig.5 Focus module
Backbone網(wǎng)絡(luò)的第3層為BottleneckCSP模塊,該模塊的主要作用是為了更好地提取圖像的深層特征。其中,BottleneckCSP模塊主要由Bottleneck模塊(圖6)構(gòu)成,該模塊是一種殘差結(jié)構(gòu)的網(wǎng)絡(luò),即將卷積核尺寸為1×1的卷積層(Conv2d層+BN層+Hardswish激活函數(shù))與3×3的卷積層相連,再將該部分的輸出通過(guò)殘差結(jié)構(gòu)與輸入相加作為最終Bottleneck模塊的輸出。
圖6 Bottleneck模塊Fig.6 Bottleneck module
而B(niǎo)ottleneckCSP模塊(圖7)的主要功能是:將初始的輸入分別送入2個(gè)分支,分別對(duì)這2個(gè)分支進(jìn)行卷積操作使其特征圖的通道數(shù)減半,其中,分支2再與Bottleneck模塊相連,進(jìn)而在經(jīng)過(guò)Conv2d層后,使用Concat操作從深度上連接分支1與分支2的輸出特征圖。最后再依次經(jīng)過(guò)BN層與Conv2d層后得到BottleneckCSP模塊的輸出特征圖,該特征圖的尺寸與輸入BottleneckCSP模塊的特征圖尺寸相同。
圖7 BottleneckCSP模塊Fig.7 BottleneckCSP module
Backbone網(wǎng)絡(luò)的第9層為空間金字塔池化模塊(Spatial pyramid pooling,SPP)(圖8),該模塊的主要功能是為了使任意尺寸的特征圖都能夠被轉(zhuǎn)換成固定尺寸的特征向量,以提高網(wǎng)絡(luò)的感受野。其中,YOLOv5m中SPP模塊的輸入特征圖尺寸為768×20×20,首先經(jīng)過(guò)1×1的卷積層后輸出尺寸為384×20×20的特征圖,然后將該特征圖與其分別經(jīng)過(guò)3個(gè)并列的Maxpooling層(最大池化層)進(jìn)行下采樣后的輸出特征圖從深度上進(jìn)行連接,輸出尺寸為1 536×20×20的特征圖,最后再經(jīng)過(guò)卷積核數(shù)量為768的卷積層后輸出尺寸為768×20×20的特征圖。
圖8 SPP模塊Fig.8 SPP module
Neck網(wǎng)絡(luò)是一系列組合圖像特征的特征融合網(wǎng)絡(luò),采用自頂向下與自底向上聯(lián)合的特征融合方式,更好地融合了多尺度特征,因此改善了低層特征的傳播,增強(qiáng)了模型對(duì)于不同縮放尺度對(duì)象的檢測(cè),從而能夠更好地識(shí)別不同尺寸和尺度的同一目標(biāo)對(duì)象。
Detect網(wǎng)絡(luò)主要用于模型最終的推理與檢測(cè),該網(wǎng)絡(luò)在上一層Neck網(wǎng)絡(luò)輸出的特征圖上應(yīng)用錨框(Anchor box),最后輸出包含目標(biāo)對(duì)象的類別概率、對(duì)象得分和包圍框位置的向量。YOLOv5m架構(gòu)的預(yù)測(cè)網(wǎng)絡(luò)由3個(gè)Detect層組成,其輸入尺寸分別為80×80、40×40與20×20的特征圖,用于檢測(cè)圖像中不同尺寸的目標(biāo)物,每個(gè)Detect層最終輸出一個(gè)33通道的向量(3個(gè)錨定框,每個(gè)錨定框包括6個(gè)類別、1個(gè)類別概率、4個(gè)包圍框位置坐標(biāo),即(6+1+4)×3),進(jìn)而在原始圖像中生成并標(biāo)記出所預(yù)測(cè)目標(biāo)的位置邊界框和類別,實(shí)現(xiàn)對(duì)圖像中目標(biāo)對(duì)象的檢測(cè)。
對(duì)于設(shè)計(jì)面向采摘機(jī)器人的蘋果采摘方式識(shí)別算法,既要使其能夠準(zhǔn)確區(qū)分復(fù)雜果園環(huán)境中的多種果實(shí)采摘方式,還需要盡可能壓縮算法模型的體積以有利于后期將其部署在硬件設(shè)備中。因此,在YOLOv5m架構(gòu)的基礎(chǔ)上,對(duì)其骨干網(wǎng)絡(luò)進(jìn)行優(yōu)化改進(jìn),在能有效提取圖像的深層特征以保證識(shí)別精度的前提下,降低網(wǎng)絡(luò)的權(quán)重參數(shù)量,縮小其體積,以實(shí)現(xiàn)蘋果采摘方式識(shí)別網(wǎng)絡(luò)的輕量化改進(jìn)設(shè)計(jì)。
由于所設(shè)計(jì)的識(shí)別算法需要區(qū)分6種不同的果實(shí)采摘方式,因此識(shí)別網(wǎng)絡(luò)需要對(duì)蘋果圖像的深層特征進(jìn)行充分提取,以精確辨識(shí)不同蘋果采摘方式間的差異。為此,本研究對(duì)BottleneckCSP模塊進(jìn)行了改進(jìn)設(shè)計(jì),以增強(qiáng)其對(duì)圖像深層特征提取的能力。
使用Bottleneck模塊替換原BottleneckCSP模塊中Concat特征圖拼接層之前的Conv2d層。由圖6可知,Bottleneck模塊中既含有跨接融合層,又包含多個(gè)Conv2d卷積層,因而該模塊既可實(shí)現(xiàn)對(duì)圖像低層特征與高層特征的融合(可彌補(bǔ)低分辨率的高層特征圖中空間信息的損失),又可實(shí)現(xiàn)對(duì)圖像更深層特征的提取。故該模塊相較于單一的Conv2d卷積層具有更強(qiáng)的圖像特征提取能力。進(jìn)而,在上述改進(jìn)的基礎(chǔ)上,再去掉原BottleneckCSP模塊跨接分支上的卷積層,則實(shí)現(xiàn)了將分辨率更高、包含更多目標(biāo)物位置與細(xì)節(jié)信息的低層特征圖與經(jīng)過(guò)多個(gè)特征提取模塊后包含更強(qiáng)語(yǔ)義信息的高層特征圖進(jìn)行融合,使得改進(jìn)后BottleneckCSP模塊的輸出特征圖含有更強(qiáng)的語(yǔ)義信息與更多的細(xì)節(jié)信息,以提升該模塊的特征提取能力。
改進(jìn)后的BottleneckCSP模塊如圖9所示,將其命名為BottleneckCSP-B模塊。另一方面,為了縮小識(shí)別模型的體積,降低骨干網(wǎng)絡(luò)的整體參數(shù)量,以實(shí)現(xiàn)模型的輕量化,本研究將原骨干網(wǎng)絡(luò)中的4處共使用到16個(gè)BottleneckCSP模塊的地方都分別替換為4個(gè)相連的BottleneckCSP-B模塊。
圖9 改進(jìn)BottleneckCSP(BottleneckCSP-B)模塊Fig.9 Improved BottleneckCSP (BottleneckCSP-B) module
由于蘋果外形和顏色與樹(shù)枝干、樹(shù)葉及圖像中的背景物相比具有一定的差異,因此為了提升果實(shí)采摘方式的識(shí)別精度,將機(jī)器視覺(jué)中的注意力機(jī)制[24](Attention mechanism)引入蘋果采摘方式識(shí)別網(wǎng)絡(luò)的架構(gòu)中,以更好地提取不同果實(shí)圖像的特征。SE模塊[20,29](Squeeze and excitation networks,SENet)是視覺(jué)注意力機(jī)制網(wǎng)絡(luò)的一種,其采用了一種全新的特征重標(biāo)定策略,即通過(guò)學(xué)習(xí)的方式自動(dòng)獲取到每個(gè)特征通道的重要程度,然后據(jù)此提升有用的特征并抑制不重要的特征。該模塊主要包含3種操作:擠壓(Squeeze)操作、激勵(lì)(Excitation)操作、縮放(Scale)操作。由于該模塊的計(jì)算量不大,且能有效提升模型的表達(dá)能力,優(yōu)化模型所學(xué)習(xí)的內(nèi)容,因此將其嵌入所改進(jìn)設(shè)計(jì)的YOLOv5m架構(gòu)的骨干網(wǎng)絡(luò)中,以提升模型的識(shí)別精度。SE模塊結(jié)構(gòu)示意圖如圖10所示,該模塊在改進(jìn)YOLOv5m網(wǎng)絡(luò)(圖11)中的具體嵌入布局如下:分別在改進(jìn)后骨干網(wǎng)絡(luò)的第5、7、11、14層嵌入SE模塊。第7層的嵌入,改進(jìn)YOLOv5m架構(gòu)的第1個(gè)檢測(cè)層(Detect層),可實(shí)現(xiàn)對(duì)圖像中尺寸相對(duì)較大目標(biāo)物的識(shí)別。在改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)中,第7層輸出的特征圖與第20層輸出的高層特征圖進(jìn)行拼接后輸入至第1個(gè)Detect層,因而在前端第7層位置處嵌入SE模塊,使第20層輸出的含有高維特征信息的特征圖與第7層經(jīng)過(guò)SE模塊凸顯了尺寸較大目標(biāo)物信息的特征圖進(jìn)行融合,有利于第1檢測(cè)層對(duì)于圖像中相對(duì)較大目標(biāo)物的準(zhǔn)確識(shí)別。
圖10 SE模塊結(jié)構(gòu)示意圖Fig.10 SE module
圖11 改進(jìn)的YOLOv5m網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Architecture of improved YOLOv5m network
第14層的嵌入。改進(jìn)網(wǎng)絡(luò)第13層的SPP模塊實(shí)現(xiàn)了局部特征和全局特征的融合,豐富了特征圖的表達(dá)能力,有利于對(duì)圖像中目標(biāo)大小差異較大的情況進(jìn)行識(shí)別,在其后嵌入SE模塊,以進(jìn)一步提升SPP模塊輸出特征圖中明顯的特征,并抑制不重要的特征。
改進(jìn)后的YOLOv5m骨干網(wǎng)絡(luò)中存在多個(gè)含卷積操作的特征提取模塊,如BottleneckCSP-B模塊與Conv模塊,都具有對(duì)圖像特征進(jìn)行提取的功能。因此,在這些特征提取模塊后接入SE模塊可以在得到深層特征圖的基礎(chǔ)上,挖掘特征圖中各通道之間的相互關(guān)系,提取細(xì)節(jié)信息,進(jìn)一步優(yōu)化經(jīng)過(guò)卷積層所提取的特征。故在上述改進(jìn)的基礎(chǔ)上,在改進(jìn)后骨干網(wǎng)絡(luò)的第1~7層、7~14層之間嵌入SE模塊。
第5層的嵌入。由于骨干網(wǎng)絡(luò)對(duì)圖像特征的提取程度是隨層數(shù)遞進(jìn)的,當(dāng)骨干網(wǎng)絡(luò)前端對(duì)特征提取還不充分時(shí),在過(guò)于靠前的位置嵌入SE模塊以進(jìn)行特征優(yōu)化的效果并不明顯。另一方面,2個(gè)SE模塊相連的架構(gòu)又會(huì)造成資源冗余,故將SE模塊嵌入改進(jìn)后骨干網(wǎng)絡(luò)的第5層。
第11層的嵌入。由于第7~14層之間各模塊的輸出特征圖維度包含了192、384、768,且維度為192與768的特征圖均經(jīng)過(guò)SE模塊進(jìn)行特征優(yōu)化,故在7~14層間輸出特征圖維度為384的模塊后接入SE模塊。另一方面,為了將低層特征與包含強(qiáng)語(yǔ)義信息的更高層特征圖進(jìn)行跨接融合,以增強(qiáng)網(wǎng)絡(luò)的特征提取能力,確定在7~14層間將SE模塊嵌入至引出了低層跨接線(圖11中淺藍(lán)色跨接線)的第10層BottleneckCSP-B模塊之后的第11層。
SE模塊的輸入與輸出特征圖的維度是相同的。在將該模塊嵌入YOLOv5m骨干網(wǎng)絡(luò)時(shí),需要確保設(shè)置其輸入特征圖維度值與上一層模塊的輸出特征圖維度值相同。由于本研究是在改進(jìn)YOLOv5m骨干網(wǎng)絡(luò)的第5、7、11和14層分別嵌入SE模塊,根據(jù)嵌入位置前一模塊的輸出特征圖維度尺寸,將各嵌入SE模塊的輸入特征圖維度值分別設(shè)置為192、192、384、768。
融合不同尺度的特征是提高目標(biāo)檢測(cè)網(wǎng)絡(luò)識(shí)別性能的一個(gè)重要手段。特征融合是將從不同圖像中提取到的特征合成更具判別能力的特征圖。低層特征圖的分辨率較高,包含較多的目標(biāo)物位置與細(xì)節(jié)信息,但由于卷積層對(duì)其特征進(jìn)行提取較少,因而特征圖的語(yǔ)義性較低,所含噪聲較多。而高層特征圖具有較強(qiáng)的語(yǔ)義信息,但其分辨率較低,對(duì)圖像中細(xì)節(jié)的感知能力較差。因此,對(duì)高層與低層特征進(jìn)行有效融合,是改善模型檢測(cè)性能的關(guān)鍵。
基于2.2節(jié)和2.3節(jié)中對(duì)YOLOv5m架構(gòu)骨干網(wǎng)絡(luò)的改進(jìn)設(shè)計(jì),結(jié)合改進(jìn)后網(wǎng)絡(luò)各層輸出特征圖的尺寸,將原YOLOv5m架構(gòu)的第5層與第17層(圖4中紅色跨接線)、第7層與第13層(圖4中淺藍(lán)色跨接線)、第11層與第23層(圖4中黑色跨接線)融合,分別更改為本研究所設(shè)計(jì)網(wǎng)絡(luò)的第7層與第21層(圖11中紅色跨接線)、第10層與第17層(圖11中淺藍(lán)色跨接線)、第15層與第27層(圖11中黑色跨接線)融合。
另一方面,經(jīng)過(guò)對(duì)所獲取的蘋果樹(shù)圖像進(jìn)行分析,相對(duì)于整幅圖像,所需識(shí)別的蘋果目標(biāo)大部分屬于中等尺寸。由于所改進(jìn)設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)的第25層輸出特征圖是作為中等尺寸目標(biāo)檢測(cè)層的輸入,因此,為提升對(duì)當(dāng)前種植行蘋果目標(biāo)的檢測(cè)精度,彌補(bǔ)高層特征因其自身的低分辨率所導(dǎo)致的空間信息的損失,對(duì)原YOLOv5m架構(gòu)中輸入中等尺寸目標(biāo)檢測(cè)層的特征圖的跨接融合(第15層與第20層融合,見(jiàn)圖4中粉紅色跨接線)進(jìn)行改進(jìn),將低層感受野更大的特征提取層的輸出與中等尺寸目標(biāo)檢測(cè)層之前的特征提取層輸出進(jìn)行融合,即將改進(jìn)網(wǎng)絡(luò)的第16層與第23層的輸出特征圖融合(圖11中粉紅色跨接線)。改進(jìn)設(shè)計(jì)的蘋果采摘方式識(shí)別網(wǎng)絡(luò)架構(gòu)如圖11所示。
YOLOv5m架構(gòu)針對(duì)輸入多尺度檢測(cè)層用于識(shí)別小、中、大目標(biāo)物的3種尺寸特征圖(80×80、40×40、20×20)各設(shè)置了3種初始檢測(cè)錨框尺寸,分別為:10×13、16×30、33×23;30×61、62×45、59×119;116×90、156×198、373×326。
對(duì)于機(jī)器人視覺(jué)系統(tǒng)所獲取的蘋果樹(shù)圖像,由于處在圖像里較遠(yuǎn)處種植行中的蘋果與采摘機(jī)器人間的距離過(guò)大,因此并不能將其作為有效的待識(shí)別/采摘目標(biāo)。為了避免對(duì)圖像中較遠(yuǎn)種植行小蘋果的識(shí)別并提高對(duì)機(jī)器人所處的當(dāng)前果樹(shù)種植行蘋果目標(biāo)的識(shí)別準(zhǔn)確率,在對(duì)所獲取圖像中當(dāng)前種植行里的小、中、大蘋果的尺寸以及圖像中較遠(yuǎn)種植行小蘋果的尺寸及圖像尺寸進(jìn)行綜合分析的基礎(chǔ)上,對(duì)原YOLOv5m網(wǎng)絡(luò)中的小、中尺度目標(biāo)檢測(cè)層的初始錨框尺寸進(jìn)行了改進(jìn)設(shè)計(jì),分別修改為80×70、75×75、85×100;95×110、130×110、115×125。以期實(shí)現(xiàn)圖像里當(dāng)前種植行果實(shí)目標(biāo)的準(zhǔn)確識(shí)別。
YOLOv5網(wǎng)絡(luò)的損失函數(shù)L主要由回歸框預(yù)測(cè)損失Lloc、置信度損失Lconf與目標(biāo)分類損失Lclass組成,計(jì)算公式為
L=Lconf+Lclass+Lloc
(1)
其中,置信度損失和目標(biāo)分類損失采用二進(jìn)制交叉熵?fù)p失函數(shù)(BCELoss),計(jì)算公式為
(2)
式中,BCELoss表示BCE損失函數(shù),p′表示樣本的預(yù)測(cè)值,y表示樣本的真實(shí)類別,y=1表示屬于該類目標(biāo),y=0則表示不屬于該類目標(biāo)。
回歸框預(yù)測(cè)損失采用的是GIoU Loss函數(shù)。GIoU loss不僅考慮到了真實(shí)框與預(yù)測(cè)框的重疊區(qū)域,還關(guān)注了非重疊區(qū)域。這樣能較好地反映兩框之間的距離,因而目標(biāo)框的回歸會(huì)更加穩(wěn)定,避免了使用IOU進(jìn)行模型訓(xùn)練時(shí)出現(xiàn)的目標(biāo)框回歸發(fā)散問(wèn)題。
3.1.1訓(xùn)練平臺(tái)
基于聯(lián)想Legion Y7000P型計(jì)算機(jī)(Intel(R)Core(TM)i7-9750H CPU,2.6 GHz,16 GB內(nèi)存;NVIDIA GeForce RTX 2060 GPU,6 GB顯存),在Windows 10操作系統(tǒng)下搭建了Pytorch深度學(xué)習(xí)框架,使用Python語(yǔ)言編寫程序并調(diào)用CUDA、Cudnn和OpenCV等所需的庫(kù),實(shí)現(xiàn)了對(duì)面向采摘機(jī)器人的果實(shí)采摘方式識(shí)別模型的訓(xùn)練和測(cè)試。
采用隨機(jī)梯度下降法(SGD)以端到端的聯(lián)合方式訓(xùn)練所改進(jìn)設(shè)計(jì)的YOLOv5m網(wǎng)絡(luò)。模型訓(xùn)練時(shí)采用4個(gè)樣本作為一個(gè)批處理單元(Batch size),每次更新權(quán)值時(shí)使用BN層進(jìn)行正則化,動(dòng)量因子(Momentum)設(shè)置為0.937,權(quán)值衰減率(Decay)設(shè)置為0.000 5,初始學(xué)習(xí)率設(shè)置為0.01,IOU閾值設(shè)置為0.01,色調(diào)(H)、飽和度(S)與明度(V)的增強(qiáng)系數(shù)分別設(shè)置為0.015、0.7和0.4,共訓(xùn)練300輪(Epochs)。模型訓(xùn)練結(jié)束后保存所得到的權(quán)重文件,在測(cè)試集上對(duì)識(shí)別模型的性能進(jìn)行評(píng)估。在經(jīng)過(guò)非極大值抑制(Non-maximum suppression,NMS)等后處理操作消除了大量冗余的預(yù)測(cè)框后,網(wǎng)絡(luò)的最終輸出為置信度得分最高的蘋果采摘方式預(yù)測(cè)類別,并返回果實(shí)位置預(yù)測(cè)框的坐標(biāo)。
3.1.2訓(xùn)練結(jié)果
網(wǎng)絡(luò)訓(xùn)練的損失(Loss)曲線見(jiàn)圖12,由圖12可知,網(wǎng)絡(luò)在前50輪訓(xùn)練時(shí),損失值快速下降,訓(xùn)練250輪之后,損失值基本趨于穩(wěn)定。因此本研究將訓(xùn)練300輪結(jié)束后輸出的模型確定為面向采摘機(jī)器人的蘋果采摘方式識(shí)別模型。
圖12 網(wǎng)絡(luò)訓(xùn)練損失曲線Fig.12 Network training loss curve
3.2.1蘋果采摘方式識(shí)別性能評(píng)價(jià)指標(biāo)
采用準(zhǔn)確率(P)、召回率(R)、平均精度(Average precision,AP)、平均精度均值(mAP)和F1值(F1 Score)客觀評(píng)判標(biāo)準(zhǔn)來(lái)評(píng)估所訓(xùn)練出的模型針對(duì)蘋果采摘方式的識(shí)別性能。
3.2.2最優(yōu)模型和預(yù)測(cè)類別閾值確定
識(shí)別模型在預(yù)測(cè)出目標(biāo)所屬類別的置信度之后需要依據(jù)預(yù)設(shè)的閾值對(duì)預(yù)測(cè)框進(jìn)行篩選。基于同一個(gè)識(shí)別模型使用不同的置信度閾值進(jìn)行預(yù)測(cè),其識(shí)別結(jié)果的準(zhǔn)確率和召回率是不同的。
若識(shí)別模型的置信度閾值選擇不合適,會(huì)出現(xiàn)如圖13所示的預(yù)測(cè)結(jié)果:置信度閾值設(shè)置過(guò)低時(shí)會(huì)誤將圖像中較遠(yuǎn)種植行的小蘋果識(shí)別出來(lái)(圖13a中的黃色橢圓標(biāo)識(shí)),閾值設(shè)置過(guò)高時(shí)可能會(huì)漏掉當(dāng)前種植行中的蘋果目標(biāo)(圖13b中的黃色橢圓標(biāo)識(shí))。因此,需要結(jié)合具體的識(shí)別任務(wù)為模型確定合適的置信度閾值,以準(zhǔn)確地篩選出需要識(shí)別的蘋果目標(biāo)。
圖13 預(yù)測(cè)類別閾值對(duì)識(shí)別結(jié)果的影響Fig.13 Impact of confidence threshold on recognition result
基于訓(xùn)練所得的蘋果采摘方式識(shí)別模型,通過(guò)調(diào)整置信度閾值,比較衡量模型在不同閾值下對(duì)測(cè)試集共344幅蘋果樹(shù)圖像中的6類果實(shí)目標(biāo)識(shí)別的準(zhǔn)確率、召回率和mAP的變化,結(jié)合采摘機(jī)器人果實(shí)采摘方式識(shí)別任務(wù)的實(shí)際需求,確定模型的最佳預(yù)測(cè)類別閾值。經(jīng)試驗(yàn)測(cè)試,不同置信度閾值下模型的識(shí)別準(zhǔn)確率、召回率、mAP曲線如圖14所示。
圖14 不同置信度閾值下模型性能變化曲線Fig.14 Changes of performance of model with different confidence thresholds
對(duì)于面向采摘機(jī)器人的蘋果采摘方式識(shí)別,需要對(duì)當(dāng)前種植行(即采摘機(jī)械手可抓取范圍內(nèi))中的果實(shí)進(jìn)行識(shí)別,同時(shí)排除較遠(yuǎn)處他行蘋果樹(shù)上果實(shí)的干擾,因而在模型識(shí)別的準(zhǔn)確率和召回率之間需要優(yōu)先考慮準(zhǔn)確率。另一方面,在選擇閾值時(shí)需要輔助參考用于評(píng)估模型綜合性能的指標(biāo)mAP,因其能同時(shí)兼顧準(zhǔn)確率和召回率。
由圖14可知,當(dāng)置信度閾值小于0.5時(shí),模型的識(shí)別準(zhǔn)確率較低,不足80%;當(dāng)置信度閾值高于0.5時(shí),識(shí)別模型的mAP降低至80%以下;因而綜合考慮模型的識(shí)別準(zhǔn)確率與mAP,當(dāng)置信度閾值為0.5時(shí),模型的性能表現(xiàn)最好,此時(shí)模型識(shí)別的準(zhǔn)確率、召回率、mAP分別為81.0%、85.9%和80.7%。
為了驗(yàn)證所設(shè)計(jì)的蘋果采摘方式識(shí)別模型的性能,對(duì)該模型在測(cè)試集圖像上的識(shí)別結(jié)果進(jìn)行進(jìn)一步分析。344幅測(cè)試集圖像中共有6 536個(gè)蘋果目標(biāo),其中可直接采摘果實(shí)目標(biāo)數(shù)量為1 952個(gè),不可采摘果實(shí)目標(biāo)數(shù)量為1 202個(gè),上、下、左、右側(cè)采摘果實(shí)的數(shù)量分別為658、909、950、865個(gè)。
模型的具體識(shí)別結(jié)果如表2所示,可以看出,針對(duì)可直接采摘果實(shí)、不可采摘果實(shí)和上、下、左、右側(cè)采摘果實(shí),本文所提出的模型對(duì)其識(shí)別的AP及F1值分別為91.6%、90.0%,68.9%、73.5%,73.2%、82.5%,82.4%、83.3%,84.5%、84.3%,83.4%、84.3%??傮w的識(shí)別準(zhǔn)確率、召回率、mAP(6類蘋果采摘方式的平均精度)及F1值均在80%以上,分別為81.0%、85.9%、80.7%和83.4%,基本滿足蘋果采摘方式識(shí)別精度要求。
表2 基于改進(jìn)YOLOv5m網(wǎng)絡(luò)的蘋果采摘方式識(shí)別結(jié)果Tab.2 Recognition results of apple picking pattern using improved YOLOv5m network
本文所提出的模型對(duì)不同天氣與光照條件下的6種蘋果采摘方式的識(shí)別結(jié)果示例如圖15所示。其中,所識(shí)別出的不可采摘、可直接采摘和上、下、左、右側(cè)采摘果實(shí)分別使用黃色、綠色和藍(lán)色、粉色、深藍(lán)色、紅色框標(biāo)識(shí)。由圖15可以看出,所提出的識(shí)別模型不僅適用于陰天采集的光照均勻的圖像,也適用于晴天光照條件下采集的圖像,且對(duì)于順光、側(cè)光及逆光條件下的圖像均能較好地識(shí)別出不同蘋果采摘方式。
圖15 基于改進(jìn)YOLOv5m的蘋果采摘方式識(shí)別示例Fig.15 Recognition examples of apple picking pattern using improved YOLOv5m
為了進(jìn)一步分析所提出的蘋果采摘方式識(shí)別算法的性能,將改進(jìn)的YOLOv5m網(wǎng)絡(luò)與原YOLOv5m、YOLOv3、EfficientDet-D0網(wǎng)絡(luò)在測(cè)試集圖像上進(jìn)行了識(shí)別結(jié)果對(duì)比。以mAP、平均識(shí)別速度等作為評(píng)價(jià)指標(biāo),各網(wǎng)絡(luò)模型的識(shí)別結(jié)果、模型體積(占用存儲(chǔ)空間量)及參數(shù)數(shù)量如表3所示。
表3 不同目標(biāo)檢測(cè)網(wǎng)絡(luò)識(shí)別性能對(duì)比Tab.3 Performance comparison of various target detection networks
由表3可以看出,本文提出的改進(jìn)YOLOv5m識(shí)別模型的mAP最高,與原YOLOv5m網(wǎng)絡(luò)相比提高了5.4個(gè)百分點(diǎn),與YOLOv3、EfficientDet-D0網(wǎng)絡(luò)相比分別高出了22、20.6個(gè)百分點(diǎn)。針對(duì)模型的識(shí)別速度,本文提出的改進(jìn)YOLOv5m識(shí)別模型在測(cè)試集上單幅圖像平均識(shí)別時(shí)間可達(dá)0.025 s(40 f/s),能夠滿足蘋果采摘方式實(shí)時(shí)識(shí)別的要求,分別為EfficientDet-D0與YOLOv3網(wǎng)絡(luò)識(shí)別時(shí)間的62.5%與47.17%。另一方面,由表3可以看出,本文所提出識(shí)別模型的體積為37 MB,為原始YOLOv5m模型的89.59%。說(shuō)明所提出的網(wǎng)絡(luò)在保證識(shí)別精度的同時(shí),有效地實(shí)現(xiàn)了網(wǎng)絡(luò)的輕量化。
綜上,本文提出的模型在4種網(wǎng)絡(luò)模型中具有最高的mAP。所提出模型的識(shí)別速度明顯優(yōu)于EfficientDet-D0與YOLOv3網(wǎng)絡(luò),雖然略低于原始的YOLOv5m網(wǎng)絡(luò),但識(shí)別平均幀率可達(dá)40 f/s,能夠滿足蘋果采摘方式實(shí)時(shí)識(shí)別的需求。
4種模型分別針對(duì)陰天與晴天條件下的蘋果采摘方式識(shí)別結(jié)果如圖16所示,可以看出,本文提出的改進(jìn)YOLOv5m網(wǎng)絡(luò)的識(shí)別結(jié)果較準(zhǔn)確,無(wú)誤識(shí)與漏識(shí)現(xiàn)象。
圖16 4種網(wǎng)絡(luò)模型的蘋果采摘方式識(shí)別結(jié)果Fig.16 Apple picking pattern recognition results of four network models
針對(duì)陰天條件下的蘋果采摘方式識(shí)別:EfficientDet-D0網(wǎng)絡(luò)的識(shí)別結(jié)果較準(zhǔn)確,無(wú)漏識(shí)與誤識(shí)現(xiàn)象;YOLOv3網(wǎng)絡(luò)的識(shí)別結(jié)果中出現(xiàn)了漏識(shí)別(圖16d陰天圖像中白色橢圓標(biāo)識(shí))和將右側(cè)采摘果實(shí)識(shí)別為不可采摘果實(shí)的誤識(shí)別現(xiàn)象(圖16d陰天圖像中黑色橢圓標(biāo)識(shí));YOLOv5m網(wǎng)絡(luò)對(duì)當(dāng)前種植行中蘋果采摘方式的識(shí)別結(jié)果雖然較準(zhǔn)確,但卻過(guò)度識(shí)別了較多較遠(yuǎn)種植行中的蘋果(如圖16b陰天圖像)。
針對(duì)晴天條件下的蘋果采摘方式識(shí)別:YOLOv5m網(wǎng)絡(luò)出現(xiàn)了將右側(cè)、下側(cè)采摘果實(shí)誤識(shí)別為不可采摘果實(shí)的現(xiàn)象(圖16b晴天圖像中黑色橢圓標(biāo)識(shí));EfficientDet-D0網(wǎng)絡(luò)和YOLOv3網(wǎng)絡(luò)均出現(xiàn)了漏識(shí)別現(xiàn)象(圖16c晴天圖像、圖16d晴天圖像中白色橢圓標(biāo)識(shí))和將不可采摘果實(shí)誤識(shí)別為可采摘果實(shí)的現(xiàn)象(圖16c晴天圖像、圖16d晴天圖像中黑色橢圓標(biāo)識(shí))。其中,EfficientDet-D0網(wǎng)絡(luò)還出現(xiàn)了將右側(cè)、上側(cè)采摘果實(shí)誤識(shí)別為不可采摘果實(shí)的現(xiàn)象,YOLO v3網(wǎng)絡(luò)還出現(xiàn)將不可采摘、右側(cè)采摘果實(shí)誤識(shí)別為左側(cè)采摘果實(shí)的現(xiàn)象(圖16c晴天圖像、圖16d晴天圖像中黑色橢圓標(biāo)識(shí))。
現(xiàn)有的蘋果識(shí)別算法大多將蘋果樹(shù)上各種情況下的果實(shí)作為一類目標(biāo)進(jìn)行識(shí)別,對(duì)蘋果目標(biāo)多分類識(shí)別的研究較少。GAO等[17]將Faster R-CNN網(wǎng)絡(luò)用于識(shí)別蘋果樹(shù)上不同條件下的共4類蘋果目標(biāo),包括無(wú)遮擋、樹(shù)葉遮擋、樹(shù)枝/線遮擋和果實(shí)遮擋的蘋果。YAN等[6]將YOLOv5s網(wǎng)絡(luò)用于蘋果識(shí)別中,將不同條件下的果實(shí)劃分為可采摘(未被遮擋或僅被樹(shù)葉遮擋的果實(shí))與不可采摘(被樹(shù)枝干或被其他蘋果遮擋的果實(shí))兩類。為了驗(yàn)證所提出算法的識(shí)別性能,將本文算法與上述蘋果檢測(cè)算法的識(shí)別結(jié)果進(jìn)行了比較,對(duì)比結(jié)果見(jiàn)表4。
由表4可以看出,YAN等[6]所提出的算法雖然在總體識(shí)別mAP與識(shí)別速度上優(yōu)于本研究提出的算法,可以識(shí)別出被樹(shù)枝干遮擋的蘋果目標(biāo),以引導(dǎo)機(jī)器人避開(kāi)對(duì)這些果實(shí)的采摘,但該算法卻無(wú)法從視覺(jué)上引導(dǎo)機(jī)器人采摘被樹(shù)枝干遮擋的蘋果,從而導(dǎo)致一部分果實(shí)的漏采。而針對(duì)蘋果采摘機(jī)器人,若根據(jù)蘋果被枝干遮擋的不同情形而相應(yīng)地改變機(jī)械手的采摘位姿,則可以實(shí)現(xiàn)對(duì)被枝干遮擋蘋果的采摘。而本文所提出的識(shí)別方法實(shí)現(xiàn)了對(duì)不同蘋果采摘方式的識(shí)別,從而可為機(jī)械手主動(dòng)調(diào)整位姿以避開(kāi)枝干對(duì)蘋果的遮擋進(jìn)行果實(shí)采摘提供視覺(jué)引導(dǎo)。
表4 與其他多分類蘋果目標(biāo)識(shí)別算法對(duì)比Tab.4 Performance comparison with multi-class recognition method for apple
另一方面,GAO等[17]所提出的算法也無(wú)法從視覺(jué)上引導(dǎo)機(jī)器人采摘被樹(shù)枝干遮擋的蘋果。該算法識(shí)別4類蘋果的總體mAP為87.9%,比本文所提出識(shí)別方法的mAP(80.7%)高7.2個(gè)百分點(diǎn)。但該文識(shí)別模型的體積較龐大,權(quán)重文件達(dá)到了512 MB,而本文所提出的輕量化識(shí)別模型的體積為37 MB,僅為該文模型的7.23%,體積的輕量化有利于后期將模型部署在硬件設(shè)備中。另外,模型的識(shí)別速度對(duì)于機(jī)器人的采摘效率具有重要影響,該文模型的單幀圖像識(shí)別時(shí)間為0.241 s(幀率為4.15 f/s),而本文模型的單幀圖像識(shí)別時(shí)間僅為0.025 s(幀率為40 f/s),為該文模型識(shí)別速度的9.64倍,能夠滿足果實(shí)目標(biāo)實(shí)時(shí)識(shí)別的需求。
(1)針對(duì)現(xiàn)有識(shí)別算法無(wú)法區(qū)分枝干單側(cè)遮擋(即枝干遮擋蘋果的上、下、左、右側(cè))、多側(cè)遮擋情形下蘋果目標(biāo)的問(wèn)題,提出了一種基于改進(jìn)YOLOv5m面向采摘機(jī)器人的蘋果采摘方式實(shí)時(shí)識(shí)別方法,實(shí)現(xiàn)了對(duì)蘋果樹(shù)上不同果實(shí)采摘方式的識(shí)別,從而可為機(jī)械手主動(dòng)調(diào)整位姿以避開(kāi)樹(shù)枝干的遮擋進(jìn)行果實(shí)采摘提供視覺(jué)引導(dǎo),以降低蘋果的采摘損失。
(2)改進(jìn)設(shè)計(jì)了BottleneckCSP-B特征提取模塊并替換原YOLOv5m骨干網(wǎng)絡(luò)中的BottleneckCSP模塊,實(shí)現(xiàn)了原模塊對(duì)圖像深層特征提取能力的增強(qiáng)與骨干網(wǎng)絡(luò)的輕量化改進(jìn);將SE模塊嵌入到所改進(jìn)設(shè)計(jì)的骨干網(wǎng)絡(luò)中,更好地提取了不同蘋果目標(biāo)的特征;改進(jìn)了原YOLOv5m架構(gòu)中輸入中等尺寸目標(biāo)檢測(cè)層的特征圖跨接融合方式與網(wǎng)絡(luò)的初始錨框尺寸,提升了當(dāng)前種植行蘋果目標(biāo)的識(shí)別精度,避免了對(duì)圖像里較遠(yuǎn)種植行蘋果的識(shí)別。
(3)所提出的改進(jìn)網(wǎng)絡(luò)模型可有效實(shí)現(xiàn)對(duì)圖像中可直接采摘、迂回采摘(蘋果的上、下、左、右側(cè)采摘)和不可采摘果實(shí)的識(shí)別,測(cè)試集試驗(yàn)結(jié)果表明,識(shí)別召回率為85.9%,準(zhǔn)確率為81.0%,mAP為80.7%,F(xiàn)1值為83.4%,單幅(幀)圖像平均識(shí)別時(shí)間為0.025 s。
(4)對(duì)比了所提出的改進(jìn)YOLOv5m算法與原始YOLOv5m、YOLOv3和EfficientDet-D0算法在測(cè)試集圖像上對(duì)6類蘋果目標(biāo)的識(shí)別效果,結(jié)果表明,所提出的改進(jìn)算法與其他3種算法相比,識(shí)別的mAP分別高出了5.4、22、20.6個(gè)百分點(diǎn)。改進(jìn)模型的體積壓縮至原YOLOv5m模型的89.6%。