姜國(guó)權(quán) 楊正元 霍占強(qiáng) 羅軍偉 趙翠君
摘要:為了實(shí)現(xiàn)自然環(huán)境下疏果前蘋果的快速識(shí)別和精確定位,滿足果園智能化種植需求,提出了一種基于改進(jìn)的YOLOv5深度學(xué)習(xí)的檢測(cè)模型。首先,為了解決蘋果的尺度大小不一帶來的問題,改進(jìn)目標(biāo)檢測(cè)層,在YOLOv5的第17層之后對(duì)特征圖進(jìn)行上采樣,在第20層將網(wǎng)絡(luò)提取到的特征圖與Backbone網(wǎng)絡(luò)中的第2層特征圖進(jìn)行融合操作,以生成不同尺寸的檢測(cè)層。其次,為了克服復(fù)雜環(huán)境的影響,改進(jìn)特征融合網(wǎng)絡(luò),使用BiFPN(Bidirectional Feature Pyramid Network))進(jìn)行特征融合,來更有效地提取目標(biāo)信息。最后,將采集到的蘋果圖像進(jìn)行不同網(wǎng)絡(luò)模型檢測(cè)效果對(duì)比試驗(yàn)。試驗(yàn)表明,改進(jìn)的模型經(jīng)過8 274幅圖像訓(xùn)練,在2 759幅測(cè)試集上的檢測(cè)準(zhǔn)確率為94.2%,召回率為95.2%,F(xiàn)1值為94.7%;相比YOLOv3、YOLOv4、原YOLOv5網(wǎng)絡(luò),準(zhǔn)確率分別提高了4.4%、7.0%、2.3%,F(xiàn)1值分別提高6.1%、6.5%、2.6%;相比YOLOv3、YOLOv4網(wǎng)絡(luò),圖像的檢測(cè)速度分別提高了13.5、21.4 ms/幅。結(jié)果表明,在保證檢測(cè)實(shí)時(shí)性的情況下,該方法可以有效識(shí)別復(fù)雜環(huán)境下的蘋果。
關(guān)鍵詞:改進(jìn)YOLOv5;疏果前;目標(biāo)檢測(cè);蘋果檢測(cè);特征融合
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2023)14-0205-10
蘋果是世界四大水果之一,中國(guó)是世界上最大的蘋果生產(chǎn)國(guó)和消費(fèi)國(guó)。我國(guó)的蘋果樹種植主要集中在北方,蘋果主要產(chǎn)區(qū)分布在甘肅、陜西、河南、山東等地,其中甘肅省天水市的花牛蘋果肉質(zhì)細(xì)且松脆,得到了中外專家和營(yíng)銷商的認(rèn)可[1]。隨著科技的發(fā)展,蘋果種植也朝著規(guī)?;?、機(jī)械化、精準(zhǔn)化的方向發(fā)展[2-4]。蘋果的檢測(cè)問題在國(guó)內(nèi)外已有較多的研究,但研究對(duì)象大都是成熟期的蘋果,對(duì)于疏果前蘋果的識(shí)別研究尚不多見。實(shí)現(xiàn)疏果前蘋果檢測(cè),對(duì)自動(dòng)化疏果、噴灑農(nóng)藥、施肥以及果實(shí)生長(zhǎng)情況的監(jiān)測(cè)等智能化管理具有重要意義。
目前,國(guó)內(nèi)外對(duì)水果檢測(cè)進(jìn)行了廣泛研究,所使用的傳統(tǒng)方法主要有色差法[5-6]、模糊C均值方法[7]、K最近鄰(K-Nearest Neighbor,KNN)方法[8]、支持向量機(jī)(Support Vector Machine,SVM)[9-10]、K-means聚類方法[11]等。以上方法雖然可以將圖像中的果實(shí)識(shí)別出來,但是受外部環(huán)境條件影響較大,例如當(dāng)光照條件不同、有物體遮擋或者水果重疊的情況發(fā)生的時(shí)候,果實(shí)的檢測(cè)效果會(huì)受到影響。
目前深度學(xué)習(xí)技術(shù)在水果檢測(cè)中得到了廣泛應(yīng)用,國(guó)內(nèi)外學(xué)者對(duì)此進(jìn)行了大量研究[12-15]。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的方法可以自動(dòng)提取圖像的特征,利用提取到的特征來獲得檢測(cè)目標(biāo)的類別和位置信息,具有檢測(cè)速度更快、精度更高、魯棒性更強(qiáng)的特點(diǎn)。深度學(xué)習(xí)目標(biāo)檢測(cè)算法主要分為雙階段和單階段2種類型。雙階段算法的核心思想是,首先在圖像中產(chǎn)生候選區(qū)域,然后對(duì)候選區(qū)域進(jìn)行檢測(cè),回歸確定出目標(biāo)的類別和位置信息,以RCNN[16]、Mask-RCNN[17]、Fast-RCNN[18]、Faster-RCNN[19]等為代表。王輝等提出一種基于Mask-RCNN的單株柑橘樹冠識(shí)別與分割的方法,在復(fù)雜的果園圖像中具有良好的識(shí)別與分割效果[20]。寧政通等提出一種基于Mask-RCNN的葡萄果梗識(shí)別與最優(yōu)采摘定位的方法,提高了葡萄采摘機(jī)器人的采摘效率[21]。Yu等提出一種基于Mask-RCNN的草莓采摘機(jī)器人,與傳統(tǒng)方法相比,該方法具有更好的普遍性和魯棒性[22]。閆建偉等提出了一種基于改進(jìn)Faster-RCNN刺梨果實(shí)識(shí)別方法,試驗(yàn)表明VGG16網(wǎng)絡(luò)模型對(duì)自然條件下刺梨果實(shí)的識(shí)別具有較高的準(zhǔn)確率和實(shí)時(shí)性[23]。Gao等提出一種基于Faster-RCNN的多分類蘋果目標(biāo)檢測(cè)方法,可以有效檢測(cè)出所有不同種類的果實(shí)目標(biāo)[24]。單階段算法不需要進(jìn)行中間層的候選區(qū)域提取,而是直接把特征提取、目標(biāo)分類、位置信息回歸放在一個(gè)流程,相較于雙階段算法,單階段算法在保證檢測(cè)準(zhǔn)確率的情況下,檢測(cè)速度也有了一定的提升。較為經(jīng)典的單階段目標(biāo)檢測(cè)算法主要有(Single Shot MultiBox Detector,SSD)和(You Only Look Once,YOLO)系列等。彭紅星等提出一種通用改進(jìn) SSD 模型用于實(shí)現(xiàn)多種類水果的精準(zhǔn)檢測(cè),為農(nóng)業(yè)自動(dòng)化采摘提供了新的方案[25]。張恩宇等提出一種基于SSD算法的青蘋果識(shí)別方法,該方法將SSD深度學(xué)習(xí)算法和圖像處理算法相結(jié)合[26]。王昱潭等提出一種基于改進(jìn)SSD的靈武長(zhǎng)棗目標(biāo)檢測(cè)方法,可以很好地完成靈武長(zhǎng)棗的目標(biāo)檢測(cè)任務(wù)[27]。薛月菊等提出一種未成熟芒果的YOLOv2識(shí)別方法,設(shè)計(jì)了一個(gè)基于密集連接的Tiny-yolo模型,該網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)崿F(xiàn)多層特征的復(fù)用和融合,利用樣本的前景區(qū)域來訓(xùn)練YOLOv2結(jié)構(gòu),以此來減小外界環(huán)境對(duì)檢測(cè)效果的干擾[28]。唐熔釵等提出一種基于改進(jìn)YOLOv3網(wǎng)絡(luò)的百香果實(shí)時(shí)檢測(cè)方法,具有良好的檢測(cè)效果,為百香果實(shí)時(shí)檢測(cè)提供了有效方法[29]。張兆國(guó)等提出一種基于改進(jìn)YOLOv4模型的馬鈴薯檢測(cè)方法,該模型具有很強(qiáng)的魯棒性,可以在各種復(fù)雜環(huán)境下完成對(duì)馬鈴薯的檢測(cè)[30]。Fan等提出一種基于YOLOv4深度學(xué)習(xí)算法的實(shí)時(shí)蘋果缺陷檢測(cè)方法,該方法和初始的YOLOv4模型相比,具有更好的時(shí)效性和更高的準(zhǔn)確率[31]。王卓等提出一種改進(jìn)YOLOv4的輕量級(jí)蘋果實(shí)時(shí)檢測(cè)方法,該方法簡(jiǎn)化了網(wǎng)絡(luò)的復(fù)雜程度,提高了模型的響應(yīng)速度[32]。高芳芳等設(shè)計(jì)了一種基于輕量級(jí)目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv4-tiny和卡爾曼濾波跟蹤算法的蘋果檢測(cè)與視頻計(jì)數(shù)模型,該模型可以幫助果農(nóng)掌握蘋果的數(shù)量,有助于科學(xué)化種植[33]。
相較于成熟期的蘋果,疏果前的蘋果檢測(cè)存在目標(biāo)較小、顏色與背景相似的挑戰(zhàn)。本研究以果園中自然環(huán)境的蘋果為研究對(duì)象,構(gòu)建一個(gè)疏果前蘋果數(shù)據(jù)集,提出一種基于改進(jìn)YOLOv5網(wǎng)絡(luò)的果實(shí)檢測(cè)方法。首先,為了解決目標(biāo)尺寸大小不一的問題,改進(jìn)目標(biāo)檢測(cè)層,將尺度不同的特征圖輸入不同的檢測(cè)層進(jìn)行多尺度檢測(cè),進(jìn)而提高目標(biāo)的檢測(cè)效果;其次,為了解決復(fù)雜背景的影響,采用EfficientDet中提出的BiFPN特征融合網(wǎng)絡(luò)替換原網(wǎng)絡(luò)中的PANet特征融合網(wǎng)絡(luò),顯著提高了目標(biāo)特征信息的提取效果[34]。
1 試驗(yàn)數(shù)據(jù)
1.1 圖像采集
本研究中的圖像采集于甘肅省天水市甘谷縣大石鎮(zhèn)花牛果園,采集時(shí)間是2021年5月12日(晴)、5月13日(晴)、5月16日(陰)的08:30—12:00及14:00—18:00。此時(shí)蘋果的橫徑在30 mm以下,使用iphone X手機(jī)多角度近距離(2 m以內(nèi))進(jìn)行拍攝,共采集花牛蘋果原圖像1 668幅,樣本如圖1所示。
1.2 數(shù)據(jù)增強(qiáng)處理
少量的訓(xùn)練圖像可能會(huì)導(dǎo)致深度學(xué)習(xí)算法的過度擬合或者不收斂,而使用數(shù)據(jù)增強(qiáng)來增加訓(xùn)練圖像的數(shù)量可以用來克服這一缺陷。因此,從拍攝的1 668幅蘋果圖像中篩選出862幅,使用MATLAB軟件、Photoshop圖像處理工具實(shí)現(xiàn)數(shù)據(jù)集增強(qiáng),增強(qiáng)方法有多角度旋轉(zhuǎn)、水平鏡像、垂直鏡像、亮度變化、模糊處理,數(shù)據(jù)增強(qiáng)效果如圖2所示。
通過上述方法增強(qiáng)以后,訓(xùn)練數(shù)據(jù)集增加了15倍,從862幅圖像變?yōu)榱?3 792幅圖像。然后,借助LabelImg軟件對(duì)圖像進(jìn)行標(biāo)簽制作,使用POSCAL VOC2007數(shù)據(jù)集格式制作,生成“xml”文件。最終,數(shù)據(jù)被分為訓(xùn)練集(60%)、驗(yàn)證集(20%)、測(cè)試集(20%),如表1所示。
2 改進(jìn)YOLOv5網(wǎng)絡(luò)模型
2.1 YOLOv5網(wǎng)絡(luò)模型
YOLOv5有4種不同的網(wǎng)絡(luò)結(jié)構(gòu):YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x,它們的不同之處在于網(wǎng)絡(luò)的深度和寬度不同。為了保證網(wǎng)絡(luò)輕量化,本研究選用YOLOv5s結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)主要由4個(gè)部分組成:Input端、Backbone端、Neck端、Head端,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。首先,該網(wǎng)絡(luò)的輸入圖像大小為640×640,該階段通常包含1個(gè)圖像預(yù)處理階段。其次,對(duì)圖像進(jìn)行特征提取。然后,對(duì)提取到的特征進(jìn)行融合,經(jīng)過在Neck端的進(jìn)一步特征提取,可以得到3種不同尺度的特征圖,進(jìn)一步提升特征的多樣性和魯棒性。最后,將生成的特征圖送入不同的檢測(cè)層,對(duì)目標(biāo)圖像生成相應(yīng)的預(yù)測(cè)框并對(duì)其進(jìn)行非極大值抑制(Non-Maximum Suppression,NMS)處理,抑制掉得分低的預(yù)測(cè)框,檢測(cè)出目標(biāo)。
YOLOv5的損失函數(shù),由分類損失(Classification Loss)、置信度損失(Confidence Loss)、定位損失(Localization Loss)3個(gè)部分組成。其中采用二元交叉熵?fù)p失函數(shù)(BCE Loss)來計(jì)算檢測(cè)物體的置信度損失和分類損失,定位損失函數(shù)采用完全交并比損失函數(shù)(Complete Intersection over Union Loss,CIOU Loss),如公式(1)所示。
其中“CIOU”表示網(wǎng)絡(luò)中預(yù)測(cè)框和真實(shí)框之間的交并比,ρ表示真實(shí)框和預(yù)測(cè)框2個(gè)框中心點(diǎn)之間的歐氏距離,b、bgt表示預(yù)測(cè)框、真實(shí)框的中心點(diǎn),h、w分別表示預(yù)測(cè)框的高度、寬度,ht、wt分別表示真實(shí)框的高度、寬度。公式“IOU”計(jì)算如公式(2)所示。公式(1)中的v如公式(3)計(jì)算,用來表示預(yù)測(cè)框和真實(shí)框之間的高寬比差異,如果高寬比一致,v=0;v越大,差距越大。公式(1)中的系數(shù)α表示權(quán)重,系數(shù)α的計(jì)算如公式(4)所示。
2.2 改進(jìn)YOLOv5網(wǎng)絡(luò)模型
2.2.1 改進(jìn)目標(biāo)檢測(cè)層 原始的YOLOv5網(wǎng)絡(luò)中,head端有3個(gè)檢測(cè)層,對(duì)應(yīng)3組初始化的anchor值,輸入分辨率為640×640像素的圖像,經(jīng)過特征提取最終提取到尺度分別為80×80、40×40、20×20的特征圖,可以用來檢測(cè)尺寸為8×8、16×16、32×32以上的目標(biāo)。3個(gè)檢測(cè)層的模型對(duì)于較大的目標(biāo)檢測(cè)效果較好,但對(duì)于較小尺寸的蘋果目標(biāo),檢測(cè)率有所降低。因此,本研究對(duì)原來檢測(cè)層做如下改進(jìn):(1)在YOLOv5的第17層之后,繼續(xù)對(duì)特征圖進(jìn)行上采樣,這樣可以使得特征圖擴(kuò)大,有助于提取不同尺度果實(shí)的特征信息;(2)在第20層,將網(wǎng)絡(luò)提取到的大小為160×160的特征圖與Backbone網(wǎng)絡(luò)中的第2層特征圖進(jìn)行Concat融合操作,獲得尺寸為64×64的特征圖。這樣,模型最終會(huì)生成4個(gè)不同尺度的特征圖,送入不同檢測(cè)層能夠進(jìn)行多尺度檢測(cè),提高了檢測(cè)效果。
2.2.2 改進(jìn)特征融合網(wǎng)絡(luò) FPN(Feature Pyramid Networks)主要分為以SSD為代表使用的無融合網(wǎng)絡(luò)(圖4-a);以Faster RCNN、Mask RCNN、YOLOv3為代表使用的自上而下的單向融合網(wǎng)絡(luò)(圖4-b);以YOLOv5為代表使用的簡(jiǎn)單雙向融合網(wǎng)絡(luò)(圖 4-c)。PANet的提出證明了雙向融合的有效性,但PANet的雙向融合將其他層的信息直接進(jìn)行融合,會(huì)融入一些非目標(biāo)的特征信息,因此出現(xiàn)了更復(fù)雜的雙向融合網(wǎng)絡(luò)。各種融合網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
本研究使用的BiFPN特征融合網(wǎng)絡(luò)屬于復(fù)雜雙向融合網(wǎng)絡(luò)(圖4-d),用它來代替YOLOv5中的PANet特征融合網(wǎng)絡(luò)。特征融合網(wǎng)絡(luò)用來聚合不同分辨率的特征,PANet網(wǎng)絡(luò)在特征融合階段時(shí)所有輸入節(jié)點(diǎn)的權(quán)重都是均等的,在進(jìn)行融合時(shí)只是簡(jiǎn)單的相加。實(shí)際情況是特征的分辨率不同,對(duì)融合后的輸出特征貢獻(xiàn)值是不一樣的,這就需要對(duì)不同特征節(jié)點(diǎn)的輸入賦予不同的權(quán)重。BiFPN一方面使用快速歸一化融合,針對(duì)融合的各個(gè)尺度特征增加一個(gè)權(quán)重,調(diào)節(jié)每個(gè)尺度的貢獻(xiàn)度;另一方面,由于單邊輸入的結(jié)點(diǎn)沒有進(jìn)行特征融合,對(duì)于最后的融合貢獻(xiàn)少,因此,移除了單邊輸入的結(jié)點(diǎn)。BiFPN結(jié)構(gòu)如5所示。
BiFPN特征融合網(wǎng)絡(luò)集成了雙向跨尺度連接和快速歸一化融合,以BiFPN的第6層的特征融合為例,其中公式(5)中的Ptd6是自頂向下路徑上第6級(jí)的中間特征;w1、w2是得到的權(quán)重參數(shù);Resize操作是下采樣操作;是一個(gè)小值,以避免數(shù)值不穩(wěn)定;
Pin7是自頂向下路徑上第7級(jí)的輸入特征。公式(6)中Pout6是自底向上路徑上第6級(jí)的輸出特征;w1′、w2′、w3′是對(duì)權(quán)重值w1、w2、w3求導(dǎo);Ptd6是自頂向下路徑上第6級(jí)的中間特征;Resize操作是下采樣操作。所有其他特征都以類似的方式構(gòu)建。使用BiFPN特征融合網(wǎng)絡(luò)可以有效抑制與疏果前綠色蘋果顏色相近的背景信息,可以提取更多有用信息進(jìn)行融合,從而提高檢測(cè)效果。
改進(jìn)目標(biāo)檢測(cè)層的基礎(chǔ)上,用BiFPN特征融合網(wǎng)絡(luò)代替YOLOv5中的原始PANet特征融合網(wǎng)絡(luò),改進(jìn)后的YOLOv5結(jié)構(gòu)如圖6所示。
3 模型訓(xùn)練
3.1 試驗(yàn)時(shí)間和地點(diǎn)
試驗(yàn)于2021年9月至2022年7月在河南理工大學(xué)軟件學(xué)院圖像視覺研究所完成。
3.2 試驗(yàn)平臺(tái)
本試驗(yàn)條件為:Ubuntu18.04、64位操作系統(tǒng),采用Pytorch框架。計(jì)算機(jī)配置:臺(tái)式計(jì)算機(jī),GeForce GTX 2080ti顯卡,12 G顯存;IntelCoreTMi9-9900K處理器,主頻3.60 GHz,內(nèi)存64 GB,編程語言是Python語言。
3.3 試驗(yàn)設(shè)計(jì)
試驗(yàn)中,造成蘋果檢測(cè)結(jié)果比預(yù)期低的原因主要是檢測(cè)距離變化導(dǎo)致目標(biāo)尺度大小不一樣;目標(biāo)顏色與背景顏色相近,容易造成誤檢或漏檢。針對(duì)上述問題,本研究通過以下幾組試驗(yàn)來提升模型的檢測(cè)效果:(1)將YOLOv5模型從3個(gè)檢測(cè)層變?yōu)?個(gè),多尺度檢測(cè)不同尺度的蘋果;(2)將YOLOv5中的PANet特征網(wǎng)絡(luò)替換為BiFPN特征網(wǎng)絡(luò)分別進(jìn)行識(shí)別對(duì)比。
3.4 試驗(yàn)參數(shù)設(shè)置
在試驗(yàn)中,特征提取網(wǎng)絡(luò)初始權(quán)重使用預(yù)訓(xùn)練好的yolo5s.pt,可以減少模型訓(xùn)練的計(jì)算成本和時(shí)間。試驗(yàn)按照表2所示初始化模型訓(xùn)練參數(shù),模型的訓(xùn)練次數(shù)Epochs設(shè)為300;訓(xùn)練批次大小設(shè)為8;輸入圖片的大小按照初時(shí)的640×640;學(xué)習(xí)率為0.01;置信度閾值Conf_thres設(shè)為0.25,IOU閾值設(shè)為0.45。
3.5 試驗(yàn)指標(biāo)
本研究使用精度(precision,P)、召回率(recall,R)、平均精度(average precision,AP)及每幅圖像的檢測(cè)時(shí)間等評(píng)價(jià)指標(biāo)。
式中:P表示準(zhǔn)確率;R表示召回率;TP表示識(shí)別到的蘋果的個(gè)數(shù);FP表示誤將背景識(shí)別為目標(biāo)果實(shí)的個(gè)數(shù);FN表示未識(shí)別到的目標(biāo)個(gè)數(shù)。
模型的訓(xùn)練損失值與迭代次數(shù)曲線如圖7所示,當(dāng)訓(xùn)練到達(dá)300個(gè)epoch時(shí)Loss值趨于平緩。訓(xùn)練的PR曲線如圖8所示,其中橫坐標(biāo)是召回率(recall,R),縱坐標(biāo)是精度(precision,P),曲線越靠近坐標(biāo)(1,1)代表該模型的性能越好。
4 結(jié)果與分析
4.1 不同模型訓(xùn)練結(jié)果分析
為了分析改進(jìn)后模型與不同檢測(cè)模型的檢測(cè)性能,驗(yàn)證改進(jìn)后YOLOv5網(wǎng)絡(luò)模型的優(yōu)越性,采用相同的數(shù)據(jù)集和配置對(duì)改進(jìn)前后的YOLOv5算法和主流的一階段目標(biāo)檢測(cè)算法YOLOv3、YOLOv4進(jìn)行對(duì)比試驗(yàn),各模型檢測(cè)效果如圖9所示,試驗(yàn)結(jié)果對(duì)比如表3所示。可以看出,本研究方法在自制數(shù)據(jù)集上的檢測(cè)精度(precision,P)為94.2%,相比 YOLOv3、YOLOv4、原YOLOv5算法,精確度分別提高了4.4%、7.0%、2.3%。從檢測(cè)精度來看,該方法的精度均優(yōu)于其他方法。同時(shí),從檢測(cè)速度上來看,本研究算法比YOLOv3、YOLOv4算法分別快了13.5、21.4 ms/幅;與原YOLOv5算法相比,雖然檢測(cè)速率慢了5.7 ms/幅,檢測(cè)精度卻提升了2.3百分點(diǎn)。這表明,本研究提出的方法在檢測(cè)速率未有很大降低時(shí),精確度有一定的提升。綜合考慮,改進(jìn)后的方法在速度和精度上可以達(dá)到很好的平衡。
4.2 不同距離下檢測(cè)結(jié)果與分析
實(shí)際檢測(cè)過程中,采集距離的不同會(huì)造成待檢測(cè)目標(biāo)比例大小不一樣。為了分析目標(biāo)比例大小不一對(duì)識(shí)別檢測(cè)精度的影響,選取部分?jǐn)?shù)據(jù)進(jìn)行測(cè)試。果園中的果實(shí)按照果樹與拍攝相機(jī)的距離可分為近距離、中距離、遠(yuǎn)距離目標(biāo)。其中近距離目標(biāo)以0.2 m距離拍攝,中距離目標(biāo)以0.5~0.8 m距離拍攝,遠(yuǎn)距離目標(biāo)以1.0~1.2 m距離拍攝。
為了更詳細(xì)地對(duì)比不同拍攝距離下改進(jìn)后的YOLOv5模型與其他模型的檢測(cè)效果,準(zhǔn)備近距離、中距離、遠(yuǎn)距離目標(biāo)各20幅非訓(xùn)練集的圖片,60幅圖片的待測(cè)目標(biāo)數(shù)量如表4所示,使用YOLOv3、YOLOv4、原YOLOv5、YOLOv5_4Anchors_BiFPN這4種模型對(duì)不同光照條件下的目標(biāo)進(jìn)行檢測(cè),檢測(cè)效果如圖10所示(注:黃色框代表未檢測(cè)到的目標(biāo))。各模型的P、R、F1指標(biāo)如表5所示。
試驗(yàn)數(shù)據(jù)顯示,距離的不同會(huì)對(duì)果實(shí)識(shí)別產(chǎn)生影響,近距離情況下采集圖像目標(biāo)的識(shí)別準(zhǔn)確率為98.5%,而遠(yuǎn)距離情況下采集圖像目標(biāo)的識(shí)別準(zhǔn)確率為90.3%。分析原因可能是拍攝距離、角度等因素造成待檢測(cè)目標(biāo)比例變小,而模型在進(jìn)行特征提取后生成的特征圖尺寸較小,影響目標(biāo)檢測(cè)效果。
由于改進(jìn)了目標(biāo)檢測(cè)層,對(duì)原模型17層之后的特征圖進(jìn)行上采樣,同時(shí)在第20層時(shí),將網(wǎng)絡(luò)提取到的特征圖與Backbone網(wǎng)絡(luò)中的第2層特征圖進(jìn)入BiFPN融合網(wǎng)絡(luò),獲得更大的特征圖,這樣就可以改善尺度大小不一造成識(shí)別精度降低的問題。改進(jìn)后的模型在中、近距離對(duì)于目標(biāo)的檢測(cè)效果均比原模型和其他模型要好。在遠(yuǎn)距離目標(biāo)檢測(cè)上,改進(jìn)后的YOLOv5的檢測(cè)效果相較于原YOLOv5也有改善,但是檢測(cè)速度有所下降,這是由于改進(jìn)目標(biāo)檢測(cè)層以后,多生成1個(gè)特征圖,特征提取耗費(fèi)更多時(shí)間。在實(shí)際應(yīng)用中,農(nóng)業(yè)機(jī)器人的移動(dòng)速度一般較慢,所以檢測(cè)速度的少許下降對(duì)于目標(biāo)檢測(cè)幾乎沒有影響。
4.3 不同光照條件檢測(cè)結(jié)果與分析
實(shí)際應(yīng)用場(chǎng)景中會(huì)遇到不同的光照環(huán)境,為了分析不同光照條件對(duì)目標(biāo)識(shí)別的影響,以3種不同光照情況下采集的數(shù)據(jù)為研究對(duì)象進(jìn)行分析。選取的圖像分為正常光、過曝光、逆光3種情況。
為了更具體地對(duì)比不同光照條件下改進(jìn)后的YOLOv5模型與其他模型的檢測(cè)效果,準(zhǔn)備正常光、過曝光、逆光圖片各20幅,這60幅圖片的待測(cè)目標(biāo)數(shù)量如表6所示。為直觀展示不同光照條件下的識(shí)別效果,使用YOLOv3、YOLOv4、原YOLOv5、YOLOv5_4Anchors_BiFPN這4種模型對(duì)不光照條件下的目標(biāo)進(jìn)行檢測(cè),檢測(cè)效果如圖11所示,各模型的P、R、F1指標(biāo)如表7所示。
試驗(yàn)結(jié)果顯示,光照不均勻的情況下要比正常光照下的識(shí)別效果差一些,分析原因可能是在光照不均圖像中,由于目標(biāo)區(qū)域的過曝或曝光不足,目標(biāo)與背景界限不明顯或出現(xiàn)黑色區(qū)域,會(huì)造成部分特征信息丟失,提取果實(shí)邊緣特征信息的難度增加,影響該區(qū)域部分果實(shí)的識(shí)別效果。
為了改善復(fù)雜環(huán)境對(duì)檢測(cè)結(jié)果的影響,本研究提出的模型在改進(jìn)目標(biāo)檢測(cè)層以后,將原始的PANet特征網(wǎng)絡(luò)改為BiFPN特征網(wǎng)絡(luò)。BiFPN網(wǎng)絡(luò)在進(jìn)行特征融合對(duì)特征節(jié)點(diǎn)的輸入賦予不同的權(quán)重,針對(duì)融合的各個(gè)尺度特征增加1個(gè)權(quán)重,更有效地提取目標(biāo)的特征信息。從圖11可以看出,改進(jìn)后的網(wǎng)絡(luò)模型在正常光照和過曝光條件下的檢測(cè)效果是優(yōu)于原YOLOv5與其他模型的。在逆光條件下,改進(jìn)后的網(wǎng)絡(luò)模型檢測(cè)效果強(qiáng)于原YOLOv5模型,但偶爾也會(huì)出現(xiàn)漏檢的情況。因此從試驗(yàn)數(shù)據(jù)分析可知,改進(jìn)后的YOLOv5模型更適合疏果前的蘋果檢測(cè)任務(wù)。
5 結(jié)論
為了解決疏果前蘋果的目標(biāo)尺度不一和復(fù)雜檢測(cè)環(huán)境導(dǎo)致的果實(shí)檢測(cè)效果不好的問題,本研究自制數(shù)據(jù)集,在YOLOv5網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)目標(biāo)檢測(cè)層,使用BiFPN特征網(wǎng)絡(luò)替換PANet特征網(wǎng)絡(luò),生成多個(gè)特征圖,利用多尺度檢測(cè)進(jìn)行大量試驗(yàn)。結(jié)果表明,改進(jìn)后的YOLOv5算法比原來的YOLOv5在準(zhǔn)確度、召回率、平均精度上分別提升了2.3、2.9、2.3百分點(diǎn),與現(xiàn)有一階段檢測(cè)網(wǎng)絡(luò)相比,該方法可以更有效地檢測(cè)自然場(chǎng)景下的蘋果。
但是該方法依然存在一定的局限性,目前只是針對(duì)花牛蘋果數(shù)據(jù)進(jìn)行了試驗(yàn),品種單一,缺乏普遍性。在未來的工作當(dāng)中,將采集更多品種、更多高分辨率的蘋果數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型,提高蘋果目標(biāo)的檢測(cè)效率與速度,同時(shí)進(jìn)一步解決樹枝、樹葉遮擋等復(fù)雜環(huán)境下的果實(shí)檢測(cè)問題。
參考文獻(xiàn):
[1]常 倩,李 瑾. 2000年以來中國(guó)蘋果產(chǎn)業(yè)發(fā)展趨勢(shì)分析[J]. 北方園藝,2021(3):155-160.
[2]任碧峰. 中國(guó)蘋果產(chǎn)業(yè)發(fā)展趨勢(shì)分析與建議[J]. 農(nóng)村經(jīng)濟(jì)與科技,2019,30(19):8-9,15.
[3]霍學(xué)喜,劉天軍,劉軍弟,等. 2020年度中國(guó)蘋果產(chǎn)業(yè)發(fā)展報(bào)告(精簡(jiǎn)版)[J]. 中國(guó)果菜,2022,42(2):1-6.
[4]慕海濤. 中國(guó)蘋果產(chǎn)業(yè)發(fā)展現(xiàn)狀及趨勢(shì)探究[J]. 農(nóng)村科學(xué)試驗(yàn),2019(9):75-77.
[5]Arefi A,Motlagh A M,Mollazade K,et al. Recognition and localization of ripen tomato based on machine vision[J]. Australian Journal of Crop Science,2011,5(10):1144-1149.
[6]Zhou R,Damerow L,Sun Y,et al. Using colour features of cv.‘Galaapple fruits in an orchard in image processing to predict yield[J]. Precision Agriculture,2012,13(5):568-580.
[7]Zhu A,Yang L. An improved FCM algorithm for ripe fruit image segmentation[C]//2013 IEEE International Conference on Information and Automation. 2013:436-441.
[8]Linker R,Cohen O,Naor A. Determination of the number of green apples in RGB images recorded in orchards[J]. Computers and Electronics in Agriculture,2012,81:45-57.
[9]Lü Q,Cai J R,Liu B,et al. Identification of fruit and branch in natural scenes for citrus harvesting robot using machine vision and support vector machine[J]. International Journal of Agricultural and Biological Engineering,2014,7(2):115-121.
[10]Zhao C Y,Lee W S,He D J.Immature green citrus detection based on colour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture,2016,124:243-253.
[11]Wachs J P,Stern H I,Burks T,et al. Low and high-level visual feature-based apple detection from multi-modal images[J]. Precision Agriculture,2010,11(6):717-735.
[12]彭紅星,李 荊,徐慧明,等. 基于多重特征增強(qiáng)與特征融合SSD的荔枝檢測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(4):169-177.
[13]李國(guó)進(jìn),黃曉潔,李修華. 基于改進(jìn)YOLOv3的樹上成熟芒果檢測(cè)方法[J]. 沈陽農(nóng)業(yè)大學(xué)學(xué)報(bào),2021,52(1):70-78.
[14]熊俊濤,鄭鎮(zhèn)輝,梁嘉恩,等. 基于改進(jìn)YOLO v3網(wǎng)絡(luò)的夜間環(huán)境柑橘識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(4):199-206.
[15]Fu L S,Majeed Y,Zhang X,et al. Faster R-CNN-based apple detection in dense-foliage fruiting-wall trees using RGB and depth features for robotic harvesting[J]. Biosystems Engineering,2020,197:245-256.
[16]Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014:580-587.
[17]He K M,Gkioxari G,Dollár P,et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017:2980-2988.
[18]Girshick R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. 2016:1440-1448. [HJ2mm]
[19]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[20]王 輝,韓娜娜,呂程序,等. 基于Mask R-CNN的單株柑橘樹冠識(shí)別與分割[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(5):169-174.
[21]寧政通,羅陸鋒,廖嘉欣,等. 基于深度學(xué)習(xí)的葡萄果梗識(shí)別與最優(yōu)采摘定位[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):222-229.
[22]Yu Y,Zhang K L,Yang L,et al. Fruit detection for strawberry harvesting robot in non-structural environment based on Mask-RCNN[J]. Computers and Electronics in Agriculture,2019,163:104846.
[23]閆建偉,趙 源,張樂偉,等. 改進(jìn)Faster-RCNN自然環(huán)境下識(shí)別刺梨果實(shí)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(18):143-150.
[24]Gao F F,F(xiàn)u L S,Zhang X,et al. Multi-class fruit-on-plant detection for apple in SNAP system using Faster R-CNN[J]. Computers and Electronics in Agriculture,2020,176:105634.
[25]彭紅星,黃 博,邵園園,等. 自然環(huán)境下多類水果采摘目標(biāo)識(shí)別的通用改進(jìn)SSD模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(16):155-162.
[26]張恩宇,成云玲,胡廣銳,等. 基于SSD算法的自然條件下青蘋果識(shí)別[J]. 中國(guó)科技論文,2020,15(3):274-281.
[27]王昱潭,薛君蕊. 改進(jìn)SSD的靈武長(zhǎng)棗圖像輕量化目標(biāo)檢測(cè)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(19):173-182.
[28]薛月菊,黃 寧,涂淑琴,等. 未成熟芒果的改進(jìn)YOLOv2識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(7):173-179.
[29]唐熔釵,伍錫如. 基于改進(jìn)YOLO-V3網(wǎng)絡(luò)的百香果實(shí)時(shí)檢測(cè)[J]. 廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,38(6):32-39.
[30]張兆國(guó),張振東,李加念,等. 采用改進(jìn)YoloV4模型檢測(cè)復(fù)雜環(huán)境下馬鈴薯[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):170-178.
[31]Fan S X,Liang X T,Huang W Q,et al. Real-time defects detection for apple sorting using NIR cameras with pruning-based YOLOV4 network[J]. Computers and Electronics in Agriculture,2022,193:106715.
[32]王 卓,王 健,王梟雄,等. 基于改進(jìn)YOLOv4的輕量級(jí)蘋果實(shí)時(shí)檢測(cè)方法[J/OL]. 農(nóng)業(yè)機(jī)械學(xué)報(bào).[2022-10-01]. https://kns.cnki.net/kcms/detail/11.1964.S.20220520.1636.008.html.
[33]高芳芳,武振超,索 睿,等. 基于深度學(xué)習(xí)與目標(biāo)跟蹤的蘋果檢測(cè)與視頻計(jì)數(shù)方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(21):217-224.
[34]Tan M X,Pang R M,Le Q V.EfficientDet:scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020:10778-10787.
收稿日期:2022-10-12
基金項(xiàng)目:國(guó)家自然科學(xué)基金(編號(hào):61972134);河南省計(jì)算機(jī)視覺與圖像處理創(chuàng)新團(tuán)隊(duì)項(xiàng)目(編號(hào):T2014-3)。
作者簡(jiǎn)介:姜國(guó)權(quán)(1969—),男,河北唐山人,博士,副教授,碩士生導(dǎo)師,主要從事圖像處理及模式識(shí)別研究。E-mail:jguoquan@163.com。
通信作者:霍占強(qiáng),博士,教授,碩士生導(dǎo)師,主要從事機(jī)器視覺及模式識(shí)別研究。E-mail:hzq@hpu.edu.cn。