關(guān)鍵詞:目標(biāo)檢測;甘蔗;莖節(jié)檢測;YOLOv8
中圖分類號:TP391.4;S566.1 文獻(xiàn)標(biāo)志碼:A
甘蔗產(chǎn)業(yè)作為農(nóng)業(yè)經(jīng)濟(jì)發(fā)展的重要組成部分,推進(jìn)其高質(zhì)量發(fā)展對于保障食糖供給、加快農(nóng)業(yè)轉(zhuǎn)型升級及促進(jìn)經(jīng)濟(jì)高質(zhì)量發(fā)展意義重大[1]?,F(xiàn)今,我國甘蔗產(chǎn)業(yè)發(fā)展模式正發(fā)生著深刻變化,迫切需要把農(nóng)業(yè)科技創(chuàng)新作為推動甘蔗產(chǎn)業(yè)現(xiàn)代化發(fā)展的關(guān)鍵動力[2]。目前甘蔗的田間作業(yè)仍要依靠大量的人工參與,如蔗種制備和甘蔗種植,不僅工作效率低,種植均勻性和準(zhǔn)確性也無法保證[3]。隨著智慧農(nóng)業(yè)的不斷發(fā)展,計算機(jī)技術(shù)也逐漸開始應(yīng)用于甘蔗種植和收獲等方面的研究,有效緩解了社會勞動力缺乏的問題,同時提高作業(yè)效率等[4]。然而,目前甘蔗莖節(jié)檢測方法的精度和效率有待提高,無法做到廣泛應(yīng)用。因此,設(shè)計一個高效且精準(zhǔn)的甘蔗莖節(jié)檢測系統(tǒng),是甘蔗園智能化管理面臨的瓶頸問題。
目前部分國內(nèi)外的學(xué)者進(jìn)行了關(guān)于甘蔗節(jié)點(diǎn)檢測的相關(guān)研究。伊朗MOSHASHAI 等[5]利用灰度圖像閾值分割的方法對甘蔗莖節(jié)識別做了初步研究,黃亦其等[6]研究了基于局部均值,在HVS顏色空間的H 分量進(jìn)行圖像分割處理,以最大灰度值確定莖節(jié)位置的方法,其識別率為90.77%,平均時間為0.481 539 s。陸尚平等[7]探討了基于機(jī)器視覺的甘蔗莖節(jié)特征提取與識別方法,對甘蔗蔗段的圖像的HSV 顏色空間中S 分量與H 分量圖像進(jìn)行不同處理,并使用支持向量機(jī)的方法處理甘蔗莖節(jié)與節(jié)間,聚類分析后得到莖節(jié)數(shù)與位置的平均識別率分別為94.118%、91.522%。張衛(wèi)正等[8]基于高光譜成像技術(shù)進(jìn)行甘蔗莖節(jié)識別與定位方法研究,通過圖像采集裝置上方的光譜儀進(jìn)行數(shù)據(jù)收集,提取莖節(jié)特征波段建立模型,實(shí)現(xiàn)對莖節(jié)進(jìn)行識別,莖節(jié)左右端的定位誤差分別小于0.9 mm 和2.4 mm。以上研究通過結(jié)合人工特征,利用傳統(tǒng)機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了甘蔗的識別。然而,傳統(tǒng)機(jī)器學(xué)習(xí)方法由于需要預(yù)先指定手工特征,在蔗園復(fù)雜環(huán)境下存在魯棒性差和泛化能力弱的不足,識別性能需要進(jìn)一步提升。
近年來,深度學(xué)習(xí)技術(shù)已經(jīng)在農(nóng)業(yè)領(lǐng)域得到了廣泛的應(yīng)用,許多研究人員也展開了基于深度學(xué)習(xí)的莖節(jié)識別研究[9-14]。李尚平等[15]通過減少中間卷積層構(gòu)成的殘差結(jié)構(gòu)數(shù)量,對YOLOv3 網(wǎng)絡(luò)進(jìn)行改進(jìn),實(shí)現(xiàn)了90.38%的準(zhǔn)確率和28.7 ms的平均耗時。唐玲玲[16]基于改進(jìn)YOLOv4 甘蔗莖節(jié)識別模型,將有效特征層直接傳入加強(qiáng)特征提取網(wǎng)絡(luò)中以進(jìn)行路徑聚合構(gòu)建,單幀圖像識別時間約為6 ms,識別準(zhǔn)確度為98.68%。李強(qiáng)等[17]通過改進(jìn)LeNet-5 網(wǎng)絡(luò)模型實(shí)現(xiàn)對蔗芽識別定位,該模型單幅圖像檢測用時為1.2 s,識別準(zhǔn)確率達(dá)92%。陳文[18]基于MobileNet 網(wǎng)絡(luò)和YOLOv4-t網(wǎng)絡(luò)實(shí)現(xiàn)甘蔗莖節(jié)的識別,提供了一種以較小準(zhǔn)確率損失為代價的模型輕量化方法。趙文博等[19]提出基于改進(jìn)YOLOv5 模型的莖節(jié)識別方法,在甘蔗數(shù)據(jù)集上準(zhǔn)確率達(dá)97.1%。何捷[20]通過多尺度預(yù)測結(jié)構(gòu)并采用K-means 算法優(yōu)化描邊框改進(jìn)了YOLOv5 網(wǎng)絡(luò),改進(jìn)后的目標(biāo)檢測模型mAP為93.8%。戴久翔等[4]通過添加CBAM 注意力機(jī)制模塊和引入VarifocalNet,在YOLOv5 網(wǎng)絡(luò)進(jìn)行優(yōu)化,甘蔗莖節(jié)識別準(zhǔn)確率達(dá)到89.89%。上述研究著重提升模型精度并取得了顯著成果,但絕大多數(shù)研究依賴于高性能計算機(jī)進(jìn)行試驗(yàn),因而對硬件的需求較高,這使得其難以應(yīng)用于當(dāng)前的農(nóng)村種植環(huán)境,無法滿足低成本高質(zhì)量作業(yè)的目標(biāo)。
經(jīng)過上述研究可知,深度學(xué)習(xí)技術(shù)在圖像特征提取與目標(biāo)檢測方面表現(xiàn)出色,尤其在復(fù)雜環(huán)境中顯示出其獨(dú)特的優(yōu)勢。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法不僅展現(xiàn)出更高的魯棒性,還具備出色的泛化能力。然而,在甘蔗莖節(jié)檢測領(lǐng)域,目前的研究主要聚焦于提升算法的精確性,卻忽視了模型實(shí)時作業(yè)和輕量化的重要性。高復(fù)雜度的模型對內(nèi)存和計算資源的需求較高,這與設(shè)備的小型化趨勢相悖,同時也增加了甘蔗種植機(jī)械化的成本負(fù)擔(dān)。因此,如何在維持系統(tǒng)性能的同時,降低模型的計算開銷和體積,已成為甘蔗生產(chǎn)裝備實(shí)現(xiàn)機(jī)械化和智能化作業(yè)的核心挑戰(zhàn)。
為滿足蔗農(nóng)和甘蔗生產(chǎn)裝備的實(shí)際需求,本研究提出了一種基于YOLOv8 的甘蔗莖節(jié)高效檢測方法。該方法的主要工作包括:(1)設(shè)計并開展自然環(huán)境下甘蔗圖像采集試驗(yàn),進(jìn)行人工標(biāo)注,并進(jìn)行隨機(jī)劃分,以構(gòu)建甘蔗圖像數(shù)據(jù)集;(2)采用YOLOv8 網(wǎng)絡(luò)作為甘蔗莖節(jié)檢測模型,通過優(yōu)化超參數(shù)組合,實(shí)現(xiàn)模型性能的最優(yōu)化;(3)設(shè)計并開展不同檢測模型的對比試驗(yàn),全面評估模型的性能和復(fù)雜度。研究結(jié)果可為甘蔗智能化收獲和種植提供技術(shù)支持,從而滿足甘蔗生產(chǎn)裝備在降低成本和提高效率方面的實(shí)際需求。
1 材料與方法
1.1 材料
1.1.1 圖像采集 在廣東省湛江市中國熱帶農(nóng)業(yè)科學(xué)院農(nóng)業(yè)機(jī)械研究的甘蔗園內(nèi)( 21°10′N,110°16′E),于2023年11月進(jìn)行圖像采集試驗(yàn)。構(gòu)建了新臺糖22號和貴糖49號2 個甘蔗品種的圖像數(shù)據(jù)集。如圖1所示,新臺糖22 號的莖皮部分呈現(xiàn)出淺黃綠色的特征,而貴糖49號則呈現(xiàn)出紫紅色。在試驗(yàn)過程中, 采用iPhone 11和HUAWEI Mate 60 Pro作為拍攝相機(jī),圖像尺寸設(shè)定為4032×3024 像素,并以彩色圖像JPG 格式進(jìn)行保存。共拍攝450幅圖像,每張圖像中包含3~5個莖節(jié),總計約1800 個甘蔗莖節(jié)。這些圖像為后續(xù)的數(shù)據(jù)分析和研究提供重要的視覺信息。
1.1.2 數(shù)據(jù)集處理和制作 數(shù)據(jù)集的質(zhì)量對于訓(xùn)練識別模型的精度及其在實(shí)際應(yīng)用中的性能具有至關(guān)重要的影響。為確保數(shù)據(jù)的清晰度和代表性,篩選了440 幅甘蔗圖像。同時為確保模型訓(xùn)練與驗(yàn)證的有效性,將這些圖像按照7∶3 的比例劃分為訓(xùn)練集和驗(yàn)證集,其中310 張圖像用作訓(xùn)練集,剩余的130 張圖像則作為測試集,具體劃分結(jié)果如表1。本研究使用目標(biāo)檢測領(lǐng)域常用的軟件LabelImg(https://github.com/tzutalin/labelImg),對甘蔗數(shù)據(jù)集進(jìn)行標(biāo)注,生成的標(biāo)簽文件中包含每個甘蔗莖節(jié)的類別標(biāo)識及其在圖像中的規(guī)范化邊界框坐標(biāo)。
1.2 方法
1.2.1 YOLO v8 模型 野外場景下甘蔗節(jié)點(diǎn)的精準(zhǔn)檢測是實(shí)現(xiàn)后續(xù)智能化種植和收獲任務(wù)的關(guān)鍵步驟。目前,檢測方法主要分為以R-CNN系列為代表[21-24]的2 階段策略和以YOLO 系列為代表[25-28]的單階段策略目標(biāo)檢測框架。相比現(xiàn)有目標(biāo)檢測方法,YOLOv8 在保持高精度的前提下,以其高速的迭代更新而更備受關(guān)注。該模型采用了更加輕量級的網(wǎng)絡(luò)結(jié)構(gòu),并且使用了更加高效的推理技術(shù)(如TensorRT 引擎加速等),具有更好的檢測性能和易于在野外實(shí)際場景中部署應(yīng)用。因此,選取具有較高檢測精度和速度的YOLOv8 作為甘蔗莖節(jié)檢測網(wǎng)絡(luò)。如圖2所示,YOLOv8 的總體結(jié)構(gòu)包括骨干網(wǎng)絡(luò)(Backbone)、頸部網(wǎng)絡(luò)(Neck)、檢測頭(Head)3部分內(nèi)容。
1.2.2 主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò) 為了使網(wǎng)絡(luò)在GPU 資源有限的條件下得到更好的訓(xùn)練結(jié)果,YOLOv8 在BackBone 和Neck 中分別采用了Darknet53 網(wǎng)絡(luò)和PAFPN 網(wǎng)絡(luò),通過將YOLOv5中的C3 模塊換成C2F 模型,有效提高了網(wǎng)絡(luò)高效提取特征的能力。如圖3 所示,C2F 模塊結(jié)構(gòu)主要流程為:先經(jīng)過1 個Conv 卷積,接著使用chunk 函數(shù)將out 平均拆分成2 個向量,并保存到list 中;然后,將后半部分輸入到Bottleneck Block里面, 其中, Bottleneck Block 里面有n 個Bottleneck;最終將每個Bottleneck 的輸出都追加到list 中。
1.2.3 預(yù)測網(wǎng)絡(luò) 目標(biāo)檢測算法可根據(jù)是否存在先驗(yàn)錨框標(biāo)準(zhǔn),劃分為基于錨框(Anchor-based)和基于無錨框(Anchor-free)2 類。解耦頭由TIAN等[29]首次提出,憑借其快速收斂及提升回歸性能的優(yōu)勢,在基于Anchor-Free 的目標(biāo)檢測器中,如YOLOX 得到了廣泛應(yīng)用。
如圖4所示,YOLOv8 的預(yù)測網(wǎng)絡(luò)使用了Decoupled-Head,同時由于使用DFL 思想,因此預(yù)測頭的通道數(shù)也變成4×reg_max 形式。相對于YOLOv5,為了提升回歸性能,YOLOv8 將Head中的C3 模塊替換為C2f,將上采樣之前的1×1 卷積去除,將Backbone 不同階段輸出的特征直接送入上采樣操作,實(shí)現(xiàn)不同尺寸特征圖的特征融合,降低推理成本。最終提出一種高效的解耦頭,具有更快的推理速度。
2 結(jié)果與分析
2.1 試驗(yàn)配置與訓(xùn)練結(jié)果
為公正評估各算法性能,試驗(yàn)中確保各算法所采用的訓(xùn)練平臺與超參數(shù)配置基本一致。本研究試驗(yàn)平臺詳情如下:中央處理器(CPU)為英特爾至強(qiáng)金牌6 256 處理器,主頻3.60 GHz,具備48 個物理核心與24 個線程,內(nèi)存容量1024GB。顯卡為NVIDIA RTX A6000(GPU),顯存48 GB。操作系統(tǒng)采用Ubuntu18.04,安裝有CUDA11.8.130 、CUDNN 8.6.0 、NVIDIA 驅(qū)動程序535.104 、Opencv 4.8.0 以及訓(xùn)練框架Pytorch2.0.1。
(1)參數(shù)設(shè)置:選用官方提供的預(yù)訓(xùn)練模型Edgeyolo_Tiny 和YOLOv8_n 作為初始模型,將輸入圖像像素尺寸設(shè)為1024×1024,并將Max_epoch 設(shè)為300。同時,設(shè)置Batch size 為16,初始學(xué)習(xí)率( learning rate ) 為0.01 , 動量因子(momentum)為0.90,權(quán)重衰減系數(shù)為0.0005。
(2)訓(xùn)練策略:在訓(xùn)練過程中,采用K-means聚類算法,通過自適應(yīng)計算來精確地確定最佳的錨框長寬比。為進(jìn)一步增強(qiáng)模型的泛化能力和魯棒性,采用多種圖像增強(qiáng)方法。首先,通過Mosaic數(shù)據(jù)增強(qiáng)技術(shù),增加模型的訓(xùn)練樣本多樣性和背景復(fù)雜度;其次,采用Mixup 方法通過在原始圖像和標(biāo)簽之間進(jìn)行線性插值,生成新的訓(xùn)練樣本,提高模型的泛化能力; 此外, 引入EMA(exponential moving average)技術(shù),對模型參數(shù)進(jìn)行平滑處理,進(jìn)一步提高模型的穩(wěn)定性;在顏色空間方面,采用HSV 顏色空間增強(qiáng),通過隨機(jī)調(diào)整圖像的色相、飽和度和亮度,增強(qiáng)模型對不同光照條件和顏色變化的適應(yīng)能力;最后,通過Flip方法,對圖像進(jìn)行水平翻轉(zhuǎn),以增加模型的對稱性識別能力。
圖5 為甘蔗莖節(jié)識別網(wǎng)絡(luò)在訓(xùn)練過程中的模型損失和平均精度(AP)隨迭代次數(shù)的變化曲線。模型在訓(xùn)練和驗(yàn)證過程中的損失變化及性能指標(biāo):邊界框損失(box_loss)、分類損失(cls_loss)和分布焦點(diǎn)損失(dfl_loss)的變化,以及精度(precision)、召回率(recall)、平均精度(mAP)。觀察圖像可發(fā)現(xiàn),損失曲線逐步降低并保持穩(wěn)定,這意味著網(wǎng)絡(luò)誤差逐漸減小且泛化性能良好。隨著訓(xùn)練輪次的增加,mAP 曲線逐漸上升并穩(wěn)定,盡管在初期可能存在一定波動,但訓(xùn)練進(jìn)行過程中,波動逐漸減小。深入分析表明,訓(xùn)練集和驗(yàn)證集上的損失曲線趨勢一致,mAP 表現(xiàn)亦然,無明顯偏差,這說明網(wǎng)絡(luò)未出現(xiàn)過度擬合或欠擬合現(xiàn)象。從參數(shù)收斂情況來看,基于損失曲線和mAP曲線的收斂趨勢,以及訓(xùn)練集和驗(yàn)證集上的一致表現(xiàn),可確認(rèn)甘蔗莖節(jié)網(wǎng)絡(luò)已達(dá)到收斂。
2.2 甘蔗莖節(jié)識別試驗(yàn)和結(jié)果分析
在本研究中,設(shè)計1組甘蔗莖節(jié)識別試驗(yàn),采用Edgeyolo_S_Coco 網(wǎng)絡(luò)、Edgeyolo_Tiny 網(wǎng)絡(luò)和YOLOv8_n 網(wǎng)絡(luò)分別對新型糖22 號甘蔗和貴糖49 號甘蔗的測試圖像進(jìn)行識別,模型檢測效果如圖6 所示。試驗(yàn)以精確率(precision)、召回率(recall)、mAP 值、推理時間(inference time)和模型大?。╩odel_size)作為評估準(zhǔn)則,計算公式如下:
其中,Tp 表示正確識別的甘蔗莖節(jié)數(shù)(真正例),表示錯誤識別為甘蔗莖節(jié)的數(shù)量(假正例),F(xiàn)N表示未識別出的甘蔗莖節(jié)數(shù)(假負(fù)例)。P和R分別代表精確率和召回率,是評估檢測模型性能的重要指標(biāo)。AP 是precision-recall 曲線下的面積,反映模型的綜合性能。inference time 是單張甘蔗圖像檢測所需的時間,用于衡量模型的效率。model_size 表示模型大小,網(wǎng)絡(luò)參數(shù)量在實(shí)際部署中起到關(guān)鍵作用,對于模型的運(yùn)行速度和性能有重要影響。
從圖6可以看出,對于新臺糖22號甘蔗和貴糖49號甘蔗2個品種,Edgeyolo_Tiny 網(wǎng)絡(luò)、Edgeyolo_Tiny 網(wǎng)絡(luò)以及YOLOv8_n 網(wǎng)絡(luò)均可較好識別出圖像中甘蔗莖節(jié)。與Edgeyolo_S_Coco網(wǎng)絡(luò)和Edgeyolo_Tiny 網(wǎng)絡(luò)相比,YOLOv8_n 網(wǎng)絡(luò)很好地克服了漏檢和重復(fù)檢測的缺點(diǎn)。此外,在實(shí)際作業(yè)中,切種機(jī)產(chǎn)生的震動或是蔗農(nóng)的日常操作,均可能導(dǎo)致圖像質(zhì)量出現(xiàn)不同程度的模糊,這進(jìn)一步增加了甘蔗莖節(jié)識別的難度。圖7展示了在圖像模糊條件下,YOLOv8_n 網(wǎng)絡(luò)的檢測效果。從圖中可以觀察到,即使在圖像質(zhì)量不佳的情況下,該網(wǎng)絡(luò)依然能夠準(zhǔn)確識別并框選出甘蔗莖節(jié),充分證明YOLOv8_n 網(wǎng)絡(luò)在魯棒性和整體性能上的卓越表現(xiàn)。
從表2 可以看出,YOLOv8_n 網(wǎng)絡(luò)在測試集上的精確率、召回率、mAP、單幀推理耗時以及模型大小分別為0.973、0.958、0.974、19.80 ms和6.30 MB 。與Edgeyolo_S_Coco 網(wǎng)絡(luò)和Edgeyolo_Tiny 網(wǎng)絡(luò)相比,YOLOv8_n 網(wǎng)絡(luò)的mAP同比分別提高了1.70%和1.3%,單幀推理耗時同比分別降低了4.71 ms 和1.5 ms,模型大小同比分別縮減了33.70 MB 和17.50 MB。試驗(yàn)結(jié)果表明,本研究提出的甘蔗莖節(jié)檢測網(wǎng)絡(luò)在檢測性能和泛化能力上更具優(yōu)勢,能有效滿足戶外環(huán)境下對算法精度和模型復(fù)雜度的需求。
3討論
本研究提出了一種基于YOLOv8 的輕量級甘蔗莖節(jié)檢測方法。研究首先開展了野外甘蔗圖像采集,構(gòu)建新臺糖22 號和貴糖49 號2 個品種的甘蔗圖像數(shù)據(jù)集,并通過人工標(biāo)注將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。隨后,提出采用輕量級的EdgeYOLO 網(wǎng)絡(luò),確定最優(yōu)超參數(shù)組合,實(shí)現(xiàn)對甘蔗莖節(jié)的精準(zhǔn)檢測。在結(jié)構(gòu)化場景下,本方法在測試集上的精確率、召回率、mAP、單幀推理耗時以及模型大小分別為0.973、0.958、0.974、19.80 ms和6.30 MB。與Edgeyolo_S_Coco 網(wǎng)絡(luò)和Edgeyolo_Tiny 網(wǎng)絡(luò)相比,YOLOv8_n 網(wǎng)絡(luò)的mAP 值分別提高了1.70%和1.3%,單幀推理耗時分別降低了4.71 ms 和1.5 ms,模型大小分別縮減了33.70 MB和17.50 MB。研究結(jié)果表明,所提出的甘蔗莖節(jié)檢測網(wǎng)絡(luò)在檢測性能和泛化能力上具有明顯優(yōu)勢,能有效滿足戶外環(huán)境下對算法精度和模型復(fù)雜度的需求,為農(nóng)業(yè)智能化生產(chǎn)中的甘蔗收獲與種植提供技術(shù)支持。
總體而言,本研究提出的輕量化甘蔗莖節(jié)檢測方法在檢測性能和泛化能力方面表現(xiàn)卓越,充分滿足了戶外環(huán)境下甘蔗莖節(jié)檢測算法所需的精準(zhǔn)度和成本效益。未來研究可將該算法有效地應(yīng)用于實(shí)際邊緣設(shè)備,以滿足實(shí)時性和資源受限環(huán)境下的運(yùn)行需求。此外,將本算法整合至甘蔗切種機(jī)或種植機(jī)等農(nóng)業(yè)機(jī)械中,實(shí)現(xiàn)與農(nóng)業(yè)裝備的緊密集成,將為農(nóng)業(yè)生產(chǎn)提供更為智能化的服務(wù),提升機(jī)械操作的精準(zhǔn)度和效率。