摘" " 要:為了提高對玉米葉病蟲害的準(zhǔn)確識別度,本文提出了一種結(jié)合Swin Transformer和YOLOv8網(wǎng)絡(luò)的改進(jìn)算法。基于YOLOv8網(wǎng)絡(luò),算法引入了Focus和Depthwise Convolution等模塊,減少了計(jì)算量和參數(shù),增加了感受野和特征通道,并提高了特征融合和傳輸能力。此外,算法還采用了Wise Intersection over Union(WIoU)損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。結(jié)果表明,在自建的玉米葉病害數(shù)據(jù)集上,Swin Transformer-YOLO模型取得了優(yōu)異的表現(xiàn),準(zhǔn)確率為91.5%,平均精度(mAP@0.5)為89.4%,顯著優(yōu)于其他檢測器。與主流算法(如YOLOv8、YOLOv7、YOLOv5和YOLOx)相比,Swin Transformer-YOLO模型在各項(xiàng)指標(biāo)上均表現(xiàn)出色,特別是在準(zhǔn)確率和平均精度方面。具體而言,Swin Transformer-YOLO模型的召回率為77.6%,mAP@0.5∶0.95值為71%,F(xiàn)1得分為0.84分。綜上所述,本研究為復(fù)雜環(huán)境下玉米葉病害的準(zhǔn)確識別提供了技術(shù)手段,并為小目標(biāo)檢測提供了新的見解。
關(guān)鍵詞:玉米葉病害識別;小目標(biāo)檢測;Swin Transformer;YOLOv8;模型優(yōu)化
中圖分類號:S435.131; TP391.4" " " " 文獻(xiàn)標(biāo)識碼:A" " " " " DOI 編碼:10.3969/j.issn.1006-6500.2024.10.009
Research on Maize Leaf Disease Recognition Algorithm Based on Swin Transformer and YOLOv8
ZHU Lei, ZHU Jinsong
(School of Economics and Management, Yangtze University, Jingzhou, Hubei 434023, China)
Abstract: In order to improve the accuracy of identifying corn leaf disease pests, this paper proposed an improved algorithm that combines Swin Transformer and YOLOv8 network.Based on the YOLOv8 network, modules such as Focus and Depthwise Convolution were introduced to reduce computation and parameters, increase the receptive field and feature channels, and improve feature fusion and transmission capabilities. Additionally, the Wise Intersection over Union (WIoU) loss function was adopted to optimize the network.The experimental results showed that the Swin Transformer-YOLO model achieved excellent performance on the self-built corn leaf disease dataset, with an accuracy of 91.5% and a mean average precision (mAP@0.5) of 89.4%, significantly outperforming other detectors. Compared to mainstream algorithms (such as YOLOv8, YOLOv7, YOLOv5, and YOLOx), the Swin Transformer-YOLO model excelled in all metrics, particularly in accuracy and mean average precision. Specifically, the Swin Transformer-YOLO model had a recall rate of 77.6%, an mAP@0.5∶0.95 of 71%, and an F1 score of 0.84.In summary, this study provides a technical means for the accurate identification of corn leaf diseases in complex environments and offered new insights for small target detection.
Key words: maize leaf disease recognition; small target detection; Swin Transformer; YOLOv8; model optimization
玉米作為全球重要的糧食作物之一,其產(chǎn)量和質(zhì)量直接影響著全球糧食安全。由于玉米種植環(huán)境的復(fù)雜性和病害種類的多樣性,準(zhǔn)確識別玉米葉病害仍然是一個巨大的挑戰(zhàn)。目前,基于傳統(tǒng)圖像處理和機(jī)器學(xué)習(xí)的方法在提取玉米葉病害的細(xì)微特征和形態(tài)方面效果不佳[1],導(dǎo)致識別準(zhǔn)確率和魯棒性較低。
近年來,許多研究致力于利用深度學(xué)習(xí)技術(shù)來提高植物病害檢測的準(zhǔn)確性。例如,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法在圖像分類和目標(biāo)檢測任務(wù)中取得了顯著進(jìn)展。然而,這些方法在處理小目標(biāo)檢測時仍然存在局限性,尤其是在復(fù)雜背景下,這些方法容易受到噪聲和背景干擾的影響,導(dǎo)致檢測精度下降[2]。Swin Transformer作為一種新興的視覺變換器,通過自注意力機(jī)制捕捉全局和局部上下文信息,展示了在圖像識別任務(wù)中的潛力[3]。此外,YOLO系列網(wǎng)絡(luò)(如YOLOv5、YOLOv7、YOLOv8)以其高效的目標(biāo)檢測能力廣泛應(yīng)用于各種場景,但在小目標(biāo)檢測方面仍有提升空間。
為了準(zhǔn)確識別玉米葉病害,本研究提出了一種基于Swin Transformer和YOLOv8的玉米葉病害小目標(biāo)檢測算法。該算法集成了Swin Transformer模塊和YOLOv8網(wǎng)絡(luò),以提高小目標(biāo)檢測能力。Swin Transformer模塊基于自注意力機(jī)制提取視覺特征,捕捉小目標(biāo)的全局和局部上下文信息,以增強(qiáng)特征表示[4]。YOLOv8網(wǎng)絡(luò)是一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測器,具有高速度和高精度的特點(diǎn)[5]。在YOLOv8網(wǎng)絡(luò)的基礎(chǔ)上,本研究引入了Focus和Depthwise Convolution等模塊,以減少計(jì)算量和參數(shù),增加感受野和特征通道,并改善特征融合和傳輸[6]。此外,本研究采用Wise Intersection over Union損失優(yōu)化網(wǎng)絡(luò)。
1 材料與方法
1.1 材料
1.1.1 數(shù)據(jù)集構(gòu)建 玉米葉病害數(shù)據(jù)集構(gòu)建包括數(shù)據(jù)集收集、數(shù)據(jù)預(yù)處理和數(shù)據(jù)集生成3個步驟,具體數(shù)據(jù)集制作過程如圖1所示。首先,試驗(yàn)組人員使用HUAWEI nova10手機(jī)在湖北省宜昌市宜都市枝城鎮(zhèn)漫水橋村玉米地拍攝了3 752 張照片,涵蓋北葉枯萎?。?60張)、常見銹病(1 167張)、健康(1 137張)和彎孢霉葉斑?。?88張)4種類型。然后,使用makesense在線標(biāo)注工具進(jìn)行標(biāo)注[7],并導(dǎo)出為YOLO格式,為后續(xù)的數(shù)據(jù)分析和模型訓(xùn)練提供可靠基礎(chǔ)。
為了提高圖像數(shù)據(jù)的質(zhì)量和可用性,本研究采用數(shù)據(jù)清洗方法進(jìn)行預(yù)處理。由于拍攝的圖像常包含重復(fù)和模糊的圖像,本研究通過消除模糊圖像和使用結(jié)構(gòu)相似性(SSIM)方法去除重復(fù)圖像[8],最終保留了400張清晰且獨(dú)特的圖像。在深度學(xué)習(xí)模型訓(xùn)練的過程中,通常會對圖像進(jìn)行縮放。為減小縮放對訓(xùn)練結(jié)果的影響,并保留病害特征的清晰信息[9],本研究對圖像進(jìn)行了裁剪,將圖像按3∶3的縱橫比裁剪成9部分,裁剪后的圖像分辨率統(tǒng)一為901×506像素。
由于圖像采集存在數(shù)量有限、顏色不平衡和樣本分布不均等問題,本研究使用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)展數(shù)據(jù)集,以提高模型的泛化能力和魯棒性。另外,本研究應(yīng)用隨機(jī)拉伸[10]、亮度調(diào)整和鏡像操作等變換技術(shù),增加數(shù)據(jù)集的多樣性和規(guī)模。通過這些方法,最終生成了更大規(guī)模和多樣性的圖像數(shù)據(jù)集。
1.1.2 試驗(yàn)環(huán)境配置 本研究使用的操作系統(tǒng)是Windows 11,深度學(xué)習(xí)模型開發(fā)框架為PyTorch。試驗(yàn)設(shè)置的具體信息見表1。在訓(xùn)練階段,本研究使用隨機(jī)梯度下降(SGD)算法進(jìn)行優(yōu)化[11],初始學(xué)習(xí)率為0.01,動量因子為0.937,權(quán)重衰減因子為0.000 5。將輸入圖像歸一化為640 × 640的大小,批量大小設(shè)置為8,并在300個時期內(nèi)進(jìn)行訓(xùn)練。
1.2 方法
1.2.1 模型結(jié)構(gòu)和算法描述 為了解決玉米葉病害檢測和分類的難題,本研究采用YOLOv8和Swin Transformer相結(jié)合的模型。該模型增強(qiáng)了特征融合能力,并引入了Focus[12]、Depthwise Convolution[13]、Spatial Pooling Pyramid[14]、C2[15]模塊,復(fù)雜背景下的小目標(biāo)檢測效果良好。網(wǎng)絡(luò)模型的整體結(jié)構(gòu)見圖2。
(1)YOLOv8 模型。YOLOv8是一種先進(jìn)的目標(biāo)檢測算法,結(jié)合了YOLOv5的改進(jìn)骨干網(wǎng)絡(luò)與C2f模塊,采用無錨模型和解耦頭獨(dú)立處理客觀性、分類和回歸任務(wù),YOLOv8神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。該模型使用sigmoid函數(shù)獲取客觀性分?jǐn)?shù),使用softmax函數(shù)獲取類別概率,使用CIoU和DFL損失函數(shù)計(jì)算邊界框損失,使用binary交叉熵計(jì)算分類損失,從而提高了檢測小目標(biāo)的性能[16]。此外,YOLOv8提供了YOLOv8-Seg語義分割模型,在保持高速度和高效率的同時,實(shí)現(xiàn)了最先進(jìn)的結(jié)果。
為解決微小物體不易檢測的難題,研究人員提出了多尺度特征提取和注意力機(jī)制等改進(jìn)方法[17]。多尺度特征提取通過引入不同尺度的特征圖來處理不同大小物體的信息,注意力機(jī)制通過關(guān)注重要特征且抑制不必要特征來提高小物體的檢測性能。
(2)Swin Transformer 模型。為了進(jìn)一步改進(jìn)YOLOv8并增強(qiáng)小目標(biāo)檢測性能,筆者引入Swin Transformer并增加特征融合,解決了上下文和語義信息不足的問題,Swin Transformer模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。Swin Transformer通過自注意力機(jī)制在特征圖的不同區(qū)域建立全局依賴關(guān)系,有效捕獲上下文信息,并引入窗口注意機(jī)制降低計(jì)算復(fù)雜性[18]。筆者還添加了Focus with Deep Convolution DWconv 模塊,增強(qiáng)網(wǎng)絡(luò)捕獲上下文信息的能力,空間池化金字塔SPPCSPC和C2模塊提高了多尺度物體的檢測能力。結(jié)果表明,該網(wǎng)絡(luò)在復(fù)雜背景的小目標(biāo)檢測任務(wù)中表現(xiàn)優(yōu)異。
1.2.2 模塊描述 表2展示了改進(jìn)的模型的詳細(xì)參數(shù),包括層數(shù)、輸入源、重復(fù)次數(shù)、參數(shù)數(shù)量、模塊類型和參數(shù)。
(1)C3STR 模塊。Swin Transformer模塊通過自注意力機(jī)制建立特征圖的全局依賴關(guān)系,增強(qiáng)小物體的語義信息和特征表示。該模塊包含Window多頭自注意力模塊、滑動窗口多頭自注意力模塊和多層感知機(jī)構(gòu),使用殘差連接進(jìn)行內(nèi)部連接。
(2)Focus、DWconv、SPPCSPC和C2模塊。SPPCSPC模塊:結(jié)合空間金字塔池化和通道空間金字塔卷積,高效捕獲不同尺度的特征信息。
DWconv模塊。支持對每個通道進(jìn)行單獨(dú)卷積,減少參數(shù)數(shù)量和計(jì)算量,增強(qiáng)模型表現(xiàn)力。
Focus模塊。通過輕量級卷積運(yùn)算,提高模型對重要特征區(qū)域的關(guān)注。
C2模塊。提取高級語義特征,增強(qiáng)模型性能。
(3)Wiou 損失函數(shù)。為解決YOLOv8收斂性不足的問題,本研究提出結(jié)合Wise IOU的損失函數(shù),優(yōu)先考慮預(yù)測幀和實(shí)際幀的交集[19],提高模型的收斂和泛化能力。
1.2.3 模型評估指標(biāo) 在深度學(xué)習(xí)領(lǐng)域,網(wǎng)絡(luò)模型的有效性通過平均精度(mAP)和召回率(R)來評估。這些指標(biāo)的計(jì)算涉及交并比(IoU)、精度(P)和平均精度(AP)。
(1) IoU。交并比(IoU)用于評估檢測結(jié)果與實(shí)際標(biāo)簽的重疊程度,定義為交集面積與并集面積的比值。IoU 越高,檢測結(jié)果越準(zhǔn)確。公式如下:
IoU =(1)
式中,交集面積是指檢測結(jié)果與實(shí)際標(biāo)簽重疊的區(qū)域面積;并集面積是指檢測結(jié)果和實(shí)際標(biāo)簽的總面積(即兩者的并集)。
(2)精度和召回率。精度(P)是指準(zhǔn)確檢測到的物體占檢測到的物體總數(shù)的比例。召回率(R)是指正確檢測到的物體占陽性樣本總數(shù)的比例。公式如下:
P=(2)
R=(3)
式中,TP 為真陽性;FP 為假陽性;FN 為假陰性。
(3)AP 和 mAP。平均精度(AP)是各個召回點(diǎn)的平均精度,表示精確召回(P-R)曲線下的面積。平均平均精度(mAP)是所有類別的 AP 值的平均值。公式如下:
mAP=APi(4)
(4)FPS。每秒幀數(shù)(FPS)是計(jì)算機(jī)在處理圖像時每秒可以處理的幀數(shù),用于衡量算法的效率和速度。更高的 FPS 值意味著算法能夠更快地處理圖像并提供響應(yīng)。
1.2.4 試驗(yàn)設(shè)計(jì) 為了驗(yàn)證每個模塊的有效性,筆者設(shè)計(jì)了多組對比試驗(yàn)和消融試驗(yàn)。對比試驗(yàn)包括使用不同組合的模塊進(jìn)行訓(xùn)練和測試,觀察其對模型性能的影響。消融試驗(yàn)則通過逐步移除或替換某些模塊,評估其對整體性能的貢獻(xiàn)。試驗(yàn)設(shè)置和數(shù)據(jù)處理流程如下:
(1)數(shù)據(jù)集劃分。將數(shù)據(jù)集按 8∶2 的比例劃分為訓(xùn)練集和測試集。
(2)數(shù)據(jù)預(yù)處理。對圖像進(jìn)行歸一化、裁剪和數(shù)據(jù)增強(qiáng)處理。
(3)模型訓(xùn)練。使用上述配置進(jìn)行模型訓(xùn)練,記錄每個時期的損失值和評估指標(biāo)。
(4)模型測試。在測試集上評估模型的性能,記錄mAP、精度、召回率和FPS等指標(biāo)。
(5)對比試驗(yàn)。使用不同組合的模塊(如僅使用 YOLOv8、僅使用 Swin Transformer、結(jié)合YOLOv8和Swin Transformer等)進(jìn)行訓(xùn)練和測試,比較各組合的性能差異。
(6)消融試驗(yàn)。逐步移除或替換某些模塊(如移除Focus模塊、替換DWconv模塊等),評估其對整體性能的影響。
(7)結(jié)果分析。分析對比試驗(yàn)和消融試驗(yàn)結(jié)果,確定各模塊對模型性能的貢獻(xiàn),并總結(jié)最佳組合方案。
2 結(jié)果與分析
2.1 不同模型的檢測精度比較
為了評估所提出模型的有效性,筆者使用了玉米葉病害數(shù)據(jù)集進(jìn)行了廣泛的試驗(yàn)。評估包括對增強(qiáng)模型與各種成熟檢測模型的全面分析和比較,特別強(qiáng)調(diào)精確度、召回率和mAP指標(biāo)[20]。圖5展示了這些模型的mAP@0.5曲線。研究結(jié)果顯示,改進(jìn)模型的mAP@0.5值比最先進(jìn)的GOLD-YOLO模型高出3.02個百分點(diǎn)(表3)。該模型在所有目標(biāo)檢測指標(biāo)上均表現(xiàn)出顯著改進(jìn),優(yōu)于以前的YOLO模型。具體而言,算法的準(zhǔn)確率為91.5%,召回率為77.6%,F(xiàn)1得分為0.84分。IoU值為0.5時,mAP值為89.4%;IoU值為0.5∶0.95時,mAP值為71%。研究結(jié)果表明,該模型在檢測精度方面取得了實(shí)質(zhì)性提高。因此,該模型可以準(zhǔn)確檢測玉米葉病害物體,具有廣闊的應(yīng)用前景。值得注意的是,YOLOv8s的參數(shù)為11.2 M,而該模型為199 M。盡管精度提高,但模型變得更加復(fù)雜,計(jì)算量顯著增加。
2.2 消融試驗(yàn)結(jié)果
2.2.1 WIoU的改進(jìn) 本研究將YOLOv8的原始損失函數(shù)優(yōu)化為WIoU,并進(jìn)行了對比試驗(yàn)。結(jié)果如表4所示,模型的召回率提高了0.5個百分點(diǎn),準(zhǔn)確率提高了1.97個百分點(diǎn)。IoU值為0.5時,mAP值提高了2.3個百分點(diǎn),F(xiàn)1分?jǐn)?shù)提高了0.01個百分點(diǎn)。
2.2.2 主流注意力機(jī)制的有效性 筆者測試了其他主流注意力機(jī)制在小物體檢測方面的有效性,結(jié)果如表5所示。由于注意力機(jī)制在模型中表現(xiàn)不佳,筆者僅分析了在YOLOv8中添加注意力機(jī)制對玉米葉病害檢測的影響??傮w而言,注意力機(jī)制對玉米葉病害目標(biāo)檢測的影響不顯著。這種不顯著的原因可能有以下幾點(diǎn):首先,玉米葉病害數(shù)據(jù)集中的目標(biāo)可能較為復(fù)雜,并且背景干擾較多,導(dǎo)致注意力機(jī)制無法有效聚焦于關(guān)鍵特征。其次,引入注意力機(jī)制后,模型的復(fù)雜度和計(jì)算量顯著增加,可能導(dǎo)致模型在訓(xùn)練和推理過程中出現(xiàn)過擬合或計(jì)算瓶頸。最后,YOLOv8本身已經(jīng)具備較強(qiáng)的特征提取能力,引入的注意力機(jī)制未能顯著提升特征提取效果,反而增加了冗余信息。綜上所述,注意力機(jī)制對玉米葉病害的檢測效果并不顯著,需要進(jìn)一步優(yōu)化和調(diào)整。
2.2.3 各組件的有效性 為了評估模型中各組件的有效性,筆者對Focus、C2、DW(深度卷積)、Swin Transformer和SPPCSPC模塊進(jìn)行了消融試驗(yàn),使用準(zhǔn)確率、召回率、mAP@0.5、F1分?jǐn)?shù)和 FPS等指標(biāo)進(jìn)行性能評估,結(jié)果如表6所示。加入Swin Transformer模塊后,F(xiàn)PS從42.74略微下降到38.02,但mAP從88.8%提高到89.2%。用SPPCSPC替換SPPF模塊后,準(zhǔn)確率從92%略微下降到91.5%,但mAP提高0.2個百分點(diǎn),F(xiàn)PS提高到60.98。
由圖6可以看出,模型在mAP和準(zhǔn)確率方面顯著優(yōu)于其他方法。盡管模型的復(fù)雜度和計(jì)算量有所增加,但檢測精度顯著提升。WIoU的改進(jìn)進(jìn)一步提高了模型的性能,而注意力機(jī)制對小物體的檢測效果并不顯著。消融試驗(yàn)表明,Swin Transformer和SPPCSPC模塊對模型性能的提升具有重要作用。
3 討論與結(jié)論
3.1 討論
3.1.1 理論分析 (1)Swin Transformer 和 YOLOv8 結(jié)合的優(yōu)勢。將Swin Transformer與YOLOv8結(jié)合的主要優(yōu)勢在于二者在特征提取和目標(biāo)檢測方面的互補(bǔ)性。YOLOv8作為一種高效的目標(biāo)檢測算法,能夠快速處理圖像并檢測出目標(biāo)物體,但在處理小目標(biāo)和復(fù)雜背景時可能存在不足。Swin Transformer通過自注意力機(jī)制和窗口注意機(jī)制,能夠有效捕獲全局上下文信息和細(xì)節(jié)特征,彌補(bǔ)了YOLOv8在小目標(biāo)檢測方面的不足。
(2)創(chuàng)新之處。本研究的創(chuàng)新之處在于將Swin Transformer與YOLOv8結(jié)合,提出了一種新的特征融合方法,增強(qiáng)了模型在復(fù)雜背景和小目標(biāo)檢測任務(wù)中的性能,該模型在玉米葉病害檢測任務(wù)中表現(xiàn)出色,具有較高的檢測精度和魯棒性。具體創(chuàng)新點(diǎn)如下:
①通過自注意力機(jī)制和窗口注意機(jī)制,增強(qiáng)特征融合能力,捕獲更多上下文信息。
②多模塊結(jié)合。結(jié)合Focus、DWconv、SPPCSPC和C2模塊,提高模型對不同尺度目標(biāo)的檢測能力。
③ 改進(jìn)損失函數(shù)。提出結(jié)合Wise IOU的損失函數(shù),提高模型的收斂和泛化能力。
3.1.2 結(jié)果分析 在玉米葉病害檢測方面,研究人員需要解決幾個問題。第一,由于玉米葉病害面積小,特征表示和提取困難。第二,密集的分布和遮擋使檢測更加困難。第三,復(fù)雜的照明條件影響能見度。第四,玉米葉子之間的形態(tài)相似性增加了區(qū)分難度。
許多關(guān)于玉米葉病害檢測的研究已將注意力機(jī)制納入其模型中。然而,本試驗(yàn)發(fā)現(xiàn),各種注意力機(jī)制并沒有顯著提高檢測性能。原因可能有以下幾點(diǎn):首先,玉米葉病害數(shù)據(jù)集中的目標(biāo)較為復(fù)雜,并且背景干擾較多,導(dǎo)致注意力機(jī)制無法有效聚焦于關(guān)鍵特征。其次,引入注意力機(jī)制后,模型的復(fù)雜度和計(jì)算量顯著增加,導(dǎo)致模型在訓(xùn)練和推理過程中出現(xiàn)過擬合或計(jì)算瓶頸。最后,YOLOv8本身已經(jīng)具備較強(qiáng)的特征提取能力,引入的注意力機(jī)制未能顯著提升特征提取效果,反而增加了冗余信息。
與YOLOv8相比,Swin Transformer與YOLOv8結(jié)合的模型具有更好的檢測準(zhǔn)確性、召回率和mAP,但檢測速度稍慢,這可能會限制部署。為了緩解這種情況,筆者通過將Swin Transformer與高效的Depthwise Convolution相結(jié)合來優(yōu)化模型設(shè)計(jì),以減少計(jì)算量,同時保留空間信息。筆者還引入SPPCSPC模塊,以參數(shù)高效的方式增強(qiáng)多尺度特征融合,顯著提高了檢測速度。
近年來,有關(guān)小目標(biāo)檢測方面的研究取得了新進(jìn)展。Zheng等[21]通過添加微預(yù)測頭和注意力模塊來檢測作物芽。Hu等[22]探索了多模態(tài)融合在芽檢測中的應(yīng)用效果。
在實(shí)際部署方面,硬件的選擇是關(guān)鍵。緊湊的嵌入式設(shè)備將實(shí)現(xiàn)無人機(jī)的機(jī)載檢測,以實(shí)現(xiàn)自動監(jiān)控。邊緣服務(wù)器通過在傳感設(shè)備附近設(shè)置計(jì)算來提供低延遲推理。該算法還可以集成到更大的農(nóng)業(yè)智能系統(tǒng)中,結(jié)合環(huán)境數(shù)據(jù)進(jìn)行精確管理。
綜上所述,本研究在解決無約束自然環(huán)境中玉米葉病害微小目標(biāo)檢測方面取得了重要進(jìn)展。筆者提出的模型提供了最先進(jìn)的精度,同時認(rèn)識到效率限制。另外,筆者通過架構(gòu)增強(qiáng)、補(bǔ)充數(shù)據(jù)源和實(shí)際部署優(yōu)化,確定了多個改進(jìn)方向。本研究提出的方法和分析為實(shí)現(xiàn)農(nóng)業(yè)自動化視覺系統(tǒng)提供了寶貴的見解。
3.2 結(jié)論
本研究解決了農(nóng)業(yè)監(jiān)測中微小玉米葉病害不易檢測的難題。筆者提出的模型基于Transformer的注意力機(jī)制來增強(qiáng)特征表示,同時使用高效的卷積設(shè)計(jì)來保持合理的檢測速度,從而提供最先進(jìn)的精度。這表明該模型比以前的YOLO變體以及其他檢測模型有了實(shí)質(zhì)性的改進(jìn)。
盡管該模型實(shí)現(xiàn)了高精度,但還可以進(jìn)一步改進(jìn)。在高度封閉的條件下,該模型檢測玉米葉病害存在一定困難,并且將一些葉子錯誤地歸類為玉米葉病害。額外的上下文和形狀信息可能有助于克服這個問題。集成多模態(tài)數(shù)據(jù)源(如紅外或深度圖像)也可以增強(qiáng)穩(wěn)健性。在優(yōu)化方面,神經(jīng)架構(gòu)搜索等技術(shù)可以幫助找到更適合這項(xiàng)任務(wù)的設(shè)計(jì)。特定于部署的優(yōu)化(如量化感知訓(xùn)練)可以減少計(jì)算需求。
未來的工作應(yīng)側(cè)重于進(jìn)一步壓縮模型設(shè)計(jì),整合額外的形狀和上下文信息,并探索補(bǔ)充數(shù)據(jù)源。在系統(tǒng)方面,針對嵌入式部署的優(yōu)化可以幫助實(shí)現(xiàn)實(shí)用的無人機(jī)和邊緣計(jì)算解決方案。本研究在微小物體檢測方面取得了顯著進(jìn)展,所提出的方法、分析和方向?yàn)閷?shí)現(xiàn)農(nóng)業(yè)自動化視覺奠定了基礎(chǔ)。
參考文獻(xiàn):
[1] 沈萍,李想,楊寧,等.基于三重注意力的輕量級YOLOv8印刷電路板缺陷檢測算法[J].微電子學(xué)與計(jì)算機(jī), 2024, 41(4):20-30.
[2] 趙繼達(dá),甄國涌,儲成群.基于YOLOv8的無人機(jī)圖像目標(biāo)檢測算法[J].計(jì)算機(jī)工程, 2024, 50(4):113-120.
[3] 姚景麗,程光,萬飛,等.改進(jìn)YOLOv8的輕量化軸承缺陷檢測算法[J].計(jì)算機(jī)工程與應(yīng)用, 2024.
[4] 崔克彬,焦靜頤.基于MCB-FAH-YOLOv8的鋼材表面缺陷檢測算法[J].圖學(xué)學(xué)報, 2024, 45(1):112-125.
[5] 倪富陶,李倩,聶云靖,等.基于改進(jìn)YOLOv8的輕量化鋼筋端面檢測算法研究[J].太原理工大學(xué)學(xué)報, 2024(2).
[6] 石洋宇,左景,謝承杰,等.多尺度融合與FMB改進(jìn)的YOLOv8異常行為檢測方法[J].計(jì)算機(jī)工程與應(yīng)用, 2024, 60(9):101-110.
[7] 胡海寧,黃雷陽,楊洪剛,等.改進(jìn)Yolov8n的輕量型蜂窩陶瓷缺陷檢測算法[J].激光與光電子學(xué)進(jìn)展, 2024, 61(22).
[8] Ge Z, Liu S, Wang F, Li Z, Sun J. Yolox: Exceeding yolo series in 2021. arXiv preprint arXiv:210708430. 2021.
[9] Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, et al. Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE/CVF international conference on computer vision; 2021. p. 10012-10022.
[10] Woo S, Park J, Lee JY, Kweon IS. Cbam: Convolutional block attention module. In: Proceedings of the European conference on computer vision (ECCV); 2018. p. 3-19.
[11] Liu S, Qi L, Qin H, Shi J, Jia J. Path aggregation network for instance segmentation. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 8759-8768.
[12] 王澤宇,徐慧英,朱信忠,等.基于YOLOv8改進(jìn)的密集行人檢測算法:MER-YOLO[J].計(jì)算機(jī)工程與科學(xué), 2024, 46(6):1050-1062.
[13] 張姝瑾,許興時,鄧洪興,等.基于YOLO v8n-seg-FCA-BiFPN的奶牛身體分割方法[J].農(nóng)業(yè)機(jī)械學(xué)報, 2024, 55(3):282-289.
[14] 梁秀英,賈學(xué)鎮(zhèn),何磊,等.基于YOLO v8n-seg和改進(jìn)Strongsort的多目標(biāo)小鼠跟蹤方法[J].農(nóng)業(yè)機(jī)械學(xué)報, 2024, 55(2):295-305.
[15] 周濤,王驥,麥仁貴.基于改進(jìn)YOLOv8的實(shí)時菠蘿成熟度目標(biāo)檢測方法[J].華中農(nóng)業(yè)大學(xué)學(xué)報, 2024(4).
[16] Roy AM, Bhaduri J. DenseSPH-YOLOv5: An automated damage detection model based on DenseNet and Swin-Transformer prediction head-enabled YOLOv5 with attention mechanism. Advanced Engineering Informatics. 2023; 56:102007.
[17] Roy AM, Bhaduri J, Kumar T, Raj K. WilDect-YOLO: An efficient and robust computer vision-based accurate object localization model for automated endangered wildlife detection. Ecological Informatics. 2023; 75:101919.
[18] Wu D, Jiang S, Zhao E, Liu Y, Zhu H, Wang W, et al. Detection of Camellia oleifera fruit in complex scenes by using YOLOv7 and data augmentation. Applied Sciences. 2022; 12(22):11318.
[19] Zhao Q, Yang L, Lyu N. A driver stress detection model via data augmentation based on deep convolutional recurrent neural network. Expert Systems with Applications. 2024; 238:122056.
[20] Li F, Zhang H, Xu H, Liu S, Zhang L, Ni LM, et al. Mask dino: Towards a unified transformer-based framework for object detection and segmentation. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition; 2023. p. 3041-3050.
[21] Zheng Z, Hu Y, Qiao Y, Hu X, Huang Y. Real-time detection of winter jujubes based on improved YOLOX-nano network. Remote Sensing. 2022; 14(19):4833.
[22] Hu J, Shen L, Sun G. Squeeze-and-excitation networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2018. p. 7132-7141.