關(guān)鍵詞:圖像識(shí)別;輕量化網(wǎng)絡(luò);注意力機(jī)制;多級(jí)特征融合;病蟲(chóng)害檢測(cè)
0 引言(Introduction)
我國(guó)作為茄子最大的產(chǎn)量國(guó),茄子的年產(chǎn)量占世界茄子年總產(chǎn)量的一半以上[1]。在現(xiàn)代農(nóng)業(yè)生產(chǎn)中,病蟲(chóng)害檢測(cè)與防治趨向于規(guī)模化和智能化[2],及時(shí)識(shí)別病蟲(chóng)害,實(shí)現(xiàn)更高效、更主動(dòng)的病蟲(chóng)害管理,可以有效提高茄子果實(shí)的品質(zhì)[3]。
近年來(lái),以深度學(xué)習(xí)作為基礎(chǔ)的病蟲(chóng)害目標(biāo)檢測(cè)算法取得了顯著進(jìn)步,根據(jù)檢測(cè)階段的不同,這些算法可以分為兩類(lèi)。一類(lèi)是以R-CNN(Region-Convolutional Neural Network)[4] 和Faster R-CNN(Faster Region-Convolutional Neural Network)[5]為代表的兩階段(two-stage)檢測(cè)算法。例如,劉毅君等[6]提出一種基于改進(jìn)Faster R-CNN算法的馬鈴薯發(fā)芽與表面損傷檢測(cè)方法,顯著提升了檢測(cè)平均精確率。另一類(lèi)是以SSD(SingleShot MultiBox Detector)[7]和YOLO(You Only Look Once)系列[8]為代表的單階段(one-stage)目標(biāo)檢測(cè)算法。例如,賈雪瑩等[9]提出一種基于改進(jìn)YOLOv7模型的柑橘表面缺陷檢測(cè),在網(wǎng)絡(luò)頭部引入CT(Contextual Transformer)模塊,融合靜態(tài)和動(dòng)態(tài)上下文表征特征,增強(qiáng)了缺陷部分特征表達(dá)能力。于春濤等[10]提出一種改進(jìn)的YOLOv7模型,在網(wǎng)絡(luò)中添加CARAFE(Content-Aware ReAssembly Feature Extraction)特征上采樣算子、SE(Squeeze-and-Excitation)注意力機(jī)制模塊和WIoU位置損失函數(shù),提高了復(fù)雜農(nóng)田環(huán)境下的目標(biāo)檢測(cè)性能。
針對(duì)茄子病蟲(chóng)害檢測(cè)方法的研究,目前主要集中在茄子葉片病蟲(chóng)害檢測(cè)[11]領(lǐng)域,較少考慮在自然環(huán)境和多目標(biāo)情況下,實(shí)現(xiàn)計(jì)算量小、時(shí)延低且檢測(cè)精度高的病蟲(chóng)害檢測(cè)。為解決此類(lèi)問(wèn)題,本研究基于YOLOv8n模型,對(duì)茄子果實(shí)病害檢測(cè)方法進(jìn)行改進(jìn)和優(yōu)化,提出一種計(jì)算量小、檢測(cè)精確度高及檢測(cè)速度快的茄子果實(shí)病蟲(chóng)害檢測(cè)模型,即HCI-YOLO。
1 材料與方法(Materials and methods)
1.1 數(shù)據(jù)集
茄子果實(shí)病蟲(chóng)害數(shù)據(jù)的采集來(lái)源于公開(kāi)數(shù)據(jù)集和網(wǎng)絡(luò)圖片,為了豐富數(shù)據(jù)的多樣性、提高模型的泛化能力以及平衡不同病害特征樣本數(shù)量,在不同時(shí)間段的自然光照下,多角度拍攝目標(biāo)及多距離拍攝目標(biāo);拍攝的圖片中不僅包括清晰的茄子果實(shí)病蟲(chóng)害特征,也包含其他周?chē)匀画h(huán)境背景;最后,剔除質(zhì)量較差和非典型病蟲(chóng)害圖像,保留自然環(huán)境背景下3種茄子果實(shí)病蟲(chóng)害,分別是蛀果蟲(chóng)(Fruit Borer)、瓜薊馬(MelonThrips)、果腐?。‵ruit Rot),同時(shí)采集了一些健康茄子果實(shí)圖片。采集圖片如圖1所示。
一些圖片包含多個(gè)該類(lèi)病蟲(chóng)害的目標(biāo)以及同時(shí)存在其他類(lèi)型的病蟲(chóng)害,滿(mǎn)足多目標(biāo)、多種類(lèi)的檢測(cè)需求。通過(guò)平衡每個(gè)類(lèi)別在數(shù)據(jù)集中的占比,防止出現(xiàn)某類(lèi)別在數(shù)據(jù)集中代表性不足導(dǎo)致的模型通過(guò)持續(xù)預(yù)測(cè)多數(shù)類(lèi)別實(shí)現(xiàn)高精度的假象。將1 369張圖片作為本研究的數(shù)據(jù)。每張圖片所含樣本數(shù)量分布以及數(shù)據(jù)集的樣本分布和劃分如圖2所示。
使用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)增訓(xùn)練集數(shù)據(jù)量[12],添加90°旋轉(zhuǎn)(包含順時(shí)針、逆時(shí)針及上下顛倒旋轉(zhuǎn))操作,以此增強(qiáng)模型對(duì)圖片方向變化的不敏感性[13]。同時(shí),對(duì)圖片進(jìn)行了提亮、變暗及曝光處理,通過(guò)增加圖片亮度的可變性,幫助模型更好地適應(yīng)照明和相機(jī)設(shè)置的變化[14]。經(jīng)過(guò)這一系列數(shù)據(jù)增強(qiáng)操作,最終將數(shù)據(jù)集擴(kuò)增至3 247張。
1.2 YOLOv8算法
YOLOv8是在YOLOv5的基礎(chǔ)上進(jìn)行優(yōu)化和改進(jìn)得到的[15],它可以調(diào)整不同的模型深度和模型寬度,能滿(mǎn)足各種場(chǎng)景需求。YOLOv8主要包含三大部分。一是特征提取部分(Backbone),整個(gè)部分以C2f模塊作為基本構(gòu)成單元,采用了一系列卷積和反卷積層提取特征,同時(shí)使用了殘差連接和瓶頸結(jié)構(gòu)以減小網(wǎng)絡(luò)的大小和提高模型的性能[16]。二是特征增強(qiáng)網(wǎng)絡(luò)部分(Neck),它包括了1個(gè)SPPF模塊、1個(gè)PAA模塊和2個(gè)PAN模塊,可加強(qiáng)網(wǎng)絡(luò)對(duì)不同縮放尺度對(duì)象的特征融合能力。三是頭部部分(Head),其核心是解耦頭(Decoupled-Head),即將原來(lái)的1個(gè)檢測(cè)頭分解成檢測(cè)頭和分類(lèi)頭兩2部分,檢測(cè)頭包含一系列卷積層和反卷積層,用于產(chǎn)生檢測(cè)結(jié)果;分類(lèi)頭則采用全局平均池化對(duì)每個(gè)特征圖進(jìn)行分類(lèi)。
相較于上一版本的YOLOv5,YOLOv8大幅提升了模型性能,簡(jiǎn)化了模型結(jié)構(gòu),實(shí)現(xiàn)了模型輕量化[17]。
2 算法改進(jìn)(Algorithm improvement)
針對(duì)茄子果實(shí)病蟲(chóng)害檢測(cè)中模型參數(shù)量大、自然環(huán)境下檢測(cè)精度低及多尺度目標(biāo)檢測(cè)等問(wèn)題,提出一種茄子果實(shí)病蟲(chóng)害檢測(cè)模型HCI-YOLO,實(shí)現(xiàn)了更低的計(jì)算成本和更精確的模型表現(xiàn),其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。首先,提出多級(jí)特征融合金字塔(HS-FPN)結(jié)構(gòu),減少了模型參數(shù)量,解決了尺度變化時(shí)模型識(shí)別精度低的問(wèn)題[18]。其次,采用CA[19]坐標(biāo)注意力機(jī)制獲取全局感受野,并編碼精確的位置信息,使其在復(fù)雜環(huán)境干擾下依然能夠準(zhǔn)確捕獲有價(jià)值的區(qū)域。最后,引入Inner-SIoU損失函數(shù),融合使用Inner-IoU[20]和SIoU;其中,采用SIoU復(fù)雜的邊界框回歸方法解決了網(wǎng)絡(luò)模型邊界框的局限性,提升了模型目標(biāo)檢測(cè)任務(wù)的精確度,而Inner-IoU可以加速模型回歸,提升模型的檢測(cè)效率。
2.1 HS-FPN網(wǎng)絡(luò)結(jié)構(gòu)
HS-FPN(High-level Screening-feature Fusion Pyramid Networks)是一種專(zhuān)為白細(xì)胞檢測(cè)而設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),主要用于解決白細(xì)胞數(shù)據(jù)集中的多尺度挑戰(zhàn),其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。通過(guò)將這一概念融入YOLOv8模型,將其應(yīng)用于茄子病害數(shù)據(jù)集,成功地解決了茄子數(shù)據(jù)集中的多尺度挑戰(zhàn)以及參數(shù)量問(wèn)題。HS-FPN的基本原理包括兩個(gè)關(guān)鍵部分:特征選擇模塊(Feature Selection Module)和特征融合模塊(Feature FusionModule)。特征選擇模塊首先利用通道注意力(ChannelAttention)和維度匹配(Dimension Match)機(jī)制對(duì)不同尺度的特征圖進(jìn)行篩選,其次運(yùn)用全局最大值池化或全局平均池化和權(quán)重運(yùn)算獲取特征圖通道中的重要信息;特征融合模塊通過(guò)選擇性特征融合(Selective Feature Fusion)機(jī)制,以高級(jí)特征作為權(quán)重,過(guò)濾出低尺度特征中的重要信息。通過(guò)這兩個(gè)模塊的協(xié)同工作,有效地提高了模型的檢測(cè)精度和魯棒性。
選擇性特征融合(SFF)機(jī)制是HS-FPN網(wǎng)絡(luò)中的一個(gè)關(guān)鍵組件,它在特征融合模塊中用高級(jí)特征作為注意力權(quán)重篩選低尺度特征,這種方法高效地融合了高級(jí)特征與低尺度特征的信息,進(jìn)而提升了不同尺度下的模型檢測(cè)精確度。
2.2 坐標(biāo)注意力機(jī)制
在自然環(huán)境中,因?yàn)椴“吲c周?chē)h(huán)境的區(qū)分度不高,所以準(zhǔn)確定位茄子果實(shí)病蟲(chóng)害是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。針對(duì)這個(gè)問(wèn)題,引入CA(Coordinate attention)坐標(biāo)注意力機(jī)制,提升了模型的回歸性能,其網(wǎng)絡(luò)框架圖如圖5所示。CA通過(guò)將特征張量沿X 方向和Y 方向進(jìn)行1D全局平均池化,分別過(guò)濾出垂直和水平方向的重要特征,并且保留其精確的位置信息以及長(zhǎng)距離的相互關(guān)系。這兩個(gè)方向的特征圖轉(zhuǎn)換為對(duì)方向和位置敏感度高的注意力圖,再作用于輸入特征圖上,以突顯出可能有病害的區(qū)域。通道注意力的引入,使得模型能夠準(zhǔn)確地定位在自然環(huán)境中的茄子果實(shí)病害位置信息,并且其輕量級(jí)和靈活性特點(diǎn),使它可以輕松地集成到現(xiàn)有的移動(dòng)網(wǎng)絡(luò)架構(gòu)中,幾乎不會(huì)增加計(jì)算量。
2.3Inner-SIoU損失函數(shù)
在茄子病蟲(chóng)害目標(biāo)檢測(cè)任務(wù)中,果實(shí)病害特征復(fù)雜多變,而傳統(tǒng)的邊界框回歸方法具有一定的局限性。為了克服這一難題,通過(guò)引入SIoU損失函數(shù)實(shí)現(xiàn)了更快的訓(xùn)練速度和更高的預(yù)測(cè)準(zhǔn)確性。SIoU更多地考慮了邊界框的幾何特性,引入了一種更為復(fù)雜的邊界框回歸方法,打破了以往損失函數(shù)的局限性。SIoU損失函數(shù)包括角度損失∧(Angle cost)、距離損失△(Distance cost)、形狀損失Ω(Shape cost)及IoU 損失(IoUcost)4個(gè)部分,具體如公式(3)所示。此外,在SIOU的基礎(chǔ)上融合Inner-IOU理念,這一融合策略能夠捕捉到以往在固定邊框大小時(shí)難以回歸的精確位置,進(jìn)一步打破邊界框回歸的局限性。Inner-IOU 首先計(jì)算出具有自身特性且不同于傳統(tǒng)IoU的IoUInner,具體如式(4)所示,其次通過(guò)公式(5)融合SIoU,計(jì)算出最終的損失函數(shù)LInner-SIoU。
3 實(shí)驗(yàn)與分析(Experiment and analysis)
3.1 實(shí)驗(yàn)環(huán)境和參數(shù)配置
實(shí)驗(yàn)使用Windows 10操作系統(tǒng),具體軟硬件配置和參數(shù)配置如表1所示。
3.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)使用精確度(Precision)、召回率(Recall)和平均精度均值(mean Average Precision, mAP)對(duì)模型的性能進(jìn)行評(píng)價(jià)[21]。精確度衡量了模型在識(shí)別為正類(lèi)的樣本中有多少是真正的正類(lèi)樣本,精確度計(jì)算如公式(6)所示。召回率衡量了模型在所有真正的正類(lèi)樣本中有多少被正確地識(shí)別,召回率計(jì)算如公式(7)所示。平均精度均值是目標(biāo)檢測(cè)任務(wù)中常用的綜合評(píng)價(jià)指標(biāo),結(jié)合了不同類(lèi)別的平均精度衡量模型的整體性能。mAP@0.5衡量了模型在預(yù)測(cè)的邊界框與真實(shí)邊界框之間IoU 大于等于0.5時(shí)的平均精度。mAP@0.5~0.95考慮了從IoU 閾值0.5到0.95的范圍內(nèi)的mAP,該范圍覆蓋了一系列的IoU 閾值,例如0.5、0.55、0.6、…、0.95,每個(gè)閾值都對(duì)應(yīng)不同的交并比,從較寬松到較嚴(yán)格。計(jì)算mAP@0.5~0.95可以更全面地評(píng)估模型對(duì)于不同交并比的檢測(cè)精度。
3.3 消融實(shí)驗(yàn)
為驗(yàn)證本文提出的算法中各個(gè)改進(jìn)模塊的有效性,以原始的YOLOv8為基線(xiàn)模型,并以精確度、召回率、mAP@0.5、mAP@0.5~0.95、幀率FPS、浮點(diǎn)計(jì)算數(shù)、參數(shù)量、模型大小作為評(píng)價(jià)指標(biāo),通過(guò)多個(gè)改進(jìn)模塊的不同組合方式進(jìn)行消融實(shí)驗(yàn),結(jié)果如表2和表3所示。
從綜合表2和表3中的結(jié)果可以看出,單獨(dú)使用HS-FPN結(jié)構(gòu)改進(jìn)了YOLOv8的neck部分后,模型參數(shù)量和計(jì)算量分別降低了36.67百分點(diǎn)和14.81百分點(diǎn),召回率上升了1.3百分點(diǎn),mAP@0.5、mAP@0.5~0.95分別降低了1.1百分點(diǎn)和0.4百分點(diǎn),HS-FPN結(jié)構(gòu)顯著地降低了模型的參數(shù)量和計(jì)算量,并且模型在召回率上升的同時(shí)仍然維持了較高的精度,說(shuō)明HS-FPN結(jié)構(gòu)可以有效地應(yīng)對(duì)多尺度問(wèn)題。單獨(dú)使用CA坐標(biāo)注意力機(jī)制改進(jìn)backbone部分后,模型的召回率提升了5.5百分點(diǎn),精確度降低了2.4百分點(diǎn),說(shuō)明CA坐標(biāo)注意力機(jī)制與位置信息的結(jié)合可以準(zhǔn)確定位出病害的位置。單獨(dú)使用Inner-SIoU損失函數(shù)改進(jìn)原CIoU損失函數(shù),其精度與召回率分別提升了1.2百分點(diǎn)和0.7百分點(diǎn),說(shuō)明更為復(fù)雜的邊界框回歸方法與輔助邊框結(jié)合有效地提升了模型的精度。由于CA注意力機(jī)制的輕量級(jí)和靈活性,在改進(jìn)HS-FPN結(jié)構(gòu)的基礎(chǔ)上添加CA坐標(biāo)注意力機(jī)制,能夠使模型在其參數(shù)量、浮點(diǎn)計(jì)算數(shù)和權(quán)重文件幾乎不變的情況下,性能得到進(jìn)一步提升,模型的召回率、mAP@0.5和mAP@0.5~0.95分別提高了2.4百分點(diǎn)、1.8百分點(diǎn)和0.1百分點(diǎn)。在此基礎(chǔ)上繼續(xù)添加Inner-SIoU損失函數(shù)后,精確度、召回率、mAP@0.5及mAP@0.5~0.95分別提高了2百分點(diǎn)、1.2百分點(diǎn)、0.9百分點(diǎn)和0.7百分點(diǎn)。
綜上,研究所改進(jìn)后的YOLOv8模型相比于基線(xiàn)網(wǎng)絡(luò)模型,雖然幀率有小幅度降低,但是仍能滿(mǎn)足實(shí)時(shí)檢測(cè)需求,精確度、召回率、mAP@0.5和mAP@0.5~0.95分別提高了1.5百分點(diǎn)、4.3百分點(diǎn)、2.1百分點(diǎn)和0.9百分點(diǎn),浮點(diǎn)計(jì)算數(shù)、參數(shù)量和模型大小分別下降了14.8百分點(diǎn)、34.5百分點(diǎn)和33.4百分點(diǎn),表明本文提出的改進(jìn)算法的有效性。
對(duì)比圖6所示的混淆矩陣可以清晰地觀(guān)察到,相較于基準(zhǔn)模型YOLOv8n,HCI-YOLO在茄子果實(shí)病害檢測(cè)任務(wù)上展現(xiàn)出了更優(yōu)越的性能。HCI-YOLO減少了將病害特征識(shí)別為背景的情況,顯著地提高了改進(jìn)模型在自然環(huán)境下的抗干擾能力與對(duì)多尺度遮擋目標(biāo)的檢測(cè)能力。
為進(jìn)一步證明改進(jìn)的YOLOv8n在自然環(huán)境下抗干擾能力和模型精度的提升,用XGrad-CAM 類(lèi)激活熱力圖對(duì)兩個(gè)模型進(jìn)行可視化分析,結(jié)果如圖7所示。從圖7中可看出,改進(jìn)模型對(duì)病害特征預(yù)測(cè)輸出的權(quán)重更高,對(duì)區(qū)分度不高的病害也給予了更多的關(guān)注,并且對(duì)周?chē)h(huán)境關(guān)注度更低,最大限度地避免了漏檢情況。
3.4 不同算法對(duì)比實(shí)驗(yàn)分析
將HCI-YOLO與其他算法進(jìn)行對(duì)比分析,具體試驗(yàn)結(jié)果如表4所示。
在對(duì)比實(shí)驗(yàn)中,我們以YOLOv8n作為基線(xiàn)模型,深入分析了多種目標(biāo)檢測(cè)算法的性能。與two-stage的目標(biāo)檢測(cè)算法Faster-RCNN相比,其具有較多的浮點(diǎn)計(jì)算量和參數(shù)量,導(dǎo)致生成的模型較大,因此two-stage的目標(biāo)檢測(cè)算法不適合實(shí)時(shí)監(jiān)測(cè)任務(wù)對(duì)輕量化網(wǎng)絡(luò)的要求。在YOLO 家族的熱門(mén)模型中,與YOLOv5n相比,YOLOv8n的精確度、mAP@0.5和召回率分別提升了1.2百分點(diǎn)、2.3百分點(diǎn)和0.1百分點(diǎn);與YOLO7-tiny相比,YOLOv8n的精確度和mAP@0.5分別提升了2.5百分點(diǎn)和1.2百分點(diǎn),模型參數(shù)量及計(jì)算量更低。進(jìn)一步對(duì)比基于MobileNetV3[22]和ShuffleNetV2[23]的改進(jìn)YOLOv8n網(wǎng)絡(luò),其中YOLOv8-MobileNetV3的精度、召回率和mAP@0.5雖然分別提高了0.1百分點(diǎn)、2.6百分點(diǎn)和0.4百分點(diǎn),略?xún)?yōu)于YOLOv8n,但是其參數(shù)量與模型的計(jì)算量更高;YOLOv8-ShuffleNetV2在參數(shù)量和模型大小方面有優(yōu)勢(shì),但相比于基線(xiàn)模型YOLOv8n,其精度、召回率和mAP@0.5分別下降了1.1百分點(diǎn)、0.4百分點(diǎn)和3.5百分點(diǎn)。與原始的YOLOv8n相比,本文提出的YOLOv8n模型在保持高精度檢測(cè)的同時(shí),實(shí)現(xiàn)了更小的參數(shù)量和模型權(quán)重文件。具體來(lái)說(shuō),HCI-YOLO的參數(shù)量及模型權(quán)重文件更小,并且精確度等均優(yōu)于原始YOLOv8n算法。
4 結(jié)論(Conclusion)
本文探索了YOLOv8n算法在茄子果實(shí)病蟲(chóng)害檢測(cè)領(lǐng)域的優(yōu)化路徑,并提出了一種改進(jìn)方案。在YOLOv8n模型的基礎(chǔ)上將特征增強(qiáng)部分替換為HSFPN結(jié)構(gòu),減少了模型參數(shù),提升了網(wǎng)絡(luò)模型在尺度變化時(shí)的檢測(cè)精度;在主干特征提取網(wǎng)絡(luò)中加入CA坐標(biāo)注意力機(jī)制,該機(jī)制能準(zhǔn)確定位出有價(jià)值的對(duì)象位置,有效地提升了模型性能;引入Inner-SIOU損失函數(shù)替代原始YOLOv8n模型的損失函數(shù),有利于模型收斂,提高了模型的檢測(cè)精度。
改進(jìn)的YOLOv8算法與目前主流目標(biāo)檢測(cè)算法YOLOv5n、YOLOv7-tiny、YOLOv8、Faster-RCNN 相比,平均精度均值mAP@0.5分別提高了4.4百分點(diǎn)、3.3百分點(diǎn)、2.1百分點(diǎn)、4百分點(diǎn)。多種可視化分析結(jié)果表明,改進(jìn)的YOLOv8網(wǎng)絡(luò)能夠?yàn)榍炎庸麑?shí)病蟲(chóng)害的檢測(cè)與識(shí)別提供新的思路和方法。
研究解決茄子果實(shí)病蟲(chóng)害的檢測(cè)問(wèn)題,對(duì)于提升茄子作物的品質(zhì)至關(guān)重要,相較于傳統(tǒng)的人工檢測(cè)方式,該技術(shù)能夠在更短的時(shí)間內(nèi)以更高的精度和更低的成本完成檢測(cè)任務(wù),標(biāo)志著農(nóng)業(yè)智能化進(jìn)程的一大進(jìn)步。未來(lái)的研究應(yīng)聚焦于在更多樣化的天氣、光照和作物條件下對(duì)模型進(jìn)行訓(xùn)練。此外,隨著其他病蟲(chóng)害檢測(cè)算法的出現(xiàn),模型的輕量化也成為未來(lái)研究的重要方向。