石璐瑩 童順延 吳婷 馮媛 劉海華
摘? 要:農(nóng)田害蟲防控是一項爭分奪秒的挑戰(zhàn),在此過程中害蟲種類的正確識別是一項極為重要的環(huán)節(jié)。針對傳統(tǒng)識別害蟲檢測過程中準(zhǔn)確率低、檢測目標(biāo)較小的問題,文章提出了一種基于YOLOv5s和注意力機制的農(nóng)田害蟲圖像識別模型。將自注意力機制引入YOLOv5s網(wǎng)絡(luò),對上下文信息進行建模,通過建立非局部模型提高網(wǎng)絡(luò)解決圖像遠距離和多層次依賴關(guān)系的能力。實驗結(jié)果顯示,基于YOLOv5注意力模型的農(nóng)田害蟲圖像識別具有較高的檢測精度,可以有效識別和定位各類害蟲。
關(guān)鍵詞:農(nóng)田害蟲識別;目標(biāo)檢測;YOLOv5;注意力機制
中圖分類號:TP391.4;TP18 文獻標(biāo)識碼:A? 文章編號:2096-4706(2023)10-0070-05
Abstract: Pest prevention and control in farmland is a race against time challenge, and the correct identification of pest species is an extremely important link in this process. In response to the problems of low accuracy and small detection targets in traditional pest detection processes, a farmland pest image recognition model based on YOLOv5s and attention mechanism is proposed in this paper. Introduce the self attention mechanism into the YOLOv5s network to model contextual information, and improve the network's ability to solve long-distance and multi-level dependency relationships in images by establishing non local models. The experimental results show that the recognition of farmland pest images based on the YOLOv5 attention model has high detection accuracy and can effectively identify and locate various pests.
Keywords: farmland pest recognition; object detection; YOLOv5; attention mechanism
0? 引? 言
我國是農(nóng)業(yè)大國,在農(nóng)業(yè)生產(chǎn)過程中農(nóng)作物病蟲害是始終繞不開的話題,各種病蟲害給農(nóng)產(chǎn)品產(chǎn)量和品質(zhì)帶來惡劣的影響,每年都會由此造成巨大的經(jīng)濟損失[1]。為了對農(nóng)田病蟲害進行有效的預(yù)防和控制,需要收集有害生物信息,在此基礎(chǔ)上進行蟲情分析。然而,農(nóng)業(yè)害蟲種類繁多且信息復(fù)雜,傳統(tǒng)的利用人工觀察統(tǒng)計害蟲的方法難以滿足現(xiàn)代大規(guī)模農(nóng)業(yè)生產(chǎn)對蟲害預(yù)防工作的需要[2]。近些年來,隨著各種新型技術(shù)的快速發(fā)展,國家愈來愈重視對農(nóng)業(yè)病蟲害智能化識別和數(shù)字化防控。因此,農(nóng)作物病蟲害智能識別的研究逐漸成為熱門。
1? 相關(guān)研究
近年來國內(nèi)外對于病蟲害自動檢測的研究做了大量的工作。張開興[3]、胡維煒[4]等將機器學(xué)習(xí)技術(shù)與圖像處理相結(jié)合成功實現(xiàn)了農(nóng)作物病蟲害圖像的檢測。他們先使用圖像分割算法對病蟲害病斑圖像進行分割,然后提取病斑的區(qū)域形狀特征及紋理特征[5],再通過反向傳播網(wǎng)絡(luò)[6]、支持向量機分類[7]和K均值聚類[8]等算法對病斑特征進行識別和分類。但此類算法識別的準(zhǔn)確率受分割精度的影響較大,且模型通用性較差。王東方等利用遷移學(xué)習(xí)方法改進深度殘差網(wǎng)絡(luò)SE-ResNeXt-101模型[9],實現(xiàn)了多種農(nóng)作物病蟲害類型共同檢測,并且解決了由于樣本數(shù)據(jù)不足導(dǎo)致的模型識別精度低的問題。時文秀對RefineDet算法進行優(yōu)化[10],提出新的ARM網(wǎng)絡(luò)架構(gòu),在農(nóng)田害蟲檢測上取得了一定的識別精度提升。然而這些方法都將復(fù)雜的檢測任務(wù)簡化成了分類任務(wù),在目標(biāo)框回歸精度方面并沒有提出較好的解決方案。Redmon等創(chuàng)造性地提出了one-stage的YOLO算法[11],將物體分類和物體定位在一個步驟中完成,YOLO僅僅使用一個卷積神經(jīng)網(wǎng)絡(luò)CNN直接預(yù)測不同目標(biāo)的類別與位置,并在輸出層回歸bounding box的位置和bounding box所屬類別,在犧牲較小精度的同時獲得了明顯的速度提升。但此類算法對于小目標(biāo)檢測任務(wù)(分辨率小于32×32像素),存在較高的漏檢率。農(nóng)田害蟲體積較小,蟲體形態(tài)、顏色較為相似,易受到其他相似害蟲、枝葉等背景因素的干擾。針對以上問題,本文對YOLOv5模型進行改進實現(xiàn)農(nóng)田害蟲圖像的智能識別。
2? 網(wǎng)絡(luò)結(jié)構(gòu)
2.1? YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5網(wǎng)絡(luò)是目標(biāo)檢測常用網(wǎng)絡(luò)之一,具有推理速度快、檢測精度高等優(yōu)點,該網(wǎng)絡(luò)包含4種基礎(chǔ)結(jié)構(gòu),分別是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,這些不同的變體使得YOLOv5能很好地在精度和速度中權(quán)衡,擁有更廣的應(yīng)用場景。YOLOv5s網(wǎng)絡(luò)是YOLOv5系列中深度最小,特征圖寬度最小的網(wǎng)絡(luò),后面3種網(wǎng)絡(luò)都是在此基礎(chǔ)上不斷加深、加寬。隨著模型復(fù)雜度的提升,網(wǎng)絡(luò)的準(zhǔn)確率也會有所提升,但是會消耗更多的計算資源,為了實現(xiàn)病蟲害的快速檢測和網(wǎng)絡(luò)輕量化,本文選擇使用YOLOv5s網(wǎng)絡(luò)作為基礎(chǔ)模型。YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
YOLOv5的Backbone部分的采用的New CSP-Darknet-53結(jié)構(gòu),該結(jié)構(gòu)由Focus結(jié)構(gòu)、CBL結(jié)構(gòu)、CSP結(jié)構(gòu)以及SPP結(jié)構(gòu)組成,用來提取圖像特征。
Focus的作用是進行一個下采樣的切片操作,如圖2所示,可以減少計算量加快網(wǎng)絡(luò)速度。CBL的作用是利用卷積層獲取特征。CSP是殘差結(jié)構(gòu),可以增強網(wǎng)絡(luò)的學(xué)習(xí)能力,可以降低網(wǎng)絡(luò)計算量和內(nèi)存成本,使得網(wǎng)絡(luò)在輕量化的同時保持準(zhǔn)確性。
SPP結(jié)構(gòu)是將輸入串行通過多個核為5×5大小的MaxPool層,將前面得到的任意大小的特征圖轉(zhuǎn)換成固定大小的特征向量,融合不同尺度特征的同時加快計算速度。
YOLOv5的Neck部分采用FPN+PAN的結(jié)構(gòu),可以更好地利用Backbone提取的特征,對Backbone提取的特征進行再處理和合理應(yīng)用。一個Neck由幾個自底向上的路徑和幾個自頂向下的路徑組成。Neck是目標(biāo)檢測中的關(guān)鍵環(huán)節(jié),主要作用是加強網(wǎng)絡(luò)特征融合的能力和進一步提高網(wǎng)絡(luò)特征提取的能力。
YOLOv5的Prediction部分通常稱為Head網(wǎng)絡(luò),作用是對圖像特征進行預(yù)測,生成邊界框以及預(yù)測類別。作為一個分類網(wǎng)絡(luò),Backbone無法完成定位任務(wù),Head負責(zé)通過Backbone提取的特征圖檢測目標(biāo)的位置和類別。
2.2? 注意力機制
在人們觀察事物的時候,首先整體概覽,然后根據(jù)需求有意識的關(guān)注事物的重點區(qū)域,找出感興趣區(qū)域。注意力機制的運用可以使得模型基于數(shù)據(jù)找到其之間的關(guān)聯(lián)性,突出某些重要特征,提高模型的魯棒性和表達能力,從而有效提高模型的性能。YOLOv5的Neck部分對主干網(wǎng)絡(luò)中提取的特征進行融合,因此本文在Neck部分的CSP結(jié)構(gòu)之后添加空間通道注意模塊(Convolutional Block Attention Module, CBAM)[12],如圖3所示,提高模型對重點區(qū)域的關(guān)注力,提升模型的性能。
2.3? 小目標(biāo)檢測層
在YOLOv5原始的Head部分有3個檢測頭用來檢測不同大小的目標(biāo),當(dāng)輸入圖像尺寸為640×640的時候,輸出尺寸為80×80檢測頭的感受野對應(yīng)原圖為8×8的像素區(qū)域,輸出尺寸為40×40檢測頭的感受野對應(yīng)原圖為16×16的像素區(qū)域,輸出尺寸為20×20檢測頭的感受野對應(yīng)原圖為32×32的像素區(qū)域。由于數(shù)據(jù)中存在類似于編號為9號的白背飛虱和10號褐飛虱屬等體積極小的飛虱類害蟲,因此考慮增加1個輸出尺寸為160×160的檢測頭,對應(yīng)原圖的感受野為4×4的像素區(qū)域,可以增強網(wǎng)絡(luò)對小目標(biāo)的檢測能力。改進后的YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2.4? 損失函數(shù)改進
YOLOv5中的損失函數(shù)由定位損失(Location Loss)、類別損失(Classes Loss)和置信度損失(Objectness Loss)三部分組成,其中采用GIoU Loss計算定位損失,使用BCE Loss計算類別損失和置信度損失。損失函數(shù)計算公式為:
其中λ1,λ2,λ3為平衡系數(shù)。
YOLOv5的定位損失使用GIoU計算,GIoU在IoU損失的基礎(chǔ)上,考慮了預(yù)測框和真實框的最小外接矩形框,一定程度上解決了IoU不能計算預(yù)測框和真實框不重疊的問題,GIoU的計算公式為:
其中A為預(yù)測框,B為真實框,C為A和B的最小外接矩形框。
但是GIoU也存在缺點,當(dāng)預(yù)測框完全包圍住真實框時,GIoU就會退化為IoU導(dǎo)致檢測結(jié)果不準(zhǔn)確。研究采用CIoU代替IoU計算定位損失[13],CIoU不僅考慮了預(yù)測框與真實框中心點之間的距離,還考慮了預(yù)測框和真實框之間的寬高比,有效解決了IoU和GIoU中的缺點,CIoU示意圖如5圖所示。
其中α為權(quán)重函數(shù),ν為衡量預(yù)測框與真實寬高比的相似性,w gt/ h gt和w / h為真實框和預(yù)測框的寬高比,ρ(.)為歐氏距離,b和bgt為預(yù)測框和真實框的中心點,c為預(yù)測框和真實框最小外接矩形框的對角線長度。CIoU可以更好的度量預(yù)測框與真實框之間的關(guān)系,有效提高檢測的精度。
3? 實驗與分析
3.1? 數(shù)據(jù)獲取與數(shù)據(jù)處理
本文使用的農(nóng)田害蟲數(shù)據(jù)集由第十屆“泰迪杯”數(shù)據(jù)挖掘挑戰(zhàn)賽提供,共3 015張圖像。挑戰(zhàn)賽所提供的蟲情測報燈采集到的圖像文件,用于識別28種對某農(nóng)作物有害的害蟲,具體害蟲種類及編號如表1所示。
數(shù)據(jù)擴充:為擴充數(shù)據(jù)樣本,采用隨機裁剪圖像的方法增加數(shù)據(jù)樣本量。在每張圖像上隨機生成500個點,每個點生成一張大小為1 200×1 200的圖像,根據(jù)圖像中害蟲標(biāo)簽位置信息計算與生成圖像的IoU,若IoU大于0.9則保留該生成圖像。
數(shù)據(jù)增強:采用縮放、色彩空間調(diào)整和Mosaic增強三種方式對數(shù)據(jù)進行增強。Mosaic方法隨機使用4張圖像,隨機縮放后再隨機分布進行拼接。隨機縮放增加了很多小目標(biāo)害蟲,使網(wǎng)絡(luò)的魯棒性更加優(yōu)越。
3.2? 評價指標(biāo)
判斷模型的好壞往往是通過評價指標(biāo)來得到的。針對害蟲識別任務(wù)與分類任務(wù),研究使用如精確率(Precision)、準(zhǔn)確率(Accuracy)、召回率(Recall)、AP(Average Precision)、mAP(mean Average Precision)等評價指標(biāo)。各評價指標(biāo)的計算公式為:
其中,TP為正樣本中被正確識別為正樣本的數(shù)量,TN為負樣本中被正確識別為負樣本的數(shù)量,F(xiàn)P為負樣本中被錯誤識別為正樣本的數(shù)量,F(xiàn)N為正樣本中被錯誤識別為負樣本的數(shù)量,C為類別數(shù)。
3.3? 消融實驗
為了驗證改進算法的有效性,在YOLOv5s網(wǎng)絡(luò)基礎(chǔ)上的消融實驗設(shè)計如下,模型1:使用CIoU損失,其余模塊保持不變;模型2:使用GIoU損失,添加CBAM模塊;模型3:使用GIoU損失,添加小目標(biāo)檢測層模塊;模型4:使用CIoU損失,添加CBAM模塊,添加小目標(biāo)檢測層模塊。在同等訓(xùn)練條件下,以精確率、召回率和mAP作為評價指標(biāo),實驗結(jié)果如表2所示。
從實驗結(jié)果中可以看出,在原始YOLOv5s的結(jié)構(gòu)基礎(chǔ)上,本文針對研究任務(wù)提出的損失函數(shù)改進,添加注意力模塊和添加小目標(biāo)檢測頭模塊,都有效提升了模型的效果,將三者都添加到模型中之后,效果得到了明顯的提升,準(zhǔn)確率提升了5.65%、召回率提升了2.72%、mAP@.5提升了1.95%,從而說明本文提出的模型修改部分,可以有效提升模型效果。部分檢測結(jié)果展示如圖6所示。
3.4? 對比實驗
為了驗證本算法與其他算法的有效性,分別在YOLOv5s方法、YOLOv3-SPP方法[14]、Faster R-CNN方法[15]和YOLOX方法[16]上進行對比實驗,在同等訓(xùn)練和測試條件下進行驗證,實驗結(jié)果如表3所示。
討論從實驗結(jié)果中可以看出,本文針對小目標(biāo)害蟲的檢測算法性能更好,相較于其他4種模型,本文算法在精確率、召回率和mAP@.5上均有提升,驗證了本算法的可行性,也驗證了本算法的優(yōu)越性。
4? 結(jié)? 論
使用CIoU損失函數(shù)計算定位損失,可以很好衡量真實框和預(yù)測框之間的關(guān)系,提高模型學(xué)習(xí)能力和魯棒性;在Neck加入注意力機制重點關(guān)注檢測目標(biāo)的有效信息;增加的小目標(biāo)檢測層有助于提取小目標(biāo)檢測物的信息,提高識別性能。通過多個對比實驗證明,我們提出的方法具有較為優(yōu)越的性能,能夠勝任害蟲智能識別的任務(wù)。
參考文獻:
[1] 張雙.我國農(nóng)業(yè)病蟲害防治現(xiàn)狀及建議分析 [J].農(nóng)家參謀,2019(21):13.
[2] 黃平,閉呂慶,莫燕斌,等.基于多尺度特征融合的柑橘病蟲害圖像識別方法 [J].無線電工程,2022,52(3):407-416.
[3] 張開興,呂高龍,賈浩,等.基于圖像處理和BP神經(jīng)網(wǎng)絡(luò)的玉米葉部病害識別 [J].中國農(nóng)機化學(xué)報,2019,40(8):122-126.
[4] 胡維煒.小麥病害圖像特征提取與識別方法研究 [D].合肥:安徽農(nóng)業(yè)大學(xué),2017.
[5] 束美艷,魏家璽,周也瑩,等.基于樸素貝葉斯分類的柑橘葉片潰瘍病診斷 [J].浙江大學(xué)學(xué)報:農(nóng)業(yè)與生命科學(xué)版,2021,47(4):429-438.
[6] 曹麗英,張曉賢,傘曉輝,等.基于圖像處理技術(shù)和BP神經(jīng)網(wǎng)絡(luò)算法的玉米病害診斷方法的研究 [J].計算機科學(xué),2012,39(10):300-302.
[7] 余秀麗,徐超,王丹丹,等.基于SVM的小麥葉部病害識別方法研究 [J].農(nóng)機化研究,2014,36(11):151-155+159.
[8]李震,洪添勝,曾祥業(yè),等.基于K-means聚類的柑橘紅蜘蛛圖像目標(biāo)識別 [J].農(nóng)業(yè)工程學(xué)報,2012,28(23):147-153+299.
[9] 王東方,汪軍.基于遷移學(xué)習(xí)和殘差網(wǎng)絡(luò)的農(nóng)作物病害分類 [J].農(nóng)業(yè)工程學(xué)報,2021,37(4):199-207.
[10] 時文秀.基于深度學(xué)習(xí)的目標(biāo)檢測算法在農(nóng)田害蟲檢測識別中的應(yīng)用 [D].濟南:濟南大學(xué),2020.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:779-788.
[12] WOO S,PARK J,LEE J Y,et al. CBAM:Convolutional Block Attention Module [EB/OL].[2022-10-29].https://developer.aliyun.com/article/1061002.
[13] ZHENG Z H,WANG P,REN D W,et al. Enhancing Geometric Factors in Model Learning and Inference for Object Detection and Instance Segmentation [J].IEEE Transactions on Cybernetics,2022,52(8):8574-8586.
[14] REDMON J,F(xiàn)ARHADI A. Yolov3:An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV].[2022-10-29].https://arxiv.org/abs/1804.02767.
[15] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[16] GE Z,LIU S T,WANG F,et al. YOLOX:Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2022-10-29].https://arxiv.org/abs/2107.08430.
作者簡介:石璐瑩(1997—),女,漢族,河南鄭州人,碩士研究生在讀,研究方向:視覺認知計算與醫(yī)學(xué)圖像處理;劉海華(1966—),男,漢族,湖北孝感人,教授,博士,研究方向:視覺認知計算與醫(yī)學(xué)圖像處理。