楊國(guó)亮 王吉祥 聶子玲
摘要:針對(duì)現(xiàn)有番茄檢測(cè)精度低、沒(méi)有品質(zhì)檢測(cè)和部署難度高等問(wèn)題,提出基于YOLOv5s改進(jìn)的番茄及品質(zhì)實(shí)時(shí)檢測(cè)方法,并與原始YOLOv5模型及其他經(jīng)典模型進(jìn)行對(duì)比研究。結(jié)果表明,針對(duì)番茄大小不同的問(wèn)題,采用K-Means++算法重新計(jì)算先驗(yàn)錨框提高模型定位精度;在YOLOv5s主干網(wǎng)絡(luò)末端添加GAM注意力模塊,提升模型檢測(cè)精度并改善魯棒性;應(yīng)用加權(quán)雙向特征金字塔網(wǎng)絡(luò)(BiFPN)修改原有結(jié)構(gòu),完成更深層次的加權(quán)特征融合;頸部添加轉(zhuǎn)換器(transformer),增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的檢測(cè)能力。改進(jìn)后的YOLOv5s番茄識(shí)別算法檢測(cè)速度達(dá)到72幀/s。在測(cè)試集中對(duì)番茄檢測(cè)均值平均精度(mAP)達(dá)到93.9%,分別比SSD、Faster-RCNN、YOLOv4-Tiny、原始YOLOv5s模型提高17.2、13.1、5.5、3.3百分點(diǎn)。本研究提出的番茄實(shí)時(shí)檢測(cè)方法,在保持檢測(cè)速度的同時(shí),可降低背景因素干擾,實(shí)現(xiàn)復(fù)雜場(chǎng)景下對(duì)番茄的精準(zhǔn)識(shí)別,具有非常好的應(yīng)用前景,為實(shí)現(xiàn)番茄自動(dòng)采摘提供相應(yīng)技術(shù)支持。
關(guān)鍵詞:番茄檢測(cè);YOLOv5s;K-means++;GAM注意力模塊;加權(quán)雙向特征金字塔
中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2023)15-0187-07
基金項(xiàng)目:江西省教育廳科技計(jì)劃(編號(hào):GJJ190450、GJJ180484)。
作者簡(jiǎn)介:楊國(guó)亮(1973—),男,江西宜春人,博士,教授,主要從事人工智能和模式識(shí)別研究。E-mail:ygliang30@126.com。
通信作者:王吉祥,碩士研究生,主要從事模式識(shí)別研究。E-mail:1661270181@qq.com。
番茄作為世界上非常重要的蔬菜作物,每年全球的總產(chǎn)量可以達(dá)到1.7億t,其在蔬菜作物中常常位居前列。我國(guó)新鮮番茄的出產(chǎn)量常年居于全球首位,經(jīng)過(guò)加工后的番茄產(chǎn)量則名列全球第二或第三[1]。隨著我國(guó)社會(huì)老齡化程度的不斷加深,用工難問(wèn)題也日漸凸現(xiàn)了出來(lái)。在番茄生產(chǎn)及銷售鏈中,采摘工作是一個(gè)非常重要的環(huán)節(jié),目前采摘工作仍然是以人工采摘為主,無(wú)論是工作環(huán)境還是勞動(dòng)強(qiáng)度都不盡人意,用時(shí)和用工成本也居高不下,番茄自動(dòng)采摘應(yīng)運(yùn)而生[2-3]。國(guó)內(nèi)外對(duì)果蔬自動(dòng)采摘的研究大同小異,先通過(guò)深度學(xué)習(xí)進(jìn)行圖像識(shí)和定位,再通過(guò)執(zhí)行機(jī)構(gòu)進(jìn)行采摘[4]。提高對(duì)番茄及其品質(zhì)的檢測(cè),對(duì)采摘效率和存儲(chǔ)運(yùn)輸都有非常重要的意義。
由于計(jì)算機(jī)科學(xué)的進(jìn)步,基于卷積式神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)得以蓬勃發(fā)展。和傳統(tǒng)機(jī)器學(xué)習(xí)相比,不論是在工作效率,還是在準(zhǔn)確度方面,深度學(xué)習(xí)方法都有著巨大的優(yōu)越性,使得基于深度學(xué)習(xí)方法的目標(biāo)檢測(cè)效率得以顯著提高[5-9],同時(shí)也在農(nóng)業(yè)相關(guān)方面得到廣泛的應(yīng)用。目標(biāo)檢測(cè)算法大致分為2種:一種是先生成候選框,再對(duì)候選框中的目標(biāo)進(jìn)行分類的two-stage目標(biāo)檢測(cè)方法,包括R-CNN[10]、Fast-RCNN[11]、Faster-RCNN[12]等。此類算法魯棒性高,識(shí)別錯(cuò)誤率較低,但其需要運(yùn)行較長(zhǎng)的時(shí)間,難以滿足實(shí)際生產(chǎn)的實(shí)時(shí)性要求。例如,張文靜等提出的改進(jìn)Faster R-CNN算法對(duì)番茄的識(shí)別方法,檢測(cè)每張樣本需要245 ms的時(shí)間[13];龍潔花等提出改進(jìn) Mask R-CNN 的方法,以CSP-Rest50為骨干,識(shí)別準(zhǔn)確率達(dá)到90%[14]。另一種是不出現(xiàn)候選框的one-stage目標(biāo)檢測(cè)方法,包括SSD[15]和YOLO[16]等。此種方法不僅可以達(dá)到第1種方法的準(zhǔn)確度,并且識(shí)別速度快,完全可以滿足實(shí)時(shí)性的要求。例如,文斌等針對(duì)三七葉片病害改進(jìn)YOLOv3,提升了病害檢測(cè)精度和魯棒性[17];張兆國(guó)等提出對(duì)YOLOv4模型改良對(duì)復(fù)雜環(huán)境條件下的馬鈴薯進(jìn)行測(cè)試,其檢測(cè)準(zhǔn)確率達(dá)到91.4%[18];黃彤鑌等針對(duì)柑橘識(shí)別改進(jìn)YOLOv5,添加注意力機(jī)制改善了遮擋問(wèn)題[19]。
上述檢測(cè)手段不能實(shí)現(xiàn)對(duì)果蔬真正的實(shí)時(shí)檢測(cè),檢測(cè)效率低下,無(wú)法適應(yīng)實(shí)際農(nóng)業(yè)生產(chǎn)活動(dòng)的需要,同時(shí)針對(duì)當(dāng)前對(duì)成熟、未成熟和腐壞的番茄檢測(cè)研究較少,本研究將以YOLOv5s算法為前提加以完善,通過(guò)融合注意力等新內(nèi)容,提出一種改進(jìn)型YOLOv5s的番茄識(shí)別方法,通過(guò)識(shí)別番茄品類自動(dòng)采摘,降低采摘成本,研究結(jié)果將為實(shí)現(xiàn)番茄自動(dòng)采摘提供技術(shù)支持。
1 材料與方法
1.1 數(shù)據(jù)集
本試驗(yàn)所用番茄圖像數(shù)據(jù)集主要來(lái)源于公開(kāi)數(shù)據(jù)集和實(shí)地拍攝。為了接近番茄生長(zhǎng)的真實(shí)環(huán)境,圖像數(shù)據(jù)包括番茄數(shù)量、密集度和遮擋度不同的各種情況,同時(shí)為了剔除腐敗的番茄,減少養(yǎng)分的浪費(fèi),數(shù)據(jù)集還包括大量的腐敗番茄的圖像。盡可能保證數(shù)據(jù)的準(zhǔn)確性,還需要人為進(jìn)行標(biāo)注,在標(biāo)注的同時(shí)盡量將框內(nèi)的背景減小到最小。為更好地模擬真實(shí)情況,對(duì)圖像數(shù)據(jù)進(jìn)行線性數(shù)據(jù)增強(qiáng),通過(guò)旋轉(zhuǎn)、縮放和添加噪聲,增加樣本的多樣性。通過(guò)數(shù)據(jù)增強(qiáng)后得到4 428張圖像,將數(shù)據(jù)集以4 ∶1的比例分割為訓(xùn)練集和驗(yàn)證集。番茄檢測(cè)任務(wù)分為以下3類:1類為成熟的番茄(Ripe_tomatoes),指可以進(jìn)行采摘的番茄;2類為未成熟的番茄(Unripe_Tomatoes),指不能進(jìn)行采摘的番茄;3類為腐敗的番茄(Diseased),指需要采摘并丟棄的番茄。數(shù)據(jù)集類別標(biāo)簽數(shù)量見(jiàn)圖1。
1.2 YOLOv5s網(wǎng)絡(luò)模型
YOLOv5s網(wǎng)絡(luò)模型一般由輸入端、軀干網(wǎng)絡(luò)(backbone)、頸部(neck)和頭部(head)4個(gè)部分構(gòu)成(圖2)。輸入端通常由3個(gè)部分組成,分別為數(shù)據(jù)增強(qiáng)、圖像錨框運(yùn)算與縮放。主干網(wǎng)絡(luò)主要由卷積(CONV)、卷積層與瓶頸層模塊C3和空間金字塔池化(SPPF)構(gòu)成,負(fù)責(zé)圖像特征的獲取。頸部通過(guò)金字塔構(gòu)造實(shí)現(xiàn)特征融合。頭部采用CIOU_Loss損失函數(shù)和非極大值抑制(non maxi-mum suppression,簡(jiǎn)稱NMS)進(jìn)行預(yù)測(cè)。
1.3 模型改進(jìn)
1.3.1 K-Means++進(jìn)行錨框優(yōu)化 YOLOv5s網(wǎng)絡(luò)的初始先驗(yàn)錨框是通過(guò)COCO數(shù)據(jù)集得到的(表1)。COCO數(shù)據(jù)集共有80個(gè)類別,本研究中使用的數(shù)據(jù)集與之存在比較大的差異,最終會(huì)影響網(wǎng)絡(luò)的整體性能。本研究采用了K-Means++算法對(duì)錨框進(jìn)行聚類分析,相比于K-Means算法,它進(jìn)一步優(yōu)化了初始點(diǎn)的選取,首先通過(guò)隨機(jī)選取一個(gè)樣本作為聚類中心,隨后再計(jì)算每個(gè)樣本到達(dá)聚類中心的最短距離,然后再計(jì)算出每個(gè)樣本被選為后一個(gè)聚類中心的概率,概率公式為
其中:D(xi)表示第i個(gè)樣本與當(dāng)前已有聚類中心之間的最短距離; n為樣本總數(shù);P表示每個(gè)樣本點(diǎn)被選為下一個(gè)聚類中心的概率。
通過(guò) K-Means++ 聚類算法,產(chǎn)生不同大小和數(shù)量的先驗(yàn)錨框,使之盡可能與實(shí)際目標(biāo)框相匹配,從而提高系統(tǒng)檢測(cè)的準(zhǔn)確度,最終確定的錨框尺寸見(jiàn)表2。
1.3.2 引入Vision Transformer 轉(zhuǎn)換器(transformer)已成為自然語(yǔ)言處理方面的主流模型,在圖像處理方面更是大放異彩。在目前以卷積神經(jīng)網(wǎng)絡(luò)為核心的電腦視覺(jué)技術(shù)任務(wù)的重大背景下,Vision Transformer(ViT)的應(yīng)用對(duì)卷積神經(jīng)網(wǎng)絡(luò)的地位產(chǎn)生了沖擊。Dosovitskiy等將一個(gè)圖像分割成數(shù)個(gè)固定大小的圖像塊,并將其編碼成序列向量作為transformer輸入,成功解決圖像處理領(lǐng)域在transformer中的輸入問(wèn)題。同時(shí)經(jīng)過(guò)試驗(yàn)證明,當(dāng)預(yù)訓(xùn)練數(shù)據(jù)更豐富時(shí),transformer在圖像處理領(lǐng)域的性能會(huì)超越卷積神經(jīng)網(wǎng)絡(luò)[20]。本試驗(yàn)所用番茄圖像包括尺度不同的目標(biāo),故在檢測(cè)網(wǎng)絡(luò)中融入transformer模塊解決尺度問(wèn)題,ViT圖像處理流程如圖3所示。
ViT和普通Transformer在輸入上有所區(qū)別,后者將標(biāo)記嵌入的一維序列作為輸入,而前者在處理二維圖形時(shí),要把圖形x∈H×W×C重塑為一組二維的扁平序列xp∈N×(P2C),表示維度,H和W是原始圖形的高和寬,C是圖形通道數(shù)量,P是每個(gè)圖形塊的高寬,N=HW/P2既是圖形塊的總量,又是ViT輸入序列的有效長(zhǎng)度。從ViT的每個(gè)層中產(chǎn)生一個(gè)恒定維度為D的特征向量,通過(guò)利用可訓(xùn)練的線性投影可以把找平的像素塊映射到D維度上,如公式(2)所示。隨后在圖像序列(z0D=xclass)前加入一個(gè)具有學(xué)習(xí)能力的嵌入,其在Transformer編碼器輸出時(shí)的狀態(tài)z0L用y作圖像表示,如公式(5)所示。
其中:E表示線性變換;Epos表示在pos處的線性變換;zl表示第幾個(gè)圖像序列;zl′表示操作完成后的第幾個(gè)序列;MSA表示多頭部自注意力; LN表示歸一化;MLP表示多層感知機(jī)。
但Transformer也有不足之處,提取到的特征魯棒性較弱,經(jīng)過(guò)研究證明,卷積神經(jīng)網(wǎng)絡(luò)能夠通過(guò)Transformer提高性能。本研究通過(guò)將C3模塊中的BottleNeck替換為TransformerBlock實(shí)現(xiàn)二者的有機(jī)結(jié)合構(gòu)成C3TB,C3和C3TB結(jié)構(gòu)如圖4所示。
1.3.3 添加GAM注意力模塊 注意力機(jī)制的添加能使網(wǎng)絡(luò)關(guān)注到圖像中的關(guān)鍵點(diǎn),有助于提高番茄檢測(cè)任務(wù)的性能。不論是擠壓激勵(lì)網(wǎng)絡(luò)(squeeze and excitation network,簡(jiǎn)稱SENet),還是之后的卷積注意力模塊(convolutional block attention module,簡(jiǎn)稱CBAM),都沒(méi)有注意到空間-通道之間的相互作用,而削弱了跨緯度的交互。鑒于上述問(wèn)題,本研究在Backbone末端使用全局注意力機(jī)制(global attention mechanism,簡(jiǎn)稱GAM)[21],使網(wǎng)絡(luò)關(guān)注更重要的區(qū)域,減少背景因素的影響,保留更多的特征信息,提升網(wǎng)絡(luò)檢測(cè)準(zhǔn)確度,GAM模塊整體結(jié)構(gòu)如圖5所示。
輸入特征先經(jīng)過(guò)通道注意力進(jìn)行校正,再通過(guò)空間注意力繼續(xù)校正。圖6是通道注意力結(jié)構(gòu)圖。首先將緯度大小為C×W×H的輸入特征經(jīng)過(guò)三維排列保存3個(gè)緯度上的信息,其中C是特征通道數(shù)量,W和H分別是輸入特征的寬和高。隨后將輸出信息通過(guò)2層的多層感知器,第1層將C壓縮為C/R,R為壓縮比,再經(jīng)由第2層恢復(fù)到C,最后再經(jīng)由反三維排列操作,通過(guò)Sigmoid激活函數(shù)得到一個(gè)新的特征圖。
圖7是空間注意力結(jié)構(gòu)圖,輸入特征緯度大小為C×W×H,通過(guò)2個(gè)卷積核為7×7的卷積層,實(shí)現(xiàn)空間信息的融合,同時(shí)進(jìn)行通道的編碼和解碼操作,然后通過(guò)Sigmoid激活函數(shù)得到新的特征圖。
1.3.4 特征金字塔網(wǎng)絡(luò)改進(jìn) 在卷積神經(jīng)網(wǎng)絡(luò)中,圖像特征容易受淺層網(wǎng)絡(luò)的影響,而語(yǔ)義特征容易受深層網(wǎng)絡(luò)的影響,從而在目標(biāo)檢測(cè)中因卷積神經(jīng)網(wǎng)絡(luò)的這個(gè)特性而影響精度。根據(jù)這些現(xiàn)象,特征金字塔網(wǎng)絡(luò)(feature pyramid networks,簡(jiǎn)稱FPN)隨之被提出,結(jié)構(gòu)如圖8-a所示,通過(guò)使不同維度的特征圖中含有盡可能多的語(yǔ)義信息,再通過(guò)上采樣把頂層信息與下層信息加以結(jié)合,從而實(shí)現(xiàn)相應(yīng)的目的,并且每層都是獨(dú)立進(jìn)行預(yù)測(cè)。但是FPN這種設(shè)計(jì)有種缺陷,只增加了特征圖的語(yǔ)義信息,定位信息并不能進(jìn)行傳輸。為了解決相關(guān)問(wèn)題,又建立了一個(gè)由底往頂?shù)慕鹚磁cFPN操作相反的路徑聚合網(wǎng)絡(luò)(path aggregation network,PANet),結(jié)構(gòu)如圖8-b所示。通過(guò)2種結(jié)構(gòu)的結(jié)合,檢測(cè)精度有了明顯的提升。
加權(quán)雙向特征金字塔網(wǎng)絡(luò)(bidirectional feature pyramid network,簡(jiǎn)稱BiFPN)最先在EfficientDet中被提到,通過(guò)在輸入與輸出節(jié)點(diǎn)中間增加一個(gè)直接相連路徑,可以使得在不提高計(jì)算量的前提下,能夠融入更多需要的特性。與PANet中僅有一條自頂向下和一條自底向上路線有所不同的是,把所有雙向路線視作一條特征網(wǎng)絡(luò)層,并多次重復(fù)同一層來(lái)進(jìn)行更深層次的特性融合,BiFPN如圖8-c所示。在此操作中加快了計(jì)算的速度,如公式(6)所示:
式中:權(quán)重ωi≥0,ωj≥0;Ii為輸入其中的特征;ε表示學(xué)習(xí)率;O表示結(jié)果。鑒于標(biāo)量權(quán)重沒(méi)有邊界,為保證訓(xùn)練穩(wěn)定,應(yīng)用softmax實(shí)現(xiàn)歸一化運(yùn)算。把Backbone中P3、P4、P7這3個(gè)不同尺度的特征都輸入到BiFPN中,然后即可建立 20×20、40×40、80×80這3個(gè)緯度的預(yù)測(cè)分支。以P6節(jié)點(diǎn)為例說(shuō)明融合過(guò)程,如下所示:
式中:Ptd6表示第6節(jié)點(diǎn)自頂向底的中間特征;Pin6表示第2節(jié)點(diǎn)輸入的特征;Pin7表示第7節(jié)點(diǎn)輸入的特征;Pout5表示第5節(jié)點(diǎn)自底向頂?shù)妮敵鎏卣?;Pout6表示第6節(jié)點(diǎn)自底向頂?shù)妮敵鎏卣?;Resize表示上取樣或下取樣;Conv表示卷積處理。根據(jù)上述優(yōu)勢(shì),把YOLOv5s模型里的金字塔模塊修改為BiFPN,以增強(qiáng)特征融合,并提高測(cè)速率。
1.4 試驗(yàn)環(huán)境
本試驗(yàn)使用的運(yùn)行系統(tǒng)為Windows 10,并使用了Pytorch作為深度學(xué)習(xí)結(jié)構(gòu),詳細(xì)試驗(yàn)環(huán)境設(shè)置見(jiàn)表3。訓(xùn)練時(shí)優(yōu)化器使用隨機(jī)梯度下降法(stochastic gradient descent,簡(jiǎn)稱SGD),初始的學(xué)習(xí)率參數(shù)調(diào)整為0.01,余弦退火超參數(shù)設(shè)置成0.1,動(dòng)量因子調(diào)整為0.937,權(quán)重衰減系數(shù)最終確定為0.000 5。網(wǎng)絡(luò)圖像輸入大小為640×640,Batchsize設(shè)置為16,總訓(xùn)練300個(gè)epoch。此次試驗(yàn)于2022年11月1日在江西理工大學(xué)電氣學(xué)院315實(shí)驗(yàn)室完成。
1.5 評(píng)價(jià)指標(biāo)
基于量化判斷方法并分析試驗(yàn)結(jié)論,本研究選擇在目標(biāo)測(cè)試中使用的精度(precision,簡(jiǎn)稱P)、召回率(recall,簡(jiǎn)稱R)和均值平均精度(mean average precision,簡(jiǎn)稱mAP)作為相關(guān)衡量指標(biāo)。P是用來(lái)表示真正的正樣本在檢測(cè)結(jié)果為正樣本中所占的比例,R是表示被檢測(cè)到的正樣本在真正的正樣本中的占比,mAP表示各個(gè)類別平均精度的均值,相關(guān)公式如下所示:
式中:TP為正確分配的正樣本,即番茄成熟并且檢測(cè)結(jié)果正確;FP為分配錯(cuò)誤的正樣本,即番茄成熟但被檢測(cè)為不成熟或者腐敗的;FN為分類錯(cuò)誤的負(fù)樣本;AP表示平均精準(zhǔn)度;C為類別數(shù)。
2 結(jié)果與分析
2.1 訓(xùn)練結(jié)果
將原始模型與改進(jìn)后的模型在相同環(huán)境下訓(xùn)練300輪,mAP曲線對(duì)比如圖9所示,橘色曲線為改進(jìn)前,藍(lán)色曲線為YOLOv5s改進(jìn)后。其中橫坐標(biāo)為300輪訓(xùn)練次數(shù),縱坐標(biāo)為mAP。由圖9可知,在訓(xùn)練30輪前模型收斂速度極快,經(jīng)過(guò)100輪訓(xùn)練2個(gè)模型都趨于穩(wěn)定,同時(shí)改進(jìn)后的模型在mAP上相較于原模型得到明顯提升,表明模型改進(jìn)可行。
2.2 對(duì)比試驗(yàn)
為進(jìn)一步評(píng)價(jià)本研究中改進(jìn)方法對(duì)番茄的檢驗(yàn)?zāi)芰?,本試?yàn)將經(jīng)過(guò)優(yōu)化的YOLOv5s與SSD、Faster-RCNN、YOLOv4-tiny以及YOLOv5s目標(biāo)檢測(cè)方法進(jìn)行比較,并采用相同的數(shù)據(jù)劃分和試驗(yàn)設(shè)置。由表4可知,改進(jìn)的YOLOv5s算法在均值平均精度和召回率上比其他算法有更好的表現(xiàn),相較于YOLOv5s,分別提升了3.3、5.6百分點(diǎn),分別達(dá)到了93.9%和92.7%。同時(shí),由于本算法召回率的提升,導(dǎo)致會(huì)對(duì)每幅圖像檢測(cè)更多的目標(biāo),從而幀率下降了18,但仍快于SSD、Faster-RCNN和YOLOv4-tiny,滿足實(shí)時(shí)性的要求。
2.3 消融試驗(yàn)
對(duì)經(jīng)過(guò)優(yōu)化的YOLOv5s模型,通過(guò)消融對(duì)比試驗(yàn)結(jié)果來(lái)證明每個(gè)改進(jìn)模塊對(duì)模型的優(yōu)化效果,試驗(yàn)結(jié)果見(jiàn)表5。其中改進(jìn)模型1是通過(guò)使用K-means++修改了先驗(yàn)錨框,從而使該錨框的匹配性提高,均值平均精度也增加了1.3百分點(diǎn);改進(jìn)模型2是改變金字塔網(wǎng)結(jié)構(gòu)為加權(quán)雙向金字塔網(wǎng)絡(luò),均值平均精度增加1.7百分點(diǎn);改進(jìn)模型3是改變主干網(wǎng)絡(luò)增加GAM注意力,均值平均精度增加2.5百分點(diǎn);改進(jìn)模型4是改變頸部網(wǎng)絡(luò)C3結(jié)構(gòu)為C3TB,均值平均精度增加2.1百分點(diǎn)。把4個(gè)優(yōu)化方案同時(shí)融入到一個(gè)模型,均值平均精度相較于原YOLOv5s模型整體增加3.3百分點(diǎn)。
2.4 試驗(yàn)結(jié)果分析
為更好地檢驗(yàn)經(jīng)優(yōu)化后的YOLOv5s方法的測(cè)試效果,選擇了測(cè)試集中的一些圖片進(jìn)行了檢測(cè),番茄測(cè)試效果如圖10所示,圖10-a是原始圖像;圖10-b是原始YOLOv5s算法的檢測(cè)結(jié)果,其中紅色箭頭表示漏檢的番茄;圖10-c是優(yōu)化后YOLOv5s方法的測(cè)試結(jié)果。通過(guò)圖10-b和圖 10-c 對(duì)比可知,原始YOLOv5s算法對(duì)圖 10-b 中紅色箭頭所指番茄漏檢,改進(jìn)后的YOLOv5s算法能準(zhǔn)確地檢測(cè)出這些目標(biāo),并且置信度得到提高,能夠捕捉到關(guān)鍵信息進(jìn)而對(duì)遮擋目標(biāo)也有較好的檢測(cè)效果。
3 討論與結(jié)論
本研究根據(jù)目前對(duì)番茄的傳統(tǒng)檢測(cè)方法以及對(duì)密集目標(biāo)漏檢的測(cè)量精度較差的情況,給出一個(gè)更完善的YOLOv5s檢測(cè)模型。通過(guò)使用 K-means++ 算法對(duì)自制番茄數(shù)據(jù)集提高先驗(yàn)錨框匹配度、對(duì)YOLOv5s主干網(wǎng)絡(luò)增加注意力模塊、設(shè)計(jì)C3TB模塊替換C3模塊、優(yōu)化特征金字塔網(wǎng)絡(luò)等提高模型的檢測(cè)能力。通過(guò)對(duì)比試驗(yàn)證明,完善后的YOLOv5s模型相比于原始的模型,mAP提升了3.3%且置信度更高,對(duì)遮擋目標(biāo)的辨識(shí)度提高減少了漏檢,雖然檢測(cè)速率有所下降,但本模型精度能夠滿足實(shí)際采摘的需求,為番茄自動(dòng)采摘提供技術(shù)支持。
參考文獻(xiàn):
[1]李君明,項(xiàng)朝陽(yáng),王孝宣,等. “十三五”我國(guó)番茄產(chǎn)業(yè)現(xiàn)狀及展望[J]. 中國(guó)蔬菜,2021(2):13-20.
[2]王海楠,弋景剛,張秀花.番茄采摘機(jī)器人識(shí)別與定位技術(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2020,41(5):188-196.
[3]王文杰,貢 亮,汪 韜,等. 基于多源圖像融合的自然環(huán)境下番茄果實(shí)識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(9):156-164.
[4]阮承治,趙德安,陳 旭,等. 雙指型農(nóng)業(yè)機(jī)器人抓取球形果蔬的控制器設(shè)計(jì)[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2019,40(11):169-175.
[5]陳科圻,朱志亮,鄧小明,等. 多尺度目標(biāo)檢測(cè)的深度學(xué)習(xí)研究綜述[J]. 軟件學(xué)報(bào),2021,32(4):1201-1227.
[6]趙立新,邢潤(rùn)哲,白銀光,等. 深度學(xué)習(xí)在目標(biāo)檢測(cè)的研究綜述[J]. 科學(xué)技術(shù)與工程,2021,21(30):12787-12795.
[7]包曉敏,王思琪.基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法綜述[J]. 傳感器與微系統(tǒng),2022,41(4):5-9.
[8]邵延華,張 鐸,楚紅雨,等. 基于深度學(xué)習(xí)的YOLO目標(biāo)檢測(cè)綜述[J]. 電子與信息學(xué)報(bào),2022,44(10):3697-3708.
[9]李 萍,邵 彧,齊國(guó)紅,等. 基于跨深度學(xué)習(xí)模型的作物病害檢測(cè)方法[J]. 江蘇農(nóng)業(yè)科學(xué),2022,50(8):193-199.
[10]Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,2014:580-587.
[11]Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision. Santiago,2016:1440-1448.
[12]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[13]張文靜,趙性祥,丁睿柔,等. 基于Faster R-CNN算法的番茄識(shí)別檢測(cè)方法[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,52(4):624-630.
[14]龍潔花,趙春江,林 森,等. 改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):100-108.
[15]Liu W,Anguelov D,Erhan D,et al. SSD:single shot multiBox detector[C]//European Conference on Computer Vision.Cham:Springer,2016:21-37.
[16]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA.IEEE,2016:779-788.
[17]文 斌,曹仁軒,楊啟良,等. 改進(jìn)YOLOv3算法檢測(cè)三七葉片病害[J]. 農(nóng)業(yè)工程學(xué)報(bào),2022,38(3):164-172.
[18]張兆國(guó),張振東,李加念,等. 采用改進(jìn)YoloV4模型檢測(cè)復(fù)雜環(huán)境下馬鈴薯[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(22):170-178.
[19]黃彤鑌,黃河清,李 震,等. 基于YOLOv5改進(jìn)模型的柑橘果實(shí)識(shí)別方法[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2022,41(4):170-177.
[20]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An image is worth 16x16 words:transformers for image recognition at scale[EB/OL]. 2020:arXiv:2010.11929.https://arxiv.org/abs/2010.11929.
[21]Liu Y C,Shao Z R,Hoffmann N.Global attention mechanism:retain information to enhance channel-spatial interactions[EB/OL]. 2021:arXiv:2112.05561.https://arxiv.org/abs/2112.05561.