徐鳳如,張昆明,張 武,王瑞卿,汪 濤,萬盛明,劉 波,饒 元
(安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院,安徽 合肥 230036)
茶樹芽葉采摘點(diǎn)的準(zhǔn)確識(shí)別及定位是采茶機(jī)器人高效運(yùn)作的關(guān)鍵環(huán)節(jié)。運(yùn)用人工智能技術(shù)開展對(duì)茶樹芽葉采摘點(diǎn)定位方法的研究,改變?nèi)斯げ烧膫鹘y(tǒng)模式,對(duì)提升茶葉采摘效率,緩解勞動(dòng)力短缺具有重要意義。
已有研究對(duì)茶樹芽葉識(shí)別提出了相應(yīng)的分析方法:1)傳統(tǒng)方法[1-3];2)深度學(xué)習(xí)方法[5-7]。對(duì)于傳統(tǒng)方法:楊增福等[1]在RGB顏色空間中提取茶葉圖像的G1分量,然后根據(jù)芽葉的形狀特征,檢測出茶樹芽葉的邊緣;汪建等[2]通過在顏色空間上對(duì)像素進(jìn)行劃分,然后結(jié)合顏色距離和邊緣距離進(jìn)行區(qū)域生長合并,分割出茶樹芽葉;張浩等[3]基于色彩因子法實(shí)現(xiàn)了自然環(huán)境下茶樹芽葉的識(shí)別。然而上述文獻(xiàn)采用的方法對(duì)色彩區(qū)分度要求較高,容易受到天氣等自然環(huán)境影響。對(duì)于深度學(xué)習(xí)方法[4]:許高建等[5]使用更快速的基于區(qū)域的卷積網(wǎng)絡(luò)方法(Faster Region-Convolution Neural Network,Faster R-CNN)模型來識(shí)別茶樹芽葉芽稍區(qū)域,結(jié)果表明該算法有著較高的準(zhǔn)確率與召回率;王子鈺等[6]基于單次檢測器(Single Shot MultiBox Deteltor,SSD)算法提取茶葉圖像的特征,從而實(shí)現(xiàn)對(duì)茶樹芽葉的精確與自適應(yīng)檢測;張怡等[7]基于Res Net卷積神經(jīng)網(wǎng)絡(luò)搭建了茶葉的深度學(xué)習(xí)模型,在保持模型識(shí)別均衡的同時(shí)占用較小的內(nèi)存空間。以上方法可以準(zhǔn)確地識(shí)別出圖像中的茶樹芽葉區(qū)域,但識(shí)別速度慢,無法滿足自動(dòng)化采茶的實(shí)時(shí)性要求。YOLOv4[8]算法是一種簡單高效的目標(biāo)檢測模型,其CSPDark Net53神經(jīng)網(wǎng)絡(luò)特性使其在目標(biāo)檢測的實(shí)時(shí)性和準(zhǔn)確性上均優(yōu)于上述深度學(xué)習(xí)方法。
茶樹芽葉形狀較小,采摘點(diǎn)位置的偏差會(huì)損壞芽葉的品質(zhì),因此在檢測出茶樹芽葉區(qū)域后,還要進(jìn)一步在區(qū)域范圍內(nèi)確定采摘點(diǎn)的位置。陳鈺婷等[9]使用全卷積深度神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network,FCN)模型[10]及OpenCV中的“矩”函數(shù)對(duì)茶樹芽葉的采摘點(diǎn)進(jìn)行定位,全卷積深度神經(jīng)網(wǎng)絡(luò),即神經(jīng)網(wǎng)絡(luò)中全由卷積層相連接,對(duì)圖像進(jìn)行像素級(jí)的分類,解決了語義級(jí)別的圖像分割問題。裴偉等[11]根據(jù)茶樹芽葉的外形輪廓提取其最小外接矩形,并以矩形的中心點(diǎn)為采摘點(diǎn)。陳妙婷等[12]將采摘點(diǎn)標(biāo)注信息喂入卷積神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練得到良好的采摘點(diǎn)識(shí)別模型。以上方法可以定位到芽葉采摘點(diǎn),但是使用卷積神經(jīng)網(wǎng)絡(luò)識(shí)別茶樹芽葉的采摘點(diǎn)區(qū)域,并不能得到具體準(zhǔn)確的特征,容易出現(xiàn)多處錯(cuò)誤識(shí)別的情況;以最小外接矩形的中心點(diǎn)為采摘點(diǎn)的誤檢率較高。
本研究擬采用改進(jìn)型YOLOv4-Dense算法對(duì)茶樹芽葉進(jìn)行目標(biāo)檢測,然后基于HSV顏色閾值分割方法提取目標(biāo)區(qū)域內(nèi)的茶樹芽葉輪廓,并運(yùn)用OpenCV形態(tài)學(xué)算法找到符合條件的特征點(diǎn),以期為采摘點(diǎn)的準(zhǔn)確定位提供有益的借鑒。
本文研究的太平猴魁芽葉數(shù)據(jù)采集于黃山市太平區(qū)茶園基地,采集設(shè)備有Inter D415深度相機(jī)、尼康數(shù)碼相機(jī)和智能手機(jī),對(duì)應(yīng)的二維圖像分辨率分別為1 280 P×720 P、6 000 P×4 000 P和3 000 P×4 000 P。為了防止模型過擬合且增加其魯棒性,采集樣本中包含多氣象環(huán)境、不同芽葉稠密度以及不同光照條件下的茶樹圖片共5 000余張,均勻隨機(jī)抽取其中的70%作為訓(xùn)練集,另外的30%作為測試集,圖1為一組茶樹芽葉的圖像數(shù)據(jù)集。
圖1 數(shù)據(jù)集部分樣本Fig.1 Some samples of the data set
1.2.1 YOLOv4算法模型
YOLO系列目標(biāo)檢測算法將檢測問題轉(zhuǎn)換成回歸問題,是典型的端到端算法模型[13],只需一次基礎(chǔ)卷積網(wǎng)絡(luò)操作便可得到目標(biāo)檢測對(duì)象的選框區(qū)域、位置信息和置信度的值,大大提高了檢測的效率。
YOLOv4算法在數(shù)據(jù)層面采用了Mosaic數(shù)據(jù)增強(qiáng)方法,隨機(jī)取得樣本集中的4張圖片,進(jìn)行任意裁剪并拼接成原始圖片大小,豐富了小目標(biāo)數(shù)據(jù)集,從而增強(qiáng)模型的魯棒性,并采用自對(duì)抗訓(xùn)練(Self-Adversarial-Training,SAT)在原始圖片的基礎(chǔ)上添加噪聲干擾,使算法產(chǎn)生誤判的樣本,從而提升模型的泛化能力,防止網(wǎng)絡(luò)過擬合。
YOLOv4算法采用CSPDark Net53作為主干特征提取網(wǎng)絡(luò)Backbone,主要由CBM卷積塊與CSPX卷積殘差組合模塊構(gòu)成,其中:CBM卷積塊由卷積層Conv、批處理歸一化層(Batch Normolization,BN)和Mish激活函數(shù)組成;CSPX則由3個(gè)CBM卷積塊和X個(gè)Res unit模塊張量拼接而成[9],如圖2所示。Res unit模塊由主干卷積路徑與一條大的殘差邊組成[4],在提取特征的同時(shí),借助殘差邊的跳躍連接有效緩解深度網(wǎng)絡(luò)中的梯度消失現(xiàn)象,如圖3所示。
圖2 CSPX結(jié)構(gòu)圖Fig.2 CSPX structure diagram
圖3 Res unit結(jié)構(gòu)圖Fig.3 Res unit structure diagram
1.2.2 Dense模型
殘差網(wǎng)絡(luò)ResNet[18]模型可以訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)模型,從而獲得更高的準(zhǔn)確度。ResNet模型的核心是通過建立前后層之間的跳躍連接來應(yīng)對(duì)網(wǎng)絡(luò)的梯度消失及退化問題。
DenseNet[19]模型的網(wǎng)絡(luò)整體結(jié)構(gòu)與ResNet模型一致,但相比于ResNet模型,DenseNet模型提出了一種新的密集連接機(jī)制:即網(wǎng)絡(luò)每一層的輸入都是前面所有層輸出的并集,且該層所學(xué)習(xí)的特征圖也會(huì)被直接傳給其后面所有層作為輸入其中:DenseNet模型網(wǎng)絡(luò)的密集連接機(jī)制如圖4所示,圖5為ResNet模型網(wǎng)絡(luò)的連接機(jī)制如圖5所示。由圖4可以看到,在DenseNet模型密集連接機(jī)制中,每一層的特征與前面所有層的特征在通道(channel)維度上連接在一起,實(shí)現(xiàn)了特征的復(fù)用,由于每層都直接連接輸入信息和最終的誤差信息,因此可以減輕梯度消失的現(xiàn)象。
圖4 DenseNet模型網(wǎng)絡(luò)的密集連接機(jī)制Fig.4 The dense connection mechanism of the Dense Net network model
圖5 ResNet模型網(wǎng)絡(luò)的短路連接機(jī)制Fig.5 The short-circuit connection mechanism of the ResNet network model
DenseNet模型的密集連接方式需要特征圖大小保持一致,因此模型采用了“DenseBlock+Transition”的結(jié)構(gòu)。“DenseBlock”是包含很多網(wǎng)絡(luò)層的模塊,由BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)組成,其中:BN表示批處理歸一化層;Conv表示卷積層;Re LU表示線性整流函數(shù)。一個(gè)DenseNet由多個(gè)DenseBlock組成,其結(jié)構(gòu)如圖6所示,各個(gè)層的特征圖大小一致,層與層之間采用密集連接的方式。
圖6 DenseBlock結(jié)構(gòu)圖Fig.6 DenseBlock structure diagram
“Transition”結(jié)構(gòu)是連接相鄰兩個(gè)Denseblock的過渡層,由BN-Conv(1×1)-AvgPooling(2×2)組成,用于降低特征圖的大小,完成前后DenseBlock模塊的連接。DenseNet的高效率關(guān)鍵就在于網(wǎng)絡(luò)每層計(jì)算量的減少以及特征的重復(fù)利用,在DenseNet中,會(huì)連接前面所有層作為輸入,得到的輸出式為
其中:xl表示輸出;Hl(·)代表非線性轉(zhuǎn)換函數(shù),其中可能包括一系列的BN、ReLU、Pooling及Conv操作;l為當(dāng)前層;[x0,x1,…,xl-1]就是將之前所有的特征圖以通道的維度進(jìn)行合并,由于每一層都包含前面所有層的輸出信息,因此對(duì)特征圖數(shù)量的要求并不高,從而減少了DenseNet模型的參數(shù)量。
1.2.3 改進(jìn)的YOLOv4算法模型
DenseNet通過增強(qiáng)網(wǎng)絡(luò)層間的密集度緩解了梯度消失的現(xiàn)象,加強(qiáng)了特征的傳播與復(fù)用,并減少了各個(gè)網(wǎng)絡(luò)層的參數(shù)量和計(jì)算量,因此,在YOLOv4中的CSPDark Net53網(wǎng)絡(luò)基礎(chǔ)上將殘差塊CSPX中的殘差單元Res unit替換為密集連接單元Dense unit,并將其定義為D-CSPX,如圖7所示,其中:“+”為add操作;C為Concat操作;CSPX結(jié)構(gòu)圖如文中圖2所示。
圖7 修改模塊的結(jié)構(gòu)圖Fig.7 Structure diagram of the modified module
改進(jìn)后的YOLOv4-Dense算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。輸入圖片為茶樹數(shù)據(jù)集圖片,在模型訓(xùn)練的網(wǎng)絡(luò)參數(shù)部分可以設(shè)定好圖片像素寬(width)和像素高(height),不需要人為進(jìn)行每張圖片的調(diào)整。CBM由卷積層(Conv)、批處理歸一化層(Batch Normolization,BN)和Mish激活函數(shù)組成;CBL由卷積層(Conv)、批處理歸一化層和Leaky Re LU激活函數(shù)[20]組成;Headn通過一個(gè)CBL后再經(jīng)卷積可實(shí)現(xiàn)特征提取;SPP為空間金字塔池化,即采用1×1、5×5、9×9、13×13的最大池化的方式,進(jìn)行多尺度融合。改進(jìn)后的YOLOv4-Dense網(wǎng)絡(luò)沿用了YOLOv4網(wǎng)絡(luò)的特征融合層Neck及預(yù)測層Head,通過修改殘差網(wǎng)絡(luò)為密集連接網(wǎng)絡(luò),加強(qiáng)了網(wǎng)絡(luò)的特征復(fù)用,提高了數(shù)據(jù)集訓(xùn)練的效率及模型的檢測精度。
圖8 YOLOv4-Dense模型的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.8 The network structure diagram of YOLOv4-Dense model
模型識(shí)別檢測出圖像中的茶樹芽葉區(qū)域后,需要將目標(biāo)芽葉區(qū)域單獨(dú)分割出來,用于進(jìn)一步的處理,圖9(a)為檢測出的茶樹芽葉圖像,檢測框上的值為置信度。為準(zhǔn)確獲取采摘點(diǎn)位置,還需要將茶樹芽葉的輪廓提取出來。圖9(b)和圖9(c)分別為RGB色彩通道和HSV色彩通道下的茶樹芽葉區(qū)域圖片,由于外界光照和拍攝角度變換不定,因此在RGB通道下會(huì)產(chǎn)生芽在明處,莖在暗處的樣本圖,目標(biāo)部分的閾值范圍難以確定,但在HSV色彩通道下,目標(biāo)芽葉區(qū)域不會(huì)受到該因素的影響,閾值信息有很大的確定性。圖9(d)、(e)、(f)分別為R、G、B色彩通道下的茶樹芽葉區(qū)域圖片,圖9(g)、(h)、(i)分別為H、S、V色彩通道下的茶樹芽葉區(qū)域圖片,通過對(duì)比分析這些圖片可以得到,在H色彩通道和S色彩通道下茶樹芽葉和老葉背景部分顏色過渡明顯,因此選擇在H色彩和S色彩通道下提取芽葉的輪廓。
圖9 不同色彩通道下的茶樹芽葉圖像Fig.9 Images of tea buds and leaves under different color channels
輪廓提取常用的方法是閾值分割,根據(jù)顏色特征把目標(biāo)與背景分離。在HSV色彩通道下,H色彩通道和S色彩通道的值決定了該像素點(diǎn)的色相與飽和度,V色彩通道的值決定了像素點(diǎn)對(duì)應(yīng)顏色特征下的亮度。由于亮度信息無法區(qū)分出芽葉與背景,因此從含有茶樹芽葉的100張HSV圖像中,按照芽葉的三個(gè)特定部位隨機(jī)選取若干點(diǎn)確定閾值分割中的H和S的取值范圍,部分?jǐn)?shù)據(jù)如表1(見第 466頁)所示。
表1 部分茶樹嫩芽像素點(diǎn)信息Tab.1 Pixel information of some tea buds
計(jì)算出以上3個(gè)特定區(qū)域H和S的平均值,比較分析后可以得到整體茶樹芽葉區(qū)域H和S的取值范圍,相關(guān)公式如下:
式中:i為隨機(jī)選取的像素點(diǎn);j=1、2、3分別代表茶樹芽葉的3個(gè)特定區(qū)域,由式(6)和式(7)可得到嫩芽不同部分的像素點(diǎn)H和S的均值信息,代入式(8)和式(9)可得
對(duì)二值圖像進(jìn)行中值濾波,去除閾值分割過程中產(chǎn)生的椒鹽噪聲,得到的效果如圖10(a)所示,白色部分為茶樹芽葉的基本輪廓。然后對(duì)圖像進(jìn)行腐蝕操作,使芽葉與芽莖分離,出現(xiàn)葉莖熔斷行。由于腐蝕操作會(huì)使目標(biāo)芽葉區(qū)域零散分布,所以形態(tài)學(xué)操作后還需找到其最大連通區(qū)域,得到如圖10(b)所示的部分嫩芽輪廓圖,虛線為熔斷行所在位置。熔斷行以上的部分為需要采摘的目標(biāo)茶樹芽葉,熔斷行以下部分為其他不相關(guān)區(qū)域,進(jìn)行全部濾除。此時(shí),熔斷行與目標(biāo)采摘區(qū)域的交點(diǎn)即為理想采摘點(diǎn),并將該位置的像素點(diǎn)拓展為長40個(gè)像素,寬10個(gè)像素的矩形條,將其定義為采摘點(diǎn)橫向路徑。如圖11(a)所示,紅色區(qū)域?yàn)椴烧c(diǎn)橫向路徑,將其還原到原圖中即可得到采摘點(diǎn)的二維像素坐標(biāo),最終效果如圖11(b)所示。
圖10 茶樹嫩芽采摘點(diǎn)定位過程Fig.10 The process of locating the picking point of tea buds
圖11 茶樹嫩芽采摘點(diǎn)位置Fig.11 Location of tea plant buds picking point
本研究使用YOLOv4-Dense模型。實(shí)驗(yàn)在Ubuntu 18.04操作系統(tǒng)上運(yùn)行,處理器為Intel Xeon E5,主頻2.3 GHz,運(yùn)行內(nèi)存32 GB,訓(xùn)練使用的GPU為RTX 2080Ti。程序運(yùn)行在Anaconda搭建的虛擬Python環(huán)境下,其中Pytorch版本為1.7.0。
使用Adam優(yōu)化器對(duì)模型進(jìn)行優(yōu)化,模型訓(xùn)練分為兩個(gè)階段,分別是凍結(jié)階段和解凍階段。凍結(jié)階段設(shè)置起始世代數(shù)Init_Epoch為0,凍結(jié)訓(xùn)練的世代數(shù)Freeze_Epoch為50,凍結(jié)訓(xùn)練世代批樣本數(shù)為8,網(wǎng)絡(luò)參數(shù)學(xué)習(xí)率為0.001。解凍階段設(shè)置總訓(xùn)練世代Un Freeze_Epoch為100,解凍訓(xùn)練世代數(shù)批樣本數(shù)為4,網(wǎng)絡(luò)參數(shù)學(xué)習(xí)率為0.000 1。
訓(xùn)練集和測試集的loss曲線如圖12所示,其中訓(xùn)練集損失值、測試集損失值、平滑后的訓(xùn)練集損失值、平滑后的測試集損失值呈現(xiàn)下降的趨勢,可以看到最終訓(xùn)練集與測試集的loss收斂到了0.7左右,檢測模型已經(jīng)收斂。
圖12 訓(xùn)練集和測試集的loss曲線Fig.12 Loss curve of training set and verification set
圖13為使用訓(xùn)練好的檢測模型對(duì)自然條件下茶樹芽葉進(jìn)行識(shí)別檢測的結(jié)果,可以看出,本研究采用的方法對(duì)大部分芽葉具有良好的檢測效果,能夠以較高置信度檢測出目標(biāo)對(duì)象。
圖13 茶樹芽葉檢測結(jié)果圖Fig.13 Tea bud leaves detection result view
為了進(jìn)一步研究YOLOv4-Dense檢測模型在茶樹芽葉檢測方面的有效性,將其與YOLOv4,YOLOv3[21]進(jìn)行了對(duì)比。模型的對(duì)比實(shí)驗(yàn)均在同一數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。圖14為自然條件下3種方法的檢測結(jié)果對(duì)比,可以看到,針對(duì)同一張茶樹數(shù)據(jù)集,YOLOv4-Dense模型檢測出了11個(gè)芽葉區(qū)域,YOLOv4模型檢測出了7個(gè)芽葉區(qū)域,YOLOv3模型檢測出了5個(gè)芽葉區(qū)域。針對(duì)圖片中葉片遮擋的芽葉部分,YOLOv4-Dense表現(xiàn)出了更好的性能。
圖14 檢測結(jié)果對(duì)比圖Fig.14 Comparison among detection results view
檢測模型常用的評(píng)價(jià)指標(biāo)有m AP和FPS,前者代表平均準(zhǔn)確度,后者代表推演速度。m AP值由預(yù)測模型的精確率(Precision)和召回率(Recall)計(jì)算得到,本研究針對(duì)單一目標(biāo)檢測,平均精度可用AP(Average Precision)值表示,AP值為Precision-Recall曲線所圍成的面積,并使用F1score代表精度與召回率的調(diào)和均值。Precision、Recall、F1score的計(jì)算公式如式(13)、(14)和(15)所示。
令待檢測的目標(biāo)為正類,其他為負(fù)類,則:TP為正類預(yù)測為正類;FN為正類預(yù)測為負(fù)類;FP為負(fù)類預(yù)測為正類;TN為負(fù)類預(yù)測為負(fù)類。
3種檢測模型的PR曲線如圖15所示,由此圖可以發(fā)現(xiàn),YOLOv4-Dense曲線的封閉面積大于改進(jìn)前的面積,即AP值更高,實(shí)現(xiàn)了更高的平均精度,卷積神經(jīng)網(wǎng)絡(luò)的檢測效果更好。
圖15 3種檢測模型在數(shù)據(jù)集上的PR曲線Fig.15 PR curves of 3 kinds detection models on the data set
不同模型的精確率(Precision)、召回率(Recall)、平均準(zhǔn)確度(AP)、F1分?jǐn)?shù)(F1score)、每秒可以處理的圖片數(shù)量(Frames Per Second,FPS)如表2所示。
表2 模型性能指標(biāo)評(píng)估對(duì)比Tab.2 Model performance index evaluation and comparison
由表2模型性能指標(biāo)評(píng)估對(duì)比表明:YOLOv4-Dense模型的網(wǎng)絡(luò)復(fù)雜度與網(wǎng)絡(luò)密度都更高,使得檢測精度要高于其它模型。YOLOv4-Dense模型的Precision值為91.83%,比YOLOv4模型高2.21%,比YOLOv3模型高5.66%。YOLOv4-Dense模型的Recall值為68.84%,比YOLOv4模型高2.00%,比YOLOv3模型高15.26%。YOLOv4-Dense模型的AP值為86.55%,比YOLOv4模型高2.05%,比YOLOv3模型高9.13%。YOLOv4-Dense模型的F1score為0.79,比YOLOv4模型高0.02,比YOLOv3模型高0.13。YOLOv4-Dense模型處理圖片的速度稍慢于YOLOv4模型,但并不影響檢測效果。可以得到,本研究使用的YOLOv4-Dense模型可以提高茶樹芽葉檢測的準(zhǔn)確率并能達(dá)到實(shí)時(shí)性檢測目的,是3個(gè)檢測模型中最符合應(yīng)用需求的。
將本文方法與其他茶樹芽葉檢測方法的識(shí)別精確率進(jìn)行比較,結(jié)果見表3。
表3 比較YOLOv4-Dense和其他茶樹芽葉識(shí)別方法Tab.3 Comparison of YOLOv4-Dense and other tea bud leaves recognition methods
表3中,張怡等[7]基于ResNet卷積神經(jīng)網(wǎng)絡(luò)搭建綠茶深度學(xué)習(xí)模型,識(shí)別精確率為90.99%。呂軍等[22]基于Alex Net識(shí)別模型對(duì)不同開放形狀的茶樹芽葉進(jìn)行訓(xùn)練學(xué)習(xí),識(shí)別精確率為88%。周智等[23]基于高色差分離預(yù)處理的K-means方法對(duì)茶樹芽葉進(jìn)行分割,識(shí)別準(zhǔn)確率在80%以上。陳鈺婷等[9]使用Faster R-CNN模型識(shí)別茶樹芽葉,識(shí)別準(zhǔn)確率為79%。本文采用YOLOv4-Dense模型識(shí)別茶樹芽葉,識(shí)別準(zhǔn)確率為91.83%。
將茶樹芽葉測試集傳入采摘點(diǎn)定位模型中進(jìn)行測試,結(jié)果如圖16所示。其中,定位框上的P(w,h)為采摘點(diǎn)對(duì)應(yīng)的像素坐標(biāo)位置,以圖片左上角頂點(diǎn)為原點(diǎn),w為采摘點(diǎn)對(duì)應(yīng)橫坐標(biāo)像素?cái)?shù),h為采摘點(diǎn)對(duì)應(yīng)縱坐標(biāo)像素?cái)?shù)。
圖16 自然條件下芽葉采摘點(diǎn)的定位結(jié)果圖Fig.16 Location results view of picking points for tea buds
本研究針對(duì)提出的熔斷行交點(diǎn)法獲取其多項(xiàng)評(píng)估指標(biāo),其中:TP為正確定位到的采摘點(diǎn)數(shù),FP為錯(cuò)誤定位到的采摘點(diǎn)數(shù),FN為沒有定位到的采摘點(diǎn)數(shù)。并將熔斷行交點(diǎn)法獲取的評(píng)估值標(biāo)與矩函數(shù)法、最小外接矩形中心點(diǎn)法、卷積網(wǎng)絡(luò)訓(xùn)練法進(jìn)行對(duì)比,結(jié)果見表4(第470頁)。
表4 評(píng)估指標(biāo)對(duì)比Tab.4 Comparison among evaluation indicators
由表4可以得到,熔斷行交點(diǎn)法在定位茶樹芽葉采摘點(diǎn)上實(shí)現(xiàn)了80.8%的精確率,83.2%的召回率;與矩函數(shù)法相比,精確率提升了3.5%,召回率提升了1.4%;與最小外接矩形中心點(diǎn)法相比,精確率提升了7.1%,召回率提升了6.1%;與卷積網(wǎng)絡(luò)訓(xùn)練法相比,精確率提升了4.4%,召回率略顯不足。此外,本研究方法平均定位到一個(gè)采摘點(diǎn)的時(shí)間為0.119 s,因此可以滿足采摘點(diǎn)定位所需的精度與速度要求。
本研究提出了一種基于改進(jìn)YOLOv4的茶樹芽葉采摘點(diǎn)定位方法。一方面,我們在YOLOv4模型的主干網(wǎng)絡(luò)基礎(chǔ)上將Res Net單元替換為DenseNet單元,通過增強(qiáng)網(wǎng)絡(luò)層間的密集度緩解了梯度消失的現(xiàn)象,加強(qiáng)了特征的傳播與復(fù)用,提高了茶樹芽葉的檢測精度;另一方面,我們在有效目標(biāo)區(qū)域內(nèi)基于OpenCV圖像處理方法定位采摘點(diǎn)的位置,實(shí)現(xiàn)了80.8%的精確率,83.2%的召回率,與其他定位方法相比,分別提升3.5%和1.4%。
實(shí)驗(yàn)結(jié)果表明,針對(duì)自然環(huán)境下的茶樹芽葉,本研究方法在定位采摘點(diǎn)上能夠取得良好的效果,為采茶機(jī)器人提供借鑒。為進(jìn)一步提升模型的小目標(biāo)檢測能力,擴(kuò)大其應(yīng)用場景,在今后工作中我們將繼續(xù)改進(jìn)注意力機(jī)制。