朱紅春 李 旭 孟 煬 楊海濱 徐 澤 李振海
(1.山東科技大學(xué)測(cè)繪與空間信息學(xué)院, 青島 266590; 2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097;3.重慶市農(nóng)業(yè)科學(xué)院茶葉研究所, 重慶 402160)
中國(guó)的種茶面積和產(chǎn)茶量世界第一[1],是世界級(jí)茶葉大國(guó)[2]。茶葉采摘是其生產(chǎn)過(guò)程中的重要環(huán)節(jié),采摘質(zhì)量很大程度影響茶葉品質(zhì)。目前人工采摘和機(jī)械采摘都是重要的茶葉采摘方式。但隨著農(nóng)業(yè)機(jī)器人傳感技術(shù)及圖像識(shí)別算法的提高,機(jī)械采摘對(duì)識(shí)別的準(zhǔn)確率提出了更高的要求[3]。因此,在實(shí)現(xiàn)茶葉采摘機(jī)械化的過(guò)程中,如何有效識(shí)別茶葉嫩芽,以提高機(jī)械采摘的準(zhǔn)確度,通過(guò)采摘路線規(guī)劃以避免傷害茶樹(shù),是一個(gè)亟需解決的問(wèn)題。
深度學(xué)習(xí)技術(shù)已經(jīng)在農(nóng)業(yè)方面得到了大量的研究應(yīng)用[4-7]。但在茶葉方面研究較少,羅浩倫等[8]基于晴天和陰天自然環(huán)境下的茶葉圖像數(shù)據(jù)集,通過(guò)Faster R-CNN網(wǎng)絡(luò)模型和VGG16網(wǎng)絡(luò)進(jìn)行訓(xùn)練與測(cè)試,平均精度均值為0.76。施瑩瑩等[9]以自然環(huán)境下不同天氣情況、不同茶葉品種的茶葉嫩芽圖像為試驗(yàn)樣本,采用基于深度神經(jīng)網(wǎng)絡(luò)的YOLO v3算法構(gòu)建模型,研究了茶葉嫩芽目標(biāo)的多尺度檢測(cè)方法,平均精度為0.64。在研究基于圖像處理方法的嫩芽識(shí)別方面,吳雪梅等[10]提出了基于圖像的G和G-B分量信息,利用最大方差自動(dòng)提取閾值識(shí)別茶葉嫩芽的方法,并研究了距離對(duì)識(shí)別精度的影響,相機(jī)距茶葉10 cm處準(zhǔn)確率為92%;楊福增等[11]以G分量作為顏色特征,采用雙閾值法分割背景與茶葉嫩芽,根據(jù)形狀特征檢測(cè)茶葉邊緣,識(shí)別準(zhǔn)確率達(dá)到94%。但由于背景過(guò)于復(fù)雜,現(xiàn)階段茶葉嫩芽檢測(cè)基本是限定在一個(gè)鏡頭較近并且包含少量芽頭的小范圍內(nèi),對(duì)于鏡頭較遠(yuǎn)包含芽頭數(shù)量更多及類(lèi)型多樣、背景更復(fù)雜的場(chǎng)景下的嫩芽檢測(cè),還需開(kāi)展深入研究。但此類(lèi)場(chǎng)景下的研究,可為機(jī)械采摘中更大范圍的路徑規(guī)劃提供指導(dǎo),在采摘嫩芽的過(guò)程中避免損傷茶樹(shù)。
相比于以往的R-CNN和Fast R-CNN,F(xiàn)aster R-CNN是真正的端到端的二階段目標(biāo)檢測(cè)網(wǎng)絡(luò)模型,通過(guò)分類(lèi)器和位置回歸任務(wù)共享卷積特征,解決了目標(biāo)定位和分類(lèi)的同步問(wèn)題,具有更好的檢測(cè)速度和精度[12-13]。在用于鏡頭較遠(yuǎn)、包含芽頭數(shù)量更多及類(lèi)型多樣、背景更復(fù)雜的場(chǎng)景下的嫩芽識(shí)別方面從理論上具有應(yīng)用潛力。因此,本文擬通過(guò)Faster R-CNN模型構(gòu)建該類(lèi)場(chǎng)景下的茶葉嫩芽檢測(cè)算法,特別是評(píng)估不同芽頭類(lèi)型下的深度學(xué)習(xí)識(shí)別精度,并與傳統(tǒng)目標(biāo)檢測(cè)算法進(jìn)行對(duì)比,綜合評(píng)價(jià)深度學(xué)習(xí)算法在茶葉嫩芽檢測(cè)中的精度,以期為茶葉的嫩芽檢測(cè)提供準(zhǔn)確的數(shù)據(jù)支撐。
試驗(yàn)區(qū)位于農(nóng)業(yè)農(nóng)村部土壤質(zhì)量數(shù)據(jù)中心觀測(cè)監(jiān)測(cè)基地——重慶市永川區(qū)茶山竹海(29.38°N,105.89°E,圖1)。試驗(yàn)區(qū)地處亞熱帶濕潤(rùn)季風(fēng)氣候,春季回暖早,夏季氣溫高,雨熱同季,空氣相對(duì)濕潤(rùn),年均日照時(shí)數(shù)1 218.7 h,無(wú)霜期317 d,年均氣溫為17.7℃,年均降水量為1 015.0 mm。主栽品種為福鼎大白茶,該品種長(zhǎng)勢(shì)旺盛,抗逆性強(qiáng),耐旱亦耐寒。試驗(yàn)設(shè)計(jì)為不同肥力配施試驗(yàn)(圖1),具體試驗(yàn)設(shè)計(jì)參照文獻(xiàn)[14]。
圖1 研究區(qū)示意圖Fig.1 Schematic of study area
試驗(yàn)拍攝設(shè)備為華為P30手機(jī),所用攝像頭配置為后置徠卡三攝6 400萬(wàn)像素,拍攝時(shí)間為2020年3月26日14:00—15:00,高度約0.5 m,角度為垂直拍攝,拍攝對(duì)象為36個(gè)小區(qū),每個(gè)小區(qū)拍攝2幅圖像。本次研究以拍攝的72幅圖像(分辨率為3 648像素×2 736像素)為基礎(chǔ)數(shù)據(jù)集,來(lái)制作VOC2007格式標(biāo)準(zhǔn)數(shù)據(jù)集。
基于顏色特征、閾值以及學(xué)習(xí)的分割算法是3種主要的植被提取算法[15]。包括茶葉在內(nèi)的目標(biāo)檢測(cè)與識(shí)別主要依賴(lài)于顏色特征,且大多是基于計(jì)算機(jī)和圖像處理技術(shù)[11,16]。本研究通過(guò)在復(fù)雜背景下,對(duì)比傳統(tǒng)基于顏色特征和閾值分割算法,來(lái)評(píng)估基于深度學(xué)習(xí)算法識(shí)別茶葉嫩芽的性能,2種算法的具體思路如圖2所示。在深度學(xué)習(xí)算法中,首先進(jìn)行了圖像裁切、標(biāo)簽制作,以及必要的數(shù)據(jù)增強(qiáng)[17-18]等處理來(lái)制作數(shù)據(jù)集,然后利用Faster R-CNN模型和VGG16特征提取網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,最后對(duì)已訓(xùn)練模型進(jìn)行精度評(píng)價(jià)。在基于顏色特征和閾值分割的茶葉嫩芽識(shí)別算法中,首先對(duì)圖像進(jìn)行過(guò)綠處理,得到灰度圖像,然后進(jìn)行p分位二值化、去噪和膨脹,使其可以被OpenCV檢測(cè)輪廓[19],通過(guò)程序完成坐標(biāo)提取,并進(jìn)行真值檢驗(yàn)以及精度評(píng)價(jià)。
圖2 技術(shù)路線圖Fig.2 Technological roadmap
圖3 Faster R-CNN模型與VGG16網(wǎng)絡(luò)Fig.3 Faster R-CNN model and VGG16 network
使用Faster R-CNN模型與預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練以及目標(biāo)檢測(cè)。
VGG16[20]是牛津大學(xué)計(jì)算機(jī)視覺(jué)組和Google DeepMind公司研究員一起研發(fā)的特征提取深度網(wǎng)絡(luò),它通過(guò)反復(fù)堆疊帶有3×3卷積核的卷積層和2×2的池化層,來(lái)構(gòu)建包含13個(gè)卷積層和3個(gè)全連接層的深層卷積神經(jīng)網(wǎng)絡(luò),其中13個(gè)卷積層分別在第2、4、7、10、13層被池化層分隔,通過(guò)池化可將特征圖(Feature map)尺寸減少1/2,結(jié)構(gòu)如圖3所示。
Faster R-CNN是REN等[21]在Fast R-CNN[22]基礎(chǔ)上提出的具有更好檢測(cè)速度與準(zhǔn)確度的深度學(xué)習(xí)算法,它可以看作是由區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)和Fast R-CNN檢測(cè)網(wǎng)絡(luò)結(jié)合而成(圖3)。Faster R-CNN通過(guò)VGG16前13個(gè)卷積層用來(lái)獲得Feature map,并且RPN網(wǎng)絡(luò)代替了自我搜索(Selestive search,SS)[23],獲得前景或背景信息以及檢測(cè)框坐標(biāo)偏移量等建議(Proposal);然后通過(guò)VGG16的第5個(gè)池化層進(jìn)行感興趣區(qū)池化(RoI pooling),收集Proposal并結(jié)合圖像尺寸信息(im_info)計(jì)算出帶有Proposal的Feature map;最后通過(guò)VGG16的3個(gè)全連接層與Softmax,對(duì)Proposal進(jìn)行分類(lèi)與檢測(cè)框坐標(biāo)修正,獲得目標(biāo)檢測(cè)類(lèi)別(cls_prob)與檢測(cè)框精準(zhǔn)坐標(biāo)(bbox_pred)。相較于Fast R-CNN,F(xiàn)aster R-CNN實(shí)現(xiàn)了同一框架下提取候選框與分類(lèi)回歸,從而在GPU的幫助下大大提高檢測(cè)速度。
茶葉嫩芽識(shí)別的學(xué)習(xí)與實(shí)現(xiàn)主要包含4部分:
(1)數(shù)據(jù)集制作:考慮到計(jì)算機(jī)的硬件與GPU性能問(wèn)題,本次研究需要對(duì)原圖像進(jìn)行適當(dāng)裁切,將3 648像素×2 736像素原圖4等分,裁切為1 824像素×1 368像素圖像,并在Python中進(jìn)行批量命名得到圖像數(shù)據(jù)集。然后使用開(kāi)源工具LabelImg用于標(biāo)注圖像,得到標(biāo)準(zhǔn)的VOC2007數(shù)據(jù)集,并在程序中對(duì)數(shù)據(jù)集進(jìn)行包括翻轉(zhuǎn)、鏡像、中心對(duì)稱(chēng)、亮度改變、中心對(duì)稱(chēng)且亮度改變、高斯模糊等數(shù)據(jù)增強(qiáng),其中亮度用來(lái)模擬天氣陰晴情況,改變系數(shù)為0.9~1.1,高斯模糊系數(shù)為0.5,得到包含2016幅圖像和73 080個(gè)包圍框的數(shù)據(jù)集。
(2)模型訓(xùn)練:深度學(xué)習(xí)分為直接訓(xùn)練和預(yù)訓(xùn)練模型2種方式。本研究選用預(yù)訓(xùn)練模型的方式,訓(xùn)練過(guò)程主要包含:①使用預(yù)訓(xùn)練的VGG16對(duì)RPN進(jìn)行初始化和訓(xùn)練,并端到端進(jìn)行微調(diào)。②使用預(yù)訓(xùn)練的VGG16初始化Fast R-CNN,并利用RPN生成的候選框,訓(xùn)練出一個(gè)單獨(dú)的檢測(cè)網(wǎng)絡(luò)。③使用該檢測(cè)網(wǎng)絡(luò)再次初始化RPN并進(jìn)行訓(xùn)練,但固定共享的卷積層,只微調(diào)RPN特有的層,就使卷積層達(dá)成了共享。④再次訓(xùn)練Fast R-CNN,但固定共享的卷積層,只對(duì)其進(jìn)行微調(diào)。因此能夠?qū)崿F(xiàn)2個(gè)網(wǎng)絡(luò)共享相同卷積層,構(gòu)成統(tǒng)一的已訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練所用軟硬件配置見(jiàn)表1,其中訓(xùn)練參數(shù)max_iters設(shè)置為70 000,batch_size設(shè)置為128,其余保持默認(rèn)值。
表1 計(jì)算機(jī)軟硬件配置Tab.1 Computer software and hardware configuration
(3)模型測(cè)試:對(duì)已訓(xùn)練模型進(jìn)行測(cè)試時(shí),F(xiàn)aster R-CNN模型會(huì)將圖像進(jìn)行多層卷積與池化,然后由RPN網(wǎng)絡(luò)獲取Proposals,判斷Positive或Negative以及計(jì)算坐標(biāo)偏移,RoI pooling會(huì)綜合Feature map和候選框信息,后續(xù)進(jìn)行分類(lèi)以及獲得精準(zhǔn)坐標(biāo)。這些類(lèi)別和坐標(biāo)會(huì)被保留,用于后續(xù)的真值檢驗(yàn),獲得評(píng)價(jià)指標(biāo)參數(shù),以及與真值建立1∶1圖。
(4)交叉驗(yàn)證:將原始數(shù)據(jù)隨機(jī)分成5份,將其中的1份作為測(cè)試集,剩余4份作為訓(xùn)練驗(yàn)證集,其中訓(xùn)練集和驗(yàn)證集各占其一半,即20%的數(shù)據(jù)用于測(cè)試,80%的數(shù)據(jù)用于訓(xùn)練驗(yàn)證。為了更全面地評(píng)價(jià)性能,采用交叉驗(yàn)證的方式對(duì)模型進(jìn)行5次重復(fù)訓(xùn)練和測(cè)試。
本研究進(jìn)行了基于過(guò)綠指數(shù)(Excess green, EXG)[16,24]和圖像二值化的茶葉嫩芽識(shí)別算法對(duì)比試驗(yàn),具體思路為:
(1)過(guò)綠指數(shù)處理:在該對(duì)比試驗(yàn)中,利用EXG來(lái)對(duì)圖像進(jìn)行灰度化,使嫩芽老葉能在單通道進(jìn)行區(qū)分,其計(jì)算式為
EXG=2G-B-R
(1)
式中R、G、B——對(duì)應(yīng)紅、綠、藍(lán)通道圖像
(2)圖像二值化:場(chǎng)景范圍較大的圖像中,由于包含了非常多的老葉與嫩芽,其在過(guò)綠特征上的亮度也有更多的交集,2種類(lèi)型的特征峰區(qū)分并不明顯,并且存在一部分背景值,無(wú)法利用大津法(OTSU)一類(lèi)的方法來(lái)進(jìn)行區(qū)分。但小芽在EXG上的亮度總體大于背景,所以采用了直方圖p分位截取的方法,截取像元累計(jì)前100%-p作為背景,后p作為前景,來(lái)進(jìn)行二值化。為了找到最佳的p分位,取后4%~11%像元進(jìn)行8次試驗(yàn),分別進(jìn)行圖像二值化。
(3)嫩芽噪聲去除:隨著截取像元的增加,二值化后的圖像所包含的圖像信息越來(lái)越多,噪聲也隨之增多。試驗(yàn)對(duì)斑塊面積進(jìn)行閾值分割,去除小面積斑塊噪聲,大面積斑塊因?yàn)榭赡苁茄款^疊加造成,不作為去除對(duì)象。在二值化的過(guò)程中,嫩芽邊緣并不能提取完整,產(chǎn)生微小斑塊也會(huì)被去除,芽頭輪廓會(huì)變得銳利,所以采用了3×3的膨脹矩陣對(duì)斑塊處理,平滑嫩芽邊緣,并填充內(nèi)部空洞。
(4)嫩芽計(jì)數(shù):使用OpenCV來(lái)對(duì)斑塊進(jìn)行輪廓檢測(cè),并保留檢測(cè)包圍框的坐標(biāo)信息,用于后續(xù)的真值檢驗(yàn),建立1∶1圖,以及后續(xù)的結(jié)果可視化。
深度學(xué)習(xí)的評(píng)價(jià)指標(biāo)主要有交并比(Intersection over Union,IoU)、準(zhǔn)確度(Precision)、召回率(Recall)、平均準(zhǔn)確度(Average precision,AP)。
同時(shí),在真值檢測(cè)的過(guò)程中,為了避免出現(xiàn)同一個(gè)標(biāo)注框檢測(cè)多個(gè)預(yù)測(cè)框的情況,每個(gè)預(yù)測(cè)框和標(biāo)注框僅考慮一次。如果存在一個(gè)標(biāo)注框和某個(gè)檢測(cè)框IoU大于0.5,那么這個(gè)標(biāo)注框就不再參與預(yù)測(cè)框的評(píng)估。
首先,進(jìn)行不區(qū)分嫩芽類(lèi)型的模型訓(xùn)練,交叉驗(yàn)證測(cè)試結(jié)果如表2策略A所示。后續(xù)對(duì)每幅圖進(jìn)行檢測(cè),并將其IoU大于0.5的預(yù)測(cè)框數(shù)量(TP)與真值數(shù)量之間建立1∶1圖(圖4a),檢測(cè)結(jié)果的RMSE為3.32,表現(xiàn)并不理想。從圖5可以看出有較多的漏檢以及一部分的錯(cuò)檢,分析漏檢/錯(cuò)檢原因發(fā)現(xiàn)主要為尺寸較小的芽頭檢測(cè)效果不佳,來(lái)自單芽識(shí)別漏檢/錯(cuò)檢較多,部分采摘時(shí)認(rèn)定為不摘的小芽頭被錯(cuò)檢,而部分單芽因?yàn)樵趫D像視場(chǎng)內(nèi)的位置較遠(yuǎn)而漏檢,導(dǎo)致總體識(shí)別較差。文獻(xiàn)[25-26]表明目標(biāo)尺寸對(duì)檢測(cè)結(jié)果存在較大影響,所以有必要對(duì)數(shù)據(jù)集進(jìn)行尺寸上的篩選與重分類(lèi),來(lái)探究目標(biāo)尺寸對(duì)于識(shí)別模型的影響。
表2 不同策略下交叉驗(yàn)證結(jié)果Tab.2 Results of cross validation under different strategies %
圖4 不同策略下深度學(xué)習(xí)茶葉嫩芽數(shù)預(yù)測(cè)真值與真實(shí)值散點(diǎn)圖Fig.4 Scatter plots of predicted and truth values of tea buds in deep learning under different strategies
圖5 不區(qū)分嫩芽類(lèi)型的嫩芽檢測(cè)結(jié)果Fig.5 Bud test results without distinguishing bud types
在嫩芽標(biāo)簽制作過(guò)程中,根據(jù)實(shí)際嫩芽類(lèi)型(單芽和一芽一葉/二葉)統(tǒng)計(jì)各類(lèi)嫩芽的包圍框閾值,以此來(lái)制作包含單芽和一芽一葉/二葉類(lèi)別的數(shù)據(jù)集(圖6)。結(jié)果表明,以2006為包圍框尺寸閾值進(jìn)行分類(lèi)時(shí),單芽和一芽一葉/二葉的包圍框數(shù)量為2 091和8 349,在總包圍框中占比約20%和80%。
圖6 芽頭類(lèi)型分布示意圖Fig.6 Distribution diagram of bud head types
當(dāng)進(jìn)行了芽頭類(lèi)型區(qū)分后(策略B),再次進(jìn)行模型訓(xùn)練與測(cè)試評(píng)估時(shí),交叉驗(yàn)證測(cè)試結(jié)果如表2策略B所示。通過(guò)真值檢驗(yàn)對(duì)每幅圖像中的TP數(shù)量與真值數(shù)量建立1∶1圖,結(jié)果見(jiàn)圖4b,檢測(cè)結(jié)果的RMSE為2.84。結(jié)果進(jìn)一步表明單芽檢測(cè)精度較低,進(jìn)而造成總體檢測(cè)結(jié)果偏差。
考慮在實(shí)際采摘過(guò)程中以一芽一葉/二葉采摘為主,因此分析剔除單芽,僅以一芽一葉/二葉的數(shù)據(jù)集,重新進(jìn)行訓(xùn)練以及模型評(píng)價(jià),交叉驗(yàn)證測(cè)試結(jié)果如表2策略C所示。相較于策略A,總體識(shí)別效果有較為明顯的提升。對(duì)每幅圖的TP數(shù)量與真值數(shù)量之間建立1∶1圖,結(jié)果見(jiàn)圖4c,檢測(cè)結(jié)果的RMSE為2.19。結(jié)果表明,深度學(xué)習(xí)算法對(duì)以茶葉一芽一葉/二葉為目標(biāo)的嫩芽識(shí)別具有較好的識(shí)別精度。
為進(jìn)一步評(píng)價(jià)深度學(xué)習(xí)算法在茶葉嫩芽識(shí)別中的精度(以策略C為對(duì)比標(biāo)準(zhǔn)),構(gòu)建基于過(guò)綠指數(shù)和圖像二值化的茶葉嫩芽識(shí)別算法檢測(cè)一芽一葉/二葉來(lái)進(jìn)行對(duì)比??紤]芽頭顏色有一定的范圍,在進(jìn)行二值化時(shí)并不能保留完整輪廓,在進(jìn)行真值檢驗(yàn)時(shí),IoU會(huì)普遍較低,所以將IoU設(shè)置為0.3,該算法精度結(jié)果如圖7a所示。隨著截取像元p分位的增加,召回率從35%逐步增加到56%,在截取像元9%時(shí)達(dá)到飽和;但是準(zhǔn)確度從53%降低到33%,準(zhǔn)確度和召回率呈現(xiàn)負(fù)相關(guān)關(guān)系。因此,綜合考慮準(zhǔn)確度和召回率,選擇截取6%的像元進(jìn)行圖像分割(圖8),此時(shí)準(zhǔn)確度和召回率分別為46%和47%。利用該算法對(duì)每幅圖進(jìn)行嫩芽檢測(cè),并對(duì)其TP數(shù)量與真值數(shù)量之間建立1∶1圖(圖7b),檢測(cè)結(jié)果的RMSE為5.47。
圖9為深度學(xué)習(xí)算法與傳統(tǒng)目標(biāo)檢測(cè)算法檢測(cè)茶葉嫩芽的識(shí)別結(jié)果。表2與圖4的結(jié)果顯示,F(xiàn)aster R-CNN模型在檢測(cè)不同尺寸的目標(biāo)時(shí),具有不同的精度表現(xiàn);在圖像分辨率低以及目標(biāo)的尺寸較小時(shí),F(xiàn)aster R-CNN模型不具備良好的檢測(cè)性能,單芽頭的識(shí)別精度不佳;而一芽一葉/二葉的識(shí)別精度表現(xiàn)較好,圖9a中基本實(shí)現(xiàn)該類(lèi)嫩芽的準(zhǔn)確識(shí)別;圖7和圖9b顯示了基于顏色特征和閾值分割算法在復(fù)雜背景下茶葉嫩芽檢測(cè)的局限性,準(zhǔn)確度和召回率都沒(méi)有達(dá)到一個(gè)較高的水平,即使召回率保持在較低范圍保證準(zhǔn)確度的情況下,也依舊會(huì)產(chǎn)生大量的漏檢和錯(cuò)檢,整體表現(xiàn)較差。在檢測(cè)時(shí)間上,深度學(xué)習(xí)算法和傳統(tǒng)目標(biāo)檢測(cè)算法,對(duì)單幅圖像檢測(cè)耗時(shí)分別為0.20 s和0.72 s(表3),表明深度學(xué)習(xí)算法在檢測(cè)速度上也有巨大優(yōu)勢(shì)。
圖7 圖像分割算法一芽一葉/二葉檢測(cè)結(jié)果Fig.7 Detection results of one bud and one leaf/two leaves of image segmentation algorithm
圖8 圖像分割過(guò)程Fig.8 Image segmentation process
圖9 茶葉嫩芽識(shí)別一芽一葉/二葉檢測(cè)結(jié)果Fig.9 Detection results of one bud and one leaf/two leaves of tea bud recognition
本文構(gòu)建基于Faster R-CNN網(wǎng)絡(luò)的茶葉嫩芽檢測(cè)及精度評(píng)價(jià),特別是評(píng)價(jià)不同芽頭類(lèi)型的識(shí)別結(jié)果,發(fā)現(xiàn)單芽的識(shí)別精度不佳,原因主要為Faster R-CNN模型本身在檢測(cè)小目標(biāo)時(shí)不具有良好的檢測(cè)性能[26-27]。Faster R-CNN模型是在14×14×512的卷積層(圖3)后進(jìn)行RoI pooling[23],由于經(jīng)過(guò)4次池化,這一層的特征所對(duì)應(yīng)原圖的像元尺度非常大,單像元可以對(duì)應(yīng)原圖16像素×16像素的尺寸,所以無(wú)法對(duì)小目標(biāo)進(jìn)行有效地特征提取。但在實(shí)際采摘的過(guò)程中,尺寸很小的單芽并不作為采摘對(duì)象,當(dāng)去除該類(lèi)數(shù)據(jù)集后,再進(jìn)行相同參數(shù)的訓(xùn)練,精度有較為顯著提升。
表3 算法耗時(shí)對(duì)比Tab.3 Time-consuming comparison of different algorithms
文獻(xiàn)[28-30]研究結(jié)果表明,預(yù)處理可以使特征信息更加突出,以此來(lái)更好地訓(xùn)練模型,提高訓(xùn)練模型的檢測(cè)性能。本研究也使用了過(guò)綠指數(shù)來(lái)對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,但在初始訓(xùn)練參數(shù)下,單芽和一芽一葉/二葉的平均準(zhǔn)確度分別為9%和74%??傮w來(lái)看并沒(méi)有達(dá)到提高模型性能的目的,推測(cè)原因是EXG預(yù)處理圖像僅僅作為單通道輸入的時(shí)候,缺少了紅藍(lán)通道的信息,即使在綠通道上做到了綠色特征突出,并不能對(duì)整體有較大的貢獻(xiàn),導(dǎo)致了訓(xùn)練模型性能沒(méi)有提升,甚至精度出現(xiàn)了降低。
吳雪梅等[10]的研究表明,隨著拍攝距離、范圍的增加,以及背景復(fù)雜程度的加深,用圖像分割算法檢測(cè)嫩芽,會(huì)出現(xiàn)更多的“雜點(diǎn)”和“碎片”噪聲,檢測(cè)效果會(huì)越來(lái)越差。本文所采用的基于顏色特征和閾值分割的茶葉嫩芽識(shí)別算法,嘗試了很多的顏色特征(如EXG、EXG-EXR、G-B等)、閾值分割方法(如p分位、OTSU、雙峰法),以期獲得更高的精度。其中EXG的表現(xiàn)最好,可以較好地表達(dá)嫩芽與背景的差異,p分位相較于OTSU和雙峰法來(lái)說(shuō)效果也更好。但隨著截取像元數(shù)的增加,檢出的芽頭數(shù)開(kāi)始增加,召回率提升;但也產(chǎn)生了更多的噪聲,準(zhǔn)確度急劇降低。并且該類(lèi)方法對(duì)于拍攝場(chǎng)景和環(huán)境有非常高的要求,多云環(huán)境下不同亮度、不同拍攝距離和范圍的圖像,以及不同的生長(zhǎng)環(huán)境下拍攝的圖像,都會(huì)有不同的截取分位;茶葉嫩芽之間的疊加以及覆蓋問(wèn)題,也會(huì)極大地增加圖像分割算法的檢測(cè)難度。綜合已有研究[31]來(lái)看,相對(duì)于深度學(xué)習(xí)方法,傳統(tǒng)目標(biāo)檢測(cè)方法有精度偏低、魯棒性差、速度慢的劣勢(shì)。
當(dāng)數(shù)據(jù)量較少時(shí),數(shù)據(jù)增強(qiáng)是提升模型準(zhǔn)確度、魯棒性以及泛化能力的一種較為有效的途徑[17-18]。深度學(xué)習(xí)算法本身需要大量的數(shù)據(jù),在數(shù)據(jù)量不足的情況下,本研究進(jìn)行了數(shù)據(jù)增強(qiáng)并模擬了復(fù)雜自然場(chǎng)景,來(lái)增加數(shù)據(jù)量以及數(shù)據(jù)多樣性,提升模型性能。但數(shù)據(jù)增強(qiáng)中不論是翻轉(zhuǎn)、鏡像、對(duì)稱(chēng)等像素位置的改變,還是亮度、模糊等像素值的改變,其都是在同一個(gè)數(shù)據(jù)集上進(jìn)行的,增強(qiáng)后的數(shù)據(jù)集雖然數(shù)據(jù)更多、更具多樣性,但與原始數(shù)據(jù)仍具有較強(qiáng)的相關(guān)性,可能會(huì)造成訓(xùn)練模型的性能和表現(xiàn)略差于足量真實(shí)數(shù)據(jù)集訓(xùn)練出的模型。后續(xù)補(bǔ)充更具多樣性的足量數(shù)據(jù),來(lái)獲得更準(zhǔn)確、更魯棒以及泛化能力更強(qiáng)的模型。
針對(duì)范圍較大、背景更為復(fù)雜的茶葉嫩芽檢測(cè)問(wèn)題,本文探究了Faster R-CNN模型和VGG16特征提取網(wǎng)絡(luò),對(duì)目標(biāo)尺寸的檢測(cè)敏感度問(wèn)題,提出剔除單芽類(lèi)的方法,較大地提升了模型性能。首先,對(duì)原始圖像進(jìn)行了裁切、標(biāo)簽制作、數(shù)據(jù)增強(qiáng),然后基于深度學(xué)習(xí)的Faster R-CNN目標(biāo)檢測(cè)算法對(duì)茶葉嫩芽進(jìn)行檢測(cè),并探究了該方法對(duì)不同尺寸芽頭的檢測(cè)效果,剔除小芽后重新訓(xùn)練與測(cè)試,顯示出了較好的檢測(cè)性能,最后對(duì)比了基于過(guò)綠指數(shù)和圖像二值化的茶葉嫩芽識(shí)別算法檢測(cè)茶葉嫩芽的結(jié)果,表明本文基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法具有良好的檢測(cè)效果,可以為復(fù)雜背景下檢測(cè)芽頭提供技術(shù)保障,以及為智能采摘提供理論指導(dǎo)。