楊健,楊嘯治,熊串,劉力
摘? ? 要:為了實(shí)現(xiàn)大棚環(huán)境中番茄的智能在線產(chǎn)量估算,提出了一種基于改進(jìn)的YOLOv5(You Only Look Once v5)番茄識(shí)別算法,對(duì)自然生長(zhǎng)狀態(tài)下的番茄果實(shí)產(chǎn)量進(jìn)行統(tǒng)計(jì)和估算。首先,使用可分離視覺(jué)轉(zhuǎn)換器(Separable Vision Transformer,SepViT)替換骨干網(wǎng)絡(luò)的最后一層,以增強(qiáng)骨干網(wǎng)絡(luò)與全局信息之間的聯(lián)系并提取番茄特征;其次,引入WIOU(Wise Intersection over Union)損失函數(shù)和Mish激活函數(shù),以提高收斂速度和精度。試驗(yàn)結(jié)果表明,改進(jìn)后的檢測(cè)模型在平均精度(mean Average Precision,mAP)方面達(dá)到了99.5%,相較傳統(tǒng)的YOLOv5模型提高了1.1個(gè)百分點(diǎn),每張圖像的處理時(shí)間為15 ms。此外,改進(jìn)后的YOLOv5算法對(duì)密集和遮擋情況下的番茄果實(shí)識(shí)別效果更好。
關(guān)鍵詞:大棚番茄;YOLOv5;注意力機(jī)制;損失函數(shù)
中圖分類號(hào):S641.2 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-2871(2024)06-061-08
An improved YOLOv5-based method for tomato fruit identification and yield estimation
YANG Jian, YANG Xiaozhi, XIONG Chuan, LIU Li
(School of Mechanical and Electrical Engineering, Chengdu University of Technology, Chengdu 610059, Sichuan, China)
Abstract: In pursuit of intelligent real-time yield estimation for tomatoes in greenhouse environments, we introduce an enhanced YOLOv5 tomato recognition algorithm aimed at the statistical assessment and estimation of tomato fruit yield in their natural growth conditions. Our approach involved two key enhancements: firstly, we substituted the final layer of the backbone network with a Separable Vision Transformer to augment the connectivity between the backbone network and global context, thereby facilitating tomato feature extraction; secondly, we incorporated the WIOU loss function and employ the Mish activation function to enhance convergence speed and accuracy. Experimental findings demonstrate that the improved detection model achieves a mAP score of 99.5%, reflecting 1.1 percentage points enhancement compared to the conventional YOLOv5 model, and the processing time for every image is 15ms. Furthermore, the improved YOLOv5 algorithm exhibits superior recognition performance for densely populated and occluded tomato fruits.
Key words: Greenhouse tomato; YOLOv5; Attention mechanism; Loss function
隨著我國(guó)經(jīng)濟(jì)的發(fā)展,農(nóng)業(yè)正在向現(xiàn)代化轉(zhuǎn)型,溫室大棚已成為現(xiàn)代農(nóng)業(yè)的重要支撐,而大棚番茄種植也在全國(guó)范圍內(nèi)快速發(fā)展。準(zhǔn)確估算大棚番茄的產(chǎn)量是種植規(guī)劃和營(yíng)銷策略的重要組成部分,實(shí)時(shí)統(tǒng)計(jì)和預(yù)測(cè)番茄果實(shí)產(chǎn)量信息,并加以相應(yīng)的生產(chǎn)控制,可以解決番茄產(chǎn)能波動(dòng)和生產(chǎn)過(guò)程中的不連續(xù)性等問(wèn)題。然而,大棚內(nèi)的番茄莖葉和果實(shí)密集且相互重疊[1],限制了果實(shí)圖像特征的識(shí)別,進(jìn)而影響了番茄產(chǎn)量的準(zhǔn)確估算。因此,實(shí)現(xiàn)準(zhǔn)確獲取番茄果實(shí)視覺(jué)信息是支持智能估產(chǎn)的重要前提。
傳統(tǒng)的番茄識(shí)別方法通常是手動(dòng)設(shè)計(jì)特征提取器來(lái)提取目標(biāo)特征,如梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale-invariant feature transform,SIFT)和Haar-like特征等,這些特征再輸入支持向量機(jī)(Support Vector Machine,SVM)、AdaBoost、隨機(jī)森林(Random Forest,RF)等分類器進(jìn)行分類和識(shí)別[2]。Liu等[3]應(yīng)用偽色去除技術(shù)和SVM達(dá)到了94.41%的識(shí)別率,但在番茄遮擋和重疊等復(fù)雜情況下,效果不佳。李寒等[4]采用RGB-D相機(jī)拍攝圖像,通過(guò)預(yù)處理得到水果輪廓,采用K均值聚類與自組織映射算法進(jìn)行番茄識(shí)別,識(shí)別率達(dá)到了87.2%,但輪廓提取易受光照影響。Malik等[5]采用改進(jìn)的HSV顏色空間算法和分水嶺分割算法分離紅色番茄,但識(shí)別率只有81.6%。而馬翠花等[6]采用基于密度的局部自適應(yīng)閾值分割算法提高番茄檢測(cè)精度,對(duì)未成熟番茄的識(shí)別率只達(dá)到77.6%。這些傳統(tǒng)方法泛化性差、計(jì)算復(fù)雜度高,難以提取出合理的特征。此外,它們往往沒(méi)有考慮到大棚環(huán)境中的復(fù)雜影響因素,對(duì)各種特征的變化魯棒性不足,難以滿足實(shí)際需求。而近年來(lái)興起的深度卷積神經(jīng)網(wǎng)絡(luò)為獲取番茄果實(shí)視覺(jué)信息提供了更好的方法。
隨著深度學(xué)習(xí)的不斷發(fā)展,目前的目標(biāo)檢測(cè)算法可以分為兩類。第一類是基于候選區(qū)域的two stage算法,例如R-CNN[7]、Fast R-CNN[8]和Faster R-CNN[9]等。這類算法通過(guò)兩個(gè)步驟來(lái)進(jìn)行計(jì)算:首先選擇候選框,然后對(duì)候選框進(jìn)行分類或回歸。這種方法具有高魯棒性和低識(shí)別錯(cuò)誤率,但運(yùn)算時(shí)間長(zhǎng),占用磁盤空間大,并且對(duì)圖像信息進(jìn)行了重復(fù)計(jì)算,不適合實(shí)時(shí)檢測(cè)應(yīng)用。第二類是基于網(wǎng)絡(luò)模型的one stage算法,例如YOLO[10-11]和SSD[12]等。這類算法通過(guò)在圖像上以不同尺度進(jìn)行遍歷抽樣,并利用卷積神經(jīng)網(wǎng)絡(luò)提取特征后直接進(jìn)行回歸。這種方法的網(wǎng)絡(luò)模型較為簡(jiǎn)單,識(shí)別速度快,特別適合實(shí)時(shí)檢測(cè)應(yīng)用[13]。其中,YOLO模型是Redmon等[10]于2017年提出的對(duì)象檢測(cè)模型,與two stage算法相比,YOLO模型使用單個(gè)前饋網(wǎng)絡(luò)直接預(yù)測(cè)邊界框及其對(duì)應(yīng)的類,作為一種基于回歸的檢測(cè)器,不僅支持快速實(shí)時(shí)識(shí)別,其精度也能夠滿足一般應(yīng)用要求。
2018年,周云成等[14]提出了一種基于Fast R-CNN的雙卷積鏈算法,對(duì)番茄果實(shí)識(shí)別的平均精度為63.99%。2021年,張文靜等[15]將AlexNet作為Faster R-CNN的骨干網(wǎng)絡(luò),在50%的重疊度下,番茄檢測(cè)的平均精度為83.9%,每幅圖像的處理時(shí)間為245 ms。2020年,劉芳等[16]通過(guò)改進(jìn)YOLO網(wǎng)絡(luò)模型,可在復(fù)雜環(huán)境中有效地檢測(cè)番茄果實(shí),識(shí)別準(zhǔn)確率達(dá)到97.13%。同年,Liu等[17]提出一種用于檢測(cè)番茄果實(shí)的改進(jìn)YOLOv3模型,在輕度遮擋條件下,番茄果實(shí)的識(shí)別準(zhǔn)確率達(dá)到94.58%,但在遮擋嚴(yán)重時(shí)表現(xiàn)較差。2021年,成偉等[18]使用廣義交并比(Generalized Intersection over Union[19],GIOU),作為改進(jìn)YOLOv3算法的位置損失函數(shù),在番茄果實(shí)檢測(cè)方面的平均精度達(dá)到95.7%,每幅圖像的平均處理時(shí)間為15 ms[19]。
綜上所述,筆者針對(duì)大棚環(huán)境下番茄果實(shí)重疊、枝葉遮擋、光照不均等復(fù)雜情況,提出一種改進(jìn)的YOLOv5目標(biāo)檢測(cè)算法。首先,使用可分離視覺(jué)轉(zhuǎn)換器(SepViT)替換骨干網(wǎng)絡(luò)的最后一層,以增強(qiáng)骨干網(wǎng)絡(luò)與全局信息的聯(lián)系和提取番茄的特征;其次,利用WIOU損失函數(shù)和Mish激活函數(shù)來(lái)同時(shí)提高收斂速度和精度,使得YOLOv5能夠在大棚環(huán)境下獲得對(duì)番茄果實(shí)較高的檢測(cè)精度。
1 番茄圖像數(shù)據(jù)集制作
在筆者研究中使用的番茄數(shù)據(jù)集部分是在四川省成都市拍攝的,部分是從參考文獻(xiàn)中獲得的。這些圖像有效地反映了番茄生長(zhǎng)的復(fù)雜性,如大小和光線的差異、番茄之間的遮擋以及枝葉的遮擋。在各種條件下,包括側(cè)光、背光、陰影等,隨機(jī)拍攝了1000余張番茄圖像,圖1所示為已建立的番茄數(shù)據(jù)集,拍攝時(shí)間為2022年7月,該番茄識(shí)別數(shù)據(jù)集已經(jīng)在Zenodo上公開發(fā)布,可以在https://zenodo.org/record/8429227上獲取。
為了增強(qiáng)原始圖像數(shù)據(jù),提高數(shù)據(jù)集的普適性和魯棒性,筆者采用了空間級(jí)和像素級(jí)數(shù)據(jù)增強(qiáng)方法,且同時(shí)使用了這兩類增強(qiáng)方法,如圖2所示。空間級(jí)變換技術(shù)修改邊界框和圖像,而像素級(jí)變換技術(shù)修改圖像,同時(shí)保持邊界框不變。
2 基于改進(jìn)YOLOv5的番茄識(shí)別模型
2.1 YOLOv5目標(biāo)檢測(cè)算法
YOLOv5是一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的無(wú)錨點(diǎn)對(duì)象檢測(cè)算法,相比其他對(duì)象檢測(cè)算法具有更高的效率和準(zhǔn)確性,其原理如圖3所示。
YOLOv5算法的基本原理是將輸入的圖片分成S×S個(gè)柵格化單元格。如果檢測(cè)到的目標(biāo)中心落入特定的單元格中,則該單元格負(fù)責(zé)檢測(cè)目標(biāo),即自身有目標(biāo)的概率為[Pobj=1]。然后,每個(gè)單元格預(yù)設(shè)生成B個(gè)先驗(yàn)邊界框,每個(gè)邊界框與真實(shí)值邊界框的交并比為IOU。因此,圖像中的目標(biāo)位置和類別預(yù)測(cè)可以表示為[S×S×B×(4+1+C)]的張量,其中4表示先驗(yàn)邊界框的坐標(biāo)[(x,y)]和寬高[(w,h)],1表示置信度得分,總共有5個(gè)特征參數(shù),C表示使用的數(shù)據(jù)集中目標(biāo)的類別數(shù)。通過(guò)連續(xù)回歸訓(xùn)練真實(shí)邊界框,可以得到最終預(yù)測(cè)的目標(biāo)位置、置信度和類別信息。最后,保留置信度最高的邊界框,以篩選出最佳的識(shí)別結(jié)果[20]。
2.2 深度可分離視覺(jué)注意力機(jī)制
最近幾年,視覺(jué)轉(zhuǎn)換器(Vision Transformer,ViT)在各種計(jì)算機(jī)視覺(jué)任務(wù)中取得了巨大的成功,其性能在關(guān)鍵領(lǐng)域甚至超過(guò)了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)[21-22]。然而,這些性能提升通常是以增加計(jì)算復(fù)雜度和參數(shù)數(shù)量為代價(jià)的,而深度可分離視覺(jué)注意力機(jī)制可以通過(guò)平衡計(jì)算成本和準(zhǔn)確性來(lái)提高模型的性能[23]。
筆者將骨干網(wǎng)絡(luò)的最后一層替換為SepViT Block,以增強(qiáng)模型的特征提取能力,并優(yōu)化與全局信息的聯(lián)系。在SepViT Block中,Depthwise selfattention (DWA)和Pointwise selfattention(PWA)可以減少計(jì)算量,并實(shí)現(xiàn)窗口內(nèi)的局部信息通信和全局信息交互。首先,輸入的特征圖劃分為多個(gè)窗口,每個(gè)窗口被認(rèn)為是特征圖的一個(gè)輸入通道,不同類型的信息被包含在每個(gè)窗口中;然后,對(duì)每個(gè)窗口及其像素標(biāo)記執(zhí)行DWA,這有助于融合通道的空間信息,類似于MobileNet[24-26]中的深度卷積。DWA的操作如下:
[DWA(f)=Attentionf?WQ,f?WK,f?WV]? ? 。
其中[f]是特征標(biāo)記,由窗口標(biāo)記和像素標(biāo)記組成,[WQ]、[WK]和[WV]代表常規(guī)自注意力任務(wù)中的query、key、value三個(gè)線性層,PWA類似于MobileNet中的pointwise convolution操作,不同之處在于pointwise convolution用于融合不同通道的信息,而PWA則是在窗口之間建立連接。完成DWA操作后,PWA建立窗口之間的關(guān)系,并通過(guò)Layer Normalization (LN)和Gelu激活函數(shù)生成注意力圖。PWA的運(yùn)行過(guò)程如下:
PWA(f,wt)=Attention{Gelu[LN(wt)]·WQ,Gelu[LN(wt)]·WK,f}。
其中[wt]代表窗口標(biāo)記。
SepViT Block可以表示為:
[fn=Concat fn-1,wt];
[fn=DWA LNfn]? ? ;
[fn,wt=Slice fn]? ?;
[fn=PWA fn,wt+fn-1]? ? ;
[fn=MLP LNfn+fn]? ? ?。
其中[fn]表示SepViT塊,[f.]n和[w·t]是特征映射和學(xué)習(xí)的窗口標(biāo)記,Concat表示串聯(lián)操作,Slice表示切片操作,圖4為SepViT塊的結(jié)構(gòu)。
2.3 損失函數(shù)與激活函數(shù)
YOLOv5的損失函數(shù)由兩部分組成:分類損失和邊界框回歸損失。邊界框回歸損失最經(jīng)典的形式是IOU(Intersection over Union)[27]損失,YOLO系列中最常用的版本是CIOU(Complete Intersection over Union)[28]。CIOU通過(guò)預(yù)測(cè)框中心點(diǎn)歐氏距離和重疊率參數(shù)作為預(yù)測(cè)框偏差的偏差指標(biāo)。
[CIOUij=JU-ρ2b,bgtc2-αν;α=v(1-IoU)+vν=4π2arctan ωgthgt-arctan ωh2 。]
其中([ωgt],[hgt])、([ω],[h])分別表示預(yù)測(cè)框和真實(shí)框的高與寬,[b]、[bgt]分別表示預(yù)測(cè)框和真實(shí)框的中心點(diǎn),[ρ]表示兩個(gè)中心點(diǎn)間的歐氏距離,[c]表示最小外接矩形框?qū)蔷€距離,[α]表示權(quán)重函數(shù),[v]表示真實(shí)框與預(yù)測(cè)框矩形對(duì)角線傾斜角的差方,如圖5所示。
由于大棚內(nèi)的復(fù)雜環(huán)境,訓(xùn)練數(shù)據(jù)不可避免地包含了低質(zhì)量示例,從而降低模型的泛化性能。一個(gè)好的損失函數(shù)應(yīng)該在anchor box和target box很好重合的情況下減弱幾何因素的懲罰。因此,筆者選擇了WIOU[29]替換CIOU,來(lái)提高模型的整體性能。
[LWIOU=RWIOULIOU];
[RWIOU=exp x-xgt2+y-ygt2W2g+H2g*]? ? 。
式中[Wg]、[Hg]是最小封閉框的尺寸。為了防止[RWIOU]產(chǎn)生阻礙收斂的梯度,將[Wg]、[Hg]從計(jì)算圖中分離出來(lái)(上標(biāo)*表示該操作)。因?yàn)樗行У叵俗璧K收斂的因素,所以不需要引入縱橫比等指標(biāo)。
在YOLOv5中,原先使用ReLU作為激活函數(shù),但ReLU在負(fù)值時(shí)會(huì)直接截?cái)啵瑢?dǎo)致梯度的損失。因此,筆者使用Mish[30]激活函數(shù)代替ReLU激活函數(shù),并將其應(yīng)用于訓(xùn)練和推理過(guò)程中。Mish是一種光滑且非單調(diào)的激活函數(shù),其定義為:
[f(x)=xtanh [softplus(x)]=xtanh ln1+ex]
Mish激活函數(shù)的優(yōu)勢(shì)在于它沒(méi)有上界,可以避免梯度飽和的問(wèn)題。從圖6中可以看出,當(dāng)輸入值為負(fù)時(shí),Mish允許較小的負(fù)梯度流入,從而保證信息的流動(dòng)性,同時(shí)穩(wěn)定了網(wǎng)絡(luò)梯度的流動(dòng),起到了強(qiáng)正則化的作用。此外,Mish函數(shù)是一個(gè)光滑函數(shù),允許更多的信息深入神經(jīng)網(wǎng)絡(luò)中,因此,使用Mish函數(shù)可以提高網(wǎng)絡(luò)的精確度和泛化能力。
3 結(jié)果與分析
3.1 番茄檢測(cè)算法試驗(yàn)
試驗(yàn)的主要硬件平臺(tái)為Dell Precision 3660 Tower工作站,搭載CPU為Intel 12500×3 GHz,顯卡為NVIDIA RTX A4000,軟件平臺(tái)包括CUDA11.1、Python3.8.8和PyTorch1.8.0。在試驗(yàn)中,將數(shù)據(jù)集按照8∶1∶1的比例隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,并使用SGD優(yōu)化器進(jìn)行模型訓(xùn)練。設(shè)置批處理大小為64,初始學(xué)習(xí)率為0.01,輸入圖像的大小為640×640,訓(xùn)練周期為900。
使用可視化工具TensorBoard記錄訓(xùn)練過(guò)程中損失函數(shù)值和精度值的變化,圖7和圖8展示了損失函數(shù)和mAP的變化趨勢(shì)。
在前200個(gè)迭代循環(huán)中,損失函數(shù)的值呈明顯下降的趨勢(shì),隨后下降速度減緩。經(jīng)過(guò)600個(gè)迭代循環(huán)后,損失函數(shù)的值降至3附近,表明模型已經(jīng)達(dá)到穩(wěn)定收斂狀態(tài)。在訓(xùn)練過(guò)程中,每隔10個(gè)迭代周期輸出1次模型,并對(duì)測(cè)試集圖像進(jìn)行識(shí)別和處理。使用平均精度(mAP)作為評(píng)價(jià)指標(biāo),選擇具有最高精度的模型作為最優(yōu)模型。表1是與改進(jìn)模型相比,使用相同訓(xùn)練過(guò)程的YOLOv5和改進(jìn)模型的對(duì)比結(jié)果。
傳統(tǒng)YOLOv5的mAP值為98.4%,改進(jìn)后的YOLOv5為99.5%,提高了1.1個(gè)百分點(diǎn),檢測(cè)改進(jìn)算法的效率與傳統(tǒng)算法基本相同??梢钥闯?,改進(jìn)后的模型具有更高的準(zhǔn)確度,能夠更好地識(shí)別和定位番茄果實(shí)。
3.2 番茄產(chǎn)量估計(jì)試驗(yàn)
試驗(yàn)方法如下:(1)選擇不同光線和尺度的視野,隨機(jī)采集番茄植株圖像,保證數(shù)據(jù)的多樣性;(2)特意選擇一些稀疏、密集和模糊果實(shí)的特殊圖像樣本,人工統(tǒng)計(jì)試驗(yàn)圖像中紅色和綠色果實(shí)的數(shù)量作為對(duì)照。(3)利用YOLOv5模型及改進(jìn)后的YOLOv5模型對(duì)采集圖像進(jìn)行模式識(shí)別,對(duì)視野內(nèi)的水果進(jìn)行計(jì)數(shù),并與人工計(jì)數(shù)結(jié)果進(jìn)行對(duì)比,評(píng)價(jià)產(chǎn)量估算模型的準(zhǔn)確性。
通過(guò)參考紅色和綠色番茄的人工計(jì)數(shù)結(jié)果,筆者評(píng)估了YOLOv5和改進(jìn)的YOLOv5對(duì)番茄的識(shí)別計(jì)數(shù)結(jié)果。對(duì)紅番茄、綠番茄和總番茄的識(shí)別計(jì)數(shù)結(jié)果與人工計(jì)數(shù)進(jìn)行比較,并以計(jì)算的比值作為紅番茄、綠番茄和總番茄估產(chǎn)準(zhǔn)確率的衡量指標(biāo)。識(shí)別結(jié)果如圖9、10所示,統(tǒng)計(jì)結(jié)果如表2所示。
可以看出,改進(jìn)后的YOLOv5模型對(duì)密集紅色番茄和綠色番茄的產(chǎn)量估算精度都有明顯提高:密集紅色番茄的估算精度提高了1.5個(gè)百分點(diǎn),密集綠色番茄的估算精度提高了2.7個(gè)百分點(diǎn)。這表明改進(jìn)后的YOLOv5模型在識(shí)別和估算密集的番茄群體時(shí)更為準(zhǔn)確。且改進(jìn)后的YOLOv5模型對(duì)遮擋紅色番茄和綠色番茄的產(chǎn)量估算精度也有明顯提高:遮擋紅色番茄的估算精度提高了1.8個(gè)百分點(diǎn),遮擋綠色番茄的估算精度提高了3.2個(gè)百分點(diǎn)。這意味著改進(jìn)后的YOLOv5模型在處理遮擋情況下的番茄估算更為可靠。
4 討論與結(jié)論
筆者提出了一種用于復(fù)雜環(huán)境下的改進(jìn)YOLOv5算法,對(duì)自然生長(zhǎng)條件下的番茄果實(shí)產(chǎn)量進(jìn)行統(tǒng)計(jì)和估算。通過(guò)改進(jìn)傳統(tǒng)的YOLOv5模型的骨干網(wǎng)絡(luò)和損失函數(shù),構(gòu)建了一種用于自然生長(zhǎng)下番茄果實(shí)識(shí)別的模型。改進(jìn)后的YOLOv5模型識(shí)別準(zhǔn)確率得到提升,最終模型的mAP值為99.5%,比未改進(jìn)的YOLOv5模型提高了1.1個(gè)百分點(diǎn)。改進(jìn)后的YOLOv5模型對(duì)處于密集和遮擋條件下的番茄果實(shí)有更明顯的識(shí)別效果和魯棒性。密集條件下的紅色番茄和綠色番茄的估算準(zhǔn)確率分別為99.7%和99.1%,遮擋條件下的紅色番茄和綠色番茄的估算準(zhǔn)確率分別為99.2%和98.9%。通過(guò)應(yīng)用筆者提出的番茄識(shí)別網(wǎng)絡(luò)模型,能夠有效解決傳統(tǒng)圖像檢測(cè)方法在處理番茄果實(shí)重疊、枝葉遮擋和光照不均等復(fù)雜情況下定位檢測(cè)精度低的問(wèn)題,為后續(xù)研究提供了更有力的技術(shù)支持。
隨著技術(shù)不斷進(jìn)步,未來(lái)的研究方向包括利用遷移學(xué)習(xí)和自監(jiān)督學(xué)習(xí)來(lái)增強(qiáng)模型的泛化性能,實(shí)施目標(biāo)跟蹤以追蹤番茄狀態(tài),進(jìn)一步優(yōu)化精細(xì)的番茄定位和計(jì)數(shù),以及將番茄識(shí)別與農(nóng)業(yè)決策支持系統(tǒng)緊密融合,以提供實(shí)時(shí)的農(nóng)田管理建議。
參考文獻(xiàn)
[1] 張俊寧,畢澤洋,閆英,等.基于注意力機(jī)制與改進(jìn)YOLO的溫室番茄快速識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2023,54(5):236-243.
[2] 孫皓澤,常天慶,王全東,等.一種基于分層多尺度卷積特征提取的坦克裝甲目標(biāo)圖像檢測(cè)方法[J].兵工學(xué)報(bào),2017,38(9):1681-1691.
[3] LIU G X,MAO S Y,KIM J H.A mature-tomato detection algorithm using machine learning and color analysis[J].Sensors,2019,19(9):2023.
[4] 李寒,陶涵虓,崔立昊,等.基于SOM-K-means算法的番茄果實(shí)識(shí)別與定位方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(1):23-29.
[5] MALIK M H,ZHANG T,LI H,et al.Mature tomato fruit detection algorithm based on improved HSV and watershed algorithm[J].IFAC-Papers On Line,2018,51(17):431-436.
[6] 馬翠花,張學(xué)平,李育濤,等.基于顯著性檢測(cè)與改進(jìn)Hough變換方法識(shí)別未成熟番茄[J].農(nóng)業(yè)工程學(xué)報(bào),2016,32(14):219-226.
[7] GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition,2014.
[8] GIRSHICK R.Fast R-CNN[C].IEEE International Conference on Computer Vision,2015.
[9] REN S Q,HE K M,GIRSHICK R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].Advances in Neural Information Processing Systems,2015.
[10] REDMON J,F(xiàn)ARHADI A.YOLO9000:Better,faster,stronger[C].IEEE Conference on Computer Vision and Pattern Recognition,2017.
[11] REDMON J,DIVVALA S,GIRSHICK R,et al.You only look once:Unified,real-time object detection [C].IEEE Conference on Computer Vision and Pattern Recognition,2016.
[12] LIU W,ANGUELOV D,ERHAN D,et al.Ssd:Single shot multibox detector[C].Computer Vision–ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11-14,2016,Proceedings,Part I 14.Springer International Publishing,2016.
[13] 何斌,張亦博,龔健林,等.基于改進(jìn)YOLO v5的夜間溫室番茄果實(shí)快速識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(5):201-208.
[14] 周云成,許童羽,鄧寒冰,等.基于雙卷積鏈 Fast R-CNN 的番茄關(guān)鍵器官識(shí)別方法[J].沈陽(yáng)農(nóng)業(yè)大學(xué)學(xué)報(bào),2018,49(1):65-74.
[15] 張文靜,趙性祥,丁睿柔,等.基于Faster R-CNN算法的番茄識(shí)別檢測(cè)方法[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,52(4):624-630.
[16] 劉芳,劉玉坤,林森,等.基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(6):229-237.
[17] LIU G X,NOUAZE J C,TOUKO P L,et al.YOLO-Tomato:A robust algorithm fortomato detection based on YOLOv3[J].Sensors-Basel,2020,20(7):2145.
[18] 成偉,張文愛(ài),馮青春,等.基于改進(jìn)YOLOv3的溫室番茄果實(shí)識(shí)別估產(chǎn)方法[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2021,42(4):176-182.
[19] REZATOFIGHI H,TSOI N,GWAK J Y,et al.Generalized intersection over union:A metric and a loss for bounding box regression[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:658-666.
[20] 成偉.基于深度學(xué)習(xí)的番茄植株多目標(biāo)識(shí)別方法研究[D].太原:太原理工大學(xué),2021.
[21] VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C].Proceedings of the 31st Information Processing Systems,2017:6000-6010.
[22] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[J].a(chǎn)rXiv:2010.11929,2020.
[23] LI W,WANG X,XIA X,et al.Sepvit:Separable vision transformer[J].a(chǎn)rXiv:2203.15380,2022.
[24] HOWARD A G,ZHU M L,CHEN B,et al.MobileNets:Efficient convolutional neural networks for mobile vision applications[J].a(chǎn)rXiv:1704.04861,2017.
[25] SANDLER M,HOWARD A,ZHU M,et al.MobileNetv2:Inverted residuals and linear bottlenecks[C].IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:4510-4520.
[26] ANDREW H,MARK S,GRACE C,et al.Searching for mobilenetv3[C].Proceedings of the IEEE/CVF international conference on computer vision,2019:1314-1324.
[27] YU J H,JIANG Y N,WANG Z Y,et al.Unitbox:An advanced object detection network[C].Proceedings of the 24th ACM international conference on Multimedia,2016:516-520.
[28] ZHENG Z H,WANG P,REN D W,et al.Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J].IEEE Transactions on Cybernetics,2021,52(8):8574-8586.
[29] TONG Z J,CHEN Y H,XU Z W,et al.Wise-IoU:Bounding box regression loss with dynamic focusing mechanism[J].a(chǎn)rXiv:2301.10051,2023.
[30] MISRA D.Mish:A self regularized non-monotonic activation function[J].a(chǎn)rXiv:1908.08681,2019.