董婭蘭 胡國(guó)玉 劉廣 古麗巴哈爾·托乎提
摘要:剪枝點(diǎn)的精確識(shí)別與定位是實(shí)現(xiàn)葡萄藤冬季剪枝智能化的基礎(chǔ),葡萄藤關(guān)鍵結(jié)構(gòu)的分割是用于推理精確剪枝點(diǎn)的重要前提。針對(duì)現(xiàn)有分割方法受背景影響較大致使葡萄藤各關(guān)鍵結(jié)構(gòu)損失和剪枝點(diǎn)識(shí)別與定位不準(zhǔn)確的問(wèn)題,提出一種基于Mask RCNN的葡萄藤關(guān)鍵結(jié)構(gòu)分割方法,建立葡萄藤修剪模型以及各關(guān)鍵結(jié)構(gòu)數(shù)據(jù)集。通過(guò)主干特征提取網(wǎng)絡(luò)和分割性能的對(duì)比試驗(yàn),得出最優(yōu)的Mask RCNN模型結(jié)構(gòu)并驗(yàn)證其擬合與泛化能力以及在不同自然背景下的分割性能。結(jié)果表明,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型具有較好的擬合與泛化能力,相較于對(duì)照組模型準(zhǔn)確率分別提升7.33%和8.89%,召回率分別提升9.32%和9.26%,平均精度均值分別提升12.69%和12.63%,其能夠克服各類自然種植背景因素,分割目標(biāo)邊緣完整,葡萄藤各關(guān)鍵結(jié)構(gòu)之間連接關(guān)系正確。
關(guān)鍵詞:圖像分割;特征提?。黄咸烟?;深度學(xué)習(xí)
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):20955553 (2024) 02020708
收稿日期:2022年8月12日 ?修回日期:2022年10月17日
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(12162031)
第一作者:董婭蘭,女,1999年生,甘肅隴南人,碩士研究生;研究方向?yàn)檗r(nóng)牧機(jī)器人及智能農(nóng)業(yè)裝備。Email: dongyalan122@163.com
通訊作者:胡國(guó)玉,女,1979年生,新疆烏魯木齊人,博士,副教授;研究方向?yàn)檗r(nóng)牧機(jī)器人及智能農(nóng)業(yè)裝備。Email: xjhuguoyu@xju.edu.cn
Segmentation method for grapevine critical structure based on Mask RCNN model
Dong Yalan, Hu Guoyu, Liu Guang, Gulbahar Tohti
(College of Mechanical Engineering, Xinjiang University, Urumqi, 830049, China)
Abstract:
The precise identification and positioning of pruning points is the basis for the intelligent pruning of grapevines in winter, the segmentation of the critical structure of the grapevine is an important prerequisite for reasoning about the precise pruning point. Aiming at the problem that the existing cutting method is greatly affected by the background, resulting in the loss of critical structures of the grapevine, and inaccurate identification and positioning of pruning points, a segmentation method of grapevine critical structure based on Mask RCNN was proposed, the grapevine pruning model and the critical structure data sets were established. Through the comparative experiment of backbone feature extraction network and segmentation performance, the optimal Mask RCNN model structure was obtained and its fitting and generalization ability and segmentation performance in different natural backgrounds were verified, The results showed that the Mask RCNN model with ResNet 101+FPN as the backbone feature extraction network proposed had better fitting and generalization ability, compared with the control group model, the accuracy rate was increased by 7.33% and 8.89%, the recall rate was increased by 9.32% and 9.26%, and the average precision was increased by 12.69% and 12.63% respectively, it could overcome various natural planting background factors, the edge of the segmentation target was complete, and the connection relationship between the critical structures of the grapevine was correct.
Keywords:
image processing; feature extraction; grapevine; deep learning
0 引言
冬季修剪是葡萄種植管理過(guò)程中一項(xiàng)重要的農(nóng)藝環(huán)節(jié),通過(guò)冬季修剪能夠合理分布生長(zhǎng)枝與結(jié)果枝,阻止結(jié)果部位過(guò)快上移;調(diào)節(jié)單位面積上的芽眼負(fù)載量、結(jié)果母枝數(shù)量與長(zhǎng)度,進(jìn)而提高來(lái)年的葡萄產(chǎn)量與質(zhì)量[1]。目前現(xiàn)有修剪機(jī)械多針對(duì)林果樹(shù)木,粗獷的修剪方式與機(jī)械無(wú)法滿足精細(xì)化的葡萄藤冬季修剪需求[2],因此葡萄冬季修剪主要依靠人工作業(yè),其季節(jié)性勞動(dòng)強(qiáng)度大、人工作業(yè)效率低,致使勞動(dòng)成本投入增加。因此,開(kāi)發(fā)自動(dòng)化、智能化的葡萄修剪設(shè)備具有重要意義。
在葡萄栽培與種植過(guò)程中,機(jī)器視覺(jué)技術(shù)常被應(yīng)用于葡萄串檢測(cè)、葡萄藤結(jié)構(gòu)識(shí)別、病蟲(chóng)害防治、產(chǎn)量與葉面積的估算[36]。針對(duì)葡萄冬季修剪作業(yè),剪枝點(diǎn)的精確識(shí)別與定位可以保證來(lái)年葡萄保質(zhì)增產(chǎn),葡萄藤關(guān)鍵結(jié)構(gòu)包括綁縛主干、枝條與節(jié)點(diǎn),其各結(jié)構(gòu)之間具有較強(qiáng)附屬性,并且相似性較大,各關(guān)鍵結(jié)構(gòu)之間的連接關(guān)系是推理與定位葡萄藤冬季修剪點(diǎn)的關(guān)鍵。為此,國(guó)內(nèi)外學(xué)者研究多集中于葡萄各關(guān)鍵結(jié)構(gòu)的識(shí)別、芽點(diǎn)二維與三維位置的推理與識(shí)別以及智能裝備的開(kāi)發(fā)。賈挺猛等[7]將骨架提取方法應(yīng)用于葡萄藤各關(guān)鍵結(jié)構(gòu)提取中,對(duì)比分析多種細(xì)化算法用于保證骨架具有良好的連通性與中心性,在此基礎(chǔ)上,Xu等[8]提出一種基于Rosenfeld細(xì)化算法和Harris算法結(jié)合的芽點(diǎn)檢測(cè)方法。Botterill等[9]設(shè)計(jì)了一種葡萄藤自動(dòng)修剪機(jī)器人,通過(guò)三目攝像機(jī)重建形成完整的三維藤蔓模型,同時(shí)對(duì)機(jī)器人手臂進(jìn)行高效的無(wú)碰撞路徑規(guī)劃,實(shí)現(xiàn)葡萄藤冬季修剪作業(yè)的自動(dòng)化。Pérez[10]、Daz[11]等使用尺度不變特征變換來(lái)計(jì)算底層特征,利用支持向量機(jī)訓(xùn)練分類器來(lái)檢測(cè)葡萄芽在三維空間中的位置。
由于芽點(diǎn)的大小與形狀存在差異、圖像采集多受光照與背景影響,傳統(tǒng)的圖像處理方式會(huì)導(dǎo)致在藤條細(xì)化過(guò)程中弱小芽點(diǎn)被忽略。深度學(xué)習(xí)是目前最先進(jìn)的處理葡萄種植任務(wù)的方法,已經(jīng)應(yīng)用于葡萄藤修剪作業(yè),如Marset等[12]提出了一種基于完全卷積網(wǎng)絡(luò)從葡萄藤圖像中完整分割出芽體形狀的語(yǔ)義分割網(wǎng)絡(luò),用于識(shí)別突出芽體。Fernandes等[13]對(duì)葡萄藤圖像進(jìn)行分割并創(chuàng)建葡萄藤植物代表模型,依據(jù)農(nóng)藝規(guī)則推測(cè)潛在的修剪點(diǎn)。Yang等[14]提出一種基于細(xì)化算法和輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的二維葡萄冬季剪枝位置,訓(xùn)練分類器查找芽眼并獲得冬季剪枝位置。由于國(guó)內(nèi)葡萄種植環(huán)境較復(fù)雜,葡萄藤關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與周圍環(huán)境之間都存在較大相似性,上述方式不適用于在國(guó)內(nèi)復(fù)雜的種植背景下精確的葡萄藤關(guān)鍵結(jié)構(gòu)識(shí)別以及葡萄藤冬季剪枝點(diǎn)推理以及定位作業(yè)。綜上,本文提出一種基于Mask RCNN的葡萄藤關(guān)鍵結(jié)構(gòu)的分割方法,用以保證葡萄藤各關(guān)鍵結(jié)構(gòu)的識(shí)別與連接關(guān)系,為進(jìn)一步提高復(fù)雜環(huán)境下二維以及三維空間下芽點(diǎn)的識(shí)別與剪枝點(diǎn)的推理精度提供依據(jù)。
1 葡萄藤冬季修剪原理
為實(shí)現(xiàn)葡萄園種植過(guò)程機(jī)械化作業(yè)與產(chǎn)量增收,國(guó)內(nèi)普遍采用“廠”形栽培模式,即保留植株單個(gè)主莖成為綁縛主枝,并呈“廠”形在第一條綁縛線上進(jìn)行固定。枝條生長(zhǎng)于綁縛主枝上,主要生長(zhǎng)方向垂直于綁縛主枝。葡萄藤精細(xì)化的冬季剪枝農(nóng)藝需求為:各枝條保留靠近綁縛主干的一至兩個(gè)芽點(diǎn)后,在保留芽點(diǎn)與上部芽點(diǎn)之間的枝條處做截?cái)嗵幚?。“廠”形栽培模式的葡萄藤修剪示例模型如圖1所示。葡萄藤各關(guān)鍵結(jié)構(gòu)的識(shí)別與連接關(guān)系成為確定精確剪枝點(diǎn)的必要前提。
2 葡萄藤關(guān)鍵結(jié)構(gòu)分割模型
2.1 Mask RCNN網(wǎng)絡(luò)模型
隨著深度學(xué)習(xí)分割方法逐步在農(nóng)業(yè)工程領(lǐng)域的應(yīng)用,目前已經(jīng)在各項(xiàng)農(nóng)業(yè)種植環(huán)節(jié)中成功實(shí)施[1517]。經(jīng)典的圖像分割模型包括全連接卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)、DeepLab、PSPNet、Mask RCNN[1819],其中Mask RCNN可實(shí)現(xiàn)復(fù)雜背景下較高精度的像素分割,并且能夠并行實(shí)現(xiàn)目標(biāo)檢測(cè)、分類以及像素分割問(wèn)題。由于葡萄藤關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與背景之間顏色相近,枝條叢生交錯(cuò)、姿態(tài)多樣,傳統(tǒng)的閾值分割和邊緣分割[2021]方式難以實(shí)現(xiàn)葡萄藤關(guān)鍵結(jié)構(gòu)與背景的準(zhǔn)確識(shí)別以及分割,鑒于深度學(xué)習(xí)網(wǎng)絡(luò)同時(shí)具備的特征提取與識(shí)別的優(yōu)勢(shì),本文將基于Mask RCNN網(wǎng)絡(luò)框架,對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)進(jìn)行分割識(shí)別,為推理精確的葡萄藤冬季剪枝點(diǎn),實(shí)現(xiàn)自動(dòng)化剪枝作業(yè)提供完整的修剪模型依據(jù)。其算法框架如圖2所示,實(shí)現(xiàn)步驟如下。
1) 通過(guò)由殘差網(wǎng)絡(luò)(Residual Network)和特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)組成的主干特征提取網(wǎng)絡(luò)對(duì)輸入的圖像進(jìn)行多尺度的信息提取與融合,生成一系列有效特征層。
2) 在提取到的有效特征層上生成不同尺寸的感興趣區(qū)域(Region of Interest,ROI)后傳入?yún)^(qū)域選取網(wǎng)絡(luò)(Region Proposal Network,RPN),RPN將各尺寸的ROI進(jìn)行初步篩選后對(duì)進(jìn)行分類以及回歸操作,以獲得目標(biāo)候選區(qū)域。
3) 通過(guò)ROI Align(Region of Interest Align)層將RPN網(wǎng)絡(luò)篩選出來(lái)的目標(biāo)候選區(qū)域與主干特征提取網(wǎng)絡(luò)的有效特征圖進(jìn)行匹配對(duì)齊,并統(tǒng)一特征圖大小。
4) 統(tǒng)一大小的特征圖將輸入由類別、邊界框以及掩膜分支構(gòu)成的網(wǎng)絡(luò)頭部,用于輸出類別概率、定位的目標(biāo)邊界框位置以及目標(biāo)區(qū)域的掩膜分割。
2.2 圖像采集與標(biāo)注
試驗(yàn)數(shù)據(jù)于2021年10月13日10:00~21:00(天氣晴,光照強(qiáng)烈,自然種植環(huán)境)、10月14日(陰,光線較弱,自然種植環(huán)境)采集于新疆昌吉州瑪納斯縣中信國(guó)安葡萄酒合約種植地。采集對(duì)象為“廠”形種植的8年生赤霞珠釀酒葡萄,多方位進(jìn)行拍攝,按照拍攝圖片的光照條件分為晴天順光、晴天逆光、陰天。共采集像素為3000×4000的圖片606張,將樣本圖片統(tǒng)一縮小至512像素×512像素,為防止數(shù)據(jù)集在訓(xùn)練過(guò)程中產(chǎn)生過(guò)擬合,采用圖像與標(biāo)簽同時(shí)進(jìn)行水平翻轉(zhuǎn)與增減亮度的調(diào)整方式對(duì)數(shù)據(jù)集進(jìn)行增廣,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后,數(shù)據(jù)集總數(shù)為1818張,按照8∶1∶1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)據(jù)增強(qiáng)后各類樣本數(shù)量與數(shù)據(jù)集劃分如表1所示。
葡萄藤各關(guān)鍵結(jié)構(gòu)之間具有附屬性,合理的數(shù)據(jù)集標(biāo)注有助于后期形成各組分連接關(guān)系與推斷準(zhǔn)確的剪枝點(diǎn)位置。依據(jù)葡萄藤精細(xì)化的冬季剪枝農(nóng)藝需求與規(guī)范的修剪示例,用labelme[22]圖像標(biāo)注工具建立含有三類標(biāo)簽的數(shù)據(jù)集,并為數(shù)據(jù)集圖像添加掩膜標(biāo)簽,如圖3所示。
2.3 對(duì)照組網(wǎng)絡(luò)模型
DeepLab v3+和PSPNet作為經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò),具有較好泛化能力和分割效果,因此本文將采用DeepLab v3+模型和PSPNet模型[2324]作為對(duì)照組模型對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)的分割性能進(jìn)行對(duì)比試驗(yàn)。
DeepLab v3+模型是近年來(lái)深度學(xué)習(xí)發(fā)展中分割精度偏高、使用較廣泛的目標(biāo)分割模型。DeepLab v3+采用編碼-解碼結(jié)構(gòu),編碼結(jié)構(gòu)主體使用帶有空洞卷積的深度卷積神經(jīng)網(wǎng)絡(luò)與帶有空洞卷積的金字塔池化模塊,獲取不同尺度的感受野并進(jìn)行多尺度的特征提取,DeepLab v3+模型在DeepLab v3的基礎(chǔ)上,引入解碼模塊實(shí)現(xiàn)底層特征與高層特征的融合,最后通過(guò)上采樣輸出預(yù)測(cè)結(jié)果。PSPNet模型主要由主干特征提取網(wǎng)絡(luò)與加強(qiáng)特征提取結(jié)構(gòu)組成,其中加強(qiáng)特征提取網(wǎng)絡(luò)將獲取到的特征層劃分為不同大小的區(qū)域,并對(duì)各區(qū)域進(jìn)行平均池化用以實(shí)現(xiàn)不同區(qū)域上下文信息的聚合,從而提高獲取全局信息的能力,特征融合進(jìn)行上采樣后通過(guò)卷積層輸出目標(biāo)物體的分割結(jié)果。對(duì)照組網(wǎng)絡(luò)模型均采用Labelme工具對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,采用PASCAL VOC數(shù)據(jù)集格式進(jìn)行訓(xùn)練。
2.4 性能評(píng)價(jià)指標(biāo)
采用COCO數(shù)據(jù)集評(píng)價(jià)標(biāo)準(zhǔn)對(duì)模型性能做出評(píng)估,其包括準(zhǔn)確率P(Precision)、召回率R(Recall),平均精度AP(Average Precision):AP值可以對(duì)各給定類別準(zhǔn)確率與召回率全面的表達(dá)與綜合體現(xiàn);平均精度均值MAP(Mean Average Precision):MAP值可以滿足多標(biāo)簽分類模型的評(píng)價(jià)任務(wù);各評(píng)價(jià)指標(biāo)計(jì)算公式如式(1)~式(4)所示。
P=TPTP+FP×100%
(1)
R=TPTP+FN×100%
(2)
AP=∫10P(R)dR×100%
(3)
MAP=1n∑ni=1AP×100%
(4)
式中:
TP——被模型預(yù)測(cè)為正的正樣本;
FP——被模型預(yù)測(cè)為正的負(fù)樣本;
FN——被模型預(yù)測(cè)為負(fù)的正樣本;
AP——
準(zhǔn)確率在召回率上的積分,數(shù)值越高,模型性能越好;
MAP——每個(gè)類別AP值的平均值;
n——
類別個(gè)數(shù),在本文中n=3(綁縛主干+枝條+節(jié)點(diǎn))。
2.5 試驗(yàn)設(shè)計(jì)
2.5.1 計(jì)算環(huán)境配置
本試驗(yàn)主機(jī)配置Windows 10系統(tǒng),中央處理器為Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40 GHz,顯卡為GeForce GTX 3090。各網(wǎng)絡(luò)模型在Anaconda 3虛擬環(huán)境下訓(xùn)練,采用TensorflowGPU 1.13.2和Keras 2.1.5、TensorflowGPU 2.5.0深度學(xué)習(xí)框架來(lái)適應(yīng)不同模型的網(wǎng)絡(luò)訓(xùn)練需求。虛擬環(huán)境配置安裝Python 3.8編程環(huán)境、GPU并行計(jì)算架構(gòu)Cuda 11.2和深度神經(jīng)網(wǎng)絡(luò)GPU加速庫(kù)Cudnn 8.1。
2.5.2 計(jì)算環(huán)境配置
1) Mask RCNN模型參數(shù)設(shè)置:GPU個(gè)數(shù)1;單GPU同時(shí)處理圖片數(shù)量2;類別個(gè)數(shù)為1(背景)+3(綁縛藤條、枝條、節(jié)點(diǎn)),RPN錨大小為32、64、128、256、512;加載COCO數(shù)據(jù)集默認(rèn)權(quán)重。為進(jìn)一步提升目標(biāo)圖像分割精度,采用將區(qū)域選取網(wǎng)絡(luò)和網(wǎng)絡(luò)頭部(分類、邊框回歸以及掩膜分支)合并起來(lái)的端到端的訓(xùn)練模式,整個(gè)網(wǎng)絡(luò)訓(xùn)練迭代數(shù)為100,初始學(xué)習(xí)率為0.001,網(wǎng)絡(luò)權(quán)重衰減系數(shù)為0.000 1,動(dòng)量為 0.9。
2) 對(duì)照組模型參數(shù)設(shè)置:本文中對(duì)照組模型為DeepLab v3+與PSPNet網(wǎng)絡(luò)模型,均采用PASCAL VOC(PASCAL Visual Object Classes)數(shù)據(jù)集格式進(jìn)行訓(xùn)練,數(shù)據(jù)集圖片分辨率大小分別設(shè)置為512像素×512像素、473像素×473像素,整個(gè)網(wǎng)絡(luò)迭代數(shù)為100,總迭代次數(shù)為1 000,初始學(xué)習(xí)率為0.001,每迭代100次,學(xué)習(xí)率降低0.1。
2.5.3 對(duì)比試驗(yàn)設(shè)計(jì)
1) 主干特征提取網(wǎng)絡(luò)對(duì)比試驗(yàn)。
為使模型的識(shí)別與分割效果達(dá)到最佳,分別以ResNet 50+FPN、ResNet 101+FPN作為Mask RCNN的主干特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練并進(jìn)行對(duì)比驗(yàn)證。通過(guò)訓(xùn)練及驗(yàn)證損失曲線是否收斂判斷模型泛化擬合能力與樣本的適用性;依據(jù)訓(xùn)練后模型的平均精度AP值、訓(xùn)練時(shí)間以及分割效果,選擇出最優(yōu)的主干特征提取網(wǎng)絡(luò)。
2) 分割模型對(duì)比試驗(yàn)。
在主干特征提取網(wǎng)絡(luò)對(duì)比試驗(yàn)的基礎(chǔ)上選出Mask RCNN模型的最優(yōu)主干后,與基于MobilNet v2主干特征提取網(wǎng)絡(luò)的DeepLab v3+和PSPNet模型進(jìn)行分割模型性能對(duì)比試驗(yàn)。通過(guò)訓(xùn)練與驗(yàn)證損失曲線收斂程度、收斂后損失值的保持?jǐn)?shù)值判斷分割模型的擬合與泛化能力;對(duì)比各模型在葡萄藤關(guān)鍵結(jié)構(gòu)圖片測(cè)試集上得到的準(zhǔn)確率、召回率、平均精度均值以及分割效果,對(duì)比各類模型的分割性能。
3 結(jié)果與分析
3.1 主干特征提取網(wǎng)絡(luò)性能對(duì)比分析
將ResNet 50+FPN、ResNet 101+FPN分別作為主干特征提取網(wǎng)絡(luò),對(duì)Mask RCNN模型進(jìn)行訓(xùn)練與驗(yàn)證,試驗(yàn)結(jié)果表明:兩種模型在訓(xùn)練與驗(yàn)證的迭代過(guò)程中,分類、邊框和掩膜的訓(xùn)練集與驗(yàn)證集的損失值整體呈現(xiàn)降低的趨勢(shì),如圖4所示,兩個(gè)模型在100個(gè)epoch之內(nèi)均達(dá)到收斂,收斂后3個(gè)模型整體訓(xùn)練集損失值保持在(0.25,0.3)之間,整體驗(yàn)證集損失率保持在(0.24,0.3)之間。從損失曲線的結(jié)果呈現(xiàn),證明由兩種主干特征提取網(wǎng)絡(luò)構(gòu)成的Mask RCNN分割模型具有較好的擬合與泛化能力,本數(shù)據(jù)集的構(gòu)建也較符合用于葡萄藤關(guān)鍵結(jié)構(gòu)的識(shí)別。
經(jīng)過(guò)擬合泛化能力的確定,可知兩種主干特征提取網(wǎng)絡(luò)對(duì)模型以及圖像樣本有效可用,在此基礎(chǔ)上,需要通過(guò)對(duì)比其模型整體的性能來(lái)選擇最優(yōu)的主干特征提取網(wǎng)絡(luò)。表2是兩種主干特征提取網(wǎng)絡(luò)的AP50(IoU取值為0.5)、AP75(IoU取值為0.75)、AP(IoU取值為0.5~0.95閾值下的平均值)以及訓(xùn)練時(shí)間的對(duì)比。由數(shù)值可以看出,ResNet 101+FPN作為主干特征提取網(wǎng)絡(luò)具有較高的精準(zhǔn)度,盡管網(wǎng)絡(luò)參數(shù)量是ResNet 50+FPN的1.4倍,但訓(xùn)練時(shí)間僅多出0.462h;AP值相較于ResNet 50+FPN提升1.3%,識(shí)別精度提升對(duì)比顯著,極大程度上保證了葡萄藤關(guān)鍵結(jié)構(gòu)的識(shí)別精度。
(a) 不同主干網(wǎng)絡(luò)訓(xùn)練損失曲線
(b) 不同主干網(wǎng)絡(luò)驗(yàn)證損失曲線
為驗(yàn)證以ResNet 50+FPN、ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的分割性能,在測(cè)試集上對(duì)兩種模型分割性能進(jìn)行對(duì)比試驗(yàn)。由于葡萄藤各關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與背景之間顏色都較為相近,為驗(yàn)證模型對(duì)各背景的識(shí)別與分割效果,采用強(qiáng)、弱背景之分的圖片對(duì)模型進(jìn)行性能檢測(cè)。利用兩種主干特征提取網(wǎng)絡(luò)對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)的識(shí)別與分割效果如圖5所示。由圖5(b)與圖5(c)對(duì)比可知,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,在不同背景下對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)的識(shí)別與分割整體優(yōu)于ResNet 50+FPN。圖5(b)是以ResNet 50+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,其對(duì)于強(qiáng)背景區(qū)分的葡萄藤關(guān)鍵結(jié)構(gòu)的分類與掩膜較差,對(duì)弱背景區(qū)分無(wú)法完成分類與掩膜任務(wù)。圖5(c)是以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,對(duì)不同背景區(qū)分下的各類分割目標(biāo)輪廓清晰,沒(méi)有出現(xiàn)目標(biāo)像素點(diǎn)重復(fù)、遺漏標(biāo)注的情況;對(duì)比強(qiáng)、弱背景區(qū)分對(duì)作物的分類與掩膜效果,其針對(duì)強(qiáng)背景區(qū)分的邊框回歸與分類效果更佳。通過(guò)對(duì)比兩種主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,綜合考慮模型對(duì)于目標(biāo)作物分類、邊框回歸、掩膜效果,訓(xùn)練時(shí)間,模型整體參數(shù)量以及電腦配置,選取以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型,用于葡萄藤關(guān)鍵結(jié)構(gòu)的分割模型對(duì)比試驗(yàn)。
(a) 原圖
(b) 以ResNet 50+FPN為主干網(wǎng)絡(luò)的分割效果圖
(c) 以ResNet 101+FPN為主干網(wǎng)絡(luò)的分割效果圖
3.2 分割模型性能對(duì)比分析
在主干特征提取網(wǎng)絡(luò)對(duì)比試驗(yàn)中,得出ResNet 101+FPN是Mask RCNN模型最優(yōu)的主干特征提取網(wǎng)絡(luò),為進(jìn)一步驗(yàn)證以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)分割的分割性能,將其與以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+、PSPNet模型進(jìn)行分割性能比較。采用相同數(shù)據(jù)集對(duì)兩類對(duì)比模型進(jìn)行訓(xùn)練與驗(yàn)證,試驗(yàn)結(jié)果表明:對(duì)照組兩種模型在訓(xùn)練與驗(yàn)證的迭代過(guò)程中,訓(xùn)練集以及驗(yàn)證集的損失值整體呈現(xiàn)降低的趨勢(shì),見(jiàn)圖6,對(duì)照組兩種模型在100個(gè)epoch之內(nèi)均達(dá)到收斂。PSPNet模型在訓(xùn)練集上效果最佳,收斂后模型損失值保持在0.25以下;以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型在驗(yàn)證集上效果最佳,收斂后在驗(yàn)證集的損失值相較于PSPNet、DeepLab v3+模型低0.3左右。對(duì)比三類模型在訓(xùn)練集與驗(yàn)證集的訓(xùn)練效果,得出以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型具有最優(yōu)的擬合與泛化能力。
(a) 不同分割模型訓(xùn)練損失曲線圖
(b) 不同分割模型驗(yàn)證損失曲線圖
經(jīng)過(guò)擬合泛化能力的確定,需要通過(guò)對(duì)比三類模型的分割性能來(lái)獲得最優(yōu)的葡萄藤關(guān)鍵結(jié)構(gòu)分割模型,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型、以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet、DeepLab v3+模型在測(cè)試集上對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)的分割試驗(yàn)結(jié)果如表3所示。
由表3可知,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型的各項(xiàng)結(jié)果均優(yōu)與對(duì)照組模型,其相較于以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet、DeepLab v3+模型對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)的準(zhǔn)確率分別提升7.33個(gè)和8.89個(gè)百分點(diǎn),召回率分別提升9.32個(gè)和9.26個(gè)百分點(diǎn),平均精度均值分別提升12.68個(gè)和12.63個(gè)百分點(diǎn)。試驗(yàn)結(jié)果表明:采用以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型雖然網(wǎng)絡(luò)層數(shù)較深,模型參數(shù)量較大,致使網(wǎng)絡(luò)運(yùn)行速度較慢,但綜合其優(yōu)越的分割性能,針對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)的分割任務(wù)更具有魯棒性。
由于葡萄藤各關(guān)鍵結(jié)構(gòu)之間、關(guān)鍵結(jié)構(gòu)與土壤背景之間都存在較大相似度,需要模型具有目標(biāo)作物與背景相似度較高的弱背景區(qū)分下識(shí)別與分割能力,因此采用強(qiáng)、弱背景區(qū)分兩類圖像對(duì)三類分割模型進(jìn)行對(duì)比試驗(yàn),三類模型對(duì)葡萄藤關(guān)鍵結(jié)構(gòu)在測(cè)試集上的分割效果如圖7所示。
(a) 原圖
(b) 掩碼分割圖
(c) Mask RCNN模型分割效果
(d) DeepLab v3+模型分割效果
(e) PSPNet模型分割效果
在強(qiáng)背景區(qū)分的圖像樣本中,綁縛主干、枝條、節(jié)點(diǎn)個(gè)數(shù)如標(biāo)簽圖7(b)左所示分別為1、2、5個(gè),以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+模型分割情況,如圖7(d)左所示,分割圖像出現(xiàn)將枝條像素錯(cuò)誤分割為綁縛主干、綁縛主干與枝條之間形成錯(cuò)誤間接關(guān)系、節(jié)點(diǎn)漏、錯(cuò)分割比例占80%的情況;以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet模型分割情況,如圖7(e)左所示,分割圖像存在枝條與枝條之間像素點(diǎn)粘連、節(jié)點(diǎn)邊緣分割不完整并且漏分割比例占20%的情況。對(duì)于弱背景區(qū)分的圖像樣本中,綁縛主干、枝條、節(jié)點(diǎn)個(gè)數(shù)如標(biāo)簽圖7(b)右所示分別為2、5、8個(gè),以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+模型分割情況,如圖7(d)右示,分割圖像綁縛主枝與枝條邊緣分割較完整,節(jié)點(diǎn)邊緣分割完整度較差,未完整分割的節(jié)點(diǎn)比例為87.5%,由于節(jié)點(diǎn)與節(jié)點(diǎn)之間距離較小,存在節(jié)點(diǎn)之間像素點(diǎn)粘連劃分形成錯(cuò)誤連接關(guān)系的情況;以MobilNet v2為主干特征提取網(wǎng)絡(luò)的PSPNet模型分割情況,如圖7(e)右所示,枝條與節(jié)點(diǎn)分割邊緣完整性較差,節(jié)點(diǎn)沒(méi)有完整分割的個(gè)體??梢?jiàn)以MobilNet v2為主干特征提取網(wǎng)絡(luò)的DeepLab v3+、PSPNet模型受背景信息的影響較大,尤其在弱背景區(qū)分下,模型難以區(qū)分目標(biāo)作物與背景的顏色與形狀特征,漏分割與誤分割現(xiàn)象嚴(yán)重。
對(duì)于試驗(yàn)樣本,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型展現(xiàn)出良好的分割性能,如圖7(c)所示,對(duì)三類分割目標(biāo)分割輪廓完整,各分割目標(biāo)之間的連接關(guān)系正確,樣本試驗(yàn)分割正確率與整體掩碼程度達(dá)到100%。綜上,在不同背景與環(huán)境下以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)具有較好的分割性能。
4 結(jié)論
本文提出了基于Mask RCNN模型的葡萄藤關(guān)鍵結(jié)構(gòu)的分割方法,并對(duì)模型的主干特征提取網(wǎng)絡(luò)進(jìn)行對(duì)比選取、對(duì)模型分割性能進(jìn)行對(duì)比驗(yàn)證。
1) 進(jìn)行以ResNet 50+FPN和ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型的對(duì)比試驗(yàn),經(jīng)驗(yàn)證,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的模型具有較好的擬合與泛化能力,對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)的平均檢測(cè)精度為76%,相比以ResNet 50+FPN為主干特征提取網(wǎng)絡(luò)的模型AP0.5、AP0.75、AP分別提高了4%、4.6%與1.3%,表明其較優(yōu)的目標(biāo)檢測(cè)能力,并且在強(qiáng)、弱背景區(qū)分下其分割效果均優(yōu)于ResNet 50+FPN主干特征提取網(wǎng)絡(luò)。
2) 在模型分割性能驗(yàn)證上,采用以MobileNet v2主干特征提取網(wǎng)絡(luò)的DeepLab v3+和PSPNet模型進(jìn)行分割模型為對(duì)照組進(jìn)行對(duì)比試驗(yàn),經(jīng)驗(yàn)證,以ResNet 101+FPN為主干特征提取網(wǎng)絡(luò)的Mask RCNN模型相較于對(duì)照組兩類模型具有更好的擬合與泛化能力,相比于對(duì)照組模型準(zhǔn)確率分別提升7.33%和8.89%,召回率分別提升9.32%和9.26%,平均精度均值分別提升12.69%和12.63%;在分割效果性能方面,相較于對(duì)照組模型在強(qiáng)、弱背景下的分割效果均優(yōu)于對(duì)照組分割模型,分割邊緣完整,葡萄藤各關(guān)鍵結(jié)構(gòu)之間連接關(guān)系正確。
3) 本文提出的基于Mask RCNN模型分割識(shí)別方法,初步實(shí)現(xiàn)了對(duì)葡萄藤各關(guān)鍵結(jié)構(gòu)完整的識(shí)別與分割。雖然在識(shí)別與分割精度方面還有待優(yōu)化,但與傳統(tǒng)圖像處理方式下的葡萄藤關(guān)鍵結(jié)構(gòu)識(shí)別相比,保證了各關(guān)鍵結(jié)構(gòu)的連接關(guān)系,并針對(duì)現(xiàn)有種植環(huán)境下,實(shí)現(xiàn)對(duì)自然種植背景的目標(biāo)識(shí)別與分割任務(wù),能夠?yàn)槠咸烟倬_剪枝點(diǎn)的識(shí)別與定位研究提供精確的關(guān)鍵結(jié)構(gòu)推理模型,為葡萄自動(dòng)化、智能化的修剪作業(yè)奠定基礎(chǔ)。
參 考 文 獻(xiàn)
[1]金子煜, 劉淑紅, 周祥軍. 葡萄冬季修剪技術(shù)淺析[J]. 南方農(nóng)業(yè), 2021, 15(5): 30-31, 40.
[2]秦喜田, 劉學(xué)峰, 任冬梅, 等. 我國(guó)果園生產(chǎn)機(jī)械化現(xiàn)狀及其發(fā)展趨勢(shì)[J]. 農(nóng)業(yè)裝備與車輛工程, 2019, 57(S1): 35-38.
Qin Xitian, Liu Xuefeng, Ren Dongmei, et al. Current situation and development prospect of orchard mechanization in China [J]. Agricultural Equipment & Vehicle Engineering, 2019, 57(S1): 35-38.
[3]劉平, 朱衍俊, 張同勛, 等. 自然環(huán)境下貼疊葡萄串的識(shí)別與圖像分割算法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2020, 36(6): 161-169.
Liu Ping, Zhu Yanjun, Zhang Tongxun, et al. Algorithm for recognition and image segmentation of overlapping grape cluster in natural environment [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(6): 161-169.
[4]蘇仕芳, 喬焰, 饒?jiān)? 基于遷移學(xué)習(xí)的葡萄葉片病害識(shí)別及移動(dòng)端應(yīng)用[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(10): 127-134.
Su Shifang, Qiao Yan, Rao Yuan. Recognition of grape leaf diseases and mobile application based on transfer learning [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(10): 127-134.
[5]Francesca C, Ermes M, Davide C, et al. Estimating leaf area index (LAI) in vineyards using the PocketLAI smartapp [J]. Sensors, 2016, 16(12): 2004.
[6]Fourie J, Bateman C, Hsiao J, et al. Towards automated grapevine pruning: Learning by example using recurrent graph neural networks [J]. International Journal of Intelligent Systems, 2021, 36(2): 715-735.
[7]賈挺猛, 荀一, 鮑官軍, 等. 基于機(jī)器視覺(jué)的葡萄樹(shù)枝骨架提取算法研究[J]. 機(jī)電工程, 2013, 30(4): 501-504.
Jia Tingmeng, Xun Yi, Bao Guanjun, et al. Skeleton extraction algorithm on grapevine based on machine vision [J]. Journal of Mechanical & Electrical Engineering, 2013, 30(4): 501-504.
[8]Xu S, Xun Y, Jia T, et al. Detection method for the buds on winter vines based on computer vision [C]. 2014 Seventh International Symposium on Computational Intelligence and Design. IEEE, 2014, 2: 44-48.
[9]Botterill T, Paulin S, Green R, et al. A robot system for pruning grapevines [J]. Journal of Field Robotics, 2017, 34(6): 1100-1122.
[10]Pérez D S, Bromberg F, Diaz C A. Image classification for detection of winter grapevine buds in natural conditions using scaleinvariant features transform, bag of features and support vector machines [J]. Computers and Electronics in Agriculture, 2017, 135: 81-95.
[11]Díaz C A, Pérez D S, Miatello H, et al. Grapevine buds detection and localization in 3D space based on structure from motion and 2D image classification [J]. Computers in Industry, 2018, 99: 303-312.
[12]Marset W V, Pérez D S, Díaz C A, et al. Towards practical 2D grapevine bud detection with fully convolutional networks [J]. Computers and Electronics in Agriculture, 2021, 182: 105947.
[13]Fernandes M, Scaldaferri A, Fiameni G, et al. Grapevine winter pruning automation: On potential pruning points detection through 2D plant modeling using grapevine segmentation [C]. 2021 IEEE 11th Annual International Conference on CYBER Technology in Automation, Control, and Intelligent Systems (CYBER). IEEE, 2021: 13-18.
[14]Yang Q, Yuan Y, Chen Y, et al. Method for detecting 2D grapevine winter pruning location based on thinning algorithm and lightweight convolutional neural network [J]. International Journal of Agricultural and Biological Engineering, 2022, 15(3): 177-183.
[15]傅隆生, 宋珍珍, Zhang Xin, 等. 深度學(xué)習(xí)方法在農(nóng)業(yè)信息中的研究進(jìn)展與應(yīng)用現(xiàn)狀[J]. 中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào), 2020, 25(2): 105-120.
Fu Longsheng, Song Zhenzhen, Zhang Xin, et al. Applications and research progress of deep learning in agriculture [J]. Journal of China Agricultural University, 2020, 25(2): 105-120.
[16]孫俊, 譚文軍, 毛罕平, 等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多種植物葉片病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(19): 209-215.
Sun Jun, Tan Wenjun, Mao Hanping, et al. Recognition of multiple plant leaf diseases based on improved convolutional neural network [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(19): 209-215.
[17]龍潔花, 趙春江, 林森, 等. 改進(jìn)Mask RCNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(18): 100-108.
Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask RCNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(18): 100-108.
[18]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.
[19]He K, Gkioxari G, Dollár P, et al. Mask RCNN [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.
[20]黃鵬, 鄭淇, 梁超. 圖像分割方法綜述[J]. 武漢大學(xué)學(xué)報(bào)(理學(xué)版), 2020, 66(6): 519-531.
Huang Peng, Zheng Qi, Liang Chao. Overview of image segmentation methods [J]. Journal of Wuhan University(Natural Science Edition), 2020, 66(6): 519-531.
[21]劉碩. 閾值分割技術(shù)發(fā)展現(xiàn)狀綜述[J]. 科技創(chuàng)新與應(yīng)用, 2020(24): 129-130.
[22]Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and webbased tool for image annotation [J]. International Journal of Computer Vision, 2008, 77(1): 157-173.
[23]Chen L C, Zhu Y, Papandreou G, et al. Encoderdecoder with atrous separable convolution for semantic image segmentation [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 801-818.
[24]Zhao H, Shi J, Qi X, et al. Pyramid scene parsing network [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2881-2890.