邱金凱 許秀英 康燁 臧浩 馬鍇 郭志鵬
摘要:無人機(jī)圖像中的西瓜果實(shí)精準(zhǔn)分割是進(jìn)行西瓜計(jì)數(shù)和產(chǎn)量預(yù)估的前提。針對(duì)無人機(jī)西瓜圖像因存在田間背景復(fù)雜、光照不均勻、特征不顯著等情況容易導(dǎo)致誤分割和細(xì)節(jié)邊緣分割不精確的問題,提出一種改進(jìn)U-Net網(wǎng)絡(luò)的西瓜果實(shí)分割模型。首先采集西瓜成熟前期的無人機(jī)可見光圖像,構(gòu)建西瓜果實(shí)語義分割數(shù)據(jù)集;其次在下采樣階段引入高效通道注意力機(jī)制,增強(qiáng)果實(shí)區(qū)域的特征權(quán)重,并在跳躍連接部分增加雙注意力機(jī)制,基于局部特征建立豐富的上下文依賴關(guān)系,提高對(duì)目標(biāo)區(qū)域的特征提取能力;最后使用特征圖和類別激活映射圖對(duì)模型預(yù)測(cè)過程進(jìn)行可視化解釋。結(jié)果表明,該模型的準(zhǔn)確率、精確率、召回率、F1-Score值和交并比分別為99.03%、92.67%、90.55%、91.21%和84.71%,單幅圖像分割時(shí)間為0.145 s。該模型能夠有效捕獲成熟前期的無人機(jī)西瓜圖像中的果實(shí)特征,準(zhǔn)確識(shí)別自然環(huán)境中復(fù)雜背景的果實(shí)區(qū)域,具有良好的分割效果和泛化能力。為利用無人機(jī)遙感技術(shù)統(tǒng)計(jì)大田西瓜數(shù)量和成熟前期產(chǎn)量預(yù)估提供理論依據(jù)和技術(shù)支持。
關(guān)鍵詞:西瓜果實(shí);深度學(xué)習(xí);無人機(jī)圖像;語義分割;注意力機(jī)制
中圖分類號(hào):S24: TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2095-5553 (2024) 03-0182-07
Research on watermelon fruit extraction from UAV images based on semantic segmentation
Qiu Jinkai1, Xu Xiuying1, 2, Kang Ye1, Zang Hao1, Ma Kai1, Guo Zhipeng1
(1. College of Engineering, Heilongjiang Bayi Agricultural University, Daqing, 163319, China;2. Heilongjiang Province Conservation Tillage Engineering Technology Research Center, Daqing, 163319, China)
Abstract:
The accurate segmentation of watermelon fruit in UAV(unmanned aerial vehicle) image is the premise of watermelon counting and yield estimation. This paper proposed a segmentation model of watermelon fruit based on an improved U-Net network to address the problems of false segmentation and inaccurate detail edge segmentation of UAV watermelon images due to complex field background, uneven illumination, and insignificant features. The visible light image of the UAV in the early ripening stage of watermelon was collected to construct the semantic segmentation dataset of watermelon fruit. An efficient channel attention mechanism was introduced in the downsampling process to enhance the feature weight of the fruit region, and a dual attention mechanism was added in the skip connection part to establish rich context dependency based on local features, so as to improve the feature extraction ability of the target region. Then, the feature map and class activation map were used to visually explain the prediction process of the model. Experimental results showed that the Accuracy, Precision, Recall, F1-Score and Intersection over Union(IoU) of the model were 99.03%, 92.67%, 90.55%, 91.21% and 84.71%, respectively, and the processing time of an individual image was 0.145 s. This model can effectively capture the fruit features in the UAV watermelon image in the early maturity stage, accurately identify the fruit regions with complex background under natural environment, and has good segmentation effect and generalization ability. It can provide theoretical basis and technical support for the use of UAV remote sensing technology to count the number of watermelon in the field and estimate the yield at the early maturity stage.
Keywords:watermelon fruit; deep learning; UAV image; semantic segmentation; attention mechanism
0 引言
遙感技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用越來越廣泛[1, 2],利用無人機(jī)可見光圖像進(jìn)行西瓜果實(shí)識(shí)別,提供與產(chǎn)量相關(guān)的視覺信息具有重要的應(yīng)用價(jià)值。在果實(shí)成熟前期,準(zhǔn)確的果實(shí)計(jì)數(shù)管理和產(chǎn)量預(yù)估,不僅可以幫助種植者在銷售作物時(shí)做出更具成本效益的決策,還可以為未來的作物營(yíng)養(yǎng)和水分管理提供必要的田間變化信息[3, 4]。應(yīng)用圖像識(shí)別技術(shù)從無人機(jī)圖像中提取西瓜果實(shí),能夠高效觀察和分析西瓜田間信息,極大減輕瓜農(nóng)的負(fù)擔(dān)。
國(guó)內(nèi)外已有研究提出采用圖像處理和機(jī)器學(xué)習(xí)方法對(duì)無人機(jī)西瓜圖像進(jìn)行分割,官大文等[5]基于HSV顏色模型,采用形態(tài)學(xué)運(yùn)算、二值化處理對(duì)由無人機(jī)拍攝的西瓜圖像進(jìn)行成熟西瓜偵測(cè),可以偵測(cè)到大部分成熟西瓜,但被西瓜根莖葉遮蔽的西瓜難以被識(shí)別出。Ekiz等[6]使用灰度共生矩陣提取灰度圖像的紋理特征,結(jié)合貝葉斯線性判別分析和K-means聚類算法對(duì)無人機(jī)圖像中的西瓜進(jìn)行分類與分割,能夠檢測(cè)到圖像中的西瓜,但無法準(zhǔn)確識(shí)別并提取西瓜果實(shí)區(qū)域。上述方法均為淺層特征提取,對(duì)田間背景復(fù)雜、不同光照條件的情況分割效果較差,存在誤分割現(xiàn)象,尤其是葉片遮擋和雜草干擾時(shí),細(xì)節(jié)區(qū)域提取不完整。
近年來,深度學(xué)習(xí)的迅速興起為植物果實(shí)分割增添了新的活力[7],其具有在復(fù)雜背景下準(zhǔn)確可靠地提取果實(shí)特征的潛力,能夠?yàn)楫a(chǎn)量預(yù)測(cè)和計(jì)數(shù)管理提供數(shù)據(jù)支撐。Zhao等[8]通過小型無人機(jī)采集高分辨率田間甜瓜圖像,基于ZF網(wǎng)絡(luò)構(gòu)建Faster R-CNN檢測(cè)模型,能夠從圖像中識(shí)別并檢測(cè)出甜瓜,但無法準(zhǔn)確提取果實(shí)區(qū)域。Kalantar等[9]基于RetinaNet深度卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)到無人機(jī)圖像中甜瓜的位置,使用Chan-Vese主動(dòng)輪廓模型估計(jì)目標(biāo)形態(tài)的輪廓,成功從圖像背景分割出果實(shí)。但傳統(tǒng)深度學(xué)習(xí)模型缺乏關(guān)注圖像中不顯著特征,沒有充分利用全局視野中果實(shí)間的像素級(jí)關(guān)系,以致上下文語義信息聯(lián)系不緊密,對(duì)相似度高的瓜秧和果實(shí)進(jìn)行分割時(shí)誤判率較高。薛君蕊等[10]采用基于改進(jìn)FCN-8s的靈武長(zhǎng)棗圖像分割方法,結(jié)合多尺度特征提取模塊,實(shí)現(xiàn)對(duì)不同成熟度靈武長(zhǎng)棗目標(biāo)的分割。Qian等[11]提出基于遞歸交叉注意力機(jī)制的U-Net改進(jìn)模型來分割甜瓜果皮和種腔特征,模型的分割效果較好。
以成熟前期獲取的無人機(jī)可見光西瓜圖像為研究對(duì)象,提出一種基于改進(jìn)U-Net網(wǎng)絡(luò)的西瓜果實(shí)語義分割模型。為實(shí)現(xiàn)田間西瓜果實(shí)的精確提取,采用深度學(xué)習(xí)方法,以U-Net網(wǎng)絡(luò)為基本框架,對(duì)模型的下采樣、跳躍連接部分進(jìn)行改進(jìn),突出圖像中各個(gè)通道的重要特征,從位置和通道兩個(gè)維度提升網(wǎng)絡(luò)對(duì)果實(shí)特征的關(guān)注度,充分考慮各像素間的關(guān)系,提高西瓜果實(shí)分割的特征表示。使用特征圖和類別激活映射圖對(duì)模型預(yù)測(cè)過程進(jìn)行可視化解釋,驗(yàn)證改進(jìn)網(wǎng)絡(luò)的合理性。
1 材料和方法
1.1 圖像采集
無人機(jī)圖像數(shù)據(jù)采集試驗(yàn)于2021年7月20日(西瓜成熟前期)在黑龍江省大慶市大同區(qū)大同鎮(zhèn)西瓜試驗(yàn)田(東經(jīng)124°56′,北緯45°59′)進(jìn)行。大疆精靈4 RTK無人機(jī),最大飛行速度16 m/s,最大飛行時(shí)間30 min,搭載DJI FC6310R相機(jī),成像分辨率為5 472像素×3 648像素,可見光圖像的數(shù)據(jù)格式為.JPG。試驗(yàn)時(shí)天氣晴朗,拍攝時(shí)間為下午14:00左右,航拍時(shí)無人機(jī)飛行高度設(shè)置為5 m左右,相機(jī)鏡頭設(shè)置為-90°俯仰角正拍,采用航點(diǎn)懸停拍照模式,獲得原始圖像80幅。
1.2 數(shù)據(jù)集構(gòu)建
考慮到無人機(jī)西瓜圖像分辨率較高且語義分割算法的運(yùn)算量較大,對(duì)原始圖像進(jìn)行了裁剪,將其裁剪成小塊再進(jìn)行標(biāo)注。數(shù)據(jù)集構(gòu)建的具體過程如下。
1) 圖像裁剪。為加快網(wǎng)絡(luò)模型的推理速度,將圖像分辨率調(diào)整為512像素×512像素,以.png格式保存裁剪后的圖像,共得到600張圖像。
2) 數(shù)據(jù)標(biāo)注。為滿足網(wǎng)絡(luò)模型訓(xùn)練、參數(shù)調(diào)優(yōu)和相關(guān)性能評(píng)估的需求,利用Adobe Photoshop CC 2019多邊形套索工具對(duì)上述圖像進(jìn)行人工精確標(biāo)注,將西瓜圖像中的果實(shí)區(qū)域像素標(biāo)記為255即白色,其余背景像素標(biāo)記為0即黑色,標(biāo)簽以.png格式保存,圖像標(biāo)注如圖1所示。
3) 數(shù)據(jù)集劃分。按照6∶2∶2的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,其中訓(xùn)練集共360幅圖像,驗(yàn)證集共120幅圖像,測(cè)試集共120幅圖像。利用訓(xùn)練集訓(xùn)練網(wǎng)絡(luò)模型,利用驗(yàn)證集調(diào)整超參數(shù),利用測(cè)試集評(píng)估模型性能。
1.3 傳統(tǒng)U-Net模型
U-Net網(wǎng)絡(luò)[12]是Ronneberger等在FCN(Fully Convolutional Networks)網(wǎng)絡(luò)[13]的基礎(chǔ)上進(jìn)行優(yōu)化得到的一種基于小數(shù)據(jù)集的網(wǎng)絡(luò),具有小樣本學(xué)習(xí)的優(yōu)勢(shì),能夠更快速、更有效地實(shí)現(xiàn)分割。該網(wǎng)絡(luò)由編碼器、跳躍連接和解碼器組成。編碼器位于模型的左側(cè),包括兩個(gè)3×3卷積塊和最大池化,通過下采樣捕獲圖像的上下文信息,實(shí)現(xiàn)逐層提取圖像中的目標(biāo)特征。解碼器位于模型的右側(cè),采用2×2轉(zhuǎn)置卷積上采樣特征圖,將尺寸擴(kuò)大兩倍,通道維度縮小一半,再執(zhí)行兩個(gè)3×3卷積,恢復(fù)目標(biāo)細(xì)節(jié)和特征圖分辨率,實(shí)現(xiàn)精準(zhǔn)的定位。最后執(zhí)行1×1卷積實(shí)現(xiàn)特征圖中每個(gè)像素點(diǎn)的分類,生成預(yù)測(cè)圖。主要特點(diǎn)是引入跳躍連接,將編碼器特征圖與上采樣特征圖在通道維度上實(shí)現(xiàn)特征融合。傳統(tǒng)U-Net網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2 西瓜果實(shí)語義分割模型建立
基于改進(jìn)U-Net網(wǎng)絡(luò)建立西瓜果實(shí)語義分割模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
主要改進(jìn)之處:(1)在網(wǎng)絡(luò)下采樣過程中加入高效通道注意力機(jī)制,位于由兩組3×3卷積、ReLU激活函數(shù)組成的標(biāo)準(zhǔn)卷積塊之后,經(jīng)過通道注意力模塊更新后的特征逐層傳遞,使網(wǎng)絡(luò)在訓(xùn)練過程中全程關(guān)注目標(biāo)特征。(2)在下采樣和上采樣之間的跳躍連接部分加入雙注意力機(jī)制,基于線性注意力和通道注意力的整合來捕獲編碼器輸出特征之間的相互依賴性,豐富特征表示,抑制圖像中不相關(guān)區(qū)域的特征激活,減少噪聲對(duì)果實(shí)分割的影響。
2.1 高效通道注意力機(jī)制
U-Net網(wǎng)絡(luò)中淺層特征圖偏向于對(duì)果實(shí)、瓜秧和背景的紋理、形狀信息的表征,深層特征圖更抽象,偏向于對(duì)西瓜圖像中果實(shí)區(qū)域類別的表征。當(dāng)針對(duì)相似度高的瓜秧和果實(shí)進(jìn)行分割時(shí),U-Net模型無法學(xué)習(xí)到其重要程度,誤判率較高。增加高效通道注意力機(jī)制(Efficient Channel Attention,ECA)[14],其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。ECA模塊是基于SENet改進(jìn)的,能夠在通道維度上分配的重要程度,有助于提高模型的特征表示能力。
對(duì)特征圖的每個(gè)通道施加全局平均池化(Global Average Pooling,GAP),得到一個(gè)維度為1×1×C的全局特征圖。采用卷積核大小為k的快速一維卷積,經(jīng)過sigmoid激活函數(shù)將數(shù)值歸一化為0到1的范圍,生成每個(gè)通道的注意力權(quán)重。使用該權(quán)重對(duì)輸入特征圖的每個(gè)通道進(jìn)行加權(quán)獲得注意力特征圖。k值的計(jì)算公式如式(1)所示。
k=log2C+12(1)
式中:C——特征圖的通道數(shù)。
ECA模塊能夠自動(dòng)關(guān)注重要特征通道,抑制葉片、瓜秧、雜草等背景干擾,賦予果實(shí)區(qū)域更大的特征權(quán)重,增強(qiáng)網(wǎng)絡(luò)對(duì)果實(shí)目標(biāo)的辨識(shí)能力。
2.2 雙注意力機(jī)制
為充分利用遠(yuǎn)程上下文信息,提高對(duì)目標(biāo)區(qū)域不顯著特征的提取能力,采用雙注意力特征融合模塊,如圖5所示,包括線性注意力機(jī)制(Linear Attention,LA)和通道注意力機(jī)制(Channel Attention,CA),采用并聯(lián)形式。線性注意力機(jī)制增強(qiáng)網(wǎng)絡(luò)對(duì)果實(shí)區(qū)域的聚焦能力,通道注意力機(jī)制突出果實(shí)區(qū)域相互聯(lián)系的特征圖。通過LA與CA機(jī)制在位置和通道維度上同時(shí)構(gòu)建長(zhǎng)距離語義依賴關(guān)系,將不同維度更新后的特征進(jìn)行疊加,增強(qiáng)模型表示能力,改善西瓜果實(shí)分割效果。
2.2.1 線性注意力機(jī)制
針對(duì)傳統(tǒng)深度學(xué)習(xí)模型沒有充分考慮全局視野中果實(shí)間的像素級(jí)關(guān)系,引入線性注意力機(jī)制[15],在局部特征上建立豐富的像素間關(guān)系,加強(qiáng)對(duì)空間維度的特征提取能力。假設(shè)N為輸入序列的長(zhǎng)度,C為輸入通道的數(shù)量,N=H×W,其中H和W分別為輸入圖像的高和寬。給定一個(gè)特征X=[x1,…,xN]∈RN×C,縮放點(diǎn)積注意力利用三個(gè)投影矩陣Wq∈RDx×Dq,Wk∈RDx×Dk,Wv∈RDx×Dv生成對(duì)應(yīng)的查詢矩陣Q、鍵矩陣K和值矩陣V,基于Transformer模型[16],其計(jì)算公式如式(2)所示。
D(Q,K,V)=softmaxQKTdkV(2)
式中:dk——比例因子。Q∈RN×Dk和KT∈RDk×N,所以QKT∈RN×N,時(shí)間和內(nèi)存復(fù)雜度為O(N2)。
根據(jù)softmax歸一化函數(shù)的定義,通過式(2)生成的第i行結(jié)果矩陣可寫為
D(Q,K,V)i=∑Nj=1eqiTkjvj∑Nj=1eqiTkj(3)
為緩解點(diǎn)積注意力計(jì)算復(fù)雜度大的問題,采用一階泰勒展開近似eqiTkj,實(shí)現(xiàn)線性注意力機(jī)制。
eqiTkj≈1+qiTkj(4)
為保證上述近似的非負(fù)性,即確保qiTkj≥-1,利用L2范數(shù)對(duì)qi和kj進(jìn)行歸一化處理,則方程可寫為
D(Q,K,V)=∑jVi,j+Q‖Q‖2K‖K‖2TVN+Q‖Q‖2∑jK‖K‖2Ti,j(5)
由于∑Nj=1kj‖kj‖2vjT和∑Nj=1kj‖kj‖2可以對(duì)每個(gè)查詢進(jìn)行計(jì)算和重用,該線性注意力機(jī)制的時(shí)間和內(nèi)存復(fù)雜度為O(N)。在降低模型計(jì)算復(fù)雜度的同時(shí),通過考慮所有數(shù)據(jù)樣本不同位置之間的相關(guān)性來捕獲長(zhǎng)距離依賴關(guān)系,使相似的語義特征相互促進(jìn),突出重點(diǎn)特征區(qū)域,提高分割精度。
2.2.2 通道注意力機(jī)制
不同類別的語義屬性體現(xiàn)在不同通道的特征上,給不同通道賦予不同的權(quán)重,表示該通道與相關(guān)語義信息的關(guān)聯(lián)程度。利用果實(shí)區(qū)域通道特征間的相互關(guān)聯(lián)性,使不顯著語義特征得到促進(jìn),有助于增強(qiáng)特定語義的特征表示。因此,引入通道注意力機(jī)制[17],其網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
特征圖A被重構(gòu)成RC×N,將A和A的轉(zhuǎn)置進(jìn)行矩陣乘法,經(jīng)過softmax函數(shù)輸出通道注意力圖X∈RC×C。
xji=exp(Ai·Aj)∑Ci=1exp(Ai·Aj)(6)
式中:Ai——矩陣A中第i個(gè)位置元素;Aj——矩陣A中第j個(gè)位置元素;xji——第i個(gè)通道對(duì)第j個(gè)通道的響應(yīng)。
將注意力圖X和A的轉(zhuǎn)置執(zhí)行矩陣乘法,其結(jié)果被重構(gòu)為RC×H×W,再乘以比例系數(shù)β,并與特征圖A執(zhí)行元素求和運(yùn)算,得到最終輸出E∈RC×H×W。該過程表示如式(7)所示。
Ej=β∑Ci=1(xjiAi)+Aj(7)
式中:β——可學(xué)習(xí)參數(shù)。
由式(7)可知,每個(gè)通道的特征E是所有通道與原始通道的加權(quán)和,這有利于提高特征的可辨別性,從而提升分割結(jié)果的完整度。
3 試驗(yàn)及結(jié)果分析
3.1 模型訓(xùn)練
3.1.1 試驗(yàn)環(huán)境
操作系統(tǒng)為Windows 10 64位版本,采用Python 3.6編程語言,試驗(yàn)硬件環(huán)境為Intel(R) Core(TM) i5-10400 CPU @ 2.9 GHz處理器,16 GB運(yùn)行內(nèi)存, NVIDIA GeForce RTX 2060顯卡?;贑UDA 10.0和cudnn 7.4.2,使用PyTorch 1.2.0深度學(xué)習(xí)框架構(gòu)建網(wǎng)絡(luò)模型。
3.1.2 損失函數(shù)
試驗(yàn)中選取合適的損失函數(shù)對(duì)于訓(xùn)練網(wǎng)絡(luò)正常工作及優(yōu)化網(wǎng)絡(luò)參數(shù)尤為重要[18]。由于西瓜果實(shí)語義分割是一個(gè)二分類問題,只有果實(shí)和背景兩個(gè)類別,其本質(zhì)是將西瓜圖像轉(zhuǎn)換成二值圖像,故采用二分類交叉熵(binary cross entropy,BCE)損失函數(shù)。BCE損失函數(shù)的數(shù)學(xué)表達(dá)式如式(8)所示。
LBCE=-1N∑Ni=1[yilogpi+(1-yi)log(1-pi)](8)
式中:N——西瓜圖像中的總像素點(diǎn)數(shù)量;yi——第i個(gè)像素點(diǎn)的真實(shí)值,若此像素點(diǎn)為果實(shí),則定義為1,否則為0;pi——第i個(gè)像素點(diǎn)的預(yù)測(cè)值。
3.1.3 試驗(yàn)參數(shù)設(shè)置
為保證模型訓(xùn)練試驗(yàn)的可重復(fù)性,采用固定隨機(jī)種子策略[19],使每次試驗(yàn)都能產(chǎn)生相同的輸入數(shù)據(jù),保證每次運(yùn)行時(shí)都能得到相同的結(jié)果。為避免產(chǎn)生過學(xué)習(xí)的情況,設(shè)置最大訓(xùn)練輪數(shù)為10個(gè)epoch[20],訓(xùn)練每輪迭代的批量大小設(shè)為1,則360個(gè)訓(xùn)練樣本每輪迭代360次,共計(jì)迭代3 600次。模型權(quán)重采用kaiming正態(tài)分布隨機(jī)初始化策略,基于動(dòng)量的隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法[21]進(jìn)行網(wǎng)絡(luò)更新,動(dòng)量因子、初始學(xué)習(xí)率和權(quán)重衰減系數(shù)分別為0.99、0.01和0.000 01。采用動(dòng)態(tài)學(xué)習(xí)率衰減訓(xùn)練策略,即在每個(gè)epoch訓(xùn)練完成后,就在驗(yàn)證集上進(jìn)行測(cè)試,記錄其F1-Score值。當(dāng)檢測(cè)到3個(gè)epoch下驗(yàn)證集的F1-Score值未發(fā)生上升時(shí),將學(xué)習(xí)率調(diào)整為原來的10%,迭代輪數(shù)達(dá)到最大值后停止訓(xùn)練。
3.1.4 模型評(píng)價(jià)指標(biāo)
為量化分析西瓜果實(shí)分割模型的性能,采用語義分割的標(biāo)準(zhǔn)化評(píng)價(jià)指標(biāo)衡量模型在驗(yàn)證集與測(cè)試集的表現(xiàn),主要包括準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-Score值(F1)和交并比(Intersection over Union,IoU),具體計(jì)算公式如式(9)~式(13)所示。
Accuracy=TP+TNTP+TN+FP+FN(9)
Precision=TPTP+FP(10)
Recall=TPTP+FN(11)
F1=2×Precision×RecallPrecision+Recall(12)
IoU=TPTP+FP+FN(13)
式中:TP——分類正確的果實(shí)像素?cái)?shù);TN——分類正確的背景像素?cái)?shù);FP——背景像素被錯(cuò)誤分類為果實(shí)像素的個(gè)數(shù);FN——果實(shí)像素被錯(cuò)誤分類為背景像素的個(gè)數(shù)。
在實(shí)際評(píng)估分割方法性能時(shí),模型分割時(shí)間也是一個(gè)不可或缺的指標(biāo),所以使用單幅圖像分割時(shí)間t作為評(píng)估標(biāo)準(zhǔn)。
3.2 模型性能評(píng)估
經(jīng)過10 epoch訓(xùn)練后,驗(yàn)證階段的模型分割性能指標(biāo)如表1所示。由表1可知,改進(jìn)U-Net模型的精確率和召回率分別為94.37%和91.01%,綜合評(píng)價(jià)指標(biāo)F1-Score值和交并比分別達(dá)到92.66%和86.32%,驗(yàn)證損失值為0.022,表明該模型具有較高的分割精度。
3.3 不同分割方法對(duì)比
為進(jìn)一步驗(yàn)證所提方法對(duì)無人機(jī)西瓜圖像果實(shí)分割的有效性,選擇傳統(tǒng)FCN8s網(wǎng)絡(luò)模型和傳統(tǒng)U-Net網(wǎng)絡(luò)模型作對(duì)比測(cè)試。以測(cè)試集中的120幅圖像作為輸入,采用模型評(píng)價(jià)指標(biāo)分別對(duì)不同分割方法進(jìn)行定量分析,各方法在120幅測(cè)試集圖像上評(píng)價(jià)指標(biāo)的平均值如表2所示。
表2中的試驗(yàn)結(jié)果表明,傳統(tǒng)U-Net模型的召回率較高,但精確率較低,這表明U-Net模型的西瓜果實(shí)提取不夠準(zhǔn)確。改進(jìn)U-Net模型在保證召回率適中的情況下將精確率提升了3.63個(gè)百分點(diǎn),較好地實(shí)現(xiàn)了精確率與召回率的平衡,因此,改進(jìn)U-Net在綜合評(píng)估指標(biāo)F1-Score值和交并比上也有較明顯的提升,相較于傳統(tǒng)FCN8s模型以及傳統(tǒng)U-Net模型,F(xiàn)1-Score值分別提高2.45個(gè)百分點(diǎn)和1.83個(gè)百分點(diǎn),交并比分別提高3.23個(gè)百分點(diǎn)和2.15個(gè)百分點(diǎn)。綜合五種精度評(píng)估結(jié)果,改進(jìn)模型的誤分割情況減少,整體分割性能優(yōu)于其他算法,進(jìn)一步證明該模型解決無人機(jī)圖像西瓜果實(shí)分割問題的有效性。改進(jìn)U-Net模型的單幅圖像分割時(shí)間為0.145 s,與傳統(tǒng)U-Net模型相差不大,總體耗時(shí)有較小增加,這是由于注意力模塊的引入,計(jì)算注意力權(quán)重存在一定的耗時(shí)。
為更直觀比較傳統(tǒng)FCN8s模型、傳統(tǒng)U-Net模型及改進(jìn)U-Net模型的提取效果,采用不同方法在測(cè)試集西瓜圖像上進(jìn)行分割結(jié)果比較,如圖7所示。
由圖7可以看出,F(xiàn)CN8s模型能夠粗糙地將西瓜果實(shí)從背景中提取出來,但分割的效果不是很好。由于光照陰影、葉片遮擋和雜草干擾的影響,存在一定程度的誤分割現(xiàn)象,果實(shí)區(qū)域也存在較小的孔洞。U-Net模型分割出的果實(shí)區(qū)域與實(shí)際果實(shí)區(qū)域基本一致,果實(shí)邊緣分割也較為平滑,但分割結(jié)果仍然不夠準(zhǔn)確,仍存在少量的區(qū)域識(shí)別錯(cuò)誤現(xiàn)象,將背景區(qū)域識(shí)別為果實(shí)區(qū)域。改進(jìn)U-Net模型基本能把不同目標(biāo)區(qū)域劃分開,且具有更少的噪聲點(diǎn)。對(duì)西瓜果實(shí)提取的錯(cuò)誤較少,分割的結(jié)果在目標(biāo)的邊界和形狀上相比傳統(tǒng)U-Net模型要更加精細(xì)。這是因?yàn)閳D像的背景是分散的,改進(jìn)U-Net模型通過增加雙注意力機(jī)制,學(xué)習(xí)與背景相對(duì)應(yīng)的像素之間的長(zhǎng)期依賴關(guān)系可以幫助網(wǎng)絡(luò)降低誤分率。同時(shí),通過增加高效通道注意力機(jī)制,使得模型能夠?qū)W習(xí)到更多較為細(xì)節(jié)的特征信息,從而提高西瓜果實(shí)分割任務(wù)的準(zhǔn)確性??傮w來說,改進(jìn)U-Net模型能夠有效捕獲西瓜圖像中的果實(shí)特征,較好解決了誤分割和細(xì)節(jié)邊緣分割不精確的問題,具有良好的分割效果和泛化能力。
3.4 不同模型特征圖與熱力圖可視化效果對(duì)比
為更加直觀呈現(xiàn)模型所學(xué)習(xí)到的特征及圖像中某個(gè)區(qū)域的重要程度,更好地理解改進(jìn)U-Net模型,在預(yù)測(cè)過程中分別對(duì)傳統(tǒng)U-Net模型及改進(jìn)U-Net模型的最后一層卷積層進(jìn)行特征圖、熱力圖可視化。熱力圖中的某個(gè)區(qū)域顏色越亮,表示網(wǎng)絡(luò)模型對(duì)該區(qū)域的關(guān)注度越強(qiáng)。以成熟前期的無人機(jī)圖像西瓜果實(shí)分割為例,得到如圖8所示的結(jié)果。
觀察模型的特征圖、熱力圖,發(fā)現(xiàn)兩種模型對(duì)西瓜果實(shí)的學(xué)習(xí)效果及關(guān)注區(qū)域不同。從圖8(a)和圖8(b)中觀察到傳統(tǒng)U-Net模型對(duì)目標(biāo)的局部細(xì)節(jié)區(qū)域?qū)W習(xí)效果存在明顯缺陷,關(guān)注的區(qū)域包含西瓜果實(shí)的部分區(qū)域和背景區(qū)域,存在關(guān)注區(qū)域錯(cuò)誤的問題。具體表現(xiàn)在相似度高的瓜秧被識(shí)別成果實(shí)區(qū)域。從圖8(c)和圖8(d)中觀察到改進(jìn)U-Net模型對(duì)目標(biāo)的主體區(qū)域?qū)W習(xí)效果更好,對(duì)目標(biāo)位置邊緣的判斷更加準(zhǔn)確,且熱力圖呈現(xiàn)更加集中,說明對(duì)目標(biāo)位置的關(guān)注程度更高,充分解釋了改進(jìn)網(wǎng)絡(luò)的合理性。具體表現(xiàn)在模型定位到圖像中重要目標(biāo)的位置,增強(qiáng)了對(duì)圖像深層信息的提取能力;引入注意力機(jī)制,使得網(wǎng)絡(luò)模型更關(guān)注于西瓜果實(shí)區(qū)域,有效抑制了光照不均勻、特征不顯著等因素干擾。
4 結(jié)論
為解決無人機(jī)西瓜圖像因存在田間背景復(fù)雜、光照不均勻、特征不顯著等情況容易導(dǎo)致誤分割和細(xì)節(jié)邊緣分割不精確的問題,提出一種基于深度學(xué)習(xí)的西瓜果實(shí)語義分割模型。
1) 采用U-Net模型作為基礎(chǔ)網(wǎng)絡(luò),分別在下采樣和跳躍連接部分進(jìn)行了改進(jìn),并在自建西瓜分割數(shù)據(jù)集上進(jìn)行了訓(xùn)練、驗(yàn)證和測(cè)試,進(jìn)一步提升模型的分割性能。
2) 在測(cè)試集上的結(jié)果表明,改進(jìn)U-Net模型的準(zhǔn)確率、精確率、召回率、F1-Score值和交并比分別為99.03%、92.67%、90.55%、91.21%和84.71%,單幅圖像分割時(shí)間為0.145 s。與FCN8s模型和U-Net模型相比,該模型的分割精度有所提升。
3) 采用特征圖和熱力圖從模型學(xué)習(xí)效果及關(guān)注區(qū)域的位置和強(qiáng)度進(jìn)行可視化解釋,進(jìn)一步驗(yàn)證了改進(jìn)網(wǎng)絡(luò)的合理性。
4) 與其他兩種模型相比,改進(jìn)U-Net模型能較好解決誤分割和細(xì)節(jié)邊緣分割不精確的問題,分割結(jié)果中的噪聲點(diǎn)較少,具有良好的分割效果和泛化能力,為利用無人機(jī)遙感技術(shù)進(jìn)行田間西瓜果實(shí)計(jì)數(shù)管理和產(chǎn)量預(yù)估提供理論基礎(chǔ)和技術(shù)支撐。
參 考 文 獻(xiàn)
[1]Midtiby H S, Pastucha E. Pumpkin yield estimation using images from a UAV [J]. Agronomy, 2022, 12(4): 964.
[2]Zou K, Chen X, Zhang F, et al. A field weed density evaluation method based on UAV imaging and modified U-Net [J]. Remote Sensing, 2021, 13(2): 310.
[3]朱啟兵, 張夢(mèng), 劉振方, 等. 基于點(diǎn)云配準(zhǔn)的盆栽金桔果實(shí)識(shí)別與計(jì)數(shù)方法 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(5): 209-216.Zhu Qibing, Zhang Meng, Liu Zhenfang, et al. Identification and counting method of potted kumquat fruits based on point cloud registration [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(5): 209-216.
[4]He L, Fang W, Zhao G, et al. Fruit yield prediction and estimation in orchards: A state-of-the-art comprehensive review for both direct and indirect methods [J]. Computers and Electronics in Agriculture, 2022, 195: 106812.
[5]官大文, 王春源, 王駿發(fā). 基于無人機(jī)機(jī)器視覺的西瓜偵測(cè)創(chuàng)新農(nóng)場(chǎng)管理模式[J]. 海峽科學(xué), 2020(11): 62-68.Guan Dawen, Wang Chunyuan, Wang Junfa. Watermelon detection and innovative farm management mode based on UAV machine vision [J]. Straits Science, 2020(11): 62-68.
[6]Ekiz A, Arca S, Bozdogan A M. Classification and segmentation of watermelon in images obtained by unmanned aerial vehicle [C]. 2019 11th International Conference on Electrical and Electronics Engineering (ELECO), 2019: 619-622.
[7]Li Q, Jia W, Sun M, et al. A novel green apple segmentation algorithm based on ensemble U-Net under complex orchard environment [J]. Computers and Electronics in Agriculture, 2021, 180: 105900.
[8]Zhao T, Wang Z, Yang Q, et al. Melon yield prediction using small unmanned aerial vehicles [C]. Autonomous Air and Ground Sensing Systems for Agricultural Optimization and Phenotyping Ⅱ. SPIE, 2017, 10218: 53-58.
[9]Kalantar A, Edan Y, Gur A, et al. A deep learning system for single and overall weight estimation of melons using unmanned aerial vehicle images [J]. Computers and Electronics in Agriculture, 2020, 178: 105748.
[10]薛君蕊, 王昱潭, 曲愛麗, 等. 基于改進(jìn)FCN-8s的靈武長(zhǎng)棗圖像分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(5): 191-197.Xue Junrui, Wang Yutan, Qu Aili, et al. Image segmentation method for Lingwu long jujubes based on improved FCN-8s [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(5): 191-197.
[11]Qian C, Liu H, Du T, et al. An improved U-Net network-based quantitative analysis of melon fruit phenotypic characteristics [J]. Journal of Food Measurement and Characterization, 2022, 16(5): 4198-4207.
[12]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation [C]. International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer, Cham, 2015: 234-241.
[13]Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [J]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[14]Wang Q, Wu B, Zhu P, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 11531-11539.
[15]Li R, Zheng S, Duan C, et al. Multistage attention ResU-Net for semantic segmentation of fine-resolution remote sensing images [J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 1-5.
[16]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]. Advances in Neural Information Processing Systems, 2017, 30.
[17]Fu J, Liu J, Tian H, et al. Dual attention network for scene segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 3146-3154.
[18]黃林林, 李世雄, 譚彧, 等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)算法的路徑導(dǎo)航研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2022, 43(4): 146-152,159.
Huang Linlin, Li Shixiong, Tan Yu, et al. Research on farmland route navigation based on an improved convolutional neural network algorithm [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(4): 146-152, 159.
[19]王濤. 基于光譜技術(shù)的土壤理化信息檢測(cè)方法研究[D]. 杭州: 浙江大學(xué), 2020.Wang Tao. Study on soil physical and chemical information detection methods based on spectral technology [D]. Hangzhou: Zhejiang University, 2020.
[20]王翔宇, 李海生, 呂麗君, 等. 基于U-net和可見光譜圖像的黃瓜褐斑病分割[J]. 光譜學(xué)與光譜分析, 2021, 41(5): 1499-1504.Wang Xiangyu, Li Haisheng, Lü Lijun, et al. Segmentation of cucumber target leaf spot based on U-Net and visible spectral images [J]. Spectroscopy and Spectral Analysis, 2021, 41(5): 1499-1504.
[21]Rakhlin A, Shamir O, Sridharan K. Making gradient descent optimal for strongly convex stochastic optimization [J].arXiv Preprint arXiv: 1109.5647, 2012.
基金項(xiàng)目:黑龍江省大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目(202010223007);黑龍江八一農(nóng)墾大學(xué)校內(nèi)培育課題(XZR2017—10)
第一作者:邱金凱,男,1998年生,河北滄州人,碩士研究生;研究方向?yàn)橹参锉硇?、?jì)算機(jī)視覺和深度學(xué)習(xí)。E-mail: jinkai2020_2023@163.com
通訊作者:許秀英,女,1978年生,吉林永吉人,碩士,副教授;研究方向?yàn)檗r(nóng)業(yè)機(jī)器人。E-mail: xxy_byau@163.com