摘 要: 觀測(cè)葉片是了解植物生長(zhǎng)情況的重要措施,為實(shí)現(xiàn)溫室系統(tǒng)智能化管理,確保茄科植物健康生長(zhǎng),使用實(shí)例分割技術(shù)可以獲取到茄科植物在植物苗期的葉片生長(zhǎng)信息。提出一種基于YOLOv5 模型的茄科植物葉片實(shí)例分割模型YOLOv5-Biformer,該模型針對(duì)茄科植物葉片的小目標(biāo)特征,在主干網(wǎng)絡(luò)中加入稀疏注意力網(wǎng)絡(luò),可以有效提高茄科植物葉片實(shí)例分割效率。試驗(yàn)結(jié)果表明,YOLOv5-Biformer 模型在茄科植物葉片數(shù)據(jù)集上與基準(zhǔn)模型相比,在精確度、召回率和平均精度指標(biāo)上分別提高0.5、1.9 和1.0 個(gè)百分點(diǎn)。該模型在智能溫室環(huán)境下對(duì)于苗期茄科植物葉片的實(shí)例分割有顯著效果,為實(shí)現(xiàn)溫室系統(tǒng)智能化管理提供新思路。
關(guān)鍵詞:茄科植物;葉片;實(shí)例分割;YOLOv5;注意力機(jī)制;溫室
中圖分類(lèi)號(hào):S126 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1795(2024)06-0026-08
DOI:10.19998/j.cnki.2095-1795.2024.06.005
0 引言
新疆維吾爾自治區(qū)(簡(jiǎn)稱(chēng)新疆)的蔬菜作物豐富多樣,2022 年種植面積超過(guò)2 萬(wàn)hm2, 總產(chǎn)量達(dá)到290 萬(wàn)t,其中以番茄、辣椒等茄科植物為主[1]。在苗期觀測(cè)植物葉片形態(tài)特征對(duì)于種類(lèi)鑒定和生長(zhǎng)狀態(tài)評(píng)估具有重要意義。然而,在自動(dòng)化農(nóng)業(yè)和植物學(xué)研究中,準(zhǔn)確分割茄科植物葉片仍然是一個(gè)具有挑戰(zhàn)性的任務(wù)。葉片實(shí)例分割是計(jì)算機(jī)視覺(jué)應(yīng)用于數(shù)字農(nóng)業(yè)上的一項(xiàng)關(guān)鍵技術(shù),將植物葉片逐個(gè)從復(fù)雜的背景中精確地分離出來(lái),為后續(xù)的葉片分析和測(cè)量提供可靠的基礎(chǔ)[2]。
近年來(lái),深度學(xué)習(xí)方法在圖像分割領(lǐng)域取得了顯著的突破。卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于植物葉片實(shí)例分割任務(wù),這些方法通過(guò)端到端的訓(xùn)練,能夠?qū)W習(xí)到圖像的高級(jí)特征和語(yǔ)義信息,從而在不同場(chǎng)景下實(shí)現(xiàn)準(zhǔn)確的葉片分割[3]。HARIHARAN B 等[4] 提出的實(shí)例分割算法涉及生成掩碼建議(masksuggestion),然后對(duì)生成的建議進(jìn)行分類(lèi)。HE K 等[5]在Faster R-CNN 的基礎(chǔ)上提出了Mask R-CNN 模型,為了提高分割效果引入了掩碼分支,用于預(yù)測(cè)分割掩膜;設(shè)計(jì)了RoIAlign 層,通過(guò)采用雙線性插值的方法,計(jì)算每個(gè)感興趣區(qū)域采樣點(diǎn)的輸入特征值,以確保特征提取與輸入的一致性。這一創(chuàng)新顯著提升了分割效果, 為未來(lái)的圖像分割研究奠定了可靠的基礎(chǔ)。HUANG Z 等[6] 提出了Mask Scoring R-CNN 模型,對(duì)于Mask R-CNN 模型中過(guò)于仰賴(lài)分類(lèi)分支置信度作為掩膜質(zhì)量評(píng)價(jià)的問(wèn)題。模型通過(guò)使用預(yù)測(cè)掩膜與標(biāo)注掩膜的交并比(MaskIoU)來(lái)描述掩膜的分割質(zhì)量;引入了全新的MaskIoU Head 分支,將MaskIoU 與分類(lèi)得分相乘,從而計(jì)算掩膜的分?jǐn)?shù),以更準(zhǔn)確地評(píng)估掩膜的質(zhì)量。這項(xiàng)研究為改進(jìn)Mask R-CNN 模型的性能提供了有效的解決方案,從而計(jì)算出掩膜的分?jǐn)?shù);這一算法調(diào)整有助于校正掩碼質(zhì)量與得分之間的偏差,顯著提升了分割性能。XIE E 等[7] 提出的Polar Mask 則借鑒了FCOS 算法[8],運(yùn)用極坐標(biāo)系對(duì)物體輪廓進(jìn)行了建模,從而實(shí)現(xiàn)了在無(wú)需檢測(cè)框的情況下進(jìn)行實(shí)例分割。ZHANG G 等[9] 提出了名為“Refine Mask”的方法,該方法利用邊緣信息和語(yǔ)義分割信息來(lái)進(jìn)一步優(yōu)化Mask R-CNN 生成的粗糙掩碼邊緣。WANG Y 等[10]也提出了一種名為“ISTR”的方法,這是首個(gè)基于Transformer 的端到端實(shí)例分割框架;該方法通過(guò)預(yù)測(cè)低維掩碼嵌入和循環(huán)細(xì)化策略,實(shí)現(xiàn)了對(duì)實(shí)例的同時(shí)檢測(cè)和分割。
在植物葉片實(shí)例分割領(lǐng)域,王琢等[11] 以Caffe 深度學(xué)習(xí)框架為基礎(chǔ),構(gòu)建全卷積神經(jīng)網(wǎng)絡(luò)(FCN),采用有監(jiān)督的學(xué)習(xí)方法,實(shí)現(xiàn)葉片圖像的分割。YANGX 等[12] 提出了一種創(chuàng)新性的植物葉片圖像分割方法,方法基于Sc-MRCNN 架構(gòu),旨在提高植物葉片圖像分割的精確性和穩(wěn)定性;通過(guò)引入空間和通道信息的融合,將植物葉片的準(zhǔn)確分割推向了一個(gè)新的高度。PRAVEEN K J 等[13] 提出了一項(xiàng)基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep-CNN,DCNN)的方法,用于植物葉片分割,通過(guò)使用DCNN 從目標(biāo)區(qū)域中提取葉片信息,并應(yīng)用正交變換技術(shù),實(shí)現(xiàn)對(duì)CVPPP 蓮座植物數(shù)據(jù)集上葉片的精準(zhǔn)分割,分割準(zhǔn)確率達(dá)到了96%;在分割過(guò)程中,采用了CMYK 顏色空間進(jìn)行噪聲去除處理,進(jìn)一步提高了對(duì)葉片邊緣的檢測(cè)能力。GUO R 等[14] 提出了一種新的端到端模型Leaf Mask 神經(jīng)網(wǎng)絡(luò),用來(lái)劃分每個(gè)葉片區(qū)域并計(jì)算葉片數(shù)量,還為雙注意導(dǎo)向Mask 分支設(shè)計(jì)了新穎靈活的多尺度注意模塊。VAYSSADE J A 等[15]基于卷積神經(jīng)網(wǎng)絡(luò)機(jī)制,提出了一種像素級(jí)實(shí)例分割來(lái)檢測(cè)茂密樹(shù)葉環(huán)境中的樹(shù)葉,結(jié)合深輪廓感知、邊緣的葉片分割槽分類(lèi)和Pyramid CNN for Dense Leaves;應(yīng)用分水嶺算法來(lái)細(xì)化分割結(jié)果,并結(jié)合計(jì)算優(yōu)化植被指數(shù)來(lái)更好地識(shí)別和區(qū)分不同的植物實(shí)例或樹(shù)葉,但是該方法在植物發(fā)育的高級(jí)階段并不有效。李婧雯[16]使用3 種光度立體表面重建算法對(duì)植物葉片表面進(jìn)行了三維重建,并獲取了植物葉片表面法向量圖,構(gòu)建了葉片法向圖數(shù)據(jù)集,再將其作為神經(jīng)網(wǎng)絡(luò)的輸入,完成對(duì)于同一植物不同葉片的分割。
綜上所述,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,基于卷積神經(jīng)網(wǎng)絡(luò)的植物葉片分割方法在識(shí)別率、準(zhǔn)確率及處理速度等方面均取得了顯著的提升并在廣泛的領(lǐng)域得到了應(yīng)用[17]。目前,在葉片分割領(lǐng)域內(nèi)主要包括葉邊緣檢測(cè)方法和對(duì)象檢測(cè)方法,多數(shù)研究人員使用對(duì)象而不是邊緣作為分類(lèi)的特征,許多基于對(duì)象的方法在兩片葉片重疊的情況下效果不是特別理想。本研究旨在探索和改進(jìn)茄科植物葉片實(shí)例分割方法,增強(qiáng)分割算法的精確度和效能。通過(guò)綜合應(yīng)用深度學(xué)習(xí)技術(shù)、圖像增強(qiáng)方法和先進(jìn)的分割網(wǎng)絡(luò)架構(gòu),希望能夠有效地解決茄科植物葉片實(shí)例分割中的關(guān)鍵問(wèn)題,為農(nóng)業(yè)生產(chǎn)和植物學(xué)研究提供有力的支持。
1 YOLOv5 實(shí)例分割模型及改進(jìn)
1.1 YOLOv5 模型結(jié)構(gòu)
YOLOv5 是一種單階段目標(biāo)識(shí)別算法[18]。根據(jù)網(wǎng)絡(luò)深度和寬度的不同,YOLOv5 分為5 個(gè)不同的網(wǎng)絡(luò)模型版本,分別是YOLOv5s(?。OLOv5m(中)、YOLOv5l(大)、YOLOv5n(均衡)和YOLOv5x(超大)。其中,YOLOv5s 網(wǎng)絡(luò)的計(jì)算速度最快,但平均精度低,而YOLOv5x 網(wǎng)絡(luò)則相反。YOLOv5 網(wǎng)絡(luò)的模型大小大約是YOLOv4 網(wǎng)絡(luò)的1/10,具有更快的識(shí)別和定位速度。YOLOv5 網(wǎng)絡(luò)結(jié)構(gòu)主要由主干網(wǎng)絡(luò)(Backbone)、頸部(Neck)和頭部(Head)3 個(gè)關(guān)鍵部分組成。一旦輸入圖像進(jìn)入網(wǎng)絡(luò),主干網(wǎng)絡(luò)會(huì)在不同的圖像尺度上聚合特征,形成圖像的多層次特征表達(dá)。接著,頸部負(fù)責(zé)將這些特征進(jìn)行融合,以實(shí)現(xiàn)不同尺度和語(yǔ)境的信息相互交織,為后續(xù)處理提供更加豐富的信息背景。頭部是網(wǎng)絡(luò)的頂部部分,負(fù)責(zé)最終的預(yù)測(cè)任務(wù)。該層根據(jù)任務(wù)要求進(jìn)行進(jìn)一步處理,以生成目標(biāo)掩膜區(qū)域和對(duì)應(yīng)的類(lèi)別信息,這一步是網(wǎng)絡(luò)輸出預(yù)測(cè)結(jié)果的核心。其結(jié)構(gòu)如圖1 所示。
1.2 YOLOv5 模型改進(jìn)
Biformer 網(wǎng)絡(luò)是一種雙層路由注意力機(jī)制,以動(dòng)態(tài)、查詢(xún)感知的方式實(shí)現(xiàn)計(jì)算的有效分配,旨在將雙層路由注意力引入到視覺(jué)Transformer 中,以提高計(jì)算機(jī)視覺(jué)任務(wù)的性能[19-20]。本研究關(guān)注茄科植物葉片,一共涵蓋了4 個(gè)不同的類(lèi)別。為了更好地適應(yīng)試驗(yàn)的實(shí)際應(yīng)用需求并提升茄科植物葉片的分割性能,并考慮到小目標(biāo)分割的挑戰(zhàn),尤其在實(shí)際應(yīng)用中具有更大的優(yōu)勢(shì),研究借鑒了注意力機(jī)制的思想,以期達(dá)到更好的效果?;谶@個(gè)方法,本研究將Biformer 網(wǎng)絡(luò)替換YOLOv5 的主干網(wǎng)絡(luò),提出了一種改進(jìn)模型YOLOv5-Bifomer。
1.2.1 雙層路由結(jié)構(gòu)
雙層路由注意力(bi-level routing attention,BRA)是Biformer 網(wǎng)絡(luò)中最為關(guān)鍵的模塊,其目的在于增強(qiáng)注意力機(jī)制,使其能夠高效地捕捉輸入序列內(nèi)的局部及整體依賴(lài)關(guān)系。網(wǎng)絡(luò)Transformers 中的標(biāo)準(zhǔn)自注意力,通常需要在捕捉短范圍內(nèi)的局部依賴(lài)和建模長(zhǎng)范圍內(nèi)的全局依賴(lài)之間存在權(quán)衡。Biformer 網(wǎng)絡(luò)則引入了一個(gè)雙層路由的過(guò)程,以解決這一問(wèn)題。它將標(biāo)準(zhǔn)自注意力機(jī)制與全局級(jí)別的路由注意力機(jī)制結(jié)合,使得模型可以靈活地捕捉局部和全局的上下文信息。BRA 模塊結(jié)構(gòu)如圖2 所示。這一雙層路由注意機(jī)制的引入為模型的注意力機(jī)制賦予了更強(qiáng)的表達(dá)能力,通過(guò)同時(shí)考慮局部和全局的依賴(lài)關(guān)系,BRA 模塊使得模型能夠更全面地理解輸入序列中的關(guān)聯(lián)信息,從而提升了模型在處理復(fù)雜關(guān)系時(shí)的性能。這種創(chuàng)新性的設(shè)計(jì)在Biformer 網(wǎng)絡(luò)中發(fā)揮著關(guān)鍵作用,為模型在處理茄科植物葉片等情景下的分割問(wèn)題提供了有效的解決方案。
首先進(jìn)行區(qū)域劃分, 給定一個(gè)2D 輸入特征圖X∈RH×W×C,BRA 將其分割成S×S 個(gè)非重疊的區(qū)域,使得每個(gè)區(qū)域包含HW/S2個(gè)特征向量。這一步通過(guò)將X 重新整形為Xr∈RS2×(HW/S2)×C來(lái)完成。這種劃分可以幫助BRA同時(shí)考慮到全局和局部的信息。
接下來(lái)使用標(biāo)準(zhǔn)的自注意力機(jī)制,類(lèi)似于傳統(tǒng)的Transformer 模型。對(duì)于給定的輸入序列,每個(gè)位置都計(jì)算出一個(gè)查詢(xún)(query)向量、一組鍵(key)向量和一組值(value)向量。然后,通過(guò)點(diǎn)積計(jì)算查詢(xún)向量與鍵向量,再進(jìn)行Softmax 操作,得到注意力權(quán)重,最后將權(quán)重與對(duì)應(yīng)的值向量加權(quán)求和,得到當(dāng)前位置的輸出表示。經(jīng)過(guò)線性投影得到查詢(xún)(Q)、鍵(K)和值(V)張量,記為Q,K,V ∈RS 2×(HW/S 2)×C,其中Wq,Wk,Wv∈RC×C 分別是查詢(xún)、鍵、值的投影權(quán)重,給定輸入序列表示為X。模型如下
Q=XrWq (1)
K=XrWk (2)
V=XrWv (3)
分別對(duì)Q 和K 應(yīng)用每個(gè)區(qū)域的平均,推導(dǎo)出區(qū)域級(jí)別的查詢(xún)和鍵Qr,Kr∈RS 2×C。Qr 和轉(zhuǎn)置的Kr 之間的矩陣乘法,得到區(qū)域間親和性圖的鄰接矩陣Ar∈ RS 2×S2。模型如下
Ar=Qr(Kr)T (4)
鄰接矩陣Ar 中的元素衡量了兩個(gè)區(qū)域之間的語(yǔ)義關(guān)聯(lián)程度。執(zhí)行的核心步驟是通過(guò)僅保留每個(gè)區(qū)域的前k 個(gè)連接來(lái)修剪親和圖。具體來(lái)說(shuō),通過(guò)使用逐行的top-k 操作得到一個(gè)路由索引矩陣Ir∈NS2×K,Ir 的第i 行包含第i 區(qū)最相關(guān)區(qū)域的k 個(gè)指標(biāo)。模型如下
Ir=ttopkIIndex(Ar) (5)
然后,BRA 模塊引入了全局路由注意力(globalrouting vector),以捕捉更遠(yuǎn)處的全局依賴(lài)關(guān)系。這一步,每個(gè)位置的查詢(xún)向量將被用來(lái)與全局路由向量進(jìn)行點(diǎn)積運(yùn)算,得到一個(gè)路由權(quán)重。全局路由向量可以看作是全局信息的一個(gè)表示,它是在整個(gè)輸入序列中聚合而得。通過(guò)區(qū)域到區(qū)域的路由索引矩陣Ir,應(yīng)用細(xì)粒度的令牌對(duì)令牌的注意力。對(duì)于區(qū)域i 中的每個(gè)查詢(xún)令牌,它將關(guān)注索引為Ir(i,1),Ir(i,2),……,Ir(i,k)的k個(gè)路由后的區(qū)域中的所有鍵值對(duì)。通過(guò)與全局路由向量的點(diǎn)積運(yùn)算,每個(gè)位置都能獲得一個(gè)路由權(quán)重,該權(quán)重表示當(dāng)前位置對(duì)全局信息的重要性。其中g(shù)gather 操作用于從輸入張量中按照給定的索引集合收集元素,Kg,Vg2RS 2×(KHW/S 2)×C是收集到的鍵和值張量。模型如下
Kg=ggather(K,Ir) (6)
Vg=ggather(V,Ir) (7)
最后,將局部自注意力的輸出表示與全局路由注意力的輸出表示進(jìn)行加權(quán)求和,得到最終的位置表示。這種加權(quán)的方式使得模型能夠在保留局部上下文信息的同時(shí),加入更遠(yuǎn)處的全局依賴(lài)關(guān)系,從而更好地理解輸入序列的雙向上下文。AAttention 表示注意力機(jī)制的計(jì)算。通常,注意力機(jī)制涉及計(jì)算查詢(xún)向量(Q)與鍵向量(Kg)之間的相似度,然后使用Softmax 函數(shù)得到權(quán)重,最后用這些權(quán)重對(duì)值向量(Vg)進(jìn)行加權(quán)求和,LCE(local context entropy)是局部上下文熵。用于引入一些局部的信息或復(fù)雜性。局部上下文熵的具體定義會(huì)涉及對(duì)值向量(V)的操作,以反映局部信息的復(fù)雜度。模型如下
O=AAttention(Q,Kg,Vg)+LLCE(V) (8)
1.2.2 BiFormer 網(wǎng)絡(luò)結(jié)構(gòu)
BiFormer 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,在設(shè)計(jì)上汲取了Transformer 網(wǎng)絡(luò)的啟發(fā)。具體而言,在架構(gòu)中的第1階段采用了重疊的塊嵌入,而在第2~4 階段則引入了塊合并模塊,以便降低輸入空間的分辨率,同時(shí)增加通道數(shù)[21-22]。接著,采用了N 個(gè)連續(xù)的BiFormer 塊來(lái)實(shí)現(xiàn)特征的轉(zhuǎn)換。通過(guò)將Bi-Level Routing Attention(BRA)融入到BiFormer 架構(gòu)中,這個(gè)模型能夠更加有效地處理雙向的上下文信息,從而提高性能,尤其是在需要同時(shí)考慮局部和全局依賴(lài)關(guān)系的情況下。BRA 作為雙層路由的注意力機(jī)制,為模型提供了更靈活的建模能力。
BiFormer 網(wǎng)絡(luò)信息如圖4 所示。首先,采用3×3的深度卷積來(lái)隱式編碼相對(duì)位置信息。然后,分別引入BRA 模塊和由兩層多層感知機(jī)(MLP)組成的模塊,分別用于對(duì)交叉位置關(guān)系進(jìn)行建模和對(duì)每個(gè)位置的嵌入進(jìn)行處理。通過(guò)調(diào)整網(wǎng)絡(luò)的寬度(即基礎(chǔ)通道數(shù)C)和深度(即每個(gè)階段使用的BiFormer 塊數(shù),Ni,其中i=1,2,3,4),從而實(shí)例化了3 種不同規(guī)模的BiFormer模型。
2 模型訓(xùn)練
2.1 數(shù)據(jù)來(lái)源
本研究使用茄科植物作為研究對(duì)象,包括番茄、茄子和辣椒3 種。為了對(duì)本研究方法進(jìn)行真實(shí)有效的評(píng)估,構(gòu)建了茄科植物葉片數(shù)據(jù)集,并分成用于訓(xùn)練和測(cè)試的樣本。這些樣本是在實(shí)際智能溫室環(huán)境中進(jìn)行拍攝獲取的,以保證數(shù)據(jù)與真實(shí)應(yīng)用場(chǎng)景一致,智能溫室環(huán)境如圖5 所示[23]。該智能溫室裝備了一套綜合環(huán)境控制系統(tǒng),可以直接調(diào)節(jié)室內(nèi)的溫度、光照、水分、營(yíng)養(yǎng)和氣體等多種因素,為植物的生長(zhǎng)創(chuàng)造了理想的環(huán)境條件。拍攝地點(diǎn)位于新疆烏魯木齊市經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)的新疆農(nóng)業(yè)大學(xué)陸港校區(qū)(三坪教學(xué)實(shí)踐基地)。使用手機(jī)在自然光照的條件下進(jìn)行植物圖像采集,拍攝的高度保持在植物正上方30 cm。共采集了1 500 張圖像數(shù)據(jù),這些圖像以JPEG 格式進(jìn)行保存。
2.2 圖像數(shù)據(jù)預(yù)處理
在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,必須對(duì)圖像進(jìn)行篩選,并對(duì)其進(jìn)行調(diào)整以達(dá)到模型訓(xùn)練的需求。首先,需要丟棄不適合的圖像。其次,在調(diào)整植物大小時(shí)避免改變植物形態(tài),具體步驟:①采集的原始圖像大小4 096 像素×3 072 像素;②將圖像大小調(diào)整為640 像素×480 像素(與MS COCO 數(shù)據(jù)集相同);③在構(gòu)建數(shù)據(jù)集的過(guò)程中,會(huì)保留一部分模糊、遮擋和不完整的圖像作為負(fù)樣本[24]。最終,從原始的1 500 張圖像中,挑選出1 000張作為最終數(shù)據(jù)集。為了更好地豐富樣本圖像,使數(shù)據(jù)集更具代表性,并能更準(zhǔn)確地反映現(xiàn)場(chǎng)數(shù)據(jù)的真實(shí)情況,在數(shù)據(jù)集構(gòu)建的基礎(chǔ)上,采取了數(shù)據(jù)增強(qiáng)的方法,進(jìn)行了隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)和縮放的擴(kuò)充,進(jìn)一步提升數(shù)據(jù)集的多樣性[25]。這一策略可以有效地豐富數(shù)據(jù)集,提升模型的訓(xùn)練精度,并減少出現(xiàn)過(guò)擬合問(wèn)題的可能性[26]。
使用Labelme 軟件對(duì)數(shù)據(jù)集中的原始圖像進(jìn)行標(biāo)注,并對(duì)目標(biāo)物體的外邊緣進(jìn)行輪廓勾畫(huà),以獲得用于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的標(biāo)記數(shù)據(jù)集,數(shù)據(jù)標(biāo)注的類(lèi)別為番茄真葉(Tomato leaf)、番茄子葉(Cotyledon leaf)、辣椒葉片(Pepper leaf)、茄子葉片(Eggplant leaf),原始圖像和標(biāo)注圖像如圖6 所示[27]。將數(shù)據(jù)集中劃分為訓(xùn)練集和測(cè)試集,每個(gè)文件夾中包括images 和labels,分別存放圖像和標(biāo)簽,比例8∶2[28-29]。標(biāo)注完的坐標(biāo)信息保存在JSON 格式的文件中, 由于要訓(xùn)練YOLOv5 和MASK R-CNN 網(wǎng)絡(luò)模型,所以要將標(biāo)注完的JSON 文件轉(zhuǎn)換成txt 文件和符合MASK R-CNN 模型的JSON 文件。
2.3 環(huán)境配置
本研究在配置為Intel Core i7-12650H 處理器、主頻2.3 GHz、運(yùn)行內(nèi)存16 GB、顯卡Nvidia 4060、顯存8 GB 及Windows 10 系統(tǒng)的筆記本電腦上展開(kāi)。編程語(yǔ)言使用Python 3.8,并以PyTorch 深度學(xué)習(xí)框架為基礎(chǔ)來(lái)構(gòu)建實(shí)例分割模型,均方誤差函數(shù)曲線收斂后對(duì)模型進(jìn)行分析。
在模型訓(xùn)練時(shí)將圖像分辨率統(tǒng)一裁剪成640 像素×480 像素,選用隨機(jī)梯度下降法優(yōu)化器,訓(xùn)練100個(gè)Epoch,設(shè)置批次大小5、初始學(xué)習(xí)率0.01,動(dòng)量參數(shù)和權(quán)值衰減參數(shù)分別設(shè)置0.937 和0.000 5。
2.4 評(píng)價(jià)指標(biāo)
在圖像分割任務(wù)中,評(píng)估算法的準(zhǔn)確性需要采用一系列評(píng)價(jià)指標(biāo)[30]。對(duì)于實(shí)例分割技術(shù)而言,通常使用類(lèi)別平均精度mAP(mean average precision)作為主要評(píng)價(jià)指標(biāo)。其中,精確度Pprecision (precision)、召回率Rrecall(recall)及查準(zhǔn)率?查全率PR(precision-recall)曲線下的面積AP 是構(gòu)成mAP 的關(guān)鍵要素,高AP 值表示模型性能較佳。在圖像分割任務(wù)中,通常需要對(duì)不同類(lèi)別進(jìn)行分割,mAP 則是各類(lèi)別AP 的平均值,綜合衡量了模型在多個(gè)類(lèi)別上的表現(xiàn)。
式中 TP——被正確判定為正例樣本數(shù)量
FP——錯(cuò)誤判定為正例樣本數(shù)量
FN——被錯(cuò)誤判定為負(fù)例樣本數(shù)量
3 試驗(yàn)結(jié)果及分析
3.1 模型分割結(jié)果對(duì)比
將原YOLOv5 網(wǎng)絡(luò)模型和改進(jìn)后獲得的YOLOv5-BiFormer 模型在205 張測(cè)試集上進(jìn)行試驗(yàn)對(duì)比,選擇同一張茄科植物葉片圖片進(jìn)行對(duì)比,以驗(yàn)證改進(jìn)網(wǎng)絡(luò)的實(shí)際分割效果,如圖7 所示。
由圖7 可知,由于茄科植物的嫩芽目標(biāo)比較小,原YOLOv5 模型對(duì)于多目標(biāo)場(chǎng)景下的茄科植物嫩芽等小目標(biāo)分割能力較弱,出現(xiàn)分割不完整和小目標(biāo)丟失等現(xiàn)象。然而,經(jīng)過(guò)改進(jìn)的YOLOv5-BiFormer 模型在同樣的多目標(biāo)范圍下表現(xiàn)出更高的分割準(zhǔn)確性。這表明在考慮茄科植物葉片等小目標(biāo)的分割任務(wù)時(shí),采用了BiFormer 架構(gòu)的模型能夠更好地捕捉目標(biāo)的細(xì)節(jié)信息,從而取得了更令人滿(mǎn)意的結(jié)果。這個(gè)改進(jìn)不僅提升了嫩芽目標(biāo)的定位精度,還在整體場(chǎng)景中展現(xiàn)出更好的目標(biāo)分割能力。
3.2 不同算法比較
將基于YOLOv5 的YOLOv5-Biformer 模型與主流的實(shí)例分割網(wǎng)絡(luò)模型MASK R-CNN、YOLOv5s 進(jìn)行試驗(yàn)對(duì)比, 結(jié)果如表1 所示。通過(guò)表格可以看出,YOLOv5-Biformer 模型的平均精度比其他模型分別高25.2、1.0 個(gè)百分點(diǎn),推理速度分別減少50.2、25.1 ms。改進(jìn)后的YOLOv5-Biformer 提升效果顯著,足以滿(mǎn)足茄科植物葉片的實(shí)例分割。
將各模型訓(xùn)練中的精確度、召回率、平均精度進(jìn)行對(duì)比,如圖8 所示,橫坐標(biāo)均為訓(xùn)練次數(shù),縱坐標(biāo)分別為精確度、召回率、平均精度的數(shù)值。由圖8 可知,隨著訓(xùn)練次數(shù)的增加,準(zhǔn)確率、召回率、精度數(shù)值都有所提升。在訓(xùn)練次數(shù)≤15,平均精度快速提升;訓(xùn)練次數(shù)≥30,改進(jìn)后的YOLOv5-Biformer 模型的平均精度超過(guò)了原YOLOv5s 模型,并始終比其他模型平均精度高。
4 結(jié)束語(yǔ)
為了解決在分割茄科植物葉片時(shí)小葉片和葉片遮擋導(dǎo)致的YOLOv5 模型不準(zhǔn)確的問(wèn)題,本研究進(jìn)行了改進(jìn), 提出了YOLOv5-Biformer 的模型。在原始的YOLOv5 模型基礎(chǔ)上,引入了雙層路由注意力模塊,以一種動(dòng)態(tài)、查詢(xún)感知的方式來(lái)分配計(jì)算資源。核心模塊BRA 通過(guò)在粗區(qū)域級(jí)別上濾除最不相關(guān)的鍵值對(duì),使模型能夠更精準(zhǔn)地選擇相關(guān)信息,從而提升了模型的效率和性能。
根據(jù)茄科植物葉片在智能溫室環(huán)境中的特點(diǎn),本研究對(duì)比了不同網(wǎng)絡(luò)模型, 分別為MASK R-CNN、YOLOv5s。研究結(jié)果表明,本研究提出的YOLOv5-Biformer 模型在精確度、召回率和平均精度等指標(biāo)上都取得了顯著提升。相對(duì)于原始模型,YOLOv5-Biformer 模型的精確度提高0.5 個(gè)百分點(diǎn),召回率提高1.9 個(gè)百分點(diǎn),平均精度提高1 個(gè)百分點(diǎn)。此外,該模型的推理速度也有顯著的改善,減少25.1 ms。在實(shí)際智能溫室環(huán)境中,YOLOv5-Biformer 模型表現(xiàn)出色,其分割效果良好,能夠滿(mǎn)足實(shí)際需求。本研究成果為植物葉片的實(shí)例分割及智能農(nóng)業(yè)等領(lǐng)域的研發(fā)提供了有價(jià)值的參考。
參考文獻(xiàn)
[1]曹華.四季果蔬香 種出好“錢(qián)”景[N].新疆日?qǐng)?bào)(漢),2022-09-06(1).
[2]史彩娟,陳厚儒,張衛(wèi)明,等.圖像實(shí)例分割綜述[C]//中國(guó)高科技產(chǎn)業(yè)化研究會(huì)智能信息處理產(chǎn)業(yè)化分會(huì).第十四屆全國(guó)信號(hào)和智能信息處理與應(yīng)用學(xué)術(shù)會(huì)議論文集,2021.
[3]周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-1251.
ZHOU Feiyan, JIN Linpeng, DONG Jun. Review of convolutionalneural network[J]. Chinese Journal of Computers, 2017, 40( 6) :1229-1251.
[4]HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Simultaneousdetection and segmentation[C]//Computer Vision–ECCV 2014:13th European Conference, Zurich, Switzerland, Proceedings, PartVII 13.Springer International Publishing,2014:297-312.
[5]HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]//Proceedingsof the IEEE International Conference on Computer Vision,2017:2961-2969.
[6]HUANG Z, HUANG L, GONG Y, et al. Mask scoring RCNN[C]//Proceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition,2019:6409-6418.
[7]XIE E, SUN P, SONG X, et al. Polarmask: Single shot instancesegmentation with polar representation[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2020:12193-12202.
[8]TIAN Z,SHEN C,CHEN H,et al.FCOS:fully convolutional onestageobject detection[J].2019.a(chǎn)rxiv:1904.01355.
[9]ZHANG G,LU X,TAN J,et al.Refinemask:towards high-qualityinstance segmentation with fine-grained features[C]//Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:6861-6869.
[10]WANG Y, XU Z, WANG X, et al. End-to-end video instance segmentationwith transformers[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,2021:8741-8750.
[11]王琢,汪雅婷,宋文龍,等.基于深度學(xué)習(xí)的葉片圖像分割算法[J].森林工程,2019,35(1):42-46.
WANG Zhuo, WANG Yating, SONG Wenlong, et al. The leaf imagesegmentation algorithm based on deep learning[J].Forest Engineering,2019,35(1):42-46.
[12]YANG X, CHEN A, ZHOU G, et al. Instance segmentation andclassification method for plant leaf images based on ISC-MRCNN andAPS-DCCNN[J].IEEE Access,2020,8:151555-151573.
[13]PRAVEEN K J, DOMNIC S. Rosette plant segmentation with leafcount using orthogonal transform and deep convolutional neuralnetwork[J].Machine Vision and Applications,2020,31(1):6.
[14]GUO R, QU L, NIU D, et al. Leafmask: towards greater accuracyon leaf segmentation[C]//Proceedings of the IEEE/CVF InternationalConference on Computer Vision,2021:1249-1258.
[15]VAYSSADE J A, JONES G, GéE C, et al. Pixelwise instance segmentationof leaves in dense foliage[J]. Computers and Electronics inAgriculture,2022,195:106797.
[16]李婧雯.基于光度立體和神經(jīng)網(wǎng)絡(luò)的植物葉片重建與分割[D].西安:西安工業(yè)大學(xué),2023.
LI Jingwen. Reconstruction and segmentation of plant leaves based onphotometric stereo and neural networks[D].Xi'an:Xi'an TechnologicalUniversity,2023.
[17]樊東燕.基于CNN 的植物葉片病害智能檢測(cè)系統(tǒng)算法設(shè)計(jì)與仿真[J].農(nóng)業(yè)技術(shù)與裝備,2022(11):36-37,40.
FAN Dongyan. Design and simulation of plant leaf disease intelligentdetection system algorithm based on CNN[J].Agricultural Technologyamp; Equipment,2022(11):36-37,40.
[18]JOCHER G, STOKEN A, CHAURASIA A, et al. Ultralytics/YOLOv5: v7.0 - YOLOv5 SOTA realtime instance segmentation[J].Zenodo,2021.
[19]ZHU L,WANG X,KE Z,et al.Biformer:vision transformer withbi-level routing attention[C]//Proceedings of the IEEE/CVF Conferenceon Computer Vision and Pattern Recognition,2023:10323-10333.
[20]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is allyou need[J]. Advances in Neural Information Processing Systems,2017,30.
[21]REN S,ZHOU D,HE S,et al.Shunted self-attention via multi-scaletoken aggregation[C]//Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition,2022:10853-10862.
[22]LI K,WANG Y,GAO P,et al.Uniformer:unified transformer forefficient spatiotemporal representation learning[J]. 2022. arxiv:2201.04676.
[23]龔琴. 基于物聯(lián)網(wǎng)的溫室大棚智能監(jiān)控系統(tǒng)在農(nóng)業(yè)中的應(yīng)用[J].電腦與信息技術(shù),2022,30(1):53-56.
GONG Qin. Application of greenhouse intelligent monitoring systembased on internet of things in agriculture[J].Computer and InformationTechnology,2022,30(1):53-56.
[24]LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: commonobjects in context[C]//Computer Vision–ECCV 2014: 13thEuropean Conference, Zurich, Switzerland, Proceedings, Part V13.Springer International Publishing,2014:740-755.
[25]高友文,周本君,胡曉飛.基于數(shù)據(jù)增強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(8):62-65.
GAO Youwen, ZHOU Benjun, HU Xiaofei. Research on image recognitionof convolution neural network based on data enhancement[J]. Computer Technology and Development, 2018, 28( 8) : 62-65.
[26]SHORTEN C,KHOSHGOFTAAR T M.A survey on image data augmentationfor deep learning[J].Journal of BIG DATA,2019,6:60.
[27]RUSSELL B C,TORRALBA A,MURPHY K P,et al.LabelMe:adatabase and web-based tool for image annotation[J]. InternationalJournal of Computer Vision,2008,77:157-173.
[28]YU Y, ZHANG K, YANG L, et al. Fruit detection for strawberryharvesting robot in non-structural environment based on Mask-RCNN[J]. Computers and Electronics in Agriculture, 2019, 163:104846.
[29]GONZALEZ S,ARELLANO C,TAPIA J E.Deepblueberry:quantificationof blueberries in the wild using instance segmentation[J].IeeeAccess,2019,7:105776-105788.
[30]劉春燕.圖像分割評(píng)價(jià)方法研究[D].西安:西安電子科技大學(xué),2011.
LIU Chunyan.Survey on evaluation methods of image segmentation algorithms[D].Xi'an:Xidian University,2011.
基金項(xiàng)目: 新疆維吾爾自治區(qū)重大科技專(zhuān)項(xiàng)(2022A02011)