孟慶寬 張 漫 葉劍華 都澤鑫 宋名果 張志鵬
(1.天津職業(yè)技術(shù)師范大學(xué)自動(dòng)化與電氣工程學(xué)院, 天津 300222; 2.天津市信息傳感與智能控制重點(diǎn)實(shí)驗(yàn)室, 天津 300222;3.中國(guó)農(nóng)業(yè)大學(xué)現(xiàn)代精細(xì)農(nóng)業(yè)系統(tǒng)集成研究教育部重點(diǎn)實(shí)驗(yàn)室, 北京 100083)
蔬菜包含豐富的維生素、礦物質(zhì)和膳食纖維,是維持人體營(yíng)養(yǎng)平衡,保持身體健康的重要食物之一[1-2]。近些年,我國(guó)蔬菜種植面積穩(wěn)定在2 000萬(wàn)hm2左右,年產(chǎn)量達(dá)7億t,已經(jīng)超過(guò)糧食產(chǎn)量成為第一大農(nóng)產(chǎn)品[3]。蔬菜產(chǎn)業(yè)的迅速發(fā)展?jié)M足了人們?nèi)粘I钚枰?,但在種植過(guò)程中也存在施肥過(guò)量、農(nóng)藥使用超標(biāo)等問(wèn)題,對(duì)生態(tài)環(huán)境和人體健康產(chǎn)生不利影響。隨著電子技術(shù)和計(jì)算機(jī)技術(shù)的發(fā)展,自動(dòng)化智能農(nóng)業(yè)裝備逐漸應(yīng)用到農(nóng)業(yè)生產(chǎn)中,通過(guò)靶向噴藥、變量施肥、機(jī)械除草等一系列手段提高了蔬菜作物的產(chǎn)量與安全品質(zhì)[4-6]。
目前,大部分智能農(nóng)業(yè)裝備基于機(jī)器視覺(jué)獲取作物圖像,快速準(zhǔn)確地識(shí)別作物種類并進(jìn)行定位是實(shí)現(xiàn)智能農(nóng)業(yè)裝備高效精準(zhǔn)作業(yè)的先決條件[7-8]。在作物識(shí)別定位方面,國(guó)內(nèi)外學(xué)者開(kāi)展了一系列研究[9-14]。這些方法主要基于作物顏色、形狀、紋理、光譜和位置等特征中的一種或多種的組合實(shí)現(xiàn)作物識(shí)別定位,但在實(shí)際應(yīng)用過(guò)程中只能針對(duì)特定環(huán)境下作物進(jìn)行檢測(cè),并且容易受到自然光照、背景噪聲和枝葉遮擋等因素影響導(dǎo)致識(shí)別準(zhǔn)確率降低。
相比于常規(guī)方法,卷積神經(jīng)網(wǎng)絡(luò)在近些年得到迅速發(fā)展,其通過(guò)卷積層、池化層、全連接層對(duì)輸入圖像由淺入深地提取不同層次特征,經(jīng)過(guò)信息分類和位置回歸,實(shí)現(xiàn)對(duì)目標(biāo)的準(zhǔn)確檢測(cè)[15-19]。這些基于深度學(xué)習(xí)技術(shù)的目標(biāo)檢測(cè)方法按照檢測(cè)所需要的步驟可以分為一階段目標(biāo)檢測(cè)法和二階段目標(biāo)檢測(cè)法。一階段檢測(cè)法以SSD和YOLO系列算法為代表,主要思想是對(duì)圖像不同位置進(jìn)行均勻密集采樣產(chǎn)生不同尺度和長(zhǎng)寬比的候選框,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征后直接對(duì)候選框進(jìn)行分類回歸,此類方法的特點(diǎn)是檢測(cè)速度快,但檢測(cè)精度有限。二階段檢測(cè)法先利用區(qū)域建議網(wǎng)絡(luò)(Region proposal network,RPN)生成一系列稀疏的預(yù)測(cè)框,然后將特征圖與預(yù)測(cè)框綜合輸入到全連接層完成分類回歸,代表算法包括Faster R-CNN與F-RCN,此類方法的特點(diǎn)是精度高,但消耗時(shí)間較長(zhǎng)。
復(fù)雜農(nóng)業(yè)環(huán)境中作物識(shí)別的精準(zhǔn)性與實(shí)時(shí)性是影響農(nóng)業(yè)智能機(jī)械高效作業(yè)的重要因素之一。本文以自然環(huán)境下多類蔬菜幼苗為研究對(duì)象,提出一種輕量化二階段目標(biāo)檢測(cè)模型,以期在具有較高識(shí)別精度的基礎(chǔ)上,提高模型的推理速度。目標(biāo)檢測(cè)模型的設(shè)計(jì)思路為:先采用混合深度分離卷積作為前置基礎(chǔ)網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行運(yùn)算,以提高圖像特征提取速度與效率;在此基礎(chǔ)上融入特征金字塔網(wǎng)絡(luò),實(shí)現(xiàn)淺層特征與深層特征的融合,加強(qiáng)對(duì)多尺度目標(biāo)的檢測(cè)精度;最后將檢測(cè)頭單元進(jìn)行輕量化設(shè)計(jì),減少冗余參數(shù),降低模型計(jì)算量,并引入距離交并比(Distance-IoU, DIoU)損失作為目標(biāo)邊框回歸損失函數(shù),使位置回歸更加準(zhǔn)確快速。
二階段目標(biāo)檢測(cè)模型主要由前置基礎(chǔ)卷積網(wǎng)絡(luò)、區(qū)域生成網(wǎng)絡(luò)和檢測(cè)頭單元組成。前置基礎(chǔ)網(wǎng)絡(luò)用于提取圖像不同層次特征信息;區(qū)域生成網(wǎng)絡(luò)的功能是生成候選區(qū)域,預(yù)測(cè)候選區(qū)域樣本屬性(正樣本或負(fù)樣本),對(duì)正樣本候選區(qū)域初步進(jìn)行邊框回歸;檢測(cè)頭單元由感興趣區(qū)域池化層(Region of interest pooling, ROI pooling)和區(qū)域卷積神經(jīng)網(wǎng)絡(luò)子網(wǎng)(Region based convolutional neural network subnet,R-CNN subnet)構(gòu)成,主要負(fù)責(zé)預(yù)測(cè)池化后候選區(qū)域的目標(biāo)類別并再次進(jìn)行邊框回歸以得到預(yù)測(cè)框精確位置。二階段目標(biāo)檢測(cè)模型主要計(jì)算量集中在前置基礎(chǔ)網(wǎng)絡(luò)和檢測(cè)頭單元,通過(guò)對(duì)這兩部分網(wǎng)絡(luò)單元進(jìn)行輕量化設(shè)計(jì),能夠有效降低模型參數(shù)規(guī)模和計(jì)算復(fù)雜度。
輕量深度卷積神經(jīng)網(wǎng)絡(luò)采用深度可分離卷積代替標(biāo)準(zhǔn)卷積運(yùn)算單元從而獲得更高的計(jì)算效率和運(yùn)算速度。常規(guī)深度卷積網(wǎng)絡(luò)模型利用單一尺寸卷積核獲取圖像信息,特征像素對(duì)應(yīng)的圖像分辨率固定,無(wú)法獲取不同尺度特征,導(dǎo)致模型在準(zhǔn)確率和效率方面難以達(dá)到均衡。卷積運(yùn)算中卷積核負(fù)責(zé)圖像局部特征提取,大尺寸卷積核包含較大的感受野,能捕獲更多的特征信息,提高模型識(shí)別準(zhǔn)確率;小尺寸卷積核包含參數(shù)少,具有較高的計(jì)算效率,可以降低模型運(yùn)算量和存儲(chǔ)空間?;谶@個(gè)特點(diǎn),將多個(gè)不同尺寸卷積核融合到一個(gè)單獨(dú)的深度可分離卷積運(yùn)算中,構(gòu)成混合深度分離卷積神經(jīng)網(wǎng)絡(luò),使計(jì)算得到的特征圖像素具有不同感受野,能對(duì)應(yīng)多種圖像分辨率模式,獲得多尺度特征信息,從而有效提高特征提取精度和效率[20]?;旌仙疃确蛛x卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)思路為:設(shè)輸入特征圖為X(h,w,c),h表示特征圖高度,w表示寬度,c表示通道數(shù),沿通道方向?qū)⑻卣鲌D劃分為g組子特征圖(X(h,w,c1),X(h,w,c2),…,X(h,w,cg)),cs(s=1,2,…,g)表示第s組子特征圖通道數(shù),c1+c2+…+cg=c。建立g組不同尺寸深度卷積核(W(k1,k1,c1,m),W(k2,k2,c2,m),…,W(kg,kg,cg,m)),m表示通道乘數(shù),kt×kt(t=1,2,…,g)表示第t組卷積核尺寸。第t組輸入子特征圖與對(duì)應(yīng)深度卷積核進(jìn)行運(yùn)算得到第t組輸出子特征圖,具體定義為
(1)
式中x——特征圖像素行號(hào)
y——特征圖像素列號(hào)
ct——第t組輸入子特征圖通道數(shù)
zt——第t組輸出子特征圖通道數(shù)
i——卷積核元素行號(hào)
j——卷積核元素列號(hào)
根據(jù)式(1)計(jì)算結(jié)果,采用Contact運(yùn)算將所有子特征圖在通道維度上以加法形式進(jìn)行拼接得到最終輸出特征圖,計(jì)算公式為
(2)
其中
z=z1+z2+…+zg
式中 Contact——特征圖通道維數(shù)拼接運(yùn)算函數(shù)
z——輸出特征圖通道數(shù)
Yx,y,z——拼接后輸出特征圖
輸出特征圖尺寸與輸入子特征圖相同,通道維數(shù)等于參與運(yùn)算子特征圖通道維數(shù)之和。
本文混合深度分離卷積神經(jīng)網(wǎng)絡(luò)示意圖如圖1所示,特征圖最大分組數(shù)g=5,每組具有相同的通道數(shù),對(duì)應(yīng)的深度卷積核尺寸為{3×3,5×5,7×7,9×9,11×11},特征圖分組后與不同尺寸卷積核進(jìn)行運(yùn)算,然后對(duì)結(jié)果進(jìn)行拼接得到輸出。圖1卷積神經(jīng)網(wǎng)絡(luò)運(yùn)算過(guò)程中根據(jù)特征圖尺寸劃分為5個(gè)階段(Stage),相同尺寸特征圖屬于同一階段,相鄰階段特征圖尺寸比為2。
Faster R-CNN、R-FCN檢測(cè)模型將特征提取網(wǎng)絡(luò)最后一階段的高層次特征圖輸入到RPN網(wǎng)絡(luò),提高了模型訓(xùn)練與推理速度,不過(guò)高層特征圖分辨率低,無(wú)法有效表征不同尺度物體,尤其對(duì)小尺寸物體的檢測(cè)存在一定局限性。文獻(xiàn)[21]利用卷積神經(jīng)網(wǎng)絡(luò)中所包含的多尺度層級(jí)結(jié)構(gòu)設(shè)計(jì)了特征金字塔網(wǎng)絡(luò),通過(guò)融合淺層特征圖的高分辨率特征和深層特征圖的豐富語(yǔ)義信息,提高了深度推理模型對(duì)多尺度目標(biāo)的檢測(cè)精度。為實(shí)現(xiàn)多類別蔬菜幼苗的準(zhǔn)確分類和精確定位,本文在混合深度分離卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上融入特征金字塔網(wǎng)絡(luò),如圖2所示。
圖2中混合深度分離卷積按照自底向上的順序依次產(chǎn)生不同階段的特征圖,階段x/y(x=1,2,…,5;y=2,4,…,32)中x表示特征圖所處的階段數(shù),y表示本階段特征圖尺寸相對(duì)于輸入圖像縮小的倍數(shù)。階段2~5經(jīng)過(guò)1×1卷積運(yùn)算后分別輸入到FPN單元,其中1×1卷積的作用是使各階段特征圖輸入到FPN的通道數(shù)保持一致。FPN單元按照自頂向下的順序?qū)斎氲母邔哟翁卣鲌D進(jìn)行上采樣擴(kuò)大分辨率,然后通過(guò)相加的方式與相鄰低層次特征進(jìn)行融合。融合后的特征圖一方面輸入到后續(xù)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)推理,另一方面繼續(xù)通過(guò)上采樣與下層特征圖進(jìn)行融合?;旌仙疃确蛛x卷積階段2~5對(duì)應(yīng)FPN的P2~P5層級(jí),P6為階段5下采樣得到,用于RPN網(wǎng)絡(luò)中產(chǎn)生預(yù)測(cè)框,不參與融合操作。{P2,P3,P4,P5,P6}中每個(gè)層級(jí)負(fù)責(zé)單一尺度的信息處理,分別對(duì)應(yīng){162,322,642,1282,2562}5種尺度預(yù)測(cè)框,每種預(yù)測(cè)框具有{1∶1,1∶2,2∶1}3種長(zhǎng)寬比例,共15種預(yù)測(cè)框?qū)δ繕?biāo)對(duì)象與背景進(jìn)行預(yù)測(cè)。
在檢測(cè)頭部分,F(xiàn)aster R-CNN在ROI pooling之后連接2個(gè)包含大量參數(shù)的全連接層,候選區(qū)域在全連接層上的參數(shù)計(jì)算不共享,當(dāng)候選區(qū)域數(shù)量較多且存在大量重疊時(shí)導(dǎo)致計(jì)算速度降低;R-FCN去掉了全連接層以減少冗余參數(shù),在前置基礎(chǔ)卷積網(wǎng)絡(luò)之后生成位置敏感分?jǐn)?shù)圖,候選區(qū)域基于位置敏感分?jǐn)?shù)圖進(jìn)行池化運(yùn)算實(shí)現(xiàn)參數(shù)共享,不過(guò)位置敏感分?jǐn)?shù)圖的通道數(shù)多達(dá)3 696個(gè),計(jì)算量仍然較大。綜上所述,二階段目標(biāo)檢測(cè)模型含有一個(gè)比較重的檢測(cè)頭,大量計(jì)算集中在檢測(cè)頭部分,嚴(yán)重影響了模型運(yùn)行速度[22]。
為克服二階段目標(biāo)檢測(cè)框架檢測(cè)頭較重的問(wèn)題,本文在Faster R-CNN和R-FCN模型的基礎(chǔ)上,通過(guò)壓縮網(wǎng)絡(luò)通道維數(shù)和參數(shù)規(guī)模構(gòu)建輕量化檢測(cè)頭單元,具體設(shè)計(jì)方法為:針對(duì)混合深度分離卷積網(wǎng)絡(luò)輸出特征圖采用大尺寸非對(duì)稱卷積生成α×p×p通道的特征圖,α是與類別無(wú)關(guān)且數(shù)值較小的數(shù),取值為10,p×p等于候選區(qū)域池化后的網(wǎng)格數(shù)量,取值為49,經(jīng)過(guò)計(jì)算得到490通道的特征圖,相比于R-FCN特征圖通道維數(shù)顯著降低;然后,引入ROI Align運(yùn)算將不同尺寸候選區(qū)域所對(duì)應(yīng)的特征信息池化生成固定尺寸特征圖,ROI Align運(yùn)算利用雙線性差值法獲取坐標(biāo)為浮點(diǎn)數(shù)的像素點(diǎn)數(shù)值,將整個(gè)特征聚集過(guò)程轉(zhuǎn)化為一個(gè)連續(xù)的操作,相比于ROI pooling 操作,消除了2次整型量化帶來(lái)的計(jì)算誤差,可以提高目標(biāo)檢測(cè)精度;最后,接入1個(gè)全連接層獲得檢測(cè)目標(biāo)全局特征,并基于2個(gè)并行分支完成目標(biāo)分類和位置預(yù)測(cè)。本文使用的大尺寸非對(duì)稱卷積的卷積核為1×15和15×1,以降低模型參數(shù)計(jì)算量,同時(shí)大尺寸卷積核具有較大感受野,能增強(qiáng)模型特征提取能力。圖3為輕量化二階段目標(biāo)檢測(cè)模型原理框圖。
二階段目標(biāo)檢測(cè)框架損失函數(shù)為多任務(wù)損失,由分類損失與位置回歸損失構(gòu)成。分類損失采用交叉熵函數(shù)計(jì)算預(yù)測(cè)類別與真實(shí)類別的誤差;位置回歸損失采用Smooth L1函數(shù)計(jì)算預(yù)測(cè)框與真實(shí)框之間位置坐標(biāo)誤差,通過(guò)多次迭代縮小誤差范圍,使預(yù)測(cè)框與真實(shí)框具有較大程度的重疊。交并比(Intersection over union,IoU)表示預(yù)測(cè)框與真實(shí)框的交疊程度,是目標(biāo)檢測(cè)領(lǐng)域衡量預(yù)測(cè)框準(zhǔn)確度的指標(biāo),可以進(jìn)行反向傳播,能夠作為目標(biāo)函數(shù)進(jìn)行優(yōu)化。一些檢測(cè)框架結(jié)合IoU優(yōu)化損失函數(shù)取得良好效果,但當(dāng)預(yù)測(cè)框與真實(shí)框沒(méi)有交疊時(shí),IoU為0,損失函數(shù)也為0,沒(méi)有梯度回傳,無(wú)法進(jìn)行學(xué)習(xí)[23-24]。針對(duì)IoU損失函數(shù)存在的不足,文獻(xiàn)[25]定義了DIoU損失函數(shù),DIoU對(duì)預(yù)測(cè)框與真實(shí)框的距離、重疊率和尺度等因素建立關(guān)聯(lián),直接最小化二者的中心點(diǎn)距離,即使預(yù)測(cè)框與真實(shí)框不存在交疊,也可以為邊框提供移動(dòng)方向,使位置回歸更加快速準(zhǔn)確。DIoU損失函數(shù)定義為
(3)
(4)
式中Ldiou——DIoU損失函數(shù)
A——預(yù)測(cè)框B——真實(shí)框
d——A、B最小包圍框?qū)蔷€長(zhǎng)度
ρ(·)——?dú)W氏距離函數(shù)
Actr——預(yù)測(cè)框中心點(diǎn)坐標(biāo)
Bctr——真實(shí)框中心點(diǎn)坐標(biāo)
Iiou(A,B)——預(yù)測(cè)框與真實(shí)框交并比
本文引入DIoU作為位置回歸損失函數(shù),構(gòu)建檢測(cè)模型損失函數(shù)。損失函數(shù)包括RPN損失函數(shù)與檢測(cè)頭損失函數(shù)兩部分,每部分又由分類損失函數(shù)與位置回歸損失函數(shù)構(gòu)成。損失函數(shù)計(jì)算公式為
Ltotal=Lrpn(pl,al)+Lhead(p,u,o,s)
(5)
其中
(6)
Lhead(p,u,o,s)=Lcls(p,u)+λ′[u≥1]Ldiou(o,s)
(7)
式中Ltotal——目標(biāo)檢測(cè)模型損失函數(shù)
Lrpn——RPN網(wǎng)絡(luò)損失函數(shù)
Lhead——檢測(cè)頭網(wǎng)絡(luò)損失函數(shù)
l——錨框索引 [·]——回歸計(jì)算
pl——第l個(gè)錨框二分類預(yù)測(cè)概率
al——第l個(gè)錨框?qū)?yīng)的預(yù)測(cè)框
p——預(yù)測(cè)類別概率
u——真實(shí)類別標(biāo)簽值
λ、λ′——權(quán)重參數(shù)
Lcls——分類損失函數(shù)
Ncls——采樣的錨框數(shù)量
Nreg——采樣正負(fù)樣本數(shù)
o——RPN網(wǎng)絡(luò)輸出的預(yù)測(cè)框
s——與預(yù)測(cè)框?qū)?yīng)的真實(shí)框
試驗(yàn)運(yùn)行平臺(tái)為臺(tái)式計(jì)算機(jī),硬件配置和軟件環(huán)境為:采用AMD Ryzen 73700CPU,主頻2.4 GHz,運(yùn)行內(nèi)存16 GB,GPU型號(hào)為GeForec RTX2070,顯存為8 GB,統(tǒng)一計(jì)算設(shè)備架構(gòu)CUDA 版本為10.0,深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)CUDNN版本為7.4,深度學(xué)習(xí)框架選擇TensorFlow,在Windows 10操作系統(tǒng)上基于Python語(yǔ)言進(jìn)行編程設(shè)計(jì)。
試驗(yàn)圖像采集于天津市寧河農(nóng)場(chǎng),獲取時(shí)間為2020年4—6月,蔬菜幼苗包括白菜、花菜、茄子、黃瓜、辣椒、豆角,這6種蔬菜形態(tài)差異大,能夠充分反映控制模型泛化能力與通用性。為保證數(shù)據(jù)樣本的多樣性,在不同天氣條件、不同光照方向、不同土壤背景情況下進(jìn)行拍攝,共獲得3 600幅圖像,圖像尺寸為480像素×720像素,存儲(chǔ)格式為JPG。采集的圖像通過(guò)幾何變換與顏色變換進(jìn)行數(shù)據(jù)增強(qiáng),以提高訓(xùn)練模型的泛化性能。數(shù)據(jù)增強(qiáng)后的圖像共7 920幅,包含白菜圖像1 356幅、花菜圖像1 394幅、茄子圖像1 362幅、黃瓜圖像1 264幅、辣椒圖像1 232幅、豆角圖像1 312幅。按照8∶1∶1將增強(qiáng)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,3種數(shù)據(jù)集獨(dú)立互斥,分別用于目標(biāo)檢測(cè)模型的訓(xùn)練、參數(shù)優(yōu)化和性能評(píng)估。
為提高目標(biāo)檢測(cè)模型訓(xùn)練速度和收斂性能,將混合深度分離卷積模型在本文硬件平臺(tái)上基于ImageNet數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練。首先,對(duì)ImageNet數(shù)據(jù)集進(jìn)行預(yù)處理,將訓(xùn)練集和驗(yàn)證集數(shù)據(jù)轉(zhuǎn)換為TFRecord格式;然后,基于TFRecord數(shù)據(jù)文件開(kāi)始訓(xùn)練,訓(xùn)練時(shí)批尺寸為64,訓(xùn)練圖像1 280 000幅,圖像尺寸縮放為224像素×224像素,訓(xùn)練周期為80,每個(gè)周期迭代次數(shù)為20 000,總迭代次數(shù)1 600 000,動(dòng)量因子為0.9,權(quán)值衰減系數(shù)為1×10-4,初始學(xué)習(xí)率為0.01,利用分段常數(shù)對(duì)學(xué)習(xí)率進(jìn)行衰減,最終學(xué)習(xí)率衰減到0.000 01;最后,經(jīng)過(guò)多次迭代訓(xùn)練得到混合深度分離卷積預(yù)訓(xùn)練模型。
在此基礎(chǔ)上,采用隨機(jī)梯度下降法將目標(biāo)檢測(cè)模型部署在顯卡上以端對(duì)端的聯(lián)合方式進(jìn)行訓(xùn)練,前置特征提取網(wǎng)絡(luò)使用預(yù)訓(xùn)練好的混合深度分離卷積權(quán)重初始化,其余層用均值為0、標(biāo)準(zhǔn)差為0.01的高斯分布隨機(jī)初始化。為提高模型的訓(xùn)練效果,通過(guò)在線困難樣本挖掘技術(shù)(Online hard example mining,OHEM)強(qiáng)化對(duì)難分樣本的訓(xùn)練[26]。網(wǎng)絡(luò)訓(xùn)練過(guò)程中,訓(xùn)練集圖像為5 544幅,批尺寸為8,訓(xùn)練周期為100,1個(gè)周期迭代次數(shù)為693,動(dòng)量因子為0.9,權(quán)值衰減系數(shù)為5×10-4,初始學(xué)習(xí)率為0.002,衰減率為0.9,每迭代1個(gè)周期保存一次模型,并在驗(yàn)證集上測(cè)試模型的準(zhǔn)確率。
為客觀評(píng)價(jià)多類蔬菜幼苗識(shí)別模型的泛化能力,選擇平均精度(Average precision, AP)、平均精度均值(Mean average precision, MAP)、檢測(cè)速度、網(wǎng)絡(luò)規(guī)模作為模型性能度量指標(biāo)。本文應(yīng)用場(chǎng)景中,設(shè)蔬菜幼苗為正樣本,其他類物體和背景為負(fù)樣本,將模型正確檢測(cè)出的某類蔬菜幼苗數(shù)量和預(yù)測(cè)為此類蔬菜幼苗數(shù)量的比值定義為精確率(Precision,P),用于衡量對(duì)正樣本的識(shí)別能力;將測(cè)試集數(shù)據(jù)中某類蔬菜幼苗被正確預(yù)測(cè)數(shù)量與此類蔬菜幼苗總數(shù)的比值定義為召回率(Recall,R),用于衡量對(duì)正樣本的覆蓋能力;平均精度與精確率、召回率有關(guān),為精確率-召回率曲線與坐標(biāo)軸的積分,用于衡量模型的識(shí)別效果,數(shù)值越大表示對(duì)蔬菜幼苗識(shí)別效果越好。平均精度均值是多類別蔬菜幼苗識(shí)別平均精度的平均值,數(shù)值越高說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別精確度越高。
利用Faster R-CNN、R-FCN、本文模型對(duì)訓(xùn)練集圖像進(jìn)行訓(xùn)練。Faster R-CNN模型中批尺寸為1,訓(xùn)練周期為100,1個(gè)周期迭代次數(shù)為5 544,初始學(xué)習(xí)率為0.000 5,衰減率為0.9,每迭代1個(gè)周期保存一次模型;R-FCN模型中批尺寸為2,訓(xùn)練周期數(shù)為100,1個(gè)周期迭代次數(shù)為2 772,初始學(xué)習(xí)率為0.001,衰減率為0.9,每迭代1個(gè)周期保存一次模型,3種模型的訓(xùn)練損失與周期數(shù)量關(guān)系曲線如圖4所示。
由圖4可以看出,3個(gè)模型的損失率隨著周期迭代次數(shù)的增加逐漸降低,表明預(yù)測(cè)值與標(biāo)注值的偏離程度不斷縮小,經(jīng)過(guò)10個(gè)迭代周期訓(xùn)練后本文模型訓(xùn)練損失小于另外兩種模型,此時(shí)Faster R-CNN、R-FCN與本文模型迭代次數(shù)分別為55 440、27 720、6 930次,因此本文模型具有更快的收斂速度;此外,本文模型損失曲線收斂達(dá)到的穩(wěn)定值低于Faster R-CNN與R-FCN,表明本文模型具有更好的收斂性能。
為驗(yàn)證深度學(xué)習(xí)檢測(cè)模型設(shè)計(jì)的有效性,本文對(duì)模型進(jìn)行消融試驗(yàn),首先建立基礎(chǔ)檢測(cè)模型(由混合深度分離卷積前置網(wǎng)絡(luò)、輕量檢測(cè)頭單元、ROI pooling運(yùn)算,基于坐標(biāo)回歸的損失函數(shù)構(gòu)成),然后在基礎(chǔ)模型上增加FPN單元、進(jìn)行ROI Align運(yùn)算替換與DIoU損失替換構(gòu)成擴(kuò)展模型,將測(cè)試集樣本輸入到各版本模型進(jìn)行預(yù)測(cè),IoU取值0.5,結(jié)果如表1所示。由表1可以看出,隨著功能模塊的增加與替代,檢測(cè)模型的AP和MAP逐漸提高,最終模型的MAP可以達(dá)到97.47%。
圖5為本文模型對(duì)多類蔬菜幼苗的檢測(cè)效果圖,可以看出本文模型除了對(duì)于葉片完整清晰的蔬菜幼苗能夠準(zhǔn)確進(jìn)行位置回歸與類別預(yù)測(cè)外,在作物葉片受到病蟲(chóng)害腐蝕出現(xiàn)殘缺以及灌溉導(dǎo)致葉片附著泥土的情況下依然可以準(zhǔn)確識(shí)別(圖5a、5e)。這是因?yàn)楸疚哪P筒捎肍PN網(wǎng)絡(luò)將淺層高分辨率特征與深層語(yǔ)義特征融合,使不同層級(jí)特征信息豐富程度增加,能夠更加有效地表達(dá)目標(biāo)對(duì)象細(xì)節(jié)信息和抽象信息,即使目標(biāo)對(duì)象表型發(fā)生變化或受到外界因素影響造成特征模糊,檢測(cè)模型仍然具有較高的識(shí)別精度和較強(qiáng)的魯棒性。此外,預(yù)測(cè)框能夠準(zhǔn)確覆蓋蔬菜幼苗投影區(qū)域,沒(méi)有出現(xiàn)邊框過(guò)大包含較多背景或者過(guò)小導(dǎo)致部分目標(biāo)區(qū)域沒(méi)有被包括的情況,說(shuō)明引入DIoU作為位置回歸損失能夠使預(yù)測(cè)邊框具有較高的準(zhǔn)確性。
采用相同訓(xùn)練集樣本對(duì)Faster R-CNN與R-FCN模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型與本文模型進(jìn)行性能對(duì)比,其中Faster R-CNN與R-FCN的基礎(chǔ)網(wǎng)絡(luò)采用ResNet-101。
圖6為不同網(wǎng)絡(luò)模型檢測(cè)蔬菜幼苗得到的P-R曲線。從圖6中可以看出,召回率在[0,50%]區(qū)間時(shí),3種模型的精確率接近,維持在較高水平;召回率在[50%,100%]區(qū)間時(shí),隨著召回率的增加3個(gè)模型精確率呈下降趨勢(shì),在召回率相同的條件下本文模型精確率高于另外兩種模型。
表2為3種檢測(cè)模型的性能對(duì)比。在準(zhǔn)確性方面,本文模型對(duì)蔬菜幼苗的平均精度均值比Faster R-CNN和R-FCN分別高1.19、0.83個(gè)百分點(diǎn),具有較強(qiáng)的特征提取與精準(zhǔn)的位置回歸能力;在實(shí)時(shí)性方面,采用每秒處理的圖像幀數(shù)作為速度衡量指標(biāo),由于本文模型對(duì)特征提取網(wǎng)絡(luò)和檢測(cè)頭進(jìn)行輕量化設(shè)計(jì),降低了網(wǎng)絡(luò)復(fù)雜度,推理速度分別為Faster R-CNN、R-FCN的10.71、4.12倍。在網(wǎng)絡(luò)規(guī)模方面,采用模型存儲(chǔ)空間作為衡量指標(biāo),F(xiàn)aster R-CNN為108 MB,R-FCN為96 MB,本文模型為60 MB,小于前2種模型。試驗(yàn)結(jié)果表明,本文提出的輕量化二階段深度學(xué)習(xí)檢測(cè)模型,在平均精度均值、檢測(cè)速度、網(wǎng)絡(luò)存儲(chǔ)空間等方面相比于Faster R-CNN和R-FCN具有顯著優(yōu)勢(shì)。
表2 不同檢測(cè)模型性能對(duì)比Tab.2 Comparison of different networks performance
自然環(huán)境下,部分作物由于自身發(fā)育不均衡以及氣候條件影響造成外形尺寸偏小;此外,株間距較近的作物進(jìn)入展葉期后葉片間存在一定程度遮擋,以上情況給作物識(shí)別檢測(cè)帶來(lái)困難。為判別小目標(biāo)作物(面積小于32像素×32像素)和葉片交疊遮擋條件下的模型識(shí)別精度,本試驗(yàn)對(duì)每種情況隨機(jī)抽取100幅圖像,分別輸入到Faster R-CNN、R-FCN和本文模型進(jìn)行測(cè)試,結(jié)果如表3所示。本文模型對(duì)小目標(biāo)作物和遮擋作物的平均精度均值分別為87.73%、89.36%,2種情況下平均精度均值為88.55%,3項(xiàng)指標(biāo)均高于Faster R-CNN 、R-FCN模型。這是因?yàn)楸疚哪P偷那爸没A(chǔ)網(wǎng)絡(luò)利用不同尺寸卷積核進(jìn)行運(yùn)算具有較強(qiáng)的多尺度特征提取能力,F(xiàn)PN單元將不同尺度特征信息融合強(qiáng)化了目標(biāo)特征表達(dá)能力,小目標(biāo)或葉片遮擋作物即使在特征圖上語(yǔ)義信息有所損失依然可以得到有效識(shí)別。圖7為3種模型對(duì)小目標(biāo)和遮擋作物的檢測(cè)效果圖,左圖為遮擋作物,右圖為小目標(biāo)作物。本文模型能夠準(zhǔn)確檢測(cè)不同環(huán)境下的作物,F(xiàn)aster R-CNN存在作物漏檢、錯(cuò)檢的情況,R-FCN可以檢測(cè)出遮擋作物,但是沒(méi)有正確檢測(cè)出小目標(biāo)作物。
表3 不同檢測(cè)模型對(duì)小目標(biāo)與遮擋作物檢測(cè)精度對(duì)比Tab.3 Detection results of small and occluded crops with different detection models %
(1)采用輕量混合深度分離卷積作為前置特征提取網(wǎng)絡(luò),提高了特征信息提取效率和速度;通過(guò)壓縮檢測(cè)頭網(wǎng)絡(luò)特征通道規(guī)模與全連接層數(shù)量,降低了檢測(cè)模型計(jì)算復(fù)雜度。本文模型存儲(chǔ)空間為60 MB,檢測(cè)速度為19.07 f/s,明顯小于Faster R-CNN和R-FCN模型的存儲(chǔ)空間,檢測(cè)速度顯著提高。
(2)基于FPN單元對(duì)多尺度特征層級(jí)信息進(jìn)行融合,增加不同特征層的信息豐富程度,采用ROI Align運(yùn)算代替ROI pooling運(yùn)算并引入DIoU損失優(yōu)化模型損失函數(shù),實(shí)現(xiàn)目標(biāo)預(yù)測(cè)框精準(zhǔn)回歸。試驗(yàn)結(jié)果表明,本文模型的MAP為97.47%,分別比Faster R-CNN和R-FCN高1.19、0.83個(gè)百分點(diǎn)。同時(shí),對(duì)小目標(biāo)作物和葉片遮擋作物的識(shí)別具有良好的泛化性能。