王建翠,惠巧娟,吳立國(guó)
(1. 銀川能源學(xué)院信息傳媒學(xué)院,銀川市,750100; 2. 銀川科技學(xué)院信息工程學(xué)院,銀川市,750021;3. 寧夏葡萄酒與防沙治沙職業(yè)技術(shù)學(xué)院,銀川市,750199; )
農(nóng)田雜草根除對(duì)作物質(zhì)量、產(chǎn)量以及農(nóng)業(yè)經(jīng)濟(jì)的穩(wěn)定至關(guān)重要。中國(guó)是糧食生產(chǎn)和消費(fèi)大國(guó),然而雜草因不受控制的迅速生長(zhǎng),導(dǎo)致農(nóng)作物光、肥和水等資源極易短缺,嚴(yán)重影響作物的質(zhì)量和產(chǎn)量。農(nóng)田雜草帶來(lái)的經(jīng)濟(jì)影響遍及世界,據(jù)“除草劑發(fā)展與推廣應(yīng)用大會(huì)”指出,全世界一年因雜草導(dǎo)致農(nóng)作物減產(chǎn)達(dá)年產(chǎn)量的11.8%,約8億人一年的儲(chǔ)備[1-2]。因此,研究出一種準(zhǔn)確有效的農(nóng)田雜草定位與檢測(cè)模型,對(duì)于提升農(nóng)作物的產(chǎn)量和質(zhì)量具有重要的意義。
傳統(tǒng)農(nóng)業(yè)雜草根除主要借助化學(xué)藥品,雖然簡(jiǎn)單直接,但缺乏針對(duì)性。此外,過(guò)度使用化學(xué)藥品將會(huì)導(dǎo)致環(huán)境污染,進(jìn)而影響人類身體健康。因此,如何利用綠色手段根除雜草變得十分迫切。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展[3-5],在玉米研究領(lǐng)域得到了廣泛的應(yīng)用[6-9]。如亢潔等[10]提出了一種多尺度融合模塊和特征增強(qiáng)的雜草檢測(cè)模型,利用不同的擴(kuò)張卷積來(lái)增大感受野,強(qiáng)化嵌入層的特征,提高模型識(shí)別性能。孫俊等[11]提出了一種空洞卷積結(jié)合全局池化的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別雜草算法,通過(guò)設(shè)置不同的膨脹系數(shù)來(lái)定位與識(shí)別雜草。李彧等[12]提出了一種基于全卷積神經(jīng)網(wǎng)絡(luò)的玉米田間雜草識(shí)別算法,主要通過(guò)數(shù)據(jù)增強(qiáng)的方法擴(kuò)增數(shù)據(jù)集,提升模型的檢測(cè)性能。溫德圣等[13]針對(duì)不同光照條件下雜草識(shí)別特征信息容易缺失的問(wèn)題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的雜草識(shí)別方法,通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上構(gòu)建Inception V3分類器,根據(jù)比對(duì)待檢測(cè)物體與標(biāo)準(zhǔn)對(duì)照物之間的差異性,給出識(shí)別結(jié)果。樊湘鵬等[14]提出了一種基于Faster R-CNN的雜草識(shí)別方法,通過(guò)在不同田間場(chǎng)景下測(cè)試表明模型具有較高的魯棒性。
上述雜草識(shí)別算法雖然在特定場(chǎng)景中可以實(shí)現(xiàn)較好地檢測(cè)精度,且主要針對(duì)雜草單一生長(zhǎng)的場(chǎng)景,對(duì)于雜草與農(nóng)作物交叉生長(zhǎng)的復(fù)雜場(chǎng)景,檢測(cè)性能不佳。此外,現(xiàn)有基于深度網(wǎng)絡(luò)的雜草檢測(cè)模型采用大量數(shù)據(jù)樣本進(jìn)行訓(xùn)練,時(shí)間開(kāi)銷(xiāo)較大。針對(duì)上述問(wèn)題,本文提出一種基于多尺度注意力與深度可分離卷積的農(nóng)田雜草檢測(cè)算法,旨在提高雜草檢測(cè)的精度,推進(jìn)深度學(xué)習(xí)在農(nóng)業(yè)生產(chǎn)中的應(yīng)用。
本文以農(nóng)田中的雜草為研究對(duì)象,選取常見(jiàn)的12種雜草。分別為看麥娘、馬唐、狗尾草、菟絲子、刺兒菜、野燕麥、薺菜、車(chē)前草、千根草、狗牙根、馬齒莧和牛筋草。所有圖像均在農(nóng)田大自然環(huán)境下采集,圖像采集設(shè)備為索尼FDR-AX60高清數(shù)碼相機(jī),主要拍攝時(shí)間段為04:00~08:00、11:00~13:00、15:00~17:00和19:00~22:00,總共拍攝1 920張雜草圖片,每類雜草160幅,圖像分辨率為224像素×224像素的三通道彩色圖像,格式為JPEG,所采集的部分圖像如圖1所示。
圖1 部分樣本圖像
為了增強(qiáng)模型的泛化性和魯棒性,本文在相同的時(shí)間段采集了包含多種雜草的圖像,總共560張。并合并所有數(shù)據(jù)樣本,按照7∶3的比例劃分訓(xùn)練樣本和測(cè)試樣本。最后,利用LabelImg軟件對(duì)采集的雜草圖像進(jìn)行標(biāo)注。
深度網(wǎng)絡(luò)的高識(shí)別性能依賴于大量帶標(biāo)注的訓(xùn)練樣本,因此,為了豐富圖像包含的目標(biāo)信息,對(duì)所采集的樣本進(jìn)行數(shù)據(jù)增強(qiáng)。此處,采用裁剪、縮放、旋轉(zhuǎn)和亮度變化等方式將原始圖片擴(kuò)增5倍,并僅對(duì)雜草數(shù)據(jù)集中的訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng)。以看麥娘與農(nóng)作物交叉生長(zhǎng)的圖片為例,展示擴(kuò)增后的圖像,如圖2所示。
(a) 原始圖片
(b) 亮度增強(qiáng)
(c) 亮度減弱
圖2 圖像增強(qiáng)效果
特征提取質(zhì)量的高低直接影響下游雜草檢測(cè)任務(wù)的識(shí)別性能,本文充分考慮深度網(wǎng)絡(luò)在時(shí)間開(kāi)銷(xiāo)和識(shí)別精度上的要求。在原始VGG-16網(wǎng)絡(luò)的基礎(chǔ)上,引入深度可分離卷積減少模型參數(shù)量,旨在降低模型的運(yùn)行時(shí)間開(kāi)銷(xiāo);其次,為了提高雜草等目標(biāo)物體的關(guān)注度和特征表征能力,利用注意力機(jī)制強(qiáng)化目標(biāo)物體特征表達(dá)的魯棒性。
圖3給出了傳統(tǒng)VGG-16模型的結(jié)構(gòu)[15],包括13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層和1個(gè)分類層,雖然結(jié)構(gòu)簡(jiǎn)單,但參數(shù)量大,導(dǎo)致模型訓(xùn)練時(shí)間過(guò)長(zhǎng),不利于實(shí)際應(yīng)用對(duì)于實(shí)時(shí)性的要求[16]。因此,本文將標(biāo)準(zhǔn)卷積塊中的部分卷積層分解為深度卷積DC(Depthwise Convolution)和逐點(diǎn)卷積PC(Pointwise Convolution)[17],構(gòu)造深度可分離卷積(Depthwise Separable Convolution,DSC)。在保持特征提取質(zhì)量不變的情況下,降低模型對(duì)于硬件資源的高要求,從而提升模型訓(xùn)練和推斷的速度,深度可分離卷積示意圖如圖3所示。
圖3 VGG-16結(jié)構(gòu)
深度可分離卷積將標(biāo)準(zhǔn)卷積過(guò)程分解為多個(gè)等效的深度卷積和逐點(diǎn)卷積,深度可分離卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。通過(guò)在深度卷積部分分解濾波器來(lái)降低參數(shù)量,在識(shí)別性能變化可接受的范圍內(nèi)盡可能通過(guò)減少模型參數(shù)量來(lái)降低模型的訓(xùn)練時(shí)間開(kāi)銷(xiāo)。
圖4 深度可分離卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖4中,首先將圖片Ii∈R3×h×w(h和w表示圖片的長(zhǎng)和寬)經(jīng)過(guò)一次卷積運(yùn)算,沿通道方向生成若干張?zhí)卣鲌D;然后,利用卷積核大小為Dk×Dk的多個(gè)卷積塊將特征圖沿著深度方向進(jìn)行加權(quán)組合,得到輸入圖片在深度空間的特征映射;然后,在逐點(diǎn)卷積運(yùn)算過(guò)程中,利用1×1的卷積核進(jìn)行卷積濾波。因此,深度卷積和逐點(diǎn)卷積可以拼接成卷積核大小為Dk×Dk的標(biāo)準(zhǔn)卷積。其中,標(biāo)準(zhǔn)卷積運(yùn)算過(guò)程中的參數(shù)量Csc由式(1) 計(jì)算可得。
Csc=Dk×Dk×M×N
(1)
式中:Dk——卷積核的大小;
M——輸入通道;
N——輸出通道。
深度卷積DC和逐點(diǎn)卷積PC組合的深度可分離卷積DSC計(jì)算過(guò)程中涉及的參數(shù)量由式(2)計(jì)算可得。
Cdsc=Dk×Dk×M+M×N
(2)
相比標(biāo)準(zhǔn)卷積的計(jì)算參數(shù)量Csc,深度可分離卷積的計(jì)算參數(shù)量Cdsc成本下降了r,計(jì)算如式(3)所示。
(3)
特別地,輸出通道N較大,因此式(3)中r的值約為1/Dk2。此處,采用卷積核大小為3×3,因此,相比傳統(tǒng)標(biāo)準(zhǔn)卷積的參數(shù)計(jì)算量,深度可分離卷積大約可以降低9倍。
人類在觀看事物時(shí),并非第一時(shí)間接受整個(gè)物體,而是有選擇性地關(guān)注部分區(qū)域[18]。注意力機(jī)制最早應(yīng)用在自然語(yǔ)言處理任務(wù)中,通過(guò)引入長(zhǎng)距離上下文信息,有效解決了長(zhǎng)距離依賴的問(wèn)題[19]。近年來(lái),被廣泛地應(yīng)用到視覺(jué)任務(wù)中,通過(guò)建立空間上的長(zhǎng)距離依賴,解決卷積核感受野局限的問(wèn)題。此處,為了提高VGG-16 提取特征的表達(dá)能力,提高農(nóng)田雜草的定位與識(shí)別的準(zhǔn)確性,在利用深度可分離卷積改進(jìn)的VGG-16 中引入通道注意力和空間注意力機(jī)制[20],構(gòu)造一種多尺度注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)(Multi-Scale Attention Convolution,MSAC),結(jié)構(gòu)如圖5所示。
圖5 多尺度注意力卷積結(jié)構(gòu)
1) 在改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)中,首先利用3×3、5×5、7×7的卷積核對(duì)原始輸入雜草圖片進(jìn)行卷積運(yùn)算,獲取不同尺度的特征圖,并將不同尺度下的特征進(jìn)行融合;然后,按照原始VGG-16的數(shù)據(jù)流向?qū)θ诤咸卣鬟M(jìn)行池化和卷積操作。
2) 在注意力機(jī)制中,沿通道和空間兩個(gè)維度進(jìn)行深層次特征提取,并在此基礎(chǔ)上,引入全局特征,緩解因過(guò)度聚焦局部特征導(dǎo)致全局特征信息丟失的問(wèn)題。其中,通道注意力和空間注意力特征圖可由式(4)和式(5)表示。
Fc=Mc(F)?F
(4)
Fs=Ms(Fc)?Fc
(5)
式中:Fc——通道注意力特征圖;
Fs——空間注意力特征圖;
Mc——通道注意力卷積;
Ms——空間注意力卷積;
?——哈達(dá)瑪運(yùn)算;
F——多尺度融合特征經(jīng)中間層卷積運(yùn)算后的特征圖。
3) 在第4個(gè)卷積層之后,仍采用原始VGG-16的數(shù)據(jù)流向,映射特征圖到深度特征空間,獲取更豐富的高級(jí)語(yǔ)義信息。
試驗(yàn)運(yùn)行環(huán)境采用Linux系統(tǒng),顯卡顯存為32 G的NVIDIA V100 GPU;采用PyTorch深度學(xué)習(xí)框架,Cuda環(huán)境為NVIDIA CUDA 11.0,Python 3.7。
綜合硬件設(shè)備,設(shè)定批處理大小為16,動(dòng)量為0.9;設(shè)定初始化學(xué)習(xí)率為0.000 1,損失函數(shù)采用交叉熵?fù)p失。此外,為解決模型過(guò)擬合問(wèn)題,引入Dropout隨機(jī)刪除部分神經(jīng)元,本文Dropout取值0.5。
由圖6可知,本文模型訓(xùn)練180次后損失逐漸趨于平穩(wěn),因此設(shè)定迭代輪次為180。
圖6 損失曲線
采用精準(zhǔn)率P、召回率R和F1-score為評(píng)價(jià)指標(biāo),具體計(jì)算如式(6)~式(8)所示。
(6)
(7)
(8)
式中:Tp——正確識(shí)別出的樣本數(shù);
Fp——錯(cuò)誤識(shí)別的樣本數(shù);
Fn——未識(shí)別出的樣本數(shù)。
為驗(yàn)證本文模型的有效性,分別構(gòu)造Yolov5、Faster R-CNN和本文模型,并進(jìn)行對(duì)比分析,詳細(xì)結(jié)果如表1所示。
表1 識(shí)別結(jié)果對(duì)比Tab. 1 Identification and comparison results
可以看出,相比主流的Yolov5和Faster R-CNN模型,本文模型在精準(zhǔn)率方面,分別提升2.35%和1.72%;在召回率方面,分別提升3.23%和1.36%;在F1方面,分別提升2.47%和0.90%;在時(shí)間開(kāi)銷(xiāo)方面,分別降低61.74%和70.25%。
圖7給出了本文模型對(duì)于單一雜草生長(zhǎng)場(chǎng)景中雜草檢測(cè)的可視化結(jié)果。
(a) 04:00~08:00
(b) 11:00~13:00
(c) 15:00~17:00
(d) 19:00~22:00
通過(guò)分析各階段結(jié)果可知,在11:00~13:00階段和15:00~17:00階段,由于光照充足,整體檢測(cè)效果較好,模型的平均精確率為0.938。雖然在04:00~08:00階段和19:00~22:00階段存在光照不足的問(wèn)題,但模型平均檢測(cè)精確率仍可以達(dá)到0.928。綜上,在不同時(shí)間段,本文模型受天氣等自然環(huán)境的影響較小,驗(yàn)證了本文模型具有較好的魯棒性。
圖8給出了本文模型對(duì)于雜草與農(nóng)作物交叉生長(zhǎng)環(huán)境下的檢測(cè)可視化結(jié)果。可以看出,在更具有挑戰(zhàn)性的復(fù)雜環(huán)境下,本文模型平均精確率可以達(dá)到0.934,能夠較好地區(qū)分雜草和農(nóng)作物,檢測(cè)準(zhǔn)確性較高。同時(shí),不同階段的平均精確率差距較小,進(jìn)一步驗(yàn)證了本文模型具有較好的魯棒性。
(a) 04:00~08:00
(b) 11:00~13:00
(c) 15:00~17:00
(d) 19:00~22:00
圖9給出了本文模型、Yolov5和Faster R-CNN模型對(duì)于相同圖片的檢測(cè)可視化結(jié)果。
(a) YOLOV5
(b) Faster R-CNN
(c) 本文模型
可以看出,本文模型平均精確率為0.956,Yolov5模型的平均精確率為0.935,Faster R-CNN模型的平均精確率為0.93。本文模型識(shí)別精度高,優(yōu)勢(shì)顯然。主要原因是本文模型采用多尺度注意力機(jī)制,在全局特征的基礎(chǔ)上,進(jìn)一步細(xì)粒度的挖掘局部特征,強(qiáng)化輸入圖片映射到深度空間中的特征質(zhì)量,進(jìn)一步驗(yàn)證了本文模型對(duì)于雜草定位與識(shí)別的有效性,對(duì)于農(nóng)業(yè)雜草根除等具有重要的指導(dǎo)意義。
為探究深度可分離卷積和多尺度注意力機(jī)制對(duì)所提出模型性能提升的作用,分別設(shè)計(jì)不同的變體模型,并進(jìn)行對(duì)比分析,如表2所示。從變體模型1和模型2可以看出,相比使用標(biāo)準(zhǔn)卷積來(lái)提取特征,深度可分離卷積可以降低66.21%的檢測(cè)時(shí)間開(kāi)銷(xiāo);從變體模型1和模型3可知,引入多尺度注意力機(jī)制后,模型的檢測(cè)精準(zhǔn)率、召回率和F1分別達(dá)到94.71%、94.88%和93.86%。相比僅采用單一特征的檢測(cè)模型,利用多尺度特征分別可以提高2.87%、2.48%和2.09%的檢測(cè)精準(zhǔn)率、召回率和F1。從變體模型2和模型4、模型3和模型4兩組試驗(yàn)可以看出,引入多尺度注意力機(jī)制雖然導(dǎo)致檢測(cè)時(shí)間開(kāi)銷(xiāo)增加了1.91%,但精準(zhǔn)率、召回率和F1值效果提升顯著;引入深度可分離卷積模塊在保持精準(zhǔn)率、召回率和F1值的基礎(chǔ)上,檢測(cè)時(shí)間開(kāi)銷(xiāo)降低了207.72 ms,因此,可以忽略因增加部分模塊導(dǎo)致極小的性能損失。綜上,上述幾組對(duì)比試驗(yàn)驗(yàn)證了多尺度注意力機(jī)制和深度可分離卷積在本文模型性能提升扮演著重要的角色。
表2 消融試驗(yàn)Tab. 2 Identification and comparison results
針對(duì)傳統(tǒng)農(nóng)田雜草模型對(duì)雜草識(shí)別與定位不精確的問(wèn)題,提出一種基于多尺度注意力與深度可分離卷積的農(nóng)田雜草檢測(cè)算法。
1) 所提出模型精準(zhǔn)率為94.69%、召回率為94.88%、F1值為93.82%、檢測(cè)時(shí)間開(kāi)銷(xiāo)為108.31 ms,優(yōu)于經(jīng)典對(duì)比模型的檢測(cè)性能,驗(yàn)證了所提出模型對(duì)于農(nóng)田雜草檢測(cè)的高效性。
2) 利用深度可分離卷積改進(jìn)現(xiàn)有VGG-16主干網(wǎng)絡(luò),檢測(cè)時(shí)間開(kāi)銷(xiāo)降低了207.72 ms,有效緩解了模型時(shí)間開(kāi)銷(xiāo)大的問(wèn)題;此外,無(wú)論在單一雜草生長(zhǎng)場(chǎng)景還是雜草與農(nóng)作物交替生長(zhǎng)的復(fù)雜場(chǎng)景中,多尺度注意力機(jī)制可以強(qiáng)化深度空間中農(nóng)田雜草特征的表達(dá)能力,對(duì)模型的精準(zhǔn)率、召回率和F1評(píng)價(jià)指標(biāo)均具有積極作用。
3) 通過(guò)在多個(gè)雜草數(shù)據(jù)樣本中進(jìn)行測(cè)試,驗(yàn)證了本文模型的高效性。在農(nóng)田荒地治理、雜草根除和農(nóng)業(yè)機(jī)械化管理等任務(wù)中具有較高的實(shí)際應(yīng)用價(jià)值。在未來(lái)的工作中,主要通過(guò)提高輸入圖片映射到深度空間中的特征表達(dá)能力,提高下游任務(wù)的泛化性能和魯棒性。