惠巧娟 馬偉 邊超
摘要:針對農(nóng)作物與雜草交叉生長,導(dǎo)致雜草等目標(biāo)難以識別的問題,提出一種融合強化注意力機制的農(nóng)田雜草識別方法。首先,利用主干網(wǎng)絡(luò)進行特征提取,并在此基礎(chǔ)上提出一種強化注意力模塊,從水平和垂直等兩個維度細(xì)粒度進行位置特征編碼,通過計算原始主干網(wǎng)絡(luò)提取的特征與位置編碼之間的偏移量,強化目標(biāo)物體的定位與識別;然后,在單層注意力機制的基礎(chǔ)上,引入上下文關(guān)系鏈條,進一步強化模型的泛化性能,最后,結(jié)合遷移學(xué)習(xí)的訓(xùn)練方式緩解小樣本數(shù)據(jù)集極易造成過擬合的問題。通過測試單一目標(biāo)物體和交叉生長的多目標(biāo)物體在晴天、雨天和陰天等多場景環(huán)境下的識別性能,結(jié)果表明,本文方法分別可以實現(xiàn)單一目標(biāo)物體和交叉生長的多目標(biāo)物體92.84%和90.01%的平均識別準(zhǔn)確率。
關(guān)鍵詞:農(nóng)田雜草;注意力機制;強化注意力;位置特征編碼;遷移學(xué)習(xí)
中圖分類號:S451: TP391
文獻標(biāo)識碼:A
文章編號:2095-5553 (2023) 04-0195-07
Abstract: Aiming at the problem that it is difficult to recognize weeds and other targets due to the cross growth between crops and weeds, an agricultural weeds recognition method based on enhanced attention mechanism is proposed. Firstly, the backbone network is used to extract the deep feature of the input images, and on this basis, an enhanced attention module is proposed, which is used to encode the position feature from the horizontal and vertical dimensions, and then strengthening the position and recognition of the target object by calculating the offset between the feature extracted from the original backbone network and the position encode. Then, the single-layer based on attention mechanism, the context chain is introduced to further strengthen the generalization performance of the model. Finally, the training method combined with the transfer learning can alleviate the problem of the over fitting caused by small sample data sets. By testing the recognition performance of the single target object and cross growing multi-target objects in multi scene environments such as sunny, rainy and cloudy days, the results show that the proposed method can achieve the average recognition accuracy of 92.84% and 90.01% for the single target object and cross growing multi-target objects respectively.
Keywords: agricultural weeds; attention mechanism; strengthen attention; position feature encode; transfer learning
0 引言
根除雜草是農(nóng)業(yè)生產(chǎn)過程中重要的業(yè)務(wù)之一,田間雜草作為病蟲害的棲息地,具有極強的生命力,通過不受控制的生長與農(nóng)作物競爭生長空間和營養(yǎng)成分等資源,給農(nóng)作物的產(chǎn)量和質(zhì)量造成嚴(yán)重的影響。據(jù)統(tǒng)計,雜草造成糧食產(chǎn)量損失高達年均總產(chǎn)量的10%,約8億人一年的口糧[1]。雜草根除主要包括機械除草和化學(xué)除草等兩大類,機械除草成本高,且容易造成農(nóng)作物的損傷;化學(xué)除草雖可以大面積根除,但極易造成環(huán)境和水資源等的污染。因此,如何利用綠色手段高效的根除農(nóng)田雜草,對于保證農(nóng)作物產(chǎn)量和質(zhì)量具有重要的意義。
近年來,隨著深度學(xué)習(xí)在眾多領(lǐng)域的廣泛應(yīng)用,利用深度學(xué)習(xí)技術(shù)[2-5]來提高農(nóng)業(yè)生產(chǎn)產(chǎn)量和質(zhì)量成為農(nóng)業(yè)領(lǐng)域的熱點研究課題之一。其中,在傳統(tǒng)機器學(xué)習(xí)方法中,基于Yolov3、Faster R-CNN和SSD等算法根除雜草的應(yīng)用最為廣泛[6-8],如樊湘鵬等[9]提出了一種基于Faster R-CNN的棉花地雜草識別與定位算法,通過優(yōu)化傳統(tǒng)Faster R-CNN并結(jié)合VGG和ResNet等作為主干網(wǎng)絡(luò),進行棉花天地間的雜草識別與定位。劉莫塵等[10]提出了一種融合MSRCR和YOLOv4-tiny的田間玉米雜草檢測算法,通過利用MSRCR算法進行圖像特征的預(yù)處理,并利用YOLOv4進行目標(biāo)框的聚類與通道剪紙。李開敬等[11]針對雜草種類多導(dǎo)致檢測識別率低等原因,提出了一種基于Faster R-CNN和數(shù)據(jù)增強的草識別算法,通過采用ResNet作為主干網(wǎng)絡(luò)分別對不同天氣下的多種雜草進行定位。然而,該類方法主要借助VGG和ResNet等深度卷積進行特征提??;然后,根據(jù)目標(biāo)物體的位置置信度確定最佳位置,從而進行類別判斷。但利用深度學(xué)習(xí)算法識別雜草存在如下問題:(1)雜草類別豐富,不同物種外表極易相似,這使得雜草識別難度增加;(2)隨著環(huán)境等因素的影響,雜草變異較快,新物種難以判斷,并且無任何專家知識,再次增大了識別的挑戰(zhàn);(3)在場景復(fù)雜的農(nóng)田中,多物種交叉生長,利用傳統(tǒng)機器學(xué)習(xí)算法難以準(zhǔn)確定位。
針對上述問題,以經(jīng)典的ResNet-50網(wǎng)絡(luò)為特征提取器對輸入圖片進行深度特征提取,并引入一種強化注意力模塊,從水平和垂直等兩個維度細(xì)粒度的進行位置特征編碼,充分考慮像素之間的上下文時序關(guān)系;其次,通過計算原始主干網(wǎng)絡(luò)提取的特征與位置編碼之間的偏移量,強化目標(biāo)物體的關(guān)注度,提高模型對于交叉多物種的辨別能力;受殘差網(wǎng)絡(luò)的啟發(fā),在單層注意力機制的基礎(chǔ)上,引入上下文關(guān)系鏈條,進一步提高模型的性能;最后,結(jié)合遷移學(xué)習(xí)的訓(xùn)練方式緩解小樣本數(shù)據(jù)集極易造成過擬合的問題。
1 數(shù)據(jù)采集與預(yù)處理
本文訓(xùn)練樣本數(shù)據(jù)主要來源于文獻[12]公開的雜草數(shù)據(jù)集和自建雜草數(shù)據(jù)集等兩種。其中,自建數(shù)據(jù)集主要采集于寧夏銀川當(dāng)?shù)剞r(nóng)田,主要包括晴天、雨天和陰天等不同天氣不同時間段(早上5:00、中午12:00、下午18:00和晚上21:00)下實地拍攝的8月份旱田農(nóng)作物中的多類雜草,總共拍攝10 861張雜草圖片,詳細(xì)數(shù)據(jù)如表1所示。采集的圖像多為農(nóng)作物與雜草交叉生長圖片,均為未做任何處理的原始圖像,部分圖像如圖1所示。采集設(shè)備采用可旋轉(zhuǎn)固定支架的佳能EOS 60D單反數(shù)碼相機,圖像分辨率為5 184像素×3 456像素,格式為JPEG。
為防止樣本有限導(dǎo)致深度神經(jīng)網(wǎng)絡(luò)過擬合的問題,本文采用數(shù)據(jù)增廣技術(shù)進行樣本幾何變換,分別采用隨機旋轉(zhuǎn)、放縮、部分裁剪、對比度增強和亮度變換等方式進行圖像樣本擴充。經(jīng)過雜草圖像樣本擴充后,樣本由22 300擴充至37 840張,并按照7∶3劃分為訓(xùn)練集和驗證集。圖像像素統(tǒng)一調(diào)整為224像素×224像素。部分雜草數(shù)據(jù)示例如圖1所示。
2 模型構(gòu)建
針對現(xiàn)有雜草識別算法無法充分利用特征位置信息精確定位雜草,導(dǎo)致交叉的多物種識別不理想。因此,本文提出了一種融合強化注意力機制的小樣本農(nóng)田雜草識別方法。該方法以ResNet-50為主干網(wǎng)絡(luò),并在解碼階段的上采樣中引入強化注意力模塊,充分捕捉目標(biāo)物體的位置信息,增強交叉多物種的定位與識別能力。
圖2給出了本文的模型結(jié)構(gòu),其中編碼階段利用主干網(wǎng)絡(luò)進行下采樣,提取目標(biāo)物體的編碼特征;解碼階段進行上采樣操作,并在上采樣操作中引入強化注意力模塊,強化目標(biāo)定位的準(zhǔn)確性。
2.1 ResNet-50
農(nóng)田雜草由于不受任何限制,交叉生長,且同一目標(biāo)雜草因其外界光照、角度等原因呈現(xiàn)不同的姿態(tài)。因此,相比于一般物體的檢測難度更大,此時低維淺層次的特征不足以精確識別多目標(biāo)雜草。
近年來,圖像語義分割、目標(biāo)檢測和圖像分類等任務(wù)采用ResNet-50和ResNet-101等作為主干網(wǎng)絡(luò)進行特征編碼[13-15]。因此,本文綜合考慮試驗環(huán)境和識別性能,采用ResNet-50作為主干網(wǎng)絡(luò)進行特征編碼。結(jié)構(gòu)如圖3所示。
3.3 結(jié)果分析
3.3.1 引入遷移學(xué)習(xí)的有效性驗證
為驗證遷移學(xué)習(xí)對多目標(biāo)小樣本數(shù)據(jù)的訓(xùn)練效果,在相同的數(shù)據(jù)集和試驗環(huán)境下進行多組試驗,詳細(xì)數(shù)據(jù)如表2所示。其中,未采用遷移學(xué)習(xí)的訓(xùn)練方式為不加載預(yù)訓(xùn)練模型,利用隨機生成的網(wǎng)絡(luò)參數(shù)進行模型初始化;凍結(jié)部分卷積層的訓(xùn)練方式為僅訓(xùn)練ResNet-50最后一初始化個卷積塊和全連接層,其余層采用預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進行;凍結(jié)全部卷積層的訓(xùn)練方式為僅訓(xùn)練全連接層;所有層參與訓(xùn)練的方式為加載全部的預(yù)訓(xùn)練參數(shù)作為模型的初始化。
由表2和圖6可以看出,采用預(yù)訓(xùn)練參數(shù)作為模型的初始化具有更高的識別性能,驗證了本文設(shè)計的初衷,即利用遷移學(xué)習(xí)的訓(xùn)練策略,可以有效解決模型對于訓(xùn)練樣本不足,導(dǎo)致無法提取充足特征的問題。此外,雖然加載預(yù)訓(xùn)練模型后,再次訓(xùn)練模型的所有層會導(dǎo)致時間開銷有所增加,但增加不多,仍然可以滿足實際應(yīng)用中對于實時性的需求,并且、本文主要以識別準(zhǔn)確率為主要評價指標(biāo)。
3.3.2 多場景下目標(biāo)物體的定位與識別
圖7和圖8分別給出了本文模型對部分晴天、雨天和陰天等不同天氣不同時間段(早上5:00、中午12:00、下午18:00和晚上21:00)單一目標(biāo)物體和多交叉目標(biāo)物體的識別性能。具體數(shù)據(jù)如表3所示。
從表3可知,在晴天光照較好的條件下識別效果最佳,其中單一目標(biāo)物體識別平均準(zhǔn)確率為96.74%,交叉多目標(biāo)物體識別平均準(zhǔn)確率為93.55%;在光照暗淡的陰天環(huán)境下識別性能最差,但單一目標(biāo)物體仍然可以達到平均90.47%的識別準(zhǔn)確率,多目標(biāo)物體可以達到平均87.14%的識別準(zhǔn)確率。因此,為提高模型在實際應(yīng)用中的效果,可以通過增加在極端環(huán)境條件下的樣本數(shù)量??梢暬Ч鐖D7和圖8所示。
圖8給出了更具挑戰(zhàn)性的定位與識別任務(wù),當(dāng)雜草與農(nóng)作物交叉生長,使得雜草識別任務(wù)更加困難,但也更符合實際應(yīng)用。雖本文模型對多目標(biāo)物體交叉生長任務(wù)的識別精度有所下降,但仍然可以在晴天、雨天和陰天實現(xiàn)92.21%、90.69%和87.14%的平均識別準(zhǔn)確率。再次驗證了本文模型的泛化性能,更符合實際應(yīng)用的需求。
3.3.3 同類相關(guān)工作對比
為進一步驗證本文模型的識別性能,在相同的試驗環(huán)境下分別構(gòu)造文獻[1]、文獻[8]、文獻[18]、文獻[19]、文獻[20]和本文模型,并利用多目標(biāo)交叉物體樣本數(shù)據(jù)進行對比試驗,不同模型識別結(jié)果如表4所示。
由表4可知,對于交叉生長的多目標(biāo)物體,本文模型可以實現(xiàn)晴天、雨天和陰天分別為92.21%、90.69%和87.14%的平均識別準(zhǔn)確率,與當(dāng)前主流模型相比,在雨天環(huán)境下分別提高了0.74%、2.94%、1.13%、3.01%和2.41%;在陰天環(huán)境下分別提高了1.40%、1.63%、0.14%、2.16%和3.26%;雖在晴天環(huán)境下相比文獻[8]有所下降,但綜合優(yōu)勢顯然;此外,在檢測時間開銷方面,本文模型雖比文獻[18]有所增加,但增加不大,且在識別準(zhǔn)確率方面具有更大的優(yōu)勢。究其原因是本文在單層注意力機制的基礎(chǔ)上,引入上下文注意力鏈條,構(gòu)造了深度注意力機制,強化了模型對相鄰特征間關(guān)系的捕獲,提升了模型對目標(biāo)物體的關(guān)注度。
3.4 消融試驗
為驗證本文模型不同組件的性能,在相同的數(shù)據(jù)集和主干網(wǎng)絡(luò)上進行消融試驗,詳細(xì)結(jié)果如表5所示。
由表5可以看出,位置編碼和上下文關(guān)系鏈條在模型性能提升方面具有重要的角色。雖然單一位置編碼可以緩解傳統(tǒng)方法定位不精確的問題,但結(jié)合水平和垂直等兩個維度的位置編碼信息可以有效提高模型對于目標(biāo)物體的定位與識別精度;此外,引入的上下文關(guān)系鏈條可以促進相鄰注意力塊之間的信息共享,充分考慮到上下文語義信息,進一步提高模型對目標(biāo)物體的關(guān)注度。
4 結(jié)論
本文提出了一種新的農(nóng)田雜草識別方法,從水平和垂直兩個維度進行特征編碼,并通過計算原始特征與位置編碼之間的偏移量,強化目標(biāo)物體的定位;其次,利用上下文關(guān)系鏈條來改進單層注意力機制,并在此基礎(chǔ)上借助遷移學(xué)習(xí)的訓(xùn)練方式,緩解小樣本數(shù)據(jù)集極易過擬合的問題。通過在單一目標(biāo)場景和多目標(biāo)場景數(shù)據(jù)集上分別實現(xiàn)了92.84%和90.01%的平均識別準(zhǔn)確率,表明本文模型具有較好的識別能力,驗證了模型的設(shè)計初衷,具有一定的先進性。
1)? 利用水平和垂直兩個維度的特征能夠緩解模型對于局部和全局信息利用不充分的問題,有效提高了模型對于新物種的定位與識別能力。
2)? 利用上下文注意力鏈條改進單層注意力機制,使得特征信息在相鄰注意力塊之間可以自由流動,充分考慮到上下文語義信息,進一步提高模型對目標(biāo)物體的關(guān)注度。
在未來的工作中,主要通過提高深度特征的表達能力,并強化模型對于密集型物體的關(guān)注,進一步提升模型的泛化性能。
參 考 文 獻
[1] 袁洪波, 趙努東, 程曼. 基于圖像處理的田間雜草識別研究進展與展望[J]. 農(nóng)業(yè)機械學(xué)報, 2020, 51(S2): 323-334.
Yuan Hongbo, Zhao Nudong, Cheng Man. Review of weeds recognition based on image processing [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S2): 323-334.
[2] 蔡愛平. SAR遙感圖像中農(nóng)田區(qū)域識別與檢測方法研究[J]. 中國農(nóng)機化學(xué)報, 2020, 41(9): 138-142.
Cai Aiping. Research on identification and detection methods of farmland areas in SAR remote sensing images [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(9): 138-142.
[3] 王茂勵, 王浩, 董振振. 基于物聯(lián)網(wǎng)技術(shù)的數(shù)字農(nóng)田信息監(jiān)測系統(tǒng)研究[J].中國農(nóng)機化學(xué)報, 2019, 40(9): 158-163, 180.
Wang Maoli, Wang Hao, Dong Zhenzhen. Research on digital farmland information monitoring system based on Internet of Things technology [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(9): 158-163, 180.
[4] Fu L, Lü X, Wu Q, et al. Field weed recognition based on an improved VGG with inception module [J]. International Journal of Agricultural and Environmental Information Systems (IJAEIS), 2020, 11(2): 1-13.
[5] 蒲秀夫, 寧芊, 雷印杰. 基于二值化卷積神經(jīng)網(wǎng)絡(luò)的農(nóng)業(yè)病蟲害識別[J]. 中國農(nóng)機化學(xué)報, 2020, 41(2): 177-182.
Pu Xiufu, Ning Qian, Lei Yinjie. Identification of agricultural plant diseases based on binarized convolutional neural network [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(2): 177-182.
[6] 張學(xué)軍, 黃爽, 靳偉. 基于改進Faster R-CNN的農(nóng)田殘膜識別方法[J]. 湖南大學(xué)學(xué)報(自然科學(xué)版), 2021, 48(8): 161-168.
Zhang Xuejun, Huang Shuang, Jin Wei. Identification method of agricultural film residue based on improved Faster R-CNN [J]. Journal of Hunan University (Natural Sciences), 2021, 48(8): 161-168.
[7] Elghany S A, Ramadan M, Alruwaili M, et al. Diagnosis of various skin cancer lesions based on fine-tuned ResNet50 deep network [J]. Computers Materials and Continua, 2021, 68(1): 117-135.
[8] 鄧向武, 馬旭, 齊龍. 基于卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)的稻田苗期雜草識別[J]. 農(nóng)機化研究, 2021, 43(10): 167-171.
[9] 樊湘鵬, 周建平, 許燕. 基于優(yōu)化Faster R-CNN的棉花苗期雜草識別與定位[J]. 農(nóng)業(yè)機械學(xué)報, 2021, 52(5): 26-34.
Fan Xiangpeng, Zhou Jianping, Xu Yan. Identification and localization of weeds based on optimized Faster R-CNN in cotton seedling stage [J]. Transactions of the Chinese Society for Agricultural Machinery, 2021, 52(5): 26-34.
[10] 劉莫塵, 高甜甜, 馬宗旭, 等. 融合MSRCR算法和YOLOv4-tiny的田間環(huán)境玉米雜草目標(biāo)檢測模型[J/OL]. 農(nóng)業(yè)機械學(xué)報: 1-15[2022-10-10]. http://kns.cnki.net/kcms/detail/11.1964.S.20220118.1730.002.html
[11] 李開敬, 許燕, 周建平. 基于Faster R-CNN和數(shù)據(jù)增強的棉田苗期雜草識別方法[J]. 新疆大學(xué)學(xué)報(自然科學(xué)版), 2021, 38(4): 450-456.
Li Kaijing, Xu Yan, Zhou Jianping. Cotton field seedling weed identification method based on Faster R-CNN and data enhancement [J]. Journal of Xinjiang University (Natural Sciences), 2021, 38(4): 450-456.
[12] Jiang H, Zhang C, Qiao Y, et al. CNN feature based graph convolutional network for weed and crop recognition in smart farming [J]. Computers and Electronics in Agriculture, 2020, 174: 105450.
[13] 劉宇軒, 孟凡滿, 李宏亮. 一種結(jié)合全局和局部相似性的小樣本分割方法[J]. 北京航空航天大學(xué)學(xué)報, 2021, 47(3): 665-674.
Liu Yuxuan, Meng Fanman, Li Hongliang. A few shot segmentation method combining global and local similarity [J]. Journal of Beijing University of Aeronautics and Astronautics, 2021, 47(3): 665-674.
[14] Zang H, Xu R, Cheng L, et al. Residential load forecasting based on LSTM fusing self-attention mechanism with pooling [J]. Energy, 2021, 229: 120682.
[15] 陸雅諾, 陳炳才. 基于注意力機制的小樣本啤酒花病蟲害識別[J]. 中國農(nóng)機化學(xué)報, 2021, 42(3): 189-196.
Lu Yanuo, Chen Bingcai. Indentation of hops pests and diseases in small samples based on attention mechanisms [J]. Journal of Chinese Agricultural Mechanization, 2021,42(3): 189-196.
[16] Dong R, Xu D, Zhao J, et al. Sig-NMS-based Faster R-CNN combining transfer learning for small target detection in VHR optical remote sensing imagery [J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11): 8534-8545.
[17] Farooq A, Hu J, Jia X. Analysis of spectral bands and spatial resolutions for weed classification via deep convolutional neural network [J]. IEEE Geoscience and Remote Sensing Letters, 2018, 16(2): 183-187.
[18] 孫俊, 何小飛, 譚文軍. 空洞卷積結(jié)合全局池化的卷積神經(jīng)網(wǎng)絡(luò)識別作物幼苗與雜草[J]. 農(nóng)業(yè)工程學(xué)報, 2018, 34(11): 159-165.
Sun Jun, He Xiaofei, Tan Wenjun. Recognition of crop seedling and weed recognition based on dilated convolution and global pooling in CNN [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(11): 159-165.
[19] 溫德圣, 許燕, 周建平. 自然光照影響下基于深度卷積神經(jīng)網(wǎng)絡(luò)和顏色遷移的雜草識別方法[J]. 中國科技論文, 2020, 15(3): 287-292.
Wen Desheng, Xu Yan, Zhou Jianping. Weed identification method based on deep convolutional neural network and color migration under the influence of natural illumination [J]. China Sciencepaper, 2020, 15(3): 287-292.
[20] Fang F, Li L, Zhu H, et al. Combining Faster R-CNN and model-driven clustering for elongated object detection [J]. IEEE Transactions on Image Processing, 2019, 29: 2052-2065.