李相周, 戴 飛, 郭文娟,2, 張方圓, 宋學(xué)鋒, 張鋒偉*
(1.甘肅農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,甘肅 蘭州 730070;2.甘肅政法大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,甘肅 蘭州 730070)
玉米全膜雙壟溝農(nóng)藝技術(shù)具有良好的集雨、保墑、抗旱、增產(chǎn)作用,在以甘肅為代表的黃土高原干旱區(qū)得到大力推廣和應(yīng)用,很大程度上提高了旱作地區(qū)糧食產(chǎn)量,對西北地區(qū)農(nóng)業(yè)發(fā)展、糧食安全以及農(nóng)村經(jīng)濟(jì)增長具有重要意義[1]。智能農(nóng)機(jī)裝備和精準(zhǔn)農(nóng)業(yè)是當(dāng)前農(nóng)業(yè)生產(chǎn)提質(zhì)增效的關(guān)鍵載體,在2021年印發(fā)的中央一號文件《中共中央國務(wù)院關(guān)于全面推進(jìn)鄉(xiāng)村振興加快農(nóng)業(yè)農(nóng)村現(xiàn)代化的意見》中再次強(qiáng)調(diào)了對高端智能農(nóng)機(jī)裝備研發(fā)制造的支持,因此,有效提升玉米全膜雙壟溝智能全程機(jī)械化作業(yè)水平迫在眉睫[2-3]。
近年來,隨著深度學(xué)習(xí)等人工智能算法在計(jì)算機(jī)視覺領(lǐng)域的突破式發(fā)展,越來越多的相關(guān)研究成果開始在農(nóng)業(yè)生產(chǎn)中落地。目前,國內(nèi)外在玉米秧苗識別方面的研究主要集中在病蟲害識別、株數(shù)統(tǒng)計(jì)、導(dǎo)航線擬合等方面。馮槐區(qū)[4]等使用基于深度學(xué)習(xí)的目標(biāo)檢測方法在不同天氣條件下對玉米秧苗進(jìn)行了識別研究。姜博然[5]等提出了一種基于深度學(xué)習(xí)的玉米植株干旱檢測方法。張偉榮[6]等利用改進(jìn)的Mask R-CNN算法對玉米苗冠層做了分割。權(quán)龍哲等[7]使用YOLOv4算法分別識別了玉米苗和雜草。張博立等[8]通過動態(tài)網(wǎng)格和分區(qū)聚類的方法提取了玉米苗帶中心線用作導(dǎo)航。黃英來等[9]使用改進(jìn)的殘差網(wǎng)絡(luò)對玉米葉片病蟲害進(jìn)行了識別分類。付振宇[10]等利用YOLO算法對玉米株數(shù)做了統(tǒng)計(jì),用于災(zāi)情檢測和評估。楊洋等[11]使用卷積神經(jīng)網(wǎng)絡(luò)識別了玉米根莖,為后續(xù)的路徑規(guī)劃服務(wù)。但目前關(guān)于覆膜種床作物識別研究還鮮有報(bào)道,因此基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)模型,開展玉米全膜雙壟溝種床苗帶識別方法研究是一種很好的嘗試,是實(shí)現(xiàn)玉米全膜雙壟溝智能殘膜回收、追肥、除草等農(nóng)機(jī)裝備田間作業(yè)的重要前提[4]。
本文基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)YOLOv3-SPP網(wǎng)絡(luò)模型與YOLOx-Darknet53網(wǎng)絡(luò)模型開展了全膜雙壟溝種床苗帶識別方法研究,初步探究兩種模型的性能差異,以期為玉米全膜雙壟溝種床苗帶識別方法與玉米全膜雙壟溝智能農(nóng)機(jī)裝備的有效結(jié)合提供理論支撐。
玉米秧苗圖像采集于甘肅洮河拖拉機(jī)制造有限公司試驗(yàn)田,采集對象為處于苗期的玉米秧苗[4]。使用手機(jī)進(jìn)行數(shù)據(jù)采集,手機(jī)型號為HUAWEI Mate20 pro,采集過程中使用手機(jī)相機(jī)的自動模式,關(guān)閉AI圖像增強(qiáng),圖像分辨率設(shè)置為1 280×720。采集過程中模擬攝像頭安裝在農(nóng)機(jī)上的視角,手機(jī)距離拍攝對象高度為1 m,分別使用45°和90°兩種視角拍攝以豐富數(shù)據(jù)集,共采集3 600幅圖像。
數(shù)據(jù)集的標(biāo)注質(zhì)量關(guān)系到訓(xùn)練檢測模型最終的準(zhǔn)確度,需要對采集的圖像進(jìn)行細(xì)粒度目標(biāo)標(biāo)注。本文使用LabelImg標(biāo)注軟件標(biāo)注圖像,在拍攝的3 600幅圖像中篩選出3 111幅包含待檢測目標(biāo)的可用圖像,人工標(biāo)注圖像中的目標(biāo)信息生成PASCAL VOC格式的玉米秧苗數(shù)據(jù)集,標(biāo)注過程如圖1所示。用于訓(xùn)練的數(shù)據(jù)集通常包含訓(xùn)練集、驗(yàn)證集和測試集,本文采用9∶1的比例生成訓(xùn)練集和驗(yàn)證集共2 799幅圖像、測試集共312幅圖像,再以9∶1的比例生成訓(xùn)練集共2 519幅圖像、驗(yàn)證集共280幅圖像。
圖1 種床苗帶數(shù)據(jù)集標(biāo)注
YOLO(you only look once)系列算法是one-stage系列算法中的一種,經(jīng)過不斷地改進(jìn)優(yōu)化,目前YOLO系列在各種one-stage算法中取得了最優(yōu)的檢測精度和處理速度[12-15]。YOLOv3是YOLOv2的改進(jìn)版本,主干網(wǎng)絡(luò)由Darknet19改進(jìn)為Darknet53,加入了殘差模塊(Residual),同時還借鑒了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)的特征融合方法在Neck部分設(shè)置了FPN層[14]。YOLOv3-SPP網(wǎng)絡(luò)模型是在YOLOv3的基礎(chǔ)上在主干網(wǎng)絡(luò)后的Neck部分添加空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊得到。與YOLOx相比,YOLOv4和YOLOv5對基于anchor的流程存在過度優(yōu)化,因此其選擇在YOLOv3-SPP網(wǎng)絡(luò)模型的基礎(chǔ)上改進(jìn)得到Y(jié)OLOx-Darknet53網(wǎng)絡(luò)模型。YOLOv3-SPP網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中,CBL即卷積(Conv)、批量歸一化(Batch Normalization,BN)和LeakyReLU激活函數(shù)的組合。
YOLOx-Darknet53網(wǎng)絡(luò)模型在YOLOv3-SPP的基礎(chǔ)上,將預(yù)測部分(圖2虛線框外的部分)的YOLO Head更改為Decoupled Head,YOLOx-Darknet53網(wǎng)絡(luò)模型優(yōu)化改進(jìn)結(jié)構(gòu)如圖3所示。該改進(jìn)提高了模型的預(yù)測精度,同時也加快了網(wǎng)絡(luò)的收斂速度[15]。
圖2 YOLOv3-SPP網(wǎng)絡(luò)模型結(jié)構(gòu)
圖3 YOLOx-Darknet53網(wǎng)絡(luò)模型優(yōu)化改進(jìn)結(jié)構(gòu)
在預(yù)測部分,YOLOx-Darknet53網(wǎng)絡(luò)模型還將YOLO系列采用的Anchor Based方式更改為Anchor Free方式,這一改進(jìn)將模型的預(yù)測參數(shù)量減少了2/3,極大提高了模型的預(yù)測速度,相應(yīng)的使用SimOTA方法動態(tài)匹配正樣本[15]。
本次實(shí)驗(yàn)使用的計(jì)算機(jī)具體硬件配置如下,CPU為AMD Ryzen 5 5600 X @ 3.7 GHz(6核12線程),GPU為NVIDIA GeForce 1060 6 GB,搭配16 GB DDR4 3200 MHz內(nèi)存。軟件版本配置如下,操作系統(tǒng)為Windows10 20H2,基于Anaconda安裝Python3.6、CUDA Toolkit10.2、cuDNN7.6.5,深度學(xué)習(xí)框架為PyTorch1.2.0。
使用制作好的數(shù)據(jù)集分別對YOLOv3-SPP網(wǎng)絡(luò)模型和YOLOx-Darknet53網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。兩個模型的輸入尺寸均選擇官方推薦的大小,為了盡可能使兩種網(wǎng)絡(luò)初始條件接近,YOLOv3-SPP網(wǎng)絡(luò)模型設(shè)置為608×608,YOLOx-Darknet53網(wǎng)絡(luò)模型設(shè)置為640×640,對輸入圖像采用不失真的Resize方法。參考官方在COCO數(shù)據(jù)集上訓(xùn)練了300個epoch,由于本次為基于官方預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練,因此將迭代次數(shù)均設(shè)置為100個epoch,batchsize設(shè)置為32,初始學(xué)習(xí)率設(shè)置為1×10-3,動量設(shè)置為0.9,權(quán)重衰減設(shè)置為5×10-4,因?yàn)閅OLOv3-SPP網(wǎng)絡(luò)模型沒有使用Mosaic和Mixup數(shù)據(jù)增強(qiáng),且YOLOx中Mosaic大量的crop操作會帶來很多不準(zhǔn)確的標(biāo)注框,因此,為了公平起見本次訓(xùn)練不使用數(shù)據(jù)增強(qiáng)[15]。
由于YOLOx-Darknet53網(wǎng)絡(luò)模型的輸入圖像尺寸較大,訓(xùn)練過程產(chǎn)生的參數(shù)較多,因此對YOLOx-Darknet53網(wǎng)絡(luò)模型采用凍結(jié)訓(xùn)練的方法以加快訓(xùn)練進(jìn)度,具體措施為前50個epoch凍結(jié)訓(xùn)練后50個epoch解凍訓(xùn)練。解凍階段的初始學(xué)習(xí)率設(shè)置為1×10-4,對網(wǎng)絡(luò)進(jìn)行微調(diào)。凍結(jié)訓(xùn)練階段網(wǎng)絡(luò)的主干部分被凍結(jié),特征提取網(wǎng)絡(luò)不發(fā)生改變,網(wǎng)絡(luò)的參數(shù)改變的少,訓(xùn)練所需的硬件開銷較小。解凍訓(xùn)練階段網(wǎng)絡(luò)的主干部分解凍,特征提取網(wǎng)絡(luò)開始調(diào)整,網(wǎng)絡(luò)的所有參數(shù)都發(fā)生改變,訓(xùn)練所需的硬件開銷大、訓(xùn)練時間長。在本次訓(xùn)練中,即使對YOLOx-Darknet53網(wǎng)絡(luò)模型使用了凍結(jié)訓(xùn)練,其訓(xùn)練所需時間依然遠(yuǎn)大于YOLOv3-SPP網(wǎng)絡(luò)模型。兩種網(wǎng)絡(luò)模型訓(xùn)練時的Loss曲線如圖4和圖5所示,由兩圖可以看到凍結(jié)訓(xùn)練對Loss曲線的影響,YOLOx-Darknet53網(wǎng)絡(luò)模型在主干網(wǎng)絡(luò)解凍后Loss再次快速收斂后趨于穩(wěn)定。
圖4 YOLOv3-SPP Loss曲線
圖5 YOLOx-Darknet53 Loss曲線
訓(xùn)練結(jié)束后在驗(yàn)證集上評估模型的性能,使用平均指度mAP、準(zhǔn)確率(Precision)、召回率(Recall)和F1值4個指標(biāo)。根據(jù)預(yù)測結(jié)果和真實(shí)情況得到計(jì)算P、R的三個指標(biāo):TP為真實(shí)值為正且預(yù)測值為正的樣本個數(shù);FP為真實(shí)值為負(fù)且預(yù)測值為正的樣本個數(shù);FN為真實(shí)值為正且預(yù)測值為負(fù)的樣本個數(shù)。
(1)
準(zhǔn)確率P反映了模型預(yù)測的所有目標(biāo)中預(yù)測正確的比例。
(2)
召回率R反映了所有真實(shí)目標(biāo)中模型預(yù)測正確的比例。
(3)
F1值同時考慮了準(zhǔn)確率和召回率兩個指標(biāo),是兩個指標(biāo)的調(diào)和平均值。
(4)
AP為面積概念,為P-R曲線下包含的面積。mAP為檢測多個類時所有類別AP的平均值,由于本文只涉及1個類別,所以mAP值和AP值相等。
使用YOLOv3-SPP網(wǎng)絡(luò)模型和YOLOx-Darknet53網(wǎng)絡(luò)模型在測試集上進(jìn)行玉米全膜雙壟溝種床苗帶識別檢測效果對比實(shí)驗(yàn),得到各類評價指標(biāo)在本文所使用的硬軟件平臺上的結(jié)果。兩種模型的P-R曲線如圖6和圖7所示。其中,YOLOv3-SPP網(wǎng)絡(luò)的mAP為94.72%,YOLOx-Darknet53網(wǎng)絡(luò)模型的mAP為95.56%,YOLOx-Darknet53相比YOLOv3-SPP提高了0.84%。
圖6 YOLOv3-SPP P-R曲線
圖7 YOLOx-Darknet53 P-R曲線
兩種模型的P、R、F1值和FPS如表1所示,P、R、F1值均在閾值(Threshold)為0.5時取得。從表中可以看出兩模型在閾值為0.5時精度相差不大,YOLOx-Darknet53的準(zhǔn)確率僅比YOLOv3-SPP高了2.1%。FPS值為使用100幅圖像檢測得到的結(jié)果,得益于Decoupled Head與Anchor Free的改進(jìn),YOLOx-Darknet53網(wǎng)絡(luò)模型在GTX1060平臺上運(yùn)行時檢測速度為44.3FPS,而YOLOv3-SPP網(wǎng)絡(luò)模型運(yùn)行時檢測速度為19.1FPS,兩者相差25.2FPS,表明YOLOx-Darknet53網(wǎng)絡(luò)模型的實(shí)時監(jiān)測效果優(yōu)于YOLOv3-SPP網(wǎng)絡(luò)模型。
表1 兩種網(wǎng)絡(luò)模型性能對比
對比兩個模型在測試機(jī)上的檢測結(jié)果,如圖8和圖9所示。可以發(fā)現(xiàn)應(yīng)用YOLOv3-SPP網(wǎng)絡(luò)模型的檢測結(jié)果在進(jìn)行玉米全膜雙壟溝種床苗帶識別時,覆膜種床苗帶左上、左下、中上、右下均出現(xiàn)了秧苗漏檢情況,其中右上部分和中上部分最為嚴(yán)重,而YOLOx-Darknet53網(wǎng)絡(luò)模型能夠全部檢出。綜合多張圖像檢測結(jié)果中的漏檢現(xiàn)象分析,YOLOx-Darknet53網(wǎng)絡(luò)模型對重疊的小目標(biāo)檢測效果好于YOLOv3-SPP網(wǎng)絡(luò)模型,通過應(yīng)用YOLOx-Darknet53網(wǎng)絡(luò)模型能夠有效提升玉米全膜雙壟溝智能殘膜回收、追肥、除草等農(nóng)機(jī)裝備的作業(yè)識別精準(zhǔn)度。
圖8 YOLOv3-SPP Loss檢測效果
圖9 YOLOx-Darknet53 Loss檢測效果
本文使用YOLOv3-SPP網(wǎng)絡(luò)模型與YOLOx-Darknet53網(wǎng)絡(luò)模型開展了玉米全膜雙壟溝種床苗帶識別方法研究,獲得了以下結(jié)論:
(1)采用YOLOv3-SPP網(wǎng)絡(luò)模型與YOLOx-Darknet53網(wǎng)絡(luò)模型在本研究所使用的測試集上mAP分別達(dá)到了94.72%和95.56%,后者比前者高了0.84%,同時后者的準(zhǔn)確率比前者高了0.021,且后者的小目標(biāo)檢測效果更好。
(2)YOLOx-Darknet53網(wǎng)絡(luò)模型在測試平臺上達(dá)到了44.3 FPS的檢測速度,與YOLOv3-SPP網(wǎng)絡(luò)模型檢測速度相比提高了25.3 FPS,表明YOLOx-Darknet53網(wǎng)絡(luò)模型的實(shí)時檢測效果優(yōu)于YOLOv3-SPP,更適合于有效提升玉米全膜雙壟溝智能殘膜回收、追肥、除草等農(nóng)機(jī)裝備的作業(yè)識別精準(zhǔn)度。