蔡舒平,孫仲鳴,劉 慧,吳翃軒,莊珍珍
(江蘇大學(xué)電氣信息工程學(xué)院,鎮(zhèn)江 212013)
隨著中國果園種植面積的不斷擴(kuò)大,果園農(nóng)藥噴灑和修剪采摘作業(yè)量日趨繁重,僅僅依靠人力和簡單的工具已經(jīng)無法滿足需求。近幾年大力推動的“智慧化農(nóng)業(yè)”中將機(jī)器人技術(shù)應(yīng)用于農(nóng)業(yè)生產(chǎn),這為農(nóng)業(yè)的現(xiàn)代化升級提供了新的途徑[1]。然而農(nóng)業(yè)機(jī)器人在提高作業(yè)效率,減輕勞動強(qiáng)度的同時[2],也存在著不小的安全隱患。當(dāng)機(jī)器人在果園內(nèi)作業(yè)時,可能會撞到各種障礙物從而引發(fā)事故。所以農(nóng)業(yè)機(jī)器人還必須具有一定的障礙物檢測和識別的能力。
實際中的果園場景環(huán)境復(fù)雜,存在著各種障礙物,障礙物的存在會對機(jī)器人的作業(yè)造成影響。在觀察多個果園的環(huán)境后,發(fā)現(xiàn)無人駕駛的農(nóng)業(yè)機(jī)器人會對果園內(nèi)的果農(nóng)、機(jī)器操作人員以及其他行人的安全造成威脅,也會碰撞到電線桿和燈柱導(dǎo)致電氣事故的發(fā)生,而樹木本身不僅是農(nóng)業(yè)機(jī)器人的作業(yè)對象,同時也是行駛途中的障礙物。因此本研究中選取了行人、果樹、電線桿這3種典型的障礙物作為檢測識別的對象。目前,國內(nèi)外對于農(nóng)業(yè)機(jī)器人避障檢測的研究中,主要采用激光傳感器檢測、雷達(dá)傳感器檢測、機(jī)器視覺傳感器檢測等[3]。在室外的場景下,機(jī)器視覺傳感器具有獨特的優(yōu)勢,它比激光雷達(dá)傳感器更廉價,并且具有采樣周期短、實時性強(qiáng)、抗干擾性強(qiáng)、易于部署等優(yōu)點[4]。
果園障礙物檢測在機(jī)器視覺領(lǐng)域?qū)儆谀繕?biāo)檢測這一類任務(wù),在傳統(tǒng)目標(biāo)檢測中需要人工設(shè)計算子來提取出圖像中目標(biāo)物體的顏色、紋理和邊緣等特征[5]然后進(jìn)行定位和分類。如HOG(Histogram of Oriented Gradient)、SIFT(Scale-invariant feature transform)、SURF(Speeded Up Robust Features)和Canny等[6-9]算法。但較低的準(zhǔn)確率、復(fù)雜龐大的數(shù)據(jù)量、不同物體及不同環(huán)境下特征的設(shè)計難度大、實時性差等缺點使傳統(tǒng)目標(biāo)檢測方法不再適用于農(nóng)業(yè)障礙物檢測識別。隨著近幾年深度學(xué)習(xí)(Deep Learning,DL)理論的迅速發(fā)展,計算機(jī)硬件和圖像采集設(shè)備的性能不斷提升,基于深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測算法已被廣泛使用[10]。相比于傳統(tǒng)目標(biāo)檢測算法,深度學(xué)習(xí)目標(biāo)檢測算法的參數(shù)權(quán)重都是通過輸入大量的數(shù)據(jù),經(jīng)過反復(fù)的訓(xùn)練迭代學(xué)習(xí)得來的,檢測結(jié)果更加精確,具有很強(qiáng)的自適應(yīng)性和魯棒性[11]。在典型的深度學(xué)習(xí)目標(biāo)檢測算法中,一類是基于區(qū)域推薦(Region Proposal)的目標(biāo)檢測,代表性的算法有:R-CNN[12]、Fast R-CNN[13]、Faster-RCNN[14]、SPP-NET[15]等,另一類是基于回歸的目標(biāo)檢測,利用端到端(End to End)的思想,將圖像歸一化到統(tǒng)一大小后直接放入一個卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)中回歸預(yù)測出目標(biāo)物體的類別和位置信息。代表性的算法有:YOLO(You Only Look Once)[16]系列、SSD(Single Shot MultiBox Detector)[17]系列等。雖然基于區(qū)域推薦的目標(biāo)檢測算法在準(zhǔn)確度上占有一定的優(yōu)勢,但候選區(qū)域的提取過程存在計算量大、過程復(fù)雜度高、檢測速度較慢的缺點,使得這種算法無法滿足農(nóng)業(yè)機(jī)器人對實時性目標(biāo)檢測的需求。而YOLO系列的算法有著高準(zhǔn)確率和高檢測速度的優(yōu)點。特征提取也更著眼于整體,因此訓(xùn)練后分類和識別的效果優(yōu)秀,能夠滿足復(fù)雜的果園環(huán)境中農(nóng)業(yè)機(jī)器人實時障礙檢測的要求。
YOLOv1目標(biāo)檢測網(wǎng)絡(luò)于2016年由Redmon等[18]推出,隨后它的v2和v3版本做出了不少改進(jìn)。其中YOLOv2不僅將主干卷積的層數(shù)擴(kuò)大到了19層,還借鑒了Faster-RCNN的錨框(anchor)方法來適應(yīng)大小和長寬不同的檢測目標(biāo),并將末尾的全連接結(jié)構(gòu)替換成了1×1的卷積結(jié)構(gòu),使邊框定位信息更準(zhǔn)確。而YOLOv3借鑒了He等[19]提出的ResNet中的殘差結(jié)構(gòu),有效解決了神經(jīng)網(wǎng)絡(luò)退化的問題,成功地將主干網(wǎng)絡(luò)的卷積層數(shù)增加到了53層,同時使用多個尺度的檢測頭,在檢測速度與檢測效果上均達(dá)到了一個高峰?;赮OLOv3的改進(jìn)與應(yīng)用已經(jīng)取得了不少研究成果,蔡逢煌等[20]加入了注意力機(jī)制,使卷積網(wǎng)絡(luò)能更加專注于提取有用信息。劉洋等[21]在訓(xùn)練時加入MSRCR圖像增強(qiáng)方法,提高了YOLOv3在雨霧天氣下的檢測精度。張健[22]運(yùn)用了可變形卷積,使得YOLOv3的卷積網(wǎng)絡(luò)在特征采樣位置時能夠隨目標(biāo)物的形狀和大小自適應(yīng)地改變。
Bochkovskiy等[23]在YOLOv3的基礎(chǔ)上提出了YOLOv4網(wǎng)絡(luò),準(zhǔn)確率和檢測速度再次得到提升。但是在應(yīng)用于農(nóng)業(yè)機(jī)器人障礙物檢測時,存在以下缺點:對遮擋目標(biāo)的檢測不夠理想、模型參數(shù)量過大、難以部署于低算力的嵌入式設(shè)備等。本研究在原有YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行改進(jìn),并通過試驗測試其運(yùn)用在果園障礙物檢測的上效果。
YOLOv4的網(wǎng)絡(luò)結(jié)構(gòu)簡圖如圖1所示。主干網(wǎng)絡(luò)CSPDarknet由CSPX模塊和CBM模塊交替疊加構(gòu)成,CSPX的結(jié)構(gòu)如圖2a所示,它的作用是將特征圖一分為二。第一部分經(jīng)過CBM和X個殘差組件(Res unit)的卷積操作,第二部分直接與第一部分Concat結(jié)合。圖2b中CBM模塊由一個卷積層連接一個批量正則化(Batch Norm,BN)再連接一個Mish激活函數(shù)組成,而CBL模塊與CBM的區(qū)別在于激活函數(shù)使用的是Leaky Relu。圖 2c中的Res unit一部分經(jīng)過2個CBM模塊,與沒有經(jīng)過任何操作的另一部分進(jìn)行Add連接操作。CSPDarknet在特征圖中集成了梯度的變化,有效地強(qiáng)化了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,且在減少計算量的同時保持了較高的準(zhǔn)確度??臻g金字塔池化(Spatial Pyramid Pooling,SPP)模塊位于主干網(wǎng)絡(luò)和頸部網(wǎng)絡(luò)的結(jié)合處,它的作用如圖2d所示,將輸入特征圖分別通過最大池化的方式變?yōu)椴煌叨鹊奶卣鲌D,然后將不同尺度的特征圖與原特征圖進(jìn)行Concat操作結(jié)合起來輸出。采用這種方式,相比于普通的最大池化操作,能夠更好地增加卷積核的感受野。此外,YOLOv4的頸部網(wǎng)絡(luò)除了有特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)層外,還添加了路徑增強(qiáng)網(wǎng)絡(luò)(Path Aggregation Network,PAN)模塊。如圖2e所示,F(xiàn)PN將頂層的特征圖通過上采樣的操作依次與下層的特征圖連接起來,融合了豐富多樣的特征信息。但是高層級與低層級之間的卷積層跨度大,需要耗費(fèi)大量的時間,而PAN則解決了這個問題,它通過下采樣連接底層特征與高層特征,縮短了各層特征之間融合的路徑。YOLOv4的輸出預(yù)測部分除了損失函數(shù)和非極大值抑制(Non-Maximum Suppression,NMS)外都與YOLOv3保持一致。
YOLOv4的作者公布了在MS COCO數(shù)據(jù)集上的訓(xùn)練結(jié)果[23],準(zhǔn)確率達(dá)到了43.5%,比YOLOv3提高了10%,并且速度也得到了提升,高達(dá)45.2幀/s,比YOLOv3快了12%。盡管YOLOv4檢測模型性能優(yōu)良,然而它使用的CSPDarknet主干網(wǎng)絡(luò)參數(shù)量龐大,在特征提取的過程中計算參數(shù)量很大,需要耗費(fèi)較長的時間。由于農(nóng)業(yè)機(jī)器人在障礙物檢測時應(yīng)具有較高的實時性以便快速做出反應(yīng),所以改進(jìn)模型來減少參數(shù)量勢在必行。
1.2.1 深度可分離卷積
Sandler等[24]在2017年提出了專用于嵌入式移動設(shè)備的輕量模型Mobilenetv2,將標(biāo)準(zhǔn)卷積拆分為深度可分離卷積(Depthwise Separable Convolution)。如圖 3所示。
圖3a中標(biāo)準(zhǔn)卷積的過程是將各通道的輸入特征圖與相應(yīng)的卷積核做卷積操作后相加再輸出特征。傳統(tǒng)標(biāo)準(zhǔn)卷積操作的計算量q1為
而圖3b中深度可分離卷積把傳統(tǒng)卷積中的一步卷積操作分離為一個3×3的深度卷積(Depthwise Convolution,DWC)和一個1×1的逐點卷積(Pointwise Convolution,PWC)兩步操作,它的卷積操作計算量q2為
最后可以推出深度可分離卷積與標(biāo)準(zhǔn)卷積之間的計算量比值為
利用深度可分離卷積后,計算量和參數(shù)會下降到原來的1/4左右,這樣的改進(jìn)能夠顯著地提高檢測速度。
1.2.2 逆殘差組件
YOLOv4原本的殘差結(jié)構(gòu)(Residual Unit)中使用了傳統(tǒng)卷積。由深度可分離卷積改進(jìn)的Residual Unit,如果采用瓶頸結(jié)構(gòu)(bottleneck)則先用1×1 PWC降維至0.25倍通道數(shù)后進(jìn)行3×3 DWC,再用1×1 PWC卷積升維。然而Depthwise Convolutions含有的參數(shù)較少,如果先進(jìn)行降維壓縮再進(jìn)行3×3的DWC的話,會造成提取的特征過少,從而影響檢測精度。因此本研究采用逆殘差組件(Inverted Residual Unit,InvRes Unit),用PWC升維擴(kuò)張至6倍通道數(shù)后進(jìn)行DWC特征提取,再用PWC降維壓縮。這樣形似倒瓶頸的結(jié)構(gòu)使得特征提取在高維度進(jìn)行,有利于提取更多的信息,能夠在減少參數(shù)量的同時保持高精度。
1.2.3 軟性非極大值抑制Soft-DIoU-NMS算法
在深度學(xué)習(xí)目標(biāo)算法中,對于同一檢測對象會產(chǎn)生許多不同大小的預(yù)測框,而本研究只需要保留一個最佳的預(yù)測框。非極大值抑制(Non-Maximum Suppression ,NMS)[25]算法的作用就是將某一類別的預(yù)測框按置信度排序,把最高分值的框設(shè)定為基準(zhǔn)框,然后分別與剩余的框作交并比(Intersection over Union,IoU)計算,大于設(shè)定閾值的刪除,小于閾值的保留,并依次循環(huán),從而達(dá)到消除冗余重復(fù)的窗口,找到物體最佳位置的目的。在YOLOv4中使用的(Distance-IoU-NMS, DIoU-NMS)則是改進(jìn)過的版本,DIoU-NMS除了考慮預(yù)測框重疊區(qū)域的IoU外,還考慮了兩個預(yù)測框中心點之間的距離,能夠有效解決檢測框的損失函數(shù)收斂慢的問題。DIoU-NMS的計算式為
式中Si為當(dāng)前類別的置信度得分,RDIoU為DIoU損失函數(shù)的懲罰項,Bi表示當(dāng)前類別中所有被比較的預(yù)測框,μ表示所有預(yù)測框中置信度最高的那一個框,b和bgt表示2個預(yù)測框的中心像素點坐標(biāo),c指的是兩個預(yù)測框的外接框的對角線像素長度,ρ表示歐式距離,ε表示人為設(shè)定的閾值,一般取0.5。
但是傳統(tǒng)的非極大值抑制方式在檢測緊密靠近且相互遮擋的物體時會存在漏檢的問題,例如,當(dāng)前檢測出的結(jié)果為n個不同置信度的檢測框。如果按照原來的DIoU-NMS方法進(jìn)行處理,首先選中置信度最高的預(yù)測框,那么其余檢測框在后續(xù)的DIoU比較中就會因為與置信度最高的預(yù)測框的重疊面積過大而被刪除,造成誤檢率和漏檢率增大。
在果園場景中,常常會出現(xiàn)樹木或人的密集區(qū)域造成互相遮擋的情況[26]。針對這個問題,通過衰減函數(shù)來對與置信度最高的框有重疊部分的相鄰檢測框進(jìn)行調(diào)整是個比較有效的方法。因此本研究中使用軟性的DIoU-NMS算法(Soft-DIoU-NMS )。在該算法中,不再直接刪除大于閾值的框,而是降低它們的置信度,與得分最高預(yù)測框的重疊度越高,其置信度下降得越快,反之則下降的越慢。進(jìn)行目標(biāo)檢測時,如果使用改進(jìn)后的Soft-DIoU-NMS,首先按照置信度排序,選擇得分最高的檢測框為基準(zhǔn),其余的檢測框為待處理框,經(jīng)過第一次衰減后,計算置信度得分,保留置信度最高的檢測框,并將置信度次高作為基準(zhǔn)。經(jīng)第二次衰減后,獲取置信度得分,依次類推,處理后置信度不變。最終通過綜合刪選取得理想效果。由Soft-NMS原公式[27]的線性表達(dá)式結(jié)合DIoU方法得到Soft-DIoU-NMS的公式如下:
Soft-DIoU-NMS算法公式與普通的NMS相比復(fù)雜度幾乎沒有改變,且實現(xiàn)同樣簡單。
改進(jìn)后的YOLOv4網(wǎng)絡(luò)整體外觀沒有變化,內(nèi)部模塊中用深度可分離卷積代替標(biāo)準(zhǔn)卷積。將殘差組件替換為逆殘差組件。并將NMS算法更替為Soft-DIoU-NMS算法。
計算機(jī)視覺設(shè)備使用ZED高清相機(jī),結(jié)合配套軟件工具SDK和OpenCV庫。深度學(xué)習(xí)硬件平臺為一臺擁有Intel i9-10900K CPU、64 GB內(nèi)存、NVIDIA GTX 2080TI 型號GPU的計算機(jī),安裝有CUDA10.0版本的并行計算框架和CUDNN7.6版本的深度學(xué)習(xí)加速庫。在Tensorflow深度學(xué)習(xí)框架上實現(xiàn)研究中YOLOv4目標(biāo)檢測模型的訓(xùn)練。試驗平臺如圖4所示。
底座為一個由電機(jī)驅(qū)動的四輪差速轉(zhuǎn)向小車,搭載本試驗所用的計算機(jī)和攝像頭,來模擬農(nóng)業(yè)機(jī)器人行進(jìn)過程中對障礙物的檢測。
本試驗中果園障礙物數(shù)據(jù)集于7—9月期間拍攝并制作而成,拍攝地點位于江蘇大學(xué)校園內(nèi)的一處果園,果園內(nèi)有梨樹、桃樹、杏樹等約100棵,高度2~4 m,果樹行間和兩側(cè)共有15座路燈和電線桿,采集圖像時,讓3名同學(xué)在果園內(nèi)隨意走動。用800萬像素的攝像頭共拍攝了2000張原始圖像,包含3種代表性障礙物:果樹、行人、電線桿或燈桿。采集圖片中所有目標(biāo)障礙物按照距離分為近、中、遠(yuǎn)目標(biāo)。對于包含行人的圖像分別采集靜止、移動中、站立、蹲、彎腰等姿態(tài)的人,以豐富數(shù)據(jù)集的多樣性,從而提升目標(biāo)檢測模型的檢測能力。
本研究訓(xùn)練模型采用PASCAL VOC的數(shù)據(jù)集格式,先用Labelimg標(biāo)注工具對每張圖片目標(biāo)物體所在區(qū)域進(jìn)行手工數(shù)據(jù)標(biāo)注矩形框,得到真實框ground truth用于訓(xùn)練。本試驗中設(shè)定果樹的標(biāo)簽為Tree,行人的標(biāo)簽為Person,電線桿或燈桿的標(biāo)簽為Pole。數(shù)據(jù)集按照8∶1∶1的比例劃分為訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集與測試數(shù)據(jù)集。本試驗中檢測評價的指標(biāo)包括準(zhǔn)確率(Precision,P)、召回率(Recall,R)、調(diào)和均值F1、參數(shù)量(單位為MB)。P、R和F1的計算式分別為
式中Tp表示正確檢測到果樹、行人或電線桿的數(shù)量,F(xiàn)p表示檢測目標(biāo)出現(xiàn)分類錯誤的數(shù)量,F(xiàn)N表示圖片中的目標(biāo)漏檢的數(shù)量,F(xiàn)1表示準(zhǔn)確率P和召回率R的調(diào)和平均值。當(dāng)F1越逼近于1時說明模型優(yōu)化得越好。
輸入圖像尺寸為608×608像素,為了增強(qiáng)模型的抗干擾能力,在訓(xùn)練時使用了多種數(shù)據(jù)增強(qiáng)的方法,包括隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)、隨機(jī)拉伸、隨機(jī)失真、加入馬賽克干擾。訓(xùn)練參數(shù)為:批量16,動量0.97,初始學(xué)習(xí)率0.001,衰減系數(shù)為0.9。
數(shù)據(jù)集內(nèi)的圖片通過圖像增廣將數(shù)量由原始的2000張擴(kuò)增到了4000。同時為了縮短訓(xùn)練時間加快迭代收斂,在試驗中下載了object365數(shù)據(jù)集上的公開預(yù)訓(xùn)練模型用于遷移學(xué)習(xí)。將預(yù)訓(xùn)練模型的參數(shù)值除分類預(yù)測層之外都賦給YOLOv4模型。然后使用上述訓(xùn)練參數(shù)對YOLOv4的預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練調(diào)整。
為了驗證改進(jìn)后的模型與常用的典型模型的效果。分別對改進(jìn)前后的YOLOv4模型、YOLOv3、Faster-RCNN用同樣的訓(xùn)練參數(shù)和數(shù)據(jù)集進(jìn)行訓(xùn)練,4種模型的訓(xùn)練都進(jìn)行50000次迭代,在訓(xùn)練集上每隔2000次迭代就在驗證集上測試一輪平均準(zhǔn)確率和召回率,并保存一次模型。根據(jù)記錄下的訓(xùn)練日志生成變化曲線圖,如圖5所示。
訓(xùn)練完成后,取果園障礙物數(shù)據(jù)集中的測試集圖片用于測試各模型的指標(biāo)得分并列表統(tǒng)計,統(tǒng)計結(jié)果如表1所示。由表中結(jié)果可知,改進(jìn)后YOLOv4模型進(jìn)行果園障礙物檢測時在準(zhǔn)確率方面比原YOLOv4、YOLOv3、Faster-RCNN分別提高了0.61、4.18、0.04個百分點。在召回率方面,分別提高了0.68、6.37、0.11個百分點。同時,改進(jìn)后的YOLOv4模型參數(shù)量壓縮了原YOLOv4的75%,比YOLOv3小68.7%,比Faster-RCNN縮小了81%。在檢測速度方面,改進(jìn)后的YOLOv4比原YOLOv4快 29.4%,比YOLOv3快22.1%,比Faster-RCNN快346%。表明改進(jìn)后的YOLOv4具有更優(yōu)秀的性能。
表1 不同模型檢測結(jié)果比較 Table 1 Comparison of detection results among different models
果園中的障礙物按照與農(nóng)業(yè)機(jī)器人的距離可分為:近距離目標(biāo)、中距離目標(biāo)、遠(yuǎn)距離目標(biāo)。其中近距離目標(biāo)定義為和攝像頭距離1~5 m,中距離目標(biāo)定義為距離攝像頭5~10 m,遠(yuǎn)距離目標(biāo)定義為距離攝像頭10~20 m。鑒于農(nóng)業(yè)機(jī)器人的實際工作需要,這里20 m以上的目標(biāo)不在考慮范圍內(nèi)。
為了詳細(xì)地對比不同距離下改進(jìn)后的模型與其他模型檢測能力指標(biāo),額外準(zhǔn)備100張不同于數(shù)據(jù)集的圖片,每張圖片包含不同距離下3種的果園障礙物。100張圖片內(nèi)的不同類別果園障礙物的數(shù)量如表2所示。
表2 不同距離下不同類別測試目標(biāo)數(shù)量 Table 2 Number of test targets in different categories at different distances
不同距離下不同模型的P、R、F1指標(biāo)如表3所示。
表3 不同距離下不同模型的障礙物檢測結(jié)果 Table 3 Obstacle detection results of different models at different distances
分別用4種模型對不同距離下的目標(biāo)檢驗其檢測效果,檢測效果如圖6所示。
由于使用了Soft-DIoU-NMS算法,改進(jìn)后的模型在檢測目標(biāo)密集或重疊區(qū)域時漏檢率大幅減少,所以改進(jìn)后的模型在中近距離上檢測目標(biāo)的能力均超過了原模型和其他模型。在遠(yuǎn)距離上,改進(jìn)后的YOLOv4的檢測能力,強(qiáng)于YOLOv3和Faster-RCNN模型,但比原YOLOv4模型在準(zhǔn)確率上低了2.65%。這是由于逆殘差結(jié)構(gòu)的存在使得對小目標(biāo)的特征敏感度變低造成的。然而在實際農(nóng)業(yè)機(jī)器人的應(yīng)用中,遠(yuǎn)處的障礙物隨著機(jī)器人的運(yùn)動由遠(yuǎn)及近,因此障礙物的避讓決策會優(yōu)先處理中近距離的目標(biāo),同時農(nóng)業(yè)機(jī)器人的運(yùn)動速度一般較慢,所以遠(yuǎn)目標(biāo)的檢測能力稍弱對農(nóng)業(yè)機(jī)器人的避障幾乎沒有影響。因此從數(shù)據(jù)結(jié)果分析可知:改進(jìn)后的YOLOv4模型更適合完成農(nóng)業(yè)機(jī)器人對果園障礙物的檢測任務(wù)。
1)本研究提出了一種改進(jìn)型的YOLOv4目標(biāo)檢測模型用于果園多種障礙物的檢測。利用深度可分離卷積代替原有的標(biāo)準(zhǔn)卷積,并在主干網(wǎng)絡(luò)中用逆殘差組件代替了原有的殘差組件。使得模型的參數(shù)量和計算量僅為原來的1/4左右,更輕量化,利于農(nóng)業(yè)嵌入式移動設(shè)備的模型部署。同時,改進(jìn)了非極大值抑制的方式,采用Soft-DIoU-NMS來減少冗余框,對重疊目標(biāo)的檢測精度更高。使得果園農(nóng)業(yè)機(jī)器人能更安全地行駛作業(yè)。
2)根據(jù)果園內(nèi)的主要障礙物的類別,制作了包括果樹、行人、電線桿這3類障礙物的圖像數(shù)據(jù)集分別用于改進(jìn)前后YOLOv4目標(biāo)檢測模型的訓(xùn)練和測試,并分別在近、中、遠(yuǎn)目標(biāo)上對改進(jìn)前后的模型和YOLOv3、Faster-RCNN模型進(jìn)行對比試驗。結(jié)果表明,改進(jìn)后的模型具有較高的準(zhǔn)確度和實時性,準(zhǔn)確率和召回率分別達(dá)到了96.92%和91.43%,視頻流檢測速度達(dá)到了58.5幀/s,模型參數(shù)量僅有35 MB。本研究中改進(jìn)的YOLOv4在提升了精準(zhǔn)度的情況下,大幅度減少了模型的參數(shù)量,增強(qiáng)了實時性。本研究所提方法特別適用于中近距離目標(biāo)的檢測,更好地滿足了農(nóng)業(yè)機(jī)器人的實際應(yīng)用場景。