国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可訓(xùn)練變換器和RdNet在果實(shí)識(shí)別網(wǎng)絡(luò)中的應(yīng)用

2021-04-02 12:06崔翔宇趙紅朱智富袁煥濤仇俊政牟亮
關(guān)鍵詞:目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)葡萄

崔翔宇 趙紅 朱智富 袁煥濤 仇俊政 牟亮

摘要:? 為解決YOLO算法由于其端到端的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致某些尺度上的特征被淡化或丟失使識(shí)別率較低的問(wèn)題,本文以葡萄為例,對(duì)可訓(xùn)練變換器和RdNet在果實(shí)識(shí)別網(wǎng)絡(luò)中的應(yīng)用進(jìn)行研究。提出基于可訓(xùn)練變換器和多尺度特征圖融合的改進(jìn)YOLO算法,以自主設(shè)計(jì)的基于堆疊殘差塊和降采樣塊的RdNet作為特征提取網(wǎng)絡(luò),采用converter變換器結(jié)構(gòu)進(jìn)行不同尺度的特征變換融合,從采集并篩選的葡萄果園照片中,隨機(jī)選取120張作為測(cè)試集,將其余照片進(jìn)行數(shù)據(jù)增強(qiáng),得到480張圖片作為訓(xùn)練集,并分別對(duì)提出的模型、YOLOv3和快速區(qū)域提出卷積神經(jīng)網(wǎng)絡(luò)(faster region-convolutional neural networks,F(xiàn)aster R-CNN)三種算法進(jìn)行訓(xùn)練,使用其在測(cè)試集上的F1值與AP值評(píng)估各模型的性能差異。實(shí)驗(yàn)結(jié)果表明,模型在測(cè)試集上的F1值可達(dá)9258%,AP值可達(dá)9233%,而在Nvidia Jetson TX2平臺(tái)上,檢測(cè)速度達(dá)到19 f/s,單張640×480圖片的推理時(shí)間為526 ms,達(dá)到了較理想的識(shí)別準(zhǔn)確率,且能滿足采摘機(jī)器人的實(shí)時(shí)性要求。該研究在果園等場(chǎng)景中可以得到更好的應(yīng)用效果。

關(guān)鍵詞:? 卷積神經(jīng)網(wǎng)絡(luò); 葡萄; 目標(biāo)檢測(cè); 多尺度特征; YOLO

中圖分類(lèi)號(hào): TP391.41文獻(xiàn)標(biāo)識(shí)碼: A

作者簡(jiǎn)介: ?崔翔宇(1996-),男,碩士研究生, 主要研究方向?yàn)橛糜诠麑?shí)采摘和無(wú)人駕駛感知的計(jì)算機(jī)視覺(jué)。

通信作者: ?趙紅(1973-),女, 博士,副教授,主要研究方向?yàn)槠?chē)節(jié)能減排與新能源技術(shù)。 Email: qdlizh@163.com

我國(guó)是農(nóng)業(yè)大國(guó),有著上百萬(wàn)平方公里的農(nóng)業(yè)土地,但農(nóng)場(chǎng)與果園卻面臨日益嚴(yán)重的勞動(dòng)力短缺[1]。近年來(lái),隨著農(nóng)業(yè)信息化與機(jī)械化的不斷發(fā)展[2],果實(shí)采摘機(jī)器人[35]成為未來(lái)農(nóng)業(yè)發(fā)展的一項(xiàng)很重要的課題。我國(guó)的葡萄果園環(huán)境較復(fù)雜,葡萄密集程度高,葡萄采摘機(jī)器人對(duì)葡萄串做出精確識(shí)別與定位的算法提出了較高的要求。針對(duì)自然環(huán)境下的葡萄串識(shí)別問(wèn)題,國(guó)內(nèi)外學(xué)者陸續(xù)提出基于傳統(tǒng)機(jī)器視覺(jué)的識(shí)別方法。田銳等人[6]通過(guò)提取基于RGB空間的人工特征方法進(jìn)行葡萄串識(shí)別;劉平等人[7]使用顏色空間中H分量提取輪廓與重疊邊界輪廓相融合的方法,這兩種方法對(duì)環(huán)境變化敏感,魯棒性較差;羅陸峰等人[8]通過(guò)對(duì)H分量模糊聚類(lèi),提取最大連通區(qū)域的方法進(jìn)行葡萄識(shí)別。此外,大多數(shù)基于傳統(tǒng)視覺(jué)[913]的果實(shí)識(shí)別算法都存在對(duì)環(huán)境變化敏感、魯棒性差的問(wèn)題。隨著計(jì)算機(jī)硬件算力的提升,傳統(tǒng)的視覺(jué)算法由于魯棒性差,精度低逐漸被基于深度學(xué)習(xí)算法所替代。R. Girshick等人[14]在CVPR2014上提出了R-CNN算法,并取得了較高的檢測(cè)精度,但由于其候選區(qū)的生成和對(duì)每個(gè)候選區(qū)的推理,導(dǎo)致其訓(xùn)練復(fù)雜和運(yùn)行緩慢,無(wú)法滿足實(shí)時(shí)應(yīng)用的需求。而基于R-CNN提出的一系列改進(jìn)算法[1516],通過(guò)區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)代替?zhèn)鹘y(tǒng)的候選框生成方法,在速度上有了大幅提升,但在追求實(shí)時(shí)性場(chǎng)景下,有時(shí)仍無(wú)法滿足需求;2015年提出的YOLO算法[17]及其后來(lái)改進(jìn)的算法[1819],在保證較高精度的情況下,大幅提升檢測(cè)速度,但由于單階段算法結(jié)構(gòu)的限制,仍不能很好的對(duì)不同尺度的特征進(jìn)行提取融合。隨著基于深度學(xué)習(xí)目標(biāo)檢測(cè)算法的興起,越來(lái)越多的學(xué)者將其應(yīng)用到果園果實(shí)識(shí)別場(chǎng)景中,趙德安等人[20]直接使用YOLOv3算法進(jìn)行復(fù)雜背景下的果園蘋(píng)果識(shí)別,但并未根據(jù)應(yīng)用場(chǎng)景對(duì)算法做出具體的修改;王細(xì)萍等人[21]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行蘋(píng)果病害圖像的識(shí)別,但這種堆疊卷積層的方法不能很好利用多層特征的關(guān)聯(lián)信息;魏瑋等人[22]采用殘差網(wǎng)絡(luò)[23]通過(guò)跳躍連接降低冗余特征來(lái)提高檢測(cè)精度,并提高檢測(cè)速度,但這種方法同時(shí)也會(huì)導(dǎo)致部分特征信息的丟失;肖經(jīng)緯等人[24]通過(guò)壓縮后的殘差網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提升檢測(cè)速度和精度,但仍會(huì)使模型的特征表達(dá)能力有所損失。因此,本文在YOLOv3算法框架基礎(chǔ)上,采用模塊化網(wǎng)絡(luò)結(jié)構(gòu)[25]設(shè)計(jì),對(duì)葡萄串的特性設(shè)計(jì)全新的特征提取網(wǎng)絡(luò)和損失函數(shù),提出一種改進(jìn)的葡萄串檢測(cè)算法。該算法將特征提取網(wǎng)絡(luò)得到的不同尺度的特征圖進(jìn)行融合,增強(qiáng)模型的特征提取與處理能力,提高了模型的魯棒性,從而提升了對(duì)果園中葡萄串的檢測(cè)效果。

1網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

本文提出的葡萄檢測(cè)算法由特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)及一些常用的后處理部分組成。其中,特征提取網(wǎng)絡(luò)RdNet由自主設(shè)計(jì)的基本殘差模塊和降采樣模塊堆疊組成,負(fù)責(zé)從輸入圖像中提取不同尺度的特征;特征融合網(wǎng)絡(luò)用于將不同尺度的特征圖進(jìn)行融合,以得到包含更多特征信息的特征圖;后處理部分包括將特征轉(zhuǎn)換為預(yù)測(cè)值的預(yù)測(cè)層以及非極大值抑制等生成預(yù)測(cè)框的常用算法。

1.1特征提取網(wǎng)絡(luò)RdNet

為提高訓(xùn)練精度及網(wǎng)絡(luò)質(zhì)量,一般會(huì)采用堆疊的卷積層進(jìn)行特征提取,但由于隨著卷積層層數(shù)的增加,會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)出現(xiàn)梯度消失和梯度爆炸的問(wèn)題。本文利用殘差網(wǎng)絡(luò)中使用跳遠(yuǎn)連接來(lái)避免梯度爆炸或梯度消失的思想,通過(guò)重復(fù)堆疊自主設(shè)計(jì)的殘差模塊與降采樣模塊,設(shè)計(jì)了特征提取網(wǎng)絡(luò)RdNet,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。輸入圖像通過(guò)殘差塊的卷積層進(jìn)行特征提取,在幾個(gè)特定的位置使用降采樣模塊,對(duì)特征圖進(jìn)行尺度變換,從而提取到不同尺度的特征。在每個(gè)殘差塊和降采樣塊輸出時(shí),都使用LeakyReLU激活函數(shù)對(duì)特征激活。在特征提取網(wǎng)絡(luò)的后半部,提取出80×60,40×30,20×15三種尺度的特征圖route0、route1、route2,用于后續(xù)特征融合網(wǎng)絡(luò)進(jìn)行多尺度特征圖融合。

網(wǎng)絡(luò)子模塊結(jié)構(gòu)如圖2所示。由圖2a可以看出,本文以該殘差模塊作為特征提取網(wǎng)絡(luò)的基本單元,輸入特征在主路徑經(jīng)過(guò)三層卷積進(jìn)行特征提取,該過(guò)程只改變特征的通道數(shù),而不改變特征的尺度大小。同時(shí),在捷徑對(duì)輸入特征進(jìn)行一次卷積,將其變換為與主路徑相同維度的輸出,從而將兩條路徑的輸出疊加再進(jìn)行激活,得到殘差模塊的輸出。

由圖2b可以看出,降采樣模塊采用與殘差模塊對(duì)稱(chēng)的結(jié)構(gòu),主路徑由三個(gè)卷積層構(gòu)成,其中第二層卷積層采用特定的卷積步長(zhǎng),并采用same方式填充,從而得到尺度縮小為特定倍數(shù)的特征圖(圖2中以步長(zhǎng)等于2為例);捷徑為一個(gè)與卷積層同樣步長(zhǎng)的最大池化層,從而得到與卷積層相同尺度的輸出,把兩條路徑的輸出疊加,再使用LeakyReLU函數(shù)進(jìn)行激活,得到降采樣模塊的輸出。

1.2特征融合網(wǎng)絡(luò)

由于不同尺度的特征圖對(duì)不同深度的信息特征提取能力有較大區(qū)別,采用單一尺度特征圖直接進(jìn)行預(yù)測(cè),會(huì)使準(zhǔn)確率大幅下降,若對(duì)多種尺度的特征圖分別進(jìn)行預(yù)測(cè),則會(huì)因特征表達(dá)不完整導(dǎo)致檢測(cè)效果仍然不理想。因此,本文提出了一種基于可訓(xùn)練變換器的特征融合網(wǎng)絡(luò),特征融合網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。從特征提取網(wǎng)絡(luò)提取三個(gè)尺度的特征圖route0、route1、route2,分別經(jīng)過(guò)一次卷積將通道數(shù)減半變?yōu)?28,將得到的route2_cat直接作為特征融合網(wǎng)絡(luò)的一個(gè)輸出;采用nearest方法對(duì)route2_cat進(jìn)行上采樣,變換為與卷積后route1相同的尺度,再經(jīng)過(guò)與converter2沿通道方向相乘,得到變換后的特征層,將此特征層與卷積后的route1疊加,即可得到特征融合網(wǎng)絡(luò)的第二個(gè)輸出route1_cat;對(duì)route1_cat進(jìn)行相同的上采樣和變換器操作,并與卷積后的route0疊加,得到特征融合網(wǎng)絡(luò)第三個(gè)輸出route0_cat。使用三個(gè)融合后的特征圖分別進(jìn)行預(yù)測(cè),可以增強(qiáng)模型的特征表達(dá)能力,得到更好的檢測(cè)效果。

1.3后處理部分

在預(yù)測(cè)層中,與YOLO算法類(lèi)似,將主干網(wǎng)絡(luò)輸出矩陣的每個(gè)像素點(diǎn)都作為一個(gè)檢測(cè)點(diǎn),每個(gè)檢測(cè)點(diǎn)負(fù)責(zé)檢測(cè)特定尺度先驗(yàn)框的物體,預(yù)測(cè)層對(duì)特征融合層返回的三個(gè)融合后的特征圖分別進(jìn)行預(yù)測(cè),并對(duì)三種特征圖分別使用不同大小的先驗(yàn)框,最終在每個(gè)檢測(cè)點(diǎn)得到七維預(yù)測(cè)信息,其中每個(gè)預(yù)測(cè)框包含預(yù)測(cè)框的置信度、預(yù)測(cè)框的分類(lèi)和分類(lèi)得分,以及預(yù)測(cè)框相對(duì)于先驗(yàn)框中心點(diǎn)的偏移和相對(duì)于先驗(yàn)框?qū)捀叩恼{(diào)整值,其中三個(gè)特征圖經(jīng)過(guò)預(yù)測(cè)層,分別產(chǎn)生4 800,1 200,300個(gè)預(yù)測(cè)框。

為了防止對(duì)同一物體的重復(fù)預(yù)測(cè),在預(yù)測(cè)層之后采用非極大值抑制(non-maximum suppression,NMS)算法,對(duì)重疊率大于閾值的預(yù)測(cè)框進(jìn)行篩選,兩個(gè)框的重疊率使用交并比(兩個(gè)檢測(cè)框交集與并集的比值)來(lái)量化,若交并比大于設(shè)定的閾值06,說(shuō)明兩框?yàn)橥荒繕?biāo),將同一目標(biāo)中得分較低的檢測(cè)框去掉,對(duì)于每個(gè)目標(biāo)只留下得分最高的一個(gè)檢測(cè)框后,對(duì)預(yù)測(cè)值進(jìn)行解碼,得到預(yù)測(cè)框?qū)嶋H的寬、高及中心點(diǎn)坐標(biāo),即可完成對(duì)物體的預(yù)測(cè)。

2實(shí)驗(yàn)與結(jié)果分析

2.1實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)使用Nvidia Geforce RTX2080Ti GPU進(jìn)行網(wǎng)絡(luò)訓(xùn)練。為測(cè)試模型在采摘移動(dòng)平臺(tái)上的性能,本文選用arm64架構(gòu)的Nvidia Jetson TX2移動(dòng)計(jì)算平臺(tái)為測(cè)試環(huán)境,其配置為8 GB內(nèi)存加16 GB交換內(nèi)存,搭載ubuntu1604操作系統(tǒng),裝機(jī)環(huán)境為jetpack33,依賴環(huán)境為cuda100、python37、pytorch131和numpy1174,并使用opencv和matplotlib庫(kù)進(jìn)行預(yù)測(cè)結(jié)果和數(shù)據(jù)的可視化。

2.2數(shù)據(jù)采集與圖像標(biāo)注

為使用于模型訓(xùn)練的數(shù)據(jù)與采摘機(jī)器人實(shí)際工作場(chǎng)景保持一致性,將Intel的RealSense D435攝像頭分別安裝在距離地面60,90和120 cm的位置錄制視頻,為使模型得到較高的魯棒性,分別在早晨、中午、傍晚進(jìn)行視頻錄制,將錄制的視頻剪輯,并按3 s的時(shí)間間隔進(jìn)行抽幀,得到500張圖片,從去除不理想數(shù)據(jù)后得到的400張圖片中,隨機(jī)選取120張作為測(cè)試集,概率地對(duì)剩余圖片進(jìn)行調(diào)光,水平翻轉(zhuǎn),順時(shí)針及逆時(shí)針旋轉(zhuǎn)5°等操作進(jìn)行數(shù)據(jù)增強(qiáng),隨機(jī)選取增強(qiáng)后數(shù)據(jù)中的480張圖片作為最終的訓(xùn)練集。

使用labelImg圖像標(biāo)注工具,對(duì)所有測(cè)試集和訓(xùn)練集圖片中的葡萄串進(jìn)行框選,生成xml標(biāo)簽文件。使用python的xml庫(kù)從xml標(biāo)簽文件中,提取每個(gè)期望檢測(cè)到的目標(biāo)邊框左下角點(diǎn)與右上角點(diǎn)的坐標(biāo)值xmin、xmax、ymin、ymax,將其轉(zhuǎn)換為邊框中心點(diǎn)坐標(biāo)x、y與邊框的寬和高w、h,將所有邊框的轉(zhuǎn)換結(jié)果保存到txt文件中,供訓(xùn)練和測(cè)試腳本調(diào)用。

2.3網(wǎng)絡(luò)訓(xùn)練

本文的網(wǎng)絡(luò)訓(xùn)練采用自主設(shè)計(jì)的損失函數(shù),將損失值分為正樣本和負(fù)樣本兩部分。訓(xùn)練樣本通過(guò)前向傳播后,得到n(n=6 300)個(gè)預(yù)測(cè)框,計(jì)算出每個(gè)預(yù)測(cè)框與標(biāo)簽中真實(shí)預(yù)測(cè)框的交并比,并與設(shè)定好的閾值06進(jìn)行比較,將交并比大于閾值的預(yù)測(cè)框作為正樣本,小于閾值的預(yù)測(cè)框作為負(fù)樣本,分別計(jì)算正負(fù)樣本的損失。負(fù)樣本直接使用預(yù)測(cè)置信度的累加作為損失值,正樣本損失值則分為真值框交并比與置信度的差值、類(lèi)別預(yù)測(cè)得分與真值(0或1)的差值、預(yù)測(cè)框的位置及寬高誤差三部分,對(duì)三部分損失值按照不同權(quán)重進(jìn)行疊加,再將正負(fù)樣本損失值相加,即為最終的損失值。正負(fù)樣本損失為少5倍,每批量的樣本數(shù)為32,最大迭代次數(shù)設(shè)置為12 000,網(wǎng)絡(luò)訓(xùn)練損失值迭代曲線如圖5所示。由圖5可以看出,網(wǎng)絡(luò)的損失值在第11 000到12 000次迭代間逐漸趨于穩(wěn)定。

2.4結(jié)果分析

本文模型檢測(cè)葡萄串效果圖如圖6所示。由圖6可以看出,對(duì)大部分葡萄串目標(biāo),模型都可以正確識(shí)別,并得到較精確的邊框。由于使用了較多遮擋和重疊數(shù)據(jù)進(jìn)行訓(xùn)練,在測(cè)試時(shí),模型也可以提取有效特征,并對(duì)有遮擋或重疊的葡萄串目標(biāo)做出正確的檢測(cè)。

使用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行推理,將得到的n個(gè)預(yù)測(cè)框按照其置信度從大到小排序,分別取前1,2,…,n作為預(yù)測(cè)正樣本,其他作為預(yù)測(cè)負(fù)樣本,每次分別計(jì)算預(yù)測(cè)結(jié)果的recall值和percision值,并根據(jù)這些值繪制P-R曲線,P-R曲線如圖7所示。

在相同硬件環(huán)境下,使用相同數(shù)據(jù)集對(duì)搭載DarkNet19的YOLO v3,F(xiàn)aster R-CNN進(jìn)行訓(xùn)練與測(cè)試,計(jì)算F1 score和AP值,并與本文提出算法進(jìn)行對(duì)比,不同模型檢測(cè)結(jié)果對(duì)比如表1所示。

由表1可以看出,在自然條件下進(jìn)行葡萄串單目標(biāo)檢測(cè)時(shí),本文所提出的基于可訓(xùn)練變換器的多尺度特征融合方法的F1值比YOLO v3高出366%,而比Faster R-CNN高出245%;AP值比YOLOv3高出478%,比Faster R-CNN高出309%;檢測(cè)速度比FasterR-CNN高出8 f/s,比YOLOv3高出4 f/s,說(shuō)明本文算法在識(shí)別準(zhǔn)確率和檢測(cè)速度上與YOLOv3和Faster R-CNN相比,都有較明顯的優(yōu)勢(shì)。

3結(jié)束語(yǔ)

本文提出的基于可訓(xùn)練變換器的RdNet葡萄串檢測(cè)算法,加入了特征變換器,相較于經(jīng)典端到端的模型,更能充分的從各尺度特征提取有用的信息。經(jīng)訓(xùn)練后,在自然條件下,模型檢測(cè)的F1值和AP值分別達(dá)到9258%和9233%,在Nvidia jetson TX2上檢測(cè)速率可達(dá)19 f/s,相對(duì)于YOLO v3和Faster R-CNN算法都有較明顯的優(yōu)勢(shì),可以滿足果實(shí)采摘機(jī)器人實(shí)時(shí)性要求。該研究為采摘機(jī)器人提供了良好的技術(shù)支持。未來(lái)可針對(duì)不同果實(shí)的特征,將模型應(yīng)用于多種果實(shí)的識(shí)別。

參考文獻(xiàn):

[1]齊元靜, 唐沖. 農(nóng)村勞動(dòng)力轉(zhuǎn)移對(duì)中國(guó)耕地種植結(jié)構(gòu)的影響[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2017, 33(3): 233-240.

[2]張新紅, 劉陽(yáng). 新一代信息技術(shù)驅(qū)動(dòng)下我國(guó)智慧農(nóng)業(yè)發(fā)展路徑選擇[J]. 河南農(nóng)業(yè), 2020,(6): 35-37.

[3]陳燕, 王佳盛, 曾澤欽, 等. 大視場(chǎng)下荔枝采摘機(jī)器人的視覺(jué)預(yù)定位方法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2019, 35(23): 48-54.

[4]呂繼東, 趙德安, 姬偉. 采摘機(jī)器人振蕩果實(shí)匹配動(dòng)態(tài)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2013, 29(20): 32-39.

[5]方建軍. 移動(dòng)式采摘機(jī)器人研究現(xiàn)狀與進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2004, 20(2): 273-278.

[6]田銳, 郭艷玲. 基于機(jī)器視覺(jué)的葡萄自動(dòng)識(shí)別技術(shù)[J]. 東北林業(yè)大學(xué)學(xué)報(bào), 2008, 36(11): 95-97.

[7]劉平, 朱衍俊, 張同勛, 等. 自然環(huán)境下貼疊葡萄串的識(shí)別與圖像分割算法[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2020, 36(6): 161-169.

[8]羅陸鋒, 鄒湘軍, 熊俊濤, 等. 自然環(huán)境下葡萄采摘機(jī)器人采摘點(diǎn)的自動(dòng)定位[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(2): 14-21.

[9]Linker R, Cohen O, Naor A. Determination of the number of green apples in RGB images recorded in orchards[J]. Computers and Electronics in Agriculture, 2012, 81: 45-57.

[10]Xu Y W, Imou K J, Kaizu Y, et al. Two-stage approach for detecting slightly overlapping strawberries using HOG descriptor[J]. Biosystems Engineering, 2013, 115(2): 144-153.

[11]Zhao C Y, Lee W S, He D J. Immature green citrus detection based oncolour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243-253.

[12]Hussin R, Juhari M R, Kang N W, et al. Digital Image processing techniques for object detection from complex background image[J]. Procedia Engineering, 2012, 41: 340-344.

[13]Liu S, Yang C H, Hu Y C, et al. A method for segmentation and recognition of mature citrus and branches-leaves based on regional features[C]∥Chinese Conference on Image and Graphics Technologies. Singapore: Springer, 2018: 292-301.

[14]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE conference on Computer Vision and Pattern Recognition. Columbus: IEEE, 2014: 580-587.

[15]Girshick R. Fast r-cnn[C]∥IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 1440-1448.

[16]Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[17]Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]∥IEEE conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.

[18]Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]∥IEEE Conference on Computer Visionand Pattern Recognition. Honolulu: IEEE, 2017: 7263-7271.

[19]Redmon J, Farhadi A. YOLOv3: An incremental improvement[J]. Arxive-Prints, 2018(4): 1-6.

[20]趙德安, 吳任迪, 劉曉洋, 等. 基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋(píng)果定位[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2019, 35(3): 164-173.

[21]王細(xì)萍, 黃婷, 譚文學(xué), 等. 基于卷積網(wǎng)絡(luò)的蘋(píng)果病變圖像識(shí)別方法[J]. 計(jì)算機(jī)工程, 2015, 41(12): 293-298.

[22]魏瑋, 蒲瑋, 劉依. 改進(jìn)YOLOv3在航拍目標(biāo)檢測(cè)中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2020, 56(7): 17-23.

[23]He K, Zhang X, Ren S, et al. Deepresidual learning for image recognition[C]∥IEEE Conference on Computer Vision & Pattern Recognition. IEEE Computer Society, 2016.

[24]肖經(jīng)緯, 田軍委, 王沁, 等. 基于改進(jìn)殘差網(wǎng)絡(luò)的果實(shí)病害分類(lèi)方法[J]. 計(jì)算機(jī)工程, 2020, 46(9): 221-225.

[25]毛勇華, 代兆勝, 桂小林. 一種改進(jìn)的5層深度學(xué)習(xí)結(jié)構(gòu)與優(yōu)化方法[J]. 計(jì)算機(jī)工程, 2018, 44(6): 147-150.

Abstract:? In order to solve the problem that the YOLO algorithm has a low recognition rate due to its end-to-end network structure, which causes the features at certain scales to be faded or lost, we take grape as an example to apply the trainable transformer and RdNet in the fruit recognition network research. We propose an improved YOLO algorithm based on the fusion of trainable transformers and multi-scale feature maps. The self-designed RdNet based on stacked residual blocks and downsampling blocks is used as the feature extraction network, and the converter transformer structure is used to transform and fusion features of different scales. From the collected and screened photos of the grape orchard, 120 photos were randomly selected as the test set, and the rest of the photos were enhanced to obtain 480 images as the training set. We trained our model, YOLOv3 and Faster R-CNN (faster region-convolutional neural networks) three algorithms, are used its F1 value and AP value on the test set to evaluate the performance of each model. The results show that the F1 value of our model can reach 92.58% on the test set, and the AP value can reach 92.33%. On Nvidia Jetson TX2 platform, it can reach a detection speed of 19 f/s (frame per second). The inference time of a 640*480 picture is 52.6 ms, which achieves an ideal recognition accuracy rate and can meet the real-time requirements of the picking robot. So the research can get better application effects in scenes such as orchards.

Key words: convolutional neural network; grape; object detection; multi-scale features; YOLO

猜你喜歡
目標(biāo)檢測(cè)卷積神經(jīng)網(wǎng)絡(luò)葡萄
葡萄熟了
當(dāng)葡萄成熟時(shí)
視頻中目標(biāo)檢測(cè)算法研究
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
基于卷積神經(jīng)網(wǎng)絡(luò)的樹(shù)葉識(shí)別的算法的研究
基于P3電位的目標(biāo)檢測(cè)研究