張志會,張勇,劉雪垠,郭恒,楊永林
基于深度學習的花椒采摘器視覺識別
張志會1,張勇2,劉雪垠1,郭恒3,楊永林3
(1.四川省機械研究設(shè)計院(集團)有限公司,四川 成都 610063; 2.四川航天烽火伺服控制技術(shù)有限公司,四川 成都 610199; 3.中國機械工業(yè)第一建設(shè)有限公司,四川 德陽 618000)
對于智能花椒采摘器中機器視覺部分在花椒枝干識別與采摘定位上的不足,本文通過將深度學習技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)模型與注意力機制這兩種模型運用到智能花椒采摘器的機器視覺部分以提高采摘器的識別功效。結(jié)果顯示,經(jīng)過優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)算法訓練使采摘器對花椒簇的整體識別準確率由52.3%提高至96.7%,同時通過注意力機制算法提升了機器視覺對花椒樹主枝干識別的抗干擾能力,幫助采摘器更加準確的判斷出采摘點的位置。通過以上兩種模型驗證了深度學習技術(shù)在提高花椒采摘器機器視覺的算法準確性與抗干擾能力的有效性。
花椒采摘器;機器視覺;卷積神經(jīng)網(wǎng)絡(luò)模型;注意力機制
我國在花椒的產(chǎn)量與耕種面積上一直占據(jù)了世界首位,同時相關(guān)產(chǎn)業(yè)在近年來也保持著較高增長速度[1]。長期以來,花椒采摘依賴人工手動完成,但由于花椒樹高度一般為2~5 m,且枝干上遍布有尖刺且枝葉雜亂,如圖1所示,因此增加了人工采摘的難度[2],同時在采摘過程中尖刺很容易對采摘人員造成傷害,影響采摘效率。
近年來,市面上已經(jīng)出現(xiàn)了一批智能花椒采摘器械來代替純?nèi)斯げ烧?。而機器視覺系統(tǒng)作為智能花椒采摘器中的核心部分,但由于機器視覺在實際工作中容易受到如光線變化、樹枝遮擋、信息缺失等干擾[3],目前的花椒采摘器在此方面還存在著許多不足。
隨著人工智能的飛速發(fā)展,深度學習作為目前人工智能領(lǐng)域最受關(guān)注的分支越來越多地被應(yīng)用到了機器視覺與圖像識別領(lǐng)域。本文通過將深度學習模型與智能花椒采摘器中的機器視覺算法相結(jié)合,通過引入卷積神經(jīng)網(wǎng)絡(luò)模型與注意力機制等方式彌補了一般采摘器在圖像識別技術(shù)方面的不足,改進了圖像處理效果,從而使得花椒采摘器工作效率大幅增加。
本文所使用的花椒圖片來源于中國國家植物主題數(shù)據(jù)庫,選取蕓香目蕓香科里面的12500張花椒圖片作為數(shù)據(jù)源,如圖2所示。
花椒采摘器的視覺識別系統(tǒng)一般采用雙目深度相機采集的RGBD(RGB+Depth Map RGB)融合深度圖像作為信息輸入來源。本文采用高清深度攝像頭Intel RealSense Depth Camera D435采集花椒樹近景圖像后,將圖像進行通道融合與多尺度特征融合后對花椒果實的外部輪廓進行提取[4],進而把花椒簇單獨分割出來,如圖3所示。
圖1 花椒樹與枝干尖刺
圖2 花椒圖片數(shù)據(jù)庫部分圖片
圖3 通道融合圖像分割結(jié)果
對圖像進行外輪廓分割,再對分割結(jié)果進行花椒簇識別,觀察提取結(jié)果如圖4所示。
可以看到花椒簇識別精確率為52.3%,有許多花椒簇輪廓未被識別。
分析造成識別效果不佳的原因,可能是以下幾點:
(1)花椒果實較小,而小物體容易丟失所采集的信息;
(2)枝干茂盛地方,相互遮擋導致采集信息丟失較多;
(3)采集原圖丟失的深度信息分布較散,特征融合時相當于給模型加上不穩(wěn)定噪聲[5],導致模型欠擬合,使得特征融合效果不佳。
針對以上傳統(tǒng)花椒采摘視覺識別系統(tǒng)中不理想的部分,運用深度學習領(lǐng)域中的卷積神經(jīng)網(wǎng)絡(luò)模型對其進行訓練與優(yōu)化,來達到提高識別精確率的目的。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為典型的深度神經(jīng)網(wǎng)絡(luò)再圖像和視頻處理、自然語言處理等領(lǐng)域發(fā)揮著重要的作用[6],是深度學習的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)一般由輸入層、隱含層與輸出層三部分構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域的飛速發(fā)展得益于其參數(shù)共享與局部連接的兩大優(yōu)勢[7]。參數(shù)共享使得該網(wǎng)絡(luò)通過簡單的非線性模型從原始圖像中提取出更加抽象的特征,并且在整個過程中只需少量的人工參與。而局部連接模式保證了學習到的卷積核對輸入的空間局部模式具有最強的響應(yīng),可以有效的從大量樣本中學習到相應(yīng)地特征,避免了復雜的特征提取過程。
通過百度深度學習平臺飛槳PaddlePaddle來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)模型,并通過模型訓練達到提高識別精度的目的。
將收集到的12500張花椒照片打包成一個數(shù)據(jù)集,通過交叉驗證法,將整個數(shù)據(jù)集劃分為100個大小相同的互斥子集,根據(jù)經(jīng)驗一般驗證集的比例為訓練集的5%~20%[8],本模型驗證集的比例選取為10%。因此選取其中90子集為訓練集,剩余10個子集為驗證集。最終此模型包含訓練集11250張,驗證集1250張。
在飛槳平臺加載此數(shù)據(jù)集,并對圖片中出現(xiàn)的花椒果實提取視覺特征,每個花椒簇均為38×38像素的3通道彩色圖片,經(jīng)過改變?nèi)S濾波器其中一組的權(quán)重值來對圖片進行三維卷積操作。首先使用19×19、10×10、直至1×1的卷積層對輸入進行降維,然后使用3×3的卷積層對輸入進行升維,以此保證最終輸出的卷積層在不改變特征通道數(shù)的同時避免了平均池化[9],即有利于減小模型的誤差且使得訓練時間加快。
本項目的卷積原理如圖5所示。
圖5 花椒簇三維卷積操作原理圖
對于大量彩色圖像,由于各圖像色彩通道間一般不存在平穩(wěn)特性。因此需要對圖像進行特征縮放(將像素值轉(zhuǎn)換到[0,1]),即歸一化處理。本例中并不關(guān)注花椒圖像的亮度,而更關(guān)注其中的內(nèi)容。這種歸一化可以移除所有圖像的亮度值,使得接下來的深度學習算法能更好的從圖像中獲得特征。
預(yù)處理完成后,在飛槳平臺創(chuàng)建模型并導入數(shù)據(jù)后即可進行標注,首先進行人工標注,如圖6所示將圖片中的花椒簇用矩形選框進行標注并添加“花椒簇”標簽。在進行一定量的人工標注后即可創(chuàng)建智能標注,系統(tǒng)會根據(jù)人工標注特征對整個數(shù)據(jù)集進行主動學習標注,最終完成整個模型的標注任務(wù)。
數(shù)據(jù)準備就緒后對模型進行訓練。本次訓練方式采用雙層循環(huán)模式。通過先后定義外層循環(huán)與內(nèi)層循環(huán)的方式,將數(shù)據(jù)轉(zhuǎn)換為variable形式,等訓練完成后保存已訓練好的模型。為確保迭代精度,設(shè)置初始迭代次數(shù)為5000次。
圖6 數(shù)據(jù)標注
在訓練過程中可以通過觀測當前模型的損失值和精度來觀察訓練的程度??梢园l(fā)現(xiàn),隨著訓練輪次不斷增加,模型損失值在不斷下降,模型精度在不斷提高,具體結(jié)果如表1所示。
表1 迭代次數(shù)對精度的影響
待模型完成訓練后,為檢驗訓練后的效果,調(diào)取花椒圖片庫中的驗證集來對模型進行驗證,結(jié)果如圖7所示。
通過驗證結(jié)果可以看到,在經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)訓練之后模型對花椒簇的識別精確率有了大幅提升,精確率從訓練前的52.3%提升至訓練后的96.7%。此結(jié)果表明了經(jīng)過訓練的模型算法對花椒簇的識別有了很大的改進。
在花椒采摘器采摘過程中,要保證在采摘到花椒簇的同時不對其樹葉和牙苗造成傷害,以保證第二年的花椒產(chǎn)量不受影響[10]。但由于花椒樹枝干分布時長茂密交錯,對采摘機械臂前端條形鋸齒的切割點選取造成了一定困難。攝像頭提取的花椒樹圖片受到枝葉、果實與大量無關(guān)細支的遮擋與干擾,不能直接從原始圖片上提取出完整的主枝干。因此需要利用深度學習中的注意力機制(Attention Mechanism)來幫助從圖片中自動提取主枝干信息。
注意力機制的靈感來源可以歸結(jié)到人對環(huán)境的生理感知上來,如視覺系統(tǒng)更傾向于去挑選影像中的部分信息進行集中分析而忽略掉圖像中的無關(guān)信息[11]。在深度學習算法中,注意力機制主要為以下兩個方面:
(1)空間域(Spatial Domain):將原始圖片中的空間信息變換到另一個空間,并對其中的重要信息進行保留。對空間進行掩碼的生成,進行打分,越亮的地方權(quán)重越大(如圖8所示)。利用空間域注意力機制,可以有效提高花椒定位的準確性。
(2)通道域(Channel Domain):在對每張圖片進行卷積變化后產(chǎn)生的新通道中,根據(jù)每個通道對關(guān)鍵信息的貢獻對其賦予不同的權(quán)重值,權(quán)重值的大小代表相關(guān)的程度,一般需要重點提取權(quán)重值較大的通道。
本次對主枝干的提取采用空間域算法,主要思路為將原始圖片中的空間信息變換到另一空間并保留重點信息。原理如圖9所示:為原始圖片信息,包含有張量(tensor)、張量高度(height)、張量寬度(width)等三類信息,在本例中對應(yīng)圖片中的三通道(RGB)。spatial transformer即空間變換網(wǎng)絡(luò)就是注意力機制的實現(xiàn),圖片信息進入空間變換網(wǎng)絡(luò)后一條進入定位網(wǎng)絡(luò)(localistaionnet)并對每幀圖像做隨機增強,將長寬縮放為224×224大小的區(qū)域,隨后調(diào)用fluid.layers.conv3d函數(shù)進行3d卷積操作,其次將原數(shù)據(jù)中的特征從字節(jié)格式轉(zhuǎn)換為浮點格式,并進行Softmax編碼,該編碼使得特征間的距離計算更為合理。另一條直接進入采樣層(sampler)。最終生成一個8×224維的變化矩陣,與原始圖片相乘后得到變換后的8×224×224維的矩陣。此算法可以避免原始圖片中的噪聲信息(枝干被樹葉遮擋部分)被識別進入。
圖8 注意力機制示意圖
對于本次花椒主枝干提取,在RGBD融合的過程中,需要對深度圖像的數(shù)據(jù)權(quán)重進行一定的自適應(yīng)調(diào)整,自適應(yīng)調(diào)節(jié)引入深度圖像的權(quán)重比例,不再是將深度圖像完全引入至神經(jīng)網(wǎng)絡(luò)中,而是將其中某一些有效信息自適應(yīng)引入其中,不再是噪聲而是信息的有效利用。通過添加注意力機制算法后,訓練完成后模型分割主枝干后結(jié)果如圖10所示。
圖9 注意力機制變換模塊
圖10 主枝干分割結(jié)果
將分割后的結(jié)果導入圖像處理軟件中進行預(yù)處理后得到枝干信息,進行像素二值化后提取枝干輪廓,然后尋找花椒中心點距離枝干輪廓的最短距離。如果中心點在輪廓外,連接最短的兩個點,采摘點就在兩點的連線上,如果中心點在輪廓內(nèi)則中心點既采摘點,如圖11所示。
本文通過將人工智能中的深度學習技術(shù)運用到花椒采摘器的機器視覺部分,首先通過深度學習中的卷積神經(jīng)網(wǎng)絡(luò)模型提高了采摘器對花椒簇的識別精度,識別準確率由52.3%提升至96.7%。同時引入深度學習中的注意力機制,對傳統(tǒng)視覺識別難以提取的花椒樹主枝干進行圖像分割,使得采摘器能更精確的識別其采摘點。以上兩點提高了花椒采摘器的采摘效率與收益,減輕了采摘工人的勞動強度。
總體來看,深度學習技術(shù)在花椒采摘器機器視覺上的運用取得了一些代表性成果。但可以看到在模型結(jié)構(gòu)權(quán)重的調(diào)整、樣本的選取、網(wǎng)格結(jié)構(gòu)的改進等方面還有很大的提升空間。相信隨著人工智能更多的應(yīng)用到花椒采摘器上后,未來花椒的機械化采摘將朝著更智能化與更高效的方向發(fā)展。
圖11 采摘點的確定
[1]崔俊,李孟樓. 花椒開發(fā)利用研究進展[J]. 林業(yè)科技開發(fā),2008,(2):9-14.
[2]萬芳新. 花椒采摘機的設(shè)計與試驗[J]. 安徽農(nóng)業(yè)科學,2014,42(4):1229-1230.
[3]于蒙,李雄,楊海潮. 基于圖像識別的蘋果等級分級研究[J]. 自動化與儀表,2019,34(7):39-43.
[4]Yossy E H,Pranata J,Wijaya T,et al. Mango fruit sortation system using neural network and computer vision [J]. Procedia Computer Science,2017(116):596-603.
[5]司徒仕忠,邱廣萍,王錦春. 基于深度相機的障礙物識別[J]. 科技創(chuàng)新與應(yīng)用,2019,283(27):43-46.
[6]郭子琰,舒心,劉常燕,等. 基于ReLU函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)的花卉識別算法[J]. 計算機技術(shù)與發(fā)展,2018,28(5):154-157.
[7]Krizhevsky A,SutskeverI,Hinton G. ImageNet Classification with Deep Convolutional Neural Networks[J]. Advances in neural information processing systems,2012,25(2):29-30.
[8] Smirnov E A,Timoshenko D M,Andrianov S N . Comparison of Regularization Methods for ImageNet Classification with Deep Convolutional Neural Networks[J]. AASRI Procedia,2014,13(6):11-15.
[9]D. Eigen,C. Puhrsch,R. Fergus. Depth map prediction from a single image using a multi-scale deep network [J]. International Journal of Computer Vision, 2015, 120(3). 17-22.
[10]鄭天云. 電磁花椒采摘器的設(shè)計[J]. 電氣自動化,2017,39(4):108-110.
[11]朱張莉,饒元,吳淵,等. 注意力機制在深度學習中的研究進展[J]. 中文信息學報,2019,33(6):1-11.
Visual Recognition of Pepper Picker Based on Deep Learning
ZHANG Zhihui1,ZHANG Yong2,LIU Xueyin1,GUO Heng3,YANG Yonglin3
( 1.Sichuan Machinery Research and Design Institute (Group) Co., Ltd., Chengdu 610063, China; 2.Sichuan Aerospace Fenghuo Servo Control Technology Co., Ltd., Chengdu 610199, China;3.The First Construction of China Mechanical Industry Co., Ltd., Deyang 618000, China )
There are deficiencies in machine vision of intelligent pepper picker in the pepper branch recognition and picking positioning. This paper applies convolution neural network model and attention mechanism of deep learning technology to the machine vision part of the intelligent pepper picker, so as to improve the recognition effect of the picker. The results show that after the optimized convolution neural network algorithm training, the overall recognition accuracy of pepper cluster is improved from 52.3% to 96.7%. At the same time, the attention mechanism algorithm improves the anti-interference ability of machine vision for pepper main branch recognition, which helps the picker to judge the picking point more accurately. The above two models verify the effectiveness of deep learning technology in improving the algorithm accuracy and anti-interference ability of pepper picker machine vision.
pepper picker;machine vision;convolutional neural network model;attention mechanism
S22
A
10.3969/j.issn.1006-0316.2021.11.003
1006-0316 (2021) 11-0017-08
2021-03-18
四川省科技計劃項目——簇狀果實采摘機器人關(guān)鍵技術(shù)研究及研制(2021YFN0020)
張志會(1982-),男,滿族,內(nèi)蒙古赤峰人,碩士,工程師,主要研究方向為機械電子工程,E-mail:99249829@qq.com。