孫松麗,溫宏愿,劉賓齡,鐘錦揚,毛政興
(南京理工大學(xué)泰州科技學(xué)院智能制造學(xué)院,江蘇泰州,225300)
杏鮑菇因具有杏仁的香味而得名,是具有高營養(yǎng)價值的常見菌種,以中國產(chǎn)銷量為之最[1]。對杏鮑菇進行分選分級,是種植企業(yè)重要的加工整理工序,通過分級包裝、分級存儲、分級定價和銷售,有利于提高利潤空間。但至今國內(nèi)普遍采用人工分選方式,耗時低效,且存在分級精度低、一致性差等明顯弊端。針對這一現(xiàn)狀,研究設(shè)計一種杏鮑菇智能分選系統(tǒng),以機器人代替人工實現(xiàn)高效、經(jīng)濟、準(zhǔn)確的分揀目標(biāo),有助于推動農(nóng)產(chǎn)品加工的自動化和智能化水平。
目前尚未見食用菌智能分選的研究文獻,但圍繞冬棗、馬鈴薯、蘋果等果蔬類農(nóng)產(chǎn)品的智能分選方法,一些學(xué)者進行了相關(guān)研究。主要有兩類方法,一類是基于顏色、形狀、大小等單一外部特征的品質(zhì)分級方法,另一類為基于深度學(xué)習(xí)的品質(zhì)分級方法。侯鵬帥等[2]基于Openmv視覺技術(shù),以arduino mega 2560單片機為控制核心,設(shè)計了一種冬棗智能分選系統(tǒng),通過色選LAB峰值判斷紅棗或綠棗,通過分選槽機械結(jié)構(gòu)設(shè)計實現(xiàn)冬棗大小分揀;鄧立苗等[3]在已有水果機械分選機的基礎(chǔ)上,加裝CCD攝像頭,對所采集的馬鈴薯圖像分別利用近似橢圓度法、HSV空間下的逐點檢測法對馬鈴薯的形狀和綠皮進行外觀檢測后剔除次品,通過稱重進行分級檢測,并基于Visual C++集成開發(fā)環(huán)境完成了系統(tǒng)整體實現(xiàn);何進榮等[4]針對傳統(tǒng)機器視覺技術(shù)在蘋果外部品質(zhì)分級檢測中準(zhǔn)確率低的問題,提出了基于深度學(xué)習(xí)DXNet模型的分級檢測方法,通過提取包括色澤、著色度、果型、損傷程度等多種影響蘋果外部品質(zhì)的指標(biāo)特征,在測試集上達到了97.84%的準(zhǔn)確率,但對檢測方法的集成應(yīng)用未作提及。
杏鮑菇的篩選分級涉及外形勻稱性、彎曲度、直徑、長度、重量等多種特性,適合采用深度學(xué)習(xí)與計算機視覺相結(jié)合的分級檢測方法,基于卷積神經(jīng)網(wǎng)絡(luò),自主挖掘更具泛化性的特征,有利于提高分級精度。機器人抓取檢測是指給定一個物體,找到一種滿足抓取任務(wù)需求的抓取配置[5]。根據(jù)感知信息的不同,可分為基于物體模型的抓取姿態(tài)估計和不依賴物體模型的抓取姿態(tài)檢測兩類[6]。面向杏鮑菇的機器人抓取屬于后者。同樣,針對第二類抓取檢測,利用深度學(xué)習(xí)網(wǎng)絡(luò)取代傳統(tǒng)機器學(xué)習(xí)方法已成為國內(nèi)外學(xué)者的研究熱點,主要方法有基于抓取框分類思想[7-9]和基于回歸的像素級預(yù)測兩種[10-12],后者的檢測用時普遍快于前者[13]。
綜上所述,結(jié)合杏鮑菇機器人分選特點,在充分分析已有網(wǎng)絡(luò)模型優(yōu)劣的基礎(chǔ)上,提出基于分類檢測網(wǎng)絡(luò)YOLOv5和抓取檢測網(wǎng)絡(luò)GG-CNN2雙模型并聯(lián)的杏鮑菇分選檢測方法,由SCARA機器人執(zhí)行分選動作,通過ROS設(shè)計搭建真實的機器人智能分選系統(tǒng),以實現(xiàn)杏鮑菇無損分級的高精度和高效率。
智能分選系統(tǒng)主要由視覺系統(tǒng)、計算機系統(tǒng)和SCARA機器人系統(tǒng)三部分組成。硬件部分選用Intel Realsense D435i深度相機采集圖像信息,以配有柔性夾爪的SCARA機器人作為抓取執(zhí)行器。軟件部分包括感知分析、人機交互、執(zhí)行規(guī)劃三大模塊。感知分析模塊運行于計算機系統(tǒng)1,接收深度相機采集的RGB圖與深度圖,經(jīng)已訓(xùn)練好的智能分選檢測模型分析得到杏鮑菇品質(zhì)級別號和機器人抓取位姿信息,經(jīng)由ROS總控系統(tǒng)發(fā)送給執(zhí)行規(guī)劃模塊。執(zhí)行規(guī)劃模塊規(guī)劃SCARA機器人運動軌跡,驅(qū)動機器人和柔性夾爪配合完成杏鮑菇的抓取與分類放置?;赑yQt開發(fā)的人機交互模塊運行于計算機系統(tǒng)2,負責(zé)接收用戶指令、顯示智能分選結(jié)果、監(jiān)控系統(tǒng)運行狀態(tài)等。系統(tǒng)總體結(jié)構(gòu)框架如圖1所示。
圖1 系統(tǒng)總體框圖
智能分選系統(tǒng)整體工作流程如圖2所示。啟動ROS總控運行程序,等待分級檢測和抓取檢測模型加載完成后,啟動上位機人機交互系統(tǒng)和圖像保存程序,SCARA機器人回到home點,單擊人機交互界面自動模式下的啟動按鈕后系統(tǒng)即進入運行狀態(tài)。當(dāng)杏鮑菇位于深度相機下方時,觸發(fā)拍照,系統(tǒng)自主判斷杏鮑菇分級結(jié)果和機器人抓取位姿,引導(dǎo)控制SCARA機器人執(zhí)行動作后返回home點,至此完成一次智能分選。運行過程中,上位機系統(tǒng)實時顯示深度相機采集的RGB圖、分級結(jié)果、抓取位姿、數(shù)據(jù)統(tǒng)計等一系列關(guān)鍵數(shù)據(jù)。
圖2 系統(tǒng)工作流程圖
本文的智能分選檢測模型由基于YOLOv5的分級檢測和基于GG-CNN2的抓取檢測雙模型并聯(lián)構(gòu)成,分別用于杏鮑菇品質(zhì)分級和機器人抓取位姿的檢測實現(xiàn)。
在分類檢測領(lǐng)域,YOLO(You Only Look Once)持續(xù)保持領(lǐng)先水平[14-15]。YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)具有檢測精度高、運行速度快、權(quán)重參數(shù)小的優(yōu)勢,最高檢測速度可達每秒140幀。YOLOv5網(wǎng)絡(luò)具體包含YOLOv5s、YOLOv5m、YOLOv5l與YOLOv5x這4種架構(gòu),主要區(qū)別為在網(wǎng)絡(luò)的特定位置處所包含的特征提取模塊數(shù)量和卷積核數(shù)量不同,4種模型的參數(shù)量和體積依次增大[16]。模型越大,精度越高但識別速度越慢[17]。由于模型的檢測精度、實時性與是否輕量化直接關(guān)系到機器人分揀的準(zhǔn)確率與效率,因此,本文以YOLOv5s為基礎(chǔ),設(shè)計杏鮑菇分級檢測模型。
本文采用自頂向下的頂抓策略實施機器人抓取,為平面抓取。抓取檢測的主要目標(biāo)是確定機器人空間下抓取點的定位和繞水平面法線方向的旋轉(zhuǎn)角度。GG-CNN2是具有像素級抓取質(zhì)量的生成式抓取檢測卷積神經(jīng)網(wǎng)絡(luò)GG-CNN(Generative Grasping Convolutional Neural Network)的改進版。與其它抓取檢測CNN相比,具有2個明顯優(yōu)勢:一是不依賴抓取候選框的篩選,直接生成像素級的抓取位姿;二是具有66 000個參數(shù),在一臺配置GPU的桌面計算機上進行抓取檢測僅需20 ms,較其他抓取CNN動輒百萬個參數(shù)和秒級的檢測時間呈現(xiàn)量級式的減少,檢測速度快、實時性強[18]。
2.1.1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,主要由Backbone、Neck和Output三大網(wǎng)絡(luò)模塊組成。
圖3 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)
1) Backbone網(wǎng)絡(luò)功能為特征提取。第1層Focus模塊用于將輸入圖片進行間隔分塊、拼接、卷積,主要目的是加快訓(xùn)練速度;第3、5、7、10層為數(shù)量不等的BottleneckCSP模塊,主要是為了更好地提取圖像的深層網(wǎng)絡(luò)特征;第9層SPP(Spatial Pyramid Pooling)為金字塔池化模塊層,模塊內(nèi)部有三個大小分別為5×5、9×9、13×13的呈并列關(guān)系的最大池化層(Max pooling)和Concat拼接層,通過合理設(shè)置最大池化的參數(shù)值,可以保證模塊在輸入和輸出特征圖大小相同的情況下提取到更多特征,提高網(wǎng)絡(luò)感受野。
2) Neck網(wǎng)絡(luò)功能為特征融合。通過4個Concat拼接層,分別將第12層與第7層、第16層與第5層、第19層與第15層、第22層與第11層進行拼接,更好地融合了多尺度特征,改善了低層特征的傳播,增強了模型對于不同尺寸對象的檢測。
3) Output網(wǎng)絡(luò)為模型的最終預(yù)測輸出。通過三個卷積層,可以輸出不同大小目標(biāo)物的檢測結(jié)果。本文分級檢測每個Detect輸出一個27通道的向量(即3×(4+1+4)),包括3個錨框(Anchor box),以及每個錨框?qū)?yīng)的4個分類數(shù)、1個類別置信度和4個邊界框(Bounding box)位置坐標(biāo)值。
2.1.2 數(shù)據(jù)集制作
杏鮑菇分級標(biāo)準(zhǔn)是參照種植企業(yè)人工分選方法,依據(jù)新鮮杏鮑菇外部品質(zhì)特性分為A(大一級)、B(一級)、C(二級)、X(次品)4個級別,需自制符合要求的數(shù)據(jù)集。數(shù)據(jù)集采用Realsense D435i深度相機自帶SDK進行拍攝,同時保存RGB圖和深度圖。分級檢測算法僅使用RGB圖,大小為640×640。因所拍攝的RGB圖中杏鮑菇大小直接影響分級判斷,故在制作數(shù)據(jù)集和系統(tǒng)運行時深度相機始終固定在距桌面400 mm高度處,相機鏡頭垂直向下。為提升檢測算法模型的訓(xùn)練效果和泛化能力,通過隨機旋轉(zhuǎn)、鏡像翻轉(zhuǎn)和改變亮度的數(shù)據(jù)增強方法進一步擴充分級檢測數(shù)據(jù)集至4 600張,共包含4個級別的杏鮑菇。采用LabelImg標(biāo)注工具標(biāo)記杏鮑菇外切最小矩形框和級別號,標(biāo)注結(jié)果保存為YOLO格式的txt文件。
2.1.3 模型訓(xùn)練與評估
數(shù)據(jù)集4 600張樣本中按每一級別隨機取80%作為訓(xùn)練集、20%作為測試集?;贗ntel Core i9-10900k CPU、3.7 GHz,NVIDIA GeForce RTX3070 GPU、8G,在Windows10操作系統(tǒng)下搭建Pytorch 1.11深度學(xué)習(xí)框架,使用 Python3.8語言編寫程序并調(diào)用CUDA 11.3、Cudnn等所需的庫進行了模型訓(xùn)練和測試。模型訓(xùn)練時,以8個樣本作為一個batch size,初始學(xué)習(xí)率設(shè)置為0.01,采用SGD作為優(yōu)化器,共訓(xùn)練250輪。訓(xùn)練過程中分類損失逐漸下降、準(zhǔn)確率逐漸提升,經(jīng)過200次迭代后趨于穩(wěn)定。
以精確率和召回率作為分級檢測模型的評價指標(biāo),測試集精確率為98.85%、召回率為98.86%,對應(yīng)曲線圖如圖4所示。從圖4可以看出訓(xùn)練所得模型性能良好。
圖4 精確率與召回率
2.2.1 GG-CNN2網(wǎng)絡(luò)結(jié)構(gòu)
GG-CNN2網(wǎng)絡(luò)的主要結(jié)構(gòu)如圖5所示,是一種全卷積網(wǎng)絡(luò)結(jié)構(gòu),深度為8層。網(wǎng)絡(luò)第5、6層為空洞卷積(Dilated Convolution)層,第7、8層為轉(zhuǎn)置卷積(Transposed Convolution)層??斩淳矸e的加入,使得GG-CNN2在不增加網(wǎng)絡(luò)參數(shù)數(shù)量和執(zhí)行時間的基礎(chǔ)上,增加了感受野,提高了輸出特征圖的分辨率。轉(zhuǎn)置卷積用于將低維特征映射到高維特征,以實現(xiàn)輸出特征圖與輸入深度圖大小相同。
圖5 GG-CNN2網(wǎng)絡(luò)結(jié)構(gòu)
2.2.2 數(shù)據(jù)集制作
GG-CNN2未提供自制數(shù)據(jù)集的標(biāo)注方法。此處,參考文獻[12],在與深度圖一一對應(yīng)的RGB圖上使用標(biāo)注程序?qū)尚凶ト∥恢眠M行標(biāo)注。圖6所示為標(biāo)注時和標(biāo)注后的效果。標(biāo)注時,以物體可抓取部位的中軸線為中心畫一條線并適量加寬(圖6(a)粗實線)表示可抓取點的集合;垂直于粗實線且過左右兩點畫一條細實線,細實線與橫軸的逆時針方向夾角表示抓取角度,細實線長度表示抓取寬度。標(biāo)簽結(jié)果保存為txt文件。標(biāo)注后的效果如圖6(b)所示。使用程序?qū)xt文件轉(zhuǎn)換成GG-CNN2規(guī)定的mat標(biāo)簽文件。Morrison等經(jīng)實驗驗證,對機器人抓取系統(tǒng)的網(wǎng)絡(luò)訓(xùn)練,數(shù)據(jù)增強尤其重要,可以有效避免網(wǎng)絡(luò)無法生成有效抓取和過擬合。因此在數(shù)據(jù)集制作過程中,使用了旋轉(zhuǎn)、縮放的數(shù)據(jù)增強方法,依此制作生成2 400張訓(xùn)練集,850張測試集。
(a) 標(biāo)注方法
2.2.3 模型訓(xùn)練與評估
在與2.1.3節(jié)所述相同的環(huán)境配置下,以8個樣本作為一個batch size,初始學(xué)習(xí)率設(shè)置為0.001,采用Adam作為優(yōu)化器,共訓(xùn)練1 000輪。經(jīng)過700輪次迭代后損失趨于穩(wěn)定。
圖7所示為抓取檢測模型精確率和抓取置信度趨勢圖,穩(wěn)定時兩者分別為62.3%和0.678。
圖7 精確率與抓取置信度
數(shù)據(jù)顯示該模型的精度不高,主因是GG-CNN2追求輕量化、簡化模型,從而導(dǎo)致精度損失。但抓取置信度均超過0.5,表示訓(xùn)練模型對每一張測試集圖像均可成功預(yù)測得到一個可行抓取。結(jié)合杏鮑菇的抓取特性,綜合評價訓(xùn)練生成的模型合理有效。
2.2.4 坐標(biāo)變換
圖8 抓取檢測結(jié)果
根據(jù)針孔相機成像原理,若相機坐標(biāo)系下的空間一點Q(Xc,Yc,Zc)成像至圖像坐標(biāo)系下的對應(yīng)點為s(u,v),兩者之間存在關(guān)系如式(1)所示。
(1)
采用自定義的內(nèi)參標(biāo)定程序和自制標(biāo)定板標(biāo)定可得深度相機的內(nèi)參分別為:α=601.552,β=602.695,Cx=324.350,Cy=250.354。深度相機固定安裝,取Zc=385,代入式(1)后便可將抓取檢測模型輸出的圖像坐標(biāo)系下的最優(yōu)抓取點s(u,v)轉(zhuǎn)換為相機坐標(biāo)系下的最優(yōu)抓取點p(Xc,Yc,Zc)。再由式(2)相機坐標(biāo)系與機器人基坐標(biāo)系之間的位姿變換關(guān)系進一步求得機器人坐標(biāo)空間下的最優(yōu)抓取點p′(xw,yw,zw)。
(2)
智能分選系統(tǒng)總控及各子系統(tǒng)遵從ROS的分布式網(wǎng)絡(luò)思想進行部署。基于ROS的應(yīng)用開發(fā)程序是一系列節(jié)點(Node)的集合,每個節(jié)點視為完成某項功能的進程。各節(jié)點之間采用包括基于服務(wù)(services)的同步通信、基于話題(topic)的異步數(shù)據(jù)流以及參數(shù)服務(wù)器(Parameter Server)上的數(shù)據(jù)存儲等點對點分布式通信機制進行通信。
結(jié)合智能分選系統(tǒng)人機交互、系統(tǒng)總控、相機獲取圖像、分級檢測、抓取檢測、機器人控制、柔性夾爪控制等功能需求,在ROS melodic環(huán)境下,基于ROS采用python和C++語言共設(shè)計了8個ROS節(jié)點,分別為Qt_hmi、uer、Realsense_camera、gu_yolo、gu_ggcnn、Robot、gripper和arduino節(jié)點,各節(jié)點功能如表1所示,各節(jié)點關(guān)系示意如圖9所示。節(jié)點之間通過訂閱和發(fā)布話題的方式進行數(shù)據(jù)傳輸通信。
表1 ROS節(jié)點功能Tab. 1 ROS node function
圖9 ROS節(jié)點關(guān)系圖
user節(jié)點是核心節(jié)點,與其它每一個節(jié)點均存在通信,分選系統(tǒng)的邏輯控制由此節(jié)點的控制程序控制實現(xiàn),是系統(tǒng)的數(shù)據(jù)交互樞紐。
user節(jié)點的控制流程是:Qt_hmi上位機節(jié)點通過scara_msgs/systemRun系統(tǒng)啟停話題發(fā)布系統(tǒng)啟動消息給user節(jié)點;user節(jié)點通過scara_msgs/arduinoRun話題和scara_msgs/scaraRun話題啟動arduino模塊和SCARA機器人;當(dāng)傳感器檢測到杏鮑菇到達相機下方時,arduino節(jié)點通過scara_msgs/visualArrival話題向user節(jié)點發(fā)布視覺到位消息,user節(jié)點通過scara_msgs/cameraRun話題向Realsense_camera節(jié)點發(fā)布啟動相機消息,相機啟動;相機獲取杏鮑菇深度圖和RGB圖,分別通過gu_yolo節(jié)點和gu_ggcnn節(jié)點對杏鮑菇進行分級檢測與抓取位姿判斷,生成杏鮑菇級別和位姿信息;gu_yolo節(jié)點通過scara_msgs/cameraType杏鮑菇級別話題、gu_ggcnn節(jié)點通過scara_msgs/cameraGoal杏鮑菇位姿話題將生成的杏鮑菇分選結(jié)果信息發(fā)送給user節(jié)點;user節(jié)點對數(shù)據(jù)進行處理后,將分選結(jié)果通過scara_msgs/goal杏鮑菇抓取位姿話題發(fā)送給Robot節(jié)點,同時通過scara_msgs/show話題發(fā)送給Qt_hmi上位機節(jié)點;Qt_hmi上位機收到結(jié)果信息后,將信息實時顯示在上位機界面上;Robot節(jié)點收到結(jié)果信息后,將信息封裝成為空間指令幀,通過串口發(fā)送給機器人,機器人根據(jù)空間指令幀動作,并通過scara_msgs/goalState到達抓取位置狀態(tài)話題發(fā)送給user節(jié)點;user節(jié)點經(jīng)處理后,通過scara_msgs/gripper夾爪驅(qū)動話題發(fā)送給gripper節(jié)點,夾爪動作實施抓取,機器人搬運、分類放置后返回home點,至此一個完整的分揀流程結(jié)束。
因分級檢測和抓取檢測在進行模型評估時已測試過各自的檢測精度,故本智能分選實驗的主要目的是確認(rèn)智能分選檢測耗時和智能分選系統(tǒng)整體運行效果。對隨機放置的4種經(jīng)人工初選分級但智能分選系統(tǒng)未知的市場隨機購買的杏鮑菇進行了總計60次的分選試驗,每一次分選過程和結(jié)果均可通過上位機人機交互界面直接觀測,如圖10所示。
圖10 系統(tǒng)主監(jiān)控畫面
通過試驗可確認(rèn)單只杏鮑菇分選檢測總耗時在18 ms內(nèi),識別速度快。從表2對應(yīng)的實驗結(jié)果可知,分級平均準(zhǔn)確率為88.35%,較分級模型測試準(zhǔn)確率有小幅下降,分析原因主要在于:(1)實驗樣本為隨機選取且數(shù)量偏少,(2)準(zhǔn)確性按人工分級標(biāo)準(zhǔn)判斷。60只測試樣品中,機器人成功抓取59只,抓取成功率為98.33%。1只抓取未成功,是因抓取位姿被確定在接近杏鮑菇根部,機器人抓取途中掉落。分析原因是在制作抓取數(shù)據(jù)集時,少部分?jǐn)?shù)據(jù)將極限抓取位置標(biāo)記為可抓取位置。以分級正確且柔性夾爪無損傷抓取杏鮑菇并按類放置作為一次成功分選,智能分選總成功率為88.35%,驗證了分選系統(tǒng)的整體可行性和有效性。
表2 智能分選試驗結(jié)果Tab. 2 Experimental results of intelligent sorting
1) 提出了一種基于YOLOv5分級檢測和GG-CNN2抓取檢測雙模型并聯(lián)的杏鮑菇智能分選方法?;趦煞N網(wǎng)絡(luò)結(jié)構(gòu),分別進行了訓(xùn)練、測試與驗證,初步證明訓(xùn)練所得的分級檢測與抓取檢測模型的有效性與準(zhǔn)確度,并在所搭建的智能分選系統(tǒng)平臺上進行了系統(tǒng)聯(lián)調(diào)。結(jié)果表明,分級檢測平均準(zhǔn)確率為88.3%,抓取檢測成功率為98.33%;單只杏鮑菇分選檢測總用時18 ms,檢測模型能夠在保證一定精度的情況下滿足快速檢測要求。
2) 以SCARA機器人(含柔性夾爪)作為分揀執(zhí)行器,設(shè)計開發(fā)了基于ROS的user總控系統(tǒng),包括相機獲取圖像、分級檢測、抓取檢測、機器人控制、柔性夾爪控制等功能需求的8個子系統(tǒng),以及用于人機交互的基于PyQt的杏鮑菇生產(chǎn)監(jiān)控管理系統(tǒng)等全套智能分揀軟件系統(tǒng),并在此基礎(chǔ)上完成了杏鮑菇智能分選系統(tǒng)物理樣機搭建與驗證,實現(xiàn)了智能分選算法的系統(tǒng)化集成應(yīng)用。
3) 本文所述智能分選系統(tǒng)主要探討了杏鮑菇智能分選整體實現(xiàn)的可行性和有效性。后續(xù)將結(jié)合杏鮑菇分選特性,圍繞提高分級檢測模型的泛化性能、分級檢測與抓取檢測一體化分選算法以及流水線分揀作業(yè)場景下的機器人動態(tài)跟蹤閉環(huán)抓取等開展進一步研究。