曹冰玉 , 邢文宣 , 周 鵬 , 張洚宇 , 張 立 , 張 龍
(新疆科技學(xué)院,新疆 巴州 841000)
隨著農(nóng)業(yè)自動(dòng)化的迅速發(fā)展,自然環(huán)境下的香梨識(shí)別成為香梨采摘機(jī)器人視覺系統(tǒng)中的關(guān)鍵環(huán)節(jié),但由于光照、枝葉遮擋或多果實(shí)重疊等復(fù)雜環(huán)境的存在,導(dǎo)致香梨采摘機(jī)器人不能迅速、精確地定位目標(biāo),影響采摘任務(wù)的執(zhí)行。因此,自然環(huán)境下對(duì)香梨的有效識(shí)別和檢測(cè),對(duì)提高香梨采摘機(jī)器人采摘效率、促進(jìn)香梨產(chǎn)業(yè)發(fā)展具有重要意義。近年來,很多水果識(shí)別算法相繼被提出,Ji等[1]提出了顏色特征分割法,通過SVM支持向量機(jī)識(shí)別提取蘋果顏色和形狀特征,但是對(duì)于葉面遮擋引起的平均誤差率較大;Si等[2]提出了通過RGB顏色通道色差閾值和色差比例定位蘋果的像素位置,但其操作步驟復(fù)雜,時(shí)效性較低;廖崴等[3]利用隨機(jī)森林算法結(jié)合Otsu閾值法[4]對(duì)草莓圖像進(jìn)行分割和濾波處理,并使用霍夫變換進(jìn)行輪廓重建,但其在光線不同的時(shí)間段對(duì)水果的識(shí)別率較低;孫颯爽等[5]利用K-means聚類算法結(jié)合三點(diǎn)定圓法對(duì)蘋果進(jìn)行分割和輪廓重建,但其對(duì)小目標(biāo)水果檢測(cè)效果不佳。
通常自然環(huán)境下采集到的水果圖像有很大的差異性,有很多干擾和背景噪聲,上述傳統(tǒng)識(shí)別模式無法消除背景噪聲,影響水果識(shí)別效果。隨著人工智能技術(shù)的不斷發(fā)展,Krizhevsky等[6]提出的AlexNet卷積神經(jīng)網(wǎng)絡(luò)CNN架構(gòu)在分類識(shí)別中嶄露頭角,對(duì)圖像的識(shí)別精度具有里程碑式的貢獻(xiàn)。Inkyu等[7]提出了Faster R-CNN水果檢測(cè),提高了水果識(shí)別率。傅隆生等[8]提出了一種基于Le Net卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,通過CNN對(duì)復(fù)雜背景下的獼猴桃果實(shí)進(jìn)行識(shí)別,實(shí)現(xiàn)復(fù)雜環(huán)境下的水果識(shí)別。因此本文利用遷移學(xué)習(xí)法來優(yōu)化VGGNet卷積網(wǎng)絡(luò),從而實(shí)現(xiàn)自然環(huán)境下香梨的快速精準(zhǔn)識(shí)別。
遷移學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)中較為常用的網(wǎng)絡(luò)訓(xùn)練模型,它通過共享大數(shù)據(jù)集下預(yù)訓(xùn)練模型的底層結(jié)構(gòu)權(quán)值來消除不同數(shù)據(jù)集之間的差異性,可以在數(shù)據(jù)集較小的情況下,提高模型的準(zhǔn)確率。本文采用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重模型作為Faster R-CNN檢測(cè)框架的初始權(quán)重模型,在預(yù)訓(xùn)練后的模型中對(duì)自然環(huán)境下香梨的檢測(cè)模型進(jìn)行微調(diào),提高識(shí)別效率,節(jié)約訓(xùn)練時(shí)間和訓(xùn)練資源。
數(shù)據(jù)增強(qiáng)是提高算法魯棒性的常用方式,因在一些特殊環(huán)境中無法收集滿足各類條件的數(shù)據(jù)用于模型預(yù)訓(xùn)練和算法測(cè)試,因此,本文利用圖片的裁剪、翻轉(zhuǎn)、平移、去噪等方式來提高訓(xùn)練集數(shù)據(jù)的準(zhǔn)確度,從而提高所設(shè)計(jì)算法的泛化能力。
Faster R-CNN目標(biāo)檢測(cè)模型如圖1所示,該模型工作原理為:首先,對(duì)圖片進(jìn)行歸一化,調(diào)整為卷積網(wǎng)絡(luò)模型所需的格式,并提取圖片卷積后的泛化特征。其次,利用Select Search算法提取出候選區(qū)域并分別映射到卷積后的特征圖中,此操作不僅解決了多個(gè)目標(biāo)尺寸不一的問題,還節(jié)省了大量運(yùn)行時(shí)間。最后,在測(cè)試訓(xùn)練集時(shí),用Softmax替換傳統(tǒng)的SVM(Support Vector Machines)支持向量機(jī),大大節(jié)約運(yùn)行時(shí)間的同時(shí)也實(shí)現(xiàn)了訓(xùn)練集與數(shù)據(jù)集的特征權(quán)值共享。
圖1 Faster R-CNN目標(biāo)檢測(cè)模型
改進(jìn)后的Faster R-CNN目標(biāo)檢測(cè)模型如圖2所示,該模型在Faster R-CNN模型的基礎(chǔ)上將Select Search候選框選取整合到整張網(wǎng)絡(luò)上,實(shí)現(xiàn)端-端的訓(xùn)練,大大提升檢測(cè)速度。其模型由VGGNet特征提取、RPN區(qū)域建議網(wǎng)絡(luò)和Classifier分類網(wǎng)絡(luò)三部分組成。
圖2 改進(jìn)后的Faster R-CNN目標(biāo)檢測(cè)模型
V G G網(wǎng)絡(luò)模型如圖3所示,其工作原理為:VGGNet卷積網(wǎng)絡(luò)[9]利用3×3的小卷積核和2×2的池化核提取圖片的特征,得到特征圖,并提高數(shù)據(jù)集的泛化能力,提高識(shí)別準(zhǔn)確率。
圖3 VGGNet卷積網(wǎng)絡(luò)模型
本文訓(xùn)練集數(shù)據(jù)主要通過網(wǎng)絡(luò)爬取圖片的方式獲取水果圖片,并對(duì)圖片進(jìn)行處理,剔除不符合條件的圖片,共獲得8 000張與香梨外觀相近的圖片,經(jīng)過分類得到15種水果圖片。為加快訓(xùn)練速度,將圖像分辨率處理為400×300像素。15類水果數(shù)據(jù)集如圖4所示。
圖4 15類水果數(shù)據(jù)集
本文測(cè)試集數(shù)據(jù)是利用佳能850D相機(jī)在庫爾勒梨園對(duì)不同角度、不同天氣、不同遮擋程度的香梨樹進(jìn)行拍攝得到的,共拍攝各類照片5 000張,圖片為JPEG格式,分辨率為2 800×1 900像素。部分?jǐn)?shù)據(jù)集如圖5所示。
圖5 自然環(huán)境下采集的香梨數(shù)據(jù)集
軟件環(huán)境:PyTorch,Python(版本號(hào):3.7.2),TensorFlow(版本號(hào):1.11.13),阿里云GPU服務(wù)器;硬件環(huán)境:AMD-3600X,八核CPU,16 G內(nèi)存,NVIDIA GeForce GTX 1660S 6 GB顯卡,NVIDIA JETSON TX2 GPU 8 G服務(wù)器,雙目相機(jī),實(shí)驗(yàn)平臺(tái)如圖6所示。
圖6 實(shí)驗(yàn)平臺(tái)
驗(yàn)證模型好壞,可通過模型的召回率和準(zhǔn)確率來評(píng)價(jià),其中召回率和準(zhǔn)確率公式分別為公式(1)和公式(2):
式中,P為準(zhǔn)確率;R為召回率;TP為正確識(shí)別香梨?zhèn)€數(shù);FP為將背景識(shí)別為香梨的個(gè)數(shù);FN為已標(biāo)識(shí)但未識(shí)別個(gè)數(shù)。
由于Resnet網(wǎng)絡(luò)層數(shù)不同,最終訓(xùn)練出的識(shí)別模型數(shù)據(jù)也有優(yōu)劣之分,為此特選取ResNet50和ResNet101來做對(duì)比,訓(xùn)練結(jié)果如圖7、8所示。
由圖7、圖8可知,僅圖7(b)呈先減少后微增狀態(tài),訓(xùn)練集損失及圖8(b)驗(yàn)證集損失均在不斷減少,過擬合狀態(tài)趨于平衡。經(jīng)過不斷疊加訓(xùn)練和遷移學(xué)習(xí),可得到訓(xùn)練后的模型運(yùn)行結(jié)果圖,如圖9所示。
圖7 ResNet50訓(xùn)練30批次后整體損失變化曲線圖
圖8 ResNet101訓(xùn)練30批次后整體損失變化曲線圖
圖9 基于遷移學(xué)習(xí)的Faster R-CNN模型檢測(cè)效果圖
為更清楚地看到模型分割結(jié)果,利用MATLAB進(jìn)行圖像處理[10],將識(shí)別后的圖像進(jìn)行二值化分割,MATLAB-GUI界面搭建如圖10所示,其二值化分割結(jié)果如圖11所示。
圖10 MATLAB-GUI水果識(shí)別處理界面
圖11 二值化分割結(jié)果
通過實(shí)驗(yàn)分析可知,在遷移學(xué)習(xí)的訓(xùn)練模型下,利用COCO數(shù)據(jù)集預(yù)訓(xùn)練Faster R-CNN模型,可提高香梨的準(zhǔn)確率,降低錯(cuò)誤數(shù)據(jù)召回率,并通過二值化分割結(jié)果驗(yàn)證香梨識(shí)別的準(zhǔn)確率。
本文以自然環(huán)境下成熟香梨為研究對(duì)象,采用卷積神經(jīng)網(wǎng)絡(luò)和機(jī)器視覺以及遷移學(xué)習(xí)模型,通過Faster R-CNN算法模型實(shí)現(xiàn)了自然環(huán)境下成熟香梨的快速識(shí)別。
本文主要內(nèi)容及研究工作如下:1)使用遷移學(xué)習(xí)的方法,將大數(shù)據(jù)集(VGGNet網(wǎng)絡(luò)框架)下的權(quán)重模型共享給香梨識(shí)別檢測(cè)任務(wù),這大大節(jié)約了運(yùn)行時(shí)間。2)使用ResNet卷積網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練,提高Faster R-CNN算法的精度,能夠準(zhǔn)確識(shí)別不同環(huán)境下的香梨,并提取其特征圖像。