胡天浩,高秀敏,華云松,蔡麗君
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
目前,國(guó)內(nèi)蘋(píng)果分選仍以人工操作為主,其缺點(diǎn)是人工成本高、效率低[1]。國(guó)內(nèi)外學(xué)者對(duì)蘋(píng)果缺陷視覺(jué)檢測(cè)做了大量研究。項(xiàng)輝宇等[2]通過(guò)圖像識(shí)別與深度學(xué)習(xí)相結(jié)合,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)CNN和支持向量機(jī)SVM完成蘋(píng)果缺陷檢測(cè);薛勇等[3]利用GoogleNet深度遷移模型實(shí)現(xiàn)檢測(cè);Fan等[4]采用基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)架構(gòu)和經(jīng)濟(jì)高效的計(jì)算機(jī)視覺(jué)模塊,訓(xùn)練和測(cè)試了基于CNN的分類(lèi)架構(gòu),測(cè)試集的準(zhǔn)確性、召回率和特異性分別為96.5%、100.0% 和92.9%。上面文獻(xiàn)均未對(duì)蘋(píng)果缺陷種類(lèi)進(jìn)行詳細(xì)分類(lèi),缺陷特征也闡述較少。上述文獻(xiàn)均未對(duì)蘋(píng)果缺陷種類(lèi)進(jìn)行詳細(xì)分類(lèi),缺陷特征也闡述較少。
傳統(tǒng)蘋(píng)果圖像缺陷檢測(cè)算法大多針對(duì)碰傷、腐爛等大型缺陷進(jìn)行檢測(cè),對(duì)小炭疽點(diǎn)這類(lèi)缺陷往往存在誤檢或漏檢,同時(shí)檢測(cè)精度低,很難實(shí)現(xiàn)缺陷分類(lèi),如何解決成為蘋(píng)果圖像缺陷檢測(cè)領(lǐng)域的重點(diǎn)關(guān)注問(wèn)題。
目前主流目標(biāo)檢測(cè)模型有Faster R-CNN[5]、OverFeat[6]、YOLO[7]算法等,這些主流算法中,YOLO算法具有檢測(cè)速度快和檢測(cè)精度高的特點(diǎn),已得到廣泛應(yīng)用。YOLO算法中的YOLOV5因其具有模型尺寸小、部署成本低、靈活性高、檢測(cè)速度快、檢測(cè)精度高的優(yōu)點(diǎn),在目標(biāo)檢測(cè)領(lǐng)域中被廣泛應(yīng)用,但其下采樣率過(guò)大、SSD一階算法缺乏特征融合的缺點(diǎn),使其在小目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)欠佳,檢測(cè)速度和檢測(cè)精度也很難兼顧。
基于以上蘋(píng)果缺陷檢測(cè)的現(xiàn)狀,本文提出一種ACE-YOLO自適應(yīng)局部圖像檢測(cè)算法,先確定檢測(cè)區(qū)域,引入通道注意力機(jī)制[8],將算力集中到該檢測(cè)區(qū)域,利用圖像增強(qiáng)[9]強(qiáng)化缺陷細(xì)節(jié),通過(guò)在模型中增加小目標(biāo)檢測(cè)層[10],解決檢測(cè)速度與精度平衡問(wèn)題。
YOLOV5[11]一共有4種模型(S,M,L,X),根據(jù)不同的檢測(cè)目標(biāo)大小以及不同應(yīng)用場(chǎng)景進(jìn)行劃分,4種模型的整體網(wǎng)絡(luò)架構(gòu)均一樣,但采用的檢測(cè)深度和寬度不同。深度和寬度較低的模型檢測(cè)精度低,而深度和寬度較高的模型檢測(cè)速度上沒(méi)優(yōu)勢(shì),兼顧到檢測(cè)精度和速度,本文基于YOLOV5L模型進(jìn)行改進(jìn),其網(wǎng)絡(luò)架構(gòu)圖如圖1所示,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)主要由3個(gè)部分組成。
圖1 YOLOV5網(wǎng)絡(luò)架構(gòu)圖
1) Backbone(特征提取骨干):該部分由Focus結(jié)構(gòu)與CSP結(jié)構(gòu)組成。Focus結(jié)構(gòu)是圖片進(jìn)入Backbone前,對(duì)圖片進(jìn)行切片操作。CSP結(jié)構(gòu)先將基礎(chǔ)層特征映射劃分為兩部分,然后通過(guò)跨階段層次結(jié)構(gòu)將它們合并,在減少計(jì)算量的同時(shí)可以保證準(zhǔn)確率。
2) Neck(特征融合): 采用FPN+PAN的結(jié)構(gòu)。FPN是自頂向下的,將高層的特征信息通過(guò)上采樣的方式進(jìn)行傳遞融合,得到進(jìn)行預(yù)測(cè)的特征圖。PAN是借鑒圖像分割領(lǐng)域PANet的創(chuàng)新點(diǎn),使下采樣時(shí)更利于分割。
3) Head(輸出端):Head端對(duì)圖像特征進(jìn)行預(yù)測(cè),生成邊界框并預(yù)測(cè)類(lèi)別。
傳統(tǒng)的檢測(cè)方法是對(duì)輸入的原始圖像進(jìn)行整張?zhí)幚?導(dǎo)致計(jì)算機(jī)算力的大量浪費(fèi),本文由于只處理蘋(píng)果上重點(diǎn)區(qū)域的圖像,因此,檢測(cè)速度與檢測(cè)精度均有大幅提升,系統(tǒng)整體程序流程圖如圖2所示。
圖2 系統(tǒng)整體程序流程圖
檢測(cè)過(guò)程具體步驟如下:
步驟一,輸入一張?jiān)紙D像,利用神經(jīng)網(wǎng)絡(luò)判定原始圖像中是否含有蘋(píng)果,若有,則記錄蘋(píng)果在圖像中具體位置;若無(wú),則結(jié)束,繼續(xù)輸入下一張待檢蘋(píng)果圖像。
步驟二,使用ACE圖像增強(qiáng)算法對(duì)蘋(píng)果區(qū)域的圖像進(jìn)行處理,同時(shí)使用模糊算法,剔除背景因素的干擾,再重構(gòu)圖像。
步驟三,將帶有蘋(píng)果缺陷的圖像增強(qiáng)后,送入帶有小目標(biāo)檢測(cè)層的框架,完成蘋(píng)果多缺陷的檢測(cè),并標(biāo)記出缺陷的種類(lèi)與位置,以預(yù)測(cè)框的形式輸出。
1.2.1 深度學(xué)習(xí)獲取包含待檢蘋(píng)果最小方框圖
通常來(lái)說(shuō),蘋(píng)果圖像在原始圖像中占比是不大的,在直接對(duì)原始圖像檢測(cè)時(shí),會(huì)包含大量背景信息,容易造成計(jì)算機(jī)資源的浪費(fèi)以及增加檢測(cè)時(shí)間。本文利用神經(jīng)網(wǎng)絡(luò)確定原始圖像中蘋(píng)果輪廓的坐標(biāo)區(qū)域,再對(duì)此局部進(jìn)行處理,有效地縮短了檢測(cè)時(shí)間,具體方式如下:
先是將一張未經(jīng)處理的圖片在輸入端轉(zhuǎn)化為圖像大小為608*608的圖片,并進(jìn)行歸一化等操作,使用Mosaic數(shù)據(jù)增強(qiáng)操作提升模型的訓(xùn)練速度和網(wǎng)絡(luò)的精度,再將處理過(guò)的圖像以Focus結(jié)構(gòu)為主體的基準(zhǔn)網(wǎng)絡(luò),用于提取蘋(píng)果的特征(注意:此時(shí)提取的特征僅僅是蘋(píng)果的框圖以及蘋(píng)果在整個(gè)圖像上的位置信息,并不包含蘋(píng)果的缺陷)。此時(shí)記錄下蘋(píng)果的坐標(biāo)信息,便于后續(xù)實(shí)現(xiàn)在此區(qū)域的局部圖像增強(qiáng),之后利用Neck網(wǎng)絡(luò)進(jìn)一步提升特征的多樣性及魯棒性,最后從Head輸出端完成目標(biāo)檢測(cè)結(jié)果的輸出,并將記錄的蘋(píng)果的坐標(biāo)信息保存在txt格式中。
1.2.2 ACE算法實(shí)現(xiàn)蘋(píng)果局部信息增強(qiáng)
將獲取的包含待檢蘋(píng)果的最小方框圖利用ACE(adaptive contrast enhancement)算法[12]進(jìn)行圖像增強(qiáng),以便將主要計(jì)算機(jī)算力集中到增強(qiáng)部分,具體實(shí)現(xiàn)細(xì)節(jié)如圖3所示。
圖3 ACE算法流程圖
ACE算法具體步驟:
第一步,對(duì)彩色圖像的R,G,B通道的信息分別進(jìn)行處理,求解每一個(gè)像素點(diǎn)的R(x)值,其中sα(t)為坡度函數(shù),它對(duì)小的差異有著較大的放大作用,對(duì)于大的差異也能有不錯(cuò)的效果,能夠根據(jù)局部?jī)?nèi)容來(lái)擴(kuò)展或者壓縮動(dòng)態(tài)范圍,具體公式為
(1)
式中:Ω為縮放強(qiáng)度值,其閾值為[0,1]之間;sα為坡度函數(shù);I(x)-I(y)為兩像素點(diǎn)之差;‖x-y‖為兩像素點(diǎn)之間的距離。
第二步,利用公式(2)將R(x)擴(kuò)展到[0,1]之間,使通道得到增強(qiáng),第二步y(tǒng)∈Ω,y≠x得到全局白平衡,具體公式為
(2)
式中:L(x)為全局白平衡,Rmin為局部最小值,Rmax為局部最大值。
最后為求解最優(yōu)化問(wèn)題,ACE算法可以看做是對(duì)規(guī)范的直方圖均衡化方法的一種平滑和局部修正的方法,公式為
(3)
式中:ω(x,y)為兩像素點(diǎn)距離的倒數(shù),M為Rmax。
1.2.3 小目標(biāo)檢測(cè)層框架及改進(jìn)
YOLOV5網(wǎng)絡(luò)因?yàn)檫^(guò)大的下采樣率、過(guò)大的感受野、語(yǔ)義與空間的矛盾、SSD一階算法缺乏特征融合等特性致使在小目標(biāo)檢測(cè)領(lǐng)域一直表現(xiàn)不是很好。小目標(biāo)檢測(cè)層進(jìn)行設(shè)計(jì)時(shí),需要盡可能解決上述的4點(diǎn)問(wèn)題,在小目標(biāo)檢測(cè)層的設(shè)計(jì)上采用了PPM (pyramid pooling module)金字塔池化模型[13],該模型可以盡可能地利用全局的上下文信息,對(duì)于解決上述問(wèn)題有很大幫助,PPM模型的框架如圖4所示。
(a)特征圖 (b)金字塔池化圖4 PPM模型框架
圖4(a)為特征圖,圖4(b)為PSPNet的特征融合部分。對(duì)于圖像經(jīng)過(guò)backbone得到的feature map,分別對(duì)其進(jìn)行池化操作,得到尺寸分別為1×1、2×2、3×3、6×6的特征圖,然后使用1×1卷積把通道裁剪成原本的1/4,再分別上采樣成原先的特征圖尺寸,利用concat函數(shù)和特征圖融合后得到新特征圖。
小目標(biāo)檢測(cè)層改進(jìn)方式如下:
第一步,修改Anchor設(shè)置。在這一部分主要是增加了一組Anchor,對(duì)于不同的數(shù)據(jù)集,不同大小的檢測(cè)目標(biāo),類(lèi)似于蘋(píng)果缺陷這樣的小目標(biāo)而言,需要將Anchor的值在對(duì)檢測(cè)速度影響不大時(shí)盡量調(diào)小,才能使檢測(cè)精度增加。
第二步,修改檢測(cè)頭部。在這一部分中,主要是對(duì)幾個(gè)操作層進(jìn)行了優(yōu)化與改進(jìn),在17層后,重復(fù)對(duì)特征圖進(jìn)行上采樣,對(duì)于特征圖的細(xì)節(jié)進(jìn)行進(jìn)一步暴露,同時(shí)在20層時(shí),將此時(shí)獲取到的160×160大小的特征圖與第2層時(shí)的特征圖進(jìn)行concat融合,從而獲得更大細(xì)節(jié)更多的特征圖。在第31層后,增加小目標(biāo)檢測(cè)層,一共使用4層[21, 24, 27, 30]進(jìn)行小目標(biāo)特征檢測(cè)。在增加檢測(cè)層后,主要的問(wèn)題是計(jì)算變?yōu)楦訌?fù)雜了,表現(xiàn)在檢測(cè)時(shí),推理的速度有所降低。不過(guò)對(duì)于小目標(biāo),有很好的改善。同時(shí),得益于對(duì)有用細(xì)節(jié)的局部圖像的增強(qiáng)以及對(duì)無(wú)用信息的模糊化處理,檢測(cè)速度變慢的趨勢(shì)并不是很明顯。
開(kāi)源數(shù)據(jù)集中的蘋(píng)果缺陷種類(lèi)、像素、分辨率等很難達(dá)到研究要求,故用160個(gè)缺陷蘋(píng)果制作數(shù)據(jù)集,在保證光源及相機(jī)不變的情況下,旋轉(zhuǎn)蘋(píng)果,對(duì)每個(gè)蘋(píng)果的不同角度進(jìn)行拍攝,共獲得1 600幅圖像,隨機(jī)以8∶1∶1比例制作1 280幅訓(xùn)練集,160幅驗(yàn)證集,160幅測(cè)試集。利用lableimg圖像標(biāo)注工具對(duì)數(shù)據(jù)集進(jìn)行手動(dòng)標(biāo)注,缺陷分為14類(lèi),標(biāo)注具體類(lèi)型、數(shù)量及其占比見(jiàn)表1。表1中共標(biāo)注出果梗、果臍等蘋(píng)果基本信息6 327個(gè)(果臍3 126個(gè),果梗3 201個(gè)),14種缺陷總計(jì)11 064個(gè)。
表1 缺陷類(lèi)型與數(shù)量及其占比
本文采用4種彩色圖像算法增強(qiáng)進(jìn)行實(shí)驗(yàn),其中非物理模型方法3種:CLAHE、MSRCR、ACE;物理模型1種:DCP算法,圖5是4種模型處理結(jié)果的對(duì)比。
(a) 原圖
由圖5可見(jiàn),采用基于物理模型的DCP算法處理結(jié)果最差,結(jié)果中蘋(píng)果亮度雖然有所提升但色偏嚴(yán)重,局部信息表現(xiàn)不清楚,色偏導(dǎo)致檢測(cè)精度更不準(zhǔn)確;采用MSRCR算法和CLAHE算法模型處理的結(jié)果存在相同的問(wèn)題,兩者的對(duì)比度雖然均有提升,但色偏問(wèn)題仍然沒(méi)能得到有效解決,同時(shí)增強(qiáng)后圖像偏暗;采用ACE算法模型處理的結(jié)果最好,亮部與暗部區(qū)域細(xì)節(jié)對(duì)比最為自然,色偏也基本消失,整體圖像亮度也有提升,對(duì)于蘋(píng)果缺陷信息的保留與增強(qiáng)均有優(yōu)勢(shì)。
圖6為局部圖像增強(qiáng)以及背景模糊后的6種不同蘋(píng)果缺陷圖像。
(a) 背景模糊前
圖6是利用深度學(xué)習(xí)找出蘋(píng)果輪廓在圖像中的坐標(biāo)信息,采用ACE算法對(duì)該坐標(biāo)進(jìn)行局部增強(qiáng),同時(shí)對(duì)圖像中背景采用模糊算法模糊化后的對(duì)比圖像。對(duì)比圖6中的(a)、(b)可知,(b)圖黑色背景已經(jīng)明顯地被模糊化了,檢測(cè)時(shí)不必再浪費(fèi)算力在背景上,因此大大減少了檢測(cè)時(shí)間。圖6(b)中的6張圖像,無(wú)論在亮度、對(duì)比度、飽和度、色調(diào)等方面均表現(xiàn)良好,對(duì)蘋(píng)果缺陷細(xì)節(jié)方面展示也較其他算法更優(yōu)異,在滿(mǎn)足檢測(cè)需求的要求下,也能更好地提升檢測(cè)精度。
2.3.1 性能評(píng)價(jià)指標(biāo)
為了驗(yàn)證不同算法對(duì)蘋(píng)果缺陷檢測(cè)性能的影響,在此引入了2個(gè)重要的評(píng)價(jià)指標(biāo),平均精度AP(average precision)和平均精度均值MAP(mean average precision)。P-R曲線通常被用作信息提取,P-R曲線的橫坐標(biāo)代表查全率,也就是真正率,縱坐標(biāo)代表查準(zhǔn)率,代表的是正例樣本所占比例。P-R曲線可以用來(lái)評(píng)估模型性能,判定不同模型性能比較權(quán)威。而AP是計(jì)算P-R曲線所覆蓋的面積,也是用于評(píng)判該模型算法好壞指標(biāo)之一,MAP則是對(duì)所有類(lèi)別中的AP進(jìn)行平均后得到的:
P=TP/(TP+FP),
(4)
R=TP/(TP+FN),
(5)
(6)
(7)
式(4)中:TP(ture positive)為模型預(yù)測(cè)為正類(lèi)的正樣本數(shù)量,FP(false positive)為被模型預(yù)測(cè)為正類(lèi)的負(fù)樣本數(shù)量;式(5)中FN(false negative)為被模型預(yù)測(cè)為負(fù)類(lèi)的正樣本數(shù)量;式(6)中p(r)為P-R曲線;式(7)中m為檢測(cè)目標(biāo)種類(lèi)數(shù)量。
2.3.2 不同模型的性能對(duì)比
本文在驗(yàn)證不同模型的性能時(shí),僅設(shè)置模型的種類(lèi)為變量,其他條件均相同。在進(jìn)入檢測(cè)模型之前,送檢的圖像均為經(jīng)ACE彩色圖像局部增強(qiáng)及背景模糊化處理后的圖像,保證對(duì)不同模型性能評(píng)估的公正性。在本節(jié)中,采用了上述P-R曲線、MAP指標(biāo)、FPS(檢測(cè)幀率)、檢測(cè)時(shí)間4個(gè)維度評(píng)估模型的性能。本文共與8個(gè)比較經(jīng)典模型的小目標(biāo)檢測(cè)進(jìn)行了對(duì)比,其分別為YOLOV5中的middle模型和large模型,兩者區(qū)別為large模型的寬度和深度都比middle大,但檢測(cè)時(shí)間也相對(duì)較長(zhǎng);Faster R-CNN 模型;SSD 模型;CBAM-YOLOV5模型;CA-YOLOV5模型;SE-YOLOV5模型;添加小目標(biāo)檢測(cè)層的YOLOV5L模型,表2為各模型性能指標(biāo)對(duì)比。
表2 9種模型性能指標(biāo)對(duì)比
由表2可看出,在檢測(cè)精度上表現(xiàn)最差的為SSD模型,其檢測(cè)速度遜于Faster R-CNN模型,檢測(cè)幀率高于Faster R-CNN模型,不過(guò)兩者都達(dá)不到缺陷檢測(cè)要求;得益于較窄的寬度與較淺的深度,檢測(cè)速度最快的為YOLOV5(M),但它在檢測(cè)精度以及檢測(cè)幀率上的表現(xiàn)卻是這幾個(gè)模型之中最低的,達(dá)不到缺陷檢測(cè)的要求;YOLOV5(L)因在寬度與深度上均有加深,其MAP相較于YOLOV5(M)有所提升,但也隨著寬度與深度的加深導(dǎo)致檢測(cè)速度也有所增加,不過(guò)仍然無(wú)法達(dá)到缺陷檢測(cè)需求;引入CBAM、CA、SE注意力機(jī)制的YOLOV5L模型,3種注意力機(jī)制加入并沒(méi)有使其檢測(cè)精度有明顯的提升,說(shuō)明是否施加注意力機(jī)制并不會(huì)影響檢測(cè)精度,由于注意力機(jī)制的引入,對(duì)計(jì)算機(jī)算力調(diào)用變得合理了,內(nèi)存占用相較于未施加注意力機(jī)制前減少了接近17個(gè)百分點(diǎn),FPS也有著一定的提升;采用帶有小目標(biāo)檢測(cè)層的ACE-YOLO在所有模型中檢測(cè)精度是表現(xiàn)最好的,不過(guò)由于小目標(biāo)檢測(cè)層設(shè)計(jì)時(shí)需要對(duì)圖像進(jìn)行分割的特性,導(dǎo)致檢測(cè)時(shí)間也是較長(zhǎng)的,不過(guò)對(duì)于大幅提升的檢測(cè)精度,246 ms的檢測(cè)時(shí)間也是能夠接受的。
圖7為ACE-YOLO(帶有小目標(biāo)檢測(cè)層)并添加CA注意力機(jī)制的檢測(cè)結(jié)果。
圖7 ACE-YOLO檢測(cè)結(jié)果
帶有小目標(biāo)檢測(cè)層的ACE-YOLO模型無(wú)論是對(duì)炭疽這種比較大的缺陷亦或是對(duì)黑點(diǎn)這種小缺陷都有著良好的表現(xiàn),通過(guò)對(duì)FN與TP的統(tǒng)計(jì)與計(jì)算,漏檢情況僅有0.4%,該漏檢產(chǎn)生的原因是由于在局部增強(qiáng)時(shí)產(chǎn)生色偏,導(dǎo)致在檢測(cè)時(shí)有著誤判,不過(guò)該誤判率很低,在能夠接受范圍之內(nèi)。
圖8為帶有小目標(biāo)檢測(cè)層ACE-YOLO模型的P-R曲線,該曲線表示蘋(píng)果自身、果梗、果臍以及其余14種缺陷的檢測(cè)結(jié)果。
圖8 ACE-YOLO模型的P-R曲線
圖8對(duì)炭疽缺陷檢測(cè)效果較差。分析后,發(fā)現(xiàn)原因如下:(1)由于蘋(píng)果自然生長(zhǎng),以及在采摘時(shí)沾染泥土,導(dǎo)致檢測(cè)時(shí)誤判;(2)在圖像增強(qiáng)時(shí)產(chǎn)生色偏,導(dǎo)致檢測(cè)結(jié)果降低;(3) 樣本量太少,由于2022年雨季時(shí)間的減少,炭疽病發(fā)病率低,在本文研究的這一批蘋(píng)果樣本中,炭疽缺陷個(gè)數(shù)僅有135個(gè),占缺陷信息量的1.2%。
圖8顯示,該模型的平均檢測(cè)精度仍然達(dá)到了95.2%,在小目標(biāo)檢測(cè)方面表現(xiàn)優(yōu)異。
本文提出的基于深度學(xué)習(xí)的ACE-YOLO自適應(yīng)局部圖像檢測(cè)算法,有效地解決了蘋(píng)果檢測(cè)中小缺陷識(shí)別困難的問(wèn)題,通過(guò)局部圖像處理技術(shù),在放大蘋(píng)果缺陷細(xì)節(jié)的同時(shí),也規(guī)避了一些環(huán)境干擾因素,利用改進(jìn)傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),在模型中增加小目標(biāo)檢測(cè)層,并引入了通道注意力機(jī)制,合理調(diào)用計(jì)算機(jī)算力,達(dá)到檢測(cè)精度與檢測(cè)時(shí)間的平衡。實(shí)驗(yàn)結(jié)果表明,該方法具有較好的蘋(píng)果缺陷檢測(cè)效果。