毛騰躍,張雯娟,帖軍
(中南民族大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院&湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢430074)
茶葉的加工分為采摘、殺青、揉捻以及干燥四大流程.作為茶葉加工流程之首的鮮葉采摘又分為人工采摘與機(jī)械采摘,人工采摘具有采摘精度高的優(yōu)點(diǎn),但是這種采摘方式效率較低,人工成本比較高且存在勞動力不足等問題.為了彌補(bǔ)人工采摘存在的一些問題,一些機(jī)構(gòu)開始研究使用機(jī)械采摘的方式來取代人工,目前市面上也出現(xiàn)了很多種類的采茶機(jī)械,但是大多采茶機(jī)采取的是一刀切的采摘方式,雖然效率比人工采摘提高了很多倍,但這種采摘方式會破壞茶葉嫩芽的完整度,使得茶葉的品質(zhì)降低.
隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,基于計(jì)算機(jī)視覺的圖像分類技術(shù)應(yīng)用于各個領(lǐng)域.因此,利用計(jì)算機(jī)視覺技術(shù)在自然環(huán)境下對茶葉嫩芽采摘點(diǎn)進(jìn)行快速準(zhǔn)確的識別,再應(yīng)用在合適的采摘機(jī)械上進(jìn)行采摘,這種方式為茶葉的高效、高品質(zhì)采摘提供了新的可能.使用計(jì)算機(jī)視覺技術(shù)對茶葉嫩芽實(shí)現(xiàn)采摘點(diǎn)定位的第一步便是分割出自然背景下的茶葉嫩芽圖片,在自然背景下,茶葉嫩芽和老葉的區(qū)分度并不大且容易受到光照的影響,這極大地增加本了分割的難度.
目前,國內(nèi)外利用計(jì)算機(jī)視覺對于茶葉葉片圖像分割的研究與應(yīng)用不多.例如韓旺明[1]根據(jù)老葉和嫩葉在顏色特征上的差異,提出采用兩次Otsu 算法分別對待切割的茶隴蓬面及嫩葉區(qū)域進(jìn)行提取;韋佳佳[2]利用嫩芽在自然環(huán)境下與背景(老葉、莖、土壤)顏色上的差異,在RGB、 YIQ、 Lab、 HSI以及 YCbCr空間分別選擇一個合適的色彩因子對原始圖像進(jìn)行灰度化,然后根據(jù)灰度化結(jié)果分別采用OTSU、迭代閾值和固定閾值法進(jìn)行圖像分割,比較后得到了基于I因子的平均誤識別率最低,平均誤識別率為20.2%;吳雪梅等人[3]分析茶葉嫩芽和老葉在G和G-B分量上的差異,使用改進(jìn)的Otsu算法識別茶葉嫩芽,準(zhǔn)確率為92%;劉志杰等[4]使用最大類間方差法(Otsu法)對白色背景下的茶葉圖像進(jìn)行閾值分割,準(zhǔn)確率為93.3%;汪建[5]提出一種基于茶葉顏色和種子區(qū)域生長的改進(jìn)方法來完成對茶葉嫩芽的分割,平均分割率為89.8%;邵明[6]提出了一種基于統(tǒng)計(jì)學(xué)的快速區(qū)域合并算法,合并過分割區(qū)域,得到茶葉嫩芽對象,實(shí)現(xiàn)龍井茶葉嫩芽的自動檢測與分類識別,平均分類率為86%;王琨等[7]提出了一種基于深度學(xué)習(xí)的茶葉形態(tài)識別方法,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)茶葉嫩芽樣本,在200張茶葉圖像中的識別率為91.3%;夏華鹍等[8]提取彩色茶葉嫩芽圖像中的14個顏色分量進(jìn)行分析并使用SLIC超像素分割算法獲取超像素塊,再使用閾值分割得到茶葉嫩芽彩色分割圖,獲得的平均分割精度為75.6%;張可等[9]根據(jù)嫩芽與老葉在不同顏色模型下的差異,分別進(jìn)行閾值分割和聚類分割;姚波等[10]利用茶葉嫩芽與老葉在G-B分量上的顏色差異使用Otsu法實(shí)現(xiàn)茶葉的二值分割;吳雪梅等[11]利用茶葉圖像的Lab顏色模型中的a分量和b分量作為顏色特征檢索,使用K-means聚類法完成分割,平均分割率為94%左右;HAI等[12]建立了一個參數(shù)化的茶葉嫩芽顏色模型用于從復(fù)雜背景中分離出茶葉嫩芽的感興趣區(qū)域,然后對每個感興趣區(qū)域,提取期望出現(xiàn)在茶葉頂芽周圍的特征,并把這些特征放入到均值漂移聚類中,以定位茶葉嫩芽的位置.
上述研究中,部分研究工作針對的是單一背景下的茶葉嫩芽圖像,對自然環(huán)境下的茶葉嫩芽圖像并不適用,另外也有針對在自然環(huán)境下茶葉嫩芽圖像分割的研究工作,但是部分研究工作所提出方法的分割準(zhǔn)確率不是很高,距離實(shí)際應(yīng)用還有一定的距離.針對以往研究工作所存在的問題,本文提出了一種基于顯著性檢測的Grabcut算法進(jìn)行自然背景下的茶葉嫩芽圖像分割.受U-Net網(wǎng)絡(luò)的啟發(fā),本文將顯著性檢測算法設(shè)計(jì)為類似U-Net的編碼器解碼器網(wǎng)絡(luò),編碼器網(wǎng)絡(luò)進(jìn)行特征提取工作,解碼器網(wǎng)絡(luò)聯(lián)合編碼器網(wǎng)絡(luò)所提取的圖像特征逐步還原得到茶葉嫩芽的顯著性圖像,再將顯著性圖像輸入到Grabcut算法進(jìn)行前背景的分離得到茶葉嫩芽圖像,為自然背景下的茶葉嫩芽圖像分割提供了一種新的方法.
交互式的Grabcut圖像分割方法雖然廣泛應(yīng)用在目標(biāo)分割中但也存在一些缺點(diǎn),一是交互次數(shù)過多,二是在一些場景下交互式的圖像分割并不適用.在本節(jié)中針對Grabcut算法的以上缺點(diǎn)提出了一種基于顯著性檢測的Grabcut圖像分割方法,能夠自動分割自然背景下的茶葉嫩芽圖像.
圖像的顯著性主要是定義在整個圖像的全局對比度上[13-16],而不是局部或像素特征上.因此很多顯著性檢測算法沒有關(guān)注整個圖像的全局意義以及顯著目標(biāo)的詳細(xì)結(jié)構(gòu).
U-Net網(wǎng)絡(luò)采用編解碼的形式,能夠同時捕獲高層次的全局上下文信息和低層次的細(xì)節(jié),而且U-Net在小數(shù)據(jù)集上也能訓(xùn)練出一個好的模型.受此啟發(fā),本文將顯著目標(biāo)預(yù)測模塊設(shè)計(jì)為一個類似U-Net的編碼和解碼網(wǎng)絡(luò),網(wǎng)絡(luò)架構(gòu)圖如圖1所示.
如表1所示,ResNet有ResNet-18、ResNet-34、ResNet-50、ResNet-101、ResNet-152多種形式[17].本文網(wǎng)絡(luò)架構(gòu)的編碼器部分是由ResNet-50組成的,ResNet是ImageNet競賽中分類問題比較好的網(wǎng)絡(luò),由于ResNet內(nèi)部的殘差塊使用了跳躍連接,因此ResNet緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來的梯度消失問題.
圖1 網(wǎng)絡(luò)架構(gòu)圖Fig.1 Network architecture
表1 ResnNet結(jié)構(gòu)Tab.1 ResnNet architecture
增加網(wǎng)絡(luò)的深度可以提高網(wǎng)絡(luò)的性能,能夠獲取到圖片更豐富的特征信息,如表2所示層數(shù)越深的殘差網(wǎng)絡(luò)具有更小的錯誤率,但是如果只是簡單的增加網(wǎng)絡(luò)的深度則會導(dǎo)致梯度爆炸或梯度彌散的問題,這個問題在很大程度上已經(jīng)可以通過標(biāo)準(zhǔn)的初始化和正則化層來基本解決,但隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)出現(xiàn)了退化的問題.殘差網(wǎng)絡(luò)通過跳躍連接的形式,如圖2所示,將單元的輸入與輸出加在一起再進(jìn)行激活,能夠很好的解決深層網(wǎng)絡(luò)訓(xùn)練時的退化問題,同時且隨著網(wǎng)絡(luò)的加深,殘差網(wǎng)絡(luò)具有更好的表現(xiàn)[17].
表2 單一模型在ImageNet驗(yàn)證集上的錯誤率Tab.2 The error rate of a single model on the ImageNet validation set
圖2 殘差單元Fig.2 Differential unit
在眾多結(jié)構(gòu)的殘差網(wǎng)絡(luò)中本文選擇了ResNet-50,原因有兩點(diǎn):一是ResNet-18和ResNet-34都屬于淺層的殘差網(wǎng)絡(luò),ResNet-50、ResNet-101以及ResNet-152屬于深層的殘差網(wǎng)絡(luò),由文獻(xiàn)[17]可知深層的殘差網(wǎng)絡(luò)具有較低的錯誤率且網(wǎng)絡(luò)越深提取到的特征越豐富,因此本文著眼于選擇ResNet-50、ResNet-101以及ResNet-152中的一種結(jié)構(gòu)作為本文的訓(xùn)練網(wǎng)絡(luò);二是考慮到網(wǎng)絡(luò)的深度帶來的訓(xùn)練時間的問題,本文在深層的殘差網(wǎng)絡(luò)中最終選擇了層數(shù)最少的ResNet-50作為本文的訓(xùn)練網(wǎng)絡(luò).
但與ResNet-50不同的是,本文在輸入層的64個卷積濾波器是大小為3×3步長為1,而不是原有的7×7步長為2,目的是能夠獲取更多的上下文空間以及減少參數(shù)量,而且為了能夠與輸入圖像具有相同的空間分辨率,在輸入卷積之后省略了池化操作.這種自適應(yīng)使得網(wǎng)絡(luò)能夠在較早的層中獲得更高分辨率的特征圖.為了獲得與ResNet-50相同的感受野,本文在ResNet-50的第四階段之后再添加兩個階段,這兩個階段都由3個瓶頸殘差塊組成,瓶頸殘差塊的結(jié)構(gòu)如圖3所示,而每個瓶頸殘差塊是由512個1×1的卷積濾波器、512個3×3的卷積濾波器以及2048個1×1的卷積濾波器組成.
圖3 瓶頸殘差塊Fig.3 Bottleneck residual block
解碼器的每個階段是由3個大小為3×3的卷積、批處理規(guī)范化(BN)以及Relu激活函數(shù)組成,并且在每個階段的最后一個卷積、批處理規(guī)范化以及Relu函數(shù)激活之后進(jìn)行上采樣操作,解碼器每個階段的輸入是由前一階段的上采樣輸出以及對應(yīng)編碼器階段輸出特征圖組成的級聯(lián)特征圖.
GrabCut算法是一種簡單的人機(jī)交互圖像分割算法,需要基于高斯混合模型(GMM)的迭代求解.但是對于需要自動化進(jìn)行的茶葉嫩芽圖像分割場景來說,人機(jī)交互分割的方式并不適用.因此本文采用Grabcut的掩碼圖像方式來實(shí)現(xiàn)對茶葉嫩芽圖像的自動分割.分割流程如圖4所示.通過顯著性檢測得到茶葉嫩芽圖像的顯著性圖之后,將茶葉嫩芽的顯著性圖作為Grabcut算法的掩碼圖像并標(biāo)記黑色像素點(diǎn)為背景,白色像素點(diǎn)為前景便可以進(jìn)行茶葉嫩芽圖像的自動分割操作.
圖4 分割流程Fig.4 Segmentation process
本文中的圖片數(shù)據(jù)來源于湖北省孝感市肖港鎮(zhèn)八叉洼一個茶農(nóng)種植的茶園,拍攝所采用的工具是iphoneXR手機(jī),分別在中午12點(diǎn)、下午2點(diǎn)以及下午5點(diǎn)三個不同的時間段內(nèi)在自然光照、自然背景情況下拍攝了茶葉圖片共612張,所拍攝的圖像大小為3024×4032像素.對612張茶葉圖片進(jìn)行如圖5所示的水平翻轉(zhuǎn)、順時針旋轉(zhuǎn)以及逆時針旋轉(zhuǎn)3種圖像增廣操作后,得到了1836張茶葉圖像.
圖5 圖像增廣操作Fig.5 Image augmentation operation
對增廣后的1836張茶葉圖像進(jìn)行手動創(chuàng)建精確的茶葉嫩芽顯著性分割以及茶葉嫩芽圖像分割操作得到如圖6的茶葉嫩芽顯著標(biāo)簽圖像以及如圖7的茶葉嫩芽標(biāo)簽圖像,并按照7∶3的比例將數(shù)據(jù)集進(jìn)行訓(xùn)練集和測試集的分配處理.
圖6 茶葉嫩芽顯著圖像Fig.6 Remarkable image of tea bud
圖7 茶葉嫩芽圖像Fig.7 Image of tea buds
本文使用精確率(Precision)、召回率(Recall)以及F-Measure三個指標(biāo)來衡量模型的性能.召回率和精確率是圖像分割結(jié)果中廣泛使用的兩個度量值,用于評價圖像分割效果,F(xiàn)-Measure是Precision和Recall加權(quán)調(diào)和平均,常用于評價模型的好壞.
精確率、召回率以及F-Measure定義為:
(1)
(2)
(3)
其中P是像素?cái)?shù),ObjEX是模型預(yù)測的值,ObjGT是真實(shí)值,β2設(shè)置為0.3.
圖8(a)、圖8(c)均為一次交互式Grabcut算法分割的結(jié)果,圖8(b)、圖8(d)為本文提出的基于顯著性檢測的Grabcut算法的分割結(jié)果,由上圖可知一次交互式的Grabcut分割有時并不能很好的從復(fù)雜背景中分割出茶葉嫩芽圖像,特別是在圖像中存在多個茶葉嫩芽的時候,而多次交互又會存在時間消耗的問題.基于顯著性檢測的Grabcut算法能夠更好的學(xué)習(xí)到茶葉嫩芽的顯著特征,從而能夠?qū)崿F(xiàn)在復(fù)雜背景中一次分割出完整的茶葉嫩芽圖像.表3展示了以不同層的殘差網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)的顯著性檢測算法與Grabcut算法相結(jié)合的準(zhǔn)確率、召回率、F-Measure以及分割時間(每張圖片的分割時間)四項(xiàng)指標(biāo)的數(shù)據(jù)對比,由表中數(shù)據(jù)可知,使用ResNet-152作為特征提取網(wǎng)絡(luò)的顯著性檢測算法與Grabcut算法相結(jié)合的準(zhǔn)確率最高,為96.37%,但是耗費(fèi)了大量的時間;使用ResNet-18作為特征提取網(wǎng)絡(luò)的顯著性檢測算法與Grabcut算法相結(jié)合所耗費(fèi)的分割時間最少,但是其準(zhǔn)確率不高.綜合衡量各項(xiàng)指標(biāo)可見,使用ResNet-50作為特征提取網(wǎng)絡(luò)的顯著性檢測算法與Grabcut算法相結(jié)合具有比較好的效果.
圖8 交互式Grabcut算法分割的結(jié)果與基于顯著性檢測的Grabcut算法自動分割的結(jié)果Fig.8 The segmentation results of interactive Grabcut and automatic segmentation results of Grabcut based on significance detection
表3 不同殘差網(wǎng)絡(luò)的分割結(jié)果Tab.3 Segmentation results of different residual networks
2.3.1 基于圖像顏色信息
在本節(jié)中,采用了文獻(xiàn)[3]所提出的茶葉嫩芽分割方法用于本文自建的茶葉數(shù)據(jù)集進(jìn)行茶葉嫩芽的分割實(shí)驗(yàn).根據(jù)文獻(xiàn)[3]所述,提取茶葉嫩芽、老葉以及茶梗的RGB分量,如圖9(a)、圖9(b)、圖9(c)所示.由圖9(a)、圖9(b)、圖9(c)可知,本文所用的茶葉數(shù)據(jù)集在茶葉嫩芽、老葉以及茶梗的R、G、B分量直方圖上的重合度都非常高,無法選出一個如文獻(xiàn)[13]所述的一個合適的閾值進(jìn)行茶葉嫩芽的分割處理,因此文獻(xiàn)[13]所提出的方法對本文所用數(shù)據(jù)集并不適用.
圖9 茶葉嫩芽、老葉以及茶梗的RGB分量直方圖Fig.9 RGB component histogram of tea shoots,old leaves and stems
2.3.2 基于K-means聚類法
在本節(jié)中,采用了文獻(xiàn)[11]所提出的茶葉嫩芽分割方法用于本文自建的茶葉數(shù)據(jù)集進(jìn)行茶葉嫩芽的分割實(shí)驗(yàn).將茶葉圖像RGB顏色空間轉(zhuǎn)化為Lab顏色空間,如圖10所示,茶葉圖像在Lab顏色空間的a分量和b分量有明顯波峰波谷特征.提取圖像a分量和b分量特征進(jìn)行合并作為K-means聚類算法的顏色特征進(jìn)行檢索,結(jié)果如圖11所示.由圖11的分割結(jié)果可以看出,文獻(xiàn)[11]所提出的茶葉圖像分割方法雖然能夠比較完整的分割出茶葉嫩芽,但是所包含的雜質(zhì)太多.
圖10 茶葉圖像Lab顏色空間直方圖Fig.10 Lab color space histogram of tea image
圖11 基于K-means聚類算法的分割結(jié)果Fig.11 Segmentation results based on K-means clustering algorithm
表4展示了本文提出的方法與文獻(xiàn)[11]提出方法的分割結(jié)果對比,由表4中的實(shí)驗(yàn)結(jié)果可知,本文所提方法的分割準(zhǔn)確率相比文獻(xiàn)[11]提升了14.39%,取得了較好的分割效果.
表4 基于顯著性檢測和Grabcut算法的分割結(jié)果與 文獻(xiàn)[11]的分割結(jié)果Tab.4 Segmentation results based on significance detection and Grabcut and segmentation results of reference[11]
自然背景下的茶葉嫩芽圖片包含老葉、茶梗以及地面等眾多復(fù)雜的因素,因此自然背景下的茶葉嫩芽圖像分割是一項(xiàng)具有挑戰(zhàn)性的工作.為了能夠獲取更高的分割準(zhǔn)確率,本文提出利用顯著性檢測算法進(jìn)行茶葉嫩芽的顯著性特征提取,再結(jié)合Grabcut算法進(jìn)行分割,這種方法能夠獲取到茶葉嫩芽的顯著特征,分割出完整度較高的茶葉嫩芽圖像.實(shí)驗(yàn)結(jié)果表明,本文提出方法的分割準(zhǔn)確率達(dá)89.6%,取得了較好的分割結(jié)果,實(shí)現(xiàn)了自然背景下茶葉嫩芽圖像的良好分割.
中南民族大學(xué)學(xué)報(自然科學(xué)版)2021年1期