葛成鵬 王振興 孫 紅 李民贊 李鴻強*
(1.河北建筑工程學院,河北 張家口 075000;2.中國農業(yè)大學現代精細農業(yè)系統(tǒng)集成研究教育部重點實驗室,北京100083)
卷心菜,通稱“包菜”,學名“結球甘藍”,是一種常見蔬菜.結球甘藍在我國“菜籃子”中占有重要的地位,是家庭主要食用蔬菜之一.
農業(yè)部2008年5月16日發(fā)布《結球甘藍等級規(guī)格》(NY/T 1586-2008)標準[1],等級鑒別標準見表1.
表1 結球甘藍等級評價標準
如表1所示,結球甘藍等級主要評價指標是葉球大小,外觀,緊實度,修正度,老幫,焦邊,側芽,機械損傷,病害,蟲害.度量值是一致,基本一致,相似;整齊,基本整齊,不整齊;有或者無;大量,少量,度量值界限模糊.
結球甘藍等級外在品質的評價,主要依靠人工感官判斷,存在判別標準不一致、效率低、誤差大、準確性低等缺點.機器視覺技術[2]結合模式識別方法作為一種無損檢測技術,在農產品等級檢測[3]方面應用比較廣泛.胡光輝等[4]提出了一種基于機器視覺和主成分分析優(yōu)化神經網絡的哈密瓜成熟等級識別方法,預測準確率達86.59%.童旭[5]對無瑕疵水果的顏色特征、紋理特征和形態(tài)特征包括高度特征提取后,選取通過主成分分析后保留了95%的特征的12維向量作為輸入,建立了基于粒子群優(yōu)化的BP神經網絡用于水果表面等級分類識別.Unay D[6]在多光譜圖像上,通過與莖/花萼區(qū)域的最小混淆來精確分割缺陷之后,從分割區(qū)域中提取統(tǒng)計、紋理和幾何特征,利用這些特征訓練統(tǒng)計分類器和句法分類器對水果進行兩類和多類分級,總準確率為93.5%.
本研究,按照《結球甘藍等級規(guī)格》(NY/T 1586-2008)標準,基于機器視覺技術,對結球甘藍等級的無損檢測方法進行研究,為結球甘藍的等級評定提供一種新的方法.
分級試驗所用結球甘藍為圓頭結球甘藍,共計108個試驗樣品,根據國標,人工確定各個樣品的等級,二級、一級、特級的比例接近1:2:2.其中,80個樣品組成聚類集,用作聚類分析,另外28個樣本組成測試集,用于等級測試.
結球甘藍的圖像采集在白熾燈光源、背景為黑色的試驗箱內進行.首次采樣時,將結球甘藍正對相機放置,調整物距和焦距,使相機采集到的圖像達到最佳效果,固定參數以便后續(xù)圖像采集,并將采集到的圖像數據保存至計算機存儲.結球甘藍等級指標與圖像特征對應關系如表2所示.
表2 結球甘藍等級指標與圖像特征對應關系
葉球大小評價指標,選擇面積,長軸長,短軸長,等價直徑,體積,周長形狀特征.外觀、修整度、側芽評價指標,選擇長軸與X軸的交角,擴展度,偏心率,平滑度形狀特征[7-14].老幫、焦邊、機械損傷、病蟲害評價指標選擇綠色比例,色度、飽和度、亮度均值顏色特征[15-18],幫-葉像素比,斑紋比,慣性矩,能量,同質性紋理特征[19-24].緊實度評價指標選擇橢圓度、圓形度.圖像中圖形的面積可用同一標記的區(qū)域中像素的個數來表示,記作A0.圖像周長用同一標記的區(qū)域輪廓中像素的個數來表示,記作l.長軸長是像素意義下與對象圖形具有相同標準二階中心矩的橢圓的長軸長,記作maxl,短軸長是像素意義下與對象圖形具有相同標準二階中心矩的橢圓的短軸長,記作minl.長軸與X軸的夾角是像素意義下與對象圖形具有相同標準二階中心矩的橢圓的長軸與X軸的交角,單位為度,記作ort.擴展度是同時在區(qū)域和其最小邊界矩形中的像素比例,記作ext,偏心率是與區(qū)域具有相同標準二階中心矩的橢圓的離心率,記作ect.等價直徑是與區(qū)域具有相同面積的圓的直徑,記作d,計算公式為:
(1)
平滑度是與區(qū)域具有相同面積的圓的周長與區(qū)域周長的比值,用來刻畫甘藍外表面的光滑程度,比值小說明甘藍表明褶皺多,比值大說明甘藍表明光滑無褶皺,記作phd.體積是像素意義下與對象圖形具有相同標準二階中心矩的橢圓和與區(qū)域具有相同面積的圓的所對應的旋轉體的體積的平均值,記作vol,化解后的計算公式為:
(2)
綠色比例是將RGB空間圖形轉換成HSV空間圖像,分別獲得H、S、V分量圖像,求得各個個分量圖像的灰度均值,分別記作hm,sm,vm.健康的結球甘藍表面以綠色為主,有老幫、焦邊、機械損傷、病害、蟲害等損傷的結球甘藍,損傷部位的顏色表現為非綠色,通過計算綠色像素在圖形范圍內的比例,反映結球甘藍外表的老幫、焦邊、機械損傷、病害、蟲害等情況,根據顏色統(tǒng)計結果,定義H分量值大于等于90且小于等于150,同時,S分量值大于等于0.2的像素和圖形其它像素和的比值,記作gr.
斑紋比是經過紋理濾波,濾波后所得斑紋圖像如圖1所示,可以看出結球甘藍表面的斑紋,在結球甘藍圖像范圍內,統(tǒng)計非零值的像素的個數,與整個結球甘藍圖像范圍內像素個數求比值,記作bwb.
圖1 斑紋圖像
幫-葉像素比是對S分量圖像,經過閾值分割,結球甘藍的幫、葉的灰度值有明顯的不同,這也符合人的實際觀察,在購買的甘藍中,甘藍的幫、葉的色調是綠色,但是飽和度不同,也就是雖然同為綠色,但是綠色的程度不一樣.幫和葉比值計算過程:經過對S分量圖像的閾值分割,幫-葉分割處理效果如圖2所示,可以看出結球甘藍表面的幫和葉區(qū)分開來,在結球甘藍圖像范圍內,計算零值的像素個數與整個結球甘藍圖像范圍內像素個數的比值,記作byb.
圖2 幫-葉分割效果圖
圓形度用來描述對象形狀接近圓形的程度,記作r0,計算公式為:
(3)
橢圓度用來描述對象形狀接近橢圓的程度,記作r1計算公式為:
(4)
基于灰度共生矩陣,提取結球甘藍紋理特征參數,其中最重要的紋理特征參數有如下3個:分別是慣性矩,記作Q1,能量,記作Q2,同質性,記作Q3.公式如下:
(5)
(6)
(7)
1.2.1 模糊聚類方法
國標“NY/T1586—2008結球甘藍等級規(guī)格”中依據外觀特性,將一個批次結球甘藍分為3級,是一個聚類過程,3級之間評價指標的度量值沒有明確的界限,當聚類涉及事物之間的模糊界限時,需運用模糊聚類分析方法[25-29].
給定樣本的觀測數據矩陣
(8)
其中,X是n×p數據矩陣,代表n個樣本,每個樣本有p個變量.模糊聚類就是講n個樣品劃分為c類,記V={v1v2…vc}為c個聚類中心,其中Vi={Vi1Vi2…vip}(i=1,2,…,c),在劃分中,每個樣品不是嚴格的劃分為某一類,而是以一定的隸屬度屬于某一類.
令uik表示第k個樣品xk屬于第i類的隸屬度,這里:
定義目標函數:
(9)
其中,U=(uik)c×n為隸屬度矩陣,dik=‖xk-vi‖.模糊C均值聚類法的聚類準則是求U,V,使得J(U,V)取得最小值.計算步驟為:
第1步:確定類的個數c和冪指數(m>1),用[0,1]上的均勻分布隨機數初始化隸屬度矩陣令l=1表示第1步迭代.
第2步:通過公式10計算第l步的聚類中心V(l)
(10)
第3步:修改隸屬度矩陣U(l)計算目標函數值J(l).
(11)
(12)
第4步:通過設置隸屬度終止容限或最大迭代次數停止迭代,否則l=l+1,轉到②繼續(xù)執(zhí)行.
經過以上步驟的迭代之后,可以求得最終的隸屬度矩陣U和聚類中心V,使得目標函數J(U,V)的值達到最小,根據最終的隸屬度矩陣中U中元素的取值可以確定所有樣品的歸屬.
1.2.2 等級識別方法
1.2.1節(jié)可以獲得各個等級的聚類中心,計算待識別樣本到3個等級的聚類中心的歐氏距離,將待識別樣本判別為到聚類中心距離最小對應的類別.
圖像參數共21個,對21個參數進行相關性分析.結果見表3所示,21個參數中,圓形度和橢圓度之間最大正相關,相關系數為0.28,偏心率與同質性之間最大負相關,負相關系數為-0.27.其他參數之間的相關系數介于-0.27到0.28,參數之間弱相關,都可以作為分析變量.
表3 參數間相關系數統(tǒng)計表
模糊聚類結果,第1類有18個樣本,第2類有32個樣本,第3類有30個樣本.參數歸一化后,3類樣本的均值統(tǒng)計見表4.
表4 特征參數均值統(tǒng)計表
第1類樣本的長軸,夾角,擴展度均值最大.第2類樣本的面積,短軸,等價直徑,周長,橢圓度,體積,能量,同質性均值最大.第3類樣的圓形度,H分量均值,S分量均值,V分量均值,綠色像素比例,幫-葉比,慣性矩,斑紋比均值最大.從參數表現優(yōu)異的個數來看,第1類樣本預判為二級,第2類樣本預判為一級,第3類樣本預判為特級.
老幫、焦邊、機械損傷、病害、蟲害的評價,強調絕對數量上的差別,評價值為絕對數量的特征有:H,S,V均值,綠色像素比,幫-葉比,慣性矩,能量,同質性,斑紋比.3類樣本以上評價值平均值的大小關系比較復雜,如圖3所示,做雷達圖分析如下:類別3除去能量指標,其它指標基本都向最外層圓圈擴展延伸,在雷達圖上覆蓋面積最大,類別2在除去慣性矩,幫葉比,綠色像素比例之外,其它指標都比類別1的指標更向外擴展,雷達圖上所覆蓋面積大于類別1.
圖3 H均值等平均值雷達圖
參數歸一化后,3類樣本的標準偏差統(tǒng)計見表5.葉球大小、外觀、緊實度、修整度的評價,查看類內樣本的一致性,類內樣本的特征指標(面積,長軸長,短軸長,等價直徑,體積,周長,長軸與X軸的夾角,擴展度,偏心率,平滑度,橢圓度,圓形度)標準偏差越小越好.第1類樣本的橢圓度,圓形度,平滑度標準偏差最小,第2類樣本的長軸,等價直徑,體積,長軸與X軸的夾角標準偏差最小,第3類樣本的面積,短軸,周長,擴展度,偏心率標準偏差最小.從參數表現優(yōu)異的個數來看,第1類樣本預判為二級,第2類樣本預判為一級,第3類樣本預判為特級.
表5 特征參數標準偏差統(tǒng)計表
從以上3個角度分析,第1類結球甘藍是二級,第2類結球甘藍是一級,第3類結球甘藍是特級.
通過2.2節(jié)的模糊聚類,計算得到3個等級的聚類中心,中心向量見表6.
表6 各個等級中心向量
計算測試樣本到各個等級中心的歐氏距離,以距離最小判定測試樣本的等級歸屬.
測試結果見表7.特級樣品10個,一級樣品12個,二級樣品6個,測試集中各個等級樣品數量與聚類集中各個等級樣品數量占比基本一致.
表7 測試樣本等級識別結果
本研究根據《結球甘藍等級規(guī)格》(NY/T 1586-2008)標準中結球甘藍等級的判別依據,提出了基于機器視覺結合模糊聚類分析的等級判別方法,用于結球甘藍等級檢測,結論如下.
結球甘藍等級劃分標準中共有9個等級評價指標,本文確定了包括形狀、顏色、紋理21個圖像特征參數表示,參數間的相關系數介于-0.27~0.28,21個圖像特征參數之間弱相關,可以作為評價指標的替代表示.
等級評價指標的度量值均為定量描述,度量值界限模糊,根據聚類原則,選用模糊聚類方法進行聚類分析,將結球甘藍聚類集樣本劃分為3類.分析3類樣本圖像特征參數的均值和標準偏差,根據各個類別中圖像特征參數的均值和標準偏差表現優(yōu)異的個數,確定了3個聚類類別與3個等級的對應關系.
通過計算待測結球甘藍樣本與聚類集中各個等級中心的歐氏距離,以距離最小確定待測樣品的等級歸屬,聚類結果和測試結果與根據國標方法的分級結果一致.