楊志曉 范艷峰 楊 柳
(河南牧業(yè)經(jīng)濟(jì)學(xué)院能源與智能工程學(xué)院1, 鄭州 450011)(糧食信息處理與控制教育部重點(diǎn)實(shí)驗(yàn)室;河南工業(yè)大學(xué)2, 鄭州 450001)
儲(chǔ)糧品質(zhì)隨儲(chǔ)藏時(shí)間和環(huán)境的改變會(huì)發(fā)生變化。近年來,采用計(jì)算機(jī)視覺、模式識(shí)別、機(jī)器學(xué)習(xí)等技術(shù),從顏色、幾何、紋理等特征進(jìn)行自動(dòng)品質(zhì)檢測(cè),已成為非常有前景的糧食品質(zhì)檢測(cè)手段[1-3]。研究?jī)?chǔ)糧外觀特征變化規(guī)律,有助于實(shí)現(xiàn)儲(chǔ)糧品質(zhì)的快速檢測(cè)。
糧食品質(zhì)檢測(cè)的研究主要聚焦于圖像分割、特征提取、分類方法等方面。圖像分割的目的是把糧粒圖像從背景中提取出來,如對(duì)水稻品種采用閾值法邊緣檢測(cè)[4]和?;撝捣诸惙椒╗5],綜合分水嶺算法、形態(tài)測(cè)地活動(dòng)輪廓和無邊緣形態(tài)活躍輪廓的分割算法[6],綜合使用HSI(色調(diào)、飽和度和強(qiáng)度)背景顏色模型和形態(tài)學(xué)算子、分水嶺變換以及基于投影面積和圓度的組件標(biāo)記方法[7],綜合均值漂移濾波器、顏色梯度、標(biāo)記分水嶺變換的分割方法[8],基于數(shù)學(xué)形態(tài)學(xué)和相關(guān)性粒度測(cè)量方法[9]等。
提取的糧粒特征包括圖像區(qū)域、長(zhǎng)軸長(zhǎng)度、短軸長(zhǎng)度、長(zhǎng)寬比、周長(zhǎng)、偏心率、色調(diào)、飽和度、強(qiáng)度、破損、裂紋、霉變、蟲害等[5-10]。
采用的分類方法有AdaBoost,支持向量機(jī)[10],主成分分析結(jié)合BP神經(jīng)網(wǎng)絡(luò)[11],綜合圖像小波矩特征、最小歐式距離判別器和隨機(jī)森林的方法[12],主成分分析和層次聚類方法[13],傅里葉變換與偏最小二乘回歸法[14],基于組合特征的稀疏表示和字典學(xué)習(xí)技術(shù)[15],深度信念網(wǎng)絡(luò)[16]等。
糧食是典型的散粒體,糧食品質(zhì)由大量糧粒的品質(zhì)綜合體現(xiàn)。而糧食品質(zhì)在每個(gè)糧粒的表現(xiàn)卻具有隨機(jī)不確定性。品質(zhì)間的特征值域并不存在清晰的邊界。由此帶來的問題是,雖然可以根據(jù)已知品質(zhì)糧食樣本訓(xùn)練分類器,但在使用訓(xùn)練過的分類器預(yù)測(cè)新樣本時(shí),無法斷言新樣本的類別歸屬。這是由于在特征值交疊區(qū),某一特征值的樣本可能屬于一個(gè)類別,也可能屬于其他類別。而當(dāng)前主流的機(jī)器學(xué)習(xí)方法將給定樣本唯一地歸屬于某個(gè)類別,因而不能處理糧食品質(zhì)的不確定性問題。尤其在檢測(cè)將不同品質(zhì)(如新與陳、優(yōu)與劣、貴與賤、不同品種)混合的奇異糧食樣本時(shí),現(xiàn)有分類方法無法準(zhǔn)確判斷被試樣本整體的品質(zhì)、奇異性及奇異時(shí)的混合比。
從特征分布的角度考察糧食等散粒體,是一種較為有效的解決方法。特征分布反映大量糧粒樣本品質(zhì)的整體特性,具有可靠、穩(wěn)定的優(yōu)點(diǎn)。將不同品質(zhì)糧食混合的奇異樣本,其特征分布將發(fā)生改變。根據(jù)特征分布的變化情況,可推斷出被試的品質(zhì)、奇異性、混合比。以大米的顏色特征為例,研究大米顏色的分布隨儲(chǔ)藏時(shí)間的變化規(guī)律,提出一種基于特征分布的儲(chǔ)糧品質(zhì)檢測(cè)及奇異性判斷方法。
大米,常溫露天儲(chǔ)藏。以7周為時(shí)間周期,獲得相對(duì)儲(chǔ)藏期分別為0、7、14周的大米樣本,作為3個(gè)不同的大米品質(zhì)類別。
對(duì)每個(gè)品質(zhì)大米樣本,隨機(jī)選擇195粒大米,分散放置于黑色背景平面上,拍攝圖像。為便于觀察,截取部分圖像如圖1a所示。
使用Python編程語言和scikit image圖像處理庫,將大米的原始圖像變換為灰度圖像,將灰度圖像二值化。對(duì)二值化圖像進(jìn)行膨脹、腐蝕、閉合運(yùn)算,將米粒圖像與背景分割,獲得米粒圖像區(qū)域像素位置索引、質(zhì)心、長(zhǎng)短軸方位及它們的長(zhǎng)度。
根據(jù)獲得的上述信息,在原始圖像上對(duì)米粒圖像用矩形框?qū)⑵錁?biāo)記,以便于觀察是否有遺漏米?;驑?biāo)記錯(cuò)誤的區(qū)域。并繪制米粒圖像區(qū)域的長(zhǎng)、短軸半軸,如圖1b所示。對(duì)每個(gè)米粒圖像,選擇質(zhì)心、長(zhǎng)短軸上共21個(gè)點(diǎn),提取其RGB顏色和灰度特征,采樣點(diǎn)如圖1c所示。
圖1 大米粒的原始圖像、分割標(biāo)記和顏色采樣點(diǎn)
如此對(duì)每個(gè)品質(zhì)的大米樣本,分別獲得15 795組RGB(紅、綠、藍(lán))和灰度的顏色樣本。為消除光照變化的影響,將每幅圖像的大米顏色值按照極差標(biāo)準(zhǔn)化轉(zhuǎn)換到[0,1]區(qū)間。
將建立的三個(gè)儲(chǔ)藏期的大米顏色樣本,視為3個(gè)品質(zhì)類別,分別以標(biāo)簽0, 1, 2進(jìn)行標(biāo)記。如此得到行、列形狀為(47 385, 4)的大米顏色特征值集和47 385個(gè)類標(biāo)簽的目標(biāo)集。
1.3.1 非奇異樣本的目標(biāo)概率分布估計(jì)
建立的3個(gè)大米品質(zhì)類別,每個(gè)類別的所有米粒屬于同一類別,即每個(gè)類別樣本是純的、非奇異的。對(duì)它們的大米顏色數(shù)據(jù)集,分別估計(jì)其顏色值概率分布,作為3個(gè)類別的相應(yīng)的目標(biāo)概率分布。
非奇異目標(biāo)概率分布的估計(jì)方法是,將[0,1]區(qū)間進(jìn)行N等分,分別對(duì)每個(gè)品質(zhì)的大米顏色樣本,統(tǒng)計(jì)計(jì)算各通道顏色值落在每個(gè)區(qū)間的頻率,作為該顏色值的概率密度估計(jì)。它們即是非奇異樣本的目標(biāo)概率分布。
1.3.2 奇異樣本的目標(biāo)概率分布估計(jì)
所謂奇異樣本,本文指將不同品質(zhì)大米混合在一起的混合樣本,如新與陳、優(yōu)與劣、貴與賤、不同品種大米的混合等。為簡(jiǎn)化問題,暫考慮只有二元類別混合的情況。將兩種類別的大米樣本分別按照9∶1, 7∶3, 5∶5, 3∶7, 1∶9進(jìn)行二元混合,且混合后的顏色樣本數(shù)量與純的樣本數(shù)量相同。按照同樣的方法,估計(jì)各個(gè)混合比下的樣本顏色值分布,作為相應(yīng)混合類別和混合比的目標(biāo)概率分布。
圖2展示了將[0,1]區(qū)間等分為30個(gè)區(qū)間,儲(chǔ)藏期分別為0、7、14周的R, G, B,灰度的概率估計(jì)的分布。
可以看出,不同儲(chǔ)藏期的大米顏色值概率分布呈現(xiàn)顯著差別,主要表現(xiàn)為峰值右移,其中紅色的峰值右移現(xiàn)象最為明顯,說明不同儲(chǔ)藏期的大米品質(zhì)存在差異。圖2即為3個(gè)純(非奇異)類別c0, c1, c2的各顏色值的目標(biāo)概率分布。
從圖2可以看出,三個(gè)品質(zhì)的大米紅色值的概率分布差別最大。選擇紅色作為主要特征。將標(biāo)準(zhǔn)化后的紅色值區(qū)間[0,1]等分為30份,統(tǒng)計(jì)各個(gè)類全部樣本落入每個(gè)區(qū)間的頻率,得到的3個(gè)類別紅色值概率估計(jì)的分布如圖3所示。它們即是3個(gè)純類別c0, c1, c2的紅色值的目標(biāo)概率分布。
圖2 不同儲(chǔ)藏期大米顏色值的分布
圖3 三個(gè)大米品質(zhì)類別的紅色值分布
圖4 類c0和c2在不同混合比的紅色值概率分布
奇異樣本即為將不同品質(zhì)大米混合在一起的樣本,暫只考慮二元混合的情況。這里選擇類0和2,分別按照9∶1, 7∶3, 5∶5, 3∶7, 1∶9進(jìn)行二元混合,每次混合保持樣本總數(shù)量為15 795,即為單個(gè)純類別的樣本數(shù)量。另外,將無混合的類0和類2分別視為它們以10∶0, 0∶10的比例混合。
對(duì)混合樣本,將標(biāo)準(zhǔn)化后的紅色值區(qū)間[0,1]等分為30份,統(tǒng)計(jì)各個(gè)混合比下樣本落入每個(gè)區(qū)間的頻率,作為樣本的概率密度估計(jì)。得到的7種混合比樣本紅色值概率分布如圖4所示。由于前10個(gè)區(qū)間的概率非常小,限于篇幅,表1給出了7種混合比樣本的紅色值在后20個(gè)區(qū)間的概率值。
將圖4中c0和c2大米紅色值不同混合比的概率分布,作為c0和c2的二元混合目標(biāo)分布。它們將作為樣本奇異性判別的參考標(biāo)準(zhǔn)。將這些概率分布作為基本分類樣本,每個(gè)概率分布對(duì)應(yīng)的樣本類別混合比作為類標(biāo)簽,建立基于特征分布的分類樣本數(shù)據(jù)集。
2.4.1 基于分布的大米品質(zhì)奇異性判別方法
要判斷被試樣本的品質(zhì)是否奇異,首先估計(jì)它的特征分布,與已建立的目標(biāo)特征分布對(duì)比,將其劃分為與目標(biāo)特征分布最接近的樣本所對(duì)應(yīng)的類別。由此判定被試樣本是否奇異(有無混合),以及奇異樣本的混合比。
表1 大米紅色值在不同混合比的目標(biāo)分布
若將特征X的值域區(qū)間等分為N份,則它在N個(gè)區(qū)間的概率分布可以表示為PX=[p1,p2,…,pN]. 記特征X的某個(gè)目標(biāo)分布為PX0=[p10,p20,…,pN0]. 被試樣本的特征X的分布為PX=[p1,p2,…,pN]. 構(gòu)造均方誤差函數(shù)如式(1)所示。
(1)
對(duì)特征X的所有目標(biāo)分布{PX0(k)|k=1,2,…,K},分別按照式(1)計(jì)算被試特征分布與它們的均方誤差,可得到一組均方誤差值{MSEX(k)|k=1,2,…,K}. 找到均方誤差的最小值,將被試劃分為取得最小均方誤差的目標(biāo)分布所對(duì)應(yīng)的樣本類別。
本文中,大米紅色的目標(biāo)特征分布有7個(gè),即c0與c2按10∶0, 9∶1, 7∶3, 5∶5, 3∶7, 1∶9, 0∶10的比例進(jìn)行混合所得到的概率分布,對(duì)應(yīng)1個(gè)純c0類別、5個(gè)奇異樣本類別和1個(gè)純c2類別。
基于特征分布的樣本奇異性判定和分類方法可以描述為:
a)輸入特征X的值域及等分區(qū)間數(shù)量N;
b)輸入特征X的所有目標(biāo)分布{PX0(k)|k=1,2,…,K};
c)估計(jì)被試樣本特征X的分布PX=[p1,p2,…,pN]。
d)按照式(1)計(jì)算PX與所有目標(biāo)分布的均方誤差{MSEX(k)|k=1,2,…,K};
e)將被試劃分為min{MSEX(k)|k=1,2,…,K}所對(duì)應(yīng)的類別。
由于特征目標(biāo)分布的類標(biāo)簽為大米品質(zhì)類別及其混合比,則根據(jù)本算法的分類結(jié)果可以知道被試是否奇異(純或混合)、奇異樣本的混合物類別和混合比。
2.4.2 算法性能分析
為驗(yàn)證基于特征分布的散粒體奇異性判定和分類方法,按給定混合比,隨機(jī)從c0和c2中選擇共10 000個(gè)紅色值,建立奇異樣本,估計(jì)它的概率分布,分別計(jì)算它與各目標(biāo)概率分布的均方誤差,將其劃分為使均方誤差取得最小值的特征目標(biāo)分布對(duì)應(yīng)的樣本類別。
重復(fù)操作1 000次,記錄每次分類結(jié)果,統(tǒng)計(jì)分類正確的次數(shù)、分類錯(cuò)誤的次數(shù)、以及錯(cuò)誤劃分到的類別及次數(shù)。
改變被試樣本的混合比,重復(fù)上述實(shí)驗(yàn)過程。
改變紅色值域等分區(qū)間數(shù)量N,重復(fù)上述實(shí)驗(yàn)過程。
實(shí)驗(yàn)結(jié)果表明,特征X的值域區(qū)間等分?jǐn)?shù)量N較小時(shí),分類結(jié)果存在誤差。當(dāng)N≥25時(shí),分類算法對(duì)被試樣本的分類準(zhǔn)確率、召回率均為100%。本文取N=30。
一個(gè)c0和c2按5∶5混合的被試樣本概率分布與所有目標(biāo)概率分布的對(duì)比如圖5所示??梢钥闯霰辉嚺c5∶5混合的目標(biāo)概率分布幾乎重合,而與其他目標(biāo)分布則存在明顯差別。
圖5 被試紅色值概率分布與目標(biāo)分布對(duì)比
圖6給出了將c0與c2分別按10∶0, 9∶1, 7∶3, 5∶5, 3∶7, 1∶9, 0∶10的比例進(jìn)行混合得到的各一個(gè)被試樣本紅色值概率分布與目標(biāo)分布的對(duì)比,可以看出每個(gè)被試樣本的紅色值概率分布幾乎與對(duì)應(yīng)的目標(biāo)分布重合。
圖6 不同混合比被試紅色值概率分布與目標(biāo)分布對(duì)比
從實(shí)驗(yàn)結(jié)果可以看出,所提出的基于特征分布的分類方法能夠很好地判斷被試樣本是否奇異,并且在認(rèn)為樣本奇異時(shí),能夠量化其混合比。
基于特征分布的分類算法的計(jì)算開銷主要在圖像處理與特征提取、樣本的概率密度估計(jì)和被試與目標(biāo)特征分布間的誤差計(jì)算,并不需要反復(fù)迭代,與常用的分類方法相比,其算力開銷幾乎可以忽略不計(jì),因此具有優(yōu)異的性能。
以大米為典型代表的散粒體特征分布由眾多個(gè)體的統(tǒng)計(jì)特征綜合體現(xiàn),具有穩(wěn)定性。少量個(gè)體的變化不影響整體特征分布。如果被試的特征分布發(fā)生了變化,則一定有相當(dāng)數(shù)量的個(gè)體特征發(fā)生了變化,由此可以判定被試奇異。
只要不同“純”類別的特征分布不同,它們二元混合后的特征分布就會(huì)發(fā)生改變,將被試的特征分布與已建立的目標(biāo)分布對(duì)比,可以判斷被試是否奇異,以及在奇異時(shí)推斷其混合比。
大米的品質(zhì)類別是可以窮舉的,因此可以建立任何品質(zhì)類別及兩兩間給定混合比下的目標(biāo)特征分布,作為檢測(cè)被試奇異性及奇異時(shí)推斷混合比的依據(jù)。
被試可能存在實(shí)際混合比與已建立的目標(biāo)分布所對(duì)應(yīng)的混合比都不一致的情況。此時(shí)算法的運(yùn)行結(jié)果將其劃分到使均方誤差取得最小值的目標(biāo)分布所代表的類別。則實(shí)際混合比與識(shí)別結(jié)果存在誤差。如果從實(shí)用的角度該誤差不能接受(例如將實(shí)際6∶4的混合比推斷為5∶5仍造成較大的經(jīng)濟(jì)損失),可以通過考察更多二元混合比(如8∶2, 6∶4, 4∶6, 2∶8)的情況,以豐富不同混合比下的目標(biāo)分布,將誤差降低到可以接受的范圍內(nèi)。
本實(shí)驗(yàn)對(duì)大米主要考察其顏色尤其是紅色特征。這主要是由于不同品質(zhì)類別間紅色特征分布差別最大。實(shí)際上,對(duì)其他顏色特征,以及紋理、幾何形狀等特征,都可以建立它們相應(yīng)的目標(biāo)特征分布,作為檢測(cè)被試奇異性的依據(jù)。
針對(duì)糧食可能存在的諸如新陳、優(yōu)劣、貴賤等不同品質(zhì)混合的奇異性問題,以大米為對(duì)象,分析了顏色分布隨儲(chǔ)藏時(shí)間的變化規(guī)律,研究了一種基于特征分布的散粒體奇異性識(shí)別方法,主要結(jié)論如下:
常溫露天儲(chǔ)藏大米在相對(duì)儲(chǔ)藏期0、7、14周的顏色分布具有顯著差異,主要表現(xiàn)為各顏色概率分布峰值右移,紅色值概率峰值右移現(xiàn)象最為明顯。
建立了3個(gè)相對(duì)儲(chǔ)藏期大米顏色的各自的目標(biāo)概率分布,建立了儲(chǔ)藏期為0周、14周兩類樣本分別按9∶1, 7∶3, 5∶5, 3∶7, 1∶9比例混合的奇異樣本紅色值目標(biāo)概率分布。
對(duì)被試樣本,估計(jì)其紅色值概率分布,將其劃分為與目標(biāo)概率分布取得最小均方誤差所對(duì)應(yīng)的類別。在顏色值域等分區(qū)間數(shù)量較小時(shí),存在分類誤差。當(dāng)顏色值域等分區(qū)間數(shù)量大于等于25時(shí),所提方法的分類準(zhǔn)確率和召回率達(dá)到100%。
進(jìn)一步的研究包括所提出的方法在更多品質(zhì)和二元混合比下的有效性,并擴(kuò)展至更多元的奇異樣本。