張鑠,謝裕睿,董建娥
(西南林業(yè)大學大數(shù)據(jù)與智能工程學院,昆明 650224)
在實際生活中,通常植物病害初期的外觀人們無法用準確的用數(shù)值進行描述,所以分析植物病害時憑借以往經(jīng)驗和知識時常產(chǎn)生偏差。因有多種不同種類的植物病害致病病原物,所以會出現(xiàn)各不相同的病斑紋理,故根據(jù)不同病害顯示的不同紋理特征,利用計算機圖像處理和機器學習識別技術(shù)對上述特征進行識別,此類技術(shù)是對植物病害進行自動檢測和遠程診斷的重要手段[1]。
為了準確且快速地識別出植物葉片病害,同時兼顧葉片因素及不同算法的運算時間、識別準確率,本文分別在圖像的HSI和Lab顏色空間采用K-means分割算法進行切割,提取出病害圖像中共13維的紋理特征作為分類依據(jù),分類器選用SVM將所提取的圖像紋理特征數(shù)據(jù)進行識別。
為了突出病害葉片和正常葉片的對比效果,首先需增強原始圖像的對比度。按照一定要求,突出某些需要檢測的特征同時若原圖像不清晰則使圖像變清晰,令圖像質(zhì)量提升、充足信息量,改良預(yù)讀和識別的圖像效果[2]。通過增強對比度,病害區(qū)域和正常區(qū)域可以很容易被區(qū)分,對比效果如圖1所示。
圖1 增強對比度效果
圖像二值化處理的主要目的是將圖像中各點的灰度值設(shè)為0或255,即令圖像整體明顯的轉(zhuǎn)化除黑白效果。而特定物體是指全部灰度大于或等于閾值的像素,其灰度值通常被設(shè)為255,否則將這些像素點表示灰度值為0的背景或例外的物體區(qū)域,排除在物體區(qū)域之外[3]。
本文中獲得最優(yōu)閾值的方法為最大類間差分法,最大類間差分法(Otsu)也被稱為大津法,其基本概念是選取可把圖像分割成兩組的最大的某一灰度值處的類間方差,具有很強的自適應(yīng)性[4]。若將圖像的大小設(shè)為m×n,最大類間差分法具體算法如下,公式的參數(shù)意義如表1所示。
表1 最大類間差分法公式參數(shù)的含義
將式(5)代入式(6),得到等價公式:
使用遍歷的方式可得的閾值T,即為令類間方差最大的閾值,將圖像進行二值化后,病害與正常葉片的顏色不同被區(qū)分開來,結(jié)果如圖2所示。
圖2 圖像二值化效果
Lab顏色空間是CIE(國際照明委員會)制定的一種由三個通道組成的色彩模式,其中一個通道是明度(即亮度),記為L,另外兩個是色彩通道,用a和b來表示[5]。圖3展示某個植物病害葉片于Lab色彩空間中的三個通道處理結(jié)果。
圖3 植物病害葉片在Lab顏色空間中的處理結(jié)果
K-means是一種基于距離的經(jīng)典非層次聚類算法,在對誤差函數(shù)最小化的同時按照預(yù)計類數(shù)K劃分數(shù)據(jù),將間距作為對其相似性進行評價的指標,可認為對象之間間距越近,兩者之間相似度就越高。通常將特征空間劃分K個聚類的方法是K均值法,令x=(x1,x2,…,xn)為n維特征空間中一點,g(x)為x處特征值,則K-means算法的主要步驟有以下4步[6]:
(1)選取數(shù)據(jù)中K個對象作為初始聚類中心:μ1(1),μ2(1),…,μx。
(2)計算各聚類對象到聚類中心的距離,進行第i次迭代計算時,將每一個特征點歸于K類中的某一類,既:x∈Ql(i)。如果:
Ql(i)代表第i次迭代后屬于第l類的特征點集合。式(8)的意義即每個特征點均值最靠近它的類。
(3)再次計算每個聚類中心,第i次迭代以后,更新每一個類的均值μl(i+1):
式中,N l是Ql(i)中的特征點個數(shù)。
(4)計算標準測度函數(shù),如果達到迭代次數(shù)的最大值,立刻停止;否則,繼續(xù)操作,如果對所有的j=1,2,…,K,有μ1(i+1)=μ1(i),則算法結(jié)束;否則,將式(9)進行迭代。
Lab對顏色定位精確、均勻,較RGB等顏色模式更符合于人眼對自然界顏色的感知。利用K-means算法將圖像初步分割,單是依據(jù)圖像的顏色信息,將顏色相近的像素點歸為同一簇,無需對圖像進行精確地分割[7]。
圖4 Lab彩色圖分割結(jié)果
基于Lab對圖像的分割,病斑在圖像中被較好地分割出來,為之后提取病斑的特征做好了鋪墊。
本文主要提取分割出的病斑方面的13維特征:對比度、相關(guān)性、同質(zhì)性、平均值、標準差、近似熵、方差、逆差距、偏斜、峰值、平均值、平滑度、能量。
灰度共生矩陣(grey-level co-occurrence ma?trix,GLCM)以統(tǒng)計形式表現(xiàn)影像中的局部或整個區(qū)域一定間距內(nèi)兩象元或相鄰象元呈現(xiàn)某種關(guān)系的矩陣,亦可為特定間距內(nèi)兩象元灰度的關(guān)系矩陣[8]。該矩陣中的元素值代表灰度級之間聯(lián)合條件概率密度,即在給定空間距離d和方向時,把i作為灰度始點,灰度級呈現(xiàn)j的概率。
假定有一副圖像,大小為m×n,若該圖像灰度級為N,那么灰度共生矩陣應(yīng)具備如下條件:
其中S是圖像具有特定位置關(guān)系的像素對的集合,Cout表示滿足此位置條件,兩點的灰度值分別為i、j點的數(shù)量。
(1)Correlation(相關(guān)性)。
自相關(guān)反應(yīng)了圖像紋理的一致性,取值范圍應(yīng)在[-1,1]?;叶纫恢碌膱D像,相關(guān)性為NaN。
(2)Homogeneity(同質(zhì)性)。
同質(zhì)性是局部灰度均勻性的一種衡量標準,當其取值較大時,表明圖像局部的灰度均勻。
(3)Energy(能量)。
能量表示圖像灰度分布是否均勻、紋理粗還是細,取值范圍為[0,1],若圖像灰度一致,能量為1。
(4)Entropy(近似熵)。
近似熵體現(xiàn)圖像紋理的復雜度。
(5)Contrast(對比度)。
對比度反映圖像中局部灰度變化總量,值域為[0,(GLC M行數(shù)-1)2]?;叶纫恢碌膱D像,對比度為0。
(6)IDM(逆差距)。
圖像紋理同質(zhì)性由逆差矩體現(xiàn),即度量圖像紋理的局部變化量。
灰度直方圖作為圖像的重要特征之一,是一種統(tǒng)計特征,表現(xiàn)圖像關(guān)于灰度級分布的函數(shù)[9]。
(1)Mean(平均值)。
紋理的規(guī)則度用均值反映,紋理若混亂無序、不便描述,則值較小,反之值較大。
1)Standard-Deviation(標準差)
2)Variance(方差)
如樣本值與均值偏差的數(shù)值,均可用方差、標準差反映。
(1)Smoothness(平滑度)。
其中sum表示圖象矩陣的和,平滑度反應(yīng)一幅圖像灰度的均勻性,取值范圍為[0,1],代表平滑程度。
(2)RMS(均方根)。
均方根體現(xiàn)已知圖像與退化圖像二者誤差大小。
(3)Skewness(偏斜)。
偏斜反映對圖像構(gòu)成的分布的對稱性狀況。
(4)Kurtosis(峰值)。
體現(xiàn)圖像構(gòu)成的突?;蚱教狗植挤Q為峰值。
對SVM算法常見的解釋是尋找一條位于二維空間中可以分開兩類的分割線,如圖5所示,四條不同顏色的分割線都可以把一類和二類劃開,可見有許多函數(shù)可以達到分類的要求,必須使用“分類間隔”指標來量化分類效果。
圖5 SVM分類原理
由于在現(xiàn)實生活中存在的大多問題都為非線性,若存在一個向量其維數(shù)無限增加時就可以將其表示為一個實函數(shù)。假設(shè)有一樣本空間X,此時引入一非線性映射N,把X通過N映射到新的特征空間形成N(x),將可積分函數(shù)N(x)乘上一個新的二元函數(shù)K(x,y),再作積分形成一個新的函數(shù)實現(xiàn)輸出,這個變換過程中的二元函數(shù)K(x,y)被稱為積分變換的核函數(shù)[10]。K(x,y)函數(shù)是對稱連續(xù)函數(shù),根據(jù)Mercer定理,K(x,y)為Mercer核函數(shù),可將其展開成一致收斂的函數(shù)項級數(shù):
上式中λi,φi(x)分別對應(yīng)核K(x,y)的特征值和特征函數(shù),而λi,φi(x)的數(shù)量可以取有限多個或是無限多個。對特征空間做非線性升維映射構(gòu)造,最終可得到一個關(guān)于最優(yōu)超平面決策函數(shù):
上式中a*i和b*作為兩個因子來決定最優(yōu)劃分超平面,所謂支持向量即為最優(yōu)劃分超平面的樣本點。從上述式中不難發(fā)現(xiàn)當支持向量X i;與其支持的強度a*i和閾值b*全部被確定時,使用核函數(shù)進行運算,便能獲得原樣本空間關(guān)于非線性劃分的輸出,由此可見,在實際計算中使用此種方式時顯式表達式并不需完全求出,從而避免了因升維而導致的復雜計算[11]。
本文對灰疽病、褐斑病、細菌性疫病及鏈格孢鏈菌四種植物病害進行識別,采用共437幅健康或病害圖片的13維特征作為精確性數(shù)據(jù),將提取得到的13維特征作為測試集,放入SVM分類器中開始分類,分類的結(jié)果以標簽形式顯示,再根據(jù)標簽顯示不同疾病,完成對植物葉片病害的識別,平均識別率可達90.67%,測試效果如表2。
表2 植物病害識別測試結(jié)果統(tǒng)計
有別于傳統(tǒng)的病害分析和診斷方法,本文采用圖像處理方式和機器學習方法改進對植物病害加以鑒別,實驗表明本文方法能夠有效判斷灰疽病、褐斑病、細菌性疫病及鏈格孢鏈菌四種病害,識別結(jié)果可為大眾提供判斷病害的參考。下一步工作是增加可識別病害種類,提高分割與識別的準確度,達到實用需求。