朱景?!±钛?/p>
摘要:為了及時(shí)、準(zhǔn)確地識(shí)別玉米病害,基于聚類識(shí)別算法,進(jìn)行了玉米葉片病斑圖像識(shí)別的對(duì)比試驗(yàn)。首先利用LLE算法對(duì)玉米圖像降維以提取特征,然后采用K-均值算法、FCM算法和GK算法進(jìn)行聚類分析,其中GK算法能夠有效識(shí)別出玉米病斑圖像,正確識(shí)別率高達(dá)95.5%??梢?,GK模糊聚類算法對(duì)玉米病斑圖像的識(shí)別效果較好。
關(guān)鍵詞:聚類算法;GK算法;玉米葉片病斑;識(shí)別
中圖分類號(hào): TP391.4文獻(xiàn)標(biāo)志碼: A文章編號(hào):1002-1302(2015)01-0405-02
收稿日期:2014-03-14
基金項(xiàng)目:黑龍江省自然科學(xué)基金面上項(xiàng)目(編號(hào):F201428);黑龍江省教育廳面上項(xiàng)目(編號(hào):12541596);黑龍江八一農(nóng)墾大學(xué)校博士啟動(dòng)金項(xiàng)目(編號(hào):XDB2009-17)。
作者簡(jiǎn)介:朱景福(1970—),男,黑龍江克山人,博士,教授,主要從事計(jì)算機(jī)應(yīng)用研究。E-mail:jingfuz@163.com。聚類是一種常見的數(shù)據(jù)分析工具,目的是把大量數(shù)據(jù)點(diǎn)的集合分成若干類,使得同一類中數(shù)據(jù)點(diǎn)之間的距離盡可能小,而不同類中數(shù)據(jù)點(diǎn)之間的距離盡可能大。聚類算法在商業(yè)、金融、圖像處理、信息檢索等領(lǐng)域得到了有效的應(yīng)用[1]。本研究選取3種聚類算法(K-均值算法、FCM算法和GK算法)用于玉米葉片病斑圖像的識(shí)別,通過對(duì)比研究最終確定將GK算法作為玉米病斑圖像的識(shí)別算法。
1聚類算法
傳統(tǒng)的聚類算法主要有K-均值算法、K-Modes算法等[2],其分類屬于硬劃分,具有明顯的類別界限。然而現(xiàn)實(shí)中存在大量屬性界限不分明的對(duì)象,模糊聚類算法為處理這些對(duì)象提供了重要的方法。模糊聚類算法主要有FCM算法、GK算法和KFCM算法等[3]。本研究主要選用聚類算法中經(jīng)典的K-均值算法、FCM算法及FCM的改進(jìn)算法(GK算法)進(jìn)行對(duì)比分析。
1.1K-均值算法
K-均值算法(別稱硬C-均值聚類算法)是聚類分析中基于劃分方法的一種經(jīng)典算法,由于其具有理論可靠、算法簡(jiǎn)單、收斂速度快等優(yōu)點(diǎn)在實(shí)踐中得到了廣泛的應(yīng)用[4]。
把n個(gè)向量xj(j=1,2,…,n)分成c個(gè)類Gi(i=1,2,…,c),并求出每個(gè)類的聚類中心,K-均值算法的處理過程為[1]:(1)隨機(jī)選取c個(gè)向量作為每個(gè)類的聚類中心。(2)初始化隸屬度矩陣U。(3)計(jì)算J=∑ci=1Ji=∑ci=1(∑k,xk∈Gi‖xk-ci‖2)的代價(jià)函數(shù)值。(4)當(dāng)代價(jià)函數(shù)值高于一個(gè)給定的最小閾值或者連續(xù)2次的值之差大于這個(gè)最小閾值時(shí),根據(jù)公式ci=1|Gi|∑k,xk∈Gixk來更新各個(gè)聚類中心,其中|Gi|=∑nj=1uij,然后直接返回步驟(2)繼續(xù)運(yùn)算;否則停止運(yùn)算。
1.2FCM模糊聚類算法
目前,F(xiàn)CM模糊聚類算法[5]是理論最完善、應(yīng)用最廣泛的模糊聚類算法之一。FCM模糊聚類算法是K-均值算法的推廣。FCM模糊聚類算法的處理過程為[6]:(1)初始化隸屬度矩陣U。(2)根據(jù)公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)計(jì)算每個(gè)類的聚類中心ci,i=1,2,…,c,其中uik是元素i相對(duì)于類k的隸屬度。(3)根據(jù)公式Jm=∑nk=1∑ck=1umik‖xk-ci‖2計(jì)算代價(jià)函數(shù)值。(4)當(dāng)代價(jià)函數(shù)值高于一個(gè)給定的最小閾值或者連續(xù)2次的值之差大于這個(gè)最小閾值時(shí),根據(jù)公式u(t+1)ik=‖xk-c(t)ii‖-2/(m-1)∑cj=1‖xk-c(t)j‖-2/(m-1) 計(jì)算新的矩陣U,然后直接返回步驟(2)繼續(xù)運(yùn)算;否則停止運(yùn)算。
1.3GK模糊聚類算法
GK模糊聚類算法[7]是FCM聚類算法的一種改進(jìn),是采用聚類協(xié)方差矩陣的自適應(yīng)距離來度量的方式進(jìn)行聚類,更能真實(shí)地反映不同樣本集合的分布情況[8]。
GK模糊聚類算法的處理過程為[9]:(1)初始化隸屬度矩陣U。(2)根據(jù)公式ci=(∑nk=1umikxk)/(∑nk=1umik)(i=1,2,…,c)計(jì)算每個(gè)類的聚類中心ci,i=1,2,…,c。(3)根據(jù)公式Fi=[∑nk=1umik(xk-ci)(xk-ci)T]/∑nk=1umik 計(jì)算協(xié)方差矩陣Fi,通過Ai=det(Fi)1nF-1i求出正定對(duì)稱矩陣Ai。(4)根據(jù)D2ik=‖xk-ci‖2Ai=(xk-cj)TAi(xk-ci)計(jì)算距離范數(shù)D2ik。(5)根據(jù)uik=1∑cj=1(Dik/Djk2/(m-1)更新矩陣U,當(dāng)連續(xù)2次的值之差小于一個(gè)給定的最小閾值時(shí)則停止,否則轉(zhuǎn)向步驟(2)。
2聚類數(shù)據(jù)的獲取
2.1樣本圖像的采集和預(yù)處理
2.1.1樣本圖像的采集在玉米病害比較嚴(yán)重的7—9月,在黑龍江八一農(nóng)墾大學(xué)試驗(yàn)田中采用SONY DSC-W350D型號(hào)相機(jī)采集玉米大斑病的病害圖像,至少采集300幅無病害圖像和300幅病害圖像(圖1)。
2.1.2樣本圖像的預(yù)處理運(yùn)用圖像分割算法把無病害圖像(圖2-a)、病害圖像(圖2-b)分別分割成只含有綠色葉片的圖像、只含有葉片背景和病斑的圖像[10],圖像大小均為131像素×86像素。分別選取100幅無病害圖像、病害圖像,為后續(xù)試驗(yàn)作準(zhǔn)備。
2.2樣本數(shù)據(jù)的降維
一幅葉片圖像的維數(shù)是非常高的,巨大的計(jì)算量使處理速度變得非常慢,因此需要對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行降維。局部線性嵌入(LLE)算法被稱為非線性降維算法的里程碑,因此選用LLE算法對(duì)預(yù)處理后的200幅圖像進(jìn)行降維以提取特征,分別降到2、3、4、5、10、20、30、50維并保存,其中降至2、3維后的效果如圖3所示。
3聚類識(shí)別對(duì)比試驗(yàn)
為了探究哪種聚類算法更適合玉米病斑圖像的識(shí)別,采用K-均值算法、FCM算法和GK算法對(duì)降維后的數(shù)據(jù)進(jìn)行聚類(聚成2類)分析,得到的正識(shí)率(試驗(yàn)證明:誤識(shí)率=1-正識(shí)率,漏識(shí)率=0)如表1所示。從表1可知,GK算法的正識(shí)率雖然在30維時(shí)稍低于K-均值算法和FCM算法,但整體上GK算法的聚類正識(shí)率遠(yuǎn)遠(yuǎn)高于K-均值算法和FCM算法。endprint
玉米病害圖像本身具有模糊性,在病斑邊界上的像素中常常包含病斑和葉片背景2種像素,病斑和背景的分界線不是很清晰。因此,基于模糊集合理論的模糊聚類算法對(duì)病斑圖像的正確識(shí)別率高于傳統(tǒng)的聚類算法。由表1可見,GK算法的聚類正識(shí)率明顯高于FCM算法,證明GK算法是對(duì)FCM算法的改進(jìn)。
表13種算法的正識(shí)率
算法不同維數(shù)下的正識(shí)率(%)2維3維4維5維10維20維30維50維K-均值76.576.576.576.576.576.576.576.5FCM76.576.576.576.576.577.077.577.5GK79.588.589.095.595.595.074.585.5
4總結(jié)
本研究均采用Matlab 7.1編程語言,針對(duì)玉米病斑圖像模糊和不確定的特點(diǎn),選用模糊聚類算法中的GK模糊聚類算法,成功地識(shí)別出玉米的病斑圖像。在對(duì)200幅圖像進(jìn)行識(shí)別的試驗(yàn)中,GK算法的正識(shí)率達(dá)到95.5%,遠(yuǎn)遠(yuǎn)高于K-均值算法和FCM算法。因此,最終選取GK模糊聚類算法作為玉米病斑圖像的識(shí)別方法。
參考文獻(xiàn):
[1]王慧. C-均值聚類算法的改進(jìn)研究[D]. 開封:河南大學(xué),2011:1-27.
[2]梁吉業(yè),白亮,曹付元. 基于新的距離度量的K-Modes聚類算法[J]. 計(jì)算機(jī)研究與發(fā)展,2010,47(10):1749-1755.
[3]蔡威. 模糊聚類算法在數(shù)據(jù)挖掘中的應(yīng)用研究[D]. 蘭州:蘭州交通大學(xué),2012:13-29.
[4]賁志偉,趙勛杰. 基于改進(jìn)的K均值聚類算法提取彩色圖像有意義區(qū)域[J]. 計(jì)算機(jī)應(yīng)用與軟件,2010,27(9):11-13.
[5]Kannan S R,Devi R,Ramathilagam S,et al. Effective FCM noise clustering algorithms in medical images[J]. Computers in Biology and Medicine,2013,43(2):73-83.
[6]張鴻彥,許奇功. 模糊聚類算法的優(yōu)化設(shè)計(jì)[J]. 河南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,43(4):451-454.
[7]Dagher I. Complex fuzzy c-means algorithm[J]. Artificial Intelligence Review,2012,38(1):25-39.
[8]張妨妨,錢雪忠. 改進(jìn)的GK聚類算法[J]. 計(jì)算機(jī)應(yīng)用,2012,32(9):2476-2479.
[9]王書濤,李亮,張淑清,等. 基于EEMD樣本熵和GK模糊聚類的機(jī)械故障識(shí)別[J]. 中國機(jī)械工程,2013,24(22):3036-3040,3044.
[10]張飛云. 基于提升小波和學(xué)習(xí)向量量化神經(jīng)網(wǎng)絡(luò)的小麥病害圖像識(shí)別[J]. 江蘇農(nóng)業(yè)科學(xué),2013,41(5):103-106.楊靖華,陳龍正,徐海,等. 蘇中地區(qū)早春連棟大棚不同覆蓋層次間的氣溫變化[J]. 江蘇農(nóng)業(yè)科學(xué),2015,43(1):407-408.endprint