武小紅,潘明輝,武 斌,嵇 港,孫 俊
1. 江蘇大學電氣信息工程學院, 江蘇 鎮(zhèn)江 212013 2. 江蘇大學機械工業(yè)設(shè)施農(nóng)業(yè)測控技術(shù)與裝備重點實驗室, 江蘇 鎮(zhèn)江 212013 3. 江蘇大學京江學院, 江蘇 鎮(zhèn)江 212013 4. 滁州職業(yè)技術(shù)學院信息工程系,安徽 滁州 239000
廣義模糊K調(diào)和均值聚類的近紅外光譜生菜儲藏時間鑒別
武小紅1,2,潘明輝3,武 斌4,嵇 港1,孫 俊1,2
1. 江蘇大學電氣信息工程學院, 江蘇 鎮(zhèn)江 212013 2. 江蘇大學機械工業(yè)設(shè)施農(nóng)業(yè)測控技術(shù)與裝備重點實驗室, 江蘇 鎮(zhèn)江 212013 3. 江蘇大學京江學院, 江蘇 鎮(zhèn)江 212013 4. 滁州職業(yè)技術(shù)學院信息工程系,安徽 滁州 239000
生菜的儲藏時間是影響生菜新鮮程度的重要因素。為了快速、無損和有效地鑒別生菜的儲藏時間,以歐式距離的p次方代替模糊K調(diào)和均值聚類(FKHM)中歐式距離的平方提出了一種廣義模糊K調(diào)和均值聚類(GFKHM)算法并將該算法應用于鑒別生菜的儲藏時間。以60個新鮮生菜樣本為研究對象,采用Antaris Ⅱ近紅外光譜分析儀每隔12 h檢測生菜的近紅外漫反射光譜,共檢測三次,光譜掃描的波數(shù)范圍為10 000~4 000 cm-1。首先用主成分分析(PCA)對1 557維的生菜近紅外光譜進行降維處理以減少冗余信息,取前20個主成分,經(jīng)過PCA處理后得到20維的數(shù)據(jù)。然后用線性判別分析(LDA)提取光譜數(shù)據(jù)的鑒別信息以提高聚類的準確率,取鑒別向量數(shù)為2,則LDA將20維的數(shù)據(jù)轉(zhuǎn)換為2維數(shù)據(jù)。最后以模糊C-均值聚類(FCM)的類中心作為FKHM和GFKHM的初始聚類中心,分別運行FKHM和GFKHM計算模糊隸屬度以實現(xiàn)生菜儲藏時間的鑒別。結(jié)果表明,GFKHM的鑒別準確率能達到92.5%,F(xiàn)KHM的鑒別準確率為90.0%,GFKHM具有比FKHM更高的鑒別準確率。GFKHM的聚類中心比FKHM更逼近真實類中心。GFKHM的收斂速度明顯快于FKHM。采用近紅外光譜技術(shù)同時結(jié)合GFKHM,PCA和LDA為快速和無損地鑒別生菜儲藏時間提供了一種新的方法。
近紅外光譜; 生菜; 儲藏時間; 線性判別分析; 模糊K調(diào)和均值聚類
生菜中含有豐富的營養(yǎng)物質(zhì)[1],它是人們經(jīng)常食用的蔬菜之一。隨著人們生活水平的不斷提高,對生菜的品質(zhì)要求越來越高。另一方面,隨著社會的進步,工作繁忙的人們將生菜儲藏在冰箱里留待日后食用,但是隨著儲藏時間的增加,生菜中的亞硝酸鹽和微生物會遞增破壞了生菜品質(zhì)而導致不能食用[2]。所以儲藏時間是影響生菜品質(zhì)的重要因素,研究一種簡單、快速、非破壞性的生菜貯藏時間的判定方法是非常必要的。
近紅外光譜技術(shù)是根據(jù)樣品內(nèi)部的有機官能團(O—H,C—H,N—H,S—H)的自身振動吸收近紅外光譜區(qū)相應波長的能量,從而在光譜中產(chǎn)生能量躍遷的表現(xiàn),是一種高效、快速的現(xiàn)代分析技術(shù)。其廣泛應用于多個領(lǐng)域,特別是在農(nóng)產(chǎn)品和食品的無損檢測領(lǐng)域[3]。目前國內(nèi)外學者常用近紅外光譜技術(shù)建立農(nóng)產(chǎn)品和食品的定性和定量分析模型。定量分析是對樣品的組成成分及含量進行檢測,而樣品的品種鑒別[4],果實成熟鑒別[5],產(chǎn)地溯源[6], 儲藏時間鑒別[7]等均屬于定性分析。
模糊K調(diào)和均值聚類[8]是將模糊的概念應用到K調(diào)和均值聚類[9-10],保留了K調(diào)和均值聚類對初始值不敏感的優(yōu)點,提高了聚類準確度。模糊K調(diào)和均值聚類采用歐式距離作為度量方式,歐式距離適合簇形狀是超橢球[11]。在生菜檢測時獲取的近紅外光譜一般為高維數(shù)據(jù),經(jīng)過維數(shù)壓縮和特征提取后數(shù)據(jù)的簇拓撲結(jié)構(gòu)類似橢球形狀。以歐式距離的p次方代替模糊K調(diào)和均值聚類中歐式距離的平方,提出一種廣義模糊K調(diào)和均值聚類(GFKHM)算法以提高聚類的準確率。
用近紅外光譜分析儀采集生菜不同儲藏時間的近紅外漫反射光譜,用主成分分析進行生菜近紅外光譜的壓縮,應用線性判別分析提取的鑒別信息,并用廣義模糊K調(diào)和均值聚類(GFKHM)算法進行分類,同時與模糊K調(diào)和均值聚類(FKHM)算法進行對比,以便建立更準確的生菜儲藏時間鑒別模型。
采集新鮮生菜樣本60個,將生菜清理干凈后放入貼有標簽的保鮮袋中,再放入4 ℃冰箱里儲藏備用。每隔12 h取出生菜進行近紅外光譜檢測,共檢測三次,得到60×3=180個近紅外光譜數(shù)據(jù)。采集光譜時實驗室溫度保持在(15±2)℃,相對濕度在70%左右,Antaris Ⅱ近紅外光譜分析儀開機預熱1 h。采用反射積分球模式采集生菜近紅外光譜,近紅外光譜分析儀掃描每個樣品32次以獲取樣品的漫反射光譜均值。光譜掃描的波數(shù)范圍為10 000~4 000 cm-1,掃描間隔為3.856 cm-1,采集到每個樣品的近紅外光譜是1 557維的數(shù)據(jù)。為減少誤差,每個樣本采樣3次,取其平均值作為最終的實驗數(shù)據(jù)。生菜樣本的漫反射近紅外光譜圖如圖1所示。
圖1 生菜樣本近紅外光譜
給定一個無標記的含有n個樣本的數(shù)據(jù)集X={x1,x2, …,xn}?Rq,將數(shù)據(jù)集X劃分為k(2≤k (1) 式(1)中n為樣本數(shù),k為樣本類別數(shù),dij=‖xi-cj‖為xi-cj的歐式距離,xi為第i個樣本,cj為第j類的類中心,m為權(quán)重指數(shù)。uji為第i(i=1,2,…,n)個樣本隸屬于第j(j=1,2,…,k)類的隸屬度值,uji的模糊隸屬度矩陣U=[uji]k×n,U?Mfk,Mfk是數(shù)據(jù)集X的模糊k劃分空間 求解式(1)的優(yōu)化問題可得到如下方程 (2) (3) 則廣義模糊K調(diào)和均值聚類可通過以下迭代運算實現(xiàn): (1)初始化 固定生菜近紅外光譜樣本數(shù)n(+∞>n>1),樣本類別數(shù)k(n>k>1),權(quán)重指數(shù)m(+∞>m>1)和p(+∞≥p≥2),最大迭代數(shù)rmax,誤差上限值ε,初始化類中心cj,0; (2) 計算第r(r=1,2,…,rmax)次迭代時的隸屬度值uji,r 隸屬度值uji,r表示第r次迭代計算時第i(i=1,2,…,n)個樣本隸屬于第j(j=1,2,…,k)類的隸屬度值,dij,r=‖xi-cj,r-1‖,‖xi-cj,r-1‖為xi-cj,r-1的歐式距離,xi為第個樣本,cj,r-1為第r-1次迭代時第j類的類中心,dil,r=‖xi-cl,r-1‖,cl,r-1為第r-1次迭代時第l類的類中心; (3) 計算第r次迭代時的類中心cj,r(j=1,2,…,k) 其中cj,r為第r次迭代時第j類的類中心; 當maxj‖cj,r-cj,r-1‖<ε或者r=rmax時,迭代結(jié)束; 否則,r=r+1,返回步驟(2)繼續(xù)迭代計算。 3.1 生菜近紅外光譜的壓縮和鑒別信息提取 60個生菜樣本分為三個儲藏時間: “儲藏時間1”,“儲藏時間2”和“儲藏時間3”。 “儲藏時間1”表示第1次采集生菜近紅外光譜; “儲藏時間2”表示第1次采集后經(jīng)過12h第2次采集生菜近紅外光譜; “儲藏時間3” 表示第2次采集后經(jīng)過12h第3次采集生菜近紅外光譜。每個儲藏時間看作一類,則三個儲藏時間為三類,共有180個近紅外光譜樣本數(shù)據(jù)。由于這些數(shù)據(jù)的維數(shù)是1 557維,這給計算和分析帶來困難。另外,這些近紅外光譜數(shù)據(jù)含有一些無關(guān)的冗余信息。為解決這些問題,本文采用主成分分析將1 557維的生菜近紅外光譜樣本數(shù)據(jù)壓縮為20維數(shù)據(jù)以保留大部分的有用光譜信息和減少無用的冗余信息。為了提高分類的準確率,采用線性判別分析(LDA)提取數(shù)據(jù)的鑒別信息。取訓練集樣本數(shù)為60個(即每類20個),測試集樣本數(shù)120(即每類40個),鑒別向量數(shù)為2,LDA將20維的測試集樣本數(shù)據(jù)投影到其鑒別向量(由訓練樣本計算得到)上可得到LDA的得分圖(二維數(shù)據(jù))如圖2所示。由圖2可看出,“儲藏時間1”和“儲藏時間2”的數(shù)據(jù)存在重疊部分,而“儲藏時間3”與“儲藏時間1”和“儲藏時間2”的數(shù)據(jù)幾乎沒有重疊。重疊部分往往會導致誤分類,給分類器的設(shè)計帶來一定難度。 圖2 LDA得分圖 3.2 計算初始聚類中心 設(shè)置模糊C均值聚類(FCM)[12]的初始參數(shù)值: 測試集樣本數(shù)n=120,樣本類別數(shù)k=3,權(quán)重指數(shù)m=2.0,最大迭代數(shù)rmax=100,誤差上限值ε=0.000 01。然后對圖2的測試數(shù)據(jù)運行模糊C-均值聚類直到迭代終止以得到三個類別的聚類中心 c1,0=[0.014 5 0.005 8] c2,0=[-0.004 4 0.005 9] 將上述聚類中心作為FKHM和GFKHM的初始聚類中心。 3.3 FKHM和GFKHM的模糊聚類分析 設(shè)置FKHM和GFKHM的初始參數(shù)值: 生菜近紅外光譜測試集樣本數(shù)n=120,樣本類別數(shù)k=3,權(quán)重指數(shù)m=2.0和p≥2,最大迭代數(shù)rmax=100,誤差上限值ε=0.000 01,確定初始聚類中心(3.2節(jié)得到的類中心)。 3.3.1 聚類準確率 分別對測試集樣本數(shù)據(jù)運行FKHM和GFKHM,GFKHM的權(quán)重指數(shù)p=10時運行到迭代計算終止時得到的隸屬度值,再根據(jù)GFKHM的隸屬度值得到的聚類準確率為92.5%,而FKHM迭代計算終止時得到的隸屬度值并依據(jù)該隸屬度值得到聚類準確率為90.0%。當GFKHM的權(quán)重指數(shù)p取值不同時其準確率如表1所示,當GFKHM的權(quán)重指數(shù)p=2時,GFKHM算法就是FKHM算法,此時兩者聚類準確率相同; 當GFKHM的權(quán)重指數(shù)p=4時,GFKHM的聚類準確率低于FKHM的聚類準確率; 當GFKHM的權(quán)重指數(shù)p=8,10,12,…,24時,GFKHM的聚類準確率高于FKHM的聚類準確率。 表1 GFKHM的聚類準確率 3.3.2 聚類中心分析 對測試樣本集運行GFKHM和FKHM,可得到GFKHM的聚類中心矩陣CGFKHM為 FKHM的聚類中心矩陣CFKHM為 取測試樣本的每類均值作為真實的類中心矩陣CTrue[13] 用矩陣的Frobenius范數(shù)[14]衡量聚類中心矩陣C*(*表示GFKHM/FKHM)逼近真實類中心矩陣CTure的程度[15] E*=‖C*-CTrue‖F(xiàn) E*越小則表示C*越逼近真實類中心。計算結(jié)果:EGFKHM=0.002 4,EFKHM=0.003 9。EGFKHM 3.3.3 聚類收斂分析 GFKHM和FKHM進行迭代計算時,第r次的聚類迭代時的收斂狀況用參數(shù)δr=maxj‖cj,r-cj,r-1‖來計算,當δr<ε=0.000 01或者迭代次數(shù)r=rmax=100時,GFKHM和FKHM終止迭碟計算。GFKHM和FKHM的收斂狀況如圖3所示。由圖3可知,經(jīng)過有限次的迭代計算,GFKHM 圖3 GFKHM和FKHM的收斂狀況 和FKHM都能在最后實現(xiàn)算法收斂,但是,GFKHM經(jīng)過4次迭代實現(xiàn)了收斂而FKHM要經(jīng)過35次迭代才能最后收斂。可見,GFKHM的收斂速度明顯快于FKHM。 為了進一步擴展模糊K調(diào)和均值聚類(FKHM)的應用范圍,以歐式距離的p次方代替模糊K調(diào)和均值聚類(FKHM)中歐式距離的平方,提出了廣義模糊K調(diào)和均值聚類(GFKHM),并結(jié)合近紅外光譜技術(shù)建立生菜儲藏時間鑒別模型。與FKHM相比較,GFKHM建立的模型具有聚類準確率高,聚類中心更接近真實類中心,收斂速度快的優(yōu)點。實驗結(jié)果表明: GFKHM結(jié)合近紅外光譜技術(shù),主成分分析和線性判別分析能快速,無損和高效地實現(xiàn)生菜儲藏時間鑒別,為實現(xiàn)生菜近紅外光譜的聚類分析提供了一種新方法。 [1] SUN Jun, JIN Xia-ming, MAO Han-ping, et al(孫 俊,金夏明,毛罕平,等). Chinese Journal of Analytical Chemistry(化學分析), 2014, 42(5): 672. [2] Peng X, Yang J, Cui P, et al. LWT-Food Science and Technology, 2015, 60(1): 300. [3] Simon A H, Stewart F G, Emmanuelle C, et al. Food Chemistry, 2013, 136(3-4): 1557. [4] Warawut S, Guangli N, Liu R, et al. Computers and Electronics in Agriculture, 2013, 91: 87. [5] Panmanas S, Munehiro T, Takayuki K, et al. Journal of Food Engineering, 2012, 112(3): 218. [6] He W, Zhou J, Cheng H, et al. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2012, 86: 399. [7] Sun J, Jin X M, Mao H P, et al. Journal of Pure and Applied Microbiology, 2013, 7: 747. [8] ZHAO Heng, YANG Wan-hai, ZHANG Gao-yu(趙 恒,楊萬海,張高煜). Journal of Xidian University(西安電子科技大學學報), 2005, 32(4): 603. [9] Abdeyazdan M. The Journal of Supercomputing, 2014, 68(2): 574. [10] Hung C H, Chiou H M, Yang W N. Applied Mathematical Modelling, 2013, 37(24): 10123. [11] Bobrowski L, Bezedek J C. IEEE Transaction on SMC, 1991, 21(3): 545. [12] Gou J, Hou F, Chen W, et al. Neurocomputing, 2015, 151(3): 1293. [13] Pal N R, Pal K, Bezdek J C. IEEE Trans. Fuzzy Systems, 2005, 13(4): 517. [14] D?sc?lescu S, Iovanov M C, PreduS. Linear Algebra and Its Applications, 2013, 439(10): 3166. [15] WU Xiao-hong, ZHOU Jian-jiang(武小紅,周建江). Acta Electronica Sinica(電子學報), 2008, 36(10): 1996. (Received Jan. 28, 2015; accepted Apr. 22, 2015) Discrimination of Lettuce Storage Time Using Near Infrared Spectroscopy Based on Generalized Fuzzy K-Harmonic Means Clustering WU Xiao-hong1, 2, PAN Ming-hui3, WU Bin4, JI Gang1, SUN Jun1, 2 1. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China 2. Key Laboratory of Facility Agriculture Measurement and Control Technology and Equipment of Machinery Industry, Jiangsu University, Zhenjiang 212013, China 3. Jingjiang College, Jiangsu University, Zhenjiang 212013, China 4. Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China Lettuce storage time is an important factor affecting the lettuce freshness. To realize the non-destructive, rapid and effective discrimination of lettuce storage time, generalized fuzzy K-harmonic means (GFKHM) clustering was proposed by introducing the pth power of Euclidean distance into fuzzy K-harmonic means (FKHM) clustering to replace the square of Euclidean distance in FKHM, and furthermore GFKHM was applied in the discrimination of lettuce storage time. Sixty fresh lettuce samples were prepared as the research object, and the near infrared reflectance (NIR) spectra of lettuces were collected by Antaris Ⅱ near infrared spectrometer with a spectral range of 10 000~4 000 cm-1for three 12-hour detections. Firstly, the 1 557-dimensional NIR spectra were reduced by principal component analysis (PCA) to decrease redundant information. After the first 20 principal components were selected, PCA translated the 1 557-dimensional NIR spectra into the 20-dimensional data. Secondly, linear discriminant analysis (LDA) was used to extract the discriminant information from the 20-dimensional data to improve the clustering accuracy. With the first two discriminant vectors, LDA translated the 20-dimensional data into the two-dimensional data. Finally, the cluster centers from fuzzy C-means clustering (FCM) were set as the initial cluster centers for FKHM and GFKHM and fuzzy membership values of FKHM and GFKHM were calculated to identify lettuce storage time. The experimental results showed that the discrimination accuracy of GFKHM has achieved 92.5% which was higher than that of FKHM. The cluster centers of GFKHM were much closer to the true cluster centers in comparison with FKHM. Furthermore, the convergence of the GFKHM was significantly faster than FKHM. Near infrared spectroscopy coupled with GFKHM, PCA and LDA could cluster NIR spectra of lettuce quickly and correctly, and this provided a fast and nondestructive method for identifying lettuce storage time. Near infrared spectroscopy; Lettuce; Storage time; Linear discriminant analysis; Fuzzy K-harmonic means clustering 2015-01-28, 2015-04-22 國家自然科學基金項目(31101082),江蘇高校優(yōu)勢學科建設(shè)工程項目PAPD資助 武小紅,1971年生,江蘇大學電氣信息工程學院副教授 e-mail: wxh_www@163.com O657.3 A 10.3964/j.issn.1000-0593(2016)06-1721-053 結(jié)果與討論
4 結(jié) 論