李新會(huì), 羅紅元, 徐曉琴, 申 琦, 林偉琦
(1.鄭州大學(xué) 化學(xué)與分子工程學(xué)院 河南 鄭州450001; 2.廈門醫(yī)學(xué)高等??茖W(xué)校中心實(shí)驗(yàn)室 福建 廈門361008; 3.廈門市產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)院 福建 廈門361004)
基于主成分分析和高斯混合模型的茶葉分類研究
李新會(huì)1, 羅紅元2, 徐曉琴3, 申 琦1, 林偉琦3
(1.鄭州大學(xué) 化學(xué)與分子工程學(xué)院 河南 鄭州450001; 2.廈門醫(yī)學(xué)高等??茖W(xué)校中心實(shí)驗(yàn)室 福建 廈門361008; 3.廈門市產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)院 福建 廈門361004)
采用氣相色譜-質(zhì)譜(GC-MS)和液相色譜(LC)方法,結(jié)合主成分分析(PCA)、高斯混合模型(GMM)對(duì)49個(gè)茶葉樣本進(jìn)行分類判別研究.通過(guò)PCA對(duì)茶葉的GC-MS信號(hào)進(jìn)行特征提取,結(jié)合LC測(cè)得的茶多酚等10個(gè)變量,運(yùn)用GMM對(duì)茶葉樣本進(jìn)行分類,訓(xùn)練集正確率為99.44%,預(yù)測(cè)集正確率為90.47%,結(jié)果表明該方法適用于茶葉的分類及品質(zhì)評(píng)價(jià).
主成分分析; 高斯混合模型; 茶葉; 分類
茶是目前最受歡迎的保健飲品之一.茶葉中存在多酚類化合物、氨基酸、維生素、糖類、咖啡因和嘌呤生物堿等多種成分,具有很大的潛在健康益處[1-2].由于其形態(tài)、化學(xué)成分以及制作工藝等的多樣性[3],茶葉可以分為不同的類別[4-7],如綠茶、紅茶、烏龍茶等.由于茶葉的品質(zhì)以及等級(jí)不同,在茶葉市場(chǎng)中會(huì)出現(xiàn)假冒和以次充好的現(xiàn)象,這不僅損害了廣大消費(fèi)者的利益,同時(shí)嚴(yán)重阻礙了茶葉市場(chǎng)的發(fā)展,也降低了我國(guó)茶葉的國(guó)際市場(chǎng)競(jìng)爭(zhēng)力.
目前對(duì)茶葉的鑒別主要采用理化分析和感官評(píng)審相結(jié)合的方法,這種方法很容易受外界因素的干擾,且受人的主觀影響較大,可操作性差.因此,開(kāi)發(fā)快速、準(zhǔn)確的茶葉分類鑒別方法具有較大的現(xiàn)實(shí)意義.文獻(xiàn)[8]采用電子鼻以及氣質(zhì)聯(lián)用技術(shù)結(jié)合偏最小二乘回歸對(duì)不同品質(zhì)的綠茶和紅茶進(jìn)行分析檢測(cè).文獻(xiàn)[9]結(jié)合紫外可見(jiàn)光譜法和模式識(shí)別技術(shù)——多層感知器神經(jīng)網(wǎng)絡(luò)來(lái)解決茶葉的分類問(wèn)題.文獻(xiàn)[10]采用液相色譜法和熒光法檢測(cè)茶葉中游離氨基酸的含量,然后結(jié)合主成分分析、k-最近鄰法、線性判別分析、BP人工神經(jīng)網(wǎng)絡(luò)對(duì)多種茶葉進(jìn)行分類研究.文獻(xiàn)[11]將循環(huán)伏安法結(jié)合支持向量機(jī)模式識(shí)別方法成功地應(yīng)用于綠茶和紅茶的分類.文獻(xiàn)[12]采用比色人工舌頭和鼻子來(lái)區(qū)分不同地理來(lái)源和等級(jí)的中國(guó)綠茶.作者采用主成分分析(PCA)對(duì)氣相色譜-質(zhì)譜(GC-MS)聯(lián)用信號(hào)進(jìn)行特征提取,探討基于GC-MS信號(hào)和液相色譜(LC)信號(hào)的高斯混合模型(GMM)對(duì)茶葉分類的可行性.
1.1 儀器與試劑
Agilent 6890N氣相色譜-5975i質(zhì)譜聯(lián)用儀(美國(guó)Agilent公司);手動(dòng)SPME進(jìn)樣手柄,15 mL頂端帶有孔蓋和聚四氟乙烯隔墊的樣品瓶(美國(guó)Supelco公司);電磁攪拌/加熱操作臺(tái)(美國(guó)Corning公司);Mille-Q超純水機(jī).
綠茶類包括來(lái)自6個(gè)產(chǎn)地的綠茶、龍井、碧螺春等12個(gè)樣本;紅茶類包括來(lái)自7個(gè)產(chǎn)地的11個(gè)樣本;烏龍茶類包括來(lái)自4個(gè)產(chǎn)地的水仙、肉桂、觀音、巖茶等26個(gè)樣本.本實(shí)驗(yàn)所用茶葉樣本均購(gòu)自當(dāng)?shù)夭枞~市場(chǎng).
100 μm聚二甲基硅氧烷(PDMS),30 μm PDMS,65 μm PDMS/二乙烯苯,85 μm聚丙烯酸酯,標(biāo)準(zhǔn)品咖啡因(國(guó)家標(biāo)準(zhǔn)物質(zhì)研究中心).
1.2 實(shí)驗(yàn)方法
1.2.1 茶葉樣本前處理 將1.0 g茶葉樣品加入15 mL的SPME萃取瓶中,密封,放在SPME萃取工作臺(tái)上,溫度調(diào)節(jié)為190 ℃,恒溫30 min.將活化好的SPME萃取纖維插入萃取瓶中并調(diào)節(jié)針管,30 min后取出固相微萃取裝置進(jìn)樣.進(jìn)樣時(shí),將SPME纖維直接插入氣相色譜進(jìn)樣口,熱解吸5 min后,收回纖維并取出萃取針頭,用GC-MS進(jìn)行分析.
1.2.2 GC-MS分析條件 GC條件:氣化室溫度為250 ℃;傳輸線溫度為280 ℃;色譜柱為HP-5MS (30 m×0.25 mm×0.25 μm );色譜柱升溫程序?yàn)槌跏紲囟?0 ℃,保持1 min,以升溫速率10 ℃/min升溫至280 ℃,保持5 min;進(jìn)樣量為1 μL;載氣為高純氦(純度為99.999%);進(jìn)樣方式為不分流進(jìn)樣,進(jìn)樣口5 min后開(kāi)啟.MS條件:離子源溫度為230 ℃;四極桿溫度為150 ℃;電離方式為EI;倍增器電壓為2 kV;質(zhì)量掃描范圍為40~600 amu.
1.2.3 LC分析條件 色譜柱為SunFire C18柱(250 mm×4.6 mm× 5 μm,美國(guó)Waters公司);流動(dòng)相A為甲醇,B為0.1 mol/L甲酸水溶液;流速1.0 mL/min;進(jìn)樣量5 μL;檢測(cè)波長(zhǎng)278 nm.
1.3 化學(xué)計(jì)量學(xué)方法
高斯混合模型(GMM)[13-14]假定不同類別的樣本由不同的高斯概率分布組成,通過(guò)多個(gè)高斯函數(shù)的線性組合來(lái)表示數(shù)據(jù)的概率密度函數(shù).GMM可以高度準(zhǔn)確地模擬和逼近數(shù)據(jù)的真實(shí)分布,從而獲得樣本屬于每個(gè)類的概率.每一個(gè)高斯成分密度由一個(gè)均值向量和協(xié)方差矩陣決定,GMM通常定義如下:
式中:K為模型的個(gè)數(shù)(即樣本類別數(shù)目);πk為第k個(gè)高斯的權(quán)重,其均值為μk,方差為σk.通常采用最大期望(EM)算法對(duì)高斯混合模型中的方差、均值、權(quán)值等一些參數(shù)進(jìn)行估計(jì).
將GC-MS分析所得數(shù)據(jù)結(jié)合LC數(shù)據(jù)組成數(shù)據(jù)矩陣,運(yùn)用PCA,GMM獲得茶葉樣本的分類信息,所用程序采用Matlab 7.1編寫.
2.1 GC-MS分析
圖1顯示了GC-MS采集到的不同茶葉樣本的總離子流色譜圖(TIC).從綠茶、紅茶和烏龍茶的TIC圖中可以看出,紅茶中的組分最多,烏龍茶次之,綠茶中的組分最少.這與茶葉的發(fā)酵有關(guān),新鮮茶葉中的成分經(jīng)過(guò)發(fā)酵會(huì)發(fā)生很大的變化,組分增多,綠茶是未經(jīng)發(fā)酵而制成的茶,紅茶屬于全發(fā)酵茶,而烏龍茶是半發(fā)酵茶.盡管有上述的不同之處,由于茶葉的成分及品質(zhì)受多重因素的影響,直接依據(jù)TIC圖鑒別茶葉的種類,仍難以準(zhǔn)確定性.因此,需要借助化學(xué)計(jì)量學(xué)方法來(lái)區(qū)分茶葉的種類.
2.2 主成分分析(PCA)對(duì)茶葉的分類判別
PCA是一種常用的多元統(tǒng)計(jì)分析方法,它不僅可以降低數(shù)據(jù)矩陣的維數(shù),還能通過(guò)主成分得分圖分析各類樣本的分布情況.圖2是49個(gè)茶葉樣本的GC-MS數(shù)據(jù)的主成分分析得分圖.可以看出,紅茶在二維空間中有自己的特征區(qū)域,與綠茶和烏龍茶相比,分布較為集中,能夠與綠茶和烏龍茶完全分離.綠茶和烏龍茶在二維空間中的分布較為分散,沒(méi)有各自的特征區(qū)域,且有部分重疊.表明不同產(chǎn)地紅茶的差異較小,而不同產(chǎn)地和品種的綠茶和烏龍茶的差異較大.綠茶和烏龍茶聚類較為分散,原因可能是所采集的綠茶和烏龍茶的品種以及產(chǎn)地比較分散,不同地區(qū)或不同品種的茶葉樣本品質(zhì)差異較為明顯.
2.3 高斯混合模型(GMM)對(duì)茶葉的分類判別
為了對(duì)綠茶、紅茶以及烏龍茶進(jìn)行準(zhǔn)確分類,采用GMM來(lái)判別茶葉的種類.由于GC-MS所提供的數(shù)據(jù)原始組分信息量較大,并且一些組分變量可能與茶葉類別特征的相關(guān)性較小,所以先采用PCA提取原始數(shù)據(jù)的有效信息,再進(jìn)行GMM分類.用GMM對(duì)樣本的概率密度的分布進(jìn)行估計(jì),得到樣本在各個(gè)類別上的概率,通常選取概率最大的那個(gè)類作為樣本的所屬類別.作者采用EM算法對(duì)GMM參數(shù)進(jìn)行估計(jì).
在建立分類模型時(shí),將收集的49個(gè)茶葉樣本隨機(jī)分成兩個(gè)數(shù)據(jù)集,其中訓(xùn)練集32個(gè)(綠茶8個(gè),紅茶7個(gè),烏龍茶17個(gè)),預(yù)測(cè)集17個(gè)(綠茶4個(gè),紅茶4個(gè),烏龍茶9個(gè)),每個(gè)數(shù)據(jù)集中都包含有3種不同種類茶葉的樣本.訓(xùn)練集用來(lái)構(gòu)建分類模型,預(yù)測(cè)集不參與建模,僅用來(lái)驗(yàn)證分類模型的性能.樣本數(shù)據(jù)包括GC-MS數(shù)據(jù)PCA的前20個(gè)主成分,以及LC測(cè)得的10個(gè)組分含量(可可堿(TB)、沒(méi)食子兒茶素(GC)、茶堿(TP)、表沒(méi)食子兒茶素(EGC)、咖啡因(CAF)、表兒茶素(EC)、表沒(méi)食子兒茶素沒(méi)食子酸酯(EGCG)、沒(méi)食子兒茶素沒(méi)食子酸酯(GCG)、表兒茶素沒(méi)食子酸酯(ECG)、兒茶素沒(méi)食子酸酯(CG)).由于茶葉樣本數(shù)較少,一次分類結(jié)果的隨機(jī)性較大,因此將數(shù)據(jù)集隨機(jī)分配成訓(xùn)練集和預(yù)測(cè)集100次,將 100次循環(huán)的平均結(jié)果作為最后的分類結(jié)果.GMM的成分?jǐn)?shù)設(shè)為3,訓(xùn)練集中每個(gè)類的均值作為GMM的初始均值μ,每個(gè)類的樣本數(shù)量作為混合權(quán)重初始值π,協(xié)方差矩陣設(shè)定為對(duì)角矩陣.GMM對(duì)訓(xùn)練集和預(yù)測(cè)集的平均正確率分別為99.44%和90.47%.在這100次分類結(jié)果中,其中分類結(jié)果最好的正確率為100%,該結(jié)果出現(xiàn)有19次,正確率超過(guò)90%的有52次.易于出現(xiàn)分類錯(cuò)誤的樣本為綠茶或紅茶,烏龍茶僅有一次出現(xiàn)分類錯(cuò)誤,結(jié)果表明該實(shí)驗(yàn)中所采用的方法是可靠的.
將主成分分析、高斯混合模型等方法應(yīng)用于3種不同種類茶葉的氣相色譜-質(zhì)譜聯(lián)用的總離子流數(shù)據(jù)以及液相色譜數(shù)據(jù),對(duì)茶葉類別進(jìn)行判別分析,結(jié)果表明,基于色譜信號(hào)的化學(xué)計(jì)量學(xué)方法對(duì)不同品種、不同產(chǎn)地的綠茶、紅茶、烏龍茶三大茶類的分類效果較好,該方法可對(duì)茶葉的種類進(jìn)行快速區(qū)分,對(duì)今后的茶葉類別研究及品質(zhì)評(píng)價(jià)工作奠定了基礎(chǔ).
[1] Horie H,Kohata K.Analysis of tea components by high-performance liquid chromatography and high-performance capillary electrophoresis[J].Journal of Chromatography A,2000,881(1/2):425-438.
[2] Sereshti H,Samadi S,Jalali-Heravi M.Determination of volatile components of green,black,oolong and white tea by optimized ultrasound-assisted extraction-dispersive liquid-liquid microextraction coupled with gas chromatography[J].Journal of Chromatography A,2013,1280(4):1-8.
[3] Chen Quansheng,Zhao Jiewen,F(xiàn)ang C H,et al.Feasibility study on identification of green, black and oolong teas using near-infrared reflectance spectroscopy based on support vector machine (SVM) [J].Spectrochimica Acta,2007,66(3):568-574.
[4] Palmer J K.Enzyme reactions and acceptability of plant foods[J].Journal of Chemical Education,1984,61(4):284-289.
[5] Chen Hongping,Liu Xin,Yang Dan,et al.Degradation pattern of gibberellic acid during the whole process of tea production[J].Food Chemistry,2013,138(2/3):976-981.
[6] Deng Jiewei,F(xiàn)an Chunlin,Yang Yunyun.Identification and determination of the major constituents in Deng’s herbal tea granules by rapid resolution liquid chromatography coupled with mass spectrometry[J]. Journal of Pharmaceutical and Biomedical Analysis,2011,56(5):928-936.
[7] Chen Quansheng,Zhao Jiewen,Liu Muhua,et al.Determination of total polyphenols content in green tea using FT-NIR spectroscopy and different PLS algorithms[J].Journal of Pharmaceutical and Biomedical Analysis,2008,46(3):568-573.
[8] Qin Zihan,Pang Xueli,Chen Dong,et al.Evaluation of Chinese tea by the electronic nose and gas chromatography-mass spectrometry:correlation with sensory properties and classification according to grade level[J].Food Research International,2013,53(2):864-874.
[9] Palacios-Morillo A,Alcázar A, de Pablos F, et al.Differentiation of tea varieties using UV-Vis spectra and pattern recognition techniques[J].Spectrochimica Acta, 2013,103(4):79-83.
[10]Alcázar A,Ballesteros O, Jurado J M, et al.Differentiation of green,white, black,oolong,and pu-erh teas according to their free amino acids content[J].Journal of Agricultural and Food Chemistry,2007,55(15):5960-5965.
[11]Liu Nian,Liang Yizeng,Bin Jun,et al.Classification of green and black teas by PCA and SVM analysis of cyclic voltammetric signals from metallic oxide-modified electrode[J].Food Analytical Methods,2014,7(2):472-480.
[12]Huo Danqun,Wu Yu,Yang Mei,et al.Discrimination of Chinese green tea according to varieties and grade levels using artificial nose and tongue based on colorimetric sensor arrays[J].Food Chemistry,2014,145(7):639-645.
[13]Sahbi H.A particular Gaussian mixture model for clustering and its application to image retrieval[J].Soft Computing,2008,12(7):667-676.
[14]Melnykov V,Melnykov I.Initializing the EM algorithm in Gaussian mixture models with an unknown number of components[J].Computational Statistics & Data Analysis,2012,56(6):1381-1395.
(責(zé)任編輯:孔 薇)
The Classification of Tea Based on PCA and GMM
LI Xinhui1, LUO Hongyuan2, XU Xiaoqin3, SHEN Qi1, LIN Weiqi3
(1.CollegeofChemistryandMolecularEngineering,ZhengzhouUniversity,Zhengzhou450001,China; 2.CentralLaboratory,XiamenMedicalCollege,Xiamen361008,China; 3.XiamenProductsQualitySupervision&InspectionInstitute,Xiamen361004,China)
Gas chromatography-mass spectrometer (GC-MS) and liquid chromatography (LC), combined with principal component analysis (PCA) and Gaussian mixture model (GMM), were applied for classification of 49 tea samples. The PCA was firstly employed to reduce the dimensionality of GC-MS variables. The variables used in classification also included ten compositions determined by LC, such as tea polyphenols. Then the GMM was used to establish the classification models. The classification result showed that the accuracy rate of training set and prediction set was 99.44% and 90.47%, respectively. It could be concluded that GMM combined with chromatography for the classification of tea had a good performance.
PCA; GMM; tea; classification
2015-06-05
國(guó)家自然科學(xué)基金資助項(xiàng)目,編號(hào)21575131.
李新會(huì)(1989—),女,河南禹州人,碩士研究生,主要從事化學(xué)計(jì)量學(xué)研究;通訊作者:羅紅元(1977—),男,湖南衡陽(yáng)人,講師,博士,主要從事化學(xué)傳感器和計(jì)量學(xué)研究,E-mail:lhy@xmygz.cn.
李新會(huì),羅紅元,徐曉琴,等.基于主成分分析和高斯混合模型的茶葉分類研究[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2015,47(4):62-65.
O657.63
A
1671-6841(2015)04-0062-04
10.3969/j.issn.1671-6841.2015.04.012