劉翠玲, 胡玉君, 吳勝男, 孫曉榮, 竇森磊, 苗雨晴, 竇 穎
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
近紅外光譜奇異樣本剔除方法研究
劉翠玲, 胡玉君, 吳勝男, 孫曉榮, 竇森磊, 苗雨晴, 竇 穎
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
采用近紅外光譜分析技術(shù)建立面粉校正模型,對(duì)面粉中灰分含量進(jìn)行定量分析,并對(duì)異常樣本進(jìn)行剔除.試驗(yàn)中采用馬氏距離法和蒙特卡洛采樣法分別對(duì)異常樣本進(jìn)行了剔除,結(jié)果表明:用馬氏距離法剔除異常樣本,當(dāng)權(quán)重系數(shù)為1.5,剔除樣本數(shù)為3時(shí),得到最好結(jié)果,相關(guān)系數(shù)(R2) 為92.67,交互驗(yàn)證均方差RMSECV為0.048 5;MCCV法剔除異常樣本,剔除樣本數(shù)為3,得到最好結(jié)果,相關(guān)系數(shù)(R2)為94.64,交互驗(yàn)證均方差RMSECV為0.041 1.故馬氏距離法剔除異常樣本能在一定程度上提高校正模型的精度和預(yù)測(cè)精度,但MCCV法剔除異常樣本后模型精度和預(yù)測(cè)精度優(yōu)于馬氏距離法.
近紅外光譜;異常樣本;馬氏距離法;MCCV;灰分
人們的日常生活離不開(kāi)面粉,面粉的品質(zhì)問(wèn)題隨著生活水平的提高而得到普遍關(guān)注,食品監(jiān)管部門對(duì)面粉品質(zhì)的控制尤為重要.目前對(duì)面粉的評(píng)價(jià)指標(biāo)主要有水分、灰分以及面筋等[1-4].傳統(tǒng)的面粉品質(zhì)檢測(cè)方法(物理化學(xué)法)存在多種缺陷,不僅耗費(fèi)時(shí)間,而且容易對(duì)面粉造成二次污染[5],而被廣泛應(yīng)用于農(nóng)作物品種檢測(cè)和分析的近紅外光譜分析技術(shù)能夠在不破壞樣品的前提下對(duì)樣品進(jìn)行準(zhǔn)確、迅速的檢測(cè),在一定程度上克服了傳統(tǒng)檢測(cè)方法的缺陷.
近紅外光譜分析技術(shù)是一種物理測(cè)試技術(shù),主要通過(guò)建立近紅外光譜分析模型對(duì)未知的面粉樣品進(jìn)行預(yù)測(cè),分析模型的準(zhǔn)確程度能夠直接影響對(duì)未知樣品的預(yù)測(cè)精度[6-8].在建立面粉的近紅外光譜分析模型時(shí)要求面粉的近紅外光譜圖和化學(xué)值之間存在一定的相關(guān)性,異常樣品的存在能夠降低譜圖與化學(xué)值之間的相關(guān)性,降低模型的預(yù)測(cè)精度,因此需要對(duì)異常樣本進(jìn)行判別和處理.王建義[9]等人對(duì)產(chǎn)生異常樣品的原因進(jìn)行了詳細(xì)的介紹,本文主要探討馬氏距離法以及蒙特卡洛交叉驗(yàn)證法對(duì)剔除異常樣本后的數(shù)據(jù)建立近紅外光譜分析模型,通過(guò)測(cè)定模型的準(zhǔn)確度對(duì)兩種方法進(jìn)行比較,從而提高近紅外光譜面粉品質(zhì)檢測(cè)模型的精確性和可靠性.
1.1 樣品的準(zhǔn)備
試驗(yàn)所用面粉樣本,是從合作單位古船面粉廠取得的不同日期、不同生產(chǎn)線生產(chǎn)的不同種類的面粉,共計(jì)60個(gè).
1.2 樣品化學(xué)值的測(cè)量
試驗(yàn)采用國(guó)標(biāo)法850℃乙酸鎂法,準(zhǔn)確測(cè)量面粉樣本的灰分含量,所測(cè)值作為建模時(shí)的化學(xué)值.
1.3 樣品近紅外光譜的采集
本次試驗(yàn)使用傅里葉變換近紅外光譜儀VER-TEX 70,將上述面粉樣品放置在漫反射樣品臺(tái)的樣品杯中,進(jìn)行近紅外光譜采集.大樣品杯旋轉(zhuǎn)采樣,環(huán)境溫度23~25℃,掃描次數(shù)64次,波數(shù)范圍12 000~4 000 cm-1,分辨率8 cm-1.對(duì)60個(gè)面粉樣本進(jìn)行近紅外漫反射掃描后的光譜圖如圖1.
圖1 面粉樣本的近紅外漫反射光譜圖Fig.1 NIR diffuse reflectance spectra of flour samples
1.4 馬氏距離與蒙特卡洛交叉驗(yàn)證算法
1.4.1 馬氏距離算法
將面粉的光譜圖轉(zhuǎn)換成數(shù)據(jù)矩陣后將成為一個(gè)n×k的矩陣A.
計(jì)算n個(gè)樣品的平均光譜:
式(1)中,Aij為樣品光譜矩陣元素;n為樣品的個(gè)數(shù); j為波長(zhǎng)序號(hào);樣品光譜的平均值.
將光譜數(shù)據(jù)減去平均值做光譜數(shù)據(jù)中心化處理:
式(2)中,Au代表中心化處理后的光譜矩陣,A代表原光譜矩陣,代表光譜的平均值陣.
然后計(jì)算出原標(biāo)準(zhǔn)光譜數(shù)據(jù)集的協(xié)方差陣:
式(3)中,M代表標(biāo)準(zhǔn)光譜數(shù)據(jù)集的協(xié)方差陣,ATu代表中心化處理后的光譜矩陣的轉(zhuǎn)置,Au代表中心化后的光譜陣,n代表樣品數(shù).
根據(jù)校正集樣品數(shù)據(jù)和平均光譜數(shù)據(jù)計(jì)算兩者之間的馬氏距離:
式(4)中,Ai代表校正集樣品數(shù)據(jù),A代表平均光譜數(shù)據(jù).M-1代表標(biāo)準(zhǔn)光譜數(shù)據(jù)集的協(xié)方差陣的逆矩陣.
為了檢驗(yàn)n個(gè)樣品中是否存在異常樣本,首先要設(shè)置一個(gè)閾值,這個(gè)閾值是根據(jù)計(jì)算出的n個(gè)馬氏距離設(shè)置的.計(jì)算閾值范圍如下:
式(5)中,代表馬氏距離的平均值;σD代表馬氏距離的標(biāo)準(zhǔn)差;e代表調(diào)整閉值范圍的參數(shù).
當(dāng)樣品i與樣品的平均光譜十分相近時(shí),即存在Di≤Dt,則稱之為平均樣品的鄰近樣品.陳斌[10-13]等人詳細(xì)介紹了如何通過(guò)設(shè)置不同的閾值范圍參數(shù)e,調(diào)節(jié)樣品的臨近樣品個(gè)數(shù),并采用PLS建模進(jìn)行回歸預(yù)測(cè),根據(jù)預(yù)測(cè)結(jié)果選取最佳e值.
1.4.2 蒙特卡洛交叉驗(yàn)證算法
蒙特卡洛交叉驗(yàn)證算法(Monte Carlo cross validation,MCCV)又稱為統(tǒng)計(jì)模擬方法,能夠用于解決復(fù)雜統(tǒng)計(jì)模型和矩陣高維問(wèn)題[14-15].蒙特卡洛交叉驗(yàn)證算法的核心是對(duì)樣本的抽取,如何從給定的目標(biāo)函數(shù)分布中進(jìn)行高效抽樣成為關(guān)鍵所在.蒙特卡洛隨機(jī)取樣(Monte Carlo sampling,MCS)法提出選取一定的校正集(占樣品量的80%)建立偏最小二乘模型,剩余的20%作預(yù)測(cè)集對(duì)模型進(jìn)行驗(yàn)證,經(jīng)過(guò)多次循環(huán)后能夠得到一組預(yù)測(cè)殘差,通過(guò)預(yù)測(cè)殘差計(jì)算出預(yù)測(cè)殘差的均值(MEAN)與方差(STD),從而判斷異常樣本.
通過(guò)校正集相關(guān)系數(shù)(R2)、交叉驗(yàn)證均方差RMSECV、預(yù)測(cè)均方差RMSEP對(duì)模型進(jìn)行評(píng)價(jià),從而驗(yàn)證剔除異常樣本是否有利于模型精度的提高.
2.1 含異常樣品的面粉近紅外光譜分析
將60個(gè)樣本應(yīng)用于近紅外定量分析,通過(guò)Kennard-Stone(KS)方法,確定校正集50個(gè)樣本,剩余10個(gè)樣本用于模型驗(yàn)證.通過(guò)OPUS 6.5軟件的分析和優(yōu)化,選擇最優(yōu)處理算法,尋找面粉的吸收光譜較豐富的波段.分析表明,面粉對(duì)光譜信息貢獻(xiàn)量最大的譜區(qū)范圍是4 848.4~4 246.7 cm-1,維數(shù)為6,利用PLS方法進(jìn)行建模,可得相關(guān)系數(shù)(R2)為85.69,交互驗(yàn)證均方差RMSECV為0.067 2,50個(gè)面粉樣本近紅外光譜圖交叉驗(yàn)證后灰分的近紅外計(jì)算值與化學(xué)分析值如圖2.
部分異常樣品的存在使模型的相關(guān)系數(shù)比較低,模型預(yù)測(cè)結(jié)果缺乏可信度,所以需要把異常樣本剔除.
2.2 馬氏距離法剔除異常樣品
對(duì)50個(gè)校正集樣本的近紅外光譜進(jìn)行馬氏距離計(jì)算,可得到馬氏距離分布圖,如圖3.
圖2 近紅外光譜交叉驗(yàn)證計(jì)算值與化學(xué)分析值Fig.2 Near-infrared spectroscopy cross-validation calculated values and chemical analysis values
圖3 校正集的馬氏距離分布圖Fig.3 Calibration set Mahalanobis distance distribution
從圖3中可以看出,一些樣品如30,39等的馬氏距離過(guò)大而成為異常樣本.設(shè)定6個(gè)不同的權(quán)重系數(shù)對(duì)異常樣本進(jìn)行判斷和分析,可將權(quán)重設(shè)置為e(3,2.5,1.5,1.2,1.0,0.5),分別剔除異常樣本為:30(e=3);30,39(e=2.5);30,32,39(e=1.5); 1,30,32,39(e=1.2);1,14,30,32,39(e=1.0);1, 14,27,30,32,39(e=0.5).剔除異常樣品后,對(duì)光譜信息貢獻(xiàn)量最大的譜區(qū)范圍4 848.4~4 246.7 cm-1.采取偏最小二乘方法建模,所得結(jié)果如表1,馬氏距離法剔除異常樣品后交叉驗(yàn)證計(jì)算值與化學(xué)分析值如圖4.
表1 不同閾值剔除后PLS校正模型交互校驗(yàn)結(jié)果Tab.1 Interact verification results of PLS calibrationmodel after removal of different thresholds
由表1可知,當(dāng)權(quán)重系數(shù)為1.5,主成分?jǐn)?shù)為8,剔除異常樣本數(shù)為3時(shí),得到最好結(jié)果,相關(guān)系數(shù)(R2)為92.67,交互驗(yàn)證均方差(RMSECV)為0.048 5.
圖4 馬氏距離法剔除異常樣品后交叉驗(yàn)證計(jì)算值與化學(xué)值Fig.4 Cross-validation calculated and chemical values of Mahalanobis distance method excluding anomalous samples
2.3 蒙特卡洛交叉驗(yàn)證算法剔除異常樣本
在50個(gè)校正集樣本中,用蒙特卡洛隨機(jī)取樣法選取校正集和預(yù)測(cè)集,然后建立偏最小二乘模型,循環(huán)2 000次后得到各樣本的預(yù)測(cè)殘差值,并計(jì)算出均值與方差的MEAN-STD圖,如圖5,為了確定異常樣本,繪制誤差的火柴梗圖,如圖6.
圖5 均值方差分布Fig.5 Mean-variance distribution
從圖5可知,某些樣本明顯偏離主體樣本,如39,12這些樣本可視為奇異樣本,應(yīng)該剔除,由MEAN-STD圖和火柴梗圖確定出需要剔除異常樣本.奇異樣本剔除前后PLS校正模型的RMSECV的變化情況見(jiàn)表2.MCCV剔除異常樣品后交叉驗(yàn)證計(jì)算值與化學(xué)分析值如圖7.
由表2可知,剔除異常樣品個(gè)數(shù)為3,得到最好結(jié)果,相關(guān)系數(shù)(R2)為94.64,交互驗(yàn)證均方差RMSECV為0.041 1.
圖6 預(yù)測(cè)誤差的火柴梗圖Fig.6 Stick Figure of prediction error
表2 剔除異常樣本前后PLS校正模型交互校驗(yàn)結(jié)果Tab.2 PLS calibrationmodel cross validation results after excluding outliers
圖7 MCCV法剔除異常樣品后交叉驗(yàn)證計(jì)算值與化學(xué)分析值Fig.7 Cross-validation calculated and chemical analysis values of MCCV law after excluding abnormal samples
2.4 預(yù)測(cè)模型的精度比較
為了驗(yàn)證剔除異常樣本的準(zhǔn)確性,對(duì)預(yù)測(cè)集的10個(gè)樣本進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如表3.真實(shí)值與預(yù)測(cè)值之間的相關(guān)圖如圖8~圖10.
表3 剔除異常樣本后校正模型的預(yù)測(cè)結(jié)果Tab.3 Calibration model predictions after excluding outliers
由表3可知,用馬氏距離法和MCCV法剔除異常樣本后校正模型的精度和預(yù)測(cè)精度確實(shí)有所提高,MCCV法剔除異常樣本模型精度和預(yù)測(cè)精度提高的相對(duì)明顯.
圖8 未剔除樣本的模型真實(shí)值與預(yù)測(cè)值相關(guān)圖Fig.8 Real and predicted values correlation chartwithout excluding samplemodel
圖9 馬氏距離法剔除樣本模型真實(shí)值與預(yù)測(cè)值相關(guān)圖Fig.9 Real and predicted values correlation chart with Mahalanobis distancemethod excluding sample
圖10 MCCV法剔除樣本模型真實(shí)值與預(yù)測(cè)值相關(guān)圖Fig.10 Real and predicted values correlation chartwith MCCV law Excluding sample
本次試驗(yàn)用馬氏距離法和蒙特卡洛采樣法分別對(duì)異常樣本進(jìn)行了剔除,用馬氏距離法剔除異常樣本,當(dāng)權(quán)重系數(shù)為1.5,剔除樣本數(shù)為3時(shí),得到較好結(jié)果,相關(guān)系數(shù)(R2)為92.67,交互驗(yàn)證均方差RMSECV為0.048 5.MCCV法剔除異常樣本,剔除異常樣本數(shù)為3時(shí),得到較好結(jié)果,相關(guān)系數(shù)(R2)為94.64,交互驗(yàn)證均方差RMSECV為0.041 1.結(jié)果表明:馬氏距離法剔除異常樣本確實(shí)能提高校正模型的精度和預(yù)測(cè)精度,但MCCV法剔除異常樣本模型精度和預(yù)測(cè)精度提高的相對(duì)更明顯.
在本次試驗(yàn)中發(fā)現(xiàn),雖然2種異常樣本剔除方法都使模型精度得到提高并且剔除異常樣本的個(gè)數(shù)相同,但是剔除的樣本并不同,可能存在以下問(wèn)題: 1)在沒(méi)有樣本的化學(xué)值的情況下,仍然可以采用馬氏距離法剔除異常樣本,MCCV法不僅需要光譜數(shù)據(jù)而且需要樣本的化學(xué)值,可能存在由于人為誤差導(dǎo)致化學(xué)值測(cè)量不準(zhǔn)確,從而導(dǎo)致2種方法剔除不同的樣本.2)2種方法的原理不同,馬氏距離法是通過(guò)光譜數(shù)據(jù)驗(yàn)證樣本間的距離,MCCV方法是通過(guò)對(duì)光譜數(shù)據(jù)進(jìn)行多次PLS建模驗(yàn)證得到結(jié)果,所以這兩種方法所得到的結(jié)果不同.目前對(duì)剔除異常樣本進(jìn)行了初步的研究,所做的都是驗(yàn)證工作,下一步的工作目標(biāo)是找到問(wèn)題存在的原因,并且尋找更好的異常樣本剔除方法,從而提高預(yù)測(cè)模型的準(zhǔn)確性和穩(wěn)定性.
[1] 陸婉珍,袁洪福,徐廣通.現(xiàn)代近紅外光譜分析技術(shù)[M].北京:中國(guó)石油化工出版社,2000:37-45.
[2] 倪永年.化學(xué)計(jì)量學(xué)在分析化學(xué)中的應(yīng)用[M].北京:科學(xué)出版社,2004:304-310.
[3] 劉建學(xué).實(shí)用近紅外光譜分析技術(shù)[M].北京:科學(xué)出版社,2008:168-186.
[4] 鄒小波,趙杰文.農(nóng)產(chǎn)品無(wú)損檢測(cè)技術(shù)與數(shù)據(jù)分析方法[M].北京:中國(guó)輕工業(yè)出版社,2008:197-220.
[5] 閆李慧,王金水,金華麗,等.基于近紅外光譜技術(shù)的通用面粉水分無(wú)損檢測(cè)模型的建立[J].現(xiàn)代食品科技,2011,27(2):235.
[6] Karande A D,Heng PW S,Liew CV.In-line quantification ofmicronized drug and excipients in tablets by near infrared(NIR)spectroscopy:real timemonitoring of tabletting process[J].International Journal of Pharmaceutics,2010,396:63-74.
[7] CHEN Quansheng,PEI Jiang,ZHAO Jiewen.Measurement of total flavones content in snow lotus(saussurea involucrate)using near infrared spectroscopy combined with interval PLSand genetic algorithm[J].Spectrochimica Acta Part A,Molecular and Biomolecular Spectroscopy,2010,76:50-55.
[8] QU Nan,ZHUMingchao,MIHong,etal.Nondestructive determination of compound amoxicillin powder by NIR spectroscopy with the aid of chemometrics[J].Spectrochimica Acta Part A,Molecular and Biomolecular Spectroscopy,2008,70:1146-1151.
[9] 王建義,雷蒙.近紅外光譜煤質(zhì)分析模型中異常樣品的剔除方法[J].工礦自動(dòng)化,2011,11(11):75-76.
[10] 陳斌,鄒賢勇,朱文靜.PCA結(jié)合馬氏距離法剔除近紅外異常樣品[J].江蘇大學(xué)學(xué)報(bào),2008,29(4):277 -279.
[11] 王毅.近紅外光譜分析技術(shù)在食用植物油品質(zhì)檢測(cè)中的應(yīng)用[D].鎮(zhèn)江:江蘇大學(xué),2010.
[12] SHAO Yongni,HE Yong.Measurement of soluble solids and pH of Yogurt using visible/near infrared spectroscopy and chemometrics[J].Food Bioprocess Techno, 2009(2):229-233.
[13] Edword J.Graphicalmodelling and themahalanobis distance[J].Journal of Applied Statistics,2005,32 (9):959-967.
[14] 李水芳,單楊,范偉,等.基于MCCV奇異樣本篩選和CARS變量選擇法對(duì)蜂蜜pH值和酸度的近紅外光譜檢測(cè)[J].食品科學(xué),2011,32(8):182-184.
[15] LIU Yande,Ying Yibin,JIANG Haiyan.Rapid determination ofmaturity in apple using outlier detection and calibrationmodel optimization[J].Transactions of the ASAB E,2006,49(1):91-95.
Outlier Sam ple Elim inating M ethods for Building Calibration M odel of Near Infrared Spectroscopy Analysis
LIU Cuiling, HU Yujun, WU Shengnan, SUN Xiaorong, DOU Senlei, MIAO Yuqing, DOU Ying (School ofComputer Science and Information Engineering,Beijing Technology and Business University, Beijing 100048,China)
The accuracy of the prediction model is affected by the near-infrared spectrum of flour and flour ash contentswas quantitative analyzed.While the presence ofoutlier data seriously interferewith the reliability of themodel,therefore,it is essential to identify and dealwith the outlier samples to improve the predictive ability.Mahalanobis distance and the Monte Carlo cross validation(MCCV)methodswere used to remove the outlier samples.When the weight coefficientwas1.5,excluding sample number was 3 with the formermethod it could get the best results,and the related coefficient(R2)was92.67,crossvalidationmean square error(RMSECV)was0.048 5.While with the lattermethod the correlation coefficient(R2)was94.64,cross-validation mean square error(RMSECV)was0.041 1.Therefore,Mahalanobis distancemethod can improve the calibration model and prediction accuracy to a certain extent, while the calibrationmodeland prediction accuracy ofMCCV withoutoutliers sampleswas better than that of the Mahalanobis distancemethod.
near infrared spectroscopy;outlier samples;Mahalanobis distance;MCCV;flour ash
檀彩蓮)
TS211.7;TS207.3;TP391.9
A
10.3969/j.issn.2095-6002.2014.05.014
2095-6002(2014)05-0074-06
劉翠玲,胡玉君,吳勝男,等.近紅外光譜奇異樣本剔除方法研究.食品科學(xué)技術(shù)學(xué)報(bào),2014,32(5):74-79. LIU Cuiling,HU Yujun,WU Shengnan,et al.Outlier sample eliminatingmethods for building calibration model of near infrared spectroscopy analysis.Journal of Food Science and Technology,2014,32(5):74-79.
2014-03-06
北京市科技創(chuàng)新平臺(tái)資助項(xiàng)目(pxm_2012_014213_000023);北京市教委科技發(fā)展重點(diǎn)資助項(xiàng)目(KZ201310011012);北京市優(yōu)秀人才基金資助項(xiàng)目(2012D005003000007).
劉翠玲,女,教授,博士,主要從事檢測(cè)技術(shù)及智能信息處理方面的研究.