李正風(fēng)徐廣晉王家俊杜國榮蔡文生邵學(xué)廣*,(云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,昆明 650)(南開大學(xué)化學(xué)學(xué)院,分析科學(xué)研究中心,天津 0007)(喀什大學(xué)化學(xué)與環(huán)境科學(xué)學(xué)院,喀什 844000)
研究簡報
模型診斷用于近紅外光譜建模校正集中奇異樣本的識別
李正風(fēng)1徐廣晉1王家俊1杜國榮2蔡文生2邵學(xué)廣*2,31
(云南中煙工業(yè)有限責(zé)任公司技術(shù)中心,昆明 650231)2(南開大學(xué)化學(xué)學(xué)院,分析科學(xué)研究中心,天津 300071)3(喀什大學(xué)化學(xué)與環(huán)境科學(xué)學(xué)院,喀什 844000)
由于校正集樣本的質(zhì)量決定校正模型的質(zhì)量,校正集中奇異樣本的檢測在多元校正建模中具有非常重要的意義。本研究建立了一種用于近紅外光譜多元校正建模時校正集中奇異樣本的檢測方法。本方法基于奇異樣本的定義和偏最小二乘方法的原理,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻(xiàn),將與多數(shù)樣本表現(xiàn)不同的樣本識別為奇異樣本。采用218個橘汁樣本構(gòu)成的近紅外光譜數(shù)據(jù)進(jìn)行了分析,結(jié)果表明,校正集中存在6個奇異樣本,扣除奇異樣本后,校正集的交叉驗證均方根誤差由16.870減小為4.809,預(yù)測集的均方根誤差從3.688減小為3.332。
多元校正;奇異樣本檢測;偏最小二乘;近紅外光譜;定量分析
近紅外光譜已在許多科研領(lǐng)域和行業(yè)得到廣泛應(yīng)用,多元校正是近紅外光譜分析的的關(guān)鍵技術(shù)。已報道的多元校正方法有多元線性回歸(MLR)、主成分回歸(PCR)、偏最小二乘回歸(PLSR)[1,2]、支持向量機(SVM)[3~5]等。為了提高建模方法的適用性,非線性建模、局部回歸、多模型共識建模等方法與技術(shù)得到了發(fā)展與應(yīng)用[6]。同時,為了提高模型的質(zhì)量,改善模型的預(yù)測能力,建立精簡模型,發(fā)展了一系列光譜預(yù)處理及變量選擇技術(shù),如多元散射校正(MSC)、正交信號校正(OSC)[7]、小波變換(WT)[8]、區(qū)間偏最小二乘回歸(iPLSr)[9]、無信息變量消除(UVE)[10,11]、競爭性自適應(yīng)權(quán)重取樣(CARS)[12]、連續(xù)投影算法(SPA)[13]、隨機檢驗(RT)[14]等。
校正集同樣是決定模型質(zhì)量的重要因素。多元校正的校正集一般由大量的樣本構(gòu)成,奇異樣本的識別是多元校正分析中的難點問題之一[15],因此,已建立了一系列方法,并在近紅外光譜分析中得到應(yīng)用[16~19]。當(dāng)奇異樣本之間無相互影響時,這些方法可以有效識別奇異樣本。但是當(dāng)奇異樣本之間相互影響,如存在掩蔽(Masking)和淹沒(Swamping)現(xiàn)象時,這些方法的識別能力受到限制[18,19]。穩(wěn)健建模是一種可以自動識別奇異樣本的方法,也可以用于處理奇異樣本之間有相互作用的數(shù)據(jù),例如穩(wěn)健偏最小二乘回歸(Robust simple partial least squares,RSIMPLS)[20]是一種簡便、快速的常用方法。該方法通過診斷圖識別建模樣品中的好的杠桿點(Good leverage)、壞的杠桿點(Bad leverage)及殘差方向放入奇異樣本(Vertical outlier)。杠桿點是與大多數(shù)樣本不一樣的樣本,好的杠桿點對校正模型起積極作用,壞的杠桿點降低校正模型的預(yù)測精度。殘差方向的奇異樣本是有較大濃度預(yù)測殘差的樣本。
本研究建立了一種新的奇異樣本識別方法。基于奇異樣本與其它樣本在偏最小二乘回歸模型中的作用不同,通過考察每個校正集樣本在模型的每個因子(或主成分)中對模型的貢獻(xiàn),將與其它(多數(shù))樣本表現(xiàn)不同的樣本識別為奇異樣本。由于樣本對偏最小二乘回歸模型的貢獻(xiàn)可以用其權(quán)重進(jìn)行衡量,通過考察樣本在每個因子中的權(quán)重分布即可實現(xiàn)奇異樣本的識別。本方法的實質(zhì)是對模型的每個因子進(jìn)行分析,因此被稱為“模型診斷”方法。
奇異樣本是指數(shù)據(jù)集中與其它(大量)樣本不同的樣本。在多元校正分析中,奇異樣本是指在模型中與其它(大量)樣本規(guī)律不同的樣本,通常被認(rèn)為是對模型具有破壞作用的樣品。奇異樣本分為“好的”和“壞的”奇異樣本,前者對模型有好的影響,而后者對模型具有破壞作用,所以也稱為強影響點[17,21]。本研究中,奇異樣本是指在數(shù)據(jù)集中與其它(大量)樣本在模型中的表現(xiàn)不同的樣本。
偏最小二乘模型由多個因子(或主成分,又稱為潛變量)構(gòu)成,樣本對模型的貢獻(xiàn)取決于樣本在每個因子中的權(quán)重。對于大部分(正常)樣本,權(quán)重值在每個因子的分布在一個正常的區(qū)間里,而對于奇異樣本,在某些因子中的權(quán)重將與其它(正常)樣本不同。因此,通過對每個因子的權(quán)重分布考察就可以找到與其它(大量)樣本有較大差異的樣本,即奇異樣本。
為了詳細(xì)描述本方法的原理,用高斯函數(shù)模擬了6種物質(zhì)的光譜圖,并添加了1.0%的隨機噪聲。用第4個組分建立偏最小二乘回歸模型,得到的每個樣本在每個因子中的權(quán)重如圖1a所示。所謂權(quán)重是指偏最小二乘在預(yù)測時對預(yù)測結(jié)果的貢獻(xiàn)。由于建模時光譜和濃度進(jìn)行了中心化,這些權(quán)重值在0上下分布。從圖1a可見,前6個因子對預(yù)測結(jié)果有顯著的貢獻(xiàn),通過分析對模型有顯著貢獻(xiàn)的因子可以用于因子數(shù)的判定[22]。由于沒有奇異樣本,圖1a所有樣本權(quán)重的分布比較均勻,說明正常樣品在每個因子下的權(quán)重分布具有較高的相似性。
為了考察奇異樣本對模型的影響,在10,20和30號樣品的濃度值中添加了3倍標(biāo)準(zhǔn)偏差的變動,在40和50號樣品的光譜中添加了與濃度無關(guān)的光譜信息。圖1b為添加奇異樣本后每個樣本在不同因子中的權(quán)重分布。與圖1a相比,添加奇異樣本后因子數(shù)增加,需要更多的因子對模型進(jìn)行描述。同時,奇異樣本(圖中標(biāo)示的10,20,30,40和50)的權(quán)重在第6和7個因子中與其它樣本具有明顯差異。
圖1 模擬光譜數(shù)據(jù)偏最小二乘模型的權(quán)重分布Fig.1 Weights of each sample in each factor in PLS model of simulated spectra
為了對奇異樣本進(jìn)行識別,本研究引入LOF (Local outlier factor)[23]方法。LOF方法通過每個數(shù)據(jù)點附近的數(shù)據(jù)點數(shù)(密度)判斷此數(shù)據(jù)點是否與其它數(shù)據(jù)點一致。圖2是圖1b中各樣本的LOF值,5個奇異樣本都可以很明顯的識別出來。圖 2的虛線為閾值,用正常樣本LOF值平均值加3倍標(biāo)準(zhǔn)偏差計算得到。
圖2 具有奇異樣本的模擬光譜數(shù)據(jù)中每個樣本的LOF值Fig.2 Local outlier factor(LOF)values for samples in simulated spectra with artificial outliers
3.1 數(shù)據(jù)來源與處理
本研究使用了一組包括218個橘汁樣品的近紅外光譜數(shù)據(jù),建模的目標(biāo)值為蔗糖含量[24]。數(shù)據(jù)可從http://www.ucl.ac.be/mlg下載。光譜采用透射模式,波長范圍為1100~2500 nm,間隔為2 nm。為了便于比較,校正集和預(yù)測集采用了數(shù)據(jù)提供者對光譜數(shù)據(jù)進(jìn)行的分組,即校正集包括150個樣品,預(yù)測集包括68個樣品。為了消除噪聲、背景對結(jié)果的影響,在計算前采用了Haar連續(xù)小波變換方法進(jìn)行了預(yù)處理[8,17,21,22],尺度參數(shù)為20。
3.2 奇異樣本的識別
圖3是利用校正集的數(shù)據(jù)建立的偏最小二乘模型中每個樣本在每個因子中的權(quán)重分布。首先,此圖顯示對模型貢獻(xiàn)較大的因子是第1,3,4,5,6和7,說明此模型的最佳因子數(shù)為8或9。第二個因子對模型的貢獻(xiàn)很小,可能是由于該主成分與蔗糖的含量關(guān)系不大。比較每個樣本在不同因子時的權(quán)重可知,第133和150個樣本在第1主成分時、第130個樣本在第2和3主成分時、第78個樣本在9主成分時分別與其它樣本有很大差異。因此,這些樣本可能是校正集中的奇異樣本。
為了更加明確地確定奇異樣本,根據(jù)圖3的數(shù)據(jù)可以計算每個樣本的LOF值,如圖4。圖4中的紅色虛線為閾值,由LOF值的平均值和標(biāo)準(zhǔn)偏差確定。從圖4中可清楚地看出,共有6個奇異樣本,分別是第36,78,130,133,140及150個校正集樣本。
圖3 校正集樣本偏最小二乘模型的權(quán)重分布Fig.3 Weights of calibration samples in each factor of PLS model
圖4 校正集中每個樣本的LOF值Fig.4 LOF values for samples in calibration set
3.3 模型診斷方法的性能比較
為了考察模型診斷方法奇異樣本識別結(jié)果的正確性,分別與常用的留一交叉驗證-3倍標(biāo)準(zhǔn)偏差法和穩(wěn)健回歸診斷(RSIMPLS)方法進(jìn)行了比較。留一交叉驗證方法只識別出一個(第130個)奇異樣本,即只有一個樣本在交叉驗證中預(yù)測誤差超出了其它樣本預(yù)測誤差的3倍。采用RSIMPLS方法的回歸診斷圖(Regression diagnostic plot)[20]找到了23個奇異樣本,其中第130個樣本與其它樣本有顯著的差異。
比較模型診斷、留一交叉驗證和穩(wěn)健回歸診斷3種方法可知,留一交叉驗證方法過于“寬松”,原因可能是奇異樣本較多時留一交叉驗證預(yù)測誤差的標(biāo)準(zhǔn)偏差較大。穩(wěn)健回歸診斷方法過于“嚴(yán)格”,原因可能是閾值過小,Χ2分布在樣本量較大時相關(guān)參數(shù)需要調(diào)整。相比之下,模型診斷方法得到結(jié)果相對較為合理。值得注意的是模型診斷方法識別的6個奇異樣本中有5個被該方法識別,只有第36個樣本未被識別,而留一交叉驗證方法所識別的第130個樣本同時被3種方法識別。此結(jié)果說明不同識別方法均具有一定的科學(xué)性,只是在識別“靈敏度”上具有差異。
3.4 奇異樣本對模型的影響
為了進(jìn)一步考察奇異樣本識別結(jié)果的正確性,分別考察了所識別的奇異樣本對模型及預(yù)測結(jié)果的影響。表1列出了移除一個或幾個奇異樣本后交叉驗證均方根誤差(RMSECV)和樣本預(yù)測誤差的均方根誤差(RMSEP)的變化情況,其中RMSEP1為全體預(yù)測集樣本的預(yù)測結(jié)果,RMSEP2為扣除4個預(yù)測誤差較大的樣本(疑為預(yù)測集中的奇異樣本)后的預(yù)測結(jié)果。第一行為參考值,未扣除奇異樣本;第二行中第130個樣本對RMSECV的影響很大,扣除該樣本后RMSECV的數(shù)值有大幅度的降低,但是對預(yù)測集的預(yù)測結(jié)果并沒有產(chǎn)生大的影響。這種現(xiàn)象可以通過PLS的原理進(jìn)行解釋。從圖3可見,第130個樣本對模型的影響主要體現(xiàn)在第二個因子,比其它樣本偏低,在第3個因子中則有些偏高,第4個因子以后不再偏離。PLS的預(yù)測結(jié)果是多個因子預(yù)測結(jié)果的加和,當(dāng)采用較大的因子數(shù)時,第130個樣本對模型的整體影響被抵消。為了驗證這一推測,比較了扣除第130個樣本前后因子數(shù)為2和7時的模型系數(shù),結(jié)果表明,因子數(shù)為2時,有明顯差異而因子數(shù)為7時差異并不大。因此,第130個樣本對于因子數(shù)較大的模型并沒有產(chǎn)生較大影響。
從表1第3行的結(jié)果可知,第78個樣本對RMSECV的也有一定程度的影響,RMSEP1的數(shù)值有所上升,但RMSEP2的結(jié)果有較大幅度下降。前者說明預(yù)測集中具有奇異樣本,后者說明第78個樣本確實對模型具有一定影響。通過表1中第4~7行的結(jié)果可知,第133和150個樣本使RMSECV降低,第36和140個樣本使RMSECV升高,但RMSEP2的結(jié)果均沒有下降。為了考察奇異樣本之間的“掩蔽”或“淹沒”效應(yīng),表1中第8~12行分別列出了多個奇異樣本同時扣除時多模型的影響。從RMSECV的結(jié)果可知,奇異樣本之間的協(xié)同作用,但從RMSEP2的結(jié)果第78個樣本具有較大的影響。因此,本組數(shù)據(jù)中對模型影響最大的奇異樣本應(yīng)該只有第78個樣本。從奇異樣本對模型及預(yù)測能力的影響可以看出,奇異樣本的檢測是一項非常困難的任務(wù),僅從模型自身的評價(RMSECV)難以對模型的預(yù)測能力進(jìn)行估計。當(dāng)預(yù)測集(檢驗集)中存在奇異樣本時,也難以得到正確的評價。
表1 奇異樣本對模型及預(yù)測結(jié)果的影響Table 1 Effect of detected outliers on model and prediction result
建立了一種基于模型診斷的奇異樣本識別方法,通過建模樣本在每個因子中對模型的貢獻(xiàn),將模型中權(quán)重分布不同的樣本識別為奇異樣本。與常用的留一交叉驗證和穩(wěn)健回歸診斷方法進(jìn)行比較,表明本方法具有一定的合理性和實用性。但是,奇異樣本對模型及預(yù)測能力的影響具有較高的復(fù)雜性,單獨使用模型的檢驗無法表明模型預(yù)測能力,采用驗證集進(jìn)行評價時必須保證驗證集的質(zhì)量。因此,奇異樣本的檢測與識別仍然是一項非常艱巨的任務(wù),有待進(jìn)一步的深入研究,提出更加科學(xué)、可靠的更多方法。
1 Wold S,Ruhe A,Wold H,Dunn W J.SIAM J.Sci.Stat.Comput.,1984,5(3):735-743
2 LIANG Miao,CAI Jia-Yue,YANG Kai,SHU Ru-Xin,ZHAO Long-Lian,ZHANG Lu-Da,LI Jun-Hui.Chinese J.Anal. Chem.,2014,42(11):1687-1691
梁淼,蔡嘉月,楊凱,束茹欣,趙龍蓮,張錄達(dá),李軍會.分析化學(xué),2014,42(11):1687-1691
3 ZHANG Lu-Da,SU Shi-Guang,WANG Lai-Sheng,LI Jun-Hui,YANG Li-Ming.Spectroscopy and Spectral Analysis,2005,25(1):33-35
張錄達(dá),蘇時光,王來生,李軍會,楊麗明.光譜學(xué)與光譜分析,2005,25(1):33-35
4 Li Y K,Shao X G,Cai W S.Talanta,2007,72(1):217-222
5 LIN Hao,ZHAO Jie-Wen,CHEN Quan-Sheng,CAI Jian-Rong,ZHOU Ping.Spectroscopy and Spectral Analysis,2010,30(4):929-932
林顥,趙杰文,陳全勝,蔡健榮,周平.光譜學(xué)與光譜分析,2010,30(4):929-932
6 Shao X G,Bian X H,Liu J J,Zhang M,Cai W S.Anal.Methods,2010,2(11):1662-1666
7 Wold S,Antti H,Lindgren F,Ohman J.Chemom.Intell.Lab.Syst.,1998,44(1-2):175-185
8 Shao X G,Leung A K M,Chau F T.Acc.Chem.Res.,2003,36(4):276-283
9 Norgaard L,Saudland A,Wagner J,Wagner J,Nielsen J P,Munk L,Engelsen S B.Appl.Spectrosc.,2000,54(3):413-419
10 CentnerV,Massart D L,de Noord O E,de Jong S,Vandeginste M B,Sterna C.Anal.Chem.,1996,68(21):3851-3858
11 Cai W S,Li Y K,Shao X G.Chemom.Intell.Lab.Syst.,2008,90(2):188-194
12 Li H D,Liang Y Z,Xu Q S,Cao D S.Anal.Chim.Acta,2009,648(1):77-84
13 Araujo M C U,Saldanha T C B,Galvao R K H,Yoneyama T,Chame H C,VisaniV.Chemom.Intell.Lab.Syst.,2001,57(2):65-73
14 Xu H,Liu Z C,Cai W S,Shao X G.Chemom.Intell.Lab.Syst.,2009,97(1):189-193
15 Liang Y Z,Kvalheim O M.Chemom.Intell.Lab.Syst.,1996,32(1):1-10
16 Pierna J A F,Jin L,Daszykowski M,Wahl F,Massart D L.Chemom.Intell.Lab.Syst.,2003,68(1-2):17-28
17 Bian X H,Cai W S,Shao X G,Chen D,Grant E R.Analyst,2010,135(11):2841-2847
18 Pierna J A F,Wahl F,de Noord O E,Massart D L.Chemom.Intell.Lab.Syst.,2002,63(1):27-39
19 Walczak B,Massart D L.Chemom.Intell.Lab.Syst.,1998,41(1):1-15
20 Hubert M,Vanden Branden K.J.Chemom.,2003,17(10):537-549
21 Liu Z C,Cai W S,Shao X G.Sci.China Ser B-Chem.,2008,51(8):751-759
22 Liu Z C,Ma X,Wen Y D,Wang Y,Cai W S,Shao X G.Sci.China Ser B-Chem.,2009,52(7):1021-1027
23 Breunig M M,Kriegel H P,Ng R T,Sander J.Sigmod.Rec.,2000,29(2):93-104
24 Li W,Goovaerts P,Meurens M.J.Arg.Food Chem.,1996,44(8):2252-2259
This work was supported by the National Natural Science Foundation of China(No.21475068)and the Major Project of China National Tobacco Corporation(No.Ts-03-20110020).
Outlier Detection for Multivariate Calibration in Near Infrared Spectroscopic Analysis by Model Diagnostics
LI Zheng-Feng1,XU Guang-Jin1,WANG Jia-Jun1,DU Guo-Rong2,CAI Wen-Sheng2,SHAO Xue-Guang*2,31(R&D Center,China Tobacco Yunnan Industrial Co.Ltd.,Kunming 650231,China)
2(Research Center for Analytical Sciences,College of Chemistry,Nankai University,Tianjin 300071,China)
3(College of Chemistry and Environmental Science,Kashgar University,Kashgar 844000,China)
Outlier detection is an important task in multivariate calibration because the quality of a calibration model is determined by that of the calibration data.An outlier detection method is proposed for near infrared (NIR)spectral analysis.The method is based on the definition of outlier and the principle of partial least squares(PLS)regression,i.e.,an outlier in a dataset behaves differently from the rest,and the prediction result of a PLS model is an accumulation of several independent latent variables.Therefore,the proposed method builds a PLS model with a calibration dataset,and then the contribution of each latent variable is investigated.Outliers can be detected by comparing these contributions.An NIR spectral dataset of orange juice samples is adopted for testing the method.Six outliers are detected in the calibration set.The root mean squared error of cross validation(RMSECV)becomes to 4.809 from 16.870 and the root mean squared error of prediction(RMSEP)becomes to 3.332 from 3.688 after the removal of the outliers.Compared with a robust regression method,the result of the proposed method seems more reasonable.
Multivariate calibration;Outlier detection;Partial least squares;Near infrared spectroscopy;Quantitative analysis
11 October 2015;accepted 28 October 2015)
10.11895/j.issn.0253-3820.150793
2015-10-11收稿;2015-10-28接受
本文系國家自然科學(xué)基金項目(No.21475068)和中國煙草總公司重大專項課題(No.Ts-03-20110020)資助
*E-mail:xshao@nankai.edu.cn.