張站鴿,倪力軍,張立國(guó),欒紹嶸
(華東理工大學(xué) 化學(xué)與分子工程學(xué)院,上海 200237)
近紅外光譜(NIRs)技術(shù)是一種綠色、無(wú)損、快速的檢測(cè)方法。隨著化學(xué)計(jì)量學(xué)理論方法和計(jì)算機(jī)技術(shù)的快速發(fā)展,NIRs技術(shù)已被應(yīng)用于農(nóng)產(chǎn)品[1]、中藥[2]和煙草[3-4]等領(lǐng)域。該技術(shù)以樣品的近紅外光譜數(shù)據(jù)為自變量,樣品的待測(cè)性質(zhì)為因變量,利用多元分析方法建立定量或定性的NIRs分析模型,并對(duì)驗(yàn)證集樣品進(jìn)行預(yù)測(cè)。研究表明[5-9],建立一個(gè)預(yù)測(cè)效果良好的模型未必需要所有的波長(zhǎng)信息,因此需對(duì)波長(zhǎng)進(jìn)行篩選。常見(jiàn)的波長(zhǎng)篩選方法有遺傳算法(GA)[10]、連續(xù)投影算法(SPA)[11]、無(wú)信息變量消除算法(UVE)[12]以及變量穩(wěn)定性競(jìng)爭(zhēng)自適應(yīng)重加權(quán)抽樣算法(SCARS)[13]等,但這些方法大都以單臺(tái)儀器上模型的預(yù)測(cè)誤差最小為目標(biāo)進(jìn)行優(yōu)化,建立的模型未必能在多臺(tái)儀器間共享。
本課題組基于不同儀器間光譜的差異提出的方差分析[5,14]和光譜比值分析[6]方法,通過(guò)篩選出主、從機(jī)間光譜信號(hào)一致且穩(wěn)定的波長(zhǎng)變量,在主機(jī)上建立的NIRs定量模型對(duì)從機(jī)玉米中主要成分和黃芩中黃芩苷的預(yù)測(cè)誤差比分段直接校正(PDS)[15]算法更小或接近。同時(shí)基于儀器間光譜響應(yīng)信號(hào)一致且穩(wěn)定的波長(zhǎng),結(jié)合相關(guān)系數(shù)法、無(wú)變量信息消除[16]以及變量重要性投影[17]算法等波長(zhǎng)篩選方法,建立了煙葉中總植物堿的定量模型,該模型對(duì)從機(jī)樣品總植物堿含量的預(yù)測(cè)誤差滿(mǎn)足企業(yè)內(nèi)控要求[7]。文獻(xiàn)[18]也報(bào)道了基于主、從機(jī)間光譜信息的波長(zhǎng)篩選方法,該方法通過(guò)對(duì)主、從機(jī)光譜在不同波長(zhǎng)下進(jìn)行相關(guān)分析,篩選出主、從機(jī)間光譜信號(hào)響應(yīng)一致性好的波長(zhǎng),基于這些波長(zhǎng)建立的定量模型對(duì)從機(jī)玉米樣品中主要成分的預(yù)測(cè)誤差與主機(jī)樣品預(yù)測(cè)誤差相當(dāng)。上述研究結(jié)果表明,基于主、從機(jī)間光譜信號(hào)并和不同波長(zhǎng)篩選方法結(jié)合可以建立穩(wěn)健的近紅外光譜模型,實(shí)現(xiàn)模型在多臺(tái)儀器間的直接共享。但這些方法在波長(zhǎng)篩選時(shí)仍需要用到若干從機(jī)樣品的光譜信息,不是嚴(yán)格意義上的無(wú)標(biāo)樣模型傳遞。
研究表明[19-21],將不同波長(zhǎng)篩選算法結(jié)合的多步波長(zhǎng)篩選方法可充分利用各波長(zhǎng)篩選算法的優(yōu)點(diǎn),基于其建立的NIRs模型的預(yù)測(cè)性能優(yōu)于單一算法所建模型。由于蒙特卡洛-無(wú)信息變量消除(MCUVE)算法可剔除無(wú)信息或信息量較少的波長(zhǎng),變量重要性投影(VIP)算法可挑選對(duì)因變量解釋能力最強(qiáng)的波長(zhǎng),因此本文將MC-UVE法與VIP算法結(jié)合篩選有信息的重要波長(zhǎng)來(lái)建立玉米中蛋白質(zhì)含量的近紅外光譜模型,并考察了其對(duì)從機(jī)樣品預(yù)測(cè)的準(zhǔn)確度,以期實(shí)現(xiàn)無(wú)標(biāo)樣模型傳遞。
MC-UVE算法是基于蒙特卡洛(MC)和無(wú)變量信息消除(UVE)算法提出的一種變量選擇方法。該方法通過(guò)隨機(jī)選擇的校正集樣本建立大量的模型,然后根據(jù)相應(yīng)的回歸系數(shù)對(duì)每個(gè)變量的穩(wěn)定性進(jìn)行評(píng)估。穩(wěn)定性較差的變量被當(dāng)作無(wú)信息的變量,并予以剔除。變量的穩(wěn)定性公式如下:
式中,mean(bi)和std(bi)分別表示第i個(gè)波長(zhǎng)變量的平均值和標(biāo)準(zhǔn)方差;Si表示第i個(gè)變量的穩(wěn)定性。由公式可知bi的平均值越大、方差越小時(shí),第i個(gè)變量就越穩(wěn)定。
VIP算法是基于偏最小二乘回歸的一種變量篩選方法,它描述了自變量對(duì)因變量的解釋能力,并根據(jù)解釋能力的大小進(jìn)行波長(zhǎng)篩選。第j個(gè)變量的解釋能力(VIPj)大小根據(jù)公式(2)計(jì)算:
公式(2)中,k表示自變量數(shù),ch表示相關(guān)自變量間提取出的第h個(gè)新變量(主成分),m表示主成分?jǐn)?shù),r(y,ch)表示因變量與主成分間的相關(guān)系數(shù),反映了主成分對(duì)因變量的解釋能力,Wij表示自變量在主成分上的權(quán)重。
圖1為本文MC-UVE-VIP兩步波長(zhǎng)篩選的技術(shù)路線(xiàn)。首先用MC-UVE算法對(duì)全波長(zhǎng)集合U進(jìn)行波長(zhǎng)篩選,挑選出Si大于Mthreshold,u的波長(zhǎng),得到有信息的波長(zhǎng)集合UUVE;然后采用VIP算法對(duì)波長(zhǎng)集合UUVE做進(jìn)一步波長(zhǎng)篩選,挑選出VIPj大于閾值Vthreshold,u(該閾值為UUVE中所有波長(zhǎng)下VIP值的均值)的波長(zhǎng),得到波長(zhǎng)集合UUVE?VIP;采用VIP算法從全波長(zhǎng)中篩選VIPj大于閾值Vthreshold,w(該閾值為全部波長(zhǎng)下VIP值的均值)的重要波長(zhǎng),得到波長(zhǎng)集合UVIP。分別以波長(zhǎng)集合UUVE?VIP、UUVE、UVIP建立預(yù)測(cè)玉米中蛋白質(zhì)含量的偏最小二乘回歸(PLSR)模型,簡(jiǎn)稱(chēng)MC-UVE-VIP模型、MC-UVE模型與VIP模型,比較各模型對(duì)主、從機(jī)樣品的預(yù)測(cè)均方根誤差(RMSEP)、平均相對(duì)誤差(MARE)及相關(guān)系數(shù)R,并與全波長(zhǎng)模型、文獻(xiàn)報(bào)道的其他模型的預(yù)測(cè)結(jié)果進(jìn)行比較。
圖1 建立NIRs模型的兩步波長(zhǎng)篩選方法技術(shù)路線(xiàn)圖Fig.1 Technical route to establish NIRS models by two-step wavelength selection method
本文采用的玉米近紅外數(shù)據(jù)來(lái)自http://software.eigenvector.com/Data/Corn/index.html。該數(shù)據(jù)集由80個(gè)玉米樣品在3臺(tái)近紅外光譜儀M5、MP5、MP6上測(cè)試的近紅外光譜以及樣品的水分、油脂、蛋白質(zhì)和淀粉含量組成,近紅外光譜數(shù)據(jù)集的波長(zhǎng)范圍為1 100 ~ 2 498 nm,波長(zhǎng)間隔為2 nm,波長(zhǎng)總數(shù)為700個(gè)。玉米樣品在主機(jī)和兩臺(tái)從機(jī)上的原始近紅外平均光譜如圖2所示。
圖 2 玉米樣品在主機(jī)和兩臺(tái)從機(jī)上原始光譜的平均光譜Fig.2 Original average spectra of corn samples in master and two slaves
對(duì)玉米近紅外光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變換(SNV)結(jié)合一階導(dǎo)數(shù)(光滑點(diǎn)數(shù)為11)的處理,以消除背景漂移、減小光散射以及噪聲的影響。采用PLSR方法建立近紅外定量分析模型。本課題組前期的研究表明,PLS模型中的潛變量(LV)個(gè)數(shù)會(huì)對(duì)模型的預(yù)測(cè)性能產(chǎn)生很大的影響[22],本文的LV數(shù)由累積貢獻(xiàn)率達(dá)到99.9%確定(表1)。以SPXY法[23]劃分樣品數(shù)據(jù)集,對(duì)于玉米數(shù)據(jù),選擇前3/4(60個(gè)樣本)作為校正集,剩下1/4(20個(gè)樣本)作為驗(yàn)證集。由圖2可知,儀器M5上玉米樣品的平均光譜與MP5和MP6上的差異較大,而MP5和MP6兩臺(tái)儀器上的平均光譜差異較小。因此,本文選取M5作為主機(jī)M;MP5、MP6分別作為從機(jī)S1、S2。
以MARE對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)的計(jì)算公式:
式中,m表示樣品數(shù),yi,actual和yi,predicted分別表示第i個(gè)樣品的實(shí)際含量和預(yù)測(cè)含量。對(duì)于含量在1% ~ 100%范圍的物質(zhì)濃度檢測(cè),一般認(rèn)為MARE小于5%是可以接受的。
偏最小二乘(PLS)在進(jìn)行回歸分析時(shí),將前n個(gè)潛變量所代表的方差之和與所有潛變量方差之和的比值η稱(chēng)為累計(jì)貢獻(xiàn)率,計(jì)算公式如下:
式中,λi表示第i個(gè)潛變量的方差,p表示所有不為零的方差的潛變量數(shù),p≤ min{樣品數(shù),波長(zhǎng)點(diǎn)數(shù)}。被前n個(gè)潛變量接受的方差可根據(jù)累積貢獻(xiàn)率進(jìn)行判斷,潛變量的重要性可根據(jù)其能解釋的方差大小來(lái)判斷。隨著潛變量個(gè)數(shù)的增大,后面潛變量所能解釋的方差變小,意味著這些潛變量在不同樣本中變化不大,在模型中可以略去。
本文所有算法和畫(huà)圖操作均在Matlab R2020a上完成。
首先利用MC-UVE算法進(jìn)行初篩。MCUVE算法的閾值太小,則弱信息變量無(wú)法剔除;閾值太大則會(huì)剔除掉有信息變量。因此,本文將MC-UVE算法的閾值設(shè)定為1 ~ 7,間隔為1,采用MC-UVE法在不同閾值下篩選出7個(gè)UUVE集合,并基于這7個(gè)波長(zhǎng)集合分別建立PLS模型,得到各閾值下的校正均方根誤差(RMSEC)(圖3)。由圖3可知,閾值為4時(shí),對(duì)應(yīng)的RMSEC最小,故選定4作為MC-UVE算法的閾值Mthreshold。在此閾值下挑選出有信息的波長(zhǎng)變量集合UUVE,然后再在UUVE基礎(chǔ)上利用VIP算法作進(jìn)一步的波長(zhǎng)篩選,得到有信息的重要波長(zhǎng)集合UUVE?VIP;同時(shí)利用VIP算法對(duì)全波長(zhǎng)進(jìn)行篩選,得到重要波長(zhǎng)變量集合UVIP。波長(zhǎng)集合UUVE、UVIP、UUVE?VIP在全波長(zhǎng)的分布如圖4所示。由該圖可知,UUVE?VIP中的波長(zhǎng)點(diǎn)只有143個(gè),約為UUVE的三分之一、UVIP的二分之一。UUVE?VIP中1 980、2 048、2 054、2 056、2 060、2 160、2 470 nm處為蛋白質(zhì)的近紅外光譜特征吸收峰位置[24]。
圖3 不同Mthreshold閾值下的RMSECFig.3 RMSEC under different thresholds of Mthreshold
圖4 主儀器樣本光譜的平均SNV+一階導(dǎo)數(shù)光譜Fig.4 Average spectra of primary samples after SNV plus first derivation pretreatment
潛變量個(gè)數(shù)對(duì)PLSR定量模型的預(yù)測(cè)性能有很大影響[9]。因此,本文比較了分別基于累計(jì)貢獻(xiàn)率達(dá)到99.9%準(zhǔn)則(ACR)和留一交叉驗(yàn)證(LOOCV)確定的潛變量數(shù)(LV)所建立的全波長(zhǎng)模型的預(yù)測(cè)結(jié)果,如表1所示。由表可知,雖然基于LOOCV建立的模型預(yù)測(cè)主機(jī)樣品的MARE比基于A(yíng)CR所建模型小,但該模型傳遞到從機(jī)后的MARE比ACR模型的對(duì)應(yīng)指標(biāo)高,尤其是對(duì)S2儀器樣品的預(yù)測(cè)誤差是ACR模型的2倍。而LOOCV的潛變量數(shù)是ACR的幾倍,易導(dǎo)致基于LOOCV建立的模型過(guò)擬合。因此,本文根據(jù)累積貢獻(xiàn)率達(dá)到99.9%確定潛變量數(shù)。
表1 基于不同的潛變量確定方法所建全波長(zhǎng)模型的蛋白質(zhì)預(yù)測(cè)結(jié)果Table 1 Protein prediction results of whole wavelength calibration model based on latent variables selected by different methods
表2給出了分別基于波長(zhǎng)集合UUVE、UVIP、UUVE?VIP和全波長(zhǎng)建立的PLS模型預(yù)測(cè)主、從機(jī)樣品蛋白質(zhì)含量的結(jié)果,表中還列出了PDS方法對(duì)從機(jī)樣品的預(yù)測(cè)結(jié)果以及文獻(xiàn)[5]報(bào)道的蛋白質(zhì)含量預(yù)測(cè)結(jié)果。在本文所建模型中,全波長(zhǎng)模型預(yù)測(cè)主機(jī)樣品蛋白質(zhì)含量的MARE小于其它模型。但全波長(zhǎng)模型轉(zhuǎn)移到從機(jī)后,預(yù)測(cè)從機(jī)樣品蛋白質(zhì)含量的MARE均大于5%,且約是主機(jī)樣品預(yù)測(cè)誤差的6倍,即全波長(zhǎng)模型對(duì)從機(jī)樣品的預(yù)測(cè)誤差偏大。MC-UVE-VIP模型預(yù)測(cè)從機(jī)樣品蛋白質(zhì)含量的MARE為1.64% ~ 1.88%,小于全波長(zhǎng)模型的6.05%、也小于MC-UVE模型與VIP模型的5.19% ~ 7.16%,但略大于PDS的1.41% ~ 1.47%和SWCSS[5]模 型 的1.41% ~ 1.79%。由 于MCUVE-VIP完全基于主機(jī)樣本篩選波長(zhǎng),無(wú)需從機(jī)樣本的光譜信息[5],模型傳遞到從機(jī)時(shí)不需像PDS方法那樣根據(jù)轉(zhuǎn)移集樣本的光譜及蛋白質(zhì)含量信息校正從機(jī)樣本的預(yù)測(cè)結(jié)果,也不需像SWCSS方法那樣采用若干主、從機(jī)光譜信息,其預(yù)測(cè)從機(jī)樣本的誤差雖然略高于PDS和SWCSS方法,但其建模及模型傳遞過(guò)程比這兩種方法簡(jiǎn)單、易行。
由表2可知,MC-UVE-VIP模型的變量(波長(zhǎng))個(gè)數(shù)顯著小于全波長(zhǎng)模型,也比單一MCUVE和VIP方法的變量少,這使得該模型的運(yùn)算效率及解釋能力得到顯著提升?;贛C-UVE和VIP結(jié)合算法的兩步篩選方法,能夠篩選出有信息的重要波長(zhǎng),使得基于這些波長(zhǎng)建立的玉米蛋白質(zhì)模型具有更好的穩(wěn)健性,故模型對(duì)于主、從機(jī)樣本蛋白質(zhì)含量的預(yù)測(cè)誤差均處于可接受水平。
表2 不同近紅外模型對(duì)蛋白質(zhì)含量的預(yù)測(cè)結(jié)果比較Table 2 Protein prediction results of different NIRs calibration models
兩步波長(zhǎng)篩選方法MC-UVE-VIP能夠根據(jù)主機(jī)樣本光譜篩選有信息的重要波長(zhǎng)變量,無(wú)需從機(jī)光譜信息?;谠摲椒êY選出的波長(zhǎng)所建立的玉米蛋白質(zhì)近紅外光譜定量預(yù)測(cè)模型可以直接傳遞到從機(jī),模型對(duì)主、從機(jī)樣品蛋白質(zhì)含量預(yù)測(cè)的MARE均小于5%,實(shí)現(xiàn)了玉米樣品中蛋白質(zhì)含量近紅外光譜模型的無(wú)標(biāo)樣轉(zhuǎn)移。該模型的穩(wěn)健性、傳遞效果及精簡(jiǎn)程度均優(yōu)于全波長(zhǎng)模型以及一步波長(zhǎng)篩選法MC-UVE和VIP建立的模型。MC-UVE-VIP兩步波長(zhǎng)篩選方法對(duì)于其他數(shù)據(jù)的適應(yīng)性有待進(jìn)一步研究。
(續(xù)表2)