基于MC－UVE－VIP兩步波長(zhǎng)篩選實(shí)現(xiàn)近紅外光譜模型的無(wú)標(biāo)樣傳遞

2023-02-20 11:34:06張站鴿倪力軍張立國(guó)欒紹嶸

分析測(cè)試學(xué)報(bào) 2023年2期

張站鴿，倪力軍，張立國(guó)，欒紹嶸

（華東理工大學(xué) 化學(xué)與分子工程學(xué)院，上海 200237）

近紅外光譜（NIRs）技術(shù)是一種綠色、無(wú)損、快速的檢測(cè)方法。隨著化學(xué)計(jì)量學(xué)理論方法和計(jì)算機(jī)技術(shù)的快速發(fā)展，NIRs技術(shù)已被應(yīng)用于農(nóng)產(chǎn)品［1］、中藥［2］和煙草［3－4］等領(lǐng)域。該技術(shù)以樣品的近紅外光譜數(shù)據(jù)為自變量，樣品的待測(cè)性質(zhì)為因變量，利用多元分析方法建立定量或定性的NIRs分析模型，并對(duì)驗(yàn)證集樣品進(jìn)行預(yù)測(cè)。研究表明［5－9］，建立一個(gè)預(yù)測(cè)效果良好的模型未必需要所有的波長(zhǎng)信息，因此需對(duì)波長(zhǎng)進(jìn)行篩選。常見(jiàn)的波長(zhǎng)篩選方法有遺傳算法（GA）［10］、連續(xù)投影算法（SPA）［11］、無(wú)信息變量消除算法（UVE）［12］以及變量穩(wěn)定性競(jìng)爭(zhēng)自適應(yīng)重加權(quán)抽樣算法（SCARS）［13］等，但這些方法大都以單臺(tái)儀器上模型的預(yù)測(cè)誤差最小為目標(biāo)進(jìn)行優(yōu)化，建立的模型未必能在多臺(tái)儀器間共享。

本課題組基于不同儀器間光譜的差異提出的方差分析［5，14］和光譜比值分析［6］方法，通過(guò)篩選出主、從機(jī)間光譜信號(hào)一致且穩(wěn)定的波長(zhǎng)變量，在主機(jī)上建立的NIRs定量模型對(duì)從機(jī)玉米中主要成分和黃芩中黃芩苷的預(yù)測(cè)誤差比分段直接校正（PDS）［15］算法更小或接近。同時(shí)基于儀器間光譜響應(yīng)信號(hào)一致且穩(wěn)定的波長(zhǎng)，結(jié)合相關(guān)系數(shù)法、無(wú)變量信息消除［16］以及變量重要性投影［17］算法等波長(zhǎng)篩選方法，建立了煙葉中總植物堿的定量模型，該模型對(duì)從機(jī)樣品總植物堿含量的預(yù)測(cè)誤差滿(mǎn)足企業(yè)內(nèi)控要求［7］。文獻(xiàn)［18］也報(bào)道了基于主、從機(jī)間光譜信息的波長(zhǎng)篩選方法，該方法通過(guò)對(duì)主、從機(jī)光譜在不同波長(zhǎng)下進(jìn)行相關(guān)分析，篩選出主、從機(jī)間光譜信號(hào)響應(yīng)一致性好的波長(zhǎng)，基于這些波長(zhǎng)建立的定量模型對(duì)從機(jī)玉米樣品中主要成分的預(yù)測(cè)誤差與主機(jī)樣品預(yù)測(cè)誤差相當(dāng)。上述研究結(jié)果表明，基于主、從機(jī)間光譜信號(hào)并和不同波長(zhǎng)篩選方法結(jié)合可以建立穩(wěn)健的近紅外光譜模型，實(shí)現(xiàn)模型在多臺(tái)儀器間的直接共享。但這些方法在波長(zhǎng)篩選時(shí)仍需要用到若干從機(jī)樣品的光譜信息，不是嚴(yán)格意義上的無(wú)標(biāo)樣模型傳遞。

研究表明［19－21］，將不同波長(zhǎng)篩選算法結(jié)合的多步波長(zhǎng)篩選方法可充分利用各波長(zhǎng)篩選算法的優(yōu)點(diǎn)，基于其建立的NIRs模型的預(yù)測(cè)性能優(yōu)于單一算法所建模型。由于蒙特卡洛－無(wú)信息變量消除（MCUVE）算法可剔除無(wú)信息或信息量較少的波長(zhǎng)，變量重要性投影（VIP）算法可挑選對(duì)因變量解釋能力最強(qiáng)的波長(zhǎng)，因此本文將MC－UVE法與VIP算法結(jié)合篩選有信息的重要波長(zhǎng)來(lái)建立玉米中蛋白質(zhì)含量的近紅外光譜模型，并考察了其對(duì)從機(jī)樣品預(yù)測(cè)的準(zhǔn)確度，以期實(shí)現(xiàn)無(wú)標(biāo)樣模型傳遞。

1 算法與原理

1.1 MC－UVE算法原理

MC－UVE算法是基于蒙特卡洛（MC）和無(wú)變量信息消除（UVE）算法提出的一種變量選擇方法。該方法通過(guò)隨機(jī)選擇的校正集樣本建立大量的模型，然后根據(jù)相應(yīng)的回歸系數(shù)對(duì)每個(gè)變量的穩(wěn)定性進(jìn)行評(píng)估。穩(wěn)定性較差的變量被當(dāng)作無(wú)信息的變量，并予以剔除。變量的穩(wěn)定性公式如下：

式中，mean（bi）和std（bi）分別表示第i個(gè)波長(zhǎng)變量的平均值和標(biāo)準(zhǔn)方差；Si表示第i個(gè)變量的穩(wěn)定性。由公式可知bi的平均值越大、方差越小時(shí)，第i個(gè)變量就越穩(wěn)定。

1.2 VIP算法與原理

VIP算法是基于偏最小二乘回歸的一種變量篩選方法，它描述了自變量對(duì)因變量的解釋能力，并根據(jù)解釋能力的大小進(jìn)行波長(zhǎng)篩選。第j個(gè)變量的解釋能力（VIPj）大小根據(jù)公式（2）計(jì)算：

公式（2）中，k表示自變量數(shù)，ch表示相關(guān)自變量間提取出的第h個(gè)新變量（主成分），m表示主成分?jǐn)?shù)，r（y，ch）表示因變量與主成分間的相關(guān)系數(shù)，反映了主成分對(duì)因變量的解釋能力，Wij表示自變量在主成分上的權(quán)重。

1.3 技術(shù)路線(xiàn)

圖1為本文MC－UVE－VIP兩步波長(zhǎng)篩選的技術(shù)路線(xiàn)。首先用MC－UVE算法對(duì)全波長(zhǎng)集合U進(jìn)行波長(zhǎng)篩選，挑選出Si大于Mthreshold，u的波長(zhǎng)，得到有信息的波長(zhǎng)集合UUVE；然后采用VIP算法對(duì)波長(zhǎng)集合UUVE做進(jìn)一步波長(zhǎng)篩選，挑選出VIPj大于閾值Vthreshold，u（該閾值為UUVE中所有波長(zhǎng)下VIP值的均值）的波長(zhǎng)，得到波長(zhǎng)集合UUVE?VIP；采用VIP算法從全波長(zhǎng)中篩選VIPj大于閾值Vthreshold，w（該閾值為全部波長(zhǎng)下VIP值的均值）的重要波長(zhǎng)，得到波長(zhǎng)集合UVIP。分別以波長(zhǎng)集合UUVE?VIP、UUVE、UVIP建立預(yù)測(cè)玉米中蛋白質(zhì)含量的偏最小二乘回歸（PLSR）模型，簡(jiǎn)稱(chēng)MC－UVE－VIP模型、MC－UVE模型與VIP模型，比較各模型對(duì)主、從機(jī)樣品的預(yù)測(cè)均方根誤差（RMSEP）、平均相對(duì)誤差（MARE）及相關(guān)系數(shù)R，并與全波長(zhǎng)模型、文獻(xiàn)報(bào)道的其他模型的預(yù)測(cè)結(jié)果進(jìn)行比較。

圖1 建立NIRs模型的兩步波長(zhǎng)篩選方法技術(shù)路線(xiàn)圖Fig.1 Technical route to establish NIRS models by two-step wavelength selection method

2 實(shí)驗(yàn)部分

2.1 樣品數(shù)據(jù)集

本文采用的玉米近紅外數(shù)據(jù)來(lái)自http：//software.eigenvector.com/Data/Corn/index.html。該數(shù)據(jù)集由80個(gè)玉米樣品在3臺(tái)近紅外光譜儀M5、MP5、MP6上測(cè)試的近紅外光譜以及樣品的水分、油脂、蛋白質(zhì)和淀粉含量組成，近紅外光譜數(shù)據(jù)集的波長(zhǎng)范圍為1 100 ~ 2 498 nm，波長(zhǎng)間隔為2 nm，波長(zhǎng)總數(shù)為700個(gè)。玉米樣品在主機(jī)和兩臺(tái)從機(jī)上的原始近紅外平均光譜如圖2所示。

圖 2 玉米樣品在主機(jī)和兩臺(tái)從機(jī)上原始光譜的平均光譜Fig.2 Original average spectra of corn samples in master and two slaves

2.2 近紅外光譜定量模型的建立與評(píng)價(jià)

對(duì)玉米近紅外光譜數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)正態(tài)變換（SNV）結(jié)合一階導(dǎo)數(shù)（光滑點(diǎn)數(shù)為11）的處理，以消除背景漂移、減小光散射以及噪聲的影響。采用PLSR方法建立近紅外定量分析模型。本課題組前期的研究表明，PLS模型中的潛變量（LV）個(gè)數(shù)會(huì)對(duì)模型的預(yù)測(cè)性能產(chǎn)生很大的影響［22］，本文的LV數(shù)由累積貢獻(xiàn)率達(dá)到99.9%確定（表1）。以SPXY法［23］劃分樣品數(shù)據(jù)集，對(duì)于玉米數(shù)據(jù)，選擇前3/4（60個(gè)樣本）作為校正集，剩下1/4（20個(gè)樣本）作為驗(yàn)證集。由圖2可知，儀器M5上玉米樣品的平均光譜與MP5和MP6上的差異較大，而MP5和MP6兩臺(tái)儀器上的平均光譜差異較小。因此，本文選取M5作為主機(jī)M；MP5、MP6分別作為從機(jī)S1、S2。

以MARE對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià)，評(píng)價(jià)指標(biāo)的計(jì)算公式：

式中，m表示樣品數(shù)，yi，actual和yi，predicted分別表示第i個(gè)樣品的實(shí)際含量和預(yù)測(cè)含量。對(duì)于含量在1% ~ 100%范圍的物質(zhì)濃度檢測(cè)，一般認(rèn)為MARE小于5%是可以接受的。

偏最小二乘（PLS）在進(jìn)行回歸分析時(shí)，將前n個(gè)潛變量所代表的方差之和與所有潛變量方差之和的比值η稱(chēng)為累計(jì)貢獻(xiàn)率，計(jì)算公式如下：

式中，λi表示第i個(gè)潛變量的方差，p表示所有不為零的方差的潛變量數(shù)，p≤ min｛樣品數(shù)，波長(zhǎng)點(diǎn)數(shù)｝。被前n個(gè)潛變量接受的方差可根據(jù)累積貢獻(xiàn)率進(jìn)行判斷，潛變量的重要性可根據(jù)其能解釋的方差大小來(lái)判斷。隨著潛變量個(gè)數(shù)的增大，后面潛變量所能解釋的方差變小，意味著這些潛變量在不同樣本中變化不大，在模型中可以略去。

本文所有算法和畫(huà)圖操作均在Matlab R2020a上完成。

3 結(jié)果與討論

3.1 基于MC－UVE及VIP算法的兩步波長(zhǎng)篩選

首先利用MC－UVE算法進(jìn)行初篩。MCUVE算法的閾值太小，則弱信息變量無(wú)法剔除；閾值太大則會(huì)剔除掉有信息變量。因此，本文將MC－UVE算法的閾值設(shè)定為1 ~ 7，間隔為1，采用MC－UVE法在不同閾值下篩選出7個(gè)UUVE集合，并基于這7個(gè)波長(zhǎng)集合分別建立PLS模型，得到各閾值下的校正均方根誤差（RMSEC）（圖3）。由圖3可知，閾值為4時(shí)，對(duì)應(yīng)的RMSEC最小，故選定4作為MC－UVE算法的閾值Mthreshold。在此閾值下挑選出有信息的波長(zhǎng)變量集合UUVE，然后再在UUVE基礎(chǔ)上利用VIP算法作進(jìn)一步的波長(zhǎng)篩選，得到有信息的重要波長(zhǎng)集合UUVE?VIP；同時(shí)利用VIP算法對(duì)全波長(zhǎng)進(jìn)行篩選，得到重要波長(zhǎng)變量集合UVIP。波長(zhǎng)集合UUVE、UVIP、UUVE?VIP在全波長(zhǎng)的分布如圖4所示。由該圖可知，UUVE?VIP中的波長(zhǎng)點(diǎn)只有143個(gè)，約為UUVE的三分之一、UVIP的二分之一。UUVE?VIP中1 980、2 048、2 054、2 056、2 060、2 160、2 470 nm處為蛋白質(zhì)的近紅外光譜特征吸收峰位置［24］。

圖3 不同Mthreshold閾值下的RMSECFig.3 RMSEC under different thresholds of Mthreshold

圖4 主儀器樣本光譜的平均SNV+一階導(dǎo)數(shù)光譜Fig.4 Average spectra of primary samples after SNV plus first derivation pretreatment

3.2 不同波長(zhǎng)篩選方法所建模型對(duì)玉米中蛋白質(zhì)含量的預(yù)測(cè)結(jié)果

潛變量個(gè)數(shù)對(duì)PLSR定量模型的預(yù)測(cè)性能有很大影響［9］。因此，本文比較了分別基于累計(jì)貢獻(xiàn)率達(dá)到99.9%準(zhǔn)則（ACR）和留一交叉驗(yàn)證（LOOCV）確定的潛變量數(shù)（LV）所建立的全波長(zhǎng)模型的預(yù)測(cè)結(jié)果，如表1所示。由表可知，雖然基于LOOCV建立的模型預(yù)測(cè)主機(jī)樣品的MARE比基于A(yíng)CR所建模型小，但該模型傳遞到從機(jī)后的MARE比ACR模型的對(duì)應(yīng)指標(biāo)高，尤其是對(duì)S2儀器樣品的預(yù)測(cè)誤差是ACR模型的2倍。而LOOCV的潛變量數(shù)是ACR的幾倍，易導(dǎo)致基于LOOCV建立的模型過(guò)擬合。因此，本文根據(jù)累積貢獻(xiàn)率達(dá)到99.9%確定潛變量數(shù)。

表1 基于不同的潛變量確定方法所建全波長(zhǎng)模型的蛋白質(zhì)預(yù)測(cè)結(jié)果Table 1 Protein prediction results of whole wavelength calibration model based on latent variables selected by different methods

表2給出了分別基于波長(zhǎng)集合UUVE、UVIP、UUVE?VIP和全波長(zhǎng)建立的PLS模型預(yù)測(cè)主、從機(jī)樣品蛋白質(zhì)含量的結(jié)果，表中還列出了PDS方法對(duì)從機(jī)樣品的預(yù)測(cè)結(jié)果以及文獻(xiàn)［5］報(bào)道的蛋白質(zhì)含量預(yù)測(cè)結(jié)果。在本文所建模型中，全波長(zhǎng)模型預(yù)測(cè)主機(jī)樣品蛋白質(zhì)含量的MARE小于其它模型。但全波長(zhǎng)模型轉(zhuǎn)移到從機(jī)后，預(yù)測(cè)從機(jī)樣品蛋白質(zhì)含量的MARE均大于5%，且約是主機(jī)樣品預(yù)測(cè)誤差的6倍，即全波長(zhǎng)模型對(duì)從機(jī)樣品的預(yù)測(cè)誤差偏大。MC－UVE－VIP模型預(yù)測(cè)從機(jī)樣品蛋白質(zhì)含量的MARE為1.64% ~ 1.88%，小于全波長(zhǎng)模型的6.05%、也小于MC－UVE模型與VIP模型的5.19% ~ 7.16%，但略大于PDS的1.41% ~ 1.47%和SWCSS［5］模型的1.41% ~ 1.79%。由于MCUVE－VIP完全基于主機(jī)樣本篩選波長(zhǎng)，無(wú)需從機(jī)樣本的光譜信息［5］，模型傳遞到從機(jī)時(shí)不需像PDS方法那樣根據(jù)轉(zhuǎn)移集樣本的光譜及蛋白質(zhì)含量信息校正從機(jī)樣本的預(yù)測(cè)結(jié)果，也不需像SWCSS方法那樣采用若干主、從機(jī)光譜信息，其預(yù)測(cè)從機(jī)樣本的誤差雖然略高于PDS和SWCSS方法，但其建模及模型傳遞過(guò)程比這兩種方法簡(jiǎn)單、易行。

由表2可知，MC－UVE－VIP模型的變量（波長(zhǎng)）個(gè)數(shù)顯著小于全波長(zhǎng)模型，也比單一MCUVE和VIP方法的變量少，這使得該模型的運(yùn)算效率及解釋能力得到顯著提升?；贛C－UVE和VIP結(jié)合算法的兩步篩選方法，能夠篩選出有信息的重要波長(zhǎng)，使得基于這些波長(zhǎng)建立的玉米蛋白質(zhì)模型具有更好的穩(wěn)健性，故模型對(duì)于主、從機(jī)樣本蛋白質(zhì)含量的預(yù)測(cè)誤差均處于可接受水平。

表2 不同近紅外模型對(duì)蛋白質(zhì)含量的預(yù)測(cè)結(jié)果比較Table 2 Protein prediction results of different NIRs calibration models

4 結(jié) 論

兩步波長(zhǎng)篩選方法MC－UVE－VIP能夠根據(jù)主機(jī)樣本光譜篩選有信息的重要波長(zhǎng)變量，無(wú)需從機(jī)光譜信息?；谠摲椒êY選出的波長(zhǎng)所建立的玉米蛋白質(zhì)近紅外光譜定量預(yù)測(cè)模型可以直接傳遞到從機(jī)，模型對(duì)主、從機(jī)樣品蛋白質(zhì)含量預(yù)測(cè)的MARE均小于5%，實(shí)現(xiàn)了玉米樣品中蛋白質(zhì)含量近紅外光譜模型的無(wú)標(biāo)樣轉(zhuǎn)移。該模型的穩(wěn)健性、傳遞效果及精簡(jiǎn)程度均優(yōu)于全波長(zhǎng)模型以及一步波長(zhǎng)篩選法MC－UVE和VIP建立的模型。MC－UVE－VIP兩步波長(zhǎng)篩選方法對(duì)于其他數(shù)據(jù)的適應(yīng)性有待進(jìn)一步研究。

（續(xù)表2）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡